Apple hat mit FastVLM ein eigenes visuelles Sprachmodell vorgestellt, das Videos nahezu in Echtzeit beschreiben kann.
Und jetzt gibt es erstmals eine Demo direkt im Browser. Voraussetzung: ein Mac mit Apple Silicon. FastVLM nutzt Apples hauseigenes ML-Framework MLX, das für Apple-Chips entwickelt wurde. Ergebnis: bis zu 85-mal schnelleres Video-Untertitel bei deutlich kleinerem Speicherbedarf als vergleichbare Modelle. Die aktuelle Browser-Version läuft über Hugging Face und setzt auf die abgespeckte Variante FastVLM-0.5B.
Detaillierte Videobeschreibungen
Nach dem Laden – auf einem M2 Pro dauert das etwa zwei Minuten – legt das Modell sofort los und beschreibt präzise Personen, Hintergründe, Objekte oder sogar Emotionen. Über ein Eingabefeld lassen sich Prompts wie „Welche Farbe hat mein Shirt?“ oder „Was halte ich in der Hand?“ ausprobieren.

Das Besondere: Alle Daten bleiben lokal auf dem Gerät, die Demo funktioniert sogar offline. Genau das macht die Technologie spannend für Wearables und Assistenzsysteme, bei denen Geschwindigkeit und Datenschutz entscheidend sind.
Mehr Genauigkeit auch noch möglich
Neben der 0,5-Milliarden-Version existieren auch größere Varianten mit bis zu 7 Milliarden Parametern. Diese versprechen noch mehr Genauigkeit – auch wenn sie wohl nicht mehr im Browser laufen werden.
- alle Deals bei Amazon
- Amazon Prime 30 Tage gratis testen
- Amazon Music Unlimited mit Rabatt
- Kindle Unlimited bis zu 3 Monate gratis
In diesem Artikel sind Partner-Links enthalten. Durch einen Klick darauf gelangt ihr direkt zum Anbieter. Solltet Ihr Euch für einen Kauf entscheiden, erhalten wir eine kleine Provision. Für Euch ändert sich am Preis nichts. Danke für Eure Unterstützung. KI-Foto: iTopnews
