Ein neuer Forschungsbericht von Apple zeigt, wie große Sprachmodelle (LLMs) helfen könnten, Alltagsaktivitäten präziser zu erkennen.
In der Studie „Using LLMs for Late Multimodal Sensor Fusion for Activity Recognition“ beschreibt Apple, wie LLMs anhand beschreibender Texte aus Audio- und Bewegungsdaten erkennen, was Nutzer gerade tun. Die Besonderheit: Die Modelle erhalten keine Rohdaten wie Tonaufnahmen oder Bewegungskurven, sondern textbasierte Zusammenfassungen von kleineren Vorabmodellen. Diese liefern Beschreibungen etwa zu akustischen Eindrücken oder den Bewegungsdaten eines Gyrosensors.
Zielsicher auch ohne Vorwissen
Daraus leitet das LLM dann z. B. ab, ob jemand kocht, liest oder Sport macht. Getestet wurde das Verfahren mit Hilfe des Ego4D-Datensatzes, der Alltagsszenen aus der Egoperspektive enthält. Zwölf typische Aktivitäten wie Staubsaugen, Geschirrspülen oder Basketballspielen wurden ausgewählt. Die LLMs konnten diese Aufgaben überraschend gut erkennen – selbst ohne spezielles Training oder mit nur einem einzigen Beispiel (One-Shot-Learning).

Apple sieht großes Potenzial in der Kombination aus verschiedenen Modellen – gerade bei Gesundheits- und Aktivitätsdaten. So könnten etwa Smartwatches künftig präziser erkennen, was Nutzer:innen gerade tun, auch wenn das Gerät nicht alle Sensoren aktiv nutzt. Besonders spannend: Die Forschung kommt ohne größere Rechen- oder Speicherkapazitäten aus und wäre damit auch auf mobilen Geräten umsetzbar.
Offene Daten für andere Forscher
Damit andere Forschende die Ergebnisse nachvollziehen können, hat Apple zusätzlich Segment-IDs, Zeitstempel und Beispiele aus dem Datensatz veröffentlicht. Das unterstreicht, dass Apple zunehmend öffentlich mit wissenschaftlicher Forschung auftritt – und den Weg für zukünftige Produktfeatures bereits vorbereitet.
Hinweis: Artikel enthält Affiliate-Links. Was ist das? Foto: Apple
