Apple-Studie: Roboter sollen durch Vision Pro-Videos lernen

Apple-Forscher haben gemeinsam mit MIT, Carnegie Mellon und anderen Universitäten eine neue Methode entwickelt, um humanoide Roboter zu trainieren.

In ihrer Studie „Humanoid Policy ∼ Human Policy“ nutzen sie Ego-Perspektive-Videos von Menschen, die mit der Apple Vision Pro aufgenommen werden. Die Idee: Roboter sollen durch das Beobachten menschlicher Handlungen lernen, anstatt nur durch teure und zeitaufwändige Roboter-Demonstrationen.

25.000 menschliche Demos als Trainingsmaterial

Das Forschungsteam sammelte über 25.000 menschliche und 1.500 Roboter-Demonstrationen für ihren Datensatz. Dabei entwickelten sie eine Vision Pro-App, die Videos über die untere linke Kamera aufzeichnet und mit ARKit die 3D-Bewegungen von Kopf und Händen verfolgt. Für kostengünstigere Alternativen testeten sie auch 3D-gedruckte Halterungen für andere VR-Headsets wie die Meta Quest 3.

New Apple study teaches robots how to act by watching first-person videos of humanshttps://t.co/jJg2IMJcWF

— All Apple, Always | News, Reviews, Guides (@iPhone_News) May 21, 2025

HAT-Modell vereint Menschen- und Roboter-Lernen

Das Herzstück der Studie ist der „Human Action Transformer“ (HAT), ein KI-Modell, das sowohl aus menschlichen als auch Roboter-Demonstrationen lernt. Da Menschen etwa viermal schneller agieren als Roboter, verlangsamten die Forscher die menschlichen Videos entsprechend.

Diese gemeinsame Trainingsmethode erwies sich als flexibler und dateneffizienter als traditionelle Ansätze und ermöglichte es den Robotern, auch unbekannte Aufgaben erfolgreich zu bewältigen.

In diesem Artikel sind Partner-Links enthalten. Durch einen Klick darauf gelangt ihr direkt zum Anbieter. Solltet Ihr Euch für einen Kauf entscheiden, erhalten wir eine kleine Provision. Für Euch ändert sich am Preis nichts. Danke für Eure Unterstützung. KI-Foto: Jörg Heinrich/iTopnews