
Photo : VCG
Le modèle de monde incarné WoW, développé par le Centre d'innovation pour les robots humanoïdes de Beijing, s'est récemment classé premier sur la plateforme d'évaluation WorldArena Challenge Track 2 (Data Engine). Lors de cette compétition mondiale d'IA en conditions réelles, évaluée par des universités de premier plan international, ce « cerveau de robot » de Beijing E-Town a atteint un niveau de pointe dans la capacité fondamentale à « comprendre le monde physique réel et à générer des données ».
WorldArena est une plateforme de référence unifiée et complète, lancée conjointement par l'Université Tsinghua, l'Université de Beijing, l'Université de Jiao Tong de Shanghai, l'Université de Princeton et d'autres, pour évaluer la perception et l'utilité fonctionnelle des modèles de monde incarné. Dans le cadre du défi WorldArena, la piste Track 2 (Data Engine) mesure principalement si les données synthétiques générées par le modèle améliorent réellement l'entraînement des stratégies robotiques en aval.
Le modèle de monde incarné WoW fournit aux robots un « cerveau » capable de comprendre et de prédire les lois physiques. Il peut simuler les lois du monde physique réel, générer de manière autonome des données d'interaction de haute qualité et logiques, résolvant ainsi le problème de la rareté des données dans le secteur de l'intelligence incarnée. Le modèle ayant obtenu la première place est le WoW 1.3B, le plus petit de la série WoW. Ce « modèle léger » surpasse de nombreux modèles vidéo généraux et modèles incarnés spécialisés de plus grande taille.
Sur le plan technique, le modèle WoW réalise trois avancées majeures : il possède une capacité de génération digne d'un moteur physique, apprenant les trajectoires d'interaction des robots et prévoyant avec précision les scénarios futurs ; grâce à son paradigme réflexif innovant SOPHIA, il crée une boucle de données « auto-évolutive » capable de générer des millions de données d'interaction de haute qualité à partir de quelques trajectoires réelles ; il réalise un raisonnement en boucle fermée « de l'image à l'action », équipant les algorithmes de « mains » qui touchent le monde réel. Les données générées par WoW, utilisées pour piloter des robots dans des tâches de préhension, de dépose et des missions à longue séquence, surpassent nettement les modèles de base nationaux et internationaux les plus avancés.
Source : ETOWN TIMES