Xpeng lance le modèle mondial X-Mind pour la conduite autonome

Xpeng a publié X-Mind, un cadre intégrant des capacités de modèle mondial prédictif dans les systèmes de conduite autonome pour permettre aux véhicules de simuler des changements environnementaux à court terme avant de s’engager dans une action. Présenté lors de l’atelier Foundation Model de la conférence sur la vision par ordinateur et la reconnaissance de formes à Denver ce mois-ci, il complète le programme de recherche en IA physique à trois piliers que Xpeng a mis en place aux côtés de X-World et X-Foresight.

La conduite autonome conventionnelle fonctionne sur une boucle réactive de perception à action, traitant les entrées visuelles immédiates sans modéliser l’évolution de l’environnement. X-Mind introduit une chaîne de pensée visuelle qui exécute une simulation spatio-temporelle à l’intérieur du système avant qu’une action ne soit générée, permettant aux véhicules d’anticiper les conditions de circulation plutôt que de simplement y répondre.

Le module Thought Sketch du framework compresse 12 futures images projetées en 96 jetons à l’aide d’un encodeur automatique à compression profonde, conservant la topologie de la route, l’état des feux de circulation et l’intention de navigation tout en supprimant les données de texture non pertinentes pour la planification. Un mécanisme de diffusion de blocs récurrents génère ensuite de futurs déploiements en un seul passage, obtenant ainsi une qualité d’image nettement supérieure à celle du débruitage en une seule étape avec une latence d’inférence comparable.

Lors de tests comparatifs, X-Mind a réduit les erreurs de déplacement latéral et longitudinal par rapport aux modèles vision-langage-action conventionnels, avec des gains concentrés dans des scénarios complexes à longue traîne où la sécurité et le respect du trafic sont les plus critiques. La latence d’inférence est décrite comme compatible avec le matériel de qualité automobile sous contraintes de ressources – un seuil de déploiement que les approches de reconstruction 3D plus lourdes n’ont pas atteint.

X-Mind, X-World et X-Foresight constituent ensemble la lignée du modèle fondamental d’IA physique de Xpeng, couvrant le raisonnement proactif, la génération contrôlable et les prévisions à long terme. Xpeng a indiqué que l’architecture est étendue au-delà de la conduite autonome vers des applications d’intelligence embarquée.

Source : Xpeng