Xpeng et l’Université de Pékin ont développé FastDriveVLA, un cadre d’élagage de jetons visuels pour la conduite autonome qui a été accepté pour présentation à l’AAAI 2026, l’une des principales conférences mondiales sur l’intelligence artificielle (IA), avec un taux d’acceptation de 17,6 % cette année. Le cadre réduit la charge de calcul d’environ 7,5 fois tout en maintenant la précision de la planification, relevant ainsi un défi clé dans le déploiement de modèles vision-langage-action (VLA) pour les systèmes de conduite autonome de bout en bout en temps réel.
Les modèles VLA codent les images en jetons visuels qui permettent aux systèmes autonomes d’interpréter leur environnement et de prendre des décisions de conduite. Cependant, le traitement d’un grand nombre de ces jetons augmente les exigences de calcul, affectant la vitesse d’inférence et les performances en temps réel des véhicules.

FastDriveVLA utilise une approche basée sur la reconstruction inspirée de la façon dont les conducteurs humains se concentrent sur les informations pertinentes de premier plan telles que les voies, les véhicules et les piétons tout en filtrant les zones d’arrière-plan non critiques. Sur le benchmark nuScenes, le framework a réduit le nombre de jetons visuels de 3 249 à 812 tout en conservant une grande précision de planification.
Il s’agit de la deuxième reconnaissance de Xpeng lors d’une conférence majeure sur l’IA en 2025, après une présentation au CVPR WAD en juin sur les modèles de base de conduite autonome. En novembre, le constructeur automobile a dévoilé son architecture VLA 2.0, qui supprime l’étape de traitement du langage pour permettre une génération directe d’action visuelle.
Source : Xpeng