Nvidia Cosmos 3 cible les charges de travail de formation audiovisuelle et robotique

Nvidia a lancé Cosmos 3, un modèle de base en monde ouvert pour l’IA physique construit sur une architecture de transformateurs combinant le raisonnement visuel, la simulation du monde et la prédiction d’action dans un seul système. Le modèle est conçu pour compresser les cycles de formation et d’évaluation de l’IA physique de quelques mois à quelques jours, avec une application directe dans le développement de véhicules autonomes (AV), la robotique et l’IA de vision.

Cosmos 3 associe un transformateur de raisonnement à un transformateur de génération expert, lui permettant de comprendre les interactions entre objets, le mouvement et les relations spatio-temporelles avant de générer des sorties vidéo et d’action. Le modèle est formé sur ce que Nvidia décrit comme l’un des plus grands ensembles de données d’IA physique multimodales, couvrant les trajectoires de texte, d’image, de vidéo, de son et d’action.

Le lancement inclut la Cosmos Coalition, une nouvelle collaboration avec Agile Robots, Black Forest Labs, Generalist, LTX, Runway et Skild AI pour faire progresser les modèles de monde ouvert. Li Auto fait partie des développeurs audiovisuels qui s’appuient sur la plateforme Cosmos, qui comprend désormais de nouveaux ensembles de données couvrant la conduite autonome, la robotique et le raisonnement spatial.

Dans un communiqué, Jensen Huang, fondateur et directeur général de Nvidia, a déclaré : « Le big bang de l’IA physique est à nos portes grâce aux percées dans le langage de raisonnement multimodal, la vision et les modèles du monde. La famille Cosmos 3 d’omnimodèles ouverts et frontaliers offre aux développeurs un saut générationnel dans la capacité de construire des robots, des véhicules autonomes et une IA de vision qui perçoivent, raisonnent, planifient et agissent dans le monde physique. »

Pourquoi c’est important :

• Cosmos 3 est le tissu conjonctif sous tout ce que NVIDIA a annoncé cette semaine. Alpamayo 2 Super, le cadre de formation AlpaGym, la génération de scénarios OmniDreams : chacun de ces outils s’appuie sur Cosmos comme fondement du modèle mondial sous-jacent. Dans l’ensemble, les annonces de GTC Taipei se lisent moins comme des lancements de produits séparés que comme une pile d’IA physique intégrée verticalement.

• La libération publique est un accaparement stratégique des terres, pas une générosité. Rendre un modèle de base frontière disponible gratuitement réduit le délai nécessaire aux développeurs pour s’appuyer sur l’architecture de NVIDIA plutôt que sur celle d’un concurrent. La Cosmos Coalition, qui rassemble simultanément des entreprises de robotique, des laboratoires de génération vidéo et des développeurs d’IA, étend cette logique : plus l’écosystème physique de l’IA se normalise sur Cosmos, plus il devient difficile de créer des alternatives crédibles à une échelle comparable.

• L’application automobile est importante, mais les revendications plus larges sont encore plus vastes. Cosmos 3 est positionné simultanément sur la robotique, l’AV et l’IA de vision industrielle. Cette étendue est importante car elle signifie que les développeurs audiovisuels formés sur Cosmos 3 s’appuient sur un ensemble de données et une architecture également affinés par la robotique et les applications d’entrepôt. En effet, cela signifie des données de formation inter-domaines à une échelle qu’aucun développeur d’un seul secteur ne peut probablement reproduire. Il reste à démontrer si cela se traduira par des performances sur route sensiblement meilleures, mais la logique architecturale est solide.