Helm.ai a lancé GenSim-3 et VidGen-3, des modèles de base qui génèrent des données synthétiques d’entraînement de véhicules autonomes (AV) en résolution Full HD sur une vue panoramique à 360 degrés à six caméras. La société de logiciels d’IA de la Silicon Valley revendique un canevas synthétique de 12 mégapixels par pas de temps, soit cinq fois la densité de pixels des références actuelles des modèles mondiaux génératifs.
La sortie Full HD (2MP par caméra) correspond à la résolution des caméras utilisées dans les systèmes autonomes et ADAS de production. Helm.ai a déclaré que cela résout le « mur de données » dans le développement audiovisuel, où le coût et le temps de collecte des cas extrêmes dans le monde réel limitent les progrès.
La plate-forme comprend deux modèles : GenSim-3 restylise la vidéo du monde réel en Full HD sur six caméras, en faisant varier la météo, l’éclairage et l’apparence des objets ; VidGen-3 génère des séquences de conduite entièrement synthétiques à partir de zéro. Les deux reproduisent les anomalies du capteur, notamment les bandes, les reflets d’objectif et l’aveuglement de l’exposition.
Helm.ai a déclaré qu’il obtenait la sortie Full HD en utilisant des centaines de GPU avancés, contre des milliers utilisés par les modèles concurrents, réduisant ainsi l’empreinte de calcul pour la formation audiovisuelle de qualité production. Dans un communiqué, Vladislav Voroninski, PDG et fondateur de Helm.ai, a déclaré : « En étant leader avec une norme Full HD (2 MP) et une capacité globale totale de 12 mégapixels par pas de temps, nous avons résolu le goulot d’étranglement de la résolution qui a historiquement limité l’utilité de l’IA générative dans les systèmes critiques pour la sécurité.
Source : Business Wire