Le framework X-Mind de XPENG permet aux véhicules autonomes de simuler des scénarios de trafic futurs avant de prendre une quelconque décision.
XPENG a dévoilé X-Mind, un modèle de monde prédictif qui permet aux véhicules autonomes de simuler des scénarios de trafic futurs grâce à un raisonnement interne, faisant passer la conduite autonome d'une prise de décision réactive à proactive. Le framework a été présenté lors de l'atelier CVPR 2026 sur le déploiement de modèles fondamentaux pour l'intelligence incarnée, à Guangzhou.
« X-Mind représente un changement fondamental, passant de systèmes perception-action à une intelligence prédictive », a déclaré Xianming Liu, responsable du Centre d'Intelligence Générale du Groupe XPENG. « Les véhicules peuvent désormais anticiper les changements futurs du trafic grâce à une simulation interne avant d'exécuter une manœuvre. »
Le framework combine trois technologies. Thought Sketch crée une représentation cognitive efficace combinant des vues à vol d'oiseau et des connaissances de conduite, préservant les structures routières, les obstacles, les feux de signalisation et les intentions de navigation tout en réduisant la complexité de calcul. Recurrent Block Diffusion permet une génération de scènes futures de haute qualité en un seul passage avant, surmontant les problèmes de latence des méthodes de diffusion conventionnelles qui nécessitent plusieurs étapes itératives de débruitage — un avantage critique pour les décisions de conduite en temps réel à vitesse autoroutière. Visual Chain-of-Thought révèle comment le modèle prédit les mouvements des obstacles, la connectivité des voies et les conditions de trafic futures avant de générer des décisions de conduite, améliorant ainsi la transparence pour la validation du système.
X-Mind a été entraîné sur des centaines de millions d'images de données de conduite réelles. XPENG a indiqué que le modèle démontre une précision améliorée de la prédiction de trajectoire, des performances renforcées dans les scénarios complexes de longue traîne, et une latence d'inférence ultra-faible adaptée aux puces de grade automobile, bien que la société n'ait pas divulgué la plateforme matérielle spécifique utilisée pour les tests.
En quoi X-Mind diffère des piles d'autonomie traditionnelles
La plupart des systèmes de conduite autonome fonctionnent sur un pipeline perception-action : les caméras et les capteurs détectent l'environnement actuel, et le système réagit. Le Full Self-Driving de Tesla, le NIO Pilot de NIO et l'AD Max de Li Auto suivent tous des variantes de cette approche. X-Mind ajoute une couche de simulation qui exécute plusieurs scénarios futurs en interne avant d'exécuter une manœuvre, donnant effectivement au véhicule une forme de prévoyance à court terme.
Le composant Visual Chain-of-Thought rend ce raisonnement transparent, montrant les mouvements d'obstacles et les changements de voie que le modèle a pris en compte. Cette fonction d'explicabilité pourrait simplifier la validation réglementaire sur les marchés où les autorités de sécurité exigent une preuve de la logique décisionnelle — une préoccupation croissante alors que les systèmes de conduite autonome font l'objet d'un examen accru à l'échelle mondiale.
Compléter la feuille de route de l'IA physique
X-Mind rejoint X-World et X-Foresight pour compléter la feuille de route des modèles fondamentaux d'IA physique de XPENG. Ensemble, les trois frameworks permettent aux véhicules de comprendre non seulement comment agir, mais aussi comment le monde évolue après chaque action. Liu a décrit cette capacité comme essentielle pour la prochaine génération de conduite autonome, où les véhicules doivent naviguer dans des scénarios imprévisibles tels que des piétons traversant de manière inattendue ou des véhicules s'insérant sans clignotants.
Cette annonce positionne XPENG face à Tesla, qui a poursuivi une approche de réseau neuronal de bout en bout avec son système FSD V12, et face à ses rivaux chinois NIO et Li Auto, tous deux en course pour déployer des systèmes de navigation urbaine dans les grandes villes chinoises. L'accent mis par XPENG sur le raisonnement prédictif et la prise de décision explicable via Visual CoT pourrait lui donner un avantage sur les marchés où les régulateurs exigent une preuve de validation de sécurité avant d'approuver les fonctionnalités autonomes.
Angle investissement
XPENG, cotée au NYSE sous le symbole XPEV et à la HKEX sous le code 9868, a vu le cours de son action sensible aux étapes majeures de la conduite autonome, les investisseurs pesant la différenciation technologique par rapport aux volumes de livraison de véhicules. Le framework X-Mind, s'il est déployé dans des véhicules de série, pourrait soutenir des prix de vente moyens plus élevés et renforcer la position de XPENG sur le marché chinois des véhicules électriques, où plus de 50 marques sont en concurrence. La société n'a pas fourni de calendrier pour le déploiement en production de X-Mind dans ses véhicules grand public.
Cet article est fourni à titre informatif uniquement et ne constitue pas un conseil en investissement.