Xiaomi franchit la barre des 1 000 tokens par seconde sur un modèle IA de 1 000 milliards de paramètres

Le MiMo-V2.5-Pro-UltraSpeed de Xiaomi atteint plus de 1 000 tokens par seconde sur des GPU standards — 15 fois plus rapide que GPT-5.5 — en utilisant uniquement le logiciel.

Le MiMo-V2.5-Pro-UltraSpeed de Xiaomi atteint plus de 1 000 tokens par seconde sur un seul nœud standard à 8 GPU, soit 15 fois plus rapide que GPT-5.5, sans utiliser de silicium sur mesure — une étape qui redéfinit les hypothèses sur le coût et l'accessibilité de l'inférence.

« Une co-conception extrême entre modèle et système est ce qui rend cela possible », a déclaré l'entreprise dans son annonce. Selon Artificial Analysis, GPT-5.5 fonctionne à 68 tokens par seconde et Claude Opus 4.6 à 71, tandis que MiMo-V2.5-Pro égalise Opus sur les benchmarks de codage.

La vitesse provient de deux techniques coordonnées. La quantification FP4 réduit les couches expertes du modèle — la majeure partie de ses 1 000 milliards de paramètres — à une précision de 4 bits, réduisant l'empreinte mémoire tout en maintenant une perte de qualité quasi nulle. Le décodage spéculatif DFlash remplit un bloc complet de positions masquées en une seule passe avant, le modèle acceptant 6,3 des 8 tokens proposés par cycle de vérification dans les tâches de codage. TileRT, le moteur d'inférence, maintient l'ensemble du pipeline résident à l'intérieur du GPU, éliminant la surcharge de lancement par opérateur.

Cerebras a atteint 969 tokens par seconde sur le Llama 3.1 405B de Meta — un modèle moins de deux fois plus petit — en utilisant une puce à l'échelle du wafer de la taille d'une assiette. L'architecture LPU personnalisée de Groq plafonne entre 300 et 750 tokens par seconde. Aucun des deux ne fonctionne sur du matériel disponible auprès des fournisseurs de cloud standards. L'approche de Xiaomi le permet, et à 3 fois le tarif standard de MiMo pour environ 10 fois la vitesse de génération. L'essai API se déroule du 9 au 23 juin.

Cette performance importe au-delà du chiffre brut. À 1 000 tokens par seconde, les applications soumises à des contraintes de latence strictes — détection de fraude, signaux de trading en temps réel, chaînes de raisonnement parallèles, boucles d'agents en direct — deviennent viables là où 68 tokens par seconde ne pouvaient pas les satisfaire. MiMo-V2.5-Pro égalait déjà Claude Opus sur la plupart des benchmarks de codage pour une fraction du coût : environ 0,43 $ en entrée et 0,87 $ en sortie par million de tokens, contre 5 $ et 25 $ pour Opus, respectivement.

L'approche technique est remarquable par ce qu'elle ne nécessite pas. Cerebras a conçu une puce à l'échelle du wafer intégrant 44 Go de mémoire sur puce pour éliminer le goulot d'étranglement de bande passante qui ralentit l'inférence GPU. Groq a construit une unité de traitement linguistique personnalisée. Xiaomi a utilisé des GPU standards — le même matériel disponible sur AWS — et a résolu le problème par une optimisation au niveau du modèle et un moteur d'inférence spécialement conçu.

La quantification FP4 est chirurgicale : seules les couches expertes sont compressées, tandis que tout le reste reste en pleine précision. DFlash saute l'étape de rédaction séquentielle utilisée dans le décodage spéculatif standard, proposant un bloc entier de tokens à la fois. TileRT les assemble en maintenant le pipeline de calcul continuellement résident, éliminant les écarts d'exécution qui ralentissent normalement la génération.

Xiaomi (01810.HK) développe ses capacités d'IA en grande partie en dehors des projecteurs de l'industrie. MiMo-V2.5-Pro a été lancé en avril, égalant les modèles de pointe sur les benchmarks pour une fraction de leur coût. UltraSpeed accélère ce même modèle — pas une version allégée — et le checkpoint FP4-DFlash est déjà open-source sur Hugging Face pour les tests de la communauté.

Si les benchmarks indépendants confirment les revendications de vitesse, Xiaomi a accompli ce qui nécessitait des centaines de millions de dollars d'investissement en silicium sur mesure de la part de Cerebras et Groq, en utilisant un logiciel sur du matériel standard. Cela change le calcul pour savoir quelles entreprises peuvent déployer des modèles à 1 000 milliards de paramètres en production — et à quel coût.

Cet article est fourni à titre informatif uniquement et ne constitue pas un conseil en investissement.