Pulsar 16B : des performances de raisonnement équivalentes à 30B avec moitié moins de paramètres

Le Pulsar 16B open source de Multiverse Computing délivre des performances de raisonnement de pointe avec environ la moitié du nombre de paramètres des modèles comparables, validé sur l'infrastructure accélérée de Nvidia.

Le Pulsar 16B de Multiverse Computing égalise les performances de raisonnement des modèles à 30 milliards de paramètres avec seulement 16,15 milliards de paramètres au total et 3,1 milliards de paramètres actifs, réduisant l'empreinte de calcul de près de moitié tout en préservant les scores de référence sur les tâches mathématiques, scientifiques et de codage.

« Exécuter une IA avancée localement a historiquement exigé de faire un compromis sur la taille du modèle ou les performances », a déclaré Enrique Lizaso, cofondateur et directeur général de Multiverse Computing. « Ce que nous démontrons avec le Pulsar 16B, c'est qu'un raisonnement de pointe peut désormais être déployé sans la surcharge d'une infrastructure cloud, avec une empreinte que les entreprises peuvent réellement exploiter et développer de manière économique. »

Construit sur une version compressée du Nemotron 3 Nano de Nvidia — une architecture hybride Mamba2-Transformer à mélange d'experts (MoE) — le Pulsar 16B obtient un score de 87,22 sur le benchmark de raisonnement mathématique AIME 2025, à un dixième de point du modèle de base non compressé de 31,6 milliards de paramètres et 15 points de plus que le gpt-oss-20B. Sur GPQA-Diamond, un benchmark scientifique de niveau doctorat, il obtient 71,41, égalant le modèle non compressé et surpassant le score de 58,88 du gpt-oss-20B. Le modèle surpasse également le gpt-oss-20B de 14 points sur le suivi d'instructions et de 11 points sur l'appel de fonctions.

Ce gain d'efficacité se traduit directement par une baisse des coûts de déploiement. Sur un GPU Nvidia Blackwell traitant 32 requêtes simultanées, le Pulsar 16B en précision FP8 délivre 4 808 tokens par seconde de débit système, soit une augmentation de 43 % par rapport aux 3 363 tokens par seconde du modèle de base, tout en réduisant le temps jusqu'au premier token à 1,24 seconde contre 2,18 secondes. Pour les entreprises exploitant des flux de travail agentiques à forte concurrence ou traitant en continu de longs documents, les économies réalisées sur l'acquisition de GPU et les coûts énergétiques pourraient être substantielles.

Avantages en mémoire et en inférence

Le Pulsar 16B réalise des réductions significatives de la mémoire des poids du modèle sur toutes les précisions prises en charge — BF16, FP8 et NVFP4 — par rapport au modèle de base Nemotron-3-Nano-30B-A3B. La compression, obtenue grâce à la technologie CompactifAI de Multiverse Computing combinée aux bibliothèques Model Optimizer et Megatron Bridge de Nvidia, n'a nécessité aucun réentraînement complet. Au lieu de cela, l'entreprise a identifié et supprimé la redondance mathématique au sein du réseau entraîné tout en préservant les comportements de raisonnement appris lors de l'entraînement.

Les performances sur longs contextes, souvent les premières victimes d'une compression agressive, restent intactes. La recherche « aiguille dans une botte de foin » reste parfaitement efficace des deux côtés de la barre des 100 000 tokens, et le Pulsar 16B suit de près le modèle de base non compressé sur les tâches RULER les plus difficiles à des longueurs de contexte étendues, selon les évaluations de Multiverse Computing sur LongBench, AA-LCR, la suite RULER et les variantes NIAH.

Implications concurrentielles

Cette publication met la pression sur les autres développeurs de modèles open source — y compris ceux derrière le gpt-oss-20B et les architectures de taille moyenne similaires — pour qu'ils démontrent des gains d'efficacité comparables. Pour Nvidia, cette collaboration renforce la valeur de son matériel Blackwell optimisé pour l'inférence : un modèle qui fonctionne 43 % plus vite sur le même GPU crée un retour sur investissement plus convaincant pour les clients entreprises évaluant l'infrastructure de Nvidia. Multiverse Computing, membre du programme Inception de Nvidia, sert plus de 100 clients dans le monde, dont Iberdrola, Bosch et la Banque du Canada, ce qui la positionne pour capter la demande des secteurs réglementés recherchant des déploiements d'IA souverains où les données ne quittent jamais l'infrastructure sur site.

Le Pulsar 16B est disponible sur Hugging Face sous licence Apache 2.0. Le modèle est conçu pour les configurations à nœud unique, les environnements sur site et les systèmes sensibles à la latence où le coût d'un raisonnement de pointe était auparavant prohibitif.

Cet article est fourni à titre informatif uniquement et ne constitue pas un conseil en investissement.