Un nouveau protocole réseau développé avec OpenAI et Nvidia vise à résoudre le plus grand goulot d'étranglement dans l'entraînement des modèles d'IA à grande échelle.
Un nouveau protocole réseau développé avec OpenAI et Nvidia vise à résoudre le plus grand goulot d'étranglement dans l'entraînement des modèles d'IA à grande échelle.

OpenAI, en partenariat avec les géants de la technologie Nvidia, Microsoft, AMD, Intel et Broadcom, a introduit un nouveau protocole réseau conçu pour éviter les retards coûteux dans l'entraînement des modèles d'intelligence artificielle avancés. La technologie, baptisée Multipath Reliable Connection (MRC), est déjà déployée dans certains des plus grands supercalculateurs d'IA au monde pour déplacer d'énormes ensembles de données entre les GPU de manière plus efficace et plus fiable.
« Notre objectif n'était pas seulement de construire un réseau rapide, mais aussi d'en construire un qui offre des performances très prévisibles, même en cas de défaillance, pour que les tâches d'entraînement continuent de progresser », a déclaré OpenAI dans un article de blog annonçant l'initiative.
Le MRC est un protocole de transport d'accès direct à la mémoire à distance (RDMA) qui modifie fondamentalement la façon dont les données circulent dans une usine d'IA. Au lieu de s'appuyer sur un chemin réseau unique, qui peut créer un goulot d'étranglement ou interrompre l'entraînement en cas de panne, le MRC répartit le trafic sur des centaines de chemins différents simultanément. Le protocole est intégré aux dernières interfaces réseau 800 Gb/s et est déjà utilisé dans les plus grands supercalculateurs Nvidia GB200 d'OpenAI, tout en étant déployé par Microsoft dans ses centres de données Azure.
Cette initiative s'attaque à une vulnérabilité critique de l'économie de l'IA. Lors de l'entraînement d'un modèle de pointe sur des dizaines de milliers de GPU, même un arrêt du réseau d'une milliseconde peut laisser des millions de dollars de matériel informatique inutilisés. En fournissant plusieurs chemins redondants et l'intelligence nécessaire pour contourner la congestion, le MRC est conçu pour maximiser l'utilisation de ces systèmes d'IA coûteux, ce qui a un impact direct sur le retour sur investissement des entreprises qui dépensent des milliards de dollars dans l'infrastructure d'IA.
L'entraînement de grands modèles d'IA implique un échange constant et à haut volume de données entre des milliers de GPU qui doivent rester parfaitement synchronisés. Dans les réseaux traditionnels, si un lien sur le chemin est encombré ou si un commutateur tombe en panne, l'ensemble du travail peut s'interrompre pendant que le système se réachemine. Ce retard, connu sous le nom d'événement de « latence de queue » (tail latency), est une source majeure d'inefficacité.
Le MRC s'attaque à ce problème de plusieurs manières. Le protocole utilise des signaux en temps réel provenant de l'architecture réseau pour détecter et orienter le trafic loin des liens surchargés. Lorsque des données sont perdues, elles peuvent être retransmises rapidement et précisément, minimisant ainsi l'impact des pannes. Selon Nvidia, sa plateforme Spectrum-X, qui exploite le MRC, peut détecter une défaillance de chemin et réacheminer le trafic de manière matérielle en quelques microsecondes. Cela permet à un « locataire intelligent » comme OpenAI d'avoir un meilleur contrôle sur le routage et le comportement du réseau, même lorsqu'il s'exécute sur l'infrastructure d'un fournisseur de cloud comme Microsoft Azure.
Dans une démarche significative pour favoriser une adoption large, la spécification MRC a été rendue publique via l'Open Compute Project (OCP), un organisme industriel qui promeut les conceptions de matériel open-source. L'implication d'AMD, Intel et Broadcom aux côtés de Nvidia et Microsoft signale un effort de collaboration pour construire un standard commun pour le réseautage d'IA haute performance.
Cependant, la spécification ouverte s'accompagne d'une dynamique concurrentielle. Bien que n'importe qui puisse implémenter le protocole, Nvidia parie que son exécution spécifique au matériel sur ses commutateurs Spectrum-X et ses SuperNIC offrira des performances supérieures. Cette stratégie de « standards ouverts, implémentation différenciée » a été une marque de fabrique du succès de Nvidia. Gilad Shainer, vice-président senior chez Nvidia, a noté qu'il s'attend à ce qu'une variété de protocoles Ethernet coexiste, adaptée aux différents besoins des clients, plutôt qu'un standard unique où le gagnant emporte tout, comme celui proposé par l'Ultra Ethernet Consortium (UEC).
Pour les investisseurs, cette annonce renforce les positions concurrentielles des entreprises impliquées. Elle consolide le rôle de Nvidia en tant que fournisseur de systèmes d'IA de bout en bout, et pas seulement de puces. Pour Microsoft, cela améliore la performance et la résilience de son cloud Azure, un facteur clé pour attirer et retenir les gros clients de l'IA comme OpenAI. La participation d'AMD et d'Intel garantit qu'ils restent dans la course, évitant un verrouillage complet par un seul fournisseur et offrant à l'industrie plusieurs voies d'avenir.
Cet article est à titre informatif uniquement et ne constitue pas un conseil en investissement.