由 OpenAI 和英伟达共同开发的新型网络协议,旨在解决大规模人工智能模型训练中的最大瓶颈。
由 OpenAI 和英伟达共同开发的新型网络协议,旨在解决大规模人工智能模型训练中的最大瓶颈。

OpenAI 与科技巨头英伟达、微软、AMD、英特尔和博通合作,推出了一种新的网络协议,旨在防止训练先进人工智能模型过程中出现的代价昂贵的延迟。这项名为多路径可靠连接(MRC)的技术已经部署在全球一些最大的 AI 超级计算机中,以更高效、更可靠地在 GPU 之间传输海量数据集。
OpenAI 在宣布这一倡议的博客文章中表示:“我们的目标不仅是建立一个快速的网络,还要建立一个即使在发生故障时也能提供极具预测性的性能的网络,以保持训练任务的持续进行。”
MRC 是一种远程直接内存访问(RDMA)传输协议,它从根本上改变了数据在 AI 工厂中的传输方式。MRC 不再依赖单一网络路径(如果路径失败,可能会造成瓶颈或导致训练中断),而是将流量同时分布在数百条不同的路径上。该协议已内置于最新的 800Gb/s 网络接口中,并已应用于 OpenAI 最大的英伟达 GB200 超级计算机中,微软也正在其 Azure 数据中心进行部署。
此举解决了 AI 经济学中的一个关键漏洞。在由数万个 GPU 组成的集群上训练前沿模型时,即使是毫秒级的网络停顿也会导致价值数百万美元的计算硬件处于闲置状态。通过提供多个冗余路径和绕过拥塞的智能导向,MRC 旨在最大化这些昂贵 AI 系统利用率,直接影响各公司在 AI 基础设施上投入的数十亿美元的投资回报。
训练大型 AI 模型涉及数千个 GPU 之间持续、高容量的数据交换,这些 GPU 必须保持步调一致。在传统网络中,如果路径中的某个链接发生拥塞或交换机发生故障,整个任务可能会在系统重新路由时暂停。这种延迟被称为“尾延迟”事件,是效率低下的主要原因。
MRC 通过多种方式解决这一问题。该协议利用来自网络架构的实时信号来检测并引导流量避开超载链路。当数据丢失时,它可以快速而精确地重新传输,从而最大限度地减少故障影响。据英伟达称,运行 MRC 的 Spectrum-X 平台可以在微秒内通过硬件检测到路径故障并重新路由流量。这使得像 OpenAI 这样的“智能租户”即使在微软 Azure 等云服务提供商的基础设施上运行,也能对路由和网络行为拥有更大的控制权。
为了促进广泛采用,MRC 规范已通过开放计算项目(OCP)公开发布,这是一个推广开源硬件设计的行业机构。AMD、英特尔和博通与英伟达、微软的共同参与,标志着业界正在合力构建高性能 AI 网络的共同标准。
然而,开放规范也伴随着竞争动态。虽然任何人都可以实施该协议,但英伟达押注其在 Spectrum-X 交换机和 SuperNIC 上的硬件特定执行将提供卓越的性能。这种“开放标准、差异化实现”的策略一直是英伟达成功的标志。英伟达高级副总裁 Gilad Shainer 指出,他预计各种以太网协议将根据不同的客户需求共存,而不是由单一协议(如超以太网联盟 UEC 提议的协议)赢者通吃。
对于投资者而言,这一公告强化了参与公司的竞争地位。它巩固了英伟达作为端到端 AI 系统(而非仅仅是芯片)供应商的角色。对于微软而言,这提升了其 Azure 云的性能和弹性,这是吸引和留住 OpenAI 等大型 AI 客户的关键因素。AMD 和英特尔的参与确保了他们仍是对话的一部分,防止了被单一厂商完全锁定,并为行业提供了多条前进道路。
本文仅供参考,不构成投资建议。