由 OpenAI 和英偉達共同開發的新型網路協定,旨在解決大規模人工智慧模型訓練中的最大瓶頸。
由 OpenAI 和英偉達共同開發的新型網路協定,旨在解決大規模人工智慧模型訓練中的最大瓶頸。

OpenAI 與科技巨頭英偉達、微軟、AMD、英特爾和博通合作,推出了一種新的網路協定,旨在防止訓練先進人工智慧模型過程中出現的代價昂貴的延遲。這項名為多路徑可靠連接(MRC)的技術已經部署在全球一些最大的 AI 超級計算機中,以更高效、更可靠地在 GPU 之間傳輸海量數據集。
OpenAI 在宣布這一倡議的博客文章中表示:「我們的目標不僅是建立一個快速的網路,還要建立一個即使在發生故障時也能提供極具預測性的性能的網路,以保持訓練任務的持續進行。」
MRC 是一種遠程直接內存訪問(RDMA)傳輸協定,它從根本上改變了數據在 AI 工廠中的傳輸方式。MRC 不再依賴單一網路路徑(如果路徑失敗,可能會造成瓶頸或導致訓練中斷),而是將流量同時分布在數百條不同的路徑上。該協定已內置於最新的 800Gb/s 網路接口中,並已應用於 OpenAI 最大的英偉達 GB200 超級計算機中,微軟也正在其 Azure 數據中心進行部署。
此舉解決了 AI 經濟學中的一個關鍵漏洞。在由數萬個 GPU 組成的集群上訓練前沿模型時,即使是毫秒級的網路停頓也會導致價值數百萬美元的計算硬件處於閒置狀態。通過提供多個冗餘路徑和繞過擁塞的智能導向,MRC 旨在最大化這些昂貴 AI 系統利用率,直接影響各公司在 AI 基礎設施上投入的數十億美元的投資回報。
訓練大型 AI 模型涉及數千個 GPU 之間持續、高容量的數據交換,這些 GPU 必須保持步調一致。在傳統網路中,如果路徑中的某個鏈接發生擁塞或交換機發生故障,整個任務可能會在系統重新路由時暫停。這種延遲被稱為「尾延遲」事件,是效率低下的主要原因。
MRC 通過多種方式解決這一問題。該協定利用來自網路架構的實時信號來檢測並引導流量避開超載鏈路。當數據丟失時,它可以快速而精確地重新傳輸,從而最大限度地減少故障影響。據英偉達稱,運行 MRC 的 Spectrum-X 平台可以在微秒內通過硬件檢測到路徑故障並重新路由流量。這使得像 OpenAI 這樣的「智能租戶」即使在微軟 Azure 等雲服務提供商的基礎設施上運行,也能對路由和網路行為擁有更大的控制權。
為了促進廣泛採用,MRC 規範已通過開放計算項目(OCP)公開發布,這是一個推廣開源硬件設計的行業機構。AMD、英特爾和博通與英偉達、微軟的共同參與,標誌著業界正在合力構建高性能 AI 網路的共同標準。
然而,開放規範也伴隨著競爭動態。雖然任何人都可以實施該協定,但英偉達押注其在 Spectrum-X 交換機和 SuperNIC 上的硬件特定執行將提供卓越的性能。這種「開放標準、差異化實現」的策略一直是英偉達成功的標誌。英偉達高級副總裁 Gilad Shainer 指出,他預計各種乙太網路協定將根據不同的客戶需求共存,而不是由單一協定(如超乙太網路聯盟 UEC 提議的協定)贏者通吃。
對於投資者而言,這一公告強化了參與公司的競爭地位。它鞏固了英偉達作為端對端 AI 系統(而非僅僅是晶片)供應商的角色。對於微軟而言,這提升了其 Azure 雲的性能和彈性,這是吸引和留住 OpenAI 等大型 AI 客戶的關鍵因素。AMD 和英特爾的參與確保了他們仍是對話的一部分,防止了被單一廠商完全鎖定,並為行業提供了多條前進道路。
本文僅供參考,不構成投資建議。