OpenAIとNvidiaによって開発された新しいネットワークプロトコルは、大規模なAIモデル学習における最大のボトルネック解消を目指しています。
OpenAIとNvidiaによって開発された新しいネットワークプロトコルは、大規模なAIモデル学習における最大のボトルネック解消を目指しています。

OpenAIは、ハイテク大手のNvidia、Microsoft、AMD、Intel、Broadcomと提携し、高度な人工知能モデルの学習における多額のコストを伴う遅延を防ぐために設計された新しいネットワークプロトコルを導入しました。「マルチパス・リライアブル・コネクション(MRC)」と呼ばれるこの技術は、GPU間で膨大なデータセットをより効率的かつ確実に移動させるため、世界最大級のAIスーパーコンピューターの一部ですでに導入されています。
OpenAIはこの取り組みを発表したブログ記事の中で、「私たちの目標は、単に高速なネットワークを構築することではなく、障害が発生しても学習ジョブを継続できるよう、非常に予測可能なパフォーマンスを提供するネットワークを構築することでした」と述べています。
MRCは、AIファクトリー内でのデータの移動方法を根本的に変えるリモート直接メモリアクセス(RDMA)トランスポートプロトコルです。ボトルネックの原因となったり、障害時に学習を停止させたりする可能性のある単一のネットワークパスに依存するのではなく、MRCはトラフィックを数百の異なるパスに同時に分散させます。このプロトコルは最新の800Gb/sネットワークインターフェースに組み込まれており、OpenAIの最大規模のNvidia GB200スーパーコンピューターですでに使用されているほか、MicrosoftもAzureデータセンターでの導入を進めています。
この動きは、AIの経済性における重大な脆弱性に対処するものです。数万個のGPUにわたってフロンティアモデルを学習させる際、わずかミリ秒単位のネットワークの停滞であっても、数百万ドル相当の計算ハードウェアをアイドル状態にしてしまう可能性があります。冗長な複数のパスと、混雑を回避するためのインテリジェントなステアリングを提供することで、MRCはこれらの高価なAIシステムの稼働率を最大化するように設計されており、AIインフラに数十億ドルを投じている企業の投資収益率(ROI)に直接的な影響を与えます。
大規模なAIモデルの学習には、常に歩調を合わせる必要がある数千個のGPU間での、継続的かつ大容量のデータ交換が伴います。従来のネットワーキングでは、パス内のリンクが混雑したりスイッチが故障したりすると、システムが経路を再設定する間、ジョブ全体が一時停止することがあります。この遅延は「テールレイテンシ」事象として知られ、非効率性の大きな原因となっています。
MRCはいくつかの方法でこの問題に取り組みます。このプロトコルは、ネットワークファブリックからのリアルタイム信号を使用して、過負荷のリンクを検出し、トラフィックをそこから逸らします。データが失われた場合、迅速かつ正確に再送することができ、障害の影響を最小限に抑えます。Nvidiaによると、MRCを実行する同社のSpectrum-Xプラットフォームは、パスの故障を検出し、マイクロ秒単位でハードウェア内でトラフィックを再ルーティングできるとのことです。これにより、OpenAIのような「スマートなテナント」は、Microsoft Azureのようなクラウドプロバイダーのインフラ上で実行している場合でも、ルーティングやネットワーク動作をより高度に制御できるようになります。
幅広い採用を促進するための重要な動きとして、MRCの仕様は、オープンソースのハードウェア設計を推進する業界団体であるオープン・コンピューティング・プロジェクト(OCP)を通じて公開されました。AMD、Intel、BroadcomがNvidiaやMicrosoftと並んで参加していることは、高性能AIネットワーキングの共通規格を構築するための協調的な取り組みであることを示しています。
しかし、オープンな仕様には競争的なダイナミクスも伴います。誰もがこのプロトコルを実装できますが、Nvidiaは、同社のSpectrum-XスイッチとSuperNIC上でのハードウェア固有の実装が優れたパフォーマンスを提供することに賭けています。この「オープンスタンダード、差別化された実装」という戦略は、Nvidiaの成功の象徴となってきました。Nvidiaのシニアバイスプレジデントであるギラド・シャイナー氏は、ウルトラ・イーサネット・コンソーシアム(UEC)が提案するような一つの勝者がすべてを手にする標準ではなく、さまざまな顧客ニーズに合わせた多様なイーサネットプロトコルが共存することを期待していると述べています。
投資家にとって、この発表は関連企業の競争上の地位を強化するものです。これは、Nvidiaが単なるチップメーカーではなく、エンドツーエンドのAIシステムプロバイダーとしての役割を固めることになります。Microsoftにとっては、Azureクラウドのパフォーマンスとレジリエンスが向上し、OpenAIのような大規模なAI顧客を惹きつけ、維持するための重要な要素となります。AMDとIntelの参加は、彼らが議論の一部であり続けることを確実にし、単一ベンダーによる完全なロックインを防ぎ、業界に複数の前進の道を提供します。
この記事は情報提供のみを目的としており、投資アドバイスを構成するものではありません。