OpenAI와 엔비디아가 공동 개발한 새로운 네트워킹 프로토콜은 대규모 AI 모델 학습의 최대 병목 현상을 해결하는 것을 목표로 합니다.
OpenAI와 엔비디아가 공동 개발한 새로운 네트워킹 프로토콜은 대규모 AI 모델 학습의 최대 병목 현상을 해결하는 것을 목표로 합니다.

OpenAI는 거대 기술 기업인 엔비디아, 마이크로소프트, AMD, 인텔, 브로드컴과 협력하여 첨단 인공지능 모델 학습 과정에서 발생하는 값비싼 지연을 방지하기 위해 설계된 새로운 네트워킹 프로토콜을 도입했습니다. 다중 경로 신뢰 연결(MRC)이라고 불리는 이 기술은 이미 세계 최대 규모의 AI 슈퍼컴퓨터 중 일부에 도입되어 GPU 간에 방대한 데이터 세트를 더욱 효율적이고 안정적으로 이동시키고 있습니다.
OpenAI는 이번 이니셔티브를 발표한 블로그 게시물에서 "우리의 목표는 단순히 빠른 네트워크를 구축하는 것이 아니라, 장애가 발생하더라도 학습 작업이 계속 진행될 수 있도록 매우 예측 가능한 성능을 제공하는 네트워크를 구축하는 것이었습니다"라고 밝혔습니다.
MRC는 AI 팩토리에서 데이터가 이동하는 방식을 근본적으로 바꾸는 원격 직접 기억장치 액세스(RDMA) 전송 프로토콜입니다. 병목 현상을 일으키거나 실패 시 학습을 중단시킬 수 있는 단일 네트워크 경로에 의존하는 대신, MRC는 수백 개의 서로 다른 경로를 가로질러 트래픽을 동시에 분산시킵니다. 이 프로토콜은 최신 800Gb/s 네트워크 인터페이스에 내장되어 있으며, 이미 OpenAI의 최대 규모 엔비디아 GB200 슈퍼컴퓨터에서 사용 중이며 마이크로소프트는 애저(Azure) 데이터 센터에 배포하고 있습니다.
이러한 움직임은 AI 경제의 핵심적인 취약점을 해결합니다. 수만 개의 GPU에서 프런티어 모델을 학습할 때 밀리초 단위의 네트워크 정체만 발생해도 수백만 달러 가치의 컴퓨팅 하드웨어가 유휴 상태가 될 수 있습니다. 다중 중복 경로와 혼잡을 피하는 지능형 경로 설정을 제공함으로써, MRC는 이러한 값비싼 AI 시스템의 활용도를 극대화하도록 설계되었으며, 이는 AI 인프라에 수십억 달러를 투자하는 기업의 투자 수익률에 직접적인 영향을 미칩니다.
대규모 AI 모델 학습에는 수천 개의 GPU 간에 지속적이고 대량의 데이터 교환이 필요하며, 이들은 반드시 보조를 맞춰야 합니다. 기존 네트워킹에서는 경로의 링크가 혼잡해지거나 스위치가 고장 나면 시스템이 경로를 재설정하는 동안 전체 작업이 일시 중지될 수 있습니다. 이러한 지연을 '테일 레이턴시(tail latency)' 현상이라고 하며, 이는 비효율성의 주요 원인입니다.
MRC는 여러 가지 방법으로 이 문제를 해결합니다. 프로토콜은 네트워크 패브릭의 실시간 신호를 사용하여 과부하된 링크를 감지하고 트래픽을 다른 곳으로 돌립니다. 데이터가 손실되면 빠르고 정확하게 재전송하여 결함의 영향을 최소화할 수 있습니다. 엔비디아에 따르면 MRC를 구동하는 스펙트럼-X(Spectrum-X) 플랫폼은 마이크로초 내에 하드웨어에서 경로 오류를 감지하고 트래픽을 재설정할 수 있습니다. 이를 통해 OpenAI와 같은 '스마트 테넌트'는 마이크로소프트 애저와 같은 클라우드 제공업체의 인프라에서 실행되는 경우에도 라우팅 및 네트워크 동작에 대해 더 큰 제어권을 가질 수 있습니다.
광범위한 채택을 촉진하기 위한 중요한 움직임으로, MRC 사양은 오픈 소스 하드웨어 설계를 촉진하는 산업 기구인 오픈 컴퓨팅 프로젝트(OCP)를 통해 공개되었습니다. 엔비디아, 마이크로소프트와 함께 AMD, 인텔, 브로드컴이 참여한 것은 고성능 AI 네트워킹을 위한 공통 표준을 구축하려는 협력적 노력을 의미합니다.
그러나 개방형 사양에는 경쟁적인 역학 관계가 수반됩니다. 누구나 프로토콜을 구현할 수 있지만, 엔비디아는 스펙트럼-X 스위치와 슈퍼NIC(SuperNIC)에서의 하드웨어별 실행이 우수한 성능을 제공할 것이라고 확신하고 있습니다. 이러한 '개방형 표준, 차별화된 구현' 전략은 엔비디아 성공의 특징이었습니다. 엔비디아의 수석 부사장인 길라드 샤이너(Gilad Shainer)는 울트라 이더넷 컨소시엄(UEC)이 제안한 것과 같은 단일 독식 표준보다는 고객의 다양한 요구에 맞춘 다양한 이더넷 프로토콜이 공존할 것으로 예상한다고 언급했습니다.
투자자들에게 이번 발표는 참여 기업들의 경쟁적 지위를 강화합니다. 엔비디아가 단순한 칩 공급업체가 아닌 엔드투엔드 AI 시스템 제공업체로서의 역할을 공고히 해줍니다. 마이크로소프트의 경우, OpenAI와 같은 대규모 AI 고객을 유치하고 유지하는 핵심 요소인 애저 클라우드의 성능과 탄력성을 향상시킵니다. AMD와 인텔의 참여는 그들이 대화의 일부로 남게 하여 단일 벤더에 의한 완전한 종속을 방지하고 업계에 여러 경로를 제공합니다.
이 기사는 정보 제공만을 목적으로 하며 투자 조언을 구성하지 않습니다.