핵심 요약:
- SpaceX는 지연 시간 및 하드웨어 혼합 문제로 Colossus 1이 Grok 훈련에 사용 불가능해지자 Anthropic에 임대
- 이 계약은 Anthropic으로부터 월 12억 5000만 달러, Google로부터 월 9억 2000만 달러를 창출, 연간 총 260억 달러 규모
- Colossus 1의 혼합된 Nvidia 칩과 10마일 이상 떨어진 사이트 간 노후 네트워크 링크가 극복 불가능한 병목 현상을 초래
핵심 요약:

SpaceX는 자체 Colossus 1 데이터 센터를 Grok 훈련에 사용할 수 없다는 판단을 내리고, 전체 시설을 Anthropic에 월 12억 5000만 달러에 임대했다.
블룸버그가 입수한 소식통에 따르면, 멤피스에 위치한 SpaceX의 Colossus 1 데이터 센터는 당사 최첨단 Grok 모델을 훈련하기 위해 건설됐다. 그러나 SpaceX 엔지니어들조차 지연 시간(latency)과 하드웨어 불일치 문제를 해결하지 못하면서, 이 시설은 Anthropic에 월 12억 5000만 달러의 수익원이 되었다.
"SpaceX는 이 시설이 저활용 상태로 방치되는 것보다 수익을 창출하는 것이 더 가치 있다고 판단했습니다."라고 SpaceX 최고재무책임자(CFO) 브렛 존슨은 성명을 통해 밝혔다. 그는 회사가 내부 AI 작업을 포기하지 않았으며, 90일 통지 기간으로 용량을 회수할 권리를 보유하고 있다고 덧붙였다.
300메가와트 이상의 이 시설에는 22만 개 이상의 Nvidia GPU가 여러 칩 세대(Hopper 및 Blackwell 시스템, 구형 가속기 포함)에 걸쳐 설치되어 있다. 이러한 하드웨어 이질성은 분산 훈련에서 느린 칩이 더 빠른 칩을 대기하도록 만드는 병목 현상을 초래했다. Blackwell 칩을 중심으로 보다 균일하게 구축된 Colossus 2와 3에서는 이러한 문제가 발생하지 않았다. Colossus 1과 10마일 이상 떨어진 다른 두 캠퍼스 간의 네트워크 링크는 지연 시간을 유발하여 사이트 간 훈련을 사실상 불가능하게 만들었다.
이번 임대 계약으로 SpaceX는 AI 구축 기업에서 AI 임대인으로 변모했다. 10월부터 시작되는 Google과의 월 9억 2000만 달러 계약을 포함하면, SpaceX는 원래 자체 용도로 구축한 컴퓨팅 인프라에서 월 약 21억 7000만 달러, 연간 260억 달러를 확보하게 된다. 총 7000억 달러가 넘는 이 계약들은 약 7500억 달러의 기업가치를 목표로 하는 SpaceX의 IPO 로드쇼의 핵심 요소가 되었다.
Colossus 1이 Grok을 훈련할 수 없었던 이유
SpaceX는 Colossus 1을 단 122일 만에 구축했다. 이는 IPO 로드쇼에서 업계 평균을 크게 웃도는 속도라고 자랑한 성과였다. 그러나 속도에는 대가가 따랐다. 구형 Nvidia 가속기와 신형 Hopper 및 Blackwell 칩이 혼합된 이 시설의 하드웨어 인벤토리는 훈련 효율성을 저하시키는 성능 불일치를 초래했다. 분산 AI 클러스터에서는 전체 시스템이 가장 느린 구성 요소의 속도에 맞춰 작동한다.
Colossus 1을 다른 두 캠퍼스와 연결하는 네트워크 인프라가 문제를 더욱 악화시켰다. 최첨단 모델을 훈련하려면 노드 간 초고속, 초저지연 링크가 필요하다. Colossus 1이 다른 사이트에서 10마일 이상 떨어져 있는 상황에서, 노후된 네트워킹 장비는 대규모 훈련 실행에 필요한 동기화 속도를 유지할 수 없었다.
결과적으로 SpaceX의 가장 야심 찬 AI 훈련 클러스터는 사실상 사용이 불가능해졌다. 회사는 비용이 많이 드는 네트워크 업그레이드와 하드웨어 표준화에 투자하는 대신, 외부에 용량을 상업화하는 방식을 선택했다.
260억 달러짜리 우발적 사업
Anthropic은 Colossus 1 및 Colossus II 시설에 접근하기 위해 2029년 5월까지 월 12억 5000만 달러, 약 3년간 총 450억 달러를 지불하고 있다. 이 계약은 Anthropic이 Claude, Claude Code 및 Opus 모델 제품군에 대한 예측 불가능한 수요로 어려움을 겪는 상황에서 일시적인 생명줄 역할을 하고 있다. 사용자들은 수개월째 용량 제약을 겪고 있는 이 회사의 피크 시간대에 속도 제한과 성능 저하를 보고해 왔다.
이 계약은 일시적이다. 180일 임대에 90일 상호 해지 조항이 포함되어 있다. 머스크는 "컴퓨팅이 매우 부족해지면" SpaceX가 용량을 회수할 수 있다고 말했다. 그러나 Grok의 하락세(다운로드가 1월 2000만 건에서 4월 830만 건으로 감소, 유료 전환율은 ChatGPT의 5분의 1 수준)는 이러한 회수의 긴급성을 낮추고 있다.
투자자들에게 이번 전환은 SpaceX의 AI 인프라 내러티브에 대한 의문을 제기한다. 회사는 IPO 로드쇼에서 데이터 센터 구축을 전략적 우위로 제시하며 건설 속도와 규모를 강조했다. Colossus 1의 기술적 한계로 인해 경쟁사에 외부 임대를 할 수밖에 없었다는 사실이 드러나면서 이 이야기는 복잡해졌다. 비평가들은 또한 임대 가격이 시장 수준을 초과하는지, 계약 구조에 머스크 관련 법인 간의 순환 자금 조달이 포함되어 있는지 의문을 제기하고 있다.
SpaceX 주식은 나스닥 데뷔일 약 150달러에 개장해 IPO 가격 대비 11% 프리미엄을 기록했으며, 초기 거래에서 최대 30% 급등한 후 19% 상승세로 마감했다. 이 주가는 일시적으로 SpaceX의 시장 가치를 2조 2000억 달러 이상으로 끌어올렸다.
AI 업계의 교훈은 분명하다. 하드웨어를 소유하는 것과 그것을 사용할 수 있는 것은 별개의 문제라는 점이다. 지리적 위치, 네트워킹, 통합의 복잡성은 데이터 센터를 유휴 용량으로 만들 수 있다. 최첨단 연구소들이 10만 개 이상의 GPU 클러스터를 두고 경쟁하는 상황에서, 모델 아키텍처뿐만 아니라 컴퓨팅의 물리적 제약이 결정적인 병목 현상이 되고 있다.
본 기사는 정보 제공 목적으로만 작성되었으며 투자 조언을 구성하지 않습니다.