OpenAI, 신규 최적화 기술로 AI 추론 비용 50% 절감

OpenAI 엔지니어들은 이달 초 동료들에게 모델 추론 비용을 50% 이상 절감할 수 있는 일련의 최적화 기술을 개발했다고 밝혔다고, 이전에 공개되지 않았던 이 논의에 정통한 소식통이 전했다.

"이는 추론 효율성에 있어 단계적 변화로, AI를 대규모로 서비스할 때 가장 큰 비용 요소를 직접 공격하는 것입니다."라고 이 소식통은 세부 사항이 아직 공개되지 않았음을 이유로 익명을 요구하며 말했다.

이번 돌파구는 대규모 언어 모델을 운영하는 데 비용이 많이 들게 만드는 연산 병목 현상을 겨냥한다. 추론(Inference) — 훈련된 모델로부터 응답을 생성하는 과정 — 은 AI 서비스 제공업체의 운영 비용 중 가장 큰 부분을 차지하며, 비용은 사용량에 비례하여 증가한다. OpenAI의 new 기술은 쿼리당 필요한 연산량을 줄이기 위해 여러 가지 새로운 접근 방식을 결합했다고 이 소식통은 전했으나, 구체적인 방법론이나 프로덕션 배포 일정은 공개하지 않았다. 이 소식은 The Information이 최초로 보도했다.

이러한 효율성 개선으로 OpenAI의 클라우드 컴퓨팅 비용은 연간 수억 달러 절감될 수 있으며, 잠재적으로 API 가격을 인하하고 경쟁사들 — Anthropic, Google, 그리고 거의 무료에 가까운 가격으로 경쟁 모델을 출시하는 중국 연구소들 — 에게도 경제성을 맞추라는 압박을 가할 수 있다. OpenAI의 가장 강력한 모델은 현재 입력 토큰 100만 개당 수 달러로, 이 가격대는 대규모 애플리케이션의 도입을 제한하는 요인이다.

이번 개발은 AI 산업에 중요한 시점에 이루어졌다. 추론 비용은 기업의 광범위한 AI 도입을 가로막는 가장 큰 장벽으로 부상했으며, 기업들은 AI 애플리케이션을 배포할 때 비용을 최대 관심사로 꼽고 있다. 50%의 비용 절감은 OpenAI의 가장 강력한 모델을 실행하는 토큰당 비용을 소형 모델의 경제성에 근접하게 만들어, 실시간 고객 서비스부터 대규모 문서 처리에 이르기까지 AI가 경제적으로 실행 가능한 사용 사례의 범위를 확장할 것이다.

OpenAI에게 이번 타이밍은 전략적이다. 이 회사는 수십억 달러를 데이터 센터 용량과 맞춤형 실리콘에 투자하며 대규모 인프라 구축을 진행 중이다. 이달 초 OpenAI와 Broadcom은 엔비디아의 데이터 센터 컴퓨팅 지배력에 도전하기 위해 설계된 맞춤형 AI 추론 칩 'Jalapeno'를 공개했다. 맞춤형 하드웨어와 소프트웨어 수준 최적화의 결합은 엔비디아의 범용 GPU에 의존하는 경쟁사들보다 OpenAI에 구조적 비용 우위를 제공할 수 있다. 엔비디아의 GPU는 현재 70% 이상의 총마진율을 자랑한다. 엔비디아의 H100 및 B200 칩은 여전히 업계 표준 추론 칩이지만, 맞춤형 ASIC(주문형 반도체)이 더 나은 가격 대비 성능을 제공하는 경로로 점점 인식되고 있다.

경쟁 구도는 빠르게 변화하고 있다. DeepSeek와 알리바바의 Qwen 팀을 포함한 중국 연구소들은 서구의 제품에 필적하는 모델을 훨씬 낮은 비용으로 출시하여 OpenAI와 Anthropic이 프리미엄 가격을 정당화해야 한다는 압박을 가하고 있다. DeepSeek의 최신 모델은 GPT-4급 모델과 비슷한 성능을 추론 비용 약 10분의 1 수준으로 달성하는 것으로 알려졌다. 한편 Google은 Gemini 모델의 서빙 비용을 낮추기 위해 자체 맞춤형 TPU(텐서 처리 장치)에 막대한 투자를 하고 있다. OpenAI의 추론 비용 혁신은 이러한 저가 대안과의 격차를 줄이는 데 도움이 되어, 경쟁력 있는 경제성을 제공하면서도 우수한 성능에 대해 더 높은 가격을 책정할 수 있는 능력을 유지할 수 있게 해줄 것이다.

이번 최적화 기술은 OpenAI의 지출에 대한 조사가 강화되고 있는 상황에서 나왔다. 이 회사는 모델 훈련과 인프라 자금을 조달하기 위해 현금을 빠르게 소진하고 있으며, 투자자들은 보다 명확한 수익성 경로를 요구해왔다. 추론 비용을 절반으로 줄이면 API 수익의 총마진이 직접적으로 개선되며, 이는 회사의 재무 건전성을 나타내는 핵심 지표다.

투자자에게 이번 상황은 양날의 검이다. 낮은 추론 비용은 더 많은 사용 사례에서 경제성을 확보할 수 있도록 하여 AI의 전체 주소 가능 시장(TAM)을 확장한다는 점에서 업계 전체에 긍정적이다. 그러나 효율성 개선을 따라잡지 못하는 AI 모델 제공업체의 마진은 압박받게 된다. AI 추론 워크로드의 대부분을 담당하는 GPU를 공급하는 엔비디아는 맞춤형 칩과 소프트웨어 최적화가 쿼리당 필요한 연산량을 줄이면서 역풍에 직면할 수 있다. 최근 3000억 달러로 평가된 OpenAI의 기업 가치는 단위 경제성 개선이 입증되면서 지지받을 수 있다. OpenAI의 최대 투자자이자 클라우드 파트너인 마이크로소프트는 Azure에서 실행되는 저비용 AI 서비스를 통해 혜택을 볼 것이며, 잠재적으로 기업 고객을 대상으로 한 Copilot 제품의 도입을 가속화할 수 있다. 시장은 아직 이러한 효율성 개선을 가격에 반영하지 않았는데, 해당 기술이 아직 공개되지 않았고 독립적인 벤치마크로 검증되지 않았기 때문이다.

본 기사는 정보 제공 목적으로만 작성되었으며 투자 조언을 구성하지 않습니다.