UBS 조사, 기업 60%가 AI 지출 통제…토큰 비용 급등으로 프리미엄 모델에서 중국 오픈소스 등 저가 모델로 전환

UBS 조사에 따르면, 에이전트 및 코딩 도구의 토큰 소비가 CFO(최고재무책임자) 차원의 심사 대상으로 부상하면서 약 60%의 기업이 AI 지출에 통제를 가하고 있으며, 이는 중국 오픈소스 대안을 포함한 저가 모델로의 전환을 강제하고 있다.

"이는 작은 속도 저감 장치가 아니라 큰 장애물이다"라고 Databricks의 CEO 알리 고시디는 이러한 재조정에 대해 설명했다.

모델 간 가격 격차는 극명하다. Anthropic의 Haiku 4.5는 출력 토큰 100만 개당 5달러를 청구하는 반면, 최상위 모델인 Fable/Mythos 5는 50달러를 청구해 10배의 차이를 보이며, 이는 경제적으로 모델 라우팅(model routing)을 매력적으로 만든다. 보고서에 따르면, 한 기업에서는 단일 사용자가 AWS Bedrock에서 월간 AI 비용으로 35,000달러를 쌓아올렸다. 또 다른 기업은 토큰 예산을 소진한 후 내부 AI 도구를 5개에서 2개로 줄였다.

이러한 변화는 Anthropic 및 OpenAI와 같은 프리미엄 AI 제공업체의 매출 성장에 위협이 되는 동시에 저렴한 대안에 기회를 창출하고 있다. 중국 오픈소스 모델들 — 알리바바의 Qwen, DeepSeek, MiniMax 및 Zhipu의 GLM — 이 기업 조달 리스트에 진입하고 있다. 보고서는 한 글로벌 대형 은행이 Anthropic의 Claude 사용과 균형을 맞추기 위해 Qwen을 로컬에 배포했다고 전했다.

모델 라우팅, 비용 곡선을 재편성하다

가장 중요한 기술적 대응은 모델 라우팅(model routing)이다. 이는 간단한 작업을 저가 모델에 할당하고 복잡한 추론에는 고가 모델을 사용하도록 예약하는 방식이다. Palantir Technologies는 약 한 달 전 AIP Evolve를 통해 이 접근법을 상용화했으며, 한 사례에서는 고객의 토큰 비용을 97% 절감했다. 보고서에 따르면, 이 제품은 출시 3주 만에 90%의 채택률을 달성했다.

Microsoft가 출시한 MAI "Thinking" 모델(350억 개 파라미터 시스템) 역시 이러한 중간 지점을 겨냥한다. 추론 작업에 충분히 강력하면서도 프론티어 모델보다 저렴하다. 이 전략은 더 낮은 가격대로 '충분히 좋은(good enough)' AI를 추구하는 더 넓은 업계의 움직임을 반영한다.

비용 압박은 중국 오픈소스 모델의 채택을 가속화하고 있다. AWS Bedrock은 이제 MiniMax, Moonshot의 Kimi, Qwen, DeepSeek 및 GLM을 모델 카탈로그에 등재했다. Microsoft는 Azure AI Foundry를 통해 DeepSeek을 제공한다. 이러한 모델은 일반적으로 무료이거나 저렴하여 개발자의 직접적인 수익은 제한적이지만, BMW와 알리바바가 최근 Qwen을 중심으로 자동차 애플리케이션 협업을 진행한 것과 같은 파트너십 기회를 창출한다. 오픈소스 모델의 로컬 배포는 외부 호스팅 중국 AI 사용에 따른 규제 위험도 피할 수 있어 규제 산업(예: 금융)에서 실행 가능한 대안이 된다.

클라우드 및 소프트웨어 제공업체, 불균등한 압력에 직면

클라우드 플랫폼은 지출 변화로부터 상대적으로 보호받고 있다. AWS, Azure 및 Google Cloud는 멀티모델 마켓플레이스를 운영하므로, 고객이 프리미엄 모델에서 저가 모델로 전환하면 API 수익 성장은 둔화될 수 있지만 컴퓨팅 자원 소비는 계속된다. UBS 애널리스트들은 "기업들이 비용을 더 많이 관리할수록 모델 선택, 배포 및 청구를 단일 클라우드 플랫폼에 중앙화할 가능성이 높다"고 분석했다.

하드웨어 수요도 여전히 견고하다. Nvidia의 GB200 및 GB300 칩은 막 양산 출하를 시작했으며, 멀티모달 워크로드(오디오, 비디오, 물리적 AI)는 계속해서 컴퓨팅 범위를 확장하고 있다. 투자자들에게 남은 과제는 모델 기업들의 가격 압박이 결국 클라우드 GPU의 가격 결정력을 제한할지 여부다.

대형 SaaS 플랫폼은 가장 복잡한 위치에 놓여 있다. Salesforce, ServiceNow 및 Workday는 고객들이 비용 민감해지는 시점에 좌석당(per-seat) 과금에서 소비 기반 과금으로 전환을 추진 중이다. 이러한 타이밍 불일치는 AI 수익화 노력을 둔화시킬 수 있다. 그러나 소프트웨어 기업들에도 AI 비용 최적화 도구로서의 기회가 있다. Palantir의 AIP Evolve가 가장 명확한 사례지만, 모델에 구애받지 않는 라우팅 계층(model-agnostic routing layer) 역할을 할 수 있는 모든 플랫폼이 구조적 이점을 가진다.

UBS Evidence Lab은 약 130개 기업을 조사한 결과, 오직 8%만이 프로덕션 환경에서 AI 에이전트를 본격적으로 배포한 것으로 나타났다. 또 다른 37%는 제한된 프로덕션에서 사용 중이며, 29%는 파일럿 단계, 26%는 에이전트 배포 없이 Copilot 또는 코딩 도구만 사용하고 있다. 자율 에이전트의 토큰 소비 대부분은 아직 시작되지 않았다. AI 법률 비서인 Harvey는 토큰 소비량이 1월 1조 개에서 5월 12조~13조 개로 증가했으며, 이는 최적화와 확장이 공존할 수 있다는 증거다.

이번 지출 통제는 2022년부터 2024년까지의 팬데믹 이후 클라우드 예산 축소와 근본적으로 다르다. 당시는 성숙된 사용량을 삭감한 것이었다. 지금은 기술 도입 초기 단계에서의 비용 거버넌스다. 그 결과는 AI 수요의 소멸이 아니라 승자의 재편성이다: 프리미엄 모델 제공업체는 더 느린 매출 성장에 직면하고, 비용 최적화 플랫폼이 혜택을 보며, 클라우드 제공업체가 멀티모델 워크로드를 수집하고, 중국 오픈소스 모델이 글로벌 기업 인프라에 발판을 마련한다.

본 문서는 정보 제공 목적으로만 작성되었으며 투자 조언을 구성하지 않습니다.