핵심 요약:
- 기업 AI 워크로드의 95%가 여전히 간단한 작업에 고비용 프론티어 모델 사용
- DeepSeek V4 Pro는 입력 비용 7배, 출력 비용 17배 저렴
- CFO들, 비용 압박 속에 미래 헤드카운트를 AI 토큰과 맞트레이드
핵심 요약:

기업 AI 워크로드의 95%가 여전히 프리미엄 프론티어 모델에서 실행되고 있다 — 텍스트 요약, 이메일 분류 같은 단순 작업조차도 — 최고재무책임자(CFO)들이 미래 헤드카운트를 저렴한 토큰으로 대체하기 시작하면서 기업 기술 예산을 재편하는 구조적 변화가 일어나고 있다.
"토큰당 비용 문제가 엔지니어링팀에서 이사회실로 이동했습니다,"라고 Edgen의 기업 AI 애널리스트 Alex Nguyen은 말했다. "CFO들은 주니어 애널리스트 3명을 저렴한 모델에서 실행되는 AI 에이전트 1명으로 대체할 수 있다는 사실을 깨닫고 있으며, 10배 볼륨에서도 수학이 성립합니다."
그 산술은 냉혹하다. SWE-bench Verified 코딩 벤치마크에서 80.6%, 고급 MMLU-Pro 추론 지수에서 87.5점을 기록한 DeepSeek의 V4 Pro 모델은 입력 토큰 100만 개당 0.435달러, 출력 토큰 100만 개당 0.87달러로 — Anthropic의 Claude Sonnet이나 OpenAI의 GPT-5.5-Med보다 입력 비용은 7배, 출력 비용은 17배 저렴하다. 경량 버전인 V4 Flash 변형은 Claude Haiku 같은 엔트리급 대안보다 10~25배 저렴하다. 중국에서 네이티브로 호스팅될 경우 DeepSeek의 캐시 읽기 가격은 서구 클라우드 대안보다 87배 저렴하다고 회사가 공개한 가격표에 따르면 알려졌다.
비용 격차는 각성제 역할을 하고 있다. 우버(Uber)는 2026년 전체 Claude Code 및 Cursor 예산을 올해 첫 4개월 만에 소진했으며, 최고운영책임자는 직원들에게 더 나은 제품 성과 없이는 비용을 "정당화하기 어려워지고 있다"고 말했다. 에어비앤비(Airbnb)의 Brian Chesky는 회사가 프로덕션에서 OpenAI의 최신 모델에 크게 의존하는 것을 피하고 알리바바의 Qwen 같은 더 빠르고 저렴한 대안을 선호한다고 밝혔다. 핀터레스트(Pinterest)의 최고기술책임자는 자사가 알리바바의 오픈 Qwen 모델을 자체 '취향 그래프'로 사후 훈련시켜 프론티어급 품질을 90% 비용 절감으로 달성했다고 확인했다.
토큰 비용 위기는 기업 AI 시장의 영구적 양극화를 가속화하고 있다. VentureBeat의 2026년 1분기 기업 사용자(직원 100명 이상 조직) 설문조사에 따르면, '토큰당 비용 또는 라이선스 모델'이 주요 선정 기준으로 1~3월 사이 25.4%에서 36.7%로 급등했으며, 순수 성능에만 뒤처졌다. 기업 프로덕션 환경은 이제 워크로드를 가격에 따라 라우팅하고 단일 벤더 종속을 피하기 위해 평균 14개의 서로 다른 모델을 동시에 배포하고 있다고 Andreessen Horowitz의 인프라 분석이 밝혔다.
모델 사용을 위한 선도적 개발자 프록시인 OpenRouter에서는 DeepSeek의 V4 Flash가 지난주 토큰 소비 48% 급증으로 1위를 차지했다. DeepSeek의 상위 3개 모델은 플랫폼에서 거의 6조 개의 토큰을 처리한 반면, OpenAI의 프리미엄 GPT-5.5는 4700억 개 토큰으로 15위로 밀려났다. OpenRouter는 최근 ServiceNow Ventures, Snowflake Ventures, Databricks Ventures, Nvidia의 NVentures, Google의 CapitalG가 참여한 1억 1300만 달러 시리즈 B 라운드를 유치했다 — 이는 기업 인프라 벤더들이 멀티 모델 라우팅을 기본 아키텍처로 채택할 것이라는 신호다.
구조적 마진 압박이 모든 서구 연구소에 동등하게 타격을 주지는 않을 것이다. Anthropic은 Claude Code 같은 프리미엄 소프트웨어 제품으로 여전히 보호받고 있으며, 엔지니어링 팀들은 핵심 프로덕션 개발에서 결정론적 정확성을 위해 비용을 지불한다. OpenAI는 더 큰 위험에 노출되어 있다: 기업 매출의 더 큰 부분이 고볼륨 범용 API 토큰 스트림에 의존하는데 — 이것이 바로 오픈웨이트 모델이 상품화하고 있는 계층이다. 1.6조 파라미터 모델의 키-값 캐시를 100만 토큰 컨텍스트 루프에서 5.48GB의 고대역폭 메모리로 압축하는 DeepSeek의 아키텍처(비교 가능한 서구 아키텍처는 89GB 필요)는 비용 우위를 일시적이 아닌 구조적으로 만든다.
기업 기술 구매자에게 계산은 "어떤 모델이 최고인가"에서 "이 특정 작업에 이 가격대에서 어떤 모델이 최적인가"로 전환되고 있다. 추론 라우팅 최적화에 실패한 기업들은 멀티스텝 자율 에이전트 배포로 AI 토큰 소비가 기하급수적으로 증가함에 따라 마진 압박에 직면할 위험이 있다. 계층적 모델 아키텍처를 채택하는 기업들 — 미션 크리티컬 추론에는 프리미엄 프론티어 모델을 유지하면서 고볼륨 백그라운드 작업은 저렴한 오픈웨이트 대안으로 라우팅 — 은 CFO들이 지금 요구하는 비용 절감을 포착할 수 있을 것이다.
이 기사는 정보 제공 목적으로만 작성되었으며 투자 조언을 구성하지 않습니다.