제번스 패러독스, AI 컴퓨팅 수요 폭발…토큰 비용 1,000분의 1로 하락

AI 토큰당 비용이 3년 만에 1,000분의 1 수준으로 하락했지만, 기업의 컴퓨팅 소비는 폭발적으로 증가하고 있다. 우버(Uber)는 2026년 AI 예산 전체를 4월에 이미 소진했고, AT&T는 현재 하루 270억 개의 토큰을 처리하고 있는데, 이는 18개월 전 10억 개에서 급증한 수치다.

"동일한 수준의 지능을 더 저렴하게 얻을 수 있을 때마다 우리는 소비를 줄이는 것이 아니라 늘리고 있습니다. 같은 예산으로 더 복잡한 작업을 해결할 수 있기 때문입니다"라고 AI 클라우드 기업 네비우스(Nebius)의 공동 창업자이자 최고비즈니스책임자(CBO)인 로만 체르닌(Roman Chernin)은 말했다.

이 현상은 19세기 경제학자 윌리엄 스탠리 제번스(William Stanley Jevons)의 이름을 딴 제번스 패러독스로, 비용을 낮추는 효율성 향상이 오히려 총 자원 소비를 증가시킬 수 있다는 이론이다. 이번 주 월스트리트저널(WSJ)에 기고한 경제학자 모리 해리스(Maury Harris)는 이 원리가 AI 컴퓨팅에도 적용되며, 수요의 가격 탄력성이 '매우 탄력적'일 수 있다고 주장했다. 대규모 GPU 클러스터를 구축하는 네비우스는 1월 딥시크(DeepSeek) 패닉 당시 주가가 40% 급락했지만, 체르닌은 그 주가 "아마도 영업 사상 최고의 주간"이었다고 말한다. 기업들이 추론(inference)을 대규모로 감당할 수 있다는 사실을 깨달았기 때문이다.

투자자들에게 이 영향은 상당하다. 골드만삭스(Goldman Sachs)는 연간 AI 인프라 지출이 2026년 7,650억 달러에서 2031년 1조 6,000억 달러로 증가할 것으로 추정한다. 그러나 승자는 가동률, 자금 조달 규율, 변동성 높은 부품 비용을 흡수할 수 있는 역량에 달려 있다. AI 수요가 데이터센터를 넘어 경제 전반으로 확산되면서 메모리 칩 가격은 지난 1년간 6배 상승했다.

토큰 폭발, 기업 예산을 강타하다

실험적인 챗봇에서 에이전틱(Agentic) AI 시스템으로의 전환이 주요 동력이다. 기업이 단일 턴 쿼리에서 호출을 연결하고 문서를 검색하며 실제 조치를 취하는 다단계 자율 에이전트로 이동할 때, 토큰 소비는 10배 이상 급증한다. 한 대형 의료보험사는 월간 AI 토큰 소비량이 1년도 채 안 되어 300만 개에서 1억 5,000만 개 이상으로 증가했다.

지출 급증은 공급업체의 가격 책정 방식을 재편하고 있다. 앤트로픽(Anthropic)은 개발자들이 월 200달러 요금제에서 수천 달러에 달하는 컴퓨팅 비용을 소진하고 있다는 사실을 발견한 후 정액제 기업 가격을 폐지했다. 오픈AI(OpenAI)는 같은 달 코드엑스(Codex)를 토큰당 과금 방식으로 전환했다. 주요 AI 공급업체들은 모두 종량제 가격 책정으로 수렴하고 있으며, 이는 체르닌이 말하는 구조적 락인(lock-in)을 창출하고 있다. 즉, 배치되는 모든 새 에이전트는 요율을 설정하고 조건을 통제하는 공급자에 대한 의존도를 심화시킨다.

그러나 수요 측면은 1월 시장을 강타했던 패닉과는 다른 이야기를 들려준다. 딥시크의 출시가 네비우스 주가 40% 급락과 AI 인프라 종목 전반의 매도세를 촉발했을 때, 기업 엔지니어링 팀들은 후퇴하는 대신 확장에 나서고 있었다. 비용 하락 덕분에 내부 지식 검색부터 자동화된 고객 워크플로우까지, 이전에는 경제성이 없었던 애플리케이션이 현실화된 것이다.

컴퓨팅이 저렴해질 때 승자는 누구인가

경쟁 구도는 기술 스택 상위로 이동하는 기업들에게 유리하다. 체르닌은 베어메탈(Bare-metal) GPU 임대 시장이 전 세계적으로 약 12개 고객에게 서비스를 제공하고 있다고 추정한다. 관리형 인프라는 수백 곳에 이른다. 추론 플랫폼은 수천 곳을 유치한다. 에이전틱 시스템은 수만 명의 개발자를 끌어들일 것이라고 그는 예측한다.

네비우스의 관리형 추론 플랫폼인 토큰 팩토리(Token Factory)는 이러한 전략을 잘 보여준다. 이 서비스는 기업이 백엔드 인프라를 관리하지 않고도 오픈소스 모델을 실행할 수 있게 해주며, 비용을 예측 가능하게 유지하기 위해 최적화 기술을 적용한다. 기업에게 가치 제안은 명확하다. 호스팅 모델이 비용 추적, 가동 시간 유지, 예산과 속도 요구 사항에 따른 작업 라우팅 등 복잡한 문제를 처리해준다는 점이다.

그러나 호스팅된 추론 레이어 자체도 상품화(commoditization) 위험에 직면해 있다. 2026년 한 연구에 따르면 2020년에서 2026년 사이 대규모 언어 모델(LLM) 추론 가격이 약 600분의 1로 하락했으며, OECD의 2025년 AI 시장 보고서는 경쟁이 확대됨에 따라 품질 조정 모델 가격이 급격히 하락하고 있음을 문서화했다. 이는 칩 제조사를 강타했던 마진 압박이 이제 스택 상위로 확산되고 있음을 시사한다.

투자자에게 핵심 질문은 어떤 기업이 지속 가능한 해자(moat)를 구축할 수 있느냐는 것이다. 엔비디아(Nvidia)는 선행 주가수익비율(P/E) 약 35배에 거래되고 있으며, 저렴한 추론이 최고 마진의 학습용 칩에 대한 수요를 감소시킬 위험에 직면해 있다. 아마존(Amazon), 마이크로소프트(Microsoft), 구글(Google) 등 클라우드 하이퍼스케일러는 컴퓨팅 소비 증가의 혜택을 보지만 자본 요구량 증가에 직면한다. 네비우스와 같은 인프라 제공업체는 시장이 확장됨에 따라 가동률과 가격 결정력을 유지할 수 있음을 입증해야 한다.

제번스 패러독스는 단위 가격이 하락하더라도 AI 산업 전체 매출은 증가할 것임을 시사한다. 그러나 그 매출을 확보하려면 단순히 컴퓨팅을 소유하는 것 이상, 즉 원시 처리 능력을 완제품으로 전환하는 소프트웨어, 도구, 그리고 기업 관계가 필요하다.

본 기사는 정보 제공 목적으로만 작성되었으며 투자 조언을 구성하지 않습니다.