UBS araştırması: İşletmelerin %60'ı token maliyetleri artarken AI harcamalarını kısıyor

UBS tarafından yapılan bir araştırmaya göre, işletmelerin kabaca %60'ı AI harcamalarına kontroller getirdi. Ajanlar ve kodlama araçlarından kaynaklanan token tüketimi, maliyetleri CFO düzeyinde incelemeye tabi tutarken, Çin açık kaynak alternatifleri de dahil olmak üzere daha ucuz modellere geçişi zorluyor.

Databricks CEO'su Ali Ghodsi bu yeniden dengelemeyi tanımlarken, "Bu küçük bir hız tümseği değil, büyük bir tane," dedi.

Kademeler arasındaki fiyat farkı oldukça belirgin: Anthropic'in Haiku 4.5'i milyon çıktı token başına 5 dolar alırken, üst düzey Fable/Mythos 5'in fiyatı 50 dolar — bu on katlık bir fark, model yönlendirmeyi ekonomik olarak cazip kılıyor. Rapor, bir şirkette tek bir kullanıcının AWS Bedrock'ta aylık AI maliyetlerini 35.000 dolara çıkardığını belirtiyor. Başka bir şirket ise token bütçesini tükettikten sonra dahili AI araçlarını beşten ikiye düşürdü.

Bu değişim, Anthropic ve OpenAI gibi premium AI sağlayıcıları için gelir büyümesini tehdit ederken, daha ucuz alternatifler için fırsatlar yaratıyor. Çin açık kaynak modelleri — Alibaba'nın Qwen'i, DeepSeek, MiniMax ve Zhipu'nun GLM'si — kurumsal tedarik listelerine girmeye başlıyor. Rapora göre, büyük bir küresel banka, Anthropic'in Claude'unu kullanımını dengelemek için Qwen'i yerel olarak dağıttı.

Model yönlendirme maliyet eğrisini yeniden şekillendiriyor

En önemli teknik yanıt, model yönlendirmedir — basit görevleri ucuz modellere atamak ve pahalı olanları karmaşık akıl yürütme için ayırmak. Palantir Technologies bu yaklaşımı yaklaşık bir ay önce AIP Evolve ile ticarileştirdi ve bu yöntem bir vakada müşterinin token maliyetlerini %97 oranında azalttı. Rapor, ürünün lansmandan sonraki üç hafta içinde %90 benimsenme oranına ulaştığını belirtiyor.

Microsoft'un 35 milyar parametreli MAI "Thinking" modelini piyasaya sürmesi de bu orta zemini hedefliyor — akıl yürütme görevleri için yeterince güçlü ancak sınır modellerden daha ucuz. Bu strateji, sektörün daha düşük fiyat noktalarında "yeterince iyi" AI'ya yönelik daha geniş çaplı baskısını yansıtıyor.

Maliyet sıkışıklığı, Çin açık kaynak modellerinin benimsenmesini hızlandırıyor. AWS Bedrock, model kataloğunda artık MiniMax, Moonshot'ın Kimi'si, Qwen, DeepSeek ve GLM'yi listeliyor. Microsoft, DeepSeek'i Azure AI Foundry aracılığıyla sunuyor. Bu modeller tipik olarak ücretsiz veya düşük maliyetli olduğundan, geliştiricileri için doğrudan gelir sınırlı olsa da, ortaklık fırsatları yaratıyor — BMW ve Alibaba yakın zamanda otomotiv uygulamaları için Qwen etrafında işbirliği yaptı. Açık kaynak modellerin yerel olarak dağıtılması, harici olarak barındırılan Çin AI'sını kullanmanın düzenleyici risklerini de ortadan kaldırarak onları bankacılık gibi regüle endüstriler için uygun hale getiriyor.

Bulut ve yazılım sağlayıcıları eşit olmayan bir baskıyla karşı karşıya

Bulut platformları, harcama değişiminden nispeten izole durumda. AWS, Azure ve Google Cloud, çoklu model pazar yerleri işlettiğinden, müşterilerin premiumdan daha ucuz modellere geçmesi API gelir büyümesini azaltabilir ancak yine de bilgi işlem tüketirler. UBS analistleri, "İşletmeler maliyetleri ne kadar çok yönetirse, model seçimi, dağıtımı ve faturalandırmayı tek bir bulut platformunda merkezileştirme olasılıkları o kadar artar," diye yazdı.

Donanım talebi de bozulmadan kalıyor. Nvidia'nın GB200 ve GB300 çiplerinin toplu sevkiyatları henüz yeni başlıyor ve çok modlu iş yükleri — ses, video, fiziksel AI — bilgi işlem kapsamını genişletmeye devam ediyor. Yatırımcılar için soru, model şirketlerinin fiyat sıkışmasının sonunda bulut GPU fiyatlandırma gücünü sınırlayıp sınırlamayacağı.

En büyük SaaS platformları en karmaşık konumla karşı karşıya. Salesforce, ServiceNow ve Workday, müşteriler maliyete duyarlı hale gelirken kişi başı fiyatlandırmadan tüketim bazlı fiyatlandırmaya geçmeye çalışıyor. Bu zamanlama uyumsuzluğu, AI'dan para kazanma çabalarını yavaşlatabilir. Bununla birlikte, yazılım şirketleri AI maliyet optimizasyonu sağlayıcıları olarak da bir fırsata sahip. Palantir'in AIP Evolve'ü en net örnek, ancak yapısal avantaj, modelden bağımsız bir yönlendirme katmanı olarak hareket edebilen herhangi bir platforma ait.

UBS Evidence Lab, yaklaşık 130 şirketle anket yaptı ve yalnızca %8'inin AI ajanlarını üretimde ölçekli olarak dağıttığını tespit etti. Diğer %37'si bunları sınırlı üretimde kullanıyor, %29'u pilot çalışma yapıyor ve %26'sı ajan dağıtımı olmaksızın yalnızca Copilot veya kodlama araçlarını kullanıyor. Otonom ajanlardan kaynaklanan token tüketiminin büyük kısmı henüz başlamadı. Bir AI hukuk asistanı olan Harvey'in token tüketimi, Ocak ayındaki 1 trilyondan Mayıs ayında 12 trilyon ila 13 trilyona yükseldi — bu, optimizasyon ve genişlemenin bir arada var olabileceğinin kanıtı.

Harcama kontrolleri, 2022-2024 arasındaki pandemi sonrası bulut bütçe daralmasından temel olarak farklılık gösteriyor. Bu, olgun kullanımın kesilmesiydi. Şimdiki ise erken aşama teknoloji yayılımı sırasında maliyet yönetimi. Sonuç, AI talebinin ortadan kalkması değil, kazananların yeniden sıralanmasıdır: premium model sağlayıcıları daha yavaş gelir büyümesiyle karşı karşıya kalırken, maliyet optimizasyon platformları fayda sağlıyor, bulut sağlayıcıları çoklu model iş yüklerini topluyor ve Çin açık kaynak modelleri küresel kurumsal altyapıda bir yer ediniyor.

Bu makale yalnızca bilgilendirme amaçlıdır ve yatırım tavsiyesi niteliği taşımaz.