关键要点:
- 95%的企业AI仍在用昂贵的尖端模型处理简单任务
- DeepSeek V4 Pro在输入成本上比竞争对手便宜7倍,在输出成本上便宜17倍
- 随着成本压力加剧,CFO们正用未来的人力换取AI代币
关键要点:

95%的企业AI工作负载仍然运行在高端尖端模型上——即便是文本摘要和邮件分类等简单任务——而首席财务官们正开始用未来的人力换取更便宜的计算代币,这一结构性转变正在重塑企业技术预算。
"每代币成本问题已经从工程团队转移到了董事会会议室,"Edgen企业AI分析师Alex Nguyen表示。"CFO们意识到,他们可以用一个运行在更便宜模型上的AI代理取代三名初级分析师,而在10倍规模下,这笔账算得过来。"
数据对比十分刺眼。DeepSeek的V4 Pro模型在SWE-bench Verified编程基准测试中得分80.6%,在高级MMLU-Pro推理指数上得分87.5,其输入成本为每百万代币0.435美元,输出成本为每百万代币0.87美元——输入成本比Anthropic的Claude Sonnet或OpenAI的GPT-5.5-Med便宜7倍,输出成本便宜17倍。其轻量版V4 Flash比Claude Haiku等入门级替代方案便宜10到25倍。根据该公司公布的定价,在中国本地托管时,DeepSeek的缓存读取价格比西方云服务替代方案便宜87倍。
成本差距正迫使行业进行清算。Uber在今年前四个月就烧光了2026年全年用于Claude Code和Cursor的预算,其首席运营官告诉员工,如果没有更好的产品成果,这项支出已"越来越难以证明其合理性"。Airbnb的Brian Chesky表示,公司避免在生产中过度依赖OpenAI的最新模型,而是倾向于使用阿里巴巴Qwen等更快、更便宜的替代方案。Pinterest的首席技术官证实,该公司通过对阿里巴巴开源的Qwen模型进行基于其专有"品味图谱"的后训练,以90%的成本削减实现了接近尖端模型的质量。
代币成本危机正在加速企业AI市场的永久性分化。 VentureBeat在2026年第一季度对员工超过100人的企业用户进行的调查发现,"每代币成本或许可模式"作为首要选择标准的比例从1月到3月间从25.4%跃升至36.7%,仅次于原始性能。根据Andreessen Horowitz的基础设施分析,企业生产环境现在同时部署的中位数模型数量为14个,以按价格路由工作负载并避免单一供应商锁定。
在领先的开发者模型代理平台OpenRouter上,DeepSeek的V4 Flash在过去一周跃居第一,代币消耗量激增48%。DeepSeek排名前三的模型在该平台上处理了近6万亿个代币,而OpenAI的高端GPT-5.5则以4700亿代币滑落至第15位。OpenRouter近期完成了1.13亿美元的B轮融资,投资方包括ServiceNow Ventures、Snowflake Ventures、Databricks Ventures、英伟达的NVentures以及谷歌的CapitalG——这表明企业基础设施供应商正在押注多模型路由将成为默认架构。
结构性利润挤压并不会同等程度地冲击所有西方实验室。Anthropic仍受到Claude Code等高端软件产品的保护,工程团队在核心生产开发中为其确定性的准确度付费。OpenAI面临更大的风险:其企业收入中更大比例依赖于高容量、通用型的API代币流——而这正是开源权重模型正在商品化的层。DeepSeek的架构将其1.6万亿参数模型的关键值缓存压缩到5.48GB的高带宽内存,用于100万代币的上下文循环——而同类西方架构则需要89GB——这使得其成本优势是结构性的,而非促销性的。
对于企业技术买家而言,计算逻辑正从"哪个模型最好"转向"哪个模型在这个价格点上最适合这个特定任务"。未能优化推理路由的公司,随着多步骤自主代理的部署导致AI代币消耗呈指数级增长,将面临利润压缩的风险。而那些拥抱分层模型架构——将高端前沿模型保留给关键任务推理,同时将高容量的后台任务路由到更便宜的开源权重替代方案——的企业,将能够捕获CFO们现在所要求的成本节省。
本文仅供参考,不构成投资建议。