企业AI成本迫使CFO用人力换代币

95%的企业AI工作负载仍然运行在高端尖端模型上——即便是文本摘要和邮件分类等简单任务——而首席财务官们正开始用未来的人力换取更便宜的计算代币，这一结构性转变正在重塑企业技术预算。

"每代币成本问题已经从工程团队转移到了董事会会议室，"Edgen企业AI分析师Alex Nguyen表示。"CFO们意识到，他们可以用一个运行在更便宜模型上的AI代理取代三名初级分析师，而在10倍规模下，这笔账算得过来。"

数据对比十分刺眼。DeepSeek的V4 Pro模型在SWE-bench Verified编程基准测试中得分80.6%，在高级MMLU-Pro推理指数上得分87.5，其输入成本为每百万代币0.435美元，输出成本为每百万代币0.87美元——输入成本比Anthropic的Claude Sonnet或OpenAI的GPT-5.5-Med便宜7倍，输出成本便宜17倍。其轻量版V4 Flash比Claude Haiku等入门级替代方案便宜10到25倍。根据该公司公布的定价，在中国本地托管时，DeepSeek的缓存读取价格比西方云服务替代方案便宜87倍。

成本差距正迫使行业进行清算。Uber在今年前四个月就烧光了2026年全年用于Claude Code和Cursor的预算，其首席运营官告诉员工，如果没有更好的产品成果，这项支出已"越来越难以证明其合理性"。Airbnb的Brian Chesky表示，公司避免在生产中过度依赖OpenAI的最新模型，而是倾向于使用阿里巴巴Qwen等更快、更便宜的替代方案。Pinterest的首席技术官证实，该公司通过对阿里巴巴开源的Qwen模型进行基于其专有"品味图谱"的后训练，以90%的成本削减实现了接近尖端模型的质量。

代币成本危机正在加速企业AI市场的永久性分化。 VentureBeat在2026年第一季度对员工超过100人的企业用户进行的调查发现，"每代币成本或许可模式"作为首要选择标准的比例从1月到3月间从25.4%跃升至36.7%，仅次于原始性能。根据Andreessen Horowitz的基础设施分析，企业生产环境现在同时部署的中位数模型数量为14个，以按价格路由工作负载并避免单一供应商锁定。

在领先的开发者模型代理平台OpenRouter上，DeepSeek的V4 Flash在过去一周跃居第一，代币消耗量激增48%。DeepSeek排名前三的模型在该平台上处理了近6万亿个代币，而OpenAI的高端GPT-5.5则以4700亿代币滑落至第15位。OpenRouter近期完成了1.13亿美元的B轮融资，投资方包括ServiceNow Ventures、Snowflake Ventures、Databricks Ventures、英伟达的NVentures以及谷歌的CapitalG——这表明企业基础设施供应商正在押注多模型路由将成为默认架构。

结构性利润挤压并不会同等程度地冲击所有西方实验室。Anthropic仍受到Claude Code等高端软件产品的保护，工程团队在核心生产开发中为其确定性的准确度付费。OpenAI面临更大的风险：其企业收入中更大比例依赖于高容量、通用型的API代币流——而这正是开源权重模型正在商品化的层。DeepSeek的架构将其1.6万亿参数模型的关键值缓存压缩到5.48GB的高带宽内存，用于100万代币的上下文循环——而同类西方架构则需要89GB——这使得其成本优势是结构性的，而非促销性的。

对于企业技术买家而言，计算逻辑正从"哪个模型最好"转向"哪个模型在这个价格点上最适合这个特定任务"。未能优化推理路由的公司，随着多步骤自主代理的部署导致AI代币消耗呈指数级增长，将面临利润压缩的风险。而那些拥抱分层模型架构——将高端前沿模型保留给关键任务推理，同时将高容量的后台任务路由到更便宜的开源权重替代方案——的企业，将能够捕获CFO们现在所要求的成本节省。

本文仅供参考，不构成投资建议。