开源AI追赶速度加快：2026年四大模型将能力差距缩至3个月

根据OpenRouter在2026年6月发布的分析报告，开源AI模型已将能力差距缩小至仅三个月，目前有四款模型能够在成本仅为零头的情况下与OpenAI和Anthropic的产品展开竞争。

"过去18个月，开源与闭源模型之间的差距稳定在3到6个月，没有迹象表明闭源实验室正在拉开距离，"OpenRouter在其报告中写道。该报告列举了2026年最重要的四款开源权重发布。

DeepSeek V4 Flash在成本效率上领先。这款拥有2840亿参数的混合专家模型于4月以MIT许可证发布，在SWE-bench Verified上得分79%，与其Pro版本仅差1.6个百分点，而输出定价为每百万token 28美分，约为OpenAI GPT-5.5成本的1/150。GLM 5.2由中国智谱AI（Z.ai）于6月中旬发布，在Artificial Analysis的智能指数开源排行榜上以51分位居榜首，仅落后于现已遭禁用的Anthropic Fable 5五分。这款7440亿参数的模型完全在10万块华为昇腾910B芯片上训练完成，未使用任何Nvidia硬件，在SWE-bench Pro上得分62.1，领先于GPT-5.5的58.6分。

这种趋同态势具有直接的投资意义。根据OpenRouter的定价对比，企业将编码和自主工作流从封闭API迁移至开源权重模型，可将推理成本降低50至150倍。这种动态威胁着OpenAI和Anthropic的定价能力，同时利好支持自托管部署的基础设施提供商——而这也对美国出口管制的战略价值提出了疑问，因为GLM 5.2发布的那一周，华盛顿刚下令Anthropic限制外国公民访问Fable 5。

OpenRouter发现，DeepSeek V4 Flash已成为开发者们常规性地直接接入自主工作流、作为Anthropic或OpenAI系统即插即用替代品的首款开源权重模型。其Flash版本保留了Pro版大部分编码能力——SWE-bench Verified得分79%对80.6%——而输出成本仅为GPT-5.5的1/150。DeepSeek在5月将其折扣价格变为永久性定价，在前沿智能层巩固了价格战。其权衡之处在于：该模型需要异常具体的提示词，在创意写作和语调控制方面表现不佳，限制了其在内容生成任务中的应用。

GLM 5.2的问世具有地缘政治分量。美国商务部于6月12日命令Anthropic对所有外国公民禁用Fable 5和Mythos 5，理由是一个Anthropic予以否认的越狱漏洞。智谱AI五天后以MIT许可证发布GLM 5.2，让全球开发者获得了一款可以下载并自托管的模型——不受任何未来出口禁令的影响。在基于盲人投票的Elo排行榜Code Arena上，GLM 5.2以1595分排名第二，在Fable 5被移除后成为所有当前可用模型中的第一名。在Design Arena上，它直接登顶。剩余差距主要在最具挑战性的推理基准上：在测试抗数据污染流体推理能力的ARC-AGI-2上，中国最佳模型得分仅为11.8%，远低于美国领先实验室。

MiniMax M3填补了另一个细分领域。它是这四款模型中唯一原生理解文本、图像、图表和视频的模型，因此成为需要屏幕读取、UI自动化或视觉文档解析的自主工作流的默认选择。它在智能指数上得分44，与DeepSeek V4 Pro持平，在现实世界自主任务上大致与Claude Sonnet 4.6相当。其定价——每百万输入token 9.8美分、输出token 1.21美元——在多模态工作负载上低于Google的Gemini Flash，但其社区许可要求商业使用须注明出处，大规模产品须获得书面授权。

NVIDIA的Nemotron 3 Ultra代表了美国企业的制衡力量。这款5500亿参数的Mamba-2与Transformer混合模型在智能指数上得分48，虽然在原始基准上落后于GLM 5.2，但在Nvidia自家硬件堆栈上具有更优的部署效率。Nvidia不仅开源了模型权重，还在OpenMDW许可下开源了训练数据、配方、评估工具和强化学习基础设施——这一策略旨在推动对其芯片和软件生态系统的需求。该模型的NVFP4精度和多token预测支持使其成为那些更看重部署速度、数据控制和供应商稳定性而非峰值基准得分的企业的最实用选择。

对投资者而言，开源趋同创造了一个双面押注的局面。像Nvidia这样的公司间接受益，因为开源权重的采用推动了对推理硬件的需求——Nemotron既是独立产品，也是Nvidia AI堆栈的销售载体。但价格暴跌威胁着封闭API提供商的收入模式：当开源替代品以1/150的成本提供可比的编码性能时，OpenAI和Anthropic面临着证明其高价合理的压力。微软在Azure上托管OpenAI模型，如果转向开源权重模型的企业选择Azure托管基础设施，它可捕获对等的需求。关键风险在于：开源模型在生产环境中无法通过企业的安全性和合规性测试，从而减缓采用速度并维持封闭源的定价权。

本文仅供信息参考，不构成投资建议。