要点概述:
- Anthropic的Claude Sonnet 5在知识工作基准测试上媲美Opus 4.8,成本降低60%
- 该模型在自主编程测试中得分63.2%,高于Sonnet 4.6的58.1%,逼近Opus 4.8的69.2%
- 此次发布正值Anthropic提交IPO申请,年化营收达470亿美元,估值9650亿美元
要点概述:

Anthropic的新款中端模型以近乎一半的成本提供接近旗舰级的自主智能体性能。
Anthropic于周二发布了Claude Sonnet 5,这是一款中端AI模型,在知识工作基准测试上与其旗舰级Opus 4.8不相上下,而单次调用成本却低60%,这加剧了企业AI领域的价格战,该公司正加速冲刺首次公开募股。
"借助Claude Sonnet 5,智能体能够遵循计划、遵守我们的规范,并完成干净的多步骤变更,而且成本高效,"AI驱动代码编辑器Cursor联合创始人Sualeh Asif表示。
Sonnet 5在自主编程基准测试SWE-bench Pro上得分63.2%,高于Sonnet 4.6的58.1%,并逼近Opus 4.8的69.2%。在知识工作评估GDPval-AA v2上,它超越了旗舰模型——1618分对1615分——而定价方面,截至8月31日,每百万输入代币收费2美元,每百万输出代币收费10美元,相比之下Opus 4.8分别为5美元和25美元。该模型使用了一个更新的分词器,根据内容不同,可将输入扩展1.0至1.35倍,Anthropic表示这一变化在推广期间经过校准可实现"大致成本中性"。
此次发布之际,Anthropic正全力推进预计于今年晚些时候进行的IPO,已于6月1日秘密提交了S-1文件。该公司在5月以9650亿美元估值完成650亿美元的H轮融资后,年化营收达到470亿美元,这使得Sonnet层级将实验性使用转化为生产级营收的能力,成为公开市场投资者关注的关键指标。
自主能力成为新基准
Sonnet 5强调自主任务执行——包括规划、工具使用和多步骤工作流完成——反映了AI行业更广泛的转变。OpenAI上周发布了GPT-5.6 Sol预览版,具备类似的子智能体能力;谷歌于5月发布的Gemini 3.5 Flash也被定位为一种需要最少人工输入的自主智能体工具。当前的差异化因素已不再是哪家公司能够构建自主智能体模型,而是哪家公司能够以足够低的成本交付这些模型,使其能够大规模投入生产部署。
早期访问合作伙伴报告称,Sonnet 5能完成此前模型卡住的复杂任务。Zapier高级工程师Daniel Shepard表示,该模型完成了一项两部分的自动化工作——更新Salesforce账户层级并向企业联系人发送发布公告——而之前的版本"往往进行到一半就卡住了"。在另一项编码评估Terminal-Bench 2.1上,Sonnet 5得分80.4%,而Sonnet 4.6为67.0%,Opus 4.8为82.7%。
安全权衡与IPO叙事
Anthropic表示,Sonnet 5的幻觉和谄媚率低于其前代产品,且对提示注入攻击具有更强的抵抗力。然而,在与Mozilla合作创建的Firefox 147漏洞利用开发评估中,Sonnet 5的部分成功率为13.2%,高于Sonnet 4.6的8.8%,尽管两个模型均未产生有效的漏洞利用代码。Opus 4.8得分为68.8%,受限制的Mythos 5得分88.4%。Anthropic在Sonnet 5中默认启用实时网络安全防护,与Opus 4.7和4.8的保护措施一致。
这一定价策略也为Anthropic的IPO叙事提供了双重目的。该公司需要证明,其更便宜的模型能够从数千家企业客户那里推动高流量的、经常性的API收入——而不仅仅是来自开发者的实验性使用。D.A. Davidson科技研究主管Gil Luria对CNBC表示,尽管Anthropic"似乎在AI前沿模型领域处于领先地位,但他们当前大部分使用量来自试用和实验,这可能难以为继。"
就在昨天,加州州长加文·纽森宣布了一项合作,以50%的折扣向所有州政府机构提供Claude,并提供免费劳动力培训——这种持久的、制度化的采用可能成为经常性收入的基石。Anthropic面临着来自OpenAI、谷歌、Meta以及资金充裕的亚洲AI初创公司的竞争,这些公司正在开发类似的能力。OpenAI在3月以8520亿美元估值融资1220亿美元,并也在推进自己的IPO。
Anthropic股票尚未公开交易。该公司的S-1文件一旦公开,将面临严格审视,即Sonnet层级(便宜但高流量)还是Opus层级(昂贵但高利润)将贡献大部分毛利润。正如PitchBook分析师Harrison Rolfes对CNBC所言,2026年的IPO窗口"要么成为自互联网时代以来最具影响力的IPO周期,要么成为公开市场对叙事与基本面之间关系最昂贵的一课。"
本文仅供参考,不构成投资建议。