Key Takeaways:
- Anthropic于7月1日恢复Fable 5,此前该模型遭政府暂停19天
- 新版安全分类器误报无害代码,迫使开发者转用Opus 4.8
- Anthropic正与亚马逊、微软和谷歌合作制定越狱严重性评级标准
Key Takeaways:

Anthropic最强大的AI模型已恢复上线,但匆忙部署的安全系统正在误报无害的代码请求,迫使开发者转而使用性能较弱的模型。
Anthropic于7月1日恢复了对Fable 5的访问权限,此前该模型已被暂停19天。但新版安全分类器在常规编程任务中频繁触发误报,迫使开发者转向性能较弱的Opus 4.8。这款模型是该公司首款面向公众的Mythos级系统,于6月下线,原因是特朗普政府在亚马逊主导发现一种可绕过其安全防护的提示技术后,实施了出口管制。
Anthropic在宣布重新部署的博客文章中表示:"新分类器在日常编程和调试任务上的误报率高于我们的预期。"该安全措施是为了满足商务部的要求而添加的,它会拦截其认为存在风险的请求,并将这些请求路由至Opus 4.8,且不向用户发出任何通知。
截至7月7日,符合条件的Pro、Max、Team及部分Enterprise订阅用户可以在每周使用配额中最多将50%分配给Fable 5,超出部分将消耗额外积分。Fable 5的积分消耗速度比Opus 4.8更快,进一步加剧了用户的挫败感。7月7日之后,所有Fable 5的使用都将消耗积分。
这一争议凸显了AI安全监管与产品可用性之间的紧张关系——这种动态可能放缓企业采用先进模型的速度,并推动开发者转向DeepSeek及其他供应商提供的开源权重替代方案,这些方案没有中心化的安全护栏。
一位Reddit上的地球科学博士生写道,他试图使用Fable 5进行有关树木如何降低环境温度的研究。分类器拦截了该请求,并将其切换到Opus 4.8。当他测试系统,要求编写使用DJI SDK控制无人机群的代码时,Fable 5却顺利生成了完整的解决方案。
这位研究者写道:"这不是一个安全系统——这是一个随机门禁。"
Anthropic在重新部署的帖子中承认了该问题,称分类器在超过99%的情况下能够拦截亚马逊研究人员识别出的特定提示技术,但代价是对良性请求频繁发出误报。该公司没有透露有多少用户会话受到影响。
误报问题尤为棘手,因为Fable 5的核心优势在于复杂的多步骤编码任务。测试过该模型的开发者报告称,当分类器未中断任务时,它在长周期智能体任务上的表现优于任何公开可用的模型,在SWE-Bench Pro基准测试中得分超过80%。一名开发者使用Fable 5在20分钟内通过从公开来源获取真实建筑数据,在Blender中重建了纽约市的天际线。另一位开发者仅凭四条提示,以173美元代币成本从零构建了一款完整的游戏。
为防止未来再发生监管对峙,Anthropic正与亚马逊、微软和谷歌合作,建立一个评估AI越狱严重程度的标准化框架。拟议的系统从四个维度对漏洞进行评分:能力提升、增益广度、武器化难度和可发现性。只有四个维度均达到最高水平的漏洞——例如可能破坏关键基础设施的技术——才会触发需要立即缓解的最高警报级别。
该公司还同意向政府机构提供未来模型的安全测试预发布权限,及时共享漏洞信息,并为Fable 5设立HackerOne漏洞悬赏计划。商务部长霍华德·卢特尼克在一封信中确认了限制的解除,并表示Anthropic已"同意主动检测并解决模型带来的安全风险"。
这一事件可能使DeepSeek等开源权重模型提供商受益,其V4-Pro模型没有中心化的安全护栏,且在编程基准测试中展现出具有竞争力的性能。Anthropic在开发者(AI采用的关键群体)中的信誉已受到影响,该公司能否将Fable 5的能力变现,取决于能否解决分类器的误报问题。Anthropic未披露Fable 5的单次代币定价,但表示7月7日之后将开始消耗使用积分。
本文仅供信息参考,不构成投资建议。