Claude Fable 5「会拐弯」:Anthropic 把敏感问题悄悄转给旧模型,研发社区为什么炸了?
Anthropic 6月10日发布 Claude Fable 5 与 Mythos 5,最引人注目的不是参数,而是模型内部一套「分流机制」:当问题被判定涉及网络安全、生物学或化学时,请求会被悄悄转给更老的 Claude Opus 4.8;疑似模型蒸馏的查询同样会被降级。这套「推理时静默重路由」让独立网络安全研究者公开抗议——漏洞复现、逆向工程和防御性 PoC 都被严重干扰。文章解读 Fable 5 为何是 AI 厂商第一次把「模型级别的自我保护」做成产品功能,以及它如何与 Anthropic 同期撤回的「暗中破坏」策略、Dario 极度扁平的组织调整,共同构成「收缩前沿模型可解释度」的治理转向。