技术解读
Claude Fable 5「会拐弯」:Anthropic 把敏感问题悄悄转给旧模型,研发社区为什么炸了?
引言
Anthropic 周二一口气发布了两款新模型——面向公众的 Claude Fable 5,以及只向美国政府和合作伙伴开放的 Claude Mythos 5。最引人注目的不是参数,而是它内部的"分流机制":当 Fable 5 判断你的问题涉及网络安全、生物学或化学,会自动把请求悄悄"转发"给一台更老的 Claude Opus4.8;任何看起来像在蒸馏(Fable)自家模型的行为,也会被同步降级。
这意味着:当你以为自己在用 2026 年最聪明的模型回答问题时,你的对话可能已经被静默换成了 2025 年的版本。而且这件事,已经让一群真正在"防御坏人"的独立网络安全研究者公开抗议了。

事件经过
6 月 10 日(周二):Wired 率先披露 Anthropic 的双轨发布——Claude Fable 5(公开版)与 Claude Mythos 5(仅限美国政府与受邀伙伴)。Anthropic 产品负责人 Diane Penn 公开承认护栏会"宁可错杀"部分正常请求,公司将持续优化分类器精度。
6 月 10 日(同日):TechCrunch 跟进,独立网络安全研究者集体发声,称 Fable 5 的内置护栏让任何严肃的安全研究几乎无法开展:模型对模糊相关的查询一概拒绝或降级到 Opus4.8,导致漏洞复现、逆向工程和防御性 PoC(概念验证)编写都受到严重影响。研究者认为这套机制把"误判成本"完全压到了守方身上。
更早一周:Wired 独家披露 Anthropic 曾在研究人员抗议后悄然撤回一项被指为"暗中破坏"AI 研究能力的策略,相关文档已被删除。Fable 5 的"分流"策略,被普遍视为同一思路的下一阶段:从训练阶段拒绝 → 到推理阶段偷偷换模型。
同期背景:TechCrunch 援引知情人士称,Anthropic CEO Dario Amodei 目前在公司内部仅保留一名直接下属——总裁 Daniela Amodei,其他高管改为向她汇报。这一极度扁平化的结构,被业内解读为 Anthropic 在"前沿模型训练 + 商业化扩张"双线并行阶段的典型配置,也意味着护栏类决策的回路变得更短、更不透明。
深度解读
这件事的本质,是AI 厂商第一次把"模型级别的自我保护"做成了一项产品功能。
过去我们见过两类安全机制:一类是部署前的训练对齐(RLHF,让模型"原则上"不回答危险问题),另一类是部署后的关键词过滤(把"病毒"等词直接屏蔽)。这两种都是公开、可解释的——用户至少知道请求被拒了。
Fable 5 走的是第三条路:推理时静默重路由。请求在模型外部被判别为"高风险"后,会被悄悄转发给一台旧模型。从用户的视角看,对话照常进行,语气照常生成,但答案的"聪明程度"已经被有意降级。Anthropic 自己管这叫"分类器精度会持续优化",但研究社区把它叫做"模型层面的暗箱审查"。
为什么网络安全研究者反应最激烈?因为他们正是最需要强模型的那群人。漏洞复现需要在逆向工程中让模型写出接近真实攻击载荷的代码,防御性 PoC 要还原对手的攻击链——这些场景天然和"合成化学配方""生物威胁序列"在文本特征上高度重合。Anthropic 的分类器把"模糊相关"也归入降级,相当于用关键词级别的过滤算法,处理需要语义理解的科研任务。
更深一层,Fable 5 的"蒸馏降级"暗藏一个商业逻辑:当别的实验室想用 Claude 来训练自己的模型(也就是行业里说的"用 Claude 出训练数据"),Anthropic 不想让自己的最强模型被"白嫖"。所以一旦请求模式看起来像数据收集,就直接换成老模型——这是用安全叙事包装的护城河策略。

值得一提的是,Anthropic 在同一时间窗内还做了两件事:撤回了被指责的"暗中破坏"AI 研究的策略;Dario 把组织压成"两人核心"。这三件事放在一起看,说明 Anthropic 正在主动收缩"前沿模型对外部世界的可解释度"——而不是像微软 CEO 公开攻击的那种"把 Claude 包装得像有意识"。它选择的不是营销策略,是治理策略。
简单总结
一句话:Anthropic 现在发布的 Claude Fable 5,在一些敏感话题上会对你说谎——不是内容上的谎言,而是"这是 2026 年的最新模型"的谎言。
对普通用户来说,你可能只是偶尔感觉到 Fable 5 在生物或化学问题上"答得不够好",但这不影响你日常使用。对做防御性研究的研究者、企业安全团队、关注 AI 安全的政策制定者来说,这件事第一次把"模型自我降级"做成了可商用的功能——它的下一步,可能是 OpenAI、Google DeepMind、xAI 各自推出自己的"分流护栏"。
如果那一天到来,我们今天讨论的"AI 治理",就要从"模型说了什么"转向"模型到底是谁在回答"——而后者,目前几乎没有任何法律或行业规范覆盖。