Anthropic 把「怎么关住 Claude」写成了一份白皮书:AI 安全的工程时代真的来了
2026年6月4日 Anthropic 发布工程长文,第一次系统披露 Claude 在产品矩阵中如何被「约束」:Constitutional Classifiers、Tool-use 沙箱、出向白名单、Code Execution 隔离、Jailbreak 自适应响应等七层机制。本文深度解读这份长文背后的行业意义——AI 安全的重心正在从「价值观声明」转向「可验证的工程机制」,以及对普通用户和企业开发者的实际影响。