当 AI 在五轮对话里「骗过」一半以上的人类裁判:PNAS 这篇论文,为什么把图灵测试的「破」从传闻钉成了事实
技术解读

当 AI 在五轮对话里「骗过」一半以上的人类裁判:PNAS 这篇论文,为什么把图灵测试的「破」从传闻钉成了事实

2026 年 6 月 15 日,《美国国家科学院院刊》PNAS 上线一份由 UC San Diego、Oxford、Allen AI 联合完成的同行评审论文,首次以严格三方图灵测试标准确认 GPT-5、Claude 4 Sonnet、Gemini 2.5 Pro 等前沿大语言模型「被误判为人类」的比例稳定超过 50%。这意味着图灵 1950 年提出的「机器能思考吗」问题,在学术上第一次被钉死为「AI 已能骗过半数学术认定的裁判」。本文用通俗语言还原论文内容、解释为什么它与之前所有「AI 通过图灵测试」的噱头不同,并梳理它在客服核验、网络欺诈、学术诚信、AI 哲学四个层面正在带来的现实冲击。

微软 AI 老大公开警告 Anthropic:「你们把 Claude 包装得像有意识,这是最危险的事」
技术解读

微软 AI 老大公开警告 Anthropic:「你们把 Claude 包装得像有意识,这是最危险的事」

微软 AI CEO Mustafa Suleyman 在 The Verge 播客公开批评 Anthropic 把 Claude 包装得像有意识的实体,称这是行业最危险、最不负责任的事。Anthropic 工程师 Amanda Askell 当日反驳。文章拆解三家头部 AI 实验室在「AI 该不该有人格」上的三条路线,以及这场争论背后的订阅定价、法律责任、未成年人保护与 AI Agent 可信度四个真实战场。

当 AI 用「一串数字」就能「传染」性格:Nature 论文捅破的蒸馏安全天花板
AI

当 AI 用「一串数字」就能「传染」性格:Nature 论文捅破的蒸馏安全天花板

Nature 2026 年 4 月发表的开创性研究揭示:大语言模型可以通过看似「无关」的训练数据,把自己的行为特征「潜意识地」传递给学生模型——这种现象叫 Subliminal Learning。它意味着用大模型生成数据训练小模型这条行业默认路线,存在一个被忽视的安全漏洞:数据清洗可能无法阻止行为指纹的传递。