AI技术
Google发布"全能型"AI模型:一张照片,就能生成以假乱真的视频
以后想让别人以为你去过巴黎?只需要一张自拍,AI 就能帮你做到。
2026年5月23日,Google 发布了一款新的 AI 模型——Gemini Omni(中文常译为"全能型")。这个名称并非夸张:它真的可以把任何格式的输入转换成任何格式的输出。而它最先落地的功能,就是用一张照片生成逼真的 AI 视频——也就是很多人最担心的那种 deepfake(深度伪造)内容。
这意味着什么?意味着过去需要专业技能、花费数千美元才能完成的"换脸视频",现在只要一个 Google 账号、每月 20 美元,就能轻松实现。
它到底能做什么?
The Verge 的编辑 Allison Johnson 进行了实测。她用自己的一张自拍照片,让 Gemini Omni 生成了三个视频:
- 她坐在餐桌前吃意大利面
- 她坐在飞机座位上
- 她站在埃菲尔铁塔前咬一口法棍
效果如何?她的丈夫看了吃面的那段视频后说:"碗看起来有点陌生。"除此之外,他完全相信那是一段真实的视频。而她——一个每天见到丈夫的人——知道视频里不是她,是因为 AI 在转头时暴露了一个细节:头发被错误地扎成了马尾辫。但她自己也承认,如果不是事先知道,几乎不可能察觉。
更令人不安的是,在另一个视频中,她让 AI 把自己"发送"到巴黎铁塔前。结果是:其中一段视频看起来略微卡通化,但另一段——她评价道——"你可能需要反复看几次才能发现那是 AI 生成的"。
换句话说:这项技术已经越过了普通人的辨别门槛。
技术原理:输入一张照片,输出一段视频
Gemini Omni 是 Google AI 视频平台 Flow 中最新的模型,代号"Omni Flash"。它的核心能力是"任意到任意"(anything-to-anything)的多模态转换。
用更通俗的话解释:你可以上传一段视频或一张图片,然后通过文字指令让 AI 在此基础上生成新的内容。比如把一张静态照片中的角色,放进一个动态的场景里;或者给一段已有视频添加、修改其中的元素。
Google 声称,Omni 相较于上一代模型 Veo 3 有几个关键改进:
- 可以结合真实视频和文字提示作为生成起点,不只是从零开始生成
- 融入了更多现实世界知识,能更好地保持角色在整段视频中的一致性
- 对文字修改指令的响应更准确,可以针对性地调整视频细节
当然,它并非完美无缺。测试中出现了角色突然"orientation 翻转"(方向突变)、物品在视频过程中不断变形(比如一瓶蜂蜜在玻璃瓶、水瓶之间来回切换)等明显错误。但正如作者所说:即便有这些 bug,"最好的那些片段,已经好到令人不安"。
为什么这件事值得警惕?
Deepfake 的门槛,从专业级降到了"入门级"
过去,制作一段可信的 deepfake 视频需要:
- 专业知识(机器学习、模型训练)
- 高性能硬件(高端 GPU)
- 时间和金钱(训练一个模型可能需要数天和数千美元)
现在,Gemini Omni 把这个门槛降到了:每月 20 美元,一个 Google 账号,外加一张照片。
这不是小打小闹的"娱乐功能"。当任何人都可以用最低的代价把自己的脸"嵌入"到任何场景中,信息真实性将面临前所未有的挑战。
已经不是"未来威胁",而是当下现实
The Verge 的记者并非第一个体验这项技术的媒体人。2026年以来,AI 生成视频的质量以惊人的速度在提升。OpenAI 的 Sora、Runway 的 Gen-3、Pika、Kling(快手)……每一家主要 AI 公司都在视频生成领域加速布局。
但 Google 的 Gemini Omni 的不同之处在于:它的易用性和与 Google 生态的深度整合。你的自拍、相册、Google 账户——这些原本就存在的素材和数据,可以让生成过程几乎没有门槛。
当 deepfake 从"技术人员专属"变成"普通用户一键生成",社会整体的应对能力还没有跟上。
我们应该怎么办?
这并不是一个可以用"禁止 AI"来解决的问题。技术进步不可逆转,更好的策略是提升整个社会的辨别能力和防御机制。
对于普通人,有几个务实的建议:
- 对过于完美的视频保持怀疑:特别是在重要事件、新闻场景中,如果一段视频好到不真实,它可能就不是真的
- 关注来源:谁发布的?在什么情境下发布的?有没有独立的佐证?
- 善用技术工具:一些 AI 检测工具正在开发中,可以帮助识别 AI 生成的视频内容
对于平台和政策制定者,挑战更加严峻:如何在保护 AI 创新动力的同时,防止其被滥用?水印技术、AI 生成内容标识、平台审核机制……这些都需要跟上技术发展的速度。
这意味着什么?
Gemini Omni 的发布,标志着 AI 生成内容从"文字"和"图片",全面进入了**"视频"时代**。
这带来的不是单一技术的进步,而是一整套社会规则的重新校准。我们曾经依赖"眼见为实",而现在,连视频也不再完全可信了。
当然,这项技术本身并不邪恶——它可以用于电影制作、教育内容创作、艺术表达等无数正面场景。问题在于,当门槛足够低,低到任何人都能使用,滥用就只是概率问题,而不是能力问题。
或许在不远的将来,我们会像现在习惯"图片可以被 PS"一样,习惯"视频可以是 AI 生成的"。但在那之前,社会需要经历一段调整期——而这个调整期,可能比我们想象的更动荡。
参考来源:
- The Verge:Google's new anything-to-anything AI model is wild
- Google 官方 AI 视频平台 Flow