技术解读
当 Gemini 把"说话"变成"翻译":Google 的端到端实时语音翻译,凭什么让 DeepL 和苹果都坐不住了?
你有没有试过和外国人说话,手机同时开着一个翻译 App,你说完一句,等两秒,再把翻译结果念给对方听?这个过程有三个明显的"卡点":你要先说一句完整的话、App 要等语音识别结束、翻译完成后再用合成语音读出来。整段对话因此被切成一个个"等你说完我再翻译"的回合,根本不像真正的交谈。
Google 6 月 9 日发布的 Gemini 3.5 Live Translate,想终结这种别扭的体验。它把"听、翻、说"三个步骤合并成一个端到端的神经网络,平均延迟 320 毫秒——已经接近人类同声传译员的反应速度。换句话说,你说中文,它几乎同步输出英文,中间几乎察觉不到停顿。
这是一次产品体验上的质变,而不仅仅是把数字从"延迟 1 秒"改成"延迟 0.3 秒"那么简单。

一、它到底做了什么?一段话讲清楚
Live Translate 是 Gemini App 内置的实时语音翻译功能,核心规格如下:
- 支持语言:138 种语言的双向语音到语音翻译,覆盖 200 多个语言对;
- 延迟:平均 320ms,已经够让对话节奏接近真人;
- 保留特征:语速、情感、停顿都会被一并翻译过来,而不是只翻译"字面意思";
- 免费档:每天可用 30 分钟;
- 付费档:Gemini AI Plus(4.99 美元/月,Google 6 月 9 日刚砍到这个价)及以上订阅免费解锁;
- API:Live Translate API 同步推出,定价 0.6 美分/秒,直接对标企业级竞品。
最关键的一点是技术架构上的转变。Live Translate 走的是端到端的 speech-to-speech 路径,而非常规的 ASR(语音识别)→ MT(机器翻译)→ TTS(语音合成)三段式管线。三段式管线的根本问题是:每一段都有独立的延迟,而且语音识别这一步必须等用户说完一句才能开始,所以反应再快也至少 1 秒起步。
端到端架构则不同。模型在你还在说话的时候就开始"理解",理解到一定程度就同步生成目标语言的语音流,等你说完整句话时,翻译结果也几乎同时输出。这种"边听边译"的能力,才是 320ms 延迟的真正来源。
二、为什么 320ms 这个数字很重要?
很多人对延迟不敏感,觉得 0.3 秒和 1 秒差别不大。但只要真正用过翻译设备,你就知道:
- 延迟 1 秒以上:对话会被切成"我说一句 → 等 1 秒 → 听翻译 → 对方回应" 的回合,本质上是"轮流说话",不是"交谈";
- 延迟 0.5-0.8 秒:勉强可以接受,但你仍然能感觉到"它在等我说完";
- 延迟 0.3 秒左右:进入"自然对话"区间,双方的思维节奏不会被翻译打断。
人类同声传译员的延迟通常在 2-4 秒(因为要做完整意群的消化),而 Google 这套消费级 AI 把这个数字压到了接近 0.3 秒,几乎是同传的 6-10 倍快。当然,真人同传在语境的深度理解、文化微妙之处、行业术语的精准性上仍然领先,但对日常的旅游、商务、客服场景来说,AI 已经够用了。
DeepL 的 CEO Jaroslaw Kutylowski 在 X 上回应了一句:"欢迎竞争,差异化空间仍很大。" 这是一种克制的"认输式欢迎"——它的潜台词是承认 Google 在速度上已经追平甚至超越,DeepL 必须靠"翻译质量"这种更深层的优势来维持护城河。
三、Google 这次真正在打的仗:不是翻译,是"AI 助手"的入口
把翻译功能单独看,会觉得"Google 抢的是 DeepL 的饭碗"。但如果你把它放在 Google 整个 2026 年的产品节奏里看,意义远不止于此。
第一,这是 Google AI 订阅价格战的一部分。6 月 9 日同一天,Google 把 AI Plus 从 7.99 美元砍到 4.99 美元,同时把云存储从 200GB 翻倍到 400GB。AI Plus 是 1 月才推出的入门档,包含了视频生成 Omni Flash、Google Flow、NotebookLM 等多款工具。Live Translate 直接内置其中,是把"AI Plus"从一个"工具集合"升级成"AI 翻译官"的体验。
第二,Google 用免费档 30 分钟/天这种轻度限制,把"AI 实时翻译"做成了入口。一旦用户在差旅、跨语言会议、海外购物等场景里习惯了 Live Translate,它就成为 Gemini App 的日常入口。Google 要的不是翻译这个细分市场的收入(API 0.6 美分/秒对企业来说是廉价到近乎免费),而是"让你的生活离不开 Gemini"这件事本身。
第三,它直接对标 Apple Translate 和 DeepL,抢"iOS 用户"。Apple Translate 的优势是端侧免费 + 苹果生态绑定,但翻译质量一直被诟病,且不支持真正的实时语音对话。DeepL Voice 的企业版要 8 美元/小时,是 Live Translate API 的 37 倍。Google 用 0.6 美分/秒的开发者价格,直接打穿了企业级市场的价格底线。

四、对普通人的实际影响:什么时候你真的会用上?
如果你常年用中文生活,可能觉得"实时翻译"和你没什么关系。但仔细想,这四个场景你会直接受益:
1. 跨国电商直播带货。TikTok Shop 已经把跨境直播做成了标配,英文主播、东南亚主播用各自的语言卖货,过去要么雇佣多语种主播、要么事后配音。现在用 Live Translate,一个中文主播可以同时面对六个国家的观众,直播实时翻译过去,转化率天花板会被打开。
2. 出境游自由行。在日本点菜、在欧洲问路、在东南亚打车,过去你必须靠英语这种"通用语"。现在你说中文,对方听到自己的母语,沟通效率提升一整个量级。Google 6 月发布 Live Translate 的时间点(夏季旅游季前 6 周),明显是冲着旅游场景去的。
3. 跨境客服和销售。B2B 跨境贸易里,一个中国销售能不能直接用中文接欧美客户的电话?过去不行,现在可以。Live Translate 的 API 已经在 Google Cloud 上架,接入成本是 0.6 美分/秒,大约是 21.6 美元/小时——比雇佣一个双语销售便宜几个数量级。
4. 国际会议和跨语言协作。Google Meet 已经深度集成 Gemini,下一步把 Live Translate 接入视频会议是顺理成章的事。届时,一个中日双语会议,每个参会者可以选择"听到中文"还是"听到日语",中间不再需要专业同传。
五、冷静下来看几个值得注意的问题
Live Translate 看起来很美,但有几个细节需要注意:
网络依赖 vs 端侧。和 Apple Translate 主打的"端侧免费 + 完全离线"不同,Live Translate 是云端推理。这意味着你在飞机上、偏远地区、跨国漫游时,体验会打折扣。Google 未来是否会把小模型压到端侧,目前没有时间表。
情感和语气的传递。Google 声称 Live Translate 会保留语速、情感、停顿,但实际效果会因语言对差异很大。同语系(英文 ↔ 西班牙文)效果最佳,跨语系(中文 ↔ 阿拉伯文)在文化微妙之处仍然会丢失。
隐私边界。你的实时对话是要传给 Google 服务器的,这对部分用户(尤其是涉及商业敏感内容的对话)是个顾虑。Google 隐私政策中注明对话仅用于服务提供和模型改进(除非用户主动关闭数据收集),但这个开关的默认位置是什么,值得每个用户去检查一下。
对翻译行业的冲击。AI 实时翻译 0.6 美分/秒(约合每小时 21.6 美元),比真人译员便宜 100 倍以上,会直接冲击中低端翻译市场(陪同翻译、简单商务翻译)。但高端的会议同传、文学翻译、法律翻译,短期内仍然是人机协作,不是机器替代。
六、这场仗打到 2026 年中,格局已经清晰了
把视角拉远一点。Google 在 6 月 9 日这一天连发两枪:把 AI Plus 价格砍到 4.99 美元,把 Live Translate 做成 AI Plus 的内置功能。这是两步组合拳:
- 价格上,把 ChatGPT Go、Claude Free 这一档的"低价 AI 订阅"市场抢过来;
- 体验上,用 Live Translate 这种"AI 一看就懂,一用就回不去"的功能,让用户黏在 Gemini 生态里。
对 DeepL 来说,这种"免费 + 云端 + 多语言 + 实时"的打法很难正面反击——DeepL 的强项在翻译质量而不是 AI 助手生态。对 Apple 来说,问题更尴尬:Apple Intelligence 2.0 已经因为 DMA 合规问题在欧盟延期发布,如果 Siri AI 也无法在欧盟市场部署,Live Translate 就会成为很多欧洲用户转向 Android 的新理由。
一个细节值得特别关注:DeepL 用的传统 ASR+MT+TTS 三段式管线,在速度上无法做到端到端架构的水平。但翻译质量的护城河能维持多久?当 Google 用 Gemini 3.5 的多模态能力把"理解"这件事做到接近人类水平时,翻译质量的差距会被迅速压缩。
七、结语:翻译这件事,被"实时化"重新定义了
回到最初的问题:当 AI 翻译的延迟从 1 秒变成 0.3 秒,世界会变吗?
会,而且变化比你想象的大。
它把"翻译"从一个专项技能,变成了随时可用的基础设施。过去你要"会英语"才能访问英文世界的信息,现在你只要"会说话"就行。它把"跨语言沟通"从一个需要规划的成本(雇佣译员、预约会议),变成了零边际成本的常态。
Google、DeepL、Apple、Meta、OpenAI——这场仗会打到 2026 年底才见分晓。但有一件事已经确定:"实时 AI 翻译"已经成为下一代 AI 助手的标配,谁做不出来,谁就在全球市场失去先机。
而我们这些普通用户,正在见证一个"语言不再是障碍"的时代,被悄悄构建起来。
参考来源: