当前位置：首页 > news >正文

刚刚，谷歌把全世界的耳机变成了「同声传译器」！

news 2026/7/1 21:50:12

谷歌继续发力。

这一次，是语音。

打开最新版Google TranslateApp，连上任意耳机，点一下Live translate，对着说话的人。

Bingo，你就拥有了一个支持 70 多种语言的「同声传译器」。

更牛逼的是，它不挑。

不需要翻译器这样的专业设备，你手上的任何耳机都行。

而且，它不是那种冷冰冰的“机翻”。

翻译出来的声音会保留说话者的语调、节奏，甚至是情绪起伏。

你甚至能分辨出是谁在说话。

出国旅游、外语电影、国外餐厅点菜，一副耳机就都解决了。

目前这个功能还是 beta，只在安卓 App，面向美国、墨西哥和印度用户开启测试。

iOS 和更多地区要等明年了。

划重点，这里的地区，意思是你谷歌账号所在的地区。

01｜背后的功臣：Gemini 2.5 Flash Native Audio

实时翻译背后的功臣，是谷歌刚刚更新的模型：Gemini 2.5 Flash Native Audio。

见名知意，它是一个原生语音模型。

ComplexFuncBench Audio，专门测试语音 AI 在实时对话中调用外部工具的能力。

在这个基准中，新版 Gemini 准确率 71.5%。

作为对比，OpenAI 的gpt-realtime是 66.5%。

在真实对话中，这意味着 AI 能更准确地判断什么时候该去查信息、查什么，以及查完还能自然地融入对话里，不出现尴尬停顿。

指令遵循率也提升了，从 84% 到 90%。

以前给 AI 设定规则，它有 16% 的概率会忘记或理解错。

现在好多了。

多轮对话质量更是从 62% 上涨到了 83%。

新版 Gemini 能更好地记住之前聊过什么。

一句话总结，Gemini 2.5 Flash Native Audio变得更靠谱了。

02｜Shopify 这样说

Shopify，全球最大的独立电商建站平台，服务数百万商家。

它们用这个模型做了个助手，叫 Sidekick。

Shopify 产品副总裁 David Wurtz 这样评价：

「用户在使用 Sidekick 一分钟内就忘记自己在和 AI 说话，有些人在长对话结束后甚至会对机器人说谢谢。」

说谢谢。

对一个 AI。

这可能才是语音 AI 真正的转折点。

不是跑分第一，而是普通用户开始分不清自己在和人还是 AI 对话。

03｜已经有公司在用它赚钱了

除了 Shopify，还有两个案例。

卖房子的 United Wholesale Mortgage 把这个模型集成到他们的 AI 助手 Mia 里。

结果，Mia 已经帮经纪人搞定了超过 14000 笔贷款。

Newo.ai 用它做 AI 前台客服。

他们说这个模型能在嘈杂环境中识别出主要说话者，能在对话中途切换语言。

听起来「非常自然和富有情感」。

低延迟、高情商的语音 AI，已经是生产力了。

04｜现在就能用

还是你们熟悉的老朋友，谷歌 AI Studio。

打开 AI Studio，左侧菜单栏里点Playground，中间选择Live。

继续点击那个带有「New」标识的Gemini 2.5 Flash Native Audio。

你就可以嗨起来了，完全免费。

API 现在也能用，preview 预览版。

模型名gemini-2.5-flash-native-audio-preview-12-2025。

另外，Gemini 2.5 Flash和Gemini 2.5 Pro的 TTS 模型也更新了，但更推荐这个实时语音。

练口语、语音助手、客服机器人，可以冲了。

结语

用户忘记自己在和 AI 说话，这可能才是语音 AI 模型的最高境界。

我是木易，一个专注 AI 领域的技术产品经理，国内 Top2 本科 + 美国 Top10 CS 硕士。
相信 AI 是普通人的“外挂”，致力于分享 AI 全维度知识。这里有最新的 AI 科普、工具测评、效率秘籍与行业洞察。
欢迎关注“AI信息Gap”，用 AI 为你的未来加速。

精选推荐

查看全文

http://www.cnnetsun.cn/news/79565.html

wgai开源AI平台：从零开始构建智能识别与对话系统

Adobe Downloader：macOS平台Adobe软件下载终极解决方案

Go语言数据结构和算法(二十六)线性搜索算法

Noria高性能数据流系统：解决现代Web应用性能瓶颈的终极方案

LangFlow支持异步任务处理，提升AI响应速度

JELOS：专为掌机打造的轻量级Linux操作系统

spark的统一内存管理机制

终极方案：巧用PVC与StorageClass彻底解决Hadoop在K8s的存储难题

8、算法与数据结构实用案例解析

palera1n越狱终极指南：从零开始解锁iOS设备完整教程

GLM-4-32B-0414：重塑智能体技术栈的推理引擎革命

终极色彩生成器：一键打造完美配色方案

Blender版本管理技巧：从新手到高手的全流程指南

F5-TTS移动端部署终极指南：5大技巧实现70%内存优化与性能飞跃

DataX Web UI：企业数据同步的终极可视化解决方案

系统可观测性实战指南：从混乱日志到智能洞察的架构进化

分布式训练终极指南：同步与异步策略深度解析

一根同轴线，真的扛得住 4K 吗？ ——从摄像头带宽算起，聊透车载 SerDes 接口选型

掌握质谱分析：OpenMS完整使用指南与实战技巧

CloudStream智能文件管理：告别杂乱无章的媒体库

CopyQ剪贴板管理终极指南：3个核心技巧打造高效工作流

Linly-Talker数字人系统对网络带宽的要求分析

ExoPlayer状态恢复：如何让视频播放器记住你的“续播点“？

MSBuild BuildCheck框架：构建质量革命与团队效率提升终极指南

Wechaty智能消息处理全攻略：告别单一回复，实现多场景精准响应

Langchain-Chatchat在企业知识管理中的5大应用场景

Arkime性能监控完整教程：构建企业级流量分析平台

秒开体验：SmartTube视频缩略图加载与缓存优化实战

20、GNU Make标准库函数详解

21、GNU Make 标准库实用功能与使用技巧详解

01｜背后的功臣：Gemini 2.5 Flash Native Audio

02｜Shopify 这样说

03｜已经有公司在用它赚钱了

04｜现在就能用

结语

精选推荐

相关文章：