![]()
新智元報(bào)道
![]()
【新智元導(dǎo)讀】Google 發(fā)布 Gemini 3.5 Live Translate,把實(shí)時(shí)同傳從「等你說完再翻」推進(jìn)到「邊聽邊說」,70+語言、幾秒延遲、語氣保留。
一句話還沒說完,譯音已經(jīng)響在你耳邊——而且是對方的語速、對方的語調(diào),只慢幾秒。
剛剛,Google 甩出了 Gemini 3.5 Live Translate。
這是它最新的語音對語音翻譯模型,一句話概括:把「等你說完再翻」的老規(guī)矩,直接掀了。
![]()
Google DeepMind 首席科學(xué)家 Jeff Dean 親自發(fā)帖官宣,字里行間透著一股「二十年磨一劍」的底氣:
語音翻譯是 Google 跑得最久的機(jī)器學(xué)習(xí)項(xiàng)目之一,而這一次,它終于跑進(jìn)了耳機(jī)。
![]()
把「對講機(jī)」式翻譯給掀了
過去的翻譯機(jī)大家都熟。
你說一句,它憋著,等你把話說完,再吭哧吭哧翻給對方。
一來一回,節(jié)奏全斷,倆人像在打?qū)χv機(jī)。
更要命的是,真實(shí)對話從來不是規(guī)規(guī)矩矩的你一句我一句——人會(huì)搶話、會(huì)猶豫、會(huì)說半截改口。
Gemini 3.5 Live Translate 不這么干。它邊聽邊譯,話音未落,譯音先到。
這背后是一套相當(dāng)微妙的平衡術(shù):多等一會(huì)兒,上下文聽得更全,翻得更準(zhǔn);立刻開口,能緊緊跟住說話人,但可能猜錯(cuò)后半句。
模型就在這兩頭之間逐字逐句地反復(fù)拿捏,最終交出的效果是——輸出連貫、沒有尷尬的卡頓,全程只落后說話人幾秒。
更絕的是聲音本身。
它能保留你的語速、音高和語調(diào)——譯出來的不是冷冰冰的機(jī)器音,是帶著你說話味兒的聲音。你著急,譯音也跟著急;你慢條斯理,譯音也悠著來。
DeepMind 同步放出的模型卡透了點(diǎn)底:這個(gè)模型基于 Gemini 3 Pro 打造,能吃進(jìn)最長 128K token 的音頻上下文,評測就盯著三個(gè)指標(biāo)死磕——翻譯質(zhì)量、延遲、語音自然度。
![]()
換句話說,Google 給它定的 KPI 不是「翻得對」,而是「聊得順」。
它能一口氣認(rèn) 70 多種語言,而且全自動(dòng)識別,你中途換種語言它也能跟上,不用手動(dòng)設(shè)置。環(huán)境吵也不怕,菜市場、機(jī)場、馬路邊都能用。
開發(fā)者、企業(yè)、普通人,一個(gè)不落
這次 Google 玩得很狠,三條線同時(shí)鋪開。
開發(fā)者,通過 Gemini Live API 和 Google AI Studio 公測,今天就能上手;
企業(yè),本月起在 Google Meet 私測;
普通人,Google Translate 的安卓和 iOS 版全球上線——點(diǎn)開 App 左下角的「實(shí)時(shí)翻譯」,接上任意一副耳機(jī)就能用。
![]()
最讓打工人有感的是 Google Meet。以前它的語音翻譯只支持 5 種語言,而且只能在英語和其他語言之間打轉(zhuǎn)。
現(xiàn)在一口氣干到 70+,單場會(huì)議能撐起 2000 多種語言組合——英語、普通話、瑞典語滿桌子飛,誰說什么對方都能秒懂。
安卓還藏了個(gè)細(xì)節(jié):「聆聽模式」。把手機(jī)像打電話一樣貼到耳邊,譯音直接從聽筒里鉆進(jìn)來,旁人聽不到。
跟個(gè)西語導(dǎo)游團(tuán)、臨時(shí)沒帶耳機(jī),掏出手機(jī)往耳邊一貼就能救急。
每月一千萬通電話
光說參數(shù)太虛,看個(gè)真實(shí)場景。
Google 找了東南亞的 Grab 來試。司機(jī)說本地話,乘客聽到的是自己的母語,接駕常用的那幾句「你在哪」、「我馬上到」不再雞同鴨講。
要知道,Grab 用戶每月要打超過 1000 萬次語音電話——這不是發(fā)布會(huì)上的 Demo,是真要塞進(jìn)千萬次日常對話里跑的活兒。
除了 Grab,CJ ENM、LiveKit 這些公司也提前上手試過,反饋都指向同一點(diǎn):質(zhì)量、準(zhǔn)確度、低延遲。
開發(fā)者這邊也省了大力氣。
Agora、Fishjam、LiveKit 一票平臺(tái)已經(jīng)接入 Gemini Live API,把最難啃的實(shí)時(shí)媒體流基礎(chǔ)設(shè)施全包圓了——采集、傳輸、回聲消除這些臟活累活有人扛,開發(fā)者只管做體驗(yàn)。
視頻配音、多語直播、跨語言客服、在線課堂,全是現(xiàn)成的落點(diǎn)。
二十年長跑,跑進(jìn)耳機(jī)里
往回看一步,你會(huì)發(fā)現(xiàn)這事兒 Google 憋了很久。
20 年前,Google 翻譯只是一個(gè)開創(chuàng)性的小實(shí)驗(yàn),想把語言這門科學(xué),變成人和人連接的魔法。
如今每個(gè)月,它要為數(shù)十億用戶翻譯超過一萬億個(gè)單詞。
從「把文字翻成文字」,到「拍張照翻菜單」,再到今天「把你說的話實(shí)時(shí)變成另一種語言的聲音」,這條路走了整整二十年。
當(dāng)然,話別說太滿。
谷歌官方自己也標(biāo)了限制:目前只吃音頻輸入;遇上重口音、快速來回切語言、好幾個(gè)人搶著說、或者長時(shí)間停頓,聲音復(fù)刻還可能不穩(wěn)。
它不是終點(diǎn),但是一個(gè)相當(dāng)能打的起點(diǎn)。
方向已經(jīng)很清楚了。同聲傳譯曾經(jīng)是頂尖譯員才扛得下來的活兒,一小時(shí)幾千塊,還得提前一周備稿。
現(xiàn)在,它正變成耳機(jī)里一個(gè)默默運(yùn)轉(zhuǎn)的功能,隨叫隨到。
當(dāng)語言不再是墻,剩下的,就只有人和人想不想聊了。
參考資料:
https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-live-3-5-translate/
https://deepmind.google/models/model-cards/gemini-3-5-audio/
https://ai.google.dev/gemini-api/docs/live-api/live-translate
https://x.com/JeffDean/status/2064400689825288351
編輯:所羅門
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.