前段時間我在即刻上吐槽了一件事,就是一連數次,有好幾個人拿著和豆包聊天的結果給我當建議...有我50多歲的丈母娘,有和我對接的某視頻平臺的運營。
emmm...我好像也沒問你們啊。
似乎,大家使用豆包的意愿和接納程度比我想象得高多了。
然后我查了下,根據QuestMobile的數據,2025年12月豆包的月活躍用戶達到了2.27億,是第二名DeepSeek的將近兩倍。經過今年春節的一波增長,現在的數字只會更高。
![]()
講道理,這數據實在有點超出我慣常的認知了,雖然大家都懂字節做增長是強項。
然后我特意去了解了下大家平時都是怎么用豆包的,大多數是拿來問問題、寫寫東西,用完就走。但也有個越來越有趣的變化:越來越多人開始和豆包「打電話」。
語音交互,終于等到了它的時代
說到和AI語音對話,我總會想起一個人——羅永浩。
2018年,老羅在鳥巢開了一場萬人發布會,發布了一個叫TNT的產品。核心理念是:未來的電腦交互應該是語音+觸控,不再需要鍵盤和鼠標。
發布會現場翻車了。語音識別磕磕絆絆,老羅急得滿頭大汗,臺下的笑聲從善意變成了尷尬。后來他自己回憶說:當年的語音沒有AI加持,準確率雖然能到百分之九十幾,但現場那個環境確實搞砸了。
TNT被當成了笑話,當年科技圈最大的樂子之一。但老羅說的那個方向,錯了嗎?
快進到2026年,你會發現一件有意思的事:老羅8年前暢想的東西,正在以另一種形式變成現實。
第一個信號是vibe coding。現在用AI寫代碼的開發者越來越多,其中相當一部分人開始用語音來下指令。道理很簡單:說話速度是打字的3-4倍,對著Cursor說「把這個按鈕改成藍色」比打字快多了。我自己也是,用AI寫代碼這兩年,越來越覺得很多指令用嘴說比打字自然。
第二個信號是Typeless這類語音輸入產品火了。一個語音輸入法,年度會員要1000多塊人民幣,居然還賣得不錯。更有意思的是,很多vibe coder覺得貴,干脆自己用AI做了一個語音輸入工具——用AI做的工具,來給AI輸入指令,套娃了屬于是。
第三個信號,就是豆包的2億多用戶。
這三件事其實都在說同一件事:語音交互不是未來,就是現在正在發生的事。 只不過它沒有發生在老羅想象的桌面電腦上,它發生在手機上,發生在人和AI的對話里。
但語音交互有一個老問題一直沒解決好。
為什么之前和AI打電話總覺得「不對勁」
你大概試過和AI語音對話吧。不管是Siri還是之前版本的豆包,體驗都有一個共同的別扭感:你和AI之間,其實是在「輪流發言」,不是在「對話」。
你說一句,等一兩秒,AI回一句。你還沒說完,AI就搶話了。你在嘈雜的地方說話,AI把旁邊大爺的廣場舞指令當成了你的問題。
為什么會這樣?其實是技術架構決定的。之前的AI語音基本都是一條流水線:先把你說的話轉成文字(語音識別),再讓大模型理解文字生成回復(語言模型),最后把回復轉成語音播出來(語音合成)。三個環節排隊走,每一步都有延遲,加起來就是那個尷尬的空白。就像你發微信等回復,只不過這個「正在輸入…」變成了你們面對面干瞪眼。
但更別扭的地方在于,這條流水線是單向的。AI在說話的時候,它聽不到你。你說話的時候,AI也沒在聽。跟打電話完全不是一回事。你以為你倆在聊天,其實你倆在輪流發語音。
打電話的時候,你和對方是同時在聽、同時在說的。你說到一半停頓了,對方知道你在想,會等你。你說完了,對方馬上接話。背景很吵,對方也能分辨出哪個是你的聲音。
這個能力叫全雙工。人類打電話天生就是全雙工的,但AI語音對話一直做不到。
直到最近豆包的這次升級。
豆包語音通話的這次升級到底改了什么
豆包這次把語音通話的底層模型換成了端到端的全雙工模型。
翻譯成人話:以前是「你說完→它轉文字→它想→它轉語音→它說」,現在是「你說→它直接說」。中間少了好幾道工序,就像從轉三次公交變成了打直達車。這帶來了三個直觀的變化:
第一,它能一邊說一邊聽了。 你打斷它,它馬上停。你嗯嗯啊啊表示在想,它知道你沒說完,會等你。就這一點,體驗差距就非常大。
第二,抗干擾能力明顯變強。 旁邊有人說話、有音樂、有環境噪音,它不會被誤觸發,也不會把別人的話當成你的指令。
第三,延遲降低了。 在需要快速接話的場景(比如玩成語接龍),它的反應速度明顯快了。
聽起來都是技術參數。但你真正用起來的時候,感受是很直接的:和豆包打電話,第一次開始像在打電話了。
我決定拿一整天來測一下,到底有多「像」。
帶著豆包去逛AIFUT
4月8號,卡茲克辦的AIFUT大會在北京亦莊開幕,就是之前Faker和TheShy打表演賽的那個電競館。34個AI展位,主論壇1000張票秒光,展區免費開放,從早8點到晚9點。
我決定做一個實驗:這一整天的出行,在不同環境里和豆包打電話,看看全雙工在真實場景下到底表現怎么樣。
![]()
不過在出發之前,我做了一件事:先在對話里把AIFUT的活動信息喂給了豆包。 展會時間、地點、簽到規則、展位分布,全部告訴它。這一步后來證明非常關鍵。
場景一:網約車上
坐上車,我撥通了豆包的語音通話。
「我一會要去參加那個AIFUT的展會,我有什么需要注意的嗎?」
因為之前已經喂過信息,豆包馬上就給了很具體的建議:提前在小程序完成簽到能領5個FUT幣、今天氣溫10到20度建議帶件外套、場館里不能吃螺螄粉臭豆腐這些重味食物。
挺順的。然后我追問:「哎我有什么東西是必須帶著才行的嗎?入場有啥要求不?」
它說身份證原件必帶,簽到領FUT幣和主論壇入場都需要。
我一下慌了:「我靠我好像忘帶身份證了,這怎么辦?」
我當時是真慌了。但它倒是比我淡定,分情況回答:如果只是逛免費展區不用身份證直接進場就行,如果買了主論壇門票可以試試微信或支付寶的電子身份證,在卡包或證件夾里能找到,現場工作人員一般會認可。
坐在旁邊的司機師傅看了我一眼,大概在想這人為什么對著手機自言自語還急得不行。
這段對話最讓我意外的不是它回答得對不對,而是聊天的感覺。 因為提前喂了上下文,整個對話省去了大量解釋背景的時間。我不需要說「AIFUT是一個AI展會,在北京亦莊,有34個展位」——它都知道。這讓語音對話的效率提高了一個量級。
還有幾個細節讓我覺得這個對話確實不一樣。
它在回答簽到規則的時候,我突然想起來一個事,直接插了一句「等等」。它幾乎是瞬間就停了,沒有像以前那樣把剩下的話說完才停。等我說完補充的問題,它接著往下講,銜接得很自然。
另一個細節是節奏。我問「忘帶身份證怎么辦」的時候,其實后面猶豫了一下才補了一句「這怎么辦」。中間大概停了兩三秒。如果是之前的AI語音,這兩三秒的空白它大概率就開始回答了,因為它以為你說完了。但豆包沒有,它等到我真正說完了才接話。該等的時候等,該接的時候秒接。 這個節奏感確實挺像在和人聊天。
網約車里有一點路噪和導航播報聲,完全沒影響到對話。
場景二:主論壇辯論賽進行中
下午三點多,主論壇正在進行一場辯論賽,題目是「教別人用AI是可以教會的嗎」。臺上AJ、卡爾的AI沃茨、葬AI、Max For AI幾個AI博主吵得不可開交,賽博禪心主持,駱軼航當評委。電競館的音響系統本來就是給英雄聯盟比賽設計的,臺上的聲音在整個場館里回蕩,跟看世界賽團戰差不多。
我就坐在觀眾席上。
這時候我掏出手機撥通了豆包。但我不太好意思大聲說話——周圍都是在聽辯論的觀眾。所以我壓低聲音,問了一個很日常的問題:「我們現在打車回國貿的話,大概需要多久?」
這個問題其實不簡單。首先,臺上辯論聲遠比我的聲音大。 這不是「有點背景噪音」的程度,而是臺上好幾個人在激烈對話、音響全開的那種環境,我的聲音在里面幾乎可以忽略不計。其次,要回答這個問題,豆包不僅要聽清我說了什么,還需要知道我現在在哪(亦莊的電競館),再結合當前時間點來預估路程。
但它回答了,而且接話速度很快。我說完最后一個字,大概不到一秒它就開始回復了。不僅聽懂了我的問題,還給出了從亦莊到國貿的打車時間預估。整個過程中,它沒有一次被臺上幾個人的辯論聲打斷,也沒有把辯手的話混進我的問題里。
你想想這個場景:一個幾百人的電競館,臺上四五個人在激烈辯論,音響全開,而你在觀眾席上小聲問了一句「打車回國貿要多久」,AI居然能只聽到你,還給出了靠譜的回答。
半年前的AI語音助手在這個環境里,大概率兩種結果:要么直接聽不清你在說什么,要么把臺上辯手的話當成你的指令來回復。
但這次豆包在電競館里的表現,確實讓我對全雙工有了更直觀的理解。它真正做到了在一堆人聲里只聽你一個人的聲音。 這個能力聽起來簡單,但你親身體驗過在那種噪音里它還能準確回答你,感受是完全不同的。
一個讓語音對話好用10倍的小技巧
測完這兩個場景,我還發現一個挺實際的事:語音對話好不好用,不只取決于模型,還取決于你怎么用它。
之前我試過直接冷啟動和豆包打電話,聊幾句就覺得沒什么意思。感覺像跟一個什么都不知道的陌生人尬聊,你說什么它都得從頭理解,對話很淺。
但這次我在出發前花了兩分鐘,把AIFUT的活動信息喂給了它。結果整個出行過程中的對話質量完全不同:我說「展會」它知道我說的是哪個展會,我問「簽到」它知道FUT幣的規則,我說「忘帶身份證」它能給出針對這個展會的具體建議。
這個發現其實很實際:如果你要在某個場景下持續用語音對話,先花1-2分鐘把背景信息喂給它。 出差前告訴它你的行程、會議前告訴它議題、出門前告訴它今天的安排。有了上下文的語音對話和沒有上下文的,完全是兩種體驗。
全雙工解決的是「對話像不像打電話」的問題,但上下文解決的是「對話有沒有用」的問題。兩個加在一起,才是語音對話真正好用的狀態。
和ChatGPT語音比起來怎么樣
說到AI語音對話,繞不開ChatGPT的Advanced Voice Mode。
ChatGPT的語音模式也是端到端模型,也支持打斷和情感表達,不少評測都說它是目前「最像真人的AI語音」。
但在國內用的話,豆包確實有幾個實際的優勢:
中文能力。 這不是客氣話。AI語音對話對語言的要求遠高于文字聊天——你要處理口音、方言、語氣詞、說話習慣。豆包能聽懂18種方言,能用粵語、東北話、四川話輸出。ChatGPT做英文沒問題,做中文還是差一截。
在果殼的一次測評中,有一個很有意思的數據:讓測試者判斷「這是不是AI在說話」,ChatGPT有30%的對話被認為「一聽就是AI」,豆包這個比例不到2%。
免費。 ChatGPT的Advanced Voice Mode需要Plus訂閱,$20/月,而且有每日使用限制。豆包的語音通話功能是免費的。
可用性。 這個不展開說了,你懂的。能直接用和需要折騰才能用,這本身就是一道篩選。
不過公平地說,ChatGPT的語音在英文場景下的表現確實非常好,情感表達和幽默感都很自然。兩個產品各有擅長的領域。
我的判斷
回到開頭的問題:2億多人和AI打電話,他們在聊什么?
我覺得答案可能不在于「聊什么」。更有意思的問題是「什么時候聊」。
人和AI的交互,文字聊天覆蓋的是你坐在電腦前、拿著手機、眼睛盯著屏幕的時間。但你回憶一下自己的一天:通勤、走路、排隊、等人、發呆——這些時間加起來可能有好幾個小時,過去AI根本觸達不到。
語音通話打開的就是這塊時間。
而全雙工解決的是一個更底層的問題:讓這種交互不再別扭。 之前的AI語音像是在用對講機,按一下說一句,松開等回復。全雙工之后,才真正像打電話。
在AIFUT逛了一整天,我印象最深的倒不是哪個展臺的產品有多厲害。而是在網約車上和豆包聊展會攻略,我停頓了兩三秒它耐心等著沒插嘴;在電競館辯論賽最激烈的時候我小聲問了句打車要多久,它一秒接話還答對了。
這些不是什么「黑科技」,這就是一個正常打電話應該有的體驗。只不過電話那頭不是人,是AI。
老羅2018年說語音交互是未來。他說對了。只不過這個未來的樣子,是2億多人拿起手機,和一個叫豆包的AI打了個電話。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.