網易首頁 > 網易號 > 正文申請入駐

2億多人開始和AI打電話，他們在聊什么？

2026-04-09 15:30:39　來源: AI進化論花生

北京舉報

分享至

前段時間我在即刻上吐槽了一件事，就是一連數次，有好幾個人拿著和豆包聊天的結果給我當建議...有我50多歲的丈母娘，有和我對接的某視頻平臺的運營。

emmm...我好像也沒問你們啊。

似乎，大家使用豆包的意愿和接納程度比我想象得高多了。

然后我查了下，根據QuestMobile的數據，2025年12月豆包的月活躍用戶達到了2.27億，是第二名DeepSeek的將近兩倍。經過今年春節的一波增長，現在的數字只會更高。

講道理，這數據實在有點超出我慣常的認知了，雖然大家都懂字節做增長是強項。

然后我特意去了解了下大家平時都是怎么用豆包的，大多數是拿來問問題、寫寫東西，用完就走。但也有個越來越有趣的變化：越來越多人開始和豆包「打電話」。

語音交互，終于等到了它的時代

說到和AI語音對話，我總會想起一個人——羅永浩。

2018年，老羅在鳥巢開了一場萬人發布會，發布了一個叫TNT的產品。核心理念是：未來的電腦交互應該是語音+觸控，不再需要鍵盤和鼠標。

發布會現場翻車了。語音識別磕磕絆絆，老羅急得滿頭大汗，臺下的笑聲從善意變成了尷尬。后來他自己回憶說：當年的語音沒有AI加持，準確率雖然能到百分之九十幾，但現場那個環境確實搞砸了。

TNT被當成了笑話，當年科技圈最大的樂子之一。但老羅說的那個方向，錯了嗎？

快進到2026年，你會發現一件有意思的事：老羅8年前暢想的東西，正在以另一種形式變成現實。

第一個信號是vibe coding。現在用AI寫代碼的開發者越來越多，其中相當一部分人開始用語音來下指令。道理很簡單：說話速度是打字的3-4倍，對著Cursor說「把這個按鈕改成藍色」比打字快多了。我自己也是，用AI寫代碼這兩年，越來越覺得很多指令用嘴說比打字自然。

第二個信號是Typeless這類語音輸入產品火了。一個語音輸入法，年度會員要1000多塊人民幣，居然還賣得不錯。更有意思的是，很多vibe coder覺得貴，干脆自己用AI做了一個語音輸入工具——用AI做的工具，來給AI輸入指令，套娃了屬于是。

第三個信號，就是豆包的2億多用戶。

這三件事其實都在說同一件事：語音交互不是未來，就是現在正在發生的事。 只不過它沒有發生在老羅想象的桌面電腦上，它發生在手機上，發生在人和AI的對話里。

但語音交互有一個老問題一直沒解決好。

為什么之前和AI打電話總覺得「不對勁」

你大概試過和AI語音對話吧。不管是Siri還是之前版本的豆包，體驗都有一個共同的別扭感：你和AI之間，其實是在「輪流發言」，不是在「對話」。

你說一句，等一兩秒，AI回一句。你還沒說完，AI就搶話了。你在嘈雜的地方說話，AI把旁邊大爺的廣場舞指令當成了你的問題。

為什么會這樣？其實是技術架構決定的。之前的AI語音基本都是一條流水線：先把你說的話轉成文字（語音識別），再讓大模型理解文字生成回復（語言模型），最后把回復轉成語音播出來（語音合成）。三個環節排隊走，每一步都有延遲，加起來就是那個尷尬的空白。就像你發微信等回復，只不過這個「正在輸入…」變成了你們面對面干瞪眼。

但更別扭的地方在于，這條流水線是單向的。AI在說話的時候，它聽不到你。你說話的時候，AI也沒在聽。跟打電話完全不是一回事。你以為你倆在聊天，其實你倆在輪流發語音。

打電話的時候，你和對方是同時在聽、同時在說的。你說到一半停頓了，對方知道你在想，會等你。你說完了，對方馬上接話。背景很吵，對方也能分辨出哪個是你的聲音。

這個能力叫全雙工。人類打電話天生就是全雙工的，但AI語音對話一直做不到。

直到最近豆包的這次升級。

豆包語音通話的這次升級到底改了什么

豆包這次把語音通話的底層模型換成了端到端的全雙工模型。

翻譯成人話：以前是「你說完→它轉文字→它想→它轉語音→它說」，現在是「你說→它直接說」。中間少了好幾道工序，就像從轉三次公交變成了打直達車。這帶來了三個直觀的變化：

第一，它能一邊說一邊聽了。 你打斷它，它馬上停。你嗯嗯啊啊表示在想，它知道你沒說完，會等你。就這一點，體驗差距就非常大。

第二，抗干擾能力明顯變強。 旁邊有人說話、有音樂、有環境噪音，它不會被誤觸發，也不會把別人的話當成你的指令。

第三，延遲降低了。 在需要快速接話的場景（比如玩成語接龍），它的反應速度明顯快了。

聽起來都是技術參數。但你真正用起來的時候，感受是很直接的：和豆包打電話，第一次開始像在打電話了。

我決定拿一整天來測一下，到底有多「像」。

帶著豆包去逛AIFUT

4月8號，卡茲克辦的AIFUT大會在北京亦莊開幕，就是之前Faker和TheShy打表演賽的那個電競館。34個AI展位，主論壇1000張票秒光，展區免費開放，從早8點到晚9點。

我決定做一個實驗：這一整天的出行，在不同環境里和豆包打電話，看看全雙工在真實場景下到底表現怎么樣。

不過在出發之前，我做了一件事：先在對話里把AIFUT的活動信息喂給了豆包。 展會時間、地點、簽到規則、展位分布，全部告訴它。這一步后來證明非常關鍵。

場景一：網約車上

坐上車，我撥通了豆包的語音通話。

「我一會要去參加那個AIFUT的展會，我有什么需要注意的嗎？」

因為之前已經喂過信息，豆包馬上就給了很具體的建議：提前在小程序完成簽到能領5個FUT幣、今天氣溫10到20度建議帶件外套、場館里不能吃螺螄粉臭豆腐這些重味食物。

挺順的。然后我追問：「哎我有什么東西是必須帶著才行的嗎？入場有啥要求不？」

它說身份證原件必帶，簽到領FUT幣和主論壇入場都需要。

我一下慌了：「我靠我好像忘帶身份證了，這怎么辦？」

我當時是真慌了。但它倒是比我淡定，分情況回答：如果只是逛免費展區不用身份證直接進場就行，如果買了主論壇門票可以試試微信或支付寶的電子身份證，在卡包或證件夾里能找到，現場工作人員一般會認可。

坐在旁邊的司機師傅看了我一眼，大概在想這人為什么對著手機自言自語還急得不行。

這段對話最讓我意外的不是它回答得對不對，而是聊天的感覺。 因為提前喂了上下文，整個對話省去了大量解釋背景的時間。我不需要說「AIFUT是一個AI展會，在北京亦莊，有34個展位」——它都知道。這讓語音對話的效率提高了一個量級。

還有幾個細節讓我覺得這個對話確實不一樣。

它在回答簽到規則的時候，我突然想起來一個事，直接插了一句「等等」。它幾乎是瞬間就停了，沒有像以前那樣把剩下的話說完才停。等我說完補充的問題，它接著往下講，銜接得很自然。

另一個細節是節奏。我問「忘帶身份證怎么辦」的時候，其實后面猶豫了一下才補了一句「這怎么辦」。中間大概停了兩三秒。如果是之前的AI語音，這兩三秒的空白它大概率就開始回答了，因為它以為你說完了。但豆包沒有，它等到我真正說完了才接話。該等的時候等，該接的時候秒接。 這個節奏感確實挺像在和人聊天。

網約車里有一點路噪和導航播報聲，完全沒影響到對話。

場景二：主論壇辯論賽進行中

下午三點多，主論壇正在進行一場辯論賽，題目是「教別人用AI是可以教會的嗎」。臺上AJ、卡爾的AI沃茨、葬AI、Max For AI幾個AI博主吵得不可開交，賽博禪心主持，駱軼航當評委。電競館的音響系統本來就是給英雄聯盟比賽設計的，臺上的聲音在整個場館里回蕩，跟看世界賽團戰差不多。

我就坐在觀眾席上。

這時候我掏出手機撥通了豆包。但我不太好意思大聲說話——周圍都是在聽辯論的觀眾。所以我壓低聲音，問了一個很日常的問題：「我們現在打車回國貿的話，大概需要多久？」

這個問題其實不簡單。首先，臺上辯論聲遠比我的聲音大。 這不是「有點背景噪音」的程度，而是臺上好幾個人在激烈對話、音響全開的那種環境，我的聲音在里面幾乎可以忽略不計。其次，要回答這個問題，豆包不僅要聽清我說了什么，還需要知道我現在在哪（亦莊的電競館），再結合當前時間點來預估路程。

但它回答了，而且接話速度很快。我說完最后一個字，大概不到一秒它就開始回復了。不僅聽懂了我的問題，還給出了從亦莊到國貿的打車時間預估。整個過程中，它沒有一次被臺上幾個人的辯論聲打斷，也沒有把辯手的話混進我的問題里。

你想想這個場景：一個幾百人的電競館，臺上四五個人在激烈辯論，音響全開，而你在觀眾席上小聲問了一句「打車回國貿要多久」，AI居然能只聽到你，還給出了靠譜的回答。

半年前的AI語音助手在這個環境里，大概率兩種結果：要么直接聽不清你在說什么，要么把臺上辯手的話當成你的指令來回復。

但這次豆包在電競館里的表現，確實讓我對全雙工有了更直觀的理解。它真正做到了在一堆人聲里只聽你一個人的聲音。 這個能力聽起來簡單，但你親身體驗過在那種噪音里它還能準確回答你，感受是完全不同的。

一個讓語音對話好用10倍的小技巧

測完這兩個場景，我還發現一個挺實際的事：語音對話好不好用，不只取決于模型，還取決于你怎么用它。

之前我試過直接冷啟動和豆包打電話，聊幾句就覺得沒什么意思。感覺像跟一個什么都不知道的陌生人尬聊，你說什么它都得從頭理解，對話很淺。

但這次我在出發前花了兩分鐘，把AIFUT的活動信息喂給了它。結果整個出行過程中的對話質量完全不同：我說「展會」它知道我說的是哪個展會，我問「簽到」它知道FUT幣的規則，我說「忘帶身份證」它能給出針對這個展會的具體建議。

這個發現其實很實際：如果你要在某個場景下持續用語音對話，先花1-2分鐘把背景信息喂給它。 出差前告訴它你的行程、會議前告訴它議題、出門前告訴它今天的安排。有了上下文的語音對話和沒有上下文的，完全是兩種體驗。

全雙工解決的是「對話像不像打電話」的問題，但上下文解決的是「對話有沒有用」的問題。兩個加在一起，才是語音對話真正好用的狀態。

和ChatGPT語音比起來怎么樣

說到AI語音對話，繞不開ChatGPT的Advanced Voice Mode。

ChatGPT的語音模式也是端到端模型，也支持打斷和情感表達，不少評測都說它是目前「最像真人的AI語音」。

但在國內用的話，豆包確實有幾個實際的優勢：

中文能力。 這不是客氣話。AI語音對話對語言的要求遠高于文字聊天——你要處理口音、方言、語氣詞、說話習慣。豆包能聽懂18種方言，能用粵語、東北話、四川話輸出。ChatGPT做英文沒問題，做中文還是差一截。

在果殼的一次測評中，有一個很有意思的數據：讓測試者判斷「這是不是AI在說話」，ChatGPT有30%的對話被認為「一聽就是AI」，豆包這個比例不到2%。

免費。 ChatGPT的Advanced Voice Mode需要Plus訂閱，$20/月，而且有每日使用限制。豆包的語音通話功能是免費的。

可用性。 這個不展開說了，你懂的。能直接用和需要折騰才能用，這本身就是一道篩選。

不過公平地說，ChatGPT的語音在英文場景下的表現確實非常好，情感表達和幽默感都很自然。兩個產品各有擅長的領域。

我的判斷

回到開頭的問題：2億多人和AI打電話，他們在聊什么？

我覺得答案可能不在于「聊什么」。更有意思的問題是「什么時候聊」。

人和AI的交互，文字聊天覆蓋的是你坐在電腦前、拿著手機、眼睛盯著屏幕的時間。但你回憶一下自己的一天：通勤、走路、排隊、等人、發呆——這些時間加起來可能有好幾個小時，過去AI根本觸達不到。

語音通話打開的就是這塊時間。

而全雙工解決的是一個更底層的問題：讓這種交互不再別扭。 之前的AI語音像是在用對講機，按一下說一句，松開等回復。全雙工之后，才真正像打電話。

在AIFUT逛了一整天，我印象最深的倒不是哪個展臺的產品有多厲害。而是在網約車上和豆包聊展會攻略，我停頓了兩三秒它耐心等著沒插嘴；在電競館辯論賽最激烈的時候我小聲問了句打車要多久，它一秒接話還答對了。

這些不是什么「黑科技」，這就是一個正常打電話應該有的體驗。只不過電話那頭不是人，是AI。

老羅2018年說語音交互是未來。他說對了。只不過這個未來的樣子，是2億多人拿起手機，和一個叫豆包的AI打了個電話。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.