无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

2億多人開始和AI打電話,他們在聊什么?

0
分享至

前段時間我在即刻上吐槽了一件事,就是一連數(shù)次,有好幾個人拿著和豆包聊天的結(jié)果給我當(dāng)建議...有我50多歲的丈母娘,有和我對接的某視頻平臺的運營。

emmm...我好像也沒問你們啊。

似乎,大家使用豆包的意愿和接納程度比我想象得高多了。

然后我查了下,根據(jù)QuestMobile的數(shù)據(jù),2025年12月豆包的月活躍用戶達到了2.27億,是第二名DeepSeek的將近兩倍。經(jīng)過今年春節(jié)的一波增長,現(xiàn)在的數(shù)字只會更高。


講道理,這數(shù)據(jù)實在有點超出我慣常的認知了,雖然大家都懂字節(jié)做增長是強項。

然后我特意去了解了下大家平時都是怎么用豆包的,大多數(shù)是拿來問問題、寫寫東西,用完就走。但也有個越來越有趣的變化:越來越多人開始和豆包「打電話」。

語音交互,終于等到了它的時代

說到和AI語音對話,我總會想起一個人——羅永浩。

2018年,老羅在鳥巢開了一場萬人發(fā)布會,發(fā)布了一個叫TNT的產(chǎn)品。核心理念是:未來的電腦交互應(yīng)該是語音+觸控,不再需要鍵盤和鼠標(biāo)。

發(fā)布會現(xiàn)場翻車了。語音識別磕磕絆絆,老羅急得滿頭大汗,臺下的笑聲從善意變成了尷尬。后來他自己回憶說:當(dāng)年的語音沒有AI加持,準(zhǔn)確率雖然能到百分之九十幾,但現(xiàn)場那個環(huán)境確實搞砸了。

TNT被當(dāng)成了笑話,當(dāng)年科技圈最大的樂子之一。但老羅說的那個方向,錯了嗎?

快進到2026年,你會發(fā)現(xiàn)一件有意思的事:老羅8年前暢想的東西,正在以另一種形式變成現(xiàn)實。

第一個信號是vibe coding?,F(xiàn)在用AI寫代碼的開發(fā)者越來越多,其中相當(dāng)一部分人開始用語音來下指令。道理很簡單:說話速度是打字的3-4倍,對著Cursor說「把這個按鈕改成藍色」比打字快多了。我自己也是,用AI寫代碼這兩年,越來越覺得很多指令用嘴說比打字自然。

第二個信號是Typeless這類語音輸入產(chǎn)品火了。一個語音輸入法,年度會員要1000多塊人民幣,居然還賣得不錯。更有意思的是,很多vibe coder覺得貴,干脆自己用AI做了一個語音輸入工具——用AI做的工具,來給AI輸入指令,套娃了屬于是。

第三個信號,就是豆包的2億多用戶。

這三件事其實都在說同一件事:語音交互不是未來,就是現(xiàn)在正在發(fā)生的事。 只不過它沒有發(fā)生在老羅想象的桌面電腦上,它發(fā)生在手機上,發(fā)生在人和AI的對話里。

但語音交互有一個老問題一直沒解決好。

為什么之前和AI打電話總覺得「不對勁」

你大概試過和AI語音對話吧。不管是Siri還是之前版本的豆包,體驗都有一個共同的別扭感:你和AI之間,其實是在「輪流發(fā)言」,不是在「對話」。

你說一句,等一兩秒,AI回一句。你還沒說完,AI就搶話了。你在嘈雜的地方說話,AI把旁邊大爺?shù)膹V場舞指令當(dāng)成了你的問題。

為什么會這樣?其實是技術(shù)架構(gòu)決定的。之前的AI語音基本都是一條流水線:先把你說的話轉(zhuǎn)成文字(語音識別),再讓大模型理解文字生成回復(fù)(語言模型),最后把回復(fù)轉(zhuǎn)成語音播出來(語音合成)。三個環(huán)節(jié)排隊走,每一步都有延遲,加起來就是那個尷尬的空白。就像你發(fā)微信等回復(fù),只不過這個「正在輸入…」變成了你們面對面干瞪眼。

但更別扭的地方在于,這條流水線是單向的。AI在說話的時候,它聽不到你。你說話的時候,AI也沒在聽。跟打電話完全不是一回事。你以為你倆在聊天,其實你倆在輪流發(fā)語音。

打電話的時候,你和對方是同時在聽、同時在說的。你說到一半停頓了,對方知道你在想,會等你。你說完了,對方馬上接話。背景很吵,對方也能分辨出哪個是你的聲音。

這個能力叫全雙工。人類打電話天生就是全雙工的,但AI語音對話一直做不到。

直到最近豆包的這次升級。

豆包語音通話的這次升級到底改了什么

豆包這次把語音通話的底層模型換成了端到端的全雙工模型。

翻譯成人話:以前是「你說完→它轉(zhuǎn)文字→它想→它轉(zhuǎn)語音→它說」,現(xiàn)在是「你說→它直接說」。中間少了好幾道工序,就像從轉(zhuǎn)三次公交變成了打直達車。這帶來了三個直觀的變化:

第一,它能一邊說一邊聽了。 你打斷它,它馬上停。你嗯嗯啊啊表示在想,它知道你沒說完,會等你。就這一點,體驗差距就非常大。

第二,抗干擾能力明顯變強。 旁邊有人說話、有音樂、有環(huán)境噪音,它不會被誤觸發(fā),也不會把別人的話當(dāng)成你的指令。

第三,延遲降低了。 在需要快速接話的場景(比如玩成語接龍),它的反應(yīng)速度明顯快了。

聽起來都是技術(shù)參數(shù)。但你真正用起來的時候,感受是很直接的:和豆包打電話,第一次開始像在打電話了。

我決定拿一整天來測一下,到底有多「像」。

帶著豆包去逛AIFUT

4月8號,卡茲克辦的AIFUT大會在北京亦莊開幕,就是之前Faker和TheShy打表演賽的那個電競館。34個AI展位,主論壇1000張票秒光,展區(qū)免費開放,從早8點到晚9點。

我決定做一個實驗:這一整天的出行,在不同環(huán)境里和豆包打電話,看看全雙工在真實場景下到底表現(xiàn)怎么樣。


不過在出發(fā)之前,我做了一件事:先在對話里把AIFUT的活動信息喂給了豆包。 展會時間、地點、簽到規(guī)則、展位分布,全部告訴它。這一步后來證明非常關(guān)鍵。

場景一:網(wǎng)約車上

坐上車,我撥通了豆包的語音通話。

「我一會要去參加那個AIFUT的展會,我有什么需要注意的嗎?」

因為之前已經(jīng)喂過信息,豆包馬上就給了很具體的建議:提前在小程序完成簽到能領(lǐng)5個FUT幣、今天氣溫10到20度建議帶件外套、場館里不能吃螺螄粉臭豆腐這些重味食物。

挺順的。然后我追問:「哎我有什么東西是必須帶著才行的嗎?入場有啥要求不?」

它說身份證原件必帶,簽到領(lǐng)FUT幣和主論壇入場都需要。

我一下慌了:「我靠我好像忘帶身份證了,這怎么辦?」

我當(dāng)時是真慌了。但它倒是比我淡定,分情況回答:如果只是逛免費展區(qū)不用身份證直接進場就行,如果買了主論壇門票可以試試微信或支付寶的電子身份證,在卡包或證件夾里能找到,現(xiàn)場工作人員一般會認可。

坐在旁邊的司機師傅看了我一眼,大概在想這人為什么對著手機自言自語還急得不行。

這段對話最讓我意外的不是它回答得對不對,而是聊天的感覺。 因為提前喂了上下文,整個對話省去了大量解釋背景的時間。我不需要說「AIFUT是一個AI展會,在北京亦莊,有34個展位」——它都知道。這讓語音對話的效率提高了一個量級。

還有幾個細節(jié)讓我覺得這個對話確實不一樣。

它在回答簽到規(guī)則的時候,我突然想起來一個事,直接插了一句「等等」。它幾乎是瞬間就停了,沒有像以前那樣把剩下的話說完才停。等我說完補充的問題,它接著往下講,銜接得很自然。

另一個細節(jié)是節(jié)奏。我問「忘帶身份證怎么辦」的時候,其實后面猶豫了一下才補了一句「這怎么辦」。中間大概停了兩三秒。如果是之前的AI語音,這兩三秒的空白它大概率就開始回答了,因為它以為你說完了。但豆包沒有,它等到我真正說完了才接話。該等的時候等,該接的時候秒接。 這個節(jié)奏感確實挺像在和人聊天。

網(wǎng)約車里有一點路噪和導(dǎo)航播報聲,完全沒影響到對話。

場景二:主論壇辯論賽進行中

下午三點多,主論壇正在進行一場辯論賽,題目是「教別人用AI是可以教會的嗎」。臺上AJ、卡爾的AI沃茨、葬AI、Max For AI幾個AI博主吵得不可開交,賽博禪心主持,駱軼航當(dāng)評委。電競館的音響系統(tǒng)本來就是給英雄聯(lián)盟比賽設(shè)計的,臺上的聲音在整個場館里回蕩,跟看世界賽團戰(zhàn)差不多。

我就坐在觀眾席上。

這時候我掏出手機撥通了豆包。但我不太好意思大聲說話——周圍都是在聽辯論的觀眾。所以我壓低聲音,問了一個很日常的問題:「我們現(xiàn)在打車回國貿(mào)的話,大概需要多久?」

這個問題其實不簡單。首先,臺上辯論聲遠比我的聲音大。 這不是「有點背景噪音」的程度,而是臺上好幾個人在激烈對話、音響全開的那種環(huán)境,我的聲音在里面幾乎可以忽略不計。其次,要回答這個問題,豆包不僅要聽清我說了什么,還需要知道我現(xiàn)在在哪(亦莊的電競館),再結(jié)合當(dāng)前時間點來預(yù)估路程。

但它回答了,而且接話速度很快。我說完最后一個字,大概不到一秒它就開始回復(fù)了。不僅聽懂了我的問題,還給出了從亦莊到國貿(mào)的打車時間預(yù)估。整個過程中,它沒有一次被臺上幾個人的辯論聲打斷,也沒有把辯手的話混進我的問題里。

你想想這個場景:一個幾百人的電競館,臺上四五個人在激烈辯論,音響全開,而你在觀眾席上小聲問了一句「打車回國貿(mào)要多久」,AI居然能只聽到你,還給出了靠譜的回答。

半年前的AI語音助手在這個環(huán)境里,大概率兩種結(jié)果:要么直接聽不清你在說什么,要么把臺上辯手的話當(dāng)成你的指令來回復(fù)。

但這次豆包在電競館里的表現(xiàn),確實讓我對全雙工有了更直觀的理解。它真正做到了在一堆人聲里只聽你一個人的聲音。 這個能力聽起來簡單,但你親身體驗過在那種噪音里它還能準(zhǔn)確回答你,感受是完全不同的。

一個讓語音對話好用10倍的小技巧

測完這兩個場景,我還發(fā)現(xiàn)一個挺實際的事:語音對話好不好用,不只取決于模型,還取決于你怎么用它。

之前我試過直接冷啟動和豆包打電話,聊幾句就覺得沒什么意思。感覺像跟一個什么都不知道的陌生人尬聊,你說什么它都得從頭理解,對話很淺。

但這次我在出發(fā)前花了兩分鐘,把AIFUT的活動信息喂給了它。結(jié)果整個出行過程中的對話質(zhì)量完全不同:我說「展會」它知道我說的是哪個展會,我問「簽到」它知道FUT幣的規(guī)則,我說「忘帶身份證」它能給出針對這個展會的具體建議。

這個發(fā)現(xiàn)其實很實際:如果你要在某個場景下持續(xù)用語音對話,先花1-2分鐘把背景信息喂給它。 出差前告訴它你的行程、會議前告訴它議題、出門前告訴它今天的安排。有了上下文的語音對話和沒有上下文的,完全是兩種體驗。

全雙工解決的是「對話像不像打電話」的問題,但上下文解決的是「對話有沒有用」的問題。兩個加在一起,才是語音對話真正好用的狀態(tài)。

和ChatGPT語音比起來怎么樣

說到AI語音對話,繞不開ChatGPT的Advanced Voice Mode。

ChatGPT的語音模式也是端到端模型,也支持打斷和情感表達,不少評測都說它是目前「最像真人的AI語音」。

但在國內(nèi)用的話,豆包確實有幾個實際的優(yōu)勢:

中文能力。 這不是客氣話。AI語音對話對語言的要求遠高于文字聊天——你要處理口音、方言、語氣詞、說話習(xí)慣。豆包能聽懂18種方言,能用粵語、東北話、四川話輸出。ChatGPT做英文沒問題,做中文還是差一截。

在果殼的一次測評中,有一個很有意思的數(shù)據(jù):讓測試者判斷「這是不是AI在說話」,ChatGPT有30%的對話被認為「一聽就是AI」,豆包這個比例不到2%。

免費。 ChatGPT的Advanced Voice Mode需要Plus訂閱,$20/月,而且有每日使用限制。豆包的語音通話功能是免費的。

可用性。 這個不展開說了,你懂的。能直接用和需要折騰才能用,這本身就是一道篩選。

不過公平地說,ChatGPT的語音在英文場景下的表現(xiàn)確實非常好,情感表達和幽默感都很自然。兩個產(chǎn)品各有擅長的領(lǐng)域。

我的判斷

回到開頭的問題:2億多人和AI打電話,他們在聊什么?

我覺得答案可能不在于「聊什么」。更有意思的問題是「什么時候聊」。

人和AI的交互,文字聊天覆蓋的是你坐在電腦前、拿著手機、眼睛盯著屏幕的時間。但你回憶一下自己的一天:通勤、走路、排隊、等人、發(fā)呆——這些時間加起來可能有好幾個小時,過去AI根本觸達不到。

語音通話打開的就是這塊時間。

而全雙工解決的是一個更底層的問題:讓這種交互不再別扭。 之前的AI語音像是在用對講機,按一下說一句,松開等回復(fù)。全雙工之后,才真正像打電話。

在AIFUT逛了一整天,我印象最深的倒不是哪個展臺的產(chǎn)品有多厲害。而是在網(wǎng)約車上和豆包聊展會攻略,我停頓了兩三秒它耐心等著沒插嘴;在電競館辯論賽最激烈的時候我小聲問了句打車要多久,它一秒接話還答對了。

這些不是什么「黑科技」,這就是一個正常打電話應(yīng)該有的體驗。只不過電話那頭不是人,是AI。

老羅2018年說語音交互是未來。他說對了。只不過這個未來的樣子,是2億多人拿起手機,和一個叫豆包的AI打了個電話。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
衛(wèi)冕冠軍遭重創(chuàng)!阿根廷連傷3大主力,斯卡洛尼拒換人,首發(fā)兩套懸念出爐

衛(wèi)冕冠軍遭重創(chuàng)!阿根廷連傷3大主力,斯卡洛尼拒換人,首發(fā)兩套懸念出爐

海闊山遙YAO
2026-06-14 13:53:16
不用餓肚子!《柳葉刀》研究:這樣輕斷食12周,肝臟脂肪下降30%

不用餓肚子!《柳葉刀》研究:這樣輕斷食12周,肝臟脂肪下降30%

思思夜話
2026-06-14 11:38:49
拉完了!總決賽的??怂?,到底有多糟糕?

拉完了!總決賽的福克斯,到底有多糟糕?

籃球?qū)嶄?/span>
2026-06-14 16:53:58
尺度拉滿!侃爺老婆穿真空透視裝赴約 魅惑感十足

尺度拉滿!侃爺老婆穿真空透視裝赴約 魅惑感十足

去山野間追風(fēng)
2026-06-14 18:32:13
“佛山最團結(jié)釘子村”登上熱搜!村民們擰成一股繩,集體拒絕搬遷

“佛山最團結(jié)釘子村”登上熱搜!村民們擰成一股繩,集體拒絕搬遷

火山詩話
2026-06-14 16:06:39
“建議爬山不要買白色雨衣”,熱搜第一!網(wǎng)友:遠看人影飄飄忽忽……

“建議爬山不要買白色雨衣”,熱搜第一!網(wǎng)友:遠看人影飄飄忽忽……

環(huán)球網(wǎng)資訊
2026-06-14 07:52:29
深圳通報:實控人馬某華等4人,刑拘!涉嫌重大責(zé)任事故罪

深圳通報:實控人馬某華等4人,刑拘!涉嫌重大責(zé)任事故罪

南方都市報
2026-06-14 18:49:17
千方百計“搶”農(nóng)時保豐收——山東麥?zhǔn)找痪€見聞

千方百計“搶”農(nóng)時保豐收——山東麥?zhǔn)找痪€見聞

新華社
2026-06-13 16:33:16
“SpaceX沒說,但所有線索都指向中國”

“SpaceX沒說,但所有線索都指向中國”

觀察者網(wǎng)
2026-06-12 09:23:04
“喂到他娶媳婦為止”,網(wǎng)友:孩子奶奶發(fā)型,早已預(yù)示了家教水平

“喂到他娶媳婦為止”,網(wǎng)友:孩子奶奶發(fā)型,早已預(yù)示了家教水平

世界圈
2026-06-09 08:32:26
中方告知全球,馬尼拉的回應(yīng)來了,菲反對黨:拆除所有中方建筑

中方告知全球,馬尼拉的回應(yīng)來了,菲反對黨:拆除所有中方建筑

阿天愛旅行
2026-06-14 17:27:44
白鹿的中專學(xué)歷實錘了?。?>
    </a>
        <h3>
      <a href=八卦瘋叔
2026-06-14 10:56:48
“墨西哥持槍搶劫中國球迷案”1名嫌疑人落網(wǎng),當(dāng)事人:除手機外財物被搶光,無心看球已提前回國

“墨西哥持槍搶劫中國球迷案”1名嫌疑人落網(wǎng),當(dāng)事人:除手機外財物被搶光,無心看球已提前回國

極目新聞
2026-06-14 12:59:31
25萬!比亞迪全尺寸SUV上市,續(xù)航950km帶空氣懸架,5/6/7座任選

25萬!比亞迪全尺寸SUV上市,續(xù)航950km帶空氣懸架,5/6/7座任選

車界相對論
2026-06-14 17:43:27
疑阿里員工爆料:所在部門50%已離職,N+1到手轉(zhuǎn)行跨境電商

疑阿里員工爆料:所在部門50%已離職,N+1到手轉(zhuǎn)行跨境電商

六子吃涼粉
2026-06-12 11:13:32
世界杯:隊史首分!卡塔爾1-1瑞士終結(jié)3連敗 胡希讀秒絕平救主

世界杯:隊史首分!卡塔爾1-1瑞士終結(jié)3連敗 胡希讀秒絕平救主

釘釘陌上花開
2026-06-14 05:06:43
NBA歷史季后賽勝率最高球隊排名

NBA歷史季后賽勝率最高球隊排名

體壇周報
2026-06-14 18:41:25
綿里藏針,申旻埈LG杯首回合不露聲色半目勝王星昊,先拔頭籌

綿里藏針,申旻埈LG杯首回合不露聲色半目勝王星昊,先拔頭籌

真理是我親戚
2026-06-14 15:14:59
一個妓女從業(yè)10年后的職場領(lǐng)悟:見過太多的男人,比心理專家還懂得人性

一個妓女從業(yè)10年后的職場領(lǐng)悟:見過太多的男人,比心理專家還懂得人性

心理觀察局
2026-06-14 06:57:02
月銷7萬到幾乎絕跡!2026年最慘車型,去年還被封神,如今無人問津

月銷7萬到幾乎絕跡!2026年最慘車型,去年還被封神,如今無人問津

周哥一影視
2026-06-12 19:36:11
2026-06-14 19:43:00
AI進化論花生 incentive-icons
AI進化論花生
AI博主,AppStore付費榜第一的小貓補光燈app開發(fā)者
233文章數(shù) 121關(guān)注度
往期回顧 全部

科技要聞

Anthropic最強模型被禁,傳亞馬遜通風(fēng)報信

頭條要聞

村民砍掉"孤獨樹":砍樹前一天跟紅裙女子發(fā)生沖突

頭條要聞

村民砍掉"孤獨樹":砍樹前一天跟紅裙女子發(fā)生沖突

體育要聞

8年8隊奪冠,鄧肯那句話,現(xiàn)在還給了馬刺

娛樂要聞

鄧超攜子觀戰(zhàn)NBA,等等帥氣十足

財經(jīng)要聞

金價跌至900元關(guān)口,大媽又來抄底了!

汽車要聞

綜合續(xù)航超1600km/零百加速4秒級 2027款星途ES預(yù)售18.99萬起

態(tài)度原創(chuàng)

家居
健康
房產(chǎn)
藝術(shù)
軍事航空

家居要聞

空間微調(diào) 移形換境

老人、小孩、孕婦,吃粽子有啥風(fēng)險

房產(chǎn)要聞

海南最賺錢行業(yè)曝光!最快4年半,??谌钯I三房!

藝術(shù)要聞

Lori Putnam | 光感拉滿的印象風(fēng)景寫生

軍事要聞

特朗普:美伊協(xié)議周日簽 還有終極手段

無障礙瀏覽 進入關(guān)懷版