无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

當(dāng)你說"不對,是Megan,M-E-G-A-N",AI語音助手為什么還是聽不懂?

0
分享至


這項(xiàng)由西安交通大學(xué)、上海交通大學(xué)X-LANCE實(shí)驗(yàn)室、香港中文大學(xué)(深圳)、復(fù)旦大學(xué)及阿里巴巴通義團(tuán)隊(duì)聯(lián)合開展的研究,于2026年5月以預(yù)印本形式發(fā)布,編號為arXiv:2605.29430。研究圍繞語音識別系統(tǒng)的一個(gè)根本性缺陷展開,并給出了一套系統(tǒng)性的解決方案。

一、一個(gè)你可能遇到過的尷尬瞬間

假設(shè)你對著手機(jī)說:"幫我給Megan發(fā)一份預(yù)算文件。"手機(jī)屏幕上出現(xiàn)的卻是"幫我給Morgan發(fā)一份預(yù)算文件"。你搖搖頭,再說一遍:"不對,是Megan,M-E-G-A-N!"結(jié)果,系統(tǒng)把你這句糾正話當(dāng)成了一條全新指令,又轉(zhuǎn)錄出一行奇怪的文字。這下可好,文件沒發(fā)出去,反而留下了一堆亂七八糟的記錄。

這個(gè)場景并不是個(gè)例。正因?yàn)檫@個(gè)缺陷太普遍、太致命,研究團(tuán)隊(duì)花了大量精力去剖析它:為什么現(xiàn)有的語音識別系統(tǒng)在出錯(cuò)之后,幾乎沒有能力自我修正?又為什么我們用來衡量語音識別好不好的"打分標(biāo)準(zhǔn)",根本反映不出這種問題的嚴(yán)重性?

歸根結(jié)底,這是兩個(gè)彼此纏繞的問題:機(jī)制上的缺陷,以及評價(jià)標(biāo)準(zhǔn)上的盲區(qū)。研究團(tuán)隊(duì)針對這兩點(diǎn),分別提出了對應(yīng)的解決方案,并通過大量實(shí)驗(yàn)驗(yàn)證了它們的有效性。

二、現(xiàn)有語音識別系統(tǒng)的"一錘子買賣"困境

要理解這項(xiàng)研究,先得搞清楚現(xiàn)有語音識別系統(tǒng)是怎么工作的。

可以把現(xiàn)有的語音識別系統(tǒng)看成一個(gè)只能"聽一次、寫一次"的速記員。你說完一句話,它立刻把這句話轉(zhuǎn)錄成文字,然后就此打住。即便轉(zhuǎn)錄結(jié)果出了錯(cuò),它也不會(huì)回頭修改——因?yàn)樗墓ぷ髁鞒汤锔緵]有"回頭修改"這個(gè)步驟。當(dāng)你試圖糾正它時(shí),它會(huì)把你的糾正話當(dāng)作一段全新的內(nèi)容來轉(zhuǎn)錄,而不是把它理解為"對剛才那句話的修正指令"。

這種"聽一次、寫一次"的設(shè)計(jì)方式,在學(xué)術(shù)上被稱為"單輪轉(zhuǎn)錄"或"單次解碼"。它的好處是快速高效,壞處是一旦出錯(cuò),就像一份已經(jīng)蓋了章的合同,幾乎無法撤回。

相比之下,人與人之間的對話完全不是這樣運(yùn)作的。認(rèn)知科學(xué)和對話研究早就發(fā)現(xiàn),人類交流天然包含"反復(fù)確認(rèn)和自我修正"的機(jī)制。當(dāng)一個(gè)人說錯(cuò)話,或者對方聽錯(cuò)了,雙方會(huì)通過簡短的來回互動(dòng)來糾正誤解——這在學(xué)術(shù)上叫做"對話中的修復(fù)機(jī)制"。正如那個(gè)經(jīng)典場景:說話人說"Megan",聽話人理解成"Morgan",說話人馬上補(bǔ)充"不對,是Megan,M-e開頭的那個(gè)",聽話人隨即更正理解。整個(gè)過程順滑自然,沒有任何障礙。

現(xiàn)有的語音識別系統(tǒng)缺少的,正是這種"來回修正"的能力。研究團(tuán)隊(duì)將這個(gè)缺口定義為"交互式語音識別"問題的核心所在。

三、打分標(biāo)準(zhǔn)的盲區(qū):錯(cuò)了多少個(gè)字,不等于錯(cuò)了多少意思

除了機(jī)制上的缺陷,還有一個(gè)更隱蔽的問題:我們一直用來給語音識別系統(tǒng)打分的標(biāo)準(zhǔn),本身就不夠準(zhǔn)確。

目前最主流的兩個(gè)打分指標(biāo)叫做"詞錯(cuò)率"(WER)和"字錯(cuò)率"(CER)。這兩個(gè)指標(biāo)的邏輯非常簡單直接:把識別結(jié)果和標(biāo)準(zhǔn)答案逐字比對,算出有多少字/詞被識別錯(cuò)了,然后用錯(cuò)誤數(shù)量除以總數(shù)量,得到一個(gè)百分比。百分比越低,說明識別越準(zhǔn)確。

問題在于,這種"數(shù)錯(cuò)別字"的打分方式,對所有錯(cuò)誤一視同仁。無論你寫錯(cuò)了"嗯"還是寫錯(cuò)了"Megan",在它眼里都是同一個(gè)錯(cuò)誤,扣同樣的分。但在真實(shí)使用場景下,這兩種錯(cuò)誤的后果天差地別。

研究團(tuán)隊(duì)舉了兩個(gè)非常直觀的例子。第一個(gè)場景:原話是"嗯,也許咱們就開窗吧?",識別結(jié)果是"咱們開窗吧?"。按詞錯(cuò)率來算,漏掉了"嗯"、"也許"、"就"三個(gè)詞,錯(cuò)誤率高達(dá)42.9%,看起來很糟糕。但實(shí)際上,這句話的核心意思——"開窗"這個(gè)行動(dòng)指令——完全沒有變。任何人看到這個(gè)識別結(jié)果,都能準(zhǔn)確理解說話人的意圖,完全可以正常執(zhí)行。

第二個(gè)場景:原話是"用Qwen3-ASR來獲取文字稿!",識別結(jié)果是"用Kunthreesir來獲取文字稿!"。詞錯(cuò)率只有16.7%,看起來錯(cuò)得不多。但是,"Qwen3-ASR"是一個(gè)具體的工具名稱,被識別成了一個(gè)莫名其妙的詞。任何人看到這個(gè)結(jié)果,都不知道該用哪個(gè)工具,指令完全無法執(zhí)行。

由此可見,詞錯(cuò)率高,不一定意味著意思理解錯(cuò)了;詞錯(cuò)率低,也不一定意味著意思理解對了。評價(jià)標(biāo)準(zhǔn)和實(shí)際使用效果之間,存在一個(gè)巨大的鴻溝。研究團(tuán)隊(duì)將這個(gè)問題概括為:現(xiàn)有指標(biāo)衡量的是"字面上錯(cuò)了多少",但我們真正需要知道的是"意思上錯(cuò)了多少"。

四、研究團(tuán)隊(duì)的解決方案:一個(gè)會(huì)"來回溝通"的語音識別框架

針對上述兩個(gè)問題,研究團(tuán)隊(duì)分別提出了對應(yīng)的解決方案,可以理解為兩套相互配合的工具:一套用來"修正錯(cuò)誤",另一套用來"準(zhǔn)確評分"。

先說"修正錯(cuò)誤"這套工具,研究團(tuán)隊(duì)將其命名為"Agentic ASR"(主動(dòng)式語音識別框架)。這個(gè)名字里的"Agentic",意思是"像一個(gè)有主動(dòng)性的代理人一樣行動(dòng)"——它不只是被動(dòng)地轉(zhuǎn)錄,而是會(huì)主動(dòng)思考、理解、修正。

整個(gè)框架的核心思路,是把單次識別變成多輪對話。每一輪對話都包含三個(gè)步驟,像是一個(gè)分工明確的三人小組協(xié)同工作。

第一步叫"語義糾偏"。當(dāng)用戶說出糾正指令時(shí),這句糾正話本身也要經(jīng)過語音識別轉(zhuǎn)錄,而轉(zhuǎn)錄結(jié)果可能依然有錯(cuò)。比如你說"不對,是Megan,M-E-G-A-N",系統(tǒng)可能轉(zhuǎn)錄成"不對,是Meghan,MEG AN"。語義糾偏模塊的任務(wù),就是結(jié)合之前的對話歷史,把這個(gè)存在歧義的轉(zhuǎn)錄結(jié)果,解讀成一條清晰明確的修改指令,比如"將'Morgan'改為'Megan'"。可以把這個(gè)步驟理解為"翻譯官",負(fù)責(zé)把模糊的話翻譯成精確的命令。

第二步叫"意圖識別"。當(dāng)"翻譯官"給出指令之后,系統(tǒng)需要判斷這條指令屬于哪種類型。研究團(tuán)隊(duì)將用戶意圖分為三類:第一類是"確認(rèn)",意思是用戶對當(dāng)前識別結(jié)果滿意,不需要修改;第二類是"新輸入",意思是用戶說的是一段全新的內(nèi)容,應(yīng)該作為新的轉(zhuǎn)錄對象;第三類是"糾正",意思是用戶要修改之前某個(gè)識別結(jié)果中的特定內(nèi)容。這個(gè)分類步驟就像一個(gè)"交通指揮員",決定接下來的內(nèi)容該往哪個(gè)方向走。

第三步叫"推理修正",只有在意圖被判斷為"糾正"時(shí)才會(huì)觸發(fā)。這一步會(huì)進(jìn)一步拆解成三個(gè)小動(dòng)作:先"定位"需要修改的那個(gè)詞或那段話,再"推理"出用戶到底想改成什么,最后"執(zhí)行"修改,得到更新后的識別結(jié)果。這三個(gè)小動(dòng)作組合起來,讓修正過程變得精確可控,而不是對整段文字進(jìn)行粗暴的全文重寫。正是這種"定位—推理—執(zhí)行"的拆解方式,讓系統(tǒng)的糾正行為更接近于人類自然的修復(fù)對話方式。

整個(gè)框架運(yùn)轉(zhuǎn)起來的樣子,像是一場持續(xù)的來回協(xié)商:用戶說話,系統(tǒng)轉(zhuǎn)錄,轉(zhuǎn)錄有誤,用戶糾正,系統(tǒng)理解糾正指令,定位錯(cuò)誤,執(zhí)行修改,直到結(jié)果被用戶確認(rèn)為止。這一輪一輪的迭代,正是這套框架區(qū)別于傳統(tǒng)"一錘子買賣"系統(tǒng)的根本所在。

五、如何準(zhǔn)確衡量"意思有沒有理解對":S?ER登場

有了能夠多輪修正的框架,下一個(gè)問題就是:怎么知道修正到位了沒有?用傳統(tǒng)的詞錯(cuò)率來衡量,前面已經(jīng)說了,并不可靠。研究團(tuán)隊(duì)因此引入了一個(gè)全新的評價(jià)指標(biāo),叫做"句子級語義錯(cuò)誤率",縮寫為S?ER。

S?ER的核心理念非常簡單:對于每一句話,只問一個(gè)問題——這句話的意思,有沒有被正確保留?如果保留了,就算合格,得1分;如果沒有保留,就算不合格,得0分。最終,S?ER等于所有不合格句子的比例。比例越低,說明系統(tǒng)保留語義的能力越強(qiáng)。

這個(gè)"意思有沒有被正確保留"的判斷,由一個(gè)大型語言模型(可以理解為一個(gè)非常聰明的AI閱讀理解程序)來完成。這個(gè)AI法官會(huì)比較識別結(jié)果和標(biāo)準(zhǔn)答案,專注于判斷主要意圖和關(guān)鍵信息(尤其是人名、地名、工具名等專有名詞)是否得到了保留,同時(shí)忽略掉那些無關(guān)緊要的表面差異,比如語氣詞、停頓詞、標(biāo)點(diǎn)符號等。

為了讓這個(gè)AI法官的判斷更加穩(wěn)定可靠,研究團(tuán)隊(duì)采用了一個(gè)"三輪雙向投票"的機(jī)制。具體來說,對于同一對句子,AI法官會(huì)被問三次,每次都進(jìn)行兩個(gè)方向的比較(先看A再看B,再先看B再看A)。只有當(dāng)一輪里兩個(gè)方向的比較結(jié)果都一致認(rèn)為"語義等價(jià)",這一輪才算投出了"合格票"。最終,三輪里有兩輪以上投出"合格票",這句話才被認(rèn)定為語義正確。

這種繁復(fù)的投票機(jī)制,是為了解決AI法官可能存在的"偏心"問題——當(dāng)兩句話的順序不同時(shí),AI可能會(huì)給出不同的判斷,就像閱卷老師在疲勞狀態(tài)下可能對同一份答案給出不同分?jǐn)?shù)一樣。通過多輪、雙向、投票的方式,可以大大減少這種隨機(jī)性帶來的誤差。

六、自動(dòng)化的"模擬考試":讓大規(guī)模評測成為可能

有了能修正的框架,有了能準(zhǔn)確打分的指標(biāo),還差最后一塊拼圖:如何大規(guī)模、可重復(fù)地測試這套系統(tǒng)?

真正讓用戶坐在電腦前一輪一輪地糾正語音識別結(jié)果,再統(tǒng)計(jì)數(shù)據(jù),這種方式既費(fèi)時(shí)費(fèi)力,又難以重復(fù)。研究團(tuán)隊(duì)因此設(shè)計(jì)了一套"交互模擬系統(tǒng)"(ISS),可以理解為一個(gè)自動(dòng)化的"模擬考試考場"。

模擬系統(tǒng)的運(yùn)作方式如下:首先,把一段語音輸入給待評測的語音識別系統(tǒng),得到初步轉(zhuǎn)錄結(jié)果。然后,用S?ER指標(biāo)檢查這個(gè)結(jié)果有沒有正確保留語義。如果檢查通過,這條樣本就宣告成功,進(jìn)入下一條。如果檢查沒有通過,系統(tǒng)就會(huì)啟動(dòng)一個(gè)"用戶模擬器"——這個(gè)模擬器會(huì)比較識別結(jié)果和正確答案,找出最關(guān)鍵的語義差異,生成一句簡潔的糾正指令(比如"不對,是Megan,M-E-G-A-N"),然后用語音合成技術(shù)將這句話轉(zhuǎn)換成語音,再輸入給語音識別系統(tǒng),進(jìn)入下一輪迭代。

為了讓模擬出來的聲音更自然,系統(tǒng)還會(huì)參考原始語音樣本的音色特征,讓每一輪的模擬糾正聲音保持與原始說話人一致的風(fēng)格,避免讓語音識別系統(tǒng)在不同風(fēng)格的聲音之間產(chǎn)生額外的識別困難。

這套模擬系統(tǒng)可以在沒有任何真人參與的情況下,自動(dòng)運(yùn)行成百上千條樣本的多輪測試,既節(jié)省人力,又保證了測試條件的一致性,讓不同系統(tǒng)之間的比較更加公平。

七、實(shí)驗(yàn)怎么做的,結(jié)果又如何

研究團(tuán)隊(duì)在六個(gè)不同的語音數(shù)據(jù)集上進(jìn)行了測試,覆蓋了多種語言條件和使用場景。其中,GigaSpeech(英語開放領(lǐng)域語音)和WenetSpeech(普通話開放領(lǐng)域語音)代表日常通用場景;AISHELL-NER(人名、地名等專有名詞密集的中文語音)代表信息密度高、出錯(cuò)代價(jià)大的場景;ASRU2019和CS-Dialogue(中英文混合切換的語音)代表雙語混用的復(fù)雜場景。

默認(rèn)配置下,語音識別前端使用Qwen3-ASR-1.7B模型,負(fù)責(zé)推理、糾正和評分的大語言模型使用Qwen3-32B,語音合成使用Index-TTS-1.5。

主要結(jié)果呈現(xiàn)出一個(gè)一致的規(guī)律:S?ER隨著互動(dòng)輪數(shù)的增加,在所有數(shù)據(jù)集上持續(xù)下降,而且大部分提升發(fā)生在前幾輪。以GigaSpeech測試集為例,第0輪(即傳統(tǒng)單次識別)的S?ER為21.47%,經(jīng)過一輪用戶反饋后降至12.35%,三輪后降至7.00%,十輪后最終降至3.49%。ASRU2019測試集的變化更為顯著,從28.57%經(jīng)過一輪降至10.32%,最終降至1.36%。

相比之下,傳統(tǒng)詞錯(cuò)率、字錯(cuò)率等指標(biāo)的變化就小得多。在GigaSpeech上,詞錯(cuò)率從第0輪的11.92%到第10輪的10.43%,十輪下來只下降了約1.5個(gè)百分點(diǎn);而S?ER在同期下降了將近18個(gè)百分點(diǎn)。這個(gè)對比清晰地說明:交互式修正主要修復(fù)的是語義層面的錯(cuò)誤,而不是隨機(jī)的表面字詞錯(cuò)誤,傳統(tǒng)指標(biāo)根本無法準(zhǔn)確反映這種修復(fù)效果。

在專有名詞密集場景(AISHELL-NER)中,經(jīng)過多輪交互,最終S?ER可以降至約2%,這意味著系統(tǒng)在人名、地名等高價(jià)值信息的處理上,通過互動(dòng)達(dá)到了相當(dāng)高的準(zhǔn)確率。

八、這套方法依賴特定的識別引擎嗎?換個(gè)小模型行不行?

研究團(tuán)隊(duì)做了一系列"拆解實(shí)驗(yàn)",專門測試框架中不同組成部分的重要性。

第一個(gè)實(shí)驗(yàn)換掉了語音識別前端。默認(rèn)使用的是中等規(guī)模的Qwen3-ASR-1.7B,研究團(tuán)隊(duì)用更強(qiáng)大的FireRedASR2-LLM-8.3B和更弱的Whisper小模型分別替換,其他組件保持不變。結(jié)果發(fā)現(xiàn),三種前端下,S?ER隨輪數(shù)增加的下降趨勢基本一致——強(qiáng)模型、中等模型、弱模型都能從多輪交互中獲益。

最能說明問題的是Whisper這個(gè)弱模型的表現(xiàn)。它的初始S?ER高達(dá)47.77%(AISHELL-NER測試集),意味著將近一半的句子在第一次識別時(shí)就出現(xiàn)了語義錯(cuò)誤。但經(jīng)過多輪交互后,最終S?ER降至6.82%,同樣完成了大幅躍升。換句話說,即使起點(diǎn)很差,只要有足夠的互動(dòng)輪次,系統(tǒng)依然能把大多數(shù)語義錯(cuò)誤修復(fù)好。當(dāng)然,起點(diǎn)越高,最終能到達(dá)的終點(diǎn)也越低——更強(qiáng)的識別前端在十輪之后能達(dá)到更低的錯(cuò)誤率。

第二個(gè)實(shí)驗(yàn)換掉了負(fù)責(zé)推理和糾正的大語言模型。把Qwen3-32B換成更小的Qwen3-8B之后,系統(tǒng)依然能保持S?ER隨輪數(shù)單調(diào)下降的趨勢,說明小模型也能支撐基本的多輪修正功能。但在最終錯(cuò)誤率上,8B模型普遍比32B模型高出2到4個(gè)百分點(diǎn)。更值得注意的是,8B模型在某些數(shù)據(jù)集上出現(xiàn)了詞錯(cuò)率隨輪數(shù)反而上升的現(xiàn)象——這是因?yàn)樾∧P驮诶斫馍舷挛摹⒕_定位和執(zhí)行局部修改方面能力有限,容易在修改某個(gè)詞的時(shí)候,把其他本來正確的詞也順手改錯(cuò)。這說明,大語言模型的能力越強(qiáng),修正越精準(zhǔn),引入的額外錯(cuò)誤也越少。

第三個(gè)實(shí)驗(yàn)測試了S?ER評分時(shí)投票輪數(shù)的影響。從單輪雙向判斷到多數(shù)三輪、多數(shù)五輪、多數(shù)七輪,研究團(tuán)隊(duì)測量了每種策略下AI評分與人類標(biāo)準(zhǔn)答案之間的相關(guān)性。結(jié)果顯示,從單輪到三輪,相關(guān)性有一定提升(從約0.854到0.863);但從三輪到五輪再到七輪,提升就趨于平緩甚至出現(xiàn)波動(dòng)。綜合評估效果和計(jì)算成本,三輪多數(shù)投票是最劃算的選擇,也因此被定為S?ER的默認(rèn)協(xié)議。

九、AI法官和人類評委,判斷結(jié)果有多一致?

S?ER依賴一個(gè)大語言模型來充當(dāng)"語義是否等價(jià)"的法官,那么這個(gè)AI法官靠譜嗎?研究團(tuán)隊(duì)專門設(shè)計(jì)了一個(gè)人機(jī)對比實(shí)驗(yàn)。

他們從英語、普通話、中英混合三類數(shù)據(jù)集中各抽取40個(gè)樣本,共120個(gè)樣本,請25位普通標(biāo)注員和5位領(lǐng)域?qū)<曳謩e對每個(gè)樣本進(jìn)行二元判斷(語義等價(jià)或不等價(jià))。將多人的判斷結(jié)果平均,得到每個(gè)樣本的"人類參考分?jǐn)?shù)",再與AI法官的判斷進(jìn)行皮爾遜相關(guān)系數(shù)分析(這是一種衡量兩組數(shù)據(jù)之間線性一致程度的統(tǒng)計(jì)方法,數(shù)值從0到1,越接近1說明越一致)。

結(jié)果顯示,AI法官與人類參考分?jǐn)?shù)的相關(guān)系數(shù)在三個(gè)數(shù)據(jù)集上分別為0.8914、0.8280和0.9031,全部超過0.82。不僅如此,AI法官的相關(guān)系數(shù)還略高于領(lǐng)域?qū)<业南嚓P(guān)系數(shù)(專家分別為0.8534、0.8086和0.8871)。此外,研究團(tuán)隊(duì)對AI法官重復(fù)進(jìn)行了五次獨(dú)立測評,五次結(jié)果的標(biāo)準(zhǔn)差都很小(最高僅0.0291),說明AI的判斷是穩(wěn)定的,不會(huì)因?yàn)殡S機(jī)性而飄忽不定。

這組數(shù)據(jù)說明,S?ER的AI法官不僅和人類的整體判斷高度一致,甚至在一致性上比單個(gè)專家更穩(wěn)定。這為S?ER作為可靠評估工具提供了堅(jiān)實(shí)的支撐。

歸根結(jié)底,這項(xiàng)研究指出了一個(gè)長期被忽視卻至關(guān)重要的事實(shí):語音識別不是"轉(zhuǎn)錄完就完了"的一次性任務(wù),而應(yīng)該是一個(gè)能夠來回溝通、反復(fù)確認(rèn)、持續(xù)修正的動(dòng)態(tài)過程。同時(shí),衡量語音識別好壞的標(biāo)準(zhǔn),也不能只數(shù)"錯(cuò)了多少個(gè)字",更要看"意思有沒有說對"。

對普通用戶來說,這項(xiàng)研究指向的未來,是一個(gè)更懂你的語音助手——當(dāng)你說"不對,是Megan",它能真正聽懂這句話是在糾正它,而不是把它當(dāng)作一段新指令記錄下來。這種細(xì)微但關(guān)鍵的差別,正是人機(jī)交互從"能用"走向"好用"的重要一步。

當(dāng)然,研究團(tuán)隊(duì)也坦承,目前的框架還有改進(jìn)空間。研究團(tuán)隊(duì)認(rèn)為,未來可以走兩條路:一條是收集更多真實(shí)用戶的糾正對話數(shù)據(jù),用來訓(xùn)練更懂用戶修正習(xí)慣的模型;另一條是把目前依賴大模型推理的部分,壓縮成一個(gè)專門做修正任務(wù)的小模型,在保持性能的同時(shí)降低系統(tǒng)的運(yùn)行成本。

對這項(xiàng)研究感興趣的讀者,可以通過arXiv編號2605.29430找到完整論文,也可以通過研究團(tuán)隊(duì)提供的演示系統(tǒng)親身體驗(yàn)交互式語音識別的工作方式。

Q&A

Q1:S?ER(句子級語義錯(cuò)誤率)和傳統(tǒng)詞錯(cuò)率(WER)有什么實(shí)質(zhì)區(qū)別?

A:傳統(tǒng)詞錯(cuò)率只是數(shù)有多少個(gè)字被識別錯(cuò)了,對所有錯(cuò)誤一視同仁。S?ER關(guān)注的是整句話的意思有沒有被正確理解——漏掉幾個(gè)語氣詞但意思完整,S?ER認(rèn)為沒出錯(cuò);只改了一個(gè)詞但那個(gè)詞是關(guān)鍵人名或工具名,S?ER就認(rèn)定出錯(cuò)了。兩者衡量的根本就不是同一件事。

Q2:Agentic ASR框架需要用很貴的大模型才能工作嗎?

A:不是必須用最大的模型。研究團(tuán)隊(duì)測試了將核心推理模塊從Qwen3-32B換成Qwen3-8B的效果,結(jié)果發(fā)現(xiàn)小模型依然能保持S?ER隨輪數(shù)下降的基本趨勢,只是最終錯(cuò)誤率會(huì)比大模型高出2到4個(gè)百分點(diǎn),并且在需要精確局部修改時(shí)更容易引入新的錯(cuò)誤。所以用更小的模型可以工作,但代價(jià)是修正精度有所下降。

Q3:交互模擬系統(tǒng)(ISS)中的"用戶模擬器"怎么判斷該怎么糾正?

A:用戶模擬器里有一個(gè)大語言模型,它會(huì)同時(shí)看當(dāng)前的識別結(jié)果和正確答案,找出兩者之間最關(guān)鍵的語義差異,然后生成一句簡短的糾正指令。接著,語音合成模塊將這句指令轉(zhuǎn)換成語音,輸入給下一輪的語音識別系統(tǒng)。為了讓模擬聲音更自然,系統(tǒng)還會(huì)參考原始說話人的音色,讓每一輪的糾正語音聽起來像是同一個(gè)人說的。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
這4個(gè)行業(yè),已經(jīng)發(fā)不出工資了!真的很嚴(yán)重了

這4個(gè)行業(yè),已經(jīng)發(fā)不出工資了!真的很嚴(yán)重了

細(xì)說職場
2026-06-13 14:08:51
獨(dú)行俠拒絕交易凱里?歐文的深層原因曝光,全是為了狀元弗拉格

獨(dú)行俠拒絕交易凱里?歐文的深層原因曝光,全是為了狀元弗拉格

夜白侃球
2026-06-14 13:37:12
鄭麗文這番話一放出來,火藥味一下就上來了。

鄭麗文這番話一放出來,火藥味一下就上來了。

果媽聊娛樂
2026-06-14 17:20:53
澳大利亞主帥:很多人覺得我們贏土耳其是冷門,但我們自己不這么認(rèn)為

澳大利亞主帥:很多人覺得我們贏土耳其是冷門,但我們自己不這么認(rèn)為

懂球帝
2026-06-14 16:44:57
對于明天周一A股,我只說3點(diǎn):第一,4060點(diǎn)大概率是反彈的終點(diǎn)?

對于明天周一A股,我只說3點(diǎn):第一,4060點(diǎn)大概率是反彈的終點(diǎn)?

趨勢清風(fēng)俠
2026-06-14 08:46:04
炸了!2026高考作文竟出自四年級課本!說回歸課本,沒說回小學(xué)啊

炸了!2026高考作文竟出自四年級課本!說回歸課本,沒說回小學(xué)啊

娛樂的宅急便
2026-06-13 14:00:00
12000億光模塊巨頭,回應(yīng)業(yè)績暴雷傳聞

12000億光模塊巨頭,回應(yīng)業(yè)績暴雷傳聞

21世紀(jì)經(jīng)濟(jì)報(bào)道
2026-06-14 14:12:59
黃日華回應(yīng)主動(dòng)上前擁抱劉德華但對方“黑臉”:演唱會(huì)結(jié)束后,他們通過電話,二人關(guān)系絕非網(wǎng)友所猜測

黃日華回應(yīng)主動(dòng)上前擁抱劉德華但對方“黑臉”:演唱會(huì)結(jié)束后,他們通過電話,二人關(guān)系絕非網(wǎng)友所猜測

臺(tái)州交通廣播
2026-06-13 18:19:03
突傳死訊! 臺(tái)灣知名歌手在夏威夷離世,剛剛和女友結(jié)束30年戀情

突傳死訊! 臺(tái)灣知名歌手在夏威夷離世,剛剛和女友結(jié)束30年戀情

史料布籍
2026-06-14 15:46:01
天津知名餐廳發(fā)布閉店通知...

天津知名餐廳發(fā)布閉店通知...

全接觸狐狐
2026-06-14 13:48:46
中國女排出征!機(jī)場照曝光,王夢潔好美,刁琳宇低調(diào),龔翔宇自信

中國女排出征!機(jī)場照曝光,王夢潔好美,刁琳宇低調(diào),龔翔宇自信

跑者排球視角
2026-06-14 14:15:01
向太再曝劉亦菲猛料,難堪一幕重現(xiàn),與陳金飛真實(shí)關(guān)系早水落石出

向太再曝劉亦菲猛料,難堪一幕重現(xiàn),與陳金飛真實(shí)關(guān)系早水落石出

夢醉為紅顏一笑
2026-06-14 08:58:03
張嘉益孫浩再組陜籍天團(tuán)!《喜劇》選角吵翻天,這波真的贏麻了!

張嘉益孫浩再組陜籍天團(tuán)!《喜劇》選角吵翻天,這波真的贏麻了!

觀察鑒娛
2026-06-14 16:02:56
震驚!女子得知被拒相親男娶“潮汕A9家庭”妻子,控訴他隱瞞家底

震驚!女子得知被拒相親男娶“潮汕A9家庭”妻子,控訴他隱瞞家底

火山詩話
2026-06-14 12:48:44
康城戰(zhàn)況究竟如何?烏軍真被包圍了嗎?

康城戰(zhàn)況究竟如何?烏軍真被包圍了嗎?

史政先鋒
2026-06-14 15:44:42
遇見小面起訴后續(xù)!索賠八千為何突然認(rèn)慫,吃相難看結(jié)局大快人心

遇見小面起訴后續(xù)!索賠八千為何突然認(rèn)慫,吃相難看結(jié)局大快人心

大魚簡科
2026-06-13 19:14:22
王毅成大明星了?訪問蒙古途中,蒙古人民驚嘆:中國的外長太帥了

王毅成大明星了?訪問蒙古途中,蒙古人民驚嘆:中國的外長太帥了

叮當(dāng)當(dāng)科技
2026-06-14 13:38:35
張雪奪第六冠,日媒集體破防:在三缸機(jī)領(lǐng)域,中國已經(jīng)反超了日本

張雪奪第六冠,日媒集體破防:在三缸機(jī)領(lǐng)域,中國已經(jīng)反超了日本

林子說事
2026-06-14 14:36:43
都罵董潔看走眼,但沒人知道,王大治除了外貌低配,其他全是頂配

都罵董潔看走眼,但沒人知道,王大治除了外貌低配,其他全是頂配

山谷里的怒吼
2026-06-12 13:22:54
??雨???雨???雨???!!江蘇入梅最新消息

??雨???雨???雨???!!江蘇入梅最新消息

最江陰
2026-06-14 17:05:17
2026-06-14 21:16:49
科技行者 incentive-icons
科技行者
科技正在如何變革商業(yè)世界
8771文章數(shù) 565關(guān)注度
往期回顧 全部

科技要聞

Anthropic最強(qiáng)模型被禁,傳亞馬遜通風(fēng)報(bào)信

頭條要聞

伊朗球員受訪 反問美記者:我在美國安全嗎

頭條要聞

伊朗球員受訪 反問美記者:我在美國安全嗎

體育要聞

8年8隊(duì)奪冠,鄧肯那句話,現(xiàn)在還給了馬刺

娛樂要聞

鄧超攜子觀戰(zhàn)NBA,等等帥氣十足

財(cái)經(jīng)要聞

金價(jià)跌至900元關(guān)口,大媽又來抄底了!

汽車要聞

綜合續(xù)航超1600km/零百加速4秒級 2027款星途ES預(yù)售18.99萬起

態(tài)度原創(chuàng)

家居
藝術(shù)
旅游
手機(jī)
軍事航空

家居要聞

空間微調(diào) 移形換境

藝術(shù)要聞

Lori Putnam | 光感拉滿的印象風(fēng)景寫生

旅游要聞

美麗北京|圓明園荷花基地悄然入夏

手機(jī)要聞

2026上半年旗艦銷量Top30:蘋果獨(dú)攬前三,國產(chǎn)僅華為撐場面

軍事要聞

特朗普:美伊協(xié)議周日簽 還有終極手段

無障礙瀏覽 進(jìn)入關(guān)懷版