當(dāng)你說"不對，是Megan,M-E-G-A-N",AI語音助手為什么還是聽不懂？

2026-06-12 17:16:15　來源: 科技行者

北京舉報(bào)

分享至

這項(xiàng)由西安交通大學(xué)、上海交通大學(xué)X-LANCE實(shí)驗(yàn)室、香港中文大學(xué)（深圳）、復(fù)旦大學(xué)及阿里巴巴通義團(tuán)隊(duì)聯(lián)合開展的研究，于2026年5月以預(yù)印本形式發(fā)布，編號為arXiv:2605.29430。研究圍繞語音識別系統(tǒng)的一個(gè)根本性缺陷展開，并給出了一套系統(tǒng)性的解決方案。

一、一個(gè)你可能遇到過的尷尬瞬間

假設(shè)你對著手機(jī)說："幫我給Megan發(fā)一份預(yù)算文件。"手機(jī)屏幕上出現(xiàn)的卻是"幫我給Morgan發(fā)一份預(yù)算文件"。你搖搖頭，再說一遍："不對，是Megan，M-E-G-A-N！"結(jié)果，系統(tǒng)把你這句糾正話當(dāng)成了一條全新指令，又轉(zhuǎn)錄出一行奇怪的文字。這下可好，文件沒發(fā)出去，反而留下了一堆亂七八糟的記錄。

這個(gè)場景并不是個(gè)例。正因?yàn)檫@個(gè)缺陷太普遍、太致命，研究團(tuán)隊(duì)花了大量精力去剖析它：為什么現(xiàn)有的語音識別系統(tǒng)在出錯(cuò)之后，幾乎沒有能力自我修正？又為什么我們用來衡量語音識別好不好的"打分標(biāo)準(zhǔn)"，根本反映不出這種問題的嚴(yán)重性？

歸根結(jié)底，這是兩個(gè)彼此纏繞的問題：機(jī)制上的缺陷，以及評價(jià)標(biāo)準(zhǔn)上的盲區(qū)。研究團(tuán)隊(duì)針對這兩點(diǎn)，分別提出了對應(yīng)的解決方案，并通過大量實(shí)驗(yàn)驗(yàn)證了它們的有效性。

二、現(xiàn)有語音識別系統(tǒng)的"一錘子買賣"困境

要理解這項(xiàng)研究，先得搞清楚現(xiàn)有語音識別系統(tǒng)是怎么工作的。

可以把現(xiàn)有的語音識別系統(tǒng)看成一個(gè)只能"聽一次、寫一次"的速記員。你說完一句話，它立刻把這句話轉(zhuǎn)錄成文字，然后就此打住。即便轉(zhuǎn)錄結(jié)果出了錯(cuò)，它也不會(huì)回頭修改——因?yàn)樗墓ぷ髁鞒汤锔緵]有"回頭修改"這個(gè)步驟。當(dāng)你試圖糾正它時(shí)，它會(huì)把你的糾正話當(dāng)作一段全新的內(nèi)容來轉(zhuǎn)錄，而不是把它理解為"對剛才那句話的修正指令"。

這種"聽一次、寫一次"的設(shè)計(jì)方式，在學(xué)術(shù)上被稱為"單輪轉(zhuǎn)錄"或"單次解碼"。它的好處是快速高效，壞處是一旦出錯(cuò)，就像一份已經(jīng)蓋了章的合同，幾乎無法撤回。

相比之下，人與人之間的對話完全不是這樣運(yùn)作的。認(rèn)知科學(xué)和對話研究早就發(fā)現(xiàn)，人類交流天然包含"反復(fù)確認(rèn)和自我修正"的機(jī)制。當(dāng)一個(gè)人說錯(cuò)話，或者對方聽錯(cuò)了，雙方會(huì)通過簡短的來回互動(dòng)來糾正誤解——這在學(xué)術(shù)上叫做"對話中的修復(fù)機(jī)制"。正如那個(gè)經(jīng)典場景：說話人說"Megan"，聽話人理解成"Morgan"，說話人馬上補(bǔ)充"不對，是Megan，M-e開頭的那個(gè)"，聽話人隨即更正理解。整個(gè)過程順滑自然，沒有任何障礙。

現(xiàn)有的語音識別系統(tǒng)缺少的，正是這種"來回修正"的能力。研究團(tuán)隊(duì)將這個(gè)缺口定義為"交互式語音識別"問題的核心所在。

三、打分標(biāo)準(zhǔn)的盲區(qū)：錯(cuò)了多少個(gè)字，不等于錯(cuò)了多少意思

除了機(jī)制上的缺陷，還有一個(gè)更隱蔽的問題：我們一直用來給語音識別系統(tǒng)打分的標(biāo)準(zhǔn)，本身就不夠準(zhǔn)確。

目前最主流的兩個(gè)打分指標(biāo)叫做"詞錯(cuò)率"（WER）和"字錯(cuò)率"（CER）。這兩個(gè)指標(biāo)的邏輯非常簡單直接：把識別結(jié)果和標(biāo)準(zhǔn)答案逐字比對，算出有多少字/詞被識別錯(cuò)了，然后用錯(cuò)誤數(shù)量除以總數(shù)量，得到一個(gè)百分比。百分比越低，說明識別越準(zhǔn)確。

問題在于，這種"數(shù)錯(cuò)別字"的打分方式，對所有錯(cuò)誤一視同仁。無論你寫錯(cuò)了"嗯"還是寫錯(cuò)了"Megan"，在它眼里都是同一個(gè)錯(cuò)誤，扣同樣的分。但在真實(shí)使用場景下，這兩種錯(cuò)誤的后果天差地別。

研究團(tuán)隊(duì)舉了兩個(gè)非常直觀的例子。第一個(gè)場景：原話是"嗯，也許咱們就開窗吧？"，識別結(jié)果是"咱們開窗吧？"。按詞錯(cuò)率來算，漏掉了"嗯"、"也許"、"就"三個(gè)詞，錯(cuò)誤率高達(dá)42.9%，看起來很糟糕。但實(shí)際上，這句話的核心意思——"開窗"這個(gè)行動(dòng)指令——完全沒有變。任何人看到這個(gè)識別結(jié)果，都能準(zhǔn)確理解說話人的意圖，完全可以正常執(zhí)行。

第二個(gè)場景：原話是"用Qwen3-ASR來獲取文字稿！"，識別結(jié)果是"用Kunthreesir來獲取文字稿！"。詞錯(cuò)率只有16.7%，看起來錯(cuò)得不多。但是，"Qwen3-ASR"是一個(gè)具體的工具名稱，被識別成了一個(gè)莫名其妙的詞。任何人看到這個(gè)結(jié)果，都不知道該用哪個(gè)工具，指令完全無法執(zhí)行。

由此可見，詞錯(cuò)率高，不一定意味著意思理解錯(cuò)了；詞錯(cuò)率低，也不一定意味著意思理解對了。評價(jià)標(biāo)準(zhǔn)和實(shí)際使用效果之間，存在一個(gè)巨大的鴻溝。研究團(tuán)隊(duì)將這個(gè)問題概括為：現(xiàn)有指標(biāo)衡量的是"字面上錯(cuò)了多少"，但我們真正需要知道的是"意思上錯(cuò)了多少"。

四、研究團(tuán)隊(duì)的解決方案：一個(gè)會(huì)"來回溝通"的語音識別框架

針對上述兩個(gè)問題，研究團(tuán)隊(duì)分別提出了對應(yīng)的解決方案，可以理解為兩套相互配合的工具：一套用來"修正錯(cuò)誤"，另一套用來"準(zhǔn)確評分"。

先說"修正錯(cuò)誤"這套工具，研究團(tuán)隊(duì)將其命名為"Agentic ASR"（主動(dòng)式語音識別框架）。這個(gè)名字里的"Agentic"，意思是"像一個(gè)有主動(dòng)性的代理人一樣行動(dòng)"——它不只是被動(dòng)地轉(zhuǎn)錄，而是會(huì)主動(dòng)思考、理解、修正。

整個(gè)框架的核心思路，是把單次識別變成多輪對話。每一輪對話都包含三個(gè)步驟，像是一個(gè)分工明確的三人小組協(xié)同工作。

第一步叫"語義糾偏"。當(dāng)用戶說出糾正指令時(shí)，這句糾正話本身也要經(jīng)過語音識別轉(zhuǎn)錄，而轉(zhuǎn)錄結(jié)果可能依然有錯(cuò)。比如你說"不對，是Megan，M-E-G-A-N"，系統(tǒng)可能轉(zhuǎn)錄成"不對，是Meghan，MEG AN"。語義糾偏模塊的任務(wù)，就是結(jié)合之前的對話歷史，把這個(gè)存在歧義的轉(zhuǎn)錄結(jié)果，解讀成一條清晰明確的修改指令，比如"將'Morgan'改為'Megan'"。可以把這個(gè)步驟理解為"翻譯官"，負(fù)責(zé)把模糊的話翻譯成精確的命令。

第二步叫"意圖識別"。當(dāng)"翻譯官"給出指令之后，系統(tǒng)需要判斷這條指令屬于哪種類型。研究團(tuán)隊(duì)將用戶意圖分為三類：第一類是"確認(rèn)"，意思是用戶對當(dāng)前識別結(jié)果滿意，不需要修改；第二類是"新輸入"，意思是用戶說的是一段全新的內(nèi)容，應(yīng)該作為新的轉(zhuǎn)錄對象；第三類是"糾正"，意思是用戶要修改之前某個(gè)識別結(jié)果中的特定內(nèi)容。這個(gè)分類步驟就像一個(gè)"交通指揮員"，決定接下來的內(nèi)容該往哪個(gè)方向走。

第三步叫"推理修正"，只有在意圖被判斷為"糾正"時(shí)才會(huì)觸發(fā)。這一步會(huì)進(jìn)一步拆解成三個(gè)小動(dòng)作：先"定位"需要修改的那個(gè)詞或那段話，再"推理"出用戶到底想改成什么，最后"執(zhí)行"修改，得到更新后的識別結(jié)果。這三個(gè)小動(dòng)作組合起來，讓修正過程變得精確可控，而不是對整段文字進(jìn)行粗暴的全文重寫。正是這種"定位—推理—執(zhí)行"的拆解方式，讓系統(tǒng)的糾正行為更接近于人類自然的修復(fù)對話方式。

整個(gè)框架運(yùn)轉(zhuǎn)起來的樣子，像是一場持續(xù)的來回協(xié)商：用戶說話，系統(tǒng)轉(zhuǎn)錄，轉(zhuǎn)錄有誤，用戶糾正，系統(tǒng)理解糾正指令，定位錯(cuò)誤，執(zhí)行修改，直到結(jié)果被用戶確認(rèn)為止。這一輪一輪的迭代，正是這套框架區(qū)別于傳統(tǒng)"一錘子買賣"系統(tǒng)的根本所在。

五、如何準(zhǔn)確衡量"意思有沒有理解對"：S?ER登場

有了能夠多輪修正的框架，下一個(gè)問題就是：怎么知道修正到位了沒有？用傳統(tǒng)的詞錯(cuò)率來衡量，前面已經(jīng)說了，并不可靠。研究團(tuán)隊(duì)因此引入了一個(gè)全新的評價(jià)指標(biāo)，叫做"句子級語義錯(cuò)誤率"，縮寫為S?ER。

S?ER的核心理念非常簡單：對于每一句話，只問一個(gè)問題——這句話的意思，有沒有被正確保留？如果保留了，就算合格，得1分；如果沒有保留，就算不合格，得0分。最終，S?ER等于所有不合格句子的比例。比例越低，說明系統(tǒng)保留語義的能力越強(qiáng)。

這個(gè)"意思有沒有被正確保留"的判斷，由一個(gè)大型語言模型（可以理解為一個(gè)非常聰明的AI閱讀理解程序）來完成。這個(gè)AI法官會(huì)比較識別結(jié)果和標(biāo)準(zhǔn)答案，專注于判斷主要意圖和關(guān)鍵信息（尤其是人名、地名、工具名等專有名詞）是否得到了保留，同時(shí)忽略掉那些無關(guān)緊要的表面差異，比如語氣詞、停頓詞、標(biāo)點(diǎn)符號等。

為了讓這個(gè)AI法官的判斷更加穩(wěn)定可靠，研究團(tuán)隊(duì)采用了一個(gè)"三輪雙向投票"的機(jī)制。具體來說，對于同一對句子，AI法官會(huì)被問三次，每次都進(jìn)行兩個(gè)方向的比較（先看A再看B，再先看B再看A）。只有當(dāng)一輪里兩個(gè)方向的比較結(jié)果都一致認(rèn)為"語義等價(jià)"，這一輪才算投出了"合格票"。最終，三輪里有兩輪以上投出"合格票"，這句話才被認(rèn)定為語義正確。

這種繁復(fù)的投票機(jī)制，是為了解決AI法官可能存在的"偏心"問題——當(dāng)兩句話的順序不同時(shí)，AI可能會(huì)給出不同的判斷，就像閱卷老師在疲勞狀態(tài)下可能對同一份答案給出不同分?jǐn)?shù)一樣。通過多輪、雙向、投票的方式，可以大大減少這種隨機(jī)性帶來的誤差。

六、自動(dòng)化的"模擬考試"：讓大規(guī)模評測成為可能

有了能修正的框架，有了能準(zhǔn)確打分的指標(biāo)，還差最后一塊拼圖：如何大規(guī)模、可重復(fù)地測試這套系統(tǒng)？

真正讓用戶坐在電腦前一輪一輪地糾正語音識別結(jié)果，再統(tǒng)計(jì)數(shù)據(jù)，這種方式既費(fèi)時(shí)費(fèi)力，又難以重復(fù)。研究團(tuán)隊(duì)因此設(shè)計(jì)了一套"交互模擬系統(tǒng)"（ISS），可以理解為一個(gè)自動(dòng)化的"模擬考試考場"。

模擬系統(tǒng)的運(yùn)作方式如下：首先，把一段語音輸入給待評測的語音識別系統(tǒng)，得到初步轉(zhuǎn)錄結(jié)果。然后，用S?ER指標(biāo)檢查這個(gè)結(jié)果有沒有正確保留語義。如果檢查通過，這條樣本就宣告成功，進(jìn)入下一條。如果檢查沒有通過，系統(tǒng)就會(huì)啟動(dòng)一個(gè)"用戶模擬器"——這個(gè)模擬器會(huì)比較識別結(jié)果和正確答案，找出最關(guān)鍵的語義差異，生成一句簡潔的糾正指令（比如"不對，是Megan，M-E-G-A-N"），然后用語音合成技術(shù)將這句話轉(zhuǎn)換成語音，再輸入給語音識別系統(tǒng)，進(jìn)入下一輪迭代。

為了讓模擬出來的聲音更自然，系統(tǒng)還會(huì)參考原始語音樣本的音色特征，讓每一輪的模擬糾正聲音保持與原始說話人一致的風(fēng)格，避免讓語音識別系統(tǒng)在不同風(fēng)格的聲音之間產(chǎn)生額外的識別困難。

這套模擬系統(tǒng)可以在沒有任何真人參與的情況下，自動(dòng)運(yùn)行成百上千條樣本的多輪測試，既節(jié)省人力，又保證了測試條件的一致性，讓不同系統(tǒng)之間的比較更加公平。

七、實(shí)驗(yàn)怎么做的，結(jié)果又如何

研究團(tuán)隊(duì)在六個(gè)不同的語音數(shù)據(jù)集上進(jìn)行了測試，覆蓋了多種語言條件和使用場景。其中，GigaSpeech（英語開放領(lǐng)域語音）和WenetSpeech（普通話開放領(lǐng)域語音）代表日常通用場景；AISHELL-NER（人名、地名等專有名詞密集的中文語音）代表信息密度高、出錯(cuò)代價(jià)大的場景；ASRU2019和CS-Dialogue（中英文混合切換的語音）代表雙語混用的復(fù)雜場景。

默認(rèn)配置下，語音識別前端使用Qwen3-ASR-1.7B模型，負(fù)責(zé)推理、糾正和評分的大語言模型使用Qwen3-32B，語音合成使用Index-TTS-1.5。

主要結(jié)果呈現(xiàn)出一個(gè)一致的規(guī)律：S?ER隨著互動(dòng)輪數(shù)的增加，在所有數(shù)據(jù)集上持續(xù)下降，而且大部分提升發(fā)生在前幾輪。以GigaSpeech測試集為例，第0輪（即傳統(tǒng)單次識別）的S?ER為21.47%，經(jīng)過一輪用戶反饋后降至12.35%，三輪后降至7.00%，十輪后最終降至3.49%。ASRU2019測試集的變化更為顯著，從28.57%經(jīng)過一輪降至10.32%，最終降至1.36%。

相比之下，傳統(tǒng)詞錯(cuò)率、字錯(cuò)率等指標(biāo)的變化就小得多。在GigaSpeech上，詞錯(cuò)率從第0輪的11.92%到第10輪的10.43%，十輪下來只下降了約1.5個(gè)百分點(diǎn)；而S?ER在同期下降了將近18個(gè)百分點(diǎn)。這個(gè)對比清晰地說明：交互式修正主要修復(fù)的是語義層面的錯(cuò)誤，而不是隨機(jī)的表面字詞錯(cuò)誤，傳統(tǒng)指標(biāo)根本無法準(zhǔn)確反映這種修復(fù)效果。

在專有名詞密集場景（AISHELL-NER）中，經(jīng)過多輪交互，最終S?ER可以降至約2%，這意味著系統(tǒng)在人名、地名等高價(jià)值信息的處理上，通過互動(dòng)達(dá)到了相當(dāng)高的準(zhǔn)確率。

八、這套方法依賴特定的識別引擎嗎？換個(gè)小模型行不行？

研究團(tuán)隊(duì)做了一系列"拆解實(shí)驗(yàn)"，專門測試框架中不同組成部分的重要性。

第一個(gè)實(shí)驗(yàn)換掉了語音識別前端。默認(rèn)使用的是中等規(guī)模的Qwen3-ASR-1.7B，研究團(tuán)隊(duì)用更強(qiáng)大的FireRedASR2-LLM-8.3B和更弱的Whisper小模型分別替換，其他組件保持不變。結(jié)果發(fā)現(xiàn)，三種前端下，S?ER隨輪數(shù)增加的下降趨勢基本一致——強(qiáng)模型、中等模型、弱模型都能從多輪交互中獲益。

最能說明問題的是Whisper這個(gè)弱模型的表現(xiàn)。它的初始S?ER高達(dá)47.77%（AISHELL-NER測試集），意味著將近一半的句子在第一次識別時(shí)就出現(xiàn)了語義錯(cuò)誤。但經(jīng)過多輪交互后，最終S?ER降至6.82%，同樣完成了大幅躍升。換句話說，即使起點(diǎn)很差，只要有足夠的互動(dòng)輪次，系統(tǒng)依然能把大多數(shù)語義錯(cuò)誤修復(fù)好。當(dāng)然，起點(diǎn)越高，最終能到達(dá)的終點(diǎn)也越低——更強(qiáng)的識別前端在十輪之后能達(dá)到更低的錯(cuò)誤率。

第二個(gè)實(shí)驗(yàn)換掉了負(fù)責(zé)推理和糾正的大語言模型。把Qwen3-32B換成更小的Qwen3-8B之后，系統(tǒng)依然能保持S?ER隨輪數(shù)單調(diào)下降的趨勢，說明小模型也能支撐基本的多輪修正功能。但在最終錯(cuò)誤率上，8B模型普遍比32B模型高出2到4個(gè)百分點(diǎn)。更值得注意的是，8B模型在某些數(shù)據(jù)集上出現(xiàn)了詞錯(cuò)率隨輪數(shù)反而上升的現(xiàn)象——這是因?yàn)樾∧Ｐ驮诶斫馍舷挛摹⒕_定位和執(zhí)行局部修改方面能力有限，容易在修改某個(gè)詞的時(shí)候，把其他本來正確的詞也順手改錯(cuò)。這說明，大語言模型的能力越強(qiáng)，修正越精準(zhǔn)，引入的額外錯(cuò)誤也越少。

第三個(gè)實(shí)驗(yàn)測試了S?ER評分時(shí)投票輪數(shù)的影響。從單輪雙向判斷到多數(shù)三輪、多數(shù)五輪、多數(shù)七輪，研究團(tuán)隊(duì)測量了每種策略下AI評分與人類標(biāo)準(zhǔn)答案之間的相關(guān)性。結(jié)果顯示，從單輪到三輪，相關(guān)性有一定提升（從約0.854到0.863）；但從三輪到五輪再到七輪，提升就趨于平緩甚至出現(xiàn)波動(dòng)。綜合評估效果和計(jì)算成本，三輪多數(shù)投票是最劃算的選擇，也因此被定為S?ER的默認(rèn)協(xié)議。

九、AI法官和人類評委，判斷結(jié)果有多一致？

S?ER依賴一個(gè)大語言模型來充當(dāng)"語義是否等價(jià)"的法官，那么這個(gè)AI法官靠譜嗎？研究團(tuán)隊(duì)專門設(shè)計(jì)了一個(gè)人機(jī)對比實(shí)驗(yàn)。

他們從英語、普通話、中英混合三類數(shù)據(jù)集中各抽取40個(gè)樣本，共120個(gè)樣本，請25位普通標(biāo)注員和5位領(lǐng)域?qū)＜曳謩e對每個(gè)樣本進(jìn)行二元判斷（語義等價(jià)或不等價(jià)）。將多人的判斷結(jié)果平均，得到每個(gè)樣本的"人類參考分?jǐn)?shù)"，再與AI法官的判斷進(jìn)行皮爾遜相關(guān)系數(shù)分析（這是一種衡量兩組數(shù)據(jù)之間線性一致程度的統(tǒng)計(jì)方法，數(shù)值從0到1，越接近1說明越一致）。

結(jié)果顯示，AI法官與人類參考分?jǐn)?shù)的相關(guān)系數(shù)在三個(gè)數(shù)據(jù)集上分別為0.8914、0.8280和0.9031，全部超過0.82。不僅如此，AI法官的相關(guān)系數(shù)還略高于領(lǐng)域?qū)＜业南嚓P(guān)系數(shù)（專家分別為0.8534、0.8086和0.8871）。此外，研究團(tuán)隊(duì)對AI法官重復(fù)進(jìn)行了五次獨(dú)立測評，五次結(jié)果的標(biāo)準(zhǔn)差都很小（最高僅0.0291），說明AI的判斷是穩(wěn)定的，不會(huì)因?yàn)殡S機(jī)性而飄忽不定。

這組數(shù)據(jù)說明，S?ER的AI法官不僅和人類的整體判斷高度一致，甚至在一致性上比單個(gè)專家更穩(wěn)定。這為S?ER作為可靠評估工具提供了堅(jiān)實(shí)的支撐。

歸根結(jié)底，這項(xiàng)研究指出了一個(gè)長期被忽視卻至關(guān)重要的事實(shí)：語音識別不是"轉(zhuǎn)錄完就完了"的一次性任務(wù)，而應(yīng)該是一個(gè)能夠來回溝通、反復(fù)確認(rèn)、持續(xù)修正的動(dòng)態(tài)過程。同時(shí)，衡量語音識別好壞的標(biāo)準(zhǔn)，也不能只數(shù)"錯(cuò)了多少個(gè)字"，更要看"意思有沒有說對"。

對普通用戶來說，這項(xiàng)研究指向的未來，是一個(gè)更懂你的語音助手——當(dāng)你說"不對，是Megan"，它能真正聽懂這句話是在糾正它，而不是把它當(dāng)作一段新指令記錄下來。這種細(xì)微但關(guān)鍵的差別，正是人機(jī)交互從"能用"走向"好用"的重要一步。

當(dāng)然，研究團(tuán)隊(duì)也坦承，目前的框架還有改進(jìn)空間。研究團(tuán)隊(duì)認(rèn)為，未來可以走兩條路：一條是收集更多真實(shí)用戶的糾正對話數(shù)據(jù)，用來訓(xùn)練更懂用戶修正習(xí)慣的模型；另一條是把目前依賴大模型推理的部分，壓縮成一個(gè)專門做修正任務(wù)的小模型，在保持性能的同時(shí)降低系統(tǒng)的運(yùn)行成本。

對這項(xiàng)研究感興趣的讀者，可以通過arXiv編號2605.29430找到完整論文，也可以通過研究團(tuán)隊(duì)提供的演示系統(tǒng)親身體驗(yàn)交互式語音識別的工作方式。

Q&A

Q1：S?ER（句子級語義錯(cuò)誤率）和傳統(tǒng)詞錯(cuò)率（WER）有什么實(shí)質(zhì)區(qū)別？

A：傳統(tǒng)詞錯(cuò)率只是數(shù)有多少個(gè)字被識別錯(cuò)了，對所有錯(cuò)誤一視同仁。S?ER關(guān)注的是整句話的意思有沒有被正確理解——漏掉幾個(gè)語氣詞但意思完整，S?ER認(rèn)為沒出錯(cuò)；只改了一個(gè)詞但那個(gè)詞是關(guān)鍵人名或工具名，S?ER就認(rèn)定出錯(cuò)了。兩者衡量的根本就不是同一件事。

Q2：Agentic ASR框架需要用很貴的大模型才能工作嗎？

A：不是必須用最大的模型。研究團(tuán)隊(duì)測試了將核心推理模塊從Qwen3-32B換成Qwen3-8B的效果，結(jié)果發(fā)現(xiàn)小模型依然能保持S?ER隨輪數(shù)下降的基本趨勢，只是最終錯(cuò)誤率會(huì)比大模型高出2到4個(gè)百分點(diǎn)，并且在需要精確局部修改時(shí)更容易引入新的錯(cuò)誤。所以用更小的模型可以工作，但代價(jià)是修正精度有所下降。

Q3：交互模擬系統(tǒng)（ISS）中的"用戶模擬器"怎么判斷該怎么糾正？

A：用戶模擬器里有一個(gè)大語言模型，它會(huì)同時(shí)看當(dāng)前的識別結(jié)果和正確答案，找出兩者之間最關(guān)鍵的語義差異，然后生成一句簡短的糾正指令。接著，語音合成模塊將這句指令轉(zhuǎn)換成語音，輸入給下一輪的語音識別系統(tǒng)。為了讓模擬聲音更自然，系統(tǒng)還會(huì)參考原始說話人的音色，讓每一輪的糾正語音聽起來像是同一個(gè)人說的。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.