網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

劍橋與北航等設(shè)計(jì)可穿戴設(shè)備+LLM，大模型推理的無(wú)聲語(yǔ)音系統(tǒng)

2026-01-22 13:56:20　來(lái)源: ScienceAI

廣西舉報(bào)

分享至

編輯丨&

智能可穿戴設(shè)備的研發(fā)與設(shè)計(jì)，往往會(huì)伴隨著人文關(guān)懷的色彩。這些功能各異的系統(tǒng)在各自的領(lǐng)域往往能強(qiáng)有力的技術(shù)支持，而 AI 的搭載能協(xié)助捕捉更細(xì)節(jié)的生物信號(hào)，完成更精細(xì)的操作。

來(lái)自英國(guó)劍橋大學(xué)與北京航天大學(xué)等多所高校的實(shí)驗(yàn)團(tuán)隊(duì)介紹了一套由人工智能驅(qū)動(dòng)的智能喉嚨（IT）系統(tǒng)，將喉部肌肉震動(dòng)與動(dòng)脈脈沖信號(hào)與 LLM 相結(jié)合，實(shí)現(xiàn)流暢且情感表達(dá)的交流。該系統(tǒng)在與無(wú)名中風(fēng)患者的測(cè)試中，實(shí)現(xiàn)了 4.2%的單詞錯(cuò)誤率，2.9%的句子錯(cuò)誤率。

相關(guān)研究?jī)?nèi)容以「Wearable intelligent throat enables natural speech in stroke patients with dysarthria」為題，于 2026 年 1 月 19 日刊登于《Nature Communications》。

論文鏈接：https://www.nature.com/articles/s41467-025-68228-9

解讀身體正在說(shuō)什么

對(duì)中風(fēng)、ALS 或帕金森患者而言，語(yǔ)言并不是“消失了”，而是被困在身體里。他們?nèi)匀荒芙M織語(yǔ)義、仍然有情緒、仍然知道自己想說(shuō)什么，但聲音無(wú)法穩(wěn)定、連續(xù)地被表達(dá)出來(lái)。

過(guò)去幾十年，輔助交流技術(shù)（AAC）始終在嘗試彌合這道鴻溝，但實(shí)際上真正缺失的是一種既貼近身體、又理解語(yǔ)言本身的系統(tǒng)。上述團(tuán)隊(duì)所提出的 IT 系統(tǒng)就彌補(bǔ)了這其中的缺陷。

該系統(tǒng)能夠捕捉喉部肌肉的外部振動(dòng)和頸動(dòng)脈脈搏信號(hào)，實(shí)時(shí)整合無(wú)聲語(yǔ)音和情緒狀態(tài)分析。此外，其還能生成個(gè)性化、符合語(yǔ)境的句子，準(zhǔn)確反映患者的意圖。

圖示：為中風(fēng)構(gòu)音障礙患者開(kāi)發(fā)的 IT 示意圖。

這個(gè)系統(tǒng)所搭配的柔性智能頸環(huán)核心是印刷在彈性織物上的石墨烯應(yīng)變傳感器，可檢測(cè)低至0.1% 的微小應(yīng)變，頻率范圍覆蓋無(wú)聲發(fā)音相關(guān)的快速肌肉活動(dòng)。通過(guò)各向異性結(jié)構(gòu)與隔離層，這個(gè)頸環(huán)對(duì)細(xì)微應(yīng)變的響應(yīng)超過(guò)了10%。

圖示：IT 的硬件與數(shù)據(jù)收集。

此外，IT 系統(tǒng)選擇了一條更接近真實(shí)語(yǔ)言的路線，它能以約100 ms為時(shí)間尺度進(jìn)行 token 預(yù)測(cè)，不再?gòu)?qiáng)制分詞或分句。用戶可以連續(xù)“默念”，系統(tǒng)持續(xù)輸出語(yǔ)言流的同時(shí)，還能通過(guò)知識(shí)蒸餾將模型計(jì)算延遲降低76%，保證整條鏈路足夠快，避免“人已經(jīng)想完一句話，系統(tǒng)還在反應(yīng)上一句”。

解碼與 LLM 代理

除此之外，團(tuán)隊(duì)還將 DFT 頻率提取納入解碼流程之中，這種方法使端到端神經(jīng)網(wǎng)絡(luò)能夠自動(dòng)提取最相關(guān)特征，以進(jìn)行無(wú)需手動(dòng)特征工程的情感分類。結(jié)果顯示 DFT 在解碼準(zhǔn)確性方面有顯著提升。最優(yōu)模型是帶有 DFT 的 1D 卷積神經(jīng)網(wǎng)絡(luò)，準(zhǔn)確率達(dá)到 83.2%。

在臨床觀察中，團(tuán)隊(duì)觀察到即使是無(wú)聲默念短語(yǔ)，也會(huì)導(dǎo)致肌肉疲勞等現(xiàn)象，讓發(fā)聲出現(xiàn)偏差。為了減少相應(yīng)的體力損失與保留預(yù)期信息，團(tuán)隊(duì)引入了智能擴(kuò)展選項(xiàng)，允許患者表達(dá)簡(jiǎn)潔的符號(hào)，這些符號(hào)會(huì)自動(dòng)豐富為完整且符合上下文的句子。

而為了確保句子自然且連貫，他們引入了兩個(gè)基于GPT-4o-mini AP I的 LLM 代理：符號(hào)合成代理（TSA）和句子擴(kuò)展代理（SEA）。

圖示：LLM 代理框架與性能評(píng)估。

TSA 將 token 標(biāo)簽直接合并為患者無(wú)聲表達(dá)的詞語(yǔ)，并將它們組合成句子；而 SEA 則利用情緒標(biāo)簽和客觀信息，將這些基本句子擴(kuò)展為連貫、個(gè)性化的表達(dá)。這兩個(gè)代理生成的句子都會(huì)被發(fā)送到開(kāi)源的文本轉(zhuǎn)語(yǔ)音模型，并以匹配后的語(yǔ)音進(jìn)行播放。在實(shí)際應(yīng)用中，用戶完成無(wú)聲表達(dá)與句子播放之間的延遲大約為 1 秒。

智能發(fā)聲

全面的分析和用戶反饋肯定了 IT 在流暢度、準(zhǔn)確性、情感表達(dá)和個(gè)性化方面的高績(jī)效。該系統(tǒng)的成功來(lái)自于其能夠捕捉高質(zhì)量信號(hào)的超靈敏紡織應(yīng)變傳感器，高分辨率的標(biāo)記化分割技術(shù)使用戶能夠無(wú)表達(dá)延遲地進(jìn)行連續(xù)溝通。

該系統(tǒng)采用的 LLM 代理的集成實(shí)現(xiàn)了智能糾錯(cuò)和上下文適應(yīng)，實(shí)現(xiàn)了卓越的解碼準(zhǔn)確率，用戶滿意度提升了55%。

這只是個(gè)開(kāi)始。團(tuán)隊(duì)還在積極擴(kuò)大研究隊(duì)列，納入更多構(gòu)音障礙患者，并計(jì)劃擴(kuò)大語(yǔ)言數(shù)據(jù)庫(kù)，實(shí)現(xiàn)更高的覆蓋率。硬件與軟件的升級(jí)也同樣在他們的準(zhǔn)備之中。團(tuán)隊(duì)表示，他們希望自己的成果能協(xié)助有關(guān)病患改善他們的生活質(zhì)量。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.