![]()
編輯丨&
智能可穿戴設(shè)備的研發(fā)與設(shè)計(jì),往往會(huì)伴隨著人文關(guān)懷的色彩。這些功能各異的系統(tǒng)在各自的領(lǐng)域往往能強(qiáng)有力的技術(shù)支持,而 AI 的搭載能協(xié)助捕捉更細(xì)節(jié)的生物信號(hào),完成更精細(xì)的操作。
來(lái)自英國(guó)劍橋大學(xué)與北京航天大學(xué)等多所高校的實(shí)驗(yàn)團(tuán)隊(duì)介紹了一套由人工智能驅(qū)動(dòng)的智能喉嚨(IT)系統(tǒng),將喉部肌肉震動(dòng)與動(dòng)脈脈沖信號(hào)與 LLM 相結(jié)合,實(shí)現(xiàn)流暢且情感表達(dá)的交流。該系統(tǒng)在與無(wú)名中風(fēng)患者的測(cè)試中,實(shí)現(xiàn)了 4.2%的單詞錯(cuò)誤率,2.9%的句子錯(cuò)誤率。
相關(guān)研究?jī)?nèi)容以「Wearable intelligent throat enables natural speech in stroke patients with dysarthria」為題,于 2026 年 1 月 19 日刊登于《Nature Communications》。
![]()
論文鏈接:https://www.nature.com/articles/s41467-025-68228-9
解讀身體正在說(shuō)什么
對(duì)中風(fēng)、ALS 或帕金森患者而言,語(yǔ)言并不是“消失了”,而是被困在身體里。他們?nèi)匀荒芙M織語(yǔ)義、仍然有情緒、仍然知道自己想說(shuō)什么,但聲音無(wú)法穩(wěn)定、連續(xù)地被表達(dá)出來(lái)。
過(guò)去幾十年,輔助交流技術(shù)(AAC)始終在嘗試彌合這道鴻溝,但實(shí)際上真正缺失的是一種既貼近身體、又理解語(yǔ)言本身的系統(tǒng)。上述團(tuán)隊(duì)所提出的 IT 系統(tǒng)就彌補(bǔ)了這其中的缺陷。
該系統(tǒng)能夠捕捉喉部肌肉的外部振動(dòng)和頸動(dòng)脈脈搏信號(hào),實(shí)時(shí)整合無(wú)聲語(yǔ)音和情緒狀態(tài)分析。此外,其還能生成個(gè)性化、符合語(yǔ)境的句子,準(zhǔn)確反映患者的意圖。
![]()
圖示:為中風(fēng)構(gòu)音障礙患者開(kāi)發(fā)的 IT 示意圖。
這個(gè)系統(tǒng)所搭配的柔性智能頸環(huán)核心是印刷在彈性織物上的石墨烯應(yīng)變傳感器,可檢測(cè)低至0.1% 的微小應(yīng)變,頻率范圍覆蓋無(wú)聲發(fā)音相關(guān)的快速肌肉活動(dòng)。通過(guò)各向異性結(jié)構(gòu)與隔離層,這個(gè)頸環(huán)對(duì)細(xì)微應(yīng)變的響應(yīng)超過(guò)了10%。
![]()
圖示:IT 的硬件與數(shù)據(jù)收集。
此外,IT 系統(tǒng)選擇了一條更接近真實(shí)語(yǔ)言的路線,它能以約100 ms為時(shí)間尺度進(jìn)行 token 預(yù)測(cè),不再?gòu)?qiáng)制分詞或分句。用戶可以連續(xù)“默念”,系統(tǒng)持續(xù)輸出語(yǔ)言流的同時(shí),還能通過(guò)知識(shí)蒸餾將模型計(jì)算延遲降低76%,保證整條鏈路足夠快,避免“人已經(jīng)想完一句話,系統(tǒng)還在反應(yīng)上一句”。
解碼與 LLM 代理
除此之外,團(tuán)隊(duì)還將 DFT 頻率提取納入解碼流程之中,這種方法使端到端神經(jīng)網(wǎng)絡(luò)能夠自動(dòng)提取最相關(guān)特征,以進(jìn)行無(wú)需手動(dòng)特征工程的情感分類。結(jié)果顯示 DFT 在解碼準(zhǔn)確性方面有顯著提升。最優(yōu)模型是帶有 DFT 的 1D 卷積神經(jīng)網(wǎng)絡(luò),準(zhǔn)確率達(dá)到 83.2%。
在臨床觀察中,團(tuán)隊(duì)觀察到即使是無(wú)聲默念短語(yǔ),也會(huì)導(dǎo)致肌肉疲勞等現(xiàn)象,讓發(fā)聲出現(xiàn)偏差。為了減少相應(yīng)的體力損失與保留預(yù)期信息,團(tuán)隊(duì)引入了智能擴(kuò)展選項(xiàng),允許患者表達(dá)簡(jiǎn)潔的符號(hào),這些符號(hào)會(huì)自動(dòng)豐富為完整且符合上下文的句子。
而為了確保句子自然且連貫,他們引入了兩個(gè)基于GPT-4o-mini AP I的 LLM 代理:符號(hào)合成代理(TSA)和句子擴(kuò)展代理(SEA)。
![]()
圖示:LLM 代理框架與性能評(píng)估。
TSA 將 token 標(biāo)簽直接合并為患者無(wú)聲表達(dá)的詞語(yǔ),并將它們組合成句子;而 SEA 則利用情緒標(biāo)簽和客觀信息,將這些基本句子擴(kuò)展為連貫、個(gè)性化的表達(dá)。這兩個(gè)代理生成的句子都會(huì)被發(fā)送到開(kāi)源的文本轉(zhuǎn)語(yǔ)音模型,并以匹配后的語(yǔ)音進(jìn)行播放。在實(shí)際應(yīng)用中,用戶完成無(wú)聲表達(dá)與句子播放之間的延遲大約為 1 秒。
智能發(fā)聲
全面的分析和用戶反饋肯定了 IT 在流暢度、準(zhǔn)確性、情感表達(dá)和個(gè)性化方面的高績(jī)效。該系統(tǒng)的成功來(lái)自于其能夠捕捉高質(zhì)量信號(hào)的超靈敏紡織應(yīng)變傳感器,高分辨率的標(biāo)記化分割技術(shù)使用戶能夠無(wú)表達(dá)延遲地進(jìn)行連續(xù)溝通。
該系統(tǒng)采用的 LLM 代理的集成實(shí)現(xiàn)了智能糾錯(cuò)和上下文適應(yīng),實(shí)現(xiàn)了卓越的解碼準(zhǔn)確率,用戶滿意度提升了55%。
這只是個(gè)開(kāi)始。團(tuán)隊(duì)還在積極擴(kuò)大研究隊(duì)列,納入更多構(gòu)音障礙患者,并計(jì)劃擴(kuò)大語(yǔ)言數(shù)據(jù)庫(kù),實(shí)現(xiàn)更高的覆蓋率。硬件與軟件的升級(jí)也同樣在他們的準(zhǔn)備之中。團(tuán)隊(duì)表示,他們希望自己的成果能協(xié)助有關(guān)病患改善他們的生活質(zhì)量。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.