![]()
長期以來,盡管基于深度學習的自動睡眠分期模型已經達到了人類專家級別的準確率,但它們作為“黑盒”運行,缺乏可解釋性,嚴重阻礙了其在臨床的落地應用 。近日,浙江大學科研團隊提出了一項突破性成果——SleepVLM。這是首個應用于可解釋睡眠分期的視覺語言模型(VLM)。該模型不僅能從多通道多導睡眠圖(PSG)波形圖像中準確進行睡眠分期,還能基于美國睡眠醫學會(AASM)評分標準,自動生成臨床醫生可讀的自然語言推理過程。目前,該研究已在arXiv發布預印本,同時開源了全球首個專家標注腦電睡眠分期推理數據集 MASS-EX。
01 研究背景介紹
睡眠障礙是全球性的重大公共衛生挑戰,僅阻塞性睡眠呼吸暫停就在全球影響近十億成年人 。多導睡眠圖(PSG)是診斷睡眠障礙的臨床金標準 。在目前的臨床實踐中,經過培訓的睡眠技師需要通過肉眼觀察多通道PSG記錄,并依據AASM評分手冊中的規則對睡眠階段進行分類 。
過去十年中,深度學習在自動睡眠分期方面取得了巨大進展,性能已逼近甚至達到人類專家水平 。然而,這些模型本質上是黑盒分類器,只能輸出預測標簽,而無法解釋決策過程 。雖然現有的一些可解釋AI(XAI)方法(如熱力圖、注意力可視化等)能指出模型關注了哪些輸入區域,但它們無法用臨床語言解釋“為什么” 。臨床醫生需要的不是抽象的模型特征,而是基于與他們日常診斷相同的醫學詞匯和規則系統(AASM)的“臨床合理性”解釋 。
02 論文概要
針對這一痛點,浙江大學團隊提出了 SleepVLM。這是一種規則驅動的視覺語言模型框架,巧妙地將自動分類與臨床解釋結合在單次前向傳播中 。
模擬臨床技師的工作流:
■ 波形圖像渲染:將多通道PSG信號(如 EEG, EOG, EMG)轉換為標準化的多通道波形圖像,使模型像人類專家一樣“觀察”波形形態 。
兩階段訓練管道:
實驗不僅解決了穩定性問題,還保持了極高的采樣精度。
■ 階段一:波形感知預訓練(WPT)。訓練模型預測每秒的頻帶功率和振幅特征,強化其對腦電波形的視覺感知能力 。
■ 階段二:規則驅動的監督微調(SFT)。向模型輸入連續三個epoch的圖像(提供上下文),并在系統提示中注入結構化的AASM評分規則,要求模型不僅輸出睡眠階段,還要引用具體的AASM規則并寫出完整的推理邏輯 。
![]()
SleepVLM 框架概覽
左側為信號處理與波形渲染;中間為兩階段訓練管道;右側展示了同時輸出標簽、規則與自然語言推理的過程。
03 研究結果分析
研究團隊在一個保留測試集(MASS-SS1, n=53)和一個外部臨床測試集(ZUAMHCS, n=100)上,對SleepVLM進行了分類性能與推理質量的雙維度評估 。
■媲美SOTA的分類性能
在MASS-SS1測試集上,SleepVLM取得了Cohen's kappa為0.767的優異成績;在更具挑戰性的外部臨床數據集ZUAMHCS上,kappa值依然保持在0.743。與現有的12種基于信號的方法和2種基于圖像的方法相比,SleepVLM性能處于第一梯隊,并且展現出卓越的跨域魯棒性(跨域 kappa 僅下降 2.4 個百分點) 。最關鍵的是,它是唯一一個在保持高準確率的同時提供詳細醫學解釋的模型 。
![]()
■ 臨床專家認可的高質量推理
除了準確率,由專業睡眠技師對模型生成的推理文本進行了嚴格的盲評打分(滿分 5.0) 。在事實準確性(Factual Accuracy)、證據全面性(Evidence Comprehensiveness)和邏輯連貫性(Logical Coherence)三個維度上,SleepVLM 在兩個數據集上的平均得分均超過了 4.0 分(“良好”水平) 。模型能夠精準識別Alpha節律、K復合波、睡眠紡錘波等特征,并使用排他性邏輯進行辯證推理 。
![]()
SleepVLM 輸出示例
模型不僅給出了準確的分期結果,還引用了特定的AASM規則(如W.1, N2.1等),并詳細描述了各通道中觀察到的生理特征及排他性推導過程。
■ 輕量化與易部署特性
為了滿足臨床環境的部署需求,團隊應用了W4A16量化技術。量化后的模型大小縮減了54.9%(僅3.2GB),推理速度提升了2.2倍,而kappa值的損失不超過1.6個百分點 。這使得SleepVLM完全可以部署在單張消費級 GPU(如 RTX 4090)上,極大地降低了臨床應用門檻 。
04 結論與啟發展望
SleepVLM打破了長期以來自動睡眠分期領域的“準確率vs.可解釋性”困境,確立了一個全新的范式:將自動睡眠分期從“僅輸出標簽”的預測推向“受規則約束、可審計的臨床推理” 。這為未來建立值得信賴的人機協作(Human-AI Collaboration)睡眠醫學輔助系統奠定了堅實的基礎 。
為了進一步推動可解釋睡眠醫學的研究,研究團隊開源了MASS-EX數據集。該數據集包含了62名受試者的59317個epoch,提供了基于AASM規則的詳細專家標注和推理文本,填補了該領域高質量解釋性基準數據集的空白 。
來源 | Guifeng Deng, Pan Wang, Jiquan Wang, Shuying Rao, Junyi Xie, Wanjun Guo, Tao Li, Haiteng Jiang. SleepVLM: Explainable and Rule-Grounded Sleep Staging via a Vision-Language Model. 腦機接口社區
浙大科技園啟真腦機智能產業化基地是在浙大控股集團領導下,由浙江大學科技園發展有限公司與杭州未來科技城管委會共建,圍繞腦機智能產業主體,輻射腦機+生命健康、腦機+智能制造、腦機+新一代信息技術、腦機+新材料等領域的專業化特色產業基地,由杭州啟真未來科技發展有限公司負責全面運營。
基地依托浙江大學在腦機智能方面的學科優勢,以腦機智能作為核心科技支撐,貫徹浙江大學國家大學科技園“有組織科技成果轉化、有靶向科技企業孵化、有體系未來產業培育”的服務體系,致力于打造腦機智能領域具備成果顯示度、區域影響力的產業化高地。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.