網易首頁 > 網易號 > 正文申請入駐

從「時域建模」到「頻域融合」：中山大學團隊為傳感器人體活動識別提供新思路｜ TPAMI 2026

2026-05-26 14:08:09　來源: AI科技評論

廣東舉報

分享至

TSF 一舉突破了HAR領域長期存在的核心瓶頸，從物理機制層面重新審視HAR問題本身。

論文鏈接：

https://ieeexplore.ieee.org/abstract/document/11509656

項目主頁：

https://github.com/crocodilegogogo/TSF-TPAMI2026

你的運動手環、智能手機、智能手表，這些天天戴在身上的小玩意兒，其實一直在"觀察"你的一舉一動：是走是跑，是坐是躺，是騎車還是爬樓梯。它們試圖讀懂你的身體語言，為你記錄健康、追蹤運動、守護安全。

但問題來了：傳感器讀到的數據真的太"抽象"了。

圖1：傳感器人體活動識別流程圖

你懶洋洋地翻個身，手機記錄的是一大段亂糟糟的抖動信號；你從口袋掏出手機，陀螺儀立刻開始“漂移”；你只是把手機往床上一擱，重力計就開始高頻抖動。更麻煩的是，腕上的手表、腰間的手機、口袋里的設備，它們之間究竟是相互印證還是彼此矛盾？

讓AI讀懂這些“天書”般的數據，一直是傳感器人體活動識別（HAR）領域的大難題。

中山大學團隊日前發表在IEEE TPAMI上的最新研究，用一項名為“三重頻域融合”（Triple Spectral Fusion, TSF）的創新框架，一舉突破了HAR領域長期存在的核心瓶頸。

是的，不是單純堆疊網絡層數，不是盲目增加模型參數，不是簡單套用大模型，而是從傅里葉域、圖傅里葉域和小波域三個全新的“視角”，從物理機制層面重新審視HAR問題本身。

為什么之前的方法效果不理想？

中山大學團隊發現了一個在深度學習時代被絕大多數研究者長期忽視的事實：IMU里的三類傳感器，物理角色和噪聲特性截然不同：

重力計負責測量姿態角度，但它天生懼怕高頻噪聲，手機輕輕一晃，它就開始不淡定；

陀螺儀同樣測量姿態，但它真正的問題是低頻漂移，長時間積分下來，姿態角能漂出十萬八千里；

線性加速度計則是專門記錄運動的，跟姿態測量是兩碼事。

現有的HAR模型幾乎都把這三類傳感器“一視同仁”，當做同樣的數據喂給深度網絡。這在物理上就不太合理。就像你請一個教練同時教體操選手、舉重運動員和馬拉松跑者，用的還是同一套訓練方案，能出成績才怪。

此外，傳感器采樣率也遠遠高于人體動作，這引入了太多的冗余干擾信息，進一步增大了行為識別的難度。

從“頻譜域”到“圖譜域”再到“時頻域”，

三重頻域融合怎么層層打通HAR任務的“任督二脈”？

圖2：TSF模型框架圖

模塊一：自適應互補濾波模塊

借鑒傳統的互補濾波思想，在姿態分支中通過因果卷積核和注意力機制，讓網絡能夠像高級調音師一樣，自適應地設定高通和低通濾波器的截止頻率，完美適配重力計和陀螺儀的噪聲特點和互補優勢，從而獲得更加精準的姿態信息。

模塊二：圖譜域自適應濾波模塊

在HAR任務中，不同傳感器節點之間的差異性至關重要。比如，區分“坐”和“躺”時，不同身體位置之間的細微差異才是關鍵。為此，TSF框架在圖譜域分別設計了低通和高通濾波器來提取同質和異質節點信息，再進行自適應動態融合，從而不僅捕捉了不同身體部位之間共享的活動模式，也能保留個性化信息。

模塊三：自適應時頻選擇模塊

人類日常活動的頻率通常遠低于傳感器采樣率，這意味著大部分算力都浪費在了冗余信息上。為此，TSF使用小波變換將特征分解為低頻和高頻兩個長度減半的時頻分量，并使用可學習的二值掩碼自適應地保留主要頻率分量作為“主干”。在進入自注意力層進行全局時序建模之前，冗余信息已經得到過濾，剩下的是真正有價值的“干貨”。

驚艷的實驗表現

識別精度領跑全場：

中山大學團隊在十個公開HAR數據集上對TSF進行了全面評估，涵蓋智能手機和可穿戴設備兩類場景，總共涉及近200名受試者、數十種日常活動。與九種代表性方法相比：

TSF在十個數據集中斬獲八個最優成績，未獲第一的兩個數據集與最優方法的差距也微乎其微；

相比基線方法，TSF的F1分數提升幅度達到3.95%-11.56%，加權F1分數提升2.01%-6.45%。

打破參數爆炸魔咒：

得益于圖傅里葉自適應濾波機制和時頻降維策略，當全身傳感器數量劇增時，多數傳統方法的參數量呈直線暴漲，而 TSF 的模型參數量展現出一條平穩的水平線。同時，TSF也在計算復雜度與性能之間實現了有效的平衡。

良好的可解釋性：

自適應互補濾波模塊：將高頻和低頻噪聲分別注入重力計和陀螺儀數據，TSF框架均展現出了較強的魯棒性，證明了該框架能夠根據輸入數據有效地調整高、低通濾波器的截止頻率。

圖3：TSF在保留及刪除自適應互補濾波模塊的抗噪性能曲線圖

圖譜域自適應濾波模塊：對于受限式規律運動（如騎車、跑步機），動態圖學習到大量的正權重（偏好同質融合）；而在開放式自由運動（如打籃球、拿東西）中，動態圖則啟用了大量負權重（偏好異質信息），符合物理直覺。

圖4：不同運動對應的圖節點邊權重直方分布圖

自適應時頻選擇模塊：對于更為劇烈的運動（如騎車），TSF 能夠準確地將其映射至較高的頻帶；而對于較為舒緩的動作（如靜坐或平躺），TSF則會將其自適應地分配至較低的頻帶。這證明了TSF能夠準確地生成個性化的時頻分解路由。

圖5：不同頻次運動數據對應的頻域和時域曲線圖及其自適應時頻分解路徑

總結與展望

中山大學團隊在這項工作中為傳感器人體行為識別交出了一份從“時域”走向“譜域”的高分答卷。在追求大模型的今天，研究小型化、高效化、高可解釋性的領域專用小模型同樣至關重要。期待該工作能在更多實際落地場景中發揮威力！

未經「AI科技評論」授權，嚴禁以任何方式在網頁、論壇、社區進行轉載！

公眾號轉載請先在「AI科技評論」后臺留言取得授權，轉載時需標注來源并插入本公眾號名片。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.