網易首頁 > 網易號 > 正文申請入駐

ICML 2026｜OFA-TAD邁向one-for-all通用異常檢測新范式

2026-05-20 16:11:50　來源: 機器之心Pro

天津舉報

分享至

表格異常檢測（Tabular Anomaly Detection，TAD）旨在從結構化數據中精準識別顯著偏離正常分布的稀有樣本，其在醫療診斷、金融風控及網絡安全等關鍵領域的數據挖掘與安全保障任務中發揮著核心作用。

然而，當前大多數 TAD 方法仍然遵循一種one-for-one（OFO）范式：每來一個新數據集，就要重新訓練一個專屬檢測器，甚至重新調參、重新選擇預處理方式。這不僅帶來高昂的計算和運維成本，也讓模型難以泛化到未知領域。

那么，表格異常檢測能否像大模型一樣，訓練一次，就能遷移到不同領域的數據表上，實現真正的one-for-all（OFA）

近期，來自 Griffith University 和 Tongji University 的團隊提出了 OFA-TAD，邁出了通用表格異常檢測的重要一步。該方法將 TAD 從傳統的 one-for-one（OFO）推進到 one-for-all（OFA）范式：模型只需在多個源數據集上訓練一次，便可直接遷移到未見過的目標數據集，無需目標域微調或重新訓練。

圖注：傳統 OFO 范式與 OFA-TAD 所追求的 OFA 范式對比。

論文標題：Towards One-for-All Anomaly Detection for Tabular Data
作者：Shiyuan Li，Yixin Liu，Yu Zheng，Xiaofeng Cao，Shirui Pan，Heng Tao Shen
論文地址：https://arxiv.org/abs/2603.14407
代碼地址：https://github.com/Shiy-Li/OFA-TAD

從 one-for-one 到 one-for-all：

表格異常檢測的新問題

傳統 TAD 方法通常在單個數據集內訓練和測試。無論是經典的 Isolation Forest、LOF、KNN，還是近年來的 AutoEncoder、DeepSVDD、MCM、DRL、DisentAD 等深度方法，它們大多默認每個數據集都有自己的訓練流程。

這種范式在單一數據集上可能表現不錯，但在真實部署中會遇到兩個核心問題：

訓練成本高：每個新場景都需要重新訓練檢測器，往往還伴隨超參數搜索和預處理選擇。
泛化能力弱：模型容易依賴某個數據集的局部模式，一旦遷移到新領域，性能可能明顯下降。

OFA-TAD 試圖回答一個更具挑戰性的問題：能否訓練一個通用的表格異常檢測器，在面對來自醫療、金融、圖像特征、網絡安全等不同領域的新數據表時，仍然能夠即插即用地發現異常？

這一問題并不簡單。表格數據天然存在「語義鴻溝」：不同數據集的特征維度、特征含義和數值分布都可能完全不同。醫療數據中的異常可能是異常血壓或心率，金融數據中的異常則可能是異常交易金額或賬戶行為。直接對齊原始特征語義，幾乎不可行。

關鍵洞見：異常的共性

不在特征語義，而在鄰域距離

OFA-TAD 的核心洞見是：跨領域可遷移的異常信號，不應依賴具體特征含義，而應來自更通用的鄰域結構。

無論是異常病人記錄、欺詐交易，還是異常網絡行為，它們往往都有一個共同點：相對于正常樣本，它們更「孤立」，也就是與局部鄰居的距離模式更不尋常。

因此，OFA-TAD 不直接學習原始表格特征，而是將每個樣本表示為其 Top-K 近鄰距離序列，即「鄰居距離畫像」。這種表示具有兩個優勢：

語義無關：不依賴具體列名或領域含義，不同維度的數據表也能被轉化為固定長度的距離序列。
異常敏感：異常樣本通常會在近鄰距離曲線上表現出更明顯的跳變、長尾或孤立特征。

換句話說，OFA-TAD 將不同領域的數據表，統一轉化為一種可比較的「距離語言」。

多視角距離編碼：

讓模型自動適應不同數據變換

僅使用一種距離空間仍然不夠。表格數據對預處理方式高度敏感：標準化、歸一化、分位數變換等操作，都會改變樣本之間的鄰域關系。某些異常在標準化空間中更明顯，另一些異常可能在 MinMax 或 Quantile 空間中更容易被發現。

圖注：不同特征變換會顯著改變近鄰結構與異常可分性。R：Raw，S：Standardized，and Q：Quantile。

為了解決這一問題，OFA-TAD 構建了多個由不同特征變換誘導的度量空間，例如 Raw、Standardized、MinMax、Quantile 等。對于同一個樣本，模型會在每個視角下提取 Top-K 鄰居距離序列，并通過分位數歸一化將不同數據集中的距離尺度映射到統一范圍。

這樣，OFA-TAD 既避免了對某一種預處理方式的依賴，也能捕獲互補的異常證據。

MoE 自適應融合：

讓每個樣本選擇最可靠的距離視角

不同視角并非同等可靠。如果簡單拼接或平均多個距離視角，反而可能讓強信號被弱視角稀釋。

為此，OFA-TAD 進一步引入了 Mixture-of-Experts（MoE）評分網絡：

視角專家：每個專家負責一個特定距離視角，利用位置編碼和注意力池化建模 Top-K 鄰居距離序列，并輸出該視角下的異常分數。
門控網絡：根據不同視角的表征，動態預測每個專家的權重。
加權融合：模型根據樣本自身特點，自適應強調最有用的視角，抑制噪聲視角，得到最終異常分數。

圖注：OFA-TAD 的整體框架：多視角距離編碼、MoE 自適應評分，以及多策略偽異常合成。

這種設計使得 OFA-TAD 不需要提前知道某個目標數據集最適合哪種預處理方式，而是能在推理時自動選擇更可靠的距離證據。

沒有真實異常標簽怎么辦？

多策略合成偽異常

表格異常檢測通常處于 one-class setting：訓練階段只有正常樣本，真實異常極少甚至完全不可見。為了在不破壞這一設定的前提下提供監督信號，OFA-TAD 設計了多策略偽異常合成機制。

具體而言，模型通過四類方式生成多樣化的偽異常：

流形外推：模擬遠離正常數據流形的全局異常。
簇間插值：模擬落在低密度區域的局部異常。
噪聲注入：模擬測量誤差或隨機擾動。
特征遮蔽：模擬數據缺失或特征損壞。

這些偽異常與正常樣本共同構成訓練信號，幫助模型學習更穩健、可遷移的異常決策邊界。

實驗結果：34 個數據集、

14 個領域上的通用檢測能力

實驗中，OFA-TAD 在 7 個源數據集上訓練一次，并在 34 個來自 14 個領域的數據集上進行評測。與之對比的 9 個代表性基線方法，包括經典方法 IForest、LOF、KNN，以及深度方法 AE、DeepSVDD、LUNAR、MCM、DRL、DisentAD。

值得注意的是，對比方法按照傳統 OFO 范式在每個目標數據集上分別訓練，而 OFA-TAD 不在目標數據集上重新訓練或微調，僅使用目標數據集的正常訓練樣本作為推理時的上下文，用于近鄰檢索和距離歸一化，并且使用固定的相同一組超參數在所有目標數據集上進行測試。

1）整體性能：一次訓練，跨 34 個數據集穩定領先

在這一更嚴格的設置下，OFA-TAD 仍然取得了最優的整體表現。如下圖所示，它在 AUROC、AUPRC 等指標上的平均排名均保持領先。

2）消融實驗：多視角、MoE 與注意力缺一不可

消融實驗進一步驗證了各模塊的重要性。如下圖所示，去掉門控融合、MoE 專家、注意力池化或位置編碼都會帶來性能下降，其中注意力池化的影響尤為明顯，說明對鄰居距離證據進行自適應加權，是捕獲稀疏異常信號的關鍵。

同時，多策略偽異常合成也提供了互補監督信號。移除任意一種合成策略都會造成性能下降，說明真實異常的形態復雜多樣，需要通過多種偽異常模式共同刻畫。

3）上下文魯棒性：少量正常樣本也能支持即時推理

OFA-TAD 還展現出良好的上下文魯棒性。即使目標數據集中只有一小部分正常樣本可作為上下文，模型仍能進行穩定的即時推理；隨著上下文樣本增多，性能進一步提升并逐漸趨于飽和。

這表明 OFA-TAD 可以在有限的正常樣本下快速建立目標域鄰域結構，從而完成 on-the-fly 異常檢測。

4）dataset-specific scaling

更進一步，隨著源數據集數量增加，OFA-TAD 的遷移性能呈現穩定提升趨勢。這說明通用表格異常檢測具備類似「dataset-specific scaling」的潛力：預訓練數據越豐富，模型越可能學到跨領域的異常檢測規律。

總結：邁向通用表格異常檢測器

OFA-TAD 為表格異常檢測從 one-for-one 向 one-for-all 范式轉變提供了一個初步的嘗試，并在無需目標域微調的跨域遷移場景下展現出了極具潛力的性能。

未來，通用表格異常檢測仍有廣闊的探索空間。通過引入更大規模的預訓練數據集、設計更先進的訓練方法，以及更深度的上下文信息利用，通用 TAD 模型有望進一步降低工業部署成本，為醫療、金融、安全等高價值場景提供更加靈活可靠的異常檢測基礎設施。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.