網易首頁 > 網易號 > 正文申請入駐

北京交通大學等多所高校用一堆隨機數字教會了AI識別貓狗

2026-06-10 21:23:21　來源: 科技行者

天津舉報

分享至

這項由北京交通大學、清華大學、南方科技大學、北京工業大學、南京郵電大學等多所高校聯合完成的研究，發表于2026年第43屆國際機器學習大會（ICML 2026），論文編號為arXiv:2606.00558。研究的核心發現出人意料：用來自隨機分布的"噪聲數據"，也就是毫無實際意義的隨機數字，竟然能幫助人工智能模型更好地識別真實世界中的貓、狗、花朵和汽車。

這聽起來是不是有點匪夷所思？平時我們訓練AI識別圖片，靠的是海量有標簽的真實照片。但這個團隊卻發現，往訓練過程中塞入一堆從高斯分布里隨機采樣出來的數字，居然讓模型的準確率在某些數據集上提升了超過15%。

要理解這件事為什么值得關注，我們先從一個生活場景說起。

一、當AI老師面臨"教材短缺"的困境

假設你要教一個完全不認識動物的孩子區分貓和狗。最理想的情況是給他看幾千張貓的照片和幾千張狗的照片，然后他就慢慢學會了。但現實中，你往往只有幾張照片——比如每種動物只有四張——剩下的大量圖片都沒有標注，你根本不知道那些圖里是貓還是狗。

這正是機器學習領域里一個叫做"半監督學習"的場景：只有極少量的圖片有標簽，大量圖片沒有標簽。在這種情況下，AI要怎么利用那些沒有標簽的圖片來學習呢？

更頭疼的是，很多現實場景中，獲取"別人家的數據"來幫助訓練是非常困難的。醫院的患者數據受隱私法保護，企業的商業數據有版權限制，政府的數據涉及保密規定。這就導致一個困境：模型需要更多數據，但真實數據要么敏感、要么昂貴、要么根本拿不到。

研究團隊此前的工作（Yao et al., 2025）發現了一個令人意外的突破口：既然真實數據不好拿，那何不用隨機生成的"噪聲數據"來代替？只要這些噪聲數據能在結構上給模型提供有用的指引，它們就可以作為"代理老師"，幫助模型更好地理解那些沒有標簽的真實圖片。

然而，這個前期工作有兩個明顯的短板：它沒有從理論上解釋為什么噪聲數據能幫到模型，而且只在一些非主流的數據集上做了實驗，沒有在CIFAR-10、ImageNet這些主流基準測試上驗證。正是為了填補這兩個空缺，本文的研究團隊提出了一個系統性的框架，既給出了理論解釋，又在多個主流數據集上做了全面驗證。

二、給這件奇怪的事情起一個正式的名字

研究團隊把他們研究的這個問題叫做"半監督噪聲自適應"，英文縮寫是SSNA。這個名字可以拆開來理解：

"半監督"指的是目標數據集里只有一小部分圖片有標簽，大部分沒有標簽的那種學習場景。"噪聲"指的是從隨機分布里生成的、毫無語義含義的數據，比如從高斯分布里隨機采樣出來的數字向量。"自適應"則是指讓模型適應目標任務的過程。

整個設置可以用一個更生動的比喻來理解：把訓練一個AI識別動物的過程，比作一位美術老師在資源匱乏的情況下教學生畫畫。

目標領域就是學生需要學習的內容，也就是真實的貓狗圖片。其中只有極少數圖片被標注了（"這是貓"、"這是狗"），大多數圖片都沒有標注。噪聲領域則相當于老師在黑板上隨手畫的一些抽象圖形——這些圖形本身不像貓也不像狗，純粹是隨機涂鴉。但關鍵在于：老師給這些抽象圖形也貼上了標簽，把其中一些叫做"0號圖"，另一些叫做"1號圖"，和貓、狗的編號對應起來。

這個"對應"關系就是SSNA的核心設計：噪聲數據雖然本身毫無意義，但它們被人為地分配了與目標類別一一對應的編號。于是，區分不同類別噪聲的任務，就和區分不同類別真實圖片的任務，在結構上對齊了。

三、噪聲數據里藏著什么有用的"知識"

現在關鍵的問題來了：這些隨機涂鴉里究竟藏著什么，能幫助學生更好地畫出真實的貓狗？

答案藏在一個叫做"判別性結構"的概念里。所謂判別性結構，通俗地說就是：不同類別的數據在某個空間里能被清晰地區分開來，形成一堆一堆的簇，每堆代表一個類別。

當我們用模型去處理噪聲數據，并要求它把不同編號的噪聲分類正確時，模型會在內部的表示空間里，把屬于"0號類別"的噪聲聚集在一起，把屬于"1號類別"的噪聲聚集在另一處。這就形成了清晰的判別性結構——盡管這些類別本身毫無語義含義。

接下來，當模型把真實圖片和噪聲數據都投影到同一個共享的表示空間里，并要求真實圖片的分布盡量接近對應類別的噪聲分布時，神奇的事情就發生了：真實圖片的表示也開始變得更加清晰、更加可區分。原本混在一起、模糊不清的貓和狗的特征，開始被噪聲簇的結構"拉開"，各自聚集成更緊湊的簇。

這就是為什么噪聲能夠幫助模型的核心原因：噪聲本身不提供任何關于貓或狗的知識，但它提供了一種清晰的空間結構，模型可以把真實圖片"靠"上去，從而更好地組織自己對真實數據的理解。

當然，這里有一個不可缺少的條件：必須有少量標注的真實圖片來建立噪聲類別和真實類別之間的對應關系。如果完全沒有標注的真實圖片，模型就不知道哪個噪聲簇對應貓、哪個對應狗，那么這種結構上的指引就完全失效了。在實驗中，研究團隊驗證了這一點：當標注圖片數量為零時，使用噪聲數據幾乎沒有任何收益，甚至可能造成輕微的負面影響。

四、用數學來證明"噪聲有用"

除了直覺性的解釋，研究團隊還從理論層面給出了嚴格的數學證明。他們推導了一個叫做"泛化誤差上界"的東西，用來描述模型在未見過的真實測試數據上最差會表現多糟糕。

這個上界就像一個"最壞情況保證"。如果你能把這個上界壓得更低，就意味著模型在真實測試時的表現有更強的數學保障。

研究團隊證明的核心結論是：模型在目標領域的測試誤差，可以被以下幾個量共同上界所控制：模型在標注的目標數據上的訓練誤差、模型在噪聲數據上的訓練誤差、噪聲數據和目標數據在共享表示空間里的分布差異。

這個結論告訴我們：如果我們同時把這三個量都壓小，就能系統性地壓低模型在目標領域測試時的誤差上界。換句話說，讓模型同時在真實圖片和噪聲數據上都表現好，同時讓兩種數據的分布在表示空間里盡量接近，就能從理論上保證模型有更好的泛化能力。

一個值得注意的細節是：這個理論框架的推導不依賴于"噪聲數據和真實數據在語義上相關"這個通常在遷移學習里被默認的假設。傳統的遷移學習理論要求源域和目標域在語義上有關聯（比如都是動物圖片），但這里的噪聲數據和真實圖片在語義上完全無關，理論框架依然成立。這是一個重要的理論貢獻，因為它拓寬了遷移學習理論適用的范圍。

五、噪聲自適應框架：把理論變成實際操作

基于這個理論框架，研究團隊設計了一個叫做"噪聲自適應框架"的訓練方案，英文縮寫NAF。這個框架的工作方式，可以用"三管齊下"來描述。

框架里有三個組件在共同工作。首先是一個"表示提取器"，它的工作是把真實圖片從像素空間轉化成高維表示空間里的一個向量。這就像把一張照片"翻譯"成模型能理解的數學語言。其次是一個"噪聲投影器"，它的工作是把噪聲數據同樣轉化成表示空間里的向量，和真實圖片住在同一個空間里。最后是一個"分類器"，負責在表示空間里完成最終的分類判斷。

訓練時，這三個組件的優化目標也是"三管齊下"：第一，盡量減小模型在有標簽的真實圖片上的分類錯誤；第二，盡量減小模型在噪聲數據上的分類錯誤，這會迫使噪聲數據在表示空間里形成清晰的判別性結構；第三，盡量減小噪聲數據和真實圖片在表示空間里的分布差異，這就是分布對齊的過程。

對于沒有標簽的大量真實圖片，框架用分類器給它們生成"偽標簽"，并在訓練過程中不斷更新這些偽標簽，逐漸提升它們的準確性。

為了衡量噪聲數據和目標數據之間的分布差異，研究團隊設計了一種叫做"負域相似度"的度量方式。它的工作原理是：分別計算噪聲數據和真實圖片在每個類別上的平均表示向量，然后用余弦相似度來衡量對應類別的平均向量有多接近，取平均后取反。訓練時最大化這個量，就等于在不斷拉近噪聲數據和真實圖片在每個類別上的表示分布。

除了這種默認的度量方式，研究團隊還設計了四種替代方案：一種是計算所有同類別噪聲-圖片對的余弦相似度均值的反值；一種是對類別均值對計算對比學習損失；一種是對所有噪聲-圖片對按同類/異類分別設定目標相似度的回歸損失；還有一種是直接計算類別均值向量之間的歐氏距離。實驗結果顯示，默認的余弦相似度方案效果最好，歐氏距離方案表現最差，這說明在表示空間里衡量方向比衡量絕對距離更合適。

六、把結構"畫出來"：眼見為實的驗證

研究團隊做了一個非常直觀的可視化實驗，把模型學到的表示用一種叫做t-SNE的降維方法"畫"出來，讓我們能直觀地看到表示空間里發生了什么。

使用NAF訓練出來的模型，在表示空間里呈現出非常整齊的結構：不同類別的噪聲數據聚集成清晰分離的球狀簇，而對應類別的真實圖片（無論是有標簽的還是沒標簽的）都緊緊環繞在對應噪聲簇的旁邊，整體形成清晰的類別邊界。

而只用真實有標簽圖片訓練出來的基線模型（也就是標準的監督學習，研究團隊稱之為ERM），在表示空間里就混亂得多：不同類別的點混在一起，邊界模糊，很難清晰區分。

訓練過程的損失曲線也印證了這一點：NAF在訓練過程中，在真實圖片上的訓練誤差和噪聲數據上的訓練誤差都在穩定下降，分布差異也在縮小；而ERM則只有真實圖片上的訓練誤差在下降，噪聲相關的損失保持在較高水平。而與此對應的，NAF的測試準確率顯著高于ERM。

七、真實的考試成績：在多個數據集上的全面測試

理論夠扎實，可視化也很直觀，但最終還是要看在真實數據集上的實際表現。研究團隊在多個主流視覺數據集上做了系統性測試，實驗設定統一為每個類別只有4張有標簽的圖片，其余全部作為無標簽數據。

在CIFAR-10（一個包含10個類別、共6萬張圖片的常用基準數據集）上，使用ResNet-18作為骨干網絡時，NAF達到了67.9%的準確率，而標準監督學習只有55.55%，提升幅度高達12.35個百分點。換用更大的ResNet-50時，提升幅度更是達到了15.15個百分點。

在CIFAR-100（同樣6萬張圖片但類別數擴展到100個，難度大得多）上，NAF分別取得了7.61%和6.11%的提升。在DTD-47（一個紋理圖片數據集，共47個類別）和Caltech-101（一個包含101類物體圖片的數據集）上，NAF也取得了4.38%和2.74%的提升。

在更具挑戰性的細粒度分類任務上，NAF同樣表現出色。在CUB-200（區分200種鳥類）上提升了8.94%，在OxfordFlowers-102（區分102種花卉）上提升了5.51%，在StanfordCars-196（區分196種車型）上提升了7.74%。這些細粒度數據集要求模型捕捉極其細微的視覺差異，NAF在這類任務上的顯著提升說明噪聲結構確實幫助模型學到了更精細的特征組織方式。

在規模最大的ImageNet-1K（包含1000個類別、128萬張圖片，是目前最主流的圖像識別基準）上，研究團隊將每類有標簽圖片增加到100張，NAF達到37.1%的準確率，超過ERM的36.11%，提升0.99%。在超大規模數據集上，即使只有不到1%的提升也是有實際意義的。

研究團隊還測試了文本分類任務。在AG News-4（一個新聞分類數據集，共4個類別，每類只用4張標注樣本和1000張無標注樣本）上，使用BERT作為文本編碼器，NAF達到82.82%，超過ERM的78.64%，提升4.18個百分點。這說明NAF的思路不局限于圖片，對文本任務同樣有效。

八、和現有的半監督學習方法"合體"效果更強

NAF不僅能獨立使用，還能作為"增強插件"和現有的半監督學習方法結合使用。研究團隊測試了七種當前性能較好的半監督學習方法：UDA、FixMatch、FlexMatch、DebiasMatch、DST、LERM和SA-FixMatch。把NAF的噪聲損失和分布對齊損失加入到這些方法的訓練目標里，它們的性能都得到了提升。

在CIFAR-10上，UDA加入NAF后，在第20個訓練周期的準確率從56.11%躍升到76.94%，提升了20.83個百分點。FixMatch加入NAF后提升了9.91個百分點。即使是原本表現就已經很強的FlexMatch和DST，加入NAF后也分別提升了0.37%和0.06%，雖然提升幅度在變小，但方向始終是正的。在CIFAR-100上，七種方法加入NAF后的平均提升在0.85%到2.84%之間。在DTD-47和Caltech-101上，這種插件效果也得到了進一步驗證。

這種可插拔性是NAF框架設計上的一個重要優點：它不需要對現有方法做大的改動，只需要往損失函數里加兩項，就能獲得額外的性能提升。

九、拆開來看：每個設計選擇為什么重要

研究團隊做了一系列消融實驗，專門研究NAF中每個設計決策的貢獻。

去掉噪聲分類損失，保留分布對齊損失，CIFAR-100上的準確率從49.98%降到47.33%。去掉分布對齊損失，保留噪聲分類損失，準確率反而降到了40.64%，甚至比只有真實數據的ERM（42.24%）還低。這個對比很有說服力：如果只讓模型正確分類噪聲，但不去對齊噪聲和真實圖片的分布，模型會在噪聲空間里形成結構，但這個結構和真實圖片完全不在一起，反而產生干擾。兩個損失必須同時使用才能發揮作用，而且分布對齊損失更關鍵。

研究團隊還測試了噪聲域失去判別性結構時會發生什么。他們構造了一種極端情況：所有類別共用同一個噪聲向量的50個完全相同的副本，也就是把所有噪聲"折疊"成一個點。在CIFAR-10上，這種設置下NAF的準確率降到了33.34%，遠低于ERM的58.15%。在CIFAR-100上，同樣的操作讓準確率從42.24%崩潰到6.79%。這個對比說明，噪聲域的判別性結構是NAF成功的必要條件，而不僅僅是噪聲的存在本身。

十、噪聲怎么生成：靈活性的驗證

研究團隊還系統測試了噪聲生成方式對性能的影響，從協方差尺度、噪聲維度和分布類型三個維度進行了變化。

在協方差尺度方面，默認設定是單位協方差矩陣I，測試了0.1倍和10倍協方差的版本。結果顯示，0.1倍協方差時準確率略有提升（50.38%），10倍協方差時略有下降（47.64%）。在噪聲維度方面，默認維度是1024，測試了512和2048維，性能基本相當（分別為49.44%和51.04%）。在分布類型方面，默認用高斯分布，測試了對數正態分布和拉普拉斯分布，準確率分別為48.31%和49.99%，和默認設定差距很小。

這些結果說明NAF對噪聲生成方式的具體設置不是特別敏感，不同的合理設定都能產生類似的效果。研究團隊還測試了用類別均值直接作為噪聲的兩種變體：用固定正交向量作為類別均值（準確率46.68%）和用可學習的類別均值（準確率47.72%）。兩者都超過了ERM，但都不如使用完整高斯采樣噪聲的默認設定（49.98%）。這說明更豐富的噪聲樣本確實能提供更好的結構引導。

十一、當有真實的源域數據時，噪聲能達到多好的效果

研究團隊在Office-Caltech-10數據集上做了一個有趣的對比實驗：一組實驗用噪聲作為源域，另一組用真實的Amazon圖片數據作為源域，兩組都以Caltech圖片數據作為目標域。結果顯示，真實源域的性能略優于噪聲源域（在50張源域樣本時，真實源域91.14% vs. 噪聲源域89.36%），但兩者都遠超沒有任何源域的ERM（83.51%）。

這個結果說明：噪聲數據雖然不能完全替代真實的源域數據，但在真實數據不可獲取的情況下，噪聲數據是一個相當有競爭力的替代品。而且兩者的性能差距并不大，在某些樣本數量設定下甚至非常接近。

十二、在類別不平衡的現實場景下依然有效

現實世界的數據往往不是平衡分布的：有些類別的樣本很多，有些類別的樣本很少。研究團隊在一個長尾分布（也就是類別樣本數量差異非常大）的CIFAR-10設定下測試了NAF，有標簽數據的每類樣本數從50到1不等，無標簽數據從1000到4不等。NAF達到了56.38%的準確率和53.22%的宏F1分數，優于ERM的51.19%和45.73%。這說明NAF在不平衡的現實數據分布下同樣有效，不局限于理想的均衡設定。

說到底，這項研究的核心洞察其實非常簡單：你不需要有意義的數據才能教會模型組織自己的理解。只要給模型一個清晰的空間結構作為參考，讓它知道不同類別之間應該如何分開，模型就能把這個結構遷移到真實數據上，從而學得更好。

隨機噪聲本身什么都不是，但當它被賦予結構——被分成不同的類別，被要求在表示空間里形成清晰的簇——它就變成了一位出乎意料的好老師。它不教你貓長什么樣，但它告訴你：不同的類別應該住在不同的地方，不應該混在一起。

這項發現的實際意義在于，它給那些無法獲取真實源域數據的場景提供了一個可行的解決方案。醫院不能分享患者圖片？沒關系，用隨機噪聲來提供結構指引。企業的數據有版權限制？噪聲數據可以免費生成，不涉及任何隱私和版權問題。這種思路或許會在數據稀缺的場景下開辟出新的應用空間。

當然，研究團隊也坦誠地指出了這項工作的局限：框架里的兩個權重參數目前靠人工調節，缺乏自動化的選擇策略。而且現有實驗主要集中在圖像和文本分類這兩類任務上，能否推廣到推薦系統、語音識別、時序預測等更多場景，還有待進一步探索。有興趣深入研究這一方向的讀者，可以通過arXiv編號2606.00558查閱完整論文，代碼也已在GitHub上公開發布（AIResearch-Group/SSNA）。

Q&A

Q1：半監督噪聲自適應框架NAF為什么用隨機噪聲就能提升模型準確率？

A：NAF利用隨機噪聲在表示空間里構建出清晰的類別判別結構，不同類別的噪聲被訓練成分離的簇。通過分布對齊，真實圖片的表示被"拉向"對應的噪聲簇，從而讓真實數據的類別邊界也變得更清晰，最終提升分類準確率。關鍵在于噪聲必須有判別性結構，純粹混成一團的噪聲反而有害。

Q2：半監督學習里標注數據那么少，NAF如何處理沒有標簽的大量圖片？

A：NAF使用分類器為無標簽圖片生成"偽標簽"，并在訓練過程中持續更新這些偽標簽。無標簽圖片的表示會隨著訓練進行逐漸向對應的噪聲類別簇靠攏，使得偽標簽的質量越來越高。這種迭代更新機制讓無標簽數據也能參與到有效的學習過程中。

Q3：NAF框架對噪聲生成方式有嚴格要求嗎？換不同分布或者維度會不會效果差很多？

A：實驗結果顯示NAF對噪聲生成方式的具體設定不是特別敏感。高斯分布、對數正態分布、拉普拉斯分布的效果差異很小；噪聲維度從512變到2048性能也基本相當。真正重要的是噪聲域必須具備類間可區分的判別性結構，也就是不同類別的噪聲必須能被清晰區分，這是NAF發揮作用的核心前提。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.