網易首頁 > 網易號 > 正文申請入駐

韓國棟國大學突破：AI音樂偵探實現人耳不可察覺的造假痕跡識別

2026-04-27 21:36:18　來源: 科技行者

北京舉報

分享至

這項由韓國首爾棟國大學MARTE實驗室與Intrect機構聯合完成的研究，以預印本形式發布，研究成果已提交至音樂信息檢索領域頂級會議，感興趣的讀者可通過arXiv等學術平臺搜索"ArtifactNet"或作者"Heewon Oh"查找完整論文。

每天，全球各大音樂流媒體平臺上悄悄涌入超過五萬首完全由AI生成的歌曲。它們聽起來像真人演奏，有旋律、有節奏、有情緒，但背后沒有任何一雙真實的人類雙手觸碰過琴鍵。對于聽眾來說，這可能只是一個品味問題；但對于那些靠音樂謀生的創作者、對于版權保護機制、對于整個音樂產業的生態來說，這是一個正在演變為危機的難題。而目前，我們幾乎沒有可靠的工具來區分它們。

棟國大學的研究者Heewon Oh決定換一種思路來解決這個問題。與其教計算機"聽"AI音樂聽起來像什么，不如去追蹤AI音樂在物理層面上留下了什么無法抹去的痕跡。這個思路催生了一個叫做ArtifactNet的系統，以及一套被研究者稱為"法證物理學"（forensic physics）的檢測框架。這篇文章將帶你完整走進這項研究，從問題的根源開始，一直到那些令人信服的實驗數據。

一、AI音樂工廠的秘密流水線：每首歌都必須經過的"壓縮關卡"

要理解ArtifactNet為什么有效，我們首先要明白AI是怎么生成音樂的，以及這個過程中隱藏著什么樣的不可避免的缺陷。

不管是Suno、Udio、MusicGen還是Stable Audio，這些AI音樂生成工具在背后都依賴一種叫做"神經音頻編解碼器"（neural audio codec）的技術組件。你可以把它理解成一個極其精密的壓縮機器。原始音頻信號非常龐大，就像一張超高清原始照片，在被AI處理之前，必須先"壓縮"成一串數字代碼；AI在這些代碼上施展魔法，完成創作；然后再把代碼"解壓"還原成我們聽到的音頻。

這個壓縮過程的核心技術叫做"殘差向量量化"（Residual Vector Quantization，簡稱RVQ）。具體來說，這套機制的工作方式類似于一本有限頁數的"聲音字典"。音頻中連續流動的聲波，被強行翻譯成這本字典里最接近的幾個詞條的組合。典型的系統里，這本字典可能有1024個詞條，分8到32層疊加使用。

關鍵問題出現了：聲音是連續的、無限微妙的，而字典的詞條是有限的、離散的。每次查字典，總會有一點點聲音信息丟失在"最近的詞條"和"真實聲音"之間的縫隙里。更重要的是，這個縫隙是永久性的——一旦信息被量化壓縮，那部分細節就永遠消失了，無法還原。

Heewon Oh的核心發現正在于此：這個量化縫隙會在AI生成的音頻中留下一種特殊的、結構化的痕跡。每一首AI歌曲，不管它由什么風格的模型生成，都必須經過這道壓縮關卡，因此都帶有這種痕跡。研究者把這一現象稱為"法證殘差放大"（forensic residual amplification）。

二、以前的偵探是怎么工作的，為什么他們會認錯人

在ArtifactNet出現之前，學術界有兩種主要的AI音樂檢測思路，各有其問題。

第一種思路叫做"表征學習"，代表作是一個叫CLAM的系統。它的做法是訓練一個巨大的神經網絡去"學習"AI音樂的聲音特征，參數量高達1.94億個——大約相當于ArtifactNet的49倍體量。CLAM在它見過的AI生成器上表現不錯，但問題在于：當一個全新的AI生成器出現時，它的"聲音風格"可能和訓練數據完全不同，CLAM就會認不出來。更糟糕的是，在后來的實驗里，CLAM在真實人類音樂上的誤報率高達69.3%——也就是說，它把七成的真實音樂都誤判成了AI生成。

第二種思路叫做"自編碼器指紋"，代表作是SpecTTTra。它通過學習自動編碼器的重建誤差來判斷，在特定的數據集上能達到97%的F1分數。但同樣，一旦遇到訓練時沒見過的生成器，性能會崩塌到50%到68%之間——幾乎和隨機猜測沒有區別。

這兩種方法共同的根本問題，就像是一個偵探通過"嫌疑人的穿著風格"來認人：今天他穿西裝，明天他換了休閑裝，偵探就認不出來了。而ArtifactNet的創新在于：它不看風格，它尋找的是嫌疑人皮膚上永遠無法洗掉的胎記。

三、ArtifactNet的偵探手冊：三步找出不可磨滅的痕跡

ArtifactNet的整個檢測流程由三個相互銜接的步驟構成，總參數量只有400萬個，運行起來極為輕量。

第一步叫做"提取法證殘差"，由一個叫ArtifactUNet的神經網絡完成。這個網絡的設計有一個非常巧妙的約束條件。通常情況下，如果你讓一個網絡去提取音頻中的"殘差信號"，它可能會偷懶，直接把整個音頻信號原樣輸出——這在技術上滿足了條件，但什么有用信息都沒有。為了防止這種情況，研究者給這個網絡加了一個"有界掩膜"限制：網絡預測的是一個乘在原始信號上的"掩膜"，而這個掩膜的范圍被強制限定在0到0.5之間。換句話說，網絡最多只能提取原始信號能量的一半，它必須認真去尋找那些真正的細微異常，而不能耍把戲。

這個ArtifactUNet的訓練也很有意思，分為兩個階段。第一階段叫"知識蒸餾"：研究者先用一個叫Demucs v4的大型音源分離模型（有4200萬個參數）來處理音頻，提取出它在分離人聲、鼓、貝斯、其他樂器時產生的"剩余信號"——這個剩余信號就是Demucs無法歸類到任何樂器的聲音殘骸。然后用這個大模型的輸出作為"老師"，教ArtifactUNet學習提取類似的殘差結構，這樣推理時就不需要運行那個笨重的大模型了。第二階段叫"凍結分類器引導"：把后續的分類器網絡參數固定住，只繼續調整ArtifactUNet，讓它提取的殘差不只是結構上正確，而且對最終的"AI還是真實"判斷最有幫助。研究者發現，如果同時訓練提取器和分類器，訓練過程會來回震蕩不穩定，分階段則解決了這個問題。

第二步叫做"七通道法證特征計算"，用到了一種叫HPSS（諧波-打擊樂源分離）的技術。簡單來說，HPSS能把一段音頻信號拆分成兩部分：一部分是有音高的旋律性成分（諧波分量），另一部分是瞬間爆發的打擊性成分（打擊樂分量）。研究者把這個技術用在了第一步提取出的殘差信號上，而不是原始音頻上——這是整個領域的首次嘗試。

這樣做的邏輯是：如果一首歌是真實人類演奏的，Demucs應該能把各種樂器分離得比較干凈，剩余的殘差應該是混亂、隨機的小噪音。但如果是AI生成的，由于RVQ壓縮造成的諧波細節損失，Demucs會在殘差里留下大量結構化的諧波泄漏和打擊樂泄漏。把這兩種泄漏分別提取出來，加上它們的時間變化率（一階導數）、加速度（二階導數）、諧波與打擊樂的比值對數，以及逐幀的頻譜變化量，共同組成了七個信息通道，構成了這套系統的核心"指紋"。

第三步則是分類和投票。一個輕量級的卷積神經網絡（參數量只有40萬個）處理4秒長的音頻片段，輸出一個0到1之間的"AI概率"。對于一首完整的歌曲，系統會把所有片段的概率取中位數，超過0.5就判定為AI生成。

四、編碼格式這個大坑：為什么MP3差點毀掉一切

在ArtifactNet的開發過程中，研究者遭遇了一個幾乎致命的問題，而解決這個問題的方案同樣值得詳細介紹。

網絡上流傳的音樂大量以MP3、AAC、Opus等有損壓縮格式存在。這些格式本身也會對音頻信號進行某種形式的"壓縮失真"處理，會在頻譜上留下自己的痕跡。早期版本的ArtifactUNet（訓練時只用WAV格式無損音頻）完全沒有區分這兩種來源的失真能力。

實驗結果觸目驚心：對真實人類音樂使用MP3編碼后，系統的誤報率直接飆升到98.7%——幾乎把所有真實MP3音樂都誤判成了AI生成；而對AI生成的音樂使用AAC編碼后，系統又會把它們漏判為真實音樂。原始系統在不同編碼格式下的預測概率跨度高達0.95，意味著換一種格式，結論就可能完全翻轉。

解決方案叫做"編碼感知訓練"：訓練時，對每首歌同時生成WAV、MP3 128kbps、AAC 128kbps和Opus 128kbps四個版本，讓同一批次的訓練數據涵蓋所有四種格式。這樣，網絡就被迫學會忽略有損壓縮帶來的格式特征，專注于尋找那些跨格式穩定存在的RVQ量化痕跡。

效果立竿見影。經過編碼感知訓練后，真實音樂在不同編碼格式下的預測概率跨度從0.95降到了0.16，減少了83%；AI音樂的跨度從0.72降到了0.14，減少了81%。這意味著不管音樂以什么格式傳播，檢測結論都會保持穩定。

五、測一測：帶寬數字里的物理學證據

研究者還做了一個獨立的物理驗證實驗，用數字證明了"RVQ留下痕跡"這件事不是理論推斷，而是可以測量的現實。

他們測量了94首曲目（50首AI生成，44首真實人類音樂）的源分離殘差的"有效帶寬"——就是在殘差信號中，能量主要集中在哪個頻率范圍內。結果相當戲劇性：AI生成音樂的殘差平均有效帶寬只有291赫茲，而真實人類音樂的殘差有效帶寬高達1996赫茲，差距將近7倍。

更令人印象深刻的是，把22種不同的AI生成器分開來看，Suno v3.5是170赫茲，Riffusion是219赫茲，Stable Audio是237赫茲，Udio是245赫茲，MusicGen是255赫茲。這些系統使用了完全不同的生成架構——有自回歸的、有擴散模型的、有潛在擴散的——但它們的殘差帶寬全都密集地聚集在200赫茲左右，而真實音樂的殘差始終超過1900赫茲。這種跨架構的一致性，有力地證明了檢測到的痕跡確實來自那個所有系統共享的RVQ壓縮瓶頸，而不是某種特定生成器的風格特征。

六、一個更公平的考場：ArtifactBench基準測試的建立

為了檢驗ArtifactNet（以及其競爭系統）的真實能力，研究者從零構建了一個叫做ArtifactBench的評測基準。構建它的原因很實際：現有的評測平臺覆蓋的AI生成器太少，SONICS只有5種，MoM只有6種，高分成績很可能只是因為模型記住了訓練時見過的那幾個生成器的特點，并不代表真正的泛化能力。

ArtifactBench v1包含6183首曲目。AI生成部分涵蓋22種不同的生成器，包括Suno v3/v3.5/v4、Udio v1/v1.5、MusicGen、Stable Audio、Riffusion、DiffRhythm、Yue、JEN-1等，合計4383首。真實人類音樂部分來自6個多樣化來源，包括SONICS真實音樂分區、MoM真實音樂子集、自由音樂檔案FMA中特意挑選的高誤報率MP3樣本、手工篩選的YouTube專業制作音樂，合計1800首。

每首曲目都被標注了bench_origin字段，標明它是用于訓練（train）還是測試（test）。三個模型的對比實驗全部限定在bench_origin=test的部分（共2263首：1388首AI，875首真實），確保所有模型在測試時都是零訓練重疊的公平比較。

這個基準已經以Parquet分片形式公開發布在HuggingFace平臺上（huggingface.co/datasets/intrect/artifactbench-v1），包含完整的音頻字節數據，任何研究者都可以用來復現結果。

七、數字會說話：三個系統的成績單對比

在這個統一的公平測試平臺上，三個系統的表現差距相當懸殊。

ArtifactNet的綜合F1分數達到了0.9829，精確率0.9905，召回率0.9755，誤報率僅1.49%，AUC值0.9974。翻譯成直白的語言：在1000首真實音樂里，它只會把大約15首誤判為AI生成；在1000首AI音樂里，它只會漏掉大約24首。

CLAM的F1分數是0.7576，精確率0.6674，召回率0.8761，但誤報率高達69.3%。它雖然能抓住87.6%的AI音樂，但代價是把七成的真實音樂都誤認為AI，對MoM數據集真實音樂子集（也就是CLAM自己訓練數據的來源之一）的誤報率同樣高達67%——一個系統連自己熟悉的數據上都表現這么差，說明它在某些維度上已經產生了嚴重的系統性偏差。

SpecTTTra的情況則正好相反：精確率0.8519還算不錯，但召回率只有0.7046，F1為0.7713，誤報率19.4%。它對訓練分布之外的生成器大量漏判，在MoM的4個生成器上只有74.5%的檢出率，在AIME的9個生成器上只有57.7%，在最新的CDN生成器上更是跌到50.4%。

研究者還用一套"28個子集的通過/不通過"的實際可用性測試來量化這種差距。標準是：對AI子集要達到90%以上的檢出率（Stable Audio這兩個較難的子集放寬到60%），對真實音樂子集要把誤報率控制在5%以內。ArtifactNet只在4個子集上不達標（主要是重度壓縮真實音樂），通過率85.7%。CLAM不通過15個子集，通過率46.4%。SpecTTTra則不通過23個子集，通過率僅17.9%。

ROC曲線分析也印證了這個差距的穩健性：在誤報率不超過5%的操作點上，ArtifactNet的檢出率達到99.1%，而F1分數在0.05到0.9的寬闊閾值范圍內都保持在0.98以上，說明系統對閾值選擇不敏感，部署時無需精細調參。

八、能洗掉這個痕跡嗎：對抗性攻擊實驗

研究者也測試了一種直覺上很自然的"反偵察"手段：把AI生成的音樂先用Demucs做一次源分離處理，看看能不能通過這種方式把RVQ留下的痕跡"洗掉"，騙過ArtifactNet。

實驗結果是：單次Demucs處理后，F1分數從0.9950下降到了0.9592，檢出率從99%降到了94%。痕跡被削弱了，但沒有被完全消除——在103維的特征空間里，攻擊后的AI音樂和真實音樂之間的AUC仍然是0.9651，依然有顯著的可分性。研究團隊已經把Demucs處理過的AI音樂樣本加入到ArtifactNet的訓練數據中，以提升對這種攻擊的抵抗力。

這個結果揭示了一個更深層的道理：RVQ的量化信息損失發生在一個比單次分離處理更基本的信號層面，單次處理可以改變痕跡的分布，但無法還原那些已經永久丟失的高頻細節信息。

九、這套方法的局限性和未來的方向

任何系統都不是完美的，研究者對ArtifactNet的局限性做了坦誠的分析。

首先是采樣率要求。ArtifactNet需要44.1kHz的高質量音頻輸入，因為RVQ的痕跡主要體現在高頻細節上，如果輸入的是16kHz等低采樣率音頻，這些高頻信息根本就不存在，法證信號會大幅衰減。這對那些分發低采樣率音頻的數據集來說是一個實際限制。

其次是對重度壓縮真實音樂的誤報。經過編碼感知訓練后，FMA檔案（以低比特率可變碼率MP3為主）上的誤報率從98.7%降到了8%，但還沒有降到理想水平。研究者預計擴充編碼增強的訓練數據后可以進一步改善。

再者是對最新一代Udio的檢出率。當前版本對最新Udio生成音樂的檢出率只有87%，低于其他生成器。分析發現，在安靜段落和過渡段落，Udio生成的諧波-打擊樂比率趨近于真實音樂的模式，導致單段置信度下降。未來可能需要在CNN輸入層加入更多的統計特征（比如諧波-打擊樂比率的分布統計量）來改善對這類音樂的檢測。

對于多次Demucs處理等更復雜的對抗攻擊，研究者也承認需要進一步研究。與此同時，研究者指出主動水印技術（比如在生成時就嵌入不可感知的水?。┛梢宰鳛榛パa的防御手段，但這需要生成平臺主動配合，對已經發布的海量音樂無能為力。

歸根結底，ArtifactNet這套研究的意義超出了一個檢測系統本身。它提出了一個更有力的問題框架：在AI生成技術不斷迭代、生成風格千變萬化的時代，真正可靠的檢測方法不應該去追蹤"這首歌聽起來像AI生成"，而應該去追蹤"這首歌在物理上必然攜帶AI生成的印記"。連續到離散的量化是不可逆轉的信息損失，而這種不可逆性，恰恰是最難被規避的法證依據。

用研究者在論文最后一行寫下的話來結束這個故事再合適不過：Afchar等人曾問，AI生成音樂能否在與內容無關的情況下被識別。這項研究的回答是：可以——通過傾聽那些音樂無法包含的東西，而不是它所包含的東西。

Q&A

Q1：ArtifactNet檢測AI音樂的原理是什么？

A：ArtifactNet的核心原理是追蹤AI音樂在生成過程中必然留下的物理痕跡。所有商業AI音樂生成器都要用一種叫"殘差向量量化"的技術來壓縮和還原音頻，這個過程會不可逆地損失高頻細節信息。ArtifactNet用一個經過專門訓練的輕量級神經網絡提取這些痕跡，再分析其中的諧波和打擊樂成分，從而判斷音頻是否來自AI生成。

Q2：ArtifactNet能識別MP3格式的AI音樂嗎？

A：可以。早期版本曾經把MP3格式的真實音樂誤判為AI生成，誤報率高達98.7%，因為MP3自身的壓縮噪聲會被誤認為AI痕跡。研究團隊通過"編碼感知訓練"解決了這個問題，讓系統同時學習WAV、MP3、AAC和Opus四種格式，訓練后跨格式的預測概率波動降低了83%，不同格式下的檢測結論基本保持穩定。

Q3：ArtifactNet能被AI生成器"繞過"嗎？

A：目前很難被完全繞過。有研究者嘗試用音源分離軟件對AI音樂進行處理后再檢測，結果檢出率從99%下降到94%，但沒有降到不可檢測的水平。更根本的原因是，殘差向量量化造成的信息損失發生在極其底層的信號層面，只要AI音樂生成器還在使用神經音頻編解碼器，這種痕跡就無法被完全消除。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.