亚洲中文字幕乱码亚洲-蜜桃成熟视频在线观看-免费中文字幕视频在线-中国五十路熟妇洗澡视频-亚洲av伊人啪啪c-国产精品成人一区二区-国产自拍视频一区在线观看-成人一区不卡二区三区四区-亚洲情精品中文字幕99在线

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

哈布斯堡AI的詛咒:合成數(shù)據(jù)遞歸下的模型坍縮

0
分享至

枯竭的數(shù)字富礦

過(guò)去十年,AI大模型之所以能大力出奇跡,是依托于互聯(lián)網(wǎng)上幾十年來(lái)全人類(lèi)積累的、充滿粗糙生命力的高質(zhì)量原始語(yǔ)料(百科、學(xué)術(shù)文獻(xiàn)、甚至論壇里人類(lèi)互噴的黑話)。AI像一臺(tái)貪婪的采礦機(jī),迅速榨干了這些富礦。

到了今天,大模型研發(fā)最尷尬的現(xiàn)狀是:人類(lèi)攢了幾千年的高質(zhì)量語(yǔ)料,已經(jīng)被這幾年的 Scaling Laws 翻來(lái)覆去吃了個(gè)干凈。高質(zhì)量的原始數(shù)據(jù)很快成了稀缺資源。為了讓模型性能繼續(xù)提升,研發(fā)者們不得不嘗試一件以前覺(jué)得荒唐的事,用 AI 生成的數(shù)據(jù),去喂養(yǎng)下一代 AI。


隨之而來(lái)的,是一場(chǎng)被稱(chēng)為模型崩潰的賽博瘟疫。

合成數(shù)據(jù)在AI界的興起

在 AI 還沒(méi)這么火之前,合成數(shù)據(jù)(Synthetic Data)在業(yè)界其實(shí)早就扮演起了高級(jí)數(shù)字替身的角色。

它的本質(zhì)是統(tǒng)計(jì)學(xué)中的分布采樣。最早,它是為了解決那些想用數(shù)據(jù)卻不敢用或根本沒(méi)數(shù)據(jù)的尷尬場(chǎng)景,在醫(yī)療與金融領(lǐng)域尤其突顯:銀行和醫(yī)院想訓(xùn)練算法,但原始數(shù)據(jù)涉及用戶隱私,無(wú)法直接用患者的數(shù)據(jù)訓(xùn)練模型。于是統(tǒng)計(jì)學(xué)家用借助生成對(duì)抗網(wǎng)絡(luò)(GANs)或變分自編碼器(VAEs)捕捉原始數(shù)據(jù)的協(xié)方差矩陣和邊際分布,生成一套在統(tǒng)計(jì)學(xué)特性上幾乎真假難辨的模擬數(shù)據(jù)。


GAN的核心是對(duì)抗訓(xùn)練,生成器從噪聲中偽造數(shù)據(jù),再讓判別器不斷分辨真假,二者反復(fù)博弈直到生成器能完美模仿真實(shí)分布;VAE則是通過(guò)編碼器將數(shù)據(jù)壓縮到 latent space,再由解碼器生成新樣本,強(qiáng)調(diào)概率建模。兩者都能在不泄露具體隱私的前提下,保留數(shù)據(jù)的統(tǒng)計(jì)學(xué)骨架(均值、方差、相關(guān)性等都與真實(shí)數(shù)據(jù)一致)。


▲ 圖 / GAN的核心對(duì)抗訓(xùn)練機(jī)制

類(lèi)似地, 合成數(shù)據(jù)在 自動(dòng)駕駛與機(jī)器人領(lǐng)域也早已大顯身手 。 你不可能為了訓(xùn)練避障讓真車(chē)實(shí)打?qū)嵶惨蝗f(wàn)次墻,于是工程師在CARLA、Unreal Engine等模擬器中生成海量合成數(shù)據(jù),先在虛擬世界完成訓(xùn)練,再通過(guò)Sim-to-Real路徑遷移到現(xiàn)實(shí)。在計(jì)算機(jī)視覺(jué)任務(wù)中,合成數(shù)據(jù)還常被用于數(shù)據(jù)增強(qiáng),幫助平衡那些樣本極少的罕見(jiàn)類(lèi)別(如罕見(jiàn)病癥圖像)。


隨著大模型時(shí)代的到來(lái),合成數(shù)據(jù)的角色發(fā)生了質(zhì)的飛躍。它不再僅僅是原始數(shù)據(jù)的統(tǒng)計(jì)模擬,而是搖身一變,成了一種邏輯蒸餾的燃料。

最早吃到甜頭的是微軟。2023年,他們讓GPT-4這樣的頂級(jí)模型生成干凈、邏輯嚴(yán)密的合成教材,然后拿去訓(xùn)練Phi系列小模型。結(jié)果意外地發(fā)現(xiàn),這些吃精糧的小模型表現(xiàn)竟然全面反超了那些靠互聯(lián)網(wǎng)臟數(shù)據(jù)長(zhǎng)大的大模型。他們因此喊出了那句后來(lái)廣為流傳的口號(hào):Textbooks Are All You Need!


事實(shí)上,合成數(shù)據(jù)已在AI多領(lǐng)域大放異彩:指令微調(diào)中,Self-Instruct方法讓模型自我生成高質(zhì)量指令-響應(yīng)對(duì),催生了Alpaca等高效小模型;在代碼推理,合成問(wèn)題+逐步思考(CoT)軌跡顯著提升了o1-like模型的鏈?zhǔn)酵评砟芰Γ欢嗄B(tài)AI中,合成圖像+精準(zhǔn)標(biāo)注用于訓(xùn)練視覺(jué)-語(yǔ)言模型(如CLIP變體);強(qiáng)化學(xué)習(xí)與機(jī)器人中,合成軌跡數(shù)據(jù)加速了策略優(yōu)化,避免了真實(shí)世界的高昂試錯(cuò)成本,……

這一連串成功仿佛印證了一種妄念:只要算力足夠,數(shù)據(jù)不再是瓶頸。合成數(shù)據(jù)又便宜、又干凈、還能無(wú)限量供應(yīng),那為什么還要繼續(xù)翻那些充滿口水話和邏輯漏洞的人類(lèi)語(yǔ)料區(qū)呢?


然而,這種數(shù)字興奮劑帶來(lái)的短期紅利,很快就招致了統(tǒng)計(jì)學(xué)意義上的反噬。

模式坍縮:提純的反噬

當(dāng)這種用AI訓(xùn)練AI的模式從微調(diào)擴(kuò)散到全量預(yù)訓(xùn)練時(shí),崩壞開(kāi)始了。

2024 年,牛津與劍橋團(tuán)隊(duì)在《Nature》上發(fā)表了一項(xiàng)重磅實(shí)驗(yàn),擊碎了把合成數(shù)據(jù)當(dāng)永動(dòng)機(jī)的幻想。 研究者做了一個(gè)遞歸實(shí)驗(yàn):先用真實(shí)人類(lèi)數(shù)據(jù)訓(xùn)練出第 0 代模型,然后讓它生成合成數(shù)據(jù),再去訓(xùn)練下一代,以此類(lèi)推。

他們特意選取了一個(gè)知識(shí)邊界清晰的主題:英國(guó)中世紀(jì)教堂建筑,作為測(cè)試案例,以觀察遞歸的內(nèi)容的逐代變化過(guò)程。

第 0 代: 邏輯嚴(yán)密,能準(zhǔn)確描述石材、拱頂和建筑風(fēng)格。

第 5 代: 語(yǔ)義邊界開(kāi)始模糊。開(kāi)始把教堂的石材和周?chē)淖匀伙L(fēng)景搞混,描述變得模棱兩可。

第 9 代:開(kāi)始整頁(yè)整頁(yè)地重復(fù)一段毫無(wú)意義的亂碼:“長(zhǎng)耳大野兔(Jackrabbits)有黑色、白色的毛發(fā)……野兔的尾巴……”

真正的邏輯熔斷發(fā)生在第 9 代。此時(shí)模型已經(jīng)徹底放棄了關(guān)于建筑的討論,轉(zhuǎn)而開(kāi)始整頁(yè)重復(fù)一段關(guān)于長(zhǎng)耳大野兔毛色的亂碼。這種崩潰不是緩慢的性能下降,而是在某個(gè)臨界點(diǎn)突然發(fā)生的模式坍縮。


▲ 圖 / 《Nature》2024模型崩潰論文

在遞歸過(guò)程中,模型在每一代演進(jìn)中都會(huì)丟失一點(diǎn)真實(shí)世界的復(fù)雜性,最終因?yàn)檫@種智力層面的近親繁殖,徹底陷入了自我重復(fù)的癲狂。

這種現(xiàn)象被戲稱(chēng)為哈布斯堡 AI(Habsburg AI),正如歷史上那個(gè)因近親繁殖導(dǎo)致下巴畸形、家族絕嗣的歐洲皇室,當(dāng)模型試圖在影子的影子里尋找規(guī)律時(shí),原本人類(lèi)語(yǔ)料中那些充滿起伏的噪聲:那些細(xì)膩的比喻、生僻的文化符號(hào)以及獨(dú)特的表達(dá),被層層疊加的概率均值無(wú)情抹除。直到某個(gè)微小的隨機(jī)誤差在遞歸中被不斷放大,整個(gè)概率分布最終滑向一個(gè)極窄的死胡同里,也就是那段關(guān)于野兔的廢話。

消失的長(zhǎng)尾

這種崩潰并非偶然,而是合成數(shù)據(jù)遞歸訓(xùn)練的必然結(jié)果,它的根源隱藏在數(shù)據(jù)分布的逐步坍縮之中。


AI 模型本質(zhì)上是一個(gè)概率擬合機(jī)。

當(dāng)它在擬合人類(lèi)數(shù)據(jù)分布時(shí),為了最小化經(jīng)驗(yàn)風(fēng)險(xiǎn),總是優(yōu)先傾向于捕捉那些高頻出現(xiàn)的平均模式,而丟棄那些低頻的長(zhǎng)尾分布,也就是那些罕見(jiàn)表達(dá)、獨(dú)特的比喻、甚至是一些口誤。

在單次生成中,這種去噪機(jī)制讓輸出顯得更流暢穩(wěn)健,更符合常識(shí)。但在多代遞歸訓(xùn)練中成了致命傷。第一代合成數(shù)據(jù)可能只是抹除了人類(lèi)語(yǔ)言中的瑕疵,到了第二代,第三代…… 每一代都在上一代的基礎(chǔ)上繼續(xù)趨于平庸化。


▲ 圖 /合成數(shù)據(jù)遞歸訓(xùn)練下的方差坍縮

從核密度估計(jì)(KDE)的視角來(lái)看,每一次用近似分布去擬合上一個(gè)分布,尾部概率都會(huì)被進(jìn)一步削平,這種對(duì)尾部的系統(tǒng)性低估像雪球般不斷累積,最終驅(qū)使整個(gè)數(shù)據(jù)分布的方差坍縮,分布越來(lái)越集中在均值附近,誤差棒逐漸收斂,直至長(zhǎng)尾徹底消失。

模型就像一個(gè)患有數(shù)字潔癖的怪物,極度厭惡人類(lèi)數(shù)據(jù)里的粗糙與不確定性,一心想要提純出一套完美規(guī)律,結(jié)果反而親手扼殺了智能賴以生存的多樣性。

這一遞歸過(guò)程可被精確建模為離散時(shí)間馬爾可夫鏈在token序列狀態(tài)空間上的演化。由于每一代合成數(shù)據(jù)都在系統(tǒng)性地壓縮分布的支撐集,生成分布的香農(nóng)熵持續(xù)單調(diào)下降,最終概率質(zhì)量不可逆地收斂至一個(gè)或少數(shù)幾個(gè)吸收態(tài)。一旦落入這些吸收態(tài),模型便徹底喪失進(jìn)一步演化的可能性,只能永久鎖定在高度重復(fù)的固定模式中。就像那只實(shí)驗(yàn)中反復(fù)出現(xiàn)的“長(zhǎng)耳大野兔”,成為系統(tǒng)抵達(dá)這一數(shù)學(xué)終點(diǎn)的必然體現(xiàn)。

這也揭示了,過(guò)度的一致性正是退化的序幕。如果一個(gè)系統(tǒng)只允許最正確的信號(hào)存在,那么它最終只能通向虛無(wú)。

對(duì)抗虛無(wú)的解藥


在柏拉圖的寓言里,囚徒們背對(duì)著出口,通過(guò)觀察墻上的影子來(lái)理解現(xiàn)實(shí)。

AI時(shí)代的困境如出一轍。

當(dāng)我們用投影去訓(xùn)練下一代模型,AI 實(shí)際上是在觀察“影子的影子”。工程師厭惡的數(shù)據(jù)噪聲,同時(shí)也是寶貴的不確定性。沒(méi)有了來(lái)自物理世界的、臟兮兮的原生采樣,純數(shù)字的虛擬閉環(huán)最終只會(huì)走向熱寂。秩序往往只是概率的偶然,而那些粗糙的、充滿生命力的不完美,才是對(duì)抗數(shù)字虛無(wú)的唯一火種。

end

參考文獻(xiàn):

Shumailov (2024). AI models collapse when trained on recursively generated data.

[2] Gunasekar, S. et al. (2023). Textbooks are all you need. arXiv:2306.11644.

[3] Goodfellow, I. et al. (2014).

NeurIPS 2014.

Generative adversarial nets. 2

[4] Gerstgrasser, M. et al. (2024). Is model collapse inevitable? Breaking the curse of recursion by accumulating real and synthetic data. arXiv:2404.01413.

來(lái)源:DataCafe

編輯:LogicMoriaty

轉(zhuǎn)載內(nèi)容僅代表作者觀點(diǎn)

不代表中科院物理所立場(chǎng)

如需轉(zhuǎn)載請(qǐng)聯(lián)系原公眾號(hào)

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
曝《寂靜嶺》等大作將被國(guó)內(nèi)禁售!全平臺(tái)下架封禁

曝《寂靜嶺》等大作將被國(guó)內(nèi)禁售!全平臺(tái)下架封禁

游民星空
2026-04-13 11:12:18
不是迷信!家里千萬(wàn)別留這4樣,有的趕緊扔掉,都是有科學(xué)依據(jù)的

不是迷信!家里千萬(wàn)別留這4樣,有的趕緊扔掉,都是有科學(xué)依據(jù)的

三農(nóng)老歷
2026-04-15 12:52:38
52歲樸樹(shù)近況:無(wú)兒無(wú)女,沒(méi)錢(qián)沒(méi)房,成了要錢(qián)不要命的“瘋子”

52歲樸樹(shù)近況:無(wú)兒無(wú)女,沒(méi)錢(qián)沒(méi)房,成了要錢(qián)不要命的“瘋子”

流云隨風(fēng)去遠(yuǎn)方
2026-04-14 12:22:59
還不召進(jìn)國(guó)家隊(duì)?單賽季三分60.5%,球迷喊話郭導(dǎo):用他替胡明軒

還不召進(jìn)國(guó)家隊(duì)?單賽季三分60.5%,球迷喊話郭導(dǎo):用他替胡明軒

弄月公子
2026-04-16 09:12:58
英媒:趙心童是打破克魯斯堡魔咒最佳人選,很快就能世界排名第一

英媒:趙心童是打破克魯斯堡魔咒最佳人選,很快就能世界排名第一

楊華評(píng)論
2026-04-16 01:20:06
蘋(píng)果新上架的2款新品,有點(diǎn)火啊

蘋(píng)果新上架的2款新品,有點(diǎn)火啊

Q科技基地
2026-04-14 12:22:11
樓市“預(yù)言家”潘石屹再開(kāi)金口,前兩次全中,這次大概率又說(shuō)對(duì)了

樓市“預(yù)言家”潘石屹再開(kāi)金口,前兩次全中,這次大概率又說(shuō)對(duì)了

鑒史錄
2026-04-13 16:32:08
家里若是有這7種“老物件”,好好保存,越放越值錢(qián),能當(dāng)傳家寶

家里若是有這7種“老物件”,好好保存,越放越值錢(qián),能當(dāng)傳家寶

Home范
2026-04-11 10:16:28
該來(lái)的總該會(huì)來(lái)!西北大學(xué)正式回應(yīng)賈淺淺涉嫌抄襲事件

該來(lái)的總該會(huì)來(lái)!西北大學(xué)正式回應(yīng)賈淺淺涉嫌抄襲事件

不與世俗同
2026-04-13 15:43:30
巴基斯坦空軍傳來(lái)喜訊,6架空警500今年抵達(dá),首批殲-35A一同交付

巴基斯坦空軍傳來(lái)喜訊,6架空警500今年抵達(dá),首批殲-35A一同交付

嘆知
2026-04-15 23:31:10
山姆上新無(wú)限繁殖的羽衣甘藍(lán)盆栽被瘋搶?zhuān)看蚬と讼?00個(gè)方法馴服“史上最難吃蔬菜”

山姆上新無(wú)限繁殖的羽衣甘藍(lán)盆栽被瘋搶?zhuān)看蚬と讼?00個(gè)方法馴服“史上最難吃蔬菜”

Vista氫商業(yè)
2026-04-15 15:10:06
超市4款“不起眼”的便宜酒,100%純糧釀造,但是只有行家看得上

超市4款“不起眼”的便宜酒,100%純糧釀造,但是只有行家看得上

濤哥美食匯
2026-04-15 09:00:28
“普通家庭的機(jī)會(huì)正被堵死!”浙大8萬(wàn)、南開(kāi)10萬(wàn),工科也在漲價(jià)

“普通家庭的機(jī)會(huì)正被堵死!”浙大8萬(wàn)、南開(kāi)10萬(wàn),工科也在漲價(jià)

妍妍教育日記
2026-04-13 20:44:23
全程眼突鼓腮,看了觀眾對(duì)孫儷的評(píng)價(jià),才知張藝謀這句話的含金量

全程眼突鼓腮,看了觀眾對(duì)孫儷的評(píng)價(jià),才知張藝謀這句話的含金量

陳述影視
2026-04-04 17:53:34
賭博輸?shù)羰鄡|、導(dǎo)致公司破產(chǎn),消失8年的金立手機(jī)創(chuàng)始人重出江湖了

賭博輸?shù)羰鄡|、導(dǎo)致公司破產(chǎn),消失8年的金立手機(jī)創(chuàng)始人重出江湖了

南財(cái)社V
2026-04-15 19:34:40
金價(jià)!徹底沸了

金價(jià)!徹底沸了

吉刻新聞
2026-04-15 09:36:43
40歲女教師因糖尿病離世,生前不吃甜食,醫(yī)生:2物或是元兇

40歲女教師因糖尿病離世,生前不吃甜食,醫(yī)生:2物或是元兇

醫(yī)學(xué)原創(chuàng)故事會(huì)
2026-04-15 23:44:02
一線記者傳回中東戰(zhàn)報(bào),伊朗國(guó)內(nèi)的慘烈程度,遠(yuǎn)比想象中大得多

一線記者傳回中東戰(zhàn)報(bào),伊朗國(guó)內(nèi)的慘烈程度,遠(yuǎn)比想象中大得多

阿器談史
2026-04-13 12:08:12
美國(guó)財(cái)長(zhǎng)貝森特:汽油價(jià)格將很快開(kāi)始下降

美國(guó)財(cái)長(zhǎng)貝森特:汽油價(jià)格將很快開(kāi)始下降

財(cái)聯(lián)社
2026-04-15 20:20:23
四連勝!廣東男籃季后賽對(duì)手基本敲定!徐杰崔永熙賽后霸氣攤牌

四連勝!廣東男籃季后賽對(duì)手基本敲定!徐杰崔永熙賽后霸氣攤牌

大國(guó)侃球
2026-04-15 12:14:24
2026-04-16 09:48:49
中科院物理所 incentive-icons
中科院物理所
愛(ài)上物理,改變世界。
10069文章數(shù) 136524關(guān)注度
往期回顧 全部

科技要聞

39.98萬(wàn)!小鵬GX預(yù)售“純電增程同價(jià)”

頭條要聞

牛彈琴:伊朗迎來(lái)一位非常特殊客人 全世界大舒一口氣

頭條要聞

牛彈琴:伊朗迎來(lái)一位非常特殊客人 全世界大舒一口氣

體育要聞

三球準(zhǔn)絕殺戴大金鏈:轟30+10自我救贖

娛樂(lè)要聞

謝娜現(xiàn)身環(huán)球影城,牽手女兒溫馨有愛(ài)

財(cái)經(jīng)要聞

油輪被困波斯灣1個(gè)多月 船員飽受煎熬

汽車(chē)要聞

空間絲毫不用妥協(xié) 小鵬GX首發(fā)評(píng)測(cè)

態(tài)度原創(chuàng)

時(shí)尚
親子
房產(chǎn)
公開(kāi)課
軍事航空

赫本愛(ài)穿的傘裙,好優(yōu)雅!

親子要聞

再不出去蝌蚪變青蛙了

房產(chǎn)要聞

重磅調(diào)規(guī)!341畝商改住+中小學(xué)用地!寶龍城這把穩(wěn)了?

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

軍事要聞

封鎖霍爾木茲海峽后 美釋放雙重信號(hào)

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版