无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

來自耶魯大學(xué)的研究揭開了深度學(xué)習(xí)的隱秘?cái)?shù)學(xué)骨架

0
分享至


這項(xiàng)由耶魯大學(xué)統(tǒng)計(jì)與數(shù)據(jù)科學(xué)系研究團(tuán)隊(duì)發(fā)表的工作,于2026年6月提交至預(yù)印本平臺arXiv,論文編號為arXiv:2606.02993。有興趣深入了解的讀者可通過該編號查詢完整論文。

深度學(xué)習(xí)中有一個(gè)令人著迷卻又令人困惑的現(xiàn)象:我們把一堆數(shù)字喂給神經(jīng)網(wǎng)絡(luò),訓(xùn)練結(jié)束后,網(wǎng)絡(luò)內(nèi)部悄悄長出了某種"規(guī)律"。這種規(guī)律不是人為設(shè)計(jì)的,而是梯度下降這把"雕刻刀"從高維參數(shù)空間里自然刻出來的。問題是,這把刀到底刻出了什么形狀?為什么刻出的是這個(gè)形狀而不是別的?

耶魯大學(xué)的研究團(tuán)隊(duì)為了回答這個(gè)問題,選擇了一個(gè)極度干凈的實(shí)驗(yàn)場地——有限群的運(yùn)算。群,用最樸素的話說,就是一套帶有某種對稱結(jié)構(gòu)的運(yùn)算規(guī)則。鐘表上的12個(gè)小時(shí)加減法、魔方的旋轉(zhuǎn)組合、偶數(shù)加偶數(shù)還是偶數(shù),這些都是群的例子。研究團(tuán)隊(duì)訓(xùn)練了一個(gè)兩層神經(jīng)網(wǎng)絡(luò),讓它學(xué)會預(yù)測兩個(gè)群元素的"積":給你a和b,告訴我a乘以b等于什么。這個(gè)任務(wù)聽起來簡單,卻蘊(yùn)藏著深刻的代數(shù)結(jié)構(gòu)。研究的核心發(fā)現(xiàn)是:神經(jīng)網(wǎng)絡(luò)在訓(xùn)練過程中,自發(fā)地發(fā)現(xiàn)并編碼了群的"不可約表示"——這是數(shù)學(xué)家花了幾百年才系統(tǒng)整理出來的、描述群結(jié)構(gòu)最基本的"頻譜成分"。更驚人的是,每個(gè)神經(jīng)元只專注于一種表示,不同神經(jīng)元之間的分工極其整潔,就像管弦樂團(tuán)里每個(gè)樂手只演奏自己的聲部,合奏出完整的樂曲。

這項(xiàng)研究不僅揭示了神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)代數(shù)任務(wù)的內(nèi)在機(jī)制,還為理解"為什么神經(jīng)網(wǎng)絡(luò)總能找到低維、低秩的解"提供了一個(gè)具體而清晰的數(shù)學(xué)框架。

一、群運(yùn)算:神經(jīng)網(wǎng)絡(luò)的"數(shù)學(xué)練功房"

要理解這項(xiàng)研究,先得搞清楚研究團(tuán)隊(duì)選擇的訓(xùn)練任務(wù)是什么。鐘表是一個(gè)很好的出發(fā)點(diǎn)。假設(shè)鐘面上只有0到11共12個(gè)小時(shí),你問:現(xiàn)在是9點(diǎn),再過5小時(shí)是幾點(diǎn)?答案是2點(diǎn),因?yàn)?加5等于14,減去一圈12,剩下2。這種"繞圈加法"就是數(shù)學(xué)里的模運(yùn)算,也是最簡單的群——循環(huán)群的運(yùn)算規(guī)則。

但研究團(tuán)隊(duì)野心更大。他們不只研究循環(huán)群,而是研究任意有限群,包括那些"乘法不滿足交換律"的非阿貝爾群。舉個(gè)例子,魔方的操作就不滿足交換律:先轉(zhuǎn)頂面再轉(zhuǎn)右面,和先轉(zhuǎn)右面再轉(zhuǎn)頂面,結(jié)果完全不同。研究團(tuán)隊(duì)用的一個(gè)具體非阿貝爾群叫做弗羅貝尼烏斯群C??C?,它有21個(gè)元素,其運(yùn)算規(guī)則涉及一種特殊的"翻倍"關(guān)系——用群論語言說,就是共軛關(guān)系yxy??=x?。這個(gè)群有五種不可約表示:三個(gè)一維的和兩個(gè)三維的。三維表示意味著每個(gè)群元素對應(yīng)一個(gè)3×3的復(fù)數(shù)矩陣,而不是一個(gè)簡單的數(shù)字。

神經(jīng)網(wǎng)絡(luò)的架構(gòu)也很清晰。每個(gè)輸入是一對群元素(g?, g?),用獨(dú)熱編碼表示;輸出是對所有可能答案的概率預(yù)測,對應(yīng)群元素g?*g?;中間是一個(gè)兩層網(wǎng)絡(luò),每個(gè)神經(jīng)元有兩套輸入嵌入?yún)?shù)θ?和θ?(分別處理左右兩個(gè)輸入),一套輸出嵌入?yún)?shù)ξ,以及一個(gè)幅度縮放參數(shù)a。激活函數(shù)選擇的是平方函數(shù)σ(x)=x?,這個(gè)選擇不是隨意的——平方激活能讓傅里葉分析的代數(shù)結(jié)構(gòu)保持干凈,便于理論推導(dǎo)。網(wǎng)絡(luò)對輸入做內(nèi)積、求和、平方、再用輸出嵌入映射,這個(gè)簡單的計(jì)算圖背后隱藏著豐富的數(shù)學(xué)結(jié)構(gòu)。

訓(xùn)練過程被刻意分成兩個(gè)階段。第一階段,把幅度參數(shù)a固定在一個(gè)很小的值,只訓(xùn)練方向參數(shù)(θ?, θ?, ξ)——它們被約束在單位球面上,通過投影梯度流來更新。第二階段,把方向參數(shù)凍住,只放開幅度參數(shù)a讓它自由增長。這種分離并非任意設(shè)計(jì),而是因?yàn)檠芯繄F(tuán)隊(duì)發(fā)現(xiàn)這兩個(gè)階段在數(shù)學(xué)上有本質(zhì)不同的角色:第一階段負(fù)責(zé)"學(xué)會看什么",第二階段負(fù)責(zé)"看得更清楚"。

二、傅里葉變換:換一副眼鏡看參數(shù)

接下來是這項(xiàng)研究最關(guān)鍵的技術(shù)轉(zhuǎn)換。研究團(tuán)隊(duì)把神經(jīng)網(wǎng)絡(luò)的參數(shù)θ?、θ?、ξ從"直接看每個(gè)群元素上的取值"轉(zhuǎn)換到"看其傅里葉頻譜上的成分"。

對于循環(huán)群Zn,這就是普通的離散傅里葉變換——把一個(gè)信號分解成不同頻率的正弦波疊加。對于一般的有限群,這個(gè)變換的推廣叫做"群傅里葉變換",原理相同,但每個(gè)"頻率成分"不再是一個(gè)數(shù),而是一個(gè)矩陣。具體來說,對每個(gè)不可約表示ρ(可以理解為一種"頻率通道"),參數(shù)ν的傅里葉系數(shù)是一個(gè)dρ×dρ的復(fù)數(shù)矩陣,其中dρ是這個(gè)表示的維數(shù)。對于循環(huán)群,所有表示都是一維的,所以傅里葉系數(shù)就是普通復(fù)數(shù);對于非阿貝爾群,某些表示是高維的,對應(yīng)的傅里葉系數(shù)就是矩陣。

把參數(shù)從"元素域"換到"頻譜域",就像把一段音樂從時(shí)間軸上的聲波波形,換成頻率-響度圖。波形看起來復(fù)雜,頻率圖卻一目了然——哪些音符在響,響多大。研究團(tuán)隊(duì)發(fā)現(xiàn),當(dāng)神經(jīng)網(wǎng)絡(luò)訓(xùn)練收斂后,每個(gè)神經(jīng)元的參數(shù)在頻譜域里呈現(xiàn)出極度稀疏的模式:絕大多數(shù)"頻率通道"上的系數(shù)趨近于零,只有一個(gè)通道(加上它的共軛通道)上有非零值。這就是"單一表示"現(xiàn)象——每個(gè)神經(jīng)元只專注于一種不可約表示。

更深層的結(jié)構(gòu)藏在那個(gè)非零的矩陣?yán)铩Q芯繄F(tuán)隊(duì)發(fā)現(xiàn),即使是高維表示對應(yīng)的矩陣,經(jīng)過訓(xùn)練后都變成了秩為1的矩陣。秩1意味著這個(gè)矩陣可以寫成兩個(gè)向量的外積:A=uv*。一個(gè)dρ×dρ的矩陣本來有dρ?個(gè)自由度,但秩1約束把它壓縮到只有2dρ個(gè)自由度。這種極端的壓縮是自發(fā)發(fā)生的,不是任何正則化或架構(gòu)約束強(qiáng)制的——純粹是梯度下降"選擇"了低秩解。

三、主定理:神經(jīng)網(wǎng)絡(luò)學(xué)到了什么

現(xiàn)在可以完整陳述研究團(tuán)隊(duì)證明的核心定理了。在小幅度初始化(讓網(wǎng)絡(luò)輸出接近零)和隨機(jī)球面初始化下,對于任意有限群G,第一階段訓(xùn)練結(jié)束后,每個(gè)神經(jīng)元m幾乎必然收斂到以下狀態(tài)。

其一,"單一表示":存在一個(gè)非平凡不可約表示ρ?,使得除了ρ?和它的共軛ρ??之外,所有表示的傅里葉系數(shù)都趨近于零矩陣。參數(shù)在元素域的表達(dá)式因此簡化為:只依賴于ρ?在群元素上的矩陣值的實(shí)部跡。

其二,"秩一旋轉(zhuǎn)對齊":在存活的表示ρ?上,三套參數(shù)的傅里葉系數(shù)θ??[ρ]、θ??[ρ]、ξ?[ρ]都是秩1矩陣,并且三者之間滿足一種"旋轉(zhuǎn)對齊"的比例關(guān)系:ξ?[ρ] ∝? θ??[ρ]θ??[ρ],θ??[ρ] ∝? (θ??[ρ])* ξ?[ρ],θ??[ρ] ∝? ξ?[ρ](θ??[ρ])*。三個(gè)等式用正實(shí)數(shù)比例系數(shù)相互約束,形成一個(gè)閉合的"三角關(guān)系"。

這里的"∝?"表示"以正實(shí)數(shù)為比例系數(shù)成正比"。在阿貝爾群的特例下,所有表示都是一維的,矩陣乘法退化為數(shù)字乘法,旋轉(zhuǎn)對齊退化為相位加法關(guān)系arg(ξ)=arg(θ?)+arg(θ?),這正是此前針對模運(yùn)算加法的研究已經(jīng)觀察到的"相位對齊"現(xiàn)象。非阿貝爾群的新鮮之處在于:矩陣乘法不滿足交換律,所以三個(gè)關(guān)系式不再自動等價(jià),需要分別證明;同時(shí),秩一壓縮是非阿貝爾情況獨(dú)有的新現(xiàn)象,在一維情況下根本不存在這個(gè)概念。

用音樂類比來說:每個(gè)神經(jīng)元就像一個(gè)只會演奏一種樂器(一種不可約表示)的演奏家,而且在這種樂器的頻率空間里,他們只撥動一根弦(秩1),三個(gè)參數(shù)組合的方式就像三部樂譜(輸入1、輸入2、輸出)互相"對齊"——你聽了第一部就能推測出第三部的主旋律。

四、證明路徑:如何從梯度流推出這一切

要把以上現(xiàn)象從"觀察"變成"定理",研究團(tuán)隊(duì)走了一條精心設(shè)計(jì)的數(shù)學(xué)路徑,分四步完成。

第一步是把梯度流"提升"到頻譜流形上。通過對交叉熵?fù)p失在小輸出幅度下做泰勒展開近似,可以得到一個(gè)更簡潔的近似損失函數(shù)Rap。研究團(tuán)隊(duì)嚴(yán)格證明了,在足夠小的幅度a下,近似損失的梯度流和真實(shí)損失的梯度流在任意有限時(shí)間區(qū)間內(nèi)的軌跡誤差以O(shè)(a?|G|^(1/2)/M)的速率積累——這個(gè)誤差可以通過選取足夠小的a控制到任意精度。在近似損失下,把參數(shù)替換為它們的傅里葉系數(shù)表達(dá),梯度流等價(jià)于在傅里葉系數(shù)構(gòu)成的流形上做一種叫做"黎曼梯度上升"的優(yōu)化。被上升的目標(biāo)函數(shù)叫做Ω?,它是三套傅里葉系數(shù)之間矩陣乘積跡的實(shí)部求和。這是整個(gè)證明的支點(diǎn):把參數(shù)空間的優(yōu)化轉(zhuǎn)化為一個(gè)有明確能量函數(shù)的幾何流。

第二步是對臨界點(diǎn)做窮舉分類。黎曼梯度上升的臨界點(diǎn)就是梯度為零的狀態(tài),即Ω?不再變化的"靜止點(diǎn)"。研究團(tuán)隊(duì)把所有可能的臨界點(diǎn)按能量符號和支撐結(jié)構(gòu)分成五類。能量為負(fù)的臨界點(diǎn)和能量為零但只有平凡表示支撐的臨界點(diǎn)被歸入前兩類,研究團(tuán)隊(duì)證明這兩類只能從一個(gè)"測度為零"的初始化集合出發(fā)才能到達(dá)——換句話說,隨機(jī)初始化幾乎必然繞開它們。能量為零但有非平凡表示支撐的臨界點(diǎn)和能量為正但總秩大于等于2的臨界點(diǎn)被歸入中間兩類,研究團(tuán)隊(duì)通過分析黎曼海森矩陣,證明這兩類臨界點(diǎn)都是"嚴(yán)格鞍點(diǎn)":黎曼海森矩陣在某個(gè)切向量方向上有正特征值,意味著沿這個(gè)方向能繼續(xù)上升,這個(gè)點(diǎn)不是真正的"極大值"。只剩下最后一類:能量為正且總秩恰好等于1的臨界點(diǎn)——這正是單一表示加秩一對齊的狀態(tài)。

第三步是證明隨機(jī)初始化下梯度流幾乎必然繞開所有鞍點(diǎn)。研究團(tuán)隊(duì)把這個(gè)問題歸結(jié)為一個(gè)關(guān)于黎曼流形上連續(xù)梯度流的一般定理——研究團(tuán)隊(duì)將其稱為"鞍點(diǎn)回避定理"。核心工具是"中心穩(wěn)定流形定理":對于嚴(yán)格鞍點(diǎn)p,其切空間可以分解為對應(yīng)負(fù)或零特征值的"中心穩(wěn)定子空間"和對應(yīng)正特征值的"不穩(wěn)定子空間"。中心穩(wěn)定流形定理保證了存在一個(gè)局部的"中心穩(wěn)定流形",維數(shù)嚴(yán)格小于流形總維數(shù),因此測度為零。任何從隨機(jī)點(diǎn)出發(fā)且最終收斂到鞍點(diǎn)p的軌跡,其初始點(diǎn)必須落在這個(gè)測度零集內(nèi)。把所有鞍點(diǎn)的穩(wěn)定集取可數(shù)并,仍然是測度零集。由此,絕對連續(xù)的隨機(jī)初始化幾乎必然不落在任何鞍點(diǎn)的穩(wěn)定集里。

第四步是把前三步拼裝起來,完成定理證明:梯度流必然收斂到某個(gè)臨界點(diǎn)(因?yàn)榱餍问蔷o致的),前兩類被測度零初始化排除,中間兩類被鞍點(diǎn)回避排除,于是幾乎必然收斂到最后一類。證畢。

五、阿貝爾群的完整畫像:多數(shù)投票與"殘次指示函數(shù)"

對于結(jié)構(gòu)更簡單的阿貝爾群(乘法滿足交換律的群,比如各種模運(yùn)算加法),研究團(tuán)隊(duì)能給出更精細(xì)的描述,不只說"每個(gè)神經(jīng)元學(xué)一種表示",還能說清楚整個(gè)神經(jīng)元集合的分布。

核心定理說的是:在球面均勻隨機(jī)初始化下,當(dāng)神經(jīng)元數(shù)量趨于無窮時(shí),神經(jīng)元集合的經(jīng)驗(yàn)分布收斂到一個(gè)極限分布μ。這個(gè)μ是某個(gè)乘積測度的"反傅里葉推前":每個(gè)神經(jīng)元以均勻概率獨(dú)立地從所有非平凡不可約表示中選一個(gè),再從單位圓上按哈爾測度(即均勻分布)獨(dú)立地選一個(gè)"絕對相位"。用符號寫就是μ=T_idft#(Unif(Irr(G)≠1)?Haar(D)),其中T_idft是把"表示-相位對"轉(zhuǎn)換回參數(shù)向量的映射。

這個(gè)結(jié)論背后有兩層獨(dú)立的論證。相位的均勻性來自于:梯度流中相位的演化方程顯示,絕對相位θ[ρ]的幅角只是以確定性的方式旋轉(zhuǎn)了一個(gè)角度,初始相位的均勻性在旋轉(zhuǎn)下保持不變。表示的均勻性來自于:梯度流關(guān)于非平凡表示的重新標(biāo)記具有對稱性,初始化的球面均勻分布也具有這種對稱性,所以"哪個(gè)表示最終勝出"的概率對所有表示都相等。兩者的獨(dú)立性則來自于:決定哪個(gè)表示勝出的信息全部包含在"幅度和相對相位"的初始值中,而絕對相位獨(dú)立于這些信息。

有了μ的明確形式,就可以計(jì)算平均場預(yù)測器的輸出logit。對于輸入(g?,g?)和輸出標(biāo)簽j,logit正比于2·1(j=g?*g?)+1(j=g??)+1(j=g??)–4/|G|。正確答案j=g?*g?獲得系數(shù)2,兩個(gè)"幽靈"標(biāo)簽g??和g??(分別是兩個(gè)輸入各自與自身的群積)各獲得系數(shù)1,其余標(biāo)簽獲得負(fù)的基準(zhǔn)值–4/|G|。正確答案始終是系數(shù)最大的,因此分類正確。研究團(tuán)隊(duì)把這個(gè)預(yù)測器形象地稱為"殘次指示函數(shù)":它本應(yīng)該是一個(gè)完美的單峰指示,只在正確答案處為1,其余為0;但由于架構(gòu)的結(jié)構(gòu)性限制,它在兩個(gè)"幽靈"答案處也有額外的小峰。不過,只要幅度參數(shù)a足夠大,softmax操作就能把這個(gè)"殘次"分布銳化為正確答案上的接近確定性預(yù)測。

這里用選舉打比方很合適。每個(gè)神經(jīng)元像一個(gè)選民,投票給某個(gè)候選答案。絕大多數(shù)選民投給正確答案,少數(shù)選民因?yàn)?幽靈效應(yīng)"投給了g??或g??,但正確答案的得票率始終是最高的。當(dāng)投票人數(shù)(神經(jīng)元數(shù)量)足夠多時(shí),噪聲被平均掉,多數(shù)投票的結(jié)果穩(wěn)健地指向正確答案。

六、收斂速率:快慢兩個(gè)相互纏繞的過程

知道梯度流"最終"會收斂還不夠,研究團(tuán)隊(duì)還進(jìn)一步分析了"多快收斂"以及"收斂的機(jī)制是什么"。

對于阿貝爾群,整個(gè)第一階段的收斂可以分解為兩個(gè)相互獨(dú)立又相互纏繞的子過程。第一個(gè)子過程叫"相位對齊":輸入嵌入和輸出嵌入的相位關(guān)系從任意狀態(tài)逐漸鎖定到滿足arg(ξ)=2arg(θ)的對齊狀態(tài)(系數(shù)2來自平方激活)。第二個(gè)子過程叫"表示競爭":所有非平凡表示的傅里葉系數(shù)幅度之間展開"軍備競賽",初始幅度最大的那個(gè)表示會指數(shù)級擴(kuò)大自己的優(yōu)勢,其余表示則指數(shù)級衰減。

研究團(tuán)隊(duì)對這兩個(gè)子過程分別給出了精確的收斂速率。相位對齊:如果神經(jīng)元初始時(shí)只有一個(gè)表示處于活躍狀態(tài),那么相位對齊量R(φ)從初始值到達(dá)1-ε精度所需時(shí)間正比于M/(a|G|^(1/2))乘以對數(shù)因子。相位初始越接近對齊狀態(tài),收斂越快;相位初始越偏離,需要的時(shí)間越長,但始終是指數(shù)收斂。

表示競爭:如果初始時(shí)所有相位已經(jīng)對齊,那么表示幅度之間的比值r?(t)=α?[ρ]/α?[ρ]滿足一個(gè)簡單的增長方程,其解是指數(shù)增長——初始比值越大,增長越快,但無論初始優(yōu)勢多小,只要大于1,最終都會無限放大。這就是"彩票機(jī)制":哪個(gè)表示在初始化時(shí)贏得了幅度上的微弱優(yōu)勢,它就贏得了這場競賽;訓(xùn)練的作用是把這個(gè)微弱優(yōu)勢指數(shù)級放大,直到其他表示徹底消聲匿跡。因?yàn)槌跏蓟乔蛎婢鶆虻模斜硎镜某跏挤仁强山粨Q的,每個(gè)表示贏得彩票的概率相等——這正是宏觀均勻分布的微觀起源。

從訓(xùn)練速度和所需時(shí)間的角度來看,兩個(gè)子過程所需的時(shí)間尺度是O(M/(a|G|^(1/2)))和O(M/(a|G|)),前者比后者更慢(因?yàn)閨G|^(1/2)更小),這意味著相位對齊通常是整個(gè)第一階段的"瓶頸"。訓(xùn)練曲線上那段看起來損失停滯不前的平臺期,正是相位對齊正在發(fā)生的時(shí)期。

七、第二階段:幅度爆炸與損失歸零

第一階段結(jié)束后,每個(gè)神經(jīng)元已經(jīng)學(xué)好了"看什么"(哪個(gè)表示)以及"如何看"(對齊的相位/秩一結(jié)構(gòu))。但預(yù)測準(zhǔn)確率可能仍然不高,因?yàn)榉葏?shù)a太小,使得softmax輸出接近均勻分布。第二階段的任務(wù)就是讓a生長起來,把softmax從"均勻模糊"銳化為"集中確定"。

研究團(tuán)隊(duì)證明了以下結(jié)論:只要平均場預(yù)測器已經(jīng)滿足"完美精度條件"(即對每個(gè)輸入對,正確答案的logit嚴(yán)格大于所有錯(cuò)誤答案),那么a的梯度流滿足a(t)?log(1+|G|·(|G|–1)·t)的下界——即對數(shù)增長。交叉熵?fù)p失的上界則隨時(shí)間呈O(1/T)衰減。幅度的對數(shù)增長速度看起來很慢,但對于有限群來說,logit間距的正數(shù)下界(來自第一階段學(xué)到的結(jié)構(gòu))保證了最終損失會趨向零。這個(gè)動態(tài)非常類似于在可線性分離數(shù)據(jù)上做指數(shù)族損失的梯度下降時(shí)的隱式偏置——幅度趨于無窮,損失趨于零,但模型的"方向"已經(jīng)固定。研究團(tuán)隊(duì)還證明了,在足夠?qū)挼木W(wǎng)絡(luò)下(M?log(|G|?/δ)),有限神經(jīng)元集合的預(yù)測器以1-δ的概率繼承了平均場預(yù)測器的正確性,從而確保第二階段的幅度生長確實(shí)能帶來正確分類。

八、實(shí)驗(yàn)驗(yàn)證:理論預(yù)測與實(shí)踐結(jié)果的精確對應(yīng)

研究團(tuán)隊(duì)在弗羅貝尼烏斯群C??C?上進(jìn)行了詳盡的數(shù)值驗(yàn)證,這個(gè)群因?yàn)橥瑫r(shí)具有三維不可約表示(讓秩一壓縮現(xiàn)象有意義)和非自共軛表示(讓共軛對結(jié)構(gòu)清晰可見)而成為理想的測試場。

訓(xùn)練1024個(gè)神經(jīng)元后,研究團(tuán)隊(duì)對每個(gè)神經(jīng)元的參數(shù)做群傅里葉變換,得到一個(gè)"頻譜熱力圖",行對應(yīng)神經(jīng)元,列對應(yīng)不同表示的傅里葉系數(shù)塊(一維表示貢獻(xiàn)一列,三維表示貢獻(xiàn)一個(gè)3×3的塊)。熱力圖清晰地顯示:每個(gè)神經(jīng)元只在一個(gè)表示塊(加上它的共軛塊)處有顯著非零值,其余塊幾乎全為零。這直接驗(yàn)證了單一表示結(jié)論。

研究團(tuán)隊(duì)還定義了兩個(gè)量化指標(biāo)。"對齊度"disal(C?,C?)衡量兩個(gè)矩陣之間的余弦相似度,值為1表示它們是正比關(guān)系。"秩一度"distr1(C)衡量第二奇異值與第一奇異值的比值,值為0表示矩陣是完美秩一。訓(xùn)練過程中,三套參數(shù)之間的對齊度穩(wěn)步趨近1,三套參數(shù)各自的秩一度穩(wěn)步趨近0,兩個(gè)指標(biāo)在訓(xùn)練后期都非常接近理論極限,方差也趨近于零。與此同時(shí),分類準(zhǔn)確率也在第一階段末期穩(wěn)定在100%,確認(rèn)了平均場完美精度條件成立,為第二階段打下了基礎(chǔ)。第二階段的幅度增長曲線——無論是"綁定幅度"(所有神經(jīng)元共享一個(gè)幅度參數(shù))還是"獨(dú)立幅度"(每個(gè)神經(jīng)元有自己的幅度參數(shù))——都呈現(xiàn)出清晰的對數(shù)增長模式,與理論預(yù)測高度吻合。

說到底,這項(xiàng)研究揭示的是神經(jīng)網(wǎng)絡(luò)內(nèi)部一種極其精妙的"自我組織"能力。你不需要告訴網(wǎng)絡(luò)群論,不需要告訴它什么是不可約表示,不需要告訴它應(yīng)該用低秩矩陣——只需要給它數(shù)據(jù)和梯度,它會自己找到這些數(shù)學(xué)結(jié)構(gòu)。這背后有一個(gè)深刻的道理:數(shù)據(jù)的對稱性(群的結(jié)構(gòu))會通過損失函數(shù)的梯度流,自然地"印刻"進(jìn)網(wǎng)絡(luò)的參數(shù)形態(tài)。數(shù)學(xué)家發(fā)現(xiàn)不可約表示是描述群結(jié)構(gòu)的最緊湊方式,神經(jīng)網(wǎng)絡(luò)通過梯度下降也"發(fā)現(xiàn)"了同樣的結(jié)論——不是因?yàn)樗當(dāng)?shù)學(xué),而是因?yàn)樘荻认陆翟谶@類有對稱性的數(shù)據(jù)上,本質(zhì)上就是在尋找最緊湊的表示方式。

這項(xiàng)工作目前仍有一些懸而未決的問題。對于具有高維不可約表示的非阿貝爾群,神經(jīng)元集合的極限分布是什么樣的?具有自共軛表示的阿貝爾群如何處理相位變成實(shí)數(shù)符號的情況?從全量數(shù)據(jù)訓(xùn)練到部分?jǐn)?shù)據(jù)訓(xùn)練的泛化間隙,以及那個(gè)著名的"grokking"(先過擬合后突然泛化)現(xiàn)象,理論上如何解釋?這些問題都是未來研究的方向,而這篇論文已經(jīng)建立了一個(gè)足夠堅(jiān)實(shí)的框架,讓這些問題變得可以被精確地提出和追問。歸根結(jié)底,這項(xiàng)研究給我們的最大啟示不是某個(gè)具體的算法改進(jìn),而是一種觀察神經(jīng)網(wǎng)絡(luò)的新角度:當(dāng)數(shù)據(jù)有代數(shù)結(jié)構(gòu)時(shí),去頻譜域看——你很可能會看到比你預(yù)期更干凈、更美麗的東西。有興趣進(jìn)一步探索的讀者,可以通過arXiv編號2606.02993找到完整論文,研究團(tuán)隊(duì)也在GitHub上公開了完整代碼。

Q&A

Q1:神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)群運(yùn)算時(shí)自發(fā)發(fā)現(xiàn)的"不可約表示"是什么意思?

A:不可約表示是描述一個(gè)群結(jié)構(gòu)最基本的"積木塊",類似于把白光分解成七色光譜。每個(gè)有限群都有有限種不可約表示,它們無法再被分解。神經(jīng)網(wǎng)絡(luò)在訓(xùn)練后,每個(gè)神經(jīng)元的參數(shù)在傅里葉頻譜上只對應(yīng)其中一種表示,就像每位樂手只演奏一種樂器,這種自發(fā)的專門化現(xiàn)象正是"學(xué)到了不可約表示"的含義。

Q2:弗羅貝尼烏斯群C??C?是什么,為什么要用它做實(shí)驗(yàn)?

A:弗羅貝尼烏斯群C??C?是一個(gè)有21個(gè)元素的非阿貝爾群,意思是群里的運(yùn)算不滿足交換律,a乘以b不等于b乘以a。它被選來做實(shí)驗(yàn)是因?yàn)樗瑫r(shí)具備三維不可約表示(讓秩一壓縮現(xiàn)象有實(shí)質(zhì)意義)和非自共軛表示(共軛結(jié)構(gòu)清晰),是驗(yàn)證理論的理想"最小復(fù)雜案例",比對稱群簡單但又比循環(huán)群復(fù)雜。

Q3:論文中的"grokking"現(xiàn)象指的是什么?

A:Grokking(頓悟)是深度學(xué)習(xí)中一個(gè)奇特現(xiàn)象:模型在訓(xùn)練數(shù)據(jù)上早已過擬合(記住答案但不理解規(guī)律),卻在很久之后突然在測試數(shù)據(jù)上也獲得了高泛化能力,損失曲線上出現(xiàn)明顯的延遲跳變。這項(xiàng)論文的兩階段訓(xùn)練框架和幅度對數(shù)增長描述了相關(guān)機(jī)制的一部分,但從部分?jǐn)?shù)據(jù)訓(xùn)練到完整泛化的精確理論分析,作者承認(rèn)仍是未解問題。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
人不會平白無故患帶狀皰疹!醫(yī)生強(qiáng)調(diào):得帶狀皰疹,多半有3共性

人不會平白無故患帶狀皰疹!醫(yī)生強(qiáng)調(diào):得帶狀皰疹,多半有3共性

39健康網(wǎng)
2026-06-12 20:16:42
巴拉圭一對球迷姐弟因高顏值走紅,被譽(yù)為世界杯女友/男友

巴拉圭一對球迷姐弟因高顏值走紅,被譽(yù)為世界杯女友/男友

可樂談情感
2026-06-13 19:28:40
太平島又發(fā)生激烈對峙,現(xiàn)場情況很危險(xiǎn),我們必須收回該島執(zhí)法權(quán)

太平島又發(fā)生激烈對峙,現(xiàn)場情況很危險(xiǎn),我們必須收回該島執(zhí)法權(quán)

馬探解說體育
2026-06-14 08:00:22
西方為什么死咬新疆不放?

西方為什么死咬新疆不放?

杰絲聊古今
2026-06-13 18:57:12
高家寶,你好幸福啊,爸爸是爾豪,媽媽是小秦氏,關(guān)鍵是他們愛你

高家寶,你好幸福啊,爸爸是爾豪,媽媽是小秦氏,關(guān)鍵是他們愛你

娛人細(xì)品
2026-06-13 18:29:45
伊布談阿什拉夫犯規(guī)維尼修斯:裁判應(yīng)該保護(hù)球員,他沒做到

伊布談阿什拉夫犯規(guī)維尼修斯:裁判應(yīng)該保護(hù)球員,他沒做到

懂球帝
2026-06-14 17:15:19
新冠后遺癥的長期侵襲,無數(shù)人在不知不覺中深陷困境

新冠后遺癥的長期侵襲,無數(shù)人在不知不覺中深陷困境

律法刑道
2026-04-01 10:15:47
蘇超一晚三場冷門,主場隊(duì)伍全翻車

蘇超一晚三場冷門,主場隊(duì)伍全翻車

林子說事
2026-06-14 14:36:50
《火遮眼》北美票房出爐,回本無壓力,謝苗要登上巔峰了

《火遮眼》北美票房出爐,回本無壓力,謝苗要登上巔峰了

凡知
2026-06-14 14:19:46
大家都難了嗎?網(wǎng)傳胖東來要降薪,成本會計(jì)3600工資竟來23人面試

大家都難了嗎?網(wǎng)傳胖東來要降薪,成本會計(jì)3600工資竟來23人面試

慧翔百科
2026-06-12 08:39:57
澳大利亞公開賽,國羽三冠兩亞收官,陳柏陽劉毅登頂,董天堯摘銀

澳大利亞公開賽,國羽三冠兩亞收官,陳柏陽劉毅登頂,董天堯摘銀

天涯遠(yuǎn)行人
2026-06-14 17:29:16
摩洛哥18歲天才完爆巴西中場,阿森納后悔7000萬要價(jià)

摩洛哥18歲天才完爆巴西中場,阿森納后悔7000萬要價(jià)

老糿尾聲體育解說
2026-06-14 13:27:41
“都絕戶了,還拼命掙錢干嘛?”看見父親50歲就躺平,我崩潰了

“都絕戶了,還拼命掙錢干嘛?”看見父親50歲就躺平,我崩潰了

素十三兒
2026-04-13 07:12:36
路易斯王子陽臺搶盡風(fēng)頭,12歲的喬治王子身高暴漲,幾乎追上凱特

路易斯王子陽臺搶盡風(fēng)頭,12歲的喬治王子身高暴漲,幾乎追上凱特

譯言
2026-06-14 06:09:35
王鶴隸早期出道視頻曝光引熱議

王鶴隸早期出道視頻曝光引熱議

淺遇時(shí)光
2026-06-14 01:16:31
鄭麗文這番話一放出來,火藥味一下就上來了。

鄭麗文這番話一放出來,火藥味一下就上來了。

果媽聊娛樂
2026-06-14 17:20:53
就差最后一步,伊朗人自己打起來!萬人血誓:復(fù)仇未竟,休想妥協(xié)

就差最后一步,伊朗人自己打起來!萬人血誓:復(fù)仇未竟,休想妥協(xié)

菁菁子衿
2026-06-14 09:01:10
調(diào)整!6月14日晚間央視直播乒乓收官日有變,4場決賽,林詩棟爭冠

調(diào)整!6月14日晚間央視直播乒乓收官日有變,4場決賽,林詩棟爭冠

煙潯渺渺
2026-06-14 14:29:13
伊朗新領(lǐng)袖打破40年潛規(guī)則!正面打擊以色列,一場國運(yùn)豪賭開始了

伊朗新領(lǐng)袖打破40年潛規(guī)則!正面打擊以色列,一場國運(yùn)豪賭開始了

凡知
2026-06-12 12:34:32
玩過14位男星!人前玉女,人后“欲女”,47歲至今未婚無人敢娶

玩過14位男星!人前玉女,人后“欲女”,47歲至今未婚無人敢娶

翰飛觀事
2026-06-13 14:19:51
2026-06-14 19:04:50
科技行者 incentive-icons
科技行者
科技正在如何變革商業(yè)世界
8771文章數(shù) 565關(guān)注度
往期回顧 全部

科技要聞

Anthropic最強(qiáng)模型被禁,傳亞馬遜通風(fēng)報(bào)信

頭條要聞

村民砍掉"孤獨(dú)樹":砍樹前一天跟紅裙女子發(fā)生沖突

頭條要聞

村民砍掉"孤獨(dú)樹":砍樹前一天跟紅裙女子發(fā)生沖突

體育要聞

8年8隊(duì)奪冠,鄧肯那句話,現(xiàn)在還給了馬刺

娛樂要聞

鄧超攜子觀戰(zhàn)NBA,等等帥氣十足

財(cái)經(jīng)要聞

金價(jià)跌至900元關(guān)口,大媽又來抄底了!

汽車要聞

綜合續(xù)航超1600km/零百加速4秒級 2027款星途ES預(yù)售18.99萬起

態(tài)度原創(chuàng)

教育
數(shù)碼
家居
房產(chǎn)
公開課

教育要聞

2026高考作文:萬古融雪,終貫滄海

數(shù)碼要聞

Meta向旗下Quest 2/3/Pro頭顯全面推送新版Navigator界面

家居要聞

空間微調(diào) 移形換境

房產(chǎn)要聞

海南最賺錢行業(yè)曝光!最快4年半,海口全款買三房!

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版