![]()
來源:量子位 | 公眾號 QbitAI
克雷西 發自 凹非寺
LeCun的LeJEPA到底有沒有構建出世界模型?他本人最新發表的論文,解答了這個問題。
答案是肯定的,但是有條件,世界的底層變量需要服從高斯分布。
![]()
論文給出了完整的數學證明,覆蓋了精確成立的條件和近似情況下誤差的退化規律。
同時,LeCun他們還用機器人手臂控制實驗驗證了這一點——
在目標導向的控制任務上,用高斯采樣訓練出來的模型,規劃效果與已知真實狀態的理想情況在統計上沒有差異。
這讓LeCun押注多年的JEPA路線,終于有了理論支撐。
模型學沒學到世界,怎么判斷?
判斷一個機器學習模型的內部表示,到底對不對得上真實世界的結構,要看它能不能還原世界里的真實變量。
一個模型在訓練集上表現優秀,并不代表它真正理解了世界,可能只是把圖像的紋理、光照、背景等無關信息混在一起,恰好拼湊出了正確答案。
一旦場景發生變化,這樣的表示就會失效。
真正有用的表示,應該對應世界的真實自由度,比如物體的位置、速度、顏色這些獨立的內在變量,而不是它們被觀測過程扭曲之后的混合產物。
問題在于,這些變量的觀測本身就是一道屏障。
我們看到的圖像、傳感器的讀數,都是世界真實狀態經過復雜非線性變換之后的結果。
這個變換可以非常復雜,大量的結構信息在這個過程中被混淆、疊加。
從這樣的觀測出發反推真實結構,在數學上一般是無法保證的,這正是表示學習長期面臨的核心難題。
對比學習、VICReg、BYOL等自監督學習的各種方法,在這個問題上都繞開了正面回答。
這些方法的共同特點是,它們對模型輸出的嵌入分布沒有明確的約束,只是通過各種技巧防止表示退化為常數。
嵌入分布是什么形狀、有什么性質,這些方法并不關心。
正因如此,想要從理論上分析這些方法學到的表示是否還原了真實結構,就缺乏足夠的數學方法。
LeJEPA的設計在這里走了一條不同的路。
它通過一個叫SIGReg的正則項,把模型輸出的嵌入分布顯式約束為各向同性高斯分布。
這個約束讓嵌入空間有了明確的幾何結構,也正是這個結構,讓嚴格的理論分析成為可能。
![]()
選擇高斯分布的一個前提,是論文對世界的潛變量做了一個假設——它們服從高斯分布。
這個假設的選擇有兩個理由。
高斯分布是給定均值和方差條件下熵最大的分布,這意味著它對潛變量的結構做出了最少的額外假設,是一個盡可能保守的起點。
與此同時,任務相關的潛變量往往是大量微觀變量聚合的結果,根據中心極限定理,這類聚合變量天然趨向高斯分布。
高斯分布,有效且唯一的答案
在LeCun的論文中,判斷LeJEPA的表示是否還原了世界的真實結構的標準,叫做線性可識別性。
意思是說,如果學到的表示和真實潛變量之間存在一個線性對應關系,就認為模型還原了世界的真實結構。
但這個標準的門檻并不低,它要求表示空間里的每一個維度,都對應真實世界里某一個獨立的變量。
用數學語言來表達,就是存在一個矩陣Q,使得真實潛變量經過Q的線性變換之后,恰好等于模型輸出的表示。
用于判斷線性可識別性的工具,叫做線性探針,即在凍結的表示上,訓練一個線性分類器或回歸器,用來衡量表示里包含了多少關于目標變量的信息。
線性探針本身只能做線性變換,這意味著它能提取到什么,完全取決于表示里的信息——
如果表示真的線性對應了真實變量,線性探針就能準確提取,反之亦然。
論文中,作者正是用線性探針來衡量LeJEPA的表示是否還原了真實潛變量的。
實驗的設置是這樣的:
先在已知的低維高斯潛變量上施加非線性混合函數,這些混合函數包括螺旋形變換、正弦剪切、拋物線剪切、RealNVP耦合層等多種形式,目的是把潛變量變換成觀測數據;
接著,再用LeJEPA在這些觀測數據上訓練編碼器;
最后在編碼器輸出的表示和原始潛變量之間擬合一個線性回歸,用R2衡量兩者的線性對應程度。
R2越接近1,說明表示和真實潛變量之間的線性關系越強,即線性可識別性越好。
實驗還把潛變量的維度從2一路擴展到1024,遠超DINOv2等模型的嵌入維度,以驗證結論是否隨規模成立。
結果顯示,在所有測試的混合函數和維度下,SIGReg和VICReg的R2都保持在0.999以上,線性可識別性在高斯潛變量的條件下穩定成立。
![]()
從理論角度看,對于高斯分布,描述變量如何在時間上演化的轉移算子有一組特殊的特征函數,叫做Hermite多項式,它們是高斯分布下函數空間的自然正交基,類似于周期函數里的傅里葉級數。
這組多項式的關鍵性質是,一個函數里非線性成分的次數越高,它在正樣本對之間的相關性就越低。
![]()
LeJEPA的對齊損失要最大化正樣本對之間的相關性,因此任何非線性扭曲都會被嚴格懲罰。
再結合SIGReg對嵌入分布的約束,這個線性映射必然是一個正交變換,即真實潛變量的一個旋轉。
論文進一步證明了這個條件的唯一性。
Sturm-Liouville理論是經典數學物理里分析微分算子特征函數的框架,它描述了在什么條件下,一個算子的特征函數具有特定的形狀。
論文借用這個框架證明,要讓轉移算子的第一個特征函數恰好是仿射函數(即線性函數加常數),潛變量的分布必須滿足一個非常嚴格的條件——它的對數密度的導數必須是線性的,而滿足這個條件的分布恰好只有高斯分布。
這意味著高斯分布在這個問題里的地位是唯一的,換成Laplace分布、均勻分布或其他任何非高斯分布,線性可識別性的保證都無法成立。
論文也用實驗印證了這一點,在廣義正態分布族里掃描形狀參數,線性恢復的R2在形狀參數等于2(即高斯)時出現尖銳的峰值,偏離高斯之后迅速下降。
![]()
在表示空間規劃,就是在真實世界規劃
線性可識別性一旦成立,意味著什么?
這意味著,在學到的表示空間里做規劃,得到的結果和在真實世界里求解最優控制完全等價。
如果表示和真實潛變量之間只差一個旋轉,那么表示空間里的直線軌跡,解碼回真實空間之后仍然是一條直線,而直線軌跡恰好是很多控制問題里的最優解。
因此,只要代價函數對旋轉不敏感,在表示空間里規劃出來的最優策略,就等同于在真實世界里規劃出來的最優策略。
論文用一個機器人手臂控制任務來驗證這一點。
實驗的場景是DMC Reacher,一個有兩個關節的機械臂,目標是從起始姿態運動到目標姿態。
實驗分兩組:
第一組用各向同性隨機采樣(OU過程)生成訓練數據,潛變量的分布滿足高斯假設;
第二組直接用強化學習策略跑出來的真實軌跡作為訓練數據,潛變量的分布因為策略的目標導向性而集中在狀態空間的某個低熵區域,不再滿足高斯假設。
![]()
結果顯示,第一組訓練出來的編碼器,在表示空間里做直線插值規劃,得到的關節軌跡與已知真實狀態的理想情況在統計上沒有差異;第二組訓練出來的編碼器,同樣的規劃方法卻產生了明顯的偏差,控制代價顯著上升。
同一套物理系統,用隨機探索的方式采樣就能滿足理論條件,用目標導向的策略采樣就會破壞條件。
兩者的區別,正是在于數據的分布。
這意味著,在自監督預訓練階段,數據采樣策略,本身就是理論保證的一部分。
論文地址:
https://arxiv.org/abs/2605.26379
閱讀最新前沿科技趨勢報告,請訪問21世紀關鍵技術研究院的“未來知識庫”
![]()
未來知識庫是 “21世紀關鍵技術研究院”建 立的在線知識庫平臺,收藏的資料范圍包括人工智能、腦科學、互聯網、超級智能,數智大腦、能源、軍事、經濟、人類風險等等領域的前沿進展與未來趨勢。目前擁有超過8000篇重要資料。每周更新不少于100篇世界范圍最新研究資料。 歡迎掃描二維碼或訪問https://wx.zsxq.com/group/454854145828進入。
截止到2月28日 ”未來知識庫”精選的百部前沿科技趨勢報告
(加入未來知識庫,全部資料免費閱讀和下載)
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.