无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

宇宙尺度壓縮:Scaling Law的邊界,柏拉圖表征收斂于物質和信息交匯,解決P與NP問題,Simulation假說……

0
分享至

作者 | 超對稱技術

出品丨AI 科技大本營(ID:rgznai100)

超對稱公司成功在 BigBang-Proton 實現跨尺度跨結構的科學多任務學習,并從這個基礎出發提出將科學多任務學習擴展到極限,就是將宇宙當做一個完整整體進行預訓練,進而提出宇宙尺度壓縮 Universe Compression 的構想。本文將從多個方面論證這個構想的科學基礎,工程可行性,以及科學意義。

Scientific Multitask Learning 是通往宇宙尺度壓縮的基石

傳統的 LLM 開發的觀點認為,DNA 序列、數學方程式、水質數據、粒子噴注、材料結構這多學科的數據相互比較差異太大,與自然語言相比差異更大,放在一起訓練不可能收斂,loss 無法下降。

BigBang-Proton 的預訓練過程顯示,高度異質的數據集在正確的表征和合適的架構上可以收斂,這就預示了跨尺度、跨結構、跨學科的數據集,在高維度 latent space 中可以產生遷移學習。

ChatGPT 展示“寫出李清照風格的代碼”以及 Dalle 畫出“騎馬的宇航員”是典型的遷移學習的結果,在語言和藝術領域屢屢讓人驚訝,但在科學領域遷移學習至今未有成功案例,原因就是科學領域的多任務學習(multitask learning)在預訓練上沒有進展。相比于語言和藝術,科學的遷移學習的價值要大得多。大腦的神經元是否發生了量子力學過程,研究這樣的問題正需要多學科的遷移學習。

超對稱團隊將算術運算能力作為科學多任務學習的核心,因為實驗結果主要是數值形式的。BigBang-Proton 驗證了夸克衰變產生的粒子噴注、材料結構、水質、DNA 序列、傳感器、股價、算術運算這些高度異質的數據集可以收斂,則將宇宙視為一個統一的實體來進行訓練和推理就已經沒有障礙。這樣的科研范式融合了還原論和涌現輪兩種方法論。

Scaling Law 的邊界

在語言和專用科學多任務數據集上的預訓練能夠平滑收斂,這表明大語言模型(LLMs)的 Scaling Law 可以超越語言范疇,延伸至物理世界。那么 Scaling Law 的邊界是什么?

柏拉圖表征、數據空間流形與宇宙流形

Minyoung Huh 等作者提出柏拉圖表征(Platonic Representation Hypothesis, 他們統計了數百個在不同深度網絡架構和模態(圖像和文本)上訓練的 AI 模型,發現這些模型傾向于在其表征空間中收斂到一個相近的統計結果,這種統計結果是對現實的映射。他們假設這種收斂會到達一個理想化現實的表征,稱為柏拉圖表征,這一術語參考了柏拉圖在《理想國》中的洞穴寓言。

BigBang-Proton 在跨尺度跨結構跨學科預訓練上的進展和柏拉圖的表征相互印證。物質世界,或者說宇宙本身,構成了柏拉圖表征中的理想化現實,而物理學、化學和生物學中的所有科學定律都是從特定視角對這一現實的統計反映。

物質世界是一個單一的、統一的實體,由于人類腦力和資源有限才將科學探索的對象劃分為不同學科。宇宙起源于 137 億年前的大爆炸,演化過程中不同尺度涌現出不同的物質結構,最終形成其當前狀態,演化過程產生了人類文明,人類語言從中涌現并通過互聯網被記錄下來。在全部互聯網數據上訓練的主流 LLMs,僅捕獲了嵌入在物質世界中的信息的一小部分。

與普遍認為由于可用互聯網數據耗盡,基座 LLM 預訓練已觸及瓶頸的判斷相反,超對稱團隊從 BigBang-Proton 的工作中得出結論:預訓練的極限最終就是宇宙本身的極限。由此超對稱團隊提出了柏拉圖表征的宇宙和文明版本,即只要有足夠的資源,在整個宇宙歷史和人類文明所產生的全部數據上進行預訓練單一模型,模型將收斂到一個植根于大爆炸和支配宇宙起源的基本定律的表征,即信息與物質的交匯點,因為我們今天所居住的物質世界正是從那個奇點衍生而來的。

圖:
宇宙尺度的預訓練收斂到基本物理定律,從宇宙的演化和科學發展歷史可看出來。超對稱假設,在人類文明產生的完整數據上訓練的模型傾向于收斂到基本自然定律,而在自然界和宇宙演化產生的完整數據上訓練的模型傾向于收斂到基本物理定律。在一個從宇宙完整歷史產生的數據上訓練的單一模型,傾向于收斂到大爆炸時刻、奇點處的基本物理定律以及信息與物質的交匯點。

假設 1 | 自回歸LLMs 的縮放定律尚未觸及瓶頸。LLMs 縮放的極限是宇宙的終極邊界。LLMs 的縮放最終將收斂到大爆炸時刻的基本物理定律以及信息與物質的交匯點。

為什么我們所處的世界具有隨機性和不確定性,所以我們需要用統計的工具來理解現實?現實的內在統計性質源于量子力學,起源于大爆炸期間的量子漲落。這些漲落驅動了跨越宇宙和物質尺度的層級結構形成。統計力學在不同的物質尺度之間架起橋梁,熱力學熵揭示了概率分布如何構成物理系統中相變的基礎。而和熱力學熵平行的信息熵,則揭示了語言的結構源于概率分布。

從前沿物理學的視角,熱力學熵和信息熵可以相互轉換,給我們理解自然語言提供另一個角度。人類語言也是物質世界的一部分,語言的概率分布來自人類在物理世界活動形成一種模式,最終是空間、時間和能量等自由度的組合和波動在現實中的投射;字、詞、語法、段落所包含的人類智能的邏輯,是從時空和能量的海量排列中涌現,形成的一個由自由能最小化支配的系統。從能量角度理解語言則能解釋為什么 BigBang-Proton 在結合語言的多學科預訓練能收斂。

LLMs 在預訓練過程近似模擬總體語言概率分布,這些分布在數百萬年的時間里被精煉,以編碼時間、空間和能量關系。BigBang-Neutron 和 BigBang-Proton 的工作都表明,當映射到高維 latent space 時,這些語言分布與基本物理結構(如粒子對撞、材料晶體晶格、DNA 序列和水的時空模式)可緊密對齊。這種對齊使得語言引導的科學計算成為可能,并促進了科學領域間的遷移學習。這使得 LLMs 不僅僅是語言模式學習者,更可以延伸至物理世界來重構現實。

圖:
將多學科數據和自然語言投射到同一個 embedding space 中實現了收斂。訓練收斂圖中所示的收斂驗證了自然語言和看似高度不同的科學領域共享一種相近的統計結果,其本質可能根植于量子力學和其他基本物理原理。這一見解啟發超對稱團隊在構建表征和模型時將宇宙視為一個統一的實體。

深度學習中的流形假設 Manifold Hypothesis 可幫助我們進一步理解在整個宇宙數據上進行預訓練如何收斂到基本物理定律,并實現跨領域表征遷移。該假設認為,當嵌入到高維環境空間 RD 中時,真實世界的數據會集中在遠低于維度的流形 M 附近,這一說法得到了理論研究和實證研究的支持。流形學習也在大語言模型中得到了研究。根據流形假設的聯合,宇宙尺度預訓練中跨任務、學科、空間尺度和物理結構的低維結構形成流形,并收斂到一個不連通流形的聯合。這種流形的收斂可能對應于基本的宇宙流形,并與宇宙全息原理相一致。全息原理指出宇宙的完整物理描述可以從其邊界表征中涌現。

早在 1989 年,物理學家約翰. 惠勒提出了著名的 It from Bit,即粒子無限細分的盡頭是比特,而惠勒的學生貝肯斯坦和霍金研究黑洞輻射時提出了 Bekenstein Bound, 即黑洞熵的上限與表面積而非體積成正比。這啟發了't Hooft 首次假設,在普朗克尺度下,3+1 時空維度會減為 2+1,即“世界即全息圖”假說,此假說得到反德西特空間與共形場論(AdS/CFT)對應關系的支持,這屬于量子引力的研究范疇。

而降維正是流形學習的一種基本能力的目標。在宇宙尺度數據進行預訓練,模型可能學習到普朗克尺度的時空結構,并揭示量子引力層面的隱藏定律。這種時空結構學習遠遠超出當前基于圖像學習的空間智能和世界模型范式。

貝肯斯坦的工作也啟發了 computational universe 領域的研究,基本的概念是,物質和信息可以互相轉換。物理學的前沿理論帶來了哲學上的熱潮,硅谷核心文化圈有一種哲學認為現實世界來自 simulation,深受哲學家 Nick Bostrom, 馬斯克熱追,以至于形成了 simulation 宗教的說法。

因此,用計算對整個宇宙進行模擬并不遙遠,這是前沿物理學研究了接近半個世紀的課題,也具有深層的社會文化基礎。而超對稱公司提出用自回歸 LLM 對物質世界進行壓縮,是對 computational universe 和 simulation hypothesis 的一次實踐。當前熱議的用 AI 來開發戴森球或近地軌道工業,被認為遠期未來才會落地,當 LLM 壓縮的尺度從地球擴展到星系和整個可觀測宇宙,這些工作就變得可著手。

考慮到物理約束,包括光速、自由度和 Bekenstein Bound, Lloyd 計算了宇宙的總信息容量。宇宙包含大約 個重子,并且最多可以容納 比特的信息,當考慮引力時,最多可以執行 次浮點邏輯運算。

Sutskever 引入了數據壓縮和柯爾莫哥洛夫復雜度作為解釋無監督學習泛化的數學形式主義。假設將宇宙中所有重子的自由度信息轉換為一個二進制字符串。令 為編碼 個重子的自由度 (包括位置、動量和自旋, 存儲在 比特中) 的二進制字符串,其中 通過以下方式生成:

其中 L = 作為壓縮算法的基座 LLM;Y= 基于尺度、結構和學科的完整科學知識作為約束, = 初始條件。沒有 Y 時,由完全隨機重子組成的 X 接近最大熵:

其中 是來自全息原理的宇宙總信息熵界:

使用宇宙學參數: , , 。

當 Y 施加來自量子力學、廣義相對論、流體動力學或蛋白質結構的約束,規定粒子如何相互作用和分布時,復雜度會急劇降低:

給定完整物理定律 Y 的條件柯爾莫哥洛夫復雜度 滿足:

其中 是二元熵函數。對于宇宙尺度的 , 這簡化為:

基本比率 可以作為科學發現的指標。由于將 LLM 預訓練擴展到宇宙尺度將匹配宇宙的復雜性,當計算復雜度和問題可驗證度都可通過一個統一模型可獲得, 這個模型也可能為 P 與 NP 問題提供一種新的理解。


宇宙尺度的壓縮

在理論上,超對稱團隊提出了以下宇宙尺度壓縮的計劃,暫不考慮現實中計算資源和數據的挑戰,以在一個二進制序列中重建物理世界。首先,建立一個統一的時空框架,跨越宇宙、星系、地球到夸克尺度,將每個自由度置于一個一致的時空結構中。其次,整合人類科學探究在所有尺度、結構和學科上產生的所有理論和實驗數據,這相當于整個可觀測宇宙歷史的總數據內容。最后,通過整合所有天然材料和人造物體及活動(包括建筑、城市、工廠、車輛、飛機以及經濟、政治、戰爭等)的數據,從重子組分中重建地球和人類文明。

BigBang-Proton 的創新為宇宙尺度數據的預訓練提供了不可或缺的方法論。二進制塊編碼為自然界和人類活動中的超復雜模態提供了一種簡單、統一且有效的分詞方法。理論-實驗學習范式將由自然語言表示的理論知識與由數值數據表示的大規模實驗數據相融合。Monte Carlo Attention 提供了與宇宙中重子數量 相當的上下文長度。

通過將宇宙視為一個單一、連貫的實體,并在宇宙尺度數據上預訓練一個大型語言模型,可以推動科學發現的范式轉變。這種方法將構建一個統一的高維表征空間,捕捉物理現實的全部復雜性,并實現跨尺度、結構和學科的深度類比的涌現。這樣的框架將揭示結構的同質性,例如對偶性、對稱性和相變,這些現象從量子場到數和幾何結構中反復出現,反映了數學、物理、化學和生物學中的深刻統一,例如朗蘭茲綱領、波粒二象性、材料晶體和海洋流中的拓撲結構。在早期宇宙、超導體、生物大腦和 LLMs 中出現的相變和臨界現象表明了一個共享的統計力學基礎。

智能是宇宙演化產生的系統,反映了宇宙本身。不將智能置于宇宙演化的背景下,我們就無法理解智能的真正原因和底層機制。宇宙尺度壓縮的收斂可以進一步揭示智能與物質世界和宇宙這個智能演化的大舞臺之間深層次的關系。只有理解這種深層次的關系,我們才能真正意義創造出新的智能。

基于 BigBang-Proton 的工作和以上分析,超對稱團隊提出第二個假設。

假設 2 | 僅通過“下一個詞預測”,就可以從微觀粒子尺度重建宇宙中存在的任何物理結構。

這個假設推動超對稱的下一步工作,即在一個具有增強語言推理能力的單一 BigBang 模型中模擬更復雜的物理結構,包括大爆炸核合成、核聚變、量子材料、虛擬細胞系統、地球系統、機器人技術和飛機。前面五種是典型的自然界的物質結構,而對于人造結構如機器人和飛機汽車這樣的精密機械,BigBang 模型也有天然優勢。對物質世界進行全面壓縮可以將具身智能的兩大核心即高精度環境和感知、推理、計劃、決策能力通過 next-word-prediction 整合在同一個隱空間,極大提高具身智能的泛化能力,這也是當前行業的難點。

對于飛機、汽車、船艦等精密復雜機械,BigBang 可以從原子尺度復建原材料、零部件、組裝的結構,將上千萬零部件以及操控其運行的物理化學生物原理整合在同一個隱空間,從原子層級上加速復雜裝備的設計、生產和迭代。

開源鏈接:

論文 | https://arxiv.org/abs/2510.00129

GitHub | https://github.com/supersymmetry-technologies/BigBang-Proton

HuggingFace | https://huggingface.co/SuperSymmetryTechnologies/BigBang-Proton

* 本文為 BigBang-Proton 系列報道第三篇。歡迎回顧前兩篇文章,對這個項目進行更全面的了解。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
米蘭9.12倉庫縱火案宣判:指使的兩名中國人各30年,縱火的半黑21年

米蘭9.12倉庫縱火案宣判:指使的兩名中國人各30年,縱火的半黑21年

意大利華人網0039
2026-05-15 00:07:59
李小冉高情商回應與田亮女兒森碟撞臉 溫柔化解年齡話題獲贊無數

李小冉高情商回應與田亮女兒森碟撞臉 溫柔化解年齡話題獲贊無數

立真娛樂
2026-05-14 10:03:36
給美國7800億,中國通告全球,禁止臺灣參加,鄭麗文派人來京交底

給美國7800億,中國通告全球,禁止臺灣參加,鄭麗文派人來京交底

跳跳歷史
2026-05-15 03:51:28
5月14日,廣東隊傳來3大消息:徐杰表態 薩林杰想降薪 獎金正常發

5月14日,廣東隊傳來3大消息:徐杰表態 薩林杰想降薪 獎金正常發

鍋鍋愛歷史
2026-05-14 14:09:35
3000字長文!美國記者揭秘:波波維奇為馬刺注入生命力成秘密武器

3000字長文!美國記者揭秘:波波維奇為馬刺注入生命力成秘密武器

新殺豬的秀才
2026-05-14 22:32:00
天降橫財!男子入獄前,花120萬買股票,6年后出獄,變成4.9億!

天降橫財!男子入獄前,花120萬買股票,6年后出獄,變成4.9億!

川渝視覺
2026-05-13 22:09:30
美國歷代總統訪華都愛吃些啥?這幾道菜,讓他們放下刀叉拿筷子

美國歷代總統訪華都愛吃些啥?這幾道菜,讓他們放下刀叉拿筷子

青煙小先生
2026-05-14 19:26:33
20年代,林徽因與冰心郊游的唯一合影,這是他們的真實容顏

20年代,林徽因與冰心郊游的唯一合影,這是他們的真實容顏

以茶帶書
2026-04-25 19:22:44
英如鏑直播怒斥巴圖:改名宋驍,半年不回私信想當大伯?

英如鏑直播怒斥巴圖:改名宋驍,半年不回私信想當大伯?

陳意小可愛
2026-05-12 09:28:38
不能再等了!克里姆林宮宣布:普京即將訪華!

不能再等了!克里姆林宮宣布:普京即將訪華!

阿龍聊軍事
2026-05-15 05:40:10
1962年朱德來到江西,得知昔日的女紅軍是農民,怒斥:簡直瞎胡鬧

1962年朱德來到江西,得知昔日的女紅軍是農民,怒斥:簡直瞎胡鬧

云霄紀史觀
2026-05-15 01:42:57
陳寶國自曝:拍大宅門時,何賽飛不問青紅皂白,直接給我一嘴巴子

陳寶國自曝:拍大宅門時,何賽飛不問青紅皂白,直接給我一嘴巴子

她時尚丫
2026-05-12 23:32:24
廣西:干得漂亮!搜救隊伍經過4天的持續搜救,終于在一雜草叢里找回失聯患病老人!

廣西:干得漂亮!搜救隊伍經過4天的持續搜救,終于在一雜草叢里找回失聯患病老人!

廣西活動
2026-05-14 19:10:01
聲稱繁華與科技都是“精心偽裝的假象”,美媒華裔記者再次秀下限

聲稱繁華與科技都是“精心偽裝的假象”,美媒華裔記者再次秀下限

南宗歷史
2026-05-15 02:44:33
狂人回歸?羅馬諾確認:合同薪資談妥,穆帥二進宮皇馬,只差一步

狂人回歸?羅馬諾確認:合同薪資談妥,穆帥二進宮皇馬,只差一步

阿晞體育
2026-05-14 08:14:24
曼聯目標徹底反轉!卡里克棄 1 億安德森,8000 萬鎖定這位超新星

曼聯目標徹底反轉!卡里克棄 1 億安德森,8000 萬鎖定這位超新星

奶蓋熊本熊
2026-05-15 05:47:21
鹿晗純黑寸頭炸上熱搜!刷新出道最短紀錄,五哈路透帥出新高度

鹿晗純黑寸頭炸上熱搜!刷新出道最短紀錄,五哈路透帥出新高度

橙星文娛
2026-05-14 20:09:57
爛場雨來了:今年最大范圍降雨將來,河南山東等警惕下過頭

爛場雨來了:今年最大范圍降雨將來,河南山東等警惕下過頭

中國氣象愛好者
2026-05-14 23:02:03
“莫奈紫”變“摸奶子”,OPPO呼吸都是錯的

“莫奈紫”變“摸奶子”,OPPO呼吸都是錯的

梳子姐
2026-05-13 19:46:10
姆巴佩:阿韋洛亞說我是隊內第四前鋒

姆巴佩:阿韋洛亞說我是隊內第四前鋒

懂球帝
2026-05-15 06:00:41
2026-05-15 06:24:49
AI科技大本營 incentive-icons
AI科技大本營
連接AI技術的創造者和使用者
2691文章數 7683關注度
往期回顧 全部

科技要聞

馬斯克說會談很順利 黃仁勛點贊 庫克比耶

頭條要聞

馬斯克幼子裝扮“火”了 衣服包包都是中國造

頭條要聞

馬斯克幼子裝扮“火”了 衣服包包都是中國造

體育要聞

爭議抽象天王山,和季后賽最穩定中鋒

娛樂要聞

何九華官宣當爸!全程不提孩子媽

財經要聞

李強會見美國工商界代表

汽車要聞

雙零重力座椅/AI智能體/調光天幕 啟境GT7內飾發布

態度原創

本地
房產
教育
時尚
公開課

本地新聞

用蘇繡的方式,打開江西婺源

房產要聞

海南樓市新政要出!擬調公積金貸款額度,最高可貸168萬!

教育要聞

山東中小學 2026 暑假放假時間匯總

白色上衣+彩色下裝:今年夏天最火搭配,時髦又減齡!

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版