无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

arXiv:大模型推理為何有效?低維流形與因果涌現的新證據

0
分享至


導語

2026年5月的一篇arXiv論文,指出各類大模型的在各個領域中的推理過程,都可視為低維流形上的受約束動力學過程。這項研究,為理解大模型思考過程提供了新視野,推理導致大模型在低維空間的宏觀因果效應更強,也可以視作因果涌現的一種表現形式。

關鍵詞:大模型、推理、動力學、低維流形、因果涌現

郭瑞東丨作者

鄭鴻盛丨審校


論文題目:Reasoning emerges from constrained inference manifolds in large language models 發表時間:2026年5月27日 論文地址:https://arxiv.org/abs/2605.08142 論文期刊:arXiv

大模型的推理是表征空間的動力學降維

大語言模型的推理能力從何而來?這個問題困擾著AI研究者、認知科學家,乃至每一個與大模型對話過的普通人。傳統對大模型的評估只看模型輸出對錯,無法洞察內部思考過程。研究者無法搞清楚為何模型能在沒有顯式推理規則的情況下表現出邏輯推理能力?

該研究選取推理常用評估數據集MMLU中的文本,該數據集包含多個領域的問題。實驗時采取無標簽的方式,只考察模型在面對問題最后一個詞元時的隱藏狀態(圖1左邊)。結果顯示,無論是哪種大小,不同類別的模型,都呈現隨網絡層數增加,表征維度自發塌縮(圖1右邊)。這種在推理過程中形成的低維結構稱為推理流形(Reasoning Manifold),推理流形的維度低,意味著概念簇分離清晰、軌跡平滑、因果強度升高。


圖1:大模型推理時內部表征維度下降

無論是社會科學,STEM還是人文領域,在多種異質刺激下,不同體系的大模型,推理軌跡內在維度的分布都趨向降低(圖2A)。圖2B顯示推理過程中低維推理軌跡與高維靜態表征共存,說明壓縮是推理過程的專門化機制,而非模型全局表達能力受限


圖2:不同模型在不同問題域上呈現出相似的低維度表征

綜上所述:大模型的推理是在高表達力的表征空間內呈現的一種低維動力學過程。推理時的動態行為既非對高維環境的彌散式探索,也非孤立表征之間的靜態映射;相反,對提示詞的表征會自組織為緊湊的流形,從而約束推理過程中內部狀態的演化軌跡。

然而,僅憑維度坍縮這一現象,尚不足以區分將穩健的與出錯的推理區分開,而這是本文接下來要處理的問題。

良好的推理需要低維表征與高信息容量

推理問題的表征維度,與該問題的推理結果之間,存在非單調的變化。如沒有低維表征,推理時對問題的表征就會像無頭蒼蠅一樣在高維空間中四處游蕩,稱為漫射探索(diffuse exploration)。低維組織確保了推理軌跡被約束在緊湊的內生子空間中,防止無關的維度噪聲干擾核心計算,這反映在圖3A中,在多數任務中,當表征維度降至某一閾值后,進一步壓縮反而可能導致性能持平或下降。


圖3:推理時表征的內在維度和信息密度及推理質量的關系

為了解釋上述現象,說明還有哪些因素決定推理質量,研究者定義了信息容量(information volume)用于量化大模型在推理過程中內部表示所承載的有效信息含量。其定義基于信息論:首先將每一層最后一個token的隱藏狀態投影到一個低維空間,然后利用微分熵(differential entropy)來刻畫這些狀態點的分布特性,最后將信息體積定義為熵的指數形式。

研究發現,隨著推理層數的加深,表征固有維度不斷下降,但信息體積(V)卻在同步上升(圖3B)。有效信息的增加,意味著更深層的模型放大任務相關的概念變化。早期層的表示維度高但信息稀疏,后期層的表示被高度壓縮卻信息密集。


圖4:表征維度(橫軸),信息容量(縱軸)與性能(顏色)的三維協同景觀

將表征維度和信息容量與推理質量放在一張圖中展示(圖4),可看到每個任務類型中,具有高推理質量的案例聚集在一個特定區域,需同時具備較低內在維度(緊湊流形)與較高信息體積(非退化信息流);位于兩個極端的模型,或因過度壓縮導致信息不足,或維度彌散導致結構松散,均呈現相對較差的推理性能。

模型的推理質量

能被推理過程的動力學特征準確預測

當大模型需要回答的問題變復雜,包含更多概念時,不同模型的推理質量出現差異。這暗示存在第三個決定模型推理質量的因素,文中稱為模型的表達力容量(Expressive Capacity),即靜態詞匯嵌入空間所能支撐的概念表征自由度。


圖5:模型表達力容量與概念多樣性及推理質量的關系

研究者通過將MMLU-Other推理任務集劃分為13種互斥的問題類型,逐步累積添加問題類型以系統性提升概念多樣性。結果發現,高表達力的模型(參數更多), 隨概念多樣性增長更緩慢;低表達力模型則需"招募"更多推理維度來編碼異質概念,導致軌跡彌散(圖5A)。

模型的表達容量就像是汽車的懸掛系統。當路面變得崎嶇(概念多樣),好的懸掛系統能夠保持車身平穩(推理維度穩定);而差懸掛系統的車輛則會被顛簸擠壓得變了形(推理維度急劇擴展)。

綜合表征固有維度、信息體積與表達力容量,該文提出了一個統一的健康推理診斷量H,該指標不依賴任何任務標簽或基準答案,僅從模型內部的推理動力學過程就能計算得出。

論文測試了包括AIME’25數學推理、GPQA-Diamond科學推理、LiveCodeBench代碼生成等一系列基準任務,發現H與基準表現之間的Spearman秩相關系數在所有測試基準上都超過了0.9(圖5B),這意味著單憑模型對提示詞內部表征的動力學演化,就足以準確預測它在各種任務上的表現。

不同領域的普世性,意味著低維流形捕獲的因果結構是任務通用的,這正是因果涌現后,宏觀變量超越微觀細節的典型體現,宏觀特征(例如H)無需外部標簽,僅通過前向傳播即可自發涌現,且比微觀具有更高的有效信息。

使用文中描述的推理健康度評估指標H,能顯著提升模型可解釋性。不僅能在大模型推理時實時評估偏離推理質量,還能精確定位模型在對問題進行表征過程中,哪一層,哪一個token開始偏離“甜點區”,從而為模型及提示詞改進提供指示,或在推理過程的早期向隱藏狀態注入引導信號,使其軌跡靠攏健康流形,從而提高輸出的正確率和穩定性。通過比較不同模型在單個推理任務上的H值,還能解釋為何它們在同一套基準任務上分數相似,但內在機制卻可能天差地別。

對于需要高可靠性的場景中,H值可作為一項關鍵的監控指標。部署微調后的大模型之前,開發者可以計算候選模型與對應基模的H值,用來評估微調效果。推理過程中,實時監控對提示詞表征的維度及信息容量,一旦偏離程度超過閾值,系統可以立即預警或拒絕回答,從而實現推理層面的實時幻覺攔截。

此外,通過引導模型改變在推理過程中對提示詞的表征流形,我們可以讓大模型生成更多樣化、更具創造性的方案,從而避免模型傾向于趨同,陷入單一的“人工智能蜂巢思維”(Artificial Hivemind),從而為大模型設計多樣化的思考方式提供干預方案。


因果涌現第七季——從理論到應用


在神經系統中意識的生成、城市交通的擁堵演化、全球產業系統的協同與失穩之中,始終潛藏著一條貫穿微觀與宏觀的因果脈絡:個體行為本身或許簡單,卻能在尺度躍遷中孕育出高度組織化、難以還原的整體結構。復雜現象并非微觀規則的線性疊加,而是源于多尺度動力學作用下逐步形成的因果組織。正是在這一背景下,因果涌現理論被提出,并在因果涌現 2.0、工程化涌現以及多尺度因果抽象等工作中推進,逐漸發展出一套融合動力學分析、信息論度量以及譜方法與人工智能工具的研究框架,從而將研究重心從“復雜性本身”轉向“因果結構如何出現、如何被度量并在現實系統中發揮作用”。


為系統梳理因果涌現領域的最新進展,北京師范大學系統科學學院教授、集智俱樂部創始人張江老師領銜發起,組織對該主題感興趣的研究者與探索者共同研讀前沿文獻、交流研究思路。讀書會將于2026年2月22日起每周日上午(創建讀書會暫定時間為10:00-22:00)線上開展,持續約10周,包含主講分享與討論交流,并提供會后視頻回放,誠邀相關領域研究者及跨學科興趣者參與。




詳情請見:

1.

2.

3.

4.

5.

6.

7.

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
流量果然為王,“小馬云”范小勤直播賣字爆火,這屆富豪眼光獨特

流量果然為王,“小馬云”范小勤直播賣字爆火,這屆富豪眼光獨特

奔跑的阿樂
2026-06-14 12:37:13
3-1逆轉!朱雨玲決戰張本美和,中日爭冠背后,國乒年輕一代該清醒了

3-1逆轉!朱雨玲決戰張本美和,中日爭冠背后,國乒年輕一代該清醒了

林子說事
2026-06-14 14:43:54
值班室驚現啤酒燒烤局,紀委破門一測:沒超標!這屆官方回應絕了

值班室驚現啤酒燒烤局,紀委破門一測:沒超標!這屆官方回應絕了

菁菁子衿
2026-06-14 10:17:25
馬化騰認了!2.2萬億蒸發,股價跌回九年前,騰訊到底做錯了什么

馬化騰認了!2.2萬億蒸發,股價跌回九年前,騰訊到底做錯了什么

金錯刀
2026-06-14 07:33:15
8歲被拐,22年后娶妻生子,親生母親找上門,他跪地喊:媽啊!

8歲被拐,22年后娶妻生子,親生母親找上門,他跪地喊:媽啊!

真實人物采訪
2026-06-13 16:10:05
貪官末日來了!中央反腐新規已落地,無論在職退休一律終身追責

貪官末日來了!中央反腐新規已落地,無論在職退休一律終身追責

細說職場
2026-06-13 12:04:14
老淚縱橫!泰王哭到雙眼紅腫,沉重父愛看得人好心酸

老淚縱橫!泰王哭到雙眼紅腫,沉重父愛看得人好心酸

凡知
2026-06-14 00:15:14
誰能想到,美加墨世界杯卻火了中國,多國民眾渴求中國辦場世界杯

誰能想到,美加墨世界杯卻火了中國,多國民眾渴求中國辦場世界杯

鍋鍋愛歷史
2026-06-14 12:15:09
為什么往死里掃黃?網友分享太真實了,一次說透

為什么往死里掃黃?網友分享太真實了,一次說透

另子維愛讀史
2026-05-27 20:16:03
正式退出,官宣離隊,王俊杰:主帥對我意見大,沒能扮演重要角色

正式退出,官宣離隊,王俊杰:主帥對我意見大,沒能扮演重要角色

童叔不飆車
2026-06-14 00:55:00
白鹿的中專學歷實錘了!?

白鹿的中專學歷實錘了!?

八卦瘋叔
2026-06-14 10:56:48
湖北寶媽2分50秒私密視頻發到家長群,網友:看過讓人汗顏

湖北寶媽2分50秒私密視頻發到家長群,網友:看過讓人汗顏

王姐懶人家常菜
2026-06-14 13:53:16
澳大利亞2-0爆冷!土耳其狂轟30腳0球!球迷:國足無緣世界杯不冤

澳大利亞2-0爆冷!土耳其狂轟30腳0球!球迷:國足無緣世界杯不冤

球叮足球
2026-06-14 15:42:13
高鑫王一楠女兒高中畢業典禮!外公外婆昆明飛上海,全家盛裝出席

高鑫王一楠女兒高中畢業典禮!外公外婆昆明飛上海,全家盛裝出席

露珠聊影視
2026-06-13 22:29:29
10次40+,單賽季三座MVP,全面包圍東契奇!今夜比肩他的只有喬丹

10次40+,單賽季三座MVP,全面包圍東契奇!今夜比肩他的只有喬丹

阿浪的籃球故事
2026-06-14 16:10:10
離譜!捷克球迷放狠話:寧愿輸給中國國足,也不想輸給韓國

離譜!捷克球迷放狠話:寧愿輸給中國國足,也不想輸給韓國

十點體壇
2026-06-13 23:00:31
福克斯丟冠后格局大:賽后擁抱恩師布朗微笑祝賀,與文班形成反差

福克斯丟冠后格局大:賽后擁抱恩師布朗微笑祝賀,與文班形成反差

林小湜體育頻道
2026-06-14 17:28:09
太沉重了!一張殯儀館的電子顯示屏8位逝者,有6人未能活到55歲

太沉重了!一張殯儀館的電子顯示屏8位逝者,有6人未能活到55歲

火山詩話
2026-06-12 08:54:20
2026年最強反腐來了!中紀委:害群之馬將清除到底!

2026年最強反腐來了!中紀委:害群之馬將清除到底!

職場資深秘書
2026-06-13 15:28:01
外媒:FIFA要求埃及隊調整球衣設計,取消象征7次非洲冠軍的星標

外媒:FIFA要求埃及隊調整球衣設計,取消象征7次非洲冠軍的星標

懂球帝
2026-06-13 13:54:05
2026-06-14 17:48:49
集智俱樂部 incentive-icons
集智俱樂部
科普人工智能相關知識技能
5885文章數 4678關注度
往期回顧 全部

科技要聞

Anthropic最強模型被禁,傳亞馬遜通風報信

頭條要聞

巴西女孩蹦極沒系繩被拋下40米高橋身亡 現場畫面披露

頭條要聞

巴西女孩蹦極沒系繩被拋下40米高橋身亡 現場畫面披露

體育要聞

8年8隊奪冠,鄧肯那句話,現在還給了馬刺

娛樂要聞

鄧超攜子觀戰NBA,等等帥氣十足

財經要聞

金價跌至900元關口,大媽又來抄底了!

汽車要聞

綜合續航超1600km/零百加速4秒級 2027款星途ES預售18.99萬起

態度原創

家居
教育
本地
公開課
軍事航空

家居要聞

空間微調 移形換境

教育要聞

收藏:2026山東合格考準考證打印網址+教程!

本地新聞

AK劉彰邂逅河北南大港濕地

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

特朗普:美伊協議周日簽 還有終極手段

無障礙瀏覽 進入關懷版