无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

arXiv:大模型推理為何有效?低維流形與因果涌現的新證據

0
分享至


導語

2026年5月的一篇arXiv論文,指出各類大模型的在各個領域中的推理過程,都可視為低維流形上的受約束動力學過程。這項研究,為理解大模型思考過程提供了新視野,推理導致大模型在低維空間的宏觀因果效應更強,也可以視作因果涌現的一種表現形式。

關鍵詞:大模型、推理、動力學、低維流形、因果涌現

來源:集智俱樂部

作者:郭瑞東

審校:鄭鴻盛


論文題目:Reasoning emerges from constrained inference manifolds in large language models 發表時間:2026年5月27日 論文地址:https://arxiv.org/abs/2605.08142 論文期刊:arXiv

大模型的推理是表征空間的動力學降維

大語言模型的推理能力從何而來?這個問題困擾著AI研究者、認知科學家,乃至每一個與大模型對話過的普通人。傳統對大模型的評估只看模型輸出對錯,無法洞察內部思考過程。研究者無法搞清楚為何模型能在沒有顯式推理規則的情況下表現出邏輯推理能力?

該研究選取推理常用評估數據集MMLU中的文本,該數據集包含多個領域的問題。實驗時采取無標簽的方式,只考察模型在面對問題最后一個詞元時的隱藏狀態(圖1左邊)。結果顯示,無論是哪種大小,不同類別的模型,都呈現隨網絡層數增加,表征維度自發塌縮(圖1右邊)。這種在推理過程中形成的低維結構稱為推理流形(Reasoning Manifold),推理流形的維度低,意味著概念簇分離清晰、軌跡平滑、因果強度升高。


圖1:大模型推理時內部表征維度下降

無論是社會科學,STEM還是人文領域,在多種異質刺激下,不同體系的大模型,推理軌跡內在維度的分布都趨向降低(圖2A)。圖2B顯示推理過程中低維推理軌跡與高維靜態表征共存,說明壓縮是推理過程的專門化機制,而非模型全局表達能力受限


圖2:不同模型在不同問題域上呈現出相似的低維度表征

綜上所述:大模型的推理是在高表達力的表征空間內呈現的一種低維動力學過程。推理時的動態行為既非對高維環境的彌散式探索,也非孤立表征之間的靜態映射;相反,對提示詞的表征會自組織為緊湊的流形,從而約束推理過程中內部狀態的演化軌跡。

然而,僅憑維度坍縮這一現象,尚不足以區分將穩健的與出錯的推理區分開,而這是本文接下來要處理的問題。

良好的推理需要低維表征與高信息容量

推理問題的表征維度,與該問題的推理結果之間,存在非單調的變化。如沒有低維表征,推理時對問題的表征就會像無頭蒼蠅一樣在高維空間中四處游蕩,稱為漫射探索(diffuse exploration)。低維組織確保了推理軌跡被約束在緊湊的內生子空間中,防止無關的維度噪聲干擾核心計算,這反映在圖3A中,在多數任務中,當表征維度降至某一閾值后,進一步壓縮反而可能導致性能持平或下降。


圖3:推理時表征的內在維度和信息密度及推理質量的關系

為了解釋上述現象,說明還有哪些因素決定推理質量,研究者定義了信息容量(information volume)用于量化大模型在推理過程中內部表示所承載的有效信息含量。其定義基于信息論:首先將每一層最后一個token的隱藏狀態投影到一個低維空間,然后利用微分熵(differential entropy)來刻畫這些狀態點的分布特性,最后將信息體積定義為熵的指數形式。

研究發現,隨著推理層數的加深,表征固有維度不斷下降,但信息體積(V)卻在同步上升(圖3B)。有效信息的增加,意味著更深層的模型放大任務相關的概念變化。早期層的表示維度高但信息稀疏,后期層的表示被高度壓縮卻信息密集。


圖4:表征維度(橫軸),信息容量(縱軸)與性能(顏色)的三維協同景觀

將表征維度和信息容量與推理質量放在一張圖中展示(圖4),可看到每個任務類型中,具有高推理質量的案例聚集在一個特定區域,需同時具備較低內在維度(緊湊流形)與較高信息體積(非退化信息流);位于兩個極端的模型,或因過度壓縮導致信息不足,或維度彌散導致結構松散,均呈現相對較差的推理性能。

模型的推理質量

能被推理過程的動力學特征準確預測

當大模型需要回答的問題變復雜,包含更多概念時,不同模型的推理質量出現差異。這暗示存在第三個決定模型推理質量的因素,文中稱為模型的表達力容量(Expressive Capacity),即靜態詞匯嵌入空間所能支撐的概念表征自由度。


圖5:模型表達力容量與概念多樣性及推理質量的關系

研究者通過將MMLU-Other推理任務集劃分為13種互斥的問題類型,逐步累積添加問題類型以系統性提升概念多樣性。結果發現,高表達力的模型(參數更多), 隨概念多樣性增長更緩慢;低表達力模型則需"招募"更多推理維度來編碼異質概念,導致軌跡彌散(圖5A)。

模型的表達容量就像是汽車的懸掛系統。當路面變得崎嶇(概念多樣),好的懸掛系統能夠保持車身平穩(推理維度穩定);而差懸掛系統的車輛則會被顛簸擠壓得變了形(推理維度急劇擴展)。

綜合表征固有維度、信息體積與表達力容量,該文提出了一個統一的健康推理診斷量H,該指標不依賴任何任務標簽或基準答案,僅從模型內部的推理動力學過程就能計算得出。

論文測試了包括AIME’25數學推理、GPQA-Diamond科學推理、LiveCodeBench代碼生成等一系列基準任務,發現H與基準表現之間的Spearman秩相關系數在所有測試基準上都超過了0.9(圖5B),這意味著單憑模型對提示詞內部表征的動力學演化,就足以準確預測它在各種任務上的表現。

不同領域的普適性,意味著低維流形捕獲的因果結構是任務通用的,這正是因果涌現后,宏觀變量超越微觀細節的典型體現,宏觀特征(例如H)無需外部標簽,僅通過前向傳播即可自發涌現,且比微觀具有更高的有效信息。

使用文中描述的推理健康度評估指標H,能顯著提升模型可解釋性。不僅能在大模型推理時實時評估偏離推理質量,還能精確定位模型在對問題進行表征過程中,哪一層,哪一個token開始偏離“甜點區”,從而為模型及提示詞改進提供指示,或在推理過程的早期向隱藏狀態注入引導信號,使其軌跡靠攏健康流形,從而提高輸出的正確率和穩定性。通過比較不同模型在單個推理任務上的H值,還能解釋為何它們在同一套基準任務上分數相似,但內在機制卻可能天差地別。

對于需要高可靠性的場景中,H值可作為一項關鍵的監控指標。部署微調后的大模型之前,開發者可以計算候選模型與對應基模的H值,用來評估微調效果。推理過程中,實時監控對提示詞表征的維度及信息容量,一旦偏離程度超過閾值,系統可以立即預警或拒絕回答,從而實現推理層面的實時幻覺攔截。

此外,通過引導模型改變在推理過程中對提示詞的表征流形,我們可以讓大模型生成更多樣化、更具創造性的方案,從而避免模型傾向于趨同,陷入單一的“人工智能蜂巢思維”(Artificial Hivemind),從而為大模型設計多樣化的思考方式提供干預方案。

閱讀最新前沿科技趨勢報告,請訪問21世紀關鍵技術研究院的“未來知識庫”


未來知識庫是 “21世紀關鍵技術研究院”建 立的在線知識庫平臺,收藏的資料范圍包括人工智能、腦科學、互聯網、超級智能,數智大腦、能源、軍事、經濟、人類風險等等領域的前沿進展與未來趨勢。目前擁有超過8000篇重要資料。每周更新不少于100篇世界范圍最新研究資料。 歡迎掃描二維碼或訪問https://wx.zsxq.com/group/454854145828進入。

截止到2月28日 ”未來知識庫”精選的百部前沿科技趨勢報告

(加入未來知識庫,全部資料免費閱讀和下載)

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
中足聯官宣重磅罰單!52歲于根偉禁賽5場罰5萬 辱罵+率隊圍堵裁判

中足聯官宣重磅罰單!52歲于根偉禁賽5場罰5萬 辱罵+率隊圍堵裁判

我愛英超
2026-07-02 22:05:30
早上7點 世界杯14億大戰!C羅深陷20年魔咒 必有1巨星出局

早上7點 世界杯14億大戰!C羅深陷20年魔咒 必有1巨星出局

葉青足球世界
2026-07-02 17:12:02
一路走好!1天時間4位名人被曝去世,最大78歲,最小才30歲

一路走好!1天時間4位名人被曝去世,最大78歲,最小才30歲

借你一生
2026-07-02 10:26:03
成田機場的一張廣告牌,讓日本攝影師恍惚:“瞬間以為回到了中國”

成田機場的一張廣告牌,讓日本攝影師恍惚:“瞬間以為回到了中國”

東京在線
2026-07-02 16:57:07
里子面子都丟了!管不住下半身的任素汐,一場演唱會撕下她的體面

里子面子都丟了!管不住下半身的任素汐,一場演唱會撕下她的體面

往史過眼云煙
2026-07-02 09:55:26
首都保衛戰打響后,普京發表全國講話,俄羅斯對美西方發出通牒

首都保衛戰打響后,普京發表全國講話,俄羅斯對美西方發出通牒

策前論
2026-07-02 17:21:49
“一個月600塊你要餓死他?”大學男生吃飯被偷拍,看的人心疼!

“一個月600塊你要餓死他?”大學男生吃飯被偷拍,看的人心疼!

林林先生
2026-07-01 12:30:03
從699分到愛心接力:少年向上 社會向善丨中聽

從699分到愛心接力:少年向上 社會向善丨中聽

大象新聞
2026-07-01 16:30:12
六代機,就這么明晃晃的官宣了!

六代機,就這么明晃晃的官宣了!

新動察
2026-07-02 08:25:58
韓紅一句“走個面兒”引全網聲討,這屆觀眾不伺候了

韓紅一句“走個面兒”引全網聲討,這屆觀眾不伺候了

可達鴨面面觀
2026-07-02 19:44:03
曝38歲德國主帥下課 足協開會3小時要求他辭職 愿付700萬歐補償金

曝38歲德國主帥下課 足協開會3小時要求他辭職 愿付700萬歐補償金

我愛英超
2026-07-02 21:40:07
80%變0!里奇·保羅曝光詹姆斯離湖心路

80%變0!里奇·保羅曝光詹姆斯離湖心路

籃壇第一線
2026-07-02 00:47:17
地鐵吐血女孩半月內多次收到病危通知單,當事人:自己的生命已經進入倒計時,但還是希望能夠有人關注到自己手里仍在運行的公益項目

地鐵吐血女孩半月內多次收到病危通知單,當事人:自己的生命已經進入倒計時,但還是希望能夠有人關注到自己手里仍在運行的公益項目

瀟湘晨報
2026-07-02 16:32:20
賈玲直言自己又活過來了,大方承認體重反彈了,坦言不再逼自己極端自律,活得太通透了

賈玲直言自己又活過來了,大方承認體重反彈了,坦言不再逼自己極端自律,活得太通透了

背包旅行
2026-07-02 11:45:23
西安賽格墜樓熱搜刷屏:我看到謀生的嚴總,走上絕路時的無助

西安賽格墜樓熱搜刷屏:我看到謀生的嚴總,走上絕路時的無助

李晚書
2026-07-02 18:44:26
故意剝奪伊朗隊勝利!伊朗裔美國專家起訴國際足聯,索賠10億美元

故意剝奪伊朗隊勝利!伊朗裔美國專家起訴國際足聯,索賠10億美元

全景體育V
2026-07-02 21:38:20
成都一女子不洗手抱孫子,兒媳怒斥不衛生,兒子一拳打面中,母親揚言要兒子坐牢,兒子卻說:她活該!6年后現狀曝光...

成都一女子不洗手抱孫子,兒媳怒斥不衛生,兒子一拳打面中,母親揚言要兒子坐牢,兒子卻說:她活該!6年后現狀曝光...

背包旅行
2026-07-02 14:33:11
中國臺灣演員陳昊森承認與湖北女演員蘭西雅相戀,目前已交往超過半年,兩人曾合作電影

中國臺灣演員陳昊森承認與湖北女演員蘭西雅相戀,目前已交往超過半年,兩人曾合作電影

極目新聞
2026-07-02 22:47:55
加息,突變!美國重磅數據出爐!美股、黃金、比特幣全線拉升

加息,突變!美國重磅數據出爐!美股、黃金、比特幣全線拉升

證券時報
2026-07-02 21:53:03
扎哈羅娃:馮德萊恩是個“出色的騙子”

扎哈羅娃:馮德萊恩是個“出色的騙子”

參考消息
2026-07-02 14:14:08
2026-07-03 02:28:49
人工智能學家 incentive-icons
人工智能學家
人工智能領域權威媒體
4864文章數 37483關注度
往期回顧 全部

科技要聞

馬斯克不承認,但SpaceX就該造AI手機

頭條要聞

商戶在西安賽格商場墜亡 好友:他曾變賣門店發工資

頭條要聞

商戶在西安賽格商場墜亡 好友:他曾變賣門店發工資

體育要聞

韓國人,為什么恨透了洪明甫?

娛樂要聞

眾星祝福祖國,曾沛慈原形畢露?

財經要聞

千億茶市場無贏家:瀾滄巨虧 八馬停"蹄"

汽車要聞

有純電有增程 還有二代VLA支持 小鵬MONA L03預售價14.38萬起

態度原創

健康
家居
親子
手機
房產

這4類消化病患者 吃粘食管住嘴

家居要聞

傳奇筑 日常詩

親子要聞

從新生兒到學齡期全覆蓋:兒童被子成長型選型的策略與實用方法

手機要聞

Android 17缺的原生應用鎖功能,谷歌仍在持續打磨

房產要聞

稀缺預警!海岸線200米+限墅令下,海南「絕版硬通貨」來了!

無障礙瀏覽 進入關懷版