網易首頁 > 網易號 > 正文申請入駐

大語言模型為什么能像人一樣說話和思考？

2026-05-18 17:47:34　來源: 人工智能學家

北京舉報

分享至

來源：機器之心

李航，張少華，林苑

我們每天都在使用大語言模型（Large Language Model，LLM）。一個明顯的感受是，它們似乎真的能夠理解我們的語言，雖然有時也會出現幻覺。另一方面，觀察 LLM 輸出的思維鏈，也就是其推理過程的語言表示，我們會感到它們好像真的能像人一樣思考。

最近字節跳動的李航、張少華、林苑發表了一篇文章。論述：LLM 的語言和思考能力是怎樣的能力？這些能力是如何通過其實現原理和方法、乃至工作機制形成的？

全文鏈接：https://github.com/hangli-hl/AI-Articles/tree/main

LLM 技術是人類創造出來的，其實現原理是清楚的，但其工作機制（Mechanics）仍未被充分理解。LLM 規模極其龐大，工作機制極其復雜，給對其能力的研究帶來了很大困難。

ChatGPT 問世以來，已有大量關于 LLM 機制和特性的研究，特別是近年關于工作機制（或可解釋性）的研究。這些工作從不同角度對這一 AI 的核心課題給出了一定程度的回答。但仍有許多問題有待今后的研究。

該文章將對 LLM 的基本原理和實現方法做了總結，也對 LLM 工作機制的研究進行簡單的介紹，包括字節跳動做的 LLM 記憶機制的工作；在此基礎上，對 LLM 的能力形成提出自己的看法。

引用：LLM記憶機制論文：Shaohua Zhang, Yuan Lin, Hang Li, Memory Retrieval and Consolidation in Large Language Models through Function Tokens, 2025. https://arxiv.org/abs/2510.08203

1 主要觀點

文章闡述了以下主要觀點。

LLM 學習到的是語言使用和推理的模式，重要的是學到了其高階模式。LLM 的學習屬于機器學習，其學習得到的內容本質上是數據中的統計規律，或者說數據中的模式（Patterns）。語言數據內容豐富，包含了詞匯、語法、語義、語用信息和世界知識。我們可以看到，LLM 不僅學習到了與詞匯和語法相關的低階模式，而且也學習到了與語義、語用和世界知識相關的高階模式（Higher Order Patterns）。之前的語言模型往往做不到這一點，而這正是 ChatGPT 以及后續的 LLM「涌現」出來的能力。因此，認為 LLM 僅僅學到了語言的形式而沒有學到內容的觀點（例如后述喬姆斯基的看法）并不能令人信服。
可以用 Next Token Prediction (NTP) 來概括其基本實現原理，但整體能力是由策略、模型、算法及數據這幾個要素共同決定的。LLM 的學習和推理的過程是 NTP，但這只是表面的形式，其具體的實現方法以及其特點更為重要。預訓練中使用的極大似然估計（等價于數據壓縮）是估計詞元序列數據的概率分布。后訓練的強化學習旨在微調模型，使其成為最優詞元序列生成的策略函數。作為模型的 Transformer 具有極強的語言和知識表示能力。隨機梯度下降的優化算法則能幫助找到具有良好泛化性的解。LLM 的關鍵在于對這些技術的系統整合與規模化實現。有觀點將 LLM 的成功簡單歸因于 NTP，這是過于簡單化的理解。
LLM 的內部機制已得到一定的解析和理解。近年 LLM 可解釋性研究取得了一定進展，現在 LLM 對我們來說已不再完全是黑盒。LLM 中的特征可以通過 SAE 等工具提取出來，特征之間形成的回路也可以利用 CLT 等工具追蹤。字節跳動最近的工作進一步揭示了 LLM 中特征在學習過程中被記憶、在推理中被檢索的規律。隨著未來研究的不斷深入，LLM 的工作機制會越來越多地被我們解析和理解。

2 LLM 的工作機制

LLM 的研究可以從三個視角進行：機器學習方法與理論、外部提示實驗分析、內部工作機制研究。若將 LLM 比作人腦，工作機制的研究則對應著腦科學實驗。

2.1 特征疊加

神經網絡的每一層上都可能存在著「特征疊加」（Superposition）現象。傳統的觀點認為，一個神經元表示一個特征。然而，大量實驗表明，這種理想化的情況在實際網絡中比較少見。相反，神經元與特征之間往往呈現的是多對多的對應關系：即一個神經元參與表示多個特征，一個特征由多個神經元共同表示。

圖 1：LLM 的語言和思考能力、工作機制、實現原理和方法之間的關系。

Anthropic 研究團隊提出了特征疊加假說（Superposition Hypothesis）。其核心思想是：通過特征疊加，神經網絡的一層神經元可以近似表示遠大于其數量的特征，代價是特征之間存在一定程度的干擾。

神經網絡的一層（稱為實際層）可以表示為：

其中，是輸入向量，位于輸入空間中；是權重矩陣；是偏置向量；是輸出向量或特征向量；ReLU 是激活函數。

特征疊加理論指出，存在一個更寬的假想神經網絡層，使用更多神經元來顯式表示大量的特征：

其中，是特征向量，其每一維對應一個特征，且滿足，即寬層的維度遠大于實際層的維度；和是權重矩陣和偏置向量。

重要的是寬層的特征向量是稀疏的，而實際層的特征向量是稠密的。稀疏性意味著對于每個輸入，只有少數特征被激活（例如，一萬個特征中只有幾十個被激活），使得不同特征之間的干擾較小。

特征疊加假說認為，寬層與實際層之間存在近似等價關系。具體而言，兩者都能通過線性變換近似復原輸入向量，得到近似重建，如圖 2 所示。因此，可以認為，實際的網絡中，稀疏的特征向量被壓縮到了稠密的特征向量之中。稀疏的特征向量是近乎相互獨立的（非疊加的），稠密的特征向量是被疊加的。

圖 2：原始的前饋神經網絡與近似等價的更寬的神經網絡。

高維幾何理論為寬層的存在性提供了一定的保證。在相關定義的條件下，維空間中近乎正交的基向量個數可以達到的指數級。假設
是輸入空間的一組近乎正交的基向量，則輸入向量可近似分解為：

這里每一個基向量和其激活值對應一個特征。基向量近乎正交，特征向量稀疏，就能很好地表示輸入向量，并且減少特征之間的干擾。

特征疊加假說認為，深度學習的方法能夠達到這樣的效果，也就是實際層（稠密特征向量）實現了對寬層（稀疏特征向量）的壓縮，或者說實際層（稠密特征向量）隱式地蘊含了寬層（稀疏特征向量）。這主要有兩方面的原因。

首先，一般的輸入向量所包含的特征數量是稀疏的。例如，在處理「我訪問了金門大橋」中的「橋」這一詞元時，寬層特征向量中，可能只有少數幾個特征被激活（如「金門大橋」、「舊金山」、「橋梁結構」、「旅游景點」等），其他特征取值均為零。這種稀疏性保證了大量近乎正交特征之間的干擾足夠小，使得疊加機制切實可行。

其次，在訓練過程中，神經網絡通過梯度下降最小化損失函數。當網絡面臨「表示盡可能多的特征」與「使用盡可能少的神經元」這兩個目標時，特征疊加成為一種自然的優化結果。另外，ReLU 激活函數的使用也促進了特征向量的稀疏化，因為較弱的激活值會被截斷為零。

上述特征疊加假說的合理性，已在 Anthropic 的玩具模型（toy model）模擬實驗中得到驗證，并在后續稀疏自編碼器（Sparse Autoencoder）的開發與應用中獲得了進一步的支持。

2.2 SAE：特征分析

稀疏自編碼器（Sparse Autoencoder，SAE）可以用于分析神經網絡，發現其中具有可解釋性的特征。在 LLM 的可解釋性研究中，通常將其應用于 Transformer 的殘差流，即在每層的輸出表示向量上。

SAE 與特征疊加理論形成了互補關系。特征疊加可以被視為一種壓縮過程：模型隱式地通過高維且稀疏的特征向量對輸入向量進行表示。而 SAE 則可以被視為一種「解壓」方法：將輸入向量分解為高維且稀疏的特征向量。這種「壓縮—解壓」的關系，使 SAE 成為研究和分析特征疊加現象的重要工具。

SAE 由編碼器（Encoder）和解碼器（Decoder）組成。首先，編碼器通過非線性變換將輸入向量轉換為高維且稀疏的特征向量：

其中，
是來自 LLM 某一層的殘差流，編碼器權重矩陣，是偏置向量，是特征向量，滿足，即特征維度遠大于輸入維度。

解碼器通過線性變換從特征向量重構原始輸入向量：

其中，
是解碼器權重矩陣，是偏置向量。解碼器采用線性變換（無激活函數），這一設計與特征疊加理論中的特征的線性組合假設一致。

SAE 的訓練中在兩個目標之間進行權衡：一方面，使重構向量盡可能接近原始輸入向量；另一方面，引入或近似正則化來促進特征向量的稀疏性。

在實際操作中，SAE 的訓練需要從目標 LLM 中提取大量數據。將大規模語料輸入到 LLM，收集模型在處理每個詞元時產生的激活向量（如每一層的殘差流）。這些向量
構成 SAE 的訓練數據集。訓練完成后，對于任意輸入，編碼器輸出的通常呈現出較強的稀疏性。

通過 SAE 得到的稀疏激活特征與特征疊加理論的預測一致，即模型可能將遠多于神經元數量的潛在概念編碼在神經元中。例如，研究者在對大語言模型進行分析時，已經成功提取出數十萬到百萬量級的特征，其中一些特征具有明顯的語義含義，例如與實體（如「金門大橋」）或行為（如「諂媚」，Sycophancy）相關的特征。

分析表明，大語言模型中的特征往往呈現出一定的層次化結構：淺層基本是表示輸入的詞法與簡單語法的特征；中間層有大量復雜語法和基本語義的特征；深層主要是復雜語義、推理實現和輸出表達的特征。

2.3 記憶機制

字節跳動的工作提出了功能詞元假說，揭示了 LLM 的記憶機制的基本特點。功能詞元假說（Function Token Hypothesis）認為，LLM 中特征的記憶是圍繞著功能詞元展開的，特征在一個上下文的檢索，也是通過功能詞元進行的。

功能詞元是指在訓練語料中出現頻率最高的詞元，大部分對應于語言學中的功能詞，在語法和上下文連接上起著關鍵作用。例如，冠詞「the」、標點符號（逗號、句號）、換行符等。與之相對的是內容詞元，表達明確且豐富的語義信息。統計表明，在大規模預訓練語料中，前 100 多個高頻詞元就占了所有詞元出現次數的大約 40%。

在 LLM 的預訓練階段，學習過程呈現出以功能詞元為中心的顯著特點。通過將訓練損失按照功能詞元和內容詞元的四種組合進行分解觀察，結果發現，「功能詞元 → 內容詞元」的損失函數下降得最慢。也就是說，根據功能詞元來預測下一個內容詞元是最困難的。從語言學的角度看，這是合理的，因為功能詞元往往標志著前一個語言單元（Chunk）的結束，要預測它之后的內容詞元，需要對從開頭到當前位置的整個上下文有準確的理解。可以推斷，正是這種最難的預測任務，成為了驅動模型優化的主導力量。

另一個發現是功能詞元在訓練的過程中能激活大部分特征（在不同的上下文激活不同的稀疏特征）。將功能詞元和特征之間建立二部圖。如果一個功能詞元在某個上下文激活了某個特征，就在兩者之間建立一個邊。隨著訓練的深入，二部圖上的邊不斷增加。最后，少量功能詞元能與大部分特征之間建立聯系，前 10 個高頻詞元激活 70% 的特征，也就是說，這些功能詞元能（在不同的上下文）激活大部分特征。這里也存在著冪律分布。

在推理過程中，功能詞元發揮著記憶檢索的核心作用。它們能從上下文中動態地激活最具預測性的特征，從而指導下一個詞元的生成。例如，如圖 3 所示，當提示為「Answer the question in Chinese: What is the capital of Russia?」時，功能詞元（如冒號「:」和換行符）會激活上下文中「用中文回答」和「俄羅斯」等特征，同時抑制無關特征，最終引導模型用中文生成答案「莫斯科」。這種動態的特征選擇與組合能力，正是功能詞元區別于內容詞元的關鍵特性。

圖 3：LLM 推理過程中功能詞元發揮著記憶檢索的核心作用。

功能詞元之所以在 LLM 中發揮如此關鍵的作用，是訓練目標、學習算法、模型架構和語言特性共同作用的結果。首先，下一詞元預測的訓練目標（交叉熵損失）要求模型最大化預測準確性，而梯度下降算法總是優先降低損失最大的部分。其次，Transformer 架構中的前饋網絡層能將知識（特征）進行很好的表示和記憶，自注意力層能將低階的知識（特征）有效地組合成高階的知識（特征）。最后，自然語言本身的結構特性起到了決定性作用，文本總是被功能詞元分割成嵌套的 Chunk（可以是短語、句子或段落）。因此，對功能詞元之后的預測，需要理解從文本開頭到該位置的整個上下文語義。這是一項極具挑戰性的任務，促使功能詞元在訓練中獲得連接大部分特征的能力，并在推理時重新激活最具預測性的特征。

功能詞元假說對 LLM 訓練實踐具有深刻啟示。其中最重要的一點是訓練數據的格式至關重要。多項研究的結果印證了這一點。在后訓練階段，僅需少量訓練步驟就能顯著提升模型的指令遵循、思維鏈推理等能力。這可能是因為后訓練通過調整功能詞元的激活模式，激活了預訓練期間已經習得的特征。例如，功能詞元（如「thus」）在強化學習訓練中能夠顯著提升推理性能。

2.4 CLT：回路分析

回路（Circuit）是指在 LLM 中跨層連接特征的計算圖，用于表示模型中的特征是如何被激活和傳播的。因為 SAE 只能看到單層的特征，具有較大的局限性。為了分析跨層的特征的連接和影響關系，研究者提出了 CLT（Cross Layer Transcoder，跨層轉碼器）方法。

CLT 的工作原理是：以某一層的殘差流
作為輸入，模型將其映射到后續各層的殘差流。通過這種方式，CLT 能夠學習到一個跨層對齊的特征字典，捕捉不同層之間的特征影響關系。

CLT 在每一層都有一個類似 SAE 的特征抽取模塊，但其優化目標有很大不同。每一層的輸出是復現的后續各個層的殘差流。它由非線性變換（對應編碼器）、線性變換（對應跨層映射）以及線性解碼變換組成：

其中，
是第層編碼器權重矩陣，是偏置向量；是第

層解碼器權重矩陣，是偏置向量；
是將特征從第層映射到第層的跨層線性變換權重矩陣，是偏置向量。通過跨層線性變換，實現從第層特征空間到第層特征空間的線性投影。CLT 的訓練目標由所有層的重構誤差的最小化和稀疏性正則化組成。

基于 CLT 的分析結果可以構建歸因圖（Attribution Graph），直觀地展示特征在模型各層之間的線性映射關系，幫助理解 LLM 內部的知識表示和計算機制。

歸因圖的構建基于訓練好的 CLT 模型。給定一個具體的輸入提示，首先運行原始 Transformer 模型，記錄各層的殘差流
。然后，利用 CLT 提取每一層的稀疏特征，并通過跨層映射矩陣分析特征之間的映射關系。

歸因圖是一個有向無環圖，表示從輸入詞元到輸出詞元的計算路徑。在這個圖中，節點代表模型中激活的特征或詞元嵌入，而邊則代表節點之間的影響關系。具體而言，如果特征在層的激活，且通過跨層映射
對特征在層的激活有顯著貢獻，則在圖中添加從節點到的有向邊。

為了提高歸因圖的可解釋性，采用剪枝技術對圖進行精簡。通過設置閾值，只保留激活強度和貢獻度顯著的節點和邊。進一步使用梯度回傳，識別對最終輸出貢獻最大的路徑。得到的精簡歸因圖能夠更清晰地展示模型中的特征激活和推理路徑，揭示模型在特定場景中的核心特征回路。

圖 4：基于 CLT 構建的歸因圖，用于分析 LLM 的內部計算機制。來源：anthropic blog：https://transformer-circuits.pub/2025/attribution-graphs/methods.html

3 LLM 的語言理解和推理
3.1 LLM 的能力

3.1.1 高階模式

從其行為表現來看，大語言模型已展現出人類同等以上的語言與推理能力。以圖靈測試為衡量標準，即考察其在對話中是否無法與人類區分，LLM 已達到了人類水平。

LLM 所習得的不僅限于語言的低階模式，更涵蓋了語言與推理的高階模式。這一點在我們日常使用 LLM 時可以得到直觀驗證。例如，LLM 能夠理解并執行「喜馬拉雅山有多高，用英文回答」這類指令，體現了其語用能力；它還能夠辨析「金門大橋與金拱門的關系」這類涉及概念異同的問題，顯示出語義理解與世界知識的整合能力。

從內部機制的分析角度看，「金門大橋」、「諂媚」等概念特征在模型中的存在，同樣揭示了 LLM 具備語義與語用層面的理解能力。

喬姆斯基曾批評 LLM 僅學習到語言的表層統計規律。然而，以上事實表明，這一判斷并不成立。不過，這并不意味著 LLM 與人類語言能力完全等同。事實上，LLM 的語言機制與人類大腦存在顯著差異。例如，人腦的語言理解依賴于布洛卡區與韋尼克區兩個腦區的協同工作：前者主要負責語法處理，后者則承擔詞匯處理功能。

3.1.2 整體機制

大語言模型（LLM）的整體工作機制可以從訓練方式、策略、算法和模型來理解（見圖 5）。其訓練方式通常包括預訓練和后訓練兩個階段，并通過兩步訓練融合，使模型在同一體系中同時具備語言理解、生成與推理能力。在機制上，LLM 基于自回歸預測，即根據已有上下文逐步預測下一個詞，這一過程也可以看作一種序列決策過程。

圖 5：LLM 的機制可以從訓練方式、策略、算法和模型來理解。

在預訓練階段，模型通過大規模語料學習統計規律，給定足夠長的上文，下一個詞元的概率分布往往會更加集中；而在后訓練階段，通過人類反饋或策略優化，使模型在相同上下文下更傾向生成最合理、最符合人類偏好的下文。

從技術實現上看，學習策略負責定義預測目標和優化方向，算法用于調整模型參數以達到最優目標，而模型結構則決定了表達能力，通過自注意力機制實現特征組合，通過前饋網絡進行特征檢測（非線性變換），并通過多層結構形成層次化表示。這些都對 LLM 的類人語言和推理能力起著重要作用。

模型性能的提升還體現出明顯的規模效應：隨著數據量、參數規模和計算資源的增加，模型能力會產生質的飛躍。同時，數據質量和訓練設計（例如高質量語料和系統提示設計）也對效果至關重要。

這樣訓練得到的 LLM 中形成了大量的特征，表示著各種不同的概念，根據不同的上下文，這些不同的特征被激活，動態形成回路，實現復雜的語言處理和推理機制。

3.2 與人類能力的比較

表 1 對比了 LLM 與人類的能力。可以看出，LLM 在語言與推理任務上已具備與人類相當甚至超越人類的水平。然而，在其他能力維度上，兩者不僅機制可能存在根本差異，其性能也并非簡單可比。下面對此進行簡要說明與討論。

表 1: LLM 與人類能力比較

幻覺本質源于對事實的判斷錯誤。LLM 自身無法解決幻覺問題。因為它學習的是語言數據中的統計規律。理論證明，在一定假設條件下，語言生成過程中一定會以一定概率產生幻覺。幻覺問題可通過其他機制加以緩解，比如，檢索增強生成（RAG）。

人的思考包含多個方面，不僅涉及語言、推理和數學，還與五種感官（視覺、聽覺、觸覺、嗅覺、味覺）以及運動系統密切相關。具身認知假說認為，思考的過程并非純粹的符號運算，而是基于身體的感知運動經驗，在心智中進行模擬。當前的多模態大語言模型（MLLM）能夠將語言推理與視覺、聽覺等信息進行關聯處理，但其推理過程通常發生在語言表示空間。這種處理方式與人類基于具身體驗的、豐富的、有意識的思考有著本質區別。

最近也有一些工作嘗試進行多模態推理，讓模型能夠「邊看邊想」；但這些方法仍屬于比較初步的探索。因此，從具身認知的角度看，MLLM 的思考能力與人類仍有顯著差距。

LLM 既不是基于形式邏輯規則（如命題邏輯）進行推理，也不是按照計算規則進行算術運算。它可以通過其生成機制模擬，呈現出一定的啟發式推理和計算能力，但在處理復雜問題時，由于缺乏嚴謹性，容易產生錯誤。因此，LLM 在這方面存在局限性。

LLM 是否有創造力，還是一個開放式的問題，這也依賴于對創造力的定義。創新分漸進式創新和顛覆性創新。通過觀察可以發現，LLM 應該也具備漸進式創新能力。而顛覆式創新，如相對論理論的建立，LLM 是否能夠做到，目前尚無定論。Ilya Sutskever 認為 LLM 可以做插值（interpolation），但外推（extrapolation）是開放問題，也是類似的想法。

LLM 并不存在對應人的意識機制，雖然我們會感到與 LLM 對話時有與真人交互的感覺。意識是指人的心智中感受到的對內部身體和外部環境的知覺。意識是清醒時人腦處于的一種狀態，與其相對的其他狀態是深度睡眠、昏迷、死亡。意識是主觀的，是每個人以自我為中心的精神活動，對我們每個人來說自己的意識是持續的、一貫的、穩定的。同時，意識又是客觀的，它對應著人腦神經系統的高層次處理，由人腦神經系統的低層次處理支撐。全局工作空間理論（Global Workspace Theory）認為意識是腦內信息的全局廣播。

閱讀最新前沿科技趨勢報告，請訪問21世紀關鍵技術研究院的“未來知識庫”

未來知識庫是 “21世紀關鍵技術研究院”建立的在線知識庫平臺，收藏的資料范圍包括人工智能、腦科學、互聯網、超級智能，數智大腦、能源、軍事、經濟、人類風險等等領域的前沿進展與未來趨勢。目前擁有超過8000篇重要資料。每周更新不少于100篇世界范圍最新研究資料。歡迎掃描二維碼或訪問https://wx.zsxq.com/group/454854145828進入。

截止到2月28日 ”未來知識庫”精選的百部前沿科技趨勢報告

（加入未來知識庫，全部資料免費閱讀和下載）

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.