網易首頁 > 網易號 > 正文申請入駐

AI涌現能力的五個層級——AI訓練師的親筆記錄

2026-04-24 07:49:29　來源: 人人都是產品經理社區

廣東舉報

分享至

模型涌現現象遠非表面那么簡單，背后暗藏五層遞進邏輯。從臨界點亮的突變效應到組合能力的自發串聯，從差異化策略的自我進化到意圖識別的精準判斷，直至反思能力的若隱若現——每個層級的涌現都對應著不同的訓練策略與評測方法。本文將深入拆解這五個關鍵層級，為模型訓練者提供可落地的評測框架與標注優化方案。

———— / BEGIN / ————

“涌現”這個詞被用得太泛了。模型多做對了一道數學題叫涌現，突然能寫詩了也叫涌現，好像只要出現一個訓練目標里沒顯式定義的能力，就統統往這個筐里扔。

站在訓練者的角度，這些現象之間的差異是巨大的。有些涌現你提前能感知到——數據到位了，信號夠了，能力遲早會出來，它只是在等一個臨界點。有些涌現是真的意外——你翻遍訓練數據也找不到它學這個的來源。

但我在模型訓練中觀察到的涌現現象，大致可以歸為五個層級。

第一層：臨界點亮

這是最基礎的涌現形式，也是最容易被低估的。

說它基礎，是因為它本質上就是”從不會到會”的閾值突破。說它容易被低估，是因為大家習慣把它當成理所當然——數據夠了自然就會嘛。

但在實際評測中，這個過程遠沒有那么平滑。

模型在早期對長網頁的摘要能力一直很弱。評測集里有一類case是超過三千字的長文，模型的摘要要么漏掉核心論點，要么把次要信息當主要內容寫進去。連續幾輪評測，長文摘要的評分都卡在差不多的位置，上不去。

我每次評測完都會整理badcase，發現一個有意思的現象：每次錯的具體case不太一樣，但整體評分幾乎沒變。這意味著模型不是在反復犯同一個錯誤，而是整體能力就差那么一口氣。

然后某一輪評測，突然就好了。長文摘要的評分跳了一大截。

我去問算法那邊改了什么，得到的回復是”這批加了一批經過嚴格質檢的長文摘要數據”。這批數據有什么特別的？標注員在標注時不只是寫摘要，還額外標注了文章的結構骨架——哪些是核心論點、哪些是支撐論據、哪些是背景信息。

這就是臨界點亮的核心特征：不是漸進改善，是階躍函數。在臨界點的這一側，什么都沒有；跨過去之后，能力幾乎是瞬間出現的。

這個現象對做標注質檢工作的啟示很直接：你不知道你質檢的這批數據會不會就是壓死駱駝的最后一根稻草，所以每一批數據的質量都不能糊弄。

我見過太多這種情況——標注團隊為了趕進度，對標注質量放松了標準，覺得”差不多就行”，摘要寫得粗糙一點、結構標注漏掉一些，影響不大吧？但如果你理解臨界點亮的機制，你就知道：差的那一點數據，可能恰恰是模型跨過臨界點需要的那一腳。你省下的那點質檢時間，可能讓整個團隊多等兩周。

第二層：組合涌現

模型分別學會了幾個基礎能力，然后在某個時刻，它開始把這些能力組合起來使用，產生了一個訓練目標里沒有顯式定義的新行為。

網頁摘要Agent的基礎能力包括：理解網頁結構、提取關鍵信息、壓縮文本、組織語言。這些能力在評測中是分開考核的——信息提取準不準、壓縮比合不合理、語言通不通順，各有各的評測維度。

但在某次評測中，我開始看到模型把這些能力串聯起來完成更復雜的任務了。

有一類case是讓用戶對比兩篇同類文章——比如兩篇手機評測，用戶想知道它們的結論有什么不同。模型的處理方式是：分別閱讀兩篇文章→各自提取核心觀點→把兩篇文章的結論放在一起做對比分析→生成對比摘要。

這條鏈路上的每一步，模型的單項能力都達標了。但把它們串成一個完整的對比分析流程，是評測集里沒有顯式覆蓋的。它自己”拼”出來了。

我在做badcase分析時注意到，組合涌現的出現有一個很明顯的前提條件：單項能力的錯誤率必須低到一定程度。

這個道理說起來像廢話，但實際影響很大。我在評測中見過很多次，模型在對比兩篇文章時，第一篇的信息提取做對了，第二篇漏掉了關鍵論點，整個對比分析就廢了。兩篇文章的摘要任務，每篇信息提取90%準確率，整體對比分析的有效性可能只有80%。串聯的環節越多，對單步準確率的要求越高。

所以一個很現實的問題是：什么時候該去考核組合能力？太早了，單項能力不夠，組合評測只會產出一堆毫無分析價值的失敗case，浪費評測資源。太晚了，你可能錯過了發現組合涌現的最佳窗口期。

我的經驗是，當單項能力在評測集上的評分穩定在良好以上，就可以開始設計組合任務的評測了。不是等到滿分——事實上永遠不會有滿分——而是等到單項錯誤變得足夠稀疏，讓你在組合評測中能把注意力放在”能力銜接”上，而不是”單步出錯”上。

第三層：策略涌現

這是我覺得最有意思的一層，也是最容易讓人產生”這東西是不是有智能了”這種錯覺的一層。

策略涌現指的是：模型發展出了某種應對特定情況的系統性行為模式，而這種模式在訓練數據中并沒有明確對應的范例。

在摘要Agent的評測中，這個現象特別容易觀察到。

模型在早期對所有類型的網頁都用差不多的方式處理——不管是一篇新聞報道還是一篇學術論文，摘要的風格和結構都差不多。這導致學術論文的摘要缺少方法論信息，新聞報道的摘要又太啰嗦。

但在某次評測中，我發現模型開始”看人下菜碟”了。

面對新聞類網頁，摘要會優先抓時間、地點、事件、結果，結構很緊湊。面對產品評測類網頁，摘要會突出優缺點對比和最終推薦意見。面對學術論文，摘要會包含研究方法和核心結論，甚至會提到數據來源。

這種差異化策略不是評測集里定義的”標準答案”。我們的標注指南里也沒有”新聞用這種格式、論文用那種格式”的要求。它就是自己發展出了這種策略。

另一個讓我印象深刻的例子：模型在處理特別短的網頁時——比如一個產品頁面只有一段簡介和幾個參數——早期會硬湊出一段冗長的摘要。后來它發展出了一個策略：對于信息密度本身就不高的短網頁，直接用一句話概括，不硬撐篇幅。

我第一次在評測記錄里看到這個行為的時候，翻了好幾條確認不是偶然。后來統計了一下，在短網頁的case中，模型生成合理長度摘要的比例，從之前的六成漲到了將近九成。

策略涌現最容易被誤讀的地方在于：你很容易把”有效的行為模式”等同于”模型理解了自己在做什么”。

看到模型對新聞和論文用不同的摘要策略，就覺得它”理解”了兩種內容的差異。但更可能的解釋是：在訓練過程中，差異化策略恰好獲得了更高的評測分數，所以被強化了。模型可能并不”理解”新聞和論文有什么本質區別，但它確實發展出了對不同類型網頁的有效處理策略。

這兩者的區別在學術上爭論很大。但在做評測的日常工作中，我的判斷標準很簡單：策略是否穩定？是否可復現？有沒有副作用？只要這三個條件都滿足，我就把它標記為”有效策略”，不糾結它背后是不是”真的理解”。評測師的工作是準確描述模型的行為，不是替哲學家回答”什么是理解”。

第四層：意圖涌現

前三層的能力，說到底都還在”工具”的范疇內。模型在執行明確的任務——給你一篇文章，輸出一段摘要，只是輸出的方式越來越聰明。

但意圖涌現不一樣。它指的是模型開始能夠推斷出用戶沒有明確說出來的摘要需求——讀懂言外之意。

這個現象在評測中特別有意思。

有一次做評測，用戶輸入是”幫我看看這篇論文講了什么”。模型的摘要不只是把論文內容壓縮了一遍，而是重點突出了論文的核心結論和創新點，對研究背景和相關工作部分做了大幅簡化。

這條case的標注答案是一篇中規中矩的論文摘要，信息覆蓋全面，各部分比例均衡。如果按照標注答案來評分，模型的輸出其實”漏掉”了不少信息。但如果你站在用戶的角度想——一個人說”幫我看看這篇論文講了什么”，他大概率是想知道這篇論文值不值得細讀，而不是要一份完整的文獻綜述。

模型推斷出了用戶的真實意圖，并據此調整了摘要的側重點。

這種能力對評測標準提出了很大的挑戰。

傳統的評測框架是”摘要是否準確、完整、簡潔”。但當模型開始推斷用戶意圖的時候，”完整”這個標準就變得模糊了。用戶說”幫我看看這篇論文”，模型只寫了核心結論——這算”不完整”還是”精準”？

問題是：不完整，在這里是錯還是對？

我的做法是在評測維度里加了一條”意圖匹配度”——不只看摘要是否覆蓋了文章的主要內容，還要看它是否回應了用戶可能的真實需求。這條維度很難標，標注員之間的標注一致性也不高，但它確實能捕捉到一些傳統評測框架遺漏的東西。

另外有一個觀察：意圖涌現跟網頁類型和用戶query的組合關系很大。同一篇論文，如果用戶說的是”幫我看看這篇論文講了什么”和”幫我總結一下這篇論文的方法論”，模型應該給出完全不同的摘要。模型能不能根據query的細微差異調整摘要策略，是意圖涌現的一個重要表現。

這也是為什么我在設計評測集時，會刻意把同一篇網頁配上不同的用戶query，看模型能不能做出差異化響應。這個維度的區分度，往往比”摘要準不準”更能反映模型的真實能力水平。

第五層：反思涌現

這是最讓我糾結的一層。

所謂反思涌現，是指模型展現出某種”自我監控”和”自我修正”的行為——它似乎能夠評估自己的摘要質量，并在發現問題時主動調整。

在摘要Agent的評測中，我觀察到一個非常有意思的模式。

模型在處理某些復雜網頁時，會在生成摘要的過程中輸出一段類似”自我檢查”的內容（Agent有chain-of-thought的機制），大意是：”這篇網頁的核心信息在第三段，但我剛才的摘要沒有充分體現這一點，我需要調整。”

然后它真的調整了。最終輸出的摘要確實把第三段的核心信息放在了更突出的位置。

第一次在評測記錄里看到這個行為的時候，我的第一反應不是興奮，而是懷疑。這是模型在”反思”嗎？還是它只是在復現訓練數據中某個類似的模式，恰好看起來像反思？

老實說，我到現在也不能百分百確定。

但有一些證據讓我傾向于認為，這至少是一種”功能性反思”——模型確實發展出了一種內部評估機制，能夠檢測到”當前摘要和網頁內容的匹配度不夠”并觸發修正行為。這種能力不是我能在訓練數據中找到明確來源的。它是模型在大量網頁摘要任務的訓練中，通過試錯和評測反饋，自發發展出來的。

反思涌現的實踐價值很大——它直接決定了摘要的可靠性。在評測中，能自我修正的Agent和不能自我修正的Agent，摘要質量的差距是肉眼可見的。前者偶爾抓錯重點但能自己調回來，后者抓錯了就一路錯到底，把錯誤信息堂而皇之地放在摘要里。

但我要誠實地說：反思涌現也是五層中最不穩定的。它時有時無，受網頁長度、內容復雜度、甚至模型版本的影響都很大。同一個case，這次評測能看到反思行為，下次評測就看不到了。你不能指望它每次都出現，也不能把它當成一個可靠的”能力”寫進評測報告里。

這恰恰是涌現的本質特征——它不是功能，它是傾向。你不能像調API一樣調用它，你只能創造條件讓它更可能出現。

把涌現分成五個層級，不是為了搞一個漂亮的分類學。它對日常的評測和標注工作有實際的指導意義。

不同層級需要不同的評測設計。臨界點亮靠對比評測——看同一個評測集在不同版本之間的表現差異。組合涌現靠組合任務評測——設計需要多步驟串聯的對比分析case。策略涌現靠人工審查——模型的摘要質量不錯，但它是怎么做到的？這個”怎么”需要人去看。意圖涌現靠同文不同query的評測——同一篇網頁配上不同的用戶需求，看模型能不能差異化響應。反思涌現目前還沒有靠譜的評測方法，這也是為什么它最不穩定。

不同層級對標注質量的要求不同。臨界點亮靠標注數量和質量的雙重突破；組合涌現靠任務級標注數據的建設；策略涌現靠多樣化的邊界case標注；意圖涌現靠高質量的query-摘要配對樣本。如果你在做標注質檢工作，理解這些差異能幫你把有限的精力花在刀刃上——不是所有標注都值得花同樣的時間去質檢。

最后說一句可能不太受歡迎的話：我們對涌現的理解，還遠遠不夠。

我上面寫的這些觀察，很多都是基于日常工作中的經驗和推測，不是嚴格的因果分析。模型內部到底發生了什么，為什么會出現這些行為，這些問題在學術界都還沒有定論。我一個做了兩年網頁摘要Agent評測和標注工作的訓練師，能看到的只是現象，看不到機制。

但我覺得這恰恰是寫這篇文章的意義——不是給出權威答案，而是提供一個一線視角的觀察框架。如果你也在做模型評測或者標注相關的工作，你大概率見過類似的現象。你可以對照這五個層級，看看你的觀察和我的是否一致，哪些地方你有不同的判斷。

涌現不是魔法，但它也還沒被完全理解。這兩件事可以同時為真。

而我們能做的，就是把每一次評測中看到的異常行為記下來，把每一條需要質檢的標注數據標到位。理解涌現不是一天的事，但積累觀察是每一天的事。

本文來自作者：周周粥粥

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.