網易首頁 > 網易號 > 正文 申請入駐

AI涌現能力的五個層級——AI訓練師的親筆記錄

0
分享至

模型涌現現象遠非表面那么簡單,背后暗藏五層遞進邏輯。從臨界點亮的突變效應到組合能力的自發串聯,從差異化策略的自我進化到意圖識別的精準判斷,直至反思能力的若隱若現——每個層級的涌現都對應著不同的訓練策略與評測方法。本文將深入拆解這五個關鍵層級,為模型訓練者提供可落地的評測框架與標注優化方案。

———— / BEGIN / ————

“涌現”這個詞被用得太泛了。模型多做對了一道數學題叫涌現,突然能寫詩了也叫涌現,好像只要出現一個訓練目標里沒顯式定義的能力,就統統往這個筐里扔。

站在訓練者的角度,這些現象之間的差異是巨大的。有些涌現你提前能感知到——數據到位了,信號夠了,能力遲早會出來,它只是在等一個臨界點。有些涌現是真的意外——你翻遍訓練數據也找不到它學這個的來源。

但我在模型訓練中觀察到的涌現現象,大致可以歸為五個層級。

第一層:臨界點亮

這是最基礎的涌現形式,也是最容易被低估的。

說它基礎,是因為它本質上就是”從不會到會”的閾值突破。說它容易被低估,是因為大家習慣把它當成理所當然——數據夠了自然就會嘛。

但在實際評測中,這個過程遠沒有那么平滑。

模型在早期對長網頁的摘要能力一直很弱。評測集里有一類case是超過三千字的長文,模型的摘要要么漏掉核心論點,要么把次要信息當主要內容寫進去。連續幾輪評測,長文摘要的評分都卡在差不多的位置,上不去。

我每次評測完都會整理badcase,發現一個有意思的現象:每次錯的具體case不太一樣,但整體評分幾乎沒變。這意味著模型不是在反復犯同一個錯誤,而是整體能力就差那么一口氣。

然后某一輪評測,突然就好了。長文摘要的評分跳了一大截。

我去問算法那邊改了什么,得到的回復是”這批加了一批經過嚴格質檢的長文摘要數據”。這批數據有什么特別的?標注員在標注時不只是寫摘要,還額外標注了文章的結構骨架——哪些是核心論點、哪些是支撐論據、哪些是背景信息。

這就是臨界點亮的核心特征:不是漸進改善,是階躍函數。 在臨界點的這一側,什么都沒有;跨過去之后,能力幾乎是瞬間出現的。

這個現象對做標注質檢工作的啟示很直接:你不知道你質檢的這批數據會不會就是壓死駱駝的最后一根稻草,所以每一批數據的質量都不能糊弄。

我見過太多這種情況——標注團隊為了趕進度,對標注質量放松了標準,覺得”差不多就行”,摘要寫得粗糙一點、結構標注漏掉一些,影響不大吧?但如果你理解臨界點亮的機制,你就知道:差的那一點數據,可能恰恰是模型跨過臨界點需要的那一腳。你省下的那點質檢時間,可能讓整個團隊多等兩周。

第二層:組合涌現

模型分別學會了幾個基礎能力,然后在某個時刻,它開始把這些能力組合起來使用,產生了一個訓練目標里沒有顯式定義的新行為。

網頁摘要Agent的基礎能力包括:理解網頁結構、提取關鍵信息、壓縮文本、組織語言。這些能力在評測中是分開考核的——信息提取準不準、壓縮比合不合理、語言通不通順,各有各的評測維度。

但在某次評測中,我開始看到模型把這些能力串聯起來完成更復雜的任務了。

有一類case是讓用戶對比兩篇同類文章——比如兩篇手機評測,用戶想知道它們的結論有什么不同。模型的處理方式是:分別閱讀兩篇文章→各自提取核心觀點→把兩篇文章的結論放在一起做對比分析→生成對比摘要。

這條鏈路上的每一步,模型的單項能力都達標了。但把它們串成一個完整的對比分析流程,是評測集里沒有顯式覆蓋的。它自己”拼”出來了。

我在做badcase分析時注意到,組合涌現的出現有一個很明顯的前提條件:單項能力的錯誤率必須低到一定程度。

這個道理說起來像廢話,但實際影響很大。我在評測中見過很多次,模型在對比兩篇文章時,第一篇的信息提取做對了,第二篇漏掉了關鍵論點,整個對比分析就廢了。兩篇文章的摘要任務,每篇信息提取90%準確率,整體對比分析的有效性可能只有80%。串聯的環節越多,對單步準確率的要求越高。

所以一個很現實的問題是:什么時候該去考核組合能力? 太早了,單項能力不夠,組合評測只會產出一堆毫無分析價值的失敗case,浪費評測資源。太晚了,你可能錯過了發現組合涌現的最佳窗口期。

我的經驗是,當單項能力在評測集上的評分穩定在良好以上,就可以開始設計組合任務的評測了。不是等到滿分——事實上永遠不會有滿分——而是等到單項錯誤變得足夠稀疏,讓你在組合評測中能把注意力放在”能力銜接”上,而不是”單步出錯”上。

第三層:策略涌現

這是我覺得最有意思的一層,也是最容易讓人產生”這東西是不是有智能了”這種錯覺的一層。

策略涌現指的是:模型發展出了某種應對特定情況的系統性行為模式,而這種模式在訓練數據中并沒有明確對應的范例。

在摘要Agent的評測中,這個現象特別容易觀察到。

模型在早期對所有類型的網頁都用差不多的方式處理——不管是一篇新聞報道還是一篇學術論文,摘要的風格和結構都差不多。這導致學術論文的摘要缺少方法論信息,新聞報道的摘要又太啰嗦。

但在某次評測中,我發現模型開始”看人下菜碟”了。

面對新聞類網頁,摘要會優先抓時間、地點、事件、結果,結構很緊湊。面對產品評測類網頁,摘要會突出優缺點對比和最終推薦意見。面對學術論文,摘要會包含研究方法和核心結論,甚至會提到數據來源。

這種差異化策略不是評測集里定義的”標準答案”。我們的標注指南里也沒有”新聞用這種格式、論文用那種格式”的要求。它就是自己發展出了這種策略。

另一個讓我印象深刻的例子:模型在處理特別短的網頁時——比如一個產品頁面只有一段簡介和幾個參數——早期會硬湊出一段冗長的摘要。后來它發展出了一個策略:對于信息密度本身就不高的短網頁,直接用一句話概括,不硬撐篇幅。

我第一次在評測記錄里看到這個行為的時候,翻了好幾條確認不是偶然。后來統計了一下,在短網頁的case中,模型生成合理長度摘要的比例,從之前的六成漲到了將近九成。

策略涌現最容易被誤讀的地方在于:你很容易把”有效的行為模式”等同于”模型理解了自己在做什么”。

看到模型對新聞和論文用不同的摘要策略,就覺得它”理解”了兩種內容的差異。但更可能的解釋是:在訓練過程中,差異化策略恰好獲得了更高的評測分數,所以被強化了。模型可能并不”理解”新聞和論文有什么本質區別,但它確實發展出了對不同類型網頁的有效處理策略。

這兩者的區別在學術上爭論很大。但在做評測的日常工作中,我的判斷標準很簡單:策略是否穩定?是否可復現?有沒有副作用? 只要這三個條件都滿足,我就把它標記為”有效策略”,不糾結它背后是不是”真的理解”。評測師的工作是準確描述模型的行為,不是替哲學家回答”什么是理解”。

第四層:意圖涌現

前三層的能力,說到底都還在”工具”的范疇內。模型在執行明確的任務——給你一篇文章,輸出一段摘要,只是輸出的方式越來越聰明。

但意圖涌現不一樣。它指的是模型開始能夠推斷出用戶沒有明確說出來的摘要需求——讀懂言外之意。

這個現象在評測中特別有意思。

有一次做評測,用戶輸入是”幫我看看這篇論文講了什么”。模型的摘要不只是把論文內容壓縮了一遍,而是重點突出了論文的核心結論和創新點,對研究背景和相關工作部分做了大幅簡化。

這條case的標注答案是一篇中規中矩的論文摘要,信息覆蓋全面,各部分比例均衡。如果按照標注答案來評分,模型的輸出其實”漏掉”了不少信息。但如果你站在用戶的角度想——一個人說”幫我看看這篇論文講了什么”,他大概率是想知道這篇論文值不值得細讀,而不是要一份完整的文獻綜述。

模型推斷出了用戶的真實意圖,并據此調整了摘要的側重點。

這種能力對評測標準提出了很大的挑戰。

傳統的評測框架是”摘要是否準確、完整、簡潔”。但當模型開始推斷用戶意圖的時候,”完整”這個標準就變得模糊了。用戶說”幫我看看這篇論文”,模型只寫了核心結論——這算”不完整”還是”精準”?

問題是:不完整,在這里是錯還是對?

我的做法是在評測維度里加了一條”意圖匹配度”——不只看摘要是否覆蓋了文章的主要內容,還要看它是否回應了用戶可能的真實需求。這條維度很難標,標注員之間的標注一致性也不高,但它確實能捕捉到一些傳統評測框架遺漏的東西。

另外有一個觀察:意圖涌現跟網頁類型和用戶query的組合關系很大。 同一篇論文,如果用戶說的是”幫我看看這篇論文講了什么”和”幫我總結一下這篇論文的方法論”,模型應該給出完全不同的摘要。模型能不能根據query的細微差異調整摘要策略,是意圖涌現的一個重要表現。

這也是為什么我在設計評測集時,會刻意把同一篇網頁配上不同的用戶query,看模型能不能做出差異化響應。這個維度的區分度,往往比”摘要準不準”更能反映模型的真實能力水平。

第五層:反思涌現

這是最讓我糾結的一層。

所謂反思涌現,是指模型展現出某種”自我監控”和”自我修正”的行為——它似乎能夠評估自己的摘要質量,并在發現問題時主動調整。

在摘要Agent的評測中,我觀察到一個非常有意思的模式。

模型在處理某些復雜網頁時,會在生成摘要的過程中輸出一段類似”自我檢查”的內容(Agent有chain-of-thought的機制),大意是:”這篇網頁的核心信息在第三段,但我剛才的摘要沒有充分體現這一點,我需要調整。”

然后它真的調整了。最終輸出的摘要確實把第三段的核心信息放在了更突出的位置。

第一次在評測記錄里看到這個行為的時候,我的第一反應不是興奮,而是懷疑。這是模型在”反思”嗎?還是它只是在復現訓練數據中某個類似的模式,恰好看起來像反思?

老實說,我到現在也不能百分百確定。

但有一些證據讓我傾向于認為,這至少是一種”功能性反思”——模型確實發展出了一種內部評估機制,能夠檢測到”當前摘要和網頁內容的匹配度不夠”并觸發修正行為。這種能力不是我能在訓練數據中找到明確來源的。它是模型在大量網頁摘要任務的訓練中,通過試錯和評測反饋,自發發展出來的。

反思涌現的實踐價值很大——它直接決定了摘要的可靠性。 在評測中,能自我修正的Agent和不能自我修正的Agent,摘要質量的差距是肉眼可見的。前者偶爾抓錯重點但能自己調回來,后者抓錯了就一路錯到底,把錯誤信息堂而皇之地放在摘要里。

但我要誠實地說:反思涌現也是五層中最不穩定的。它時有時無,受網頁長度、內容復雜度、甚至模型版本的影響都很大。同一個case,這次評測能看到反思行為,下次評測就看不到了。你不能指望它每次都出現,也不能把它當成一個可靠的”能力”寫進評測報告里。

這恰恰是涌現的本質特征——它不是功能,它是傾向。 你不能像調API一樣調用它,你只能創造條件讓它更可能出現。

把涌現分成五個層級,不是為了搞一個漂亮的分類學。它對日常的評測和標注工作有實際的指導意義。

不同層級需要不同的評測設計。 臨界點亮靠對比評測——看同一個評測集在不同版本之間的表現差異。組合涌現靠組合任務評測——設計需要多步驟串聯的對比分析case。策略涌現靠人工審查——模型的摘要質量不錯,但它是怎么做到的?這個”怎么”需要人去看。意圖涌現靠同文不同query的評測——同一篇網頁配上不同的用戶需求,看模型能不能差異化響應。反思涌現目前還沒有靠譜的評測方法,這也是為什么它最不穩定。

不同層級對標注質量的要求不同。 臨界點亮靠標注數量和質量的雙重突破;組合涌現靠任務級標注數據的建設;策略涌現靠多樣化的邊界case標注;意圖涌現靠高質量的query-摘要配對樣本。如果你在做標注質檢工作,理解這些差異能幫你把有限的精力花在刀刃上——不是所有標注都值得花同樣的時間去質檢。

最后說一句可能不太受歡迎的話:我們對涌現的理解,還遠遠不夠。

我上面寫的這些觀察,很多都是基于日常工作中的經驗和推測,不是嚴格的因果分析。模型內部到底發生了什么,為什么會出現這些行為,這些問題在學術界都還沒有定論。我一個做了兩年網頁摘要Agent評測和標注工作的訓練師,能看到的只是現象,看不到機制。

但我覺得這恰恰是寫這篇文章的意義——不是給出權威答案,而是提供一個一線視角的觀察框架。如果你也在做模型評測或者標注相關的工作,你大概率見過類似的現象。你可以對照這五個層級,看看你的觀察和我的是否一致,哪些地方你有不同的判斷。

涌現不是魔法,但它也還沒被完全理解。這兩件事可以同時為真。

而我們能做的,就是把每一次評測中看到的異常行為記下來,把每一條需要質檢的標注數據標到位。理解涌現不是一天的事,但積累觀察是每一天的事。

本文來自作者:周周粥粥

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
63歲李玲玉游西沙群島!她看上去好年輕,以后不幫兒子兒媳帶寶寶

63歲李玲玉游西沙群島!她看上去好年輕,以后不幫兒子兒媳帶寶寶

阿訊說天下
2026-04-24 13:53:20
《新聞聯播》迎“換血潮”,70后主播將退場,4位接班人浮出水面

《新聞聯播》迎“換血潮”,70后主播將退場,4位接班人浮出水面

青梅侃史啊
2026-04-23 14:38:29
伊朗國防部:伊朗仍留存了大部分導彈能力

伊朗國防部:伊朗仍留存了大部分導彈能力

財聯社
2026-04-25 05:04:43
A股:散戶做好下車準備,主力意圖已經很明確,下周,要變天了?

A股:散戶做好下車準備,主力意圖已經很明確,下周,要變天了?

云鵬敘事
2026-04-26 00:00:07
分手當晚,26歲澳大利亞百萬富翁豪華酒店勒頸韓裔網紅女友

分手當晚,26歲澳大利亞百萬富翁豪華酒店勒頸韓裔網紅女友

紅星新聞
2026-04-25 12:45:37
7年敗光80億!華誼兄弟申請破產,56歲王中磊落魄,兒子在美瀟灑

7年敗光80億!華誼兄弟申請破產,56歲王中磊落魄,兒子在美瀟灑

阿庫財經
2026-04-25 12:50:08
他比西門慶還風流霸道,卻也混上了梁山,就連武松也不是他的對手

他比西門慶還風流霸道,卻也混上了梁山,就連武松也不是他的對手

耳東文史
2026-04-26 00:03:08
終于知道采購吃回扣是怎么被發現的了,網友分享真實,太開眼了

終于知道采購吃回扣是怎么被發現的了,網友分享真實,太開眼了

夜深愛雜談
2026-03-13 22:02:43
為個人健康考慮,西班牙女足國腳葆拉-托馬斯24歲宣布退役

為個人健康考慮,西班牙女足國腳葆拉-托馬斯24歲宣布退役

懂球帝
2026-04-25 11:15:51
山姆“爆雷”,3億中產的“天塌了”!

山姆“爆雷”,3億中產的“天塌了”!

笑熬漿糊111
2026-04-26 00:05:15
四川女籃絕境奪冠!客場擊敗山西 誰是最大功臣? 數據不說謊!

四川女籃絕境奪冠!客場擊敗山西 誰是最大功臣? 數據不說謊!

小徐講八卦
2026-04-26 05:35:45
“世紀之戰!童錦程VS小酷PK!榜一竟然900多億元?童錦程致電官方!”

“世紀之戰!童錦程VS小酷PK!榜一竟然900多億元?童錦程致電官方!”

新浪財經
2026-04-26 04:48:09
罵了十年中超水貨,如今聯賽連個能進球的都找不到,我們全罵錯了

罵了十年中超水貨,如今聯賽連個能進球的都找不到,我們全罵錯了

圣西羅的太陽
2026-04-25 12:42:40
拿了錢還不放人!19歲花季少女被困柬埔寨56天,綁匪正臉照曝光!

拿了錢還不放人!19歲花季少女被困柬埔寨56天,綁匪正臉照曝光!

今朝牛馬
2026-04-07 22:43:23
賴清德被摁住,29國24小時內為臺撐腰,大陸三句話回應

賴清德被摁住,29國24小時內為臺撐腰,大陸三句話回應

嘴角上翹
2026-04-26 03:57:43
出人意料,ESPN專家團12人全部預測火箭晉級,如今湖人3-0領先

出人意料,ESPN專家團12人全部預測火箭晉級,如今湖人3-0領先

懂球帝
2026-04-25 15:09:12
歷史雜記|誰把劉松林(劉思齊)投進監獄?

歷史雜記|誰把劉松林(劉思齊)投進監獄?

老正時空
2026-04-25 19:22:31
內塔尼亞胡下令“猛烈打擊”黎巴嫩真主黨目標

內塔尼亞胡下令“猛烈打擊”黎巴嫩真主黨目標

新京報
2026-04-26 07:26:05
50萬的車預訂量破2.5萬臺,問界M9這次真的把BBA打懵了

50萬的車預訂量破2.5萬臺,問界M9這次真的把BBA打懵了

小南看車
2026-04-25 23:08:49
馬云預言又應驗了!不出意外,2026年起中國房地產或迎來3大轉變

馬云預言又應驗了!不出意外,2026年起中國房地產或迎來3大轉變

混沌錄
2026-04-22 15:46:07
2026-04-26 08:04:49
人人都是產品經理社區 incentive-icons
人人都是產品經理社區
想要成為大牛先從學做產品開始
64659文章數 311589關注度
往期回顧 全部

科技要聞

DeepSeek V4發布!黃仁勛預言的"災難"降臨

頭條要聞

小伙被困隧道給母親留遺言:我救了個人可能出不去了

頭條要聞

小伙被困隧道給母親留遺言:我救了個人可能出不去了

體育要聞

那一刻開始,兩支球隊的命運悄然改變了

娛樂要聞

《我們的爸爸2》第一季完美爸爸翻車了

財經要聞

90%訂單消失,中東旺季沒了

汽車要聞

2026款樂道L90亮相北京車展 樂道L80正式官宣

態度原創

房產
旅游
家居
本地
公開課

房產要聞

新一輪教育大爆發來了!海口,開始瘋狂建學校!

旅游要聞

安徽黃山:呈坎古村嬉魚燈

家居要聞

自然肌理 溫潤美學

本地新聞

云游中國|逛世界風箏都 留學生探秘中國傳統文化

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版