无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

大語言模型的自改進機制:技術綜述與未來展望

0
分享至


來源:專知


隨著大語言模型(LLMs)的持續演進,僅依靠人類監督來提升模型性能的成本日益高昂,且在可擴展性方面存在局限。當模型在特定領域接近人類水平時,人類反饋可能無法再為進一步的提升提供足夠的信息增益。與此同時,模型自主決策和執行復雜任務能力的增強,使得模型開發流程中各個組件的逐步自動化成為可能。在挑戰與機遇的共同驅動下,“自我改進”(Self-improvement)引起了學術界日益增長的關注,即模型自主生成數據、評估輸出并迭代優化自身能力。

本文從系統級視角審視了具備自我改進能力的語言模型,并提出了一套整合現有技術的統一框架。我們將自我改進系統概念化為一個閉環生命周期,由四個緊密耦合的過程組成:數據獲取、數據篩選、模型優化和推理細化,并輔以一個自主評估層。在該框架中,模型自身在驅動各個階段中發揮著核心作用:收集或生成數據、篩選信息信號、更新參數以及細化輸出;同時,自主評估層持續監控進展并引導跨階段的改進循環。基于這一生命周期視角,我們從技術角度系統地評述并分析了各組件的代表性方法。此外,我們進一步討論了當前的局限性,并對通往完全自我改進 LLM 的未來研究方向進行了展望。


1 引言 (Introduction)

通過擴展模型規模、訓練數據和計算量,大語言模型(LLMs)已實現快速且持續的性能增益(Brown et al., 2020; Ouyang et al., 2022; Hoffmann et al., 2022; OpenAI et al., 2024)。支撐這一進展的普遍假設是:更大規模、更高質量的數據集,特別是專家標注的人類監督,是催生更強模型的關鍵。在實踐中,諸如 RLHF(Ouyang et al., 2022)等方法高度依賴精心策劃的高質量監督信號,以對預訓練模型進行對齊和細化。

然而,隨著模型的不斷演進,主要依靠人類監督來改進模型的范式暴露出了幾項結構性局限:

  1. 人類數據的稀缺性日益凸顯:高質量的專家標注數據成本高昂且難以規模化(Gilardi et al., 2023; Villalobos et al., 2024)。構建大型監督數據集的邊際成本迅速增長,而專家勞動力資源卻始終有限。

  2. 更深層的局限在于人類認知的邊界:如果模型監督始終受限于人類智能,模型是否能真正超越人類水平?當模型在某些領域接近或超過人類水平時,人類反饋可能不再能提供足夠的信息梯度(Informative Gradients)以支持進一步提升(Bowman, 2023; Burns et al., 2023)。這提出了一個根本性問題:當模型與其監督者(人類)水平持平時,如何持續進化?

上述局限共同促使學術界探索**模型自我改進(Model Self-improvement)**這一極具前景的方向。模型不再完全依賴外部的人類信號,而是利用自身能力來生成數據、評估輸出并迭代優化其策略。

從自動化的角度來看,這一方向不僅是理想的,而且是必然的。隨著 LLMs 的進階,它們展現出了解決復雜工程任務和參與高層決策的能力。鑒于 LLMs 的開發過程(包括數據獲取、篩選和模型訓練)本身就是一項高度復雜的工程任務,將這些職責委派給模型自身是一個自然的演進過程。通過將 LLMs 作為智能體(Agents)來編排自身的開發生命周期,一個“系統側”的自我改進閉環得以建立。如圖 1 所示,我們的愿景是從人類驅動的模型開發轉向自主自我改進系統范式,使 LLM 通過自主導向的迭代和反饋不斷增強其能力。

我們將 LLM 的自我改進定義為:**一種在沒有持續人工干預(Human-in-the-loop)的情況下,模型迭代增強自身能力的學習范式。**該范式具有兩個核心屬性:

  • 自主性(Autonomy):改進過程無需持續的人工標注或手動校正。“自我”并不排斥外部組件;系統仍可使用教師模型、驗證器(Verifiers)、評論家(Critics)、獎勵模型或自動評估器等輔助模塊。關鍵要求是:學習環節一旦部署,必須是完全自動化的。

  • 持續性(Continuity):自我改進并非一次性的細化,而是一個迭代的、自我強化的過程。前期階段的輸出或經驗被重新利用,為后續更新產生更強的監督信號。每一輪改進都依賴并放大先前的成果,從而實現隨時間推移的累積式進展。

在此定義下,自我改進不僅僅是提升任務指標的技術,更是一種實現持續、自主增長的結構性能力。從 AI 長期發展的視角看,這種能力被廣泛認為是構建能夠超越初始訓練范疇、實現持續學習與適應的系統的核心。

受此愿景啟發,如圖 2 所示,我們提出了一個由五個互連組件組成的生命周期自我改進系統。其中四個組件——數據獲取、數據篩選、模型優化和推理細化——共同解決了一個核心問題:為了構建端到端的自我改進系統,如何在不同階段利用模型自身來驅動持續且自主的貢獻?具體而言:

  • 數據獲取(Data Acquisition):模型自主收集或生成訓練數據。

  • 數據篩選(Data Selection):模型獨立評估并過濾出質量更高、更適合自身學習的數據點。

  • 模型優化(Model Optimization):模型自主學習,有效地將數據轉化為其參數內部的增強能力。

  • 推理細化(Inference Refinement):模型在推理過程中提升性能,而無需更改底層參數。

除了這四個階段,系統還需要一種長期衡量與引導機制,以確保自我改進的穩定性和可持續性。為此,我們引入了第五個組件:自主評估(Autonomous Evaluation)。它為模型表現提供持續反饋,并引導其未來的發展方向。由于靜態基準測試(Benchmarks)會迅速過時,且人工評估無法隨系統規模同步增長,這種機制至關重要。通過自主評估,模型可以保持及時、自適應的反饋,支撐長期的持續改進。

這五個組件共同將模型置于自動化迭代閉環的核心地位。該統一系統確保了改進信號能夠被一致地生成、篩選、應用、細化和評估,為實現更廣泛的系統級 LLM 自我改進鋪平了道路。

近期已有一些綜述從不同角度探討了自我改進。例如,Tao et al. (2024) 關注通過自我訓練和強化學習實現的策略級自我演化;Dong et al. (2024) 評述了提示詞(Prompting)和解碼細化等推理側改進技術;Fang et al. (2025a) 和 Gao et al. (2026) 則強調智能體系統,突出記憶、反思和工具增強交互。盡管如此,現有研究大多集中在特定階段(如訓練或推理)的局部機制。相比之下,我們采用了系統級視角,將自我改進概念化為一個統一的、閉環的生命周期,將模型開發的所有階段整合進一個連貫的、用于可擴展自主演化的端到端框架中。

本文余下部分分為兩個主要部分。首先,從技術角度系統研究自我改進系統中的每個組件(§2 至 §6),并將其分類(如圖 3 所示)。其次,我們將討論更宏觀的自我改進系統(§7 至 §9),涵蓋挑戰、局限、應用及未來展望(結構如圖 9 所示)。此外,盡管本文以模型為中心,但也納入了關于**自我演化智能體(Self-evolving agents)**的研究。我們認為,從單一階段向統一自我改進系統的轉變,與從獨立模型向智能體系統的轉變相呼應,反映了向更自主、交互式學習系統范式發展的共同趨勢。


閱讀最新前沿科技趨勢報告,請訪問21世紀關鍵技術研究院的“未來知識庫”


未來知識庫是 “21世紀關鍵技術研究院”建 立的在線知識庫平臺,收藏的資料范圍包括人工智能、腦科學、互聯網、超級智能,數智大腦、能源、軍事、經濟、人類風險等等領域的前沿進展與未來趨勢。目前擁有超過8000篇重要資料。每周更新不少于100篇世界范圍最新研究資料。 歡迎掃描二維碼或訪問https://wx.zsxq.com/group/454854145828進入。


截止到2月28日 ”未來知識庫”精選的百部前沿科技趨勢報告

(加入未來知識庫,全部資料免費閱讀和下載)

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
搶七16中5鐵出天際!坎寧安拉胯卻獲超高評價 美記:圍繞他補強

搶七16中5鐵出天際!坎寧安拉胯卻獲超高評價 美記:圍繞他補強

顏小白的籃球夢
2026-05-18 11:02:56
內行人預測:不出意外的話,明后年的房價將會出現4大“變化”

內行人預測:不出意外的話,明后年的房價將會出現4大“變化”

蜉蝣說
2026-05-18 18:29:54
國乒5.18情報:樊振東退出歐冠,向鵬報名遭拒,鰻魚終于現身

國乒5.18情報:樊振東退出歐冠,向鵬報名遭拒,鰻魚終于現身

章民解說體育
2026-05-18 18:12:29
徐冬冬與老公尹子維在路邊吵架崩潰痛哭:去廣州塔忘帶身份證,我就是想上小蠻腰,我恨我自己;尹子維在旁緊張到磕巴,用英文安慰

徐冬冬與老公尹子維在路邊吵架崩潰痛哭:去廣州塔忘帶身份證,我就是想上小蠻腰,我恨我自己;尹子維在旁緊張到磕巴,用英文安慰

臺州交通廣播
2026-05-18 16:44:08
閑魚等二手平臺現汽水音樂100年會員,汽水音樂回應稱系黑灰產,存在安全風險

閑魚等二手平臺現汽水音樂100年會員,汽水音樂回應稱系黑灰產,存在安全風險

中國能源網
2026-05-18 10:54:09
他接受紀律審查和監察調查

他接受紀律審查和監察調查

錫望
2026-05-18 11:57:24
5個已被證實卻讓人難以接受的科學真理,顛覆你對世界的認知

5個已被證實卻讓人難以接受的科學真理,顛覆你對世界的認知

心中的麥田
2026-05-18 19:34:44
中國最好吃的6個城市,50歲前要去一次

中國最好吃的6個城市,50歲前要去一次

簡食記工作號
2026-05-14 00:06:06
原來他是國宴總廚,大專學歷卻獲獎無數,從業55年如今72歲未退休

原來他是國宴總廚,大專學歷卻獲獎無數,從業55年如今72歲未退休

白面書誏
2026-05-16 15:12:43
原來說話會拐彎這事是天生的!網友:兒子說怕草莓尖太尖扎到我!

原來說話會拐彎這事是天生的!網友:兒子說怕草莓尖太尖扎到我!

夜深愛雜談
2026-05-18 07:34:26
嫁法國老頭后癱瘓?42歲李宇春近況曝光,真相背后隱情惹人流淚

嫁法國老頭后癱瘓?42歲李宇春近況曝光,真相背后隱情惹人流淚

借你一生
2026-05-15 19:25:13
馬斯克頭頂這3000根頭發比他造火箭還讓人好奇

馬斯克頭頂這3000根頭發比他造火箭還讓人好奇

小邵說劇
2026-05-18 12:08:26
結束了!曝將交易51分先生!這才是坎寧安最強幫手

結束了!曝將交易51分先生!這才是坎寧安最強幫手

籃球實戰寶典
2026-05-18 18:48:32
博主“我是大彬同學”侮辱貶損鴻蒙智行,被判賠150萬元

博主“我是大彬同學”侮辱貶損鴻蒙智行,被判賠150萬元

大風新聞
2026-05-18 19:36:02
792萬!出生人口跌破底線:年輕人為什么連一個孩子都不想生了?

792萬!出生人口跌破底線:年輕人為什么連一個孩子都不想生了?

阿芒娛樂說
2026-05-17 11:07:35
4次挑釁中國!烏克蘭名將奪冠獲830萬回應,烏克蘭人還躲在防空洞

4次挑釁中國!烏克蘭名將奪冠獲830萬回應,烏克蘭人還躲在防空洞

壹知眠羊
2026-05-18 14:38:19
張藝謀也沒想到,養了27年的陳婷,竟會親手摘掉張藝謀妻子的認證

張藝謀也沒想到,養了27年的陳婷,竟會親手摘掉張藝謀妻子的認證

混沌錄
2026-05-14 15:58:14
從140斤瘦到110斤,我就靠“早上吃夠蛋白質”這一個笨辦法!

從140斤瘦到110斤,我就靠“早上吃夠蛋白質”這一個笨辦法!

健身狂人
2026-05-17 04:28:03
黃仁勛北京行慶云樓:機會只給那些“腦子里有貨,膽子也大”的人

黃仁勛北京行慶云樓:機會只給那些“腦子里有貨,膽子也大”的人

民間胡扯老哥
2026-05-18 13:30:07
有點懸了!費利佩茹薩李揚缺訓 穆斯卡特:成都簽下約翰非常明智

有點懸了!費利佩茹薩李揚缺訓 穆斯卡特:成都簽下約翰非常明智

刀鋒體育
2026-05-18 19:13:21
2026-05-18 23:56:49
人工智能學家 incentive-icons
人工智能學家
人工智能領域權威媒體
4744文章數 37464關注度
往期回顧 全部

科技要聞

同一公司,有人獎金是6年工資,我卻只有半年

頭條要聞

賴清德要求美國繼續向臺出售武器 外交部表態

頭條要聞

賴清德要求美國繼續向臺出售武器 外交部表態

體育要聞

58順位的保羅,最強第三中鋒

娛樂要聞

票房會破14億!口碑第一電影出現了

財經要聞

中國芯片,怎么突然不便宜了?

汽車要聞

歸元S平臺首款車型 魏牌V9X上市 34.98萬元起

態度原創

本地
教育
數碼
旅游
房產

本地新聞

用蘇繡的方式,打開江西婺源

教育要聞

一所京城學校,能提供的“天花板資源”,是什么樣的?

數碼要聞

索尼十周年紀念耳機The ColleXion曝光 設計全面奢華升級

旅游要聞

春園啟幕,打開這場不可錯過的廣州博物盛宴

房產要聞

突發!海口重磅調規!碧桂園要解套;新埠島要起飛了!

無障礙瀏覽 進入關懷版