![]()
新智元報道
![]()
【新智元導讀】伯克利等發布FST框架:通過快慢分層解決大模型持續學習死局。
AI工程師Dan McAteer大膽預言,2026年持續學習(continual learning)即將爆發!
通過記憶/上下文快速適應+權重緩慢調整的分層機制,模型保留可塑性避免災難性遺忘,這一突破遠超推理變革1000倍。
![]()
這是最近的伯克利等機構的AI實驗給他的勇氣。
他們讓同一個大語言模型連續學三個任務:
先學需要多跳檢索的事實核驗HoVer;再學代碼推理CodeIO;最后學物理題Physics。
每個任務訓200步就切換,模擬真實世界里「任務在不斷變化」的學習場景。
用主流的強化學習(RL)范式訓練,模型在第一關HoVer上學會了。到了第二關CodeIO完全卡住。學不動。
換上他們提出的新框架FST(Learning,Fast and Slow),同一個模型,三關都能學會。
![]()
這是AI行業過去兩年集體押注的某個方向,第一次顯露出它的天花板。
![]()
標題:Learning, Fast and Slow: Towards LLMs That Adapt Continually
預印本:https://arxiv.org/abs/2605.12484
項目主頁:https://gepa-ai.github.io/gepa/blog/2026/05/11/learning-fast-and-slow/
如果我們集體押注的那條路,正在讓模型變成「會做題但學不會新東西的天才」,那我們押的到底是AI,還是一只越來越精致的鸚鵡?
「推理」成了AI圈的全部敘事
過去兩年,幾乎所有頭部實驗室都在做同一件事:讓模型想得更深。
OpenAI的o系列、DeepSeek的R1、Claude的思考模式這些產品形態各異,但內核都是一個共識:推理能力是AI的下一關。
![]()
這個共識強到什么程度?
強到你今天去一線投資人那里,如果不能講清楚自己怎么「做推理」(reasoning),連第一輪的門都進不去。
強到我們已經忘了去問:推理,到底是什么?
打一個比方,一個學生能把任何一道高考題想得無比深,推理鏈條無懈可擊,邏輯結構滴水不漏。
但有一個前提,他從初中畢業那天起,就沒再學過任何新知識。所有的知識儲備,都停留在他16歲那年的狀態。
你愿意把他的能力,稱為「智能」嗎?
這個比方可不是修辭。這是當前最先進LLM的真實處境。
GPT-5、Claude、Gemini等所有這些你今天能用上的模型,它們在每一次新對話開始時,都是一個昨天畢業、今天醒來、忘了一切的天才。
它們可以在一道題上推理得越來越深,但只要對話框一關,記憶就會清空,回到出廠設置般的「天才狀態」。
它們是在推理的巨石上反復攀爬的數字西西弗斯——爬得越來越高,起點卻永遠是山腳。
問題是,為什么我們一直沒察覺?
在AI歷史上失敗了30年,大家不敢再期待
為什么GPT不會從你和它的對話里學到任何東西?為什么你昨天教它的東西,今天打開一個新對話,它就完全不記得?
這是一堵30年沒人推倒的墻。
AI領域的「持續學習」(Continual Learning),研究怎么讓模型像人一樣,不斷「溫故知新,吐故納新」。
這個問題從1990年代就在被研究,然后在三個老對手面前反復失敗:
第一個對手叫「首因偏差」(primacy bias),早期數據會主導模型最終的策略。
模型學會的第一件事,會頑固地塑造它后面學所有事情的方式。
第二個對手叫「損失函數彈性」(loss of plasticity),即模型每多學一個任務,可塑性就降低一分。
到某個臨界點,它就再也學不會任何新東西了。
第三個對手最有名,叫「災難性遺忘」(catastrophic forgetting)——你教模型學新任務,它的舊能力「啪」地一下塌掉。
教它做數學題,它就忘了怎么寫代碼。教它寫代碼,它就忘了怎么對話。
![]()
這三個問題,在小模型時代就存在。
到了大模型時代,它們沒有變小,只是變得不那么醒目。
因為我們干脆放棄了讓模型「持續學習」,只在訓練時灌一次知識,部署后就凍結。
我們今天用的所有LLM,本質上都是凍結的天才。
聰明,但不能再聰明。強大,但活在一個永恒的當下。
這就是為什么大模型時代,持續學習一直是個「聽上去很美但誰也不敢碰」的話題。
試過的人都被這堵墻撞回來過。
![]()
但最近,這堵墻被一組研究者推了一道縫——他們沒有發明新算法,他們做了一件更根本的事:重新分工。
讓模型像大腦一樣,快慢分層
這是Databricks工程力+伯克利系統派+經典ML學派綁在一起的項目。
作者豪華,值得一看:Matei Zaharia(Databricks聯合創始人,Apache Spark作者)、Joseph Gonzalez(伯克利,vLLM作者之一)、Inderjit Dhillon(UT Austin與Google,ML領域元老級人物)——以及一群伯克利的博士。
![]()
當這三股力量同時押注一個方向,你就該認真看一眼。
他們提出的框架叫FST(Fast-Slow Training,快慢訓練)。核心思想極其樸素:
不要讓一組參數同時承擔兩個矛盾職能。
傳統RL訓練里,模型只有一組參數。
它既要「快速適應當前任務的特殊性」,又要「保留通用的推理能力」。
這兩件事天然沖突:前者要漂移,后者要穩定。
FST的做法是:把這兩件事分到兩套「權重」上。
兩者交替更新——每隔一段時間用RL調一下慢權重,同時用一個叫GEPA的prompt優化器自動演化快權重。
你的大腦,正是這樣運作的。
![]()
在博客里,GEPA團隊直接引用了「互補學習系統」理論(Complementary Learning Systems):
你的海馬體,是大腦的「快權重」,它在幾分鐘內就能記住今天下午開會時同事說的那句話;
你的新皮層,是「慢權重」,它用幾個月甚至幾年的時間,慢慢把這些細節里真正值得納入長期結構的東西沉淀下來。
![]()
新記憶,從來沒有直接寫進大腦長期結構。
它先在海馬體里「暫存」,在睡眠中被反復回放,最終只有極小一部分被慢慢滲透進新皮層——剩下的,你忘了。
FST第一次讓大模型擁有了這種分層結構。
數字也很漂亮。
![]()
FST在CodeIO任務上達到RL同等性能,只用了1/3的訓練步數——數據效率3倍。
在匹配準確率的情況下,FST訓出來的模型與基礎模型的KL散度(衡量分布偏移)比RL低70%——遺忘減少70%。
最關鍵的是可塑性測試:訓完Math任務后,再訓HoVer-hard,RL訓過的模型幾乎完全學不動新任務(可塑性塌縮到近0),FST訓過的模型,幾乎恢復到基礎模型水平繼續學。
![]()
這是數量級躍遷。
當然,FST不是一個完美的算法。GEPA和CISPO可以被任何其他的prompt優化器和RL算法替換,它的工程實現還很初步。
重要的不是FST這個具體方法能不能跑通——重要的是它提出的"快慢分工"作為一種范式語言,第一次讓持續學習從空想變成可工程化的方向。
還沒形成的共識
共識正在形成,但還沒形成。
這才是真實狀態。
業界給的時間表是另一套。
Ilya Sutskever認為:超級智能應被重新定義為持續學習器,而非已完成的AGI。
他估算continual learning還要5到20年。
Ilya一向比業界共識慢,但每次保守判斷都比業界更精準。5到20年的區間意味著,即使是 Ilya 也承認這件事會被解決,分歧只在節奏。
Karpathy更微妙。
在他看來,continual learning是真問題,用現有路徑解決還不夠。他的懷疑停在執行層面,方向層面沒有反對。
但事情已經動了。
推理時代是2024年開局、2026 年收尾。
持續學習時代是2026年開局,下一輪博弈不會等到2027年。
參考資料:
https://arxiv.org/pdf/2605.12484
https://gepa-ai.github.io/gepa/blog/2026/05/11/learning-fast-and-slow/
https://x.com/daniel_mac8/status/2055975372345274519
編輯:KingHZ David
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.