无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

伯克利神作背刺OpenAI:持續學習才是真神!

0
分享至


新智元報道


【新智元導讀】伯克利等發布FST框架:通過快慢分層解決大模型持續學習死局。

AI工程師Dan McAteer大膽預言,2026年持續學習(continual learning)即將爆發!

通過記憶/上下文快速適應+權重緩慢調整的分層機制,模型保留可塑性避免災難性遺忘,這一突破遠超推理變革1000倍。


這是最近的伯克利等機構的AI實驗給他的勇氣。

他們讓同一個大語言模型連續學三個任務:

先學需要多跳檢索的事實核驗HoVer;再學代碼推理CodeIO;最后學物理題Physics。

每個任務訓200步就切換,模擬真實世界里「任務在不斷變化」的學習場景。

用主流的強化學習(RL)范式訓練,模型在第一關HoVer上學會了。到了第二關CodeIO完全卡住。學不動。

換上他們提出的新框架FST(Learning,Fast and Slow),同一個模型,三關都能學會。


這是AI行業過去兩年集體押注的某個方向,第一次顯露出它的天花板。


標題:Learning, Fast and Slow: Towards LLMs That Adapt Continually

預印本:https://arxiv.org/abs/2605.12484

項目主頁:https://gepa-ai.github.io/gepa/blog/2026/05/11/learning-fast-and-slow/

如果我們集體押注的那條路,正在讓模型變成「會做題但學不會新東西的天才」,那我們押的到底是AI,還是一只越來越精致的鸚鵡?

「推理」成了AI圈的全部敘事

過去兩年,幾乎所有頭部實驗室都在做同一件事:讓模型想得更深。

OpenAI的o系列、DeepSeek的R1、Claude的思考模式這些產品形態各異,但內核都是一個共識:推理能力是AI的下一關


這個共識強到什么程度?

強到你今天去一線投資人那里,如果不能講清楚自己怎么「做推理」(reasoning),連第一輪的門都進不去。

強到我們已經忘了去問:推理,到底是什么?

打一個比方,一個學生能把任何一道高考題想得無比深,推理鏈條無懈可擊,邏輯結構滴水不漏。

但有一個前提,他從初中畢業那天起,就沒再學過任何新知識。所有的知識儲備,都停留在他16歲那年的狀態。

你愿意把他的能力,稱為「智能」嗎?

這個比方可不是修辭。這是當前最先進LLM的真實處境。

GPT-5、Claude、Gemini等所有這些你今天能用上的模型,它們在每一次新對話開始時,都是一個昨天畢業、今天醒來、忘了一切的天才。

它們可以在一道題上推理得越來越深,但只要對話框一關,記憶就會清空,回到出廠設置般的「天才狀態」。

它們是在推理的巨石上反復攀爬的數字西西弗斯——爬得越來越高,起點卻永遠是山腳。

問題是,為什么我們一直沒察覺?

在AI歷史上失敗了30年,大家不敢再期待

為什么GPT不會從你和它的對話里學到任何東西?為什么你昨天教它的東西,今天打開一個新對話,它就完全不記得?

這是一堵30年沒人推倒的墻。

AI領域的「持續學習」(Continual Learning),研究怎么讓模型像人一樣,不斷「溫故知新,吐故納新」。

這個問題從1990年代就在被研究,然后在三個老對手面前反復失敗:

第一個對手叫「首因偏差」(primacy bias),早期數據會主導模型最終的策略。

模型學會的第一件事,會頑固地塑造它后面學所有事情的方式。

第二個對手叫「損失函數彈性」(loss of plasticity),即模型每多學一個任務,可塑性就降低一分。

到某個臨界點,它就再也學不會任何新東西了。

第三個對手最有名,叫「災難性遺忘」(catastrophic forgetting)——你教模型學新任務,它的舊能力「啪」地一下塌掉。

教它做數學題,它就忘了怎么寫代碼。教它寫代碼,它就忘了怎么對話。


這三個問題,在小模型時代就存在。

到了大模型時代,它們沒有變小,只是變得不那么醒目。

因為我們干脆放棄了讓模型「持續學習」,只在訓練時灌一次知識,部署后就凍結。

我們今天用的所有LLM,本質上都是凍結的天才

聰明,但不能再聰明。強大,但活在一個永恒的當下。

這就是為什么大模型時代,持續學習一直是個「聽上去很美但誰也不敢碰」的話題。

試過的人都被這堵墻撞回來過。


但最近,這堵墻被一組研究者推了一道縫——他們沒有發明新算法,他們做了一件更根本的事:重新分工

讓模型像大腦一樣,快慢分層

這是Databricks工程力+伯克利系統派+經典ML學派綁在一起的項目

作者豪華,值得一看:Matei Zaharia(Databricks聯合創始人,Apache Spark作者)、Joseph Gonzalez(伯克利,vLLM作者之一)、Inderjit Dhillon(UT Austin與Google,ML領域元老級人物)——以及一群伯克利的博士。


當這三股力量同時押注一個方向,你就該認真看一眼。

他們提出的框架叫FST(Fast-Slow Training,快慢訓練)。核心思想極其樸素:

不要讓一組參數同時承擔兩個矛盾職能。

傳統RL訓練里,模型只有一組參數。

它既要「快速適應當前任務的特殊性」,又要「保留通用的推理能力」。

這兩件事天然沖突:前者要漂移,后者要穩定

FST的做法是:把這兩件事分到兩套「權重」上

兩者交替更新——每隔一段時間用RL調一下慢權重,同時用一個叫GEPA的prompt優化器自動演化快權重。

你的大腦,正是這樣運作的。


在博客里,GEPA團隊直接引用了「互補學習系統」理論(Complementary Learning Systems):

你的海馬體,是大腦的「快權重」,它在幾分鐘內就能記住今天下午開會時同事說的那句話;

你的新皮層,是「慢權重」,它用幾個月甚至幾年的時間,慢慢把這些細節里真正值得納入長期結構的東西沉淀下來。


新記憶,從來沒有直接寫進大腦長期結構。

它先在海馬體里「暫存」,在睡眠中被反復回放,最終只有極小一部分被慢慢滲透進新皮層——剩下的,你忘了。

FST第一次讓大模型擁有了這種分層結構。

數字也很漂亮。


FST在CodeIO任務上達到RL同等性能,只用了1/3的訓練步數——數據效率3倍

在匹配準確率的情況下,FST訓出來的模型與基礎模型的KL散度(衡量分布偏移)比RL低70%——遺忘減少70%

最關鍵的是可塑性測試:訓完Math任務后,再訓HoVer-hard,RL訓過的模型幾乎完全學不動新任務(可塑性塌縮到近0),FST訓過的模型,幾乎恢復到基礎模型水平繼續學。


這是數量級躍遷

當然,FST不是一個完美的算法。GEPA和CISPO可以被任何其他的prompt優化器和RL算法替換,它的工程實現還很初步。

重要的不是FST這個具體方法能不能跑通——重要的是它提出的"快慢分工"作為一種范式語言,第一次讓持續學習從空想變成可工程化的方向

還沒形成的共識

共識正在形成,但還沒形成。

這才是真實狀態。

業界給的時間表是另一套。

Ilya Sutskever認為:超級智能應被重新定義為持續學習器,而非已完成的AGI。

他估算continual learning還要5到20年。

Ilya一向比業界共識慢,但每次保守判斷都比業界更精準。5到20年的區間意味著,即使是 Ilya 也承認這件事會被解決,分歧只在節奏。

Karpathy更微妙。

在他看來,continual learning是真問題,用現有路徑解決還不夠。他的懷疑停在執行層面,方向層面沒有反對。

但事情已經動了。

推理時代是2024年開局、2026 年收尾。

持續學習時代是2026年開局,下一輪博弈不會等到2027年。

參考資料:

https://arxiv.org/pdf/2605.12484

https://gepa-ai.github.io/gepa/blog/2026/05/11/learning-fast-and-slow/

https://x.com/daniel_mac8/status/2055975372345274519

編輯:KingHZ David

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
又打起來了!深夜,美軍發起斬首行動,特朗普:我指揮的

又打起來了!深夜,美軍發起斬首行動,特朗普:我指揮的

透視到底
2026-05-19 02:35:51
俄羅斯軍事專家:種種征兆顯示,中國早就是世界第一超級大國了

俄羅斯軍事專家:種種征兆顯示,中國早就是世界第一超級大國了

瀲滟晴方DAY
2026-05-19 07:29:37
新冠后遺癥的長期侵襲,無數人在不知不覺中深陷困境

新冠后遺癥的長期侵襲,無數人在不知不覺中深陷困境

律法刑道
2026-04-01 10:15:47
全國科創大賽一等獎項目,被曝完整抄襲他人論文!

全國科創大賽一等獎項目,被曝完整抄襲他人論文!

雙鏈生信
2026-05-18 22:56:11
利雅得青年主帥:C羅比賽中曾問我,為什么踢勝利的時候那么賣力

利雅得青年主帥:C羅比賽中曾問我,為什么踢勝利的時候那么賣力

懂球帝
2026-05-18 12:17:29
上海交大女生私吞競賽獎金,AI造假露餡!校方重磅處分來了

上海交大女生私吞競賽獎金,AI造假露餡!校方重磅處分來了

行者聊官
2026-05-18 19:14:47
諾維茨基、格里芬齊懟Shams:周日去早午餐吧,書呆子

諾維茨基、格里芬齊懟Shams:周日去早午餐吧,書呆子

籃壇第一線
2026-05-19 01:57:36
惠州學院總務后勤部黨總支書記鄭宗暉被查

惠州學院總務后勤部黨總支書記鄭宗暉被查

南方都市報
2026-05-18 16:02:32
黃仁勛回擊:愚蠢至極,毫無道理

黃仁勛回擊:愚蠢至極,毫無道理

半導體行業觀察
2026-05-18 09:28:40
姚晨宣傳電影《監獄來的媽媽》引爭議,工作室回應:對影片背景缺乏了解

姚晨宣傳電影《監獄來的媽媽》引爭議,工作室回應:對影片背景缺乏了解

觀察者網
2026-05-18 21:48:15
全球第一!moto大折疊官宣:5月19日,正式發布!

全球第一!moto大折疊官宣:5月19日,正式發布!

科技堡壘
2026-05-18 12:55:51
全職爸爸靠帥臉火了,全網卻為他的“豪門婚姻”吵翻了

全職爸爸靠帥臉火了,全網卻為他的“豪門婚姻”吵翻了

媽咪OK
2026-05-08 19:54:01
陪玩陪睡根本不夠!認干爹、舔手指,背地里的陰暗面完全藏不住了

陪玩陪睡根本不夠!認干爹、舔手指,背地里的陰暗面完全藏不住了

杰絲聊古今
2026-05-03 13:35:27
一位日本網友在居酒屋點了一份“200日元”的炸雞,上菜后驚覺:我可能看錯了!!

一位日本網友在居酒屋點了一份“200日元”的炸雞,上菜后驚覺:我可能看錯了!!

花小貓的美食日常
2026-05-17 20:54:24
退學博士“耿同學”簽約MCN了!

退學博士“耿同學”簽約MCN了!

優墨出品
2026-05-19 05:30:08
【早報】藍月巨變!瓜帥夏天離隊,馬雷斯卡接任!

【早報】藍月巨變!瓜帥夏天離隊,馬雷斯卡接任!

體壇周報
2026-05-19 08:04:16
23歲學生用筆記本和收音機逼停四列高鐵

23歲學生用筆記本和收音機逼停四列高鐵

像素與芯片
2026-05-18 02:00:06
不能二次加熱的6種食物!醫生提醒:吃不完或倒掉,別亂節儉

不能二次加熱的6種食物!醫生提醒:吃不完或倒掉,別亂節儉

冷眼看世界728
2026-05-12 20:46:26
柳州為何發生5.2級地震?專家:震中距最近斷層不到5公里,為近百年來柳州最大地震

柳州為何發生5.2級地震?專家:震中距最近斷層不到5公里,為近百年來柳州最大地震

新浪財經
2026-05-18 15:43:21
來自杭州的A股最貴*ST股摘帽了,今日停牌一天

來自杭州的A股最貴*ST股摘帽了,今日停牌一天

都市快報橙柿互動
2026-05-19 00:29:29
2026-05-19 08:24:49
新智元 incentive-icons
新智元
AI產業主平臺領航智能+時代
15245文章數 66875關注度
往期回顧 全部

科技要聞

蘋果WWDC26定檔6月9日凌晨:iOS27將亮相

頭條要聞

特朗普推遲打擊但拒讓步 伊朗最高領袖再提開辟新戰線

頭條要聞

特朗普推遲打擊但拒讓步 伊朗最高領袖再提開辟新戰線

體育要聞

58順位的保羅,最強第三中鋒

娛樂要聞

票房會破14億!口碑第一電影出現了

財經要聞

中國芯片,怎么突然不便宜了?

汽車要聞

40.98萬起!充電5分鐘純電續航420km 騰勢N9閃充版勝算有多少?

態度原創

健康
手機
時尚
藝術
家居

專家揭秘干細胞回輸的安全風險

手機要聞

蘋果公司據悉準備在6月的開發者大會上發布IOS 27

夏天別總穿黑衣黑褲,這幾款格紋單品也很實用,百搭又高級

藝術要聞

民進黨忽然公開國民黨領袖日記,輿論嘩然!

家居要聞

觀山隱秀 心靈沉淀

無障礙瀏覽 進入關懷版