无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

Dwarkesh Patel:下一代AI,可能是干活干出來的

0
分享至

機器之心編輯部

硅谷著名科技播客主持人 Dwarkesh Patel 最近拋出了一個問題:AI 的下一代訓練范式會是什么?



Dwarkesh Patel 是硅谷近幾年快速走紅的科技播客主持人和寫作者,年僅 25 歲,卻已經憑借 Dwarkesh Podcast 進入 AI 討論的核心圈層。他的采訪對象包括 Ilya Sutskever、Andrej Karpathy、Dario Amodei、Demis Hassabis、Mark Zuckerberg 等一眾 AI 與科技大牛。TIME 曾將他列入 2024 年 TIME100 AI,稱他的播客已經成為許多 AI 從業者的重要收聽內容。



在最新一期的播客中,他把當下前沿 AI 實驗室正在押注的路線總結為一個關鍵詞:RLVR,也就是 Reinforcement Learning with Verifiable Rewards,可驗證獎勵強化學習。

簡單說,就是讓模型在大量可以自動判斷對錯的任務中反復試錯,訓練出規劃、糾錯、迭代和長期執行能力。今天代碼、數學等領域的快速進展,很大程度上就來自這種思路。

但 Dwarkesh 真正想追問的是:如果下一代 AI 只靠這種「可驗證任務訓練」,夠不夠?

他的答案是:可能不夠。

因為一個任務光「可驗證」還不夠,它還必須「可刷」。

這里的關鍵概念是grindability,可磨性。放在 AI 訓練語境里,是「可反復刷題性」或者「可大規模 rollout 的能力」。

代碼任務就是典型的可刷任務。你可以準備一個軟件倉庫、一個待修復 bug、一個測試用例,然后把同一個環境復制成幾千份,讓幾千個 agent 同時嘗試。誰通過測試,誰就得分。這個過程可以并行、可復現、可重置,特別適合 RLVR。

數學題也是類似的。答案對不對可以驗證,訓練環境也容易復制。

但 Dwarkesh 問了一個很有意思的問題:為什么 AI 在「使用電腦」這件事上,進展反而比代碼和數學慢?

表面上看,電腦使用也是可驗證的。比如東西有沒有下單成功、活動場地有沒有訂好、稅表有沒有提交,這些結果都可以判斷。但問題在于,它很難被大規模復制和回放。你不能讓一千個 agent 同時去 Amazon 上反復跑同一個結賬流程,因為真實網站會識別 bot、封禁賬戶、改變狀態。你當然可以克隆 Slack、Gmail、Amazon 這樣的應用來做模擬器,但這在當前階段仍然是高成本、低擴展性的工程。

Dwarkesh 指出:AI 在某個領域進步快,不只是因為這個領域答案可驗證,而是因為這個領域能被包裝成可復制、可回放、可并行試錯的訓練環境。

這也解釋了為什么代碼、數學、游戲類任務會成為 RLVR 的天然溫床,而很多真實世界任務卻很難直接納入這套訓練范式。

接著,他把問題推向更復雜的現實世界。

  • 如果我們想訓練一個 AI 從零開始創業,怎么辦?
  • 如果想訓練它贏一場官司,怎么辦?
  • 如果想訓練它在市場中穩定賺錢,或者幫助一個候選人贏得選舉,怎么辦?

這些任務當然也有結果。公司有沒有做起來,官司有沒有贏,交易有沒有盈利,選舉有沒有勝出,最終都能判斷。

但它們的問題在于:反饋太慢,變量太多,世界不可重置,也無法在數據中心里復制一千遍。

一次創業可能持續數年。一次政治競選依賴具體地區、候選人、選民情緒、媒體環境和偶然事件。一次法律案件也無法從同一個起點復制成一千個平行宇宙,讓不同 agent 分別試錯。

這類環境在強化學習里接近所謂 reset-free、non-stationary environment:不能隨便重置,而且環境本身還在不斷變化。

Dwarkesh 因此提問:RLVR 在可驗證、可刷的環境里訓練出來的 agent,真的能泛化到這些真實世界任務嗎?

這不是一個可以靠口號回答的問題,而是一個實證問題。

樂觀派會說,只要 RLVR 環境足夠多、足夠復雜,模型最終會學到通用的 agent 能力。它在代碼、數學、網頁、工具使用中練出來的規劃和試錯能力,最終會遷移到創業、組織管理、政治、法律、科學研究等領域。

但 Dwarkesh 對此保持懷疑。

因為真實世界里最有價值的知識,往往不是以清晰、可驗證、可重復的方式出現的。它們可能來自一次含混的客戶反饋,一次失敗的會議,一個組織內部的隱性流程,一種只有在真實任務中才會暴露的失敗模式。模型要學會這些東西,不能只靠「刷題」,還必須具備真正的樣本效率。

這就把討論帶到了全文最重要的一點:learning back to the weights,把學習重新寫回權重。

今天的大模型已經很擅長 in-context learning。它可以在一個長上下文里讀很多資料,理解一個項目背景,臨時適應一個用戶或組織的需求。但問題是,這種學習大多停留在上下文窗口里。會話結束后,模型并不一定真正「長記性」。

Dwarkesh 認為,這是一種巨大的浪費。

因為模型真正有價值的訓練信號,恰恰是在部署后才出現的。模型被真實用戶使用,進入真實組織,參與真實任務,暴露真實錯誤。它會看到公司內部怎么運轉,人們實際拿它做什么,哪些地方經常失敗,哪些建議在現實中根本行不通。

但如果這些經驗無法沉淀回模型權重,那它就只是一次會話里的短暫適應,而不是能力的長期增長。

他用人類學習做了一個類比:人并不是靠把每天發生的所有事情都逐字背下來而變強的。一個員工工作半年后變得有用,不是因為他記得每封郵件、每句會議記錄,而是因為他把這些經歷壓縮成了判斷力、直覺、流程理解和問題模式。

模型也應該如此。

真正的 continual learning,不是無限擴大 KV cache,也不是把所有歷史記錄塞進上下文,而是從真實經驗中提煉少量真正有用的知識,再把它們壓縮進權重。

這正是 Dwarkesh 認為下一代訓練范式必須解決的問題。

那么,具體怎么做?

他提到了一個正在被討論的方向:on-policy self-distillation,簡稱 OPSD

可以粗略理解為:讓一個已經在長會話中積累了大量經驗的模型,充當「老員工」或者 teacher;然后訓練基礎模型,讓它在沒有這些完整上下文的情況下,也能做出類似 teacher 的判斷。

也就是說,把模型在一次真實任務中通過上下文學到的東西,再蒸餾回模型自身的權重。

這和普通 SFT 不一樣。最樸素的 SFT 可能只是讓模型去預測會話里出現過的 token,相當于讓它復述整個工作日志。但這不是有效學習。真正重要的不是記住全部細節,而是提煉出那些能幫助模型下次做得更好的關鍵洞見。

OPSD 的優勢在于,它不一定需要一個外部可驗證獎勵。只要模型能在上下文里學到有用東西,就可以把「學過之后的模型」當作 teacher,讓基礎模型向它靠近。

同時,相比普通 RL 只有最終 reward,OPSD 可以提供更密集的監督信號。它可以在 token 層面對比 teacher 和 student 的概率分布差異,從而把一次真實任務中的稀缺經驗壓縮成更小、更精準的權重更新。

除了 OPSD,Dwarkesh 還提出了另一個方向:dreaming

這里的 dreaming 是指 AI 根據真實世界觀察,自己構造一個模擬環境,然后在里面反復練習、嘗試策略、強化有效行為。

這聽起來很像強化學習傳統里的 model-based RL,也很像 Sutton 一直強調的 agent 通過環境互動積累經驗。不同的是,Dwarkesh 把它放進了大模型和真實部署的語境中。

比如,一個 AI 在真實公司里觀察到某個業務流程后,不只是寫一份總結,而是花費大量計算,構造出這個流程的「游戲版模擬環境」。然后它在里面測試不同溝通策略、執行路徑和項目推進方式,看看什么更可能成功。最后,再把這些模擬練習中得到的經驗壓縮回模型。

如果這種路線成立,它可能會成為新的 scaling axis。

過去 AI 的擴展主要來自三條軸:pretraining、RL 和 inference-time compute。Dwarkesh 設想,未來可能還會多出第四條軸:test-time training,或者說 dreaming。模型不只是推理,而是在推理和任務執行過程中,為特定用戶、特定組織、特定項目構造模擬環境,并在其中訓練自己。

這也是為什么評論區有人提到 David Silver 和 Richard Sutton 的《Welcome to the Era of Experience》:那篇文章同樣強調,AI 不能永遠依賴人類數據,下一階段的關鍵將是智能體從自身與環境互動中獲得經驗。



Dwarkesh 則把這個宏觀判斷具體化到了今天的大模型訓練問題上:RLVR 是一個重要過渡階段,它讓模型在可驗證任務里練出 agent 能力;但要進入更復雜的現實世界,模型必須學會從真實部署中持續學習,并把經驗寫回權重。

在 Dwarkesh 設想的 2027 或 2028 年,訓練流程可能會變成這樣:

  • 首先,RLVR 訓練出一個基本 competent 的 agent。這個 agent 被扔到一個陌生問題里,至少能搞清楚情況,嘗試不同策略,遇到障礙后繼續迭代;
  • 然后,這個 agent 被部署到真實世界中,開始做真實工作。它可能和用戶一起連續工作一周,參與一個不在原始訓練分布里的項目;
  • 一周結束后,用戶給它一個 thumbs up 或 thumbs down,甚至寫一段工作評價。如果結果是正向的,模型就會把這次任務中學到的東西蒸餾回基礎模型。這個過程可能用 OPSD,可能用 dreaming,也可能用某種現在還沒有出現的新技術。

一旦這條路徑跑通,AI 的能力邊界就不再被最初那些「可驗證任務」限制住。

它可以先通過 RLVR 學會代碼、數學、網頁任務、工具調用;再通過真實部署學習組織管理、業務流程、復雜協作;然后從這些經驗出發,繼續擴展到相鄰領域。

這也意味著,AI 進步的主要來源可能會發生變化。

過去,一個模型發布前訓練好了,用戶只是使用它。下一代模型可能是:發布前先訓練出基礎 agent,發布后通過海量真實任務繼續學習。每一次與用戶交互,每一次真實項目執行,每一次失敗和修正,都可能成為下一輪能力提升的材料。

所以,Dwarkesh 所謂的「下一代訓練范式」,不是簡單地說模型要更大、數據要更多、RL 要更強。

它真正指向的是:AI 從發布前訓練,走向發布后學習;從人類數據,走向環境經驗;從上下文里的臨時適應,走向權重里的長期能力。

未來最重要的 AI 訓練數據,可能不再只是互聯網上已有的文本,也不只是實驗室里構造好的可驗證任務,而是 AI 在真實世界里完成真實任務時,自己積累出來的經驗。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
當著20萬人面,親華總統宣布辭職,下臺前感謝中國,承諾不會反水

當著20萬人面,親華總統宣布辭職,下臺前感謝中國,承諾不會反水

影孖看世界
2026-06-28 18:01:05
特朗普突然情緒失控,當著眾人的面大聲咆哮,中國是最后一根稻草

特朗普突然情緒失控,當著眾人的面大聲咆哮,中國是最后一根稻草

菲兒愛追電影
2026-06-28 06:06:13
中紀委周末打虎!去年進京履新的副部長任上被查,沁源3任縣委書記先后落馬

中紀委周末打虎!去年進京履新的副部長任上被查,沁源3任縣委書記先后落馬

上觀新聞
2026-06-29 10:19:34
迎來第一波“失業潮”的不是教師,不是醫生,而是這四個行業!

迎來第一波“失業潮”的不是教師,不是醫生,而是這四個行業!

職場資深秘書
2026-06-28 14:27:05
務必記住6位S級妻子

務必記住6位S級妻子

吃瓜黨二號頭目
2026-06-29 09:24:23
中美歐情況變了!中國不忍了,特朗普也不忍了 普京做夢都該笑醒

中美歐情況變了!中國不忍了,特朗普也不忍了 普京做夢都該笑醒

墨印齋
2026-06-27 13:17:22
中國網友嘲諷韓國世界杯小組賽淘汰出局!韓國網友:不愧是文學之國,太會罵…

中國網友嘲諷韓國世界杯小組賽淘汰出局!韓國網友:不愧是文學之國,太會罵…

奮斗在韓國
2026-06-29 10:04:06
1分鐘!36倍大牛股,直線跌停

1分鐘!36倍大牛股,直線跌停

新浪財經
2026-06-29 11:53:48
電影《四渡》現飛奪盧溝橋?網友:別讓這幫高考200分的人拍電影

電影《四渡》現飛奪盧溝橋?網友:別讓這幫高考200分的人拍電影

蜜桔娛樂
2026-06-29 11:00:25
俄烏沖突數據一覽:歷經1580余天,持續時長超“一戰”,累計傷亡人數近180萬,烏克蘭人口銳減近900萬

俄烏沖突數據一覽:歷經1580余天,持續時長超“一戰”,累計傷亡人數近180萬,烏克蘭人口銳減近900萬

極目新聞
2026-06-29 09:05:48
歷史第二!梅西沖擊任意球之王:僅遜儒尼尼奧,連續19年破門太神

歷史第二!梅西沖擊任意球之王:僅遜儒尼尼奧,連續19年破門太神

李喜林籃球絕殺
2026-06-29 14:01:13
阿三又作妖!張家界玻璃棧道堵死!印度游客霸占通道不肯走

阿三又作妖!張家界玻璃棧道堵死!印度游客霸占通道不肯走

行者聊官
2026-06-28 17:29:16
英國上將揭露:1997年香港回歸真相,誰敢抗衡中國解放軍?

英國上將揭露:1997年香港回歸真相,誰敢抗衡中國解放軍?

蜉蝣說
2026-06-29 11:34:20
日本隊豪言擊敗巴西沖擊世界杯冠軍,是自信還是傲慢?

日本隊豪言擊敗巴西沖擊世界杯冠軍,是自信還是傲慢?

澎湃新聞
2026-06-29 15:42:28
原來她是李敖遺孀,婚后不上班,丈夫去世后,如今靠遺產安穩生活

原來她是李敖遺孀,婚后不上班,丈夫去世后,如今靠遺產安穩生活

白面書誏
2026-06-28 23:12:57
從品牌價值2175.69億元,透視九牧的基本盤與新增量

從品牌價值2175.69億元,透視九牧的基本盤與新增量

礪石商業評論
2026-06-26 10:32:14
中國若退出本屆亞運會

中國若退出本屆亞運會

安安說
2026-06-29 10:57:08
爸媽你們看到了嗎?29歲加拿大絕殺功臣采訪落淚 1年內他痛失雙親

爸媽你們看到了嗎?29歲加拿大絕殺功臣采訪落淚 1年內他痛失雙親

我愛英超
2026-06-29 10:00:33
“讓世界看到不斷煥發新活力的百年大黨”

“讓世界看到不斷煥發新活力的百年大黨”

人民網
2026-06-29 06:43:29
俄烏沖突累計傷亡近180萬,普京建議停止互相打擊縱深目標

俄烏沖突累計傷亡近180萬,普京建議停止互相打擊縱深目標

界面新聞
2026-06-29 11:20:38
2026-06-29 16:08:49
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
13386文章數 142683關注度
往期回顧 全部

科技要聞

OpenAI推遲上市,那“Kimi們”呢?

頭條要聞

運-20最新大片片尾"彩蛋"提到的"小六"是誰 專家分析

頭條要聞

運-20最新大片片尾"彩蛋"提到的"小六"是誰 專家分析

體育要聞

他和伊朗隊,再次贏得全世界的尊重

娛樂要聞

蕭薔宣布捐出參加“浪姐”所有收入

財經要聞

35歲職場人,又好找工作了?

汽車要聞

全新寶馬iX3長軸版將于成都車展預售 四季度交付

態度原創

親子
教育
本地
數碼
公開課

親子要聞

爸爸讓女兒當媽媽面說:愛爸爸不愛媽媽,誰知4歲女兒的做法絕了

教育要聞

第41課-買好票才能盡享游樂園快樂時光

本地新聞

貴州小城的新目標:舉辦“村超”世界杯!

數碼要聞

1個贊抵1元活動火爆:PC廠商玩不起反告328名買家!法院判了

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版