網易首頁 > 網易號 > 正文申請入駐

Dwarkesh Patel：下一代AI，可能是干活干出來的

2026-06-29 14:30:27　來源: 機器之心Pro

天津舉報

分享至

機器之心編輯部

硅谷著名科技播客主持人 Dwarkesh Patel 最近拋出了一個問題：AI 的下一代訓練范式會是什么？

Dwarkesh Patel 是硅谷近幾年快速走紅的科技播客主持人和寫作者，年僅 25 歲，卻已經憑借 Dwarkesh Podcast 進入 AI 討論的核心圈層。他的采訪對象包括 Ilya Sutskever、Andrej Karpathy、Dario Amodei、Demis Hassabis、Mark Zuckerberg 等一眾 AI 與科技大牛。TIME 曾將他列入 2024 年 TIME100 AI，稱他的播客已經成為許多 AI 從業者的重要收聽內容。

在最新一期的播客中，他把當下前沿 AI 實驗室正在押注的路線總結為一個關鍵詞：RLVR，也就是 Reinforcement Learning with Verifiable Rewards，可驗證獎勵強化學習。

簡單說，就是讓模型在大量可以自動判斷對錯的任務中反復試錯，訓練出規劃、糾錯、迭代和長期執行能力。今天代碼、數學等領域的快速進展，很大程度上就來自這種思路。

但 Dwarkesh 真正想追問的是：如果下一代 AI 只靠這種「可驗證任務訓練」，夠不夠？

他的答案是：可能不夠。

因為一個任務光「可驗證」還不夠，它還必須「可刷」。

這里的關鍵概念是grindability，可磨性。放在 AI 訓練語境里，是「可反復刷題性」或者「可大規模 rollout 的能力」。

代碼任務就是典型的可刷任務。你可以準備一個軟件倉庫、一個待修復 bug、一個測試用例，然后把同一個環境復制成幾千份，讓幾千個 agent 同時嘗試。誰通過測試，誰就得分。這個過程可以并行、可復現、可重置，特別適合 RLVR。

數學題也是類似的。答案對不對可以驗證，訓練環境也容易復制。

但 Dwarkesh 問了一個很有意思的問題：為什么 AI 在「使用電腦」這件事上，進展反而比代碼和數學慢？

表面上看，電腦使用也是可驗證的。比如東西有沒有下單成功、活動場地有沒有訂好、稅表有沒有提交，這些結果都可以判斷。但問題在于，它很難被大規模復制和回放。你不能讓一千個 agent 同時去 Amazon 上反復跑同一個結賬流程，因為真實網站會識別 bot、封禁賬戶、改變狀態。你當然可以克隆 Slack、Gmail、Amazon 這樣的應用來做模擬器，但這在當前階段仍然是高成本、低擴展性的工程。

Dwarkesh 指出：AI 在某個領域進步快，不只是因為這個領域答案可驗證，而是因為這個領域能被包裝成可復制、可回放、可并行試錯的訓練環境。

這也解釋了為什么代碼、數學、游戲類任務會成為 RLVR 的天然溫床，而很多真實世界任務卻很難直接納入這套訓練范式。

接著，他把問題推向更復雜的現實世界。

如果我們想訓練一個 AI 從零開始創業，怎么辦？
如果想訓練它贏一場官司，怎么辦？
如果想訓練它在市場中穩定賺錢，或者幫助一個候選人贏得選舉，怎么辦？

這些任務當然也有結果。公司有沒有做起來，官司有沒有贏，交易有沒有盈利，選舉有沒有勝出，最終都能判斷。

但它們的問題在于：反饋太慢，變量太多，世界不可重置，也無法在數據中心里復制一千遍。

一次創業可能持續數年。一次政治競選依賴具體地區、候選人、選民情緒、媒體環境和偶然事件。一次法律案件也無法從同一個起點復制成一千個平行宇宙，讓不同 agent 分別試錯。

這類環境在強化學習里接近所謂 reset-free、non-stationary environment：不能隨便重置，而且環境本身還在不斷變化。

Dwarkesh 因此提問：RLVR 在可驗證、可刷的環境里訓練出來的 agent，真的能泛化到這些真實世界任務嗎？

這不是一個可以靠口號回答的問題，而是一個實證問題。

樂觀派會說，只要 RLVR 環境足夠多、足夠復雜，模型最終會學到通用的 agent 能力。它在代碼、數學、網頁、工具使用中練出來的規劃和試錯能力，最終會遷移到創業、組織管理、政治、法律、科學研究等領域。

但 Dwarkesh 對此保持懷疑。

因為真實世界里最有價值的知識，往往不是以清晰、可驗證、可重復的方式出現的。它們可能來自一次含混的客戶反饋，一次失敗的會議，一個組織內部的隱性流程，一種只有在真實任務中才會暴露的失敗模式。模型要學會這些東西，不能只靠「刷題」，還必須具備真正的樣本效率。

這就把討論帶到了全文最重要的一點：learning back to the weights，把學習重新寫回權重。

今天的大模型已經很擅長 in-context learning。它可以在一個長上下文里讀很多資料，理解一個項目背景，臨時適應一個用戶或組織的需求。但問題是，這種學習大多停留在上下文窗口里。會話結束后，模型并不一定真正「長記性」。

Dwarkesh 認為，這是一種巨大的浪費。

因為模型真正有價值的訓練信號，恰恰是在部署后才出現的。模型被真實用戶使用，進入真實組織，參與真實任務，暴露真實錯誤。它會看到公司內部怎么運轉，人們實際拿它做什么，哪些地方經常失敗，哪些建議在現實中根本行不通。

但如果這些經驗無法沉淀回模型權重，那它就只是一次會話里的短暫適應，而不是能力的長期增長。

他用人類學習做了一個類比：人并不是靠把每天發生的所有事情都逐字背下來而變強的。一個員工工作半年后變得有用，不是因為他記得每封郵件、每句會議記錄，而是因為他把這些經歷壓縮成了判斷力、直覺、流程理解和問題模式。

模型也應該如此。

真正的 continual learning，不是無限擴大 KV cache，也不是把所有歷史記錄塞進上下文，而是從真實經驗中提煉少量真正有用的知識，再把它們壓縮進權重。

這正是 Dwarkesh 認為下一代訓練范式必須解決的問題。

那么，具體怎么做？

他提到了一個正在被討論的方向：on-policy self-distillation，簡稱 OPSD

可以粗略理解為：讓一個已經在長會話中積累了大量經驗的模型，充當「老員工」或者 teacher；然后訓練基礎模型，讓它在沒有這些完整上下文的情況下，也能做出類似 teacher 的判斷。

也就是說，把模型在一次真實任務中通過上下文學到的東西，再蒸餾回模型自身的權重。

這和普通 SFT 不一樣。最樸素的 SFT 可能只是讓模型去預測會話里出現過的 token，相當于讓它復述整個工作日志。但這不是有效學習。真正重要的不是記住全部細節，而是提煉出那些能幫助模型下次做得更好的關鍵洞見。

OPSD 的優勢在于，它不一定需要一個外部可驗證獎勵。只要模型能在上下文里學到有用東西，就可以把「學過之后的模型」當作 teacher，讓基礎模型向它靠近。

同時，相比普通 RL 只有最終 reward，OPSD 可以提供更密集的監督信號。它可以在 token 層面對比 teacher 和 student 的概率分布差異，從而把一次真實任務中的稀缺經驗壓縮成更小、更精準的權重更新。

除了 OPSD，Dwarkesh 還提出了另一個方向：dreaming

這里的 dreaming 是指 AI 根據真實世界觀察，自己構造一個模擬環境，然后在里面反復練習、嘗試策略、強化有效行為。

這聽起來很像強化學習傳統里的 model-based RL，也很像 Sutton 一直強調的 agent 通過環境互動積累經驗。不同的是，Dwarkesh 把它放進了大模型和真實部署的語境中。

比如，一個 AI 在真實公司里觀察到某個業務流程后，不只是寫一份總結，而是花費大量計算，構造出這個流程的「游戲版模擬環境」。然后它在里面測試不同溝通策略、執行路徑和項目推進方式，看看什么更可能成功。最后，再把這些模擬練習中得到的經驗壓縮回模型。

如果這種路線成立，它可能會成為新的 scaling axis。

過去 AI 的擴展主要來自三條軸：pretraining、RL 和 inference-time compute。Dwarkesh 設想，未來可能還會多出第四條軸：test-time training，或者說 dreaming。模型不只是推理，而是在推理和任務執行過程中，為特定用戶、特定組織、特定項目構造模擬環境，并在其中訓練自己。

這也是為什么評論區有人提到 David Silver 和 Richard Sutton 的《Welcome to the Era of Experience》：那篇文章同樣強調，AI 不能永遠依賴人類數據，下一階段的關鍵將是智能體從自身與環境互動中獲得經驗。

Dwarkesh 則把這個宏觀判斷具體化到了今天的大模型訓練問題上：RLVR 是一個重要過渡階段，它讓模型在可驗證任務里練出 agent 能力；但要進入更復雜的現實世界，模型必須學會從真實部署中持續學習，并把經驗寫回權重。

在 Dwarkesh 設想的 2027 或 2028 年，訓練流程可能會變成這樣：

首先，RLVR 訓練出一個基本 competent 的 agent。這個 agent 被扔到一個陌生問題里，至少能搞清楚情況，嘗試不同策略，遇到障礙后繼續迭代；
然后，這個 agent 被部署到真實世界中，開始做真實工作。它可能和用戶一起連續工作一周，參與一個不在原始訓練分布里的項目；
一周結束后，用戶給它一個 thumbs up 或 thumbs down，甚至寫一段工作評價。如果結果是正向的，模型就會把這次任務中學到的東西蒸餾回基礎模型。這個過程可能用 OPSD，可能用 dreaming，也可能用某種現在還沒有出現的新技術。

一旦這條路徑跑通，AI 的能力邊界就不再被最初那些「可驗證任務」限制住。

它可以先通過 RLVR 學會代碼、數學、網頁任務、工具調用；再通過真實部署學習組織管理、業務流程、復雜協作；然后從這些經驗出發，繼續擴展到相鄰領域。

這也意味著，AI 進步的主要來源可能會發生變化。

過去，一個模型發布前訓練好了，用戶只是使用它。下一代模型可能是：發布前先訓練出基礎 agent，發布后通過海量真實任務繼續學習。每一次與用戶交互，每一次真實項目執行，每一次失敗和修正，都可能成為下一輪能力提升的材料。

所以，Dwarkesh 所謂的「下一代訓練范式」，不是簡單地說模型要更大、數據要更多、RL 要更強。

它真正指向的是：AI 從發布前訓練，走向發布后學習；從人類數據，走向環境經驗；從上下文里的臨時適應，走向權重里的長期能力。

未來最重要的 AI 訓練數據，可能不再只是互聯網上已有的文本，也不只是實驗室里構造好的可驗證任務，而是 AI 在真實世界里完成真實任務時，自己積累出來的經驗。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.