網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

OpenAI 首席科學家最新采訪：為何思維鏈不能公開、首位 AI 實習生將到來、通用 harness

2026-04-13 10:50:59　來源: 人工智能學家

北京舉報

分享至

　　來源：AGI Hunt

　　Jakub Pachocki 是 OpenAI 現(xiàn)任首席科學家，GPT-4、o1、o3 系列模型的主要設計者之一，也是歷史上最年輕的 IOI（國際信息學奧林匹克）金牌得主之一。

Jacob Effron 和 Jakub Pachocki 對談現(xiàn)場截圖（Unsupervised Learning 播客）

　　他很少公開接受采訪，但這一次，他在 Redpoint AI 的播客上坐下來，聊了將近一個小時。

　　話題包括 AGI 時間線、OpenAI 內(nèi)部如何跑實驗、為什么故意把 chain of thought 藏起來、以及他對 AI 改變科學研究的真實判斷。

　　OpenAI 首席科學家 Jakub Pachocki 與 Jacob Effron 對談

　　節(jié)目叫「Unsupervised Learning」，主持人 Jacob Effron 是 Redpoint Ventures 的管理合伙人，聊的是他「最想問的那些問題」。

　　OpenAI Newsroom 轉發(fā)了該采訪，配文稱：「算力驅動 AI 的每一層，而 @merettm 正在談論構建自動化 AI 研究員的進展。」

　　下面是整場對話里，核心的內(nèi)容整理。

　　2026 年 9 月

　　四個月前，Jakub 和 OpenAI 團隊公開說過一個時間表：

　　?今年 9 月：達到「研究實習生級別」的 AI 系統(tǒng)

　　?2028 年 3 月：實現(xiàn)完全自動化的 AI 研究員

　　
AGI 時間線：從現(xiàn)在到 2028

　　這次他接受采訪，第一個問題就是：四個月過去了，還在軌道上嗎？

“「我們在 OpenAI 內(nèi)部，現(xiàn)在已經(jīng)用 Codex 完成了大部分實際編程。編程這件事，對大多數(shù)人來說，已經(jīng)發(fā)生了相當大的變化。我把這視為一個信號，說明某些東西是在軌道上的。」

　　另一個讓他覺得「進展超預期」的領域，是數(shù)學和物理。

　　他說，過去那套靠數(shù)學比賽來衡量模型能力的方法，已經(jīng)快要不夠用了。模型已經(jīng)解決了 IMO 第 6 題，進入了「研究級數(shù)學」的領域。他們正在把注意力移向「模型在真實世界里有多有用」這個維度。

“「我們相信，模型現(xiàn)在的能力已經(jīng)足夠，雖然不是在每個方面都比人聰明，但已經(jīng)足以實質性地改變經(jīng)濟運轉方式。我們對此感到非常緊迫。」

　　什么叫「實習生」

　　Jacob 追問：你怎么知道自己到達了那個門檻？

　　Jakub 的區(qū)分方式，倒是很簡單明確。

　　
AI 實習生 vs 自動化研究員：能力邊界對比

　　他說，「研究實習生」和「完全自動化研究員」的區(qū)別，在于任務的時間跨度和具體程度。

　　不要指望今年的系統(tǒng)能接受「去提升你的模型能力」或者「去解決對齊問題」這種指令，然后自己去干。這今年還做不到。

　　但如果任務足夠具體，比如「我有一個改進模型的特定想法，幫我跑這個實驗，把這個評估用不同的方式跑一遍」，他認為現(xiàn)在已經(jīng)有了大部分需要的組件。

“「我認為我們主要需要的，只是把這些組件拼在一起。」

　　Karpathy 那篇用這些模型改進自己「小得多的模型」的文章，他覺得是對這類工具未來樣子的一個預演。

　　數(shù)學是北極星

　　OpenAI 為什么一直盯著數(shù)學比賽跑？

　　這不是因為數(shù)學本身有多重要，而是因為數(shù)學是驗證「模型有沒有真的變聰明」的最好工具。

　　可以驗證（對就是對，錯就是錯），可以無限變難，還能告訴你模型在「推理」這件事上到底進步了多少。

　　他說，這條路線引出了 reasoning 模型的整套方法論。現(xiàn)在，這個「北極星」本身快到頂了。

　　數(shù)學沒有變得沒用，團隊的注意力開始移向更實際的問題：模型在真實科研、真實經(jīng)濟活動里到底能做多少事。

　　有個特別的細節(jié)是，他提到了一個叫「first proofs」的挑戰(zhàn)，是幾位受尊敬的數(shù)學家/理論計算機科學家發(fā)布的一批未曾發(fā)表的研究級問題，給模型來解。

　　這個挑戰(zhàn)發(fā)布時沒有提前通知，只有一周時間。

　　OpenAI 當時手上正好有一個訓練中的模型，一位叫 James Lee 的工程師直接開始手動提示那個模型，然后發(fā)現(xiàn)它真的在解那些題。

　　Jakub 說，其中一道題來自他自己博士研究的領域。

“「看到模型想出了我可能需要一兩周才能想到的那些思路，而它用了大概一個小時，那是一種很奇怪的感受。就像以前看我們的 Dota 機器人用非常有趣的方式下棋，感覺有什么魔法在發(fā)生……那類東西不應該是無窮盡的。」「而現(xiàn)在，這件事發(fā)生在了數(shù)學上。發(fā)生在了我認為真正具有代表性的領域上。這大大增加了我的緊迫感。」

　　RL 的下一站
RL 可驗證性譜系：從代碼/數(shù)學到醫(yī)療/法律/創(chuàng)意

　　代碼和數(shù)學，是 RL 最好發(fā)揮的地方，因為驗證答案很容易。

　　但醫(yī)療、法律、金融呢？

　　Jakub 的看法：他相當樂觀，但承認這是「下一個真正的前沿」。

　　問題的本質，他認為和「長時間任務」高度重合。想想看，一個數(shù)學題如果要研究一年，那第一天做什么，本來就是一個開放性問題。所以「難以驗證」和「長時間跨度」這兩個難點，其實是同一件事。

“「我們在這些更通用的領域擴展 RL，已經(jīng)看到非常鼓舞人心的跡象。」

　　對于那些問「我們應不應該自己做 RL」的公司，他的建議：RL 確實是一種數(shù)據(jù)效率很高的方式讓模型專注于某個任務。但還有一種更數(shù)據(jù)高效的方式，那就是上下文學習（in-context learning）。只要把你的例子、你的指令放進去，模型就能學。

　　他的直覺是：與其復制目前 OpenAI 的 RL 流程，不如先把精力放在搞清楚什么 eval 是對的、積累什么數(shù)據(jù)，未來直接喂進模型上下文，效果可能更好。

　　通用 harness

　　關于「要不要自己搭 harness」，他也給了個明確的判斷。

“「harness 的實現(xiàn)，在很長一段時間內(nèi)都不應該成為限制。我們會有更通用的 harness，可以被用于各種各樣的領域。Codex 其實如果你拿去用在編程以外的地方，效果還不錯。」

　　他描述的未來圖景是：AI 應該主動來到你所在的地方，而不是讓你去遷就它的限制。

　　比如，AI 應該出現(xiàn)在 Slack 里，接入你的上下文，能夠學習、能夠執(zhí)行。不是說有這個功能是因為它能做，而是說沒有這個功能就表示它存在局限。

“「長期來看，AI 應該默認出現(xiàn)在你所在的地方。如果沒有，那只應該是因為它有了新的能力，而不是因為它有局限。」

　　推理鏈的秘密

　　這是整場對話里，最有深度的部分之一。

　　OpenAI 在發(fā)布早期 reasoning 模型時，做了一個決定：不向用戶展示 chain of thought（推理鏈）。

　　這個決定有爭議，也有很多人不理解。

　　Jakub 解釋了他當時的主要動機。

　　
推理鏈：公開 vs 隱藏，哪種更安全？

　　核心邏輯是這樣的：這類 reasoning 模型的推理過程，在訓練時沒有被直接監(jiān)督（不像 ChatGPT 那樣被訓練成「禮貌、友好」）。訓練信號只作用于最終輸出，而不作用于中間推理。

　　這就意味著，推理鏈是模型在沒有「表演壓力」下真實運行的地方。

“「這其實是一種非常強大的范式，可以用來解讀模型在做什么。這和機制可解釋性（mechanistic interpretability）的想法并不太不同，后者是分析那些沒有被直接監(jiān)督的模型激活值……但推理鏈的優(yōu)勢在于，它默認是用英文寫的，所以理解起來容易得多。」

　　他說，如果 OpenAI 在產(chǎn)品里展示 chain of thought，最終就不可避免地會用它來做訓練。而一旦這樣做，chain of thought 就會開始被「優(yōu)化」，就會開始變成另一種表演，而不是模型真實的內(nèi)部運行。

“「如果你想長期理解模型的行為，但你在擴展的方法卻在直接對抗這個目標，那你大概不會有什么好結果。」

　　他把讓模型擁有「私人空間」這件事，視為維持長期可監(jiān)控性的關鍵設計。

　　目前的過渡方案是「推理鏈摘要」，但他認為長期解決方案是讓模型實時和你對話，而不是展示原始推理鏈。

　　最新版本的 Codex 和推理型 GPT 模型，已經(jīng)在往這個方向走了。

　　跑幾天都沒問題

　　多久以后，我們會看到模型可以自主工作幾天？

“「我認為，模型能夠自主工作幾天的那個階段，并不太遠。也許需要用到比現(xiàn)在更多的算力，然后能自主產(chǎn)出質量更高的成果。」

　　至于是否需要工程師背景才能有效監(jiān)督這些運行幾天的 agent：他覺得對于很多輸出，你現(xiàn)在就已經(jīng)不需要太多專業(yè)經(jīng)驗了。但如果你想構建更大的東西，你仍然需要「整體設計感」，需要能判斷哪些模塊合適、哪些不合適。

“「我確實預計這種技能需求會發(fā)生相當大的轉變。」

　　方向是：向「設定方向、把控全局」的那種能力。

　　model scheming 研究

　　Jakub 提到了一項他認為「非常令人興奮」的跨實驗室合作研究：

　　Model scheming，即：在不同訓練環(huán)境下，模型是否會發(fā)展出隱藏目標并開始「假裝」對齊？

　　而值得注意的是，這項研究是 OpenAI、Anthropic 和 DeepMind 合作完成的。

　　他們發(fā)現(xiàn)，chain of thought monitoring 正是這類研究得以進行的關鍵工具，因為它讓研究者真正能夠檢查模型的動機。

“「這種能力對于研究長期對齊很有幫助。它可能會把我們帶向完全不同的緩解方向，比如修改預訓練數(shù)據(jù)，或者采用接種提示（inoculation prompting）這類想法。能夠理解，對于評估這些方法非常有幫助。」

　　對齊的真正難題

　　Jakub 認為，對齊問題的長期挑戰(zhàn)，本質上是一個泛化問題。

　　在分布內(nèi)的場景，他們大體上能控制模型行為。真正令人擔憂的，是模型遇到訓練時從未見過的情況時會怎樣，比如面對一個完全不同的處境，或者變得比以往任何時候都聰明得多。

“「值得泛化的價值觀是什么？當模型陷入非常不同的處境時，它會退回到哪些價值觀？對我來說，這是一條讓我相當興奮的研究線索。」

　　他說，過去幾年他對對齊問題的看法，從「這是一個模糊的、難以界定的問題」，演變成了「我們可以通過非常具體的技術方案來取得進展」。

　　他的整體判斷是：樂觀。

　　他相信存在一條技術路徑能把我們帶到一個「極其美好的世界」。但他同樣清楚，能力時間線在壓縮，準備時間不多。

“「我們必須做好準備，必要時接受權衡，甚至根據(jù)我們所看到的，放慢發(fā)展速度。」

　　AI 為科學

　　Jakub 對于 AI 驅動科學研究的判斷，分幾個層面。

　　關于架構的問題：他認為，LLM 加持物理世界和特定領域專用架構（比如蛋白質折疊用不同模型）并不矛盾。兩條路可以并行。

“「我不認為大型語言模型是訓練出最優(yōu)蛋白質折疊模型的最高效方式，盡管它們最終也許會產(chǎn)出最好的模型。」

　　至于哪些科學領域會最快被 AI 改變：他沒有給出具體答案，但他認為關鍵在于「模型能不能接入現(xiàn)有的生態(tài)系統(tǒng)」。

　　那些實驗室能夠快速改造自身、接納這些新工具的領域，會跑得更快。

　　他描述的圖景，不是一個「全自動 AI 科學家」獨自跑通一切，而是：

“「一個非常自然地與 AI 科學家合作的世界，這些 AI 科學家正在努力解決一個問題。」

　　AI 驅動設計和創(chuàng)意，人類在回路中。

　　財富的歸宿

　　快問快答環(huán)節(jié)，Jakub 被問到：作為一個社會，我們在哪些事上想得還不夠？

　　他說的是「財富集中」。

“「大量腦力工作可以被自動化這件事，帶來了一些我認為沒有明顯解決方案的大問題。其中一個是工作和財富集中的問題，我猜這需要政策制定者的參與。」

　　他還說了另一件事，讓人更警覺一些：

“「如果你真的有一個自動化研究實驗室，一個可以做很多事情的自動化公司，它可能會被非常少數(shù)的人控制……這些組織如此強大，卻可能只由幾個人組成。如何思考對這類組織的治理，是我們作為社會必須面對的新問題。」

　　機器人部分，他也提了一句：時間線比虛擬 AI 要長，但算法上已經(jīng)有非常有希望的思路了。

　　OpenAI 的幾個階段
OpenAI 四個演變階段：從學術實驗室到 AGI 部署

　　他回顧了 OpenAI 的演變：

　　2017 年：學術實驗室，追求各種想法，還不太相信 scaling。

　　GPT 時代：轉向，買大計算機，開始做 scaling science 和基礎設施。

　　ChatGPT 時刻：他坦言當時預計會是視頻/生成式 AI 先爆發(fā)，沒想到是文本對話先跑出來。但這個張力，他們其實預見到了：你有一個當下很火的產(chǎn)品，但你相信它會演變很多。

　　現(xiàn)在：他們認為，已經(jīng)開始進入「部署 AGI」的階段。不是「在所有方面都比人聰明」那種 AGI，而是足以「實質性改變經(jīng)濟運轉方式」的那種。

　　關于 Codex 和 Anthropic 的 Claude Code 的競爭，他也說了真話：在 OpenAI 內(nèi)部，編程工具一直是「次要優(yōu)先級」，主要精力放在「未來那件事」上。這就給了專注于此的 Anthropic 一個先手。

“「我對我們在研究和模型智能側正在構建的東西，非常有信心。我們現(xiàn)在對產(chǎn)品側加大投入，是因為我們相信：現(xiàn)在這些東西真正重要了。」

　　結尾

　　采訪的最后，他說的是這個：

“「我們剛才談到的那些問題，關于對齊、可監(jiān)控性，我認為它們正在變得非常緊迫。而且這些問題不只是 AI 研究員的問題，是政策制定者的問題，也是我們所有人需要思考的問題。我很高興看到一些討論開始出現(xiàn)，但我們需要更多。」

　　58 分鐘的對話，Jakub 全程干貨輸出。

　　2026 年 9 月，「實習生」正在到來。

　　2028 年 3 月，「研究員」即將問世。

　　那些我們以為是十年后的問題，終于已經(jīng)，快到門口了！

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.