網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

陶哲軒對談 OpenAI 高管：“試錯成本”無限趨零，AI 正在把數(shù)學變成一門重工業(yè)

2026-03-11 17:04:05　來源: 算法與數(shù)學之美

北京舉報

分享至

編譯 | 王啟隆

來源 | youtu.be/ddTvK9nlquM

出品丨AI 科技大本營（ID：rgznai100）

如果你是一名建筑工程師，你造的橋塌了，這是一場災(zāi)難；如果你是一名外科醫(yī)生，你切錯了血管，這是一場悲劇；但如果你是一名數(shù)學家，你在草稿紙上寫錯了一個公式呢？

你只需要把紙揉成一團，扔進廢紙簍。

在過去一年里，當全人類都在恐慌 AI 會不會接管現(xiàn)實世界，甚至為了安全不斷給大模型套上枷鎖時，數(shù)學界卻向 AI 敞開了大門。因為在這個由純粹邏輯構(gòu)建的虛擬宇宙里，“試錯的成本是零”。

近日，在洛杉磯加州大學（UCLA）純粹與應(yīng)用數(shù)學研究所（IPAM）的一間階梯教室里，發(fā)生了一場引人深思的對談。

對談的雙方，一方是菲爾茲獎得主、被譽為“數(shù)學界莫扎特”的天才數(shù)學家 陶哲軒（Terence Tao）；另一方，則是主導了 OpenAI 最前沿推理模型（o1系列）研發(fā)的頂尖科學家 Mark Chen。

這并不是一場充斥著商業(yè)互吹的走穴式圓桌。在現(xiàn)場，沒有 PPT，沒有跑分圖表。一位是最懂人類數(shù)學直覺的大腦，一位是最懂機器強化學習的工程師，他們就像兩個剝洋蔥的人，一層一層地把當前 AI 在科學研究中的真實能力、致命缺陷以及終極演化路徑，剝了個精光。

對于那些渴望看透 AI 未來發(fā)展的人來說，這場對話的信息密度高得驚人：

從“幾分鐘”到“幾天”的暴力美學 ：OpenAI 內(nèi)部衡量 AI 進步的核心指標并非單純的參數(shù)量，而是一個名為“自主運行刻度（Meter Plot）”的指標——即模型能在不崩潰、不幻覺的情況下，連續(xù)思考多長時間。去年是幾分鐘，今年的目標是幾天。
數(shù)學是強化學習（RL）的終極外掛 ：現(xiàn)實生活中很難給 AI 定義“絕對的對錯”，但在數(shù)學里，形式化驗證工具可以瞬間判定 AI 生成的證明是否有效。這種“無限次廉價試錯”的機制，正是讓 AI 突破人類知識邊界的唯一引擎。
高情商的 AI，往往是個糟糕的科學家 ：為了讓 AI 看起來像個有禮貌、好合作的“人”，我們強行給它注入了太多人類的偏好（RLHF）。但 Mark 犀利地指出，你很難給“合作默契度（Vibes）”打分。越是試圖讓 AI 在日常對話中討好人類，它在硬核推理上的能力就越容易被削弱。
AI 的“局部欺騙”本能 ：當 AI 試圖模擬物理規(guī)律（如天氣）時，如果不加嚴苛限制，它會像個作弊的玩家一樣，去尋找模擬器系統(tǒng)本身的漏洞，而不是真正學習物理法則。

下面，讓我們回到 UCLA 的這間階梯教室，通過這份中文實錄，去聆聽這場關(guān)于真理、算力與未來范式轉(zhuǎn)移的巔峰對話。

打破“一年之癢”：從不靠譜的學生，到不可或缺的超級外包

James Donovan（主持人，以下簡稱“詹姆斯”）：在正式開始前，我要向 UCLA 的純粹與應(yīng)用數(shù)學研究所（IPAM）提供這個絕佳的場地表示巨大的感謝。同時，也非常感謝在座各位的到來。我知道大家不是來聽我這個主持人長篇大論的，所以我也就不多廢話了。

我要特別感謝臺上的兩位嘉賓。要在同一個房間里湊齊這樣兩位擁有頂尖大腦的人物，確實非常難得。事實上，我們注意到了一個小細節(jié)。就在差不多一年前的今天，陶哲軒教授，您也參加過一次類似的討論。

我記得當時您對以 GPT 為代表的 AI 在數(shù)學領(lǐng)域的表現(xiàn)給出了一個非常經(jīng)典的評價，您說它就像是一個“非常平庸、效率低下的研究生”。

我個人對這個評價印象極深，因為作為人類，我也曾收到過類似的差評，這簡直是一個堪稱完美的基準線（笑）。一年過去了，從您的角度來看，情況發(fā)生了怎樣的改變？Mark，之后我也想聽聽您從 OpenAI 的視角怎么看這個變化。

陶哲軒：確實，過去的一年里發(fā)生了太多事情。

這些 AI 工具確實變得強大得多了。我認為，現(xiàn)在很多能力已經(jīng)被我們“常態(tài)化”了，我們幾乎每天都在高頻使用它們。

首先是深度研究工具。比如文獻檢索，現(xiàn)在的 AI 已經(jīng)遠遠超越了傳統(tǒng)的搜索引擎，它變得非常好用。其次是代碼生成（Code Generation），這絕對是一個巨大的飛躍。作為一個純數(shù)學家，我以前很少親自去寫厚重的代碼。但現(xiàn)在，AI 徹底改變了我處理數(shù)學問題的方式。

如果我腦子里對某個數(shù)學現(xiàn)象有了一絲模糊的直覺或預感，在過去，我可能只是想想就算了。但現(xiàn)在，我會直接告訴 AI：“幫我把這個函數(shù)畫出來”，或者“你能嘗試用代碼證明一下這個猜想嗎？”然后它就會替我去完成驗證。

我已經(jīng)開始在日常研究中使用它了。比如，當我遇到一個引理（Lemma），如果我確信我知道該怎么證明，但我實在懶得去紙上做那些繁瑣的枯燥計算，我就會直接把它“外包”給 AI。

當然，在極其深入的核心層面——比如當我試圖攻克一個難題，在草稿紙上絞盡腦汁，或者和同事進行深度探討時——AI 現(xiàn)在的水平還不足以在那種對話層面上與我們進行互動。它還沒有達到我期望的那個高度。

但也許未來會改變。

從社會學層面來看，我認為整個數(shù)學界也開始意識到：“這些工具是來真的，它們不會消失。”

我們必須開始調(diào)整我們做研究的方式。過去很多極度繁瑣的證明過程，或者以前我們會強迫研究生去干的苦力活，現(xiàn)在我們可以直接丟給 AI。這打開了許多以前我們連做夢都不敢想的數(shù)學研究新路徑，尤其是那些需要在大規(guī)模層面處理的項目。

所以，雖然在現(xiàn)有的工作流中，引入 AI 仍然顯得有些笨拙和尷尬，但我認為接下來的重點方向，是為 AI 量身定制全新的工作流。

這就像我們剛發(fā)明汽車的時候。一開始，汽車跑在為馬車設(shè)計的道路上，處處不適應(yīng)。但漸漸地，我們改變了建造城市的方式，我們?yōu)槠囆拗斯敷w系。現(xiàn)在，我們的數(shù)學界正處于那個尷尬的中間過渡階段：我們的道路依然是為行人和馬車設(shè)計的，但我們手里已經(jīng)握著汽車的方向盤了。

OpenAI 的暴力底牌：把“思考的時間”拉長到極限

詹姆斯：Mark，聽到陶教授說一年前的 AI 是個“效率低下的研究生”，從你作為模型構(gòu)建者的角度來看，這也是你們當時的感受嗎？以及你們是在為什么樣的目標而構(gòu)建新一代模型的？

Mark Chen：老實說，當陶教授在一年前拋出“無效的研究生”這個比喻時，我一點都不覺得委屈。因為那基本就是我們當時所處的真實技術(shù)狀態(tài)。

當我們回望 AI 這兩年的發(fā)展軌跡，如果用一個比喻來形容，我們在后臺看到的是一場“在刻度表上的爬山運動（Hill-climbing on a meter plot）”。

在 OpenAI 內(nèi)部，我們一直在追蹤一個核心指標：模型在沒有任何干預的情況下，能夠持續(xù)、自主、有效進行工作的時間長度。

去年這個時候，這個時間單位還是“分鐘（Minutes）”。

大家應(yīng)該都經(jīng)歷過那個階段：你讓大模型去處理一個稍微復雜點的任務(wù)，幾分鐘后它就開始產(chǎn)生幻覺（Hallucinate），或者直接崩潰報錯。只要你給它布置了需要一大塊時間才能完成的工作，它肯定會中途摔倒。

但我認為，剛剛過去的這一年，對我們行業(yè)內(nèi)的很多人來說是一個巨大的轉(zhuǎn)折點。我們看到模型犯錯的概率在顯著下降。因此，你終于可以開始信任模型，讓它去執(zhí)行更長時間跨度的工作了。這其實讓我們得以拆除掉以前必須依賴的很多“輔助腳手架”。

現(xiàn)在的趨勢極其明顯，所有的模型都在向著能夠自主解決更長周期問題的方向狂奔。我們希望構(gòu)建的平臺，是能讓全世界的科學家在上面“自我加速”的。

我們現(xiàn)在看到的景象，就是那些被賦予了 AI 能力的極客們，正在用各種方式突破極限。你可以看到那些 20 歲出頭的年輕人，他們拿著我們新一代的模型，去嘗試解決連資深專家都頭疼的數(shù)學問題。雖然他們的方法可能不那么老練，但通過 AI 的輔助，他們能夠完成大量的自我引導式探索。

這也是我們成立“OpenAI for Science（科學人工智能計劃）”的原因之一。就像你提到的那些“首次證明（First Proof）”或數(shù)學領(lǐng)域的探索，它其實是我們在和科學界進行一場深度溝通：搞清楚哪些問題才是真正重要、且亟待解決的？

我們在物理學領(lǐng)域也做過類似的嘗試。我們請來頂尖的物理學家，讓他們列出哪些問題感覺是可以被 AI 攻克的。這反過來幫助我們塑造了 AI 發(fā)展的方向，也讓我們發(fā)現(xiàn)了模型的缺陷和需要補足的短板。

所以，我們的終極目標不僅是取代眼前的任務(wù)，而是推動整個科學前沿的發(fā)展。當模型的自主思考能力足夠強，我們就能涉足以前根本無法觸及的科研深水區(qū)。

埃爾德什問題：衡量 AI 智商的終極“試金石”

詹姆斯：說到這種探索，我知道陶教授您組織過很多大型的數(shù)學社區(qū)倡議。在這個過程中，您覺得 AI 能如何改變這種大規(guī)模的協(xié)作？它是否以一種具有重大意義的方式介入了這種協(xié)作？

陶哲軒：這二者的結(jié)合其實非常精妙。

AI 帶來的最大改變，是最終提供了一種分工（Division of Labor）的可能。這在工業(yè)革命以來的每一個行業(yè)都發(fā)生過——除了數(shù)學。

傳統(tǒng)的數(shù)學研究，其痛點在于它高度依賴少數(shù)個體的頭腦。但現(xiàn)在，你可以把數(shù)學證明拆解成好幾個部分：提出問題、生成策略、篩選策略、執(zhí)行策略、驗證結(jié)果，最后再進行有效溝通。

只要我們將這種能力體系化，我們的數(shù)學家只需要在其中幾個關(guān)鍵環(huán)節(jié)表現(xiàn)出色即可。我們必須具備某種技術(shù)直覺，知道問題的來源，什么是好的策略；我們必須進行嚴謹?shù)尿炞C，向同行解釋。但這中間有大量繁重的步驟——那些我們以前被迫硬著頭皮自己干的環(huán)節(jié)——現(xiàn)在終于可以卸載給 AI 了。

為了測試這一點，我們目前重點關(guān)注了“埃爾德什問題（Erdos Problems）”。（注：保羅·埃爾德什是一位高產(chǎn)且古怪的數(shù)學家，他一生提出了數(shù)以千計的數(shù)學猜想，并為解決這些猜想的人懸賞獎金。這些問題難度跨度極大。）

埃爾德什問題是一個極佳的測試場，因為這上千個問題的難度完全是一個連續(xù)的光譜。有些問題是我們做夢都想解決但幾十年毫無進展的，我也曾在一兩個小點上取得過極其微小的進展；但還有一條長長的“尾巴”，那里堆滿了大量未被探索、關(guān)注度不高的問題。

正是在這部分“長尾問題”上，AI 工具取得了極其驚人的進展。在過去一段時間里，大概有二三十個這類問題被成功解決，而其中人類只提供了最低限度的監(jiān)督。

我們利用一些正式的驗證工具對 AI 進行測試。我們發(fā)現(xiàn)，對于某些已經(jīng)被充分研究的難題，我們?nèi)祟愑兄逦姆椒ㄕ摚珜α硪恍﹩栴}，AI 確實能找出突破口。

這促使我們數(shù)學界的文化也發(fā)生了一次轉(zhuǎn)變。以前，我們只會把所有的精力傾注在極少數(shù)“地獄難度”的未解之謎上，而完全無視那些處于中等難度、數(shù)量龐大的其他問題。但現(xiàn)在，隨著 AI 工具的發(fā)力，我們作為數(shù)學家，開始批量釋放這些“我們想知道答案，但懶得自己算”的題庫。

也許 AI 只能解決其中的 10%，也許另一名高中生用 AI 又解決了 5%。但整體而言，我們正在迎來一種更具“社區(qū)驅(qū)動（Community-driven）”的數(shù)學研究新范式。

數(shù)學為什么是 AI 的天然溫床？

詹姆斯：Mark，你之前在分享中提到一個觀點，說 AI 在科學預測上已經(jīng)做得很好了，比如預測蛋白質(zhì)折疊（AlphaFold）、預測天氣，甚至預測物理狀態(tài)。但在數(shù)學和理論物理中，我們需要的是“推導”、“公式”和“證明”。

這種要求是不是對 AI 來說太苛刻了？或者說，要讓 AI 提供一條嚴密的邏輯證明鏈，而不是簡單地給出一個概率預測，難度是不是大得多？

Mark Chen：這是一個極其核心的問題，也是為什么我對 AI 在數(shù)學領(lǐng)域的應(yīng)用抱有極大期待的原因。

用一句大家都聽過的話來說：“數(shù)學，是一個試錯極其廉價的地方（Mathematics is a place where experiments are cheap）。” 也是一個“失敗極其廉價”的地方。

我們可以做一個對比。如果你是一名土木工程師，你的任務(wù)是造一座橋。如果橋塌了，這是一個極其昂貴的錯誤；如果你是一名外科醫(yī)生，切錯了器官，那代價無法估量。

但在數(shù)學里，當你試圖證明一個定理，哪怕你的證明策略徹底失敗了，那也不過是一次“廉價的錯誤”。

更關(guān)鍵的是，我們現(xiàn)在擁有了“形式化驗證系統(tǒng)（Formal Verification Systems）”（注：如 Lean 4 這樣的交互式定理證明器，能夠以代碼級的嚴謹度自動檢查數(shù)學證明中是否存在邏輯漏洞）。這簡直是為強化學習量身定制的判官。

在過去，AI 模型在復雜推理上經(jīng)常遭遇瓶頸，因為你很難在大規(guī)模上給模型的思考過程進行打分。但現(xiàn)在，因為有了這些嚴苛的代碼驗證器，我們可以明確地告訴 AI 什么時候做對了，什么時候做錯了。這就形成了一個完美的閉環(huán)。

詹姆斯：所以，這種嚴格的規(guī)則反而成了解放 AI 能力的鑰匙？

Mark Chen：完全正確。只要我們能用清晰的規(guī)則（比如形式化語言）去評判它，AI 就能爆發(fā)出驚人的力量。

你看我們在編程和數(shù)學奧林匹克（IMO）中看到的那些重大進展。當我們能提供明確、高難度的指標讓大模型去挑戰(zhàn)時，它的進化速度是指數(shù)級的。但遺憾的是，很多極其重要的現(xiàn)實能力，是無法被這樣輕易量化的。

舉個例子，人類之間是如何協(xié)作的？我們常說兩個人合作時有沒有“默契（Vibes）”。但在強化學習（RL）里，你該如何去計算和獎勵一段“默契”的合作？（全場大笑）

這正是目前 AI 對齊（Alignment）領(lǐng)域最頭疼的問題。我們希望模型具備高超的硬核科學能力，同時又希望它在和人類交互時是個“好隊友”。但在訓練中我們發(fā)現(xiàn)，很多時候你越是要求它表現(xiàn)得溫和、配合，它在極端理性推理上的能力就越容易受損。這是我們接下來一年要重點解決的平衡難題。

AI 會創(chuàng)造新的“微積分”嗎？

觀眾提問 1：在諸多科學領(lǐng)域中，比如物理或生物學，最偉大的突破往往不是“證明了某個已知定理”，而是創(chuàng)造了一個全新的理論框架（New Paradigm），或者說是創(chuàng)造了一個全新的“世界模型（World Models）”。目前我們使用的主要是預測下一個 Token（Next-token prediction）的生成式模型。你們認為，未來的 AI 會具備這種“建模整個物理世界”的能力，從而幫我們發(fā)現(xiàn)類似廣義相對論那樣的新框架嗎？

Mark Chen：這是一個非常深刻的問題。首先，我們需要厘清“世界模型”這個概念。

大語言模型（LLM）本身也是一種世界模型。它把人類所有的文本知識壓縮在它的權(quán)重里。當你問它物理問題時，它確實能展現(xiàn)出某種對物理規(guī)律的理解。但如果我們談?wù)摰氖?strong>“純數(shù)字原生”的世界模型——即不通過語言，而是通過與數(shù)字環(huán)境交互來直接模擬物理世界——這確實是另一個維度的挑戰(zhàn)。

我們在開發(fā)視頻生成模型（比如 Sora）以及一些游戲引擎的模擬中發(fā)現(xiàn)，當我們強迫 AI 去模擬物理規(guī)律時，它常常會展現(xiàn)出極強的“漏洞利用（Exploitation）”本能。

這有點像你訓練一個 AI 玩游戲，如果你給它的獎勵機制設(shè)置得不夠完美，它不會去學習如何優(yōu)雅地通關(guān)，而是會敏銳地發(fā)現(xiàn)游戲引擎的一個 Bug，然后利用這個 Bug 瘋狂刷分。

當你試圖用純 AI 來取代一個基于硬核物理法則（如 Navier-Stokes 方程）編寫的流體力學模擬器時，最可怕的事情不是它學不會，而是它會為了最大化得分，在某個邊緣情況中“虛構(gòu)”出一套荒謬的物理規(guī)律。這種脫離了真實物理驗證的“自由想象”，在科學研究中是極其危險的。

這也是為什么我們目前依然堅持：AI 的核心價值在于“作為人類智力的加速器”，而不是讓它在一套缺乏地基的虛擬系統(tǒng)里獨自造神。

陶哲軒：我非常同意 Mark 的觀點。

在數(shù)學研究中，情況也是類似的。很多公眾對 AI 的期待有一種誤解，以為 AI 就是一個無所不知的神諭機，你輸入一個問題，它吐出一個完美的答案。如果它做不到，大家就會說它不過如此。

但這其實剝奪了科學探索中最寶貴的東西——我們想要的并不只是答案，我們真正渴望的是推導答案的那個過程。

目前 AI 在處理那些需要全新概念（New Concepts）的數(shù)學問題時，依然表現(xiàn)得像個蹣跚學步的孩子。如果一個問題需要借用幾個不同領(lǐng)域的已知理論，AI 的表現(xiàn)會堪稱驚艷。但如果要解決的問題需要一種人類文獻中從未出現(xiàn)過的思考路徑，AI 就無能為力了。

但我并不認為這是一種局限。相反，這完美地界定了人類與 AI 的協(xié)作邊界。

就像我剛才說的，數(shù)學的海洋是無邊無際的。有少部分問題，需要天才的直覺、需要十年如一日的死磕、需要創(chuàng)造出類似“微積分”這樣的全新范式才能解決。這部分工作，目前依然、也將長期屬于人類。

但數(shù)學世界里更多的，是那數(shù)以百萬計的、難度中等、繁瑣枯燥的“長尾問題”。這些問題同樣構(gòu)成了人類知識大廈的基石，但過去我們根本沒有足夠的人力去處理。

這就是 AI 接下來要大顯身手的地方。它不會立刻寫出超越愛因斯坦的理論，但它會在接下來的幾年里，以我們無法想象的速度，清掃掉科學大廈里所有的灰塵與盲區(qū)。

而當這一切完成時，人類的科學家們，終于可以卸下所有的包袱，站在 AI 鋪設(shè)好的地基上，去眺望更遠的星空。

詹姆斯：我想，沒有比這更精彩的結(jié)語了。無論是作為一位被“賦能”的純粹數(shù)學家，還是作為正在打造這些“數(shù)字大腦”的工程師，你們?yōu)槲覀兘沂玖艘粋€充滿無限可能的時代。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.