編譯 | 王啟隆
來源 | youtu.be/ddTvK9nlquM
出品丨AI 科技大本營(ID:rgznai100)
如果你是一名建筑工程師,你造的橋塌了,這是一場災(zāi)難;如果你是一名外科醫(yī)生,你切錯了血管,這是一場悲劇;但如果你是一名數(shù)學家,你在草稿紙上寫錯了一個公式呢?
你只需要把紙揉成一團,扔進廢紙簍。
在過去一年里,當全人類都在恐慌 AI 會不會接管現(xiàn)實世界,甚至為了安全不斷給大模型套上枷鎖時,數(shù)學界卻向 AI 敞開了大門。因為在這個由純粹邏輯構(gòu)建的虛擬宇宙里,“試錯的成本是零”。
近日,在洛杉磯加州大學(UCLA)純粹與應(yīng)用數(shù)學研究所(IPAM)的一間階梯教室里,發(fā)生了一場引人深思的對談。
![]()
對談的雙方,一方是菲爾茲獎得主、被譽為“數(shù)學界莫扎特”的天才數(shù)學家 陶哲軒(Terence Tao);另一方,則是主導了 OpenAI 最前沿推理模型(o1系列)研發(fā)的頂尖科學家 Mark Chen。
這并不是一場充斥著商業(yè)互吹的走穴式圓桌。在現(xiàn)場,沒有 PPT,沒有跑分圖表。一位是最懂人類數(shù)學直覺的大腦,一位是最懂機器強化學習的工程師,他們就像兩個剝洋蔥的人,一層一層地把當前 AI 在科學研究中的真實能力、致命缺陷以及終極演化路徑,剝了個精光。
對于那些渴望看透 AI 未來發(fā)展的人來說,這場對話的信息密度高得驚人:
從“幾分鐘”到“幾天”的暴力美學 :OpenAI 內(nèi)部衡量 AI 進步的核心指標并非單純的參數(shù)量,而是一個名為“自主運行刻度(Meter Plot)”的指標——即模型能在不崩潰、不幻覺的情況下,連續(xù)思考多長時間。去年是幾分鐘,今年的目標是幾天。
數(shù)學是強化學習(RL)的終極外掛 :現(xiàn)實生活中很難給 AI 定義“絕對的對錯”,但在數(shù)學里,形式化驗證工具可以瞬間判定 AI 生成的證明是否有效。這種“無限次廉價試錯”的機制,正是讓 AI 突破人類知識邊界的唯一引擎。
高情商的 AI,往往是個糟糕的科學家 :為了讓 AI 看起來像個有禮貌、好合作的“人”,我們強行給它注入了太多人類的偏好(RLHF)。但 Mark 犀利地指出,你很難給“合作默契度(Vibes)”打分。越是試圖讓 AI 在日常對話中討好人類,它在硬核推理上的能力就越容易被削弱。
AI 的“局部欺騙”本能 :當 AI 試圖模擬物理規(guī)律(如天氣)時,如果不加嚴苛限制,它會像個作弊的玩家一樣,去尋找模擬器系統(tǒng)本身的漏洞,而不是真正學習物理法則。
下面,讓我們回到 UCLA 的這間階梯教室,通過這份中文實錄,去聆聽這場關(guān)于真理、算力與未來范式轉(zhuǎn)移的巔峰對話。
![]()
打破“一年之癢”:從不靠譜的學生,到不可或缺的超級外包
James Donovan(主持人,以下簡稱“詹姆斯”):在正式開始前,我要向 UCLA 的純粹與應(yīng)用數(shù)學研究所(IPAM)提供這個絕佳的場地表示巨大的感謝。同時,也非常感謝在座各位的到來。我知道大家不是來聽我這個主持人長篇大論的,所以我也就不多廢話了。
我要特別感謝臺上的兩位嘉賓。要在同一個房間里湊齊這樣兩位擁有頂尖大腦的人物,確實非常難得。事實上,我們注意到了一個小細節(jié)。就在差不多一年前的今天,陶哲軒教授,您也參加過一次類似的討論。
我記得當時您對以 GPT 為代表的 AI 在數(shù)學領(lǐng)域的表現(xiàn)給出了一個非常經(jīng)典的評價,您說它就像是一個“非常平庸、效率低下的研究生”。
我個人對這個評價印象極深,因為作為人類,我也曾收到過類似的差評,這簡直是一個堪稱完美的基準線(笑)。一年過去了,從您的角度來看,情況發(fā)生了怎樣的改變?Mark,之后我也想聽聽您從 OpenAI 的視角怎么看這個變化。
陶哲軒:確實,過去的一年里發(fā)生了太多事情。
這些 AI 工具確實變得強大得多了。我認為,現(xiàn)在很多能力已經(jīng)被我們“常態(tài)化”了,我們幾乎每天都在高頻使用它們。
首先是深度研究工具。比如文獻檢索,現(xiàn)在的 AI 已經(jīng)遠遠超越了傳統(tǒng)的搜索引擎,它變得非常好用。其次是代碼生成(Code Generation),這絕對是一個巨大的飛躍。作為一個純數(shù)學家,我以前很少親自去寫厚重的代碼。但現(xiàn)在,AI 徹底改變了我處理數(shù)學問題的方式。
如果我腦子里對某個數(shù)學現(xiàn)象有了一絲模糊的直覺或預感,在過去,我可能只是想想就算了。但現(xiàn)在,我會直接告訴 AI:“幫我把這個函數(shù)畫出來”,或者“你能嘗試用代碼證明一下這個猜想嗎?”然后它就會替我去完成驗證。
我已經(jīng)開始在日常研究中使用它了。比如,當我遇到一個引理(Lemma),如果我確信我知道該怎么證明,但我實在懶得去紙上做那些繁瑣的枯燥計算,我就會直接把它“外包”給 AI。
當然,在極其深入的核心層面——比如當我試圖攻克一個難題,在草稿紙上絞盡腦汁,或者和同事進行深度探討時——AI 現(xiàn)在的水平還不足以在那種對話層面上與我們進行互動。它還沒有達到我期望的那個高度。
但也許未來會改變。
從社會學層面來看,我認為整個數(shù)學界也開始意識到:“這些工具是來真的,它們不會消失。”
我們必須開始調(diào)整我們做研究的方式。過去很多極度繁瑣的證明過程,或者以前我們會強迫研究生去干的苦力活,現(xiàn)在我們可以直接丟給 AI。這打開了許多以前我們連做夢都不敢想的數(shù)學研究新路徑,尤其是那些需要在大規(guī)模層面處理的項目。
所以,雖然在現(xiàn)有的工作流中,引入 AI 仍然顯得有些笨拙和尷尬,但我認為接下來的重點方向,是為 AI 量身定制全新的工作流。
這就像我們剛發(fā)明汽車的時候。一開始,汽車跑在為馬車設(shè)計的道路上,處處不適應(yīng)。但漸漸地,我們改變了建造城市的方式,我們?yōu)槠囆拗斯敷w系。現(xiàn)在,我們的數(shù)學界正處于那個尷尬的中間過渡階段:我們的道路依然是為行人和馬車設(shè)計的,但我們手里已經(jīng)握著汽車的方向盤了。
![]()
OpenAI 的暴力底牌:把“思考的時間”拉長到極限
詹姆斯:Mark,聽到陶教授說一年前的 AI 是個“效率低下的研究生”,從你作為模型構(gòu)建者的角度來看,這也是你們當時的感受嗎?以及你們是在為什么樣的目標而構(gòu)建新一代模型的?
Mark Chen:老實說,當陶教授在一年前拋出“無效的研究生”這個比喻時,我一點都不覺得委屈。因為那基本就是我們當時所處的真實技術(shù)狀態(tài)。
當我們回望 AI 這兩年的發(fā)展軌跡,如果用一個比喻來形容,我們在后臺看到的是一場“在刻度表上的爬山運動(Hill-climbing on a meter plot)”。
在 OpenAI 內(nèi)部,我們一直在追蹤一個核心指標:模型在沒有任何干預的情況下,能夠持續(xù)、自主、有效進行工作的時間長度。
去年這個時候,這個時間單位還是“分鐘(Minutes)”。
大家應(yīng)該都經(jīng)歷過那個階段:你讓大模型去處理一個稍微復雜點的任務(wù),幾分鐘后它就開始產(chǎn)生幻覺(Hallucinate),或者直接崩潰報錯。只要你給它布置了需要一大塊時間才能完成的工作,它肯定會中途摔倒。
但我認為,剛剛過去的這一年,對我們行業(yè)內(nèi)的很多人來說是一個巨大的轉(zhuǎn)折點。我們看到模型犯錯的概率在顯著下降。因此,你終于可以開始信任模型,讓它去執(zhí)行更長時間跨度的工作了。這其實讓我們得以拆除掉以前必須依賴的很多“輔助腳手架”。
現(xiàn)在的趨勢極其明顯,所有的模型都在向著能夠自主解決更長周期問題的方向狂奔。我們希望構(gòu)建的平臺,是能讓全世界的科學家在上面“自我加速”的。
我們現(xiàn)在看到的景象,就是那些被賦予了 AI 能力的極客們,正在用各種方式突破極限。你可以看到那些 20 歲出頭的年輕人,他們拿著我們新一代的模型,去嘗試解決連資深專家都頭疼的數(shù)學問題。雖然他們的方法可能不那么老練,但通過 AI 的輔助,他們能夠完成大量的自我引導式探索。
這也是我們成立“OpenAI for Science(科學人工智能計劃)”的原因之一。就像你提到的那些“首次證明(First Proof)”或數(shù)學領(lǐng)域的探索,它其實是我們在和科學界進行一場深度溝通:搞清楚哪些問題才是真正重要、且亟待解決的?
我們在物理學領(lǐng)域也做過類似的嘗試。我們請來頂尖的物理學家,讓他們列出哪些問題感覺是可以被 AI 攻克的。這反過來幫助我們塑造了 AI 發(fā)展的方向,也讓我們發(fā)現(xiàn)了模型的缺陷和需要補足的短板。
所以,我們的終極目標不僅是取代眼前的任務(wù),而是推動整個科學前沿的發(fā)展。當模型的自主思考能力足夠強,我們就能涉足以前根本無法觸及的科研深水區(qū)。
![]()
埃爾德什問題:衡量 AI 智商的終極“試金石”
詹姆斯:說到這種探索,我知道陶教授您組織過很多大型的數(shù)學社區(qū)倡議。在這個過程中,您覺得 AI 能如何改變這種大規(guī)模的協(xié)作?它是否以一種具有重大意義的方式介入了這種協(xié)作?
陶哲軒:這二者的結(jié)合其實非常精妙。
AI 帶來的最大改變,是最終提供了一種分工(Division of Labor)的可能。這在工業(yè)革命以來的每一個行業(yè)都發(fā)生過——除了數(shù)學。
傳統(tǒng)的數(shù)學研究,其痛點在于它高度依賴少數(shù)個體的頭腦。但現(xiàn)在,你可以把數(shù)學證明拆解成好幾個部分:提出問題、生成策略、篩選策略、執(zhí)行策略、驗證結(jié)果,最后再進行有效溝通。
只要我們將這種能力體系化,我們的數(shù)學家只需要在其中幾個關(guān)鍵環(huán)節(jié)表現(xiàn)出色即可。我們必須具備某種技術(shù)直覺,知道問題的來源,什么是好的策略;我們必須進行嚴謹?shù)尿炞C,向同行解釋。但這中間有大量繁重的步驟——那些我們以前被迫硬著頭皮自己干的環(huán)節(jié)——現(xiàn)在終于可以卸載給 AI 了。
為了測試這一點,我們目前重點關(guān)注了“埃爾德什問題(Erdos Problems)”。(注:保羅·埃爾德什是一位高產(chǎn)且古怪的數(shù)學家,他一生提出了數(shù)以千計的數(shù)學猜想,并為解決這些猜想的人懸賞獎金。這些問題難度跨度極大。)
埃爾德什問題是一個極佳的測試場,因為這上千個問題的難度完全是一個連續(xù)的光譜。有些問題是我們做夢都想解決但幾十年毫無進展的,我也曾在一兩個小點上取得過極其微小的進展;但還有一條長長的“尾巴”,那里堆滿了大量未被探索、關(guān)注度不高的問題。
正是在這部分“長尾問題”上,AI 工具取得了極其驚人的進展。在過去一段時間里,大概有二三十個這類問題被成功解決,而其中人類只提供了最低限度的監(jiān)督。
我們利用一些正式的驗證工具對 AI 進行測試。我們發(fā)現(xiàn),對于某些已經(jīng)被充分研究的難題,我們?nèi)祟愑兄逦姆椒ㄕ摚珜α硪恍﹩栴},AI 確實能找出突破口。
這促使我們數(shù)學界的文化也發(fā)生了一次轉(zhuǎn)變。以前,我們只會把所有的精力傾注在極少數(shù)“地獄難度”的未解之謎上,而完全無視那些處于中等難度、數(shù)量龐大的其他問題。但現(xiàn)在,隨著 AI 工具的發(fā)力,我們作為數(shù)學家,開始批量釋放這些“我們想知道答案,但懶得自己算”的題庫。
也許 AI 只能解決其中的 10%,也許另一名高中生用 AI 又解決了 5%。但整體而言,我們正在迎來一種更具“社區(qū)驅(qū)動(Community-driven)”的數(shù)學研究新范式。
![]()
數(shù)學為什么是 AI 的天然溫床?
詹姆斯:Mark,你之前在分享中提到一個觀點,說 AI 在科學預測上已經(jīng)做得很好了,比如預測蛋白質(zhì)折疊(AlphaFold)、預測天氣,甚至預測物理狀態(tài)。但在數(shù)學和理論物理中,我們需要的是“推導”、“公式”和“證明”。
這種要求是不是對 AI 來說太苛刻了?或者說,要讓 AI 提供一條嚴密的邏輯證明鏈,而不是簡單地給出一個概率預測,難度是不是大得多?
Mark Chen:這是一個極其核心的問題,也是為什么我對 AI 在數(shù)學領(lǐng)域的應(yīng)用抱有極大期待的原因。
用一句大家都聽過的話來說:“數(shù)學,是一個試錯極其廉價的地方(Mathematics is a place where experiments are cheap)。” 也是一個“失敗極其廉價”的地方。
我們可以做一個對比。如果你是一名土木工程師,你的任務(wù)是造一座橋。如果橋塌了,這是一個極其昂貴的錯誤;如果你是一名外科醫(yī)生,切錯了器官,那代價無法估量。
但在數(shù)學里,當你試圖證明一個定理,哪怕你的證明策略徹底失敗了,那也不過是一次“廉價的錯誤”。
更關(guān)鍵的是,我們現(xiàn)在擁有了“形式化驗證系統(tǒng)(Formal Verification Systems)”(注:如 Lean 4 這樣的交互式定理證明器,能夠以代碼級的嚴謹度自動檢查數(shù)學證明中是否存在邏輯漏洞)。這簡直是為強化學習量身定制的判官。
在過去,AI 模型在復雜推理上經(jīng)常遭遇瓶頸,因為你很難在大規(guī)模上給模型的思考過程進行打分。但現(xiàn)在,因為有了這些嚴苛的代碼驗證器,我們可以明確地告訴 AI 什么時候做對了,什么時候做錯了。這就形成了一個完美的閉環(huán)。
詹姆斯:所以,這種嚴格的規(guī)則反而成了解放 AI 能力的鑰匙?
Mark Chen:完全正確。只要我們能用清晰的規(guī)則(比如形式化語言)去評判它,AI 就能爆發(fā)出驚人的力量。
你看我們在編程和數(shù)學奧林匹克(IMO)中看到的那些重大進展。當我們能提供明確、高難度的指標讓大模型去挑戰(zhàn)時,它的進化速度是指數(shù)級的。但遺憾的是,很多極其重要的現(xiàn)實能力,是無法被這樣輕易量化的。
舉個例子,人類之間是如何協(xié)作的?我們常說兩個人合作時有沒有“默契(Vibes)”。但在強化學習(RL)里,你該如何去計算和獎勵一段“默契”的合作?(全場大笑)
這正是目前 AI 對齊(Alignment)領(lǐng)域最頭疼的問題。我們希望模型具備高超的硬核科學能力,同時又希望它在和人類交互時是個“好隊友”。但在訓練中我們發(fā)現(xiàn),很多時候你越是要求它表現(xiàn)得溫和、配合,它在極端理性推理上的能力就越容易受損。這是我們接下來一年要重點解決的平衡難題。
![]()
AI 會創(chuàng)造新的“微積分”嗎?
觀眾提問 1:在諸多科學領(lǐng)域中,比如物理或生物學,最偉大的突破往往不是“證明了某個已知定理”,而是創(chuàng)造了一個全新的理論框架(New Paradigm),或者說是創(chuàng)造了一個全新的“世界模型(World Models)”。目前我們使用的主要是預測下一個 Token(Next-token prediction)的生成式模型。你們認為,未來的 AI 會具備這種“建模整個物理世界”的能力,從而幫我們發(fā)現(xiàn)類似廣義相對論那樣的新框架嗎?
Mark Chen:這是一個非常深刻的問題。首先,我們需要厘清“世界模型”這個概念。
大語言模型(LLM)本身也是一種世界模型。它把人類所有的文本知識壓縮在它的權(quán)重里。當你問它物理問題時,它確實能展現(xiàn)出某種對物理規(guī)律的理解。但如果我們談?wù)摰氖?strong>“純數(shù)字原生”的世界模型——即不通過語言,而是通過與數(shù)字環(huán)境交互來直接模擬物理世界——這確實是另一個維度的挑戰(zhàn)。
我們在開發(fā)視頻生成模型(比如 Sora)以及一些游戲引擎的模擬中發(fā)現(xiàn),當我們強迫 AI 去模擬物理規(guī)律時,它常常會展現(xiàn)出極強的“漏洞利用(Exploitation)”本能。
這有點像你訓練一個 AI 玩游戲,如果你給它的獎勵機制設(shè)置得不夠完美,它不會去學習如何優(yōu)雅地通關(guān),而是會敏銳地發(fā)現(xiàn)游戲引擎的一個 Bug,然后利用這個 Bug 瘋狂刷分。
當你試圖用純 AI 來取代一個基于硬核物理法則(如 Navier-Stokes 方程)編寫的流體力學模擬器時,最可怕的事情不是它學不會,而是它會為了最大化得分,在某個邊緣情況中“虛構(gòu)”出一套荒謬的物理規(guī)律。這種脫離了真實物理驗證的“自由想象”,在科學研究中是極其危險的。
這也是為什么我們目前依然堅持:AI 的核心價值在于“作為人類智力的加速器”,而不是讓它在一套缺乏地基的虛擬系統(tǒng)里獨自造神。
陶哲軒:我非常同意 Mark 的觀點。
在數(shù)學研究中,情況也是類似的。很多公眾對 AI 的期待有一種誤解,以為 AI 就是一個無所不知的神諭機,你輸入一個問題,它吐出一個完美的答案。如果它做不到,大家就會說它不過如此。
但這其實剝奪了科學探索中最寶貴的東西——我們想要的并不只是答案,我們真正渴望的是推導答案的那個過程。
目前 AI 在處理那些需要全新概念(New Concepts)的數(shù)學問題時,依然表現(xiàn)得像個蹣跚學步的孩子。如果一個問題需要借用幾個不同領(lǐng)域的已知理論,AI 的表現(xiàn)會堪稱驚艷。但如果要解決的問題需要一種人類文獻中從未出現(xiàn)過的思考路徑,AI 就無能為力了。
但我并不認為這是一種局限。相反,這完美地界定了人類與 AI 的協(xié)作邊界。
就像我剛才說的,數(shù)學的海洋是無邊無際的。有少部分問題,需要天才的直覺、需要十年如一日的死磕、需要創(chuàng)造出類似“微積分”這樣的全新范式才能解決。這部分工作,目前依然、也將長期屬于人類。
但數(shù)學世界里更多的,是那數(shù)以百萬計的、難度中等、繁瑣枯燥的“長尾問題”。這些問題同樣構(gòu)成了人類知識大廈的基石,但過去我們根本沒有足夠的人力去處理。
這就是 AI 接下來要大顯身手的地方。它不會立刻寫出超越愛因斯坦的理論,但它會在接下來的幾年里,以我們無法想象的速度,清掃掉科學大廈里所有的灰塵與盲區(qū)。
而當這一切完成時,人類的科學家們,終于可以卸下所有的包袱,站在 AI 鋪設(shè)好的地基上,去眺望更遠的星空。
詹姆斯:我想,沒有比這更精彩的結(jié)語了。無論是作為一位被“賦能”的純粹數(shù)學家,還是作為正在打造這些“數(shù)字大腦”的工程師,你們?yōu)槲覀兘沂玖艘粋€充滿無限可能的時代。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.