![]()
反復(fù)做“預(yù)測(cè)下一步”這件事,和一個(gè)作者真正去構(gòu)思、組織、寫出一篇文章,差異是很大的。
編譯 | 王啟隆
出品丨AI 科技大本營(ID:rgznai100)
在心理學(xué)界,有一個(gè)相當(dāng)奇特的實(shí)驗(yàn):那些接受過肉毒桿菌(Botox)注射、面部肌肉被暫時(shí)凍結(jié)的人,在閱讀他人的面部表情時(shí),其同理心和理解情緒的能力會(huì)顯著下降。人類之所以能感知到對(duì)面的喜怒哀樂,很大程度上依賴于潛意識(shí)中對(duì)他人面部肌肉的“微模仿”。
科普視頻博主 Grant Sanderson(3Blue1Brown 的主理人)在最近一檔播客里,用這個(gè)例子做引解釋:AI 寫的文章之所以有一股揮之不去的機(jī)器味(slop),就是因?yàn)闄C(jī)器沒有肉身。它能背下所有人類的詞匯,但由于缺乏生理上的模仿機(jī)制,它根本不具備真正的心智模型(Theory of Mind),也無法理解它所寫下的情感。
![]()
這種對(duì)“理解”的糾結(jié),貫穿了 Grant 所有的思考。在數(shù)學(xué)這個(gè)大模型進(jìn)步最快的領(lǐng)域里,真實(shí)的圖景其實(shí)極度偏科。靠著暴力搜索,AI 已經(jīng)能在 19 秒內(nèi)做對(duì)奧數(shù)(IMO)里的幾何題;但碰到更像拼圖和謎題、需要極強(qiáng)游戲心態(tài)的“組合數(shù)學(xué)”,它依然瘋狂卡殼。
Grant 覺得,即便哪天 AI 靠算力堆砌證出了黎曼猜想,也可能不是什么好事。如果它給出的證明長達(dá)一千頁,全是沒有美感的邏輯推導(dǎo),這在學(xué)術(shù)上雖然是正確的“證明(Proof)”,但對(duì)人類來說依舊是看不懂的,因?yàn)樗鼪]有提供任何“解釋(Explanation)”。人類需要的,其實(shí)是被深度壓縮、能帶來直覺的優(yōu)雅概念。
在與 Dwarkesh Patel 長達(dá)一個(gè)多小時(shí)的白描式對(duì)話中,Grant 聊了聊算法的局限、人類心智的獨(dú)特,以及教師和科普作者在后 AI 時(shí)代唯一的安全網(wǎng):
沒有可以用來模仿表情的“面部肌肉”,AI 永遠(yuǎn)寫不出觸動(dòng)人類靈魂的文章。 人類理解情緒的底層邏輯是“潛意識(shí)中的肌肉微模仿”。AI 沒有肉體,沒有真實(shí)生理上的模仿機(jī)制,這導(dǎo)致它在底層不具備理解他人想法的心智模型。大模型在語法上可以做到完美,但在觸動(dòng)情感的層面,目前還只是懸空的詞匯游戲。
即使 AI 證出了黎曼猜想,如果寫滿了一千頁,對(duì)人類也毫無意義。 科學(xué)的最終目的是理解,而不僅僅是堆砌邏輯。無可挑剔的邏輯鏈條只能叫“證明”,只有被高度壓縮、能帶來直覺的概念才叫“解釋”。如果 AI 的證明極其漫長且枯燥,人類在其中并不能獲得對(duì)數(shù)學(xué)和客觀宇宙的洞察。
AI 可以把課講得完美無缺,但家長只愿意為“活人”老師付高薪。 教學(xué)和知識(shí)的篩選本質(zhì)上是一種人際社交現(xiàn)象。教育不僅是單純的信息單向傳輸,更是基于人際信任和情感互動(dòng)的教練過程。即使 AI 再完美,只要人類還生活在社會(huì)關(guān)系中,活人教師提供的情感聯(lián)聯(lián)結(jié)和督導(dǎo)就是無法被替代的。
能 19 秒盲解奧數(shù)幾何題的大模型,在小學(xué)生的組合數(shù)學(xué)謎題前依然極度掙扎。 靠著暴力搜索算法,AI 自 2024 年起就能實(shí)現(xiàn)幾何題目的秒通關(guān) ;但在面對(duì)更需要游戲心態(tài)、偏拼圖性質(zhì)的組合數(shù)學(xué)時(shí),由于無法單純用物理和暴力計(jì)算解決,它依然卡殼。模型的智能并不是平整的,它依然有著巨大的短板。
![]()
![]()
領(lǐng)取地址:https://boolan.com/enroll/c1049/event/1152?channel=gzh
解出幾何并不等于有了創(chuàng)造力:大模型的數(shù)學(xué)天賦其實(shí)極度偏科
主持人:今天和我聊天的是 Grant Sanderson。他運(yùn)營著 3Blue1Brown,現(xiàn)在也在做一個(gè)新項(xiàng)目,記錄 AI 在數(shù)學(xué)領(lǐng)域取得的進(jìn)展。我之所以特別想和你聊這個(gè),是因?yàn)樵谒蓄I(lǐng)域里,AI 在數(shù)學(xué)上的進(jìn)步似乎是最快的。這里正在發(fā)生的事,以及我們正在看到的 AI 進(jìn)步究竟如何發(fā)生、又在哪些地方?jīng)]有發(fā)生,都會(huì)告訴我們:隨著 AI 變得越來越強(qiáng),世界其他部分將會(huì)發(fā)生什么。
我想先從一個(gè)問題開始。這是我三年前第一次采訪你時(shí)問過你的。我當(dāng)時(shí)問:一旦我們有了能在國際數(shù)學(xué)奧林匹克競(jìng)賽(International Math Olympiad, IMO)里拿金牌的 AI,那不就等于 AGI 了嗎?這些題這么難,它難道不就該能做任何人類能做的事了嗎?
你當(dāng)時(shí)給了一個(gè)答案。回頭看,那真是既明智又正確。你說,這只會(huì)成為又一個(gè)基準(zhǔn),就像 AI 正在通過的其他那些基準(zhǔn)一樣。顯然,從那之后,AI 的確在一種更普遍的意義上變強(qiáng)了,但它不會(huì)在那個(gè)時(shí)刻突然出現(xiàn)某種頓悟時(shí)刻(AHA Moment)。
首先,我很好奇,你對(duì)為什么這件事最終確實(shí)如此,有什么直覺判斷。其次,我也很好奇,你覺得這種“狹窄能力”還能持續(xù)多久。等到 AI 真正解決了某個(gè)千禧年大獎(jiǎng)難題(Millennium Prize Problem)的時(shí)候,你是否覺得,經(jīng)濟(jì)中仍然可能有大量人類正在做、而 AI 依舊無法自動(dòng)化的任務(wù)?
Grant Sanderson:這是個(gè)很有意思的問題,因?yàn)樵诓恢馈敖夥ㄩL什么樣”之前,其實(shí)很難回答。拿 IMO 來說,三年前你那個(gè)問題背后的直覺是:這些題目的某些解法,看上去確實(shí)需要?jiǎng)?chuàng)造力。出題人也確實(shí)會(huì)刻意設(shè)計(jì)那種不容易靠訓(xùn)練硬刷出來的題。
但 IMO 有個(gè)不太光鮮的秘密:其中很多題,其實(shí)你真的是可以訓(xùn)練出來的。就像你說的,現(xiàn)在整個(gè)“AI 與數(shù)學(xué)”項(xiàng)目正在推進(jìn),而它之所以有意思,其中一個(gè)原因正是:AI 的能力前沿是尖刺狀的,而數(shù)學(xué)恰好就在其中一根尖刺上。
不過,這種尖刺性本身又帶帶有分形結(jié)構(gòu)。因?yàn)槿绻惴糯笕タ磾?shù)學(xué)內(nèi)部的具體進(jìn)展,就會(huì)發(fā)現(xiàn),有些事明顯比另外一些容易得多。只說 IMO 的話——到現(xiàn)在其實(shí)都已經(jīng)算舊聞了。它們真正表現(xiàn)得相當(dāng)不錯(cuò),已經(jīng)是兩年前的事了。2024 年如果不是因?yàn)橐粋€(gè)原因,他們本來已經(jīng)能拿金牌了。它們真的很強(qiáng),幾乎可以說是“冷啟動(dòng)”直接解幾何題。IMO 題目大致有四類:幾何、數(shù)論、代數(shù)、組合。幾何題從 2024 年開始,它基本上 19 秒就能解出來,因?yàn)樗举|(zhì)上是個(gè)暴力求解器。
這里還有另一個(gè)不太光鮮的秘密:對(duì)學(xué)生來說,幾何題其實(shí)也有某種“暴力破解”的辦法。真正的變數(shù)在組合題:它更像是在玩、更像謎題。那一年的試卷里有兩道組合題,但并不是每年都這樣。總共四類題、六道題,所以到底哪一類會(huì)出兩道,其實(shí)有運(yùn)氣成分。如果那年多幾道幾何題,它們就已經(jīng)拿到金牌了。
但它在組合題上會(huì)掙扎。一個(gè)想替“數(shù)學(xué)作為人類最后堡壘”守住火種的人,可能會(huì)說:這些題才更需要?jiǎng)?chuàng)造力。即便如此,你那個(gè)問題背后的精神——如果它能解一個(gè)千禧年大獎(jiǎng)難題,那是否也意味著它能勝任很多白領(lǐng)工作——其實(shí)是在暗示:從我們現(xiàn)在所處的位置,到那個(gè)階段之間的瓶頸,很可能和讓它更擅長白領(lǐng)工作的是同一種瓶頸。
我們可以從幾個(gè)不同角度來描繪。如果聚焦于黎曼假設(shè)(Riemann hypothesis),它的解法會(huì)是什么樣子?這些系統(tǒng)在某個(gè)特定知識(shí)領(lǐng)域里極其強(qiáng),能學(xué)得非常深;然后再在另一個(gè)領(lǐng)域也極其強(qiáng),再在另一個(gè)領(lǐng)域也一樣。你也提過這一點(diǎn)。一個(gè)系統(tǒng)擁有超人的廣度,對(duì)所有領(lǐng)域都知道得這么多,但偏偏還找不到把它們連起來的那些“閃電時(shí)刻”,這很奇怪。
不過我覺得,我們現(xiàn)在其實(shí)已經(jīng)開始看到一點(diǎn)火花了:它開始能在自己擅長的不同領(lǐng)域之間找到連接。我們等會(huì)兒應(yīng)該會(huì)聊到這個(gè)。如果黎曼假設(shè)的解法本質(zhì)上就像這樣——在不同領(lǐng)域之間建立連接——那在我看來,這和做好白領(lǐng)工作所需的能力,還是挺不一樣的。
而且,也有理由相信,那可能正是解法的性質(zhì)所在。不知道你知不知道 Hugh Montgomery 和 Freeman Dyson 在普林斯頓高等研究院(IAS)的那個(gè)故事。這有點(diǎn)岔題,但非常有趣。我不記得是不是在午餐時(shí)聊起來的,總之有個(gè)數(shù)論學(xué)家在研究黎曼 zeta 函數(shù)零點(diǎn)成對(duì)出現(xiàn)時(shí)的統(tǒng)計(jì)相關(guān)性。
黎曼假設(shè)討論的是:這些零點(diǎn)是不是全都落在一條直線上。他找到一個(gè)可以量化提問的問題,然后寫下了一個(gè)公式,樣子像是 1 除以正弦平方之類。物理學(xué)家 Freeman Dyson 一看就說:“我認(rèn)識(shí)這個(gè)表達(dá)式。它會(huì)出現(xiàn)在隨機(jī) Hermitian 矩陣(random Hermitian matrices)特征值的研究里。”而那又和研究原子核能級(jí)有關(guān)。
于是,人們意識(shí)到:這兩類看似完全不同對(duì)象的統(tǒng)計(jì)性質(zhì)竟然相同。這就引發(fā)了進(jìn)一步探索:隨機(jī)矩陣?yán)碚摚╮andom matrix theory)中,是否有某些方面與黎曼 zeta 函數(shù)有關(guān)。我覺得那里到底還有沒有果子可摘,可能至今都還算開放問題。但這種把兩個(gè)不同領(lǐng)域橋接起來的動(dòng)作——如果最終黎曼假設(shè)的解法,真的就是把這種思路再向前推進(jìn)一步——那就非常像我們預(yù)期大語言模型(LLM)會(huì)擅長的數(shù)學(xué)方式。它們精通量子物理,也精通解析數(shù)論(analytic number theory),按理說,它們應(yīng)該能看出這種相似性,而不需要像 Montgomery 和 Dyson 那樣,恰好在午餐時(shí)碰上、恰好聊到。這和白領(lǐng)工作完全不是一回事。你之所以很難把 AI 當(dāng)成編輯來用,并不是因?yàn)樗笆裁炊级徊钐婺惆涯莻€(gè)連接點(diǎn)找出來”。
另一種可能則是……該怎么類比呢?也許可以想想費(fèi)馬大定理(Fermat’s Last Theorem)。從費(fèi)馬提出這個(gè)問題,到最后真正的解法出現(xiàn),中間隔了很久,而最終的證明動(dòng)用了極其沉重的數(shù)學(xué) machinery(理論機(jī)器)。這個(gè)問題之美在于,它可以說得極其簡(jiǎn)單:關(guān)于 x^n + y^n = z^n,當(dāng) n 大于 3 時(shí),是否有整數(shù)解?
你會(huì)以為這應(yīng)該存在某種“初等數(shù)論”的解法,但據(jù)我們所知,并沒有。實(shí)際的解法——也許未來會(huì)有更簡(jiǎn)單的,但眼下看來,也許事情就只能這樣——是建立在一整套極其復(fù)雜的思想之上:一座圍繞橢圓曲線(elliptic curves)建立起來的高山,和另一座圍繞模形式(modular forms)建立起來的高山。你必須先把這兩座山都建起來,之后才能提出那個(gè)把它們聯(lián)系起來的正確問題。
如果黎曼假設(shè)的解法需要“再建一座新的山”,那種能力——提出正確新思想的能力——和它們現(xiàn)在表現(xiàn)出來的智能性質(zhì),感覺就足夠不一樣了。畢竟,這并不是你雇一個(gè)視頻剪輯師時(shí)需要的能力。但如果它真的能夠“建山”,能夠提出那種正確的新理論,凝結(jié)出我們?cè)撊绾卫斫庖粋€(gè)主題,那么這就是一種高得驚人的智能層級(jí)了。若它具備這種能力,而這種能力卻不滲透到數(shù)學(xué)之外的經(jīng)濟(jì)其他方面,那反而會(huì)令人吃驚。
主持人:至少可以這么說:哪怕它還不能字面意義上做每一件白領(lǐng)人類能做的事,它帶來的影響,也會(huì)是“變革性的”;而 IMO 拿金牌這件事本身,并沒有給世界帶來那樣的變革。
首先我得承認(rèn),我現(xiàn)在完全是在移動(dòng)門柱(moving the goalpost)。兩三年前我采訪 Dario 的時(shí)候,我問的是:為什么 AI 明明有如此龐大的知識(shí)儲(chǔ)備,卻還不能把不同想法連接起來,并借此做出新發(fā)現(xiàn)?這看上去像是這樣一種事:哪怕是一個(gè)中等聰明的人,如果知道這么多信息,也應(yīng)該能夠根據(jù)“這種藥會(huì)引發(fā)偏頭痛”“另一件事也有類似效應(yīng)”等線索,推導(dǎo)出一個(gè)醫(yī)學(xué)診斷,或者想到“也許同一種藥既能治這個(gè),也能治那個(gè)”。
從外行視角看,數(shù)學(xué)顯然就像是這樣一種領(lǐng)域:比如對(duì)單位距離問題猜想(unit distance problem conjecture)找到反例,就是這種能力的典型體現(xiàn)。所以我確實(shí)是在移動(dòng)門柱。那接下來就可以問:下一個(gè)基準(zhǔn)會(huì)是什么?既然 AI 現(xiàn)在已經(jīng)能做到“我們本來就覺得它應(yīng)該能做到”的事,那么再往后,什么樣的事情會(huì)顯得真正了不起?
這里有幾個(gè)候選。一個(gè)是:它能不能先提出“有意思的問題”;另一個(gè)是:它能不能創(chuàng)造出新的對(duì)象或新的概念化方式,從而建立一個(gè)領(lǐng)域,或者統(tǒng)一多個(gè)領(lǐng)域。先說第一個(gè)。我們現(xiàn)在之所以有這些千禧年大獎(jiǎng)難題,是因?yàn)閿?shù)學(xué)家先把它們挑了出來。黎曼之所以提出黎曼 zeta 函數(shù)這個(gè)對(duì)象,是因?yàn)樗X得這個(gè)函數(shù)的零點(diǎn)可能和素?cái)?shù)的分布密度有關(guān)。
能夠想清楚:為什么我們一開始就覺得這值得研究?為什么我們要構(gòu)造這樣一個(gè)對(duì)象,并圍繞它提問題——而且是提這個(gè)特定的問題——這似乎才像是下一個(gè)真正的基準(zhǔn)。
Grant Sanderson:你這里舉的兩個(gè)例子都非常好。順便說一下,如果有人對(duì)單位距離猜想好奇,Polylog 這個(gè)數(shù)學(xué)頻道有一期特別棒的視頻講它。
所有這類討論,都會(huì)迫使人們反思“做數(shù)學(xué)”到底是怎樣一個(gè)過程。大家會(huì)開始想:“這個(gè)東西居然能做出這種驚人的事,那這對(duì)我們意味著什么?” 那期視頻里有個(gè)人引用了一句很精彩的話:“好的數(shù)學(xué)家證明定理,偉大的數(shù)學(xué)家提出猜想,而最偉大的數(shù)學(xué)家提出定義。” 這幾乎和你的框架一模一樣。我們需要一個(gè)“猜想生成器”,然后還需要一個(gè)“定義生成器”。那才是頂級(jí)數(shù)學(xué)家。
我不太知道怎樣才能把這變成一個(gè) benchmark(基準(zhǔn))。通常我一想到“benchmark”這個(gè)詞,想到的就是一種門柱:球要么進(jìn)門了,要么沒進(jìn)。你可以很明確地說:“對(duì),這件事完成了。” 這部分是為了做 RLVR(基于可驗(yàn)證獎(jiǎng)勵(lì)的強(qiáng)化學(xué)習(xí)),但也不只是為了訓(xùn)練;更是為了讓你知道,在評(píng)價(jià)答案時(shí)自己沒有偷偷移動(dòng)門柱。OpenAI 可以拿“推翻單位距離猜想”做頭條,因?yàn)槟鞘且粋€(gè)清晰、明確的目標(biāo):它完成了。可如果你試著想象一個(gè)頭條是“GPT-5.4 提出了一個(gè)非常好的猜想”——“我們保證,大家都覺得這是個(gè)好猜想。” 這就完全不是同一個(gè)沖擊力了。
但這并不意味著它不是正確的思考方向。我會(huì)很驚訝,如果這件事最終真能表現(xiàn)成某種 benchmark 的樣子,比如打一個(gè)分,說明它“通過了”,因?yàn)槲覀兞炕艘粋€(gè)猜想有多好。我猜,真正會(huì)發(fā)生的情況更可能是:數(shù)學(xué)家和它合作時(shí),談?wù)撍恼Z氣會(huì)出現(xiàn)一種整體性的變化。
你剛提到的那個(gè)系列——現(xiàn)在其實(shí)還沒做出來,估計(jì)還得幾個(gè)月——形式上是我們采訪很多數(shù)學(xué)家。有意思的是,我們一年多以前就開始做這件事了,而現(xiàn)在回頭看,會(huì)發(fā)現(xiàn)他們談 AI 的語氣,在 2025 年中期和現(xiàn)在的 2026 年之間,已經(jīng)發(fā)生了一點(diǎn)變化。放在現(xiàn)實(shí)世界里,這其實(shí)只是很短的時(shí)間;放在 AI 世界里,卻像隔了好幾個(gè)紀(jì)元。我們現(xiàn)在真的能在這幾個(gè)“紀(jì)元”之間看出語氣的變化。
我覺得,衡量“生成猜想的能力”,最終會(huì)更偏主觀一些,要看這種語氣變化。數(shù)學(xué)家會(huì)說,他們不只是拿它來解題;而是當(dāng)他們退后一步、思考“這個(gè)研究領(lǐng)域本身應(yīng)該往哪里走”時(shí),和某個(gè)模型的對(duì)話,真的對(duì)他們有幫助。我不覺得你會(huì)以“又打下了一個(gè) benchmark”的頭條形式看到這件事。
概念性突破的驗(yàn)證循環(huán),可能長達(dá)一個(gè)世紀(jì)
主持人:這點(diǎn)非常有意思。那些你無法把它做成基準(zhǔn)的東西,通常也正是——至少在當(dāng)前范式下——你沒法輕易訓(xùn)練出來的東西。某種意義上說,benchmark 和 training environment(訓(xùn)練環(huán)境)之間并沒有本質(zhì)區(qū)別。
人們很容易提出某種二分法,說“這里有一個(gè)深層原因,解釋為什么 AI 做不到某件事”,結(jié)果往往只是因?yàn)槟阆脲e(cuò)了,過不了多久它就做到了。不過我還是準(zhǔn)備提出——
Grant Sanderson:——你還是會(huì)提出幾個(gè)的。
主持人:是的。很可能事實(shí)證明,在相對(duì)不遠(yuǎn)的將來,我們確實(shí)會(huì)找到辦法訓(xùn)練 AI 去做這些事。但看起來,這大概得和當(dāng)前的 RLVR 訓(xùn)練方式不一樣。
我真正好奇的是——而且在我看來,這也是推動(dòng)數(shù)學(xué)乃至科學(xué)整體很多重大進(jìn)展的核心動(dòng)力——提出一種理解問題的新方式,或一種理解世界的新方式:它能統(tǒng)一不同領(lǐng)域,催生全新的學(xué)科,甚至解決那些我們一開始根本沒想解決的問題。愛因斯坦之所以會(huì)思考廣義相對(duì)論(GR),并不是因?yàn)樗虢忉尮鉃槭裁磿?huì)彎曲、黑洞為什么存在。這些現(xiàn)象甚至不是他當(dāng)時(shí)迫切要解釋的東西。
至于數(shù)學(xué),作為一個(gè)完全外行、甚至可能根本沒說到點(diǎn)子上的人,我的印象是:對(duì)于同一個(gè)具體問題,往往存在不同的證明路徑。有些路徑會(huì)催生一種新的概念化方式,進(jìn)而產(chǎn)生一個(gè)全新的領(lǐng)域、全新的思維方式,并且極其富有生產(chǎn)力;另一些則不會(huì)。我好奇,你能不能講講伽羅瓦(Galois)如何提出群論(group theory),以及為什么他關(guān)于“五次方程沒有根式解”的那套思路,和阿貝爾(Abel)幾年前給出的另一個(gè)證明不一樣——后者并沒有誕生群論。
如果你想建立一個(gè)驗(yàn)證循環(huán),來判斷“群論是不是一個(gè)有趣的概念”“這里到底有沒有做出真正有價(jià)值的東西”“為什么這個(gè)證明更好”——那么這個(gè)驗(yàn)證循環(huán)很可能長達(dá)一百年。它要等密碼學(xué)出現(xiàn),等物理學(xué)進(jìn)展,等群論里的思想被發(fā)現(xiàn)可以用來理解物理中的對(duì)稱性。為什么它一開始就是個(gè)有生產(chǎn)力的概念,這個(gè)驗(yàn)證循環(huán)可能就是一百年。
Grant Sanderson:你這話戳中了我的某根神經(jīng),因?yàn)槲以?2022 年想做一個(gè)關(guān)于伽羅瓦的項(xiàng)目,后來擱置了,但我人生中有一年都在想他到底做了什么。這里有個(gè)風(fēng)險(xiǎn),就是我可能會(huì)一不小心講太久、太細(xì),你得適時(shí)拉住我。
它確實(shí)是你這個(gè)問題的完美例子,因?yàn)橐忉尀槭裁茨鞘莻€(gè)有價(jià)值的洞見,答案并不來自“立刻有用”。如果你在想 RLVR 環(huán)境,這種事情確實(shí)很難做。但也有意思的是:即便放在當(dāng)時(shí)的人類驗(yàn)證者那里,這種價(jià)值被承認(rèn),也花了很長時(shí)間。
愛因斯坦和廣義相對(duì)論不一樣,人們很快就能感覺到這是個(gè)好理論。伽羅瓦理論(Galois theory)之所以這么有趣,恰恰在于:你真的能看到,一個(gè)想法在整整一百年的時(shí)間里,流經(jīng)很多不同人的頭腦,最后才沉淀成數(shù)學(xué)共同體都認(rèn)定“這是好東西”的形態(tài)。稍微往回退一步……這個(gè)問題的背景你想聽嗎?我們都在學(xué)校學(xué)過二次公式。
主持人:我還以為你要說“我們都在學(xué)校學(xué)過群論”呢,看來是我錯(cuò)過那節(jié)課了。
Grant Sanderson:“我們都學(xué)過群論”……不是,我是說二次公式。這東西早就知道了。某種意義上,希臘人就已經(jīng)會(huì)解二次方程了,只不過他們并不真的用代數(shù)方式來寫。真正把公式寫出來的,其實(shí)是阿拉伯人。
接下來有個(gè)很有意思的故事:幾個(gè)意大利數(shù)學(xué)家彼此“決斗”——不是真的打架,而是智力挑戰(zhàn)——他們秘密地找到了三次方程的公式,不久之后又找到了四次多項(xiàng)式的公式。于是,一個(gè)很自然的開放問題就出現(xiàn)了:能不能找到一個(gè)解五次方程的公式?
四次公式本身已經(jīng)復(fù)雜得像怪物一樣。真要把它完整寫下來會(huì)很夸張,所以人們通常不會(huì)整條寫完,而是把它拆成一種程序性的步驟。你很容易相信:這些公式的復(fù)雜度會(huì)指數(shù)級(jí)增長。所以很多很多年里,其實(shí)都沒人真正回答這個(gè)問題。
通常我們會(huì)說,阿貝爾是第一個(gè)證明“不行”的人。他是個(gè)年輕、早慧的挪威數(shù)學(xué)家。他證明了這件事根本不可能。不是說“我們還沒找到五次公式”,而是“不存在這樣的公式”。他一開始其實(shí)以為自己找到了一個(gè),但后來證明了這是不可能的。
不過我覺得,真正的功勞還得再往前追一點(diǎn),說到拉格朗日(Lagrange)。是他先提出了研究這個(gè)問題時(shí)“該問什么樣的問題”。我先說個(gè)高層次版本。他在研究這個(gè)問題時(shí)意識(shí)到:能不能解這些多項(xiàng)式,與理解某些代數(shù)表達(dá)式的對(duì)稱性,有非常密切的關(guān)系。
比如我寫下 a + b + c + d,只是四個(gè)變量相加,你怎么置換這些變量,這個(gè)表達(dá)式的值都不會(huì)變。但如果我寫 a + b*c + d,那有些置換不會(huì)改變它,有些則會(huì)。他有一個(gè)很漂亮的洞見:如果你能找到一種帶有四個(gè)自由變量的表達(dá)式,而所有置換作用在它上面只會(huì)得到三個(gè)不同的值,那么這件事竟然和把四次問題降到三次問題之間存在某種意想不到的關(guān)系。
于是他開始思考:如果我們要解決五次多項(xiàng)式,能不能把這個(gè)方法推廣過去?但要推廣,你就必須找到一個(gè)含有五個(gè)自由變量的表達(dá)式,讓它在所有 5! 種置換之下,最多只取四個(gè)值。這個(gè)問題甚至都可以放進(jìn)益智書里,當(dāng)成一個(gè)十二歲孩子也能參與思考的腦筋急轉(zhuǎn)彎。你并不會(huì)覺得這問題離自己很遠(yuǎn),反而很容易直覺上認(rèn)為:這大概是不可能的。
所以拉格朗日坐在那里,說:“要解決五次方程,我有這么一個(gè)策略。但從這個(gè)策略來看,它似乎行不通。” 但這是歷史上第一次,人們產(chǎn)生了這樣一種直覺:某種關(guān)于“對(duì)稱性”的問題,才是研究這些多項(xiàng)式的正確入口。在他腦子里,這還只是一種方法。他還沒有發(fā)現(xiàn),這里其實(shí)存在更緊密的聯(lián)系。也還沒有人意識(shí)到,也許比起去找公式,我們更應(yīng)該反過來問:你能不能證明這種公式力根本不存在?是他埋下了這顆種子。
大概五十年后,阿貝爾肯定讀過拉格朗日,而且受了影響。我們也知道,伽羅瓦在愛上數(shù)學(xué)的時(shí)候非常崇拜拉格朗日。很難想象,這兩位年輕天才圍繞同一個(gè)問題提出如此相近的洞見,不是從拉格朗日那里長出來的。
但回到你的問題:你能否驗(yàn)證“這是個(gè)好想法”?拉格朗日本人當(dāng)時(shí)并沒有真的得到什么結(jié)果。他沒有解決這個(gè)問題,所以也不是因?yàn)椤皢栴}解決了”才知道自己提問提對(duì)了。他只是提出了這個(gè)問題。這個(gè)問題本身具有某種內(nèi)在趣味。而且在當(dāng)時(shí),它對(duì)數(shù)學(xué)也并不算特別重要。大多數(shù)人更關(guān)心的是物理應(yīng)用。這幾乎像是一種邊緣的、休閑的、業(yè)余愛好式的事情。
阿貝爾開始研究五次方程,但后來有人建議他把更多精力放到橢圓函數(shù)(elliptic functions)上,所以在英年早逝之前,他其實(shí)更多時(shí)間花在了那邊。他 26 歲就因肺結(jié)核去世了。而伽羅瓦則是把前面那些想法推向了正確的方向。他真正理解了“抽象”的本性。他在監(jiān)獄里寫過一段很精彩的文字。我們甚至可以單獨(dú)聊他的生平,那真的非常傳奇。總之,當(dāng)時(shí)他還是個(gè)少年,人在監(jiān)獄里,之前試圖投稿的數(shù)學(xué)論文也都被拒了。
所以,再想想“可驗(yàn)證獎(jiǎng)勵(lì)”這件事:當(dāng)時(shí)充當(dāng) verifier function(驗(yàn)證函數(shù))的“學(xué)院體系”,其實(shí)是在拒絕他寫的東西。坦白說,那些稿子也確實(shí)不太連貫。它不是一個(gè)完整的證明,也沒有清楚地說明這個(gè)理論到底是什么。他不過是個(gè)還在摸索中的年輕數(shù)學(xué)家。從已驗(yàn)證獎(jiǎng)勵(lì)的角度看,結(jié)論就是:“不行,不合格。” 但他內(nèi)心有種直覺,覺得這里面有東西。
于是他寫下了一篇有點(diǎn)像檄文的文字,談數(shù)學(xué)的本性如何隨著時(shí)間發(fā)生轉(zhuǎn)變。他提到代數(shù)本身的誕生:人們從只考慮數(shù)字,轉(zhuǎn)而開始熟練操作純粹的代數(shù)表達(dá)式,不再執(zhí)著于這些表達(dá)式必須立刻被解釋成什么。他隱約感覺到:我們應(yīng)該再上一個(gè)抽象層級(jí)。不是去想那些公式本身,而是去想那些公式背后隱藏著什么樣的對(duì)稱性。但那時(shí)這依舊是個(gè)定義得很不清楚的理論。
如果你說,已驗(yàn)證獎(jiǎng)勵(lì)在于“他解出了別人沒解出的題”,那也不成立,因?yàn)榘⒇悹栆呀?jīng)證明了五次方程一般無解。所以伽羅瓦到底做了什么?原則上,伽羅瓦理論能讓你拿一個(gè)具體多項(xiàng)式,然后給出規(guī)則,判斷它的根能不能寫出來。比如說,對(duì)于 x^5 - 1,你知道有一個(gè)解是 1;對(duì)于 x^5 - 2,你可以寫出 2 的五次根。
所以邏輯上并不是說“所有五次多項(xiàng)式都寫不出解”,而是:你能不能找出一個(gè)具體例子,并證明它不能用根式寫出?可連這件事,他都沒有完全做出來。他甚至沒有拿一個(gè)特定例子明確證明“這個(gè)就不行”。所以,哪怕只是描述“他到底解決了什么問題”,都非常棘手。
后來他就死了。那是個(gè)非常浪漫化的故事:他去決斗,人們還傳說他在決斗前一夜把所有想法都寫了下來。但實(shí)際上,他在那之前已經(jīng)試圖發(fā)表五次了。
主持人:研究五次方程看起來對(duì)身體不太好。
Grant Sanderson:非常不好。年輕天才們,千萬別去碰五次方程。他在臨死前托自己的兄弟和好友,把筆記送給高斯(Gauss),送給當(dāng)時(shí)最重要的數(shù)學(xué)家,因?yàn)樗X得那里頭有東西。可即便如此,也沒立刻產(chǎn)生什么影響。他的兄弟和朋友努力想把這些東西推出去,但又過了二十年,Liouville 才看到這些筆記,覺得也許里頭真有點(diǎn)東西,于是開始整理、理解伽羅瓦到底想說什么。可即便如此,又過了二十年左右,Jordan 才真正整理出某種接近現(xiàn)代群論表述的東西,并把它歸功于伽羅瓦。
你完全可以想象,如果歷史稍微換個(gè)走向,這些想法也許會(huì)從數(shù)學(xué)的其他地方冒出來;如果伽羅瓦不是這么一個(gè)戲劇性十足的人物,他甚至可能被歷史遺忘。從拉格朗日最初隱約覺得“也許研究根的對(duì)稱性才是對(duì)的方向”,到后來一切終于長成現(xiàn)代群論的樣子,中間橫跨了非常漫長的時(shí)間。更何況在這個(gè)過程中,很多時(shí)候它甚至連“人類評(píng)審的已驗(yàn)證獎(jiǎng)勵(lì)”都過不了。它擺到某個(gè)人桌上,對(duì)方說:“我真看不出這里有什么。” 必須得有某一個(gè)人識(shí)別出它。
而且即便如此,在那個(gè)階段它也根本沒解決什么實(shí)際問題。你剛提到密碼學(xué)、物理之類的應(yīng)用,要到二十世紀(jì),你才會(huì)看到像 Gell-Mann 那樣的人開始想:某些群如何分解,也許和粒子是由什么構(gòu)成的有關(guān)。他根據(jù)一個(gè)純粹的群論問題,預(yù)感到了夸克(quarks)的存在。群論最有意思的應(yīng)用之一,居然是預(yù)測(cè)夸克的存在。這已經(jīng)離拉格朗日太遠(yuǎn)太遠(yuǎn)了。
所以問題變成:有沒有一種衡量進(jìn)展的方式,不是看“你解沒解決一個(gè)問題”,而是能捕捉到伽羅瓦腦子里那種“我覺得這里有東西”的直覺?能捕捉到拉格朗日說“我覺得這才是正確思考方式”的那種直覺?能捕捉到 Liouville 說“這個(gè)死去多年的年輕人留下的零散筆記,也許有門道”的那種直覺?這太難精確描述了。
我現(xiàn)在在做的另一個(gè)視頻系列,主題是“壓縮就是智能”(compression is intelligence)。雖然我不會(huì)完全從這個(gè)角度切入,但“更小、卻更有預(yù)測(cè)力的表達(dá),顯得更聰明”,這個(gè)想法確實(shí)有點(diǎn)道理。更小、卻更有預(yù)測(cè)力的表達(dá),顯得更聰明。所以我會(huì)想:我們能否圍繞這一點(diǎn)構(gòu)造某種可驗(yàn)證獎(jiǎng)勵(lì)?不是只看“你解出來沒有”或“它到底解了什么”,而是看:為了做到這件事,你所需的概念有多“精煉”。
回到“如果 AI 解出黎曼假設(shè),那會(huì)是什么樣”。我覺得還有第三種可能:它就是單純比我們更能硬做。就像費(fèi)馬大定理,理論上也許存在一個(gè)初等證明,只不過要寫上幾千頁,而且完全不成體系。相比之下,用橢圓曲線這些東西去理解它,視角就干凈得多。也許黎曼假設(shè)也有一個(gè)上千頁的證明,但誰也無法從中真正學(xué)到什么;而我們真正想要的,是那種簡(jiǎn)潔、壓縮后的版本,讓人類可以理解。
也許,你甚至得把 Kolmogorov complexity(柯爾莫哥洛夫復(fù)雜度)納入對(duì)“優(yōu)雅”這一概念的量化嘗試。我不覺得這件事容易,但如果你想獎(jiǎng)勵(lì)的是伽羅瓦式的直覺,而不僅僅是“你有沒有解出一個(gè)問題”,那可能是你不得不做的事。
主持人:企圖為科學(xué)找出這樣的啟發(fā)式標(biāo)準(zhǔn),確實(shí)很難。但很顯然,人類一直以來就是以某種方式在做這件事;而顯然,AI 在某個(gè)時(shí)刻也會(huì)做到。
Grant Sanderson:而且這件事之所以重要,不只是因?yàn)椤翱沈?yàn)證獎(jiǎng)勵(lì)”,更因?yàn)闅w根結(jié)底,我們的目標(biāo)是“理解”,是人類的理解。即便你真的拿到某個(gè)數(shù)學(xué)問題的千頁證明,或者某個(gè)宏大的新物理理論,最終目標(biāo)依然是理解。
也許,如果目標(biāo)只是預(yù)測(cè)能力,那我們完全可以讓自動(dòng)化工程師去造火箭飛船,哪怕我們根本不知道它們是怎么工作的,只要能飛到其他恒星就行。但總會(huì)有很多人想要理解。你仍然會(huì)想要一種“壓縮函數(shù)”,把這種復(fù)雜的思路提煉成那個(gè)正確的版本,就像牛頓的萬有引力定律之于雜亂經(jīng)驗(yàn)事實(shí)一樣。你仍然會(huì)希望訓(xùn)練 AI 去做到這一點(diǎn),去找到那種壓縮后的表示。
我們不僅需要正確的定理,更需要能帶來直覺的、被深度壓縮的“解釋”
主持人:很多人,特別是在數(shù)學(xué)領(lǐng)域,會(huì)擔(dān)心這樣一種情況:AI 會(huì)證明黎曼假設(shè),但我們的數(shù)學(xué)理解并不會(huì)因此變得更好。關(guān)于這個(gè)擔(dān)憂,我有幾個(gè)問題。第一個(gè)是:你是否認(rèn)為這件事真的值得預(yù)期?
人類在處理大型問題時(shí)之所以會(huì)發(fā)明一般性的、自然的對(duì)象和中間目標(biāo),不就是因?yàn)檫@對(duì)于處理復(fù)雜而重要的問題本身就是有用的嗎?從理論上說,解決黎曼假設(shè),難道真會(huì)比“提出與這個(gè)問題相關(guān)的自然抽象”更簡(jiǎn)單嗎?
第二個(gè)問題是經(jīng)驗(yàn)層面的:當(dāng)今天的 AI 在問題上取得進(jìn)展時(shí),我們觀察到的是這種情況嗎?比如 AI 為單位距離猜想找出那個(gè)反例時(shí),你其實(shí)可以直接讀它的思維鏈(chain of thought)。對(duì)我來說,那當(dāng)然是看不懂的,因?yàn)榉牢也欢當(dāng)?shù)學(xué);但看起來對(duì)其他數(shù)學(xué)家來說是可以理解的。它使用的是數(shù)學(xué)中已有的概念,用自然語言去證明它們之間的關(guān)系。結(jié)果就是,它加速了我們對(duì)這個(gè)對(duì)象與這個(gè)猜想之間聯(lián)系的理解。
從經(jīng)驗(yàn)上看,這真的是我們應(yīng)該擔(dān)心的事嗎?
Grant Sanderson:我覺得這要看解法的性質(zhì)……如果把“如何解決黎曼假設(shè)”拆成三種可能路徑……今年另一個(gè)大新聞是某個(gè) Erd?s 問題,編號(hào) 1196,跟所謂的 primitive sets(原始集合)有關(guān)。那個(gè)成果就帶有一種很明顯的特征:它把一個(gè)看似屬于別的領(lǐng)域的想法帶了進(jìn)來。只要你把那個(gè)基本思路講給一個(gè)內(nèi)行數(shù)學(xué)家聽——你說:“如果我們用一個(gè)馬爾可夫鏈過程(Markov chain process),不是從上往下,而是從下往上以概率方式去證明這個(gè)東西是 1,并引入馮·芒戈?duì)柼睾瘮?shù)(von Mangoldt function)呢?”
如果你對(duì)一個(gè)懂行的人這么說,對(duì)方馬上就知道該怎么往下推進(jìn)。那種情況就是:你有一個(gè)很小的想法,它體現(xiàn)為“這個(gè)領(lǐng)域的專長”加上“另一個(gè)領(lǐng)域的專長”,中間用一道小閃電把它們連接起來。這種東西會(huì)非常容易被人類理解,因?yàn)槟阒恍枰故具@條連接的起點(diǎn)和終點(diǎn)。
如果它的性質(zhì)是“建山”,那你就得投入大量時(shí)間,去理解這座新建的山,因?yàn)槟遣恢皇莾缮街g的一道閃電,而是一條全新的脈絡(luò)。如果進(jìn)展的性質(zhì)只是“純粹拼體力”——一條超長的推理鏈,沒有新理論——那你就確實(shí)會(huì)擔(dān)心這種“消化過程”的問題。所以我不覺得有唯一明確的答案,關(guān)鍵取決于那個(gè)解法長什么樣。
在“建山”這一路上,反而會(huì)特別有意思。它默認(rèn)會(huì)像偉大數(shù)學(xué)家提出新理論那樣,人類天然可以理解嗎?還是說,它建起來的是某種異質(zhì)的、陌生的山,我們得重新訓(xùn)練自己去適應(yīng)它所使用的抽象方式?
這里最接近的例子,大概是 abc 猜想(abc conjecture)的那個(gè)“被宣稱的解法”。這個(gè)話題我們最好別深聊,但它大概率并不是一個(gè)正確的證明。大致情況是:一位本來很有聲望的日本數(shù)學(xué)家,提出了一整套全新的思考方式。數(shù)學(xué)家們花了很長時(shí)間,才只是勉強(qiáng)讀懂他在說什么。那種感覺就像是一塊“外星數(shù)學(xué)”:它是在建理論,而不是在寫一條冗長推理鏈。他把它稱作 inter-universal geometry(宇宙際幾何)。
最糟糕的擔(dān)憂是:如果 AI 做出這種事,那么就會(huì)像 abc 猜想那樣,人們花好多年爬那座山,最后卻發(fā)現(xiàn):“糟了,這根本不對(duì)。” 如果它最后被證明是錯(cuò)的,但一開始又看起來特別像對(duì)的,那會(huì)很麻煩。即便它其實(shí)是對(duì)的,光是為了爬上一座新山,本身也已經(jīng)要花掉巨量精力。
主持人:如果我們真的走到那種局面,David Bessis 有一篇非常棒的博客文章,題目叫《定理經(jīng)濟(jì)的坍塌》(The Fall of the Theorem Economy)。他在里面說,從歷史上看,數(shù)學(xué)其實(shí)是在提出定義、提出問題,然后圍繞它們?nèi)プC明定理。證明定理這件事拿走了絕大多數(shù)榮譽(yù),但本質(zhì)上它其實(shí)寄生于“提出定義”這件更根本的工作之上。
從歷史上說,這種榮譽(yù)分配并不成問題,因?yàn)槿绻闾岢隽艘粋€(gè)定義,通常你也會(huì)順帶成為那個(gè)提出定理的人。但現(xiàn)在,如果真正有價(jià)值的工作在于提出洞見,而 AI 又把后半段自動(dòng)化了……
設(shè)想一種場(chǎng)景:AI 像阿貝爾那樣,針對(duì)世界上很多重要猜想都給出了直接論證,于是我們手里有了這些證明。接下來就輪到人類或者未來的 AI 去做整合。雖然我對(duì)這些論證本身并沒有任何對(duì)象層面的理解,但我敢肯定:如果你能接觸到它,它一定會(huì)讓你更容易思考“這里到底發(fā)生了什么”。會(huì)不會(huì)存在某種更深層的方式,讓我們理解“為什么這個(gè)證明成立”,并因此更容易提出群論背后的那類思想?
Grant Sanderson:我覺得那會(huì)極其有幫助。發(fā)現(xiàn)新數(shù)學(xué)的過程,有很大一部分其實(shí)就是不斷犯錯(cuò)。你在試圖解一個(gè)問題時(shí),那種感覺不是“我一直都在沿著正確路徑上山”;更多時(shí)候,它像是一種隨機(jī)的醉漢漫步。你試了一個(gè)方向,結(jié)果錯(cuò)了;然后你不斷意到自己錯(cuò)了。如果至少你已經(jīng)知道:你現(xiàn)在正在努力消化的這個(gè)東西,最終確實(shí)會(huì)通向一個(gè)正確解法——那本身就已經(jīng)是進(jìn)展了,因?yàn)槟阒浪罱K會(huì)通向解。
近代數(shù)學(xué)史上有很多這種例子:證明出現(xiàn)得遠(yuǎn)早于理解。很多時(shí)候,“手已經(jīng)伸得比理解力更遠(yuǎn)了”。我最喜歡的一篇論文開頭之一——它甚至不是研究論文,更像是科普性文章——作者是 Timothy Chow,他當(dāng)時(shí)在試圖理解一個(gè)叫 forcing(強(qiáng)迫法)的概念。有一個(gè)問題叫 continuum hypothesis(連續(xù)統(tǒng)假設(shè)),物粗略說就是:自然數(shù)有一種無窮大小,實(shí)數(shù)有另一種無窮大小,那么兩者之間還有沒有第三種無窮大小?
答案既是“有”,也是“沒有”,取決于你采用什么公理系統(tǒng)。它超出了我們通常公理系統(tǒng)的決定范圍,這本身就是一個(gè)很有意思的答案。但描述它的方法非常難懂,也就是 forcing。在篇那文章開頭,他寫道:大家都知道什么叫“未解決的研究問題”;我想提出一個(gè)概念,叫“未解決的講解問題”。確是,我們證明了它,但我們并不真正知道它為什么是真的。
然后他嘗試給這個(gè)“講解問題”提供一個(gè)部分解答。你大概能理解為什么我特別喜歡這種 framing(框架),因?yàn)檫@基本就是我的人生。我并不做研究數(shù)學(xué);我全部關(guān)心的是:什么才是理解這件事最清晰的方式——哪怕它早就已經(jīng)被證明了。證明和解釋是兩回事,而我覺得你現(xiàn)在強(qiáng)調(diào)的,正是這種區(qū)分的重要性。
主持人:對(duì)。我覺得那會(huì)成為最核心的激勵(lì)。或者說,激勵(lì)機(jī)制本身必須改變,不只是數(shù)學(xué),其他科學(xué)領(lǐng)域也一樣:從“證明關(guān)于世界的某些事情”,轉(zhuǎn)向“把證明整合成問題,或者整合成更高層次的洞見”。
我們剛才吃午飯時(shí)還在聊你最近有個(gè)關(guān)于設(shè)計(jì)(design)的演講,說設(shè)計(jì)如何幫助我們理解事情。如果推到極限,某種想法的“概念化方式”和這個(gè)想法本身之間,真的有區(qū)別嗎?比如你想想狹義相對(duì)論、時(shí)空?qǐng)D(spacetime diagrams)、閔可夫斯基時(shí)空(Minkowski spacetime)——這套東西是我們用來說明為什么會(huì)發(fā)生尺縮和鐘慢的方式。但那其實(shí)就是現(xiàn)實(shí)本身……所以某種意義上,講解本身似乎就是解釋。
Grant Sanderson:這里有幾個(gè)很有意思的點(diǎn)。一個(gè)是:那些真正提出新洞見的人,和那些表達(dá)特別清晰的人之間,似乎存在很強(qiáng)的相關(guān)性。你本來可能會(huì)以為相反——畢竟大學(xué)生的常見體驗(yàn)是:教他們課的專家,未必是那個(gè)主題最好的解釋者,因?yàn)樗麄兲?xí)慣自己的專業(yè)知識(shí)了。但至少在某些例子里,情況看起來更像是:那些真正提出全新思想的人——像愛因斯坦,像 Claude Shannon 這樣的人——你去讀他們的論文,會(huì)發(fā)現(xiàn)它們非常清晰。
你不會(huì)覺得“這只是給專家看的,得拿砍刀一路劈過去”。他們就是很好的講解者。費(fèi)曼(Feynman)也有這種特質(zhì),他也是極好的講解者。大腦里那個(gè)能提出正確新思路的部分,在研究層面上形成新洞見的同時(shí),也天然具備很強(qiáng)的解釋能力。這也是一種很自然的情況。
我覺得這對(duì) AI 也很相關(guān)。我以前以為,AI 會(huì)成為自動(dòng)定理證明器,而數(shù)學(xué)家的角色會(huì)轉(zhuǎn)向我現(xiàn)在做的事:解釋這些東西。現(xiàn)在我反而懷疑,AI 其實(shí)也會(huì)很擅長做這件事,而且大概會(huì)比大多數(shù)人類更會(huì)解釋、更會(huì)提煉。所以,“消化并解釋發(fā)生了什么”,很可能科學(xué)并不是數(shù)學(xué)家最后剩下的工作——至少照目前的發(fā)展趨勢(shì)看是這樣。我們也可以聊聊為什么未來未必如此,但大概率是:那個(gè)能提出真正好想法、解決新問題的系統(tǒng),也同樣會(huì)很會(huì)解釋它。這是我這些年觀念改變的地方。
主持人:那你覺得,最后你會(huì)在做什么?你自己,以及整個(gè)人類數(shù)學(xué)共同體,最后會(huì)在做什么?
Grant Sanderson:我大概會(huì)一直做我現(xiàn)在這類事,直到我死。
主持人:如果末日派(doomers)是對(duì)的,也許死的原因都一樣。
Grant Sanderson:對(duì)。你給一個(gè)人點(diǎn)一把火,他暖一晚上;你把一個(gè)人整個(gè)人點(diǎn)著,他余生都暖和。所以我對(duì) AI 的處境大概就是這樣。
講解者或老師的一部分功能,是給一個(gè)人感興趣的東西增加清晰度。這是一部分。但另一部分其實(shí)更偏關(guān)系性:提供動(dòng)機(jī)、提供策展感(sense of curation)。我聽過一個(gè)很有意思的說法,說未來數(shù)學(xué)家更像藝術(shù)博物館策展人,而不像別的什么。
AI 已經(jīng)把東西解出來了,所以“藝術(shù)品”已經(jīng)存在。它們甚至也知道怎么解釋得很好。但你仍然會(huì)想要有人幫你在這個(gè)幾乎無限的思想空間里導(dǎo)航,告訴你哪些值得投入。就算 AI 某種意義上在這件事上更強(qiáng),我覺得我們依然會(huì)更偏好一個(gè)與自己有關(guān)系連接的人類,因?yàn)槲覀冎詴?huì)被激發(fā)去關(guān)心某些東西,本身就是一種社會(huì)現(xiàn)象。
如果你是在造某種特定技術(shù),那可能不太一樣。但聽你播客的人,會(huì)信任你對(duì)“什么題目值得聽”的策展。不是說他們?cè)揪拖肓私饽阆乱黄诘闹黝},所以才來;而是他們信任你作為策展人。
所以,我的角色——也可以說,某種意義上其他數(shù)學(xué)家的角色——也許會(huì)輕微地轉(zhuǎn)向“策展”:哪些想法值得追求。這其實(shí)已經(jīng)是我現(xiàn)在工作中很大的一部分。很多人以為做一期視頻,大部分時(shí)間花在視覺呈現(xiàn)上。當(dāng)然,那確實(shí)也花時(shí)間,不是即時(shí)完成的。但實(shí)際上,很多時(shí)間花在了決定:什么值得說,什么值得放進(jìn)去。
我想持續(xù)參與這件事,而且我覺得我和一部分人之間已經(jīng)形成了一種信任關(guān)系,他們會(huì)好奇“如果由我來選,我會(huì)把什么東西推到他們面前”,哪怕 AI 在這方面做得比我更好。人類音樂家總會(huì)有角色,也是同樣的原因:人們?cè)谝馑麄儽澈蟮墓适拢谝饽欠N社會(huì)性功能,即便某個(gè)模型輸出的 MP3 文件,客觀質(zhì)量已經(jīng)更高了。這就是我對(duì)未來的判斷。
AI 真正可怕的能力,是連接那些人類一輩子也碰不上的學(xué)科孤島
主持人:我想回到前面那個(gè)問題。隨著 AI 跨過了這個(gè)門檻——這個(gè)重要基準(zhǔn),也就是能夠把已有想法連接起來,從而得出新發(fā)現(xiàn),或者證明、證偽某個(gè)東西——我們現(xiàn)在會(huì)說:“好吧,那下一步是什么?”
Grant Sanderson:順便說一句,這件事本身還有很多工作要做。不能因?yàn)橐呀?jīng)劈出了幾道閃電,就覺得結(jié)束了……我覺得未來兩三年,會(huì)是一個(gè)真正繁盛的時(shí)期,會(huì)出現(xiàn)大量這樣的連接。
主持人:對(duì)。所以,如果推到極限,你甚至可以說——我也不確定這樣講準(zhǔn)不準(zhǔn)確——很多最重大的突破,在某種層面上也都是這樣的。比如廣義相對(duì)論,本質(zhì)上不就是把黎曼幾何(Riemannian geometry)和狹義相對(duì)論連接起來嗎?所以隨著 AI 在這種“建立連接”的能力上越來越強(qiáng),也許很多重大突破在質(zhì)上并沒有那么不同。你對(duì)此怎么看?
Grant Sanderson:很多討論都聚焦在“解題”上,或者說數(shù)學(xué)作為“勾掉一個(gè)個(gè) Erd?s 問題”這種性質(zhì)上。但我會(huì)說,甚至連“大多數(shù)數(shù)學(xué)家”都未必會(huì)把自己的工作理解為“瞄準(zhǔn)下一個(gè)要攻克的問題”。你知道 Langlands program(朗蘭茲綱領(lǐng))嗎?
主持人:不知道。
Grant Sanderson:它甚至不完全算一個(gè)數(shù)學(xué)分支,更像是一種研究 ethos(研究精神、研究范式)。費(fèi)馬大定理可以看作它的一個(gè)征兆。你有兩類看似毫不相干的東西,而它們之間的一個(gè)連接,通向了問題的解決。
Langlands 是一位數(shù)學(xué)家。他有一封著名的信,基本上是在說:很可能還有大量這樣的連接存在。他甚至進(jìn)一步具體描述了這種連接的性質(zhì)。你可以想象一張巨大的地圖,這邊是山谷,那邊是高山,另一邊是一片平原。很多數(shù)學(xué)家會(huì)把自己的工作描述成:他們?cè)谂斫膺@張地圖上的那些線索和路徑。
在這種研究里,進(jìn)展甚至都不是“我們知道有一個(gè)具體問題,會(huì)被這條連接解決”。更像是:一再有重要問題因?yàn)榘l(fā)現(xiàn)了某種連接而被解決,所以人們開始主動(dòng)去“先發(fā)現(xiàn)連接”。這件事很有意思。你以后碰到數(shù)學(xué)家,可以問他:他的工作更像朗蘭茲綱領(lǐng),還是更像專門瞄準(zhǔn)某一道具體問題?你會(huì)發(fā)現(xiàn)這里確實(shí)有一種分裂式的劃分。
如果 AI 變成一種“超級(jí)連接器”,那感覺會(huì)成為這類研究的一個(gè)巨大放大器。不過它也很難衡量。這又回到我們前面說的:你怎么打一個(gè)分,說“對(duì),你做到了”?如果你解掉一道題,那很容易說“對(duì),你做到了”。你可以寫頭條,可以讓 AI 公司拿來做 PR,說“我們做到了”。
但如果它更像是“這條連接畫得對(duì)”,那你當(dāng)然也可以圍繞它寫定理,這也是那個(gè)領(lǐng)域論文通常的樣子。但我覺得,這將需要更多的 human in the loop(人在回路中),來判斷“我們到底想要的是什么樣的連接”。我猜,在未來五年里,這些模型最有用的進(jìn)展大概率就會(huì)長這樣:它們不斷填補(bǔ)這張“連接地圖”的空白,尤其是在那些只有同時(shí)精通多個(gè)領(lǐng)域的專家才可能畫出連接的地方。就像你說的,這件事沒更早發(fā)生,反而挺讓人意外的。
我倒很好奇,從技術(shù)層面看,究竟是什么觸發(fā)了這個(gè)能力的解鎖。一方面,你當(dāng)然可以在腦子里講出一套解釋:為什么一個(gè)系統(tǒng)雖然是各個(gè)領(lǐng)域的專家,卻還是不會(huì)主動(dòng)連線。畢竟它的推理方式是這種 autoregressive chain-of-thought(自回歸思維鏈)現(xiàn)象……仔細(xì)想想,自回歸其實(shí)是種很奇怪的生成方式。
你是個(gè)聰明人。想象我把你鎖進(jìn)一個(gè)盒子里,你跟世界交互的唯一方式,就是不斷收到一張小紙條,上面寫著:“你來預(yù)測(cè)下一句是什么。”
你預(yù)測(cè)下一句,然后你的記憶就被清空。接著你又收到一張紙條。如此反復(fù)很多次,最后人們拿著結(jié)果對(duì)你說:“看,這是你寫的文章。”
你大概會(huì)看著它說:“這寫得太糟了,這根本不是我會(huì)寫出來的文章。”
反復(fù)做“預(yù)測(cè)下一步”這件事,和一個(gè)作者真正去構(gòu)思、組織、寫出一篇文章,差異是很大的。
尤其是,你會(huì)被上下文強(qiáng)烈束縛。比如你在回答某個(gè)關(guān)于特定領(lǐng)域的問題,于是你就調(diào)用與那個(gè)領(lǐng)域有關(guān)的一切上下文。但真正有價(jià)值的“連接”,從定義上說,往往是一個(gè)非常不太可能的東西。你可以做很多 RL 來讓系統(tǒng)在某種意義上“更好”,但究竟是什么會(huì)特地去提高權(quán)重、激勵(lì)它做出這些“不太可能的連接”?畢竟在絕大多數(shù)情況下,那都不是“最可能出現(xiàn)的下一個(gè) token”。
所以也許,本來就有智能被鎖在那個(gè)盒子里,只是它跟世界互動(dòng)的方式太怪了。我真正好奇的是:如果你去質(zhì)疑“token 生成方式”這個(gè)前提,會(huì)不會(huì)得到一些成果?我不覺得事情會(huì)簡(jiǎn)單到只是調(diào)一調(diào) temperature(溫度參數(shù)),但會(huì)不會(huì)存在一些辦法,在不提升底層智能水平的前提下,找到一種能點(diǎn)燃這些連接的方式,從而解鎖我們現(xiàn)在已經(jīng)開始看到的這類能力?還是說,你其實(shí)只需要再多一點(diǎn)智能,讓它在“預(yù)測(cè)”這個(gè)層面上,就自然會(huì)預(yù)測(cè)到:此處應(yīng)該打出一道連接另一個(gè)領(lǐng)域的閃電?
主持人:我覺得,與其從架構(gòu)甚至損失函數(shù)出發(fā),不如從數(shù)據(jù)出發(fā)來想這個(gè)問題。我們也有能做文本的 diffusion models(擴(kuò)散模型),它們生成出來的東西并沒有呈現(xiàn)出本質(zhì)上完全不同的性質(zhì),只是還沒被充分探索而已。我覺得更關(guān)鍵的是:不管你的架構(gòu)或損失函數(shù)是什么,它被激勵(lì)去產(chǎn)出的數(shù)據(jù)到底是什么樣的?而且它們看起來確實(shí)在變強(qiáng)。
先別說數(shù)學(xué)。我們現(xiàn)在確實(shí)已經(jīng)見到一些這類例子。但哪怕只看它們?yōu)槭裁丛絹碓缴瞄L做 autonomous agents(自主代理)……它們現(xiàn)在所處的環(huán)境里,自回歸地產(chǎn)出這樣一種步驟是有效的:比如“先退一步,對(duì)整個(gè)代碼庫做一次搜索”;然后“再退一步,評(píng)估我的錯(cuò)誤”。這類行為之所以出現(xiàn),是因?yàn)樗鼈冊(cè)诃h(huán)境里確實(shí)奏效了。
我猜,在科學(xué)——也許包括數(shù)學(xué)——進(jìn)步的這個(gè)問題上,發(fā)生的事情是:你會(huì)有一些“前沿?cái)?shù)學(xué)風(fēng)格”的問題,而數(shù)學(xué)家又是刻意把它們?cè)O(shè)計(jì)成必須連接兩個(gè)不同領(lǐng)域才能解決。我猜,我們可以用各種聰明的、半合成的方法,制造出越來越難、而且必須依賴這種跨域連接的問題。比如,你拿掉一些前提,但仍然要求 AI 給出答案。這樣一來,損失函數(shù)是什么,反倒沒那么重要了。真正關(guān)鍵的是:你能不能構(gòu)造出一個(gè)環(huán)境,去激勵(lì)這種能力?
Grant Sanderson:感覺上你應(yīng)該是能做到的。我當(dāng)然說不出具體怎么做才對(duì),才能把這一切真正解鎖出來;但如果未來三年里,我們沒有看到更多這種“閃電連接”,那反而會(huì)非常令人驚訝,不是嗎?
主持人:我覺得這是個(gè)非常值得思考的點(diǎn)。我們經(jīng)常只想“單個(gè)系統(tǒng)有多聰明”,卻沒怎么想過:AI 的優(yōu)勢(shì)有時(shí)候并不來自“它更聰明”,而是來自別的事實(shí)。在這個(gè)語境里,最關(guān)鍵的事實(shí)就是:我們可以任意地并行化它、任意擴(kuò)展它。無論它具備什么水平的能力,那都不是數(shù)學(xué)史上某個(gè)古怪天才偶然做出幾次連接、然后在決斗中死掉那么簡(jiǎn)單。
而是說:你可以把這個(gè)能力水平,像一條水位線一樣,同時(shí)作用到所有在這個(gè)能力范圍內(nèi)可觸及的問題上。這只是數(shù)字心智(digital minds)天然具備的眾多優(yōu)勢(shì)之一,而我們對(duì)此思考得還遠(yuǎn)遠(yuǎn)不夠。其他優(yōu)勢(shì)還包括:它們可以合并彼此的知識(shí)——至少將來會(huì)有技術(shù)能做到這一點(diǎn)——以及可以復(fù)制出擁有完全相同知識(shí)水平的多個(gè)副本。這種并行化是一種極其重要的屬性。
我好奇你會(huì)怎么預(yù)測(cè)。即便它們還不如人類數(shù)學(xué)家聰明,只要 AI 公司出于 PR 原因在這件事上瘋狂砸錢——幾百億幾百億地砸——數(shù)量本身也會(huì)自帶一種質(zhì)量躍遷。
Grant Sanderson:這個(gè)方向聽起來是對(duì)的。比如回到 Montgomery 和 Dyson 在 IAS 的那次對(duì)話:他們看出黎曼假設(shè)——更準(zhǔn)確地說,黎曼 zeta 函數(shù)零點(diǎn)——和隨機(jī)矩陣之間有某種聯(lián)系。這種事情就很像是可以被自動(dòng)化的。你可以讓不同代理分別代表各個(gè)領(lǐng)域的專長。我們都知道,一個(gè)研究所(institute)通常比單個(gè)個(gè)體更聰明。
之所以要把人放在同一個(gè)地理空間里,就是因?yàn)槟阆M切┡既坏膶?duì)話發(fā)生。那么,如果你要工程化地在代理之間制造這種偶遇,會(huì)是什么樣子?這很有趣,因?yàn)槟銊偺岬娇梢园阉兄R(shí)池化起來,但我其實(shí)很懷疑,某種優(yōu)勢(shì)也許恰恰來自“反過來做”。
有時(shí)候 AI 會(huì)失敗,是因?yàn)樗萑肓艘粭l糟糕的思維鏈,而你很難把它拉出來。所以你會(huì)說:“那我就重新開一個(gè)。” 人類也一樣。有時(shí)候你會(huì)以某種方式想問題,真正需要的是先退一步。很多故事都是這樣:有人試圖證明一件事很久,物理上突然有一天說:“等一下,如果我試著證明它不可能呢?或者試著證明它的反面呢?”
把你自己的上下文拆開,以一種“新鮮的頭腦”重新進(jìn)入問題……你完全可以想象把這件事系統(tǒng)化,或者故意讓多個(gè)不同代理拿到不同的上下文,再去比較它們的思路。我們?nèi)祟悓?duì)自己的上下文,并沒有這么強(qiáng)的可操控性。
在這個(gè) AI 與數(shù)學(xué)的系列里,第一期我們會(huì)講它們解 IMO 的事。我很想聚焦其中一道它們沒做出來的 IMO 題——順帶一提,那題很多很聰明的學(xué)生也沒做出來,連陶哲軒(Terry Tao)都沒做出來。很多人當(dāng)時(shí)對(duì)那道題很生氣,說它是個(gè) troll problem(惡搞題)。我甚至都不太想劇透,因?yàn)槲蚁雵@“把人一步步引進(jìn)去,最后才發(fā)現(xiàn)它有一個(gè)很簡(jiǎn)單的解”來構(gòu)造那一集。你會(huì)非常能共情一個(gè)學(xué)生在解這題時(shí)的心理狀態(tài)。
大概是這樣:有一種非常優(yōu)雅的思路,會(huì)讓你強(qiáng)烈覺得這一定就是正確解法——畢竟你知道這是 IMO 題,它很符合你對(duì) IMO 題的上下文預(yù)期。這個(gè)解法的氣質(zhì)特別誘人,但很難證明它是最優(yōu)的。原因是:它根本就不是。真正最好的解法,反而是一種近乎“腦死亡式”的解法。
這和整個(gè) AI 故事的關(guān)聯(lián)在于:對(duì)人類來說,要答出那道題,真正需要的是“逃離你的上下文”。逃離“這是 IMO 題”這個(gè)上下文,逃離你過去學(xué)會(huì)的那套競(jìng)賽數(shù)學(xué)解題訓(xùn)練。如果你只是把它當(dāng)成一個(gè)丟給路人的腦筋急轉(zhuǎn)彎,對(duì)方反而可能答得很好。
在人類研究的其他場(chǎng)景里,有時(shí)你同樣需要這種能力:刷新你的思維,從完全不同的方向重新來過。數(shù)字心智(digital minds)天然具備的眾多優(yōu)勢(shì)之中,這一點(diǎn)也許恰恰就是其中之一:它們可以更系統(tǒng)地“刷新思考方式”。分出兩個(gè)代理,一個(gè)去證明,一個(gè)去證偽;一個(gè)從這個(gè)方向試,一個(gè)從另一個(gè)方向試。它們還可以被故意賦予不同的上下文。
所以我很好奇:如果我們?nèi)旰笤龠M(jìn)行這場(chǎng)對(duì)話,到時(shí)候那些上頭條的重要結(jié)果里,有多少會(huì)具有這樣一種特征——本質(zhì)上是先擦除既有上下文、嘗試很多不同路子——而不是把很多不同代理的結(jié)果簡(jiǎn)單合并起來。
主持人:這真的太有意思了,因?yàn)槿藗儗?duì) AI 的一個(gè)常見擔(dān)憂恰恰是:它們會(huì)發(fā)生“熵塌縮”(entropy collapse),最后都以同一種方式思考,因?yàn)樗鼈兊挠?xùn)練方式很相似。這也是為什么它們寫作很糟:它們總是沿著相同路徑走,語言模式也彼此相似。
但也許 AI 的關(guān)鍵優(yōu)勢(shì)恰恰是:你可以系統(tǒng)性地……聽起來,單位距離問題猜想之所以花了這么久才被證偽,一個(gè)原因是大家默認(rèn)那個(gè)猜想大概是真的,所以大多數(shù)人都在想怎么證明它。也許 AI 的一個(gè)關(guān)鍵優(yōu)勢(shì),就是它能通過系統(tǒng)地同時(shí)嘗試命題和否命題,或者系統(tǒng)地給不同代理施加不同偏置,從而提高“熵”。
看人類科學(xué)史,好像一件重要的事就是:愛因斯坦非常受一種偏置驅(qū)動(dòng)——他覺得在不同參考系中,事情應(yīng)該看起來一樣。他還有很多類似的偏置,但那個(gè)特別塑造了他的思維。你可以系統(tǒng)地遍歷很多啟發(fā)式,看哪些在某個(gè)問題上更有生產(chǎn)力。
Grant Sanderson:所以你的意思是:盡管自回歸層面上不可避免地會(huì)發(fā)生塌縮,但我們?nèi)匀豢梢栽?prompt(提示詞)層面系統(tǒng)性性地增加熵?愛因斯坦會(huì)是個(gè)很有意思的例子,因?yàn)樗环矫嫫颉笆挛飸?yīng)該是相對(duì)的”,另一方面又偏向“上帝不擲骰子”。你得確保別一不小心讓所有 LLM 都變成愛因斯坦,否則量子力學(xué)的發(fā)展可能就停了。
主持人:這恰好說明,科學(xué)并不存在一個(gè)“正確的啟發(fā)式”。你需要的是多個(gè)彼此獨(dú)立、各自帶有不同啟發(fā)式的研究計(jì)劃。
Grant Sanderson:這聽起來就很像老派軟件(old-school software)。前提是你得能夠把這些東西描述出來。你用老派軟件來放大這種熵。只要你能為那些不同的思考方式建立一個(gè)清晰的 ontology(本體結(jié)構(gòu)),你就可以把整個(gè) ontology 都探索一遍,然后讓每一種方式各自跑出去,看看會(huì)發(fā)生什么。
這里真正的設(shè)計(jì)問題在于:你到底怎么去描述那些不同的路徑。最容易描述的一種是:你是在試圖證明它,還是試圖證偽它?更難的是:你要如何列舉所有可能采用的證明策略,并確保你在探索它們時(shí)擁有足夠廣的覆蓋面?
數(shù)學(xué)和編程容易通關(guān),是因?yàn)楝F(xiàn)實(shí)世界沒辦法塞進(jìn)一個(gè)干凈的模擬器里
主持人:顯然,AI 在數(shù)學(xué)上的進(jìn)步比其他領(lǐng)域快得多。人們通常會(huì)說,關(guān)鍵原因是這個(gè)領(lǐng)域“可驗(yàn)證”。我覺得這是兩個(gè)重要原因之一,但大家嚴(yán)重忽視了另一個(gè)。我不在實(shí)驗(yàn)室里,所以并不知道內(nèi)部到底怎么做。這只是一個(gè)非常天真的理論。
和“為什么 AI 在數(shù)學(xué)上進(jìn)步這么快”相關(guān)的一個(gè)旁支問題是:為什么 AI 在 computer use(計(jì)算機(jī)使用)上進(jìn)步得這么慢?計(jì)算機(jī)其實(shí)也很可驗(yàn)證。我的 Etsy 包裹送到了嗎?我的活動(dòng)訂好了嗎?這些都非常容易驗(yàn)證。
computer use 缺少的,是可反復(fù)刷(grindability)。
因?yàn)榫W(wǎng)站會(huì)有機(jī)器人檢測(cè)器,而且要并行跑大量 rollout(軌跡試驗(yàn))需要極大算力,所以你很難對(duì)亞馬遜同一個(gè)結(jié)賬流程跑一千次并行 rollout。Andy Jassy 會(huì)把你封掉。
Grant Sanderson:而且是他親自封。按下一個(gè)“把 Dwarkesh 叉掉”的紅色按鈕。
主持人:沒錯(cuò)。你可以試圖給每個(gè)網(wǎng)站都建一個(gè)鏡像環(huán)境,但那非常耗費(fèi)人力,也會(huì)拖慢節(jié)奏。之所以現(xiàn)在用深度學(xué)習(xí)學(xué)一個(gè)技能,需要跑那么多并行 rollout,本質(zhì)上還是因?yàn)槲覀冞€沒解決 sample efficiency(樣本效率)的問題。
Grant Sanderson:就像 Karpathy 說的,“用吸管吸監(jiān)督信號(hào)”?
主持人:沒錯(cuò)。當(dāng)然,人們?cè)趪L試很多不同的技術(shù),但從根本上說,我們訓(xùn)練 AI 的方式里有一個(gè)巨大的約束。對(duì)于代碼,你可以把某個(gè)倉庫當(dāng)前的進(jìn)展封裝成一個(gè)容器,然后啟動(dòng)幾百個(gè)并行容器,說:“去實(shí)現(xiàn)這個(gè)功能。” 一切都是完全確定性的。也正因?yàn)樗谴_定性的,你就能解決 credit assignment problem(歸因分配問題),因?yàn)槟阒溃簩?dǎo)致這次 rollout 成功、另一次失敗的原因,它們之間的差異(diff)就是有效因素。如果起點(diǎn)各不相同,這個(gè)歸因分配問題就會(huì)難很多。
而現(xiàn)實(shí)世界中的大多數(shù)事情,都很難像這樣容器化。編碼和數(shù)學(xué)是例外。但如果你想搞清楚怎么建立一家新企業(yè)并讓它成功,或者怎么去市場(chǎng)里做一天交易賺錢,由于你必須和真實(shí)世界交互,而現(xiàn)實(shí)每天都在變化,你就無法像在模擬器里那樣不斷回放、刷、種田。
數(shù)學(xué)當(dāng)然是個(gè)例外,我覺得這是推動(dòng)這個(gè)領(lǐng)域以及編碼領(lǐng)域進(jìn)步的重要原因。不是只有可驗(yàn)證;它還必須是可反復(fù)刷的。
至于大家說 AI 在數(shù)學(xué)上進(jìn)步快的第三個(gè)原因,他們常常會(huì)強(qiáng)調(diào) Lean 和形式化(formalization)。再說一次,我對(duì)實(shí)驗(yàn)室里具體發(fā)生了什么毫無把握。但我感覺 Lean 對(duì)當(dāng)前 AI 數(shù)學(xué)進(jìn)展的作用,其實(shí)沒那么大。AI 為什么能證偽單位距離問題猜想?他們發(fā)布了它的思維鏈,或者至少是思維鏈的重寫稿。那里頭根本沒有 Lean。我覺得 Lean 所提供的那種“過程監(jiān)督”——也就是你知道每一步都正確——似乎不如那種“可刷、且結(jié)果可驗(yàn)證”的環(huán)境重要。
Grant Sanderson:你關(guān)于“可刷性比可驗(yàn)證性更重要”的觀點(diǎn)挺有意思。直覺上人們會(huì)覺得,Lean 為數(shù)學(xué)提供了一種獨(dú)特優(yōu)勢(shì),因?yàn)槟憧梢灾苯訖z查它到底證沒證出來。你有傳統(tǒng)軟件替你回答“是”或“否”,然后把這個(gè)當(dāng)成 VR(可驗(yàn)證獎(jiǎng)勵(lì))。但能支持你觀點(diǎn)的一點(diǎn)在于:最早的那些嘗試——我還是繞回 IMO——DeepMind 一開始基本就是這么做的:所有東西都放進(jìn) Lean。可到了第二年,全部變成自然語言了。所以正如你所說,它并不是必需的。
不過我確實(shí)覺得,這個(gè)“形式化領(lǐng)域”還有一種尚未被充分探索的潛在價(jià)值。因?yàn)楝F(xiàn)在,即便是那個(gè)單位距離猜想的反例,你仍然需要一個(gè)人類去審查,然后說:“看起來沒問題。” 這就給“可探索”的程度加上了某種上限。想想 AlphaGo 或 AlphaZero 這類系統(tǒng),它們?cè)谧约旱氖澜缋锊煌5叵聡濉⒉粩嗵剿鳎赡茉缇兔撾x了任何人類需要逐步查看的程度,但它們依然有自動(dòng)化的可驗(yàn)證獎(jiǎng)勵(lì)。好處不只是“你可以在上面做 RL”,更在于你幾乎永遠(yuǎn)不需要人工 check in(中途確認(rèn)),只要不斷往里砸算力,讓它在圍棋宇宙里探索就行。
接下來可能會(huì)很有意思——當(dāng)然也可能最后沒有結(jié)果,現(xiàn)在還不能下結(jié)論——如果用 Lean,你完全可以想象有一個(gè)幾乎永遠(yuǎn)不停的程序,持續(xù)嘗試擴(kuò)展 Mathlib。Mathlib 是一個(gè) GitHub 倉庫,基本上就是把數(shù)學(xué)寫成代碼。它離“全部數(shù)學(xué)”還遠(yuǎn)得很,但目標(biāo)是走向“全部數(shù)學(xué)”。它是用一種可以直接詢問“這個(gè)證明對(duì)不對(duì)”的代碼形式寫成的。寫這些證明非常耗人力,所以已經(jīng)形成了一個(gè)專門的子社群。
但你可以想象有這樣一個(gè) AI:你對(duì)它說,“只管去擴(kuò)展 Mathlib。” 也許你會(huì)在它上面開個(gè)分叉(fork),免得里面全是垃圾,因?yàn)槿祟悓?duì)倉庫該收什么東西還是有品味要求的。于是你有一個(gè)純 AI 的 Mathlib 分叉,然后它就一路跑下去,不需要任何人再去檢查它。它可以自己提出猜想,自己提出理論和定義。也許大部分都沒用,但它會(huì)長出一棵無限擴(kuò)展的樹。
這是一件數(shù)學(xué)所獨(dú)有、而別的領(lǐng)域沒有的事:你可以按下開始鍵,往里砸算力,十年不看,回來之后問:“你都做了什么?” 它肯定已經(jīng)做出了一些東西。接下來問題只是:這些東西有用嗎?你要怎么篩選?但光是“能這么做”本身就很驚人。如果這最終一點(diǎn)有趣的數(shù)學(xué)洞見都沒產(chǎn)出,那反而會(huì)非常令人驚訝。
所以,Lean 在這個(gè)故事里有兩種不同的重要性。第一種,是你可以真正放手,不用中途檢查,進(jìn)展照樣會(huì)發(fā)生。圍棋可以這樣;自然語言數(shù)學(xué)我不覺得可以。
主持人:那非常有趣。你看過 Karpathy 那個(gè) auto research 的想法嗎?他寫了一個(gè)用來做基礎(chǔ) LLM 訓(xùn)練的 Python 單文件,然后建了個(gè)倉庫,讓 LLM 代理去嘗試修改那個(gè)文件;如果修改能讓 speed run(速度測(cè)試)更快,就保留這次修改。
之前來解釋 AlphaGo 工作原理的 Eric Jang,在嘗試構(gòu)建一個(gè)很強(qiáng)的圍棋機(jī)器人時(shí)也做過類似的事。他有些觀察很有意思:AI 很擅長沿著某條路徑跑實(shí)驗(yàn),但不擅長在撞上死路時(shí)及時(shí)停下來,也不擅長做極其并行的探索。不過,這以后大概會(huì)變。
如果把這件事推到極限,會(huì)是什么樣子,想想就很有意思。從根本上說,這其實(shí)就是人類數(shù)學(xué)研究制度本身的樣子:它是一座被不斷以有趣且有用的方式擴(kuò)展的圖書館。在這種模式里,你沒有 outcome-based supervision(基于結(jié)果的監(jiān)督)。你并沒有某個(gè)明確結(jié)果要去激勵(lì),但你有一個(gè)過程。你知道步驟是正確的,只是不知道它是不是在朝著有意思的方向走。
Grant Sanderson:如果真那么做,你當(dāng)然不希望它完全脫軌,在邏輯空間里做純隨機(jī)游走。你大概還是會(huì)想要一個(gè) supervisor model(監(jiān)督模型),給它一些關(guān)于“這東西是否有用”的啟發(fā)式判斷。你也知道,肯定有人在做這種事。這就是那種“讓我們五年后再回來聊”的話題。
也許最后什么都不會(huì)發(fā)生,但 Terry Tao 提到過一個(gè)研究項(xiàng)目:試圖窮舉搜索“可能的代數(shù)”空間。你可以想象,對(duì)代數(shù)系統(tǒng)施加不同公理。當(dāng)我們提出群論時(shí),那組公理如果你不知道它背后的動(dòng)機(jī),看起來就像是任意規(guī)定的一堆規(guī)則。那如果你把所有可能的公理系統(tǒng)都試一遍呢?它們當(dāng)中有沒有一些會(huì)產(chǎn)出有用的東西?絕大多數(shù)代數(shù)大概都是垃圾,以某種方式迅速塌縮,導(dǎo)不出任何有趣結(jié)論。
但偶爾,也許會(huì)出現(xiàn)某個(gè)小小孤島——一套完全不同類型的公理系統(tǒng),至少從它能導(dǎo)出的定理數(shù)量來看,顯得異常豐饒。這簡(jiǎn)直就是自動(dòng)證明器的主場(chǎng):在那個(gè)空間里探索,看看哪些東西最終會(huì)長成某種“東西”。也許其中某個(gè)孤島,后來還能被我們反過來賦予動(dòng)機(jī),發(fā)現(xiàn)“原來它是在試圖刻畫這種結(jié)構(gòu)”。
就像你可以想象:如果你先看到“群”的公理,而不知道它和對(duì)稱性有關(guān),那么一開始它看起來也只是抽象規(guī)則而已;但后來你會(huì)反過來意識(shí)到:它和研究對(duì)稱性高度相關(guān)。你完全可以設(shè)想出現(xiàn)這種味道的結(jié)果,只不過探索對(duì)象不再只是各種可能的代數(shù)系統(tǒng),而是任何公理系統(tǒng)的所有邏輯后果。
主持人:物理上的點(diǎn)關(guān)于“沒有 Lean 能不能做過程監(jiān)督”,DeepSeek 之前有個(gè) DeepSeek Math 模型。他們發(fā)了一篇論文講訓(xùn)練方法,非常有意思。
自然語言證明的問題在于,你不知道它到底對(duì)不對(duì)。他們有一個(gè) verifier(驗(yàn)證器),而 verifier 又是由一個(gè) meta-verifier(元驗(yàn)證器)訓(xùn)練出來的;這個(gè)元驗(yàn)證器確保:對(duì)于他們用來訓(xùn)練該模型解決的那些“解題藝術(shù)”類問題,verifier 給出的反饋是可靠的。結(jié)果證明這套辦法是可行的。很有意思的是:在已發(fā)表文獻(xiàn)里,自然語言驗(yàn)證加上某種元驗(yàn)證,似乎已經(jīng)能工作了。
而且,在我們現(xiàn)在實(shí)際使用的產(chǎn)品里,這也看起來在工作。你去看 coding agents(編程代理),它們?cè)絹碓缴瞄L寫干凈代碼、重構(gòu)代碼。我很確定,背后一定有某種“LLM 作為評(píng)委”的過程監(jiān)督系統(tǒng),在提供品味判斷,比如“這種寫這個(gè)函數(shù)的方式夠不夠干凈?”“這里是不是有重復(fù)模塊?” 那在數(shù)學(xué)里也應(yīng)該成立吧?
Grant Sanderson:即便只在自然語言層面工作,我也覺得在數(shù)學(xué)里信任一個(gè) verifier,比在別的領(lǐng)域更有希望。我們之前還在聊:為什么它們寫作很差。它們看起來確實(shí)是好評(píng)委。如果我給它們兩篇學(xué)生寫的文章,它們大概能判斷哪篇更準(zhǔn)確、更有洞見。那為什么不能讓一個(gè) verifier 直接判斷:“這是一篇好文章嗎?”
也許最終的問題在于:即便它們擅長區(qū)分 B 級(jí)作文和 A 級(jí)作文,它們也未必擅長區(qū)分“普通 A 級(jí)作文”和“你真的想讀的東西”——比如某篇值得在 Substack 追更、真正有洞見的文章。它們反而容易偏好那種沒洞見但形式上很像“好文章”的東西。
但在數(shù)學(xué)這邊,僅僅判斷一個(gè)證明是否正確,這件事本身就很適合自動(dòng)化 verifier,哪怕是在自然語言里。你阻礙大概仍然可以取得大量進(jìn)展。不過我還是喜歡 Lean 所打開的那棵“邏輯樹”,因?yàn)樵谶@里,你真的可以走得很遠(yuǎn),完全不受過去人類表述方式的束縛。大家都在講 AlphaGo 的第 37 手。到底什么樣的機(jī)制,才能真正幫助系統(tǒng)跳出既有啟發(fā)式?感覺上,在一個(gè)與現(xiàn)實(shí)世界暫時(shí)斷連的空間里探索,會(huì)特別有生產(chǎn)力——當(dāng)然,這應(yīng)該是與自然語言數(shù)學(xué)路線互補(bǔ)的一種研究方向。
Lean 的另一個(gè)相關(guān)性在于:假設(shè)你有一套純自然語言的 RL 環(huán)境,也有一整套純自然語言證明。人們說:“前進(jìn)吧,AI 數(shù)學(xué)家們。” 然后它們一天產(chǎn)出十篇論文。只要這里面有哪怕一點(diǎn)點(diǎn)錯(cuò)誤率……Alex Kontorovich 就談過這點(diǎn)。對(duì)數(shù)學(xué)家來說,這會(huì)變得無法忍受。每次看到這樣一篇東西,你都不知道它值不值得花時(shí)間。即便 100 篇里有 99 篇是對(duì)的,我也不確定值不值得看,因?yàn)檎页瞿?1 篇錯(cuò)在哪里,非常耗費(fèi)勞動(dòng)。把大量時(shí)間花在一篇垃圾論文上,是非常令人沮喪的。
你并沒有某個(gè)明確結(jié)果要去激勵(lì),但你有一個(gè)過程。你知道步驟是正確的,只是不知道它是不是在朝著有意思的方向走。在這種情況下,如果能有某種東西能給你打上一個(gè)綠色勾,說:“哪怕它會(huì)很難懂,哪怕讀起來會(huì)很痛苦,但你至少知道它是正確的。” 那真的是其他所有領(lǐng)域都?jí)裘乱馇蟮氖隆?shù)學(xué)擁有這個(gè)條件。如果模型還能把自己的自然語言證明再形式化出來,那就太巨大了。每個(gè)領(lǐng)域都會(huì)想要這樣的能力。所以我覺得你說得對(duì):Lean 作為數(shù)學(xué)整體進(jìn)步的 VR 環(huán)境,重要性也許被高估了;但我絕不會(huì)把它從這個(gè)故事里劃掉。
主持人:我也特別喜歡“擴(kuò)展 Mathlib”這個(gè)隱喻,它很像我們的文明很快就會(huì)發(fā)生的事。幾千年來,人類構(gòu)建起了這整套知識(shí)與理解的 corpus(語料/知識(shí)總庫),而我們擁有的一切,現(xiàn)在都被蒸餾進(jìn)了這些模型里。到了某個(gè)時(shí)刻,這些模型就會(huì)無限地把它繼續(xù)擴(kuò)展下去。
AI 寫作沒有靈魂,是因?yàn)樗鼪]有一塊可以用作同理心模仿的“臉部肌肉”
主持人:順便說到寫作,我有一個(gè)關(guān)于“為什么寫作的進(jìn)步比其他領(lǐng)域慢得多”的理論。一個(gè)原因就是你剛才說的:它們不僅不擅長判斷 A 和 B,還會(huì)被 B* 徹底帶偏——也就是那種很爛的文章,但它又命中了所有“看起來像 A 應(yīng)該具備的要素”。獎(jiǎng)勵(lì)黑客(reward hacking)就這么徹底失控了。
但另一個(gè)重要原因是:寫作不像代碼和數(shù)學(xué)那樣具有模塊化。一個(gè)函數(shù)可以有很多種寫法,但作用相同。當(dāng)然你希望它寫得干凈,但歸根結(jié)底,只要能跑就是能跑。數(shù)學(xué)里的引理(lemma)也是一樣。你可以有一個(gè)最終產(chǎn)物,而這個(gè)產(chǎn)物并不等同于它被生產(chǎn)出來的方式。代碼是生成某個(gè)最終結(jié)果的東西,你關(guān)心的是那個(gè)功能性結(jié)果。
而在寫作里,最終產(chǎn)物本身就是 AI 直接產(chǎn)出的東西。每一段、每一句、每一個(gè)詞都重要,因?yàn)槟潜旧砭褪莾?nèi)容,不是文字再去生成某個(gè)別的結(jié)果。它不能像代碼那樣“雖然有點(diǎn)爛,但結(jié)果還對(duì)”。
Grant Sanderson:但你剛剛也指出了,我們現(xiàn)在其實(shí)已經(jīng)越來越擅長讓代理寫出的不僅是“能運(yùn)行的代碼”,而且是“干凈的代碼”。那為什么同樣推動(dòng)代碼從“僅僅能工作”進(jìn)步到“干凈且可合并 PR”的那種能力,不會(huì)也帶來更清晰的寫作?
主持人:你這個(gè)反問很好。還有,也許事實(shí)并不是“沒有進(jìn)步”?我同意,它們?cè)诤芏喾矫嫒匀皇窃愀獾膶懽髡摺5珜?duì)于我日常會(huì)消費(fèi)的很多文字內(nèi)容,我發(fā)現(xiàn)把它直接復(fù)制粘貼到一個(gè) LLM 里,然后說“給我解釋一下”,通常比讀原文更好懂。很有意思,我們一邊說它們寫作很差,一邊我的 revealed preference(真實(shí)偏好)卻是更愿意讓 LLM 來解釋。
哪怕我是在和一個(gè)真人專家實(shí)時(shí)通話,如果那是只有他知道、還沒被分布學(xué)到的知識(shí),我當(dāng)然希望由他來解釋。但如果為了理解那件事,我還需要先弄懂一個(gè)更基礎(chǔ)的概念,那么如果社會(huì)上允許的話,我會(huì)很愿意直接說:“我們暫停一下,我先問問 LLM 這個(gè)東西是怎么回事,回頭再繼續(xù)聽你那塊特別的知識(shí)。”
Grant Sanderson:那是提煉,是解釋。如果說“你作為文章作者的質(zhì)量”——比如我給你一本書,讓你寫一篇讀書報(bào)告——我也許會(huì)相信 LLM 能給我寫出更好的 book report(讀書報(bào)告)。但當(dāng)人們說它寫作差時(shí),他們真正想問的是:寫作到底是什么?寫作不是對(duì)既有想法的提煉,不只是“怎么講得清楚”,因?yàn)樵谥v解上它們確實(shí)不錯(cuò)。真正的問題在于:那個(gè)洞見本身從哪來?
這就又回到“自回歸是一種很奇怪的生成方式”。當(dāng)你寫東西時(shí),你會(huì)隱約知道:如果它要寫得好,就必須包含某種不可預(yù)測(cè)性。這并不只是把你腦子里的“溫度”調(diào)高,而是你非常清楚地知道:在什么時(shí)刻,你需要走出一步不可預(yù)測(cè)的棋,而那一步恰恰會(huì)讓作品更有洞見。即便它更擅長解釋一個(gè)已存在的東西,那么那本“你后來拿去讓它提煉”的書,最初又是誰寫出來的?
并不是一個(gè) LLM 先把它寫出來,然后你才需要一個(gè) LLM 來解釋它。那是某位作者通過對(duì)世界中各種思想長期的探索,決定了哪些方面值得講、用什么樣的呈現(xiàn)方式能形成一個(gè)連貫而又動(dòng)機(jī)充分的敘事,然后把這些東西拼合成型。如果那是個(gè)好作者,你大概還是會(huì)更偏向讀原書,而不是它的提煉版。
歸根結(jié)底,究竟是什么讓一件事本身值得被探索、值得被寫出來?人們說 LLM 寫作差,指的其實(shí)是這一面:那種不可預(yù)測(cè)性,那種“有意選擇新東西”的能力。而這恰恰與當(dāng)前這些系統(tǒng)最典型的生成方式直接相沖突。
主持人:有道理。我還覺得,它們特別不擅長建立真正好的“他人心理模型”,而這恰好是寫作里非常重要的能力。Andy Matuschak 和另一位合作者——我一時(shí)想不起名字了——之前寫過一份很有意思的報(bào)告。他們?cè)噲D教 LLM 去寫高質(zhì)量的 spaced-repetition prompts(間隔重復(fù)提示卡片)。我特別喜歡這個(gè)例子,因?yàn)樗陀^上像個(gè)特別隨機(jī)的小技能……就像,人們一邊在談“一年內(nèi)遞歸自我改進(jìn)”,一邊我們卻連讓這些東西寫出好用的抽認(rèn)卡都做不到。這里到底出了什么問題?
他們?cè)嚵撕芏嗖煌椒ǎ宜麄兪呛芏械娜恕K麄儑L試過用 RL 訓(xùn)練開源模型,也試過各種辦法,包括思維鏈,也包括給最好的閉源模型一個(gè)很長的 prompt。對(duì)我來說,真正的關(guān)鍵約束 seem 似乎在于:寫一張好卡片,本質(zhì)上是在預(yù)測(cè)“三個(gè)月后的某個(gè)人的心智狀態(tài)”。到那時(shí),對(duì)方會(huì)如何把這個(gè)問題和某個(gè)答案聯(lián)想在一起?在那個(gè)時(shí)刻,他腦中會(huì)浮現(xiàn)出怎樣的答案?你該用什么樣的提問方式,才能喚起你真正希望他從那段材料里帶走的那個(gè)細(xì)節(jié)?
我覺得寫作和這件事很像。如果你在寫東西,之所以這個(gè)過程這么耗神、這么慢,是因?yàn)槟忝繉懸粋€(gè)詞、每寫一句話,都得想:我的讀者現(xiàn)在腦子里正在發(fā)生什么?
哪怕只是把語序稍微調(diào)一下,讓句尾跑到句首,好讓你在讀完剩下部分之前,腦中先浮現(xiàn)這個(gè)畫面……也許自回歸天生就不擅長這一點(diǎn)。這更像是一種 diffusion 式的性質(zhì):要整體地看待全文,而不是一句一句往前推。但我也覺得,這還要求一種很強(qiáng)的“心智化”(mentalizing)能力,而這些模型偏偏在這一點(diǎn)上表現(xiàn)得很詭異地差。
Grant Sanderson:這是個(gè)有意思的問題。它們?cè)谶@方面表現(xiàn)差,真的算“奇怪”嗎?我可能會(huì)講錯(cuò)。你知道那種情況吧:你引用一項(xiàng)自己曾經(jīng)讀過的研究,結(jié)果事后才發(fā)現(xiàn)那研究可能根本不存在?我腦子里有一項(xiàng)特別深刻的。假設(shè)你想測(cè)一個(gè)人的情商(EQ)。你給他看一張臉部表情的卡片,讓他描述這個(gè)情緒。網(wǎng)上真有一些做得很好的測(cè)試:給你一張臉,然后列四種可能的情緒。你會(huì)驚訝地發(fā)現(xiàn),要精準(zhǔn)描述那個(gè)正確情緒其實(shí)很難,但同時(shí)你又會(huì)覺得,這里確實(shí)存在一個(gè)正確答案。如果你拿這個(gè)去測(cè)試你生活中的人,你會(huì)發(fā)現(xiàn),那些社交上很靈的人通常做得很好,而那些更偏左腦的人通常沒那么好。這確是種可以做的測(cè)試。
我模糊記得有個(gè)實(shí)驗(yàn)就是類似這個(gè)效果:他們找了一些剛打完肉毒桿菌(Botox)的人,先做一次前測(cè),再做后測(cè)。結(jié)果后測(cè)時(shí),他們辨認(rèn)別人表情的能力明顯變差了。這聽起來很怪。
主持人:等等,是他們自己去打了 Botox?
Grant Sanderson:對(duì),是做測(cè)試的人。你先做測(cè)試,然后去打 Botox,臉部肌肉凍住了,接著你再回來做一次,結(jié)果你理解別人情緒的能力就下降了。背后的想法是:你之所以能理解自己看到的那個(gè)情緒,部分原因在于你會(huì)自己“做一遍”。在面部層面上,你的肌肉會(huì)跟著動(dòng)。你看到那個(gè)表情,自己也輕微模仿一下,然后在某種潛意識(shí)層面感受到:“哦,對(duì),這是焦慮。”
所以,從這個(gè)意義上說,如果模型確實(shí)缺乏 theory of mind(心智理論),那其實(shí)并不奇怪。它們根本沒有這種機(jī)制。它們沒有臉部肌肉,它們的大腦工作方式也完全不同。那就像是一個(gè)外星生物在試圖共情。它怎么會(huì)天然擁有心智理論?那反而會(huì)是一種高度涌現(xiàn)的能力。
而我們?nèi)祟惪梢灾苯影褎e人接進(jìn)我們自己的心智系統(tǒng)里。我們有現(xiàn)成的硬件,可以直接把對(duì)方“放進(jìn)去”。從這個(gè)角度看,它們不擅長這一點(diǎn),其實(shí)并不奇怪。
知識(shí)獲取已經(jīng)免費(fèi),但“活人”老師提供的關(guān)系和篩選,家長依然愿意付高薪
主持人:你對(duì)“怎么用 LLM 來學(xué)習(xí)”有什么建議?就像我剛才說的,對(duì)于很多廣為人知的概念,我確實(shí)覺得它們非常有幫助。但常常只是多聊幾輪,我本來在試圖理解某件事,它們自己卻已經(jīng)混亂了,然后把我也帶亂了。它們沒用對(duì)的方式解釋它。我知道,如果我能和一個(gè)真正對(duì)的人類聊上三分鐘,他就能把我的困惑徹底解開。
以后我們會(huì)越來越想用這些東西來學(xué)習(xí)。人們一直在談教育、表征之類的話題。你有沒有觀察到一些更高效的用法,能幫助人理解概念?
Grant Sanderson:我也很想聽聽你的看法。我先說我的。其實(shí)早在 LLM 出現(xiàn)之前,我就覺得,學(xué)習(xí)里一個(gè)很重要的洞見是:誰比什么更重要。
如果有大學(xué)生問我該選什么課,我的建議一直都是:少在意一點(diǎn)你“目前已有的興趣”,因?yàn)樵谶@個(gè)階段,那些興趣其實(shí)很偶然;多在意一點(diǎn)“教你的人是不是一個(gè)好老師,是不是一個(gè)你能共鳴的人”。選書也是一樣:作者是誰,可能比題材本身是不是你原本感興趣的更重要。如果你以前喜歡過一本書,那與其再去找同一主題的另一本書,不如去看這個(gè)作者還寫了什么。
我現(xiàn)在要把這個(gè)話題連回 LLM。比如你想學(xué)一個(gè)東西,看 Wikipedia 頁面,和——假如是哲學(xué)主題——去看 Stanford Encyclopedia of Philosophy(斯坦福哲學(xué)百科);或者如果是數(shù)學(xué)主題,去看 Princeton Companion to Mathematics(《普林斯頓數(shù)學(xué)指南》),那體驗(yàn)是非常不同的。區(qū)別就在于:后者的條目是由某個(gè)具體的人刻意寫出來的,他會(huì)試圖圍繞這個(gè)主題構(gòu)造一種動(dòng)機(jī)。
在 Wikipedia 上,條目更像是一個(gè)局部最小值(local minimum):每一句話都必須正確。而在一個(gè)好的講解里,你在途中對(duì)“嚴(yán)格正確”反而沒那么執(zhí)著。你可以故意先說一點(diǎn)“略有偏差但更利于理解”的話,再在后面糾正它;而這種寫法在眾包環(huán)境里往往會(huì)被編輯掉。對(duì)我來說,LLM 的解釋現(xiàn)在很像 Wikipedia。也就是說:它很驚人。想想沒有 Wikipedia 的世界,搜集和判斷這些信息要花多久。
但盡管如此,一篇 Wikipedia 頁面最有用的部分往往是什么?通常是底下的參考文獻(xiàn)。你會(huì)看那些關(guān)鍵參考,然后點(diǎn)過去,真的去讀它們。有時(shí)候那樣反而能得到好得多的全貌。所以我經(jīng)常更喜歡直接問 LLM:“我該去讀誰?” 我甚至還可以補(bǔ)充一點(diǎn):我想以什么方式來學(xué)。
我其實(shí)被它一次 gaslight(帶偏)了。我當(dāng)時(shí)在學(xué)半導(dǎo)體之類的東西,感覺那是個(gè)很適合視覺化理解的主題,但我找到的資源大多是文字。我就問它:“有沒有那種視覺呈現(xiàn)做得很好的視頻,能解釋你前面講的這些概念?” Claude 回答說:“有,這里有幾個(gè)。” 排第一的居然是“3Blue1Brown 的一期視頻”。我心想:我可以百分之百保證,根本沒有這種視頻。
它給的鏈接是真的,視頻也是真的,只是把別人的作品錯(cuò)認(rèn)成我的了。不過那視頻本身很好。我點(diǎn)過去看,比我繼續(xù)在對(duì)話里追問,學(xué)習(xí)體驗(yàn)好得多。從這個(gè)意義上說,我基本上是在把它當(dāng)成一個(gè)超級(jí)升級(jí)版 Google,用來更快地定位到正確的人類寫的資源。你呢?你平時(shí)大量使用這些東西。你覺得最好的用法是什么?
主持人:我覺得你說到點(diǎn)子上了。對(duì)我來說,最高效的學(xué)習(xí)體驗(yàn),往往都是在已經(jīng)有一個(gè)“人類產(chǎn)出的成品”存在的情況下——不管它是一篇文章、一本書,還是一個(gè)視頻——它已經(jīng)以正確的方式組織了相關(guān)概念,搭好了“為什么下一個(gè)想法會(huì)與接下來要解決的問題有關(guān)”的動(dòng)機(jī)鏈條:下一個(gè)想法、再下一個(gè)想法,層層推進(jìn)。然后你再用 LLM 在這條主干周圍稍微修修枝、剪剪葉。
我之前正在看——我記得這書可能還是你推薦的——Steven Strogatz 的那本教材……
Grant Sanderson:《混沌》那本?《Nonlinear Dynamics and Chaos》?我...
主持人:對(duì),我當(dāng)時(shí)就在看它,簡(jiǎn)直是一種享受。就像你的視頻被寫成了一本書,特別好玩。我當(dāng)時(shí)是這么學(xué)的:屏幕三分之一放他的大學(xué)課堂錄像,三分之一放教材相應(yīng)章節(jié),最后三分之一放一個(gè) LLM。我還在想:如果我真的回到大學(xué)、坐在課堂里聽這門課,那大概完全會(huì)聽懵。那些學(xué)生一定非常聰明,因?yàn)槲沂且煌和!⒆x教材、跟 LLM 聊,再繼續(xù)播放的。但關(guān)鍵就在于:由他來策展“理解概念的正確順序”和“哪些問題最能激發(fā)對(duì)這些概念的理解”……
另一個(gè)件事 LLM 特別不擅長的事。一個(gè)真正優(yōu)秀的人類在你提問時(shí),可能會(huì)直接說:“其實(shí)你現(xiàn)在理解這個(gè)主題的方式就不太對(duì)。你真正該問的問題、該組織這些概念的方式,其實(shí)是 X。” LLM 真的做不到這一點(diǎn)。
Grant Sanderson:它們太會(huì)順著你說話了。歸根結(jié)底,這還是那種諂媚性(sycophantic)行為:非常容易說“哦,這真是個(gè)很有洞見的問題。” 你其實(shí)想把這一層全部剝掉。你這點(diǎn)說得很好,而且我覺得它多少也觸及了心智理論:它得能企圖,學(xué)生提出某類問題,本身就意味著這個(gè)學(xué)生腦中的結(jié)構(gòu)和解釋者腦中的結(jié)構(gòu)不一樣。
有時(shí)候人類老師也會(huì)在這方面做過頭。比如一個(gè)真正好的老師,站在初中數(shù)學(xué)課堂上,如果某個(gè)學(xué)生問了一個(gè)問題,說明他正在以一種不同尋常的方式理解內(nèi)容,那么老師在那個(gè)當(dāng)下其實(shí)很難真的嚴(yán)肅對(duì)待這種思路,先問一句:“等一下,按你這種路子,你有沒有可能也走到正確答案?” 然后再?zèng)Q定是不是說:“不如我們換這種方式。” 真正特別好的老師,會(huì)把學(xué)生那種創(chuàng)造性的思維方式“借力打力”地接住,再融回課堂里。LLM 目前做不到。它們不會(huì)重構(gòu)你的問題,而是直接順著你往前跑。
至少現(xiàn)在看來,似乎有三個(gè)層級(jí):LLM 在一個(gè)層級(jí),好的講解者在另一個(gè)層級(jí),而 A+ 級(jí)的講解者則是那種能把你的思考方式也一并“借力打力”地利用起來,說:“在這里,這種想法其實(shí)有用。” 當(dāng)然,也許五年后會(huì)形成一個(gè)閉環(huán),到那時(shí) LLM 也會(huì)做到,而且做得更好。
主持人:那對(duì)于那些——我敢肯定一定經(jīng)常給你發(fā)郵件問這個(gè)問題的——學(xué)生,你會(huì)怎么建議?他們會(huì)說:“我對(duì)做數(shù)學(xué)很感興趣,也真的熱愛這個(gè)學(xué)科;但看到 AI 現(xiàn)在在這個(gè)方向上進(jìn)步這么快,我不知道還應(yīng)不應(yīng)該把它當(dāng)成職業(yè)去追求。” 這不只是數(shù)學(xué)學(xué)生會(huì)問,任何看到自己領(lǐng)域正在被 AI 提高生產(chǎn)率的人都會(huì)問。編程和這件事也非常接近。你會(huì)給他們什么建議?
Grant Sanderson:我甚至不會(huì)太相信我自己給出的建議。這會(huì)是我先加上的限定。但哪怕在 AI 出現(xiàn)之前,我也一直覺得:無論你將來走進(jìn)什么工作,你都應(yīng)該真正搞清楚……如果我們討論的是一份工作——不是那種作為紳士科學(xué)家去和數(shù)學(xué)圈互動(dòng)——你就應(yīng)該弄明白:錢是從哪里來的?你究竟在提供什么價(jià)值?以及這兩者之間的連接是什么。令人驚訝的是,學(xué)生往往很少認(rèn)真思考這些,尤其是理想主義很強(qiáng)的學(xué)生。
他們身處一個(gè)環(huán)境里,之所以想做數(shù)學(xué),很可能只是因?yàn)樽约阂恢焙苌瞄L它。他們?nèi)松幸恢币驗(yàn)椤罢_地跳過下一個(gè)圈”而受到獎(jiǎng)勵(lì)。當(dāng)他們覺得自己想成為數(shù)學(xué)家時(shí),更多是在想:“有哪些地方能讓我繼續(xù)做這件事?” 而不是在想:“我到底在給別人提供什么價(jià)值?薪水流向我,究竟在多大程度上是因?yàn)檫@個(gè)價(jià)值?”
而不同情況之間的差別其實(shí)很大。有時(shí)候,一個(gè)很有聲望的數(shù)學(xué)家之所以被大學(xué)需要,是因?yàn)樗拇嬖诮o學(xué)校帶來品牌價(jià)值。有時(shí)候,國家科學(xué)基金會(huì)(NSF)會(huì)給資助,是因?yàn)槲覀兩鐣?huì)相信基礎(chǔ)科學(xué)是一種公共善。于是你就有了一整套圍繞這個(gè)信念建立起來的制度和官僚系統(tǒng),它們充當(dāng)著“公共善判斷代理”,而你還得配合跳一套完整的舞,來讓他們相信:你的研究進(jìn)展符合這筆資金的精神。有時(shí)候則非常直接,就是教學(xué)。人們?cè)敢獍押⒆铀偷接许敿鈱<沂谡n的機(jī)構(gòu)。你一方面靠“專家身份”提供品牌價(jià)值,一方面又直接作為老師提供價(jià)值。
不管 AI 是不是已經(jīng)會(huì)證明定理,不管我們談的是 2016 還是 2026,這件事始終都值得那些說“我想成為數(shù)學(xué)家”的學(xué)生去認(rèn)真想清楚,而且我覺得他們普遍想得不夠。對(duì)我自己來說,我當(dāng)年并沒有這樣清晰地想過。后來我是誤打誤撞進(jìn)入了一條職業(yè)路徑:把數(shù)學(xué)探索貨幣化成某種娛樂產(chǎn)品。我是撞進(jìn)來的,而且我對(duì)此非常感恩,但它本來是一次偶然,不是精心設(shè)計(jì)的。如果當(dāng)初我能更批判地思考這些問題,我其實(shí)可以少依賴一點(diǎn)運(yùn)氣,多一點(diǎn)主動(dòng)設(shè)計(jì)。
To 至于你的問題——假設(shè)我們幾乎實(shí)現(xiàn)了自動(dòng)化定理證明,而且它們也非常擅長講解,連“人類理解”都一并滿足了——我覺得數(shù)學(xué)家承擔(dān)的很多社會(huì)角色其實(shí)并不會(huì)改變太多。作為公眾,我們依然會(huì)覺得基礎(chǔ)科學(xué)有價(jià)值,也依然會(huì)信任數(shù)學(xué)家自己去判斷:他們的時(shí)間最該花在哪里。聲望來自共同體內(nèi)部。更多是同行在說“這個(gè)結(jié)果真的很厲害”,而不是撥款人真的理解了代數(shù)數(shù)論,知道這結(jié)果為什么好。
這個(gè)共同體內(nèi)部會(huì)一直有一種文化,用來判斷什么算是有價(jià)值的貢獻(xiàn)。也許它會(huì)從“證明定理”轉(zhuǎn)向“提出好的定義”。也許會(huì)更像那個(gè)博物館策展人的角色。但只要整個(gè)社會(huì)依然認(rèn)可基礎(chǔ)科學(xué)這個(gè)前提,這個(gè)共同體就會(huì)繼續(xù)存在。如果我們真的進(jìn)入 AI 帶來的豐裕世界,那么從某種意義上說,這個(gè)方向上的資金反而可能更多。
在學(xué)校因?yàn)榻處熓钦l而獲得聲望這一點(diǎn)上,我其實(shí)覺得,教學(xué)是后 AGI 時(shí)代最穩(wěn)定的職業(yè)之一,因?yàn)樗叨汝P(guān)系化。對(duì)于那些擁有大量財(cái)富的父母來說,他們最愿意花錢的地方之一,就是好的教育、好的老師。而這件事遠(yuǎn)遠(yuǎn)不只是“解釋內(nèi)容”這么簡(jiǎn)單。即便 LLM 已經(jīng)是很好的解釋者,老師所做的依然是一種非常社會(huì)性的、教練式的、導(dǎo)師式的工作。未來五十年,這很可能仍然是最穩(wěn)定的職業(yè)之一。
只要數(shù)學(xué)家的角色中有相當(dāng)大一部分與此重疊,那么作為準(zhǔn)備走進(jìn)這個(gè)方向的學(xué)生,你完全可以主動(dòng)往這一邊傾斜。實(shí)際上,我覺得更多學(xué)生都應(yīng)該認(rèn)真考慮“只做一個(gè)數(shù)學(xué)教育者”這條路,并認(rèn)識(shí)到它對(duì)下一代所能提供的價(jià)值。
不過我還是要再加一次限定:我不覺得自己是那個(gè)有資格站出來說“來,年輕的未來數(shù)學(xué)家,我告訴你該怎么理解未來”的人。因?yàn)槲沂莻€(gè) YouTuber。我并不在他們真正想進(jìn)入的那個(gè)制度內(nèi)部,所以我更像是一個(gè)在外面往里看的旁觀者。但我覺得有一條建議是普遍成立的:弄清楚錢從哪里來,弄清楚你自己怎么接到那條線上。而如果你已經(jīng)在問這些問題,那你其實(shí)已經(jīng)走在大多數(shù)剛起步的準(zhǔn)數(shù)學(xué)家前面了。
主持人:事實(shí)上,你想想那個(gè)瘋狂的世界:也許五年、十年之內(nèi),AI 不僅能提出千禧年大獎(jiǎng)難題的解法,甚至還能提出全新的“值得解的問題”、全新的數(shù)學(xué)領(lǐng)域、全新的數(shù)學(xué)對(duì)象等等。到了那樣一個(gè)世界里,首先,物質(zhì)會(huì)極其豐裕。其次,AI 心智在所有方向中看得最遠(yuǎn)、越過我們視野最遠(yuǎn)的,恰恰就是數(shù)學(xué)。到時(shí)一定會(huì)有巨大的需求在問:“AI 都看到了什么?你能不能向我們解釋?”
在那樣的世界里,如果還存在任何工作的話,那“把 AI 所學(xué)到的東西提煉給人類聽”肯定會(huì)是其中之一。
Grant Sanderson:而且這很有趣,因?yàn)槲覀兊浆F(xiàn)在整個(gè)討論都默認(rèn)“這些數(shù)學(xué)本身沒有實(shí)際用處”。我們其實(shí)還沒認(rèn)真談這些數(shù)學(xué)真正的實(shí)際應(yīng)用是什么。如果這些研究本身存在任何經(jīng)濟(jì)效用,那么你自然會(huì)覺得:那些真正理解它、并能夠判斷它該往哪個(gè)方向走的人,其經(jīng)濟(jì)價(jià)值反而會(huì)大得多。因?yàn)槟憧梢宰鳛椴哒谷耍檫@頭“新數(shù)學(xué)巨獸”指方向,讓它朝有用的地方推進(jìn)。那樣一來,這個(gè)動(dòng)作的杠桿效應(yīng),比以前大得多。
主持人:我正想問你這個(gè)。AI 做數(shù)學(xué),問題不僅是“它能不能做”,還包括“它做得有沒有用?有沒有實(shí)際價(jià)值?”
你剛才說群論的時(shí)候提到,一開始大家只是在研究各種函數(shù)根的隨機(jī)性質(zhì),后來卻冒出這么多跨領(lǐng)域的實(shí)際應(yīng)用。你有沒有某種直覺:如果人類數(shù)學(xué)整體真的被加速到 10 倍、100 倍,然后發(fā)生一些非常瘋狂的事,到底會(huì)不會(huì)由此引發(fā)真正的大變化?還是說,我們?nèi)匀粫?huì)被其他領(lǐng)域卡住?
Grant Sanderson:我覺得有些領(lǐng)域大概會(huì),有些則不會(huì)。這件事本身就很“尖刺化”。如果代數(shù)數(shù)論(algebraic number theory)取得了進(jìn)展,感覺上它直接解鎖某種現(xiàn)實(shí)成果的可能性沒那么大。但我記得和一位做動(dòng)力系統(tǒng)、偏微分方程(PDE)方向的數(shù)學(xué)家聊過。他提到他們團(tuán)隊(duì)曾經(jīng)有一些想法——我看看我能不能概括對(duì)。好像是,波音(Boeing)造飛機(jī)的方式是:先做出來,再做大量測(cè)試,然后根據(jù)測(cè)試結(jié)果拆了重裝。他們團(tuán)隊(duì)基本上提出了一些見解,能讓更多工作在模擬中完成,這樣就不必反復(fù)拆解重建。好像因此幫波音省了幾十億美元,后來波音就開始給那個(gè)團(tuán)隊(duì)投錢。
這就明顯更接近應(yīng)用了,因?yàn)?PDE 本來就是這種東西。在那個(gè)方向上的進(jìn)展,你自然會(huì)覺得確實(shí)可能解鎖一些現(xiàn)實(shí)收益。我不知道會(huì)不會(huì)是那種斷崖式躍遷,但也許更像是:發(fā)動(dòng)機(jī)設(shè)計(jì)變得更流暢一些,或者你能更快找到正確機(jī)翼形狀,而不必跑那么多復(fù)雜的 CFD(計(jì)算流體力學(xué))仿真。也許某些純數(shù)學(xué)洞見能提升這些仿真的效率。我猜你會(huì)看到很多這種很扎實(shí)的、漸進(jìn)式的改進(jìn)。
感覺上,不太像是那種“數(shù)學(xué)上一個(gè)超級(jí)突破,立刻變成一個(gè)超級(jí)經(jīng)濟(jì)突破”的關(guān)系。比如說,你解出了 Navier-Stokes 問題,于是突然就能模擬萬物了——我不太相信會(huì)這么直接。但你大概會(huì)在那些邊緣地帶,看到某些純數(shù)學(xué)洞見慢慢滲漏進(jìn)別的東西里,形成實(shí)質(zhì)性的幫助。現(xiàn)在有很多人在做 AI 工程、實(shí)體工程、材料科學(xué)之類的事。你會(huì)覺得,他們會(huì)處在一個(gè)很好的位置上,去看 AI 在數(shù)學(xué)上的新洞見到底有沒有相關(guān)性。
這又是那種我不會(huì)在這里插旗子、斬釘截鐵預(yù)測(cè)一定會(huì)怎樣的事情。但如果未來五年里,AI 在數(shù)學(xué)上的進(jìn)展完全沒有帶來任何可以直接指認(rèn)的經(jīng)濟(jì)價(jià)值改進(jìn),那會(huì)讓我有點(diǎn)失望,也有點(diǎn)意外。如果它最后只是拿下了一堆 Erd?s 問題,卻沒有任何一部分?jǐn)?shù)學(xué)真的觸碰到物理世界,那會(huì)挺令人失望的。
主持人:To 你的點(diǎn)關(guān)于如何很多數(shù)學(xué)史的很大一部分,其實(shí)就是不斷搭建這些概念的堆和連接的堆。有時(shí)候這些堆彼此接通,或者在別處被發(fā)現(xiàn)有應(yīng)用。哪怕暫時(shí)沒接通,至少你已經(jīng)先把這一大堆東西搭起來了。
然后當(dāng)社會(huì)在奇點(diǎn)(singularity)期間出現(xiàn)更廣泛進(jìn)步、進(jìn)入奇點(diǎn)的工業(yè)化階段時(shí),你手里就已經(jīng)有了這些可能在世界其他地方派上用場(chǎng)的想法儲(chǔ)備。
Grant Sanderson:正如我所說,這一切里有一個(gè)很有意思的地方在于:它迫使人們后退一步,重新問“數(shù)學(xué)到底是什么?” 一個(gè)有點(diǎn)尷尬的結(jié)論也許會(huì)是:它變得完全沒用了。人們現(xiàn)在問的問題,已經(jīng)和任何物理上可應(yīng)用的東西脫離得如此之遠(yuǎn),以至于這是數(shù)學(xué)家們不得不面對(duì)的一件事。
到時(shí)候大家會(huì)看著數(shù)學(xué)界說:“等一下,你們不是應(yīng)該……如果那邊已經(jīng)有了 10 倍進(jìn)展,為什么這邊一點(diǎn)反應(yīng)都沒有?” 然后數(shù)學(xué)家們會(huì)說:“呃……” 每次我們?cè)?grant proposal(基金申請(qǐng))里寫“請(qǐng)相信我們,橢圓曲線上的進(jìn)展將來會(huì)幫助密碼學(xué)”,這時(shí)聚光燈一照,可能反而暴露出:也許根本不會(huì)。所以,這也是一種可能性。
主持人:Grant,這次聊得太開心了。非常感謝你來做這期節(jié)目。
Grant Sanderson:當(dāng)然,我很榮幸。
![]()
AI 不該只停留在概念和 Demo,更要真正走進(jìn)業(yè)務(wù)現(xiàn)場(chǎng)。
7 月 17-18 日,2026 奇點(diǎn)智能產(chǎn)品大會(huì)將在北京金隅喜來登酒店舉辦。大會(huì)圍繞 Agent 智能體、企業(yè)級(jí) AI、AI Coding、具身智能、行業(yè)應(yīng)用落地等核心方向,邀請(qǐng)一線產(chǎn)業(yè)實(shí)踐者,共同拆解 AI 產(chǎn)品從想法到落地、從試點(diǎn)到規(guī)模化的關(guān)鍵路徑。
掃碼領(lǐng)取 AI 實(shí)戰(zhàn)落地資料包,搶先了解大會(huì)亮點(diǎn),與 1000+ 產(chǎn)業(yè)決策者相聚現(xiàn)場(chǎng),共赴智能奇點(diǎn)。
![]()
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.