李開復(fù)對談 Tom Mitchell：AI 領(lǐng)域 40 多年，真正不變的是什么？

2026-06-08 18:52:54　來源: 李開復(fù)

北京舉報

分享至

最近，我和卡內(nèi)基梅隆大學(xué)（CMU）計(jì)算機(jī)科學(xué)學(xué)院建院教授、世界首個機(jī)器學(xué)習(xí)系創(chuàng)立者 Tom Mitchell，做了一場關(guān)于機(jī)器學(xué)習(xí)與 AI 發(fā)展歷程的對談。

Tom Mitchell

Tom 是全球機(jī)器學(xué)習(xí)領(lǐng)域的奠基人之一。他在 1997 年出版的經(jīng)典教材《Machine Learning》，影響了幾代 AI 研究者。此外，Tom 是美國國家工程院院士、美國藝術(shù)與科學(xué)院院士，并入選國際人工智能協(xié)會（AAAI）Fellow，在人工智能、認(rèn)知神經(jīng)科學(xué)和機(jī)器學(xué)習(xí)的交叉應(yīng)用領(lǐng)域做出了卓越的歷史性貢獻(xiàn)。

對我來說，這次對談也像一次很特別的回望：每一次突破，都先來自對舊答案的不滿足。從 20 世紀(jì) 80 年代我在 CMU 做語音識別研究，到后來在蘋果、微軟、Google 參與 AI 的產(chǎn)品化和產(chǎn)業(yè)化，再到今天投身大模型和企業(yè) AI，一些技術(shù)名詞不斷變化，但 AI 進(jìn)步的底層邏輯，其實(shí)始終有清晰的延續(xù)。

AI 的歷史不是一條直線，而是一代人不斷推翻上一代人的確定性。我們從早期語音識別的技術(shù)路線分野談起，聊到深度學(xué)習(xí)、Transformer、Scaling Law、AI 原住民，以及未來學(xué)術(shù)研究者該如何選擇方向。

回看這 40 多年，我越來越確信：如果說 AI 領(lǐng)域 40 年真正改變了什么，變的是模型規(guī)模和能力，不變的是一個樸素夢想：用更多數(shù)據(jù)、更強(qiáng)算力和更好的架構(gòu)，讓機(jī)器從規(guī)則里走出來，去理解真實(shí)世界。

對今天的企業(yè) AI 與產(chǎn)業(yè)大模型實(shí)踐而言，這一點(diǎn)同樣關(guān)鍵。我一直相信，真正重要的不是“炫技式創(chuàng)新”，而是能解決真實(shí)問題的“有用的創(chuàng)新”。

模型能力只是起點(diǎn)，價值交付才是重點(diǎn)。當(dāng)下大模型已越過技術(shù)拐點(diǎn)，下一階段的核心問題不只是“模型能否更強(qiáng)”，而是如何進(jìn)入核心業(yè)務(wù)流程，形成可驗(yàn)證、可交付、可持續(xù)優(yōu)化的業(yè)務(wù)閉環(huán)。零一萬物正在推進(jìn)的企業(yè) AI、產(chǎn)業(yè)大模型與企業(yè)級多智能體實(shí)踐，也是在這一長期技術(shù)邏輯之上，將模型能力轉(zhuǎn)化為價值交付和組織智能。

以下為對談精編，分享給大家。

在AI世界里

沒有什么比更多的數(shù)據(jù)更重要

Tom Mitchell：你很早就把機(jī)器學(xué)習(xí)，尤其是隱馬爾可夫模型（Hidden Markov Models），引入語音識別領(lǐng)域。那還是你做博士論文的時候。你能不能簡要解釋一下，這到底是什么？為什么這一步對這個領(lǐng)域如此重要？

李開復(fù)：1979 年，我進(jìn)入哥倫比亞大學(xué)讀書時，就對人工智能產(chǎn)生了濃厚興趣。我認(rèn)為，AI 是人類認(rèn)識并理解自己的最后一里路。我們在探索大腦的工作機(jī)制的同時，也是在嘗試回答一個更重大的問題：我們究竟能否創(chuàng)造出比肩或稍遜于人類的智能體。

這成了我一生的夢想。我的導(dǎo)師之一約翰·肯德爾（John Kender）是卡內(nèi)基梅隆大學(xué)（CMU）的畢業(yè)生，當(dāng)時在哥倫比亞大學(xué)任教，他把我推薦到了CMU，我非常幸運(yùn)地被錄取了。

我向CMU提交的博士申請信

在 CMU 有一個“雙向選擇”的過程，我有機(jī)會聽每位教授介紹自己的研究方向。拉吉·瑞迪（Raj Reddy）描繪未來愿景時展現(xiàn)出的自信和熱情，深深打動了我。那時我也考慮過機(jī)器學(xué)習(xí)里的幾個其他方向，但語音識別最吸引我。

當(dāng)時我選擇語音識別，是因?yàn)樗且粋€相對可定義、可約束、也有機(jī)會被解決的問題。那時計(jì)算效率很低，算力昂貴。通用自然語言理解、計(jì)算機(jī)視覺這樣的問題太龐大，而語音識別可以先在有限領(lǐng)域內(nèi)，把語音轉(zhuǎn)換成文字。

當(dāng)時美國一個政府研究機(jī)構(gòu)正在支持一個大型項(xiàng)目，目標(biāo)是在限定領(lǐng)域內(nèi)實(shí)現(xiàn)非特定說話人的連續(xù)語音識別系統(tǒng)。主流路線是專家系統(tǒng)。許多人相信，如果人類專家能看著聲譜圖判斷說話人在說什么，機(jī)器也應(yīng)該能基于規(guī)則做到。

但我通過彼得·布朗（Peter Brown）接觸到了另一條路線：隱馬爾可夫模型。這是一種基于概率統(tǒng)計(jì)的機(jī)器學(xué)習(xí)方法，天然適合處理語音這樣的時間序列問題。

于是我去找 Raj，對他說，我尊敬您，也熱愛語音識別，但我能不能嘗試一種不同的方法？我想用隱馬爾可夫模型，為項(xiàng)目提供另一條解決思路。

Raj 說了一句非常了不起的話：“我不同意你，但我會支持你。”這句話讓我終身受益。科學(xué)探索不能一開始就斷定“只能走這條路”，而要允許研究者追求自己擅長且真正有熱情的方向。AI 的突破很少來自孤立的靈感。真正改變歷史的，是有人敢走不同的路。

隨后，Raj 問我需要什么資源。我說，我需要大量數(shù)據(jù)。弗雷德里克·耶利內(nèi)克（Fred Jelinek）有一句名言：“沒有任何數(shù)據(jù)能勝過更多的數(shù)據(jù)。”我成為了這句話的堅(jiān)定信徒，直到今天依然如此。

規(guī)則能教機(jī)器服從，數(shù)據(jù)讓機(jī)器開始理解。

當(dāng)時 CMU 語音組擁有非常強(qiáng)的計(jì)算資源。做專家系統(tǒng)的人主要用這些機(jī)器標(biāo)注聲譜圖，而專家系統(tǒng)本身并不太消耗算力，所以我得以使用 SPARCstation 上所有剩余的計(jì)算資源。我手里大約有 20 臺 SPARCstation 可用，在當(dāng)時已經(jīng)是驚人的算力。

有 Peter 指導(dǎo)我學(xué)習(xí)隱馬爾可夫模型，有 Raj 以他的智慧、戰(zhàn)略眼光和鼓勵做我的支持者，同時，我還擁有了海量數(shù)據(jù)和算力。這就是一切的開端。

96% 準(zhǔn)確率背后：

技術(shù)突破來自正確變量的疊加

Tom Mitchell：如果用今天的眼光看，語音識別已經(jīng)和你剛開始研究時完全不同了。你能不能概括一下，當(dāng)時的技術(shù)前沿是什么？你在隱馬爾可夫模型上的工作產(chǎn)生了什么影響？

李開復(fù)：在我攻讀博士之前，語音識別領(lǐng)域已經(jīng)有一些早期商業(yè)化系統(tǒng)，但限制非常多。

例如 IBM 和 Dragon 都在做聽寫系統(tǒng)，但用戶必須先訓(xùn)練系統(tǒng)。買到產(chǎn)品后，系統(tǒng)會要求用戶朗讀一批句子，然后花幾個小時訓(xùn)練模型，以專門識別這個人的聲音。這叫“特定說話人語音識別”。

另一類系統(tǒng)來自貝爾實(shí)驗(yàn)室。它不要求每個用戶訓(xùn)練模型，但只能識別很少的詞，比如電話系統(tǒng)里的數(shù)字或少量指令。它可以聽懂不同人的聲音，但詞匯量非常有限。

我們當(dāng)時面臨的任務(wù)要求更高：連續(xù)語音、非特定說話人、大詞匯量。當(dāng)然，當(dāng)時所謂“大詞匯量”也就是大約 1000 個詞，還不是今天意義上的開放式自然語言聽寫。

最初專家系統(tǒng)準(zhǔn)確率很低，只有 10% 或 20%，后來逐漸提高，但仍未達(dá)到真正實(shí)用的水平。我記得單詞準(zhǔn)確率最高大概只到了50%或60%。我決定直接做同一個任務(wù)，因?yàn)樗呀?jīng)成為一個基準(zhǔn)測試（Benchmark）：如果我能在這個任務(wù)上擊敗已有基準(zhǔn)，就能證明我的技術(shù)路線是有價值的。

我明白，技術(shù)路線之爭，不是靠辯論贏的，是要靠結(jié)果贏的。

我提出了一系列方法，改進(jìn)了從 Peter 那里學(xué)到的東西。 IBM 的人其實(shí)也不知道我能否做出很好的結(jié)果，因?yàn)樗麄冎饕劢乖谔囟ㄕf話人識別上。所以，IBM也希望了解這套方法在非特定說話人場景下是否可行。但他們不知道結(jié)果會怎樣，我不知道，Raj 也不知道。當(dāng)我建立了一個基礎(chǔ)系統(tǒng)時，它的準(zhǔn)確率達(dá)到了約70%到80%，這已經(jīng)讓人非常非常興奮了。

紐約時報報道我的博士論文

在此基礎(chǔ)上，我主要做了三方面改進(jìn)。

第一，改進(jìn)隱馬爾可夫模型結(jié)構(gòu)，同時應(yīng)用語音的語音學(xué)和聲學(xué)層面的知識使其更好地建模語音學(xué)和聲學(xué)特征。我從維克托·朱（Victor Zue）和他在CMU的同行羅恩·科爾（Ron Cole）那里學(xué)到了很多關(guān)于語音的語音學(xué)和聲學(xué)層面的知識。比如，音素在不同上下文中的發(fā)音并不完全相同，例如 “bat” 和 “cat” 中的 “a” 聽起來類似，但在聲譜圖中的表現(xiàn)會受到前后音影響。

第二，采用更好的信號處理表示。來自日本的訪問學(xué)者鹿野清宏博士建議我使用梅爾倒譜（Mel-Cepstral Representation）表示法，而不是普通 FFT 聲譜圖，這帶來了顯著性能提升。

第三，在構(gòu)建語言模型時，我沒有直接使用上下文無關(guān)文法（Context-free grammar），因?yàn)榕浜暇S特比算法運(yùn)行它非常耗時。在語言模型上使用二元語法和三元語法，也就是利用前一兩個詞預(yù)測下一個詞。這在工程上非常重要。

這些因素疊加起來，最終帶來了一個重要突破。我清楚地記得，在一個星期六醒來后，發(fā)現(xiàn)系統(tǒng)跑出了 96% 的準(zhǔn)確率。我整個人都被震撼了，因?yàn)樵诖酥拔夷茏龅降淖詈贸煽冎挥?0%多。這件事說明，技術(shù)突破往往不是單點(diǎn)奇跡，而是模型結(jié)構(gòu)、數(shù)據(jù)表示、上下文建模、數(shù)據(jù)規(guī)模和計(jì)算資源等多個正確方向同時疊加后的結(jié)果。

從 HMM 到 Transformer：

技術(shù)范式在變，擴(kuò)展邏輯始終未變

Tom Mitchell：在接下來的這些年里，語音識別是如何一步步走到今天的？

李開復(fù)：我的論文發(fā)表后，相關(guān)方法成為行業(yè)標(biāo)準(zhǔn)之一。CMU 將我開發(fā)的 Sphinx （斯芬克斯系統(tǒng)）授權(quán)給多家公司，后來又將其開源，為行業(yè)設(shè)定了一個性能基準(zhǔn)。

但在博士論文之后的幾年里，基于隱馬爾可夫模型的改進(jìn)逐漸變慢。它仍然能進(jìn)步，但幅度越來越小。我在微軟工作時，比爾·蓋茨問我：“你覺得我們什么時候能實(shí)現(xiàn)完全的語音識別？”我回答：“希望五年內(nèi)。”五年后他又問我，我還是說“五年內(nèi)”。后來我意識到，靠這套方法無法真正到達(dá)終點(diǎn)。

下一次重大突破來自深度學(xué)習(xí)。當(dāng)杰弗里·辛頓（Geoffrey Hinton）利用李飛飛教授的 ImageNet 數(shù)據(jù)庫證明深度學(xué)習(xí)可以打破計(jì)算機(jī)視覺基準(zhǔn)后，語音識別也很快迎來飛躍。

神經(jīng)網(wǎng)絡(luò)的想法一直存在，只是過去沒有足夠算力訓(xùn)練足夠大的網(wǎng)絡(luò)。一兩層神經(jīng)網(wǎng)絡(luò)很容易被隱馬爾可夫模型擊敗，但當(dāng)層數(shù)增加、數(shù)據(jù)規(guī)模擴(kuò)大、算力增強(qiáng)后，性能就會大幅提升。

再往后，就是今天我們熟悉的 Transformer 和大語言模型。這其中有許多突破：比如楊立昆（Yann LeCun）的貢獻(xiàn)，以及吳恩達(dá)（Andrew Ng）所推動的端到端學(xué)習(xí)思路：不再將語言模型和聲學(xué)模型視為相互獨(dú)立的模塊，而是把它們統(tǒng)一到同一個系統(tǒng)中進(jìn)行訓(xùn)練。

從某種意義上說，今天大模型的進(jìn)步與我當(dāng)年做語音識別有相似之處：增加更多數(shù)據(jù)，設(shè)計(jì)更好的模型架構(gòu)，獲取大量計(jì)算資源，并讓機(jī)器完成更多理解工作。

當(dāng)年 IBM 和我使用二元語法、三元語法，本質(zhì)上也是一種非常早期、非常“笨拙”的上下文建模。它只能看前一兩個詞；今天的 Transformer 可以關(guān)注上百萬個詞的上下文，并通過注意力機(jī)制進(jìn)行選擇性處理。

因此，回看 AI 技術(shù)演進(jìn)，關(guān)鍵始終在于四件事：模型架構(gòu)、海量數(shù)據(jù)、強(qiáng)大算力，以及處理上下文的能力。

今天我們正在目睹 AI 在越來越多場景下達(dá)到人類水平，并且在不久的將來，在更多場景中超過人類表現(xiàn)。

Tom Mitchell：你認(rèn)為語音識別的問題已經(jīng)徹底解決了嗎？

李開復(fù)：從技術(shù)層面看，它已經(jīng)基本解決。仍然存在一些工程問題，比如嘈雜環(huán)境下的識別、終端設(shè)備離線運(yùn)行、成本進(jìn)一步降低等。但這些更多是工程問題，而不是基礎(chǔ)科學(xué)問題。

大模型原住民正在改寫

上一代 AI 研究者的認(rèn)知

Tom Mitchell：過去五年里，讓你最驚訝的事情是什么？接下來五年，你認(rèn)為我們可能看到哪些驚喜？

李開復(fù)：最大的驚喜有三個：Transformer 架構(gòu)竟然能帶我們走得如此之遠(yuǎn)，Scaling Law 竟然能持續(xù)奏效如此之久，以及強(qiáng)化學(xué)習(xí)終于在多年后發(fā)揮了關(guān)鍵作用。

我是 GPT-2 的早期測試者之一，當(dāng)時就意識到，隨著算力發(fā)展，Transformer 和注意力機(jī)制會帶來巨大提升。但我沒有料到，它能像今天這樣擴(kuò)展得如此龐大、深入。

今天 AI 在計(jì)算機(jī)視覺、機(jī)器翻譯、聊天機(jī)器人、深度研究、代碼生成、數(shù)學(xué)推理等方面取得的進(jìn)展，很多都是我原本認(rèn)為“有生之年也許會發(fā)生”的事，但沒想到來得如此之快。

AI 的歷史不是一條直線，而是一代人不斷推翻上一代人的確定性。

坦白說，我當(dāng)時并沒有許多谷歌和OpenAI年輕研究員們那樣篤定的信心。我想這很大程度上是因?yàn)椤奥窂揭蕾嚒保冶贿^去那種長期緩慢發(fā)展的節(jié)奏給“毒害”了，所以我花了一段時間才適應(yīng)這個快節(jié)奏。

經(jīng)驗(yàn)讓人看得更遠(yuǎn)，也可能讓人跑得更慢。所以，我確實(shí)預(yù)見到了它的到來，趨勢是清晰的；但我認(rèn)為像伊利亞（Ilya Sutskever）這些人的那種堅(jiān)定信念，真的非常鼓舞人心且令人驚嘆。

現(xiàn)在，我和許多人一樣，都在向年輕一代學(xué)習(xí)。

如果你看那些被OpenAI雇傭的極其年輕的人才，他們只有20多歲，在大語言模型時代長大，所以他們的思想完全是“未被約束”的。就像我當(dāng)年很幸運(yùn)地在機(jī)器學(xué)習(xí)領(lǐng)域未被更早期的“專家系統(tǒng)”約束一樣。

那些深度學(xué)習(xí)時代的原住民，曾經(jīng)震撼了上一代 AI 研究者；現(xiàn)在，生成式 AI 和大語言模型時代的原住民，又讓深度學(xué)習(xí)時代的人深受震撼。

未來幾年，我相信還會有更多驚喜。如果 AI 做出突破性的科學(xué)發(fā)現(xiàn)，我不會感到驚訝。我敢肯定，三四年內(nèi)，在AI領(lǐng)域就會出現(xiàn)諾貝爾獎級別的突破。當(dāng)然，真正被授予諾貝爾獎可能需要更長的時間。一旦 AI 能加速科學(xué)發(fā)現(xiàn)，它帶來的將不只是效率提升，也可能推動健康壽命延長、物質(zhì)財富增加，以及更多人類難題的解決。

要么與巨頭合作

要么去發(fā)明下一個Transformer

Tom Mitchell：如果你能對即將入學(xué)的計(jì)算機(jī)科學(xué)與 AI 專業(yè)博士生說幾句話，你會給他們什么建議？

李開復(fù)：我會給出一個非常務(wù)實(shí)的建議。今天基于 Transformer 的生成式 AI 要繼續(xù)發(fā)展，必須建立在龐大算力基礎(chǔ)設(shè)施之上，而多數(shù)純學(xué)術(shù)機(jī)構(gòu)并不具備這樣的條件。因此，如果學(xué)生想?yún)⑴c這些歷史性突破，就要尋找那些與擁有大量計(jì)算資源的企業(yè)有合作關(guān)系的教授。這樣既有學(xué)術(shù)自由，也有必要的算力資源。

如果沒有這樣的條件，或者不打算這么做，我的建議是：打破常規(guī)，尋找 Transformer 之外的下一個范式。

當(dāng)所有人都在優(yōu)化答案時，總要有人重新定義問題。

不要只是微調(diào)谷歌或 OpenAI 已經(jīng)做出來的東西。如果沒有充足計(jì)算資源，很難在他們的主戰(zhàn)場上擊敗他們。但你可以做他們還不知道怎么做的事，去構(gòu)建或發(fā)明下一個 Transformer，或者下一代強(qiáng)化學(xué)習(xí)機(jī)制。

這些方向風(fēng)險更大，但可以在小得多的算力基礎(chǔ)設(shè)施上進(jìn)行早期測試。AI 領(lǐng)域真正稀缺的，從來不是共識，而是能被驗(yàn)證的非共識。

那些在谷歌崛起后仍固執(zhí)己見做傳統(tǒng)信息檢索的人，最終走進(jìn)了死胡同。在自動駕駛的早期階段，CMU和斯坦福取得了令人驚嘆的成就；但一旦Waymo、特斯拉等巨頭入局，制造下一輛自動駕駛汽車就不應(yīng)該再成為一個純學(xué)術(shù)研究課題。要么你跟Waymo或特斯拉合作，要么你就去研究下一個前沿領(lǐng)域，這就是我的建議。

學(xué)術(shù)界的未來依然光明，但必須腳踏實(shí)地。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.