最近,我和卡內(nèi)基梅隆大學(xué)(CMU)計(jì)算機(jī)科學(xué)學(xué)院建院教授、世界首個機(jī)器學(xué)習(xí)系創(chuàng)立者 Tom Mitchell,做了一場關(guān)于機(jī)器學(xué)習(xí)與 AI 發(fā)展歷程的對談。
![]()
Tom Mitchell
Tom 是全球機(jī)器學(xué)習(xí)領(lǐng)域的奠基人之一。他在 1997 年出版的經(jīng)典教材《Machine Learning》,影響了幾代 AI 研究者。此外,Tom 是美國國家工程院院士、美國藝術(shù)與科學(xué)院院士,并入選國際人工智能協(xié)會(AAAI)Fellow,在人工智能、認(rèn)知神經(jīng)科學(xué)和機(jī)器學(xué)習(xí)的交叉應(yīng)用領(lǐng)域做出了卓越的歷史性貢獻(xiàn)。
對我來說,這次對談也像一次很特別的回望:每一次突破,都先來自對舊答案的不滿足。從 20 世紀(jì) 80 年代我在 CMU 做語音識別研究,到后來在蘋果、微軟、Google 參與 AI 的產(chǎn)品化和產(chǎn)業(yè)化,再到今天投身大模型和企業(yè) AI,一些技術(shù)名詞不斷變化,但 AI 進(jìn)步的底層邏輯,其實(shí)始終有清晰的延續(xù)。
AI 的歷史不是一條直線,而是一代人不斷推翻上一代人的確定性。我們從早期語音識別的技術(shù)路線分野談起,聊到深度學(xué)習(xí)、Transformer、Scaling Law、AI 原住民,以及未來學(xué)術(shù)研究者該如何選擇方向。
回看這 40 多年,我越來越確信:如果說 AI 領(lǐng)域 40 年真正改變了什么,變的是模型規(guī)模和能力,不變的是一個樸素夢想:用更多數(shù)據(jù)、更強(qiáng)算力和更好的架構(gòu),讓機(jī)器從規(guī)則里走出來,去理解真實(shí)世界。
對今天的企業(yè) AI 與產(chǎn)業(yè)大模型實(shí)踐而言,這一點(diǎn)同樣關(guān)鍵。我一直相信,真正重要的不是“炫技式創(chuàng)新”,而是能解決真實(shí)問題的“有用的創(chuàng)新”。
模型能力只是起點(diǎn),價值交付才是重點(diǎn)。當(dāng)下大模型已越過技術(shù)拐點(diǎn),下一階段的核心問題不只是“模型能否更強(qiáng)”,而是如何進(jìn)入核心業(yè)務(wù)流程,形成可驗(yàn)證、可交付、可持續(xù)優(yōu)化的業(yè)務(wù)閉環(huán)。零一萬物正在推進(jìn)的企業(yè) AI、產(chǎn)業(yè)大模型與企業(yè)級多智能體實(shí)踐,也是在這一長期技術(shù)邏輯之上,將模型能力轉(zhuǎn)化為價值交付和組織智能。
以下為對談精編,分享給大家。
01
在AI世界里
沒有什么比更多的數(shù)據(jù)更重要
Tom Mitchell:你很早就把機(jī)器學(xué)習(xí),尤其是隱馬爾可夫模型(Hidden Markov Models),引入語音識別領(lǐng)域。那還是你做博士論文的時候。你能不能簡要解釋一下,這到底是什么?為什么這一步對這個領(lǐng)域如此重要?
李開復(fù):1979 年,我進(jìn)入哥倫比亞大學(xué)讀書時,就對人工智能產(chǎn)生了濃厚興趣。我認(rèn)為,AI 是人類認(rèn)識并理解自己的最后一里路。我們在探索大腦的工作機(jī)制的同時,也是在嘗試回答一個更重大的問題:我們究竟能否創(chuàng)造出比肩或稍遜于人類的智能體。
這成了我一生的夢想。 我的導(dǎo)師之一約翰·肯德爾(John Kender)是卡內(nèi)基梅隆大學(xué)(CMU)的畢業(yè)生,當(dāng)時在哥倫比亞大學(xué)任教,他把我推薦到了CMU,我非常幸運(yùn)地被錄取了。
![]()
我向CMU提交的博士申請信
在 CMU 有一個“雙向選擇”的過程,我有機(jī)會聽每位教授介紹自己的研究方向。拉吉·瑞迪(Raj Reddy)描繪未來愿景時展現(xiàn)出的自信和熱情,深深打動了我。那時我也考慮過機(jī)器學(xué)習(xí)里的幾個其他方向,但語音識別最吸引我。
當(dāng)時我選擇語音識別,是因?yàn)樗且粋€相對可定義、可約束、也有機(jī)會被解決的問題。那時計(jì)算效率很低,算力昂貴。通用自然語言理解、計(jì)算機(jī)視覺這樣的問題太龐大,而語音識別可以先在有限領(lǐng)域內(nèi),把語音轉(zhuǎn)換成文字。
當(dāng)時美國一個政府研究機(jī)構(gòu)正在支持一個大型項(xiàng)目,目標(biāo)是在限定領(lǐng)域內(nèi)實(shí)現(xiàn)非特定說話人的連續(xù)語音識別系統(tǒng)。主流路線是專家系統(tǒng)。許多人相信,如果人類專家能看著聲譜圖判斷說話人在說什么,機(jī)器也應(yīng)該能基于規(guī)則做到。
但我通過彼得·布朗(Peter Brown)接觸到了另一條路線:隱馬爾可夫模型。這是一種基于概率統(tǒng)計(jì)的機(jī)器學(xué)習(xí)方法,天然適合處理語音這樣的時間序列問題。
于是我去找 Raj,對他說,我尊敬您,也熱愛語音識別,但我能不能嘗試一種不同的方法?我想用隱馬爾可夫模型,為項(xiàng)目提供另一條解決思路。
Raj 說了一句非常了不起的話:“我不同意你,但我會支持你。”這句話讓我終身受益。科學(xué)探索不能一開始就斷定“只能走這條路”,而要允許研究者追求自己擅長且真正有熱情的方向。AI 的突破很少來自孤立的靈感。真正改變歷史的,是有人敢走不同的路。
隨后,Raj 問我需要什么資源。我說,我需要大量數(shù)據(jù)。弗雷德里克·耶利內(nèi)克(Fred Jelinek)有一句名言:“沒有任何數(shù)據(jù)能勝過更多的數(shù)據(jù)。”我成為了這句話的堅(jiān)定信徒,直到今天依然如此。
規(guī)則能教機(jī)器服從,數(shù)據(jù)讓機(jī)器開始理解。
當(dāng)時 CMU 語音組擁有非常強(qiáng)的計(jì)算資源。做專家系統(tǒng)的人主要用這些機(jī)器標(biāo)注聲譜圖,而專家系統(tǒng)本身并不太消耗算力,所以我得以使用 SPARCstation 上所有剩余的計(jì)算資源。我手里大約有 20 臺 SPARCstation 可用,在當(dāng)時已經(jīng)是驚人的算力。
有 Peter 指導(dǎo)我學(xué)習(xí)隱馬爾可夫模型,有 Raj 以他的智慧、戰(zhàn)略眼光和鼓勵做我的支持者,同時,我還擁有了海量數(shù)據(jù)和算力。這就是一切的開端。
02
96% 準(zhǔn)確率背后:
技術(shù)突破來自正確變量的疊加
Tom Mitchell:如果用今天的眼光看,語音識別已經(jīng)和你剛開始研究時完全不同了。你能不能概括一下,當(dāng)時的技術(shù)前沿是什么?你在隱馬爾可夫模型上的工作產(chǎn)生了什么影響?
李開復(fù):在我攻讀博士之前,語音識別領(lǐng)域已經(jīng)有一些早期商業(yè)化系統(tǒng),但限制非常多。
例如 IBM 和 Dragon 都在做聽寫系統(tǒng),但用戶必須先訓(xùn)練系統(tǒng)。買到產(chǎn)品后,系統(tǒng)會要求用戶朗讀一批句子,然后花幾個小時訓(xùn)練模型,以專門識別這個人的聲音。這叫“特定說話人語音識別”。
另一類系統(tǒng)來自貝爾實(shí)驗(yàn)室。它不要求每個用戶訓(xùn)練模型,但只能識別很少的詞,比如電話系統(tǒng)里的數(shù)字或少量指令。它可以聽懂不同人的聲音,但詞匯量非常有限。
我們當(dāng)時面臨的任務(wù)要求更高:連續(xù)語音、非特定說話人、大詞匯量。當(dāng)然,當(dāng)時所謂“大詞匯量”也就是大約 1000 個詞,還不是今天意義上的開放式自然語言聽寫。
最初專家系統(tǒng)準(zhǔn)確率很低,只有 10% 或 20%,后來逐漸提高,但仍未達(dá)到真正實(shí)用的水平。我記得單詞準(zhǔn)確率最高大概只到了50%或60%。我決定直接做同一個任務(wù),因?yàn)樗呀?jīng)成為一個基準(zhǔn)測試(Benchmark):如果我能在這個任務(wù)上擊敗已有基準(zhǔn),就能證明我的技術(shù)路線是有價值的。
我明白,技術(shù)路線之爭,不是靠辯論贏的,是要靠結(jié)果贏的。
我提出了一系列方法,改進(jìn)了從 Peter 那里學(xué)到的東西。 IBM 的人其實(shí)也不知道我能否做出很好的結(jié)果,因?yàn)樗麄冎饕劢乖谔囟ㄕf話人識別上。所以,IBM也希望了解這套方法在非特定說話人場景下是否可行。但他們不知道結(jié)果會怎樣,我不知道,Raj 也不知道。當(dāng)我建立了一個基礎(chǔ)系統(tǒng)時,它的準(zhǔn)確率達(dá)到了約70%到80%,這已經(jīng)讓人非常非常興奮了。
![]()
紐約時報報道我的博士論文
在此基礎(chǔ)上,我主要做了三方面改進(jìn)。
第一,改進(jìn)隱馬爾可夫模型結(jié)構(gòu),同時應(yīng)用語音的語音學(xué)和聲學(xué)層面的知識使其更好地建模語音學(xué)和聲學(xué)特征。我從維克托·朱(Victor Zue)和他在CMU的同行羅恩·科爾(Ron Cole)那里學(xué)到了很多關(guān)于語音的語音學(xué)和聲學(xué)層面的知識。比如,音素在不同上下文中的發(fā)音并不完全相同,例如 “bat” 和 “cat” 中的 “a” 聽起來類似,但在聲譜圖中的表現(xiàn)會受到前后音影響。
第二,采用更好的信號處理表示。來自日本的訪問學(xué)者鹿野清宏博士建議我使用梅爾倒譜(Mel-Cepstral Representation)表示法,而不是普通 FFT 聲譜圖,這帶來了顯著性能提升。
第三,在構(gòu)建語言模型時,我沒有直接使用上下文無關(guān)文法(Context-free grammar),因?yàn)榕浜暇S特比算法運(yùn)行它非常耗時。在語言模型上使用二元語法和三元語法,也就是利用前一兩個詞預(yù)測下一個詞。這在工程上非常重要。
這些因素疊加起來,最終帶來了一個重要突破。我清楚地記得,在一個星期六醒來后,發(fā)現(xiàn)系統(tǒng)跑出了 96% 的準(zhǔn)確率。我整個人都被震撼了,因?yàn)樵诖酥拔夷茏龅降淖詈贸煽冎挥?0%多。這件事說明,技術(shù)突破往往不是單點(diǎn)奇跡,而是模型結(jié)構(gòu)、數(shù)據(jù)表示、上下文建模、數(shù)據(jù)規(guī)模和計(jì)算資源等多個正確方向同時疊加后的結(jié)果。
03
從 HMM 到 Transformer:
技術(shù)范式在變,擴(kuò)展邏輯始終未變
Tom Mitchell:在接下來的這些年里,語音識別是如何一步步走到今天的?
李開復(fù):我的論文發(fā)表后,相關(guān)方法成為行業(yè)標(biāo)準(zhǔn)之一。CMU 將我開發(fā)的 Sphinx (斯芬克斯系統(tǒng))授權(quán)給多家公司,后來又將其開源,為行業(yè)設(shè)定了一個性能基準(zhǔn)。
但在博士論文之后的幾年里,基于隱馬爾可夫模型的改進(jìn)逐漸變慢。它仍然能進(jìn)步,但幅度越來越小。我在微軟工作時,比爾·蓋茨問我:“你覺得我們什么時候能實(shí)現(xiàn)完全的語音識別?”我回答:“希望五年內(nèi)。”五年后他又問我,我還是說“五年內(nèi)”。后來我意識到,靠這套方法無法真正到達(dá)終點(diǎn)。
下一次重大突破來自深度學(xué)習(xí)。當(dāng)杰弗里·辛頓(Geoffrey Hinton)利用李飛飛教授的 ImageNet 數(shù)據(jù)庫證明深度學(xué)習(xí)可以打破計(jì)算機(jī)視覺基準(zhǔn)后,語音識別也很快迎來飛躍。
神經(jīng)網(wǎng)絡(luò)的想法一直存在,只是過去沒有足夠算力訓(xùn)練足夠大的網(wǎng)絡(luò)。一兩層神經(jīng)網(wǎng)絡(luò)很容易被隱馬爾可夫模型擊敗,但當(dāng)層數(shù)增加、數(shù)據(jù)規(guī)模擴(kuò)大、算力增強(qiáng)后,性能就會大幅提升。
再往后,就是今天我們熟悉的 Transformer 和大語言模型。這其中有許多突破:比如楊立昆(Yann LeCun)的貢獻(xiàn),以及吳恩達(dá)(Andrew Ng)所推動的端到端學(xué)習(xí)思路:不再將語言模型和聲學(xué)模型視為相互獨(dú)立的模塊,而是把它們統(tǒng)一到同一個系統(tǒng)中進(jìn)行訓(xùn)練。
![]()
從某種意義上說,今天大模型的進(jìn)步與我當(dāng)年做語音識別有相似之處:增加更多數(shù)據(jù),設(shè)計(jì)更好的模型架構(gòu),獲取大量計(jì)算資源,并讓機(jī)器完成更多理解工作。
當(dāng)年 IBM 和我使用二元語法、三元語法,本質(zhì)上也是一種非常早期、非常“笨拙”的上下文建模。它只能看前一兩個詞;今天的 Transformer 可以關(guān)注上百萬個詞的上下文,并通過注意力機(jī)制進(jìn)行選擇性處理。
因此,回看 AI 技術(shù)演進(jìn),關(guān)鍵始終在于四件事:模型架構(gòu)、海量數(shù)據(jù)、強(qiáng)大算力,以及處理上下文的能力。
今天我們正在目睹 AI 在越來越多場景下達(dá)到人類水平,并且在不久的將來,在更多場景中超過人類表現(xiàn)。
Tom Mitchell:你認(rèn)為語音識別的問題已經(jīng)徹底解決了嗎?
李開復(fù):從技術(shù)層面看,它已經(jīng)基本解決。仍然存在一些工程問題,比如嘈雜環(huán)境下的識別、終端設(shè)備離線運(yùn)行、成本進(jìn)一步降低等。但這些更多是工程問題,而不是基礎(chǔ)科學(xué)問題。
04
大模型原住民正在改寫
上一代 AI 研究者的認(rèn)知
Tom Mitchell:過去五年里,讓你最驚訝的事情是什么?接下來五年,你認(rèn)為我們可能看到哪些驚喜?
李開復(fù):最大的驚喜有三個:Transformer 架構(gòu)竟然能帶我們走得如此之遠(yuǎn),Scaling Law 竟然能持續(xù)奏效如此之久,以及強(qiáng)化學(xué)習(xí)終于在多年后發(fā)揮了關(guān)鍵作用。
我是 GPT-2 的早期測試者之一,當(dāng)時就意識到,隨著算力發(fā)展,Transformer 和注意力機(jī)制會帶來巨大提升。但我沒有料到,它能像今天這樣擴(kuò)展得如此龐大、深入。
今天 AI 在計(jì)算機(jī)視覺、機(jī)器翻譯、聊天機(jī)器人、深度研究、代碼生成、數(shù)學(xué)推理等方面取得的進(jìn)展,很多都是我原本認(rèn)為“有生之年也許會發(fā)生”的事,但沒想到來得如此之快。
AI 的歷史不是一條直線,而是一代人不斷推翻上一代人的確定性。
坦白說,我當(dāng)時并沒有許多谷歌和OpenAI年輕研究員們那樣篤定的信心。 我想這很大程度上是因?yàn)椤奥窂揭蕾嚒保冶贿^去那種長期緩慢發(fā)展的節(jié)奏給“毒害”了,所以我花了一段時間才適應(yīng)這個快節(jié)奏。
經(jīng)驗(yàn)讓人看得更遠(yuǎn),也可能讓人跑得更慢。所以,我確實(shí)預(yù)見到了它的到來,趨勢是清晰的;但我認(rèn)為像伊利亞(Ilya Sutskever)這些人的那種堅(jiān)定信念,真的非常鼓舞人心且令人驚嘆。
現(xiàn)在,我和許多人一樣,都在向年輕一代學(xué)習(xí)。
![]()
如果你看那些被OpenAI雇傭的極其年輕的人才,他們只有20多歲,在大語言模型時代長大,所以他們的思想完全是“未被約束”的。 就像我當(dāng)年很幸運(yùn)地在機(jī)器學(xué)習(xí)領(lǐng)域未被更早期的“專家系統(tǒng)”約束一樣。
那些深度學(xué)習(xí)時代的原住民,曾經(jīng)震撼了上一代 AI 研究者;現(xiàn)在,生成式 AI 和大語言模型時代的原住民,又讓深度學(xué)習(xí)時代的人深受震撼。
未來幾年,我相信還會有更多驚喜。如果 AI 做出突破性的科學(xué)發(fā)現(xiàn),我不會感到驚訝。我敢肯定,三四年內(nèi),在AI領(lǐng)域就會出現(xiàn)諾貝爾獎級別的突破。當(dāng)然,真正被授予諾貝爾獎可能需要更長的時間。一旦 AI 能加速科學(xué)發(fā)現(xiàn),它帶來的將不只是效率提升,也可能推動健康壽命延長、物質(zhì)財富增加,以及更多人類難題的解決。
05
要么與巨頭合作
要么去發(fā)明下一個Transformer
Tom Mitchell:如果你能對即將入學(xué)的計(jì)算機(jī)科學(xué)與 AI 專業(yè)博士生說幾句話,你會給他們什么建議?
李開復(fù):我會給出一個非常務(wù)實(shí)的建議。今天基于 Transformer 的生成式 AI 要繼續(xù)發(fā)展,必須建立在龐大算力基礎(chǔ)設(shè)施之上,而多數(shù)純學(xué)術(shù)機(jī)構(gòu)并不具備這樣的條件。因此,如果學(xué)生想?yún)⑴c這些歷史性突破,就要尋找那些與擁有大量計(jì)算資源的企業(yè)有合作關(guān)系的教授。這樣既有學(xué)術(shù)自由,也有必要的算力資源。
![]()
如果沒有這樣的條件,或者不打算這么做,我的建議是:打破常規(guī),尋找 Transformer 之外的下一個范式。
當(dāng)所有人都在優(yōu)化答案時,總要有人重新定義問題。
不要只是微調(diào)谷歌或 OpenAI 已經(jīng)做出來的東西。如果沒有充足計(jì)算資源,很難在他們的主戰(zhàn)場上擊敗他們。但你可以做他們還不知道怎么做的事,去構(gòu)建或發(fā)明下一個 Transformer,或者下一代強(qiáng)化學(xué)習(xí)機(jī)制。
這些方向風(fēng)險更大,但可以在小得多的算力基礎(chǔ)設(shè)施上進(jìn)行早期測試。AI 領(lǐng)域真正稀缺的,從來不是共識,而是能被驗(yàn)證的非共識。
那些在谷歌崛起后仍固執(zhí)己見做傳統(tǒng)信息檢索的人,最終走進(jìn)了死胡同。 在自動駕駛的早期階段,CMU和斯坦福取得了令人驚嘆的成就;但一旦Waymo、特斯拉等巨頭入局,制造下一輛自動駕駛汽車就不應(yīng)該再成為一個純學(xué)術(shù)研究課題。 要么你跟Waymo或特斯拉合作,要么你就去研究下一個前沿領(lǐng)域,這就是我的建議。
學(xué)術(shù)界的未來依然光明,但必須腳踏實(shí)地。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.