作者簡(jiǎn)介
郭毅可,香港科技大學(xué)首席副校長(zhǎng)、英國(guó)皇家工程院院士、歐洲科學(xué)院院士、香港工程科學(xué)院院士,2023年“吳文俊人工智能杰出貢獻(xiàn)獎(jiǎng)”獲得者。研究方向?yàn)闄C(jī)器學(xué)習(xí)與數(shù)據(jù)挖掘、數(shù)據(jù)科學(xué)工作流程、機(jī)器學(xué)習(xí)算法及醫(yī)學(xué)大數(shù)據(jù)分析系統(tǒng)。主要著作有《人工智能與未來(lái)社會(huì)發(fā)展》(主編)等。
摘要
當(dāng)前,大模型的發(fā)展速度日益加快,且其發(fā)展的道路和方向已成為人工智能發(fā)展的重要命題。如何讓機(jī)器具有智力,成為人類自身發(fā)展的好伙伴、好幫手,是大模型發(fā)展面臨的新挑戰(zhàn)。我們認(rèn)為,未來(lái)大模型將從表述內(nèi)容的“搜索范式”進(jìn)化到闡述論證觀點(diǎn)的“價(jià)值范式”,建立自己的價(jià)值觀。在這樣的價(jià)值范式下,機(jī)器的人性化不斷增強(qiáng),創(chuàng)造力得到進(jìn)一步發(fā)展,從而使幻思的能力成為合乎世界模型的有意義的創(chuàng)造,最終推動(dòng)大模型步入“創(chuàng)造范式”,使人與機(jī)器的共生、共存、共創(chuàng)成為可能,形成嶄新的社會(huì)形態(tài)。為此,我們需要建構(gòu)面向未來(lái)的技術(shù)理想,對(duì)人工智能的發(fā)展及其推動(dòng)人類發(fā)展進(jìn)步的前景充滿信心,不畏試錯(cuò)、大膽創(chuàng)新,走出一條我們自己的大模型道路。
如果大模型是一個(gè)答案,那么什么是問(wèn)題
說(shuō)到大模型,一個(gè)簡(jiǎn)單的理解就是把巨量的信息(如互聯(lián)網(wǎng)上所有的文字)壓縮(即編碼),在這個(gè)壓縮的空間里形成一個(gè)采樣機(jī)制,它可以根據(jù)需要(如回答一個(gè)問(wèn)題)選擇一些壓縮的信息,把它復(fù)原(即譯碼)以生成新的內(nèi)容(如對(duì)問(wèn)題的回答),也就是說(shuō)模型的終極目標(biāo)是壓縮輸入空間的信息,形成模型,使其可以重構(gòu)并恢復(fù)原來(lái)的輸入空間。對(duì)于語(yǔ)言而言,重構(gòu)生成策略是“文字接龍”,即通過(guò)前一個(gè)詞預(yù)測(cè)下一個(gè)詞的方法生成句子。這樣的稱為自回歸的預(yù)測(cè)基于“注意力”(attention)的方法來(lái)計(jì)算詞與詞的所有相關(guān)性,并用它來(lái)判斷一個(gè)詞和后一個(gè)詞的生成。這個(gè)看似簡(jiǎn)單的方法,成就了ChatGPT革命性的突破!
大模型在語(yǔ)言上的成就也擴(kuò)展到了其他的模態(tài),如音樂(lè)、視頻都能夠以同樣的方法生成。在圖像方面,擴(kuò)散模型通過(guò)對(duì)圖像進(jìn)行壓縮編碼來(lái)提取抽象圖像的特征,并通過(guò)譯碼在壓縮的空間中基于不同特征的組合,形成新的圖像。在生成的過(guò)程中,對(duì)于圖像元素之間相關(guān)關(guān)系的估計(jì),使得生成的圖像符合邏輯、具有意義。
這一原理并不復(fù)雜,而以這樣簡(jiǎn)單的原理去實(shí)現(xiàn)一個(gè)機(jī)器的語(yǔ)言模型,使機(jī)器可以與人一樣進(jìn)行交流對(duì)話,卻具有劃時(shí)代的意義。
這種方法之所以能夠成功,緣于今天我們可以有驚人的算力去處理天下所有的數(shù)據(jù)。今天的計(jì)算機(jī)可以讀遍世界上所有的文字,把它壓縮成一個(gè)萬(wàn)億參數(shù)的模型,這是一個(gè)偉大的成就。而這樣的模型可以從海量的文字里面,總結(jié)出所有詞與詞的關(guān)系,更是一種不可思議的能力。
機(jī)器走到今天,具有了與人相近的語(yǔ)言能力,用專業(yè)的話說(shuō)就是機(jī)器具有了與人相近的語(yǔ)言模型,這已經(jīng)是不爭(zhēng)的事實(shí)。機(jī)器可以如人般回答問(wèn)題,讓人從回答中分辨不出機(jī)器和人,也就是說(shuō)今天的計(jì)算機(jī)通過(guò)了當(dāng)年圖靈為回答“機(jī)器能思維嗎”這個(gè)問(wèn)題而設(shè)計(jì)的“圖靈測(cè)試”。人工智能進(jìn)入了“后圖靈時(shí)代”。
今天我們都在做大模型,有開(kāi)源的、閉源的,有語(yǔ)言的,還有各種其他模態(tài)的。在大模型的追逐中有一套測(cè)試標(biāo)準(zhǔn),如同人的智商測(cè)試,大家都在以這樣的測(cè)試來(lái)衡量模型的水平,追求一個(gè)SOTA(即目前的最好結(jié)果)。仿佛人工智能的發(fā)展已經(jīng)找到了一個(gè)答案、一個(gè)萬(wàn)能的方法,剩下的工作就是用更多的數(shù)據(jù)、更強(qiáng)的算力把模型做得更大。
強(qiáng)化學(xué)習(xí)的鼻祖薩頓(Richard Sutton)2019年發(fā)表了一篇博文——《苦澀的教訓(xùn)》(The Bitter Lesson),指出在人工智能研究中如能找到一個(gè)通用的方法,利用大算力不斷拓展其能力,往往是最有效的研究途徑。這篇博文被廣泛引用,被稱之為人工智能學(xué)者必學(xué)的材料,這個(gè)論斷也被稱之為“擴(kuò)展律”(Scaling Law)。從這個(gè)論斷出發(fā),大模型的發(fā)展主要是依賴大算力和大數(shù)據(jù),這也是目前大家普遍遵循的一條技術(shù)路線。
然而,我們真的已經(jīng)為人工智能的發(fā)展找到了大模型這樣一個(gè)完美的答案了嗎?我們知道,科學(xué)發(fā)展每一個(gè)階段、每一個(gè)里程碑的完成都不只是給出一個(gè)答案,而是提出一系列新的問(wèn)題,這些新的問(wèn)題恰恰是科學(xué)繼續(xù)發(fā)展的內(nèi)在推動(dòng)力。那么,大模型時(shí)代,提出的問(wèn)題又是什么呢?
作為投資者,他們關(guān)心的問(wèn)題是大模型的價(jià)值到底是什么?如何實(shí)現(xiàn)它的商業(yè)利益?作為哲學(xué)家,他們關(guān)心的問(wèn)題是機(jī)器思維和人類思維之間的異同以及由此帶來(lái)的與社會(huì)發(fā)展的關(guān)系。哲學(xué)家維特根斯坦說(shuō)過(guò),語(yǔ)言確定了思維的邊界。也就是說(shuō)今天的機(jī)器有了語(yǔ)言,所以它不僅有了思維的表達(dá),也有了思維的能力,那么,這樣的能力將如何進(jìn)化,其發(fā)展對(duì)人類和社會(huì)又有多大的沖擊和影響?這是人工智能發(fā)展與治理需要思考的大問(wèn)題。作為計(jì)算機(jī)科學(xué)家,在為技術(shù)不斷進(jìn)步而驚喜的時(shí)候,我們也在總結(jié)過(guò)去的經(jīng)驗(yàn)和探索未來(lái)的方向。今天大模型給出的并不是一個(gè)答案,而是一系列新的問(wèn)題——讓機(jī)器具有智力,成為人類自身發(fā)展的好伙伴、好幫手是一個(gè)漫長(zhǎng)的征程。對(duì)這些新問(wèn)題的理解和思考有助于我們規(guī)劃好研究的方向,避免人云亦云、重復(fù)勞動(dòng),從而有效地進(jìn)行創(chuàng)新。下面,筆者將從算力、算料(數(shù)據(jù))和算法三要素的角度來(lái)談一些看法。
關(guān)于算力
大模型的訓(xùn)練需要巨大的算力。據(jù)稱GPT-3模型訓(xùn)練使用了128臺(tái)英偉達(dá)A100服務(wù)器(訓(xùn)練34天),對(duì)應(yīng)640P算力;GPT-4模型訓(xùn)練使用了3125臺(tái)英偉達(dá)A100服務(wù)器(訓(xùn)練90~100天),對(duì)應(yīng)15625P算力。從GPT-3到GPT-4模型,參數(shù)規(guī)模增加約10倍,但用于訓(xùn)練的GPU數(shù)量增加了近24倍,總計(jì)算量增加了近70倍。可以想象,擴(kuò)展律對(duì)應(yīng)的資源需求量遞增是多么的巨大。實(shí)際上,擴(kuò)展律還揭示了一個(gè)令人沮喪的事實(shí):當(dāng)我們的資源投入呈線性增長(zhǎng)的時(shí)候,性能的提升是遠(yuǎn)低于線性增長(zhǎng)的。
巨大的算力也意味著巨大的投入。據(jù)估計(jì),運(yùn)營(yíng)一臺(tái)英偉達(dá)的A100服務(wù)器,一年的成本約為80萬(wàn)元。對(duì)于一個(gè)擁有萬(wàn)卡的廠商,擁有1250臺(tái)服務(wù)器(8卡一臺(tái)服務(wù)器),一年需要1250乘以80萬(wàn)也就是10億元的成本。可以想象,維護(hù)一個(gè)強(qiáng)大的算力中心的成本是驚人的,對(duì)于成本如此高昂的算力資源,如果不能得到滿負(fù)載的利用,將會(huì)造成巨大的浪費(fèi)。
因此,大模型的發(fā)展不能僅僅在擴(kuò)展率的驅(qū)動(dòng)下,用算力的野蠻增長(zhǎng)來(lái)推動(dòng)。算力的確是今天AI時(shí)代最根本的基礎(chǔ)設(shè)施,但它不可能是無(wú)限的。我們必須研究高效的學(xué)習(xí)方法和策略來(lái)聰明地使用有限的計(jì)算資源。
混合專家模型。優(yōu)化計(jì)算效率的一個(gè)有效的方法,是通過(guò)對(duì)模型結(jié)構(gòu)和推理機(jī)制的改良,使得模型參數(shù)的增長(zhǎng)和計(jì)算資源需求的增長(zhǎng)呈線性而不是倍增關(guān)系,這其中一個(gè)重要的進(jìn)展就是通過(guò)多個(gè)小參數(shù)模型的組合形成一個(gè)大參數(shù)量的模型,即“混合專家模型”(Mixture of Experts, MoE)。這一模型將多個(gè)不同的學(xué)習(xí)數(shù)據(jù)訓(xùn)練成的子模型相結(jié)合,用一種表決組合的方式形成綜合的生成內(nèi)容。由于這一方案在推理過(guò)程中能夠根據(jù)輸入數(shù)據(jù)的不同,動(dòng)態(tài)地選擇不同的子模型(即“專家”)進(jìn)行計(jì)算,使大模型的學(xué)習(xí)和推理“稀疏化”,因而能夠把大模型參數(shù)增長(zhǎng)對(duì)算力的要求“線性化”,實(shí)現(xiàn)更快的響應(yīng)速度。這樣的策略實(shí)現(xiàn)了對(duì)計(jì)算效率的極大改進(jìn),而且實(shí)踐證明,以這樣的新方式構(gòu)造的模型系統(tǒng)的性能與同樣規(guī)模的單一模型相比并不遜色。這一結(jié)果其實(shí)并不令人驚訝,因?yàn)楹腿四X一樣,基于神經(jīng)元網(wǎng)絡(luò)的模型在思考一個(gè)問(wèn)題的過(guò)程中,實(shí)際上只有極小的一部分神經(jīng)元參與了工作,所以這樣“稀疏”的學(xué)習(xí)和推理策略應(yīng)當(dāng)是行之有效的。
高質(zhì)量的數(shù)據(jù)。第二種減少對(duì)大算力依賴的重要思路,是用高質(zhì)量的數(shù)據(jù)來(lái)彌補(bǔ)模型的規(guī)模不足。數(shù)據(jù)是人工智能的基石,數(shù)據(jù)的質(zhì)量關(guān)乎人工智能發(fā)展水平,影響其安全性、可信性。高質(zhì)量的數(shù)據(jù)集可以幫助模型更好地理解和捕捉不同的概念、語(yǔ)義和語(yǔ)法結(jié)構(gòu),使模型在各種任務(wù)和領(lǐng)域中表現(xiàn)出更好的泛化能力,推動(dòng)大模型的價(jià)值躍遷。大模型并不是越大越好,數(shù)據(jù)也不是越多越好,真正好的大模型是參數(shù)大小適中、數(shù)據(jù)質(zhì)量高。實(shí)踐充分證明,面對(duì)同一個(gè)學(xué)習(xí)策略,高質(zhì)量的學(xué)習(xí)數(shù)據(jù)可以大大提高模型的質(zhì)量。相比一個(gè)規(guī)模更大但訓(xùn)練數(shù)據(jù)質(zhì)量較低的模型,一個(gè)規(guī)模較小但使用高質(zhì)量數(shù)據(jù)訓(xùn)練的模型可能表現(xiàn)出更高的生成質(zhì)量。
持續(xù)學(xué)習(xí)。緩解算力需求的第三種重要方法是持續(xù)學(xué)習(xí),即在不“忘記”從以前的學(xué)習(xí)中獲得的知識(shí)的情況下,不斷地用新的數(shù)據(jù)來(lái)更新模型,使訓(xùn)練的大模型有更高的生成質(zhì)量。我們知道,人類具有從經(jīng)驗(yàn)中不斷復(fù)用拓展知識(shí)的能力,不僅可以將先前學(xué)到的知識(shí)和技能應(yīng)用到新的環(huán)境中,還可以將它們作為以后學(xué)習(xí)的基礎(chǔ)。如果機(jī)器也能有這樣的持續(xù)學(xué)習(xí)機(jī)制,我們就可以避免每次在進(jìn)化一個(gè)大模型時(shí),在包含新舊數(shù)據(jù)這一新的更大數(shù)據(jù)集的基礎(chǔ)上對(duì)整個(gè)模型進(jìn)行重新訓(xùn)練,從而改善大模型訓(xùn)練對(duì)算力的需求。但是,持續(xù)學(xué)習(xí)不是一件容易的事情,模型所學(xué)到的知識(shí)與規(guī)律存儲(chǔ)在模型參數(shù)中,當(dāng)模型在新數(shù)據(jù)集上學(xué)習(xí)時(shí),網(wǎng)絡(luò)中的參數(shù)會(huì)被更新,而舊任務(wù)的知識(shí)則會(huì)被覆蓋,導(dǎo)致更新后的模型在舊任務(wù)上的表現(xiàn)出現(xiàn)“災(zāi)難性的下降”,這種現(xiàn)象被稱為“災(zāi)難性遺忘”。如何使機(jī)器在持續(xù)學(xué)習(xí)中克服這一問(wèn)題,是一個(gè)很大的研究課題。所以,我們要看到,今天機(jī)器學(xué)習(xí)的機(jī)制還是很初級(jí)的,甚至不具備人類擁有的基本認(rèn)知功能,比如“記憶”。在這樣一個(gè)功能欠缺的機(jī)制上,通過(guò)擴(kuò)展律,用規(guī)模來(lái)彌補(bǔ)機(jī)制的缺陷,應(yīng)該不是一個(gè)長(zhǎng)遠(yuǎn)之計(jì)。我相信,對(duì)人腦這樣一個(gè)經(jīng)過(guò)幾百萬(wàn)年的進(jìn)化而形成的高效學(xué)習(xí)機(jī)制的研究和認(rèn)識(shí),一定會(huì)使我們發(fā)展出高效的機(jī)器學(xué)習(xí)機(jī)制,使算力不再成為大模型發(fā)展的瓶頸。
關(guān)于數(shù)據(jù)
擴(kuò)展律的另一個(gè)結(jié)論是,通過(guò)大量不同的數(shù)據(jù)來(lái)訓(xùn)練高容量的大模型,較之于通過(guò)巧妙的方法、用精選的小數(shù)據(jù)來(lái)微調(diào)一個(gè)現(xiàn)成的模型,更能捕捉數(shù)據(jù)的本質(zhì)特征,從而找到數(shù)據(jù)的共性(即泛化能力),提高生成能力。
現(xiàn)在業(yè)界有一個(gè)普遍的認(rèn)識(shí),就是目前所有的數(shù)據(jù)已經(jīng)快被用完,我們即將面臨“數(shù)據(jù)危機(jī)”。這個(gè)看法有一定的道理,但事實(shí)是,被我們用完的數(shù)據(jù)并不是消失了,而是被壓縮成了一個(gè)強(qiáng)大的模型。何謂壓縮?壓縮就是找出數(shù)據(jù)中的規(guī)律性、共性,并用更簡(jiǎn)潔的方式予以表示,以減少冗余信息。而當(dāng)我們成功地對(duì)數(shù)據(jù)進(jìn)行壓縮時(shí),就意味著我們已經(jīng)捕捉到了數(shù)據(jù)的本質(zhì)特征和規(guī)律,所得到的模型就有了優(yōu)秀的泛化和生成能力。假如我們有了一個(gè)非常好的語(yǔ)言模型,那么這樣的語(yǔ)言模型同時(shí)也構(gòu)成了一個(gè)最強(qiáng)大的數(shù)據(jù)生成器,可以生成所有我們想講的和能講的話。如此一來(lái),更有意義的工作就不再是努力尋找新的數(shù)據(jù),而是研究如何從大模型中生成我們需要的數(shù)據(jù),并在這樣的數(shù)據(jù)之上以有限的算力更為有效地構(gòu)造一個(gè)又一個(gè)精致的、滿足特定需要的模型。
這聽(tīng)起來(lái)仿佛是一個(gè)輪回:從數(shù)據(jù)到模型又從模型生成數(shù)據(jù),但這樣的輪回可以實(shí)現(xiàn)層次性的上升:新的數(shù)據(jù)和信息的質(zhì)量、語(yǔ)言的結(jié)構(gòu)更為高級(jí),從而使得新的模型在層次上有了質(zhì)的飛躍。比如我們要求新的語(yǔ)言模型可以懂得幽默、富有感情,可以寫(xiě)出笑話,這不是一個(gè)簡(jiǎn)單的任務(wù)。美國(guó)著名作家、語(yǔ)言學(xué)家勒古恩(Ursula K. Le Guin)指出,詞語(yǔ)是一種事件,具有作用力,能夠改變事物。它們不僅能夠改變說(shuō)話者和聆聽(tīng)者,還能在雙方之間傳遞能量,傳遞理解或情感,并對(duì)其進(jìn)行放大。然而,當(dāng)詞語(yǔ)被剝離了“人性”,輸入到無(wú)感情的機(jī)器中,被用作不具有啟迪功能的信息代價(jià)物時(shí),會(huì)發(fā)生什么呢?這正是今天的大模型技術(shù)面臨的一個(gè)挑戰(zhàn)。
要在機(jī)器生成的語(yǔ)言中注入“人性”,就要求我們?cè)谀P椭凶⑷肽軌蛴谜Z(yǔ)言表達(dá)的人類文明凝練的精神智慧和文化底蘊(yùn),也就是說(shuō)我們?cè)谟?xùn)練模型時(shí),對(duì)語(yǔ)言數(shù)據(jù)的壓縮不僅要捕捉低階的語(yǔ)義特征,還要捕捉高階的語(yǔ)境、語(yǔ)用特征,這對(duì)語(yǔ)言模型的學(xué)習(xí)提出了新的要求。為了把這樣的層次性表達(dá)出來(lái),也許,我們未來(lái)的壓縮編碼空間將不再是簡(jiǎn)單的向量空間了。
進(jìn)而言之,對(duì)新數(shù)據(jù)合成的要求也將不再滿足于簡(jiǎn)單地按分布采樣,數(shù)據(jù)的生成不再是越多越好,而是要有選擇性,強(qiáng)調(diào)一定條件下的數(shù)據(jù)生成、有結(jié)構(gòu)的數(shù)據(jù)生成,即數(shù)據(jù)的產(chǎn)生和采集是結(jié)構(gòu)化的,而不是如現(xiàn)在這般——大模型的數(shù)據(jù)采集用一個(gè)數(shù)據(jù)元(token)統(tǒng)一組織——進(jìn)行線性采集和順序生成了。
依筆者之見(jiàn),用于學(xué)習(xí)的數(shù)據(jù)是取之不盡、用之不竭的。數(shù)據(jù)是客觀世界的一種體現(xiàn)和表達(dá),如果把模型看成是機(jī)器通過(guò)數(shù)據(jù)對(duì)客觀世界進(jìn)行理解,那么數(shù)據(jù)和模型的關(guān)系便符合毛澤東同志在“實(shí)踐論”中對(duì)辯證唯物主義認(rèn)識(shí)論的闡述:“實(shí)踐、認(rèn)識(shí)、再實(shí)踐、再認(rèn)識(shí),這種形式,循環(huán)往復(fù)以至無(wú)窮,而實(shí)踐和認(rèn)識(shí)之每一循環(huán)的內(nèi)容,都比較地進(jìn)到了高一級(jí)的程度。這就是辯證唯物論的全部認(rèn)識(shí)論,這就是辯證唯物論的知行統(tǒng)一觀”。就大模型而言,從數(shù)據(jù)到模型體現(xiàn)了實(shí)踐,而從模型到數(shù)據(jù)反映了認(rèn)識(shí)。我們不必?fù)?dān)心數(shù)據(jù)的窮盡,而應(yīng)該期待越來(lái)越有人性的大模型的到來(lái)。
關(guān)于算法
未來(lái)的大模型如何發(fā)展?這是今天每一個(gè)人工智能研究者都要認(rèn)真思考的問(wèn)題。如上文所言,以自回歸為基礎(chǔ)的大模型的研究取得了許多非常振奮人心的成果,存在技術(shù)改進(jìn)的可能性空間和廣闊的開(kāi)拓潛力,特別是在學(xué)習(xí)效率的提高、思維鏈的增強(qiáng)與合成數(shù)據(jù)的深度、精度和廣度等方面大有可為。此外,把大模型與其他的功能調(diào)用(functional call)的業(yè)務(wù)工作流相結(jié)合,把語(yǔ)言作為工作流的驅(qū)動(dòng)機(jī)制,可以靈活地組織各種功能,形成一個(gè)大商業(yè)語(yǔ)言模型(Large Business Language Model)。這也是大模型算法研究上一個(gè)非常有前景的方向。這里我想談一下對(duì)生成式人工智能算法的一些根本性問(wèn)題。
基于自回歸的生成模型的局限性。基于自回歸的生成模型的基本思路是線性地依順序重構(gòu)輸入空間,所以,讓模型具有補(bǔ)全一句話、填滿一張圖的能力是有效的學(xué)習(xí)方法,目的都是使模型具有生成力。但是,這樣的模型也有其內(nèi)在缺陷。
從學(xué)習(xí)的角度而言,以重構(gòu)世界為目標(biāo)的學(xué)習(xí)并不等同于可以理解世界。正如你學(xué)會(huì)了重新拼裝一架飛機(jī),并不等于你理解飛行的原理,也不一定確保你能夠重新設(shè)計(jì)出一架新的飛機(jī)。所以,重構(gòu)只是學(xué)習(xí)的第一步,理解所構(gòu)造的世界才是關(guān)鍵而艱難的下一步。這個(gè)挑戰(zhàn)在目前的視頻生成研究中已經(jīng)顯示得很清楚了。我們可以把視頻生成和語(yǔ)言生成等同起來(lái),把視頻看成是圖像的序列語(yǔ)言,基于同樣的自回歸方法讓機(jī)器來(lái)重構(gòu),從大量的視頻數(shù)據(jù)中學(xué)會(huì)圖像序列的生成。這就要求在一個(gè)連續(xù)的時(shí)間序列中準(zhǔn)確地生成每一幅圖像上的各種細(xì)節(jié),并在這個(gè)時(shí)間段中保持每一幅圖像的一致性(如不變的建筑背景、符合運(yùn)動(dòng)規(guī)律的車流等),這是非常困難的,因?yàn)橹貥?gòu)一個(gè)動(dòng)態(tài)連續(xù)變化的場(chǎng)景的復(fù)雜程度要比重構(gòu)一段靜態(tài)的文字表達(dá)高得多。因此筆者認(rèn)為,用自回歸的方法生成視頻,生成內(nèi)容細(xì)節(jié)有限的動(dòng)畫(huà)是比較現(xiàn)實(shí)的,但對(duì)于高清的、有真實(shí)場(chǎng)景細(xì)節(jié)的視頻生成,它可能不是一條有效的途徑。
從“搜索范式”到“價(jià)值范式”。如何把握大模型未來(lái)的發(fā)展方向?關(guān)于這個(gè)命題有許多討論,例如從技術(shù)、哲學(xué)、認(rèn)知科學(xué)等角度。下面,筆者將從大模型使用模式的角度來(lái)談?wù)勥@個(gè)問(wèn)題。
今天,大模型支持人類和機(jī)器的“人問(wèn)機(jī)答”交流模式,這樣的交流是簡(jiǎn)單的,我們可以把它看成是搜索的一個(gè)高級(jí)版,生成的答案可以視為檢索內(nèi)容的一個(gè)總結(jié)。所以,今天大模型的學(xué)習(xí)和推理支持的是“搜索范式”。
事實(shí)上,我們使用的大模型搜索范式并不是唯一的方式。毋寧視其為一種初級(jí)的生成能力,因?yàn)樗皇窃谠~語(yǔ)相關(guān)性的指導(dǎo)下,對(duì)學(xué)過(guò)的語(yǔ)言進(jìn)行合乎統(tǒng)計(jì)規(guī)律的重構(gòu)。這樣的自回歸方法還不具有人類語(yǔ)言中的類比、聯(lián)想、層次推理等各種能力。在未來(lái)大模型的研究中,我們要超越自回歸的思想,創(chuàng)造出更高級(jí)的語(yǔ)言能力,這將極大地豐富大模型的應(yīng)用方式,同時(shí)這也將是大模型算法研究中一個(gè)有意義的方向。
從“人問(wèn)機(jī)答”的搜索范式出發(fā),對(duì)大模型的下一個(gè)要求就是,不僅能回答問(wèn)題,而且要有討論和爭(zhēng)辯的能力。在人工智能領(lǐng)域,對(duì)于思辯(argumentation)的研究一直是一個(gè)重要的領(lǐng)域,如何讓機(jī)器模型具有思辨的能力,可以與人進(jìn)行討論,即不僅能回答問(wèn)題,還能提出問(wèn)題,并對(duì)人的回答作出判斷、評(píng)價(jià)和回應(yīng)。這樣的思辨能力的實(shí)現(xiàn)要求模型的思維不僅有演繹的能力,而且要有一個(gè)內(nèi)在的“世界模型”,從而能夠?qū)Α盎卮稹边M(jìn)行判斷和論證,這將使模型從“搜索范式”進(jìn)化到一個(gè)以闡述觀點(diǎn)為目標(biāo)的“價(jià)值范式”。這樣的世界模型的建立對(duì)于算法來(lái)說(shuō),要求其不僅具有學(xué)習(xí)和推理的能力,更需要有記憶、行為目標(biāo)的建立,價(jià)值的衡量與判斷以及行為控制的能力。在這樣的范式下,學(xué)習(xí)的方式和推理的模式也會(huì)發(fā)生重大的改變,將不再可以被歸結(jié)為“預(yù)測(cè)下一個(gè)有可能的數(shù)據(jù)元”這么簡(jiǎn)單的學(xué)習(xí)和生成模式了。實(shí)際上,這樣的向“價(jià)值范式”的進(jìn)化,也是實(shí)現(xiàn)我們今天常講的“具身智能”的基礎(chǔ)。具身智能強(qiáng)調(diào)智能體通過(guò)與環(huán)境的交互獲取信息、理解問(wèn)題、作出決策并實(shí)現(xiàn)行動(dòng),從而產(chǎn)生智能行為和適應(yīng)性。有了支持“價(jià)值范式”的大模型,我們才可以有效地實(shí)現(xiàn)對(duì)環(huán)境的理解并通過(guò)其基于世界模型的價(jià)值衡量來(lái)作出決策、實(shí)現(xiàn)行動(dòng)。
研究“創(chuàng)造范式”,使機(jī)器具有人類靈性。大模型的發(fā)展是從數(shù)據(jù)學(xué)習(xí)模型、模型生成數(shù)據(jù)的循環(huán)往復(fù)中,不斷從一個(gè)層次邁向更高的層次。不管是注入情感,還是融入思辨,每一層的循環(huán)都是在語(yǔ)言模型中添加人性的理解,使我們?cè)谡Z(yǔ)言模型的建立上不斷地逼近人類的語(yǔ)言和思維,讓機(jī)器的語(yǔ)言模式逐漸與人類相一致。早在2013年,本輪人工智能浪潮來(lái)臨前夕,美國(guó)上映了一部講述在不遠(yuǎn)的未來(lái)人與人工智能機(jī)器相愛(ài)的科幻愛(ài)情電影《她》(Her)。主人公西奧多是一位信件撰寫(xiě)人,能寫(xiě)出感人肺腑的信件。他剛結(jié)束與妻子的婚姻,還沒(méi)走出痛苦的陰影。一次偶然的機(jī)會(huì)讓他接觸到最新的人工智能系統(tǒng)OS1,它的化身薩曼莎擁有迷人的聲線,溫柔體貼而又幽默風(fēng)趣。西奧多與薩曼莎很快發(fā)現(xiàn)他們是如此投緣,而且存在對(duì)彼此的需求與欲望,人機(jī)友誼最終發(fā)展為一段奇異愛(ài)情。這個(gè)科幻片生動(dòng)地展示了人類和一個(gè)有語(yǔ)言能力的機(jī)器之間的關(guān)系,也對(duì)后圖靈時(shí)代語(yǔ)言模型的發(fā)展作了一個(gè)形象的描述:機(jī)器的語(yǔ)言模型會(huì)與人無(wú)縫交流,會(huì)理解我們的語(yǔ)言、感情和語(yǔ)境,其與我們的交流也會(huì)越來(lái)越有“人性”。賦予機(jī)器模型以人性的光輝,就是研究大模型的終極目標(biāo)。眾所周知,人性最精彩的部分是創(chuàng)造力。因此,我們應(yīng)該研究大模型的“創(chuàng)造范式”,讓機(jī)器也具有人類的靈性。
2022年由AI生成的畫(huà)作——《空間歌劇院》(Théatre D'opéra Spatial)在美國(guó)科羅拉多州博覽會(huì)的“數(shù)字藝術(shù)”類別美術(shù)比賽中獲得第一名。該畫(huà)作的創(chuàng)作者是39歲的美國(guó)游戲設(shè)計(jì)師杰森·艾倫(Jason Allen),他使用文本生成圖像程序Midjourney,經(jīng)過(guò)近千次調(diào)整、耗費(fèi)近三百個(gè)小時(shí)進(jìn)行修改完善,繪成了這個(gè)作品。Midjourney根據(jù)用戶的文字描述生成逼真的圖像,每次創(chuàng)作耗時(shí)約一分鐘。在創(chuàng)作者給定一個(gè)對(duì)歌劇院和天堂的描述之后,機(jī)器憑借自己對(duì)天堂的理解生成了一幅作品。在這個(gè)作品中,我們看到了機(jī)器與人類對(duì)天堂幻想的共同之處,但同時(shí)機(jī)器又賦予它獨(dú)特的想象力,畫(huà)出了超越習(xí)慣性思維的天堂。對(duì)于機(jī)器的這種能力,我們通常稱之為“幻思”(hallucinations)。
在文本生成中,這樣的幻思被認(rèn)為是個(gè)嚴(yán)重的問(wèn)題,是模型要克服的“毛病”,甚至常常被視為“一本正經(jīng)的胡說(shuō)八道”。之所以對(duì)其有這樣的看法,正是出于我們對(duì)大模型搜索范式的習(xí)慣性理解和使用。在搜索范式下,內(nèi)容的生成常常是有事實(shí)依據(jù)的,與事實(shí)相符與否是衡量?jī)?nèi)容質(zhì)量的標(biāo)準(zhǔn),不然就是“胡說(shuō)八道”;但是如果我們走出傳統(tǒng)的大模型搜索范式的思維,把它看成是一個(gè)有創(chuàng)作能力的生成系統(tǒng),那么幻思就是一個(gè)非常重要的能力了。以筆者團(tuán)隊(duì)正在開(kāi)發(fā)的一個(gè)生成系統(tǒng)為例,我們給系統(tǒng)提供幾幅照片或幾幅圖畫(huà)后,機(jī)器可以生動(dòng)地寫(xiě)出一篇與提供的圖片相匹配的散文。在這樣的創(chuàng)作中,重要的不是與事實(shí)的一致性,而是內(nèi)容與所給出圖片的意境相吻合,換句話說(shuō),這樣的吻合度就是我們要求的“一本正經(jīng)”。只要符合邏輯,就不會(huì)對(duì)其有與事實(shí)相符的要求;只要不違背常識(shí)、不違背邏輯,就不會(huì)對(duì)其有“胡說(shuō)八道”的責(zé)難。如此一來(lái),就有了大模型使用的“創(chuàng)造范式”。對(duì)于在創(chuàng)造范式下的大模型而言,重要的是研究各種幻思的形式和性質(zhì),以及衡量各種幻思的創(chuàng)造性、啟發(fā)性和其他特性的標(biāo)準(zhǔn)及評(píng)價(jià)方法。以筆者團(tuán)隊(duì)正在設(shè)計(jì)的用大模型來(lái)創(chuàng)作童話的工作為例,大模型的幻思是一個(gè)非常重要的能力,正是對(duì)幻思能力的合理開(kāi)發(fā),才能夠?yàn)橥拕?chuàng)造出具有啟迪性和趣味性的內(nèi)容。
對(duì)大模型發(fā)展的未來(lái)展望
作為總結(jié),我想回顧一下圖靈關(guān)于機(jī)器智能的思考。圖靈在1950年發(fā)表的著名論文《計(jì)算機(jī)器與智能》(Computing Machinery and Intelligence)中,提出了機(jī)器能否思維的命題,認(rèn)為只要機(jī)器在對(duì)話上和人沒(méi)有明顯差別,就是具有智能的,此即后人所稱的“圖靈測(cè)試”。今天的大模型已經(jīng)初步具有了這樣的能力,可以實(shí)現(xiàn)“人問(wèn)機(jī)答”。這樣看來(lái),似乎可以說(shuō)我們有了問(wèn)題的答案。但是,人的語(yǔ)言能力遠(yuǎn)不只是問(wèn)答,我們的前路還很長(zhǎng)。圖靈也在他的文章中規(guī)劃了一條道路,認(rèn)為可以編制一個(gè)“兒童程序”,對(duì)其進(jìn)行教育,以使其達(dá)到成人的智力水平。但在筆者看來(lái),鑒于人類教育和機(jī)器學(xué)習(xí)的“兩極性”,這條路似乎要反著走了。
如圖1所示,我們對(duì)于機(jī)器的教育和對(duì)于人類的教育實(shí)踐似乎正好是相反的。對(duì)人類而言,我們?cè)谟變航逃A段,不斷地啟發(fā)孩子對(duì)新事物的好奇,從而建立起孩子對(duì)生活和社會(huì)的常識(shí);小學(xué)教育的目標(biāo)主要不是知識(shí)積累,而是價(jià)值觀培養(yǎng),讓孩子從各方面學(xué)到社會(huì)上的對(duì)與錯(cuò)、真與假、善與惡;中學(xué)教育開(kāi)始建立知識(shí)體系的基礎(chǔ);大學(xué)教育才是專門(mén)化的知識(shí)培養(yǎng)。有了這些,一個(gè)人才能在社會(huì)實(shí)踐中接受社會(huì)的再教育,建立自己的知識(shí)體系,形成成人智力。而機(jī)器學(xué)習(xí)的過(guò)程正好是反過(guò)來(lái)的。我們一開(kāi)始就喂給了機(jī)器這個(gè)世界的全部數(shù)據(jù),把它壓縮成一個(gè)通用的預(yù)訓(xùn)練模型,理論上,它可以講所有符合語(yǔ)言特性的話;第二步,才開(kāi)始對(duì)這樣的一個(gè)預(yù)訓(xùn)練模型進(jìn)行微調(diào),學(xué)習(xí)各個(gè)領(lǐng)域的知識(shí)(微調(diào))和人類的表達(dá)方式(對(duì)齊),使它符合我們?cè)诟鞣N主題下交流的需要;接下來(lái),我們才發(fā)現(xiàn)要讓機(jī)器有判斷的能力,就必須讓機(jī)器學(xué)習(xí)對(duì)與錯(cuò)的判別,使它產(chǎn)生價(jià)值觀;直到最后,我們希望機(jī)器從大量的學(xué)習(xí)中,能夠總結(jié)出一個(gè)世界模型,作為自己的常識(shí),并在這樣的基礎(chǔ)上,能夠?qū)@個(gè)世界產(chǎn)生創(chuàng)造力。
來(lái)源:作者自制
圖1 人類教育和機(jī)器學(xué)習(xí)的兩極性
正是基于這樣的對(duì)人機(jī)學(xué)習(xí)兩極性的理解,我們對(duì)大模型發(fā)展的未來(lái)作了這樣的展望:一個(gè)可以生成語(yǔ)言的大模型會(huì)從表述內(nèi)容的搜索范式進(jìn)化到闡述論證觀點(diǎn)的價(jià)值范式,它可以在對(duì)世界的理解下與人交流,這樣的理解也會(huì)在交流中不斷進(jìn)化,從而使得機(jī)器學(xué)會(huì)建立自己的價(jià)值觀。而人工智能治理的一個(gè)根本性任務(wù)是努力保證這樣的價(jià)值觀符合人類進(jìn)步的要求。在這樣的價(jià)值范式下,機(jī)器的人性化會(huì)不斷增強(qiáng),創(chuàng)造力會(huì)得到進(jìn)一步發(fā)展,從而使其幻思的能力成為合乎世界模型的有意義的創(chuàng)造方式。這樣的創(chuàng)造方式會(huì)使人與機(jī)器的共生、共存、共創(chuàng)成為可能,形成一個(gè)嶄新的社會(huì)形態(tài)。而人工智能治理的另一個(gè)根本性的任務(wù)就是為這樣的社會(huì)建立新的秩序,使一個(gè)對(duì)世界有理解、有價(jià)值、有判斷的大模型作為人腦的延伸,可以有其行為選擇的正確原則和機(jī)制,這樣我們講的具身智能才會(huì)真正到來(lái),在一個(gè)人機(jī)二元的社會(huì)里為我們服務(wù)。
2024年5月14日,美國(guó)OpenAI宣布了全能大模型GPT-4o,它在大模型的問(wèn)答能力方面,加入了視訊功能,可以感知語(yǔ)言環(huán)境,進(jìn)行實(shí)時(shí)、自然、滿足語(yǔ)境的語(yǔ)音對(duì)話,并且能捕捉情緒、模擬情緒,這是大模型向人性化前進(jìn)的重要一步。當(dāng)前,大模型發(fā)展的速度越來(lái)越快,而對(duì)其發(fā)展道路和方向的把握尤為重要。我們必須建構(gòu)自己的技術(shù)理想,對(duì)人工智能的發(fā)展,及其推動(dòng)人類發(fā)展進(jìn)步的前景充滿信心,不畏試錯(cuò)、大膽創(chuàng)新,走出一條我們自己的大模型道路。
文章來(lái)源:《學(xué)術(shù)前沿》雜志2024年第13期(注釋從略)
原文責(zé)編:張 貝
原文美編:周群英
新媒體責(zé)編:梁麗琛
聲明:《學(xué)術(shù)前沿》雜志原創(chuàng)文章,任何單位或個(gè)人轉(zhuǎn)載請(qǐng)回復(fù)本公眾號(hào)獲得授權(quán),轉(zhuǎn)載時(shí)請(qǐng)務(wù)必標(biāo)明來(lái)源及作者。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.