亚洲中文字幕乱码亚洲-蜜桃成熟视频在线观看-免费中文字幕视频在线-中国五十路熟妇洗澡视频-亚洲av伊人啪啪c-国产精品成人一区二区-国产自拍视频一区在线观看-成人一区不卡二区三区四区-亚洲情精品中文字幕99在线

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

專(zhuān)訪智源理事長(zhǎng)黃鐵軍:通往AGI的路已經(jīng)找到

0
分享至


智源研究院理事長(zhǎng)黃鐵軍

導(dǎo)讀
今年2月,由北京智源研究院的論文"Multimodal learning with next-token prediction for large multimodal models(通過(guò)預(yù)測(cè)下一個(gè)詞元進(jìn)行多模態(tài)學(xué)習(xí)的多模態(tài)大模型)"在Nature上發(fā)表。這是繼DeepSeek登上封面后,第二個(gè)中國(guó)大模型團(tuán)隊(duì)研究成果在Nature正刊發(fā)表,同時(shí)這也是國(guó)內(nèi)科研機(jī)構(gòu)的首次上刊。

撰文|張?zhí)炱?/strong>

當(dāng)下的多模態(tài)模型主要依賴(lài)專(zhuān)門(mén)化路徑,文本、視頻與圖像的處理范式各不相同。是否存在可以統(tǒng)一多模態(tài)的通用路線,此前一直缺乏定論。智源研究院在Nature發(fā)表的這項(xiàng)研究,基于其多模態(tài)模型 Emu3表明:只需采用自回歸路線,也就是像大模型處理文本一樣,通過(guò)預(yù)測(cè)序列中的下一個(gè)詞元(Next-token Prediction)來(lái)理解和生成數(shù)據(jù),就可以實(shí)現(xiàn)多模態(tài)學(xué)習(xí)的邏輯統(tǒng)一。

Emu3 在感知和生成任務(wù)上均達(dá)到了成熟特定任務(wù)模型的性能,匹配旗艦系統(tǒng)的表現(xiàn)。更重要的是,在同一套統(tǒng)一架構(gòu)下,該模型展現(xiàn)了極強(qiáng)的通用性,能自然地?cái)U(kuò)展到機(jī)器人操作以及多模態(tài)交互內(nèi)容生成等任務(wù)。

本文通訊作者之一,智源研究院理事長(zhǎng)、北京大學(xué)計(jì)算機(jī)學(xué)院教授黃鐵軍接受了《知識(shí)分子》的訪談。他詳細(xì)介紹了Emu3 如何通過(guò)自回歸路線實(shí)現(xiàn)多模態(tài)的統(tǒng)一,并對(duì)當(dāng)前通用人工智能(AGI)發(fā)展的技術(shù)路線發(fā)表了見(jiàn)解。



01 通往 AGI 的路已經(jīng)找到,接下來(lái)就是把它走透

《知識(shí)分子》:近年的AI能力進(jìn)步很快。智源一直關(guān)注著AI領(lǐng)域的變化,如果回頭看近年以來(lái)的突破,您認(rèn)為真正關(guān)鍵的轉(zhuǎn)折什么?

黃鐵軍:從 2018 年到現(xiàn)在,人們找到了一條能走通的技術(shù)路線,就是自回歸路線:基于Transformer的結(jié)構(gòu),用預(yù)測(cè)下一個(gè)詞元(Token)的方式去訓(xùn)練模型。這是最重要的從0到1的突破,這條路通向了通用人工智能(AGI)。

智源一直在堅(jiān)持一個(gè)信念,既然Transformer 加上預(yù)測(cè)下一個(gè)詞元的路線,在語(yǔ)言模型上徹底走通了,那它能不能拓展到所有模態(tài)的數(shù)據(jù),無(wú)論是語(yǔ)言、圖像、視頻,還是視覺(jué)—語(yǔ)言—?jiǎng)幼鳎╒LA)等多模態(tài)數(shù)據(jù)?這件事在方法論上,我認(rèn)為是完全可行的。

大家現(xiàn)在談?wù)Z言、圖像、視頻,其實(shí)只是我們最常見(jiàn)、最容易理解的數(shù)據(jù)形態(tài),實(shí)際上這個(gè)方法可以裝得下任意的數(shù)據(jù)形態(tài),包括這個(gè)世界不同層次的各種數(shù)據(jù)。

但這還只是我們的信念,如果要真正實(shí)現(xiàn),就得繼續(xù)用這些數(shù)據(jù)去實(shí)踐。技術(shù)創(chuàng)新只能靠時(shí)間去淘洗,靠結(jié)果來(lái)證明。

《知識(shí)分子》:您把2018年視作一個(gè)轉(zhuǎn)折點(diǎn),2018年前后發(fā)生了什么變化?

黃鐵軍:2018 年之前,人工智能主要還是由人主導(dǎo)的,也就是由人來(lái)設(shè)計(jì)智能。無(wú)論知識(shí)庫(kù)還是專(zhuān)家系統(tǒng),設(shè)計(jì)師像上帝一樣掌控著系統(tǒng)背后的每一個(gè)邏輯,這是一種偏向傳統(tǒng)科學(xué)思維的模式,認(rèn)為先要把具體的原理搞清楚,再去基于原理人工設(shè)計(jì)一個(gè)系統(tǒng)。

但 2018 年之后,隨著第一代GPT的誕生,出現(xiàn)了所謂的生成式人工智能,它的方法論發(fā)生了根本變化。很多人把“生成”理解為系統(tǒng)能生成文本、圖像或視頻,但我更傾向于把生成理解為類(lèi)似地球生命生成的過(guò)程,也就是一種演化生成(evolutionary generation)。

地球上從沒(méi)有生命到有生命,從簡(jiǎn)單到復(fù)雜,背后有沒(méi)有激勵(lì)機(jī)制?當(dāng)然有。但背后的激勵(lì)機(jī)制,我們到現(xiàn)在為止還很不清楚。生命科學(xué)、腦科學(xué)搞了這么多年,總體上還是一個(gè)“黑暗森林”,我們只是在一點(diǎn)點(diǎn)地試圖發(fā)現(xiàn)背后的原理。

2018年后發(fā)生的變化也是這樣。人們找到了走向通用人工智能的一條可行技術(shù)路線,通過(guò)數(shù)據(jù)驅(qū)動(dòng)的方法訓(xùn)練模型,讓智能涌現(xiàn),但是這個(gè)技術(shù)路線下發(fā)生相互作用的過(guò)程,我們不清楚。

《知識(shí)分子》:您說(shuō)自回歸路線是通向AGI的唯一路徑。但對(duì)于AGI的定義爭(zhēng)論很多,您對(duì)它的看法是?

黃鐵軍:我的觀點(diǎn)是,通用人工智能已經(jīng)在一定程度上實(shí)現(xiàn)了。

按照傳統(tǒng)思維方式,大家會(huì)覺(jué)得沒(méi)實(shí)現(xiàn),因?yàn)檫€沒(méi)搞清楚它的原理,怎么就算實(shí)現(xiàn)了呢?但現(xiàn)在的大模型已經(jīng)表現(xiàn)出很強(qiáng)的通用能力。你可以測(cè)試它,如果從能力上講,它比很多人還強(qiáng)。在這種情況下,我們還要堅(jiān)持說(shuō)它不是一個(gè)具有通用的智能系統(tǒng),這就有點(diǎn)不講道理。

大家對(duì) AGI 的認(rèn)知變化,也和人工智能歷史上概念的變化有關(guān)系。最早的通用人工智能定義,是從行為、功能、表現(xiàn)上看的,也就是圖靈測(cè)試。如果用一個(gè)第三方測(cè)試,在互動(dòng)中判斷不出哪個(gè)是人、哪個(gè)是機(jī)器,那就說(shuō)明這臺(tái)機(jī)器通過(guò)了測(cè)試。現(xiàn)在大模型已經(jīng)達(dá)到了這個(gè)要求。

AGI這個(gè)詞差不多是在 90 年代末出現(xiàn)的,至今也就二十幾年的時(shí)間。大家認(rèn)為 AGI 就是通用人工智能。但按照嚴(yán)格的定義,90 年代提出的 AGI 概念其實(shí)是更難實(shí)現(xiàn)的,它認(rèn)為AI需要有自我意識(shí)。

如果AGI是指有自我意識(shí)的人工智能,我認(rèn)為今天還沒(méi)實(shí)現(xiàn),或者這至少是一個(gè)開(kāi)放性問(wèn)題。但如果我們不采取這種過(guò)于嚴(yán)格的概念,說(shuō) AGI 指的一定是有自我意識(shí),而只是說(shuō)它能像人一樣完成各種不同的任務(wù),具備這種通用性,那我認(rèn)為現(xiàn)在是已經(jīng)有了。

《知識(shí)分子》:自回歸這條路線為什么能夠帶來(lái)變革。

黃鐵軍:這種方法抓到了智能演化的關(guān)鍵。“預(yù)測(cè)下一個(gè)詞元”看起來(lái)簡(jiǎn)單,但實(shí)際是智能的核心問(wèn)題。因?yàn)樗兄悄芟到y(tǒng)本質(zhì)上都在做一件事:用歷史推測(cè)未來(lái)。

動(dòng)物要根據(jù)過(guò)去的經(jīng)驗(yàn)判斷是否逃跑;人類(lèi)根據(jù)歷史推斷經(jīng)濟(jì)走勢(shì);讀書(shū)是為了提升對(duì)未來(lái)判斷的能力。智能的最基本功能,就是在不確定環(huán)境中,提高做出合理預(yù)期的概率。生物智能進(jìn)化過(guò)程,也就是合理選擇的概率不斷提升的過(guò)程。

這條路包含兩個(gè)缺一不可的部分。第一個(gè)是 Transformer。如果用生命科學(xué)類(lèi)比,它就是“結(jié)構(gòu)基礎(chǔ)”。生命科學(xué)里講“結(jié)構(gòu)決定功能”,有什么樣的 DNA,就決定了什么樣的生理形態(tài)。在 AGI 領(lǐng)域,Transformer 就是那個(gè)基本結(jié)構(gòu)。

但僅有基礎(chǔ)還不夠。智能是在與周?chē)澜缁?dòng)中慢慢演化的。人類(lèi)大腦也一樣,它的智能不是一次性形成的,而是在環(huán)境變化中逐漸演化。這是所謂功能塑造結(jié)構(gòu),環(huán)境的壓力在推動(dòng)結(jié)構(gòu)的改變。

在人工智能中,這種演化依賴(lài)數(shù)據(jù)驅(qū)動(dòng)。大模型通過(guò)自回歸訓(xùn)練,也就是不斷預(yù)測(cè)下一個(gè)詞元來(lái)學(xué)習(xí)規(guī)律。每一次預(yù)測(cè)都是一次嘗試:如果預(yù)測(cè)錯(cuò)了,模型就根據(jù)數(shù)據(jù)調(diào)整內(nèi)部參數(shù)。預(yù)測(cè)對(duì)了,就強(qiáng)化這些連接。這樣,模型在海量數(shù)據(jù)作用下逐漸掌握語(yǔ)言、邏輯,甚至多模態(tài)信息的規(guī)律。 Transformer加上自回歸訓(xùn)練,滿足了智能演化的基本條件。

《知識(shí)分子》:預(yù)測(cè)下一個(gè)詞元是如何發(fā)揮作用的?

黃鐵軍:詞元是自然語(yǔ)言處理的基本單元,可以是單詞、詞組或詞根,也可以是標(biāo)點(diǎn)符號(hào)或人工定義的標(biāo)記,本質(zhì)上只是符號(hào)。理解符號(hào)的意義有兩種方式,一種是直接感受,但AI 沒(méi)有身體,它只能通過(guò)符號(hào)與符號(hào)之間的關(guān)系來(lái)學(xué)習(xí)意義。

2018年之前,早期的詞向量方法通過(guò)統(tǒng)計(jì)詞與詞之間的共現(xiàn)關(guān)系,把每個(gè)詞映射到一個(gè)高維向量空間。誰(shuí)經(jīng)常和誰(shuí)一起出現(xiàn),它們?cè)诳臻g中的距離就更近。

但這一階段的表示是“固定”的。一個(gè)詞無(wú)論出現(xiàn)在什么語(yǔ)境中,其向量基本不變。模型學(xué)到的是詞的平均意義,而不是語(yǔ)境中的動(dòng)態(tài)角色。也就是說(shuō),它解決了“詞是什么意思”的問(wèn)題,卻沒(méi)有解決“詞在這句話里是什么意思”的問(wèn)題。

Transformer 的出現(xiàn)改變了這一點(diǎn)。舉個(gè)例子,《紅樓夢(mèng)》書(shū)中前后幾十回的伏筆是相互關(guān)聯(lián)的,理解人物不能只看名字,而是要看他與誰(shuí)互動(dòng)、經(jīng)歷過(guò)什么。Transformer 能夠做的,是在給定的詞元序列中,發(fā)現(xiàn)任意兩個(gè)詞元之間的關(guān)系。放到《紅樓夢(mèng)》里,就是能夠計(jì)算出書(shū)中任意兩個(gè)字的相關(guān)性。

人的智能要理解一部小說(shuō)或長(zhǎng)文章,其實(shí)也是在上下文中建立關(guān)系、反復(fù)推敲邏輯。模型本質(zhì)上就在做這件事,只不過(guò)它是在更大規(guī)模、更高維度上完成的。不僅理解了內(nèi)容,甚至比我們絕大多數(shù)人讀書(shū)理解得都要透徹。

所以,當(dāng)模型預(yù)測(cè)下一個(gè)詞元時(shí),它并不是簡(jiǎn)單地做詞頻統(tǒng)計(jì)。它是在調(diào)用一個(gè)高度復(fù)雜的結(jié)構(gòu),對(duì)當(dāng)前上下文的全部關(guān)系進(jìn)行壓縮表達(dá)。預(yù)測(cè)只是它的表現(xiàn),真正發(fā)生的是結(jié)構(gòu)對(duì)規(guī)律的內(nèi)化,并通過(guò)這種關(guān)系推演出后續(xù)的發(fā)展。

02 讓AI像預(yù)測(cè)語(yǔ)言一樣預(yù)測(cè)物理世界

《知識(shí)分子》:人工智能現(xiàn)在表現(xiàn)出的能力已經(jīng)相當(dāng)強(qiáng)。但很多研究者認(rèn)為,如果不能把模型內(nèi)部機(jī)理完全解釋清楚,它就不能算真正的通用人工智能。

黃鐵軍:說(shuō)實(shí)話,這是一種典型的書(shū)呆子思維。DeepSeek引發(fā)全球震動(dòng)后,DeepMind CEO哈薩比斯評(píng)論道,“DeepSeek可能是中國(guó)最好的人工智能模型,但沒(méi)展示任何新的科學(xué)進(jìn)展”。這種批評(píng)就是戴著科學(xué)的眼鏡來(lái)看技術(shù)創(chuàng)新問(wèn)題。

如果一定要類(lèi)比,人類(lèi)歷史上很多偉大的技術(shù)突破都是“先有技術(shù)路徑,后有科學(xué)原理”。比如飛機(jī)的發(fā)明,萊特兄弟造出飛機(jī)時(shí),空氣動(dòng)力學(xué)還遠(yuǎn)未完善,飛機(jī)的飛行原理在當(dāng)時(shí)也未能完全被理論界解釋清楚,但這并不妨礙飛機(jī)已經(jīng)成功飛上了天,并改變了世界。

人工智能的發(fā)展目前也處于這個(gè)階段。大模型現(xiàn)在更接近一項(xiàng)工程創(chuàng)新,而非傳統(tǒng)意義上純粹的科學(xué)探索。通過(guò)“預(yù)測(cè)下一個(gè)token”這個(gè)方法論,人類(lèi)已經(jīng)制造出了具備通用能力的智能系統(tǒng),這種實(shí)踐上的成功是無(wú)可辯駁的。

另外,我們必須明確一點(diǎn):智能本身是極其復(fù)雜的,它不能被簡(jiǎn)化成一套幾條規(guī)則或者公式。僅僅因?yàn)樗环咸囟ǖ脑砘蛞?guī)則,就否定當(dāng)下大模型的智能水平,這像拒絕承認(rèn)飛機(jī)會(huì)飛那樣可笑。

《知識(shí)分子》:但如果一直搞不清楚大模型背后的原理,這種技術(shù)創(chuàng)新能算是一門(mén)嚴(yán)謹(jǐn)?shù)目茖W(xué)嗎?

黃鐵軍:原理并不是必要的。我之所以強(qiáng)調(diào)“不必要”,并不是說(shuō)原理沒(méi)有用、不好,而是說(shuō)不要以它為前提?,F(xiàn)在的問(wèn)題是,一旦講“必要”,很多人就會(huì)認(rèn)為要發(fā)明一套原理才能往下走。我覺(jué)得這種認(rèn)知真的限制了一些人做出更大貢獻(xiàn)的機(jī)會(huì),因?yàn)樗麄兊乃季S太固化了。其實(shí)我以前也是這樣的,但我后來(lái)終于解放了自己。

我們發(fā)現(xiàn)了一套有效的方法論,能把海量數(shù)據(jù)轉(zhuǎn)化為智能,這套方法已經(jīng)跑通了。至于其中的機(jī)制,那是后續(xù)科學(xué)研究的任務(wù),不能作為我們放棄技術(shù)創(chuàng)新的前提。我們不應(yīng)因?yàn)槊孕乓阎目茖W(xué)思維方式,就去否認(rèn)技術(shù)創(chuàng)新的客觀結(jié)果。

當(dāng)下的重點(diǎn)是工程化、規(guī)?;堰@條路走深、走透徹。至于人工智能的科學(xué)原理,自然會(huì)有后來(lái)的研究者完成。

《知識(shí)分子》:如果不能總結(jié)成一些規(guī)則或者公式,可以有一些標(biāo)準(zhǔn)判斷智能發(fā)展到什么程度了嗎?

黃鐵軍:可以設(shè)定一些測(cè)量指標(biāo),但隨著智能的復(fù)雜化,測(cè)量它的尺子也要有變化。真正的智能的復(fù)雜性是無(wú)窮無(wú)盡的,我們不能削足適履,只拿著靜態(tài)的標(biāo)準(zhǔn)去丈量智能。有限的測(cè)量只能是一個(gè)了解它的一個(gè)窗口,遠(yuǎn)遠(yuǎn)不是全部。

《知識(shí)分子》:您此前多次提到,大模型首先是一種技術(shù)創(chuàng)新。但像Nature這樣的頂級(jí)期刊,往往更看重基礎(chǔ)科學(xué)和理論上的原創(chuàng)貢獻(xiàn)。智源這次選擇把 Emu3 這種相關(guān)的成果投給它,是出于什么考慮?

黃鐵軍:我希望能糾正傳統(tǒng)自然科學(xué)的偏見(jiàn)。很多自然科學(xué)背景的人,被自己的思維方式固化了。他們習(xí)慣于先有一個(gè)客觀存在的對(duì)象,然后去尋找它背后的規(guī)律。

但人工智能不是這樣。人工智能這個(gè)系統(tǒng)本身并不存在于自然界,它是需要被創(chuàng)造出來(lái)的,是一個(gè)技術(shù)創(chuàng)新。和傳統(tǒng)自然科學(xué)研究的內(nèi)容,可以說(shuō)是完全相反的兩個(gè)方向,用一個(gè)方向的思維方式去套到另外一個(gè)方向,是南轅北轍的。

很多人總在問(wèn):“人工智能背后的規(guī)律是什么?”可問(wèn)題是,首先得有一個(gè)已經(jīng)存在的事物,才談得上研究它的規(guī)律。生命存在,所以可以研究生命規(guī)律。但人工智能這個(gè)系統(tǒng)本身還在被建造之中,還沒(méi)做出來(lái)就追問(wèn)它的終極原理,那等于把技術(shù)創(chuàng)新的過(guò)程卡死了。

如果我們等到完全搞清楚原理才開(kāi)始動(dòng)手,那可能 300 年都做不出來(lái)。技術(shù)史從來(lái)不是這樣走的。歷史的常態(tài),是先有技術(shù)突破,后有科學(xué)解釋。先有飛機(jī),后有空氣動(dòng)力學(xué)的發(fā)展。先去開(kāi)發(fā)人工智能,再去研究人工智能科學(xué)。所謂“事有終始,知所先后,則近道矣”,順序都沒(méi)有弄清楚,就用自然科學(xué)的尺度去判斷完全不同的方向,有什么可驕傲的呢?

03 用自回歸路線,統(tǒng)一多模態(tài)

《知識(shí)分子》:這篇發(fā)表在Nature的論文,核心發(fā)現(xiàn)是僅通過(guò)自回歸路徑即可實(shí)現(xiàn)多模態(tài)學(xué)習(xí)的統(tǒng)一。在您看來(lái),目前主流多模態(tài)模型的技術(shù)局限在哪里?

黃鐵軍:現(xiàn)在說(shuō)到多模態(tài),大家容易想到的是“多個(gè)模態(tài)”。也就是把視覺(jué)、聽(tīng)覺(jué)、文字這些模態(tài)簡(jiǎn)單拼在一起,就成了所謂多模態(tài)。

例如,Transformer在文字任務(wù)上表現(xiàn)優(yōu)秀,但沒(méi)有覆蓋多模態(tài)。現(xiàn)在圖像和視頻生成領(lǐng)域主要使用的是Diffusion模型,它的原理是通過(guò)迭代去噪實(shí)現(xiàn)高分辨率合成。視覺(jué)-語(yǔ)言感知方面,主要依賴(lài)組合式方法,利用 CLIP 編碼器與大模型。

如果只是為了解決某個(gè)特定模態(tài)的問(wèn)題,針對(duì)它的特點(diǎn)去找一些專(zhuān)用的架構(gòu)或算法,效果確實(shí)能做得比較好。但是,如果每一個(gè)模態(tài)都要靠特殊的補(bǔ)丁去縫合,那就不能叫做通用智能。我們關(guān)心的是,有沒(méi)有一條通用路線,可以解決各種模態(tài)、各種數(shù)據(jù)的智能問(wèn)題。

這就是自回歸路線的價(jià)值所在,也是我們認(rèn)定未來(lái)構(gòu)建通用人工智能的核心思路。Emu3 就是在這一思路下誕生的。通過(guò)對(duì) Emu3 的實(shí)驗(yàn)驗(yàn)證,我們發(fā)現(xiàn)即使不依賴(lài)擴(kuò)散模型或組合式架構(gòu),純粹的自回歸模型在感知和生成上也能達(dá)到旗艦?zāi)P退健?/p>

《知識(shí)分子》:論文提到Emu3 采用純自回歸路徑生成視頻,且性能表現(xiàn)足以對(duì)標(biāo)目前主流的擴(kuò)散模型(Diffusion Model)。純自回歸與擴(kuò)散模型在本質(zhì)區(qū)別上是什么?

黃鐵軍:Diffusion的生成,是生成內(nèi)容本身,并不是我前面提到的演化生成,這兩者有根本區(qū)別。

自回歸路線適合所有類(lèi)型的數(shù)據(jù),是個(gè)通用的方法。通過(guò)預(yù)測(cè)下一個(gè)詞元,它能夠?qū)λ蓄?lèi)型的數(shù)據(jù)進(jìn)行建模。圖像、視頻,甚至是機(jī)器人的動(dòng)作,這種方法都能處理。這也是我們堅(jiān)持自回歸路線的理由,它有很大希望能夠統(tǒng)一所有的模態(tài)。

Diffusion 模型在生成圖像和視頻時(shí)表現(xiàn)很出色,它的核心是模擬物理擴(kuò)散過(guò)程:比如墨水滴在水中擴(kuò)散,從初始狀態(tài)到混合狀態(tài),然后通過(guò)逆向過(guò)程生成圖像或視頻。這類(lèi)方法擅長(zhǎng)生成視覺(jué)效果,畫(huà)面看起來(lái)逼真,但它并不關(guān)注畫(huà)面背后事物之間的真實(shí)規(guī)律。這種方法適合圖像生成這個(gè)相對(duì)較窄的領(lǐng)域,是一個(gè)專(zhuān)用的方法。

當(dāng)面對(duì)語(yǔ)言或其他抽象數(shù)據(jù)時(shí),情況就不同了。語(yǔ)言中,詞語(yǔ)之間存在復(fù)雜的語(yǔ)義和結(jié)構(gòu)關(guān)系,小說(shuō)中的角色、事件和概念相互聯(lián)系,形成龐大而復(fù)雜的網(wǎng)絡(luò)。這種復(fù)雜性遠(yuǎn)超過(guò)物理世界中分子或像素的相互作用,Diffusion 方法在這種情況下無(wú)法有效建模。它無(wú)法捕捉詞語(yǔ)之間深層的邏輯關(guān)系,也不能推演未來(lái)的發(fā)展。

《知識(shí)分子》:后續(xù)的研究,還會(huì)進(jìn)一步擴(kuò)展到其他模態(tài)嗎?

黃鐵軍:這篇論文已經(jīng)給出了答案。我們把Emu3 轉(zhuǎn)化成視覺(jué)-語(yǔ)言-動(dòng)作(VLA)模型,直接去跑機(jī)器人操作任務(wù)。在 CALVIN 這個(gè)長(zhǎng)程操作的基準(zhǔn)測(cè)試?yán)?,這種通用路線做出來(lái)的效果,完全不輸給那些專(zhuān)門(mén)針對(duì)機(jī)器人開(kāi)發(fā)的模型。

有一點(diǎn)很重要:我們是直接做視覺(jué)、語(yǔ)言和動(dòng)作的離散編碼,不像有些路徑還需要專(zhuān)門(mén)搞視頻后訓(xùn)練。這再次證明了,自回歸就是一個(gè)普適邏輯。它不需要針對(duì)特定任務(wù)打補(bǔ)丁,只要邏輯通了,就能從感知和生成自然地延伸到具身領(lǐng)域。

Nature發(fā)表的這項(xiàng)工作,其實(shí)是我們?cè)?2024 年基于 Emu3 的初始版本完成的。到了 2025 年,我們又推出了 Emu3.5。

圍繞這個(gè)新版本,我們有了更深層的發(fā)現(xiàn):隨著模型參數(shù)、數(shù)據(jù)和算力的規(guī)模增長(zhǎng),模型對(duì)物理世界的動(dòng)態(tài)、時(shí)空關(guān)系以及因果邏輯,表現(xiàn)出了明顯的理解和預(yù)測(cè)能力的涌現(xiàn)。這說(shuō)明大模型的Scaling Law 不僅僅在語(yǔ)言上靈驗(yàn),把它擴(kuò)展到比語(yǔ)言更復(fù)雜、充滿物理規(guī)律的真實(shí)世界,這條路同樣是走得通的。

《知識(shí)分子》:雖然Emu3 證明了自回歸路線在多模態(tài)上的潛力,但目前這仍然是一種路徑嘗試。要真正實(shí)現(xiàn)“世界模型”,我們還缺什么?

黃鐵軍:最近很多人在討論Scaling Law 是不是到頭了,我認(rèn)為這個(gè)說(shuō)法是不對(duì)的,不是這條規(guī)律到頭了,而是語(yǔ)言相關(guān)的數(shù)據(jù)挖掘到頭了。

大家現(xiàn)在談“世界模型”,但什么才叫“世界”?對(duì)機(jī)器人來(lái)說(shuō),進(jìn)房間不碰桌子、抓杯子知道力道,這就算認(rèn)識(shí)世界了嗎?遠(yuǎn)遠(yuǎn)不夠。真實(shí)的客觀世界有復(fù)雜的物理相互作用:你撞墻時(shí),墻是水泥的還是木頭的?如果是玻璃,你能不能直接沖過(guò)去?這些關(guān)于力學(xué)、關(guān)于物質(zhì)屬性的邏輯,在今天的模型訓(xùn)練里其實(shí)是缺失的。

往深了說(shuō),原子與分子之間的相互作用、混凝土凝固后的硬度,難道不是世界的一部分嗎?如果是,那科學(xué)實(shí)驗(yàn)的數(shù)據(jù)、對(duì)分子測(cè)量的各種數(shù)據(jù),都該拿來(lái)訓(xùn)練。只靠今天互聯(lián)網(wǎng)上的這點(diǎn)語(yǔ)言和圖像數(shù)據(jù),是撐不起真正的通用人工智能的。

哪怕建模了人類(lèi)已知的所有細(xì)節(jié),我們也遠(yuǎn)沒(méi)有窮盡這個(gè)世界??陀^世界的復(fù)雜性是無(wú)限的,我們只能不斷去逼近它。只要這種無(wú)限性還在,只要我們能引入更深層的科學(xué)數(shù)據(jù),Scaling Law 就沒(méi)有頭。

《知識(shí)分子》:智源一直在支持來(lái)自高校和企業(yè)界的學(xué)者。那作為一個(gè)獨(dú)立研究機(jī)構(gòu),智源做的研究和大學(xué)以及企業(yè)做的研究有什么不同。

黃鐵軍:智源不做大學(xué)和企業(yè)正在做的事情。

有些事情大學(xué)做不了,不是因?yàn)闆](méi)有能力,而是條件不夠。想做一個(gè)有系統(tǒng)的、實(shí)際可操作的項(xiàng)目,需要團(tuán)隊(duì)、經(jīng)費(fèi)、時(shí)間去搭建。學(xué)校里,老師可以自己琢磨理論問(wèn)題,但要做一個(gè)完整的系統(tǒng),就必須先找經(jīng)費(fèi)、組團(tuán)隊(duì),這個(gè)周期很長(zhǎng)。而AI 的迭代速度根本不等你慢慢跑經(jīng)費(fèi)。等你花一年時(shí)間把錢(qián)拿到手,技術(shù)風(fēng)向可能早就變了。

再說(shuō)企業(yè)。企業(yè)是務(wù)實(shí)的,當(dāng)一條技術(shù)路線還沒(méi)有徹底跑通、還只是一種信念的時(shí)候,企業(yè)是不敢砸重金去試錯(cuò)的。企業(yè)愿意做的是別人已經(jīng)試過(guò)了、行之有效的東西,然后迅速把它變成可預(yù)期的產(chǎn)品。

智源處在大學(xué)和企業(yè)之間的中間地帶。我們有相對(duì)穩(wěn)定的經(jīng)費(fèi)和團(tuán)隊(duì),我們只要達(dá)成共識(shí),自回歸路線是解決所有模態(tài)的唯一通用路線,那我們就直接動(dòng)手干。工程技術(shù)的東西,對(duì)不對(duì)不是靠說(shuō)服,而是要拿實(shí)際的結(jié)果來(lái)證明。

我們要做的就是花時(shí)間把東西做出來(lái)。一旦證明這條路通了,企業(yè)自然會(huì)跟進(jìn),花更多的錢(qián)去產(chǎn)業(yè)化

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
震撼!某地網(wǎng)球男單第一人出軌人妻被丈夫發(fā)現(xiàn)當(dāng)場(chǎng)捅死!

震撼!某地網(wǎng)球男單第一人出軌人妻被丈夫發(fā)現(xiàn)當(dāng)場(chǎng)捅死!

魔都囡
2026-04-16 10:20:28
開(kāi)拓者約談楊瀚森,引發(fā)震動(dòng)!老板勃然大怒,全員整頓!

開(kāi)拓者約談楊瀚森,引發(fā)震動(dòng)!老板勃然大怒,全員整頓!

劉哥談體育
2026-04-16 11:30:39
霍爾木茲海峽,“隔空決戰(zhàn)”

霍爾木茲海峽,“隔空決戰(zhàn)”

中國(guó)新聞周刊
2026-04-16 12:05:59
法國(guó)全票通過(guò)“文物歸還法案” 接下來(lái)呢?

法國(guó)全票通過(guò)“文物歸還法案” 接下來(lái)呢?

看看新聞Knews
2026-04-15 22:44:05
這才是宋美齡和繼子蔣經(jīng)國(guó)的一張真實(shí)合影,都是真人的容貌

這才是宋美齡和繼子蔣經(jīng)國(guó)的一張真實(shí)合影,都是真人的容貌

喜歡歷史的阿繁
2026-04-16 11:17:28
快船被淘汰誰(shuí)最開(kāi)心?保羅第一時(shí)間更新社媒:曬知名梗圖嘲諷舊主

快船被淘汰誰(shuí)最開(kāi)心?保羅第一時(shí)間更新社媒:曬知名梗圖嘲諷舊主

羅說(shuō)NBA
2026-04-16 13:40:47
公務(wù)員巨額財(cái)產(chǎn)來(lái)源不明罪,只要低于300萬(wàn)或不再需被追究責(zé)任

公務(wù)員巨額財(cái)產(chǎn)來(lái)源不明罪,只要低于300萬(wàn)或不再需被追究責(zé)任

小蘿卜絲
2026-04-15 18:38:38
1.3萬(wàn)億特別國(guó)債發(fā)行計(jì)劃公布在即,超長(zhǎng)債行情回調(diào),或?yàn)榻槿霗C(jī)會(huì)

1.3萬(wàn)億特別國(guó)債發(fā)行計(jì)劃公布在即,超長(zhǎng)債行情回調(diào),或?yàn)榻槿霗C(jī)會(huì)

財(cái)聯(lián)社
2026-04-16 12:30:03
家有二老,格林貢獻(xiàn)絕命兩搶斷&霍福德末節(jié)三分4中4

家有二老,格林貢獻(xiàn)絕命兩搶斷&霍福德末節(jié)三分4中4

懂球帝
2026-04-16 13:27:22
3千萬(wàn)畢業(yè)生天崩開(kāi)局

3千萬(wàn)畢業(yè)生天崩開(kāi)局

經(jīng)濟(jì)學(xué)教授V
2026-04-15 18:23:37
美國(guó)真正的幕后老板現(xiàn)身了,特朗普瑟瑟發(fā)抖

美國(guó)真正的幕后老板現(xiàn)身了,特朗普瑟瑟發(fā)抖

一個(gè)壞土豆
2026-04-15 19:35:37
美民主黨對(duì)防長(zhǎng)赫格塞思發(fā)起彈劾

美民主黨對(duì)防長(zhǎng)赫格塞思發(fā)起彈劾

界面新聞
2026-04-16 07:08:40
搶劫殺害網(wǎng)紅“羅大美”主犯余金生被執(zhí)行死刑

搶劫殺害網(wǎng)紅“羅大美”主犯余金生被執(zhí)行死刑

新京報(bào)
2026-04-16 14:19:06
五一不要隨便走,3個(gè)好消息,2個(gè)壞消息,關(guān)系到每一個(gè)人!

五一不要隨便走,3個(gè)好消息,2個(gè)壞消息,關(guān)系到每一個(gè)人!

小談食刻美食
2026-04-16 07:31:22
昔日割據(jù)稱(chēng)王,今日跪求祖國(guó)!真主黨窮途末路,是自己埋下的死局

昔日割據(jù)稱(chēng)王,今日跪求祖國(guó)!真主黨窮途末路,是自己埋下的死局

民間胡扯老哥
2026-04-16 07:13:02
伊朗說(shuō)美國(guó)封鎖霍爾木茲海峽或?qū)е峦;饏f(xié)議破裂

伊朗說(shuō)美國(guó)封鎖霍爾木茲海峽或?qū)е峦;饏f(xié)議破裂

新華社
2026-04-16 09:24:07
中國(guó)留學(xué)生在德國(guó)多次迷奸女友,加入色情犯罪群學(xué)技巧,下藥超標(biāo)5-10倍

中國(guó)留學(xué)生在德國(guó)多次迷奸女友,加入色情犯罪群學(xué)技巧,下藥超標(biāo)5-10倍

揚(yáng)子晚報(bào)
2026-04-15 21:14:31
中國(guó)出生和死亡人口差距越來(lái)越大:2025年出生人口跌破800萬(wàn),凈減少339萬(wàn)人

中國(guó)出生和死亡人口差距越來(lái)越大:2025年出生人口跌破800萬(wàn),凈減少339萬(wàn)人

互聯(lián)網(wǎng)大觀
2026-04-16 12:37:44
羅志祥猝死只是冰山一角,不到一天內(nèi)娛5大瓜,趙麗穎太讓人意外

羅志祥猝死只是冰山一角,不到一天內(nèi)娛5大瓜,趙麗穎太讓人意外

老好人的憤怒
2026-04-16 04:13:28
王陽(yáng)妻子主演《八千里路云和月》,賢妻旺三代

王陽(yáng)妻子主演《八千里路云和月》,賢妻旺三代

謝鵑解說(shuō)
2026-04-16 10:38:55
2026-04-16 14:55:00
知識(shí)分子 incentive-icons
知識(shí)分子
關(guān)注科學(xué)、人文、思想
633文章數(shù) 1074關(guān)注度
往期回顧 全部

科技要聞

39.98萬(wàn)!小鵬GX預(yù)售“純電增程同價(jià)”

頭條要聞

杭州女子買(mǎi)5份海鮮3份僅退款 商家氣憤跨省趕來(lái)質(zhì)問(wèn)

頭條要聞

杭州女子買(mǎi)5份海鮮3份僅退款 商家氣憤跨省趕來(lái)質(zhì)問(wèn)

體育要聞

很快,亞洲籃球要有自己的NCAA了?

娛樂(lè)要聞

絲芭傳媒創(chuàng)始人王子杰去世,享年63歲

財(cái)經(jīng)要聞

一季度GDP,5.0%!

汽車(chē)要聞

空間大五個(gè)乘客都滿意?體驗(yàn)嵐圖泰山X8

態(tài)度原創(chuàng)

教育
數(shù)碼
藝術(shù)
親子
房產(chǎn)

教育要聞

雙第一!他蓄力生長(zhǎng)、迎難而上,從文華學(xué)院考研上岸輕工大!

數(shù)碼要聞

海信RGB-Mini LED技術(shù)官宣用于2026世界杯VAR視頻助理裁判

藝術(shù)要聞

張大千『 花菓薈萃冊(cè)』

親子要聞

輔酶q10備孕一般怎么吃?卵巢早衰怎么保養(yǎng)才能恢復(fù)?

房產(chǎn)要聞

業(yè)主狂喜!海口二手房?jī)r(jià),終于漲了!

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版