无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

智源多模態(tài)大模型登Nature,生成式人工智能路線統(tǒng)一到自回歸

0
分享至



編輯丨&

在 AI 開發(fā)領(lǐng)域,多模態(tài)學(xué)習(xí)——讓模型同時(shí)理解圖像、視頻和文本——已經(jīng)是當(dāng)代研究的核心方向之一。長(zhǎng)期以來,該領(lǐng)域的主要技術(shù)路線還是較為依賴擴(kuò)散模型或者組合架構(gòu)。雖然這些方法在特定任務(wù)上表現(xiàn)卓越,但它們也帶來結(jié)構(gòu)復(fù)雜、推理成本高、跨模態(tài)統(tǒng)一性不足的深層次問題。

關(guān)于這個(gè)問題,2026 年 1 月 28 日,由智源帶來的多模態(tài)大模型成果以「Multimodal learning with next-token prediction for large multimodal models」為題刊登于《Nature》。

智源這項(xiàng)成果表明,只采用自回歸路線,就可以統(tǒng)一多模態(tài)學(xué)習(xí),訓(xùn)練出優(yōu)秀的原生多模態(tài)大模型,對(duì)于確立自回歸成為生成式人工智能統(tǒng)一路線具有重大意義。



論文鏈接:https://www.nature.com/articles/s41586-025-10041-x

Emu3 模型

Emu3 模型是在該研究中,研究團(tuán)隊(duì)所提出的一套全新的多模態(tài)模型,為解答「單一的預(yù)測(cè)下一個(gè)詞元框架是否能夠作為通用的多模態(tài)學(xué)習(xí)范式」而誕生。Emu3 的核心邏輯并不追求「更復(fù)雜的架構(gòu)」,而是回歸到最基本的序列建模目標(biāo):預(yù)測(cè)序列中的下一個(gè)標(biāo)記,而不是分別設(shè)計(jì)不同模態(tài)的子系統(tǒng)。



圖 1:Emu3 框架。

不同于傳統(tǒng)的自回歸建模方法,Emu3 認(rèn)為:如果僅憑下一個(gè)詞元預(yù)測(cè)就能在所有模態(tài)上完成生成與理解任務(wù),那就無需這些繁雜的模塊設(shè)計(jì)。它將圖像、文本和視頻統(tǒng)一離散化到同一個(gè)表示空間中,并從零開始,在多模態(tài)序列混合數(shù)據(jù)上聯(lián)合訓(xùn)練一個(gè)單一的 Transformer。

這樣的設(shè)計(jì)將本來需要多個(gè)子網(wǎng)絡(luò)甚至多個(gè)訓(xùn)練目標(biāo)的問題,整合成一個(gè)極簡(jiǎn)而統(tǒng)一的下一個(gè)詞元的預(yù)測(cè)任務(wù)。換言之,Emu3 并沒有為每種模態(tài)設(shè)計(jì)獨(dú)立的損失或生成機(jī)制,而是把所有模態(tài)看成一個(gè)整體序列,并讓模型以統(tǒng)一的概率分布來進(jìn)行預(yù)測(cè)。



圖 2:以 token為中心的多模態(tài)基礎(chǔ)設(shè)施及與擴(kuò)散模型和編碼器+LLM 組合范式的架構(gòu)比較。

團(tuán)隊(duì)還進(jìn)一步提出了以 token 為中心的多模態(tài)基礎(chǔ)設(shè)施愿景。在該框架下,數(shù)據(jù) token 化直接在邊緣設(shè)備上進(jìn)行,只有所得的離散 token ID 會(huì)傳輸?shù)酱笠?guī)模服務(wù)器,進(jìn)行統(tǒng)一的多模態(tài)訓(xùn)練和推斷。

評(píng)估與啟示

據(jù)各項(xiàng)實(shí)現(xiàn)的結(jié)果數(shù)據(jù)顯示,Emu3 在生成與感知任務(wù)上的整體表現(xiàn)可與多種成熟的任務(wù)專用模型相媲美。一方面,在圖像生成任務(wù)中,與依賴擴(kuò)散機(jī)制的模型相比,Emu3 能夠生成高質(zhì)量圖像,且樣式和語(yǔ)義一致性接近那些專用視覺生成架構(gòu)。

另一方面,在視覺理解與視覺問答等任務(wù)上,它也能與組合模型(例如視覺編碼 + LLM 的設(shè)計(jì))達(dá)到相當(dāng)?shù)谋憩F(xiàn)水平。這說明這種預(yù)測(cè)模式不僅能統(tǒng)一不同模態(tài)的生成任務(wù),還能在理解側(cè)保持強(qiáng)泛化能力。

表 1:多模態(tài)任務(wù)的評(píng)估。



區(qū)別于 Sora 的擴(kuò)散式視頻生成,Emu3采用純自回歸方式逐詞元生成視頻,能夠在給定上下文下進(jìn)行視頻延展與未來預(yù)測(cè),并在文本引導(dǎo)下生成高保真視頻。此外,Emu3 還可拓展至視覺語(yǔ)言交錯(cuò)生成,例如圖文并茂的菜譜生成;也可拓展至視覺語(yǔ)言動(dòng)作建模,如機(jī)器人操作VLA等,進(jìn)一步體現(xiàn)了「預(yù)測(cè)下一個(gè)詞元」的通用性。

該框架的成功核心在于,Transformer 解碼器具備極強(qiáng)的序列模式捕獲能力,與統(tǒng)一 token 表示、下一個(gè)詞元目標(biāo)讓模型在跨模態(tài)訓(xùn)練中共享底層表征,增強(qiáng)不同模態(tài)之間的協(xié)同效應(yīng)。

持續(xù)引領(lǐng)大模型技術(shù)演進(jìn)

Emu3 證明了其實(shí)僅靠下一個(gè)詞元預(yù)測(cè)就能大規(guī)模統(tǒng)一多模態(tài)學(xué)習(xí),其在感知與生成方面均達(dá)到了成熟的任務(wù)特定模型的性能,匹配旗艦系統(tǒng),同時(shí)消除了擴(kuò)散或合成架構(gòu)的需求。

Emu 系列模型自 2022 年啟動(dòng)研發(fā)以來,圍繞「原生多模態(tài)」這一核心技術(shù)主線持續(xù)迭代。盡管如論文中所言,當(dāng)下模型還存在著譯碼策略效率不足、壓縮比與重建保真度權(quán)重平衡等問題,但其表現(xiàn)出的統(tǒng)合能力與發(fā)展?jié)撡|(zhì),無疑可以認(rèn)為它在可擴(kuò)展和統(tǒng)一多模態(tài)智能中邁出了關(guān)鍵一步。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
鄭柵潔主持召開民企座談會(huì) 聽取5家企業(yè)意見建議

鄭柵潔主持召開民企座談會(huì) 聽取5家企業(yè)意見建議

觀點(diǎn)機(jī)構(gòu)
2026-05-20 22:26:21
No!麻了,雷霆麻了!頂薪后衛(wèi)反復(fù)腿筋拉傷

No!麻了,雷霆麻了!頂薪后衛(wèi)反復(fù)腿筋拉傷

籃球?qū)崙?zhàn)寶典
2026-05-21 15:03:34
他是致使臺(tái)灣難以收復(fù)的關(guān)鍵人物,若不是他臺(tái)灣或許早已解放

他是致使臺(tái)灣難以收復(fù)的關(guān)鍵人物,若不是他臺(tái)灣或許早已解放

老范談史
2026-04-30 03:59:22
于文華:一婚下嫁李凡,三拒尹相杰,再婚嫁小伙,不生孩子也幸福

于文華:一婚下嫁李凡,三拒尹相杰,再婚嫁小伙,不生孩子也幸福

飄飄然的娛樂匯
2026-05-18 20:05:05
男子反復(fù)出現(xiàn)肺部感染,福建醫(yī)生抽絲剝繭揪出元兇:他的肺里竟藏著一顆……

男子反復(fù)出現(xiàn)肺部感染,福建醫(yī)生抽絲剝繭揪出元兇:他的肺里竟藏著一顆……

福建衛(wèi)生報(bào)
2026-05-20 12:51:00
Shams:過去一年中的所有跡象都表明,詹姆斯會(huì)再打一個(gè)賽季

Shams:過去一年中的所有跡象都表明,詹姆斯會(huì)再打一個(gè)賽季

懂球帝
2026-05-21 08:15:08
誰(shuí)錯(cuò)了?曹暉坐在馬斯克身邊,幾乎沒有與馬斯克交流,被網(wǎng)友笑話

誰(shuí)錯(cuò)了?曹暉坐在馬斯克身邊,幾乎沒有與馬斯克交流,被網(wǎng)友笑話

蝴蝶花雨話教育
2026-05-20 00:05:10
其實(shí)我們也有合規(guī)的楊梅,只不過被賣到了國(guó)外

其實(shí)我們也有合規(guī)的楊梅,只不過被賣到了國(guó)外

黑噪音
2026-05-20 17:06:54
約會(huì)時(shí)女人說去廁所,其實(shí)是在給你兩個(gè)暗示,聽懂的都不是凡人

約會(huì)時(shí)女人說去廁所,其實(shí)是在給你兩個(gè)暗示,聽懂的都不是凡人

心理觀察局
2026-05-18 09:11:14
知名歌唱家貪財(cái)好色嫁大30歲二婚男,如今活成這樣

知名歌唱家貪財(cái)好色嫁大30歲二婚男,如今活成這樣

風(fēng)月得自難尋
2026-05-12 06:25:42
罕見!近70萬(wàn)球迷打分,馬刺好評(píng)不斷雷霆全員低分,裁判低到離譜

罕見!近70萬(wàn)球迷打分,馬刺好評(píng)不斷雷霆全員低分,裁判低到離譜

球盲百小易
2026-05-21 12:48:44
西媒:連續(xù)三年的清洗嘗試,拉莫斯考慮今夏直接賠錢遣散夸西

西媒:連續(xù)三年的清洗嘗試,拉莫斯考慮今夏直接賠錢遣散夸西

懂球帝
2026-05-21 14:48:43
正常人可以偶爾偷吃一顆偉哥嗎?有什么副作用?本文為你講出實(shí)情

正常人可以偶爾偷吃一顆偉哥嗎?有什么副作用?本文為你講出實(shí)情

健康科普365
2026-05-09 21:05:04
佛山樓市開始離譜了!千燈湖板塊房?jī)r(jià)從4.5萬(wàn)變成3.2萬(wàn),臨廣片區(qū)承接廣州外溢需求

佛山樓市開始離譜了!千燈湖板塊房?jī)r(jià)從4.5萬(wàn)變成3.2萬(wàn),臨廣片區(qū)承接廣州外溢需求

美食格物
2026-05-21 13:10:12
18歲被王全安選中,20歲登戛納,后來為啥沒人敢用她?

18歲被王全安選中,20歲登戛納,后來為啥沒人敢用她?

林雁飛
2026-05-21 13:36:32
繼子被繼母虐待,考上985辦升學(xué)宴,繼子掏出親子鑒定后繼母呆住

繼子被繼母虐待,考上985辦升學(xué)宴,繼子掏出親子鑒定后繼母呆住

曉艾故事匯
2025-05-02 07:32:27
英偉達(dá)業(yè)績(jī)炸裂!凈利潤(rùn)暴漲211%,9成收入來自數(shù)據(jù)中心,自研CPU將年入千億

英偉達(dá)業(yè)績(jī)炸裂!凈利潤(rùn)暴漲211%,9成收入來自數(shù)據(jù)中心,自研CPU將年入千億

芯東西
2026-05-21 10:12:45
北京今夜起將迎降雨過程 明天最高氣溫僅22℃需防雨添衣

北京今夜起將迎降雨過程 明天最高氣溫僅22℃需防雨添衣

極目新聞
2026-05-21 08:06:54
主角:直到青娥兒子離世,才懂為啥她寧嫁劉紅兵,也不跟封瀟瀟

主角:直到青娥兒子離世,才懂為啥她寧嫁劉紅兵,也不跟封瀟瀟

阿廢冷眼觀察所
2026-05-21 14:17:25
廣汽本田新款皓影上市 售價(jià)13.79-17.99萬(wàn)元

廣汽本田新款皓影上市 售價(jià)13.79-17.99萬(wàn)元

車質(zhì)網(wǎng)
2026-05-21 09:22:52
2026-05-21 17:27:00
ScienceAI incentive-icons
ScienceAI
關(guān)注人工智能與其他前沿技術(shù)
1307文章數(shù) 227關(guān)注度
往期回顧 全部

科技要聞

好到離譜也不夠!英偉達(dá)交出816億美元營(yíng)收

頭條要聞

特朗普稱將與賴清德交談 外交部表態(tài)

頭條要聞

特朗普稱將與賴清德交談 外交部表態(tài)

體育要聞

常住人口7000的小鎮(zhèn),擁有了一支德甲球隊(duì)

娛樂要聞

反轉(zhuǎn)!金秀賢與金賽綸未成年時(shí)交往不實(shí)

財(cái)經(jīng)要聞

英偉達(dá)業(yè)績(jī)超預(yù)!指引再新高仍不夠亮眼

汽車要聞

26.98萬(wàn)起步 看小鵬GX如何詮釋一車多能以及滿配的科技與豪華

態(tài)度原創(chuàng)

親子
旅游
藝術(shù)
游戲
軍事航空

親子要聞

媽媽太卷兒女都不顧兒女身心健康是特別無奈的,做爸爸的太心疼還沒辦法

旅游要聞

雨后莒南:梯田如錦 云影天光入畫來

藝術(shù)要聞

崔雪冬 2026年油畫新作

《愚靈》揮刀斬向主機(jī)!7月23日PS5、Switch同步發(fā)售

軍事要聞

伊朗警告:任何新襲擊將促使戰(zhàn)場(chǎng)擴(kuò)大到中東以外

無障礙瀏覽 進(jìn)入關(guān)懷版