亚洲中文字幕乱码亚洲-蜜桃成熟视频在线观看-免费中文字幕视频在线-中国五十路熟妇洗澡视频-亚洲av伊人啪啪c-国产精品成人一区二区-国产自拍视频一区在线观看-成人一区不卡二区三区四区-亚洲情精品中文字幕99在线

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

新技術(shù):無需編解碼器,NEO-unify如何打造原生視覺語言理解與生成

0
分享至

當(dāng)前多模態(tài)智能架構(gòu)困境

長期以來,多模態(tài)研究已形成一種默認(rèn)范式:視覺編碼器(Vision Encoder, VE) 負(fù)責(zé)感知與理解,而變分自編碼器(Variational Autoencoder, VAE) 則用于內(nèi)容生成。近期的一些工作嘗試構(gòu)建共享編碼器,但這種折衷往往引入新的結(jié)構(gòu)性設(shè)計(jì)權(quán)衡。

由此回到第一性原理:構(gòu)建一體化模型直接處理原生輸入,即像素本身與文字本身。商湯科技聯(lián)合南洋理工大學(xué),提出一種全新的架構(gòu)范式:NEO-unify(preview),一個(gè)原生、統(tǒng)一、端到端的多模態(tài)模型架構(gòu)。它不僅越過了當(dāng)前視覺表征的爭論,也擺脫了預(yù)訓(xùn)練先驗(yàn)和規(guī)模定律瓶頸的限制。最關(guān)鍵的是:不需要 VE,也不需要 VAE。

我們正擴(kuò)大規(guī)模、持續(xù)迭代。更多模型與開源成果,將很快與大家見面。

NEO-unify原生一體化架構(gòu)新范式


NEO-unify 第一次邁向真正的端到端統(tǒng)一框架,能夠直接從近乎無損的信息輸入中學(xué)習(xí),并由模型自身塑造內(nèi)部表征空間。首先,引入近似無損的視覺接口,用于統(tǒng)一圖像的輸入與輸出表示;其次,采用原生混合Transformer(Mixture-of-Transformer,MoT)架構(gòu),使理解與生成能夠在同一體系中協(xié)同進(jìn)行;最終,通過統(tǒng)一學(xué)習(xí)框架實(shí)現(xiàn)跨模態(tài)訓(xùn)練:文本采用自回歸交叉熵目標(biāo),視覺通過像素流匹配進(jìn)行優(yōu)化。

模型效果

1. 定量結(jié)果分析



2. 生圖效果展示



技術(shù)發(fā)現(xiàn)

1. 無編碼器設(shè)計(jì)能夠同時(shí)保留抽象語義與細(xì)粒度表征

[圖像重建任務(wù)]

我們先前的工作 NEO(Diao et al., ICLR 2026)表明,原生端到端模型同樣能夠?qū)W習(xí)到豐富的語義表征。在此基礎(chǔ)上,我們進(jìn)一步觀察到一個(gè)有趣的現(xiàn)象:即使在凍結(jié)理解分支的情況下,獨(dú)立的生成分支仍然能夠從表示中抽取并恢復(fù)細(xì)粒度的視覺細(xì)節(jié)。

基于這一發(fā)現(xiàn),我們訓(xùn)練了 NEO-unify(2B)。在初步 9 萬步預(yù)訓(xùn)練后,模型在 MS COCO 2017 上取得 31.56 PSNR0.85 SSIM,而 Flux VAE 的對應(yīng)指標(biāo)為 32.650.91。這一結(jié)果表明,即使不依賴預(yù)訓(xùn)練 VEVAE,近似無損的原生輸入仍能夠同時(shí)支持高質(zhì)量的語義理解與像素級細(xì)節(jié)保真。

域外圖像重建(2B NEO-unify,理解分支凍結(jié))


[圖像編輯任務(wù)]

據(jù)此,我們進(jìn)一步開展探索:NEO-unify 將所有全模態(tài)條件信息統(tǒng)一輸入到理解分支,而生成分支僅負(fù)責(zé)生成新的圖像。

即使在凍結(jié)理解分支的情況下,NEO-unify(2B) 仍展現(xiàn)出強(qiáng)大的圖像編輯能力,同時(shí)顯著減少了輸入圖像令牌的數(shù)量。在使用開源生成與圖像編輯數(shù)據(jù)集并進(jìn)行初步 6 萬步混合訓(xùn)練后,模型在 ImgEdit 基準(zhǔn)上取得 3.32 的成績,且理解分支在整個(gè)訓(xùn)練過程中保持凍結(jié)。

小規(guī)模數(shù)據(jù)驗(yàn)證(2B NEO-unify,理解分支凍結(jié))


ImgEdit提示詞編輯(2B NEO-unify,理解分支凍結(jié))


2. 無編碼器架構(gòu)與 MoT 主干高度協(xié)同大幅降低內(nèi)在沖突

借助預(yù)訓(xùn)練的理解分支與生成分支,NEO-unify 使用相同的中期訓(xùn)練(MT)與 監(jiān)督微調(diào)(SFT) 數(shù)據(jù)進(jìn)行聯(lián)合訓(xùn)練。即使在較低的數(shù)據(jù)比例和損失權(quán)重下,理解能力依然保持穩(wěn)定,而生成能力則收斂很快。二者在 MoT 主干中協(xié)同提升,整體沖突極小。


3. 無編碼器架構(gòu),展現(xiàn)更高數(shù)據(jù)訓(xùn)練效率

此外,我們首先進(jìn)行 web-scale 預(yù)訓(xùn)練,隨后在多樣且高質(zhì)量的數(shù)據(jù)語料上依次進(jìn)行中期訓(xùn)練(MT) 和 監(jiān)督微調(diào)(SFT)。與 Bagel 模型相比,NEO-unify 展現(xiàn)出更高的數(shù)據(jù)訓(xùn)練效率,在使用更少訓(xùn)練 token 的情況下取得了更優(yōu)的性能。


未來展望

這不僅僅是一種模型架構(gòu)探索,更是邁向下一代智能形態(tài)的一步:

? 感知與生成交織的閉環(huán)

? 全模態(tài)推理

? 視覺推理

? 空間智能

? 世界模型

? …

一條新的路線圖正在展開:模型不再在模態(tài)之間進(jìn)行轉(zhuǎn)換,而是能夠原生地跨模態(tài)思考。多模態(tài) AI 不再只是連接不同系統(tǒng),而是構(gòu)建一個(gè)從未割裂的統(tǒng)一智能體,并讓所需能力從其內(nèi)部自然涌現(xiàn)。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
歐冠綜述:拜仁雙殺十人皇馬!總比分6-4進(jìn)4強(qiáng) 阿森納1-0淘汰葡體

歐冠綜述:拜仁雙殺十人皇馬!總比分6-4進(jìn)4強(qiáng) 阿森納1-0淘汰葡體

我愛英超
2026-04-16 05:06:19
為什么15艘美國軍艦一堵門,伊朗的“強(qiáng)硬人設(shè)”立馬就崩了?

為什么15艘美國軍艦一堵門,伊朗的“強(qiáng)硬人設(shè)”立馬就崩了?

老范談史
2026-04-16 04:05:18
卡馬文加染紅惹爭議!裁判專家:這級別比賽不能這么罰

卡馬文加染紅惹爭議!裁判專家:這級別比賽不能這么罰

仰臥撐FTUer
2026-04-16 06:33:27
淪為共享單車的女色虎

淪為共享單車的女色虎

深度報(bào)
2026-03-05 22:39:27
連中建八局也棄標(biāo)了!12億的國道項(xiàng)目,歷經(jīng)4次中標(biāo)人放棄

連中建八局也棄標(biāo)了!12億的國道項(xiàng)目,歷經(jīng)4次中標(biāo)人放棄

巢客HOME
2026-04-14 17:15:36
天津市第三中心醫(yī)院河?xùn)|院區(qū)存在違建 被罰款99.8415萬元并限期改正

天津市第三中心醫(yī)院河?xùn)|院區(qū)存在違建 被罰款99.8415萬元并限期改正

信網(wǎng)
2026-04-15 14:04:04
127:126絕殺!附加賽首勝誕生,黑馬球隊(duì)創(chuàng)歷史,東部第1瑟瑟發(fā)抖

127:126絕殺!附加賽首勝誕生,黑馬球隊(duì)創(chuàng)歷史,東部第1瑟瑟發(fā)抖

墨印齋
2026-04-15 17:03:55
爛柯杯中國棋手3輪中韓戰(zhàn)3-18慘敗 王星昊楊鼎新出局韓國6人進(jìn)16強(qiáng)

爛柯杯中國棋手3輪中韓戰(zhàn)3-18慘敗 王星昊楊鼎新出局韓國6人進(jìn)16強(qiáng)

勁爆體壇
2026-04-15 18:48:11
向華強(qiáng)自曝與向太分房睡十多年,“她凌晨刷短劇,我剛醒她正要睡”,網(wǎng)友:相愛和尊重不矛盾

向華強(qiáng)自曝與向太分房睡十多年,“她凌晨刷短劇,我剛醒她正要睡”,網(wǎng)友:相愛和尊重不矛盾

臺(tái)州交通廣播
2026-04-14 19:33:51
1500km!理想官宣:新車55.98萬元

1500km!理想官宣:新車55.98萬元

手機(jī)評測室
2026-04-13 11:50:43
阿爾特塔創(chuàng)造隊(duì)史紀(jì)錄:目標(biāo)直指歐冠冠軍,半決賽對手出爐

阿爾特塔創(chuàng)造隊(duì)史紀(jì)錄:目標(biāo)直指歐冠冠軍,半決賽對手出爐

足球狗說
2026-04-16 05:40:31
2026斯坦福AI指數(shù)報(bào)告:美國AI投資規(guī)模是中國的23倍,但AI模型基本沒差距了

2026斯坦福AI指數(shù)報(bào)告:美國AI投資規(guī)模是中國的23倍,但AI模型基本沒差距了

鈦媒體APP
2026-04-14 12:08:36
大批“五一”航班突然取消?最新解讀

大批“五一”航班突然取消?最新解讀

環(huán)球網(wǎng)資訊
2026-04-14 21:52:45
張水華石屏馬拉松最高獎(jiǎng)金僅3000元,官媒數(shù)據(jù)揭開她真正創(chuàng)收模式

張水華石屏馬拉松最高獎(jiǎng)金僅3000元,官媒數(shù)據(jù)揭開她真正創(chuàng)收模式

楊華評論
2026-04-15 18:56:09
妻子偷偷給情夫轉(zhuǎn)六百萬,丈夫直接裝傻報(bào)警:錢丟了,妻子當(dāng)場崩潰

妻子偷偷給情夫轉(zhuǎn)六百萬,丈夫直接裝傻報(bào)警:錢丟了,妻子當(dāng)場崩潰

奶茶麥子
2026-04-15 15:46:05
阿聯(lián)酋高規(guī)格訪華,關(guān)鍵時(shí)刻,中國給阿聯(lián)酋吃下定心丸

阿聯(lián)酋高規(guī)格訪華,關(guān)鍵時(shí)刻,中國給阿聯(lián)酋吃下定心丸

江平舟
2026-04-15 18:56:06
國民黨22個(gè)兵團(tuán),僅剩6個(gè)兵團(tuán)撤到臺(tái)灣,這6個(gè)兵團(tuán)分別是誰統(tǒng)領(lǐng)?

國民黨22個(gè)兵團(tuán),僅剩6個(gè)兵團(tuán)撤到臺(tái)灣,這6個(gè)兵團(tuán)分別是誰統(tǒng)領(lǐng)?

云霄紀(jì)史觀
2026-04-13 17:12:55
4月15日俄烏最新:西班牙求助東大

4月15日俄烏最新:西班牙求助東大

西樓飲月
2026-04-15 18:35:53
沉默2天后,中方通告全球,藏南是中國領(lǐng)土,并送給印度一個(gè)忠告

沉默2天后,中方通告全球,藏南是中國領(lǐng)土,并送給印度一個(gè)忠告

軍機(jī)Talk
2026-04-15 11:29:39
小伙80萬開面館6天倒閉又投40萬開新店:這兩年送外賣攢錢,寧睡地板也要當(dāng)老板

小伙80萬開面館6天倒閉又投40萬開新店:這兩年送外賣攢錢,寧睡地板也要當(dāng)老板

億通電子游戲
2026-04-15 19:18:16
2026-04-16 07:39:00
開源中國 incentive-icons
開源中國
每天為開發(fā)者推送最新技術(shù)資訊
7690文章數(shù) 34534關(guān)注度
往期回顧 全部

科技要聞

小鵬最貴SUV預(yù)售39.98萬!L4架構(gòu)3000TOPS算力

頭條要聞

歐洲100萬人請?jiān)敢笾撇靡陨?以總理:歐洲道德軟弱

頭條要聞

歐洲100萬人請?jiān)敢笾撇靡陨?以總理:歐洲道德軟弱

體育要聞

三球準(zhǔn)絕殺戴大金鏈:轟30+10自我救贖

娛樂要聞

謝娜現(xiàn)身環(huán)球影城,牽手女兒溫馨有愛

財(cái)經(jīng)要聞

業(yè)績失速的Lululemon:"健康"人設(shè)崩塌?

汽車要聞

空間絲毫不用妥協(xié) 小鵬GX首發(fā)評測

態(tài)度原創(chuàng)

教育
藝術(shù)
家居
親子
公開課

教育要聞

錦州市第一高級中學(xué)紀(jì)念復(fù)校30周年展覽館

藝術(shù)要聞

鄭麗文平底鞋爭議未平,馬英九書法引熱議。

家居要聞

簡而不減 暖居之道

親子要聞

南方家長注意!華南汛期提前、潮濕加碼,這種“呼吸道殺手”正全年潛伏

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版