亚洲中文字幕乱码亚洲-蜜桃成熟视频在线观看-免费中文字幕视频在线-中国五十路熟妇洗澡视频-亚洲av伊人啪啪c-国产精品成人一区二区-国产自拍视频一区在线观看-成人一区不卡二区三区四区-亚洲情精品中文字幕99在线

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

百度又開源!消費(fèi)級GPU可跑,文字渲染能力對標(biāo)Nano Banana

0
分享至


智東西
作者 陳佳
編輯 程茜

智東西4月15日報(bào)道,今日,百度文心大模型團(tuán)隊(duì)正式開源文生圖模型ERNIE-Image,其參數(shù)規(guī)模僅8B,可在顯存24GB的消費(fèi)級GPU上運(yùn)行。該模型在GenEval、OneIG等多項(xiàng)國際基準(zhǔn)上綜合得分位居開源模型第一,尤其在文字渲染能力上,與Nano Banana等商業(yè)閉源模型同處第一梯隊(duì)。

同步開源的還有ERNIE-Image-Turbo版本,其推理步數(shù)從標(biāo)準(zhǔn)版的50步壓縮至8步。


兩款模型的權(quán)重與推理代碼已全部上傳至Hugging Face,遵循Apache 2.0協(xié)議,ComfyUI工作流模板也已同步上線,開源量化方案由模型加速工具鏈Unsloth合作提供GGUF格式支持。

ERNIE-Image采用單流DiT架構(gòu),并內(nèi)置提示詞增強(qiáng)(Prompt Enhancer)模塊,可將簡短輸入自動(dòng)擴(kuò)展為結(jié)構(gòu)化描述再進(jìn)行生成,提升指令理解與細(xì)節(jié)控制能力。


▲百度ERNIE-Image開源代碼倉庫頁面,并已獲得78顆星(圖源:GitHub)

智東西用六組提示詞對該模型Turbo版本進(jìn)行了實(shí)測,從實(shí)際體驗(yàn)來看,ERNIE-Image-Turbo在處理復(fù)雜畫面時(shí)表現(xiàn)穩(wěn)定,比如多物體按照提示詞要求擺放、圖表生成、光影效果這些的任務(wù)基本都能做到位,但涉及復(fù)雜文字、多語言內(nèi)容或人物關(guān)系這種更精細(xì)的要求,就容易出現(xiàn)寫錯(cuò)字或理解偏差的問題。

技術(shù)Blog:https://ernie.baidu.com/blog/zh/posts/ernie-image/

體驗(yàn)平臺:https://aistudio.baidu.com/ernieimage

Hugging Face:
https://huggingface.co/baidu/ERNIE-Image
https://huggingface.co/baidu/ERNIE-Image-Turbo

一、六組高難Prompt實(shí)測,多主體與圖表生成表現(xiàn)良好

我們用六組提示詞對ERNIE-Image-Turbo做了測試,覆蓋高密度多語言文字渲染、多語言混排、漫畫分鏡敘事、數(shù)據(jù)圖表生成、多主體空間控制和光影人像六個(gè)維度。六組全部單次生成,未經(jīng)重試篩選,所有圖均為原圖直出。

整體感受是,該模型多主體空間關(guān)系控制、數(shù)據(jù)圖表生成和光影細(xì)節(jié)還原這幾項(xiàng)能力表現(xiàn)不錯(cuò),但碰到高復(fù)雜度文字渲染,踩坑比預(yù)期要明顯。

1、生僻漢字渲染,“鬱”字沒能過關(guān)

第一組想看的是,這個(gè)模型能不能在圖像里準(zhǔn)確寫出筆畫復(fù)雜的生僻字,尤其是形近字。

該模型在宣紙水墨背景、楷體風(fēng)格與紅色 “文心” 印章這些視覺氛圍營造上均還原到位。

但在文字精確生成上存在明顯失誤,我們指定的第一行是“鬱鬱蔥蔥”(yù yù cōng cōng),生成出來變成了“糲糲萬蕙”,完全不是同一個(gè)字。第三行的生僻字“贏麟龑靐”(yíng lín yǎn bìng),生成結(jié)果是“贏麟頃?”,“龑”和“靐”這兩個(gè)高復(fù)雜度字直接被換掉了。三行里只有第二行“薛蟠賈雨村”字形結(jié)構(gòu)沒有問題。


2、中英日韓四語混排,英文丟了個(gè)字母

中英日韓四語混排測試?yán)?,整體呈現(xiàn)和提示詞要求基本對得上,版式、風(fēng)格沒什么大問題。但仔細(xì)看會發(fā)現(xiàn),第二行的“Knowledge”明顯少寫了一個(gè)字母“e”,第四行的韓文也和指定的“???? ??? ??”有出入。


我們隨后加大了難度,要求該模型把四種語言以極小字號清晰呈現(xiàn)、筆畫無鋸齒、嚴(yán)格網(wǎng)格對齊。結(jié)果圖里出現(xiàn)了亂碼、字符變形和內(nèi)容篡改,多處文字直接無法識別,指定的技術(shù)參數(shù)和評測數(shù)據(jù)沒有一個(gè)完整還原出來。


3、漫畫分鏡實(shí)測,角色搞反了

這一組測試同時(shí)考三件事:多面板布局、角色跨格一致性、氣泡里的文字渲染。

生成圖片的布局和風(fēng)格表現(xiàn)不錯(cuò),兩行三列的均等分鏡結(jié)構(gòu)完整,格間分隔清晰,角色外觀在六格之間保持了一致性。但劇情出了岔子,第二格設(shè)定的是學(xué)生舉手提問,氣泡內(nèi)容是“老師,這是什么意思?”,生成出來變成了教授舉手,氣泡也跟著配在了教授身上,互動(dòng)主體完全反了。該模型在語義上出了理解偏差。


4、生成數(shù)據(jù)圖表,細(xì)節(jié)基本準(zhǔn)確到位

這一組測的是能不能該模型按指令生成結(jié)構(gòu)嚴(yán)謹(jǐn)?shù)谋砀窈涂梢暬瘓D,數(shù)字和標(biāo)簽準(zhǔn)不準(zhǔn)。

這組表現(xiàn)比預(yù)期好。表頭“模型名稱”“參數(shù)量”“GenEval得分”清晰無誤,填入的模型名稱、8B參數(shù)量,以及0.8856、0.8667等具體得分都沒有遺漏或改錯(cuò)。右欄條形圖的配色規(guī)則也嚴(yán)格執(zhí)行了,橙色高亮ERNIE-Image (w/o PE),藍(lán)色呈現(xiàn)其余模型,Y軸的0.75到0.95區(qū)間準(zhǔn)確,條形頂部數(shù)值標(biāo)注和表格完全一致。唯一的小瑕疵是X軸第二個(gè)模型名稱漏掉了“Turbo”。


5、七件物品測多主體空間控制,位置關(guān)系對得很準(zhǔn)

這組測試要求該模型嚴(yán)格控制七個(gè)物品的位置、尺寸、遮擋關(guān)系,在一張寫實(shí)俯拍桌面照里把它們放對地方。

這是六組里最讓人滿意的一組,七個(gè)指定物品全部按要求出現(xiàn),且核心位置關(guān)系沒有亂:翻開的精裝書在畫面正中,左頁手寫批注“此處存疑”、右頁英文印刷句都清晰可讀;黑色細(xì)框眼鏡壓在書本左上角;白色陶瓷咖啡杯在書本右側(cè),心形拉花形態(tài)自然;一元人民幣硬幣在咖啡杯右側(cè);黃色便利貼貼于書本正下方,手寫“deadline:4月20日”內(nèi)容準(zhǔn)確;鋼筆放在桌面左下角,筆尖朝向書本,全程無人物入鏡??臻g邏輯自洽,沒有出現(xiàn)物品疊錯(cuò)或位置串行的情況。


6、倫勃朗布光,光影執(zhí)行到位

最后一組想測的是,在給出高度具體的光影、材質(zhì)和色彩指令后,該模型會不會自行簡化內(nèi)容。

結(jié)果是,該模型嚴(yán)格執(zhí)行了指令:畫面采用倫勃朗布光,主光來自左上方45度角,右側(cè)臉頰的三角形光斑清晰可辨,輪廓規(guī)整;右側(cè)完全無補(bǔ)光,僅靠少量環(huán)境反光勾出輪廓;背景純黑,無紋理;膚質(zhì)寫實(shí),毛孔可見,無磨皮痕跡;深色高領(lǐng)毛衣領(lǐng)口處的編織紋理也還原出來了。

二、國際基準(zhǔn)評測成績單,文字渲染在開源模型里拿第一

百度在三個(gè)國際公開基準(zhǔn)上對ERNIE-Image進(jìn)行了系統(tǒng)評測,分別是衡量通用圖像生成能力的GenEval、覆蓋中英文雙語場景的OneIG,以及專門測試高密度文字渲染的LongText-Bench。

在衡量通用圖像生成能力的GenEval測試中,ERNIE-Image(不啟用PE)綜合得分為0.8856,在所有參測模型中排名第一,超過Qwen-Image(0.8683)和FLUX.2-klein-9B(0.8481)。


▲GenEval專業(yè)文生圖模型評測基準(zhǔn)(圖源:百度ERNIE-Image技術(shù)報(bào)告)

OneIG英文榜上,ERNIE-Image開啟PE后綜合得分0.5750,僅次于Nano Banana 2.0(0.5780)和Seedream 4.5(0.5760),位列第三,同時(shí)在推理維度單項(xiàng)排名第一(0.3566)。


▲OneIG-EN,評估文生圖模型在英文提示詞場景下綜合生成能力的量化評測體系(圖源:百度ERNIE-Image技術(shù)報(bào)告)

中文榜上,ERNIE-Image開啟PE的綜合得分為0.5543,同樣位列前兩名僅次于Nano Banana 2.0,還在多樣性維度上跑出了0.2478的最高分。


▲OneIG-ZW,評估文生圖模型在中文提示詞場景下綜合生成能力的量化評測體系(圖源:百度ERNIE-Image技術(shù)報(bào)告)

文字渲染專項(xiàng)LongText-Bench是最能體現(xiàn)ERNIE-Image差異化能力的榜單。英文維度上,ERNIE-Image開啟PE得分0.9804,中文維度0.9661,綜合均分0.9733,在所有開源模型中排名第一。對比來看,Nano Banana 2.0綜合均分0.9650,Qwen-Image為0.9445,Z-Image為0.9355。


▲LongText-Bench,專業(yè)文生圖長文本評測基準(zhǔn)(圖源:百度ERNIE-Image技術(shù)報(bào)告)

三、架構(gòu)輕量、部署門檻低,8B參數(shù)跑進(jìn)商用模型射程

ERNIE-Image的核心架構(gòu)是單流Diffusion Transformer(DiT),并內(nèi)置一個(gè)輕量級提示詞增強(qiáng)器Prompt Enhancer(PE)模塊,負(fù)責(zé)將用戶的簡短文字輸入自動(dòng)擴(kuò)展為更豐富、結(jié)構(gòu)化的詳細(xì)描述,再送入DiT主干生成圖像。

該模型的參數(shù)規(guī)模僅8B,這在開源文生圖領(lǐng)域?qū)儆谥行◇w量,但百度稱在參數(shù)效率優(yōu)化上做了大量工作,使運(yùn)行門檻降至24GB顯存的消費(fèi)級GPU,顯著低于此前同精度水平模型的部署要求。對照部分大參數(shù)開源模型的運(yùn)行需求,ERNIE-Image這一設(shè)計(jì)的意義在于,個(gè)人創(chuàng)作者和中小團(tuán)隊(duì)無需購置專業(yè)工作站即可本地部署。

兩個(gè)模型版本在調(diào)用方式上有所區(qū)別:標(biāo)準(zhǔn)版ERNIE-Image推理步數(shù)為50步,CFG(分類器自由引導(dǎo))值為4.0;Turbo版由DMD和強(qiáng)化學(xué)習(xí)聯(lián)合優(yōu)化,推理步數(shù)降至8步,CFG降至1.0,犧牲少量精度換取速度提升。

在工程部署上,百度同時(shí)提供了兩種集成方案。第一種是通過Hugging Face的diffusers庫直接調(diào)用,只需幾行Python代碼即可完成推理;第二種是通過推理框架SGLang部署服務(wù)端,并支持將PE模塊單獨(dú)剝離,用vLLM單獨(dú)運(yùn)行以加快提示詞擴(kuò)展速度,DiT主干與PE各占獨(dú)立端口,適合對延遲敏感的線上場景。此外,AI-Toolkit已支持對ERNIE-Image進(jìn)行微調(diào)訓(xùn)練,為有個(gè)性化需求的開發(fā)者提供了完整的訓(xùn)練-推理鏈路。

結(jié)語:文生圖再進(jìn)階,從“能出圖”走向“可控生成”

如果把文生圖模型的發(fā)展拆開看,過去一段時(shí)間的進(jìn)步主要集中在“畫得更像”,但在復(fù)雜結(jié)構(gòu)控制、規(guī)則執(zhí)行和文本表達(dá)上一直不穩(wěn)定。

此次ERNIE-Image的實(shí)測結(jié)果顯示,多主體位置關(guān)系、圖表結(jié)構(gòu)、分鏡布局和光影條件這類“強(qiáng)約束任務(wù)”已經(jīng)可以較穩(wěn)定完成。未來,誰能先解決文本與語義一致性問題,誰才更有可能真正進(jìn)入設(shè)計(jì)、內(nèi)容生產(chǎn)等高要求場景。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
鐘麗緹代孕喜得男孩,張倫碩堅(jiān)決支持,十年備孕終成功

鐘麗緹代孕喜得男孩,張倫碩堅(jiān)決支持,十年備孕終成功

喜你成疾藥石無醫(yī)
2026-04-15 10:59:34
悲哀!“男友訂百元酒店被分手”一事登上熱搜,聊天記錄太下頭了

悲哀!“男友訂百元酒店被分手”一事登上熱搜,聊天記錄太下頭了

火山詩話
2026-04-15 07:06:06
場均29分7板5助,基本鎖定一陣!雖然FMVP沒水貨,但你確實(shí)被高估

場均29分7板5助,基本鎖定一陣!雖然FMVP沒水貨,但你確實(shí)被高估

老梁體育漫談
2026-04-16 00:03:11
1998年,我娶了一個(gè)懷了別人孩子的女教師,新婚夜她交給我一封信

1998年,我娶了一個(gè)懷了別人孩子的女教師,新婚夜她交給我一封信

千秋文化
2026-04-11 20:04:55
越南也建高鐵了,時(shí)速350公里,使用德國技術(shù)!為何沒與我國合作

越南也建高鐵了,時(shí)速350公里,使用德國技術(shù)!為何沒與我國合作

老范談史
2026-04-13 18:09:39
張倫碩說鐘麗緹把財(cái)產(chǎn)給女兒自己沒意見:因?yàn)槲沂怯心芰Φ?>
    </a>
        <h3>
      <a href=東方不敗然多多
2026-04-15 19:07:24
馬奎爾在2026斯諾克世錦賽資格賽期間情緒失控,因沮喪而猛捶球桌

馬奎爾在2026斯諾克世錦賽資格賽期間情緒失控,因沮喪而猛捶球桌

林子說事
2026-04-15 10:29:34
爸爸夢到已故兒子說腳被刺扎了,立馬驅(qū)車來到孩子墓前,眼前的一幕讓人驚呆了!

爸爸夢到已故兒子說腳被刺扎了,立馬驅(qū)車來到孩子墓前,眼前的一幕讓人驚呆了!

張曉磊
2026-04-10 11:24:23
葉一茜田亮?xí)?8歲森碟美照,寵愛溢于言表:大膽去嘗試,不用事事完美;網(wǎng)友:“風(fēng)一樣的女子”長大了

葉一茜田亮?xí)?8歲森碟美照,寵愛溢于言表:大膽去嘗試,不用事事完美;網(wǎng)友:“風(fēng)一樣的女子”長大了

極目新聞
2026-04-15 14:13:50
徹底決裂!大巴黎官宣要搬離!卡塔爾老板怒了,新市長緊急救火

徹底決裂!大巴黎官宣要搬離!卡塔爾老板怒了,新市長緊急救火

老贃是個(gè)手藝人
2026-04-14 21:08:06
向太稱被向佑虧光幾百萬,控訴兒子心態(tài)扭曲,躺平等繼承百億家產(chǎn)

向太稱被向佑虧光幾百萬,控訴兒子心態(tài)扭曲,躺平等繼承百億家產(chǎn)

開開森森
2026-04-14 08:48:27
脫口秀演員曝王陽殺青宴被執(zhí)行導(dǎo)演指著鼻子罵

脫口秀演員曝王陽殺青宴被執(zhí)行導(dǎo)演指著鼻子罵

韓小娛
2026-04-15 07:55:25
美足大賞!章子怡光腳,身著淡紫色飄逸連衣裙,笑容燦爛如陽光。

美足大賞!章子怡光腳,身著淡紫色飄逸連衣裙,笑容燦爛如陽光。

情感大頭說說
2026-04-16 01:18:30
國臺辦:堅(jiān)決反對建交國與中國臺灣地區(qū)開展任何形式官方往來

國臺辦:堅(jiān)決反對建交國與中國臺灣地區(qū)開展任何形式官方往來

環(huán)球網(wǎng)資訊
2026-04-15 10:38:12
打不過伊朗,就要對中國加征高額關(guān)稅?中國七個(gè)大字,硬氣回復(fù)

打不過伊朗,就要對中國加征高額關(guān)稅?中國七個(gè)大字,硬氣回復(fù)

陌上桃花開的
2026-04-16 00:17:42
滴滴等平臺遭清退風(fēng)暴!5月31日前合規(guī)100%,上海網(wǎng)約車大洗牌?

滴滴等平臺遭清退風(fēng)暴!5月31日前合規(guī)100%,上海網(wǎng)約車大洗牌?

老特有話說
2026-04-14 02:10:03
單程決死突擊!伊朗飛行員壯烈犧牲,炸翻美司令部,換掉3架美機(jī)

單程決死突擊!伊朗飛行員壯烈犧牲,炸翻美司令部,換掉3架美機(jī)

驕陽之夏明
2026-04-14 20:34:02
演員文章飯店生意火爆,全家都到場支持,前妻馬伊琍被曝也在場

演員文章飯店生意火爆,全家都到場支持,前妻馬伊琍被曝也在場

韓小娛
2026-04-14 09:56:38
俄總統(tǒng)新聞秘書:普京準(zhǔn)備重新考慮接收伊朗濃縮鈾

俄總統(tǒng)新聞秘書:普京準(zhǔn)備重新考慮接收伊朗濃縮鈾

新華社
2026-04-16 01:01:14
預(yù)虧超11億元,股價(jià)卻連續(xù)3天漲停!002124,最新公告!

預(yù)虧超11億元,股價(jià)卻連續(xù)3天漲停!002124,最新公告!

證券時(shí)報(bào)e公司
2026-04-15 19:15:25
2026-04-16 02:12:49
智東西 incentive-icons
智東西
智東西,AI產(chǎn)業(yè)新媒體,專注報(bào)道人工智能的前沿技術(shù)發(fā)展,和技術(shù)應(yīng)用帶來的千行百業(yè)產(chǎn)業(yè)變革。
11597文章數(shù) 117029關(guān)注度
往期回顧 全部

科技要聞

ChatGPT十億用戶又怎樣?Anthropic直接貼臉

頭條要聞

法國全票通過 “將不義之財(cái)歸還中國”

頭條要聞

法國全票通過 “將不義之財(cái)歸還中國”

體育要聞

三球準(zhǔn)絕殺戴大金鏈:轟30+10自我救贖

娛樂要聞

謝娜現(xiàn)身環(huán)球影城,牽手女兒溫馨有愛

財(cái)經(jīng)要聞

業(yè)績失速的Lululemon:"健康"人設(shè)崩塌?

汽車要聞

空間絲毫不用妥協(xié) 小鵬GX首發(fā)評測

態(tài)度原創(chuàng)

本地
家居
游戲
數(shù)碼
公開課

本地新聞

12噸巧克力有難,全網(wǎng)化身超級偵探添亂

家居要聞

簡而不減 暖居之道

萍萍、浩浩媽新作眾籌超原目標(biāo)2500%!想沖的人太多

數(shù)碼要聞

明基新款顯示器首發(fā)12499元:4K專業(yè)級色彩校準(zhǔn) 根據(jù)環(huán)境光自動(dòng)調(diào)整

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版