无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

文生圖開源第一易主,但 HiDream-O1-Image 為什么褒貶不一?

0
分享至


UiT 架構(gòu)探路者,底牌還沒亮。

作者丨宇景

編輯丨馬曉寧 梁丙鑒

2026 年 5 月,智象未來開源了文生圖模型 HiDream-O1-Image(8B),直接登頂 Artificial Analysis 開源模型全球第一,Elo 1187 的分數(shù)力壓 Qwen Image(27B)和 FLUX.2 dev。值得注意的是,這也是 Artificial Analysis 榜單前十中唯一的開源模型。

但消息一出,有人說最強一代開源文生圖模型“實至名歸”,卻也有人直接罵“生成質(zhì)量一坨”。Artificial Analysis 可不是隨便哪里冒出來的野生榜單,盲測 Arena 里都是用戶實時投票打出來的結(jié)果。

兩極分化的評價讓我們感到好奇。因此我們花了幾天時間,從 Reddit 到 GitHub,從架構(gòu)解析到上手實測地拆解了一遍。HiDream-O1-Image 更像是一個技術(shù)方向正確的探路者,無法也不必承擔(dān)殺死比賽的期待。

作為開源第一,它和目前的行業(yè)第一 GPT Image 2 之間還有著不小的差距。這背后是 8B 參數(shù)開源版本同樣明顯的亮點和問題,但它卻已然勾勒出了,未來 200B+參數(shù) Pro 版本宏偉的可能性。


Artificial Analysis榜單前十只有HiDream 8B作為開源模型入圍

01


UiT 架構(gòu)創(chuàng)新

在 HiDream-O1-Image 之前,主流文生圖模型都選擇了一條“拼盤”路線。VAE 負責(zé)壓縮圖像,T5/CLIP 負責(zé)理解文本,DiT 負責(zé)生成。三件套各司其職,這種方案不可避免的后果就是信息損耗,每一次跨模塊的傳遞,都會丟失細節(jié)。

而 HiDream-O1-Image 此番登頂 Artificial Analysis,其核心創(chuàng)新 UiT 架構(gòu)正是瞄準了這一行業(yè)短板。

HiDream 采用的 UiT 架構(gòu),把像素、文本、任務(wù)條件全部映射到了同一個 token space 進行端到端處理。換言之,砍掉 VAE 和獨立的文本編碼器之后,所有的信息都在一個空間內(nèi)部流轉(zhuǎn),最直接的好處就是信息損耗更少,效率更高了。

基于這一項架構(gòu)創(chuàng)新,HiDream-O1-Image 以 8B 的參數(shù)表現(xiàn)出了不遜于 Qwen Image 27B 參數(shù)的性能。這一點得到了技術(shù)報告和榜單排名數(shù)據(jù)的交叉印證,在多個指標(biāo)上,HiDream 相對于后者保持了持平甚至領(lǐng)先。

與此同時,UiT 原生支持多任務(wù),文生圖、指令編輯、主題驅(qū)動個性化,一套架構(gòu)全包。想用 Stable Diffusion 3.5 編輯圖像,需要加裝 ControlNet,Qwen-Image 則根本不支持指令編輯。目前 HiDream-O1-Image 在開源文生圖模型中,是獨一份的存在。

但代價也很明顯,那就是原生架構(gòu)不兼容現(xiàn)有生態(tài)。

SD 3.5 有成熟的 LoRA 和 ControlNet,社區(qū)積累了數(shù)萬小時的微調(diào)經(jīng)驗。反觀 HiDream 生態(tài),ComfyUI 剛剛實現(xiàn)支持,Ostris 訓(xùn)練工具也才就緒,工具鏈仍處在起步期。用戶面對的局面,就是原生的成熟 LoRA 尚且稀缺,從 SD 生態(tài)遷移的選擇又因為 checkpoint 格式不通用而被堵死。

最殘酷的差距仍然來自 GPT Image 2,上面的問題對用戶而言都不復(fù)存在,所有的交互就是打開網(wǎng)頁、輸入 prompt。在文生圖模型走向落地的過程中,開箱即用本身就是一種至關(guān)重要,卻又常常被開源模型忽視的競爭力。


HiDream在github上展示的demo

02


五維實測:HiDream-O1-Image 的能力邊界在哪

光看技術(shù)報告沒意思,接下來看看 HiDream-O1-Image 在實際任務(wù)中表現(xiàn)如何。

首先是為一款無糖氣泡水設(shè)計電商海報,用于即將到來的 618 促銷。我們要求 HiDream-O1-Image 針對不同投放平臺,分別生成1:1、3:4、16:9、9:16 四種比例的畫面,整體風(fēng)格要清爽、年輕化。


實測中四種比例的畫面都沒有翻車,這里以 16:9 的版本為例, 可以看到冰塊和水花四濺的效果相當(dāng)自然,畫面非常清爽。更可圈可點的是文字部分,"0 糖也好喝"和"第二件半價"的文案渲染清晰準確。對于一款 8B 模型而言,可以說是超出預(yù)期。

美中不足的是生成結(jié)果缺乏商業(yè)要素,平臺 logo、價格標(biāo)簽和促銷信息都沒有,還達不到直接作為廣告投放的水準。在這一點上,GPT Image 2 和 Midjourney 的完成度顯然更高,差距就在對語境的理解上。當(dāng)然,如果回到素材工具的維度衡量,HiDream-O1-Image 的生成和審美能力則已經(jīng)完全勝任了。

第二項測試是漫畫生成,這種多鏡頭場景覆蓋了漫畫創(chuàng)作、分鏡頭生成或游戲資產(chǎn)的生產(chǎn),同樣是文生圖模型距離落地最近的場景之一。而其中最關(guān)鍵的考量,就是模型能否在頻繁切換的鏡頭和視角下,維持住角色形象的一致性。


在測試生成的四宮格漫畫中,可以注意到一個細節(jié)是,主角柴犬的紅色圍巾在四個畫面中都出現(xiàn)了,顏色、位置不變,紋理也基本一致,說明HiDream-O1-Image 具備跨鏡頭保持視覺元素的能力。

有意思的是,我們的提示詞雖然描述了畫面、情節(jié),并向模型指出這是一則漫畫,但 HiDream-O1-Image 卻似乎無法理解漫畫對文字的包含關(guān)系,因此最初交付的生成結(jié)果只有圖片,需要我們手動添加指令“加入中文對白”。這和此前電商海報的測試任務(wù)某種程度上實現(xiàn)了互相印證,HiDream-O1-Image 在主動理解語境上,似乎力有不逮。

在第三項測試中,我們要求 HiDream-O1-Image 生成一張面向初中生的水循環(huán)科普圖片,介紹包括蒸發(fā)、凝結(jié)、降水、地表徑流和地下滲透的水循環(huán)環(huán)節(jié),并用箭頭展示先后順序。在圖解中,還需要用簡短中文標(biāo)簽標(biāo)注每個階段的名稱。這項任務(wù)涉及到復(fù)雜指令遵循,和復(fù)雜畫面元素對模型排版能力的考驗。

在最終的五份交付結(jié)果中,有四張均準確無誤。下面是唯一出現(xiàn)了錯誤的一張,其中地下滲透的水循環(huán)方向發(fā)生了顛倒。


比起簡單的幻覺,這更像是某種常識錯誤。閉源模型得益于更長周期的 RLHF 與真實用戶反饋積累,在復(fù)雜排版、文本生成和信息層級控制上的穩(wěn)定性更加突出。而相對地,常識一致性和復(fù)雜指令對齊能力仍然是今天開源模型和閉源模型最主要的差距之一。

第四項測試是街景生成。這項任務(wù)的特殊之處在于,我們僅僅給出了對地點的簡單描述,如“上海舊城區(qū)街景”,要求模型自行補全,生成邏輯、元素合理的圖像。這考驗的是模型的世界知識。

在實際測試中,我們選擇了東京澀谷、巴黎咖啡館、新加坡牛車水、上海弄堂、廣州騎樓、東京京都 6 個風(fēng)格強烈且對比明顯的地點。


比較有代表性的是左上角的巴黎咖啡館。深紅遮陽棚加金色字體、外擺的藤編咖啡椅配小圓桌,都是巴黎左岸咖啡館典型的視覺語言。

空間邏輯上,最成功的一張當(dāng)屬上排中間的新加坡水牛車街景,燈籠街的部分不僅在色彩飽和度上盡可能控制,而且整體街道透視非常穩(wěn)定。從燈籠的排列就能看出這一點,燈籠之間距離幾乎保持一致,消失點也符合空間邏輯。美中不足的是,HiDream-O1-Image 雖然復(fù)刻了南洋騎樓和彩色店屋的建筑風(fēng)格,但是畫面中仍然能看出一些香港唐樓的影子,讓街景像是一種地域混搭的產(chǎn)物。

論建筑語言,最準確的一副是右上角的廣州騎樓。連續(xù)廊柱下的遮雨空間、混合立面、深進深商鋪都是鮮明的騎樓特征,畫面中甚至還生成了雨天下的反光地面,很符合廣州多雨水的城市印象。

對于大部分場景,HiDream-O1-Image 都能生成建筑形態(tài)合理、空間邏輯在線的街景。但縱觀六個畫面,文字渲染混亂的“偽漢語”仍然層出不窮。其實法語也沒能逃過,左上角的巴黎咖啡館街景中,CAFE 的拼寫無誤,但左側(cè)的 OAMER 疑似無意義的字母組合。這也是一種“偽文字”的典型表現(xiàn),也就是在缺乏具體文字內(nèi)容指令的情況下,模型可以生成看起來像文字的紋理,但卻無關(guān)乎語義的完整與否。

在最后一項測試中,我們要求 HiDream-O1-Image 為健身 APP 生成一份 UI 頁面,其中需要包括訓(xùn)練計劃、卡路里消耗、課程卡片、底部導(dǎo)航欄等元素。


這是最有迷惑性的一個測試。界面結(jié)構(gòu)合理,組件對齊,乍看之下幾乎以為是真實的 UI 稿,但卻經(jīng)不起細看。

最明顯的問題是文字系統(tǒng)崩壞,熱量單位在同一個頁面里出現(xiàn)了 “kcal / kcl / kcs / kal” 四種寫法,卡片標(biāo)題和副標(biāo)題重復(fù),中文字體與英文排版體系完全不統(tǒng)一,布局上也沒有突出應(yīng)有的信息層級,重要區(qū)域只是靠“大數(shù)字 + 大圓角 + 熒光色”制造視覺沖擊,此外的人臉破碎更不必多說,真正的 UI 設(shè)計師手底下出不了這么糙的活。

與此同時,很多看似合理的內(nèi)容其實只是視覺拼貼。例如“核心強化”配圖是一個人站著舉啞鈴,視覺上和訓(xùn)練內(nèi)容沒有直接關(guān)聯(lián)。事實上這仍然是對街景生成任務(wù)中,“偽文字”問題的重復(fù),即在不理解真實語義的情況下,文字只是某種視覺紋理。

03


8B 開源版,到底該跟誰比

你能透過這份實測看到 HiDream-O1-Image 引起的幾乎所有爭議。在某些場景下,它確實以 8B 參數(shù)做到了 27B 的表現(xiàn),UiT 的架構(gòu)創(chuàng)新值得尊重。而在另一些場景,GPT Image 2 的統(tǒng)治力依然無可撼動,用 HiDream-O1-Image 去橫向?qū)Ρ龋瑹o異以卵擊石。

但問題在于,這種對比本身是否合理?

此次開源的 8B 版本更像是一個技術(shù)路線的驗證者,如果它的任務(wù)是證明 UiT 架構(gòu)可行,那么這一目的顯然達成了。但如果開發(fā)者社區(qū)拿到手之后,選擇直接對標(biāo) GPT Image 2,由于預(yù)期錯位導(dǎo)致的落差幾乎必然的。同樣的原因,此前 GPT Image 2 收獲了一邊倒的好評,也并非出于它的完美,而在于用戶和廠商對其定位達成了共識,一款付費使用的生產(chǎn)級工具。

那么回到探路者的角色,HiDream-O1-Image 表現(xiàn)如何?

GitHub 兩周 443 stars,26 forks,6 個 open issues,對一個剛滿半個月的開源項目而言,這個熱度不算低。ComfyUI 支持,Reddit 上累計 100+ upvotes,Ostris 訓(xùn)練工具就緒,技術(shù)報告上線 arXiv,就生態(tài)建設(shè)而言,動作也不算慢。

縱觀整個文生圖模型生態(tài),HiDream-O1-Image 的獨特位置在于,它有著最前沿的架構(gòu),模型本身的成熟度卻沒那么高。雖然以 Elo 1187 的評分拿下了開源模型第一,但中文支持還要打上一個問號,生態(tài)建設(shè)也仍在起步階段,至于 LoRA、ControlNet 這些高階玩法更是暫時不用多想。

回頭來看,HiDream-O1-Image 最大的價值,就在于它揭示了 UiT 架構(gòu)是一條能走通的路。統(tǒng)一 token space 的效率優(yōu)勢指向未來,此前的五維測試也暴露了邊界。如果說 8B 開源版本的使命是技術(shù)驗證和社區(qū)預(yù)熱,借此看看 UiT 架構(gòu)能做到什么程度,那么后續(xù)發(fā)布的 Pro 版本,才是那個真正要和 GPT Image 2 一較高下的選手。

8B 開源版是一扇窗,真正的風(fēng)景還在 200B+ 參數(shù)的 Pro 版本之后。

未經(jīng)「AI科技評論」授權(quán),嚴禁以任何方式在網(wǎng)頁、論壇、社區(qū)進行轉(zhuǎn)載!

公眾號轉(zhuǎn)載請先在「AI科技評論」后臺留言取得授權(quán),轉(zhuǎn)載時需標(biāo)注來源并插入本公眾號名片。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
李中華任鄭州市委副書記

李中華任鄭州市委副書記

汲古知新
2026-06-13 00:08:56
60歲男子與女子在車內(nèi)發(fā)生親密行為猝死,家屬起訴女方索賠32萬余元被駁回

60歲男子與女子在車內(nèi)發(fā)生親密行為猝死,家屬起訴女方索賠32萬余元被駁回

紅星新聞
2026-06-13 11:34:09
巴基斯坦總理:伊朗和美國已就協(xié)議文本達成一致

巴基斯坦總理:伊朗和美國已就協(xié)議文本達成一致

財聯(lián)社
2026-06-13 00:32:03
具俊曄首曝與大S20年前舊居,蹭熱度令人不恥

具俊曄首曝與大S20年前舊居,蹭熱度令人不恥

仙味少女心
2026-06-13 23:14:06
美國隊追平隊史世界杯最大比分勝利!阿湯哥、小李子、貝克漢姆……一眾名流現(xiàn)場觀賽

美國隊追平隊史世界杯最大比分勝利!阿湯哥、小李子、貝克漢姆……一眾名流現(xiàn)場觀賽

紅星新聞
2026-06-13 12:05:58
成都蛋烘糕婆婆:配合拍視頻1000一條,否則追究相關(guān)法律責(zé)任

成都蛋烘糕婆婆:配合拍視頻1000一條,否則追究相關(guān)法律責(zé)任

映射生活的身影
2026-06-13 19:55:10
癌癥的源頭被查出,燒烤沒上榜,第1名大家可能每天都在吃!

癌癥的源頭被查出,燒烤沒上榜,第1名大家可能每天都在吃!

路醫(yī)生健康科普
2026-06-12 16:23:10
水果姐為美國男足揭幕戰(zhàn)表演,與提烏斯-盧卡一同獻唱

水果姐為美國男足揭幕戰(zhàn)表演,與提烏斯-盧卡一同獻唱

懂球帝
2026-06-13 09:17:14
“去上海住哥哥家被警告”引群嘲,揭開了當(dāng)下社會最殘酷的真相

“去上海住哥哥家被警告”引群嘲,揭開了當(dāng)下社會最殘酷的真相

卷史
2026-06-13 06:29:19
釘釘員工自曝作息大改,內(nèi)部爭議曝光

釘釘員工自曝作息大改,內(nèi)部爭議曝光

影視情報室
2026-06-14 00:39:31
中紀委怒批:公務(wù)員也是人,正常生活不應(yīng)問責(zé)處理!

中紀委怒批:公務(wù)員也是人,正常生活不應(yīng)問責(zé)處理!

細說職場
2026-06-13 12:51:02
震撼,波黑球迷開始在多倫多街頭集結(jié),并高喊口號支持巴勒斯坦

震撼,波黑球迷開始在多倫多街頭集結(jié),并高喊口號支持巴勒斯坦

懂球帝
2026-06-13 01:18:15
先定罪,再調(diào)查,保證沒有冤假錯案

先定罪,再調(diào)查,保證沒有冤假錯案

我是歷史其實挺有趣
2026-06-13 12:14:28
口交、肛交等進入式性服務(wù)是賣淫行為嗎?最高院定調(diào)了!

口交、肛交等進入式性服務(wù)是賣淫行為嗎?最高院定調(diào)了!

黯泉
2026-06-02 11:54:54
她29歲中央委員、37歲省委書記,41歲主動到縣里任職

她29歲中央委員、37歲省委書記,41歲主動到縣里任職

數(shù)字化看世界
2026-05-31 17:37:58
中日要開戰(zhàn)?日專家曾預(yù)測:與中國發(fā)生沖突,最長只能堅持兩周

中日要開戰(zhàn)?日專家曾預(yù)測:與中國發(fā)生沖突,最長只能堅持兩周

別吵吵
2026-06-09 08:56:42
王毅收到蒙古國外長的邀請,稀土外運日本一事,想聽聽中方想法?

王毅收到蒙古國外長的邀請,稀土外運日本一事,想聽聽中方想法?

共工之錨
2026-06-13 00:25:29
斯坦福顛覆認知!對腸道好的不是粗糧,發(fā)酵食物反而護腸、強免疫

斯坦福顛覆認知!對腸道好的不是粗糧,發(fā)酵食物反而護腸、強免疫

思思夜話
2026-06-12 13:24:03
什么是知識的詛咒?網(wǎng)友:但凡被知識污染一點也想不出淡硫酸這詞

什么是知識的詛咒?網(wǎng)友:但凡被知識污染一點也想不出淡硫酸這詞

另子維愛讀史
2026-06-13 23:39:37
蘋果首款折疊屏“iPhone Ultra”細節(jié)全曝光 無折痕、取消Face ID

蘋果首款折疊屏“iPhone Ultra”細節(jié)全曝光 無折痕、取消Face ID

CNMO科技
2026-06-11 09:30:19
2026-06-14 06:16:49
AI科技評論 incentive-icons
AI科技評論
點評學(xué)術(shù),服務(wù)AI
7372文章數(shù) 20757關(guān)注度
往期回顧 全部

科技要聞

SpaceX上市首日破2萬億美元,馬斯克再封神

頭條要聞

特朗普:美伊協(xié)議計劃周日簽署 如不順利還有終極手段

頭條要聞

特朗普:美伊協(xié)議計劃周日簽署 如不順利還有終極手段

體育要聞

美國4比1巴拉圭:這統(tǒng)治力真是美國隊?!

娛樂要聞

鄧超曬孫儷親手織的帽子,笑瘋?cè)W(wǎng)!

財經(jīng)要聞

梁文鋒向左,楊植麟向右

汽車要聞

深藍S07華為乾崑激光版增程車型上市 限時15.49萬元起

態(tài)度原創(chuàng)

藝術(shù)
家居
旅游
數(shù)碼
健康

藝術(shù)要聞

廣州再建一座“小蠻腰”?190米,頂著個球,2027年見!

家居要聞

空間微調(diào) 移形換境

旅游要聞

夏天就該這樣過!大別山的夏天,從霍山大峽谷漂流的第一聲尖叫開始。

數(shù)碼要聞

綠聯(lián)推出DXP 6800/8800 Ultra NAS:雙萬兆雙雷電4,PCIe擴展

老人、小孩、孕婦,吃粽子有啥風(fēng)險

無障礙瀏覽 進入關(guān)懷版