![]()
文生圖的"慢思考",到底有沒有用?
作者丨宇景
編輯丨馬曉寧 梁丙鑒
“8B 開源版是一扇窗,真正的風景還在 200B+ 參數的 Pro 版本之后。”
智象未來 HiDream-O1-Image 開源版(8B)發布之后,我在測評最后留下了這樣一句判斷。前者以 Peanut 匿名登上 AA 榜、拿下文生圖開源模型全球第一的事跡猶在眼前,今天 1.5 閉源版本又和公眾見面了。
珠玉在前,HiDream-O1-Image-1.5 可以說是備受矚目,而智象未來的官方口徑很大程度上回應了這種期待:“連續登頂不僅印證了智象未來在圖像生成大模型上的硬核實力,更標志著公司已穩居全球視覺生成大模型的第一梯隊”。
看過 1.5 版本在 Artificial Analysis 榜單上的成績,你就知道這不是一句空話。已躍升至文生圖模型排名的第3位,超越了Google的Nano Banana 2,僅次于OpenAI的兩款模型。它與排名第二的GPT-Image 1.5綜合評分差距僅有1分,展現了強勁的競爭力。
![]()
此前在 HiDream-O1-Image 上初露鋒芒的 UiT 架構,也在新版本中繼續大放異彩。
但今天我們不聊榜單,1.5 版本提出了兩個更值得關心的問題是,一個圖像模型到底需不需要“先想再畫”?以及砍掉 VAE 這件事到底改變了文生圖的什么底層邏輯?
![]()
01
八維評測拆解:
復雜 Prompt 下的真實優勢
Google Nano Banana 曾經是文生圖賽道最有存在感的選手,不碰一下,實在不好意思給自己加冕新王。
HiDream-O1-Image-1.5 的單獨展示已經沒什么意義,我這次把它和 Nana Banana 2 放在了同一條起跑線上,用完全相同的 prompt 做三組盲測。
為了不讓評價變成“我覺得好看”這種沒法對焦的廢話,我把圖像模型能力拆成了八個維度:
? Prompt 遵循度:能否準確執行文字指令要求
? 構圖能力:鏡頭組織和視覺重心
? 攝影語言理解:景深、焦點、鏡頭參數等概念
? 材質表現:如光影、反射、紋理等
? 細節準確性:文字、結構、生物解剖等硬指標
? 氛圍塑造:情緒與環境營造
? 主體設計能力:自由發揮情況下,主體表現力的高級程度
? 以及商業完成度:能不能直接用
測試結束后我拿到了六份生成結果,但我隱去了它們分別出自誰手。你可以在閱讀過程中先猜猜,看看判斷和真相是否一致。
第一組測試是生成一張白酒產品圖。
Prompt:一張高端中國白酒的奢華電商海報。正中央矗立著一個純凈半透明的羊脂玉瓷瓶。在瓶身的曲面上直接浮雕著一首八句中文古詩——崔顥的《黃鶴樓》。雕刻的文字內部鑲嵌著精致閃爍的金箔。酒瓶放置在一塊粗糙的黑板巖上,半浸在清澈見底的淺水池中,水面蕩漾著柔和的同心漣漪。焦散光影在瓶底跳躍。背景有微型盆景松樹和薄霧。邊緣輪廓光,商業產品攝影。
![]()
1.1
1.1 的第一印象很驚艷,這就是奢侈品廣告的畫風,玉瓷材質的光澤和水面效果也很到位,讓人覺得下一幀就要切到觥籌交錯的商務宴請上。
但文生圖模型最怕細看,如果你盯著瓶身上的文字,問題就出來了。古詩嚴重錯誤是最明顯的,浮雕的層次感也模糊成一片。它在視覺創造力和材質表現上幾乎滿分,但細節準確性實在不夠看。而細節恰恰是這組 prompt 關注的重點。好看、寫字精確,1.1 在第一條上做到了極致,但在第二條上幾乎放棄了。
![]()
1.2
與之相對,1.2 在復雜中文文字渲染上的優勢就更加突出。你可以看到《黃鶴樓》的全詩被比較完整地呈現,文字排列也更接近真實產品包裝上的豎排中文視覺效果,最直觀的感受就是更可讀、內容關系更明顯。
詩詞全文的呈現,或許是一種相對少見的需求,但它本質上是產品廣告圖這類場景對信息準確性的壓力測試。相比 1.1 中文字出現的明顯錯亂、重復、錯字和語義斷裂,1.2 的穩定呈現已經跨越了落地的鴻溝,在此之上才有討論視覺效果的空間。在這一維度上,1.2 同樣不令人失望,玉瓷瓶體、浮雕文字、金色裝飾、瓶身高光的塑造都審美在線。
第二組測試是生成一張小貓在花園里的照片。提示詞用英文寫成,原文及翻譯如下:
prompt:An adorable, candid photograph of a curious kitten exploring lush green gardens, with oversized flowers and foliage creating a whimsical fairy-tale atmosphere. 翻譯:一張可愛而自然抓拍的照片:一只充滿好奇心的小貓正在郁郁蔥蔥的綠色花園中探索,周圍碩大而繁盛的花朵與枝葉營造出夢幻般的童話仙境氛圍。
![]()
2.1
2.1 在這組里的表現很有趣。它完美還原了 oversized flowers 的視覺沖擊,對花朵巨大、色彩飽和、童話氛圍這些畫面元素的把握,都無師自通。此外光影處理也很棒,陽光穿過葉片的方式有真實攝影感。
要說有什么問題,就是小貓和環境沒什么交互,不要說玩弄花草,它甚至不像在看路,眼神踏實得像在自己窩里。另外,作為主體的小貓在畫面里也相對偏小,視覺中心容易被大葉片和花叢分散,存在感稍弱一些。
![]()
2.2
2.2 的主體辨識度就強上許多,生成的小貓眼神、姿態和身體結構清晰,“curious kitten”的好奇感躍然其上。此外小貓面部焦點明確,五官、毛發、四肢關系也更自然,保留了真實動物攝影的質感。
整體構圖上,2.2 在畫面右側同時保留了放大的花朵、蘑菇、綠色植物等童話元素,但沒有讓環境壓過主體。這種對主體清晰和氛圍營造進行取舍之后得到的平衡,也是一大亮點。
第三組測試,我打算設計點展現模型創造力的。科幻題材是個不錯的選擇,我讓兩款模型分別生成了一個賽博格接受審訊的畫面。
prompt:在一個燈光昏暗、煙霧彌漫的審訊室里,一張過肩鏡頭(OTS)電影劇照。前景左側三分之一是偵探肩膀和側臉的嚴重失焦剪影。焦點鎖定在背景中坐在金屬桌對面的嫌疑人——一個疲憊的賽博格,擁有發光的紅色光學植入物,被頭頂搖晃的刺眼聚光燈照亮。極淺的景深在模糊前景和銳利的嫌疑人面部之間形成強烈光學分離。85mm 鏡頭,f/1.4 大光圈。
![]()
3.1
3.1 在這組的表現最均衡。OTS 鏡頭角度標準,前景虛化到位,景深控制準確,攝影語言理解上這已經時滿分的水平。同樣值得一提的是審訊室的氛圍感和燈光效果也能看出是經過設計的,在物理準確性之外,也很好地發揮了敘事功能。你能看出這是一個審訊場景,知道誰是權力方。
![]()
3.2
3.2 的表現也難分伯仲。前景人物虛化形成壓迫感,焦點集中在嫌疑人身上,畫面敘事關系清晰,同樣一個 OTS 鏡頭拍出了電影級的質感。
值得注意的是,Prompt 明確要求 85mm、f/1.4、大光圈、極淺景深。3.2 的輸出更明顯地體現了前景虛化和背景主體清晰的光學分離,這說明模型不僅識別關鍵詞,還能把鏡頭參數轉化為畫面效果。
這對于影視分鏡、廣告片預演、概念視覺生成非常關鍵。
另一個亮點是主體設計。此前 3.1 的賽博格設計偏保守,機械細節不夠豐富,只是象征性地在人體上加了幾處發光物。而 3.2 中的賽博格則有著更豐富的機械細節、更具質感的光學植入物。這種對主體的強調和突出似乎和上一個任務中的小貓一脈相承,模型能夠理解畫面的重點、敘事的中心在哪里。
那么回到本節開頭的問題,作者是誰?
此前每組的第一張是 Nano Banana 2,第二張則是 HiDream-O1-Image-1.5 的作品。
到此為止,兩款模型的能力畫像都變得逐漸清晰。
在開放審美任務中,二者都已達到很高水準。但當評測標準從主觀好看轉向準確、穩定、可交付,HiDream 的優勢會更清晰。
Nano Banana 2 像一個藝術家,懂攝影語言,構圖能力在線,偶爾還能主動發揮一下創意,這些能力共同塑造了其作品中恰到好處的氛圍感。
但缺點也在捉摸不定的創意上,它給人一種“意譯”而非直譯 prompt 的感覺,文字類任務的準確率并不穩定。給出一個需求,它會按自己的審美給你一套方案。未必 100% 按描述來的意思是,用抽卡成本交換潛在的驚喜。
而 HiDream-O1-Image-1.5 則是一個工程師,文字理解準確、細節執行嚴格、物體真實感高。你說什么,它就做什么,交付物絕不出錯。
不過這種能力取向的不同,并沒有在兩款模型之間造成碾壓式的差距。在標準 Benchmark 下,兩者總體水平其實非常接近。HiDream-O1-Image-1.5 和 Nano Banana 2 的對比做到最后,我體感上不像在測試模型,更像是在測試選型。
02
CoT 推理層:Prompt 和像素之間的翻譯
上面三組盲測反映出的一個核心差異,是模型對于 prompt 的理解深度。從白酒廣告的中文古詩,貓貓花園對“curious kitten”的獨特理解,到賽博格審訊室對“一個疲憊的賽博格”的語言約束,1.5的響應更真實,更細節。
這背后是HiDream-O1-Image-1.5 所采用的 “先推理、后生成”機制。該機制基于 Gemma 4 的 Reasoning-Driven Prompt Agent模塊,嵌入在生成管線內部,在用戶按下生成按鈕后、擴散模型開始工作前,先跑一輪思維鏈。
這跟 ChatGPT 的 system prompt 有本質區別。ChatGPT 的推理層在純文本空間跑,優化的是“回答的邏輯一致性”。而 1.5 的 Prompt Agent 做的是從語義到空間的翻譯。
如果你做過需要同時控制主體、環境、情緒和構圖的復雜生圖任務,就能直觀感受到這個 Agent 在解決什么痛點。直白地說,以前你需要靠反復調 prompt 撞運氣的任務,現在 HiDream-O1-Image-1.5 在生成之前就會先幫你把畫面邏輯理清楚。
賽博格審訊室那組對比最能說明問題。“OTS + 淺景深 + 85mm f/1.4 + 賽博格 + 聚光燈”,這么多高信息密度的指令如果一股腦塞進傳統文本編碼器,編碼器不會自動為這五個約束分配權重,很可能出現的情況是它會過度關注“賽博格”而忽略“OTS鏡頭”,或者過度渲染聚光燈效果而丟掉“淺景深”的質感。
但HiDream-O1-Image-1.5 的 Agent 在推理階段就把這五個約束分開處理了。鏡頭語言是 OTS、光學參數是 85mm f/1.4、氛圍是聚光燈照明、主體是賽博格,各管各的,最后匯總。
當然,這里有一個重要的前提條件。CoT Agent 解決的是指令理解問題,而非常識儲備。如果 prompt 沒提供足夠信息讓 Agent 推理,它仍然不會憑空生成正確邏輯。如果你只說“水往低處流”,它仍然無法渲染復雜的流體變化,Agent 推理能力的邊界,就是你 prompt 的信息邊界。
03
無 VAE 架構:
為什么砍掉壓縮層會利好文字和細節
CoT 解決了“理解”,但還有一個更底層的改動,解釋了為什么 HiDream-O1-Image-1.5 的長文本渲染能達到 CVTG-2K 的 0.978,超越 GPT Image 2 的 0.961,以及為什么白酒產品圖任務中只有 1.2 把崔顥的《黃鶴樓》從筆畫到結構完整還原了出來。
在 HiDream-O1-Image之前,幾乎所有主流文生圖模型都是拼盤式的:VAE 壓縮圖像,T5/CLIP 理解文本,DiT 負責生成。
VAE 的工作方式是把一張 1024×1024 的圖編碼到一個小得多的潛空間(latent space),比如壓縮 8 倍,在潛空間跑擴散,最后解碼回原尺寸。這樣做的好處很明顯,計算量驟降,64×64 潛空間的擴散比 1024×1024 像素空間快不止一個數量級。
但壓縮必然丟信息。而 VAE 丟掉的,恰好是文生圖場景下最不能丟的兩類。
第一類是高頻細節。 VAE 在頻域上傾向保留低頻結構(物體輪廓、色塊分布),壓縮高頻紋理(邊緣銳度、細線、毛發)。這就是 SD 生成的圖放大看經常有“涂抹感”的原因,問題都沒跑到生成環節,因為在解碼階段高頻信息就已經被丟了。
第二類是文字,這是更致命的。文字在圖像里是一種極其脆弱的信號,它的辨識依賴精確的筆畫邊界和方向。“一”和“丨”只差 90 度的旋轉,“士”和“土”只差幾個像素的偏移。VAE 壓縮對這類信號近乎災難,壓縮到重建的過程中,筆畫端點模糊、拐角圓化、間距偏移幾乎是肯定的。在這里文字“缺胳膊少腿”不是修辭,是 VAE 壓縮的必然副作用。
![]()
HiDream 的 UiT(像素級統一 Transformer)架構直接砍掉了 VAE。所有信息——像素、文本 token、控制條件——映射到同一個 token 空間。沒有了“壓縮-重建”這個環節,文字信號從 prompt 到像素全程在一個空間內流轉。
回到三組盲測。白酒產品圖最能體現無 VAE 的價值。
1.2 的畫面在玉瓷材質的光澤感、焦散光影的銳度、金箔鑲嵌的紋理細節上都表現出極高的還原度。1.1 的構圖更大膽,但在材質銳度和細節密度上明顯不如 1.2,部分原因就在于競品使用的 VAE 壓縮削平了一些高頻細節,讓畫面少了那層真實物料的質感。
古詩文字渲染則是更直接的證據。1.1 的古詩完全寫錯,并不是因為它不知道怎么布局,而是 VAE 壓縮把中文字符的關鍵筆畫特征破壞后,擴散過程只能“腦補”出近似文字的紋理,而非可辨識的字體。HiDream-1.5 砍掉了 VAE,文字信號從 prompt 到像素全程在同一個 token 空間流轉,這也是 1.2 能把黃鶴樓全詩完整寫出來的根本原因。
在中文場景下,這個問題被進一步放大。英文單詞靠輪廓也能猜出大概,像是“ca_e”和“cake”,但中文單字完全依賴筆畫完整性。上次測 8B 時頻繁出現的“偽漢語”就是這么來的。
HiDream-1.5 的長文本渲染數據,揭示了一個相當底層的洞察,那就是想要穩定輸出可讀文字,目前解法只有兩條,要么堆參數量補償 VAE 損耗(FLUX 的 56B 路線),要么直接砍掉 VAE。
HiDream 選了后者,8B 開源版已經做到了比肩 56B 的渲染效果,1.5 在此基礎上繼續推高上限。而且此前 8B 開源版的性價比確實離譜,在 GenEval、DPG、HPSv3 等多個榜單上,8B 不僅秒殺同量級的 SD3.5 Large,還越級逆襲了參數量大得多的 Qwen-Image(27B)和 FLUX.2 [Dev](56B)。本來以為是小模型里的尖子生,結果是直接在跟大兩個數量級的選手對打,還打贏了。
對想本地部署或者算力有限的團隊,開源 8B 是更務實的選擇。消費級顯卡就能跑,出圖質量不輸那些大好幾倍的模型。閉源的 HiDream-1.5 則適合對生成效果有更高要求的商業場景。兩條路都擺出來了,按需取用。
04
推理層 + 統一 token space:
兩個子系統怎么協同
到這里可以回答一個更內核的問題,為什么 CoT 推理和無 VAE 架構必須一起出現?
分開看,每個都有局限。
CoT 推理層能拆復雜指令、生成空間約束,但如果沒有不打折扣的傳遞通道,這些約束在 VAE 壓縮環節難免有所丟失。推理層拆得再細,生成底座拿到的也是缺損版本。
無 VAE 的 UiT 能忠實渲染細節,但如果 prompt 本身缺少空間邏輯,它也沒有推理能力來補全缺失的約束。當你說“幫我畫一個街景”卻不指定透視角度,最終很可能拿到一個忠實渲染、每一個元素單獨看上去都對,但整體空間邏輯奇奇怪怪的街景。
HiDream-1.5 的做法是把兩個子系統串成完整鏈路,CoT Agent 負責推理和結構化,UiT 負責不打折扣地執行。
用一個不太嚴謹但直觀的類比。
? 傳統方案像 source code → 有損壓縮 → 二進制,精度在中間環節丟失
? 1.5 像 source code → 語法分析和優化(CoT)→ 不加中間層的直接編譯(UiT)
還有一個官方提到但實測沒來得及覆蓋的能力。1.5 原生支持多宮格故事板生成和 15 種以上的電影級鏡頭控制,包括特寫、全景、鳥瞰、低角度……從單張圖生成到連貫敘事,這個跨度比參數數字暗示的要大得多。從架構原理看,多宮格故事板對 IP 保持和空間連貫性的要求極高,而這恰好是 1.5 的兩個最強項。如果你是做視頻預演、廣告分鏡或漫畫創作的,這個功能值得盡早上手試試。
![]()
05
未竟的共識?
當然,作為一種尚且年輕的技術路線,CoT 加無 VAE 的策略也有其代價。
一是 CoT 推理的延遲。 Gemma 4 的推理不是免費的,簡單 prompt 可能只需要幾十毫秒,但復雜提示詞需要的更深層次推理,顯然會增加延遲。這是一個沒法繞過的取舍,要么犧牲 prompt 門檻,要么犧牲響應速度。
另一個問題是無 VAE 的效率瓶頸。VAE 的核心價值是壓縮計算量,1024×1024 的圖,像素空間的計算量理論上約是 64×64 潛空間的 256 倍。HiDream-1.5 的解法是蒸餾加速,8B 的 DMD+GAN 蒸餾版(DMD 快速采樣 + GAN 生成對抗網絡)只需 28 步推理。但蒸餾通常導致生成多樣性下降,對于這一點,1.5 的具體指標暫未公開。
因此回到最初的問題,文生圖的“慢思考”到底有沒有用?
有用,但方式可能跟你想象的不同。它不是讓模型“更聰明”,而是降低從“我想畫什么”到“模型理解我想畫什么”之間的語義損耗。與之相對地,無 VAE 的 UiT 架構則在試圖減少從“理解”到“呈現”之間的信息損耗。兩條路線合在一起,就是先理解,再無損執行。
六維玫瑰圖的數據和三組盲測的結果相互印證。長文本渲染(中文 0.978 vs GPT Image 2 的 0.961)和 IP 保持上,HiDream-1.5 有著斷層級的領先,主體理解精度和空間關系處理也明顯優于同價位競品。但在綜合產品完成度和生態成熟度上,HiDream-1.5仍有不小的成長空間。
![]()
SD 生態在 VAE+DiT 路線上積累深厚,遷移成本極高。FLUX 堆參數填 VAE 的坑,雖然貴但不改變使用習慣。HiDream 改架構省算力,但生態重構是繞不過去的坎。
不過從此前的 8B 版本開始,HiDream 的應對策略就已經很清楚。開源 8B 培育社區信任和開發者生態,閉源 1.5 版本面向商用交付。它意味著你可以在 GitHub 上免費下載 8B 跑原型驗證,驗證通過了再升級到 1.5 做生產交付。這種直接利好落地的兩步走思路,比單項技術參數更值得關注。
開源版的社區數據佐證了這個策略的可行性。僅發布一天,8B 版本就在 Hugging Face 沖上模型趨勢榜第四,目前 HF 下載超 1 萬、ModelScope 超 2 千。更實際的是,它已經被 WaveSpeedAI 和 fal 兩個平臺集成上線,用戶無需自己部署就能跑。協議給的是 MIT,商業可用,對想拿它做產品的團隊來說是實打實的利好。
![]()
VAE 架構因其模塊協作之間的信息損耗而深受詬病,但人和模型之間,又何嘗不是時刻在經歷這種割裂。當圖像模型從“生成一張好看的圖”,走向“生成用戶真正想要的圖”,技術的切口會在哪里被發現,這是 HiDream-1.5 真正試圖回答的問題。CoT 推理和無 VAE 架構,是目前看得見的兩個切口。它們不完美,但它們指向的方向,減少語義損耗,減少信息損耗,大概率是未來兩年圖像模型迭代的源動力。
所以要不要用 HiDream-1.5?
這取決于你需要做什么。如果你常做中文海報、電商圖、品牌物料,那么在長文本渲染和多主體保持這兩個維度上,當前沒有更好的選擇。如果你是被 CoT 吸引來的創作者,HiDream-1.5 也的確能降低 prompt 門檻。但你無法指望它讀心,用詳盡的提示詞把需求說清楚,至少在目前仍然必要。如果你是開發者,8B 開源版+MIT 協議的組合在開源圖像模型里性價比最高。
有前提的好用,這是今天模型公司能夠給出的,最有誠意的承諾。
通過以下鏈接體驗HiDream-O1-Image-1.5 :
https://vivago.ai/
https://hiharness.ai/
開源模型HiDream-O1-Image下載地址:
GitHub:https://github.com/HiDream-ai/HiDream-O1-Image
Huggingface:https://huggingface.co/HiDream-ai/HiDream-O1-Image
未經「AI科技評論」授權,嚴禁以任何方式在網頁、論壇、社區進行轉載!
公眾號轉載請先在「AI科技評論」后臺留言取得授權,轉載時需標注來源并插入本公眾號名片。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.