網易首頁 > 網易號 > 正文申請入駐

半月內兩次問鼎全球：中國創業公司，在AI圖像生成賽道掀了桌子

2026-06-11 11:08:46　來源: 機器之心Pro

河北舉報

分享至

機器之心發布

每一次技術范式的重大轉換，都是舊秩序松動、新物種誕生的窗口期。

大模型的競爭進入 2026 年，行業正在將 AI 視為一場關于參數規模與算力堆砌的無限游戲時，一家成立僅三年多的中國創業公司——智象未來（HiDream.ai），憑借底層架構的創新，在巨頭環伺的圖像模型領域撕開了一道裂縫。

國內第一、全球第二

智象未來刷新國產圖像生成模型紀錄

近日，智象未來（HiDream.ai）全新推出的商用版圖像生成模型 HiDream-O1-Image-1.5 再次實現 SOTA，在全球知名獨立 AI 模型評測與分析平臺 Artificial Analysis 的文生圖榜單（Text to Image Leaderboard）上，一舉登上中國圖像生成模型第一，成為評分僅次于 OpenAI 的中國大模型公司，超越 Google Nano Banana 2（Gemini 3.1 Flash Image Preview）、NVIDIA Cosmos3-Super-Text2Image 和字節跳動的 Seedream 4.0 等國內外大廠的主流圖像生成模型。

這并非是一次偶發性的技術爆發。僅僅在數周之前，智象未來原生全模態 HiDream-O1 系列的開源模型 HiDream-O1-Image-Dev-2604 剛剛登頂文生圖榜單開源模型的全球第一。

半月之內兩次問鼎全球，這不禁讓人讓人感到好奇：一家成立剛滿三年的創業公司，憑什么在圖像生成的權威榜單中超越谷歌和字節？這是偶然的評測優化，還是硬核實力的比拼？這次評測結果，又折射出了哪些時代的潮向？

榜單的背后——UiT 架構的路線勝利

Artificial Analysis 的 Text to Image Leaderboard 采用匿名對比、用戶投票和 ELO 動態排名機制，盡量減少品牌認知對評測結果的影響，更接近真實用戶在開放生成場景中的偏好判斷。在這一專業評測體系下，HiDream-O1-Image-1.5 在超過 4000 個樣本對比中取得 1265 ELO。HiDream-O1-Image-1.5 的表現不僅體現了模型在圖像質量上的競爭力，也反映出其在語義遵循、復雜畫面生成、文字渲染和多主體控制等綜合能力上的提升。

放眼整個 “賽場”，與智象未來同臺競技的對手不乏一些市值萬億的巨擘：Google 擁有 TPU 集群和全球頂級人才積累，字節跳動擁有龐大的流量入口與應用土壤。在算力、數據與生態稟賦都不占優的背景下，這家初創企業實現超越，核心在于選擇了一條截然不同的技術路徑。

當前全球主流文生圖模型，普遍沿用文本編碼器 + VAE（變分自編碼器）+DiT（擴散 Transformer）的模塊化架構，行業也長期以增加參數規模、堆砌算力作為主要迭代方向。而智象未來放棄了這條成熟路線，選擇了一條更難但更具想象力的路 ——像素級原生全模態架構 UiT

傳統文生圖模型通常采用 “文本編碼器 + VAE + DiT / 擴散模型” 的模塊化路徑，其形態更像一棵不斷分叉生長的樹：文本有自己的 tokenizer，圖像和視頻有各自的 encoder /decoder，音頻、動作、空間關系也往往沿著不同路徑被處理，模塊之間需要多次轉換信息。在長文本排版、UI 設計、多主體畫面、多參考圖聯動、連續分鏡等復雜任務中，信息多次轉換容易造成細節丟失、語義偏差與畫面結構不穩定，這也是當前多數商用圖像模型的普遍痛點。

智象未來 HiDream-O1 系列所采用的原生全模態架構，徹底重構了信息處理邏輯。該架構剔除傳統方案中的獨立 VAE 與專用文本編碼器，將圖像像素、文本 Token、視頻體素、音頻、動作及空間關系等原始信號，統一映射至同一個共享表征空間，通過一套 UiT（像素級統一 Transformer）完成全模態信息的理解、計算與生成。不同于行業常見的 “多模態后期拼接” 方案，這套架構從模型底層實現了各類信號的融合交互，從根源上減少模態轉換帶來的損耗。

企業技術路線的選擇，往往與團隊的認知結構和實踐經驗高度相關。要理解智象未來的技術路線，需要回到這支團隊的歷史坐標系中。

智象未來核心技術團隊專注 AIGC 領域超過 10 年，深度參與三代 AI 模型技術演進，是國內少有的由院士領銜、兼具完整技術路徑與產業經驗的多模態 AI 團隊。早在 2017 年，團隊便提出了 TGANs-C，這也是全球最早的視頻生成模型論文之一，也曾深度參與全球第二大視頻搜索引擎、中國最大自營電商平臺圖片搜索引擎等大規模系統建設，并將多模態技術進一步落地到物流具身智能、千卡級準實時智能視頻推理等高復雜度產業場景。

這意味著，智象未來并非只擁有模型研發經驗，而是同時經歷過前沿算法、工程系統與真實業務場景的完整閉環。決定發展高度的，是持續深耕底層創新的能力；決定能走多遠的，是穿越復雜產業場景的落地經驗。

智象未來從不缺乏創新的魄力。

在智象未來的技術體系中，圖像被定義為現實世界建模的空間基底。單張圖像承載著某一瞬間完整的場景、光影、結構與主體信息，它并非獨立的單一能力，而是視頻生成、乃至通向原生全模態世界模型的關鍵入口。基于這一前瞻性判斷，企業確定了 “以圖像為根基，向視頻、全模態延伸” 的發展路線。

縱觀行業格局，頭部大廠長期以大語言模型為核心搭建多模態體系。文本作為主流認知中介，圍繞其構建的技術棧、產品生態與商業壁壘已經根深蒂固，也讓大廠難以徹底推翻現有架構重新布局。而成立時間較短的智象未來沒有歷史技術包袱，團隊提出全新理念：在多模態發展的新階段，信號本身即可作為認知載體，文本不再是必需的中間媒介。

當前全球多模態技術路線尚未完全收斂，行業仍處于路線競爭的窗口期。當巨頭受制于成熟技術體系難以全面革新時，初創企業憑借輕量化組織、靈活的試錯空間，依托底層架構創新，反而有機會實現代際層面的技術跨越。

智象未來的突圍，可以解構為三個層面：

第一，在架構層面尋找代際優勢，用極限資源做成核心業務。

智象未來沒有卷入 DiT 主流賽道的算力與參數競賽，而是全力打磨自研的 UiT 原生全模態架構。這條路線前期研發投入大、試錯成本高，但一旦跑通，便有望形成結構性的代際優勢。據團隊披露，在相近的訓練數據和計算資源下，其 8B 參數模型已可實現與行業百億級傳統模型對標甚至超越的綜合表現，體現出更高的參數效率。

這種對底層架構的極致追求，并未讓智象未來陷入 “為創新而創新” 的孤芳自賞。相反，在工程化落地層面智象未來保持著高度務實的態度。以視頻生成為例，團隊采用 “先圖像、后視頻” 的思路：先用圖像模型完成技術驗證與快速試錯，再將成熟能力遷移至視頻領域。這一策略將訓練成本壓縮至行業平均的五分之一到十分之一 —— 正是這種用極限資源做成核心業務的生存智慧，讓一家創業公司在巨頭林立的環境中跑出了自己的節奏。

第二，將模型與垂直場景深度耦合，構建別人難以復制的護城河。

智象未來不只是一家模型公司，正如此前所說，商業化是公司誕生之日起就極度關注的問題。經過多年的探索，目前已經形成 “1+1+3” 的布局：一個 HiDream 模型底座，一個對外輸出能力的平臺，三個智能體應用場景分別是面向專業影視團隊的影視創作協作智能體「幀贊」，面向電商（特別是跨境商家）批量營銷內容生產的 HiBurst，以及面向專業社媒創作工作者的 vivago，實現了模型與產品的最強耦合。

商業營銷智能體 HiBurst 已進入 TikTok 官方服務商 Top 5，年產電商營銷視頻超百萬條，覆蓋 GMV 超億元；AI影視創作與協作智能體「幀贊」打通“創意—分鏡—成片”全流程，累計制作短漫劇超 5000 分鐘，并接入長江電影集團、慈文傳媒等影視機構；社媒創作智能體 vivago 近期登上 Product Hunt 日榜第一，覆蓋全球 100 多個國家和地區，服務超 4000 萬用戶。

智象未來的專業影視視頻生成業務，目前已能穩定 one-shot 直出 1-3 分鐘的視頻，成功率超過 70%。在今天的大抽卡時代，這個數字令人印象深刻。

第三，保持極致的戰略定力與認知升級。

當行業絕大部分玩家還在傳統架構上發力時，智象未來敢于 “推倒重來”，押注原生全模態。這種 “身份清零” 的勇氣，源自創始團隊的兩個堅持：一面是戰略定力，一面是認知升級。他們沒有被算力競賽和參數內卷帶偏，始終篤信 “全模態融合才是通往世界模型的必經之路”；同時又在每一次技術迭代中重新審視路徑、刷新認知。這種穩得住又跟得上的能力，使得公司始終擁有持續創新的強大動能。

會寫字、懂排版、能分鏡

原生全模態進入生產驗證階段

這種持續創新的能力，正逐漸轉化為一批可見的戰略性成果。HiDream1.5 問鼎全球權威榜單，即是生動注腳。

HiDream-O1-Image-1.5 展現出遠超 “好看圖片” 范疇的全能圖像生成能力。它不再滿足于輸出一張精美的靜態畫面，而是能夠理解復雜排版、渲染多語言文字、把控連續分鏡邏輯。

同時，HiDream1.5 的商用模型定位，標志著原生全模態進入生產驗證階段，能夠解決實際生產中的各類難點。過往不少 AI 圖像模型往往無法用于商業場景，尤其是在復雜排版、多主體控制、長文本渲染等場景中，存在短板，而 HiDream1.5 在這個方面實現了重大突破。

HiDream1.5 面向廣告營銷、品牌設計、電商視覺、游戲內容、影視分鏡、IP 創作等更高要求的商業場景，全面展示了強化的圖像質量、文字渲染、復雜排版、多主體一致性和視覺敘事能力。

人像攝影場景

模型可輸出攝影級畫質，適配魔幻光影、人物特寫、雙人互動等多種風格。在皮膚質感、服飾紋理、肢體互動、環境虛化等細節上表現自然，面對廣角、低機位、室內暖光等復雜構圖，也能保證人物比例、空間透視與畫面敘事的協調性，可滿足商業人像、品牌視覺、影視分鏡等專業需求。

自然風光場景

針對雪山湖泊、沙漠、洞穴等大場景與復雜地貌，模型能夠精準把控空間層次、光影變化與環境氛圍，畫面具備電影質感與豐富細節，適配旅游宣傳、影視概念圖、游戲場景設計、品牌視覺傳播等場景。

電商海報場景

可快速匹配不同品類商品的視覺風格，將產品、場景、裝飾元素與營銷文案自然融合。面對中英文混排、多層級賣點、復雜版式等需求，依舊能保證文字可讀性與畫面完整性，有效提升電商上新、廣告物料、社交種草內容的制作效率。

多宮格與分鏡設計

模型具備連續敘事理解能力，在繪本、故事腳本、廣告分鏡、短視頻腳本等多畫面創作中，可生成邏輯連貫的內容，同時保持角色、場景、視覺風格統一，對宮格布局、標題、編號等元素也能合理排布，支撐漫畫、影視、教育類內容的視覺化創作。

HiDream-O1-Image-1.5 的出色表現，展現出 UiT 路線不僅帶來了單圖生成效果的躍升，更在多圖一致性、分鏡生成、視頻首幀乃至長視頻生成等復雜任務中展現出更穩定的底層能力。

站在 2026 年的關鍵節點展望，AI 圖像生成的競爭邏輯正在悄然重構。它不再僅僅是參數規模的數字游戲，也不止于 “畫面好不好看” 的審美判斷 —— 而是進入了一個由架構能力、生產效率與工作流價值共同決定的新階段。

當然，這遠非終局。當前，全球多模態技術路線尚未收斂，窗口期仍在。但無論如何，這場競爭已經釋放了一個清晰的信號：在 AI 的長期探索中，底層創新的勇氣落地能力正在逐步超越單純的規模，成為更稀缺、更珍貴的變量。

不同體量、不同路線的企業同臺競技，終將推動整個行業向更實用、更高效、更貼合產業需求的方向演進。我們正站在這場范式革命的序幕 —— 而非高潮。在這場波瀾壯闊的演進中，每一家企業都在以自己的方式尋找未來的坐標。而智象未來，已然先行一步。

通過以下鏈接體驗：

HiDream-O1-Image-1.5 ：
https://vivago.ai/
https://hiharness.ai/
開源模型HiDream-O1-Image
下載地址：GitHub：https://github.com/HiDream-ai/HiDream-O1-Image
Huggingface：https://huggingface.co/HiDream-ai/HiDream-O1-Image

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.