網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

從模型到工作流：2026 上半年圖片與視頻模型盤(pán)點(diǎn)。

2026-07-04 16:24:51　來(lái)源: 阿真Irene

廣東舉報(bào)

分享至

嗨大家好！我是阿真！

一轉(zhuǎn)眼 2026 年已經(jīng)進(jìn)入下半年，是時(shí)候?qū)ι习肽赀M(jìn)行一些小結(jié)了。

今天來(lái)好好盤(pán)點(diǎn) 2026 年上半年的圖片與視頻模型，伴隨模型更新時(shí)間軸出現(xiàn)的，還有我一些當(dāng)時(shí)的測(cè)試文章。也算是對(duì)不怎么努力也沒(méi)什么收獲的上半年做個(gè)總結(jié)匯報(bào)了。

疊甲：我的觀點(diǎn)只是我的觀點(diǎn)，完全不權(quán)威，有看法的都是個(gè)人看法，大家想反對(duì)就直接反對(duì)。我這里不存在反感或者痛罵某個(gè)模型的情況，大部分時(shí)候比較理性。同時(shí)，我也可能會(huì)對(duì)有的模型的真正價(jià)值理解不夠透徹，還有可能漏掉一些滄海遺珠，大家可以評(píng)論區(qū)補(bǔ)充或者積極留言。

以及，這篇文章以模型為主線，如果有朋友好奇為什么沒(méi)有即夢(mèng)或其他的話，即夢(mèng)屬于產(chǎn)品，我肯定會(huì)提到即夢(mèng)這個(gè)產(chǎn)品它使用的模型；模型繞不開(kāi)它所在的產(chǎn)品時(shí)，我也會(huì)順帶聊到產(chǎn)品，但不做單獨(dú)的產(chǎn)品測(cè)評(píng)。

上半年發(fā)布了什么？

問(wèn)起這個(gè)問(wèn)題的時(shí)候，你的腦海里出現(xiàn)了哪些圖片和視頻模型？

Nano Banana Pro，GPT Image 2，Seedance 2.0？

實(shí)際上 Nano Banana Pro 已經(jīng)是 2025 年 11 月 20 日發(fā)布的模型了，今年 2 月發(fā)布的是 Nano Banana 2，是谷歌的另一個(gè)相對(duì)更便宜的圖片模型。

而上面提到的幾個(gè)圖片模型和視頻模型，算是我們公認(rèn)的今年上半年好評(píng)最多的模型了。

但其實(shí)上半年還有很多團(tuán)隊(duì)的圖片和視頻模型發(fā)布，并且它們也都有各自的亮點(diǎn)。大家也可以看看，哪些模型是你體驗(yàn)過(guò)的？下半年，大家會(huì)看好哪些模型呢？

1月份

1月9日，Midjourney Niji 7 發(fā)布。相比于上一代，它的細(xì)節(jié)更加清晰，比如眼睛反光以及背景的小元素都更加細(xì)致。并且，它也擁有更好的動(dòng)漫一致性、Prompt 理解能力、風(fēng)格遷移的表現(xiàn)，可以說(shuō)是審美與風(fēng)格專用模型細(xì)分品類中的 TOP。不過(guò)，雖然官方表示優(yōu)化了文字渲染能力，但說(shuō)實(shí)話，這方面做了約等于白做，競(jìng)爭(zhēng)力不大。不過(guò)換個(gè)角度想，守住一個(gè)單點(diǎn)，可能也是一種清晰的定位。詳情可看

1月13日，谷歌升級(jí) Veo 3.1 Ingredients to Video，可用參考圖控制角色、背景、物體和紋理；強(qiáng)化角色身份一致性、背景與物體一致性；支持原生豎屏輸出，并可在 Flow、Gemini API 和 Vertex AI 中升采樣到 1080p 或 4K。這個(gè)在海外的呼聲不錯(cuò)，為廣告和產(chǎn)品、電商以及角色連續(xù)短片領(lǐng)域帶來(lái)了更多的可能性。“Ingredients（食材 / 成分 / 配料）”這個(gè)命名也很有意思，也算是預(yù)告了全年視頻模型交互方式的走向，包括后面 Seedance 2.0 的多參考輸入，也是在這個(gè)方向大大加強(qiáng)了。

1月14日，智譜發(fā)布了 GLM-Image，開(kāi)源圖片模型、工業(yè)級(jí)、支持較好的文字渲染。16B 架構(gòu)，其中 9B 自回歸 + 7B diffusion；最高支持 2048px；強(qiáng)調(diào)文字渲染、語(yǔ)義對(duì)齊、圖生圖。自回歸 + 擴(kuò)散的混合架構(gòu)，抓的是語(yǔ)義理解加像素質(zhì)量。

1月26日，Luma AI 發(fā)布 Ray 3.14，支持原生 1080p。官方對(duì)比比 Ray 3.0 快 4 倍、便宜 3 倍；提升視頻穩(wěn)定性和 Modify Video 運(yùn)動(dòng)一致性。Luma AI 的產(chǎn)品我體驗(yàn)過(guò)多次，2.0 我是充值力證自己冤大頭，但 3.14 的視頻修改編輯還是不錯(cuò)的。

同一天騰訊混元發(fā)布了 HunyuanImage-3.0-Instruct-Distil，開(kāi)源圖片模型。Instruct 支持推理式提示詞增強(qiáng)和圖生圖創(chuàng)意編輯，Distil 面向更高效部署，官方推薦 8 步采樣。Distil 確實(shí)是試圖降低了采樣步數(shù)和部署門(mén)檻，但是模型重、顯存門(mén)檻也高，哪怕量化也是大塊頭，差不多就是 4090 用戶咬咬牙可以用的程度。開(kāi)源模型就是這樣，權(quán)重開(kāi)放是一回事，部署成本才是決定因素。

1月30日，生數(shù)科技在 Global Creativity Week 期間發(fā)布 Vidu Q3 視頻模型。支持原生音頻與視頻同生，視頻最長(zhǎng)時(shí)間達(dá)到 16 秒，可生成對(duì)話、旁白、音效、音樂(lè)，強(qiáng)調(diào)鏡頭控制和敘事連續(xù)性。這套配置放在短劇、動(dòng)畫(huà)、漫畫(huà)改編上，性價(jià)比是很高的，不過(guò)最長(zhǎng) 16 秒還是不容易。原生音頻，上半年也是在視頻模型能力角逐中逐步從差異化變成了入場(chǎng)券。

2月份

2月5日，快手的 Kling AI 3.0 模型系列上線，圖片和視頻模型一起上線。“人人都能當(dāng)導(dǎo)演”是它的核心宣傳點(diǎn)，圖片模型開(kāi)始支持 2K、4K 和專業(yè)資產(chǎn)。視頻模型也進(jìn)一步提升了敘事控制和一致性，支持多鏡頭與原生音頻。這是國(guó)內(nèi)視頻模型產(chǎn)品化的種子選手了。

2月10日，阿里的 Qwen-Image-2.0 模型發(fā)布。回頭看 Qwen 到這時(shí)候竟然才 2.0。2.0 支持統(tǒng)一高保真生成與精準(zhǔn)圖像編輯，支持最長(zhǎng) 1K token（國(guó)產(chǎn)模型約 600-900 漢字）指令；面向 PPT、海報(bào)、信息圖、漫畫(huà)等文本密集內(nèi)容；原生高分辨率和多語(yǔ)言文字表現(xiàn)增強(qiáng)。這篇第一時(shí)間沒(méi)寫(xiě)，過(guò)完年在千問(wèn) APP 做了測(cè)試，文字和編輯效果都還不錯(cuò)的。雖然好像網(wǎng)絡(luò)呼聲沒(méi)有很大，但已早早進(jìn)入了各類工作流場(chǎng)景，比如ComfyUI 和企業(yè)管線里。測(cè)試效果可以看這篇

2月12日，大家都認(rèn)可的允許使用炸裂形容的模型面世，字節(jié)跳動(dòng) Seed 團(tuán)隊(duì)正式發(fā)布新一代視頻創(chuàng)作模型 Seedance 2.0。一開(kāi)始以為吹的，后面發(fā)現(xiàn)它竟有些謙虛了。Seedance 2.0 實(shí)現(xiàn)了統(tǒng)一多模態(tài)音視頻聯(lián)合生成架構(gòu)，支持文字、圖片、音頻、視頻四類輸入，可參考最多 9 張圖、3 段視頻、3 段音頻，生成最長(zhǎng) 15 秒多鏡頭音視頻輸出。在動(dòng)作、物理、電影語(yǔ)言以及多鏡頭方面都非常讓人驚喜，但是一上線就在版權(quán)、IP、區(qū)域可用性以及真實(shí)人物方面都引起爭(zhēng)議和大量討論。下一個(gè)這么牛轟轟的模型好像還是 Anthropic 的 Claude Mythos 5。

當(dāng)模型強(qiáng)到可以逼真復(fù)現(xiàn)任何 IP、任何真人的時(shí)候，比能不能生成來(lái)得更快的，是敢不敢放出來(lái)了。紙面能力減去合規(guī)削弱的成品，才是我們真正能用的東西。這是當(dāng)時(shí)阿真參與首輪內(nèi)測(cè)的輸出視頻分享

2月13日，字節(jié)跳動(dòng) Seed 團(tuán)隊(duì)推出 Seedream 5.0 Lite 智能圖像創(chuàng)作模型。這個(gè)圖片模型強(qiáng)調(diào)“deeper thinking, more accurate generation（更深度思考，更精確生成）”。提升理解、推理、生成，實(shí)時(shí)搜索增強(qiáng)，更強(qiáng)信息可視化、風(fēng)格遷移、模糊指令編輯、多主體復(fù)雜關(guān)系。在實(shí)時(shí)熱點(diǎn)海報(bào)、資料圖、信息圖方向都有進(jìn)步，但是細(xì)節(jié)、真實(shí)感上也都有進(jìn)步空間。大家用完表示不如前一版本的觀點(diǎn)也存在，這個(gè)版本存在感好像確實(shí)不算高，但是進(jìn)步還是有的，期待更穩(wěn)定版的 5.0。“推理?yè)Q畫(huà)質(zhì)”似乎是今年圖片模型的普遍取舍。模型花更多算力去想清楚你要什么，代價(jià)可能是像素層面的細(xì)節(jié)退步。這個(gè)蹺蹺板什么時(shí)候能兩頭都翹起來(lái)，那就是真的成了。

2月26日，谷歌官方發(fā)布 Nano Banana 2，也是一個(gè)大家期待的模型，畢竟前有 Nano Banana Pro 站在圖片模型巔峰將近 3 個(gè)月，大家對(duì) 2 期待也很高。Nano Banana 2 定位為“Pro 能力 + Flash 速度”；強(qiáng)調(diào)高級(jí)世界知識(shí)、production-ready specs（能正經(jīng)上生產(chǎn)環(huán)境用的配置）、主體一致性、快速生成。總的來(lái)說(shuō) Nano Banana 2 和 Pro 相比最大的優(yōu)勢(shì)在于更快更便宜，大家用起來(lái)不至于肉痛，從質(zhì)量和細(xì)節(jié)來(lái)說(shuō)個(gè)人感覺(jué)并沒(méi)有超越 Nano Banana Pro。至于為什么巔峰三個(gè)月了再發(fā)個(gè)好像還不如之前的版本，除了更便宜更快，可能也是它自己預(yù)判這一代技術(shù)的質(zhì)量紅利它已經(jīng)吃得差不多了。這個(gè)我測(cè)了 2 篇，請(qǐng)看

2月26日至27日，昆侖萬(wàn)維 SkyReels-V4 先后發(fā)布技術(shù)報(bào)告并以 Preview 版本亮相榜單，曾在權(quán)威榜單上沖到全球第二（文生視頻無(wú)音頻）。統(tǒng)一多模態(tài)視頻-音頻生成、inpainting（局部重繪）和編輯；支持文本、圖像、視頻、mask、音頻參考；最高 1080p、32fps、15 秒；視頻和音頻雙流 MMDiT。這是一個(gè)深耕 AI 短劇的模型。

3月份

3月17日，Midjourney 開(kāi)放 V8 Alpha 社區(qū)測(cè)試，Midjourney V8 Alpha 相比 V7，指令跟隨能力更強(qiáng)、對(duì)復(fù)雜 prompt 的細(xì)節(jié)還原更精準(zhǔn)；畫(huà)面一致性和細(xì)節(jié)密度均有提升，文本渲染質(zhì)量顯著改善。生成速度約為 V7 的 5 倍。兼容 V7 的個(gè)性化（personalization）、情緒板（moodboards）和風(fēng)格參考（srefs），新增了 --hd 原生 2K 輸出與 --q 4 高質(zhì)量模式。雖然從 V5.1 以后 Midjourney 的進(jìn)步普通人已經(jīng)幾乎看不出太大差異，但是整體還是有提升，好看也依然好看，但也僅僅是好看了。

一個(gè)只贏在審美的模型，護(hù)城河可能正在從產(chǎn)品能力退化為社區(qū)慣性。當(dāng)時(shí)我也是整不出活了，做了 Midjourney V8 Alpha 和 Nano Banana 2 圖片模型的對(duì)比，按各自擅長(zhǎng)領(lǐng)域來(lái)說(shuō)，這就像是蹦床和跳水運(yùn)動(dòng)員對(duì)比身體控制能力，沒(méi)什么可比性，看看各自的圖片效果就好了

3月23日，Luma AI 團(tuán)隊(duì)公開(kāi)發(fā)布 Uni-1，官方定位為 Unified Intelligence 家族第一代圖像模型；官方頁(yè)面稱其是“能生成像素的多模態(tài)推理模型”。統(tǒng)一理解、推理和圖像生成；支持 Create（創(chuàng)建）、Modify（修改）雙模式；最多 9 張參考圖；支持 seed 復(fù)現(xiàn)、角色一致性、多參考架構(gòu)、迭代修改。文字細(xì)節(jié)和 seed 復(fù)現(xiàn)這個(gè)小功能不錯(cuò)。

3月26日，騰訊混元團(tuán)隊(duì)發(fā)布 OmniWeaving（又稱 HY-OmniWeaving）技術(shù)報(bào)告，4月3日開(kāi)源了代碼和模型權(quán)重。支持用文字、圖片、參考素材一鍵生成視頻，能給視頻、首尾幀畫(huà)面、關(guān)鍵幀做編輯和續(xù)寫(xiě)，各種玩法自由混搭；還增加了可推理的大模型改善提示詞（讓會(huì)推理的大模型理解意圖然后指揮生成視頻）和自由組合。對(duì)于 ComfyUI 社區(qū)而言，它是開(kāi)源視頻模型向“推理 + 多任務(wù)統(tǒng)一”推進(jìn)的節(jié)點(diǎn)。開(kāi)源模型，拼可拆解、可組合、可自部署就好了，這是閉源模型實(shí)現(xiàn)不了的。

3月30日，PixVerse 官方發(fā)布 V6（國(guó)內(nèi)產(chǎn)品拍我AI）模型。提升了鏡頭執(zhí)行力、角色表演能力，支持多鏡頭音視頻一起生成、至此又一視頻模型支持自帶原生音頻，面向創(chuàng)意創(chuàng)作、商業(yè)拍攝和智能體工作流。國(guó)內(nèi)占有率不是太清楚，但在海外他們一直是比較受歡迎的，有趣模板多、生成速度快，多鏡頭等功能也好上手。“面向智能體工作流”我們結(jié)合那個(gè)時(shí)間節(jié)點(diǎn)去看，OpenClaw 興起，PixVerse 也是快速錨定了用智能體調(diào)用它的群體做了 CLI。

4月份

4月1日，阿里發(fā)布 Wan2.7-Image，這個(gè)圖片模型在萬(wàn)相可以體驗(yàn)，繼續(xù)朝專業(yè)設(shè)計(jì)與生產(chǎn)力方向發(fā)力，除了廣大圖片模型都會(huì)卷的圖片編輯、復(fù)雜意圖理解和信息圖、高清 4K 畫(huà)質(zhì)、超長(zhǎng)文本渲染支持以外，它加入了一些新的創(chuàng)意，多語(yǔ)言多組圖、調(diào)色盤(pán)控制生成圖色彩配比、支持通過(guò)提示詞細(xì)節(jié)達(dá)到捏臉效果“千人千面”、支持 Alpha 通道、支持最大長(zhǎng)寬比 1:8。之前 Nano Banana 2 最高也支持 1:8 的長(zhǎng)比例，但是在漢字的穩(wěn)定性方面，Wan2.7-Image 是有優(yōu)勢(shì)的。調(diào)色盤(pán)、Alpha 通道、超長(zhǎng)比例，都是設(shè)計(jì)師的痛點(diǎn)。感興趣可以看這篇

4月3日，阿里發(fā)布 Wan2.7-Video 系列，涵蓋文生視頻、圖生視頻、參考生視頻和視頻編輯四大模型，覆蓋從零創(chuàng)作到精細(xì)編輯的完整鏈路。全系支持 720P/1080P，時(shí)長(zhǎng) 2-15 秒任意指定；一句話即可對(duì)視頻做局部或整體修改，角色臺(tái)詞可替換并自動(dòng)匹配口型與音色；最多支持 5 個(gè)視頻主體參考，為當(dāng)時(shí)業(yè)內(nèi)最多。

4月13日，生數(shù)科技發(fā)布 Vidu Q3 參考生視頻（Reference-to-Video），定位為面向故事驅(qū)動(dòng)創(chuàng)作的參考生視頻能力；官方頁(yè)面顯示 Reference to Video 支持上傳 1-7 張參考圖，用于保持角色、物體和場(chǎng)景一致。感興趣可以看看這篇

4月14日，Midjourney 發(fā)布 V8.1 Alpha，作為 V8 后續(xù)版本。相比 V8，保持了 V7 式大家熟悉的審美；情緒板（Moodboards）和風(fēng)格引用（srefs）更穩(wěn)定；高清 HD 模式比 V8 快 3 倍、便宜 3 倍；標(biāo)準(zhǔn)分辨率快 50%、便宜 25%；支持圖像提示詞（Image Prompts）和圖像權(quán)重（image weights），新增提示詞精簡(jiǎn)器（Prompt Shortener）和更新版 Describe。嘰里咕嚕這么多，整體來(lái)說(shuō)，個(gè)人感覺(jué) V8.1 和 V8 在畫(huà)面細(xì)節(jié)來(lái)說(shuō)差別不大。

4月15日，百度開(kāi)源了 ERNIE-Image。8B 參數(shù)的 DiT 架構(gòu)，一條流水線跑到底，自帶輕量提示詞增強(qiáng)器，不用自己狠憋 prompt。支持海報(bào)、漫畫(huà)、多格分鏡。還有 Turbo 模式砍掉了多余步驟，出圖更快，Apache-2.0 協(xié)議。主打開(kāi)源小參數(shù) + 中文文字信息圖 + 24GB 顯卡都能跑。但畢竟小模型，整體質(zhì)量也沒(méi)法要求太高，可以工作流輔助和后期優(yōu)化。8B + Apache-2.0 + 消費(fèi)級(jí)顯卡能跑，圖片生成這個(gè)能力的邊際成本打下來(lái)了。

4月21日，OpenAI 官方發(fā)布 ChatGPT Images 2.0，圖片模型王冠易主。前面這句是我的個(gè)人看法，雖然在有的方向它還有缺點(diǎn)，但總體確實(shí)極為能打了。設(shè)計(jì)師又被各路專家問(wèn)候了一番職業(yè)規(guī)劃，真是悲喜交加。ChatGPT Images 2.0 支持更強(qiáng)文本渲染、多語(yǔ)言、復(fù)雜指令、真實(shí)世界知識(shí)、編輯能力、信息圖、海報(bào)、漫畫(huà)、多圖一致性；并且強(qiáng)調(diào)“思考后生成”；在設(shè)計(jì)與信息圖方面再次遙遙領(lǐng)先。感興趣可以看看這篇

ChatGPT Images 2.0 還有一個(gè)殺手锏在入口上。它長(zhǎng)在全球用戶量最大的 AI 對(duì)話產(chǎn)品里，此外 Codex 里也內(nèi)置了。用戶不需要多學(xué)任何東西、不需要遷移到任何新平臺(tái)。對(duì)其他圖片模型來(lái)說(shuō)，競(jìng)爭(zhēng)維度都不一樣，你光卷模型，人家還可以卷分發(fā)。這也是為什么我后面說(shuō)圖片模型不會(huì)簡(jiǎn)單贏者通吃，但入口級(jí)模型和管線級(jí)模型各有勝算的原因。

4月26日，OpenAI 正式停用 Sora Web 和 App 體驗(yàn)，僅保留 API 過(guò)渡接入，其 API 也將在 9 月 24 日停用。還記得 Sora 初現(xiàn)帶給我們的震撼與沖擊，沒(méi)想到時(shí)代的眼淚也來(lái)得這么猝不及防。與之相反，一個(gè)月后谷歌把 Gemini Omni 鋪滿 Gemini App、Flow、YouTube Shorts 三條線，這怎么不算消費(fèi)端視頻的入口之爭(zhēng)呢。

4月27日，阿里團(tuán)隊(duì) HappyHorse 1.0 limited beta 部分開(kāi)放。面向電影級(jí)視頻生成，支持文生視頻與首幀圖生視頻。支持最長(zhǎng) 15 秒、720p/1080p、多尺寸輸出。

5月份

5月5日，Luma AI 發(fā)布 Uni-1.1 API，把 Uni 系列圖像模型開(kāi)放給開(kāi)發(fā)者和企業(yè)工作流。Luma 也走向了圖像、視頻、agent 三層架構(gòu)的綜合性創(chuàng)意平臺(tái)。

5月19日至20日，Google I/O 2026 大會(huì)上，谷歌正式發(fā)布 Gemini Omni，首發(fā)版本為 Gemini Omni Flash。“從任意輸入創(chuàng)造任意內(nèi)容，從視頻開(kāi)始”；谷歌自己給的比喻更直白：“就像 Nano Banana，但是給視頻用的”。支持文字、圖片、音頻、視頻任意組合輸入，核心賣點(diǎn)是對(duì)話式視頻編輯。每一句指令疊在上一句上，角色一致性、物理邏輯都能保持。剛到國(guó)內(nèi)時(shí)反響有些平平，畢竟 Seedance 2.0 珠玉在前，大家腎上腺素都快被掏空了。最近它火了一波，我們可能刷到過(guò)的視頻局部修改，或者帶有自己人物的紙片拼貼片頭動(dòng)畫(huà)，可能是發(fā)現(xiàn)它的人物一致性和局部修改能力真的強(qiáng)，玩法就很多了。

這條我多說(shuō)兩句。首先，從純生成畫(huà)質(zhì)看，當(dāng)時(shí)的獨(dú)立評(píng)測(cè)普遍認(rèn)為 Seedance 2.0 仍然領(lǐng)先，而 Omni 的重點(diǎn)很清楚，就是把“來(lái)回對(duì)話能不能改”做好。加上它一口氣鋪滿三條分發(fā)線，這和 ChatGPT Images 2.0 是同一個(gè)玩法，卷入口。另外，谷歌在發(fā)布會(huì)上明確表示“修改視頻里人物說(shuō)話內(nèi)容”這個(gè)功能暫時(shí)不做，想用自己的臉做數(shù)字分身，得先錄一段念隨機(jī)數(shù)字的視頻做防偽。這條紅線是廠商主動(dòng)畫(huà)的。對(duì)照 2 月 Seedance 被動(dòng)卷入版權(quán)爭(zhēng)議，能清楚看到半年之內(nèi)，合規(guī)，也已經(jīng)變成了產(chǎn)品設(shè)計(jì)的一部分。

5月21日，Runway 也在視頻編輯能力上發(fā)力，發(fā)布 Aleph 2.0 和 Edit Studio。Runway Aleph 2.0（官方說(shuō)明是旗艦 in-context video editing model 的升級(jí)）編輯單幀即可將修改擴(kuò)散至整段視頻，未要求改動(dòng)的內(nèi)容保持原樣；支持最長(zhǎng) 30 秒、1080p 素材與多鏡頭連續(xù)片段。適合改服裝、場(chǎng)景、綠幕、空鏡底板（把畫(huà)面里的人物、道具等前景元素去掉，只留下干凈的背景）和局部替換。但是可控性還相當(dāng)有待提升，復(fù)雜長(zhǎng)片穩(wěn)定性也不太行，成本也高。卷生成 Runway 勝算不明朗，修改已有素材也可能是更有潛力的市場(chǎng)，畢竟世界上已拍攝的視頻遠(yuǎn)多于要生成的視頻。

6月份

6月3日，Ideogram 4.0 圖片模型開(kāi)源。與其說(shuō)圖片模型不如說(shuō)它是設(shè)計(jì)模型，設(shè)計(jì)圖生成能力是真不錯(cuò)。9.3B 參數(shù)單流 DiT 架構(gòu)，開(kāi)放權(quán)重、支持商業(yè)許可。核心發(fā)力方向明確，面向設(shè)計(jì)生產(chǎn)場(chǎng)景，強(qiáng)化文字渲染、層級(jí)化生成、結(jié)構(gòu)化 JSON prompt 控制，支持 2K 輸出與品牌設(shè)計(jì)工作流。可以和 Qwen-Image-2.0、ERNIE-Image、FLUX 等一起放在文字與設(shè)計(jì)圖像模型里掰手腕。JSON prompt 控制這個(gè)也很好，模型的輸入從自然語(yǔ)言變成結(jié)構(gòu)化數(shù)據(jù)。不過(guò)審美更西化，可能不那么符合國(guó)內(nèi)主流審美。

6月11日，Midjourney 將默認(rèn)模型從 V7 更新為 V8.1。

6月17日，美圖官宣了 MiracleVision V6，這同樣是一款基于 MoE 架構(gòu)的基座模型，支持文本、圖片、視頻、音頻等多模態(tài)輸入；強(qiáng)調(diào)視覺(jué)決策能力、生成質(zhì)量與一致性，并支撐美圖產(chǎn)品內(nèi)大量生成請(qǐng)求。美圖好像隱隱摸索出了另一條路：有穩(wěn)定場(chǎng)景和真實(shí)用戶作為后盾的公司，自研模型亦有出路。

6月23日，阿里云發(fā)布 HappyHorse 1.1，強(qiáng)調(diào)運(yùn)動(dòng)表現(xiàn)、一致性、視覺(jué)質(zhì)量提升，面向?qū)I(yè)創(chuàng)作者，覆蓋文生視頻、圖生視頻與視頻編輯。HappyHorse-1.1-I2V 在視覺(jué)質(zhì)量、動(dòng)態(tài)表現(xiàn)和跨片段一致性上均有明顯改進(jìn)。

6月23日，Seedance 2.0 原生 4K 分辨率上線火山引擎。于創(chuàng)作者而言，這是 AI 視頻邁向廣告級(jí)與專業(yè)交付的又一個(gè)關(guān)鍵節(jié)點(diǎn)。4K 貴是一定的，不是賺錢(qián)的項(xiàng)目建議就不要用這個(gè)分辨率了。 4K 的意義重點(diǎn)在可交付，畢竟廣告和品牌客戶的驗(yàn)收標(biāo)準(zhǔn)里，畫(huà)質(zhì)細(xì)節(jié)是硬門(mén)檻，過(guò)不了這條線，前面所有的電影感都只是 demo。（FORCE 大會(huì)一手消息，我在現(xiàn)場(chǎng)(*^▽^*)）

6月30日，Google 發(fā)布 Nano Banana 2 Lite，并把 Gemini Omni Flash 開(kāi)放給開(kāi)發(fā)者。官方稱 Nano Banana 2 Lite 是 Gemini Image 家族里最快、成本最低的圖像模型，適合高吞吐、低延遲、批量創(chuàng)意草圖；Gemini Omni Flash 則用于視頻生成和對(duì)話式編輯，可以從文本、圖像、視頻輸入生成或編輯視頻。谷歌大半年內(nèi)的圖片產(chǎn)品序列是 Pro → 2 → 2 Lite，一路向下鋪，視頻則是 C 端先鋪滿、再開(kāi) API 。

谷歌：可能我不是最強(qiáng)，但用戶想要什么檔位我都有，我還有深淵巨入口，我拿什么輸？

贏麻了，贏麻了。

補(bǔ)充說(shuō)明

看完以上的記錄以后，大家可能會(huì)覺(jué)得，怎么有些自己常用或者熟悉的模型沒(méi)有出現(xiàn)在上面的時(shí)間軸中？這有可能是因?yàn)樗鼈兊陌l(fā)布時(shí)間不在今年上半年的區(qū)間內(nèi)。

比如以下這些模型：

MiniMax 的 Hailuo 2.3 視頻模型，發(fā)布于 2025 年 10 月，至今仍被許多創(chuàng)作者用于制作復(fù)雜動(dòng)作和微表情，動(dòng)漫風(fēng)格效果也很不錯(cuò)，性價(jià)比很高。

美團(tuán)的 LongCat 模型，發(fā)布于 2025 年 12 月，這是一個(gè)開(kāi)源的中英雙語(yǔ)圖像模型，強(qiáng)調(diào)文本渲染、生成和編輯。

阿里的 Qwen-Image-Layered（拆圖層）和 Qwen-Image-Edit（圖像編輯）發(fā)布于 2025 年 12 月，目前依然在 ComfyUI、ModelScope、Hugging Face 等工作流中被頻繁使用，分層編輯和文字編輯很不錯(cuò)。

順便說(shuō)一句，模型能“長(zhǎng)壽”也能看出，如果能在工作流里站穩(wěn)腳跟，模型的生命周期會(huì)遠(yuǎn)遠(yuǎn)長(zhǎng)于熱搜周期。

Midjourney V1 Video 視頻模型，已經(jīng)是去年 6 月份發(fā)布的產(chǎn)品了。不知道今年 Midjourney 是否還會(huì)發(fā)布新的視頻模型。

最后，再補(bǔ)一個(gè)懸念， 6 月 FORCE 大會(huì)上火山引擎已經(jīng)預(yù)告了 Seedance 2.5 視頻模型和 Seedream 5.0 Pro 圖片模型。

Seedance 2.5 視頻模型，直指“多素材導(dǎo)演工作流”，主打最長(zhǎng)30 秒單段原生視頻、最多可以50 個(gè)全模態(tài)素材聯(lián)合生成、一致性局部編輯。預(yù)告還看到了它會(huì)先生成3D白模再生成。期待能早日體驗(yàn)。

Seedream 5.0 Pro，將會(huì)主打交互式的精準(zhǔn)編輯、并且可以多圖層分離，也可以生成高密度信息圖了，可以原生生成多語(yǔ)種文字，還可以直出可編輯分層設(shè)計(jì)圖。相信這些對(duì)于設(shè)計(jì)方向的朋友會(huì)非常有用，因?yàn)樗F(xiàn)在已經(jīng)從單純的圖片輸出向著可編輯的設(shè)計(jì)稿以及信息圖去靠近了。

7 月真是值得期待啊。

下半年會(huì)怎樣？

可以看到，2026 年上半年圖片與視頻模型，不再是單點(diǎn)生成能力的競(jìng)爭(zhēng)，更多的是往生產(chǎn)系統(tǒng)去遷移，進(jìn)入真實(shí)創(chuàng)作流程。圖片模型從審美生成走向資產(chǎn)生產(chǎn)，視頻模型從短片 demo 走向可控鏡頭，二者開(kāi)始在同一個(gè)生產(chǎn)鏈路里合流。

分開(kāi)討論圖片與視頻模型之前，先說(shuō)一個(gè)貫穿兩邊的觀察。回看上半年的發(fā)布詞，出現(xiàn)頻率最高的關(guān)鍵詞已從“更強(qiáng)”換成了“更快、更便宜”：Ray 3.14 快 4 倍便宜 3 倍，Nano Banana 2 主打不肉痛，V8.1 快 3 倍便宜 3 倍，Nano Banana 2 Lite 干脆定位相對(duì)成本最低。一個(gè)行業(yè)集體從卷質(zhì)量轉(zhuǎn)向卷成本，通常意味著這一代技術(shù)的 S 曲線正在進(jìn)入平臺(tái)期 ——（人工輸入破折號(hào)備注）質(zhì)量的邊際提升越來(lái)越貴，競(jìng)爭(zhēng)逐步轉(zhuǎn)移到推理經(jīng)濟(jì)學(xué)上了。

從審美生成到視覺(jué)資產(chǎn)

圖片模型的發(fā)展到瓶頸了嗎？怎么會(huì)，還有很多方向可以卷啊。

圖片模型的下一步，可能是更高清晰度的畫(huà)質(zhì)、更有辨識(shí)度的人像、更強(qiáng)的世界知識(shí)物理理解、更杰出的審美、更精確的文字細(xì)節(jié)、更多元的風(fēng)格、更優(yōu)秀的設(shè)計(jì)等等。

不過(guò)，有一點(diǎn)也比較明顯。上半年幾乎所有圖片模型都在卷“文字渲染”，從 GLM-Image 到 Qwen-Image-2.0 到 ERNIE-Image 到 Ideogram 4.0 到 ChatGPT Images 2.0，無(wú)一例外。為什么大家不約而同盯著這個(gè)看起來(lái)很小的能力？因?yàn)槲淖咒秩臼恰翱煽匦浴钡淖铒@示表現(xiàn)，評(píng)判好不好比審美客觀。一個(gè)模型能不能把圖片中的漢字一筆不差地寫(xiě)對(duì)，直接反映了它對(duì)像素的控制精度到了什么程度。文字是唯一一種“差一點(diǎn)就是錯(cuò)”的圖像內(nèi)容。畫(huà)面美不美好不好可以見(jiàn)仁見(jiàn)智，字寫(xiě)錯(cuò)了就是寫(xiě)錯(cuò)了。誰(shuí)最先把文字徹底做穩(wěn)，誰(shuí)就向所有 B 端客戶證明了：我的輸出可驗(yàn)收哎！

用戶：愛(ài)了。

如果真的出現(xiàn)六邊形模型，會(huì)走向贏者通吃的局面嗎？

我的個(gè)人觀點(diǎn)，圖片模型下一階段不會(huì)簡(jiǎn)單贏者通吃。強(qiáng)通用模型會(huì)繼續(xù)占據(jù)高質(zhì)量入口，但低價(jià)高速模型、垂直商業(yè)模型、文字設(shè)計(jì)模型等都會(huì)繼續(xù)存在。真實(shí)生產(chǎn)里，人們要的不只是一張最好看的圖，便宜、快、可控、可編輯、能交付等等都是重要考慮因素。

更具體一點(diǎn)，我認(rèn)為格局可能會(huì)分成三層：入口層（長(zhǎng)在超級(jí)應(yīng)用里的模型，贏在分發(fā)不贏在參數(shù)）、管線層（被寫(xiě)進(jìn)工作流和 API 的模型，贏在穩(wěn)定和可控）、廉價(jià)層（把邊際成本打到地板的模型，量大管飽使勁蹬也不心疼）。三層的贏家可以是不同的公司，甚至同一條生產(chǎn)鏈路里同時(shí)用到三層：草圖用廉價(jià)層，正稿用管線層，臨時(shí)需求丟給入口層。

從驚艷片段到更可控鏡頭

從今年上半年就可以感覺(jué)到，視頻模型也已經(jīng)進(jìn)入下一階段，短片 Demo 不過(guò)是基礎(chǔ)操作，主流視頻模型早已開(kāi)始了多參考、多鏡頭、原生音頻、更高畫(huà)質(zhì)、參考驅(qū)動(dòng)、視頻編輯精細(xì)化與后期等方向的進(jìn)化，逐步走向更長(zhǎng)時(shí)、更穩(wěn)、更可控、更可交付。

這里我想把上半年的信號(hào)做個(gè)小結(jié)：

第一，輸入方式的變化。從 Veo 的 Ingredients，到 Seedance 的 9 圖 3 視頻 3 音頻，再到 Vidu 的 1-7 張參考圖，視頻模型的接口正在從“文字描述”變成“素材投喂”。創(chuàng)作者可以從“寫(xiě) prompt”遷移到“備素材、管資產(chǎn)”這個(gè)方向來(lái)完成視頻生成，而這其實(shí)是傳統(tǒng)影視制片一直在做的事。有點(diǎn)矛盾但又合理的是，AI 視頻把老工作流的方式加入進(jìn)去，又以新的方式加速了創(chuàng)意的產(chǎn)出。

第二，合規(guī)會(huì)影響模型最終呈現(xiàn)給用戶的能力。Seedance 2.0 發(fā)布即召回削弱這件事，給全行業(yè)畫(huà)了一條線：模型越強(qiáng)，IP、肖像、區(qū)域監(jiān)管的約束就咬得越緊。下半年，視頻模型會(huì)更能打，能早早在這方面找到最優(yōu)的解決方式，做好版權(quán)素材授權(quán)、可溯源水印、真人授權(quán)體系，這些有點(diǎn)枯燥的基礎(chǔ)設(shè)施，可能也將成為決定勝負(fù)的關(guān)鍵。

真正使用它的用戶會(huì)用它做什么？真實(shí)創(chuàng)作進(jìn)程中，它可能會(huì)卡在哪里？而卡在哪里的痛點(diǎn)，就是視頻模型下一步進(jìn)化的方向。

Agent：調(diào)度與擴(kuò)寬能力邊界

模型都成長(zhǎng)起來(lái)了，可以把 Agent 當(dāng)自己的中層，讓它調(diào)兵遣將，節(jié)省我們自己的時(shí)間了。

底層模型越強(qiáng)，Agent 才越好用；底層模型不行的時(shí)候，Agent 只是在自動(dòng)化制造廢片。

Agent 最大的作用，是通過(guò)更好的調(diào)度來(lái)放大模型的價(jià)值。決定作品上限的，依然是創(chuàng)作者本身的能力、圖片模型的審美、文字、編輯能力，以及視頻模型的運(yùn)動(dòng)、物理、一致性和音畫(huà)同步等。這些底層能力已經(jīng)足夠強(qiáng)，Agent 才能通過(guò)更好的調(diào)度，把它們組織成更高效的創(chuàng)意工作流。

但 Agent 工作模式成為常態(tài)可能還會(huì)帶來(lái)一個(gè)后果：當(dāng)模型的調(diào)用方是 Agent，模型就從產(chǎn)品退化成了零件。對(duì)模型公司來(lái)說(shuō)，進(jìn)了 Agent 的調(diào)度池，調(diào)用量會(huì)很大；但同時(shí)，你和競(jìng)品之間只隔著一行配置文件的距離，你沒(méi)競(jìng)品好用，用戶忠誠(chéng)度嘎巴一下歸零。在成熟的創(chuàng)意 Agent 平臺(tái)，模型之間的競(jìng)爭(zhēng)會(huì)比現(xiàn)在殘酷得多，也誠(chéng)實(shí)得多。

小結(jié)

唯一不變的，就是變化一直在發(fā)生。過(guò)去我們更關(guān)心模型能不能生成一張好看的圖、一段驚艷的視頻；現(xiàn)在我們會(huì)越來(lái)越關(guān)心，它能不能穩(wěn)定參與真實(shí)創(chuàng)作：能不能保持角色一致，能不能接住多輪任務(wù)、復(fù)雜修改，能不能做首幀和關(guān)鍵幀，能不能進(jìn)入廣告、短劇、IP 角色、信息圖這些具體場(chǎng)景里，最后真的交付出好東西。

上半年只是一個(gè)節(jié)點(diǎn)。下半年如果還有新的模型、新的工作流和新的創(chuàng)作方法，我也會(huì)繼續(xù)邊用邊記錄。

也歡迎大家在評(píng)論區(qū)補(bǔ)充你真正用過(guò)、覺(jué)得值得留下的模型！

最后感謝 Codex 在我查找資料和核對(duì)信息時(shí)做出的貢獻(xiàn)。這期真肝啊，朋友們覺(jué)得有收獲請(qǐng)猛猛三連鼓勵(lì)一下阿真，非常感謝！

這一篇相對(duì)嚴(yán)謹(jǐn)和乏味一點(diǎn)，下期可能是阿真上半年的所有 Vibe Coding 工具盤(pán)點(diǎn)，很好玩的 o(^▽^)o

下期見(jiàn)(???_??)?

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.