无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

從模型到工作流:2026 上半年圖片與視頻模型盤(pán)點(diǎn)。

0
分享至


嗨大家好!我是阿真!

一轉(zhuǎn)眼 2026 年已經(jīng)進(jìn)入下半年,是時(shí)候?qū)ι习肽赀M(jìn)行一些小結(jié)了。

今天來(lái)好好盤(pán)點(diǎn) 2026 年上半年的圖片與視頻模型,伴隨模型更新時(shí)間軸出現(xiàn)的,還有我一些當(dāng)時(shí)的測(cè)試文章。也算是對(duì)不怎么努力也沒(méi)什么收獲的上半年做個(gè)總結(jié)匯報(bào)了。

疊甲:我的觀點(diǎn)只是我的觀點(diǎn),完全不權(quán)威,有看法的都是個(gè)人看法,大家想反對(duì)就直接反對(duì)。我這里不存在反感或者痛罵某個(gè)模型的情況,大部分時(shí)候比較理性。同時(shí),我也可能會(huì)對(duì)有的模型的真正價(jià)值理解不夠透徹,還有可能漏掉一些滄海遺珠,大家可以評(píng)論區(qū)補(bǔ)充或者積極留言。

以及,這篇文章以模型為主線,如果有朋友好奇為什么沒(méi)有即夢(mèng)或其他的話,即夢(mèng)屬于產(chǎn)品,我肯定會(huì)提到即夢(mèng)這個(gè)產(chǎn)品它使用的模型;模型繞不開(kāi)它所在的產(chǎn)品時(shí),我也會(huì)順帶聊到產(chǎn)品,但不做單獨(dú)的產(chǎn)品測(cè)評(píng)。

上半年發(fā)布了什么?

問(wèn)起這個(gè)問(wèn)題的時(shí)候,你的腦海里出現(xiàn)了哪些圖片和視頻模型?

Nano Banana Pro,GPT Image 2,Seedance 2.0?

實(shí)際上 Nano Banana Pro 已經(jīng)是 2025 年 11 月 20 日發(fā)布的模型了,今年 2 月發(fā)布的是 Nano Banana 2,是谷歌的另一個(gè)相對(duì)更便宜的圖片模型。

而上面提到的幾個(gè)圖片模型和視頻模型,算是我們公認(rèn)的今年上半年好評(píng)最多的模型了。

但其實(shí)上半年還有很多團(tuán)隊(duì)的圖片和視頻模型發(fā)布,并且它們也都有各自的亮點(diǎn)。大家也可以看看,哪些模型是你體驗(yàn)過(guò)的?下半年,大家會(huì)看好哪些模型呢?

1月份

1月9日,Midjourney Niji 7 發(fā)布。相比于上一代,它的細(xì)節(jié)更加清晰,比如眼睛反光以及背景的小元素都更加細(xì)致。并且,它也擁有更好的動(dòng)漫一致性、Prompt 理解能力、風(fēng)格遷移的表現(xiàn),可以說(shuō)是審美與風(fēng)格專用模型細(xì)分品類中的 TOP。不過(guò),雖然官方表示優(yōu)化了文字渲染能力,但說(shuō)實(shí)話,這方面做了約等于白做,競(jìng)爭(zhēng)力不大。不過(guò)換個(gè)角度想,守住一個(gè)單點(diǎn),可能也是一種清晰的定位。詳情可看

1月13日,谷歌升級(jí) Veo 3.1 Ingredients to Video,可用參考圖控制角色、背景、物體和紋理;強(qiáng)化角色身份一致性、背景與物體一致性;支持原生豎屏輸出,并可在 Flow、Gemini API 和 Vertex AI 中升采樣到 1080p 或 4K。這個(gè)在海外的呼聲不錯(cuò),為廣告和產(chǎn)品、電商以及角色連續(xù)短片領(lǐng)域帶來(lái)了更多的可能性。“Ingredients(食材 / 成分 / 配料)”這個(gè)命名也很有意思,也算是預(yù)告了全年視頻模型交互方式的走向,包括后面 Seedance 2.0 的多參考輸入,也是在這個(gè)方向大大加強(qiáng)了。

1月14日,智譜發(fā)布了 GLM-Image,開(kāi)源圖片模型、工業(yè)級(jí)、支持較好的文字渲染。16B 架構(gòu),其中 9B 自回歸 + 7B diffusion;最高支持 2048px;強(qiáng)調(diào)文字渲染、語(yǔ)義對(duì)齊、圖生圖。自回歸 + 擴(kuò)散的混合架構(gòu),抓的是語(yǔ)義理解加像素質(zhì)量。

1月26日,Luma AI 發(fā)布 Ray 3.14,支持原生 1080p。官方對(duì)比比 Ray 3.0 快 4 倍、便宜 3 倍;提升視頻穩(wěn)定性和 Modify Video 運(yùn)動(dòng)一致性。Luma AI 的產(chǎn)品我體驗(yàn)過(guò)多次,2.0 我是充值力證自己冤大頭,但 3.14 的視頻修改編輯還是不錯(cuò)的。

同一天騰訊混元發(fā)布了 HunyuanImage-3.0-Instruct-Distil,開(kāi)源圖片模型。Instruct 支持推理式提示詞增強(qiáng)和圖生圖創(chuàng)意編輯,Distil 面向更高效部署,官方推薦 8 步采樣。Distil 確實(shí)是試圖降低了采樣步數(shù)和部署門(mén)檻,但是模型重、顯存門(mén)檻也高,哪怕量化也是大塊頭,差不多就是 4090 用戶咬咬牙可以用的程度。開(kāi)源模型就是這樣,權(quán)重開(kāi)放是一回事,部署成本才是決定因素。

1月30日,生數(shù)科技在 Global Creativity Week 期間發(fā)布 Vidu Q3 視頻模型。支持原生音頻與視頻同生,視頻最長(zhǎng)時(shí)間達(dá)到 16 秒,可生成對(duì)話、旁白、音效、音樂(lè),強(qiáng)調(diào)鏡頭控制和敘事連續(xù)性。這套配置放在短劇、動(dòng)畫(huà)、漫畫(huà)改編上,性價(jià)比是很高的,不過(guò)最長(zhǎng) 16 秒還是不容易。原生音頻,上半年也是在視頻模型能力角逐中逐步從差異化變成了入場(chǎng)券。

2月份

2月5日,快手的 Kling AI 3.0 模型系列上線,圖片和視頻模型一起上線。“人人都能當(dāng)導(dǎo)演”是它的核心宣傳點(diǎn),圖片模型開(kāi)始支持 2K、4K 和專業(yè)資產(chǎn)。視頻模型也進(jìn)一步提升了敘事控制和一致性,支持多鏡頭與原生音頻。這是國(guó)內(nèi)視頻模型產(chǎn)品化的種子選手了。

2月10日,阿里的 Qwen-Image-2.0 模型發(fā)布。回頭看 Qwen 到這時(shí)候竟然才 2.0。2.0 支持統(tǒng)一高保真生成與精準(zhǔn)圖像編輯,支持最長(zhǎng) 1K token(國(guó)產(chǎn)模型約 600-900 漢字)指令;面向 PPT、海報(bào)、信息圖、漫畫(huà)等文本密集內(nèi)容;原生高分辨率和多語(yǔ)言文字表現(xiàn)增強(qiáng)。這篇第一時(shí)間沒(méi)寫(xiě),過(guò)完年在千問(wèn) APP 做了測(cè)試,文字和編輯效果都還不錯(cuò)的。雖然好像網(wǎng)絡(luò)呼聲沒(méi)有很大,但已早早進(jìn)入了各類工作流場(chǎng)景,比如ComfyUI 和企業(yè)管線里。測(cè)試效果可以看這篇

2月12日,大家都認(rèn)可的允許使用炸裂形容的模型面世,字節(jié)跳動(dòng) Seed 團(tuán)隊(duì)正式發(fā)布新一代視頻創(chuàng)作模型 Seedance 2.0。一開(kāi)始以為吹的,后面發(fā)現(xiàn)它竟有些謙虛了。Seedance 2.0 實(shí)現(xiàn)了統(tǒng)一多模態(tài)音視頻聯(lián)合生成架構(gòu),支持文字、圖片、音頻、視頻四類輸入,可參考最多 9 張圖、3 段視頻、3 段音頻,生成最長(zhǎng) 15 秒多鏡頭音視頻輸出。在動(dòng)作、物理、電影語(yǔ)言以及多鏡頭方面都非常讓人驚喜,但是一上線就在版權(quán)、IP、區(qū)域可用性以及真實(shí)人物方面都引起爭(zhēng)議和大量討論。下一個(gè)這么牛轟轟的模型好像還是 Anthropic 的 Claude Mythos 5。

當(dāng)模型強(qiáng)到可以逼真復(fù)現(xiàn)任何 IP、任何真人的時(shí)候,比能不能生成來(lái)得更快的,是敢不敢放出來(lái)了。紙面能力減去合規(guī)削弱的成品,才是我們真正能用的東西。這是當(dāng)時(shí)阿真參與首輪內(nèi)測(cè)的輸出視頻分享

2月13日,字節(jié)跳動(dòng) Seed 團(tuán)隊(duì)推出 Seedream 5.0 Lite 智能圖像創(chuàng)作模型。這個(gè)圖片模型強(qiáng)調(diào)“deeper thinking, more accurate generation(更深度思考,更精確生成)”。提升理解、推理、生成,實(shí)時(shí)搜索增強(qiáng),更強(qiáng)信息可視化、風(fēng)格遷移、模糊指令編輯、多主體復(fù)雜關(guān)系。在實(shí)時(shí)熱點(diǎn)海報(bào)、資料圖、信息圖方向都有進(jìn)步,但是細(xì)節(jié)、真實(shí)感上也都有進(jìn)步空間。大家用完表示不如前一版本的觀點(diǎn)也存在,這個(gè)版本存在感好像確實(shí)不算高,但是進(jìn)步還是有的,期待更穩(wěn)定版的 5.0。“推理?yè)Q畫(huà)質(zhì)”似乎是今年圖片模型的普遍取舍。模型花更多算力去想清楚你要什么,代價(jià)可能是像素層面的細(xì)節(jié)退步。這個(gè)蹺蹺板什么時(shí)候能兩頭都翹起來(lái),那就是真的成了。

2月26日,谷歌官方發(fā)布 Nano Banana 2,也是一個(gè)大家期待的模型,畢竟前有 Nano Banana Pro 站在圖片模型巔峰將近 3 個(gè)月,大家對(duì) 2 期待也很高。Nano Banana 2 定位為“Pro 能力 + Flash 速度”;強(qiáng)調(diào)高級(jí)世界知識(shí)、production-ready specs(能正經(jīng)上生產(chǎn)環(huán)境用的配置)、主體一致性、快速生成。總的來(lái)說(shuō) Nano Banana 2 和 Pro 相比最大的優(yōu)勢(shì)在于更快更便宜,大家用起來(lái)不至于肉痛,從質(zhì)量和細(xì)節(jié)來(lái)說(shuō)個(gè)人感覺(jué)并沒(méi)有超越 Nano Banana Pro。至于為什么巔峰三個(gè)月了再發(fā)個(gè)好像還不如之前的版本,除了更便宜更快,可能也是它自己預(yù)判這一代技術(shù)的質(zhì)量紅利它已經(jīng)吃得差不多了。這個(gè)我測(cè)了 2 篇,請(qǐng)看

2月26日至27日,昆侖萬(wàn)維 SkyReels-V4 先后發(fā)布技術(shù)報(bào)告并以 Preview 版本亮相榜單,曾在權(quán)威榜單上沖到全球第二(文生視頻無(wú)音頻)。統(tǒng)一多模態(tài)視頻-音頻生成、inpainting(局部重繪) 和編輯;支持文本、圖像、視頻、mask、音頻參考;最高 1080p、32fps、15 秒;視頻和音頻雙流 MMDiT。這是一個(gè)深耕 AI 短劇的模型。

3月份

3月17日,Midjourney 開(kāi)放 V8 Alpha 社區(qū)測(cè)試,Midjourney V8 Alpha 相比 V7,指令跟隨能力更強(qiáng)、對(duì)復(fù)雜 prompt 的細(xì)節(jié)還原更精準(zhǔn);畫(huà)面一致性和細(xì)節(jié)密度均有提升,文本渲染質(zhì)量顯著改善。生成速度約為 V7 的 5 倍。兼容 V7 的個(gè)性化(personalization)、情緒板(moodboards)和風(fēng)格參考(srefs),新增了 --hd 原生 2K 輸出與 --q 4 高質(zhì)量模式。雖然從 V5.1 以后 Midjourney 的進(jìn)步普通人已經(jīng)幾乎看不出太大差異,但是整體還是有提升,好看也依然好看,但也僅僅是好看了。

一個(gè)只贏在審美的模型,護(hù)城河可能正在從產(chǎn)品能力退化為社區(qū)慣性。當(dāng)時(shí)我也是整不出活了,做了 Midjourney V8 Alpha 和 Nano Banana 2 圖片模型的對(duì)比,按各自擅長(zhǎng)領(lǐng)域來(lái)說(shuō),這就像是蹦床和跳水運(yùn)動(dòng)員對(duì)比身體控制能力,沒(méi)什么可比性,看看各自的圖片效果就好了

3月23日,Luma AI 團(tuán)隊(duì)公開(kāi)發(fā)布 Uni-1,官方定位為 Unified Intelligence 家族第一代圖像模型;官方頁(yè)面稱其是“能生成像素的多模態(tài)推理模型”。統(tǒng)一理解、推理和圖像生成;支持 Create(創(chuàng)建)、Modify(修改) 雙模式;最多 9 張參考圖;支持 seed 復(fù)現(xiàn)、角色一致性、多參考架構(gòu)、迭代修改。文字細(xì)節(jié)和 seed 復(fù)現(xiàn)這個(gè)小功能不錯(cuò)。

3月26日,騰訊混元團(tuán)隊(duì)發(fā)布 OmniWeaving(又稱 HY-OmniWeaving)技術(shù)報(bào)告,4月3日開(kāi)源了代碼和模型權(quán)重。支持用文字、圖片、參考素材一鍵生成視頻,能給視頻、首尾幀畫(huà)面、關(guān)鍵幀做編輯和續(xù)寫(xiě),各種玩法自由混搭;還增加了可推理的大模型改善提示詞(讓會(huì)推理的大模型理解意圖然后指揮生成視頻)和自由組合。對(duì)于 ComfyUI 社區(qū)而言,它是開(kāi)源視頻模型向“推理 + 多任務(wù)統(tǒng)一”推進(jìn)的節(jié)點(diǎn)。開(kāi)源模型,拼可拆解、可組合、可自部署就好了,這是閉源模型實(shí)現(xiàn)不了的。

3月30日,PixVerse 官方發(fā)布 V6(國(guó)內(nèi)產(chǎn)品拍我AI)模型。提升了鏡頭執(zhí)行力、角色表演能力,支持多鏡頭音視頻一起生成、至此又一視頻模型支持自帶原生音頻,面向創(chuàng)意創(chuàng)作、商業(yè)拍攝和智能體工作流。國(guó)內(nèi)占有率不是太清楚,但在海外他們一直是比較受歡迎的,有趣模板多、生成速度快,多鏡頭等功能也好上手。“面向智能體工作流”我們結(jié)合那個(gè)時(shí)間節(jié)點(diǎn)去看,OpenClaw 興起,PixVerse 也是快速錨定了用智能體調(diào)用它的群體做了 CLI。

4月份

4月1日,阿里發(fā)布 Wan2.7-Image,這個(gè)圖片模型在萬(wàn)相可以體驗(yàn),繼續(xù)朝專業(yè)設(shè)計(jì)與生產(chǎn)力方向發(fā)力,除了廣大圖片模型都會(huì)卷的圖片編輯、復(fù)雜意圖理解和信息圖、高清 4K 畫(huà)質(zhì)、超長(zhǎng)文本渲染支持以外,它加入了一些新的創(chuàng)意,多語(yǔ)言多組圖、調(diào)色盤(pán)控制生成圖色彩配比、支持通過(guò)提示詞細(xì)節(jié)達(dá)到捏臉效果“千人千面”、支持 Alpha 通道、支持最大長(zhǎng)寬比 1:8。之前 Nano Banana 2 最高也支持 1:8 的長(zhǎng)比例,但是在漢字的穩(wěn)定性方面,Wan2.7-Image 是有優(yōu)勢(shì)的。調(diào)色盤(pán)、Alpha 通道、超長(zhǎng)比例,都是設(shè)計(jì)師的痛點(diǎn)。感興趣可以看這篇

4月3日,阿里發(fā)布 Wan2.7-Video 系列,涵蓋文生視頻、圖生視頻、參考生視頻和視頻編輯四大模型,覆蓋從零創(chuàng)作到精細(xì)編輯的完整鏈路。全系支持 720P/1080P,時(shí)長(zhǎng) 2-15 秒任意指定;一句話即可對(duì)視頻做局部或整體修改,角色臺(tái)詞可替換并自動(dòng)匹配口型與音色;最多支持 5 個(gè)視頻主體參考,為當(dāng)時(shí)業(yè)內(nèi)最多。

4月13日,生數(shù)科技發(fā)布 Vidu Q3 參考生視頻(Reference-to-Video),定位為面向故事驅(qū)動(dòng)創(chuàng)作的參考生視頻能力;官方頁(yè)面顯示 Reference to Video 支持上傳 1-7 張參考圖,用于保持角色、物體和場(chǎng)景一致。感興趣可以看看這篇

4月14日,Midjourney 發(fā)布 V8.1 Alpha,作為 V8 后續(xù)版本。相比 V8,保持了 V7 式大家熟悉的審美;情緒板(Moodboards)和風(fēng)格引用(srefs)更穩(wěn)定;高清 HD 模式比 V8 快 3 倍、便宜 3 倍;標(biāo)準(zhǔn)分辨率快 50%、便宜 25%;支持圖像提示詞(Image Prompts)和圖像權(quán)重(image weights),新增提示詞精簡(jiǎn)器(Prompt Shortener)和更新版 Describe。嘰里咕嚕這么多,整體來(lái)說(shuō),個(gè)人感覺(jué) V8.1 和 V8 在畫(huà)面細(xì)節(jié)來(lái)說(shuō)差別不大。

4月15日,百度開(kāi)源了 ERNIE-Image。8B 參數(shù)的 DiT 架構(gòu),一條流水線跑到底,自帶輕量提示詞增強(qiáng)器,不用自己狠憋 prompt。支持海報(bào)、漫畫(huà)、多格分鏡。還有 Turbo 模式砍掉了多余步驟,出圖更快,Apache-2.0 協(xié)議。主打開(kāi)源小參數(shù) + 中文文字信息圖 + 24GB 顯卡都能跑。但畢竟小模型,整體質(zhì)量也沒(méi)法要求太高,可以工作流輔助和后期優(yōu)化。8B + Apache-2.0 + 消費(fèi)級(jí)顯卡能跑,圖片生成這個(gè)能力的邊際成本打下來(lái)了。

4月21日,OpenAI 官方發(fā)布 ChatGPT Images 2.0,圖片模型王冠易主。前面這句是我的個(gè)人看法,雖然在有的方向它還有缺點(diǎn),但總體確實(shí)極為能打了。設(shè)計(jì)師又被各路專家問(wèn)候了一番職業(yè)規(guī)劃,真是悲喜交加。ChatGPT Images 2.0 支持更強(qiáng)文本渲染、多語(yǔ)言、復(fù)雜指令、真實(shí)世界知識(shí)、編輯能力、信息圖、海報(bào)、漫畫(huà)、多圖一致性;并且強(qiáng)調(diào)“思考后生成”;在設(shè)計(jì)與信息圖方面再次遙遙領(lǐng)先。感興趣可以看看這篇

ChatGPT Images 2.0 還有一個(gè)殺手锏在入口上。它長(zhǎng)在全球用戶量最大的 AI 對(duì)話產(chǎn)品里,此外 Codex 里也內(nèi)置了。用戶不需要多學(xué)任何東西、不需要遷移到任何新平臺(tái)。對(duì)其他圖片模型來(lái)說(shuō),競(jìng)爭(zhēng)維度都不一樣,你光卷模型,人家還可以卷分發(fā)。這也是為什么我后面說(shuō)圖片模型不會(huì)簡(jiǎn)單贏者通吃,但入口級(jí)模型和管線級(jí)模型各有勝算的原因。

4月26日,OpenAI 正式停用 Sora Web 和 App 體驗(yàn),僅保留 API 過(guò)渡接入,其 API 也將在 9 月 24 日停用。還記得 Sora 初現(xiàn)帶給我們的震撼與沖擊,沒(méi)想到時(shí)代的眼淚也來(lái)得這么猝不及防。與之相反,一個(gè)月后谷歌把 Gemini Omni 鋪滿 Gemini App、Flow、YouTube Shorts 三條線,這怎么不算消費(fèi)端視頻的入口之爭(zhēng)呢。

4月27日,阿里團(tuán)隊(duì) HappyHorse 1.0 limited beta 部分開(kāi)放。面向電影級(jí)視頻生成,支持文生視頻與首幀圖生視頻。支持最長(zhǎng) 15 秒、720p/1080p、多尺寸輸出。

5月份

5月5日,Luma AI 發(fā)布 Uni-1.1 API,把 Uni 系列圖像模型開(kāi)放給開(kāi)發(fā)者和企業(yè)工作流。Luma 也走向了圖像、視頻、agent 三層架構(gòu)的綜合性創(chuàng)意平臺(tái)。

5月19日至20日,Google I/O 2026 大會(huì)上,谷歌正式發(fā)布 Gemini Omni,首發(fā)版本為 Gemini Omni Flash。“從任意輸入創(chuàng)造任意內(nèi)容,從視頻開(kāi)始”;谷歌自己給的比喻更直白:“就像 Nano Banana,但是給視頻用的”。支持文字、圖片、音頻、視頻任意組合輸入,核心賣點(diǎn)是對(duì)話式視頻編輯。每一句指令疊在上一句上,角色一致性、物理邏輯都能保持。剛到國(guó)內(nèi)時(shí)反響有些平平,畢竟 Seedance 2.0 珠玉在前,大家腎上腺素都快被掏空了。最近它火了一波,我們可能刷到過(guò)的視頻局部修改,或者帶有自己人物的紙片拼貼片頭動(dòng)畫(huà),可能是發(fā)現(xiàn)它的人物一致性和局部修改能力真的強(qiáng),玩法就很多了。

這條我多說(shuō)兩句。首先,從純生成畫(huà)質(zhì)看,當(dāng)時(shí)的獨(dú)立評(píng)測(cè)普遍認(rèn)為 Seedance 2.0 仍然領(lǐng)先,而 Omni 的重點(diǎn)很清楚,就是把“來(lái)回對(duì)話能不能改”做好。加上它一口氣鋪滿三條分發(fā)線,這和 ChatGPT Images 2.0 是同一個(gè)玩法,卷入口。另外,谷歌在發(fā)布會(huì)上明確表示“修改視頻里人物說(shuō)話內(nèi)容”這個(gè)功能暫時(shí)不做,想用自己的臉做數(shù)字分身,得先錄一段念隨機(jī)數(shù)字的視頻做防偽。這條紅線是廠商主動(dòng)畫(huà)的。對(duì)照 2 月 Seedance 被動(dòng)卷入版權(quán)爭(zhēng)議,能清楚看到半年之內(nèi),合規(guī),也已經(jīng)變成了產(chǎn)品設(shè)計(jì)的一部分。

5月21日,Runway 也在視頻編輯能力上發(fā)力,發(fā)布 Aleph 2.0 和 Edit Studio。Runway Aleph 2.0(官方說(shuō)明是旗艦 in-context video editing model 的升級(jí))編輯單幀即可將修改擴(kuò)散至整段視頻,未要求改動(dòng)的內(nèi)容保持原樣;支持最長(zhǎng) 30 秒、1080p 素材與多鏡頭連續(xù)片段。適合改服裝、場(chǎng)景、綠幕、空鏡底板(把畫(huà)面里的人物、道具等前景元素去掉,只留下干凈的背景)和局部替換。但是可控性還相當(dāng)有待提升,復(fù)雜長(zhǎng)片穩(wěn)定性也不太行,成本也高。卷生成 Runway 勝算不明朗,修改已有素材也可能是更有潛力的市場(chǎng),畢竟世界上已拍攝的視頻遠(yuǎn)多于要生成的視頻。

6月份

6月3日,Ideogram 4.0 圖片模型開(kāi)源。與其說(shuō)圖片模型不如說(shuō)它是設(shè)計(jì)模型,設(shè)計(jì)圖生成能力是真不錯(cuò)。9.3B 參數(shù)單流 DiT 架構(gòu),開(kāi)放權(quán)重、支持商業(yè)許可。核心發(fā)力方向明確,面向設(shè)計(jì)生產(chǎn)場(chǎng)景,強(qiáng)化文字渲染、層級(jí)化生成、結(jié)構(gòu)化 JSON prompt 控制,支持 2K 輸出與品牌設(shè)計(jì)工作流。可以和 Qwen-Image-2.0、ERNIE-Image、FLUX 等一起放在文字與設(shè)計(jì)圖像模型里掰手腕。JSON prompt 控制這個(gè)也很好,模型的輸入從自然語(yǔ)言變成結(jié)構(gòu)化數(shù)據(jù)。不過(guò)審美更西化,可能不那么符合國(guó)內(nèi)主流審美。

6月11日,Midjourney 將默認(rèn)模型從 V7 更新為 V8.1。

6月17日,美圖官宣了 MiracleVision V6,這同樣是一款基于 MoE 架構(gòu)的基座模型,支持文本、圖片、視頻、音頻等多模態(tài)輸入;強(qiáng)調(diào)視覺(jué)決策能力、生成質(zhì)量與一致性,并支撐美圖產(chǎn)品內(nèi)大量生成請(qǐng)求。美圖好像隱隱摸索出了另一條路:有穩(wěn)定場(chǎng)景和真實(shí)用戶作為后盾的公司,自研模型亦有出路。

6月23日,阿里云發(fā)布 HappyHorse 1.1,強(qiáng)調(diào)運(yùn)動(dòng)表現(xiàn)、一致性、視覺(jué)質(zhì)量提升,面向?qū)I(yè)創(chuàng)作者,覆蓋文生視頻、圖生視頻與視頻編輯。HappyHorse-1.1-I2V 在視覺(jué)質(zhì)量、動(dòng)態(tài)表現(xiàn)和跨片段一致性上均有明顯改進(jìn)。

6月23日,Seedance 2.0 原生 4K 分辨率上線火山引擎。于創(chuàng)作者而言,這是 AI 視頻邁向廣告級(jí)與專業(yè)交付的又一個(gè)關(guān)鍵節(jié)點(diǎn)。4K 貴是一定的,不是賺錢(qián)的項(xiàng)目建議就不要用這個(gè)分辨率了。 4K 的意義重點(diǎn)在可交付,畢竟廣告和品牌客戶的驗(yàn)收標(biāo)準(zhǔn)里,畫(huà)質(zhì)細(xì)節(jié)是硬門(mén)檻,過(guò)不了這條線,前面所有的電影感都只是 demo。(FORCE 大會(huì)一手消息,我在現(xiàn)場(chǎng)(*^▽^*))

6月30日,Google 發(fā)布 Nano Banana 2 Lite,并把 Gemini Omni Flash 開(kāi)放給開(kāi)發(fā)者。官方稱 Nano Banana 2 Lite 是 Gemini Image 家族里最快、成本最低的圖像模型,適合高吞吐、低延遲、批量創(chuàng)意草圖;Gemini Omni Flash 則用于視頻生成和對(duì)話式編輯,可以從文本、圖像、視頻輸入生成或編輯視頻。谷歌大半年內(nèi)的圖片產(chǎn)品序列是 Pro → 2 → 2 Lite,一路向下鋪,視頻則是 C 端先鋪滿、再開(kāi) API 。

谷歌:可能我不是最強(qiáng),但用戶想要什么檔位我都有,我還有深淵巨入口,我拿什么輸?

贏麻了,贏麻了。

補(bǔ)充說(shuō)明

看完以上的記錄以后,大家可能會(huì)覺(jué)得,怎么有些自己常用或者熟悉的模型沒(méi)有出現(xiàn)在上面的時(shí)間軸中?這有可能是因?yàn)樗鼈兊陌l(fā)布時(shí)間不在今年上半年的區(qū)間內(nèi)。

比如以下這些模型:

MiniMax 的 Hailuo 2.3 視頻模型,發(fā)布于 2025 年 10 月,至今仍被許多創(chuàng)作者用于制作復(fù)雜動(dòng)作和微表情,動(dòng)漫風(fēng)格效果也很不錯(cuò),性價(jià)比很高。

美團(tuán)的 LongCat 模型,發(fā)布于 2025 年 12 月,這是一個(gè)開(kāi)源的中英雙語(yǔ)圖像模型,強(qiáng)調(diào)文本渲染、生成和編輯。

阿里的 Qwen-Image-Layered(拆圖層)和 Qwen-Image-Edit(圖像編輯)發(fā)布于 2025 年 12 月,目前依然在 ComfyUI、ModelScope、Hugging Face 等工作流中被頻繁使用,分層編輯和文字編輯很不錯(cuò)。

順便說(shuō)一句,模型能“長(zhǎng)壽”也能看出,如果能在工作流里站穩(wěn)腳跟,模型的生命周期會(huì)遠(yuǎn)遠(yuǎn)長(zhǎng)于熱搜周期。

Midjourney V1 Video 視頻模型,已經(jīng)是去年 6 月份發(fā)布的產(chǎn)品了。不知道今年 Midjourney 是否還會(huì)發(fā)布新的視頻模型。

最后,再補(bǔ)一個(gè)懸念, 6 月 FORCE 大會(huì)上火山引擎已經(jīng)預(yù)告了 Seedance 2.5 視頻模型和 Seedream 5.0 Pro 圖片模型。

Seedance 2.5 視頻模型,直指“多素材導(dǎo)演工作流”,主打最長(zhǎng)30 秒單段原生視頻、最多可以50 個(gè)全模態(tài)素材聯(lián)合生成、一致性局部編輯。預(yù)告還看到了它會(huì)先生成3D白模再生成。期待能早日體驗(yàn)。

Seedream 5.0 Pro,將會(huì)主打交互式的精準(zhǔn)編輯、并且可以多圖層分離,也可以生成高密度信息圖了,可以原生生成多語(yǔ)種文字,還可以直出可編輯分層設(shè)計(jì)圖。相信這些對(duì)于設(shè)計(jì)方向的朋友會(huì)非常有用,因?yàn)樗F(xiàn)在已經(jīng)從單純的圖片輸出向著可編輯的設(shè)計(jì)稿以及信息圖去靠近了。

7 月真是值得期待啊。

下半年會(huì)怎樣?

可以看到,2026 年上半年圖片與視頻模型,不再是單點(diǎn)生成能力的競(jìng)爭(zhēng),更多的是往生產(chǎn)系統(tǒng)去遷移,進(jìn)入真實(shí)創(chuàng)作流程。圖片模型從審美生成走向資產(chǎn)生產(chǎn),視頻模型從短片 demo 走向可控鏡頭,二者開(kāi)始在同一個(gè)生產(chǎn)鏈路里合流。

分開(kāi)討論圖片與視頻模型之前,先說(shuō)一個(gè)貫穿兩邊的觀察。回看上半年的發(fā)布詞,出現(xiàn)頻率最高的關(guān)鍵詞已從“更強(qiáng)”換成了“更快、更便宜”:Ray 3.14 快 4 倍便宜 3 倍,Nano Banana 2 主打不肉痛,V8.1 快 3 倍便宜 3 倍,Nano Banana 2 Lite 干脆定位相對(duì)成本最低。一個(gè)行業(yè)集體從卷質(zhì)量轉(zhuǎn)向卷成本,通常意味著這一代技術(shù)的 S 曲線正在進(jìn)入平臺(tái)期 ——(人工輸入破折號(hào)備注)質(zhì)量的邊際提升越來(lái)越貴,競(jìng)爭(zhēng)逐步轉(zhuǎn)移到推理經(jīng)濟(jì)學(xué)上了。

從審美生成到視覺(jué)資產(chǎn)

圖片模型的發(fā)展到瓶頸了嗎?怎么會(huì),還有很多方向可以卷啊。

圖片模型的下一步,可能是更高清晰度的畫(huà)質(zhì)、更有辨識(shí)度的人像、更強(qiáng)的世界知識(shí)物理理解、更杰出的審美、更精確的文字細(xì)節(jié)、更多元的風(fēng)格、更優(yōu)秀的設(shè)計(jì)等等。

不過(guò),有一點(diǎn)也比較明顯。上半年幾乎所有圖片模型都在卷“文字渲染”,從 GLM-Image 到 Qwen-Image-2.0 到 ERNIE-Image 到 Ideogram 4.0 到 ChatGPT Images 2.0,無(wú)一例外。為什么大家不約而同盯著這個(gè)看起來(lái)很小的能力?因?yàn)槲淖咒秩臼恰翱煽匦浴钡淖铒@示表現(xiàn),評(píng)判好不好比審美客觀。一個(gè)模型能不能把圖片中的漢字一筆不差地寫(xiě)對(duì),直接反映了它對(duì)像素的控制精度到了什么程度。文字是唯一一種“差一點(diǎn)就是錯(cuò)”的圖像內(nèi)容。畫(huà)面美不美好不好可以見(jiàn)仁見(jiàn)智,字寫(xiě)錯(cuò)了就是寫(xiě)錯(cuò)了。誰(shuí)最先把文字徹底做穩(wěn),誰(shuí)就向所有 B 端客戶證明了:我的輸出可驗(yàn)收哎!

用戶:愛(ài)了。

如果真的出現(xiàn)六邊形模型,會(huì)走向贏者通吃的局面嗎?

我的個(gè)人觀點(diǎn),圖片模型下一階段不會(huì)簡(jiǎn)單贏者通吃。強(qiáng)通用模型會(huì)繼續(xù)占據(jù)高質(zhì)量入口,但低價(jià)高速模型、垂直商業(yè)模型、文字設(shè)計(jì)模型等都會(huì)繼續(xù)存在。真實(shí)生產(chǎn)里,人們要的不只是一張最好看的圖,便宜、快、可控、可編輯、能交付等等都是重要考慮因素。

更具體一點(diǎn),我認(rèn)為格局可能會(huì)分成三層:入口層(長(zhǎng)在超級(jí)應(yīng)用里的模型,贏在分發(fā)不贏在參數(shù))、管線層(被寫(xiě)進(jìn)工作流和 API 的模型,贏在穩(wěn)定和可控)、廉價(jià)層(把邊際成本打到地板的模型,量大管飽使勁蹬也不心疼)。三層的贏家可以是不同的公司,甚至同一條生產(chǎn)鏈路里同時(shí)用到三層:草圖用廉價(jià)層,正稿用管線層,臨時(shí)需求丟給入口層。

從驚艷片段到更可控鏡頭

從今年上半年就可以感覺(jué)到,視頻模型也已經(jīng)進(jìn)入下一階段,短片 Demo 不過(guò)是基礎(chǔ)操作,主流視頻模型早已開(kāi)始了多參考、多鏡頭、原生音頻、更高畫(huà)質(zhì)、參考驅(qū)動(dòng)、視頻編輯精細(xì)化與后期等方向的進(jìn)化,逐步走向更長(zhǎng)時(shí)、更穩(wěn)、更可控、更可交付。

這里我想把上半年的信號(hào)做個(gè)小結(jié):

第一,輸入方式的變化。從 Veo 的 Ingredients,到 Seedance 的 9 圖 3 視頻 3 音頻,再到 Vidu 的 1-7 張參考圖,視頻模型的接口正在從“文字描述”變成“素材投喂”。創(chuàng)作者可以從“寫(xiě) prompt”遷移到“備素材、管資產(chǎn)”這個(gè)方向來(lái)完成視頻生成,而這其實(shí)是傳統(tǒng)影視制片一直在做的事。有點(diǎn)矛盾但又合理的是,AI 視頻把老工作流的方式加入進(jìn)去,又以新的方式加速了創(chuàng)意的產(chǎn)出。

第二,合規(guī)會(huì)影響模型最終呈現(xiàn)給用戶的能力。Seedance 2.0 發(fā)布即召回削弱這件事,給全行業(yè)畫(huà)了一條線:模型越強(qiáng),IP、肖像、區(qū)域監(jiān)管的約束就咬得越緊。下半年,視頻模型會(huì)更能打,能早早在這方面找到最優(yōu)的解決方式,做好版權(quán)素材授權(quán)、可溯源水印、真人授權(quán)體系,這些有點(diǎn)枯燥的基礎(chǔ)設(shè)施,可能也將成為決定勝負(fù)的關(guān)鍵。

真正使用它的用戶會(huì)用它做什么?真實(shí)創(chuàng)作進(jìn)程中,它可能會(huì)卡在哪里?而卡在哪里的痛點(diǎn),就是視頻模型下一步進(jìn)化的方向。

Agent:調(diào)度與擴(kuò)寬能力邊界

模型都成長(zhǎng)起來(lái)了,可以把 Agent 當(dāng)自己的中層,讓它調(diào)兵遣將,節(jié)省我們自己的時(shí)間了。

底層模型越強(qiáng),Agent 才越好用;底層模型不行的時(shí)候,Agent 只是在自動(dòng)化制造廢片。

Agent 最大的作用,是通過(guò)更好的調(diào)度來(lái)放大模型的價(jià)值。決定作品上限的,依然是創(chuàng)作者本身的能力、圖片模型的審美、文字、編輯能力,以及視頻模型的運(yùn)動(dòng)、物理、一致性和音畫(huà)同步等。這些底層能力已經(jīng)足夠強(qiáng),Agent 才能通過(guò)更好的調(diào)度,把它們組織成更高效的創(chuàng)意工作流。

但 Agent 工作模式成為常態(tài)可能還會(huì)帶來(lái)一個(gè)后果:當(dāng)模型的調(diào)用方是 Agent,模型就從產(chǎn)品退化成了零件。對(duì)模型公司來(lái)說(shuō),進(jìn)了 Agent 的調(diào)度池,調(diào)用量會(huì)很大;但同時(shí),你和競(jìng)品之間只隔著一行配置文件的距離,你沒(méi)競(jìng)品好用,用戶忠誠(chéng)度嘎巴一下歸零。在成熟的創(chuàng)意 Agent 平臺(tái),模型之間的競(jìng)爭(zhēng)會(huì)比現(xiàn)在殘酷得多,也誠(chéng)實(shí)得多。

小結(jié)

唯一不變的,就是變化一直在發(fā)生。過(guò)去我們更關(guān)心模型能不能生成一張好看的圖、一段驚艷的視頻;現(xiàn)在我們會(huì)越來(lái)越關(guān)心,它能不能穩(wěn)定參與真實(shí)創(chuàng)作:能不能保持角色一致,能不能接住多輪任務(wù)、復(fù)雜修改,能不能做首幀和關(guān)鍵幀,能不能進(jìn)入廣告、短劇、IP 角色、信息圖這些具體場(chǎng)景里,最后真的交付出好東西。

上半年只是一個(gè)節(jié)點(diǎn)。下半年如果還有新的模型、新的工作流和新的創(chuàng)作方法,我也會(huì)繼續(xù)邊用邊記錄。

也歡迎大家在評(píng)論區(qū)補(bǔ)充你真正用過(guò)、覺(jué)得值得留下的模型!

最后感謝 Codex 在我查找資料和核對(duì)信息時(shí)做出的貢獻(xiàn)。這期真肝啊,朋友們覺(jué)得有收獲請(qǐng)猛猛三連 鼓勵(lì)一下阿真,非常感謝!

這一篇相對(duì)嚴(yán)謹(jǐn)和乏味一點(diǎn),下期可能是阿真上半年的所有 Vibe Coding 工具盤(pán)點(diǎn),很好玩的 o(^▽^)o

下期見(jiàn)(???_??)?

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
小米空調(diào)十年包修惹爭(zhēng)議!小米高管回應(yīng):用戶會(huì)用腳投票

小米空調(diào)十年包修惹爭(zhēng)議!小米高管回應(yīng):用戶會(huì)用腳投票

雷科技
2026-07-04 00:05:28
干部年輕化,一批中年干部主動(dòng)讓位

干部年輕化,一批中年干部主動(dòng)讓位

職場(chǎng)資深秘書(shū)
2026-07-04 13:48:38
哈梅葬禮暗藏殺機(jī)?中俄高層出席不止吊唁,或能鎮(zhèn)住美以斬首陰謀

哈梅葬禮暗藏殺機(jī)?中俄高層出席不止吊唁,或能鎮(zhèn)住美以斬首陰謀

快看張同學(xué)
2026-07-04 09:51:49
美國(guó)大滿貫4強(qiáng)全部出爐!國(guó)乒連贏兩場(chǎng),世界第二又“復(fù)活”了

美國(guó)大滿貫4強(qiáng)全部出爐!國(guó)乒連贏兩場(chǎng),世界第二又“復(fù)活”了

老垯科普
2026-07-04 04:18:00
一個(gè)無(wú)奈的現(xiàn)狀:城里活到八九十歲的老人,基本是在“養(yǎng)”保姆

一個(gè)無(wú)奈的現(xiàn)狀:城里活到八九十歲的老人,基本是在“養(yǎng)”保姆

用冷眼洞悉世界
2026-07-03 08:47:30
綿陽(yáng)國(guó)資,一筆回報(bào)200億

綿陽(yáng)國(guó)資,一筆回報(bào)200億

投資界
2026-07-04 16:10:13
曾叫囂“餓死也不去內(nèi)地”的“港獨(dú)”分子周啟生,又來(lái)整活了!

曾叫囂“餓死也不去內(nèi)地”的“港獨(dú)”分子周啟生,又來(lái)整活了!

故事終將光明磊落
2026-07-04 10:36:54
中俄大員齊聚德黑蘭,伊朗鐵腕將軍戰(zhàn)后首露面,就看美以怎么接

中俄大員齊聚德黑蘭,伊朗鐵腕將軍戰(zhàn)后首露面,就看美以怎么接

荷蘭豆愛(ài)健康
2026-07-04 15:33:08
Shams爆猛料!老詹下家!勇火掉隊(duì)!大黑馬出現(xiàn)了!

Shams爆猛料!老詹下家!勇火掉隊(duì)!大黑馬出現(xiàn)了!

籃球盛世
2026-07-04 10:41:37
美國(guó)大滿貫4強(qiáng)全部出爐!國(guó)乒連贏兩場(chǎng),世界第二又扛住壓力晉級(jí)

美國(guó)大滿貫4強(qiáng)全部出爐!國(guó)乒連贏兩場(chǎng),世界第二又扛住壓力晉級(jí)

林子說(shuō)事
2026-07-03 19:13:13
4換1!火箭達(dá)成交易!徹底甩掉水貨前鋒

4換1!火箭達(dá)成交易!徹底甩掉水貨前鋒

籃球?qū)崙?zhàn)寶典
2026-07-04 01:38:35
剛發(fā)布的汽車銷量排行榜,第一名把我看傻了

剛發(fā)布的汽車銷量排行榜,第一名把我看傻了

周哥一影視
2026-07-04 10:26:56
阿根廷隊(duì)發(fā)文,致敬佛得角!梅西:佛得角連平西班牙烏拉圭絕非偶然

阿根廷隊(duì)發(fā)文,致敬佛得角!梅西:佛得角連平西班牙烏拉圭絕非偶然

上觀新聞
2026-07-04 11:13:58
演員張衛(wèi)健:被父親打到窒息,兩度喪子后,他做出了最正確的決定

演員張衛(wèi)健:被父親打到窒息,兩度喪子后,他做出了最正確的決定

飄飄然的娛樂(lè)匯
2026-06-24 09:05:09
真實(shí)林彪:性格冷硬如鐵,眉目不怒自威,搞笑令周恩來(lái)都捧腹大笑

真實(shí)林彪:性格冷硬如鐵,眉目不怒自威,搞笑令周恩來(lái)都捧腹大笑

微野談寫(xiě)作
2026-07-04 16:30:09
人倫大亂,正在悄悄毀掉無(wú)數(shù)中國(guó)家庭!看似平常,實(shí)則家道衰落

人倫大亂,正在悄悄毀掉無(wú)數(shù)中國(guó)家庭!看似平常,實(shí)則家道衰落

阿凱銷售場(chǎng)
2026-06-30 00:30:29
一封信終結(jié)了一位開(kāi)國(guó)元?jiǎng)椎恼紊飨翰豢删人?>
    </a>
        <h3>
      <a href=歷史人文2
2026-07-04 15:30:03
胰島“禍?zhǔn)住北痪境觯∈前滋堑牧叮t(yī)生:吃得越多,血糖越失控

胰島“禍?zhǔn)住北痪境觯∈前滋堑牧叮t(yī)生:吃得越多,血糖越失控

醫(yī)學(xué)科普匯
2026-06-11 21:20:08
86名員工薪資花掉1285萬(wàn)!韓紅基金會(huì)的錢(qián),到底是怎么來(lái)的?

86名員工薪資花掉1285萬(wàn)!韓紅基金會(huì)的錢(qián),到底是怎么來(lái)的?

垛垛糖
2026-07-04 13:36:20
比亞迪CEO警告:新款電機(jī)一旦投放市場(chǎng),汽車行業(yè)恐迎全面洗牌

比亞迪CEO警告:新款電機(jī)一旦投放市場(chǎng),汽車行業(yè)恐迎全面洗牌

夢(mèng)史
2026-07-03 23:42:26
2026-07-04 18:19:00
阿真Irene
阿真Irene
分享有趣 · 一起精進(jìn)丨設(shè)計(jì)丨AI丨工具丨生活丨貓丨
27文章數(shù) 1關(guān)注度
往期回顧 全部

藝術(shù)要聞

16位當(dāng)代畫(huà)家,23幅風(fēng)景與人物作品

頭條要聞

男子開(kāi)餐吧被LV起訴索賠200萬(wàn):當(dāng)時(shí)很懵 正專心還債

頭條要聞

男子開(kāi)餐吧被LV起訴索賠200萬(wàn):當(dāng)時(shí)很懵 正專心還債

體育要聞

揭法國(guó)鋒線最大優(yōu)勢(shì) 有人比姆巴佩還快?

娛樂(lè)要聞

最富女歌手霉霉完婚 在紐約設(shè)宴慶賀

財(cái)經(jīng)要聞

韓國(guó)股市杠桿失控:450億美元資金狂飆

科技要聞

韜定律論文V2版,充工程細(xì)節(jié)和實(shí)測(cè)數(shù)據(jù)

汽車要聞

方程豹鈦9內(nèi)飾曝光 用上了長(zhǎng)聯(lián)屏設(shè)計(jì)/下半年上市

態(tài)度原創(chuàng)

時(shí)尚
游戲
本地
房產(chǎn)
公開(kāi)課

剪刀手失寵后,夏日出片有了新姿勢(shì)

官方確認(rèn):《黑旗RE》或增全新"問(wèn)號(hào)" 探索系統(tǒng)大升級(jí)

本地新聞

國(guó)內(nèi)足球之旅?這座小城給你高分答案

房產(chǎn)要聞

總裁空缺17個(gè)月、現(xiàn)金缺口超1000億:金融局“局外人”入局萬(wàn)科

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版