![]()
前段時間AI圈最火的視頻模型,HappyHorse 1.0,著實引起了國內外很多討論。
視頻生成賽道,新的格局,似乎正在形成。
就在身邊朋友還在猜測,是否會進一步開放的時候,千問突然安靜地放出了一個官方灰度測試版本。
![]()
千問創作web端(c.qianwen.com)
HappyHorse 1.0,4月27日,在千問APP和千問創作Web端開啟灰測,可免費體驗。
測完我只想說一句話:AI視頻行業的分水嶺,可能真的來了。
01
鏡頭敘事:很真實、很有故事
視頻生成模型有一個很反人類的設計,就是你永遠不知道它生成的視頻在第幾秒會崩。
它們對時間維度和物理敘事的連續性理解不夠,動作到后半段就開始發散。
就像一個人跑步,前一百米姿勢標準,后一百米開始同手同腳。
HappyHorse 1.0在敘事的連貫性上,給我的感覺就是兩個字:放心。
我測了一個追求現實質感的提示詞:
手持相機拍攝,一個歐洲小男孩對著生日蛋糕吹蠟燭,真實感。HappyHorse 1.0出來的結果,從頭到尾,鏡頭的移動很自然,小男孩吹蛋糕的動作很自然流暢,每一個動作之間的過渡,都非常像拿相機拍出來的。
完全不是那種機械的鏡頭切換或者刻意的動作,是有敘事感的真實場景的動態。
生日歌、吹蠟燭的聲音,配合的都很自然,我一開始甚至會因為音畫的同步性極高,都忽視了聲音的部分。
給出大段的人物獨白,語言的呈現也很不錯,有氣口和情緒變化;輸入文本,直接生成帶自然音頻和精準口型的視頻。
在教育、電商、娛樂、新聞等場景,高質量口播視頻的生成,想象空間和應用場景都挺大的。
我還測了一個電影場景:
東京街頭雨夜,一個年輕女子獨自打著傘走近,神情似乎有一絲哀傷。這個提示詞的難點在于,人物移步換景的鏡頭切換,以及有電影效果的人物微表情的質感處理,很多模型在生成這種細膩表情時,會顯得比較生硬呆板。
HappyHorse 1.0處理得相當漂亮。
情緒表現很有層次,從最開始遠景的木然神態,到走近以后的情緒流露,以及接下來人物表情的特寫鏡頭,眼神的捕捉是到位的。
雖然是非常簡單的一句話指令,但是完成度很高,分鏡的補全和情節的推進呈現,有種導演在背后悄悄指導的錯覺。
這種連貫性,靠一般量級的數據,很難訓練出來。
看了技術文檔才知道,HappyHorse 1.0用的是150億參數的統一Transformer架構。
關鍵是它把文字理解、圖像參考、視頻生成和音頻合成全部塞進了同一個模型里。
大多數模型是先生成無聲視頻,再用另一個模型配音。兩個模型之間必然有信息損失,動作和聲音的匹配就會出現偏差。
HappyHorse 1.0用一個模型一站式解決,等于從底層避免了這個問題。
這也是為什么它能把鏡頭做得這么流暢緊湊。不是后期修的,是生成的時候就流暢。
02
空間感和動作呈現:很生動
動作連貫是現在優秀視頻模型的基本功,但HappyHorse 1.0有了空間感和更多復雜動作的呈現以后,讓我覺得整個畫面的動態質感和場景感,提升了一大截。
我嘗試了一個星際穿越風格的科幻片段:
提示詞是:在一個荒蕪的星球上,黑猩猩伸手觸碰宇航員,好奇打量。同樣的提示詞,給之前另一個比較好的視頻模型來生成,出來的畫面像是一個固定機位架在那拍,鏡頭基本不動,宇航員和黑猩猩的互動很單一,沒有深度感。
HappyHorse 1.0出來的畫面,很有推進的節奏和細節的呈現。
鏡頭從全景開始,慢慢往前推,前景的石頭、中景的猩猩和宇航員、背景的星球背景,三層空間的關系非常清晰。
鏡頭推進的時候,光影的變化是連續的,宇航員鏡面頭盔反射的光線也在跟著變化。
那種感覺就是,有點像真的有人扛著攝影機在現場拍攝。鏡頭語言是有呼吸感的,伴隨著BGM里的風聲。
給我的直觀感受是:模型對三維世界的理解能力不錯。
大多數視頻生成模型其實是在二維平面上做像素預測,它們不知道什么叫做深度,什么叫做透視。
但這個科幻場景里,我看到的,是有深度信息的三維場景的投影。
猩猩和宇航員伸手觸碰的動作,不像演的,不像生成的,連反光的影子里映出來的動作關系,都是正常合理的。就還挺驚喜的。
類似的,我還生成了一個人類和外星人的指尖碰撞。
空間的縱深、景觀的呈現、人物的動作神態,同樣很到位。
就發現HappyHorse 1.0在偏漫劇風格的呈現上,也遵循了真實電影質感的現實邏輯,不會因為是動漫就有所下降。
真人場景、幻想情景、動作交互,整體的完成度都很高。
03
經典影視風格的復刻,很戳人
說實話,看到HappyHorse 1.0在影視風格還原這塊的能力時,我作為從業者是有點感慨的。
它支持老水滸、老三國那種經典國劇的畫風,也能還原港式刑偵劇、王家衛、周星馳逃學威龍系列這些港式文藝/無厘頭風格,甚至連古早韓劇和破產姐妹那種經典美劇的質感都能拿捏。
測試了一個上海制片廠老動畫片的效果。
水墨畫,老動畫片,上海美術制片廠,一朵牡丹花徐徐綻放。很像小時候看的動畫片的片頭,接下來似乎寶蓮燈的陳香就要登場了。
荷花古裝動畫片,我也生成了一段。
提示詞:
環境音是船槳劃水的細碎聲、荷葉摩擦的輕響,配以輕柔的古箏與竹笛交織的純音樂,旋律婉轉舒緩。 我也還原了小時候特別喜歡的《三國演義》的影視風格。
提示詞:
鏡頭扭到張飛、關羽、劉備三個人,三個人倒頭睡著了那種江湖的情緒氛圍,通過視覺語言就能傳達出來。人物的長對白,一句一頓,說話時的語氣神態動作,都算傳神。
背后的技術路徑挺有意思。
模型應該不是簡單地學習某個導演的畫面風格,更像是建立了一個跨模態的風格理解系統。
它知道風格類型不只是調色和構圖,還包括情緒表達的方式、光影使用的邏輯、還有人物動作的節奏感。
從行業的角度看,可遷移的藝術風格,肯定會帶來更多更好玩的精彩作品。
以前你要做一個特定年代的懷舊風格視頻,需要美術指導、攝影指導、后期調色師等多工種配合,現在一個prompt就能把視覺基調定下來。
04
使用體驗:
從千問APP到千問創作網頁,兩個入口
我分別試了千問APP和千問創作web端兩個入口,體驗都不錯。
千問APP端,需要升級至最新版,從首頁的膠囊入口進去,找到HappyHorse 1.0模型,就可以開始生成。
![]()
界面很簡潔,支持文生視頻和圖生視頻兩種模式。
參數設置方面,視頻分辨率可以選1080p或720p,寬高比支持16:9、9:16和1:1,時長可以選5秒、10秒或15秒。音頻生成默認是開啟的,也可以手動關掉。
網頁版的界面和APP端不太一樣,有一個通用的生成面板,也可以在工作里調用。
![]()
我個人的感受是,輕度用戶用千問APP就夠了,免費而且方便。
重度用戶或者開發者可以用網頁版,因為工作流的支持意味著你可以把視頻生成集成到自己的自動化流程里。
比如你想批量生成一百條短視頻,寫個腳本調用千問創作造點的API,輸入一百個不同的提示詞,然后等著收結果就行。
這種批量化的能力,對于做內容營銷或者短視頻矩陣的人來說,價值真的大。
05
技術本質:統一架構才是真正的護城河
作為一個做AI開發的人,我其實最關心的是技術架構。
功能可以抄,參數可以堆,但架構層面的設計是決定一個模型能走多遠的核心。
大多數視頻生成模型采用的是級聯架構。
先生成關鍵幀,再插幀補全中間的動作,然后用另一個模型做超分辨率和畫質增強,最后再找一個TTS模型配音。
這種架構的好處是模塊化,每個模塊可以單獨優化。壞處是模塊之間的信息損失累積,最終輸出質量的天花板很低。
HappyHorse 1.0采用的是一個150億參數的統一Transformer模型,把所有能力塞進同一個模型里。
![]()
這個決策在工程上非常難,因為你需要同時優化文本理解、圖像生成、時序建模、音頻合成四個完全不同性質的任務。
但一旦做成了,優勢就是很明顯的。
動作和聲音之間的同步天然就是對齊的,因為是一個模型在控制。
空間感的理解更深,因為模型在生成畫面的同時也在理解場景的三維結構。
生成速度更快,因為沒有模塊之間的數據傳遞開銷。
這個架構讓我想起了一個類比。
早期的自動駕駛是分模塊的,感知一個模塊,決策一個模塊,控制一個模塊。
后來特斯拉做了端到端,用一個模型直接輸出方向盤角度和踏板力度。
結果是端到端的方案在復雜場景下的表現完勝分模塊方案。
視頻生成領域正在經歷同樣的轉變。
從級聯到統一,從分模塊到端到端,HappyHorse 1.0走在了這個轉變的最前面。
06
過去一年,視頻生成這個賽道的競爭邏輯是:誰的模型參數更大,誰的數據集更全,誰的功能列表更長,誰就是贏家。
大家比拼的是功能的有無、效果的好壞,但還沒有真正落到體驗上。
千問官方版本,HappyHorse 1.0終于開啟灰度測試了,競爭似乎也被拉到了另一個維度。
它不跟你在功能列表上卷,什么多參考幀、什么精細控制、什么局部重繪,這些它都不強調。
它強調的是最基礎的幾個東西:動作穩不穩,聲音真不真,空間感強不強,視頻效果好不好。
這幾個東西,反而是用戶最在意,但是很難啃的硬骨頭。
因為做功能的優先級高,出活快,效果好匯報。把動作做穩需要死磕底層架構,周期長,見效慢,還不一定做得出。
阿里選擇了一條更難的路,但走通之后,護城河也最深。
可以花三個月抄一個功能,但花三年也未必能重建一個統一架構的模型。
APP上開啟灰測,可以免費體驗HappyHorse 1.0,對我們用戶來說,特別友好,因為是大廠在用技術紅利換市場先機。
對于視頻生成這個行業來說,這可能就是一個分水嶺。
接下來半年,可能會看到所有主流視頻生成模型,競爭更加激烈,技術路線也會有轉移。
但轉身的速度和深度,決定了誰能留在這個牌桌上。
對我們普通用戶來說,也許這些技術爭論都不重要。
重要的是你現在打開千問APP,免費就能試用一個世界頂級的視頻生成模型。
生成速度夠快,動作夠穩,聲音夠真,敘事感夠強。
這就夠了。
最后,還有個好消息!
4月28日千問天「馬」行空創作挑戰賽將會開啟。
四大AIGC視頻賽道,優秀作品可以參與20萬現金獎池瓜分,還會有優質創作者身份、平臺積分、流量助推、線下美術館輪展、頭部時尚雜志專訪等獎勵。
感興趣的朋友可以參與~
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.