2024年,視頻生成賽道擠進幾十家公司,參數(shù)卷到百億級是常態(tài)。阿里通義實驗室扔出一顆炸彈:15B參數(shù),照片+文字直接生成帶口型的說話視頻,唇音同步誤差壓到毫秒級。
這個數(shù)字有點反常識。同期Runway的Gen-3、Pika的1.5版本,參數(shù)規(guī)模都在它的6倍以上。更小的模型做更難的事,團隊怎么想的?
從"能說話"到"像真人說話",中間隔著一個聲學鴻溝
之前的方案大多是拼接式:先讓圖片動起來,再后期配音對口型。像給木偶戲配臺詞,嘴在動,但肌肉和氣息是分離的。
阿里這支團隊換了個思路——把語音合成(TTS,Text-to-Speech)和視頻生成焊成一個模型。輸入一段文字,模型同時決定:說什么音、嘴怎么動、臉什么表情、頭怎么擺。
關(guān)鍵突破在"隱式對齊"。傳統(tǒng)方法用顯式的面部關(guān)鍵點(嘴角的坐標)去卡節(jié)奏,容易僵硬。新方案讓聲學特征和視頻特征在潛空間里自己找對應(yīng)關(guān)系,像訓練同聲傳譯,而不是查字典。
結(jié)果是:生成512×512視頻,單張A100上推理速度做到實時倍率的0.3倍。換句話說,10秒音頻對應(yīng)生成10秒視頻,實際耗時約30秒。
這個速度放在端側(cè)芯片上,已經(jīng)能跑。
15B參數(shù)的底氣:不是所有參數(shù)都在干活
模型小不代表能力弱。團隊把參數(shù)拆成三塊:文本理解(3B)、聲學建模(4B)、視頻解碼(8B)。前兩塊直接復用了通義千問的預訓練權(quán)重,相當于自帶一個讀過海量文本和音頻的"大腦"。
真正從零訓練的是視頻解碼部分。這里用了一個 trick:先訓低分辨率(128×128)打基礎(chǔ),再逐步上采樣到512×512。像學畫畫先練速寫再摳細節(jié),省算力,收斂也更穩(wěn)。
訓練數(shù)據(jù)是另一個門檻。團隊沒透露具體規(guī)模,只說是"百萬小時級"的多語言音視頻對。重點在清洗——過濾掉背景音樂嘈雜、畫面抖動、多說話人重疊的片段。干凈數(shù)據(jù)比海量數(shù)據(jù)更重要,這是語音合成領(lǐng)域的老經(jīng)驗。
評測指標上,Wav2Lip經(jīng)典的唇音同步分數(shù)(LSE-D)做到6.5以下,這個數(shù)字低于大多數(shù)開源方案,接近商用閉源產(chǎn)品的水平。用戶盲測中,"自然度"評分超過某頭部競品12個百分點。
場景落地:誰需要一張會說話的身份證照片
技術(shù)團隊列了三個優(yōu)先場景。第一是數(shù)字人客服,解決"真人錄視頻成本太高、純AI形象太假"的中間地帶。15B模型能在普通GPU服務(wù)器上部署,中小企業(yè)用得起。
第二是無障礙輔助。視障用戶需要"聽"視頻內(nèi)容,但現(xiàn)有TTS是機器聲。把新聞主播的照片轉(zhuǎn)成說話視頻,口型輔助讀唇,信息獲取效率能提一檔。
第三是內(nèi)容本地化。跨境電商把中文產(chǎn)品介紹視頻,直接生成英語、阿拉伯語版本,嘴型跟著變,不用再請外籍演員重拍。
這三個方向有個共同點:不需要電影級畫質(zhì),但要求"可信"。15B模型的定位很清晰——不做Sora那種"從無到有造世界",專解決"讓現(xiàn)有素材活起來"的剛需。
開源策略:代碼已放,但關(guān)鍵數(shù)據(jù)沒給
模型權(quán)重和推理代碼在魔搭社區(qū)(ModelScope)上線,Apache 2.0協(xié)議。但訓練代碼和完整數(shù)據(jù)集未公開——這是國內(nèi)大廠的常規(guī)操作,怕被拿去煉競品。
社區(qū)反饋分化。開發(fā)者點贊推理效率,有人用M2 Ultra MacBook Pro跑出12秒/幀的速度,雖慢但能本地跑。吐槽集中在控制粒度:目前只能調(diào)整體語速,沒法指定"這句重讀、那句停頓"的細粒度指令。
團隊回應(yīng)說下一版會加"風格標簽",比如"新聞播報""朋友閑聊""正式演講"三種模式。但真正的難題是情感連貫性——真人說話有氣息起伏、微表情變化,現(xiàn)在的輸出還是偏"穩(wěn)",少了點人味。
一個有趣的細節(jié):模型對中文方言的支持意外得好。測試者用粵語、四川話輸入,口型匹配度沒明顯掉。團隊解釋是訓練數(shù)據(jù)里多語言占比高,加上拼音和注音符號的統(tǒng)一編碼,讓模型學會了"音素級"的泛化。
這引出一個開放問題:當生成一張會說話的假視頻成本降到幾毛錢,平臺的內(nèi)容審核系統(tǒng),準備好識別"照片本人沒說過的話"了嗎?
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.