![]()
作者 | Talk君
大家好,我是talk君
“當(dāng)動(dòng)畫剛出現(xiàn)時(shí),人們?cè)ち曳纯埂F(xiàn)在AI也正發(fā)生極其相似的事情,但技術(shù)無(wú)法阻擋。”
夢(mèng)工廠前CEO Jeffrey Katzenberg的這段話,如今在紅衫資本最新播客中再次被Fal.ai創(chuàng)始團(tuán)隊(duì)引用。
作為OpenAI Sora、Google Veo及可靈等600多個(gè)模型背后的算力基建提供商,F(xiàn)al.ai站在一個(gè)獨(dú)特的位置觀察著整個(gè)行業(yè)變遷。
在他們看來(lái),視頻生成領(lǐng)域正經(jīng)歷著極端的速度與殘酷——頂級(jí)模型的領(lǐng)先優(yōu)勢(shì)只能維持短短30天,生成一段5秒視頻的算力消耗甚至是處理一次ChatGPT對(duì)話的10000倍。
算力黑洞:視頻生成的物理極限
大語(yǔ)言模型和視頻模型在底層架構(gòu)上是兩個(gè)完全不同的物種。LLM(大語(yǔ)言模型)的核心瓶頸是“內(nèi)存帶寬”,如同搬運(yùn)工的苦惱,預(yù)測(cè)每一個(gè)字都需要在龐大參數(shù)庫(kù)中“搬運(yùn)”一遍。
視頻擴(kuò)散模型則面臨“計(jì)算能力”的瓶頸,它需要同時(shí)對(duì)數(shù)萬(wàn)個(gè)Token進(jìn)行復(fù)雜的去噪和注意力計(jì)算,瞬間榨干GPU的每一個(gè)計(jì)算單元。
生成一張圖片相當(dāng)于處理100個(gè)LLM Token,而生成一個(gè)5秒視頻相當(dāng)于生成100張圖片。
如果換算下來(lái),生成一段短視頻的算力消耗是處理一次文本對(duì)話的10000倍以上。若追求4K畫質(zhì),這個(gè)數(shù)字還要再翻10倍。 這意味著視頻生成是目前所有AI模態(tài)中對(duì)算力消耗最恐怖的領(lǐng)域,沒(méi)有之一。
30天生死線:模型競(jìng)爭(zhēng)的殘酷節(jié)奏
在這個(gè)重工業(yè)賽道上,競(jìng)爭(zhēng)的殘酷性以另一種形式呈現(xiàn)。如果說(shuō)大語(yǔ)言模型領(lǐng)域已逐漸演變?yōu)樯贁?shù)巨頭盤踞的“帝國(guó)之戰(zhàn)”,那么視頻生成領(lǐng)域,則更像一片“黑暗森林”。
在這里,沒(méi)有永恒的王者。一個(gè)模型可能因?yàn)槠潴@人的物理模擬能力或獨(dú)特的藝術(shù)質(zhì)感,在社區(qū)中引發(fā)狂歡,登上排行榜首位。
但它的王座極不穩(wěn)定。新的挑戰(zhàn)者可能在幾周后,就從另一個(gè)維度實(shí)現(xiàn)突破——或許是更精準(zhǔn)的人體動(dòng)力學(xué),或許是更豐富的風(fēng)格化表現(xiàn)。
Fal.ai觀察到的“前五名模型平均霸榜期僅30天”的現(xiàn)象,描繪的正是這種令人窒息的迭代速度。
這形成了視頻生成領(lǐng)域獨(dú)特的“30天生死線”。你的技術(shù)優(yōu)勢(shì)窗口期短暫得可怕。開(kāi)發(fā)者與創(chuàng)作者是務(wù)實(shí)而“貪婪”的,他們不為任何單一品牌的“信仰”買單,他們只追隨當(dāng)下最能解決實(shí)際問(wèn)題的工具。
于是,我們看到一個(gè)有趣的現(xiàn)象:一個(gè)成熟的工作流,往往由十多個(gè)各司其職的專門化模型串聯(lián)而成。從構(gòu)圖、生成、到修復(fù)、超分,創(chuàng)作者像樂(lè)隊(duì)指揮,調(diào)配著不同的“樂(lè)器”(模型)。
這種生態(tài),使得單一模型試圖建立壟斷的難度大大增加。因?yàn)橐曈X(jué)的“好壞”與“風(fēng)格”有強(qiáng)烈的主觀性,開(kāi)源社區(qū)得以蓬勃生長(zhǎng),不斷從底部孕育挑戰(zhàn)者。
競(jìng)爭(zhēng),不再是爭(zhēng)奪一個(gè)終極的“通用智能”,而是爭(zhēng)奪在某個(gè)細(xì)分需求上、某個(gè)特定時(shí)間段內(nèi)的“最佳工具”地位。這是一場(chǎng)沒(méi)有終點(diǎn)、也無(wú)法停歇的極限越野。
好萊塢的反擊:從恐慌到掌控
半年前,AI生成視頻的早期演示,確實(shí)讓 好萊塢 引發(fā)了一陣真實(shí)的焦慮。但焦慮的本質(zhì),并非恐懼被取代,而是恐懼在理解新工具的速度上落后。
如今,風(fēng)向已然轉(zhuǎn)變。那些擁有百年敘事積淀、頂級(jí)人才庫(kù)和龐大知識(shí)產(chǎn)權(quán)寶庫(kù)的娛樂(lè)巨頭,正迅速完成從“恐慌”到“掌控”的心態(tài)切換。
它們開(kāi)始意識(shí)到,AI生成技術(shù),更像數(shù)字時(shí)代給予的又一枚強(qiáng)大的“畫筆”或“攝像機(jī)”,而不是一個(gè)會(huì)自主編寫劇本、顛覆行業(yè)的“天網(wǎng)”。
它的核心價(jià)值,在于將那些曾經(jīng)因成本過(guò)高而無(wú)法實(shí)現(xiàn)的視覺(jué)想象(如宏大的奇幻場(chǎng)景、復(fù)雜的生物角色)變得觸手可及,從而解放而非替代創(chuàng)作者的敘事野心。
杰弗瑞·卡森伯格的洞察在此刻尤為深刻:技術(shù)降低了制作“畫面”的門檻,但從未降低創(chuàng)作“好故事”的門檻。
情感共鳴、人物弧光、主題深度——這些構(gòu)成作品靈魂的元素,依然是人類創(chuàng)作者無(wú)可替代的領(lǐng)域。AI的到來(lái),可能不會(huì)立刻催生出顛覆《教父》的電影,但它一定會(huì)催化出一批全新的、在真人電影經(jīng)濟(jì)模型下根本不可能存在的視覺(jué)內(nèi)容物種。
教育:生成式視頻的第一個(gè)主戰(zhàn)場(chǎng)
出乎意料的是,生成式視頻最先可能徹底改變的領(lǐng)域不是娛樂(lè),而是教育。 教育是一個(gè)長(zhǎng)期被內(nèi)容生產(chǎn)成本鎖死的行業(yè)。
教育的核心問(wèn)題從來(lái)不是“有沒(méi)有需求”,而是能否以足夠低的成本持續(xù)生產(chǎn)高質(zhì)量、適配個(gè)體的內(nèi)容。
今天的大多數(shù)教育內(nèi)容本質(zhì)上仍是文本和靜態(tài)圖像的組合,不是因?yàn)樗鼈冏詈茫且驗(yàn)檫@是目前唯一負(fù)擔(dān)得起的規(guī)模化方式。
生成式視頻讓另一種可能性變得現(xiàn)實(shí):同一個(gè)概念可以用不同風(fēng)格、不同節(jié)奏、不同隱喻去呈現(xiàn)。 當(dāng)“講解方式”本身變成可生成、可調(diào)節(jié)的變量,學(xué)習(xí)將不再是對(duì)抗,而是協(xié)作。
未來(lái)圖景:新物種的誕生
Fal.ai團(tuán)隊(duì)對(duì)未來(lái)12個(gè)月的預(yù)測(cè)充滿了想象力:一年內(nèi),我們將看到完全由AI生成的、長(zhǎng)達(dá)20分鐘且劇情連貫的短片。由于無(wú)需拍攝真人,非寫實(shí)風(fēng)格將率先爆發(fā)。
視覺(jué)化教育也將成為可能。未來(lái)的維基百科可能不再是文字,而是實(shí)時(shí)生成的解說(shuō)視頻。更進(jìn)一步的設(shè)想是“一次性游戲”——從“文生視頻”進(jìn)化到“文生游戲”。
用戶輸入一個(gè)想法,AI生成一個(gè)玩完即扔的專屬小游戲,這將徹底改變互動(dòng)娛樂(lè)的定義。
Fal.ai的70人團(tuán)隊(duì)支撐著45億美元的估值,服務(wù)著從Adobe到Shopify的200多萬(wàn)開(kāi)發(fā)者。 但比這些數(shù)字更震撼的是他們揭示的行業(yè)真相:模型層面的競(jìng)爭(zhēng)已變得如此激烈,以至于真正的價(jià)值正在從模型本身向運(yùn)行層轉(zhuǎn)移。
在硬件架構(gòu)出現(xiàn)革命性突破之前,算力瓶頸將死死卡住視頻AI大規(guī)模普及的咽喉。 而最終留下來(lái)的,不是技術(shù)最先進(jìn)的一方,而是最懂得如何與觀眾建立關(guān)系的一方。
你對(duì)此有什么看法?歡迎評(píng)論區(qū)留言討論~
趕緊關(guān)注視頻號(hào)@一刻talks吧!
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.