无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

視頻模型巨大的「隱形成本」,沒人告訴你

0
分享至


只能是巨頭的游戲。


作者|
宇航猿

編輯|靖宇

關于 AI 燒錢,業內流傳著各種令人瞠目結舌的數字。xAI 花了超過 10 億美元建起 Colossus 超算集群;OpenAI 的月度算力賬單據稱高達數億美元;Anthropic 最近幾輪融資拿到的錢,在公眾眼里幾乎已經和「GPU 時數」直接畫上了等號。

大家談的,幾乎都是算力。GPU 成了衡量一家 AI 公司實力的通用貨幣,也是每一篇融資報道里最顯眼的那個數字。

但最近,我聽了一期 Latent Space 播客,采訪對象是 xAI 前研究員 Ethan He——Ethan 在 2025 年中加入 xAI 時,面對的是一個沒有基礎設施、沒有數據、沒有現成模型的白紙狀態,然后用三個月時間和一支小團隊,從零搭建出了 Grok Imagine 視頻生成系統,做到了當時業內的一流水準。

在聊到大規模視頻模型的訓練成本時,他說了一組數字,讓我突然意識到,這個行業可能一直在算錯了賬。

光是存儲這些視頻和特征數據,每個月就要幾百萬美元——這還沒算算力成本。」

01

賬單上的隱藏成本

從零到一,開始訓練一個視頻大模型,需要花多少錢?先假設你的團隊有礦,GPU 算力隨便用。即便如此,你可能依然低估了這件事的巨量成本。

假設你要訓練一個世界級的視頻生成模型,去網上爬取了 10 億條視頻,每條平均 5MB——這已經是相當保守的估計了。光這一項,你就需要 5PB(拍字節)的存儲空間。按照 AWS S3 的定價,5PB 標準存儲,每個月大約 10 萬美元。

但這還只是原始視頻。

在訓練視頻模型之前,業界通行的做法是先用 VAE(變分自編碼器)把視頻壓縮成「潛在空間」的特征向量——因為一段視頻展開成像素,可能有幾十億個 token,任何 Transformer 都處理不了,必須先壓縮成模型能理解的連續向量。

問題是,這份壓縮后的特征數據,體積和原始視頻相當,同樣需要長期存儲,隨時備用。

兩項疊加,數十 PB,每月存儲費就超過 20 萬美元

然后是最出乎意料的那一項:數據進出費(egress/ingress)。

Ethan 說,從互聯網下載 10 億條視頻的帶寬費用,在 AWS 上比存儲這些視頻還貴。每次訓練,數據都要從存儲層拉到計算層跑一遍。視頻模型的訓練不像語言模型那樣訓完就完了——要迭代,要調參,要測試不同的數據配比,每一次實驗都意味著把全量數據再過一遍。實驗跑得越多,這筆錢就乘以相應的倍數。


綜合算下來,Ethan 的估算是,光是數據這一塊,每個月就要幾百萬美元。GPU 的費用,還沒開始計入。

這筆賬,我從來沒見哪篇 AI 行業報道細算過。

02

扛不住的帶寬費

那像 xAI 這樣自建 Colossus 數據中心的公司,是不是在存儲和帶寬上省了一大筆錢?

Ethan 的回答很直接:「當然,省了很多。」

這句話背后,藏著視頻 AI 行業一個不太被討論的結構性秘密。

大語言模型的訓練數據是文本,體積相對輕量,而且訓練完成之后,原始數據基本就完成了使命——你不需要反復拉取全量語料來做推理或微調。但視頻數據完全不同:體積是文本的幾個數量級,而且每一次訓練實驗都要把全量數據完整過一遍

迭代速度越快,數據搬運的成本就越高;而 Ethan 反復強調,迭代速度,恰恰是視頻模型研發中最關鍵的變量

這就形成了一個相互咬合的困局:你需要快速迭代來提升模型質量,但快速迭代意味著頻繁搬運數據,而頻繁搬運數據在公有云上的賬單會把你壓垮。

Ethan 本人的軌跡就是一個注腳。他在 NVIDIA 參與構建了 Cosmos 世界模型,做著做著意識到,視頻模型存在和語言模型類似的「規模定律」,還有很大的提升空間。他當時面臨的選擇,表面看是「我需要更多 GPU」,但同樣關鍵的一句話他沒明說——他需要一個不用按 AWS 賬單算錢的地方,來存放和搬運數據。這也是他去 xAI 的根本原因之一,而 Colossus 給了他那個環境。

對于沒有自建基礎設施的團隊來說,這筆賬是怎么算的?每個月幾百萬美元的數據成本,疊加在 GPU 算力之上,意味著哪怕你有一流的算法團隊,哪怕你募到了足夠的資金,只要你還在用公有云,你就是在用一個無底洞的賬單跟對手的自建機房賽跑。

這道門檻,不是一家有優秀算法的創業公司能靠「技術取勝」跨過去的。

03

視頻模型的護城河不是模型

這讓我想起一個有趣的對比。

在大語言模型領域,「開源 vs 閉源」的競爭打得相當激烈,Llama 系列的出現讓很多小團隊也能在語言模型上打出有競爭力的產品,甚至逼著 OpenAI 和 Anthropic 不斷壓低 API 價格。但在視頻生成領域,我們看到的格局截然不同:能持續做出頂尖視頻模型的,基本只有 Sora、Veo、可靈這些背靠巨量資源的團隊,沒有一家是靠開源社區在車庫里跑出來的。

很多人把這歸結為「數據和算力的差距」。這當然沒錯,但 Ethan 揭示的這組數字告訴我們,問題比這更深:視頻 AI 的基礎設施成本,從一開始就把競爭的門檻,鎖死在了極少數玩家的高度上。

這和半導體行業的邏輯有幾分相似。臺積電之所以難以撼動,不只因為它們有更好的設計,更因為一座新晶圓廠需要幾百億美元的前期投入,這道門檻本身就是最好的護城河。視頻 AI 的護城河,就是那數十 PB 的數據基礎設施和每月滾動產生的帶寬賬單。

Ethan 在播客里還補充了一個更深的推論:視頻模型的「智能」,大部分其實來自背后的語言模型,而不是視頻擴散模型本身

視頻擴散模型相對「愚鈍」,它只會按照文字描述照單全收地生成畫面,描述寫「一只貓」,它就生成一只貓,站在純白背景前,紋絲不動——因為你沒有告訴它背景是什么、貓在做什么。

真正理解用戶意圖、把「一只貓」擴寫成一段精細的鏡頭語言描述的,是背后那個做「提示詞重寫」的大型語言模型。Ethan 說,在 Cosmos 時期,他曾經用一個「快樂的羊」做測試:不經過提示詞重寫,生成出來的畫面極其 CGI、毫無質感;加上重寫之后,效果判若云泥——而整個視頻擴散模型本身,并沒有發生任何改變。

這意味著,決定一家公司在視頻 AI 領域能走多遠的,不只是視頻模型的參數規模,而是能否同時撐起語言模型和視頻模型這兩套基礎設施,并讓它們有效協同。

這是一場拼綜合體力的競賽。

04

下一個戰場,早就被劃好了

當然,行業也在摸索出路。

提示詞重寫的 Agent 化、讓語言模型像「指揮官」一樣調度多個視頻生成工具、用 FFmpeg 這類傳統軟件處理中間環節——這些方向的共同邏輯是,把「語言模型的推理成本」和「視頻擴散模型的生成成本」分層計算,讓每一次視頻生成的調用更加精準,減少無效的計算和數據搬運。

Ethan 對「視頻 Agent」的走向相當篤定。他預測今年年底將出現一個拐點——當 Agent 生成的視頻質量能夠穩定達到「可投放商業廣告」的水準,企業才會真正愿意為之買單,整體的成本結構也會隨之演變。

但有一點不會變:誰掌握了數據的存儲和流轉,誰就掌握了這場游戲的起點。

在 AI 這個賽道上,「真正的壁壘」每隔一段時間就會輪換一次。先是參數量,然后是訓練數據規模,然后是對齊技術,然后是推理效率。現在,視頻 AI 正在揭示下一道壁壘——不是某種神秘的算法突破,而是一份冷冰冰的基礎設施賬單。

這筆賬,從一開始就沒打算讓所有人都算得起。

*頭圖來源:iMini AI

本文為極客公園原創文章,轉載請聯系極客君微信 geekparkGO

WWDC26 開場,6 月 9 日午間 12:00,極客公園直播間帶你解讀:會發光的 Siri 來了,換上谷歌大腦還算蘋果嗎?一向把門關得最緊的蘋果,為什么主動向模型廠敞開大門?庫克在 AI 落后的節點交班,留給我們的又會是一個什么樣的蘋果?



特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
曝宋珍珍前后對比照!手握三個選美冠軍,最終一無所有,豪門夢碎

曝宋珍珍前后對比照!手握三個選美冠軍,最終一無所有,豪門夢碎

一盅情懷
2026-06-10 17:41:25
醒醒吧!沒水平就別硬開演唱會,觀眾抵制聲一片

醒醒吧!沒水平就別硬開演唱會,觀眾抵制聲一片

一娛三分地
2026-06-09 21:37:49
南昌小米SU7 Ultra燒成空殼!官方回應:車輛沒碰撞,電池也正常

南昌小米SU7 Ultra燒成空殼!官方回應:車輛沒碰撞,電池也正常

聽心堂
2026-06-08 20:42:10
年輕妻子“戴綠帽”,搏擊拳手狂毆妻子5小時,最終活活被打死!

年輕妻子“戴綠帽”,搏擊拳手狂毆妻子5小時,最終活活被打死!

深夜探案館
2026-06-10 09:45:18
6.11凌晨:乒乓球賽國乒男線全軍覆沒,王楚欽兩個接班人慘敗

6.11凌晨:乒乓球賽國乒男線全軍覆沒,王楚欽兩個接班人慘敗

郝小小看體育
2026-06-11 01:11:17
在荷蘭上班的華人感慨:不要信媒體,荷蘭已經相當于我國二線城市

在荷蘭上班的華人感慨:不要信媒體,荷蘭已經相當于我國二線城市

史行途
2026-06-10 20:17:13
遲到一分鐘被拒后續:知情人透露更多細節,原來有三次救命機會!

遲到一分鐘被拒后續:知情人透露更多細節,原來有三次救命機會!

云舟史策
2026-06-10 14:45:00
南昌女孩缺考越扒越有!班級前2能上985,老師犀利嘲諷,家長發聲

南昌女孩缺考越扒越有!班級前2能上985,老師犀利嘲諷,家長發聲

奇思妙想草葉君
2026-06-10 18:02:07
2026NBA總決G4即將打響

2026NBA總決G4即將打響

體壇周報
2026-06-11 05:58:14
國家發展改革委:抓緊研究儲備一批針對性、操作性強的政策工具 根據需要及時出臺實施

國家發展改革委:抓緊研究儲備一批針對性、操作性強的政策工具 根據需要及時出臺實施

財聯社
2026-06-10 19:15:11
隨著沙特0-2,土倫杯最新積分榜出爐:中國隊排名下跌,徹底出局

隨著沙特0-2,土倫杯最新積分榜出爐:中國隊排名下跌,徹底出局

側身凌空斬
2026-06-10 21:41:01
央視突襲!每天塞嘴里的,竟是化工廢桶加爛拖鞋做的,官方已出手

央視突襲!每天塞嘴里的,竟是化工廢桶加爛拖鞋做的,官方已出手

史料布籍
2026-06-10 11:57:31
越來越重、越來越“胖”的新能源車,正在壓垮什么?

越來越重、越來越“胖”的新能源車,正在壓垮什么?

新民晚報
2026-06-09 11:09:16
越鬧越大!宋珍珍再曝猛料,除了陳濤以外,還被很多深圳老板睡過

越鬧越大!宋珍珍再曝猛料,除了陳濤以外,還被很多深圳老板睡過

小鋭有話說
2026-06-10 00:04:26
“電梯門”不雅視頻女主角,危險了!

“電梯門”不雅視頻女主角,危險了!

仕道
2026-06-10 10:34:50
央視怒批、中紀委點名,這次中央下狠手了

央視怒批、中紀委點名,這次中央下狠手了

細說職場
2026-06-10 19:00:46
上海民企控告法官枉法!法院領導:裁定有問題,請給法官成長機會

上海民企控告法官枉法!法院領導:裁定有問題,請給法官成長機會

兵叔評說
2026-06-10 15:07:11
加油站的女員工也開始擦邊了…

加油站的女員工也開始擦邊了…

微微熱評
2026-06-10 22:11:33
美股深夜跳水!納斯達克指數跌幅擴大至近2%,加密貨幣全線大跌,白銀重挫

美股深夜跳水!納斯達克指數跌幅擴大至近2%,加密貨幣全線大跌,白銀重挫

每日經濟新聞
2026-06-10 23:40:52
舉報成風,正在毀掉中國教育的根基!

舉報成風,正在毀掉中國教育的根基!

霹靂炮
2026-06-09 22:40:49
2026-06-11 06:11:00
極客公園
極客公園
讓最棒的創新成為頭條
12146文章數 78907關注度
往期回顧 全部

科技要聞

史上最大IPO將至:1.8萬億美元的信仰豪賭

頭條要聞

杭州店主回應2188元天價面:一天200個電話不分晝夜罵

頭條要聞

杭州店主回應2188元天價面:一天200個電話不分晝夜罵

體育要聞

2026世界杯,我們看什么?

娛樂要聞

蒙淇淇發文開撕白鹿!輿論再次反轉

財經要聞

SpaceX IPO或誕生4000名百萬富翁

汽車要聞

埃安i60 530寧德時代版上市限時煥新價10.36萬起

態度原創

藝術
游戲
數碼
家居
公開課

藝術要聞

驚嘆!最新一組超質感的國際人像攝影作品

《神鬼寓言》游民前瞻:時隔十多年的華麗重生

數碼要聞

Marshall發布Stockwell III:售1699元 搭載360°環繞立體聲

家居要聞

空間微調 移形換境

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版