文|王欣逸 李嘉星
編輯|周鑫雨
一家Day 1就在做多模態大模型的公司,無法拒絕參與到具身智能和世界模型熱潮之中。
2026年,隨著Seedance 2.0、GPT Image 2.0等模型的爆火,多模態能力越來越成為行業內繞不開的關鍵詞。5月19日,智象未來首屆開放日上,智象未來給出了他們的判斷和回答:“原生多模態是實現AGI的必經之路。”
本場開放日活動主題為“Imaging the World”,不過,對于智象未來而言,「World」的重要性,幾乎要放在「Video」和「Image」之前了。
“我們的終極目標是打造世界模型。”智象未來CEO梅濤在活動中反復提及這一觀點,在他的定義中,智象未來要做一家原生多模態大模型公司。
在梅濤看來,一個真正的世界模型需要同時滿足多個條件:掌握物理規律、解決長時間跨度的因果推理、實現全模態交互以及絕對的安全性。
當下業界主流的世界模型訓練路線可以分為李飛飛的“生成3D世界”一派,以及Yann LeCun的“自監督預測世界”一派。
智象未來則做出了不同的選擇——做算法和架構層的創新,從世界模型訓練中最稀缺、成本最高的多模態數據入手,率先聚焦在視頻、圖像、3D交互等數據的生成上,用低成本的合成數據對抗行業數據稀缺瓶頸,并從中積累一些在世界模型上可復用的視覺模型能力。
具體而言,他們要讓多模態模型從構建之初就擁有理解真實世界規則的能力。原生全模態Unified Transformer(UiT)架構能做到“Any to Any”(任何形式輸入支持任何形式輸出),這也正是世界模型所需要的能力:在統一架構中理解、生成并預測現實世界的不同狀態。
過去一段時間,他們做出了從“模型即產品”到“做Agent平臺”的轉變。
作為一家主要面向To B的公司,他們概括自己的打法是做一個“1+1+3”MaaS(軟件即服務)平臺,分別為底層的HiDream系列大模型、中間層的HiHarness企業服務平臺,以及上層三大場景的應用:商業營銷、影視創作、社媒創作。
概念火熱的同時,資本也在不斷押注。繼上個月拿到安徽省產投、東方富海等機構參投的5億人民幣B輪融資之后,智象未來又火速官宣了下一輪融資,兩周內再次完成億元級新一輪融資。
一系列競爭也隨之而來,當下的模型能力越來越強,在和海內外基模廠商爭奪模型市場的同時,智象未來還要攥緊他們手中的新牌——MaaS平臺,并瞄準視頻生成領域的垂類賽道,開展和大公司的爭奪戰。
在智象未來開放日結束后,《智能涌現》等媒體和智象未來CEO梅濤,以及其投資人東方富海合伙人王兵聊了聊,以下為對話實錄(略經摘編)。
很多具身智能公司低估了視頻模型的重要性
問:在大家的認知當中,智象未來之前做圖像和視頻比較多,從二維的圖像、視頻,到三維的物理世界,你們的戰略轉型是怎么發生的?
梅濤:目前大家將市面上一些模型稱之為世界模型還太早了。世界模型有不同的路徑,未來可能也會有多種可能性。
到今天為止,我們不會去對外聲明我們目前是一家世界模型公司,我們更傾向于將智象未來定義為原生多模態大模型公司。
智向未來更關注原生的全模態大模型及其應用領域,不過,原生多模態大模型公司在將來肯定會通往世界模型。
問:現在很多公司都自稱在做“世界模型”,但外界對這個概念的定義很模糊。您如何界定智象未來所追求的“世界模型”?
梅濤:我們會非常嚴謹地認為智象未來做的是原生多模態的模型,在邁向世界模型的過程中,會比較聚焦在視頻、圖像、3D交互這些數據的生成上。
問:智象未來從拼接式多模態升級為原生多模態,這在技術上出現了什么拐點?目前技術是否成熟?
梅濤: 多模態生成領域的技術尚未收斂,這正是創業公司的機會。如果技術完全收斂、統一采用DIT框架,我們也就沒有空間了。
正因為技術沒有快速收斂,我們才能通過算法創新,以少量資源實現與大廠同等的效果,而非單純去拼數據與算力。
問:從全模態大模型到世界模型,需要還需要達成哪些成熟的技術條件?
梅濤:第一是掌握物理規律,包括流體力學、固體力學、分子動力學和牛頓定律等,目前行業還難以全面枚舉和掌控;
第二是解決長上下文的因果關系問題;
第三是實現與物理世界的全模態交互,比如機器人怎么拿起杯子、擰開蓋子、倒水并判斷用戶需求,這離我們還有相當長的距離;
第四是安全性,機器人如果進入家庭,必須保障百分之百的安全,避免對人身或貴重物品造成損害。
我們現階段更務實的選擇是關注原生多模態問題,既能實現商業化落地,也能為未來邁向世界模型做好技術積淀。
問:很多視頻生成模型公司都在卷長視頻、真實性,在邁向世界模型的過程中,這些指標會發生改變嗎?
梅濤:世界模型強調的是生成世界的能力,包括邏輯關系、視覺效果等。
我們對自己的視頻模型有三個維度的要求:
第一是模型能力,即視覺內容的合理性、質量,與物理規律的符合度,在模型能力上我們必須瞄準天花板來做;
第二是視頻時長,我們目前能做到分鐘級的生成,甚至在技術上可以做到3分鐘、5分鐘甚至無限長;
第三是實時性與交互能力,當模型花1分鐘就能生成出1分鐘時長的視頻,那基本就可以實現交互了。我希望我們的產品可以朝這個方向努力,比如通過算法提供低質量的預覽,用戶確認后再輸出高精度的2K或4K視頻。
問:在訓世界模型的過程中,數據是比較稀缺的資源。您認為世界模型的數據獲取、清洗和標注策略,和之前訓圖像、視頻模型相比有什么不同?
梅濤:模型訓練過程包含三個要素:算法、數據和算力。
倘若算法框架固定下來,剩下的就是在比拼數據和算力了。舉個例子,如果大家都在用DiT(Diffusion Transformer)架構做視頻模型的話,數據的質量、分布以及數據標注的質量,對模型能力相當重要。
不過,一旦算法和架構發生了變化,或者出現了新的架構和新的算法,數據的重要性就會弱一點。這也是創業公司的機會所在——我們不完全拼算力和數據,而是關注算法本身的創新。
回到數據層面來看,為了獲取高質量真實的數據和反饋,我們做了一套工具鏈條,用以收集、清洗和標注這些數據。
我們擁有20萬小時有影視版權的視頻數據,和不少廠商保持著合作關系,同時也正尋求和頭部擁有版權數據的影視公司的合作。
世界模型的數據情況與視頻模型有所不同,世界模型數采需要全方位多模態的數據,成本更高,且更為稀缺。因此,智象未來在做的是,將其他廠商采集到的毫米級真人實操數據,用視頻模型生成萬份級不同場景、膚色的真人數據,并用這些真實數據及機器合成數據訓練VLA(Vision-Language-Action,視覺-語言-動作模型)和WAM(World Action Model,世界動作模型)。
問:用純真實數據訓模型,和用機器合成數據訓模型,效果會有所不同嗎?
梅濤:我們會進行小規模的驗證,形成從數據到模型訓練的閉環。具體來說,就是看用機器生成的數據對市面上普通的乃至最好的VLA和WAM模型有沒有好處,反推去驗證數據的有效性。
問:您曾提到,很多具身智能公司低估了視頻模型的重要性。您為什么認為沒有視頻模型,具身智能很難走遠?
梅濤: 現在具身智能公司的模型規模普遍很小(不到100B)。如果真要承擔類似世界模型的復雜任務,靠小模型和有限的數據采集,不太可能實現廣泛的泛化。
我們做的是全球唯三、能夠達到千億規模的多模態模型。如果沒有一個堅實、厚重的底座模型,做具身智能很難實現很好的泛化,即便在特定場景里因為有數據采集能做一點,也很難擴展到其他場景。
多模態模型Token的毛利率,遠遠高于大語言模型
問:今年初,Sora的關停下架對國內視頻領域的創業者產生了一定影響,這會影響投資人的投資決策嗎?
王兵:不會, 因為這是OpenAI的戰略。目前在Coding領域,OpenAI被Anthropic壓得很厲害。在有限的資源和競爭之下,OpenAI可能自然把短期內難以賺錢的圖像、視頻模型的優先級放低了。
但從去年到今年,整個圖像和視頻模型行業的商業化進展非常快,比如可靈、Seedance 2.0等,在收入上表現是不錯的。
不過,視頻生成賽道真實存在的可能是版權問題,這也是我們選擇投智象未來的重要原因,智象的所有的數據都是合法、有版權的。
在大模型特別燒錢的背景下,我們特別看中企業如何用最有效的方式和大公司進行差異化競爭。具體來說,一方面,企業怎樣用較低的成本做出能力比肩頭部大廠的基模,并做好研發效率和資金效率;另一方面,企業能利用先進技術,快速落地到不同的商業場景中,差異化做好B端場景服務。
問:視頻模型真的能賺錢嗎?
王兵:它一定會賺錢。
第一是算力成本一定會指數級下降,英偉達每年推出的芯片算力都是上一代的5-10倍,但價格幾乎沒有漲太多,因此算力的平均價格每年都在下降。
你今天看到不賺錢的項目,可能過兩年就開始賺錢了,因為算力成本在不斷下降。
第二是,過去幾年,圖像和視頻的生成效果無法達到商業化的水準,但今年,我們可以看見包括AI短劇、短視頻、電商視頻的質量幾乎都能實現商業化。在影視、廣告等幾乎所有視頻領域應用場景中,AI一定會取代絕大部分的人工。
問:在視頻生成行業做To B服務,毛利率能實現為正嗎?
梅濤:To B的毛利率挺高的,同時,多模態模型Token的毛利率也遠遠高于大語言模型Token的毛利率。
問:衡量視頻賽道企業是否到達商業化的節點,有什么樣的標準嗎?
王兵:我們觀察了這個賽道很長時間,一直沒有下手的原因是,我們還不清楚什么時間點品質和成本能夠達到商業化水平。
從去年開始,我就感覺那個“點”就快到了,同時我們也在等那個最合適商業化的轉折點。這個“點”一定會來,而且就目前來看,它到來的時間比我們想象的要快。
從具體對企業的衡量標準來看:第一個是團隊技術背景,團隊是該領域的開拓者且經歷了很長時間的積累;第二個是穩定性,團隊的人才密度很高,能持續保持穩定;第三個是資金效率、研發效率以及團隊長期的專注力。
問:您對視頻生成賽道創業公司的商業化路徑選擇是怎么看的?
王兵:在算力成本大幅下降之前,盡量不要在To C上和巨頭公司打起來。
以智象為代表的創業公司,先做To B肯定是對的,通過做To B,企業能提升產品的邏輯能力、場景落地的能力,在沒有燒很多錢的同時還能實現一定的收入。
問:平臺與各大模型平臺的合作模式與分成機制是什么?分傭比例方便透露嗎?在電商、短劇上又存在什么樣的合作模式?
梅濤: 行業共識是,沒有一家廠商的模型能滿足客戶所有要求。所以我們打造了MaaS平臺,既沉淀自研的多模態能力,也接入Deepseek等第三方大語言模型,滿足客戶端到端的需求。平臺上沉淀了大量API與Skills,用戶貢獻行業技能,我們會與之分傭。
在電商短視頻廣告上,我們有三種收費模式:一是按Token售賣工具;二是RaaS素材服務;三是按GMV分傭,比例在15%至 30%。
短劇方面,我們現階段主要是給承制方提供AI制作工具,目前不分傭。如果遇到一些精品短劇制作方,比如我們和安徽電視臺、華策的合作,我們會聯合承制和發行,這種模式下就會有分傭了。
問:您之前提到,AI時代不卷是不行的。今年你們調整了公司的戰略,要做“1+1+3”MaaS平臺,是什么時間點或者市場體感推動您做出這樣的決定?
梅濤:我們是科學家創業背景,習慣腳踏實地做事。但真正對我們觸動比較大的是Minimax、智譜等企業港股上市表現優異。在二級市場上,大家對中國AI公司的估值和信心很強,這讓我們意識到需要提升品牌敘事能力。
在一級市場的體感上,2023年大家更看重模型效果,但2024年底至2025年更看重商業化成績,今年大家開始向海外對標模型能力。
今年,一級市場和二級市場的投資人都開始轉向模型能力本身,都意識到模型就是產品,產品就是商業化。
我們一直都是同時做模型和商業化。很難說某一家公司的模型排名始終全球第一,如果沒有及早建立商業化壁壘、沒有用戶心智和行業屬性,模型能力上去了,商業化很難跟上。我認為模型和商業化需要兩手抓。
問:從賣通用工具轉到開始賣端到端Agent,你們團隊內部有沒有battle過?
梅濤:這個爭論一直有。
最開始我們覺得模型能力就是產品,因此我們把模型做成了一個簡單的C端應用,結果發現并不是這樣。除了開發者,普通B端用戶不會自己寫代碼去調用模型,而是要有一個Agent作為中間層。
所以從創業第一天起,我們就堅定要做B端的企業服務。關于商業化的大方向我們沒有任何搖擺,To B、To C我們都做,但中間我們搖擺過到底是做SaaS還是做RaaS(內容即服務),包括為什么選擇做內容電商,而不是傳統的貨架電商。
我們踩過很多坑才發現,做貨架電商其中的視頻或圖片可能很長時間不會更換,你很難證明其中的價值。但內容電商的客戶每個月要消耗大幾千條短視頻,超級客戶一年要幾十、上千萬條,這不可能都用人工來拍,這就是端到端Agent的價值所在。
問:你們想做企業服務的模式是指什么?
梅濤:首先,我們不做定制化。我們團隊規模才兩三百人,但已經服務4萬家的中小型企業客戶、4000萬個人用戶以及100多家頭部客戶。
我們的企業服務主要包括三方面,一是直接做To 大B、To 小B或者To C模式的服務,二是和平臺型企業合作,三是通過自己的平臺,服務中小型客戶。
在AI行業,企業服務不同于傳統的B端客戶,我們提供標準化的產品和服務,這些客戶更像是小B或大C,可能是一個團隊,也可能是一個人。
行業還沒出現能一統天下的模型
問:目前國內外大廠都在布局世界模型和視頻模型,智象未來準備如何面對這些愈發激烈的競爭?
梅濤:這個問題可以拆解為兩個方面:
第一,智象如何實現和大廠的共存?
我們可以把整個行業分成三層,第一層是做C端流量入口的平臺,如字節、阿里、Google等有流量分發能力的公司;第二層是做底層基座大模型的公司,如Anthropic、OpenAI、也包括字節、阿里;第三層的公司在市面上多如牛毛,包括很多做Agent的公司以及做應用的公司。
我們位于第二層和第三層,既做模型,又做應用。
我們不會和大的模型廠商直面競爭底座模型,但我們會做出一些差異化的競爭。比如,我們的圖像開源模型能做到全球排名第一,閉源模型也正在沖榜的過程中,目標是全球前三。在視頻領域,我們正在做營銷、短劇等垂類應用場景的視頻模型。
第二,客戶為什么和我們合作?我們是一個嚴肅認真做企業服務的公司,這也是客戶選擇我們的原因。很多人說我們公司有點像視頻版的Anthropic,團隊一直比較穩定,企業服務的基因也很強。
我們想靠模型能力、產品能力和生態能力,在整個商業化環境里走的更遠一些。
問:在和大廠爭奪獲客的過程中,你們是怎么做的?
梅濤:大公司平臺不太會去做很深的應用和服務,但對于我們這類企業而言,首先要做是產品、服務,并形成閉環。例如,在商業短視頻營銷上,我們提供了HiBurst(智象未來的AI營銷視頻生產平臺)服務加SaaS化(軟件及服務)的工具。
我們和大廠相比的優勢和差異化在于以下幾個方面:
在圖片領域,我們要成為客戶的必選項;
在視頻領域,我們則傾向于深耕部分垂類場景:一是無限長視頻的生成、長思考和長時長;二是營銷場景,做好“人貨場”(用戶、商品、渠道)的交互;三是短劇領域,我們的MaaS(模型即服務)平臺,能優化、編排自研和第三方模型。
總體來看,在To B上,我們既做自己的產品,也做整個行業的生態。我們的策略是,在接入自家產品的同時,也接入第三方模型公司的產品,為用戶提供一個端到端的產品和服務。
問:您提到做平臺是為了補齊短板,但相比于其他打出“降本”口號的平臺,你們如何說服用戶付費,并選擇你們平臺上的生態伙伴?
梅濤: 我們跟大廠在平臺上競爭意義不大。首先,我們構建了完整的產品能力,能支撐業務快速迭代;其次,我們提供的是差異化模型能力,比如智象的圖片模型在性價比上具備國際競爭力,在視頻領域,無論是直播場景、漫劇還是特定內容創作,我們都有大廠覆蓋不到的細分優勢。目前行業還沒出現能一統天下的模型,這給了我們差異化生存的空間。
更關鍵的是,我們沉淀了大量Skills和行業Knowhow,這也是我們與客戶共創的核心。特別是在短視頻營銷和AI短劇領域,我們通過分析特定區域、國家及類目的爆款邏輯,提供爆款創意裂變方案。這種對爆款規律的把控能力的價值,或許遠遠大于單純的內容生產。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.