網易首頁 > 網易號 > 正文申請入駐

智象未來CEO梅濤：多模態模型Token的毛利率，遠高于語言模型

2026-05-28 16:40:50　來源: 36氪

北京舉報

分享至

文｜王欣逸李嘉星

編輯｜周鑫雨

一家Day 1就在做多模態大模型的公司，無法拒絕參與到具身智能和世界模型熱潮之中。

2026年，隨著Seedance 2.0、GPT Image 2.0等模型的爆火，多模態能力越來越成為行業內繞不開的關鍵詞。5月19日，智象未來首屆開放日上，智象未來給出了他們的判斷和回答：“原生多模態是實現AGI的必經之路。”

本場開放日活動主題為“Imaging the World”，不過，對于智象未來而言，「World」的重要性，幾乎要放在「Video」和「Image」之前了。

“我們的終極目標是打造世界模型。”智象未來CEO梅濤在活動中反復提及這一觀點，在他的定義中，智象未來要做一家原生多模態大模型公司。

在梅濤看來，一個真正的世界模型需要同時滿足多個條件：掌握物理規律、解決長時間跨度的因果推理、實現全模態交互以及絕對的安全性。

當下業界主流的世界模型訓練路線可以分為李飛飛的“生成3D世界”一派，以及Yann LeCun的“自監督預測世界”一派。

智象未來則做出了不同的選擇——做算法和架構層的創新，從世界模型訓練中最稀缺、成本最高的多模態數據入手，率先聚焦在視頻、圖像、3D交互等數據的生成上，用低成本的合成數據對抗行業數據稀缺瓶頸，并從中積累一些在世界模型上可復用的視覺模型能力。

具體而言，他們要讓多模態模型從構建之初就擁有理解真實世界規則的能力。原生全模態Unified Transformer（UiT）架構能做到“Any to Any”（任何形式輸入支持任何形式輸出），這也正是世界模型所需要的能力：在統一架構中理解、生成并預測現實世界的不同狀態。

過去一段時間，他們做出了從“模型即產品”到“做Agent平臺”的轉變。

作為一家主要面向To B的公司，他們概括自己的打法是做一個“1+1+3”MaaS（軟件即服務）平臺，分別為底層的HiDream系列大模型、中間層的HiHarness企業服務平臺，以及上層三大場景的應用：商業營銷、影視創作、社媒創作。

概念火熱的同時，資本也在不斷押注。繼上個月拿到安徽省產投、東方富海等機構參投的5億人民幣B輪融資之后，智象未來又火速官宣了下一輪融資，兩周內再次完成億元級新一輪融資。

一系列競爭也隨之而來，當下的模型能力越來越強，在和海內外基模廠商爭奪模型市場的同時，智象未來還要攥緊他們手中的新牌——MaaS平臺，并瞄準視頻生成領域的垂類賽道，開展和大公司的爭奪戰。

在智象未來開放日結束后，《智能涌現》等媒體和智象未來CEO梅濤，以及其投資人東方富海合伙人王兵聊了聊，以下為對話實錄（略經摘編）。

很多具身智能公司低估了視頻模型的重要性

問：在大家的認知當中，智象未來之前做圖像和視頻比較多，從二維的圖像、視頻，到三維的物理世界，你們的戰略轉型是怎么發生的？

梅濤：目前大家將市面上一些模型稱之為世界模型還太早了。世界模型有不同的路徑，未來可能也會有多種可能性。

到今天為止，我們不會去對外聲明我們目前是一家世界模型公司，我們更傾向于將智象未來定義為原生多模態大模型公司。

智向未來更關注原生的全模態大模型及其應用領域，不過，原生多模態大模型公司在將來肯定會通往世界模型。

問：現在很多公司都自稱在做“世界模型”，但外界對這個概念的定義很模糊。您如何界定智象未來所追求的“世界模型”？

梅濤：我們會非常嚴謹地認為智象未來做的是原生多模態的模型，在邁向世界模型的過程中，會比較聚焦在視頻、圖像、3D交互這些數據的生成上。

問：智象未來從拼接式多模態升級為原生多模態，這在技術上出現了什么拐點？目前技術是否成熟？

梅濤： 多模態生成領域的技術尚未收斂，這正是創業公司的機會。如果技術完全收斂、統一采用DIT框架，我們也就沒有空間了。

正因為技術沒有快速收斂，我們才能通過算法創新，以少量資源實現與大廠同等的效果，而非單純去拼數據與算力。

問：從全模態大模型到世界模型，需要還需要達成哪些成熟的技術條件？

梅濤：第一是掌握物理規律，包括流體力學、固體力學、分子動力學和牛頓定律等，目前行業還難以全面枚舉和掌控；

第二是解決長上下文的因果關系問題；

第三是實現與物理世界的全模態交互，比如機器人怎么拿起杯子、擰開蓋子、倒水并判斷用戶需求，這離我們還有相當長的距離；

第四是安全性，機器人如果進入家庭，必須保障百分之百的安全，避免對人身或貴重物品造成損害。

我們現階段更務實的選擇是關注原生多模態問題，既能實現商業化落地，也能為未來邁向世界模型做好技術積淀。

問：很多視頻生成模型公司都在卷長視頻、真實性，在邁向世界模型的過程中，這些指標會發生改變嗎？

梅濤：世界模型強調的是生成世界的能力，包括邏輯關系、視覺效果等。

我們對自己的視頻模型有三個維度的要求：

第一是模型能力，即視覺內容的合理性、質量，與物理規律的符合度，在模型能力上我們必須瞄準天花板來做；

第二是視頻時長，我們目前能做到分鐘級的生成，甚至在技術上可以做到3分鐘、5分鐘甚至無限長；

第三是實時性與交互能力，當模型花1分鐘就能生成出1分鐘時長的視頻，那基本就可以實現交互了。我希望我們的產品可以朝這個方向努力，比如通過算法提供低質量的預覽，用戶確認后再輸出高精度的2K或4K視頻。

問：在訓世界模型的過程中，數據是比較稀缺的資源。您認為世界模型的數據獲取、清洗和標注策略，和之前訓圖像、視頻模型相比有什么不同？

梅濤：模型訓練過程包含三個要素：算法、數據和算力。

倘若算法框架固定下來，剩下的就是在比拼數據和算力了。舉個例子，如果大家都在用DiT（Diffusion Transformer）架構做視頻模型的話，數據的質量、分布以及數據標注的質量，對模型能力相當重要。

不過，一旦算法和架構發生了變化，或者出現了新的架構和新的算法，數據的重要性就會弱一點。這也是創業公司的機會所在——我們不完全拼算力和數據，而是關注算法本身的創新。

回到數據層面來看，為了獲取高質量真實的數據和反饋，我們做了一套工具鏈條，用以收集、清洗和標注這些數據。

我們擁有20萬小時有影視版權的視頻數據，和不少廠商保持著合作關系，同時也正尋求和頭部擁有版權數據的影視公司的合作。

世界模型的數據情況與視頻模型有所不同，世界模型數采需要全方位多模態的數據，成本更高，且更為稀缺。因此，智象未來在做的是，將其他廠商采集到的毫米級真人實操數據，用視頻模型生成萬份級不同場景、膚色的真人數據，并用這些真實數據及機器合成數據訓練VLA（Vision-Language-Action，視覺-語言-動作模型）和WAM（World Action Model，世界動作模型）。

問：用純真實數據訓模型，和用機器合成數據訓模型，效果會有所不同嗎？

梅濤：我們會進行小規模的驗證，形成從數據到模型訓練的閉環。具體來說，就是看用機器生成的數據對市面上普通的乃至最好的VLA和WAM模型有沒有好處，反推去驗證數據的有效性。

問：您曾提到，很多具身智能公司低估了視頻模型的重要性。您為什么認為沒有視頻模型，具身智能很難走遠？

梅濤： 現在具身智能公司的模型規模普遍很小（不到100B）。如果真要承擔類似世界模型的復雜任務，靠小模型和有限的數據采集，不太可能實現廣泛的泛化。

我們做的是全球唯三、能夠達到千億規模的多模態模型。如果沒有一個堅實、厚重的底座模型，做具身智能很難實現很好的泛化，即便在特定場景里因為有數據采集能做一點，也很難擴展到其他場景。

多模態模型Token的毛利率，遠遠高于大語言模型

問：今年初，Sora的關停下架對國內視頻領域的創業者產生了一定影響，這會影響投資人的投資決策嗎？

王兵：不會，因為這是OpenAI的戰略。目前在Coding領域，OpenAI被Anthropic壓得很厲害。在有限的資源和競爭之下，OpenAI可能自然把短期內難以賺錢的圖像、視頻模型的優先級放低了。

但從去年到今年，整個圖像和視頻模型行業的商業化進展非常快，比如可靈、Seedance 2.0等，在收入上表現是不錯的。

不過，視頻生成賽道真實存在的可能是版權問題，這也是我們選擇投智象未來的重要原因，智象的所有的數據都是合法、有版權的。

在大模型特別燒錢的背景下，我們特別看中企業如何用最有效的方式和大公司進行差異化競爭。具體來說，一方面，企業怎樣用較低的成本做出能力比肩頭部大廠的基模，并做好研發效率和資金效率；另一方面，企業能利用先進技術，快速落地到不同的商業場景中，差異化做好B端場景服務。

問：視頻模型真的能賺錢嗎？

王兵：它一定會賺錢。

第一是算力成本一定會指數級下降，英偉達每年推出的芯片算力都是上一代的5-10倍，但價格幾乎沒有漲太多，因此算力的平均價格每年都在下降。

你今天看到不賺錢的項目，可能過兩年就開始賺錢了，因為算力成本在不斷下降。

第二是，過去幾年，圖像和視頻的生成效果無法達到商業化的水準，但今年，我們可以看見包括AI短劇、短視頻、電商視頻的質量幾乎都能實現商業化。在影視、廣告等幾乎所有視頻領域應用場景中，AI一定會取代絕大部分的人工。

問：在視頻生成行業做To B服務，毛利率能實現為正嗎？

梅濤：To B的毛利率挺高的，同時，多模態模型Token的毛利率也遠遠高于大語言模型Token的毛利率。

問：衡量視頻賽道企業是否到達商業化的節點，有什么樣的標準嗎？

王兵：我們觀察了這個賽道很長時間，一直沒有下手的原因是，我們還不清楚什么時間點品質和成本能夠達到商業化水平。

從去年開始，我就感覺那個“點”就快到了，同時我們也在等那個最合適商業化的轉折點。這個“點”一定會來，而且就目前來看，它到來的時間比我們想象的要快。

從具體對企業的衡量標準來看：第一個是團隊技術背景，團隊是該領域的開拓者且經歷了很長時間的積累；第二個是穩定性，團隊的人才密度很高，能持續保持穩定；第三個是資金效率、研發效率以及團隊長期的專注力。

問：您對視頻生成賽道創業公司的商業化路徑選擇是怎么看的？

王兵：在算力成本大幅下降之前，盡量不要在To C上和巨頭公司打起來。

以智象為代表的創業公司，先做To B肯定是對的，通過做To B，企業能提升產品的邏輯能力、場景落地的能力，在沒有燒很多錢的同時還能實現一定的收入。

問：平臺與各大模型平臺的合作模式與分成機制是什么？分傭比例方便透露嗎？在電商、短劇上又存在什么樣的合作模式？

梅濤： 行業共識是，沒有一家廠商的模型能滿足客戶所有要求。所以我們打造了MaaS平臺，既沉淀自研的多模態能力，也接入Deepseek等第三方大語言模型，滿足客戶端到端的需求。平臺上沉淀了大量API與Skills，用戶貢獻行業技能，我們會與之分傭。

在電商短視頻廣告上，我們有三種收費模式：一是按Token售賣工具；二是RaaS素材服務；三是按GMV分傭，比例在15%至 30%。

短劇方面，我們現階段主要是給承制方提供AI制作工具，目前不分傭。如果遇到一些精品短劇制作方，比如我們和安徽電視臺、華策的合作，我們會聯合承制和發行，這種模式下就會有分傭了。

問：您之前提到，AI時代不卷是不行的。今年你們調整了公司的戰略，要做“1+1+3”MaaS平臺，是什么時間點或者市場體感推動您做出這樣的決定？

梅濤：我們是科學家創業背景，習慣腳踏實地做事。但真正對我們觸動比較大的是Minimax、智譜等企業港股上市表現優異。在二級市場上，大家對中國AI公司的估值和信心很強，這讓我們意識到需要提升品牌敘事能力。

在一級市場的體感上，2023年大家更看重模型效果，但2024年底至2025年更看重商業化成績，今年大家開始向海外對標模型能力。

今年，一級市場和二級市場的投資人都開始轉向模型能力本身，都意識到模型就是產品，產品就是商業化。

我們一直都是同時做模型和商業化。很難說某一家公司的模型排名始終全球第一，如果沒有及早建立商業化壁壘、沒有用戶心智和行業屬性，模型能力上去了，商業化很難跟上。我認為模型和商業化需要兩手抓。

問：從賣通用工具轉到開始賣端到端Agent，你們團隊內部有沒有battle過？

梅濤：這個爭論一直有。

最開始我們覺得模型能力就是產品，因此我們把模型做成了一個簡單的C端應用，結果發現并不是這樣。除了開發者，普通B端用戶不會自己寫代碼去調用模型，而是要有一個Agent作為中間層。

所以從創業第一天起，我們就堅定要做B端的企業服務。關于商業化的大方向我們沒有任何搖擺，To B、To C我們都做，但中間我們搖擺過到底是做SaaS還是做RaaS（內容即服務），包括為什么選擇做內容電商，而不是傳統的貨架電商。

我們踩過很多坑才發現，做貨架電商其中的視頻或圖片可能很長時間不會更換，你很難證明其中的價值。但內容電商的客戶每個月要消耗大幾千條短視頻，超級客戶一年要幾十、上千萬條，這不可能都用人工來拍，這就是端到端Agent的價值所在。

問：你們想做企業服務的模式是指什么？

梅濤：首先，我們不做定制化。我們團隊規模才兩三百人，但已經服務4萬家的中小型企業客戶、4000萬個人用戶以及100多家頭部客戶。

我們的企業服務主要包括三方面，一是直接做To 大B、To 小B或者To C模式的服務，二是和平臺型企業合作，三是通過自己的平臺，服務中小型客戶。

在AI行業，企業服務不同于傳統的B端客戶，我們提供標準化的產品和服務，這些客戶更像是小B或大C，可能是一個團隊，也可能是一個人。

行業還沒出現能一統天下的模型

問：目前國內外大廠都在布局世界模型和視頻模型，智象未來準備如何面對這些愈發激烈的競爭？

梅濤：這個問題可以拆解為兩個方面：

第一，智象如何實現和大廠的共存？

我們可以把整個行業分成三層，第一層是做C端流量入口的平臺，如字節、阿里、Google等有流量分發能力的公司；第二層是做底層基座大模型的公司，如Anthropic、OpenAI、也包括字節、阿里；第三層的公司在市面上多如牛毛，包括很多做Agent的公司以及做應用的公司。

我們位于第二層和第三層，既做模型，又做應用。

我們不會和大的模型廠商直面競爭底座模型，但我們會做出一些差異化的競爭。比如，我們的圖像開源模型能做到全球排名第一，閉源模型也正在沖榜的過程中，目標是全球前三。在視頻領域，我們正在做營銷、短劇等垂類應用場景的視頻模型。

第二，客戶為什么和我們合作？我們是一個嚴肅認真做企業服務的公司，這也是客戶選擇我們的原因。很多人說我們公司有點像視頻版的Anthropic，團隊一直比較穩定，企業服務的基因也很強。

我們想靠模型能力、產品能力和生態能力，在整個商業化環境里走的更遠一些。

問：在和大廠爭奪獲客的過程中，你們是怎么做的？

梅濤：大公司平臺不太會去做很深的應用和服務，但對于我們這類企業而言，首先要做是產品、服務，并形成閉環。例如，在商業短視頻營銷上，我們提供了HiBurst（智象未來的AI營銷視頻生產平臺）服務加SaaS化（軟件及服務）的工具。

我們和大廠相比的優勢和差異化在于以下幾個方面：

在圖片領域，我們要成為客戶的必選項；

在視頻領域，我們則傾向于深耕部分垂類場景：一是無限長視頻的生成、長思考和長時長；二是營銷場景，做好“人貨場”（用戶、商品、渠道）的交互；三是短劇領域，我們的MaaS（模型即服務）平臺，能優化、編排自研和第三方模型。

總體來看，在To B上，我們既做自己的產品，也做整個行業的生態。我們的策略是，在接入自家產品的同時，也接入第三方模型公司的產品，為用戶提供一個端到端的產品和服務。

問：您提到做平臺是為了補齊短板，但相比于其他打出“降本”口號的平臺，你們如何說服用戶付費，并選擇你們平臺上的生態伙伴？

梅濤： 我們跟大廠在平臺上競爭意義不大。首先，我們構建了完整的產品能力，能支撐業務快速迭代；其次，我們提供的是差異化模型能力，比如智象的圖片模型在性價比上具備國際競爭力，在視頻領域，無論是直播場景、漫劇還是特定內容創作，我們都有大廠覆蓋不到的細分優勢。目前行業還沒出現能一統天下的模型，這給了我們差異化生存的空間。

更關鍵的是，我們沉淀了大量Skills和行業Knowhow，這也是我們與客戶共創的核心。特別是在短視頻營銷和AI短劇領域，我們通過分析特定區域、國家及類目的爆款邏輯，提供爆款創意裂變方案。這種對爆款規律的把控能力的價值，或許遠遠大于單純的內容生產。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.