網易首頁 > 網易號 > 正文申請入駐

Sora時代結束，智象未來用世界模型叩開AGI大門

2026-04-09 20:09:17　來源: 智能紀元AGI

北京舉報

分享至

2023年2月，新春年味未散，剛剛卸任京東集團副總裁的梅濤，收到一場特別邀約：

前往北京密云北莊·荷畔的靜謐小墅，與中國科學技術大學的校友們組織的一場“科大校友ChatGPT論壇”中進行分享新一輪AI熱潮。

而到場嘉賓還包括梅濤在中科大的師弟——后來成為諾亦騰機器人創始人兼首席執行官的戴若犁。

雪夜沉沉，山路蜿蜒，梅濤親自駕車，一路穿行于盤山道間，最終抵達北莊·荷畔。

不到19分鐘的時間，梅濤便向校友們闡述了多模態AI大模型的發展趨勢。

當時，國內正沉浸在美國OpenAI公司研發的大語言模型聊天機器人ChatGPT帶來的震驚與熱潮中，但長期深耕視覺AI領域的梅濤卻有著與行業主流截然不同的判斷。

梅濤是國內極少擁有ACM Fellow、IEEE Fellow，加拿大工程院外籍院士三重國際頂級學術頭銜的人工智能學者，他既是長期深耕計算機視覺的科學家，也經歷過微軟與京東兩家大型科技公司的產業化歷練。

在他看來，基于物理與數字世界融合的生成式AI多模態大模型，比ChatGPT更具挑戰性，也具有更大的創業機遇，且彼時頭部企業尚未建立起明顯的技術壁壘優勢。

這也成為梅濤創立智象未來（HiDream.ai）的起點。

盡管當時不少人并不理解，智象未來為何選擇布局多模態大模型AI賽道，但一年后問世的Sora、Google Genie，以及今年推出的字節跳動Seedance 2.0等模型帶來是酷炫視覺奇觀，已讓大眾真切感受到多模態基礎模型帶來的巨大影響力。

而隨著技術進一步演進，行業焦點又開始從“視頻生成”向更宏大的目標轉移——世界模型（World Model）演進。如今，Sora時代已悄然落幕。在統一架構、數據體系與算力支撐下，通用世界模型今年將迎來快速突破。

很顯然，AI視頻生成賽道正瞄準新的方向——世界模型。

從圖靈獎得主楊立昆(Yann LeCun)到“AI教母”李飛飛；從字節、阿里等大廠，到智象未來等行業獨角獸，紛紛布局世界模型賽道，結合具身智能與物理AI，加速邁向通用人工智能（AGI）。

其中，智象未來近期宣布與戴若犁的諾亦騰機器人（Noitom Robotics）達成戰略合作，雙方將在高質量、規模化具身智能視頻數據的生成上展開深度合作，從而開啟拓寬具身智能行業數據入口的全新模式探索。

經過了智象未來三年的創業探索，在梅濤看來，視頻生成不僅是一項多模態大模型的應用能力，更可能是進入世界模型時代的關鍵入口。

一場更具想象空間的百萬億世界模型新賽道已然開啟。

新的“輪回”與趨勢

2024年圣誕節期間，一部在美國上映的電影中展示：未來某日，具有了“自我意識”的AI派出兩個聊天機器人穿越到過去，試圖摧毀“人類反抗軍”的首領。

這似曾相識的《終結者2：審判日》劇情，在時隔數十年后，正式被AI技術重制——全球首部由AI生成的長篇電影《Our T2 Remake》由50位AIGC創作者歷時數月分段合作完成，全片達到了近90分鐘。

盡管這部電影的畫面制作還存在不少瑕疵，甚至不被老一代電影人真正接納，但它展示了AI對自然語言學習和理解的超高天賦，同時也是繼OpenAI發布“世界模擬器”Sora之后的震撼AI視頻生成行業的重要事件。

正如馬斯克直言，AI的發展太快了，未來兩年內將實現擁有人類一般自主發現和執行任能力的通用人工智能（AGI）。

今年1月，北京智源人工智能研究院發布年度報告《2026十大AI技術趨勢》。報告指出，AI的演進核心正發生關鍵轉移，正從追求參數規模的語言模型，邁向對物理世界底層秩序的深刻理解與建模的多模態世界模型。因此，世界模型成為AGI共識方向，“預測世界下一狀態”（Next-State Prediction）或成新的產業范式，從而推動AI從感知走向真正的認知與規劃。

過去的一年多時間，AI技術發生了“輪回”，視頻生成等多模態AI技術正成為進入世界模型時代的關鍵基礎之一。

所謂世界模型，是指能夠理解物理規律、空間屬性等真實世界動態的神經網絡。它可融合文本、圖像、視頻、動作等多模態信息，生成高度逼真的物理環境模擬影像；并讓AI智能體在執行動作前，于內部世界中“預演未來”，通過視覺感知、記憶、行動控制等環節形成接近人類水平的智能。

有業內人士直言，2026年或是世界模型為AGI奠定基礎的元年。

正如斯坦福大學教授李飛飛所述，大語言模型的基本單元是詞庫，而世界模型的基本單元是像素或體素。

而英偉達機器人主管Jim Fan曾發文稱，2026年將成為大世界模型真正為機器人以及更廣義的多模態AI奠定基礎的第一年。

至于世界模型定義的分類，智象未來聯合創始人兼CTO姚霆提出了三種：

第一類是以語言模型為主，屬于高層知識的提煉和壓縮；

第二類是Yann LeCun做的JEPA，偏中層的表達學習；

第三類是底層的像素生成，也就是視頻生成——包括在視頻生成模型中融入因果關系和物理規律，根據用戶指令實時生成場景（如Genie-3），以及跟具身智能強相關的World Action Model。

早在2023年3月，梅濤帶領姚霆等從微軟、京東一路深耕圖像識別研究的核心技術團隊，創立了智象未來。不到半年，智象未來上線參數超60億的多模態大模型。

2024年2月，初代Sora模型發布之前，智象未來就實現了全球首個15秒視頻生成技術突破，自研多模態大模型參數達數百億。而在過去三年，智象未來已實現了多模態AI生成產品和商業化的驅動能力。

如今，世界模型的發展還需要在具身智能、人形機器人等物理AI領域展開探索，而視頻生成能夠為物理AI提供更多仿真到真實世界（Sim-to-Real）數據，進而對具身世界模型智能體（WMA）的行為決策產生影響。

今年3月舉行的英偉達GTC大會上，黃仁勛提出：AI正經歷感知、生成式、Agent階段，未來將是以具身機器人為代表的物理AI時代。

如果說，生成式AI解決的是“理解與生成信息”的問題，那么物理AI所要面對的，則是一個更復雜的命題：理解世界，并在其中行動。

具身智能的數據瓶頸

實際上，具身智能作為 AI 落地物理世界的核心賽道，正遭遇前所未有的數據瓶頸。

首先，無論是人形機器人的靈巧操作、服務機器人的場景適配，還是工業機器人的精準作業，其核心能力的落地都依賴于大規模、高質量、場景化、多模態的數據，包括三維空間信息、傳感器數據與運動軌跡等。然而，現有數據資源數量有限、模態單一、質量參差不齊，難以支撐模型復雜的感知與行為學習需求。

而且，真實數據采集成本與模型視覺泛化能力之間存在矛盾：標準化環境雖能降本增效，但要提升模型的泛化能力，就必須覆蓋更多樣、更復雜的真實場景。

業內普遍認為，當前具身智能領域正處于2.0階段，可用訓練數據僅約20萬–30萬小時。參照GPT-3數據量為GPT-2的100倍這一規律，若具身智能從當前階段（類比GPT-2階段）邁向更高階階段（類比GPT-3階段），所需數據量將達到1000萬–2000萬小時。

其次，現有開源數據集規模有限且缺乏統一的采集與標注規范，且多為單一模態數據，限制了模型的跨任務、跨場景泛化能力。同時，國內不同機構與企業間數據封閉，缺乏有效的共享機制，進一步阻礙了規模化、標準化數據體系的建立。

最后，高精度多模態采集設備會干擾視覺信息，形成視覺鴻溝（Vision Gap），后期修復效果有限，難以滿足模型訓練要求。當前具身智能的核心瓶頸已從算力與模型轉向真實數據嚴重不足，行業可用訓練數據僅幾十萬小時，與智能涌現所需的千萬至億小時規模相差一個數量級以上。

數據的“質”與“量”雙重缺失，讓行業陷入“高質量數據不開源、開源數據不能用”的“無米之炊”困境。

今年3月在深圳舉行的全球首屆具身智能開發者大會上，多位行業人士表示，當前用于機器人訓練的具身智能數據不僅需求巨大，獲取成本也極高，而行業往往忽視了模型廠商在數據采集與訓練上的巨額投入。

上述人士認為，今年具身機器人領域有望通過視頻生成模型、海量合成數據、開源數據等方式，將物理AI模型收斂到“一條非常確定的技術路線”對應的數據集上進行探索，這將是行業發展的重要趨勢。

事實上，具身智能的基礎研究主要圍繞“感知—交互—規劃—仿真—訓練—加速”體系展開。

而此次智象未來與諾亦騰的戰略合作，正是將多模態大模型的毫米級可控視頻生成能力與真實數據基礎設施相結合，融合真實數據與生成式視頻數據，預計年內合作生成的具身智能視頻數據將達數萬小時，從而開辟出可規模化供應行業亟需的高質量具身訓練數據的全新路徑。

作為多模態AI領域的領軍者，智象未來自主研發的“智象多模態大模型”是超百億級別的大模型，擁有行業內豐富的多模態版權語料庫，具備強大的視覺內容生成與理解能力，其技術已在視頻創作工具vivago、AI影視制作、營銷場景應用及更多智能體應用中實現落地。

2025年4月，智象未來自主研發的開源模型HiDream-I1與HiDream-E1.1雙雙躋身全球第一梯隊，并在圖像質量、語義理解、藝術表現三大維度刷新行業紀錄。同時，基于智象未來技術的AIGC短劇《亦幻未來》《量子湖傳說》實現影視工業化落地，電商解決方案覆蓋全球超100個國家和地區；ARR（年度經常性收入）達到數千萬美元量級，B輪融資正處于最后收尾階段，持續獲得產業資本加持。

對于成立三年的智象未來團隊而言，在行業趨勢迭代、AI商業化逐漸“收斂”、軟硬件不斷深度耦合的背景下，視頻生成是通往世界模型的數據入口，這也將成為這家全球領先的多模態生成式 AI 創新企業叩響AGI大門、實現新技術躍遷的千載難逢的機遇，更是打通具身智能發展核心“數據瓶頸”、推動通用人形機器人落地的重要路徑。

“人生就在于不斷折騰。”梅濤在10個月前的一次采訪中坦言，人生的不同階段，總要勇敢踏入新領域、敢于嘗試與冒險，始終堅持做難而正確的事；要付出99%的努力，去攀登金字塔尖那1%的高度，這也是他從事創新事業一以貫之的準則。

資本押注百萬億級世界模型

展望未來，世界模型將成為一個百萬億規模的全新AI賽道。

作為支撐物理AI自主決策的核心體系，世界模型是通往通用人工智能的關鍵路徑，其市場覆蓋范圍廣泛，涵蓋機器人、自動駕駛、工業仿真、數字孿生等多個核心領域。

據麥肯錫預測，2030年世界模型相關市場規模將突破3萬億美元。

英偉達副總裁雷夫·勒巴雷迪安（Rev Lebaredian）更是大膽預測，若機器能實現對物理世界的理解與自主運行，世界模型相關市場規模或將達到約100萬億美元，足見其巨大的發展潛力。

資本的嗅覺往往先于行業爆發，全球范圍內，世界模型領域已成為投資熱點。

今年2月，李飛飛創立的世界模型企業World Labs（空間智能）完成10億美元融資，最新估值超50億美元；緊隨其后，楊立昆的世界模型初創公司AMI也完成逾10億美元融資。

國際巨頭與頂尖科學家的入局，進一步印證了世界模型賽道的核心價值。

國內市場同樣熱度高漲，公開信息顯示，2026年開年不到三個月，國內具身智能領域已披露的融資總額就超過200億元，估值超百億的企業擴容至近10家，而這些企業大多聚焦于世界模型、具身模型、大腦交互等核心方向。充分證明了世界模型、物理AI等相關領域在國內的廣闊發展前景。

值得注意的是，智象未來與諾亦騰的戰略合作所實現的數據范式創新，正是世界模型與通用型具身智能爆發的關鍵基石——當高質量訓練數據的瓶頸被打破，具身智能的潛力將得到徹底釋放，進而推動AI真正走進物理世界，為百萬億級市場的開啟奠定基礎。

當下，智象未來已在技術產品與商業化布局上積累了充足實力，也擁有充足的“彈藥”，其在此時切入世界模型賽道恰逢其時，也為整個多模態AI行業提供了極具參考價值的發展樣本。

梅濤曾明確提出，AI商業化有兩個關鍵里程碑：一是產品日活用戶（DAU）突破100萬，標志著企業跨越重要發展鴻溝；二是年經常性收入（ARR）達到1億美元，意味著公司形成成熟商業模式、進入穩定發展階段。

在巨頭扎堆、競爭白熱化的AI賽道中，智象未來作為一家純技術導向的創業公司，沒有走“堆資源、盲目跟風”的捷徑，而是憑借扎實的底層架構創新站穩腳跟，深耕視頻生成領域，全面構建“技術+商業”雙飛輪，實現了技術突破與商業化落地的同步推進。

下一步，智象未來將緊扣世界模型的發展趨勢，提前卡位布局，聯合諾亦騰機器人率先完成真實場景的規模化部署，構建核心先發優勢，或將成為世界模型與AGI領域的領軍企業，在百萬億級賽道中搶占發展先機。

聲明：個人原創，僅供參考

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.