![]()
作者|華衛
“世界模型是下一代人工智能基座模型。”智源研究院院長王仲遠在前不久對我們表示,這一基座模型意味著有望和大語言模型相提并論的下一代重大人工智能范式變革和重大突破的機會。
今年,智源大會發布的一系列創新成果主要涵蓋三個部分:基座大模型、智能體和基礎軟硬件生態。其中一大亮點就是,一款正在研發中的新世界模型悟界·Physis。
王仲遠透露,該模型在訓練完成以后將會開源開放。并且,現在 22 歲的陳博遠是智源研究院行為世界模型創新中心的負責人,該中心聚焦下一代通用世界基座模型的學術研究與前沿探索,旨在構建面向真實物理世界的通用基座模型。
據了解,陳博遠在 2004 年出生,來自山東,是北京大學元培學院人工智能方向本科生,也是逆矩陣科技 Physis 的創始人之一。
同時,智源構建了面向具身領域、以世界模型理念為核心構建的具身大腦悟界·RoboBrain Orca,其相對通用基座模型集成更多面向具身領域的 Data,可以進行下一個物理狀態的預測。
此外,大會開幕式上,圖靈獎得主、美國國家工程院院士、IEEE 會士 Whitfield Diffie 和圖靈獎得主、馬薩諸塞大學阿默斯特分校榮譽退休教授 Andrew Barto 都分別做了主題報告。Diffie 強調,當前編程實踐中,對智能體的限制(Confinement)即保證智能體只能訪問授權資源,在現有編程中仍做得不足。
Barto 則提出,“強化學習與神經網絡的計算研究從一開始便緊密交織”,二者“均發端于大腦如何運作與學習的假說”,而“深度強化學習的計算能力與大腦獎勵系統的最新成果相結合,指明了下一輪進展的方向”。最后,他以“小心你許的愿,你可能真的會得到它”發出警示,提醒人們警惕獎勵信號設計中的“反常實例化”風險。
悟界系列大模型:面向物理世界構建的 AI 基座模型
如今,隨著多模態模型的研究深入,人工智能正經歷一場重大的范式變革,正在從“預測下一個詞元”演進到“預測下一個物理狀態”,這是世界模型的核心本質。
智源研究院是國內最早提出并開展世界模型研究的科研機構。2023 年智源大會上,楊立昆(Yann LeCun)就闡述了新一代世界模型的概念;2024 年智源大會上,智源研究院提出的人工智能大模型技術路線預判,明確指出世界模型是下一代大模型技術;2024 年發布的悟界·Emu3 和 2025 年發布的悟界·Emu3.5,更是全球首個原生多模態世界模型。
基于在大模型領域持續的技術積累與前瞻布局,2026 年智源推出了悟界·Physis-v0.1。悟界·Physis 的誕生正是基于智源對人工智能發展路徑的判斷以及從“悟道”到“悟界”的技術傳承與延續。隨著大語言與多模態技術日趨成熟,未來人工智能的發展重心將進入世界模型時代。
![]()
據介紹,悟界·Physis-v0.1 是全球首款通用世界基座模型,構筑真實物理世界人工智能底層核心引擎,重塑 AI 物理感知與推演的底層技術體系。悟界·Physis-v0.1 徹底打破傳統 AI 垂類場景專用的技術瓶頸,針對性解決行業共性難題,能有效彌補主流人工智能模型不懂真實物理規則、物理推演結果可信度低、長程時序記憶缺失的核心短板,以通用基座能力實現全場景物理交互、感知與決策的統一,從根源提升 AI 物理推理的真實性與可靠性。
![]()
依托獨創技術架構,悟界·Physis-v0.1 以物理隱空間表征替代傳統像素、幀級預測方案,實現跨場景通用物理規律強化學習。搭載專屬物理狀態編碼器,可完成視頻、深度 RGB、3D 點云、力觸反饋等全模態信息壓縮,統一轉化為標準化隱空間物理狀態 Latent State。模型支持 50+ 復雜物理場景長程推理,具備物理一致性、動作因果性、長程可推演性、通用泛化性四大核心能力,憑借高效的推理效率與極強的泛化能力,達到行業領先水平,可廣泛應用于嚴肅工業、具身智能、物理仿真、科學研究等真實物理場景。
智源認為,現有世界模型相關的技術路線可分為四類:第一類是以語言為中心的世界模型,包括 VLM、VLA,模型在文本空間中預測下一個詞,學到的是語言描述的世界,并不能理解背后的物理后果;第二類是以像素為中心的世界模型,像 Sora 和 Seedance 等視頻生成類模型,在視覺空間中學習視頻或圖像,學到的是像素描述的世界;
第三類是以三維結構為中心的世界模型,包括 3D 重建以及李飛飛團隊的 World Labs Marble 模型,不過模型重建 3D 空間不等于理解世界,幾何結構也不代表物理狀態;第四類是以視覺表征為中心的世界模型,比如楊立昆的 JEPA 系列模型,預測的是視覺表征的壓縮,但視覺嵌入演化不等于物理規律演化。
![]()
在智源看來,世界模型作為面向真實物理世界的下一代基座模型,以“預測下一物理狀態”為核心,代表著人工智能的下一個重要范式躍遷。世界模型不僅能感知、理解、推理真實物理世界的時間、空間、物理規律和物理常識,同時能涵蓋文本、視頻、深度、力覺、感知等全模態數據,還具備主動交互能力,能夠支撐各種物理世界的下游應用。
以預測下一物理狀態為核心,構建新具身大腦
針對具身智能面臨的硬件不成熟、數據短缺、模型能力弱、落地應用難的四大挑戰,智源構建了自底向上的全棧具身智能技術體系,并先后發布了悟界·RoboBrain 和悟界·RoboOS。
據介紹,智源正在研發中的悟界·RoboBrain Orca,以預測下一個物理狀態為核心來構建具身大腦,融合了大量 Ego-centric 交互數據,強化世界模型的具身表征,提升下游少樣本和跨場景泛化的能力。
據介紹,悟界·RoboBrain Orca 構建了 “統一表征 — 建模 — 預測 — 交互” 完整閉環,實現從 Next Token / Frame / Action Prediction 升級為 Next Physical State Prediction,徹底打破傳統 AI 僅能理解文本的局限,推動 AI 從理解文本走向感知、預測與交互物理世界,并融合大量 Ego-centric 交互數據,強化了世界模型的具身表征,有效提升下游少樣本與跨場景的泛化能力。
![]()
具體來說,悟界·RoboBrain Orca 具備統一表征、因果推演、模態解碼三大核心能力,可同時生成語言思考、視覺預測與動作決策,實現“想、看、動”三位一體,賦予具身智能機器人打通“認知—預測—行動”完整鏈路的能力,支撐具身智能機器人在物流場景、酒店服務場景等真實環境中的長期自主作業。
多領域布局,發布四款自研智能體
這次,智源還推出了四款自主研發的智能體,它們分別面向心臟輔助診斷、科學發現、個人專屬助理以及生物安全防護等領域。
其中,BAAI Cardiac Agent 是全球首個面向心臟磁共振的輔助診斷智能體,依托安貞醫院兩千余例心血管患者超 3 萬條影像 - 文本配對多模態數據,構建一站式“結構分割 - 功能評估 - 疾病診斷 - 智能化報告”智能體,推動優質心血管醫療能力普惠可及。BAAI Cardiac Agent 不僅能顯著提升 CMR 影像的解讀效率,同時融合安貞醫院心臟專科醫師的臨床診療經驗,其 Agent-Expert 系統復刻專家團隊協作式診療流程,最終實現心臟疾病診斷精確度達到安貞醫院頂尖心血管醫生的診斷水平,AUC 超 0.93。
AREX 是面向科學發現的自主研究智能體,致力于推動人工智能從模仿學習向自主學習跨越,讓 AI 學會自我提升。它面向科研過程中創新思路稀缺、設計實現緩慢、實驗論證繁瑣等痛點,全面降低科研全流程對人類參與的依賴,輔助人類研究,實現自主科學發現。未來,AREX 可服務于文獻調研、思路拓展、實驗設計、結果論證與論文撰寫等科研全流程,也可用于人工智能服務的全流程快速構建、自主優化與迭代,并進一步推動人工智能技術賦能基礎學科前沿問題的自主探索與科學發現。
SoulAgent 是面向個人用戶的專屬智能體,采用全新自研架構,實現 Token 成本節省 30%,資源占用降低 80%。SoulAgent 基于用戶畫像和 skill 的自進化,可持續成長為用戶的專屬數字專家,滿足用戶個性化服務、長期記憶留存、高私密安全的智能助手核心需求,有效解決傳統通用 AI 助手不懂用戶習慣、響應適配慢、用戶數據無保障、無法實現長期深度協作的行業痛點,打造專屬化和個性化的智能服務體驗。在智源大會上,SoulAgent 幫助參會者實時聽會、捕捉大會重點、提煉前沿觀點與專家洞察,在并行會議中打造隨時“在場”的智能分身。
智源還推出面向有害蛋白獲取的風險發現智能體,首次打通“計算機模擬推演”與“真實實驗驗證”的完整鏈條(干濕實驗閉環),驗證了先進 AI 智能體能夠輔助繞過生物安全篩查機制,將目標有害蛋白序列拆分為多個 DNA 片段并組裝,最終成功獲取有害蛋白基因序列。針對傳統 AI 生物安全評估多為事后被動響應,且攻擊路徑難以完整復現的問題,該系統通過主動模擬攻擊者行為,提前識別智能體在生物知識獲取、有害蛋白序列設計等環節的脆弱性,將風險防控從“事后補救”轉為“事前演練”。
全面升級至 FlagOS 2.1,打造普適、高效、智能智算基座
眾智 FlagOS 是智源研究院牽頭打造的統一智算系統軟件棧,致力于徹底破解“多模型×多芯片”的適配難題。作為當前全球支持芯片種類最多的智算系統軟件棧,FlagOS 統一適配 18 家芯片品牌的 32 款芯片型號,覆蓋 NVIDIA、NPU、GPGPU、DSA、RISC-V AI、ARM 等多種架構,支持“多種模態”“多種場景”大模型在多種 AI 芯片遷移部署。通過 FlagOS 的通用算子庫、統一 AI 編譯器、自動算子生成工具、vLLM 多芯片統一插件等關鍵組件,支持 90% 以上主流開源大模型的多芯片部署,包括 DeepSeek、Qwen、面壁 MiniCPM、智譜 GLM、MiniMaX、混元、階躍 Step 等。發布即多芯適配,DAY 0 即實現 DeepSeek V4、Qwen3.6、MiniMaX M2.7、MiniCPM-o4.5、 MiniCPM5-1B 混元 Hy-MT2 等大模型的多款芯片適配。
同時,FlagOS 作為全球覆蓋芯片數量最多的智算系統軟件棧,構建了從底層算子到上層框架接入的完整技術體系。在端到端性能極致優化方面,FlagOS 拓展 Triton-TLE 語言能力,已支持華為昇騰、海光、摩爾線程、清微智能、英偉達等多款芯片,極致優化大模型關鍵算子性能;八大算子庫總數超 600 個,實現從“大模型專用”到“科學計算”的能力延伸,核心組件已進入 PyTorch 基金會生態項目;FlagCX 通信庫,統一連通 10 款芯片,并實現全球 AI 芯片通信的 ITU 國際標準與國家標準“雙立項”。
FlagRelease 發布 Express“高速”鏡像版本,可一鍵安裝使用,實現端到端的高速推理。FlagCICD,首個 AI 多芯片開源集成測試發版平臺。在前沿探索層面,FlagQuantum,高性能量子電路模擬框架,在多種 AI 芯片、及量子電路的機器學習,邁出“量智融合”的第一步。
目前,FlagOS 的生態成員已經超過 80 余家,全球下載量超過 37.5 萬次,觸及開發者 5.6 萬人。
會議推薦
企業級 Agent 落地,繞不開 4 個真實的工程問題!如何在 Agent 安全性和可用性之間找到平衡點?Agent 需要什么樣的記憶系統才能真正理解上下文?如何通過算法壓榨實現智力增量與成本控制的極致平衡?多 Agent 協作,如何做到可觀測、可治理、可控制?6.26-27 AICon 上海站,國內頭部公司的 Agent 實踐,一次說透。
今日薦文
你也「在看」嗎?
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.