網易首頁 > 網易號 > 正文申請入駐

三大模態模型全部登頂后，昆侖萬維正式披露了 2026 年 AGI 戰略

2026-03-30 19:00:42　來源: FounderPark

北京舉報

分享至

在中國的 AI 版圖里，昆侖萬維及其旗下的天工 AI，一直是一家很難被簡單定義的公司。

它不是 BAT，不是字節跳動，甚至不是科技媒體最熱衷追逐的那類動輒發布在 XX 領域「殺瘋了」的黑馬選手。

但無論是曾經打得滿場開花的業務版圖，還是在游戲、出海等領域的獨特地位，又注定了它的一舉一動，會成為橫跨科技、財經、互聯網多個領域的新聞頭條。

于是，我們看到，在 2026 年，這家公司開始頻繁站上世界 AI 舞臺的中心。

3 月 18 日，昆侖萬維的視頻大模型 SkyReels V4 登頂了全球權威評測平臺 Artificial Analysis 的「文生視頻（含音頻）」第一位置，刷新了 Google Veo 3.1 在內一眾海內外視頻大模型的 SOTA 表現。

幾天后的 3 月 27 日，北京中關村創新中心 150 人的會場的 G08 廳，國家級科技創新平臺中關村論壇期間，天工 AI 董事長兼 CEO 周亞輝站在聚光燈下，首次向到場的政府官員、學界專家、產業嘉賓、媒體記者，系統闡述了這家公司從 2022 年正式 all in AGI 與 AIGC 之后的最新 AGI 規劃：昆侖萬維 2026 年的 AGI 戰略升級為「3+1」生態架構—以 4 個 SOTA 大模型為底座，支撐中層3 大 AI 原生平臺+頂層1 個超級智能體。屆時，三層合力，將人人都能充分釋放創造力，而大模型也將從工具時代進化到 AI Native平臺經濟體時代。

這不是他第一次站在這樣的聚光燈下。2015 年，昆侖萬維登陸 A 股時，他是互聯網圈最年輕的成功創業者，抓住了一輪又一輪時代機會。在投資圈，他曾 1 億元投資映客、押注中國 RoboTaxi 一哥 Pony.ai、領投了 Musicly 最后一輪，涉獵之廣、眼光之準，長期被圈內稱道。

十年后，他選擇帶領這家公司走了一條很長遠的路——慢下來，扎下去。

??關注 Founder Park，最及時最干貨的創業分享

超 22000 人的「AI 產品市集」社群！不錯過每一款有價值的 AI 應用。

邀請從業者、開發人員和創業者，飛書掃碼加群：

進群后，你有機會得到：

最新、最值得關注的 AI 新品資訊；
不定期贈送熱門新品的邀請碼、會員碼；
最精準的 AI 產品曝光渠道

01All in AGI 與 AIGC 四年后，昆侖萬維有什么新打法

2022 年就已經 All in AGI 與 AIGC，時至今日，已經過去四年時間，昆侖萬維究竟是如何 All in 的？又究竟交出了怎樣的答卷？

答案就藏在謎面上，中關村論壇期間，昆侖萬維舉辦的專場發布會名稱「世界模型前沿技術與天工AIGC全家桶大模型生態」回答了一切。

圍繞這個主題，背后所支撐的，則是昆侖萬維最新發布的「3+1生態架構」。

具體來說，在昆侖萬維的規劃中，整個平臺由三層構成，底層是四大 SOTA 大模型，上層是三個 AI 原生平臺經濟體，頂層是一個 Super Agent 操作系統。

其中，四大 SOTA 大模型分別指的是：

Matrix-Game 3.0——游戲世界模型；解決了世界模型長時序生成的記憶能力，保證不同時刻在同一位置生成內容具有一致性，并大幅提升了模型參數和分辨率大小，在 5B 模型 720P 分辨率下依然具有 40FPS 的實時生成效果。
SkyReels V4——視頻生成大模型。2026 年 3 月 19 日，登上 Artificial Analysis 文生視頻（含音頻）賽道榜首，超越 Google Veo 3.1、OpenAI Sora 2；是一款集全模態音視頻聯合生成、修復與編輯于一體的大一統基礎模型。
Mureka V9——音樂大模型。依托自研 MusiCoT 技術鏈等技術，在段落內文本控制、生成效率、混音質量與整體聽感等多個關鍵維度持續進化，使 AI 音樂從能生成一首歌，進化為能穩定地按創作意圖完成一首好歌。
Skywork6.0——一款即將發布面向全自研 OpenClaw 架構打造的 Agent 原生大模型。

建立在四大 SOTA 大模型基礎上的，則是三大 AI 原生平臺，包括月活躍用戶 8000 萬、覆蓋 170 多個國家，三萬多部劇集的「AI 版奈飛」DramaWave；主打 AI 版 Spotify 的 Mureka 音樂平臺；以及可以口述玩游戲、口述 diy 游戲的 AI 版的 Roblox 貓森學園 2.0。

而在最頂層，「3+1」的「1」，則是 Skywork super Agent，是三大平臺背后通用的操作系統，長遠來看，它也是昆侖萬維面向全球所有內容創作者推出的一人公司的操作系統。借助 AI Native 架構，Skywork super Agent 具備記憶規劃、執行、協同的完整能力閉環。此外，借助自研的 Sky claw 架構，Skywork super Agent 把 Skills 和工具編排深度整合，實現了多 Agent 的協同調度，最終能做到一句話出成品，能夠幫助做內容的創作者，出 PPT，做內容發布，做海報，做漲粉，做變現。

戰略披露了，但面向全球五億內容創作者提供多模態創作服務，并不是一件簡單的事情，昆侖萬維的技術，真的足夠成熟了嗎？

在中關村論壇期間，昆侖萬維首席科學家、中國香港中文大學教授成宇，用了一小時的時間，詳細拆解了最新游戲模型 Matrix-Game 3.0、視頻模型 SkyReels V4、音樂模型 Mureka V9 及其背后的黑科技。

02游戲模型：一片超級藍海

要理解昆侖萬維的多模態野心，其游戲模型 Matrix-Game3.0（https://github.com/SkyworkAI/Matrix-Game/tree/main/Matrix-Game-3）或許是一個最佳的切入點。

事實上，如果只看其使用場景，我們很容易被 Matrix-Game 的名字所迷惑，其實 Matrix-Game 本質上是一系列物理仿真驅動下的實時交互式世界模型。

而相當長一段時間里，實時交互式世界模型都被行業公認為是多模態模型發展道路上的終極目標。

但這條路，布滿了荊棘。當前的可交互世界模型，普遍面臨三大核心痛點：記憶性差，同一位置在不同時間生成的內容往往自相矛盾，上一秒還在的建筑，下一刻就憑空消失；泛化能力弱，換一個場景、換一種光照，模型就直接失靈；實時交互不足，生成速度跟不上用戶的操作，玩家走一步要等幾秒加載，根本談不上沉浸式體驗。

在實時生成基礎上，Matrix-Game 3.0 大幅提升了模型記憶、場景泛化與生成質量，從可運行的交互 Demo，走向具備穩定性與工業級性能的世界模型系統，成為面向 720p 實時長時序生成與交互世界建模的新一代系統架構。

可以看到，在這個半分鐘的 AI 生成視頻中，無論玩家視角如何變化，所有景物的光線、顏色、外形、透視關系等等都保持了高度一致。

而這種進階，則來自三個維度的底層技術突破。

第一個是面向世界模型訓練的工業級的無限數據引擎。昆侖萬維構建了一套基于 Unreal Engine 5 的合成數據生成系統 Unreal-Gen，能夠穩定輸出高質量的 Video + Pose + Action 數據。在此基礎上，通過結合 NavMesh 與強化學習的自主探索 Agent，實現了復雜場景下的高效數據覆蓋，再通過 Tick 級同步機制，實現了視覺、位姿與動作的毫秒級對齊。工程層面則實現了完整的云端自動化流程，從場景加載、智能探索、數據采集到上傳存儲全流程無需人工參與。

更重要的是，Matrix-Game 3.0 還打通了 GTA5、荒野大鏢客 2、賽博朋克 2077 等多款 3A 游戲，構建了跨游戲的自動化數據采集體系，為模型訓練提供了海量、高質量的交互式視頻數據。

第二個，也是最核心的創新，則是長時序抗漂移機制。團隊在基礎模型訓練階段，引入了 Error Buffer 機制：顯式建模生成結果與真實之間的誤差，并將其作為額外條件重新注入模型。同時，通過一個統一的 DiT 框架，將長期記憶、局部歷史幀以及當前預測目標進行聯合建模，從而在保證生成連續性的同時，實現跨時間的信息利用。

第三個是突破極限的實時推理能力。通過推理優化加速，小步采樣并進行 KV Cache 這樣的緩存機制，在 decoder 端又進行蒸餾和操作，Matrix-Game 3.0 的 5B 參數模型在 720P 分辨率下，生成速度最高可達 40FPS，這個數字意味著，用戶的每一次操作，都能得到實時的畫面反饋，真正實現了邊生成邊游戲的全新范式。

而 28B 的大模型，則通過第一人稱與第三人稱分別訓練獨立高噪聲模型、共享統一低噪聲模型的設計，既保證了不同視角下的沉浸式體驗，又實現了高效的資源分配，在動態性和泛化性上，都做到了行業頂尖水平。

借助這一套高質量的交互體驗，完整的記憶，以及高效的實時推理，在 Matrix-Game 3.0 的框架下，AI 不再只是生成靜態場景或預設動畫，它能夠構建一個具有記憶和推理能力的動態游戲世界，玩家與世界的每一次交互都會被系統記錄并影響后續生成內容。

而這種無劇本的游戲體驗，正是行業公認的 AI 游戲的終極形態。

03視頻之戰：在最激烈的戰場，建立根據地

如果說 Matrix-Game3.0 的突圍是在藍海市場指明了行業發展的方向，SkyReels V4登頂，則是在全球 AI 競爭最激烈的主戰場上，打贏了一場硬碰硬的戰役。

2026 年 3 月 18 日，全球權威評測平臺 Artificial Analysis Arena 更新視頻生成基準測試排名。在「Text to Video (With Audio)」和 Image to Video (With Audio) 賽道上，SkyReels V4 赫然登頂，在 Text to Video (No Audio) 賽道，位列全球第一梯隊。

而環顧四周，AI 視頻生成賽道，聚集了全球最頂級的玩家——OpenAI Sora、Google Veo、快手 Kling……每一個名字背后，都是海量的算力、數據與技術積累。

在一個成熟賽道中，與巨頭掰手腕，并不是一件容易的事情。

但這條賽道，也有著行業公認的四大頑疾：音畫分離導致的同步失衡，口型對不上臺詞、動作配不上音效，是幾乎所有模型的通病；多模態參考下的控制失效，用戶想精準控制角色動作、場景變化、鏡頭語言，往往事與愿違；內容生成缺乏敘事邏輯與物理常識，畫面流暢卻毫無故事性，物體懸浮、角色穿模屢見不鮮；創作與編輯工具碎片化，商用落地遙遙無期。

行業里的絕大多數解決方案，都是在原有架構上修修補補：音畫不同步，就優化后期配音的匹配算法；可控性差，就增加更多參考維度；邏輯混亂，就用更多標注數據去修正。

但昆侖萬維選了一條最難的路：從底層架構，重構整個視頻生成的邏輯。

SkyReels V4 是全球首個同時支持多模態輸入、聯合音視頻生成、統一生成/修復/編輯任務的視頻生成模型。

它的核心底座，是自研的音畫一體雙流架構。不同于業界先生成畫面，再匹配音頻的傳統路徑，SkyReels V4 采用雙分支設計，視頻與音頻分支共享同一個 MLLM 文本編碼器，從生成的起點，就實現了多模態語義的深度融合。

其中，初始層用自研雙流 MMDiT（Multimodal Diffusion Transformer）結構保障音畫模態的精準對齊，后續層切換為單流結構提升計算效率，視頻分支通過額外文本交叉注意力強化語義控制，雙分支間通過雙向交叉注意力實現時序同步，再用 RoPE 位置編碼縮放技術，解決音視頻時序分辨率的天然差異。

簡而言之，SkyReels V4 通過音畫深度融合，可以實現臺詞口型、動作音效、配樂節奏的毫秒級對齊，與真實拍攝不相上下。

AI 視頻創作中，復雜運動一直是個難點。但可以看到 SkyReels V4 的生成效果中，不僅人物的運動軌跡流暢自然，落地濺起的雪霧、滑行時帶起的粉雪，全都與實景拍攝無二。此外，雪板摩擦的聲音、運動的破風聲，也與人物的運動軌跡完全吻合一致。

解決了音畫同步的核心痛點，SkyReels V4 又用全模態精準控制系統，破解了可控性的行業難題。無論是首幀 / 首尾幀參考、多圖參考、運動參考，還是多幀 / 網格圖參考，它都能實現精準控制。對于短劇創作者來說，只需要提供一組分鏡網格圖，系統就能一鍵生成邏輯完整的敘事短片，徹底解決了角色走形、場景跳躍、鏡頭混亂的行業痛點。

不過最驚艷的，其實是它給 AI 視頻注入了敘事靈魂。傳統視頻生成模型，往往只能作為機械的畫手生成內容，畫面流暢卻不懂敘事，鏡頭華麗卻毫無邏輯。SkyReels V4 創新引入了全模態語義 Reward 體系實時糾正邏輯偏差與物理錯誤，階梯式課程學習路徑讓模型循序漸進掌握復雜敘事能力，讓模型從低分辨率短時長的簡單任務，逐步升級到商用級的復雜敘事任務，讓 AI 從會畫視頻，變成了會講故事。

而在參數與成本方面，SkyReels V4 已經實現 1080P 分辨率、32FPS 幀率、15 秒時長的商用級突破。在這背后，效率優化同樣關鍵。通過低分辨率全序列 + 高分辨率關鍵幀的生成策略，搭配 VSA 稀疏注意力機制，SkyReels V4 直接把計算成本降低了 3 倍，實現了 1080P/32FPS 畫質與高效生成的雙贏，讓 AI 視頻生成，真正具備了規模化商用的可能。

04音樂模型：推理撐起的創作能力降維打擊

中關村論壇期間，昆侖萬維還最新發布了其全球音樂大模型 Mureka V9。

相比同類模型產品，Mureka V9最大的優勢在于將推理能力，融入音樂的創作之中。

過去，以 Suno 為代表的其他模型，創作音樂，主要依靠模型在海量曲庫里學習旋律、節奏、人聲的組合規律，用戶給提示詞，模型按規律輸出，卻不懂自己寫下的音符承載著什么。

而 Mureka V9 不僅生成得更快、更清晰，還能借助 MusiCoT（Music Chain-of-Thought）技術，讓模型在拿到提示詞之后，先完成一套完整的創作思考：這段音樂要表達什么核心情感？相應的，歌詞段落要如何安排？主歌與副歌的結構如何遞進？旋律怎樣推進才能夠與歌曲整體的表達氛圍、歌詞含義相一致。

更進一步，Mureka V9 相比此前的 V8 版本，還新增了更細粒度的歌詞文本控制能力，能夠更好理解不同段落中的表達重點、語義重心與演唱意圖，適配強調情緒轉折、語義推進和關鍵詞落點的創作場景。整體混音質量與音色質感上，V9 也做到了人聲與伴奏的關系更協調，整體聽感更清楚、更通透，聲音密度、空間感與完成度都更接近一首經過認真制作的作品。整體段落內文本控制、生成效率、混音質量與整體聽感等多個關鍵維度，V9 做的深度進化，都讓其能夠做到更準確地理解創作者的具體表達訴求。

此外，一些不必要的人聲哼唱、模糊唱詞等干擾也在此版本中大幅減少；而在表達多樣性上，V9 也大幅減少了旋律、編排與聽感上的重復問題，讓相同主題的創作，可以借助 AI 得到不同版本的試錯與可能。

通過 Mureka V9，我們根據同一主題，快速完成不同風格音樂的創作。過去需要大量的 demo 錄制、混音、樂器錄制，現在只需要與 AI 對話就能完成。

通俗來說，Mureka V9 已經能使 AI 音樂從簡單生成一首歌，進一步邁向能夠更穩定地按創作意圖創作一首好聽的歌，從普通人的音樂生成玩具，升級為專業音樂人的生產級工具。

05從 SOTA 模型到超級生態

關于昆侖萬維的戰略選擇，我們不僅關心其究竟做到了何種地步，同時更關心的一個問題是，為什么是多模態，又為什么是昆侖萬維？

一方面，行業頂級學者和實踐者都公認全模態是一個上限更高，可以創造價值量更大的市場。

另一方面，論壇下午的圓桌期間，昆侖萬維董事長兼 CEO 方漢的一段話，在商業側對這個問題做了更好的補充「全模態的作用是讓整個內容行業都能受益于門檻的降低、成本的降低，讓更多創作者加入進來。全球將來不是有 60 億觀眾，而是可能有 10 億創作者。」

如果我們對生成式 AI 的理解還停留在用 AI 生成圖片、音樂、視頻的工具層，不斷卷單模態模型的極限，那昆侖萬維的確不是那個含著金湯勺出生的天才選手。

但昆侖萬維從一開始，就瞄準了更遠的終局：生成式 AI 的終極形態，不是一個個孤立的內容生成工具，而是一個能完整生成可聽、可視、可交互、可記憶的多模態全家桶。

比如中關村論壇期間，重點介紹的 Mureka、SkyReels、Matrix-Game，從來不是三個孤立的產品，而是構建多模態世界引擎的三塊核心拼圖：比如在中關村論壇的圓桌環節，青年導演周楠就提到，電影為代表的藝術創作，是最擁抱先進技術的存在，而電影與游戲的結合是行業長期的大勢所趨。

借助 Mureka 負責構建世界的聽覺與情緒表達，SkyReels 負責搭建世界的視覺與敘事體系，Matrix-Game 則負責制定世界的物理規則、交互邏輯與記憶機制。三者從底層打通，形成的是一個完整的、從內容生成到世界構建的全鏈條技術體系。

而這才是昆侖萬維真正的彎道超車邏輯。

最后的最后，建立在這個完整的體系之上，則是生態的突圍。「生態」是周亞輝演講中的高頻詞。他強調，「在未來三年，創作者經濟會迎來很大的爆發」。而在這期間，以多模態大模型與平臺為底座，開發者可以調用各種能力封裝成智能體，創作者可以獲得從音樂到視頻到游戲開放世界的一站式 AI 創作體驗，企業用戶可以實現從內容生產到分發到變現的完整閉環。

屆時，昆侖萬維將不再只是一個工具提供商，而是成為行業的標準制定方、AI native 的平臺經濟體。

一定程度上，這是一種蘋果生態式的野心：借助爆款產品或模型，賣整套系統和體驗。

但對于這家立志從全模態突破到 AI 平臺經濟的企業而言，或許只是一個新故事的起點。

轉載原創文章請添加微信：founderparker

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.