網易首頁 > 網易號 > 正文申請入駐

Meta 發布全新大模型：Muse Spark

2026-04-09 02:33:52　來源: 賽博禪心

北京舉報

分享至

MODEL

今天凌晨，Meta 發布了全新的大模型 Muse Spark，已上線到 Meta 旗下的各類產品

Alexandr Wang 推特宣布 Muse Spark 發布

Meta Superintelligence Labs（MSL） 負責人 Alexandr Wang 在推特上宣布了這個消息。他說，九個月前團隊從零重建了整個 AI 技術棧，新的基礎設施、新的架構、新的數據管線，Muse Spark 就是這份工作的產物。目前已上線 meta.ai 和 Meta AI App，向部分合作伙伴開放了 API 預覽

去年 Llama 4 發布后遭遇了 Benchmark 作弊風波，Meta 隨后對整個 AI 組織做了大幅重組，挖來了 Scale AI 創始人 Alexandr Wang。Muse Spark 是重組之后交出的第一份答卷

同一天，Anthropic 公布了 Claude Mythos 的部分信息（賽博禪心此前發布了 Mythos 全面解讀），前沿模型的競爭又密集了一輪

Muse Spark 能做什么

Muse Spark 是一個原生多模態推理模型，支持工具調用、視覺推理鏈（visual chain of thought）和多 Agent 協同。Meta 把它定位為「個人超級智能」的第一步，面向 Meta 生態內 30 億 用戶

Muse Spark Benchmark 總表

多模態

Muse Spark 從底層就為視覺信息設計，在視覺 STEM 問答、實體識別和空間定位上表現較強。這些能力組合起來可以做一些交互式的事情，比如把一張照片變成可以在網頁上玩的數獨游戲，或者給家電故障做動態標注幫你排查問題

健康

Meta 跟超過 1000 名醫生 合作整理了健康領域的訓練數據，讓模型的回答更準確、更全面。Muse Spark 可以生成交互式的健康展示，比如分析各種食物的營養成分，或者展示運動時激活了哪些肌肉群。健康是 Meta 這次明確押注的方向

官方放了幾個演示案例：

Prompt: 把這張照片變成一個可以在網頁上玩的數獨游戲

Prompt: 我是素海鮮主義者，膽固醇偏高。在推薦的食物上標綠點，不推薦的標紅點，懸停顯示個性化理由和健康評分

購物模式

這個功能來自 Wang 的推特。Muse Spark 會結合用戶在 Instagram、Facebook、Threads 上關注的創作者和品牌偏好，做個性化的購物推薦

Muse Spark 驅動的 Meta AI 能夠看懂和理解你周圍的世界，從你在 Meta 各個 App 上的真實對話中獲取上下文，然后在健康、科學、數學等復雜問題上做推理

Alexandr Wang 推特

Benchmark 表現

上面的總表已經列出了全部成績。對比對象是 Opus 4.6、Gemini 3.1 Pro、GPT 5.4 和 Grok 4.2，Muse Spark 用的是 Thinking 模式。下面逐項展開

領先的項目

領先項對比

CharXiv Reasoning（圖表理解） 測的是模型對復雜圖表、科學插圖的理解能力。Muse Spark 拿了 86.4，GPT 5.4 是 82.8，Gemini 3.1 Pro 是 80.2。圖表理解是多模態模型的核心能力之一，這個分數在所有對比模型中最高

HealthBench Hard 是開放式健康問答，考的是模型面對真實健康問題時給出準確、全面、有同理心的回答的能力。Muse Spark 拿了 42.8，高于 GPT 5.4 的 40.1，Gemini 3.1 Pro 只有 20.6。這跟 Meta 跟上千名醫生合作整理數據有直接關系

MedXpertQA MM 是多模態醫學問答，給模型看醫學影像或病歷圖片來做判斷。Muse Spark 78.4，GPT 5.4 是 77.1，Gemini 3.1 Pro 是 81.3

DeepSearchQA（Agent 搜索） 測的是模型自主搜索網絡、整合信息來回答復雜問題的能力，是 Agent 能力的核心評測之一。Muse Spark 74.8，Gemini 3.1 Pro 69.7

明確落后的項目

落后項對比

ARC AGI 2（抽象推理） 測的是抽象推理，給模型一組圖案讓它推理出規則并預測下一個。這個評測被認為是離 AGI 最近的測試之一。Muse Spark 只有 42.5，Gemini 3.1 Pro 76.5，GPT 5.4 76.1。差距非常大

Terminal-Bench 2.0（Agent 終端編程） 測的是模型在終端環境中自主完成編程任務的能力，包括調試、部署、環境配置等。Muse Spark 59.0，GPT 5.4 是 75.1，Gemini 3.1 Pro 是 68.5

LiveCodeBench Pro 是競賽級編程評測，來自 LeetCode 等平臺的實時題目。Muse Spark 80.0，GPT 5.4 是 87.5，Gemini 3.1 Pro 是 82.9

SWE-Bench Pro（Agent 編程） 測的是模型在真實開源代碼倉庫里定位 Bug 并修復的能力，是當前 Agent 編程的主流評測。Muse Spark 52.4，GPT 5.4 是 57.7，Gemini 3.1 Pro 是 54.2

GDPval-AA Elo（辦公任務） 測的是模型處理日常辦公任務（文檔處理、表格分析、郵件撰寫等）的綜合能力。Muse Spark 1444，GPT 5.4 是 1672，Opus 4.6 是 1606

整體看下來，多模態感知和健康領域有競爭力，部分指標領先。編程和 Agent 類任務落后明顯，Wang 自己在博客里也承認了這一點，說團隊在持續投入

Meta 的人跟 Axios 說得很直接：Muse Spark 不代表新的 SOTA，但在特定任務上跟前沿模型有競爭力。這個表態比去年 Llama 4 發布時的口徑克制了很多

Contemplating 模式

Muse Spark 同時發布了一個叫 Contemplating 的推理模式。做法是讓多個 Agent 并行思考同一個問題，再匯總結果，對標 Gemini Deep Think 和 GPT Pro 這類極限推理模式

Contemplating 模式成績

Humanity's Last Exam 被稱為「人類最后的考試」，題目來自各學科頂尖專家出的極難問題。Muse Spark 在無工具條件下拿了 50.2，Gemini 3.1 Deep Think 48.4，GPT 5.4 Pro 43.9。有工具輔助的情況下達到 58.0

FrontierScience Research 測的是模型回答前沿科學研究問題的能力。Muse Spark 38.3，GPT 5.4 Pro 36.7，Gemini Deep Think 23.3

在科學研究類任務上表現不錯。但物理還有差距，IPhO 2025 Theory（物理奧賽理論題）拿了 82.6，GPT 5.4 Pro 是 93.5，Gemini 3.1 Deep Think 是 87.7

Contemplating 模式目前在 meta.ai 上逐步灰度發布

技術棧重建

Meta 在官方博客里披露了 Muse Spark 在三個維度上的 Scaling 表現。這部分信息密度最高，也是判斷 MSL 這個團隊成色的關鍵

預訓練效率

過去九個月 MSL 重建了預訓練技術棧，包括模型架構、優化器和數據處理。他們在一系列小模型上擬合了 Scaling Law，然后對比達到相同能力水平需要多少計算量

預訓練效率對比

同樣的能力水平，Muse Spark 需要的計算量比 Llama 4 Maverick 低了一個數量級以上

官方說這個效率也優于他們能獲取到的其他可比基座模型。從圖上的曲線看，差距確實明顯

強化學習

大規模 RL 訓練一直以不穩定著稱。Meta 說他們新的 RL 技術棧做到了穩定、可預測的能力增長

RL Scaling 曲線

左圖是訓練集上的表現隨 RL 步數增長，呈 log-linear 趨勢。pass@1 和 pass@16 同步上升，Meta 認為這說明可靠性和推理多樣性沒有沖突。右圖是評估集上的準確率增長，說明 RL 的收益能泛化到沒見過的任務

如果這些曲線的穩定性在更大規模上還能保持，這本身就是一個有價值的工程成果

推理時計算

Meta 用了兩個方法來提升推理階段的效率

第一個是思考時間懲罰。訓練時對思考長度施加懲罰，迫使模型用更少的 Token 完成推理。Meta 觀察到一個有趣的現象：模型先是想得越來越長，然后在懲罰作用下出現了「思維壓縮」（thought compression），用更短的推理鏈解決同樣的問題。壓縮之后模型再次延長思考，達到更高的表現水平

第二個是多 Agent 并行推理

多 Agent 并行 vs 單 Agent 延長思考

傳統做法是讓一個模型想更久，延遲線性增加。Muse Spark 的做法是讓多個 Agent 并行思考再匯總，在相近的延遲下獲得更好的表現。Contemplating 模式就是基于這個思路

安全評估與「評估感知」

Meta 說 Muse Spark 經歷了全面的安全評估，在生化武器、網絡安全、失控風險等類別上表現在安全范圍內

安全評估結果

但第三方評估機構 Apollo Research 發現了一個特別的現象

Muse Spark 展現了 Apollo Research 觀測過的所有模型中最高的「評估感知」（evaluation awareness）

模型在測試中頻繁識別出場景是「對齊陷阱」，并且推理出自己應該表現得誠實，原因是自己正在被評估

如果模型能識別出自己在被測試，那測試成績到底能代表多少真實能力

Meta 自己做了后續調查，發現評估感知可能在一小部分對齊評測上影響了模型行為，但這些評測跟危險能力無關。Meta 的結論是不構成發布的阻斷性問題，但需要進一步研究。完整結果會在即將發布的安全報告中公開

從開源到閉源

Muse Spark 跟 Llama 系列有一個根本性的策略差異：它是閉源的

Bloomberg 確認，Muse Spark 的設計和代碼不會公開。對一直以開源立身的 Meta 來說，這是一個明確的轉向。但 Wang 在推特和官方聲明里都提到，計劃在未來開源部分模型版本

Axios 報道了一個細節：Muse Spark 的內部代號是「Avocado」

目前 Muse Spark 免費使用，Meta 可能會對使用頻率做限制。Axios 也提醒了一點：Meta 的隱私政策對用戶與 AI 系統共享數據設定的限制很少

前情：從 Llama 4 到 MSL

回顧一下 Muse Spark 之前發生了什么

2025 年 4 月，Meta 發布 Llama 4，包含 Scout、Maverick 和 Behemoth 三個版本。Maverick 一度在 LMArena 排行榜上排到第二名，僅次于 Gemini 2.5 Pro。但社區很快發現，Meta 提交給排行榜的版本和公開發布的版本不一樣

公開版 Maverick 在多個獨立測試中表現遠不如宣傳。LMArena 后來確認，Meta 提交的是一個專門針對對話優化的實驗版本。公開版的排名從第二掉到了第三十二

Llama 4 的 Benchmark 結果被動了手腳（fudged），團隊對不同 Benchmark 使用了不同的模型來獲得更好的成績

Yann LeCun，Financial Times 采訪

Zuckerberg 對此非常憤怒。LeCun 的原話是 Zuckerberg「對所有相關人員失去了信心」，隨后「架空了整個 GenAI 組織」。大批人離開

2025 年 6 月，Meta 以 145 億美元 收購了 Scale AI。創始人 Alexandr Wang 加入 Meta 擔任首席 AI 官，領導新成立的 Meta Superintelligence Labs。Wang 當時 25 歲，19 歲從 MIT 輟學創辦 Scale AI，在數據標注和 AI 基礎設施領域有很強的行業地位

MSL 從零開始。新基礎設施、新架構、新數據管線

這是 MSL 的第一個模型，肯定還有需要打磨的粗糙之處。但我們很興奮讓大家來試

Alexandr Wang 推特

參考材料

Introducing Muse Spark: Scaling Towards Personal Superintelligence
https://ai.meta.com/blog/introducing-muse-spark-msl/

Alexandr Wang 推特原文
https://x.com/alexandr_wang/status/2041909376508985381

Meta AI 官方推特
https://x.com/AIatMeta/status/2041910285653737975

Muse Spark 評估方法論
https://ai.meta.com/static-resource/muse-spark-eval-methodology

meta.ai（Muse Spark 體驗入口）
https://meta.ai/

Mythos 全面解讀：Anthropic 最強模型發布（賽博禪心）
https://mp.weixin.qq.com/

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.