網易首頁 > 網易號 > 正文申請入駐

剛剛，小扎的千億閉源AI終于交卷！當場被痛批「圖表犯罪」，28歲話事人火速道歉

2026-04-09 07:03:09　來源: AppSo

廣東舉報

分享至

九個月前，如果你問 AI 圈里誰最焦慮，答案大概率是 Meta CEO 扎克伯格。

Llama 4 的發布堪稱教科書級翻車。核心研究員陸續出走，技術社區的口碑幾乎在一夜之間崩掉，于是扎克伯格選擇推倒重來。

Meta Superintelligence Labs 掛牌成立，接著小扎開出堪比 NBA 職業球星的簽約金，從 OpenAI、Google、Anthropic 撬走七十多名頂尖研究員，并在六個月內完成了四次組織架構調整。

就在剛剛，這場 AI 豪賭終于亮出了它的第一張牌：Muse Spark。

近千億美元的支出給了扎克伯格一張 AI 頂級玩家的入場券，但入場從來只是開始，能不能在這張桌子上贏下去，還要看今天這張牌打得怎么樣。

扎克伯格的最新發文

號稱「個人超級智能」第一步，Muse Spark 登場

作為 Meta Superintelligence Labs 推出的 Muse 系列首款模型，Muse Spark 從架構層面原生支持圖像、音頻、視頻與文本的聯合理解，內置工具調用、可視化思維鏈與多智能體協調能力。

Meta 將其定位為邁向「個人超級智能」的第一步。

從評測數據看，Muse Spark 的能力分布相當不均勻。多模態方向上，它在 CharXiv Reasoning 圖表理解項目上得分 86.4，超過 GPT 5.4 的 82.8 和 Gemini 3.1 Pro 的 80.2，SimpleVQA 視覺事實題同樣領先競爭對手。

但在 MMMU Pro 多模態理解項目上，Muse Spark 得分 80.4，低于 Gemini 3.1 Pro 的 83.9。文本推理方向，它在 GPQA Diamond 博士級推理題上得分 89.5，LiveCodeBench Pro 競爭編程測試得分 80.0，后者超過 Opus 4.6。

然而 ARC AGI 2 抽象推理謎題上僅得 42.5，遠落后于 Gemini 3.1 Pro 的 76.5 和 GPT 5.4 的 76.1，差距頗為明顯。

健康領域是這份成績單上比較大的亮點。

HealthBench Hard 開放式健康問答中，Muse Spark 得分 42.8，遠超 GPT 5.4 的 40.1、Gemini 3.1 Pro 的 20.6 和 Opus 4.6 的 14.8。MedXpertQA 多模態醫療題得分 78.4，Meta 與超過 1000 名醫生合作標注訓練數據，這一投入在評測榜單上得到了直接回報，也是少見的、錢花到了刀刃上的地方。

編碼與智能體任務則是另一面。Muse Spark 在 DeepSearchQA 智能體搜索項目上得分 74.8，優于 Gemini 3.1 Pro 的 69.7，但在 Terminal-Bench 2.0 終端編碼任務上僅得 59.0，落后于 GPT 5.4 的 75.1 和 Gemini 3.1 Pro 的 68.5。

基準測試之外，社區的實戰對比更為直觀：有用戶同時讓 Muse Spark 和 GPT-5.4 完成「制作一個 Flappy Bird 克隆版」的任務，從游戲邏輯到交互細節，GPT-5.4 輕松勝出。在經典的六邊形小球測試中，對比昨天 DeepSeek 專家模式的表現，Muse Spark 再次敗下陣來。

只能說，編碼與長鏈路智能體任務，仍是 Meta 明確承認、尚在補強的方向。

與標準推理模式并行，Meta 同步推出了 Contemplating 模式，通過并行調度多個 AI 智能體協作處理復雜問題。

該模式在「人類最后的考試」（Humanity’s Last Exam）無工具版本中得分 50.2，超過 Gemini 3.1 Deep Think 的 48.4 和 GPT 5.4 Pro 的 43.9，FrontierScience Research 科學研究任務中得分 38.3。但在物理奧賽 IPhO 2025 理論題上得分 82.6，仍落后于 GPT 5.4 Pro 的 93.5。

支撐上述能力的，是 MSL 過去九個月徹底重建的技術棧。

Codebase Perplexity 測試圖表顯示，Muse Spark 在相同性能水平下，比 Llama 4 Maverick Base 節省 10.3 倍算力，比 DeepSeek-V3.1 Base 節省 8.2 倍，比 Kimi-K2 Base 節省 3.3 倍。

強化學習階段同樣表現穩定，pass@1 從約 46% 持續爬升至超 60%，pass@16 從近 68% 升至近 80%，在未見過的評測集上泛化趨勢同樣平穩。

博主 Yuchen Jin 評價稱，基礎設施才是 AI 實驗室真正的護城河，好的基礎設施讓研究人員能以更快速度訓練模型、用更短周期驗證更多想法。

AI 評測機構 Artificial Analysis 在早期測試后表示，Muse Spark 在其綜合智能指數中得分 52，位列全球前五。

Muse Spark 現已上線 meta.ai 及 Meta AI 應用，并向部分用戶開放 API 內測，用戶須以 Facebook 或 Instagram 賬號登錄方可使用。與此前開源 Llama 系列的路線不同，Meta 這次選擇閉源發布。

Meta 未明確說明是否會使用社交賬號中的個人信息訓練模型，但鑒于 Meta 的一貫做法，這一可能性不低，其中健康數據的采集更是值得特別關注。

Meta 重組后的首份 AI 答卷，及格了嗎？

2025 年 4 月，Llama 4 以令人失望的表現觸發了 Meta 的人事地震。

下定決心從頭來過的扎克伯格，成立了 Meta Superintelligence Labs，以 143 億美元將 Scale AI 創始人 Alexandr Wang 引入擔任首席 AI 官，前 GitHub CEO Nat Friedman 負責產品，前 OpenAI 研究員 Shengjia Zhao（趙晟佳）出任首席科學家。

緊接著是四大團隊的重組、以及從 OpenAI、DeepMind、Anthropic 等對手處累計引進逾 70 名頂尖研究人員，單人簽約獎金最高達 1 億美元。

代價是沉重的，圖靈獎得主 Yann LeCun 離職、600 個崗位被裁、內部薪酬不公引發大規模士氣危機，六個月內四次架構調整更是讓團隊方向感嚴重缺失。

結果顯而易見，九個月重建、數百億投入，Muse Spark 交出的這份答卷，稱得上合格，卻還遠遠談不上亮眼。

有一個有趣的細節是，Meta 在評測圖表中，通過給自家模型基準測試成績高亮的操作，試圖制造出全面領先的視覺觀感，隨即引發外界批評。

網友 Armen Aghajanyan 直接定性為「圖表犯罪」，Alexandr Wang 隨后公開致歉，承認大多數評估恰恰顯示模型有很多需要改進的地方。

事實上，Meta 新模型在健康領域的垂直優勢足夠亮眼，算力效率的提升也確有真實價值，但 ARC AGI 2 上的斷崖式落差、編碼任務上被 GPT-5.4 輕松超越，以及「圖表犯罪」風波所折射出的敘事焦慮，共同勾勒出一個仍在追趕、而非遙遙領先的 Meta AI。

更關鍵的是，這是一份閉源答卷。Meta 曾以開源 Llama 系列樹立起差異化形象，如今轉向閉源商業化路線，意味著它放棄了社區生態這張最重要的底牌，卻尚未證明自己能在閉源賽道上與 OpenAI 和 Anthropic 正面掰手腕。

如官方博客和 Alex 回應所說，別問，問就是「大的要來了」

甚至就在 Muse Spark 發布的同一天，馬斯克在社交媒體上曬出 xAI Colossus 2 的訓練進度，七個模型同時在訓，參數規模從 1T 橫跨至 10T，并附上一句意味深長的「還有些追趕要做」。

同期，Claude Mythos 預覽版、DeepSeek 新一輪更新也已經發布，包括阿里即將推出 Qwen-3.6 系列旗艦 Qwen-3.6-Max，騰訊混元 3.0 同樣蓄勢待發。

對手們不會等 Meta 考完再出題，并且投資者的耐心本來就是有限度的。四月，依舊是最殘酷的一個月。名為 AGI 的這場考試，目前還看不到閱卷結束的那一天。

我們正在招募伙伴

簡歷投遞郵箱hr@ifanr.com

?? 郵件標題「姓名+崗位名稱」（請隨簡歷附上項目/作品或相關鏈接）

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.