九個月前,如果你問 AI 圈里誰最焦慮,答案大概率是 Meta CEO 扎克伯格。
Llama 4 的發布堪稱教科書級翻車。核心研究員陸續出走,技術社區的口碑幾乎在一夜之間崩掉,于是扎克伯格選擇推倒重來。
Meta Superintelligence Labs 掛牌成立,接著小扎開出堪比 NBA 職業球星的簽約金,從 OpenAI、Google、Anthropic 撬走七十多名頂尖研究員,并在六個月內完成了四次組織架構調整。
![]()
就在剛剛,這場 AI 豪賭終于亮出了它的第一張牌:Muse Spark。
近千億美元的支出給了扎克伯格一張 AI 頂級玩家的入場券,但入場從來只是開始,能不能在這張桌子上贏下去,還要看今天這張牌打得怎么樣。
![]()
扎克伯格的最新發文
號稱「個人超級智能」第一步,Muse Spark 登場
作為 Meta Superintelligence Labs 推出的 Muse 系列首款模型,Muse Spark 從架構層面原生支持圖像、音頻、視頻與文本的聯合理解,內置工具調用、可視化思維鏈與多智能體協調能力。
Meta 將其定位為邁向「個人超級智能」的第一步。
從評測數據看,Muse Spark 的能力分布相當不均勻。多模態方向上,它在 CharXiv Reasoning 圖表理解項目上得分 86.4,超過 GPT 5.4 的 82.8 和 Gemini 3.1 Pro 的 80.2,SimpleVQA 視覺事實題同樣領先競爭對手。
![]()
但在 MMMU Pro 多模態理解項目上,Muse Spark 得分 80.4,低于 Gemini 3.1 Pro 的 83.9。文本推理方向,它在 GPQA Diamond 博士級推理題上得分 89.5,LiveCodeBench Pro 競爭編程測試得分 80.0,后者超過 Opus 4.6。
然而 ARC AGI 2 抽象推理謎題上僅得 42.5,遠落后于 Gemini 3.1 Pro 的 76.5 和 GPT 5.4 的 76.1,差距頗為明顯。
健康領域是這份成績單上比較大的亮點。
HealthBench Hard 開放式健康問答中,Muse Spark 得分 42.8,遠超 GPT 5.4 的 40.1、Gemini 3.1 Pro 的 20.6 和 Opus 4.6 的 14.8。MedXpertQA 多模態醫療題得分 78.4,Meta 與超過 1000 名醫生合作標注訓練數據,這一投入在評測榜單上得到了直接回報,也是少見的、錢花到了刀刃上的地方。
編碼與智能體任務則是另一面。Muse Spark 在 DeepSearchQA 智能體搜索項目上得分 74.8,優于 Gemini 3.1 Pro 的 69.7,但在 Terminal-Bench 2.0 終端編碼任務上僅得 59.0,落后于 GPT 5.4 的 75.1 和 Gemini 3.1 Pro 的 68.5。
![]()
基準測試之外,社區的實戰對比更為直觀:有用戶同時讓 Muse Spark 和 GPT-5.4 完成「制作一個 Flappy Bird 克隆版」的任務,從游戲邏輯到交互細節,GPT-5.4 輕松勝出。在經典的六邊形小球測試中,對比昨天 DeepSeek 專家模式的表現,Muse Spark 再次敗下陣來。
![]()
只能說,編碼與長鏈路智能體任務,仍是 Meta 明確承認、尚在補強的方向。
與標準推理模式并行,Meta 同步推出了 Contemplating 模式,通過并行調度多個 AI 智能體協作處理復雜問題。
該模式在「人類最后的考試」(Humanity’s Last Exam)無工具版本中得分 50.2,超過 Gemini 3.1 Deep Think 的 48.4 和 GPT 5.4 Pro 的 43.9,FrontierScience Research 科學研究任務中得分 38.3。但在物理奧賽 IPhO 2025 理論題上得分 82.6,仍落后于 GPT 5.4 Pro 的 93.5。
![]()
支撐上述能力的,是 MSL 過去九個月徹底重建的技術棧。
Codebase Perplexity 測試圖表顯示,Muse Spark 在相同性能水平下,比 Llama 4 Maverick Base 節省 10.3 倍算力,比 DeepSeek-V3.1 Base 節省 8.2 倍,比 Kimi-K2 Base 節省 3.3 倍。
![]()
強化學習階段同樣表現穩定,pass@1 從約 46% 持續爬升至超 60%,pass@16 從 近 68% 升至近 80%,在未見過的評測集上泛化趨勢同樣平穩。
![]()
博主 Yuchen Jin 評價稱,基礎設施才是 AI 實驗室真正的護城河,好的基礎設施讓研究人員能以更快速度訓練模型、用更短周期驗證更多想法。
![]()
AI 評測機構 Artificial Analysis 在早期測試后表示,Muse Spark 在其綜合智能指數中得分 52,位列全球前五。
![]()
Muse Spark 現已上線 meta.ai 及 Meta AI 應用,并向部分用戶開放 API 內測,用戶須以 Facebook 或 Instagram 賬號登錄方可使用。與此前開源 Llama 系列的路線不同,Meta 這次選擇閉源發布。
Meta 未明確說明是否會使用社交賬號中的個人信息訓練模型,但鑒于 Meta 的一貫做法,這一可能性不低,其中健康數據的采集更是值得特別關注。
Meta 重組后的首份 AI 答卷,及格了嗎?
2025 年 4 月,Llama 4 以令人失望的表現觸發了 Meta 的人事地震。
下定決心從頭來過的扎克伯格,成立了 Meta Superintelligence Labs,以 143 億美元將 Scale AI 創始人 Alexandr Wang 引入擔任首席 AI 官,前 GitHub CEO Nat Friedman 負責產品,前 OpenAI 研究員 Shengjia Zhao(趙晟佳)出任首席科學家。
![]()
緊接著是四大團隊的重組、以及從 OpenAI、DeepMind、Anthropic 等對手處累計引進逾 70 名頂尖研究人員,單人簽約獎金最高達 1 億美元。
代價是沉重的,圖靈獎得主 Yann LeCun 離職、600 個崗位被裁、內部薪酬不公引發大規模士氣危機,六個月內四次架構調整更是讓團隊方向感嚴重缺失。
![]()
結果顯而易見,九個月重建、數百億投入,Muse Spark 交出的這份答卷,稱得上合格,卻還遠遠談不上亮眼。
有一個有趣的細節是,Meta 在評測圖表中,通過給自家模型基準測試成績高亮的操作,試圖制造出全面領先的視覺觀感,隨即引發外界批評。
![]()
網友 Armen Aghajanyan 直接定性為「圖表犯罪」,Alexandr Wang 隨后公開致歉,承認大多數評估恰恰顯示模型有很多需要改進的地方。
![]()
![]()
事實上,Meta 新模型在健康領域的垂直優勢足夠亮眼,算力效率的提升也確有真實價值,但 ARC AGI 2 上的斷崖式落差、編碼任務上被 GPT-5.4 輕松超越,以及「圖表犯罪」風波所折射出的敘事焦慮,共同勾勒出一個仍在追趕、而非遙遙領先的 Meta AI。
更關鍵的是,這是一份閉源答卷。Meta 曾以開源 Llama 系列樹立起差異化形象,如今轉向閉源商業化路線,意味著它放棄了社區生態這張最重要的底牌,卻尚未證明自己能在閉源賽道上與 OpenAI 和 Anthropic 正面掰手腕。
![]()
如官方博客和 Alex 回應所說,別問,問就是「大的要來了」
甚至就在 Muse Spark 發布的同一天,馬斯克在社交媒體上曬出 xAI Colossus 2 的訓練進度,七個模型同時在訓,參數規模從 1T 橫跨至 10T,并附上一句意味深長的「還有些追趕要做」。
![]()
同期,Claude Mythos 預覽版、DeepSeek 新一輪更新也已經發布,包括阿里即將推出 Qwen-3.6 系列旗艦 Qwen-3.6-Max,騰訊混元 3.0 同樣蓄勢待發。
對手們不會等 Meta 考完再出題,并且投資者的耐心本來就是有限度的。四月,依舊是最殘酷的一個月。名為 AGI 的這場考試,目前還看不到閱卷結束的那一天。
我們正在招募伙伴
簡歷投遞郵箱hr@ifanr.com
?? 郵件標題「姓名+崗位名稱」(請隨簡歷附上項目/作品或相關鏈接)
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.