網易首頁 > 網易號 > 正文 申請入駐

剛剛,小扎的千億閉源AI終于交卷!當場被痛批「圖表犯罪」,28歲話事人火速道歉

0
分享至

九個月前,如果你問 AI 圈里誰最焦慮,答案大概率是 Meta CEO 扎克伯格。

Llama 4 的發布堪稱教科書級翻車。核心研究員陸續出走,技術社區的口碑幾乎在一夜之間崩掉,于是扎克伯格選擇推倒重來。

Meta Superintelligence Labs 掛牌成立,接著小扎開出堪比 NBA 職業球星的簽約金,從 OpenAI、Google、Anthropic 撬走七十多名頂尖研究員,并在六個月內完成了四次組織架構調整。


就在剛剛,這場 AI 豪賭終于亮出了它的第一張牌:Muse Spark。

近千億美元的支出給了扎克伯格一張 AI 頂級玩家的入場券,但入場從來只是開始,能不能在這張桌子上贏下去,還要看今天這張牌打得怎么樣。


扎克伯格的最新發文

號稱「個人超級智能」第一步,Muse Spark 登場

作為 Meta Superintelligence Labs 推出的 Muse 系列首款模型,Muse Spark 從架構層面原生支持圖像、音頻、視頻與文本的聯合理解,內置工具調用、可視化思維鏈與多智能體協調能力。

Meta 將其定位為邁向「個人超級智能」的第一步。

從評測數據看,Muse Spark 的能力分布相當不均勻。多模態方向上,它在 CharXiv Reasoning 圖表理解項目上得分 86.4,超過 GPT 5.4 的 82.8 和 Gemini 3.1 Pro 的 80.2,SimpleVQA 視覺事實題同樣領先競爭對手。


但在 MMMU Pro 多模態理解項目上,Muse Spark 得分 80.4,低于 Gemini 3.1 Pro 的 83.9。文本推理方向,它在 GPQA Diamond 博士級推理題上得分 89.5,LiveCodeBench Pro 競爭編程測試得分 80.0,后者超過 Opus 4.6。

然而 ARC AGI 2 抽象推理謎題上僅得 42.5,遠落后于 Gemini 3.1 Pro 的 76.5 和 GPT 5.4 的 76.1,差距頗為明顯。

健康領域是這份成績單上比較大的亮點。

HealthBench Hard 開放式健康問答中,Muse Spark 得分 42.8,遠超 GPT 5.4 的 40.1、Gemini 3.1 Pro 的 20.6 和 Opus 4.6 的 14.8。MedXpertQA 多模態醫療題得分 78.4,Meta 與超過 1000 名醫生合作標注訓練數據,這一投入在評測榜單上得到了直接回報,也是少見的、錢花到了刀刃上的地方。

編碼與智能體任務則是另一面。Muse Spark 在 DeepSearchQA 智能體搜索項目上得分 74.8,優于 Gemini 3.1 Pro 的 69.7,但在 Terminal-Bench 2.0 終端編碼任務上僅得 59.0,落后于 GPT 5.4 的 75.1 和 Gemini 3.1 Pro 的 68.5。


基準測試之外,社區的實戰對比更為直觀:有用戶同時讓 Muse Spark 和 GPT-5.4 完成「制作一個 Flappy Bird 克隆版」的任務,從游戲邏輯到交互細節,GPT-5.4 輕松勝出。在經典的六邊形小球測試中,對比昨天 DeepSeek 專家模式的表現,Muse Spark 再次敗下陣來。


只能說,編碼與長鏈路智能體任務,仍是 Meta 明確承認、尚在補強的方向。

與標準推理模式并行,Meta 同步推出了 Contemplating 模式,通過并行調度多個 AI 智能體協作處理復雜問題。

該模式在「人類最后的考試」(Humanity’s Last Exam)無工具版本中得分 50.2,超過 Gemini 3.1 Deep Think 的 48.4 和 GPT 5.4 Pro 的 43.9,FrontierScience Research 科學研究任務中得分 38.3。但在物理奧賽 IPhO 2025 理論題上得分 82.6,仍落后于 GPT 5.4 Pro 的 93.5。


支撐上述能力的,是 MSL 過去九個月徹底重建的技術棧。

Codebase Perplexity 測試圖表顯示,Muse Spark 在相同性能水平下,比 Llama 4 Maverick Base 節省 10.3 倍算力,比 DeepSeek-V3.1 Base 節省 8.2 倍,比 Kimi-K2 Base 節省 3.3 倍。


強化學習階段同樣表現穩定,pass@1 從約 46% 持續爬升至超 60%,pass@16 從 近 68% 升至近 80%,在未見過的評測集上泛化趨勢同樣平穩。


博主 Yuchen Jin 評價稱,基礎設施才是 AI 實驗室真正的護城河,好的基礎設施讓研究人員能以更快速度訓練模型、用更短周期驗證更多想法。


AI 評測機構 Artificial Analysis 在早期測試后表示,Muse Spark 在其綜合智能指數中得分 52,位列全球前五。


Muse Spark 現已上線 meta.ai 及 Meta AI 應用,并向部分用戶開放 API 內測,用戶須以 Facebook 或 Instagram 賬號登錄方可使用。與此前開源 Llama 系列的路線不同,Meta 這次選擇閉源發布。

Meta 未明確說明是否會使用社交賬號中的個人信息訓練模型,但鑒于 Meta 的一貫做法,這一可能性不低,其中健康數據的采集更是值得特別關注。

Meta 重組后的首份 AI 答卷,及格了嗎?

2025 年 4 月,Llama 4 以令人失望的表現觸發了 Meta 的人事地震。

下定決心從頭來過的扎克伯格,成立了 Meta Superintelligence Labs,以 143 億美元將 Scale AI 創始人 Alexandr Wang 引入擔任首席 AI 官,前 GitHub CEO Nat Friedman 負責產品,前 OpenAI 研究員 Shengjia Zhao(趙晟佳)出任首席科學家。


緊接著是四大團隊的重組、以及從 OpenAI、DeepMind、Anthropic 等對手處累計引進逾 70 名頂尖研究人員,單人簽約獎金最高達 1 億美元。

代價是沉重的,圖靈獎得主 Yann LeCun 離職、600 個崗位被裁、內部薪酬不公引發大規模士氣危機,六個月內四次架構調整更是讓團隊方向感嚴重缺失。


結果顯而易見,九個月重建、數百億投入,Muse Spark 交出的這份答卷,稱得上合格,卻還遠遠談不上亮眼。

有一個有趣的細節是,Meta 在評測圖表中,通過給自家模型基準測試成績高亮的操作,試圖制造出全面領先的視覺觀感,隨即引發外界批評。


網友 Armen Aghajanyan 直接定性為「圖表犯罪」,Alexandr Wang 隨后公開致歉,承認大多數評估恰恰顯示模型有很多需要改進的地方。



事實上,Meta 新模型在健康領域的垂直優勢足夠亮眼,算力效率的提升也確有真實價值,但 ARC AGI 2 上的斷崖式落差、編碼任務上被 GPT-5.4 輕松超越,以及「圖表犯罪」風波所折射出的敘事焦慮,共同勾勒出一個仍在追趕、而非遙遙領先的 Meta AI。

更關鍵的是,這是一份閉源答卷。Meta 曾以開源 Llama 系列樹立起差異化形象,如今轉向閉源商業化路線,意味著它放棄了社區生態這張最重要的底牌,卻尚未證明自己能在閉源賽道上與 OpenAI 和 Anthropic 正面掰手腕。


如官方博客和 Alex 回應所說,別問,問就是「大的要來了」

甚至就在 Muse Spark 發布的同一天,馬斯克在社交媒體上曬出 xAI Colossus 2 的訓練進度,七個模型同時在訓,參數規模從 1T 橫跨至 10T,并附上一句意味深長的「還有些追趕要做」。


同期,Claude Mythos 預覽版、DeepSeek 新一輪更新也已經發布,包括阿里即將推出 Qwen-3.6 系列旗艦 Qwen-3.6-Max,騰訊混元 3.0 同樣蓄勢待發。

對手們不會等 Meta 考完再出題,并且投資者的耐心本來就是有限度的。四月,依舊是最殘酷的一個月。名為 AGI 的這場考試,目前還看不到閱卷結束的那一天。

我們正在招募伙伴

簡歷投遞郵箱hr@ifanr.com

?? 郵件標題「姓名+崗位名稱」(請隨簡歷附上項目/作品或相關鏈接)


特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
2-0!西甲亂套了:塞維利亞5輪4敗+只領先降級區1分,11隊要保級

2-0!西甲亂套了:塞維利亞5輪4敗+只領先降級區1分,11隊要保級

體育知多少
2026-04-24 09:08:48
田亮做夢也沒想到,費心養大的14歲兒子,如今竟“壓自己一頭”

田亮做夢也沒想到,費心養大的14歲兒子,如今竟“壓自己一頭”

以茶帶書
2026-04-23 16:11:50
百億美元砸出的荒誕死局:一國正規軍為何永遠打不贏一支民兵

百億美元砸出的荒誕死局:一國正規軍為何永遠打不贏一支民兵

寰球經緯所
2026-04-20 22:59:41
女子意圖舉報保險公司高管丈夫婚外情,被掐死后裝入行李箱拋尸,丈夫一審被判無期,父親抗訴:這么小的事情為什么要殺人;被告也提起上訴

女子意圖舉報保險公司高管丈夫婚外情,被掐死后裝入行李箱拋尸,丈夫一審被判無期,父親抗訴:這么小的事情為什么要殺人;被告也提起上訴

大風新聞
2026-04-24 10:29:10
因未按規定投放車輛等行為,哈啰被上海市交通委罰款10萬元

因未按規定投放車輛等行為,哈啰被上海市交通委罰款10萬元

澎湃新聞
2026-04-24 13:04:26
回加拿大生活的大山,60歲須發皆白很滄桑,重慶妻子仍風韻猶存

回加拿大生活的大山,60歲須發皆白很滄桑,重慶妻子仍風韻猶存

胡一舸南游y
2026-04-04 15:41:43
中國第四艘航母來了?海軍宣傳片給出暗示,“小灣回家”更含深意

中國第四艘航母來了?海軍宣傳片給出暗示,“小灣回家”更含深意

井普椿的獨白
2026-04-23 13:54:43
張雪遺憾落敗僅4天,人民日報發文,沒有夸贊,卻讓張雪口碑暴漲

張雪遺憾落敗僅4天,人民日報發文,沒有夸贊,卻讓張雪口碑暴漲

老吳教育課堂
2026-04-23 18:58:07
武漢大爺公交插隊被撞致死,家屬起訴乘客和公交公司,法院判了

武漢大爺公交插隊被撞致死,家屬起訴乘客和公交公司,法院判了

奇思妙想草葉君
2026-04-24 00:26:53
91年被初戀女友拋棄后,我入伍又考上軍校,后來見到她時我驚呆了

91年被初戀女友拋棄后,我入伍又考上軍校,后來見到她時我驚呆了

詭譎怪談
2025-04-24 20:02:06
快看!世界新第一高樓,已蓋到100層!

快看!世界新第一高樓,已蓋到100層!

GA環球建筑
2026-04-23 22:28:50
張雪立功了!川藏線數公里機車長龍上熱搜,成千上萬騎手奔赴西藏

張雪立功了!川藏線數公里機車長龍上熱搜,成千上萬騎手奔赴西藏

火山詩話
2026-04-24 06:29:38
我有罪,大導演昆汀花1萬美金,在包房舔腳半小時,直到皮膚起皺

我有罪,大導演昆汀花1萬美金,在包房舔腳半小時,直到皮膚起皺

西樓知趣雜談
2026-04-20 08:40:47
曹德旺3位子女:長子接管家業,次子生活低調,女兒嫁了澳籍老公

曹德旺3位子女:長子接管家業,次子生活低調,女兒嫁了澳籍老公

一娛三分地
2026-04-23 19:16:32
3-10爆冷出局!斯諾克排名大洗牌 丁俊暉第15 一人或將登頂世界第

3-10爆冷出局!斯諾克排名大洗牌 丁俊暉第15 一人或將登頂世界第

youyou喜歡你
2026-04-24 12:40:50
老板娘和我說放大看有驚喜!

老板娘和我說放大看有驚喜!

太急張三瘋
2026-04-24 10:35:42
解放戰爭:我軍有4場以多打少卻罕見兵敗的戰役,都是誰指揮的

解放戰爭:我軍有4場以多打少卻罕見兵敗的戰役,都是誰指揮的

華人星光
2026-04-24 11:25:24
地球文明已經重啟過9次,地心世界真的存在,入口在布達拉宮地下

地球文明已經重啟過9次,地心世界真的存在,入口在布達拉宮地下

易玄
2024-12-07 02:14:06
炸裂!世態的炎涼,還是道德的淪喪?女子裸身取外賣,外賣哥驚了

炸裂!世態的炎涼,還是道德的淪喪?女子裸身取外賣,外賣哥驚了

川渝視覺
2026-04-23 21:29:16
東風導彈泄密案!間諜郭萬鈞一家三口,全部被處以死刑

東風導彈泄密案!間諜郭萬鈞一家三口,全部被處以死刑

番外行
2026-03-31 08:28:28
2026-04-24 13:35:00
AppSo incentive-icons
AppSo
讓智能手機更好用的秘密
6307文章數 26828關注度
往期回顧 全部

科技要聞

剛剛,DeepSeek-V4 預覽版發布 百萬上下文

頭條要聞

特朗普:不會對伊朗動用核武器 已從軍事上拿下了伊朗

頭條要聞

特朗普:不會對伊朗動用核武器 已從軍事上拿下了伊朗

體育要聞

里程碑之戰拖后腿,哈登18分8失誤

娛樂要聞

王思聰被綠!戀愛期間女友被金主包養

財經要聞

19家企業要"鋁代銅",格力偏不

汽車要聞

全景iDrive 續航近800km 新款寶馬7系/i7亮相

態度原創

本地
手機
家居
數碼
公開課

本地新聞

云游中國|逛世界風箏都 留學生探秘中國傳統文化

手機要聞

國產上一代Ultra銷量比比看,華為還是最強,小米第二

家居要聞

自然肌理 溫潤美學

數碼要聞

專訪巴可王紅波:顯示行業競爭下半場,深耕八大垂直行業與構建共贏生態

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版