我用Meta“華人天團(tuán)”打造的新模型，一張圖復(fù)刻了個“豆包App”

2026-04-09 15:28:20　來源: 智東西

北京舉報

分享至

智東西
作者陳駿達(dá)
編輯云鵬一、多模態(tài)、醫(yī)療健康表現(xiàn)突出，智能體和編程仍是短板二、所需算力資源比Llama 4少一個量級，采用新型強(qiáng)化學(xué)習(xí)技術(shù)棧三、一手實(shí)測：精準(zhǔn)識別食物熱量，還給Meta AI眼鏡造了個新品結(jié)語：牛油果熟了，但Meta的“個人超級智能”仍需耐心

Meta的“牛油果”模型，終于熟了！

智東西4月9日報道，今天，在成立9個月后，Meta超級智能實(shí)驗(yàn)室（MSL）發(fā)布了其首款模型Muse Spark（內(nèi)部代號牛油果）。這是一個原生的多模態(tài)推理模型，支持工具使用、視覺思維鏈和多智能體編排。

在大模型測評平臺Artificial Analysis上，Muse Spark的智能指數(shù)直接從Llama 4 Maverick的18分，跳到了52分，介于Claude Sonnet 4.6和Claude Opus 4.6之間，算是進(jìn)入第一梯隊(duì)了。

我們第一時間對模型做了體驗(yàn)，上傳了一張豆包App的截圖，要求Muse Spark復(fù)刻。可以看到Muse Spark的回復(fù)風(fēng)格比較口語化，甚至有一股“豆包味兒”，這可能是因?yàn)檫@一模型主要面向C端用戶。

Muse Spark的生成速度很快，效果也不錯，基本1:1復(fù)刻了豆包的頁面，連圖像都還原了。

Muse Spark還通過了小球彈跳測試。有網(wǎng)友感嘆道，時隔1年多，Meta終于發(fā)了一款能通過六邊形小球彈跳測試的大模型，這一歷史性時刻值得記錄。

Muse Spark是ScaleAI創(chuàng)始人、Meta首席AI官汪滔（Alexandr Wang）加入Meta 10個月后，交出的首份答卷。

這一結(jié)果來的并不容易，此前，在Llama 4遭遇史詩級滑鐵盧后，Meta大刀闊斧地重組了AI團(tuán)隊(duì)，唱衰大語言模型的楊立昆也最終離開。

汪滔稱，Meta在過去9個月從零開始打造AI技術(shù)棧，基礎(chǔ)設(shè)施、架構(gòu)、數(shù)據(jù)管線都是全新的，Muse Spark正是這些努力的成果。

加入Meta的不少華人AI大牛紛紛轉(zhuǎn)發(fā)了這一成果，包括趙晟佳、畢樹超、余家輝、Jason Wei等等。值得一提的是，MSL團(tuán)隊(duì)的華人濃度很高，在轉(zhuǎn)發(fā)新模型的Meta研究員中，從領(lǐng)導(dǎo)到基層員工，許多都是華人。

Muse Spark是MSL Muse系列模型中的首款，未來還會有更多該系列模型發(fā)布。目前Muse Spark已開始逐步推送至Meta旗下的應(yīng)用和Meta.ai網(wǎng)頁端，不過仍有用戶反映自己使用的模型仍是Llama 3。

同時，“開源”兩個字在相關(guān)博客中，一次也未被提及。

體驗(yàn)鏈接：meta.ai

從基準(zhǔn)測試結(jié)果來看，Muse Spark在多模態(tài)感知、推理、醫(yī)療健康和智能體等領(lǐng)域的表現(xiàn)處于行業(yè)第一梯隊(duì)。不過，MSL承認(rèn)這一模型在長程智能體系統(tǒng)和編程工作流方面性能尚有差距。

以下是Muse Spark完整的基準(zhǔn)測試成績。需要注意的是，Meta在這里采用了一些有“圖表詐騙”嫌疑的數(shù)據(jù)呈現(xiàn)方式。乍一看，Muse Spark的所有成績都被標(biāo)藍(lán)，似乎全面領(lǐng)先，但實(shí)際上這一模型在圖中的20項(xiàng)基準(zhǔn)測試中，拿到的SOTA數(shù)量為4個。

在多模態(tài)能力維度，Muse Spark的表現(xiàn)較有競爭力，在美國大模型圈沒有被拉開明顯代差，基本和GPT-5.4處在同一水平線上。Muse Spark的表現(xiàn)也符合其原生多模態(tài)大模型的定位。

作為一款將部署于Meta旗下眾多社交媒體、面向廣大個人用戶的模型，Muse Spark在用戶高頻關(guān)注的醫(yī)療健康領(lǐng)域同樣沒有掉隊(duì)。在HealthBench Hard與MedXpertQA（多模態(tài)）兩項(xiàng)評測中均斬獲SOTA，顯然對此進(jìn)行了重點(diǎn)優(yōu)化。

Muse Spark本次還發(fā)布了“沉思模式（Contemplating mode）”，該模式可協(xié)調(diào)多個智能體并行推理。這使得Muse Spark能夠與Gemini Deep Think和GPT Pro等前沿模型的極限推理模式相媲美。

開啟“沉思模式”后，Muse Spark在復(fù)雜任務(wù)中的能力得以提升，比如它在HLE“人類最后的考試”基準(zhǔn)測試中，取得了58%的正確率，在“前沿科學(xué)研究”基準(zhǔn)測試中取得了38%的正確率。

跑分之外，這一模型的新定位和背后技術(shù)，也值得關(guān)注。

Meta稱，Muse Spark是邁向個人超級智能的第一步，它能夠理解用戶所處的世界，多模態(tài)能力和醫(yī)療健康就是當(dāng)前的兩個重點(diǎn)。

MuseSpark從底層架構(gòu)層面，整合了跨領(lǐng)域和工具的視覺信息，在識別、定位方面的能力不錯。這些功能結(jié)合起來，可以實(shí)現(xiàn)各種交互式體驗(yàn)。

例如，用戶可以上傳一張游戲畫面截圖，然后讓MuseSpark把它變成一個能真正互動的游戲。

或是告知MuseSpark自己有高膽固醇的問題，并讓MuseSpark基于多模態(tài)能力和醫(yī)療知識，做一個動態(tài)的食物推薦頁面。

Meta在博客中分享的demo也僅僅涉及多模態(tài)和醫(yī)療健康領(lǐng)域，這或許意味著Muse系列模型最終的用途，仍然是服務(wù)于扎克伯格的個人超級智能愿景，而不是單純地追求智能上限。

在技術(shù)方面，MSL大幅度提升了算力利用率，與之前的模型Llama 4 Maverick相比，Muse Spark用少一個數(shù)量級以上的計(jì)算資源就能達(dá)到相同的性能。

同時，MSL還在強(qiáng)化學(xué)習(xí)階段采用了新技術(shù)棧，在大規(guī)模強(qiáng)化學(xué)習(xí)中帶來平穩(wěn)、可預(yù)測的性能提升。

MuseSpark發(fā)布后，我們進(jìn)行了更多實(shí)測。

MuseSpark的多模態(tài)能力確實(shí)不錯，我們上傳了一個啤酒瓶的照片，讓它分析熱量。MuseSpark一眼就看出了啤酒的品牌、大小，甚至連原圖中肉眼都難以分辨的酒精度都準(zhǔn)確識別出來了。

它對于熱量的分析則來自搜索，還把熱量轉(zhuǎn)換成了我們?nèi)粘３缘氖澄铮⒔o出要消耗這些熱量對應(yīng)的運(yùn)動量，是比較實(shí)用的。

我們緊接著讓MuseSpark給Meta的AI眼鏡做一個宣傳網(wǎng)頁，沒給任何參考。可以看到，在思考過程中MuseSpark主動調(diào)用AI生圖模型打造了對應(yīng)的產(chǎn)品圖片，然后編寫完整頁面代碼，整個過程耗時2分鐘左右，效果如下：

這一網(wǎng)頁的完成度不錯，直接給Meta設(shè)計(jì)出了一款搭載MuseSpark的新品AI眼鏡。模型還自夸道，這是一個旗艦級的官網(wǎng)，不是普通的落地頁，是按AppleVisionPro發(fā)布會標(biāo)準(zhǔn)做的。

MuseSpark還可用于購物推薦。我們試著讓它搜索一款汽車雨刮器，幾秒鐘就拿到了好幾個選項(xiàng)，并且有對每款產(chǎn)品優(yōu)勢劣勢的分析和最終購買建議。

作為Meta超級智能實(shí)驗(yàn)室的首秀，Muse Spark已經(jīng)展現(xiàn)出躋身第一梯隊(duì)的水準(zhǔn)，足夠讓人期待未來的Muse系列后續(xù)產(chǎn)品。

不過，扎克伯格想要的“個人超級智能”，目前還停留在醫(yī)療健康問答、網(wǎng)頁復(fù)刻、購物推薦這些相對可控的場景里。距離真正改變數(shù)億用戶的交互方式，還有很長的路要走。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.