亚洲中文字幕乱码亚洲-蜜桃成熟视频在线观看-免费中文字幕视频在线-中国五十路熟妇洗澡视频-亚洲av伊人啪啪c-国产精品成人一区二区-国产自拍视频一区在线观看-成人一区不卡二区三区四区-亚洲情精品中文字幕99在线

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

在大模型這件事上,雷軍居然給馬斯克打樣了

0
分享至



在小米正式發(fā)布了MiMo-V2-Pro大模型以后,第一個出現(xiàn)在我腦子里的人不是雷軍,而是馬斯克。

因為他的xAI現(xiàn)在實在太尷尬了。2023年成立,融資超過500億美元,聯(lián)創(chuàng)團隊更是涵蓋了OpenAI、Deep Mind、微軟以及谷歌大腦。

最新的Grok 4.20 Beta,還搞了個四agent并行的多智能體架構(gòu),通過Grok、Harper、Benjamin、Lucas這四個 agent內(nèi)部辯論,提高輸出答案。

結(jié)果呢?Grok 4.20 Beta在Artificial Analysis Intelligence Index上只拿了48分,反觀雷軍這邊,小米的MiMo-V2-Pro則拿到了49分。

小米大模型Core團隊第一次發(fā)布模型是在2025年4月30日,初代MiMo,參數(shù)量只有7B,屬于是“玩具級”。

不過MiMo在數(shù)學(xué)推理和代碼生成上打贏了OpenAI o1-mini,算是小米在AI賽道上的第一聲響。

隨后,小米用一個匿名代號“Hunter Alpha”悄悄上線OpenRouter,一周之內(nèi)調(diào)用量自然增長到日榜第一、總量破1T tokens,全球開發(fā)者在不知道品牌的情況下用腳投票,然后小米公眾號深夜發(fā)微信說“對,這是小米做的。”

論大模型,馬斯克確實該拜雷軍為師。

01

MiMo-V2-Pro 憑什么站上牌桌

在業(yè)務(wù)上,雷軍比馬斯克還晚啟動了一年。

2023年4月雷軍推動成立小米AI實驗室大模型團隊,欒劍擔任首任負責人。只不過這個AI跟我們現(xiàn)在說的大語言模型、agent,并非一回事。

直到2024年底、2025年初,小米才成立了通用基礎(chǔ)大模型相關(guān)的Core團隊。

這個團隊同樣也是雷軍親自主導(dǎo)、親自推動,并且對大模型業(yè)務(wù)投入不設(shè)上限。

如果只看架構(gòu)層面,MiMo-V2-Pro并沒有什么讓人眼前一亮的東西。1T參數(shù)、42B激活參數(shù)、100萬token上下文,這些放在今天都不稀奇。

MiMo-V2-Pro采用的MoE(混合專家)、混合注意力機制、MTP(多token預(yù)測),這些也都是大模型領(lǐng)域的通用技術(shù)方案,DeepSeek在用,谷歌也在用。

真正讓這個模型區(qū)別于同行的,是后訓(xùn)練階段的三項技術(shù)。

第一項是MOPD,全稱Multi-Teacher On-Policy Distillation,多教師在線策略蒸餾。這是小米在MiMo-V2-Flash技術(shù)報告中首次提出的后訓(xùn)練范式。

要理解MOPD的價值,得先理解它要解決的問題。

大模型后訓(xùn)練有一個通病,俗名叫“蹺蹺板效應(yīng)”。就是說你把數(shù)學(xué)能力練強了,代碼能力就退化;你把agent能力拉上來,通用對話又變差。

這不是說某個團隊的技術(shù)不夠,這是整個產(chǎn)業(yè)都在面臨的問題。

目前大家比較認可的對應(yīng)方法有兩種,第一種是訓(xùn)練多個領(lǐng)域?qū)<夷P?,然后通過參數(shù)合并把它們糅在一起。不過這種方法的效果不是很理想。

另一種是讓專家模型生成大量離線數(shù)據(jù),再讓學(xué)生模型去學(xué),但這種方式存在嚴重的“分布偏移”問題。可是學(xué)生只學(xué)會了教師的答題方式,模型根本沒有建立自己的思考方式,一旦遇到教師沒覆蓋的場景就會失靈。

MOPD的做法分三個階段。第一階段是通用 SFT,用高質(zhì)量指令數(shù)據(jù)做基礎(chǔ)微調(diào),激活模型的指令跟隨能力,這一步?jīng)]什么特別的。

第二階段是分別訓(xùn)練多個領(lǐng)域?qū)<医處?,比如說代碼agent教師、搜索agent教師、數(shù)學(xué)推理教師、安全對齊教師,每個教師在自己的領(lǐng)域做到極致,不用管其他領(lǐng)域。

第三階段是關(guān)鍵創(chuàng)新,讓學(xué)生模型自己生成回答,然后同時接受多個教師的token級實時監(jiān)督。學(xué)生從自身分布采樣,接收自領(lǐng)域教師的KL散度獎勵和可驗證的結(jié)果獎勵這兩類信號,前者告訴模型“這個字應(yīng)該怎么寫”,后者告訴模型“最終答案對不對”。

小米公布的數(shù)據(jù)顯示,經(jīng)過MOPD訓(xùn)練的學(xué)生模型在AIME 2025數(shù)學(xué)競賽上達到94.1分,不僅保住了最強數(shù)學(xué)教師的水平,在部分項目上甚至超越了教師本身。

第二項是真實環(huán)境的agentic RL訓(xùn)練。

盡管說現(xiàn)在大模型都會強調(diào)自己的agent能力如何如何,但是絕大多數(shù)模型在強化學(xué)習過程中,都是非agent相關(guān)的。

模型看一道題,輸出一個答案,對完答案給個獎勵,整個過程是單輪的、封閉的。

現(xiàn)實世界的任務(wù)可不是這樣運作的。一個真正的agent需要讀代碼、改bug、跑測試、看報錯、再改、再跑,這是一個包含了多種情況的完整過程。

小米為此構(gòu)建了一套覆蓋四大類場景、總計超過12萬個真實交互環(huán)境的agent訓(xùn)練體系。

代碼agent的訓(xùn)練數(shù)據(jù)從真實GitHub Issues中提取,模型需要在agent循環(huán)中讀文件、改代碼、跑命令、看測試結(jié)果,獎勵來自可驗證的單元測試。

終端agent從Stack Overflow和Stack Exchange中篩選需要高級技術(shù)專長的問題,轉(zhuǎn)化為帶有完整Docker環(huán)境和測試用例的計算任務(wù)。

網(wǎng)頁開發(fā)agent用Playwright執(zhí)行生成代碼并錄制視頻,再用多模態(tài)視覺判別器評估質(zhì)量——用視頻而非靜態(tài)截圖來評估,因為視頻能捕捉交互動畫和響應(yīng)式布局等動態(tài)特性。

通用agent覆蓋搜索和函數(shù)調(diào)用兩個方向。

其結(jié)果就是,在多樣化agent 環(huán)境中增加強化學(xué)習計算量,收益會泛化到數(shù)學(xué)推理、通用推理等其他任務(wù)。也就是說,agent訓(xùn)練培養(yǎng)的不是某個特定技能,而是一種通用的問題解決能力。

別的大模型是在教室里做卷子,MiMo-V2-Pro 是直接被扔進許多個真實工作場景里實習,做錯了有真實的測試結(jié)果告訴你哪里錯了。

實習鍛煉出來的模型,比做卷子練出來的,更懂得如何處理問題。

第三項是ARL-Tangram,這是小米與北京大學(xué)計算機學(xué)院聯(lián)合研發(fā)的Agent RL訓(xùn)練基礎(chǔ)設(shè)施系統(tǒng),也是羅福莉作為通訊作者所參與的研究。

MOPD和Agentic RL解決的是“怎么訓(xùn)練”的問題,ARL-Tangram解決的是“用什么訓(xùn)練”的問題。

agent需要頻繁調(diào)用外部資源,代碼執(zhí)行需要CPU,獎勵模型需要GPU,網(wǎng)頁搜索需要API配額。 傳統(tǒng)的RL框架,它的做法是靜態(tài)資源預(yù)留,給每條訓(xùn)練軌跡分配一套固定資源,從頭占到尾。

這就導(dǎo)致說即便沒有任務(wù),這條通道也被占用,別人想走也走不了。

ARL-Tangram的實測數(shù)據(jù)顯示,在AI編程任務(wù)中,外部資源平均只有47%的時間在被使用,剩下53%完全閑置。

在MOPD訓(xùn)練場景中更夸張,12個教師模型各自占著一組GPU提供獎勵服務(wù),但這些GPU的平均流式多處理器活躍率不到3%,相當于97%的算力在空轉(zhuǎn)。

ARL-Tangram繼承了小米性價比之王的基因,它的核心思路就是細化資源管理,讓每一份算力都跑得更有價值。

每次外部調(diào)用被視為一個原子動作,動作結(jié)束后資源立即釋放,供其他軌跡使用。

實測效果:動作完成時間提升最高4.3倍,RL訓(xùn)練步驟時間加速最高1.5 倍,外部資源消耗降低71.2%。

同樣的硬件投入,能支撐多得多的訓(xùn)練量。

雷軍在V2-Pro發(fā)布當天的微博里寫了一句話:“我們在 AI 領(lǐng)域上相對比較低調(diào),實際進展可能比大家看到的要快很多?!?/p>



確實,小米在AI上的進展,遠遠超過了我的認知。

02

MiMo-V2-Pro對小米意味著什么

MiMo-V2-Pro出現(xiàn)之前,小米在軟件和AI領(lǐng)域的技術(shù)存在感很低。

提到智能駕駛,人們想到的是特斯拉、華為、小鵬;提到大模型,是字節(jié)、阿里、騰訊。小米的標簽始終是“硬件性價比之王”,雷軍的手機、IoT 設(shè)備、汽車,都是硬件敘事。

誠然,這個標簽幫小米賣出了很多產(chǎn)品,但也把它牢牢釘在了“組裝廠”的認知框架里。

雷軍自己也清楚這一點。

2023年年度演講上,他提出了一個新公式:“(軟件×硬件)^AI”,宣布小米未來五年研發(fā)投入超過1000億元,重點攻堅芯片、AI和操作系統(tǒng)。

這個公式當時聽起來以為雷軍是說著玩玩的,結(jié)果人家這回來真的。

MiMo-V2-Pro的誕生,第一次讓小米在純技術(shù)維度上獲得了一個全球級的排名。

Artificial Analysis Intelligence Index全球前十,中國第二。

事實上,我覺得只要能在全球大模型排行榜上占有一席之地,都相當于在資本市場、人才招募、合作談判中都多了一張手牌。

至少當雷軍說“小米是一家AI公司”的時候,能拿出這樣一個成果來支撐觀點。

但排名只是表面。更值得關(guān)注的是 MiMo-V2-Pro 與小米其他業(yè)務(wù)線之間的潛在協(xié)同。

小米汽車的智能駕駛團隊在2026年3月剛剛完成組織架構(gòu)調(diào)整,將“感知”和“規(guī)控”兩個部門合并為“端到端算法與功能部”,全面轉(zhuǎn)向端到端大模型技術(shù)路線,目標年內(nèi)實現(xiàn)端到端智駕交付。

與此同時,小米早在2025年11月就發(fā)布了MiMo-Embodied,同步覆蓋具身智能和自動駕駛的核心任務(wù)——環(huán)境感知、狀態(tài)預(yù)測、駕駛規(guī)劃。

所以MiMo-V2-Pro的這些成績,說白了那都是給小米汽車打的廣告。

MiMo-V2-Pro本身作為1T參數(shù)的云端模型,顯然無法直接部署到車端,沒有哪塊車載芯片跑得動這個體量。

但小米的布局邏輯是“云-邊-端”協(xié)同:云端用V2-Pro級別的大模型做訓(xùn)練、仿真和復(fù)雜決策,端側(cè)用壓縮后的輕量模型做實時推理。

MiMo-V2-Pro的價值不在于直接上車,而在于作為“教師模型”,通過前面提到的MOPD,將V2-Pro的能力蒸餾到端側(cè)小模型中。

馬斯克這邊,情況就微妙多了。

Grok在2025年底的一次Holiday Update正式住進了特斯拉的車機里,然而它卻只能設(shè)導(dǎo)航目、聊聊天,相當于是一個語音助手,它跟FSD之間只有導(dǎo)航鏈路的淺層聯(lián)動。



與此同時,特斯拉本身車內(nèi)控制座艙的AI,是來自于特斯拉自己的,跟xAI關(guān)系不大。

2026年3月,馬斯克宣布了一個叫“Digital Optimus”的聯(lián)合項目,說是要讓Grok充當“高層推理大腦”。

他用了卡尼曼的雙系統(tǒng)理論來類比,Grok是慢思考的System 2,特斯拉AI是快反應(yīng)的System 1,也就是實時感知和動作執(zhí)行。

然而僅憑馬斯克的想法,我認為它們之間的協(xié)同遠沒有小米“云端大模型蒸餾到車端小模型”這條路徑來得清晰。

03

我給MiMo-V2-Pro挑刺

本文并不是小米的軟文,我只是一個AI產(chǎn)業(yè)的觀察者,所以我在這部分準備給小米挑挑刺,以示公正。

先看Benchmark。

MiMo-V2-Pro公布的SWE-bench Verified得分為78.0%,接近Claude 4.6 Sonnet的79.6%,這是一份關(guān)于AI編程的測試集,MiMo-V2-Pro的數(shù)字也確實好看。

但這里有一個行業(yè)內(nèi)已經(jīng)公開的秘密,SWE-bench Verified這個測試集本身已經(jīng)不再可靠。

OpenAI的Frontier Evals團隊在2026年2月23日明確表示,SWE-bench Verified“實際上已經(jīng)飽和且高度被污染”,并且建議行業(yè)轉(zhuǎn)向更難的SWE-bench Pro。

OpenAI的研究人員發(fā)現(xiàn),包括GPT-5.2、Claude Opus 4.5和Gemini 3 Flash Preview在內(nèi)的多個前沿模型,僅憑 SWE-bench Verified的Task ID就能復(fù)述出原始的gold patch,這就相當于你考試的時候,不用看題目,只看題目的編號就能給出答案。

這意味著測試題目很可能已經(jīng)進入了訓(xùn)練數(shù)據(jù)。在這樣一個被污染的測試集上拿高分,說服力大打折扣。



MiMo-V2-Pro沒有公布SWE-bench Pro的成績。這個更難、更抗污染的版本才是2026年衡量編碼能力的真正標尺。

作為參考,目前SWE-bench Pro上表現(xiàn)最好的模型是OpenAI GPT-5.4,得分僅為57.7%,與SWE-bench Verified上動輒70%以上的成績形成鮮明對比。

不止SWE-bench Pro。

MiMo-V2-Pro還缺席了另外幾個關(guān)鍵的新一代測試集:ARC-AGI-2,專門測試推理泛化能力,純LLM得分為1%,最佳推理系統(tǒng)僅54%,人類平均60%;Frontier Math,前沿數(shù)學(xué)推理;LiveCodeBench v6,按月更新的編程評測,幾乎不可能被訓(xùn)練數(shù)據(jù)污染。

一個模型選擇公布哪些benchmark、不公布哪些benchmark,本身就是一種信息篩選。

還有一個容易被忽略的問題:MiMo-V2-Flash是MIT開源的,但MiMo-V2-Pro的權(quán)重并未開源。

羅福莉在發(fā)布聲明中說“會開源——當模型足夠穩(wěn)定值得開源的時候”,但在那之前,說明V2-Pro的性能還不夠穩(wěn)定。

雷軍說“我們模型剛剛完成,未來一段時間,還會快速迭代增強”。這句話既是承諾,也是對現(xiàn)狀的坦率承認。

MiMo-V2-Pro確實還有不少短板需要補。

它是小米從“硬件公司”到“AI公司”敘事轉(zhuǎn)型中最重要的一塊拼圖,但這塊拼圖能否真正嵌入小米的商業(yè)版圖,而不只是掛在墻上供人觀賞,還需要時間來回答。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
美媒預(yù)測馬刺淘汰波城概率96% 阿夫迪亞成逆襲X因素?文班超淡定

美媒預(yù)測馬刺淘汰波城概率96% 阿夫迪亞成逆襲X因素?文班超淡定

顏小白的籃球夢
2026-04-16 11:38:49
恩里克徹底封神!大巴黎化身英超歐冠噩夢,衛(wèi)冕之路勢不可擋!

恩里克徹底封神!大巴黎化身英超歐冠噩夢,衛(wèi)冕之路勢不可擋!

田先生籃球
2026-04-15 08:37:09
還剩6天,賴清德即將離島,大陸預(yù)言了結(jié)局,賴岳謙說得沒錯

還剩6天,賴清德即將離島,大陸預(yù)言了結(jié)局,賴岳謙說得沒錯

梔璃鳶年少
2026-04-16 08:52:59
67歲許家印近況曝光:老了禿了頭發(fā)白了!在里面待遇不錯 有錢人

67歲許家印近況曝光:老了禿了頭發(fā)白了!在里面待遇不錯 有錢人

念洲
2026-04-15 08:04:07
山姆上新無限繁殖的羽衣甘藍盆栽被瘋搶?打工人想800個方法馴服“史上最難吃蔬菜”

山姆上新無限繁殖的羽衣甘藍盆栽被瘋搶?打工人想800個方法馴服“史上最難吃蔬菜”

Vista氫商業(yè)
2026-04-15 15:10:06
云南鴕鳥肉案兇手被判死刑,當?shù)卦嗳速徺I,這些人后來怎樣了

云南鴕鳥肉案兇手被判死刑,當?shù)卦嗳速徺I,這些人后來怎樣了

林林故事揭秘
2025-01-03 17:30:21
恭喜俄羅斯和烏克蘭!打了1500多天,終于打成全世界都喜歡的樣子

恭喜俄羅斯和烏克蘭!打了1500多天,終于打成全世界都喜歡的樣子

嫹筆牂牂
2026-04-15 10:03:39
贏麻了!華為官宣姚安娜代言新機,網(wǎng)友調(diào)侃:代言人都“自產(chǎn)”!

贏麻了!華為官宣姚安娜代言新機,網(wǎng)友調(diào)侃:代言人都“自產(chǎn)”!

小娛樂悠悠
2026-04-16 10:19:43
涼山18歲女孩全家“社會性死亡”!裝貧連騙3位網(wǎng)紅,現(xiàn)更富裕了

涼山18歲女孩全家“社會性死亡”!裝貧連騙3位網(wǎng)紅,現(xiàn)更富裕了

千言娛樂記
2026-04-15 15:43:57
老人存款留給子女:這3種方式最穩(wěn)妥,合法合規(guī)不扯皮

老人存款留給子女:這3種方式最穩(wěn)妥,合法合規(guī)不扯皮

音樂時光的娛樂
2026-04-15 19:14:05
什么樣的食物可以讓廣東人感到憤怒?網(wǎng)友:把巨辣的菜做成白色

什么樣的食物可以讓廣東人感到憤怒?網(wǎng)友:把巨辣的菜做成白色

椰青美食分享
2026-04-16 09:44:12
東北沒有黑幫,只有“刀槍炮”:一場對香港百年社團的降維打擊

東北沒有黑幫,只有“刀槍炮”:一場對香港百年社團的降維打擊

黃麗搞笑小能手
2026-04-15 06:27:15
油價大暴跌!今天4月15日調(diào)整后,全國加油站92、95汽油最新售價

油價大暴跌!今天4月15日調(diào)整后,全國加油站92、95汽油最新售價

沙雕小琳琳
2026-04-16 00:55:27
不用開模,不需囤貨,這一屆年輕人,正在靠3D打印悄悄搞錢

不用開模,不需囤貨,這一屆年輕人,正在靠3D打印悄悄搞錢

每日人物
2026-04-15 09:17:22
49歲阿姨結(jié)識53歲大叔,搭伙后相約四川旅游,2天后向女兒哭訴

49歲阿姨結(jié)識53歲大叔,搭伙后相約四川旅游,2天后向女兒哭訴

詭譎怪談
2025-04-16 13:55:48
中國移動:4月30日起全國統(tǒng)一執(zhí)行!話費、流量將迎來重大變化

中國移動:4月30日起全國統(tǒng)一執(zhí)行!話費、流量將迎來重大變化

Thurman在昆明
2026-04-15 19:05:34
英軍上將警告:若臺海開戰(zhàn),英軍將同時打擊中俄,重點對付中!

英軍上將警告:若臺海開戰(zhàn),英軍將同時打擊中俄,重點對付中!

別吵吵
2026-04-15 09:49:16
許家印:鮮為人知的太康往事

許家?。乎r為人知的太康往事

牛刀財經(jīng)
2026-04-14 21:42:54
教育部新規(guī)落地!9月上學(xué)全變了,家長趁早看,早了解早安排

教育部新規(guī)落地!9月上學(xué)全變了,家長趁早看,早了解早安排

小談食刻美食
2026-04-16 07:28:48
東北人搬去海南,大腦會悄悄發(fā)生什么變化?

東北人搬去海南,大腦會悄悄發(fā)生什么變化?

果殼
2026-04-15 16:09:29
2026-04-16 12:23:00
字母榜 incentive-icons
字母榜
讓未來不止于大。
2379文章數(shù) 8059關(guān)注度
往期回顧 全部

科技要聞

39.98萬!小鵬GX預(yù)售“純電增程同價”

頭條要聞

上海阿姨向親生兒子索要36萬"帶孫費" 兒子當庭喊冤

頭條要聞

上海阿姨向親生兒子索要36萬"帶孫費" 兒子當庭喊冤

體育要聞

WNBA史上最大合同!阿賈3年500萬超級頂薪留隊

娛樂要聞

黃景瑜王玉雯否認戀情!聚會細節(jié)被扒

財經(jīng)要聞

一季度GDP,5.0%!

汽車要聞

空間大五個乘客都滿意?體驗嵐圖泰山X8

態(tài)度原創(chuàng)

家居
健康
教育
藝術(shù)
軍事航空

家居要聞

智能舒適 簡約風尚

干細胞抗衰4大誤區(qū),90%的人都中招

教育要聞

官方通知!招生計劃向理工農(nóng)醫(yī)類傾斜

藝術(shù)要聞

張大千『 花菓薈萃冊』

軍事要聞

封鎖霍爾木茲海峽后 美釋放雙重信號

無障礙瀏覽 進入關(guān)懷版