網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

拒絕蒸餾！微軟發(fā)布自研MAI-Thinking-1追平Claude Opus 4.6：完全從零訓(xùn)練，不沾任何第三方模型輸出

2026-06-03 14:35:23　來(lái)源: InfoQ

北京舉報(bào)

分享至

整理 | 華衛(wèi)

“我們現(xiàn)在已經(jīng)基本追平了幾個(gè)月前的最先進(jìn)水平。”在 Build 大會(huì)前夕，微軟 AI 執(zhí)行副總裁兼 CEO Mustafa Suleyman 在采訪(fǎng)中表示。

昨日，微軟在 Build 大會(huì)上發(fā)布了一系列自研的 AI 模型。這標(biāo)志著微軟在模型研發(fā)上的一次重要推進(jìn)，去年該公司才推出了首批自研模型，在此之前微軟還主要依賴(lài) OpenAI 的模型。甚至有一些觀(guān)察人士，將本次大會(huì)稱(chēng)為微軟的“AI 獨(dú)立日”。

同時(shí)，Suleyman 也登臺(tái)說(shuō)明了公司在 AI 發(fā)展上的思考。他強(qiáng)調(diào)，微軟的 AI 工作始終致力于支持人類(lèi)員工和用戶(hù)，而非取代他們，微軟希望打造的是一種被稱(chēng)為“人本主義超級(jí)智能（humanist superintelligence）”的體系。

整體來(lái)看，這次 Build 大會(huì)的核心信號(hào)非常明確：微軟正在從“AI 應(yīng)用整合者”，轉(zhuǎn)向“全棧 AI 基礎(chǔ)設(shè)施與模型提供者”。

1 完全從零開(kāi)始訓(xùn)練，微軟推出首個(gè)高級(jí)推理模型

微軟新模型家族的核心是 MAI-Thinking-1，這是微軟首個(gè)高級(jí)推理模型。

據(jù)介紹，MAI-Thinking-1 是一款“中等規(guī)模模型”，擁有 350 億活躍參數(shù)和 128K 上下文窗口，總參數(shù)規(guī)模約 1 萬(wàn)億，在效率與性能之間取得平衡，同時(shí)強(qiáng)調(diào)低 token 成本。微軟開(kāi)發(fā)者市場(chǎng)負(fù)責(zé)人兼 GitHub 首席運(yùn)營(yíng)官 Kyle Daigle 在主題演講前的媒體溝通會(huì)上表示，“MAI-Thinking-1 的設(shè)計(jì)目標(biāo)，是擅長(zhǎng)處理復(fù)雜的多步驟指令、長(zhǎng)上下文推理以及代碼生成。”

在過(guò)去一年中，推理模型這一類(lèi)別主要由 OpenAI 的 o 系列、Google 的 Gemini 推理版本，以及 Anthropic 的 Claude 擴(kuò)展思考模式所主導(dǎo)，另有開(kāi)源權(quán)重陣營(yíng)的 DeepSeek R1 在 2025 年初一度撼動(dòng)了這一格局。

MAI-Thinking-1 是微軟在這一賽道的新入局產(chǎn)品。在關(guān)鍵的軟件工程基準(zhǔn)測(cè)試中，它可以對(duì)標(biāo)行業(yè)領(lǐng)先模型；在 SWE Bench Pro 編程基準(zhǔn)上，其表現(xiàn)與 Claude Opus 4.6 持平。同時(shí)，該模型展現(xiàn)出先進(jìn)的數(shù)學(xué)推理能力；MAI-Thinking-1 在 AIME 2025 中達(dá)到 97.0%，在 AIME 2026 中達(dá)到 94.5%。在微軟進(jìn)行的盲測(cè)人工對(duì)比評(píng)估中，用戶(hù)對(duì)它的偏好甚至超過(guò)了 Anthropic 的 Claude Sonnet 4.6。

目前，微軟尚未披露具體的訓(xùn)練方法，例如是否采用了“可驗(yàn)證獎(jiǎng)勵(lì)強(qiáng)化學(xué)習(xí)”（類(lèi)似 OpenAI o1 的技術(shù)路徑）、過(guò)程獎(jiǎng)勵(lì)建模或其他方案。但他們明確了一點(diǎn)“否定信息”：模型的訓(xùn)練數(shù)據(jù)中不包含任何其他已訓(xùn)練 AI 系統(tǒng)的概率分布或輸出序列。

微軟強(qiáng)調(diào)，MAI-Thinking-1 完全從零開(kāi)始訓(xùn)練，使用的是企業(yè)級(jí)、干凈且具備合規(guī)商業(yè)授權(quán)的數(shù)據(jù)，并且在預(yù)訓(xùn)練階段排除了 AI 生成內(nèi)容，也沒(méi)有使用來(lái)自第三方模型的蒸餾數(shù)據(jù)，這迫使“模型真正學(xué)會(huì)任務(wù)本身”。

而這一“獨(dú)立訓(xùn)練”的主張，或成為 MAI-Thinking-1 面向企業(yè)客戶(hù)的差異化賣(mài)點(diǎn)。對(duì)于那些需要“干凈知識(shí)產(chǎn)權(quán)來(lái)源”的企業(yè)來(lái)說(shuō)，這一點(diǎn)甚至比模型能力本身更關(guān)鍵。對(duì)初創(chuàng)公司或非監(jiān)管場(chǎng)景的開(kāi)發(fā)者而言，這種差異可能顯得抽象。但對(duì)部署在醫(yī)療、金融、國(guó)防或任何需要合規(guī)采購(gòu)與數(shù)據(jù)治理的場(chǎng)景中的 AI 來(lái)說(shuō)，這很可能會(huì)變成采購(gòu)流程中的一個(gè)“必選勾選項(xiàng)”。

2 MAI 模型家族：一個(gè)多模態(tài)生態(tài)系統(tǒng)

微軟還發(fā)布了另外六款 MAI 系列模型，覆蓋圖像生成、語(yǔ)音轉(zhuǎn)寫(xiě)、語(yǔ)音合成和編程等方向。

其中，MAI-Code-1-Flash 是一款推理效率極高的智能體編程模型，專(zhuān)為并深度集成于 GitHub Copilot、Visual Studio Code 以及微軟整體技術(shù)棧而打造。其參數(shù)規(guī)模為 50 億（5B），性能可對(duì)標(biāo) Haiku，但成本更低。

MAI-Image-2.5（包括其超高效的 Flash 版本）同時(shí)支持世界級(jí)的文生圖與圖像編輯能力，其 Arena 評(píng)分已超過(guò) Nano Banana Pro。MAI Transcribe-1.5 是當(dāng)前全球最強(qiáng)的語(yǔ)音轉(zhuǎn)錄模型之一，達(dá)到 SOTA（最先進(jìn)水平）準(zhǔn)確率。它的速度是同類(lèi)模型的 5 倍，并內(nèi)置支持 43 種語(yǔ)言的領(lǐng)域?qū)Ｓ行g(shù)語(yǔ)。MAI-Voice-2 提供覆蓋 15 種語(yǔ)言的高質(zhì)量、自然語(yǔ)音生成能力，并支持通過(guò)短語(yǔ)音樣本進(jìn)行聲音適配，同時(shí)具備完善的濫用防護(hù)機(jī)制。其更高性?xún)r(jià)比版本 MAI-Voice-2-Flash 也即將推出。

未來(lái)，這些模型都將統(tǒng)一接入 Foundry 以及一個(gè)新的專(zhuān)用環(huán)境 MAI Playground。除了在 Azure AI Foundry 上分發(fā)并針對(duì)微軟一方產(chǎn)品（1P）優(yōu)化之外，這些模型還將面向開(kāi)發(fā)者廣泛開(kāi)放，并支持在更多平臺(tái)上使用。首次，開(kāi)發(fā)者將可以對(duì)模型權(quán)重進(jìn)行自定義調(diào)優(yōu)。

值得一提的是，所有這些模型都建立在同一個(gè)基礎(chǔ)之上：從零開(kāi)始“向上爬升”（hill-climbing），不依賴(lài)任何蒸餾方法，共享一致的數(shù)據(jù)規(guī)范、訓(xùn)練基礎(chǔ)設(shè)施和評(píng)估體系。

3 “升級(jí)版 OpenClaw”來(lái)了：首日用就能被信任？

2026 年初，OpenClaw 席卷 AI 圈。現(xiàn)在，微軟推出了 Scout，這是一款基于 OpenClaw 框架構(gòu)建的 AI 智能體，可以全天候自主運(yùn)行，在 Microsoft 365 應(yīng)用之間獨(dú)立完成任務(wù)。據(jù)介紹，Scout 可以連接 Teams、Outlook、OneDrive 和 SharePoint 等應(yīng)用，并訪(fǎng)問(wèn)聊天、郵件、日歷和聯(lián)系人數(shù)據(jù)。用戶(hù)可通過(guò) Teams 調(diào)用它，它還可以與用戶(hù)的瀏覽器交互，并通過(guò)模型上下文協(xié)議（MCP）連接外部應(yīng)用。該工具可在云端、桌面端和網(wǎng)頁(yè)端運(yùn)行。

“該智能體會(huì)在后臺(tái)持續(xù)運(yùn)行，理解你的各類(lèi)應(yīng)用和系統(tǒng)中工作的運(yùn)作方式，并在不需要每次提示的情況下主動(dòng)采取行動(dòng)。”微軟企業(yè)副總裁 Omar Shahine 在一篇博客中表示，這類(lèi)智能體會(huì)以用戶(hù)的身份執(zhí)行操作，并擁有受治理的 Entra 身份。作為微軟資深員工，Shahine 近期還宣布將領(lǐng)導(dǎo)一個(gè)新團(tuán)隊(duì)，把基于 OpenClaw 的個(gè)人助手引入 Microsoft 365 應(yīng)用。

Shahine 表示，Scout 可以減少辦公人員面對(duì)的重復(fù)性任務(wù)，例如與同事協(xié)調(diào)和安排會(huì)議時(shí)間，或根據(jù)即將到來(lái)的工作安排自動(dòng)在日歷中預(yù)留時(shí)間。“它還可以發(fā)現(xiàn)風(fēng)險(xiǎn)，例如決策停滯，從而讓你在問(wèn)題演變成阻礙之前及時(shí)處理。”

值得注意的是，由于明顯存在安全漏洞，OpenClaw 一度受到審查，但微軟承諾 Scout 具備“企業(yè)級(jí)安全與控制能力，從第一天起就可以在組織中被信任使用”。微軟還表示，將向開(kāi)源 OpenClaw 項(xiàng)目進(jìn)行上游貢獻(xiàn)。

目前，Scout 以“實(shí)驗(yàn)性版本”的形式向其 Frontier 項(xiàng)目客戶(hù)開(kāi)放，并需要通過(guò) Intune 策略配置以及“主動(dòng)選擇確認(rèn)（opt-in attestation）”。定價(jià)方面，微軟暫未公布更多細(xì)節(jié)，尚不清楚 Scout 是否會(huì)包含在 Microsoft 365 Copilot 訂閱中，還是作為單獨(dú)產(chǎn)品收費(fèi)。

盡管微軟大力推進(jìn) AI，其仍在努力說(shuō)服企業(yè)客戶(hù)相信 Microsoft 365 Copilot 的附加費(fèi)用是值得的。該產(chǎn)品面向大型企業(yè)定價(jià)為每位用戶(hù)每月 30 美元。今年 1 月，微軟表示約有 3% 的 Microsoft 365 客戶(hù)為該附加訂閱付費(fèi)，總計(jì)約 1500 萬(wàn)付費(fèi)用戶(hù)。上月，微軟宣布該數(shù)字已增長(zhǎng)至 2000 萬(wàn)。Scout 是微軟在 Microsoft 365 中推出的一系列智能體工具中的最新一項(xiàng)，這些工具還包括 Agent Mode（用戶(hù)可在 Word、Excel 等應(yīng)用中與 Microsoft 365 Copilot 交互生成內(nèi)容）以及 Copilot Cowork（微軟版的 Anthropic Claude Cowork 智能體，可獨(dú)立完成任務(wù)）。

https://microsoft.ai/news/microsoft-build-2026-mai-keynote-transcript/

https://www.semafor.com/article/06/02/2026/microsofts-ai-chief-on-the-greatest-game-of-catchup-ever-played

聲明：本文為 AI 前線(xiàn)整理，不代表平臺(tái)觀(guān)點(diǎn)，未經(jīng)許可禁止轉(zhuǎn)載。

會(huì)議推薦

企業(yè)級(jí) Agent 落地，繞不開(kāi) 4 個(gè)真實(shí)的工程問(wèn)題。如何在 Agent 安全性和可用性之間找到平衡點(diǎn)？Agent 需要什么樣的記憶系統(tǒng)才能真正理解上下文？如何通過(guò)算法壓榨實(shí)現(xiàn)智力增量與成本控制的極致平衡？多 Agent 協(xié)作，如何做到可觀(guān)測(cè)、可治理、可控制？6 月 26-27 日，AICon 全球人工智能開(kāi)發(fā)與應(yīng)用大會(huì)·上海站國(guó)內(nèi)頭部公司的 Agent 實(shí)踐，一次說(shuō)透。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.