網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

百度伐謀Agent 2.0再登MLE-Bench榜首，智能體工程化能力迎考

2026-04-14 15:06:49　來源: i黑馬

北京舉報(bào)

分享至

百度智能云的企業(yè)級(jí)算法自主優(yōu)化智能體“伐謀Agent 2.0”近日再次登頂機(jī)器學(xué)習(xí)工程權(quán)威基準(zhǔn)測(cè)試MLE-Bench，并刷新了SOTA成績(jī)。這是該產(chǎn)品繼去年10月首次登頂后，第二次拿下這一榜單的第一名。

MLE-Bench由OpenAI主導(dǎo)設(shè)立，包含75個(gè)源自Kaggle真實(shí)競(jìng)賽的工程任務(wù)，用于評(píng)估AI智能體在模型訓(xùn)練、數(shù)據(jù)處理、實(shí)驗(yàn)管理等全流程中的獨(dú)立作業(yè)能力。

它考核的不是大模型的對(duì)話或推理水平，而是模擬人類機(jī)器學(xué)習(xí)工程師解決實(shí)際問題的綜合素養(yǎng)。每道題目需運(yùn)行三次取平均分，單次完整提交的算力成本為數(shù)萬美元。

伐謀2.0在“高難度”任務(wù)上的表現(xiàn)較為突出，在統(tǒng)一運(yùn)行標(biāo)準(zhǔn)下，其綜合勝率領(lǐng)先于搭載Claude-Opus-4.6等主流大模型的同類智能體。

在15道最難題目中，伐謀拿下9項(xiàng)第一。這類高難度任務(wù)往往對(duì)應(yīng)現(xiàn)實(shí)中數(shù)字化基礎(chǔ)薄弱、數(shù)據(jù)質(zhì)量參差的場(chǎng)景，如歷史遺留的臟數(shù)據(jù)、殘缺的業(yè)務(wù)記錄、跨系統(tǒng)異構(gòu)對(duì)接等，具有較高的工程參考價(jià)值。

產(chǎn)品層面，伐謀2.0在演化策略、長(zhǎng)程記憶機(jī)制和底層基礎(chǔ)設(shè)施上做了系統(tǒng)優(yōu)化。增強(qiáng)的演化策略支持智能體在多個(gè)路徑上并行探索并適時(shí)回溯調(diào)整；長(zhǎng)程記憶機(jī)制幫助其在長(zhǎng)鏈條任務(wù)中保持邏輯一致性；全棧AI云基礎(chǔ)設(shè)施的優(yōu)化則提升了算法迭代效率。

上線以來，伐謀已服務(wù)數(shù)千家企業(yè)，覆蓋零售、金融、制造、能源、交通等領(lǐng)域。例如在汽車制造中，與阿爾特太乙合作的風(fēng)阻驗(yàn)證時(shí)間從10小時(shí)壓縮到數(shù)分鐘，整車研發(fā)周期平均縮短25%。

MLE-Bench的競(jìng)爭(zhēng)格局并不平靜。今年2月，創(chuàng)業(yè)公司Disarray提交了一個(gè)高分成績(jī)，隨后UCSD團(tuán)隊(duì)的AIBuildAI也曾短暫占據(jù)榜首。百度伐謀2.0在這一輪動(dòng)態(tài)排名中最終登頂，反映出該領(lǐng)域技術(shù)迭代的快速與激烈。

其他參與測(cè)評(píng)的智能體還包括搭載OpenAI o1、Claude等模型的方案，各家在數(shù)據(jù)處理效率、長(zhǎng)任務(wù)穩(wěn)定性等維度上各有長(zhǎng)短。

伐謀2.0的正式版本將在今年5月的Create 2026百度AI開發(fā)者大會(huì)上發(fā)布。同時(shí)百度還開源了Famou for Science項(xiàng)目，基于多智能體協(xié)同模式構(gòu)建虛擬科研團(tuán)隊(duì)，支持長(zhǎng)線程科研任務(wù)的自動(dòng)化推進(jìn)。

當(dāng)智能體在工程化基準(zhǔn)測(cè)試中屢次刷新紀(jì)錄，一個(gè)開放的問題也隨之浮現(xiàn)，從榜單高分到大規(guī)模產(chǎn)業(yè)落地，中間還需要跨越哪些真實(shí)世界的門檻？對(duì)于企業(yè)而言，穩(wěn)定的成本收益比和可解釋的工程回報(bào)，或許才是最終的評(píng)判標(biāo)準(zhǔn)。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.