百度智能云的企業(yè)級(jí)算法自主優(yōu)化智能體“伐謀Agent 2.0”近日再次登頂機(jī)器學(xué)習(xí)工程權(quán)威基準(zhǔn)測(cè)試MLE-Bench,并刷新了SOTA成績(jī)。這是該產(chǎn)品繼去年10月首次登頂后,第二次拿下這一榜單的第一名。
MLE-Bench由OpenAI主導(dǎo)設(shè)立,包含75個(gè)源自Kaggle真實(shí)競(jìng)賽的工程任務(wù),用于評(píng)估AI智能體在模型訓(xùn)練、數(shù)據(jù)處理、實(shí)驗(yàn)管理等全流程中的獨(dú)立作業(yè)能力。
它考核的不是大模型的對(duì)話或推理水平,而是模擬人類機(jī)器學(xué)習(xí)工程師解決實(shí)際問題的綜合素養(yǎng)。每道題目需運(yùn)行三次取平均分,單次完整提交的算力成本為數(shù)萬美元。
伐謀2.0在“高難度”任務(wù)上的表現(xiàn)較為突出,在統(tǒng)一運(yùn)行標(biāo)準(zhǔn)下,其綜合勝率領(lǐng)先于搭載Claude-Opus-4.6等主流大模型的同類智能體。
在15道最難題目中,伐謀拿下9項(xiàng)第一。這類高難度任務(wù)往往對(duì)應(yīng)現(xiàn)實(shí)中數(shù)字化基礎(chǔ)薄弱、數(shù)據(jù)質(zhì)量參差的場(chǎng)景,如歷史遺留的臟數(shù)據(jù)、殘缺的業(yè)務(wù)記錄、跨系統(tǒng)異構(gòu)對(duì)接等,具有較高的工程參考價(jià)值。
產(chǎn)品層面,伐謀2.0在演化策略、長(zhǎng)程記憶機(jī)制和底層基礎(chǔ)設(shè)施上做了系統(tǒng)優(yōu)化。增強(qiáng)的演化策略支持智能體在多個(gè)路徑上并行探索并適時(shí)回溯調(diào)整;長(zhǎng)程記憶機(jī)制幫助其在長(zhǎng)鏈條任務(wù)中保持邏輯一致性;全棧AI云基礎(chǔ)設(shè)施的優(yōu)化則提升了算法迭代效率。
上線以來,伐謀已服務(wù)數(shù)千家企業(yè),覆蓋零售、金融、制造、能源、交通等領(lǐng)域。例如在汽車制造中,與阿爾特太乙合作的風(fēng)阻驗(yàn)證時(shí)間從10小時(shí)壓縮到數(shù)分鐘,整車研發(fā)周期平均縮短25%。
MLE-Bench的競(jìng)爭(zhēng)格局并不平靜。今年2月,創(chuàng)業(yè)公司Disarray提交了一個(gè)高分成績(jī),隨后UCSD團(tuán)隊(duì)的AIBuildAI也曾短暫占據(jù)榜首。百度伐謀2.0在這一輪動(dòng)態(tài)排名中最終登頂,反映出該領(lǐng)域技術(shù)迭代的快速與激烈。
其他參與測(cè)評(píng)的智能體還包括搭載OpenAI o1、Claude等模型的方案,各家在數(shù)據(jù)處理效率、長(zhǎng)任務(wù)穩(wěn)定性等維度上各有長(zhǎng)短。
伐謀2.0的正式版本將在今年5月的Create 2026百度AI開發(fā)者大會(huì)上發(fā)布。同時(shí)百度還開源了Famou for Science項(xiàng)目,基于多智能體協(xié)同模式構(gòu)建虛擬科研團(tuán)隊(duì),支持長(zhǎng)線程科研任務(wù)的自動(dòng)化推進(jìn)。
當(dāng)智能體在工程化基準(zhǔn)測(cè)試中屢次刷新紀(jì)錄,一個(gè)開放的問題也隨之浮現(xiàn),從榜單高分到大規(guī)模產(chǎn)業(yè)落地,中間還需要跨越哪些真實(shí)世界的門檻?對(duì)于企業(yè)而言,穩(wěn)定的成本收益比和可解釋的工程回報(bào),或許才是最終的評(píng)判標(biāo)準(zhǔn)。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.