亚洲中文字幕乱码亚洲-蜜桃成熟视频在线观看-免费中文字幕视频在线-中国五十路熟妇洗澡视频-亚洲av伊人啪啪c-国产精品成人一区二区-国产自拍视频一区在线观看-成人一区不卡二区三区四区-亚洲情精品中文字幕99在线

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

螞蟻集團(tuán)全模態(tài)代碼算法團(tuán)隊(duì)自研多模態(tài)Web GUI Agent:OpAgent

0
分享至

為應(yīng)對(duì)真實(shí) Web 環(huán)境的非結(jié)構(gòu)化復(fù)雜性、時(shí)序不穩(wěn)定性與交互隱式邏輯等挑戰(zhàn), 螞蟻集團(tuán)全模態(tài)代碼算法團(tuán)隊(duì) 提出了一套結(jié)合了多任務(wù)微調(diào)、在線強(qiáng)化學(xué)習(xí)與模塊化協(xié)作的綜合解決方案: OpAgent。

OpAgent 通過層次化多任務(wù)微調(diào) (MT-SFT) 構(gòu)建具備規(guī)劃、行動(dòng)和定位能力的視覺語言模型(VLM)基座;繼而,在自建的在線交互環(huán)境中,利用創(chuàng)新的混合獎(jiǎng)勵(lì)機(jī)制進(jìn)行在線強(qiáng)化學(xué)習(xí)(Online RL) ,有效緩解了離線訓(xùn)練帶來的分布偏移問題;最后,通過一個(gè)包含規(guī)劃器、定位器、反思器和總結(jié)器的模塊化智能體架構(gòu),實(shí)現(xiàn)對(duì)復(fù)雜長(zhǎng)時(shí)程任務(wù)的魯棒執(zhí)行與自我修正。

在權(quán)威 Web 智能體評(píng)測(cè)基準(zhǔn) WebArena 上,OpAgent 以 71.6% 的成功率于 2026 年 1 月取得了榜單第一的 SOTA 成績(jī)。

GitHub:https://github.com/codefuse-ai/OpAgent

Hugging Face:https://huggingface.co/codefuse-ai/OpAgent

ModelScope:https://modelscope.cn/models/codefuse-ai/OpAgent-32B

Technical Report:https://github.com/codefuse-ai/OpAgent/blob/main/technical_report/OpAgent.pdf

一、背景與挑戰(zhàn)

自主Web智能體旨在模擬人類在圖形用戶界面( GUI )上執(zhí)行任務(wù),其在自動(dòng)化測(cè)試、數(shù)據(jù)采集、智能助理等領(lǐng)域具有廣闊應(yīng)用前景。然而,相較于 PC 或移動(dòng)端環(huán)境,Web 環(huán)境呈現(xiàn)出獨(dú)特的挑戰(zhàn):


  • 非結(jié)構(gòu)化復(fù)雜性:網(wǎng)頁的 DOM 樹結(jié)構(gòu)龐大且充滿噪聲,傳統(tǒng)基于 HTML 或 DOM 解析的方法難以有效提取關(guān)鍵信息,容易被冗余內(nèi)容干擾。

  • 時(shí)序不穩(wěn)定性:網(wǎng)頁內(nèi)容是動(dòng)態(tài)的,異步加載、實(shí)時(shí)更新和臨時(shí)性元素(如彈窗)使得環(huán)境狀態(tài)頻繁變化。依賴靜態(tài)離線數(shù)據(jù)集訓(xùn)練的模型在部署于真實(shí)動(dòng)態(tài)環(huán)境時(shí),會(huì)面臨嚴(yán)重的分布偏移( Distributional Shift )問題。

  • 交互的隱式邏輯:許多 Web 交互(如懸停觸發(fā)菜單)依賴實(shí)時(shí)的視覺反饋來確認(rèn)操作的成功與否,這種閉環(huán)交互邏輯是離線學(xué)習(xí)范式無法有效建模的。

為應(yīng)對(duì)上述挑戰(zhàn),我們?cè)O(shè)計(jì)并實(shí)現(xiàn)了 OpAgent 框架,其核心在于從依賴靜態(tài)數(shù)據(jù)向與真實(shí)環(huán)境動(dòng)態(tài)交互的范式轉(zhuǎn)變。

二、OpAgent技術(shù)框架

OpAgent 的整體設(shè)計(jì)遵循一個(gè)分階段的優(yōu)化路徑:首先通過多任務(wù)監(jiān)督微調(diào)( MT-SFT )為模型注入基礎(chǔ)的 Web 交互能力,然后通過在線強(qiáng)化學(xué)習(xí)( Online RL )在真實(shí)環(huán)境中對(duì)策略進(jìn)行迭代優(yōu)化,最終在推理階段利用模塊化智能體架構(gòu)( Agentic Architecture )執(zhí)行復(fù)雜任務(wù)。


2.1 層次化多任務(wù)微調(diào) (Hierarchical Multi-Task Fine-tuning)

為構(gòu)建一個(gè)強(qiáng)大的視覺語言模型( VLM )基座,我們首先摒棄了對(duì)脆弱的 HTML 文本解析的依賴,轉(zhuǎn)而讓模型直接從視覺截圖( Screenshot )中感知和理解頁面布局。我們將 Web 智能體的基礎(chǔ)能力分解為三個(gè)維度:

  • 規(guī)劃 ( Planning ):預(yù)測(cè)交互行為將導(dǎo)致的頁面狀態(tài)變遷。

  • 行動(dòng) ( Acting ):基于當(dāng)前頁面狀態(tài),決策下一步所需執(zhí)行的操作。

  • 定位 ( Grounding ):在視覺上精確定位執(zhí)行操作的UI元素坐標(biāo)。

我們整合了包括 Mind2Web 、Aguvis 、UGround 在內(nèi)的多個(gè)領(lǐng)域數(shù)據(jù)集,分別對(duì)上述三種能力進(jìn)行訓(xùn)練。為解決不同數(shù)據(jù)集樣本量級(jí)差異巨大(例如,百萬級(jí) vs. 千級(jí))可能導(dǎo)致的梯度主導(dǎo)問題,我們引入了基于有效樣本數(shù) (Effective Number of Samples)的加權(quán)策略,動(dòng)態(tài)調(diào)整各任務(wù)在訓(xùn)練中的損失權(quán)重,確保模型在所有基礎(chǔ)能力上得到均衡發(fā)展。


2.2 真實(shí)環(huán)境在線強(qiáng)化學(xué)習(xí) ( Online Agentic RL in the Wild )

在線學(xué)習(xí)是解決分布偏移問題的關(guān)鍵。為此,我們構(gòu)建了一套支持在真實(shí) Web 環(huán)境中進(jìn)行大規(guī)模在線強(qiáng)化學(xué)習(xí)的系統(tǒng)。

1. 四層RL基礎(chǔ)設(shè)施:該系統(tǒng)分為決策層、執(zhí)行層、基礎(chǔ)設(shè)施層和環(huán)境層。VLM 代理在決策層生成動(dòng)作,通過 Playwright 引擎在執(zhí)行層被解析并分發(fā)至分布式瀏覽器集群,與環(huán)境層中的真實(shí)網(wǎng)站(包括自部署的 WebArena 環(huán)境)進(jìn)行交互,最終將包含截圖和 DOM 的觀測(cè)數(shù)據(jù)反饋回決策層,形成一個(gè)完整的閉環(huán)交互與數(shù)據(jù)采集流程。


2. 混合獎(jiǎng)勵(lì)機(jī)制 ( Hybrid Reward Mechanism ):在沒有真值( Ground-truth )軌跡的真實(shí)環(huán)境中,如何為智能體的探索行為提供有效監(jiān)督信號(hào)至關(guān)重要。我們?cè)O(shè)計(jì)了一種混合獎(jiǎng)勵(lì)機(jī)制:

  • 基于規(guī)則的決策樹 ( RDT ) 進(jìn)行過程監(jiān)督:為智能體的每一步提供即時(shí)反饋。該機(jī)制通過一系列規(guī)則判斷動(dòng)作的有效性,如是否產(chǎn)生頁面視覺變化、是否點(diǎn)擊在可交互元素上等,對(duì)無效或冗余的動(dòng)作給予懲罰。

  • 基于 VLM 的 WebJudge 進(jìn)行結(jié)果評(píng)估:在一條軌跡( trajectory )結(jié)束后,引入一個(gè)強(qiáng)大的 VLM 評(píng)估器 WebJudge ,從任務(wù)完成度、動(dòng)作有效性和路徑效率三個(gè)維度對(duì)整個(gè)軌跡進(jìn)行綜合評(píng)分,作為最終的稀疏獎(jiǎng)勵(lì)信號(hào)。

這種結(jié)合了稠密過程獎(jiǎng)勵(lì)和稀疏結(jié)果獎(jiǎng)勵(lì)的機(jī)制,為模型在真實(shí)環(huán)境中的策略優(yōu)化提供了穩(wěn)定且全面的監(jiān)督。


2.3 Operator Agentic 模塊化智能體架構(gòu)

對(duì)于長(zhǎng)時(shí)程、多步驟的復(fù)雜任務(wù),單一模型的決策能力有限。我們因此設(shè)計(jì)了一個(gè)包含四個(gè)專業(yè)角色的模塊化協(xié)作架構(gòu),以提升任務(wù)執(zhí)行的魯棒性和成功率。

模塊

核心職責(zé)

主要輸出

Planner

規(guī)劃器

任務(wù)分解與策略制定

語義化的步驟指令

Grounder

定位器

將語義指令映射到UI坐標(biāo)

標(biāo)準(zhǔn)化的工具調(diào)用(Tool Call)

Reflector

反思器

驗(yàn)證動(dòng)作效果,監(jiān)控任務(wù)進(jìn)展

反思信號(hào)與中間筆記

Summarizer

總結(jié)器

綜合軌跡信息,生成最終答案

整合后的最終答案

該架構(gòu)通過一個(gè)“規(guī)劃-執(zhí)行-反思”的迭代循環(huán)運(yùn)作:Planner 根據(jù)全局目標(biāo)和當(dāng)前狀態(tài)生成高層指令,Grounder 將其翻譯為具體動(dòng)作并執(zhí)行,Reflector 在動(dòng)作后評(píng)估狀態(tài)變化并判斷是否需要重新規(guī)劃。這種機(jī)制實(shí)現(xiàn)了有效的錯(cuò)誤檢測(cè)與自我修正。


三、實(shí)驗(yàn)與結(jié)果

我們?cè)诙鄠€(gè)基準(zhǔn)上對(duì) OpAgent 框架的各組件進(jìn)行了充分評(píng)估。

單模型性能:

經(jīng)過在線RL優(yōu)化的單模型( Qwen3-VL-32B-Thinking + RL-HybridReward-Zero )在 WebArena 上取得了 38.1% 的成功率( Pass@5 ),顯著超越了原始基線模型( 27.4% )以及其他采用類似 Test-Time Training ( TTT ) 策略的方法。


Pass@K 分析:

對(duì)比 RL 優(yōu)化前后的模型在不同 Pass@K 下的表現(xiàn),可以看到隨著嘗試次數(shù) K 的增加,RL優(yōu)化后模型的性能優(yōu)勢(shì)愈發(fā)明顯,Pass@5 的絕對(duì)提升達(dá)到 10.66% 。這表明在線強(qiáng)化學(xué)習(xí)顯著增強(qiáng)了模型決策的魯棒性。


Agentic Architecture 性能:

最終,集成了所有優(yōu)化的 OpAgent 整體框架(使用 Gemini-3-Pro 作為部分模塊后端,Qwen2.5-VL-MFT 作為 Grounder ),在 WebArena 上達(dá)到了 71.6% 的成功率,刷新了該基準(zhǔn)的 SOTA 記錄,并登頂排行榜。


四、總結(jié)與展望

本文介紹了螞蟻全模態(tài)代碼算法團(tuán)隊(duì)在 Web 智能體方向的最新研究成果 OpAgent 。通過在多任務(wù)微調(diào)、真實(shí)環(huán)境在線強(qiáng)化學(xué)習(xí)以及模塊化智能體架構(gòu)等方面的探索,我們顯著提升了 Web 智能體在復(fù)雜動(dòng)態(tài)環(huán)境中的任務(wù)執(zhí)行能力,并在 WebArena 基準(zhǔn)上取得了 SOTA 性能。

當(dāng)前工作在實(shí)現(xiàn)高性能的同時(shí),仍一定程度上依賴于精細(xì)的提示工程和多智能體的復(fù)雜編排。未來的研究方向?qū)ㄌ嵘龁文P蛢?nèi)在的探索與泛化能力,以期減少對(duì)復(fù)雜框架的依賴,實(shí)現(xiàn)更加通用和高效的自主智能體。

我們是螞蟻集團(tuán)智能平臺(tái)工程的全模態(tài)代碼算法團(tuán)隊(duì)。團(tuán)隊(duì)成立 3 年以來,在 ACL、EMNLP、ICLR、NeurIPS、ICML 等頂級(jí)會(huì)議發(fā)表論文 20 余篇,兩次獲得螞蟻技術(shù)最高獎(jiǎng) T-Star ,1 次螞蟻集團(tuán)最高獎(jiǎng) SuperMA ,我們研發(fā)的 CodeFuse 項(xiàng)目連續(xù)兩年蟬聯(lián)學(xué)術(shù)開源先鋒項(xiàng)目。

團(tuán)隊(duì)常年招聘研究型實(shí)習(xí)生,有志于 NLP、大模型、多模態(tài)、圖神經(jīng)網(wǎng)絡(luò)的同學(xué)歡迎聯(lián)系 hyu.hugo@antgroup.com,期待與你一起,探索AI的無限可能!

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
鐘麗緹代孕喜得男孩,張倫碩堅(jiān)決支持,十年備孕終成功

鐘麗緹代孕喜得男孩,張倫碩堅(jiān)決支持,十年備孕終成功

喜你成疾藥石無醫(yī)
2026-04-15 10:59:34
悲哀!“男友訂百元酒店被分手”一事登上熱搜,聊天記錄太下頭了

悲哀!“男友訂百元酒店被分手”一事登上熱搜,聊天記錄太下頭了

火山詩話
2026-04-15 07:06:06
場(chǎng)均29分7板5助,基本鎖定一陣!雖然FMVP沒水貨,但你確實(shí)被高估

場(chǎng)均29分7板5助,基本鎖定一陣!雖然FMVP沒水貨,但你確實(shí)被高估

老梁體育漫談
2026-04-16 00:03:11
1998年,我娶了一個(gè)懷了別人孩子的女教師,新婚夜她交給我一封信

1998年,我娶了一個(gè)懷了別人孩子的女教師,新婚夜她交給我一封信

千秋文化
2026-04-11 20:04:55
越南也建高鐵了,時(shí)速350公里,使用德國技術(shù)!為何沒與我國合作

越南也建高鐵了,時(shí)速350公里,使用德國技術(shù)!為何沒與我國合作

老范談史
2026-04-13 18:09:39
張倫碩說鐘麗緹把財(cái)產(chǎn)給女兒自己沒意見:因?yàn)槲沂怯心芰Φ?>
    </a>
        <h3>
      <a href=東方不敗然多多
2026-04-15 19:07:24
馬奎爾在2026斯諾克世錦賽資格賽期間情緒失控,因沮喪而猛捶球桌

馬奎爾在2026斯諾克世錦賽資格賽期間情緒失控,因沮喪而猛捶球桌

林子說事
2026-04-15 10:29:34
爸爸夢(mèng)到已故兒子說腳被刺扎了,立馬驅(qū)車來到孩子墓前,眼前的一幕讓人驚呆了!

爸爸夢(mèng)到已故兒子說腳被刺扎了,立馬驅(qū)車來到孩子墓前,眼前的一幕讓人驚呆了!

張曉磊
2026-04-10 11:24:23
葉一茜田亮?xí)?8歲森碟美照,寵愛溢于言表:大膽去嘗試,不用事事完美;網(wǎng)友:“風(fēng)一樣的女子”長(zhǎng)大了

葉一茜田亮?xí)?8歲森碟美照,寵愛溢于言表:大膽去嘗試,不用事事完美;網(wǎng)友:“風(fēng)一樣的女子”長(zhǎng)大了

極目新聞
2026-04-15 14:13:50
徹底決裂!大巴黎官宣要搬離!卡塔爾老板怒了,新市長(zhǎng)緊急救火

徹底決裂!大巴黎官宣要搬離!卡塔爾老板怒了,新市長(zhǎng)緊急救火

老贃是個(gè)手藝人
2026-04-14 21:08:06
向太稱被向佑虧光幾百萬,控訴兒子心態(tài)扭曲,躺平等繼承百億家產(chǎn)

向太稱被向佑虧光幾百萬,控訴兒子心態(tài)扭曲,躺平等繼承百億家產(chǎn)

開開森森
2026-04-14 08:48:27
脫口秀演員曝王陽殺青宴被執(zhí)行導(dǎo)演指著鼻子罵

脫口秀演員曝王陽殺青宴被執(zhí)行導(dǎo)演指著鼻子罵

韓小娛
2026-04-15 07:55:25
美足大賞!章子怡光腳,身著淡紫色飄逸連衣裙,笑容燦爛如陽光。

美足大賞!章子怡光腳,身著淡紫色飄逸連衣裙,笑容燦爛如陽光。

情感大頭說說
2026-04-16 01:18:30
國臺(tái)辦:堅(jiān)決反對(duì)建交國與中國臺(tái)灣地區(qū)開展任何形式官方往來

國臺(tái)辦:堅(jiān)決反對(duì)建交國與中國臺(tái)灣地區(qū)開展任何形式官方往來

環(huán)球網(wǎng)資訊
2026-04-15 10:38:12
打不過伊朗,就要對(duì)中國加征高額關(guān)稅?中國七個(gè)大字,硬氣回復(fù)

打不過伊朗,就要對(duì)中國加征高額關(guān)稅?中國七個(gè)大字,硬氣回復(fù)

陌上桃花開的
2026-04-16 00:17:42
滴滴等平臺(tái)遭清退風(fēng)暴!5月31日前合規(guī)100%,上海網(wǎng)約車大洗牌?

滴滴等平臺(tái)遭清退風(fēng)暴!5月31日前合規(guī)100%,上海網(wǎng)約車大洗牌?

老特有話說
2026-04-14 02:10:03
單程決死突擊!伊朗飛行員壯烈犧牲,炸翻美司令部,換掉3架美機(jī)

單程決死突擊!伊朗飛行員壯烈犧牲,炸翻美司令部,換掉3架美機(jī)

驕陽之夏明
2026-04-14 20:34:02
演員文章飯店生意火爆,全家都到場(chǎng)支持,前妻馬伊琍被曝也在場(chǎng)

演員文章飯店生意火爆,全家都到場(chǎng)支持,前妻馬伊琍被曝也在場(chǎng)

韓小娛
2026-04-14 09:56:38
俄總統(tǒng)新聞秘書:普京準(zhǔn)備重新考慮接收伊朗濃縮鈾

俄總統(tǒng)新聞秘書:普京準(zhǔn)備重新考慮接收伊朗濃縮鈾

新華社
2026-04-16 01:01:14
預(yù)虧超11億元,股價(jià)卻連續(xù)3天漲停!002124,最新公告!

預(yù)虧超11億元,股價(jià)卻連續(xù)3天漲停!002124,最新公告!

證券時(shí)報(bào)e公司
2026-04-15 19:15:25
2026-04-16 02:12:49
開源中國 incentive-icons
開源中國
每天為開發(fā)者推送最新技術(shù)資訊
7690文章數(shù) 34534關(guān)注度
往期回顧 全部

科技要聞

ChatGPT十億用戶又怎樣?Anthropic直接貼臉

頭條要聞

法國全票通過 “將不義之財(cái)歸還中國”

頭條要聞

法國全票通過 “將不義之財(cái)歸還中國”

體育要聞

三球準(zhǔn)絕殺戴大金鏈:轟30+10自我救贖

娛樂要聞

謝娜現(xiàn)身環(huán)球影城,牽手女兒溫馨有愛

財(cái)經(jīng)要聞

業(yè)績(jī)失速的Lululemon:"健康"人設(shè)崩塌?

汽車要聞

空間絲毫不用妥協(xié) 小鵬GX首發(fā)評(píng)測(cè)

態(tài)度原創(chuàng)

房產(chǎn)
教育
旅游
時(shí)尚
軍事航空

房產(chǎn)要聞

重磅調(diào)規(guī)!341畝商改住+中小學(xué)用地!寶龍城這把穩(wěn)了?

教育要聞

黃岡小升初招生題,求面積,方法思路太絕了

旅游要聞

拉豬車?yán)@關(guān)闖禁區(qū):隱秘危險(xiǎn)游該踩剎車了

赫本愛穿的傘裙,好優(yōu)雅!

軍事要聞

萬斯:對(duì)當(dāng)前美伊局勢(shì)進(jìn)展“感到樂觀”

無障礙瀏覽 進(jìn)入關(guān)懷版