无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

AI記住失敗經(jīng)驗(yàn):微軟提出Re-TRAC框架,4B性能SOTA,30B超越358B

0
分享至



想象一下,你讓 AI 助手結(jié)合搜索工具探索一個(gè)復(fù)雜問(wèn)題。它第一次探索時(shí)走錯(cuò)了方向,但第二次、第三次,它依然重復(fù)同樣的錯(cuò)誤探索路徑。雖然你可能可以從最終得到的多次探索結(jié)果中挑選出一個(gè)勉強(qiáng)滿意的答案,但是這既低效,也需要人工干預(yù)。這就是當(dāng)前大多數(shù)深度搜索智能體面臨的困境——它們無(wú)法「記住」之前的探索經(jīng)驗(yàn),每次都是從頭開(kāi)始,導(dǎo)致大量冗余搜索和資源浪費(fèi)。

現(xiàn)有的深度搜索智能體大多基于 ReAct 框架構(gòu)建,采用線性推理方式:「思考→調(diào)用工具→觀察→再思考」。這種設(shè)計(jì)在簡(jiǎn)單任務(wù)上表現(xiàn)良好,但在需要多輪探索的深度搜索任務(wù)中,往往陷入局部最優(yōu)、重復(fù)探索和低效搜索的困境。

來(lái)自東南大學(xué)、微軟亞洲研究院等機(jī)構(gòu)的研究團(tuán)隊(duì)提出了一種全新的解決方案——Re-TRAC(REcursive TRAjectory Compression),這個(gè)框架讓 AI 智能體能夠「記住」每次探索的經(jīng)驗(yàn),在多個(gè)探索軌跡之間傳遞經(jīng)驗(yàn),實(shí)現(xiàn)漸進(jìn)式的智能搜索。



  • 論文標(biāo)題:RE-TRAC: REcursive TRAjectory Compression for Deep Search Agents
  • 論文鏈接:
  • https://arxiv.org/abs/2602.02486
  • 項(xiàng)目鏈接:
  • https://github.com/microsoft/InfoAgent

讓探索變成「漸進(jìn)式學(xué)習(xí)」過(guò)程

為什么 ReAct 會(huì)失敗?

ReAct 框架的核心問(wèn)題在于其線性設(shè)計(jì)。每個(gè)探索軌跡都是獨(dú)立的,模型無(wú)法回顧先前嘗試的狀態(tài)。在長(zhǎng)上下文場(chǎng)景下,早期制定的計(jì)劃逐漸被遺忘,關(guān)鍵線索被埋沒(méi)。

研究團(tuán)隊(duì)通過(guò)深入分析發(fā)現(xiàn),現(xiàn)有深度搜索模型即使經(jīng)過(guò)大量強(qiáng)化學(xué)習(xí)訓(xùn)練,其 Pass@K 性能仍遠(yuǎn)高于 Pass@1。這意味著模型本身具備解決問(wèn)題的推理能力潛能,問(wèn)題在于受限于上下文長(zhǎng)度限制,單次探索難以生成足夠多樣的探索路徑,無(wú)法覆蓋足夠?qū)拸V的搜索空間。

Re-TRAC:遞歸式軌跡壓縮

Re-TRAC 的核心思想是將探索從一系列獨(dú)立嘗試轉(zhuǎn)變?yōu)闈u進(jìn)式學(xué)習(xí)過(guò)程。具體而言,在每個(gè)探索軌跡結(jié)束時(shí)生成一個(gè)結(jié)構(gòu)化的狀態(tài)表示,針對(duì)深度搜索任務(wù),記錄以下三個(gè)維度的信息:

  • 答案與分析結(jié)論:當(dāng)前可能性最高的答案與其關(guān)鍵推理結(jié)果——為后續(xù)推理提供錨點(diǎn)。

  • 證據(jù)庫(kù)與來(lái)源驗(yàn)證:已搜集到的證據(jù)及其來(lái)源,并標(biāo)記哪些已被查閱、已被驗(yàn)證——避免冗余的工具調(diào)用和重復(fù)檢查。

  • 不確定項(xiàng)與待探索方向:現(xiàn)階段需要繼續(xù)探索驗(yàn)證的角度、曾被遺漏的候選探索分支與曾因失敗放棄的探索方向;幫助模型在下一輪中補(bǔ)全未探索的搜索空間。

這個(gè)結(jié)構(gòu)化狀態(tài)將被添加到下一輪探索的輸入中,確保智能體在每輪新嘗試開(kāi)始時(shí),都能清楚地了解什么已被驗(yàn)證、什么仍未解決,以及應(yīng)該將探索重點(diǎn)放在哪里。



小模型也能「以小博大」

研究團(tuán)隊(duì)在五個(gè)具有挑戰(zhàn)性的搜索導(dǎo)向基準(zhǔn)上評(píng)估了 Re-TRAC:BrowseComp、BrowseComp-ZH、XBench、GAIA 和 HLE。



4B 模型性能 SOTA

RE-TRAC-4B 在所有小于 15B 參數(shù)的基線中表現(xiàn)最佳:

  • BrowseComp上達(dá)到 30.0% 的準(zhǔn)確率;
  • BrowseComp-ZH上達(dá)到 36.1%;
  • GAIA上達(dá)到 70.4%;
  • XBench上達(dá)到 76.6%;
  • HLE上達(dá)到 22.2%。

更令人驚訝的是,這個(gè)僅 4B 參數(shù)的模型在多個(gè)基準(zhǔn)上超越了更大規(guī)模的模型。

  • XBench基準(zhǔn)上,RE-TRAC-4B 的 76.6% 準(zhǔn)確率不僅遠(yuǎn)超 InfoAgent-14B 的 40.4%(提升了近 90%),也超過(guò)了 NestBrowse-4B 的 74.0%。

  • GAIA基準(zhǔn)上,RE-TRAC-4B 的 70.4% 準(zhǔn)確率超過(guò)了 AgentCPM-Explore-4B 的 63.9% 和 NestBrowse-4B 的 68.9%。

30B 模型的進(jìn)一步突破

RE-TRAC-30B 同樣表現(xiàn)出色,在除 HLE 外的所有基準(zhǔn)上都擊敗了 MiniMAX-M2-229B。

  • BrowseComp上,其準(zhǔn)確率達(dá)到 53%,甚至超過(guò)了 GLM-4.7-358B 的 52%。

  • GAIA上,RE-TRAC-30B 擊敗了所有閉源模型,在 BrowseComp 和 BrowseComp-ZH 上排名第二。

這些結(jié)果說(shuō)明,通過(guò)軌跡壓縮與跨輪次信息傳遞,小模型在資源受限場(chǎng)景下也能獲得接近甚至超過(guò)更大模型的效果。

更少的消耗、更高的性能的通用拓展

Re-TRAC 不僅可以通過(guò)訓(xùn)練提升小模型性能,還可以作為無(wú)需訓(xùn)練的測(cè)試擴(kuò)展直接應(yīng)用于前沿模型。

研究團(tuán)隊(duì)在 o4-mini、o3、GPT-5、DeepSeek-V3.2、GLM-4.7 和 MiniMax-M2.1 上實(shí)現(xiàn)了 Re-TRAC 框架,并與多數(shù)投票(Majority Voting)、加權(quán)投票(Weighted Voting)和最佳選擇(Best-of-N)等方法進(jìn)行了對(duì)比。



結(jié)果顯示,Re-TRAC 在所有模型上都達(dá)到了最佳或具有競(jìng)爭(zhēng)力的性能。在 BrowseComp300 子集上:

  • o4-mini通過(guò) Re-TRAC 從 25.7% 提升到 46.8%;
  • o3從 54.9% 提升到 69.8%;
  • GPT-5-medium從 48.3% 提升到 66.6%;
  • DeepSeek-V3.2從 45.3% 提升到 60.8%;
  • GLM-4.7從 37.7% 提升到 60.7%。

在傳統(tǒng)框架中,由于軌跡相互獨(dú)立,資源使用量通常隨擴(kuò)展近似線性增長(zhǎng)。Re-TRAC 會(huì)繼承之前輪次的狀態(tài),使搜索空間逐步收斂,從而減少冗余工具調(diào)用與重復(fù)探索,提升探索的效率。

技術(shù)細(xì)節(jié):

如何訓(xùn)練 Re-TRAC 模型

研究團(tuán)隊(duì)開(kāi)發(fā)了一種后訓(xùn)練方法,構(gòu)建了基于結(jié)構(gòu)化狀態(tài)表示的監(jiān)督微調(diào)(SFT)數(shù)據(jù)。訓(xùn)練數(shù)據(jù)通過(guò)實(shí)體樹(shù)方法構(gòu)建:從維基百科收集大量實(shí)體作為樹(shù)根,然后遞歸搜索相關(guān)實(shí)體作為子節(jié)點(diǎn),直到樹(shù)達(dá)到預(yù)定義深度。

通過(guò)選擇從根到葉節(jié)點(diǎn)的路徑并將邊轉(zhuǎn)換為子問(wèn)題,團(tuán)隊(duì)合成了 33K 個(gè)問(wèn)答對(duì)。然后,收集 GLM-4.7 在這些合成問(wèn)題上的 Re-TRAC(4 輪)軌跡,經(jīng)過(guò)過(guò)濾后得到 104k 個(gè)訓(xùn)練樣本,用于訓(xùn)練 RE-TRAC-4B 和 RE-TRAC-30B 模型。

實(shí)驗(yàn)結(jié)果顯示,經(jīng)過(guò) SFT 訓(xùn)練后,Qwen3-4B-Instruct 在 BrowseComp 上的準(zhǔn)確率從 2.7% 大幅提升到 30.0%,在 BrowseComp-ZH 上從 6.9% 提升到 36.1%,在 GAIA 上從 24.4% 提升到 70.4%,在 XBench 上從 45.0% 提升到 76.6%。

這表明通過(guò)簡(jiǎn)單的 SFT 訓(xùn)練,配合 Re-TRAC 框架,可以產(chǎn)生強(qiáng)大的搜索智能體,實(shí)現(xiàn)與通過(guò)大規(guī)模強(qiáng)化學(xué)習(xí)訓(xùn)練的模型相當(dāng)甚至更好的性能。

總結(jié):

優(yōu)化 ReAct 的搜索框架,

讓小模型跑出大模型表現(xiàn)

Re-TRAC 可以看作是針對(duì)深度搜索任務(wù)優(yōu)化過(guò)的 ReAct 框架:在原有「思考→調(diào)用工具→觀察→再思考」的范式上,引入了跨輪次的軌跡壓縮和結(jié)構(gòu)化狀態(tài)表示,讓智能體在開(kāi)放網(wǎng)絡(luò)檢索、復(fù)雜信息匯總等場(chǎng)景中不再「從零開(kāi)始」,而是像人一樣復(fù)用既有證據(jù)、總結(jié)失敗教訓(xùn)并規(guī)劃未來(lái)方向。

更重要的是,這種有針對(duì)性的框架設(shè)計(jì)讓小模型也能跑出大模型級(jí)別的效果,為資源受限場(chǎng)景(如邊緣設(shè)備、本地部署)提供了一條「用小模型做大事」的現(xiàn)實(shí)路徑。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
男子體檢查出2.1厘米肺結(jié)節(jié),多家醫(yī)院診斷為“肺癌”;醫(yī)生切開(kāi)笑了:是個(gè)紅色辣椒尖,“辣椒在CT下與肺組織密度幾乎一致”

男子體檢查出2.1厘米肺結(jié)節(jié),多家醫(yī)院診斷為“肺癌”;醫(yī)生切開(kāi)笑了:是個(gè)紅色辣椒尖,“辣椒在CT下與肺組織密度幾乎一致”

揚(yáng)子晚報(bào)
2026-06-13 15:44:05
廣東球迷欲舉報(bào)杜鋒,范子銘有望加盟山東,李春江有望加盟北控!

廣東球迷欲舉報(bào)杜鋒,范子銘有望加盟山東,李春江有望加盟北控!

中國(guó)籃壇快訊
2026-06-14 19:00:09
老淚縱橫!泰王哭到雙眼紅腫,沉重父愛(ài)看得人好心酸

老淚縱橫!泰王哭到雙眼紅腫,沉重父愛(ài)看得人好心酸

凡知
2026-06-14 00:15:14
私生活混亂,從央視主持到勞改犯,如今靠直播打賞討生活

私生活混亂,從央視主持到勞改犯,如今靠直播打賞討生活

素衣讀史
2026-06-11 21:56:30
衣服全是假貨?繼“南極人”之后,這4家品牌也靠賣吊牌賺錢了

衣服全是假貨?繼“南極人”之后,這4家品牌也靠賣吊牌賺錢了

青梅侃史啊
2026-06-12 19:17:06
日媒:韓國(guó)決定申請(qǐng)加入CPTPP

日媒:韓國(guó)決定申請(qǐng)加入CPTPP

參考消息
2026-06-13 12:18:28
“墨西哥持槍搶劫中國(guó)球迷案”1名嫌疑人落網(wǎng),當(dāng)事人:除手機(jī)外財(cái)物被搶光,無(wú)心看球已提前回國(guó)

“墨西哥持槍搶劫中國(guó)球迷案”1名嫌疑人落網(wǎng),當(dāng)事人:除手機(jī)外財(cái)物被搶光,無(wú)心看球已提前回國(guó)

極目新聞
2026-06-14 12:59:31
對(duì)于明天周一A股,我只說(shuō)3點(diǎn):第一,4060點(diǎn)大概率是反彈的終點(diǎn)?

對(duì)于明天周一A股,我只說(shuō)3點(diǎn):第一,4060點(diǎn)大概率是反彈的終點(diǎn)?

趨勢(shì)清風(fēng)俠
2026-06-14 08:46:04
晚飯七分飽被推翻了?醫(yī)生:過(guò)了65歲,吃飯盡量要做到這5點(diǎn)

晚飯七分飽被推翻了?醫(yī)生:過(guò)了65歲,吃飯盡量要做到這5點(diǎn)

健康科普365
2026-06-14 18:10:08
無(wú)視美日反對(duì),法國(guó)將G7峰會(huì)辦成世界大會(huì),特邀中國(guó)多方對(duì)話?

無(wú)視美日反對(duì),法國(guó)將G7峰會(huì)辦成世界大會(huì),特邀中國(guó)多方對(duì)話?

兵國(guó)大事
2026-06-13 15:51:43
高溫持續(xù)不下,印民組團(tuán)跑到上海:吃飯美甲不給錢,專鉆小店空子

高溫持續(xù)不下,印民組團(tuán)跑到上海:吃飯美甲不給錢,專鉆小店空子

人間無(wú)味啊
2026-06-13 18:54:58
畢業(yè)啦!谷愛(ài)凌曬斯坦福畢業(yè)照,氣質(zhì)身材完美并存

畢業(yè)啦!谷愛(ài)凌曬斯坦福畢業(yè)照,氣質(zhì)身材完美并存

東方不敗然多多
2026-06-14 14:17:21
千方百計(jì)“搶”農(nóng)時(shí)保豐收——山東麥?zhǔn)找痪€見(jiàn)聞

千方百計(jì)“搶”農(nóng)時(shí)保豐收——山東麥?zhǔn)找痪€見(jiàn)聞

新華社
2026-06-13 16:33:16
4400萬(wàn)輛車在“蹭路”?央媒連發(fā)三炮,電車養(yǎng)路費(fèi)這回真要來(lái)了

4400萬(wàn)輛車在“蹭路”?央媒連發(fā)三炮,電車養(yǎng)路費(fèi)這回真要來(lái)了

混沌錄
2026-06-11 21:00:07
SpaceX上市前,馬斯克半裸充氣人偶現(xiàn)身時(shí)代廣場(chǎng)!馬斯克回應(yīng)來(lái)了

SpaceX上市前,馬斯克半裸充氣人偶現(xiàn)身時(shí)代廣場(chǎng)!馬斯克回應(yīng)來(lái)了

王爺說(shuō)圖表
2026-06-12 15:24:39
延時(shí)噴劑多久起作用?不同品牌實(shí)測(cè)對(duì)比,持久不麻木性價(jià)比高干貨分享

延時(shí)噴劑多久起作用?不同品牌實(shí)測(cè)對(duì)比,持久不麻木性價(jià)比高干貨分享

新廣網(wǎng)
2026-06-08 13:14:27
福原愛(ài)首聊二婚老公,有3方面要比前夫好,對(duì)現(xiàn)任婆婆稱呼顯尊重

福原愛(ài)首聊二婚老公,有3方面要比前夫好,對(duì)現(xiàn)任婆婆稱呼顯尊重

小冠說(shuō)娛
2026-06-14 14:41:02
1夜7大轉(zhuǎn)會(huì)!拜仁二連簽,萊萬(wàn)轉(zhuǎn)戰(zhàn)美職聯(lián),凱爾特人官宣奧尼爾!

1夜7大轉(zhuǎn)會(huì)!拜仁二連簽,萊萬(wàn)轉(zhuǎn)戰(zhàn)美職聯(lián),凱爾特人官宣奧尼爾!

田先生籃球
2026-06-14 06:58:08
大批私家車主,收到警示短信,立即注銷網(wǎng)約車賬戶!

大批私家車主,收到警示短信,立即注銷網(wǎng)約車賬戶!

網(wǎng)約車焦點(diǎn)
2026-06-12 11:28:22
張雪贏麻了!53號(hào)張雪機(jī)車上,多了一個(gè)醒目的品牌標(biāo)識(shí)“大疆”

張雪贏麻了!53號(hào)張雪機(jī)車上,多了一個(gè)醒目的品牌標(biāo)識(shí)“大疆”

火山詩(shī)話
2026-06-14 05:27:59
2026-06-14 20:48:49
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
13256文章數(shù) 142669關(guān)注度
往期回顧 全部

科技要聞

Anthropic最強(qiáng)模型被禁,傳亞馬遜通風(fēng)報(bào)信

頭條要聞

伊朗球員受訪 反問(wèn)美記者:我在美國(guó)安全嗎

頭條要聞

伊朗球員受訪 反問(wèn)美記者:我在美國(guó)安全嗎

體育要聞

8年8隊(duì)奪冠,鄧肯那句話,現(xiàn)在還給了馬刺

娛樂(lè)要聞

鄧超攜子觀戰(zhàn)NBA,等等帥氣十足

財(cái)經(jīng)要聞

金價(jià)跌至900元關(guān)口,大媽又來(lái)抄底了!

汽車要聞

綜合續(xù)航超1600km/零百加速4秒級(jí) 2027款星途ES預(yù)售18.99萬(wàn)起

態(tài)度原創(chuàng)

本地
數(shù)碼
教育
房產(chǎn)
軍事航空

本地新聞

AK劉彰邂逅河北南大港濕地

數(shù)碼要聞

出貨量?jī)蛇B冠:華為朱懂東稱鴻蒙平板連續(xù)兩年在國(guó)內(nèi)絕對(duì)領(lǐng)先

教育要聞

高三生必看!四川省本科高校2026年招生章程要點(diǎn)匯總

房產(chǎn)要聞

海南最賺錢行業(yè)曝光!最快4年半,海口全款買三房!

軍事要聞

特朗普:美伊協(xié)議周日簽 還有終極手段

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版