網易首頁 > 網易號 > 正文申請入駐

CMU開源首份Agentic Search日志數據，把Agent拆開給你看

2026-02-09 12:05:13　來源: 機器之心Pro

河北舉報

分享至

在大模型驅動的 Agentic Search 日益常態化的背景下，真實環境中智能體 “如何發查詢、如何改寫、是否真正用上檢索信息” 一直缺乏系統刻畫與分析。

CMU 團隊基于可重復檢索平臺 DeepResearchGym，從統一后端的半年真實流量中整理出 1400 萬余條搜索請求、約 400 萬個會話，在嚴格匿名化與清洗后，構建并于 Hugging Face 開源了首個 Agentic Search 行為日志數據集。

在此基礎上，工作提出 “會話意圖（Declarative / Procedural / Reasoning）→軌跡動作（?；?/ 泛化 / 探索 / 重復）→檢索信息采納率（CTAR）” 三層分析框架，利用 LLM 進行會話切分與標簽推斷，刻畫出智能體搜索中普遍存在的下鉆偏好、事實型任務中的重試循環，以及不同改寫模式對歷史檢索信息依賴程度的顯著差異。

總體而言，該研究既為觀察與評估 Agentic Search 行為提供了首個大規模開源日志，也為后續在智能體訓練與系統設計中顯式建模 “會不會搜” 提供了可復現的數據基礎與可量化的行為信號。

論文標題：Agentic Search in the Wild: Intents and Trajectory Dynamics from 14M+ Real Search Requests
論文鏈接：https://arxiv.org/abs/2601.17617

Hugging Face 開源數據集：DeepResearchGym Agentic Search Logs
數據集鏈接：https://huggingface.co/datasets/cx-cmu/deepresearchgym-agentic-search-logs

01 從任務到行為：Agentic Search 的缺失一環

近年來，大型語言模型驅動的 Agentic Search 與 Deep Research 逐漸成為信息獲取的重要形態，即系統不再只返回一頁文件結果，而是通過智能體自動發起多輪檢索、閱讀文檔、改寫問題，再生成綜合回答。

與之相對應，已有研究提出了多種基準任務和評測框架，用于衡量系統在問答、推理、工具調用等方面的性能。然而，這些評測大多基于構造好的題目和離散樣本，缺乏對真實環境中智能體檢索行為的系統觀察與結構化分析：

多輪會話在實際使用中如何展開；
不同任務類型下，智能體采用哪些檢索策略；
在多步改寫過程中，檢索證據信息在多大程度上真正影響了后續查詢。

這篇 Agentic Search in the Wild: Intents and Trajectory Dynamics from 14M+ Real Search Requests 論文針對上述缺口，基于 DeepResearchGym（DRGym）平臺提出了兩方面貢獻：

1. 從半年真實流量中整理出超過 1400 萬條 Agentic Search 請求、約 400 萬個搜索會話，在嚴格匿名化與清洗之后，發布為首個開源的 Agentic Search 行為日志數據集。

2. 在此基礎上，從任務意圖（intent）與檢索軌跡（trajectory）兩個維度，系統分析智能體的搜索過程，并提出一個衡量 “是否利用檢索到信息” 的指標 CTAR（Context-driven Term Adoption Rate）。

02 數據與平臺：DRGym 日志概況

DRGym 是該團隊搭建的一個面向研究用途的可重復檢索平臺（https://www.deepresearchgym.ai/），對外提供統一的 /search API，后端基于密集檢索，掛載在固定的 Web 語料快照上，例如 ClueWeb22、FineWeb 等。不同智能體可以以任意策略調用該接口，但所有請求都運行在統一的檢索基礎設施之上。

日志中的每條記錄包含如下信息：

查詢文本 query_text；
檢索文檔數量 num_of_docs（即 top-K）；
所用數據集 dataset（如 ClueWeb22 / FineWeb）；
檢索預算相關參數 complexity；
時間戳、匿名化 IP 等會話識別字段。

論文選取約半年時間窗口，得到來自橫跨 25 個國家，近 600 個 IP 地址，超過 1400 萬條請求日志，約 400 萬個會話（session）。

這為驗證日志是否具有廣泛多元使用的多樣性，而非某些基準題目的重復回放訓練，作者從兩方面進行了檢查：

使用文本向量表示（embedding）分析查詢語義分布，結果顯示查詢覆蓋的語義空間較為分散；
將日志中的查詢與若干常用 Agentic Benchmark 的題目進行語義匹配，重合比例極低。

隱私方面，日志經過了字段裁剪與匿名化處理：去除直接可識別信息，對自由文本進行 PII 清理，并重新生成會話級別的匿名 ID，最終在 Hugging Face 上公開。

03 從請求到會話：Session 切分方法

原始日志是時間順序的請求流，要分析行為模式，需要先劃分搜索會話。與傳統人類 Web 日志不同，智能體請求往往高頻且可并發，僅依賴固定時間閾值（例如 “間隔超過 30 分鐘”）容易誤分。

該工作采用了語義 + 時間聯合的 Sessionization 策略：

1. 首先，基于一批相鄰請求樣本，通過 LLM 標注 “是否屬于同一會話”，構建連續性標簽；

2. 其次，使用查詢的向量表示訓練一個連續性判別模型，預測兩條查詢之間是否應歸為同一 session；

3. 在線劃分時，對同一匿名 IP 下的新查詢，與當前所有活躍會話的末尾查詢計算連續性分數，在分數與時間差均滿足條件時并入對應會話，否則開啟新會話。

這一策略最終得到約 400 萬個 session。整體分布上：

單輪會話仍然占據一定比例，但相當多的會話包含多步查詢；
大部分相鄰請求的時間間隔在數秒到十幾秒之內，體現出 agentic search 中 “高頻、小步迭代” 的特征。

04 兩層視角：任務意圖與檢索軌跡

在會話劃分的基礎上，論文從兩層視角刻畫 agentic search 過程：

會話層面：Session Intent，即智能體在此次搜索中試圖完成的任務類型；
逐步步驟軌跡層面：Trajectory Move，即相鄰兩條查詢之間的改寫動作類型。

4.1 三類 Session Intent

作者沿用經典的 Web Search 目標分類，對多輪會話進行三類劃分：

1.Declarative：陳述型 / 事實與知識檢索

典型問題包括 “是什么”“誰是”“列出……”。

2.Procedural：過程型 / 操作與步驟檢索

包括 “如何做”“如何修復”“完成某項任務的步驟” 等。

3.Reasoning：推理型 / 分析與比較檢索

包括 “為什么”“如何權衡”“多因素比較和規劃” 等。

標注方式為，將一個 session 內全部查詢串聯，交由 LLM 進行意圖分類，并在樣本上用另一模型交叉驗證，標簽可靠性較高。

統計結果表明，日志中以陳述型任務為主，其次是推理型任務，過程型任務比例相對較小。不同意圖下，會話長度與檢索配置表現出明顯差異，例如過程型任務更傾向一次性拉取更多文檔，而推理型任務的查詢文本往往更長、前后變化幅度更大。

不通過目標分類下的Query 樣例

4.2 四類 Trajectory Move

在單個會話內部，相鄰兩條查詢之間的變化被劃分為四種改寫動作：

1.Specialization（?；涸黾蛹s束，下鉆到更具體的條件或子范圍；

2.Generalization（泛化）：去除約束，將查詢放寬到更一般的描述；

3.Exploration（探索）：在同一主題下轉向新的側面或子問題，例如從 “定位” 轉向 “屬性信息”；

4.Repetition（重復）：語義基本不變的輕微改寫或直接重試，例如改寫語序、替換同義表達。

類似的這些標簽基于 LLM 對查詢對的判別結果獲得，并結合向量相似度和檢索結果重疊進行驗證。整體來看，智能體呈現出明顯的 “下鉆偏好”（Drill-down Bias）：專化與探索使用頻率較高，泛化相對稀少，而在許多事實型會話的后期，重復動作顯著增多，形成 “重試循環”。

案例1：事實型會話的后期形成“重試循環”

另一方面，智能體也表現出一定的“重置 - 再細化”（Reset-then-Refine）模式，如下圖可見，智能體先在一個寬泛主題上做專化（例如從 “拿破侖戰役” 收窄到 “1796 年意大利戰役”），隨后通過去掉這些約束做一次泛化（得到更短、更寬泛的查詢），再沿著另一個側面重新?；ㄇ袚Q到 “埃及遠征” 等新的細化方向）。

從查詢長度的變化也能看出這一點，即?；ǔL查詢，而泛化則會縮短查詢。整體上，泛化在這里更像是一種輕量級回溯，用來在不同細化分支之間切換，而不是持續性地將查詢維持在寬泛層級。

案例2：“重置-再細化”的步驟循環

05 Agent 對于搜索到信息的具體利用：

CTAR 指標

在多輪檢索中，關鍵問題之一是：新的查詢在多大程度上受到了既有檢索信息的影響。由于日志中沒有點擊、停留時間等顯性交互信號，論文提出了一個簡單的間接度量：CTAR（Context-driven Term Adoption Rate）。

計算方法概括如下：

對相鄰查詢對 q_k → q_{k+1} 進行分詞與停用詞過濾；
找出 q_{k+1} 中首次出現的 “新詞”；
在上一步或累積至今的歷史檢索結果中檢查這些新詞是否以詞面形式出現；
CTAR 即為 “在上下文中出現的新詞占全部新詞的比例”。

這個指標帶來的核心發現包括：

1.整體 CTAR 超過一半

大約一半以上的新詞可以在之前檢索到的文檔中找到。這表明，在相當多的步驟中，智能體并非完全憑空提出新的條件，而是從已有獲取信息中采納術語和約束。

2.不同 Trajectory Move 的 CTAR 存在顯著差異

?；吞剿鲃幼鞯?CTAR 明顯高于平均水平，說明這兩類改寫更依賴已有文檔信息；重復動作的 CTAR 則較低，通常對應表述上的微調或重試，而非基于新信息的策略調整。

3.歷史上下文具有額外貢獻

只看上一輪檢索結果時，CTAR 較低；將更早步驟的文檔一并納入后，CTAR 穩定提升，說明部分新詞來源于更早的檢索信息，智能體在一定程度上會 “回溯” 歷史上下文。

需要強調的是，CTAR 僅刻畫 “新詞在檢索信息中的可追溯性”，并不直接等價于因果利用；但由于定義簡單且易于解釋，適合作為衡量 “是否參考檢索上下文” 的粗粒度指標。

06 對 Agentic Search 系統設計的啟示

基于上述行為分析與 CTAR 指標，論文在結尾討論了若干與系統設計直接相關的啟示：

1.重復動作可視為潛在 “停滯信號”

在大量陳述型會話中，隨著 Agent 步驟推進，重復改寫的占比明顯提高，其檢索結果高度重疊且 CTAR 較低。這種模式可以視為系統進入 “原地重試” 的信號。在工程上，可以基于重復率、結果重疊度和 CTAR 等聯合特征，檢測并中斷重試循環，強制觸發泛化或探索策略，或切換到更高配置的工具鏈。

2.檢索預算應隨任務意圖與軌跡自適應調整

日志表明，現有許多智能體將檢索深度 K 寫死為有限幾個固定值，在同一會話內幾乎不做調整。然而，不同意圖和軌跡狀態對檢索策略的需求顯然不同，即過程型任務更依賴一次性較寬的文檔覆蓋，推理型任務則往往更需要多輪細化與驗證。因此，更合理的設計是，先對會話意圖進行識別，再結合當前軌跡（如是否處于探索階段、是否陷入重試）動態調整 top-K、上下文長度與工具組合，而非采用全局統一配置。

3.將 CTAR 等 “信息采納率” 指標納入系統監控

CTAR 在不同改寫類型之間具有明顯區分度，在?；吞剿鞑襟E中，CTAR 高時往往對應基于檢索信息的實質推進，而重復步驟中 CTAR 較低則更可能反映策略停滯。

因此，可以將 CTAR 一類指標納入系統的觀測與調度邏輯：當長時間觀測到 CTAR 偏低或在特定模式下急劇下降時，觸發算法層或工作流層面的干預與重規劃。

07 結語：從第一份開源日志

到 Agentic IR 的 “常識層” 認識

整體來看，這篇工作完成了三件具有基礎設施意義的事情：

1.提供首個開源的 Agentic Search 行為日志數據集

基于 DRGym 平臺采集并清洗的 1400 萬 + 請求、約 400 萬會話，在經過匿名化處理后，在 Hugging Face 平臺公開，為后續研究提供了可復現的行為數據基礎。

2.提出面向 Agentic Search 的 “意圖–軌跡–信息利用” 分析框架

通過三類 Session Intent、四類 Trajectory Move 以及 CTAR 指標，從結構和內容兩個維度刻畫智能體搜索過程，為后續的行為建模、策略比較和訓練目標設計提供了分析工具。

3.將若干經驗性觀察固化為可量化的設計建議

具體包括，將重復改寫視作停滯信號、依據任務意圖與軌跡模式自適應檢索預算，以及通過檢索信息采納率監控智能體是否真正 “讀取并利用” 檢索結果。

對于從事信息檢索與智能體系統研究的讀者，這份數據與框架為理解和改進 agentic search 提供了新的切入點；對于工程實踐者，則可以據此審視現有系統的行為模式，并據實引入新的監控和控制機制。

作者簡介：

本論文第一作者為卡內基梅隆大學計算機學院語言技術研究所碩士研究生 Jingjie Ning，研究方向聚焦信息檢索、DeepResearch、Query 理解與強化、推薦系統 Benchmark 等工作。Jingjie Ning 師從 Jamie Callan 教授及 Chenyan Xiong 教授。在卡內基梅隆大學前，Jingjie 曾在騰訊任職 Senior Data Scientist。個人主頁：https://ethanning.github.io

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.