網易首頁 > 網易號 > 正文申請入駐

AI"偵探長"，讓多個AI探員同時破案，再給出最優答案

2026-04-22 22:53:31　來源: 科技行者

北京舉報

分享至

這項由普林斯頓大學語言與智能實驗室（Princeton Language and Intelligence）開展的研究，于2026年4月發表，論文編號為arXiv:2604.11753。有興趣深入了解的讀者可以通過該編號在arXiv平臺查詢完整論文。

當你委托一家偵探事務所調查一個復雜案件時，聰明的做法往往不是只派一個偵探去查，而是同時派出多名偵探分頭行動，最后再把各自的發現匯總，由一位經驗豐富的老偵探綜合研判，得出最終結論。這篇論文要解決的，正是這樣一個問題：當我們同時讓多個AI探員去執行復雜的信息搜索或深度研究任務時，如何把他們各自的調查結果匯聚成一個最優的最終答案？

研究團隊提出的方案叫做**AggAgent**（聚合探員），它本質上也是一個AI探員，只不過它的任務不是去互聯網上搜索信息，而是翻閱其他探員留下的調查筆記，然后綜合研判，給出最終結論。

一、為什么要派多個AI同時工作？

以下先從問題的根源說起。近年來，大型語言模型（也就是像ChatGPT這類AI）在回答問題、寫文章、做研究等方面越來越厲害。研究人員發現，讓AI多思考一會兒、多嘗試幾次，往往能得到更好的結果——這種做法被稱為"測試時算力擴展"，通俗來說就是用更多計算資源換取更好的輸出質量。

對于數學題、編程題這類有標準答案的任務，一個成熟的做法是讓AI生成多個答案，然后選最多AI同意的那個（就像班級投票選班長）。但論文研究的是一類更復雜的任務：讓AI去互聯網上搜索信息、撰寫長篇深度報告，或者回答需要查閱大量資料才能解答的專業問題。這類任務的特點是，AI需要反復搜索、點擊網頁、閱讀內容、綜合信息，整個過程可能長達數百個步驟，產生的"調查日志"動輒幾十萬字。

研究團隊發現，對這類復雜任務，同時派出多個AI探員并行工作的效果非常顯著。以GLM-4.7-Flash這個模型為例，單個探員獨立工作時在BrowseComp（一個專門測試網絡信息搜索能力的題庫）上的正確率只有27%，但同時派出8個探員，只要其中至少有一個答對了，成功率就能飆升到59%。換句話說，正確答案很可能已經藏在某個探員的調查筆記里了——關鍵在于怎么把它找出來。

二、現有的匯總方法為什么都不夠用？

這就引出了核心難題：如何把8個探員各自冗長的調查報告匯總成一個最佳答案？

研究團隊梳理了現有的幾類匯總方法，并指出了它們各自的局限。

最簡單的方法是"投票"——看哪個答案出現的次數最多就選哪個。但這種方法有明顯缺陷：當任務要求給出多個答案，或者答案本身是一篇長篇報告時，投票根本無法操作。此外，很多時候正確答案只有一個探員找到了，多數人投票會把它淘汰掉。研究團隊還測試了"置信度加權投票"，也就是讓置信度高的探員的答案權重更大。這個方法在某些任務上有效，但在醫學問答和開放式研究報告類任務上幾乎沒用，因為AI在這類任務上的自信程度和它實際答得有多對根本不相關——AI可能信心滿滿地給出一個錯誤答案。另一個流行方法叫"最少工具調用"——選那個搜索次數最少、步驟最簡潔的探員的結論，理由是簡潔往往意味著思路清晰。這個方法在某些簡單的搜索任務上偶爾有效，但同樣缺乏通用性。

更聰明一些的做法是"方案匯總"：把8個探員各自的最終答案（只取最后的結論，不看過程）一股腦丟給一個AI，讓它綜合出最終答案。這個方法比投票進步了不少，但丟失了探員調查過程中積累的大量關鍵證據。更進階的版本是"摘要匯總"：先把每個探員長達數十萬字的調查日志壓縮成一份精簡摘要，再把8份摘要交給AI綜合。問題是，壓縮過程本身會丟失很多細節，而且需要額外運行8次AI壓縮任務，成本極高。

研究團隊把這個兩難困境形象地概括為：直接把所有探員的完整日志塞給AI，會超出AI的記憶上限（類似于讓一個人同時讀完8本厚書，超出了短時記憶容量）；但只看最終結論或者壓縮摘要，又會丟失大量關鍵證據。

三、AggAgent：像偵探長一樣翻閱案卷的AI

面對上述困境，普林斯頓的研究團隊提出了一個核心思路：既然8個探員的完整日志太長、無法一次性全部讀完，那就給"偵探長"配備一套專用工具，讓它能夠按需翻閱案卷，而不是被迫一口氣讀完所有內容。

AggAgent的工作方式是這樣的：它首先看一眼每個探員的案卷摘要信息——比如這個探員一共走了多少步、用了哪些工具、搜索了多少次——相當于快速瀏覽案卷封面。然后，它調用第一個工具"get\_solution"，獲取所有探員的最終結論，相當于把8份報告的最后一頁全部攤開來對比。

發現有分歧之后，AggAgent會像偵探長一樣開始深挖具體細節。它有第二個工具"search\_trajectory"：給定一個關鍵詞，在某個探員的完整日志里做關鍵詞檢索，返回最相關的幾個步驟——類似于在一本厚厚的偵探日記里搜索"嫌疑人"這個詞，直接跳到最關鍵的段落。這個工具還有一個細心的設計：可以指定只搜索"工具返回的客觀觀測結果"，而不是搜索"探員自己的主觀推斷"，因為前者才是可信的第一手證據。第三個工具是"get\_segment"，可以讀取某個探員日志中連續若干步驟的完整內容，相當于把那幾頁案卷完整翻出來仔細閱讀。最后，當AggAgent確認了關鍵證據，就調用"finish"工具提交最終答案，并附上綜合研判的理由。

這套工具的妙處在于：AggAgent不需要把所有探員的全部日志都裝進腦子里，而是用"先粗讀后精讀"的策略，只在需要時精準地讀取關鍵片段。整個匯總過程的計算量，被控制在和單次探員工作相當的水平，不會隨著探員數量的增加而急劇膨脹。

四、實驗設計：考驗這位偵探長的六道難題

為了驗證AggAgent的效果，研究團隊設計了全面的測試體系，使用了三類不同規模的AI模型——30億參數的GLM-4.7-Flash、1220億參數的Qwen3.5-122B，以及2290億參數的MiniMax-M2.5——在六個不同的任務場景上進行了橫向對比。

六個任務涵蓋兩大類別。第一類是"信息搜索類"，包括四個具體任務：BrowseComp要求AI通過多步驟網絡瀏覽找到極其刁鉆的事實性問題的答案；BrowseComp-Plus是在本地知識庫中完成類似任務；HLE（Humanity's Last Exam）是一套涵蓋各學科的專家級題目；DeepSearchQA要求AI找出一個問題的所有正確答案，缺一不可。第二類是"深度研究類"，包括兩個任務：Healthbench-Hard要求AI針對復雜醫學問題生成全面的長篇回答；ResearchRubrics是開放式研究任務，答案質量按照多維度細則評分。

每個任務、每個模型都并行運行8個AI探員，每個探員最多可以進行100次工具調用，上下文窗口最長128000個詞（約等于一部厚厚的長篇小說）。研究團隊統計了每種匯總方法的準確率、成本（以美元計）和延遲時間（以秒計），進行了全面比較。

五、實驗結果：偵探長勝出，而且成本驚人地低

實驗結果顯示，AggAgent在幾乎所有任務和所有模型上都超越了其他所有匯總方法。相比單個探員獨立工作，使用8個探員加AggAgent匯總，平均提升了13到18個百分點。相比最強的現有競爭者"方案匯總"，AggAgent平均再提升了2到5個百分點，在深度研究類任務（醫學問答和研究報告）上更是領先超過10個百分點。

數字背后有個很有意思的現象：摘要匯總方法在信息搜索類任務上表現還不錯（因為把調查日志壓縮成摘要還能保留關鍵事實），但在深度研究類任務上卻表現很差——因為生成長篇醫學報告或研究報告時，摘要壓縮會破壞內容的細節和邏輯連貫性，導致輸出質量大幅下滑。AggAgent則在兩類任務上都保持了強勁表現。

成本方面，研究團隊做了精細的核算。以8個探員并行工作為例，探員本身的運行成本（網絡搜索API費用加上AI計算費用）是固定的，各種匯總方法都在這個基礎上增加額外開銷。投票類方法幾乎不增加額外成本，但效果有限。方案匯總只需要一次額外的AI調用，成本增加約3.7%。AggAgent需要進行多輪工具調用式的匯總推理，額外成本約為5.7%。而摘要匯總需要先對每個探員的報告分別壓縮，再做最終匯總，額外成本高達41%。也就是說，AggAgent用比方案匯總多一點點的代價，換來了遠優于摘要匯總的效果，是性價比最高的方案。

延遲時間方面同樣如此。方案匯總速度最快，但效果有限；摘要匯總因為需要串并行多次AI調用，實際延遲也較長；AggAgent的延遲和方案匯總處于同一量級，遠低于摘要匯總。

六、進階發現：派一個更厲害的偵探長會怎樣？

研究團隊還追問了一個有趣的問題：如果派出的8個探員能力有限（使用小模型GLM-4.7-Flash），但聘請一位能力更強的偵探長（使用大模型MiniMax-M2.5）來匯總，效果會怎樣？

實驗結果顯示，聘請更強的偵探長確實能進一步提升成績。在BrowseComp-Plus這個任務上，用8個小探員加強偵探長的組合，甚至超過了"8個探員中至少有一個答對"這個理論上限（Pass@8）。這說明，更強的偵探長有能力把多個探員的不完整線索拼湊成一個任何單個探員都給不出的完整答案。這個發現對實際產品設計很有啟發：在多智能體系統中，可以用大量廉價的小模型做并行搜索，再用一個能力較強的模型專門負責匯總——"廉價偵探多跑腿，精英偵探長做研判"的分工模式，在成本和效果上都可能達到很好的平衡。

七、綜合還是精選？偵探長應該寫新報告還是直接采用某份舊報告？

研究團隊還做了一個頗具啟發性的對比實驗：既然AggAgent可以在閱讀完所有日志后綜合寫出一份全新的最終答案，那如果它只做"選擇"而非"創作"——即直接從8份報告中選出最好的那份——效果會有什么差別？

實驗結果顯示，綜合創作的效果整體上優于直接選擇。尤其是在深度研究類任務上，差距相當明顯。原因不難理解：研究報告的質量是分散的，每個探員可能在某些方面寫得很好，在另一些方面有所欠缺，沒有哪個探員能做到面面俱到。直接選一份等于接受了某個探員的全部缺陷，而綜合創作則可以從各探員那里各取所長，拼出一份更完整的報告。對于信息搜索類任務，由于每個問題往往只有一個正確答案，探員要么答對要么答錯，直接選擇最好那份的策略相對合理，但綜合創作仍然略占優勢。

八、偵探長的工作習慣：它到底怎么用這些工具？

研究團隊還對AggAgent的實際工具使用情況做了統計分析。數據顯示，"關鍵詞檢索"工具（search\_trajectory）占到了總工具調用次數的絕大部分，而"獲取最終結論"（get\_solution）和"提交答案"（finish）各自大約只被調用一次——符合設計的工作流程：先看一眼所有人的結論，再反復檢索關鍵細節，最后一錘定音。"讀取完整片段"（get\_segment）的使用頻率低于關鍵詞檢索，說明AggAgent確實做到了精準定位、按需精讀，而非盲目翻閱大量內容。

另一個有趣的規律是：模型能力越強，AggAgent需要調用的工具次數越少。GLM-4.7-Flash作為偵探長時平均每次任務需要約14到18次工具調用，而MiniMax-M2.5作為偵探長時只需要5到12次。能力更強的偵探長在看完最終結論后往往就能做出更準確的判斷，不需要反復翻閱細節。深度研究類任務相比信息搜索類任務工具調用次數也更少，可能是因為研究報告類任務中各探員的分歧更多體現在內容取舍上，而非某個具體事實的對錯。

研究團隊還分析了AggAgent在哪些場景下能扭轉局勢，從錯誤中找到正確答案。他們歸納了四類典型行為：其一是"少數派發現"——多數探員給出了錯誤答案，但AggAgent從少數探員的調查日志中找到了有力的證據支持，堅持了正確答案。其二是"分歧消解"——多個探員給出了不同答案，AggAgent通過對比原始工具返回的客觀數據，判斷出哪一份證據更可靠。其三是"跨日志綜合"——所有探員的結論都是錯誤的，但每個探員的日志中都包含某一塊拼圖碎片，AggAgent把這些碎片拼在一起得出了正確答案，任何單一探員都無法單獨完成這個工作。其四是"啟發式研判"——AggAgent先把多數人的答案當作一個參考基準，然后去追查持不同意見的那個探員的推理過程，最終判斷它是犯了某種系統性錯誤，從而堅持了多數人的答案。

說到底，這項研究解決的是一個相當實際的工程問題：在商業化部署大量AI探員時，怎么把它們的輸出匯聚成最好的結果，同時把額外的時間和金錢成本控制在最低。答案是：給匯總這件事本身也配一個會用工具的AI探員，讓它像偵探長一樣按需翻閱案卷，而不是被迫把所有案卷都裝進腦子里，也不用事先把所有案卷壓縮成可能失真的摘要。

這項研究目前尚未涉及對AggAgent本身進行專門訓練——它使用的是現成的商業AI模型，開箱即用。研究團隊明確指出，專門針對匯總任務訓練一個聚合探員，是下一步很有前景的方向。如果你對多智能體系統、大模型的并行推理或測試時算力擴展等話題感興趣，不妨通過arXiv編號2604.11753查閱這篇論文的完整版本。

Q&A

Q1：AggAgent和普通的"讓AI綜合多個答案"有什么不同？

A：普通方案匯總只把多個AI的最終結論交給AI綜合，相當于只看每個偵探的最終結論。AggAgent則配備了工具，可以按需翻閱每個AI的完整調查過程，定向檢索關鍵證據，相當于偵探長能隨時翻閱案卷原文。這使得它能發現并糾正某些探員在推理中犯的錯誤，還能把多個探員各自發現的不同線索拼合成完整答案。

Q2：AggAgent運行起來成本高嗎？

A：相比只看最終答案的方案匯總，AggAgent在8個并行探員的基礎上只增加約5.7%的額外成本，遠低于先壓縮每個探員報告再匯總的摘要匯總方法（后者額外成本高達41%）。換句話說，AggAgent用比摘要匯總便宜得多的代價，取得了比它更好的效果。

Q3：多個AI探員并行工作比單個探員工作強在哪里？

A：并行工作最大的優勢是，不同探員可能走不同的搜索路徑，覆蓋更多可能的線索。以GLM-4.7-Flash模型為例，單個探員在BrowseComp任務上正確率只有27%，但同時派8個探員，只要其中一個答對，成功率就能達到59%。AggAgent的價值正在于把這59%的潛在成功率，盡可能轉化為最終輸出的實際成功率。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.