網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

打造卓越Agent團(tuán)隊：如何解決復(fù)雜任務(wù)帶來的AI協(xié)作的副作用？

2026-05-28 11:11:58　來源: PM熊叔

上海舉報

分享至

01 AI 也需要“分工”嗎？

答案是：需要，而且比人類更需要。

人類有工作可以積累長期復(fù)雜的記憶，很強的上下文感知能力，有主動性，會主動發(fā)現(xiàn)問題。

AI 不一樣。給它一個復(fù)雜的任務(wù)，如果只有一個 AI 模型從頭做到尾，它會面臨幾個很難解決的問題：

第一個：角色坍塌與注意力稀釋。大語言模型都有上下文窗口Context Window，如果上下文飽和了，就很容易出問題。同一個Agent，在一個長程的對話里面，既要做數(shù)據(jù)分析，又要做邏輯推理，又要寫報告——模型往往會在指令沖突中采取“中庸妥協(xié)”，又因為上下文過長導(dǎo)致注意力漂移，最終導(dǎo)致能力坍塌，產(chǎn)出的內(nèi)容很大概率就是一本正經(jīng)的胡說八道。因此，我會在和AI聊天過長的時候新開對話窗口。

第二個：不知道自己錯在哪里。人很難自己否定自己，AI也是一樣。單個 AI 在輸出最終結(jié)論之前，不會主動質(zhì)疑自己的中間步驟。它不會停下來想：“我剛才那個假設(shè)對不對？”它只會繼續(xù)往下推演，最終引發(fā)災(zāi)難性的錯誤級聯(lián)（Error Cascading）。

第三個：沒有“第二意見”。人類做重要決策，會找同事討論、找領(lǐng)導(dǎo)審批。單個 AI 沒有這個機(jī)制，它不會問自己："有沒有其他可能性？"

所以，Multi-Agent 的本質(zhì)不是“多個 AI”，而是“不同的角色負(fù)責(zé)不同的事，然后相互校驗”。

02 三個臭皮匠，勝過一個諸葛亮

例如，在自定義的Multi-Agent 里的投研系統(tǒng)，設(shè)置了三個核心角色：

角色一：Modeler（建模師）—— 構(gòu)建判斷框架

你可以把建模師理解成公司的戰(zhàn)略規(guī)劃部。

他們的工作不是告訴你"明天買還是賣"，而是先把事情搞清楚：

這個公司值多少錢？
它的增長邏輯是什么？
核心假設(shè)是什么？

他們會構(gòu)建一套完整的分析框架，包括樂觀預(yù)測、基準(zhǔn)預(yù)測、悲觀預(yù)測——這三種場景。

但他們有一個明確的邊界：只負(fù)責(zé)建模，不負(fù)責(zé)質(zhì)疑。

這是關(guān)鍵。戰(zhàn)略規(guī)劃部的工作是做好方案，不是和領(lǐng)導(dǎo)辯論方案的對錯。

角色二：Challenger（挑戰(zhàn)者）—— 主動找漏洞

你可以把挑戰(zhàn)者理解成公司的內(nèi)部審計部。

他們不負(fù)責(zé)構(gòu)建任何東西，他們的工作是專門"挑毛病"：

這個預(yù)測的假設(shè)依據(jù)是什么？
有沒有遺漏的風(fēng)險？
這個結(jié)論是不是太樂觀了？

他們會對建模師的每一個關(guān)鍵判斷發(fā)起攻擊，然后建模師必須逐一回應(yīng)：要么提供證據(jù)，要么修改結(jié)論，要么承認(rèn)這個點確實有問題。

重要的是：挑戰(zhàn)者不看建模師的工作過程，只看最終結(jié)論和依據(jù)。

這像極了審計部的工作方式——他們不參與業(yè)務(wù)決策，但有權(quán)質(zhì)疑任何業(yè)務(wù)判斷。

角色三：Synthesizer（綜合師）—— 做最終決策

你可以把綜合師理解成公司的CEO。

他們不寫報告，不做預(yù)測，不做審計。但他們有一項核心能力：綜合多方意見，形成最終判斷。

當(dāng)建模師給出了三套預(yù)測，挑戰(zhàn)者提出了若干質(zhì)疑和回應(yīng)，綜合師要做的事情是：

哪些質(zhì)疑有道理，應(yīng)該接受？
哪些質(zhì)疑不合理，可以駁回但必須說明理由？
最終的評級和目標(biāo)價應(yīng)該是什么？

CEO 不需要每件事都自己干，但他需要做出最終決策，并為此負(fù)責(zé)。

03 三個角色的對話規(guī)則

光有分工不夠，三個角色之間必須有一套清晰的對話規(guī)則。

如果沒有規(guī)則，會發(fā)生什么呢？

場景一：角色越位

挑戰(zhàn)者開始替建模師做分析，綜合師開始替挑戰(zhàn)者寫報告。每個人都在做本不該自己做的事，最后整個流程亂成一鍋粥。

場景二：信息泄露

建模師在做判斷的時候，已經(jīng)提前知道了挑戰(zhàn)者要攻擊什么內(nèi)容，于是提前"堵住了漏洞"。這就像領(lǐng)導(dǎo)在開民主生活會之前，就已經(jīng)知道員工要提什么意見，于是提前準(zhǔn)備了標(biāo)準(zhǔn)答案。

場景三：無限循環(huán)

挑戰(zhàn)者提出質(zhì)疑，建模師回應(yīng)，挑戰(zhàn)者再質(zhì)疑，建模師再回應(yīng)……沒有終止條件，流程永遠(yuǎn)跑不完。

正確的Harness 做法是用“不變量”（Invariant）來約束對話邊界，這就好像每個人都有一個checklist：

對話規(guī)則

約束內(nèi)容

信息隔離

挑戰(zhàn)者只能看到建模師的最終結(jié)論，看不到中間推導(dǎo)過程

強制回應(yīng)

挑戰(zhàn)者的每一次質(zhì)疑，建模師都必須明確回應(yīng)，不能忽略

終止條件

質(zhì)疑被標(biāo)記為解決或根據(jù)證據(jù)駁回，流程才能繼續(xù)

單向流動

信息只從建模師→挑戰(zhàn)者→綜合師，不允許反向泄露

04 一個真實的協(xié)作場景

說理論太抽象，來走一遍真實的流程。

場景：分析特斯拉（TSLA）

第一步：建模師輸出基礎(chǔ)分析

建模師完成了對 TSLA 的分析，輸出三套預(yù)測：

樂觀情景：$320（基于 FY2027 年利潤預(yù)測）
基準(zhǔn)情景：$245
悲觀情景：$158

同時輸出關(guān)鍵假設(shè)：年度利潤增長率 25%，PE 倍數(shù) 42x。

建模師把這些結(jié)論寫進(jìn) JSON 文件，建模階段結(jié)束。

第二步：觸發(fā)挑戰(zhàn)者審查

系統(tǒng)自動調(diào)用挑戰(zhàn)者角色。挑戰(zhàn)者讀取建模師的 JSON 文件，但不讀取任何中間推導(dǎo)過程。

挑戰(zhàn)者發(fā)現(xiàn)了一個問題：

"建模師使用了 FY2027 年利潤作為錨點基準(zhǔn)，但 FY2026 年利潤預(yù)測已經(jīng)比 FY2027 低了 15%——這是什么邏輯？"

挑戰(zhàn)者發(fā)起攻擊，狀態(tài)標(biāo)記為 CRITICAL。

第三步：建模師回應(yīng)

建模師收到挑戰(zhàn)者的質(zhì)疑，必須回應(yīng)。

可能的回應(yīng)方式：

接受并修正
：重新校準(zhǔn)錨點，改用基準(zhǔn)情景的 FY2026 預(yù)測作為錨點
駁回并提供證據(jù)
：說明 FY2027 錨點的合理性，提供行業(yè)對標(biāo)數(shù)據(jù)
承認(rèn)邊界
：說明這是一個結(jié)構(gòu)性不確定性（bidirectionality_blocked），無法用常規(guī)方法處理

第四步：綜合師做出最終判斷

所有 CRITICAL 攻擊被處理完畢，綜合師綜合全部分析，輸出最終報告。

最終報告3000萬字，包含：

評級（BUY/HOLD/SELL）
目標(biāo)價
信心指數(shù)（model_validity_score）
關(guān)鍵風(fēng)險列表

05 為什么要設(shè)計“挑戰(zhàn)者”這個角色？

很多人會有一個疑問：

為什么要單獨設(shè)一個"挑戰(zhàn)者"？讓建模師自己檢查自己的結(jié)論不行嗎？

答案：不行。而且越是自己查自己，越危險。

心理學(xué)上有一個概念叫"確認(rèn)偏誤"——人類會傾向于尋找支持自己已有判斷的證據(jù)，而忽略反駁的證據(jù)。

AI 系統(tǒng)里也存在同樣的問題：建模師在構(gòu)建了一套分析框架之后，對自己的框架會產(chǎn)生"所有權(quán)感"，潛意識里不愿意承認(rèn)框架有問題。

而挑戰(zhàn)者的存在，就是為了打破這種確認(rèn)偏誤。

更準(zhǔn)確地說，挑戰(zhàn)者有一個很重要的功能：把質(zhì)疑和建構(gòu)分開。

建模師的任務(wù)是"構(gòu)建一個好的分析"，挑戰(zhàn)者的任務(wù)是"證明這個分析哪里不好"——這是兩種完全不同的思維方式，讓同一個人同時做這兩件事，本質(zhì)上是在要求他"左手打右手"。

06 信息隔離：最難但最重要的設(shè)計

三個角色里，信息隔離是設(shè)計難度最高、但價值最大的部分。

為什么難？

因為信息隔離不是"不告訴你"這么簡單。當(dāng)建模師輸出一個結(jié)論的時候，挑戰(zhàn)者需要足夠的上下文才能提出有意義的質(zhì)疑——但這些上下文，又可能包含建模師的推導(dǎo)過程，從而造成信息泄露。

解決方案是"摘要機(jī)制"：

建模師完成分析后，不是直接交給挑戰(zhàn)者，而是先經(jīng)過一個"摘要生成器"。

這個摘要生成器會：

提取建模師的最終結(jié)論（保留）
剝離推導(dǎo)過程（刪除）
生成一份"挑戰(zhàn)者視角"的攻擊預(yù)判（新增）

這樣一來，挑戰(zhàn)者拿到的是一份"干凈"的輸入：只有結(jié)論和證據(jù)，沒有中間推理。

同時，摘要生成器會明確告訴挑戰(zhàn)者："以下是你需要重點攻擊的方向"，相當(dāng)于給挑戰(zhàn)者提供了一份"攻擊地圖"，而不是讓他自己去找漏洞。

07 失敗案例：如果不這么設(shè)計會怎樣？

案例：CRM 案例

在建模師和挑戰(zhàn)者在同一個工作循環(huán)內(nèi)共享了“參考資料”字段。

建模師在做最終判斷之前，已經(jīng)提前看到了挑戰(zhàn)者準(zhǔn)備攻擊他的內(nèi)容。

結(jié)果：建模師提前修改了措辭，把最脆弱的假設(shè)包裝得更穩(wěn)妥。挑戰(zhàn)者最后發(fā)現(xiàn)所有"漏洞"都被堵住了，最終攻擊全部無效。

這個 AI 系統(tǒng)犯的錯誤，和很多公司開"走過場"的民主生活會一模一樣。

修復(fù)方案：引入信息隔離機(jī)制，挑戰(zhàn)者只能讀取摘要，看不到建模師的原始推導(dǎo)過程。

08 給管理者的啟發(fā)

Multi-Agent 協(xié)作的設(shè)計，對管理者也有幾點很直接的啟發(fā)：

第一，質(zhì)疑和建構(gòu)需要分開。

讓同一個人既負(fù)責(zé)方案設(shè)計、又負(fù)責(zé)方案審核，是管理上最常見的錯誤之一。好的決策機(jī)制，一定是有人提方案、有人挑毛病、有人做決定，三種角色分開。

第二，信息隔離有時候比信息透明更重要。

不是所有信息都應(yīng)該讓所有人看到。挑戰(zhàn)者需要足夠的上下文來提問題，但不需要看到建模師的推導(dǎo)過程。管理者需要知道決策結(jié)論，但不需要知道每個環(huán)節(jié)的具體推理——知道太多，反而會干擾判斷。

第三，設(shè)置明確的終止條件。

沒有終止條件的討論會變成無限循環(huán)，永遠(yuǎn)不會有結(jié)論。Multi-Agent 系統(tǒng)里，每一條質(zhì)疑都必須有明確的處理狀態(tài)，系統(tǒng)才會繼續(xù)往下走。

現(xiàn)實中也是如此：會議要有結(jié)論，評審要有結(jié)論，決策要有結(jié)論。

09 總結(jié)

好的協(xié)作，不是分工就完事了，而是對齊目標(biāo)的情況下，讓每個成員在自己崗位上面發(fā)揮最大能力，讓組織達(dá)到一種最佳效率平衡。

Multi-Agent 的設(shè)計，本質(zhì)上是在用工程化的方式，實現(xiàn)人類組織里早就存在的分工與制衡邏輯。

如果你在帶團(tuán)隊，這套設(shè)計值得參考：

有人負(fù)責(zé)建構(gòu)（建模師）
有人負(fù)責(zé)質(zhì)疑（挑戰(zhàn)者）
有人負(fù)責(zé)決策（綜合師）
三個角色之間有清晰的信息邊界
每個環(huán)節(jié)有明確的終止條件

做到了這幾點，不管是 AI 系統(tǒng)還是人類團(tuán)隊，協(xié)作質(zhì)量都會上一個臺階。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.