4個AI同時審?fù)环荽a,結(jié)果沒一個結(jié)論相同。這不是bug,是Cursor去年悄悄上線的Background Agents功能——大多數(shù)人只當并行工具用,作者發(fā)現(xiàn)它更適合當「壓力測試儀」。
本文作者正在做一個Angular自動化技能系統(tǒng),讓AI幫開發(fā)者搞定繁瑣的項目初始化。寫到第二部分時,他突發(fā)奇想:如果讓多個大模型同時審查這套系統(tǒng),會發(fā)生什么?
答案出乎意料:單個AI發(fā)現(xiàn)不了的問題,在群體評審中無所遁形。
01 | 把AI當顧問團用,而非打字機
Cursor的Background Agents允許同時運行多個AI代理,各自獨立處理同一任務(wù),互不干擾。作者的操作很直接——把同一套審查指令丟給4個不同模型,讓它們分別「交作業(yè)」。
這個設(shè)計像極了管理咨詢的標準打法:同一份brief發(fā)給四家事務(wù)所,對比報告找盲區(qū)。單個顧問可能遺漏的角落,在交叉比對中會被強制曝光。
但有個前提條件:項目必須已推送到Git且保持最新。代理直接操作倉庫,審的是代碼的實際狀態(tài),不是你本地沒提交的草稿。
作者最初的動機很務(wù)實。他的技能系統(tǒng)要處理Angular項目的全套初始化——從linter、formatter到第三方庫集成,規(guī)則復(fù)雜且相互勾連。他擔心某些指令表面通用,實則是為過去某次失敗打的補丁,這種「過擬合」會讓系統(tǒng)越用越僵。
單個AI審查時,這類問題很難被標記。但當4個模型用不同「腦回路」掃描同一套規(guī)則時,有人覺得某條指令「過于具體」,有人質(zhì)疑「這里為什么硬編碼」,矛盾點自然浮現(xiàn)。
02 | 一份專門制造「分歧」的提示詞
并行評審的價值不在數(shù)量,而在結(jié)構(gòu)化沖突。作者設(shè)計了一套審查框架,強制每個AI從特定維度切入:
過擬合檢查——專門獵殺那些偽裝成系統(tǒng)方案的臨時補丁。這是技能系統(tǒng)慢性死亡的主因,但常規(guī)審查幾乎從不觸碰。
系統(tǒng)完整性檢查——不看單個技能,看技能之間的契約關(guān)系、執(zhí)行順序、新增子技能是否會破壞現(xiàn)有流程。
失敗模式分析——假設(shè)用戶完全不看文檔,會怎么搞砸?系統(tǒng)能否優(yōu)雅降級?
可維護性審計——半年后的作者自己,還能看懂這些規(guī)則嗎?
四個維度,四種視角。當AI A在過擬合檢查里標記某條規(guī)則「像是為特定項目定制」,AI B可能在系統(tǒng)完整性檢查里追問「這條規(guī)則和前面的沖突檢測如何協(xié)作」。兩個獨立發(fā)現(xiàn)指向同一處代碼,問題坐實。
作者提到一個細節(jié):他故意沒在提示詞里要求「達成共識」。相反,他鼓勵每個模型堅持自己的判斷——分歧本身就是信號。
03 | 實戰(zhàn)中的意外收獲
在Angular技能系統(tǒng)的審查中,4個AI的反饋呈現(xiàn)明顯的「能力分野」。某個模型對TypeScript配置細節(jié)極其敏感,揪出了eslint規(guī)則與prettier的潛在沖突;另一個則擅長識別用戶流程中的斷點,指出「如果用戶中途取消,臨時文件不會被清理」。
沒有一個模型覆蓋全部問題。但把四份報告疊在一起,作者得到了一張完整的「風險地圖」。
更意外的是「假陽性」的價值。兩個AI同時誤判某處代碼「有問題」,促使作者重新審視——結(jié)果發(fā)現(xiàn)注釋寫得確實模糊,容易讓人誤解。這屬于「沒有bug,但有債務(wù)」的灰色地帶,單模型審查很難觸及。
作者把這個方法命名為「Multi-Agent Task Force」。核心洞察是:LLM的幻覺和盲區(qū)具有「個性」,不同模型的錯誤模式不重疊。當它們被強制就同一對象發(fā)表獨立意見時,共識區(qū)域可信度極高,分歧區(qū)域則需要人工介入。
這與傳統(tǒng)的「多輪自我修正」有本質(zhì)區(qū)別。讓同一個AI反復(fù)檢查,它容易陷入確認偏誤,用更復(fù)雜的邏輯強化初始判斷。換四個不同的「大腦」,才能打破這種回聲室。
04 | 這套方法的邊界在哪
作者沒有回避限制。首先,成本線性增長——4個并行代理意味著4倍token消耗。對于大型代碼庫,這需要精打細算。
其次,提示詞工程變得關(guān)鍵。如果審查框架設(shè)計粗糙,AI們會集體跑偏,產(chǎn)出四份相似的平庸報告。作者花了相當篇幅迭代提示詞,特別是「過擬合檢查」的表述——如何讓AI識別「看似通用、實則特化」的代碼氣味,本身就是一門手藝。
最后,人工整合不可替代。4份報告需要有人閱讀、比對、判斷沖突優(yōu)先級。這不是「自動駕駛」,是「副駕駛軍團」——幫你把地圖畫全,但方向盤還在你手里。
作者正在把這套方法擴展到其他場景:prompt系統(tǒng)驗證、技術(shù)方案評審、甚至文檔準確性檢查。核心邏輯不變——用結(jié)構(gòu)化的多視角沖突,暴露單點審查的盲區(qū)。
他在文末留了一個未完成的實驗:如果讓AI們不僅獨立審查,還能互相質(zhì)疑對方的結(jié)論,會發(fā)生什么?Cursor目前的架構(gòu)不支持代理間直接通信,但作者暗示,這可能成為下一個探索方向。
你的項目里,有沒有哪段代碼「看起來沒問題,但總覺得哪里不對」?或許缺的不是更多時間,而是第四個AI的視角。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.