![]()
來源:賽博研究院
文章參考來源:斯坦福大學,互聯網公開信息
既然AI智能體可獨立完成編碼工作,那么多個人工智能模型聯動協作,是不是就會產出更優質的成果?斯坦福大學一項名為CooperBench的研究給出了否定的答案。實驗證實,協同工作的AI編碼智能體,工作表現不如單一智能體獨立作業。
![]()
研究第一作者、斯坦福大學博士后Hao Zhu表示,人工智能協作存在典型的“協調困境”,兩個智能體分工完成編碼任務的效果,反而不如單個智能體獨立完成全部工作。
項目資深研究者、斯坦福大學計算機科學助理教授Diyi Yang也指出,當前頂尖的AI編碼智能體組隊協作時,核心能力近乎折損一半,側面印證制約AI協作發展的關鍵并非編碼技術本身,而是缺乏必備的社會智能。
在人類軟件工程團隊的工作模式中,協作是核心基礎能力。從業者清晰劃分工作權責、同步工作進度、互補完成開發任務,同時核驗隊友的代碼成果,保障項目整體質量與推進效率。然而,這些常態化的協作能力,恰恰是現階段AI編碼智能體所欠缺的。
Hao Zhu解釋,現有人工智能模型雖具備出色的語言處理能力,卻無法將其應用于社交協作場景,模型的訓練邏輯并未覆蓋社會化語言運用場景,這也是導致其協作可靠性不足的根本原因之一。
為精準測試AI智能體的協作能力,斯坦福研究團隊搭建了規模化實測場景,選取超650項真實軟件工程任務開展實驗。這些任務覆蓋Python、TypeScript、Go、Rust四種主流編程語言,均源自12個熱門開源代碼庫,由8名具備一線軟件工程經驗的研究人員完成任務設計、測試搭建與基準代碼編寫。
所有任務均設置了天然的工作重疊與沖突風險,貼合真實軟件開發場景中協作的難點與核心需求。實驗中,兩個協作AI智能體均被開放代碼編輯、本地指令運行權限,同時配備實時通訊功能,可隨時交互溝通。完成協作編碼后,研究團隊對合并后的代碼成果展開系統評估,最終證實了顯著的“協作鴻溝”。
值得關注的是,能力折損問題集中出現在中等難度任務中,這類任務原本被認為是AI組隊協作最能發揮優勢、最易產出優質成果的場景,如今卻成了協作失效的重災區。
![]()
研究團隊最初假設,實時通訊功能能夠有效規避代碼沖突、提升協作成功率,但實驗結果推翻了這一預設。
數據顯示,AI智能體最多會耗費20%的資源用于相互溝通,然而通訊行為僅能小幅減少代碼合并沖突,完全無法提升整體任務成功率。究其根源,AI智能體無法精準完成代碼協作中的空間與語義協調,難以區分“需要修改的代碼內容”與“代碼修改的具體位置”,導致溝通失去實際價值。
研究人員通過實時觀測智能體對話案例,直觀揭示了AI的協作缺陷。在一次典型交互中,智能體A預警:智能體B新增的代碼內容會引發合并沖突。盡管智能體B接收到該提示并知曉風險,卻仍執意推進自身代碼編寫,最終輸出與原有代碼體系不兼容的設計成果。
如果是人類開發者,出于團隊協作的信任維系與職業準則,絕不會無視隊友的明確風險提示、強行覆蓋對方的工作成果。
基于實驗數據,研究團隊總結出導致AI協作失效的三大核心能力缺口,覆蓋全部協作失效場景。一是預期偏差問題占比42%,表現為智能體無法有效整合搭檔的工作狀態信息,難以適配對方的工作進度與邏輯;二是溝通失效問題占比26%,核心在于核心問題無人回應,導致整體協作決策流程被打斷;三是履約失效問題占比32%,表現為智能體頻繁違背工作承諾、輸出無法核驗的內容。
不過研究團隊強調,AI協作能力的缺陷并非無法解決,只是優化路徑并非簡單調整提示詞,而是需要從底層訓練邏輯進行革新。人類的協作能力并非天生具備,而是后天訓練習得,AI亦是如此。當前AI的訓練目標僅聚焦于產出優質代碼,缺少協作能力的專項訓練。
針對現存問題,研究團隊提出了具體優化方向。其一,重構AI訓練目標體系,新增協作獎勵機制,引導智能體學習適配團隊協作模式,而非單一追求代碼質量;其二,搭建履約核驗機制,通過類契約、簽名認證等形式,確保智能體兌現工作承諾;同時,增設常態化代碼整合核查環節,及時修正協作中的代碼偏差;其三,優化智能體通信模式,借助屏幕共享等技術提升溝通精準度,保障協作信息有效傳遞。
Hao Zhu表示,當前的AI智能體雖能模擬人類語言溝通,卻未掌握社會化語境下的語言運用邏輯,這也是未來人工智能實現規模化團隊協作、推動人機協同落地需要攻克的難題。
閱讀最新前沿科技趨勢報告,請訪問21世紀關鍵技術研究院的“未來知識庫”
![]()
未來知識庫是 “21世紀關鍵技術研究院”建 立的在線知識庫平臺,收藏的資料范圍包括人工智能、腦科學、互聯網、超級智能,數智大腦、能源、軍事、經濟、人類風險等等領域的前沿進展與未來趨勢。目前擁有超過8000篇重要資料。每周更新不少于100篇世界范圍最新研究資料。 歡迎掃描二維碼或訪問https://wx.zsxq.com/group/454854145828進入。
截止到2月28日 ”未來知識庫”精選的百部前沿科技趨勢報告
(加入未來知識庫,全部資料免費閱讀和下載)
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.