當AI自己學會“挑錯”和“辯論”,它離真正靠譜還有多遠?微軟給Copilot裝上的兩個新“大腦”,正在嘗試回答。
3月31日,微軟宣布為其Microsoft 365 Copilot平臺中的深度研究智能體“Researcher”進行重要更新。這次更新的核心,是引入了名為“Critique”(批判機制)與“Council”(理事會機制)的兩項新功能。其目標是通過整合OpenAI的GPT模型與Anthropic的Claude模型,構建一個多模型協作的工作流,從而大幅提升企業級AI研究的嚴謹性與可靠性。
![]()
微軟Copilot平臺正在轉變:不再滿足于做只給單一答案的智能助手,而是成為協調多個頂尖AI模型的“總指揮”。這直擊企業用戶的核心痛點——如何讓AI在深度研究、數據分析等嚴肅工作中更可靠、更少犯錯。
“Critique”批判機制的核心,是將“寫報告”與“審報告”分離。面對復雜研究問題時,系統不再讓單一模型包辦。先由OpenAI的GPT模型查找資料、規劃任務并起草初步報告,但這份草稿不會直接交給你,而是立即轉給“嚴苛審稿人”——Anthropic的Claude模型。Claude會像資深專家一樣,逐字逐句審核事實準確性、邏輯嚴密性和引證可靠性,相當于在AI生產線上強行嵌入一道質檢關。
效果如何?微軟用DRACO基準測試衡量。結果顯示,加入“批判機制”的Researcher智能體,得分較之前單模型版本有所提升,意味著研究質量從“勉強能用”邁向“基本可靠”。未來,這一流程還可反向操作,讓Claude起草、GPT審核,增加靈活性。
如果說“批判機制”是嚴謹的“接力賽”,那么“Council”理事會機制就是開放的“平行實驗”。
“Council”啟用后,系統針對同一問題同時派出GPT和Claude兩個模型,它們互不干擾,各自獨立研究、檢索,最終形成兩份完整報告。隨后,“裁判模型”登場,任務不是簡單判斷對錯,而是進行更精細的“元分析”——找出兩份報告的共識點,更重要的是,高亮標出分歧所在。這些分歧可能源于數據解讀、分析角度或對同一事實的不同看法。同時,裁判還會總結每個模型獨有的、可能被對方忽略的洞察。
由此,AI給出的不再是“一個標準答案”,而是“一份包含不同聲音的分析光譜”,幫助專業人士更全面理解問題,發現潛在盲點,為決策提供更立體的依據。
兩項更新背后,是微軟更大的AI生態布局。
盡管與OpenAI關系緊密,微軟正積極將不同廠商的頂尖模型(如Anthropic的Claude)整合進Copilot平臺。這種開放策略,讓企業用戶可根據任務特點(例如需要GPT的創意還是Claude的嚴謹)靈活搭配,也降低了對單一技術的依賴風險。
未來的企業級智能體,很可能由IT管理員像搭積木一樣,根據合規與業務需要自由選擇和編排不同底層模型。
對于金融、法律、醫療等容錯率極低的行業,多模型協作意義尤為重大。
在這些領域,一個錯誤的數據解讀或法律條文誤判,都可能引發巨額損失或嚴重風險。傳統單一AI模型固有的“幻覺”問題,是阻礙其深入應用的最大障礙。“批判機制”通過即時校驗,增加了一道風險防火墻,有效過濾明顯錯誤;而“理事會機制”提供的對比視角,則像給分析師和律師配了一位持不同意見的“虛擬同事”,助其做出更審慎判斷。這并非取代人類專家,而是用AI生成更高質量、更全面的輔助材料,把人從繁瑣的信息篩選中解放出來,專注于更高層的戰略與風險研判。
在推進這些強大功能的同時,微軟也強調其與“負責任AI”原則的銜接,包括公平性、可靠性、安全性和透明度。多模型架構下,數據隱私與安全由企業級云架構保障,所有輸出均受安全監控。而“理事會機制”本身,通過展示推理差異,也提供了一種天然的透明度。
總體來看,Copilot平臺通過讓多個AI模型相互制衡與互補,正正面攻克阻礙AI進入關鍵業務領域的可靠性難題。
來源:布谷財經
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.