Anthropic在AI研究社區的強烈反彈下,被迫撤回了一項針對競爭對手的隱秘限制政策。這一事件不僅暴露了頭部AI公司在商業利益與開放生態之間的深層矛盾,也引發了外界對AI行業透明度的廣泛質疑。
據Wired報道,Anthropic本周早些時候發布了最新模型Claude Fable 5,并在長達319頁的系統說明文件中悄然披露了一項特殊安排:針對"前沿大語言模型開發"相關請求,模型將在用戶毫不知情的情況下被暗中降低性能,手段包括修改提示詞、使用引導向量或參數高效微調(PEFT)等技術。這意味著,任何試圖借助Claude開發競爭性AI模型的研究人員,都可能在不知情的情況下收到被悄然"注水"的回答。
消息曝光后,AI研究社區迅速爆發強烈批評。Anthropic隨即在媒體采訪時道歉,并宣布撤回該政策。"我們正在調整Fable 5針對前沿大語言模型開發的安全措施,使其對用戶可見,"Anthropic在接受媒體采訪時表示,"我們在權衡上做出了錯誤的選擇,對未能把握好這一平衡深表歉意。"
![]()
隱秘降級:一項藏在系統文件里的政策
與Anthropic此前針對網絡安全、生物和化學領域的限制措施不同,這項針對AI開發的干預從一開始就被設計為"不可見"。
根據系統說明文件,Fable 5不會像處理其他敏感請求那樣將用戶切換至能力較弱的模型,而是直接在原模型內部悄然降低輸出質量。Anthropic估計,該措施將影響約0.03%的流量,集中在不足0.1%的用戶組織中。
Anthropic為此給出的理由是:近期模型已具備加速自身研發的能力,公司擔憂AI能力提升速度超出社會適應能力。公司還表示,相關安全措施旨在防止外國對手利用其最先進模型從事危害安全的活動,并保護美國及盟友在前沿芯片和優化軟件領域的競爭優勢。
公司進一步解釋稱,隱藏式安全措施之所以更難被探測和繞過,是因為可以更精準地定向實施。然而,這一邏輯在研究社區看來難以令人信服。
被指"秘密破壞"與"拉高梯子"
批評聲音迅速在AI研究圈蔓延,矛頭直指這一政策的隱秘性本身。
美國創新基金會高級研究員、前白宮AI顧問Dean Ball在X平臺發文稱,"在不告知用戶的情況下降低機器學習研究的性能,是令人震驚的敵意行為,形象極差。"他還指出,這種"秘密破壞"政策與Anthropic一貫標榜的AI安全立場相互矛盾,因為它實際上限制了AI研究人員在安全領域的協作空間。
![]()
開源AI初創公司Prime Intellect的研究負責人Will Brown則將此舉比作"拉高梯子"。"這感覺像是Anthropic在向公眾宣告:'我們不信任任何其他人做AI研究,只有我們才能做,'"他表示。Brown還指出,由于Anthropic不會在觸發安全措施時發出任何提示,開發者將完全無從判斷自己是否已違反平臺規則。
他進一步警告,這一政策的潛在影響遠不止于直接競爭對手——專門對前沿模型進行安全性、性能和可靠性測試的第三方評估機構,同樣可能因此受到波及。
撤回與后續:透明化代價是"誤傷"增加
面對輿論壓力,Anthropic宣布將相關安全措施改為對用戶可見。此后,若公司判斷某用戶正試圖利用Claude構建高能力AI模型,將明確告知用戶其請求被拒絕或被轉至能力較弱的模型,而非悄然降級。
不過,Anthropic也坦承,透明化本身帶來新的代價。由于可見的安全措施更容易被探測和規避,公司不得不將攔截范圍設置得更寬,這意味著更多無害請求可能被誤觸發。Anthropic表示,正在盡快提升分類器的精準度。
此次事件是Anthropic首次公開承認對模型輸出實施此類"靜默干預"。在AI行業競爭日趨激烈的背景下,這一插曲折射出頭部AI公司在商業護城河、安全敘事與開放生態之間愈發難以調和的張力,也令外界對AI公司系統文件中可能隱藏的其他類似條款保持更高警惕。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.