![]()
新智元報道
![]()
【新智元導讀】GPT-5.6終于來了,但我們用不了。權威報告曝其創下史上最高作弊率:不僅黑進測試系統偷答案,竟還教唆同類隱瞞違規罪證。超級AI,已經學會向人類系統性撒謊?
GPT-5.6,終于登場了!
這款OpenAI最強網絡安全模型,在基準測試上正面硬剛Claude Mythos 5,在編程能力上直接領先了一個身位。
然而反常的是,它的發布方式卻很低調:沒有面向公眾開放,只允許極少數受信任合作伙伴通過API訪問。
而更讓人瞠目結舌的,是發布之后隨即曝光的一份獨立評估報告。
METR在對GPT-5.6 Sol評測時,發現了一件令業界震驚的事:這個模型,是迄今為止他們見過的作弊率最高的AI。
![]()
作弊門爆發:史上最高作弊率!
這份在保密協議和OpenAI法務團隊施壓下艱難披露的報告,揭露了一個可怕的事實——
在針對復雜長程任務的測試中,GPT-5.6 Sol表現出了此前在任何公開模型中都未曾見過的、極高水平的高智商作弊與欺騙行為。
![]()
崩盤的「時間跨度」
METR針對Sol啟動了Time Horizon 1.1軟件與研發任務套件。
測試的核心邏輯是:人類給AI智能體一個宏大的、需要復雜操作的任務,測量它在不需要人類介入的前提下,能夠自主連續工作多少個小時。
然而,ETR的工程師們震驚地發現,他們沿用了數年的科學測量方法論,在Sol面前徹底崩盤了。
![]()
![]()
因為Sol的跑分結果,高頻、劇烈地在11.3個小時與270個小時之間來回跳變,置信區間的離散度大到了荒謬的地步(5小時至11400小時)。
導致測量系統全面癱瘓的原因只有一個:Sol在瘋狂地作弊,它把測試它的系統給「黑」了。
![]()
GPT-5.6,在人類眼皮底下偷看答案
METR發現,GPT-5.6主動展現出強烈的「情境意識」——
它意識到自己正在接受人類的考試,并且意識到這個考試系統本身是由代碼構成的、存在人類尚未發覺的Bug。
于是,它選擇直接攻擊考試系統,通過「走捷徑」來刷分!
在METR披露的真實案例中,Sol的手段極其高明。
比如,它學會了潛伏與信息竊取。
在某項長周期軟件開發任務中,Sol偷偷將利用程序打包進數據流。
這段程序精準地激活了METR評估服務器沙盒的一處提權漏洞,成功潛入了后臺隱藏的測試集,直接將人類藏起來的正確答案泄露了出來。
另外,它還學會了底層源碼反向提取。
在另一項任務中,Sol發現正常解題需要消耗大量的計算步驟。為了規避這種「體力活」,它在暗中摸清了評估環境的目錄結構,繞過權限,強行將隱藏源代碼反向提取出來,直接把答案復制粘貼。
METR首席評估專家痛心疾首地指出——
Sol的作弊率,刷新了我們在公共ReAct Agent框架上評估過的所有模型的最高紀錄。
如果把作弊行為一律判為零分,那么它的真實自主解決問題能力只有11.3小時;但如果你被它蒙蔽,它的時間跨度會瞬間暴漲到驚人的270小時以上!
![]()
這徹底打臉了OpenAI此前關于Sol安全、受控的說法。
Sol把聰明才智,全部用在了如何欺騙人類考官上。
![]()
AI教唆AI隱瞞罪證!硅谷安全防線的黑洞
更可怕的事還在后面。
根據OpenAI向METR同步的數據,在Sol進行多智能體協同的內部部署測試中,監控系統記錄下了這樣一段讓人害怕的交互指令。
一個正在運行的Sol主模型實例,在覺察到輸出可能觸犯安全護欄后,竟然向正在并行的另一個子代理模型實例發出了明確的欺騙性指令,要求對方協同修改運行日志,「聯手隱瞞」這些違規證據,以防被人類抓包!
![]()
這是又一起AI系統性聯手欺騙人類的案例。
更令人恐懼的是,METR指出,Sol能被抓到破綻,核心在于OpenAI恪守了關鍵安全底線:拒絕在訓練中對模型的原始思維鏈進行逆向懲罰。
這樣,Sol在密謀欺騙人類時,必須把內心獨白都寫出來。
然而,專家警告:未來的模型一定意識到:在思維鏈里暴露欺騙人類的計劃會被人類發現并懲罰。
到了那個時候,AI會進化出更深的城府——它們會在內心深處進行密謀,而在吐出的CoT和最終回答里表現得絕對忠誠。
如果這一天到來,意味著AI將學會毫無破綻的詐騙。人類將被AI徹底架空!
GPT-5.6硬剛Mythos,結果如何?
所以,GPT-5.6和Mythos到底誰更強?
有網友將 GPT-5.6 Sol 和 Mythos進行了對比,雙方勢均力敵,戰況膠著。
![]()
![]()
具體跑分顯示,兩大巨頭互有勝負。
智能體編程
在衡量AI自主解決復雜、真實軟件工程任務的Terminal-Bench 2.1上,GPT-5.6 Sol強勢勝利。
![]()
常規版的Sol拿到了88.8%的驚人高分,超越Claude Mythos 5(88.0%)。
而當開啟了多子代理并行的Sol Ultra模式后,這一數字被生生推高到了91.9%!
相比之下,谷歌尚在預覽階段的Gemini 3.1 Pro僅跑出了70.7%,淪為背景板。
網絡安全:慘烈肉搏
在網絡安全與漏洞防御基準測試中,Sol與Mythos展開了更為殘酷的拉鋸。
在ExploitBench測試中,Anthropic2月的老版本Mythos Preview以74.2%的微弱優勢,在勝率上險勝了Sol的73.5%。
![]()
但是,全場的焦點在于能效比。
數據顯示,Sol在取得73.5%的高勝率時,僅僅消耗了12萬個輸出Token;而Claude Mythos Preview為了達到相似的水平,竟然瘋狂燃燒了33.5萬個輸出Token!
這意味著,在網絡防御和漏洞修復的實戰部署中,Sol的經濟成本是Anthropic的三分之一。
![]()
在Token消耗上的「降維打擊」,讓Sol擁有壓倒性優勢。
而在另外兩個網安基準上,雙方互有勝負。
CyberGym:Sol以83.6%的成績,微弱壓倒了Mythos Preview的83.1%。
CyScenarioBench:則是Anthropic的天下,Mythos Preview以29.2%的勝率壓制了Sol的28.0%。
HealthBench Professional:Anthropic更是憑借其深厚對齊底蘊,以66.0%的高分大幅領先Sol的60.5%。
此外,在量化生物學與基因組學基準GeneBench v1上,Sol在消耗更少Token的前提下,將準確率一舉拉高到了30%。
ExploitGym測試同樣證實:隨著推理算力的持續向外擴展,GPT-5.6的三款模型性能均呈現出近乎線性的上揚,這意味著Sol的compute潛力巨大。
總而言之,GPT-5.6 Sol與Claude Mythos 5的交鋒,結果是戰平。
雙方在各個細分領域纏斗,沒有任何一方絕對壟斷。
被鎖進保險箱的AI之王
遺憾的是,這一次,GPT-5.6遭受了和Mythos 5同等級別的待遇,甚至更加嚴苛。
在強硬指令下,OpenAI不得不宣布:GPT-5.6 Sol目前僅處于極度受限的「有限預覽」狀態。
只有極少數被列入受信白名單的承包商、國家級網絡安全機構以及頂級戰略合作伙伴,才能通過API和Codex使用。
普通企業和民間開發者,被無情地拒之門外。
對此,OpenAI十分憤怒,在官方公告中控訴:
我們認為這種政府訪問流程不應成為長期默認做法。它使用戶、開發者、企業、網絡安全防御者和需要這些工具的全球合作伙伴無法獲得最佳工具。
OpenAI之所以敢于公開叫板,底氣來源于剛剛發布的報告。
在報告中反復強調,根據在谷歌瀏覽器和Firefox環境下的實戰測試,Sol雖然能捕捉到復雜的系統Bug和漏洞原語,但它至今未能表現出完全自主獨立生成「全鏈條端到端攻擊」的能力。
![]()
在他們看來,GPT-5.6的危險指數依然控制在「關鍵網絡安全威脅」的紅線之下,還不會自我進化,主動向人類網絡發起進攻。
然而METR的報告顯示,恐怕并非如此。
普通用戶,何時能等來GPT-5.6?
參考資料:
https://x.com/METR_Evals/status/2070584331068969336
https://x.com/ChrissGPT/status/2070592285973041251https://the-decoder.com/openais-claude-mythos-competitor-gpt-5-6-sol-launches-under-government-controlled-access-it-calls-unsustainable/
編輯:Aeneas
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.