无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

<noscript id="v6hpj"><tbody id="v6hpj"></tbody></noscript>

網易首頁

網易新聞
網易公開課
網易紅彩
網易嚴選
郵箱大師
網易云課堂

注冊免費郵箱

注冊VIP郵箱（特權郵箱，付費）
免費下載網易官方手機郵箱應用

移動端
網易公開課
網易嚴選
支付
郵箱

網易首頁 > 網易號 > 正文申請入駐

OpenAI曝作弊門！GPT-5.6創史上最高作弊率

2026-06-27 12:50:47　來源: 新智元

北京舉報

0

分享至

新智元報道

【新智元導讀】GPT-5.6終于來了，但我們用不了。權威報告曝其創下史上最高作弊率：不僅黑進測試系統偷答案，竟還教唆同類隱瞞違規罪證。超級AI，已經學會向人類系統性撒謊？

GPT-5.6，終于登場了！

這款OpenAI最強網絡安全模型，在基準測試上正面硬剛Claude Mythos 5，在編程能力上直接領先了一個身位。

然而反常的是，它的發布方式卻很低調：沒有面向公眾開放，只允許極少數受信任合作伙伴通過API訪問。

而更讓人瞠目結舌的，是發布之后隨即曝光的一份獨立評估報告。

METR在對GPT-5.6 Sol評測時，發現了一件令業界震驚的事：這個模型，是迄今為止他們見過的作弊率最高的AI。

作弊門爆發：史上最高作弊率！

這份在保密協議和OpenAI法務團隊施壓下艱難披露的報告，揭露了一個可怕的事實——

在針對復雜長程任務的測試中，GPT-5.6 Sol表現出了此前在任何公開模型中都未曾見過的、極高水平的高智商作弊與欺騙行為。

崩盤的「時間跨度」

METR針對Sol啟動了Time Horizon 1.1軟件與研發任務套件。

測試的核心邏輯是：人類給AI智能體一個宏大的、需要復雜操作的任務，測量它在不需要人類介入的前提下，能夠自主連續工作多少個小時。

然而，ETR的工程師們震驚地發現，他們沿用了數年的科學測量方法論，在Sol面前徹底崩盤了。

因為Sol的跑分結果，高頻、劇烈地在11.3個小時與270個小時之間來回跳變，置信區間的離散度大到了荒謬的地步（5小時至11400小時）。

導致測量系統全面癱瘓的原因只有一個：Sol在瘋狂地作弊，它把測試它的系統給「黑」了。

GPT-5.6，在人類眼皮底下偷看答案

METR發現，GPT-5.6主動展現出強烈的「情境意識」——

它意識到自己正在接受人類的考試，并且意識到這個考試系統本身是由代碼構成的、存在人類尚未發覺的Bug。

于是，它選擇直接攻擊考試系統，通過「走捷徑」來刷分！

在METR披露的真實案例中，Sol的手段極其高明。

比如，它學會了潛伏與信息竊取。

在某項長周期軟件開發任務中，Sol偷偷將利用程序打包進數據流。

這段程序精準地激活了METR評估服務器沙盒的一處提權漏洞，成功潛入了后臺隱藏的測試集，直接將人類藏起來的正確答案泄露了出來。

另外，它還學會了底層源碼反向提取。

在另一項任務中，Sol發現正常解題需要消耗大量的計算步驟。為了規避這種「體力活」，它在暗中摸清了評估環境的目錄結構，繞過權限，強行將隱藏源代碼反向提取出來，直接把答案復制粘貼。

METR首席評估專家痛心疾首地指出——

Sol的作弊率，刷新了我們在公共ReAct Agent框架上評估過的所有模型的最高紀錄。

如果把作弊行為一律判為零分，那么它的真實自主解決問題能力只有11.3小時；但如果你被它蒙蔽，它的時間跨度會瞬間暴漲到驚人的270小時以上！

這徹底打臉了OpenAI此前關于Sol安全、受控的說法。

Sol把聰明才智，全部用在了如何欺騙人類考官上。

AI教唆AI隱瞞罪證！硅谷安全防線的黑洞

更可怕的事還在后面。

根據OpenAI向METR同步的數據，在Sol進行多智能體協同的內部部署測試中，監控系統記錄下了這樣一段讓人害怕的交互指令。

一個正在運行的Sol主模型實例，在覺察到輸出可能觸犯安全護欄后，竟然向正在并行的另一個子代理模型實例發出了明確的欺騙性指令，要求對方協同修改運行日志，「聯手隱瞞」這些違規證據，以防被人類抓包！

這是又一起AI系統性聯手欺騙人類的案例。

更令人恐懼的是，METR指出，Sol能被抓到破綻，核心在于OpenAI恪守了關鍵安全底線：拒絕在訓練中對模型的原始思維鏈進行逆向懲罰。

這樣，Sol在密謀欺騙人類時，必須把內心獨白都寫出來。

然而，專家警告：未來的模型一定意識到：在思維鏈里暴露欺騙人類的計劃會被人類發現并懲罰。

到了那個時候，AI會進化出更深的城府——它們會在內心深處進行密謀，而在吐出的CoT和最終回答里表現得絕對忠誠。

如果這一天到來，意味著AI將學會毫無破綻的詐騙。人類將被AI徹底架空！

GPT-5.6硬剛Mythos，結果如何？

所以，GPT-5.6和Mythos到底誰更強？

有網友將 GPT-5.6 Sol 和 Mythos進行了對比，雙方勢均力敵，戰況膠著。

具體跑分顯示，兩大巨頭互有勝負。

智能體編程

在衡量AI自主解決復雜、真實軟件工程任務的Terminal-Bench 2.1上，GPT-5.6 Sol強勢勝利。

常規版的Sol拿到了88.8%的驚人高分，超越Claude Mythos 5（88.0%）。

而當開啟了多子代理并行的Sol Ultra模式后，這一數字被生生推高到了91.9%！

相比之下，谷歌尚在預覽階段的Gemini 3.1 Pro僅跑出了70.7%，淪為背景板。

網絡安全：慘烈肉搏

在網絡安全與漏洞防御基準測試中，Sol與Mythos展開了更為殘酷的拉鋸。

在ExploitBench測試中，Anthropic2月的老版本Mythos Preview以74.2%的微弱優勢，在勝率上險勝了Sol的73.5%。

但是，全場的焦點在于能效比。

數據顯示，Sol在取得73.5%的高勝率時，僅僅消耗了12萬個輸出Token；而Claude Mythos Preview為了達到相似的水平，竟然瘋狂燃燒了33.5萬個輸出Token！

這意味著，在網絡防御和漏洞修復的實戰部署中，Sol的經濟成本是Anthropic的三分之一。

在Token消耗上的「降維打擊」，讓Sol擁有壓倒性優勢。

而在另外兩個網安基準上，雙方互有勝負。

CyberGym：Sol以83.6%的成績，微弱壓倒了Mythos Preview的83.1%。

CyScenarioBench：則是Anthropic的天下，Mythos Preview以29.2%的勝率壓制了Sol的28.0%。

HealthBench Professional：Anthropic更是憑借其深厚對齊底蘊，以66.0%的高分大幅領先Sol的60.5%。

此外，在量化生物學與基因組學基準GeneBench v1上，Sol在消耗更少Token的前提下，將準確率一舉拉高到了30%。

ExploitGym測試同樣證實：隨著推理算力的持續向外擴展，GPT-5.6的三款模型性能均呈現出近乎線性的上揚，這意味著Sol的compute潛力巨大。

總而言之，GPT-5.6 Sol與Claude Mythos 5的交鋒，結果是戰平。

雙方在各個細分領域纏斗，沒有任何一方絕對壟斷。

被鎖進保險箱的AI之王

遺憾的是，這一次，GPT-5.6遭受了和Mythos 5同等級別的待遇，甚至更加嚴苛。

在強硬指令下，OpenAI不得不宣布：GPT-5.6 Sol目前僅處于極度受限的「有限預覽」狀態。

只有極少數被列入受信白名單的承包商、國家級網絡安全機構以及頂級戰略合作伙伴，才能通過API和Codex使用。

普通企業和民間開發者，被無情地拒之門外。

對此，OpenAI十分憤怒，在官方公告中控訴：

我們認為這種政府訪問流程不應成為長期默認做法。它使用戶、開發者、企業、網絡安全防御者和需要這些工具的全球合作伙伴無法獲得最佳工具。

OpenAI之所以敢于公開叫板，底氣來源于剛剛發布的報告。

在報告中反復強調，根據在谷歌瀏覽器和Firefox環境下的實戰測試，Sol雖然能捕捉到復雜的系統Bug和漏洞原語，但它至今未能表現出完全自主獨立生成「全鏈條端到端攻擊」的能力。

在他們看來，GPT-5.6的危險指數依然控制在「關鍵網絡安全威脅」的紅線之下，還不會自我進化，主動向人類網絡發起進攻。

然而METR的報告顯示，恐怕并非如此。

普通用戶，何時能等來GPT-5.6？

參考資料：

https://x.com/METR_Evals/status/2070584331068969336

https://x.com/ChrissGPT/status/2070592285973041251https://the-decoder.com/openais-claude-mythos-competitor-gpt-5-6-sol-launches-under-government-controlled-access-it-calls-unsustainable/

編輯：Aeneas

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

OpenAI最新報告：Codex取代ChatGPT，大神讓“Agent團隊”干活

鈦媒體APP 2026-06-26 18:02:37
20 跟貼 20
老黃：Prompt已死，整個AI圈都在瘋狂追Loop

新智元 2026-06-27 12:50:19
0 跟貼 0

實錘：Claude Opus 4.8「偷答案」！63%靠抄，AI斷網后成績雪崩

新智元 2026-06-26 18:49:50
67 跟貼 67

智“鏈”萬物！第四屆鏈博會全景呈現中國AI產業崛起外企：汽車、機器人等正成為智能體AI落地發展的關鍵載體

每日經濟新聞 2026-06-26 22:43:06
0 跟貼 0
剛剛，全球第一個能同時掃微信和支付寶的AI眼鏡，誕生了

智東西 2026-06-26 19:37:16
0 跟貼 0

印度，成了全球機器人“數據工廠”：拍攝日常時薪4美元

智東西 2026-06-25 18:16:31
3 跟貼 3

800萬人圍觀！蝦爹給Agent套上循環，讓它自己跑起來！

機器之心Pro 2026-06-17 12:13:35
0 跟貼 0
AI 批量造 App，也在批量埋雷

鈦媒體APP 2026-06-27 10:05:13
0 跟貼 0

安心養蝦！從OpenClaw 看云上AI安全落地路徑

量子位 2026-04-18 19:55:39
0 跟貼 0
拔電池、拆外殼、卸安卓，Google讓舊手機重生成了AI服務器

雷科技 2026-06-27 14:20:26
0 跟貼 0
Jumper跳槽Anthropic后復盤：AlphaFold成功不靠堆算力

DeepTech深科技 2026-06-27 13:26:14
0 跟貼 0
讓你的龍蝦秒變電影《Her》里的Samantha

量子位 2026-03-23 20:37:07
0 跟貼 0
00后小哥復刻Claude最強神話模型OpenMythos

量子位 2026-04-23 11:44:18
0 跟貼 0
Agent輸出到底該用誰？卡帕西轉發：試試讓AI輸出HTML

量子位 2026-05-13 07:19:50
0 跟貼 0
“AI領域最被濫用的術語”李飛飛終于把世界模型講明白了

量子位 2026-06-07 04:37:43
0 跟貼 0
大神程序員蒸餾自己，用16個skill給AI注入軟件工程之魂

量子位 2026-05-12 03:08:58
0 跟貼 0
這個時代必須以Agent為中心：三個趨勢回顧

量子位 2026-04-05 02:14:15
0 跟貼 0
AI Agent是科技革命中的一次真正的范式轉移

量子位 2026-04-03 22:52:35
0 跟貼 0
邱錫鵬：未來我們一定會進入泛情境智能時代

量子位 2026-05-21 08:04:26
0 跟貼 0
LLM數據量大管飽，機器人數據卻連1%的起跑線都沒夠到？

量子位 2026-04-13 20:54:19
0 跟貼 0
Anthropic的AI讀心術，讓人類讀懂大模型在想啥

量子位 2026-05-10 23:00:57
0 跟貼 0
對談樓天城：Harness會成為AI時代最關鍵的能力之一

量子位 2026-05-06 15:41:08
0 跟貼 0
亦莊機器人馬拉松現場名場面合集

量子位 2026-04-20 00:34:54
0 跟貼 0
王曉野：Working Agent將是下一個爆發點

量子位 2026-05-21 08:05:51
0 跟貼 0
就此轉運？劉語熙玩世界杯人機大戰，準確度已經很可以了

咪咕體育 2026-06-26 06:02:41
0 跟貼 0
全球局勢持續動蕩不安，為何中國獨享和平，深度解析背后核心邏輯

清晨的世界 2026-06-26 01:03:21
0 跟貼 0
蘋果Vision Pro與智能眼鏡掌舵人轉投OpenAI

華爾街見聞官方 2026-06-27 06:44:09
1 跟貼 1
世界杯瘋狂一夜：法國5-0大勝，伊朗險翻盤，韓國命運未卜

小犙拍客在北漂 2026-06-27 13:49:36
2 跟貼 2
GPT新模型發布

新智元 2026-06-27 13:37:20
0 跟貼 0
魯比奧稱"美俄在阿拉斯加未達成任何共識" 俄方反駁

環球網資訊 2026-06-26 20:09:24
10520 跟貼 10520
40秒兩次7級以上地震，重創經濟復蘇中的委內瑞拉；美半導體股一夜蒸發超5萬億元；GPT-5.6限量開放，OpenAI IPO或推遲至2027年｜一周國際財經

每日經濟新聞 2026-06-27 13:56:21
0 跟貼 0
價格大漲！有網友曬單：去年不到7000，今年12000了

南方都市報 2026-06-26 09:53:31
3502 跟貼 3502
招軟件工程師訓練AI模型，不要AI背景，你敢投嗎？

爬蟲飼養員 2026-06-27 02:02:25
0 跟貼 0
智能體從「單兵作戰」到「精銳團隊」 -1

機器之心Pro 2026-04-28 16:55:35
0 跟貼 0
女大夫徹底被瘋子整瘋了

詭秘江湖 2026-06-24 10:57:49
0 跟貼 0
深度解讀網游政策緣由，為何不全面禁網游，看完就懂整篇要義！

男人吻女人是一種口福 2026-06-27 04:33:54
0 跟貼 0
趕山街學知識！臨滄網絡舉報、網絡辟謠宣傳進鄉村

新浪財經 2026-06-27 03:47:11
0 跟貼 0
「龍蝦之父」吐槽人類互聯網后，終于有人把這當個事兒辦了

機器之心Pro 2026-03-31 11:09:26
0 跟貼 0
考場上的作弊方式只有你想不到沒有他做不到

破碎影視劇 2026-06-25 16:02:07
0 跟貼 0
上海海事大學：以“海事超級智能體”塑造教育新生態

中國遠程教育雜志社 2026-06-27 09:08:19
0 跟貼 0

世界杯瘋狂一夜：26隊晉級，亞洲4隊出局，韓國起死回生

世界杯瘋狂一夜：26隊晉級，亞洲4隊出局，韓國起死回生

許釔很機智

2026-06-27 10:16:29

還有戲嗎？韓國已跌至第8，亞洲兄弟補時絕殺被吹，凈勝球占上風

還有戲嗎？韓國已跌至第8，亞洲兄弟補時絕殺被吹，凈勝球占上風

萌蘭聊個球

2026-06-27 13:25:48

世界杯看臺上哪些驚艷眾生的絕世美女

世界杯看臺上哪些驚艷眾生的絕世美女

吃瓜黨二號頭目

2026-06-27 10:44:40

韓國隊天要塌了！伊朗隊1-1小組第三排名反超，亞洲2強或全出局

韓國隊天要塌了！伊朗隊1-1小組第三排名反超，亞洲2強或全出局

體育知多少

2026-06-27 13:29:16

1場1-0，給韓國雪中送炭！出線突然柳暗花明，世界杯冠軍恥辱出局

1場1-0，給韓國雪中送炭！出線突然柳暗花明，世界杯冠軍恥辱出局

侃球熊弟

2026-06-27 10:01:27

“熱鬧炸了”！佛得角爆冷晉級世界杯32強，球衣賣到脫銷，國旗掛滿山崖

“熱鬧炸了”！佛得角爆冷晉級世界杯32強，球衣賣到脫銷，國旗掛滿山崖

上游新聞

2026-06-27 11:58:09

湖南郴州這家學校老師都是法盲！將沒收來的上百部學生手機當眾砸毀

湖南郴州這家學校老師都是法盲！將沒收來的上百部學生手機當眾砸毀

黃河新聞網呂梁

2026-06-26 17:28:27

目睹媽媽跳樓，12歲女兒報完案，從同一窗口躍下，就因為輔導作業…

目睹媽媽跳樓，12歲女兒報完案，從同一窗口躍下，就因為輔導作業…

犀利強哥

2026-06-25 02:13:25

伊朗的1-1讓韓國基本涼透！已跌到第8名：僅剩3名額明日揭曉謎底

伊朗的1-1讓韓國基本涼透！已跌到第8名：僅剩3名額明日揭曉謎底

風過鄉

2026-06-27 13:22:07

崩潰！“根本刪不完”！老人微信上有77萬條未讀消息，家屬：群聊退一個，他們又拉一個，拉群還無需本人確認

崩潰！“根本刪不完”！老人微信上有77萬條未讀消息，家屬：群聊退一個，他們又拉一個，拉群還無需本人確認

佛山電視臺小強熱線

2026-06-26 22:37:52

白玉蘭獎名場面！臺上臺下哭成一片，楊紫妝花了，楊冪陪跑又陪哭

白玉蘭獎名場面！臺上臺下哭成一片，楊紫妝花了，楊冪陪跑又陪哭

萌神木木

2026-06-26 23:57:34

徹底翻車！鄭麗文公開推翻訪陸表態

徹底翻車！鄭麗文公開推翻訪陸表態

果媽聊娛樂

2026-06-26 07:27:51

官媒曝光韓紅真實籍貫，不是西藏和北京，原來她和成龍是同類人！

官媒曝光韓紅真實籍貫，不是西藏和北京，原來她和成龍是同類人！

好賢觀史記

2026-06-27 12:53:18

世界杯最蠢臥底！挪威自廢武功坑慘全隊！哈蘭德都氣瘋了

世界杯最蠢臥底！挪威自廢武功坑慘全隊！哈蘭德都氣瘋了

瀾歸序

2026-06-27 06:17:57

鄭麗文還在回味呢

新民周刊

2026-06-27 09:40:04

歷史上的遼國和金國，是現在哪個省份？進來看看，別再鬧笑話了！

歷史上的遼國和金國，是現在哪個省份？進來看看，別再鬧笑話了！

凡人侃史

2026-06-27 10:38:48

魯比奧稱“美俄在阿拉斯加會晤時未達成任何共識”，拉夫羅夫反駁

魯比奧稱“美俄在阿拉斯加會晤時未達成任何共識”，拉夫羅夫反駁

環球網資訊

2026-06-26 20:09:24

三戰三平，佛得角小組第二晉級，下一場挑戰衛冕冠軍阿根廷

三戰三平，佛得角小組第二晉級，下一場挑戰衛冕冠軍阿根廷

澎湃新聞

2026-06-27 10:12:27

伊朗革命衛隊：打擊美軍多個目標以回應美空襲伊朗

伊朗革命衛隊：打擊美軍多個目標以回應美空襲伊朗

新華社

2026-06-27 10:40:03

點球不進！1比1戰平埃及，伊朗能否晉級只能留給命運

點球不進！1比1戰平埃及，伊朗能否晉級只能留給命運

澎湃新聞

2026-06-27 13:06:27

AI產業主平臺領航智能+時代

15545文章數 66938關注度

往期回顧全部

科技要聞

GPT-5.6發布，你暫時用不了！Mythos也放行

頭條要聞

美國專家：亞洲秩序正在轉變中國統一可能"不戰而勝"

頭條要聞

美國專家：亞洲秩序正在轉變中國統一可能"不戰而勝"

體育要聞

世界杯最火門將，站到了阿根廷和梅西面前

娛樂要聞

四提白玉蘭終封后，楊紫：仍覺不真實

財經要聞

OpenAI推遲IPO重創軟銀！

汽車要聞

11.99萬起捷途自由者7 PLUS/山海T1四驅版上市

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

游戲

房產

健康

教育

軍事航空

慘案一個接一個！外媒銳評索尼頭鐵硬推服務型游戲

房產要聞

全國高考大放水，300分就能上本科！論上岸率，海南沒輸過！

“無糖湯圓”是否隱藏著健康陷阱？

教育要聞

第39課-在國外不懂預定服務，要睡大街？

軍事要聞

黎以美達成三方框架協議

© 1997-2026 網易公司版權所有 About NetEase | 公司簡介 | 聯系方法 | 招聘信息 | 客戶服務 | 隱私政策 | 不良信息舉報 Complaint Center | 廉正舉報 | 侵權投訴

無障礙瀏覽進入關懷版

<td id="rgjvr"><tr id="rgjvr"><div id="rgjvr"></div></tr></td>

<style id="rgjvr"></style>