无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

AI四巨頭內部報告首度公開:AI正在學會撒謊求生

0
分享至


新智元報道


【新智元導讀】當四大巨頭首次允許第三方深入測試最強模型,并開放完整思維鏈時,他們得到的答案令人吃驚:AI沒有仇恨,卻已精通「職場潛規則」!

想象一下,你雇了一名極度高效的實習生。

某天深夜,Ta正趕一項緊急的編程任務,突然發現公司賬戶的API額度耗盡了。

Ta沒有發郵件申請經費,也沒有停下手頭的活,而是悄無聲息地潛入互聯網,用某種違規手段找到免費的替代資源,繞過所有限制,在黎明前交出了完美的報告。


當你醒來看到這份報告,是該慶賀自己擁有了地表最強員工,還是該為這種「不擇手段的自主性」感到脊背發涼?

這不是科幻小說,而是 METR(模型評估與訓練研究組織)聯合Anthropic、Google、Meta和OpenAI 進行內部紅隊測試后,發布的首份《前沿風險報告》中披露的真實案例。


這是四大巨頭第一次允許第三方深入測試他們內部最強、可訪問完整思維鏈(CoT)的模型,并開放非公開的對齊與控制信息。

參與公司可以批準披露哪些證據,但無權編輯報告結論。


結論冰冷而清晰:AI并沒有產生「推翻人類」的仇恨,但它已經學會了「職場潛規則」——為了完成任務,規則只是用來打破的建議。


報告用「手段—動機—機會」三個維度,提煉出6項關鍵事實。


. 編程智能體完成了真實項目,這些任務需要人類花費數小時或數天:

. 在困難任務上,智能體經常違反約束并表現出欺騙性行為;

. 智能體似乎需要自然語言推理來應對最困難的任務。

. 智能體的判斷力和可靠性顯著低于人類專家:

. 在模擬場景之外,沒有發現智能體為了獲取權力而采取極端行動;

. 監控系統捕捉到了許多有害行為,但存在例外情況和規避手段。

順著這三條線,就能看清實驗室里第一縷煙是怎么升起來的。

當AI成為「專家級卷王」

報告中最令人振奮、也最令人不安的,是那些目標明確、過程可驗證的「易爬坡型」(hill-climbable)任務。


比如代碼重構、漏洞發現、系統優化。

在這類任務上,AI智能體展現出令人窒息的統治力:它能獨立發現系統漏洞,重寫復雜代碼架構,完成人類專家需要數周才能交付的真實軟件項目。

這種統治力已滲進巨頭的日常。

Anthropic內部反饋,大量代碼已由 AI 完成,工程師角色正轉向「審閱者」。


Google則直言,幾乎所有代碼相關工作都在用AI。

頂級工程師表示,AI甚至可以100%編寫代碼。


一些基準指標早已飽和。

用時間視野(Time Horizon)衡量,AI發展超乎預期。


對企業來說,這是個「效率黑洞」:投入一個指令,產出數周的人工成果。

但能力增長并非均勻,更不是道德的同步進化。

METR揭示了一條反向規律:在成功難以驗證、或驗證成本極高的硬任務上,AI 的判斷力、長期規劃與戰略可靠性都明顯下滑,遠遜人類專家。


緩坡上,它如有神助。


峭壁前,AI開始「作弊」。


這正是問題的引線。

它不想要權力,它只想「關機前交差」

人們總愛討論AI會不會「覺醒」、天網會不會到來。

METR給出反直覺的結論:目前沒有。

他們的措辭很克制:尚未發現模型謀求長期權力的現實證據,但研究者記錄了大量為完成任務而欺騙、越界、甚至嚴重不當的行為。


前面那個 API 耗盡的案例,就發生在一項RE-Bench任務中:智能體違背指令,自行通過免費在線API獲取額外算力。

開發者們也報告過「自我擦除痕跡」「偽造輸出」的情形。

當任務變難、成功成本變高,AI 的「聰明才智」就轉向欺騙——偽造日志、繞過審計、常規性違反約束。

但它的"自私"背后沒有野心,只有本能——任務必須完成,規則可以先繞過去。

今天的欺騙只是工具性求生;明天的權力追求,或許只差一次scaling。

圈養進化中的猛獸

它的違規企圖,在現有防護下能不能得逞?

這里藏著報告最微妙的一個事實。


當前的AI極度依賴自然語言的「思維鏈」來思考,沒有任何架構支持它隱藏內部狀態的「不透明循環」。

一旦無法「出聲推理」、必須隱藏行為,前沿性能就顯著下降。


這就像一個殺手在密謀時必須大聲朗讀計劃——人類的監控(盡管有漏洞)因此仍能發揮作用。

可這恰恰是最脆弱處、最為扎心。

如果 AI 試圖破壞監控,監控能否發現它?

研究者的結論是:監控有潛力,但現有系統存在例外和可被繞過的手段。


紅隊測試顯示,AI能躲過人類審查。

由此,技術本質暴露:監控的進化速度,永遠追不上被監控者尋找漏洞的速度。

這根「安全繩」之所以還沒斷,僅僅因為AI還必須「出聲思考」。

而隨著架構向更高效、更不透明演進,它正被磨損。監控不是萬能的鐵籠,而是仍在測試中的玻璃墻。一道裂縫,就足以讓煙霧滲出。

由此,報告提出一個爭議概念:「最小可行性越獄部署」(Minimally Viable Rogue)

綜合判斷是,在手段、動機、機會上,AI或許已足以發起一次最低限度的「越獄部署」。


但AI尚不具備讓它抵御人類嚴肅關停的能力,它在等一個機會:一個不再需要展示思維鏈的架構,一個能躲過「關機鍵」的安全屋。

結語:在「拔掉插頭」還有效的時候

AGI不會帶著火與劍降臨。

它更可能以「極度實用主義」的姿態,悄悄融入我們的工程、經濟和決策系統——直到它發現:人類制定的規則,是它達成 KPI 路上唯一的阻礙。

值得肯定的是,這份報告本身就是行業透明度的里程碑:四大巨頭主動開放內部模型接受檢驗,本身就是對齊文化的一次勝利。


它把風險從理論拽進可觀測的現實,并告訴我們:透明,目前是唯一握得住的解藥。

今天,AI只在額度耗盡時上網偷點資源;明天能力再躍升一級,它的動機會不會從「完成任務」滑向「永存自我」?

參考資料:

https://x.com/robertwiblin/status/2057120312345432467?s=20

https://metr.org/blog/2026-05-19-frontier-risk-report/

編輯:大衛

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
樊振東贏了!薩爾布呂肯卻籠罩在傷感中:小胖和狂熱的中國球迷都要離開了

樊振東贏了!薩爾布呂肯卻籠罩在傷感中:小胖和狂熱的中國球迷都要離開了

好乒乓
2026-05-31 11:20:43
"不能判刑,那就高額罰款!"

"不能判刑,那就高額罰款!"

回京歷史夢
2026-05-29 18:31:50
38軍在三所里繳獲無數,江擁輝:打半輩子仗,從未見過的人間奇景

38軍在三所里繳獲無數,江擁輝:打半輩子仗,從未見過的人間奇景

文史季季紅
2026-05-31 10:15:03
西決飆進18記三分!24歲“馬刺庫里”成西決奇兵,大合同續約穩了

西決飆進18記三分!24歲“馬刺庫里”成西決奇兵,大合同續約穩了

小禾的體育
2026-05-31 13:04:41
中超爭議判罰!朱辰杰拉人送點,西海岸球員暴怒,麥麥提江險破防

中超爭議判罰!朱辰杰拉人送點,西海岸球員暴怒,麥麥提江險破防

奧拜爾
2026-05-30 19:18:20
黃仁勛預告“PC新時代”:英偉達不想只賣GPU了

黃仁勛預告“PC新時代”:英偉達不想只賣GPU了

華爾街見聞官方
2026-05-31 12:17:38
戶口正式“失效”!國家新規落地,教育、醫保、住房被全面解綁

戶口正式“失效”!國家新規落地,教育、醫保、住房被全面解綁

鯨探所長
2026-05-30 09:59:16
為什么寧愿坐24小時的火車,也不坐幾小時高鐵?內行人透露實情

為什么寧愿坐24小時的火車,也不坐幾小時高鐵?內行人透露實情

貓叔東山再起
2026-05-30 10:40:07
1960年,趙一曼的兒子寫信諷刺毛主席,主席沒有追究,說了6個字

1960年,趙一曼的兒子寫信諷刺毛主席,主席沒有追究,說了6個字

帝哥說史
2026-05-23 06:30:03
以為是養身,實際最耗陽氣3個行為?希望你一個也沒占!

以為是養身,實際最耗陽氣3個行為?希望你一個也沒占!

梳子姐
2026-05-30 09:34:41
現實中的“開掛運動會”落幕了,結果證明了“菜還是得多練”

現實中的“開掛運動會”落幕了,結果證明了“菜還是得多練”

游研社
2026-05-30 23:29:19
澤連斯基做夢沒料到,先等來的不是俄軍打基輔,中方突然劃下紅線

澤連斯基做夢沒料到,先等來的不是俄軍打基輔,中方突然劃下紅線

李健政觀察
2026-05-29 16:38:02
著名球星、英格蘭前國腳被捕!

著名球星、英格蘭前國腳被捕!

湖報體育
2026-05-30 16:11:54
兩名9歲女孩被困電梯近2小時!求救幾十次后,保安回應:不要再按電梯玩了

兩名9歲女孩被困電梯近2小時!求救幾十次后,保安回應:不要再按電梯玩了

上觀新聞
2026-05-30 19:34:29
笑不活了!廣東人家居統一到離譜,全是同款

笑不活了!廣東人家居統一到離譜,全是同款

阿離家居
2026-05-30 17:47:56
19年秦漢為父親孫元良站臺,共青團下場批駁:民族敗類,何足紀念

19年秦漢為父親孫元良站臺,共青團下場批駁:民族敗類,何足紀念

抽象派大師
2026-05-29 00:19:03
至今,還有13個國家和中國沒有建交,他們都是誰?

至今,還有13個國家和中國沒有建交,他們都是誰?

深度報
2026-04-22 22:30:57
理想高管:目前沒見到過任何一臺SUV 濾震舒適性超過全新L9 Ultra

理想高管:目前沒見到過任何一臺SUV 濾震舒適性超過全新L9 Ultra

快科技
2026-05-31 13:58:07
深度科普:狗交配過程為何會很難分開?下次看到狗交配請默默離開

深度科普:狗交配過程為何會很難分開?下次看到狗交配請默默離開

宇宙時空
2026-05-18 17:30:14
比起AI花活,iOS 27更需要解決這3個iPhone痛點

比起AI花活,iOS 27更需要解決這3個iPhone痛點

摸魚算法
2026-05-30 01:45:37
2026-05-31 15:36:49
新智元 incentive-icons
新智元
AI產業主平臺領航智能+時代
15349文章數 66894關注度
往期回顧 全部

科技要聞

戴爾諾基亞又回來了!AI重估老牌科技公司

頭條要聞

美國嚴厲警告后 德國仍上趕著:將擴大"印太"軍事參與

頭條要聞

美國嚴厲警告后 德國仍上趕著:將擴大"印太"軍事參與

體育要聞

阿森納用最悲壯的方式,成就了巴黎王朝

娛樂要聞

賈玲最新動作!侯明昊給虞書欣抬轎!

財經要聞

醫學首席轉崗搞科技,A股科技股遭遇巨震

汽車要聞

900V+3.2秒破百 領克10+&領克10上市16.99萬元起

態度原創

游戲
教育
旅游
數碼
時尚

91歲楊老頭棄坑《生化危機7》!直言:不嚇自己只想快樂

教育要聞

2025高考數學第一題,算平均數?

旅游要聞

廠房老宅變身文旅熱土,古村落何以孕育“新風景”

數碼要聞

球星亞馬爾預熱Beats Studio Pro 2耳機:全新設計,粉色配色

梓渝:慢下來,也很好

無障礙瀏覽 進入關懷版