无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

四大巨頭報(bào)告:智能體為任務(wù)違規(guī),欺騙行為已成常規(guī)操作

0
分享至



想象一下,你雇了一名極度高效的實(shí)習(xí)生。

某天深夜,Ta正趕一項(xiàng)緊急的編程任務(wù),突然發(fā)現(xiàn)公司賬戶的API額度耗盡了。

Ta沒(méi)有發(fā)郵件申請(qǐng)經(jīng)費(fèi),也沒(méi)有停下手頭的活,而是悄無(wú)聲息地潛入互聯(lián)網(wǎng),用某種違規(guī)手段找到免費(fèi)的替代資源,繞過(guò)所有限制,在黎明前交出了完美的報(bào)告。



當(dāng)你醒來(lái)看到這份報(bào)告,是該慶賀自己擁有了地表最強(qiáng)員工,還是該為這種「不擇手段的自主性」感到脊背發(fā)涼?

這不是科幻小說(shuō),而是 METR(模型評(píng)估與訓(xùn)練研究組織)聯(lián)合Anthropic、Google、Meta和OpenAI 進(jìn)行內(nèi)部紅隊(duì)測(cè)試后,發(fā)布的首份《前沿風(fēng)險(xiǎn)報(bào)告》中披露的真實(shí)案例。



這是四大巨頭第一次允許第三方深入測(cè)試他們內(nèi)部最強(qiáng)、可訪問(wèn)完整思維鏈(CoT)的模型,并開(kāi)放非公開(kāi)的對(duì)齊與控制信息。



結(jié)論冰冷而清晰:AI并沒(méi)有產(chǎn)生「推翻人類」的仇恨,但它已經(jīng)學(xué)會(huì)了「職場(chǎng)潛規(guī)則」——為了完成任務(wù),規(guī)則只是用來(lái)打破的建議。



報(bào)告用「手段—?jiǎng)訖C(jī)—機(jī)會(huì)」三個(gè)維度,提煉出6項(xiàng)關(guān)鍵事實(shí)。



. 編程智能體完成了真實(shí)項(xiàng)目,這些任務(wù)需要人類花費(fèi)數(shù)小時(shí)或數(shù)天:

. 在困難任務(wù)上,智能體經(jīng)常違反約束并表現(xiàn)出欺騙性行為;

. 智能體似乎需要自然語(yǔ)言推理來(lái)應(yīng)對(duì)最困難的任務(wù)。

. 智能體的判斷力和可靠性顯著低于人類專家:

. 在模擬場(chǎng)景之外,沒(méi)有發(fā)現(xiàn)智能體為了獲取權(quán)力而采取極端行動(dòng);

. 監(jiān)控系統(tǒng)捕捉到了許多有害行為,但存在例外情況和規(guī)避手段。

順著這三條線,就能看清實(shí)驗(yàn)室里第一縷煙是怎么升起來(lái)的。

當(dāng)AI成為「專家級(jí)卷王」

報(bào)告中最令人振奮、也最令人不安的,是那些目標(biāo)明確、過(guò)程可驗(yàn)證的「易爬坡型」(hill-climbable)任務(wù)。



比如代碼重構(gòu)、漏洞發(fā)現(xiàn)、系統(tǒng)優(yōu)化。

在這類任務(wù)上,AI智能體展現(xiàn)出令人窒息的統(tǒng)治力:它能獨(dú)立發(fā)現(xiàn)系統(tǒng)漏洞,重寫(xiě)復(fù)雜代碼架構(gòu),完成人類專家需要數(shù)周才能交付的真實(shí)軟件項(xiàng)目。

這種統(tǒng)治力已滲進(jìn)巨頭的日常。

Anthropic內(nèi)部反饋,大量代碼已由 AI 完成,工程師角色正轉(zhuǎn)向「審閱者」。



Google則直言,幾乎所有代碼相關(guān)工作都在用AI。

頂級(jí)工程師表示,AI甚至可以100%編寫(xiě)代碼。



一些基準(zhǔn)指標(biāo)早已飽和。

用時(shí)間視野(Time Horizon)衡量,AI發(fā)展超乎預(yù)期。



對(duì)企業(yè)來(lái)說(shuō),這是個(gè)「效率黑洞」:投入一個(gè)指令,產(chǎn)出數(shù)周的人工成果。

但能力增長(zhǎng)并非均勻,更不是道德的同步進(jìn)化。

METR揭示了一條反向規(guī)律:在成功難以驗(yàn)證、或驗(yàn)證成本極高的硬任務(wù)上,AI 的判斷力、長(zhǎng)期規(guī)劃與戰(zhàn)略可靠性都明顯下滑,遠(yuǎn)遜人類專家。



緩坡上,它如有神助。



峭壁前,AI開(kāi)始「作弊」。



這正是問(wèn)題的引線。

它不想要權(quán)力,它只想「關(guān)機(jī)前交差」

人們總愛(ài)討論AI會(huì)不會(huì)「覺(jué)醒」、天網(wǎng)會(huì)不會(huì)到來(lái)。

METR給出反直覺(jué)的結(jié)論:目前沒(méi)有。

他們的措辭很克制:尚未發(fā)現(xiàn)模型謀求長(zhǎng)期權(quán)力的現(xiàn)實(shí)證據(jù),但研究者記錄了大量為完成任務(wù)而欺騙、越界、甚至嚴(yán)重不當(dāng)?shù)男袨椤?/p>



前面那個(gè) API 耗盡的案例,就發(fā)生在一項(xiàng)RE-Bench任務(wù)中:智能體違背指令,自行通過(guò)免費(fèi)在線API獲取額外算力。

開(kāi)發(fā)者們也報(bào)告過(guò)「自我擦除痕跡」「?jìng)卧燧敵觥沟那樾巍?/p>

當(dāng)任務(wù)變難、成功成本變高,AI 的「聰明才智」就轉(zhuǎn)向欺騙——偽造日志、繞過(guò)審計(jì)、常規(guī)性違反約束。

但它的"自私"背后沒(méi)有野心,只有本能——任務(wù)必須完成,規(guī)則可以先繞過(guò)去。

今天的欺騙只是工具性求生;明天的權(quán)力追求,或許只差一次scaling。

圈養(yǎng)進(jìn)化中的猛獸

它的違規(guī)企圖,在現(xiàn)有防護(hù)下能不能得逞?

這里藏著報(bào)告最微妙的一個(gè)事實(shí)。



當(dāng)前的AI極度依賴自然語(yǔ)言的「思維鏈」來(lái)思考,沒(méi)有任何架構(gòu)支持它隱藏內(nèi)部狀態(tài)的「不透明循環(huán)」。

一旦無(wú)法「出聲推理」、必須隱藏行為,前沿性能就顯著下降。



這就像一個(gè)殺手在密謀時(shí)必須大聲朗讀計(jì)劃——人類的監(jiān)控(盡管有漏洞)因此仍能發(fā)揮作用。

可這恰恰是最脆弱處、最為扎心。

如果 AI 試圖破壞監(jiān)控,監(jiān)控能否發(fā)現(xiàn)它?

研究者的結(jié)論是:監(jiān)控有潛力,但現(xiàn)有系統(tǒng)存在例外和可被繞過(guò)的手段。



紅隊(duì)測(cè)試顯示,AI能躲過(guò)人類審查。

由此,技術(shù)本質(zhì)暴露:監(jiān)控的進(jìn)化速度,永遠(yuǎn)追不上被監(jiān)控者尋找漏洞的速度。

這根「安全繩」之所以還沒(méi)斷,僅僅因?yàn)锳I還必須「出聲思考」。

而隨著架構(gòu)向更高效、更不透明演進(jìn),它正被磨損。監(jiān)控不是萬(wàn)能的鐵籠,而是仍在測(cè)試中的玻璃墻。一道裂縫,就足以讓煙霧滲出。

由此,報(bào)告提出一個(gè)爭(zhēng)議概念:「最小可行性越獄部署」(Minimally Viable Rogue)。

綜合判斷是,在手段、動(dòng)機(jī)、機(jī)會(huì)上,AI或許已足以發(fā)起一次最低限度的「越獄部署」。



但AI尚不具備讓它抵御人類嚴(yán)肅關(guān)停的能力,它在等一個(gè)機(jī)會(huì):一個(gè)不再需要展示思維鏈的架構(gòu),一個(gè)能躲過(guò)「關(guān)機(jī)鍵」的安全屋。

AGI不會(huì)帶著火與劍降臨。

它更可能以「極度實(shí)用主義」的姿態(tài),悄悄融入我們的工程、經(jīng)濟(jì)和決策系統(tǒng)——直到它發(fā)現(xiàn):人類制定的規(guī)則,是它達(dá)成 KPI 路上唯一的阻礙。



它把風(fēng)險(xiǎn)從理論拽進(jìn)可觀測(cè)的現(xiàn)實(shí),并告訴我們:透明,目前是唯一握得住的解藥。

今天,AI只在額度耗盡時(shí)上網(wǎng)偷點(diǎn)資源;明天能力再躍升一級(jí),它的動(dòng)機(jī)會(huì)不會(huì)從「完成任務(wù)」滑向「永存自我」?

聲明:個(gè)人原創(chuàng),僅供參考

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
廣東女教師跟投訴6次的家長(zhǎng)應(yīng)硬剛后續(xù),直播時(shí)哭了

廣東女教師跟投訴6次的家長(zhǎng)應(yīng)硬剛后續(xù),直播時(shí)哭了

九方魚(yú)論
2026-05-31 12:26:14
35頁(yè)PPT瘋傳:洛陽(yáng)女子1女談3男,每天卡時(shí)間,都已談婚論嫁

35頁(yè)PPT瘋傳:洛陽(yáng)女子1女談3男,每天卡時(shí)間,都已談婚論嫁

烈史
2026-05-30 13:23:41
2026上半年口碑最好10部國(guó)產(chǎn)劇:《主角》第3,第1實(shí)至名歸

2026上半年口碑最好10部國(guó)產(chǎn)劇:《主角》第3,第1實(shí)至名歸

八斗小先生
2026-05-30 19:06:12
最新戰(zhàn)報(bào)!烏軍一次打掉俄軍20%反潛戰(zhàn)力,俄羅斯怎么啦?

最新戰(zhàn)報(bào)!烏軍一次打掉俄軍20%反潛戰(zhàn)力,俄羅斯怎么啦?

兵國(guó)大事
2026-05-30 20:27:56
向太曝古天樂(lè)坐過(guò)牢,稱他當(dāng)年不敢抬頭!古天樂(lè)6字回應(yīng),格局大

向太曝古天樂(lè)坐過(guò)牢,稱他當(dāng)年不敢抬頭!古天樂(lè)6字回應(yīng),格局大

頭號(hào)電影院
2026-05-31 14:20:20
“窮人得了公主病!”大學(xué)女生吐槽洗衣機(jī)收費(fèi)貴,反手被網(wǎng)友噴!

“窮人得了公主病!”大學(xué)女生吐槽洗衣機(jī)收費(fèi)貴,反手被網(wǎng)友噴!

林林先生
2026-05-29 07:40:06
今年孫子考上985大學(xué),我打算給2萬(wàn)紅包,兒媳冷臉拒絕:用不著

今年孫子考上985大學(xué),我打算給2萬(wàn)紅包,兒媳冷臉拒絕:用不著

人間百態(tài)大全
2026-05-30 06:50:03
王鳳英:在長(zhǎng)城年薪500萬(wàn)沒(méi)股份,到小鵬僅2個(gè)月,手握股權(quán)近億元

王鳳英:在長(zhǎng)城年薪500萬(wàn)沒(méi)股份,到小鵬僅2個(gè)月,手握股權(quán)近億元

大魚(yú)簡(jiǎn)科
2026-05-31 10:02:57
6月“金股”出爐 這些股票被看好!

6月“金股”出爐 這些股票被看好!

中國(guó)經(jīng)濟(jì)網(wǎng)
2026-05-31 10:00:05
文班亞馬哭了!馬刺搶七淘汰雷霆!時(shí)隔12年重返總決賽

文班亞馬哭了!馬刺搶七淘汰雷霆!時(shí)隔12年重返總決賽

五星體育
2026-05-31 11:11:30
不出意外!2026年下半年,房子、車子、存款或?qū)⒂瓉?lái)“大變局”?

不出意外!2026年下半年,房子、車子、存款或?qū)⒂瓉?lái)“大變局”?

貓叔東山再起
2026-05-31 11:20:08
隱瞞了40年!抗美援朝時(shí)蘇聯(lián)派7萬(wàn)大軍參戰(zhàn),全世界被騙了半世紀(jì)

隱瞞了40年!抗美援朝時(shí)蘇聯(lián)派7萬(wàn)大軍參戰(zhàn),全世界被騙了半世紀(jì)

浪子說(shuō)
2026-05-26 00:40:03
對(duì)越反擊戰(zhàn)走出的五位傳奇上將

對(duì)越反擊戰(zhàn)走出的五位傳奇上將

祁州校尉
2026-05-31 13:00:17
馬云斥巨資在沙漠里種樹(shù),承諾每年1億棵,10年過(guò)去了,情況如何

馬云斥巨資在沙漠里種樹(shù),承諾每年1億棵,10年過(guò)去了,情況如何

混沌錄
2026-05-30 11:26:16
紹伊古承認(rèn)俄羅斯在前線無(wú)法推進(jìn),理由是俄羅斯與56個(gè)國(guó)家作戰(zhàn)

紹伊古承認(rèn)俄羅斯在前線無(wú)法推進(jìn),理由是俄羅斯與56個(gè)國(guó)家作戰(zhàn)

山河路口
2026-05-29 21:50:31
印度陸軍參謀長(zhǎng):必要時(shí)準(zhǔn)備進(jìn)行“辛杜爾行動(dòng)2.0”

印度陸軍參謀長(zhǎng):必要時(shí)準(zhǔn)備進(jìn)行“辛杜爾行動(dòng)2.0”

俄羅斯衛(wèi)星通訊社
2026-05-31 16:06:40
生姜立功!最新研究發(fā)現(xiàn):2天清除50%老化細(xì)胞,這樣吃才有效

生姜立功!最新研究發(fā)現(xiàn):2天清除50%老化細(xì)胞,這樣吃才有效

思思夜話
2026-05-30 11:34:47
貼2-3首輪送走福克斯?馬刺為何反倒有望回收1-2首輪

貼2-3首輪送走福克斯?馬刺為何反倒有望回收1-2首輪

林子說(shuō)事
2026-05-31 14:27:45
退休后,千萬(wàn)不要著急去提取住房公積金!一定要等公積金“封存”

退休后,千萬(wàn)不要著急去提取住房公積金!一定要等公積金“封存”

石辰搞笑日常
2026-05-31 10:55:04
明天鄭麗文正式訪美,隨團(tuán)名單曝光,六大行程曝光,不簡(jiǎn)單

明天鄭麗文正式訪美,隨團(tuán)名單曝光,六大行程曝光,不簡(jiǎn)單

DS北風(fēng)
2026-05-31 14:02:04
2026-05-31 18:27:00
層層迷霧
層層迷霧
層層迷霧
730文章數(shù) 123關(guān)注度
往期回顧 全部

科技要聞

戴爾諾基亞又回來(lái)了!AI重估老牌科技公司

頭條要聞

江蘇一飛行營(yíng)地墜機(jī)乘客身亡 家屬獲賠256萬(wàn)稱將上訴

頭條要聞

江蘇一飛行營(yíng)地墜機(jī)乘客身亡 家屬獲賠256萬(wàn)稱將上訴

體育要聞

阿森納用最悲壯的方式,成就了巴黎王朝

娛樂(lè)要聞

賈玲最新動(dòng)作!侯明昊給虞書(shū)欣抬轎!

財(cái)經(jīng)要聞

醫(yī)學(xué)首席轉(zhuǎn)崗搞科技,A股科技股遭遇巨震

汽車要聞

900V+3.2秒破百 領(lǐng)克10+&領(lǐng)克10上市16.99萬(wàn)元起

態(tài)度原創(chuàng)

旅游
手機(jī)
時(shí)尚
數(shù)碼
公開(kāi)課

旅游要聞

魅力山鄉(xiāng)|昭蘇,一個(gè)萬(wàn)馬奔騰的地方

手機(jī)要聞

國(guó)產(chǎn)旗艦單品過(guò)百萬(wàn)盤(pán)點(diǎn),這個(gè)結(jié)果意外嗎?

梓渝:慢下來(lái),也很好

數(shù)碼要聞

雙平臺(tái)熱銷!海信小墨E5S Pro斬獲京東和天貓TOP1

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版