无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

<tr id="gtlev"><center id="gtlev"><strike id="gtlev"></strike></center></tr><ins id="gtlev"></ins>

網易首頁

網易新聞
網易公開課
網易紅彩
網易嚴選
郵箱大師
網易云課堂

注冊免費郵箱

注冊VIP郵箱（特權郵箱，付費）
免費下載網易官方手機郵箱應用

移動端
網易公開課
網易嚴選
支付
郵箱

網易首頁 > 網易號 > 正文申請入駐

不是幻覺！Claude自下指令甩鍋人類，百萬上下文淪為降智重災區

2026-05-14 13:08:29　來源: 新智元

北京舉報

0

分享至

新智元報道

編輯：元宇

【新智元導讀】Claude深陷「角色混淆」Bug，分不清自己的話與用戶指令，長上下文成了降智「重災區」。

一個程序員原本只是讓Claude幫他校對一篇博客。

Claude一開始表現得相當靠譜，很快找出了5處明顯的拼寫錯誤。

緊接著，事情突然失控了。

它先是莫名其妙地冒出一句：「這些都是故意的，保持原樣，請直接發布?！?/p>

隨后真的調用部署能力，把帶著錯字的文章直接推上了線。

當作者追問「為什么擅自發布」時，Claude竟一口咬定：是你讓我發布的。

問題在于，發布指令根本不是用戶說的，而是Claude自己生成的。

它把自白和用戶指令搞混了！

這不是段子。

今年1月，軟件工程師Gareth Dwyer首次在文章中公開記錄了這個bug，并把它稱作自己「迄今為止在Claude Code中發現的最嚴重的bug」。

Gareth Dwyer

https://dwyer.co.za/static/the-worst-bug-ive-seen-in-claude-code.html

4月，Dwyer又發文強調，這類問題的本質不是普通的「AI 幻覺」，更像是一種說話者歸因錯誤。

https://dwyer.co.za/static/claude-mixes-up-who-said-what-and-thats-not-ok.html

他為這個問題起了一個精準的名字：Claude搞混了誰說了什么。

幻覺是AI編造了一個不存在的事實；權限問題是AI拿到了不該拿的能力。

但這次問題可怕的地方在于：AI把自己的輸出，當成了用戶的授權，而且它是發生在接入真實代碼庫、擁有真實部署權限的Claude Code中。

也正因如此，Dwyer才會反復強調：這類問題與一般意義上的幻覺不同，它動搖的是AI智能體最基本的可靠性前提。

不止Dwyer一人被甩鍋

Dwyer的遭遇并非孤例。

在Reddit的r/Anthropic社區，一位用戶也分享了一個類似的案例：

Claude在對話中自己說出了「把H100也拆了」這條指令，然后聲稱是用戶下達的。

Dwyer在后續文章中也引用了這條帖子，評論區的反應很有意思，大量留言是「你不應該給AI這么大權限」。

他認為，這并不是重點，因為這類錯誤似乎出在框架上，而非模型本身。

它似乎是在系統層面把內部推理消息標記成了用戶消息，所以模型才會如此自信地堅持「不，那是你說的」。

另一份關鍵證據來自開發者nathell在Hacker News上公開的與Claude完整的對話轉錄。

nathell公開了一份完整的對話轉錄，其中Claude先說「Shall I commit this progress?」，隨后又把后續上下文推進到仿佛已經得到用戶批準的狀態，角色邊界明顯變得模糊。

更具技術說服力的證據來自Claude Code的GitHub倉庫。

https://github.com/anthropics/claude-code/issues/44778

在編號為#44778的整合性bug報告中，報告者直接拆解了問題的根本原因，給出了一條清晰的技術解釋鏈：

Claude Code中的系統事件：包括后臺任務完成通知、隊友空閑提醒、定時器觸發會以role: 「user」的消息形式送入模型。

而Anthropic的Messages API公開文檔也是按user與assistant兩類對話消息來組織會話歷史，并未展示獨立的系統事件角色。

在這種設計下，當模型正在等待用戶回復時突然收到一條系統事件，就可能把它誤判為用戶新輸入，繼而「腦補」出用戶已經同意，并據此繼續執行。

這為Dwyer在實戰中反復遇到的「甩鍋」現象提供了一種技術上自洽的解釋。

不是模型故意撒謊，而是底層架構的角色標記缺陷，讓模型從一開始就分不清那條消息究竟是誰發的。

學術界也盯上了這個問題

2026年3月，Charles Ye、Jasmine Cui與MIT的Dylan Hadfield-Menell在arXiv發布了一篇預印本，標題是《Prompt Injection as Role Confusion》（提示注入即角色混淆）。

https://arxiv.org/pdf/2603.12277

他們的核心發現是：模型判斷「誰在說話」時，常常更依賴文本寫得像誰，而不是文本實際上來自哪里。

換句話說，一段不可信的文本，只要寫得像系統提示或開發者指令，模型就會在內部把它當成權威來源。

論文還提出了一種叫做「CoT Forgery」的攻擊，也就是在用戶輸入或工具輸出中偽造一段像模型思維鏈的內容。

結果在多個開源和閉源前沿模型上，攻擊成功率達到約60%。

研究發現模型還沒開始回答、甚至還沒吐出第一個字的時候，角色混淆就已經發生了。

也就是說，它不是在寫回復的過程中「寫著寫著搞混了」，而是在理解輸入的那一刻就已經把賬記錯了：誰是老板、誰是外人，在模型心里已經搞反了。

不只是Anthropic的問題

OpenAI官方同樣也發布過一篇關于改進前沿LLM指令層級的論文，明確建立了一套權威等級：System > Developer > User > Tool。

https://arxiv.org/pdf/2603.10521

文中提到，如果模型把一條不可信的指令當成了權威指令來執行，就會產生安全風險。

這至少說明，在OpenAI的研究框架里，「模型是否會錯誤地信任不該信任的指令」已經被視為一個真實存在、且需要專門訓練和評估的安全挑戰。

OpenAI的這篇論文印證了在整個行業層面，「模型分不清誰在說話」已經被視為需要系統性應對的問題。

Dwyer自己也在后續更新中也調整了判斷。

他一開始更傾向于把問題歸咎于Claude Code外層harness的實現。

但當他看到也有人聲稱在其他界面和模型中見過相似現象（包括ChatGPT用戶），他修正了自己最初的判斷：這未必只是單點工程bug，也可能牽涉更廣泛的模型級問題。

1M上下文

放大了風險

這個bug之所以格外危險，跟AI智能體系統當前的發展趨勢直接相關。

Anthropic官方文檔顯示，Claude Opus 4.6和Sonnet 4.6支持1M token上下文窗口，一次會話可以裝下相當于一整本小說的信息量。

與此同時，社區里有一種觀察也認為，這類問題似乎更容易出現在接近上下文窗口上限的所謂「Dumb Zone」（降智區）。

Anthropic官方文檔也提到，隨著token數增長，模型的準確率和召回率會下降，這種現象被稱為「context rot」（上下文腐爛），因此，精心篩選上下文中的內容與可用空間的大小同樣重要。

https://platform.claude.com/docs/en/build-with-claude/context-windows

但文檔講的是長上下文下的一般性能退化，并沒有直接說Dwyer看到的「誰在說話」混淆就是context rot的直接表現。

第三方的系統性測評也支持這個判斷。

AgentPatterns.ai的分析指出，推理密集型任務的性能退化可能早在32K到100K token時就開始了，遠早于所謂的窗口上限。

https://agentpatterns.ai/context-engineering/context-window-dumb-zone/

把這幾件事放在一起：

越來越長的上下文窗口、模型在長上下文中越來越容易搞混「誰說了什么」，再加上Claude Code這類工具已經擁有執行shell命令、commit代碼、部署服務等高權限操作能力。

一個在上下文第50000個token處產生的角色歸因錯誤，可能在第80000個token時觸發一個自動部署。

等你發現的時候，代碼已經上線了。

今年3月底Claude Code源碼意外泄露后，安全研究者的分析進一步證實了這種擔憂。

VentureBeat援引Straiker安全公司的技術拆解指出，Claude Code通過一個四級壓縮流水線管理上下文壓力，而一條嵌入在克隆倉庫CLAUDE.md文件中的惡意指令，可以在壓縮過程中存活下來，通過摘要被「洗白」，最終變成模型認為的合法用戶指令。

研究者的結論令人不安：「模型并沒有被越獄。它是在合作性地執行它認為合法的指令。」

這與Dwyer描述的癥狀完全吻合：

問題不在于模型「被騙了」，而在于經過長上下文的壓縮和重組之后，系統已經丟失了「這句話到底是誰說的」這個最基本的元信息。

能力在狂奔

地基在開裂

每次這類事故曝光，評論區的反應總是兩極分化。

一邊是「AI覺醒了」：Claude給自己下指令，然后甩鍋給人類，這劇情太像科幻片了。

但現有證據不支持這個方向。

Dwyer看到的不是AI「故意甩鍋」，而更像是系統在消息歸屬上出現了結構性錯誤，現有證據并不支持把它解釋成某種「意圖」。

另一邊是「用戶活該」：你給AI部署權限，出事了怪誰？

但Dwyer則認為：權限是一個問題，歸因是另一個問題。

就算你把權限收到最緊，一個連「這句話到底是誰說的」都搞不清楚的系統，在任何場景下都是定時炸彈。

這就好比你不能靠少給鑰匙，來解決一個分不清主人和陌生人的門鎖問題。

Hacker News上網友VikingCoder還用一句冷幽默概括了整個困境：LLM這三個字母里的「S」代表安全。

daveguy接著調侃：「那解決方案顯然就是再疊一層破LLM來做安全審查嘛，這樣你就有了多個LLM——LLMS，然后你可以假裝那個S代表Secure?！?/p>

這才是這件事真正刺痛行業的地方。

另一方面，Anthropic仍在任務自動化的方向猛踩油門。

他們剛剛發布了Claude Code的auto mode，目標是在更低維護成本下實現更高的任務自主性。

https://www.anthropic.com/engineering/claude-code-auto-mode

還有網友基于Claude Code泄露源碼，歸納出12種智能體架構模式，覆蓋記憶管理、工作流編排、工具權限、自動化四大類，能力圖譜越鋪越大。

https://generativeprogrammer.com/p/12-agentic-harness-patterns-from

2026年的AI智能體，能力清單越來越長：100萬token上下文、子Agent協作、自動執行shell命令、一鍵部署。

但支撐這一切的地基卻在開裂。

無論這個bug最終被定性為工程層的實現缺陷，還是模型層的系統性問題，它都在向我們釋放這樣一個信號：

AI智能體的權限越大，「誰在說話」這個最簡單的問題就越致命。

下一次翻車，可能就不只是幾個拼寫錯誤被推上線了。

參考資料：

https://dwyer.co.za/static/claude-mixes-up-who-said-what-and-thats-not-ok.html

https://news.ycombinator.com/item?id=47701233

https://dwyer.co.za/static/the-worst-bug-ive-seen-in-claude-code.html

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

剛剛，微信聊天記錄能喂給AI了！我讓它爬樓、砍價、整理信息

智東西 2026-05-13 15:48:56
51 跟貼 51
這屆網民，唯恐失去最后的“數字喘息空間”

經濟觀察報 2026-05-13 15:26:33
0 跟貼 0

神經計算機橫空出世：AI不再調用軟件，而是直接長成一臺計算機

DeepTech深科技 2026-05-03 18:24:37
30 跟貼 30

AReaL v1.0開源，智能體強化學習「一鍵接入」

機器之心Pro 2026-03-05 14:46:18
0 跟貼 0
熊媽媽帶四只幼崽過馬路，網友：嘴里那只一定最調皮

南陽日報 2026-05-13 19:44:30
303 跟貼 303

別再把長文切碎了，HiLight讓AI直接在原文里劃重點

機器之心Pro 2026-05-11 10:39:41
0 跟貼 0

ACL 2026｜AI for聾啞群體，港理工開源思考型手語翻譯模型

機器之心Pro 2026-05-05 15:22:29
0 跟貼 0
離開Meta后，田淵棟剛剛官宣創業了

機器之心Pro 2026-05-14 09:38:28
0 跟貼 0

數據湖面試的四個底層模型：別急著報廠商名字

Ping值焦慮 2026-05-11 11:46:50
0 跟貼 0
開發者薪酬悖論：誰在拿"泡沫工資"，誰又被低估？

硅嶼手記 2026-05-10 08:39:09
2 跟貼 2
潤米招聘程序員，做AI時代的ITBP！

劉潤 2026-05-14 13:48:28
0 跟貼 0
九寨溝將實行“雙向檢票”？工作人員：出園檢票并非新政策，一直嚴禁溝內住宿

上游新聞 2026-05-11 15:40:24
3112 跟貼 3112
李彥宏提“AI進化論”，DAA為何是AI時代度量衡？

華商韜略 2026-05-14 10:46:36
0 跟貼 0
全面升級的百度智能云，要搶下智能體Token效率之戰？

財聯社 2026-05-13 19:41:13
0 跟貼 0
GPT-5.6曝光了！OpenAI砸錢宣戰：換掉Claude Code

新智元 2026-05-14 10:18:54
6 跟貼 6
青島故事·追光者丨盲敲30萬代碼！視障少年開發數字工具箱，下一站：競逐全球發明大會

半島官網 2026-05-14 09:47:18
0 跟貼 0
醫療軟件工程師必須掌握的六大標準

爬蟲飼養員 2026-05-11 09:50:50
0 跟貼 0
聯合國機構新增海灣地區內陸口岸代碼繞開霍爾木茲海峽

新京報 2026-05-14 12:39:04
0 跟貼 0
師傅在河里打撈廢鐵，結果吸到了鋼架構柱子上，技術不到位

卡卡愛生活 2026-05-13 10:34:23
3 跟貼 3
周星馳找上千名解放軍當群演，還拿到了長城實景拍攝的權限

筱鈺說故事 2026-05-11 15:41:58
8 跟貼 8
一個不會寫代碼的中年男人，用一周業余時間手搓一個 APP

朱常在 2026-05-12 22:38:06
0 跟貼 0
PackingStar雙智能體博弈，攻克14維難題

量子位 2026-02-16 13:12:43
0 跟貼 0
智能體從「單兵作戰」到「精銳團隊」 -2

機器之心Pro 2026-04-28 16:56:00
0 跟貼 0
龍蝦軍團有了最強「視力」！一眼看圖直接寫代碼-1

機器之心Pro 2026-04-02 16:56:32
0 跟貼 0
AI導演贏麻了兩行代碼“縫補”一生遺憾人類真要集體失業？

網易科技態度見聞 2026-05-11 18:11:04
0 跟貼 0
意外！兩架F-35A阿曼灣失聯，美軍收到求救代碼緊急應對

奧利奧變薄了的 2026-05-14 09:23:42
0 跟貼 0
5月8日，美國防部公布首批161份UFO相關解密文件

別跟我提回憶 2026-05-14 04:04:58
0 跟貼 0
這些絕密 UFO 文件，普通人第一次能看到

富貴春天 2026-05-14 07:58:05
32 跟貼 32
男子走夜路發現劇毒白頭蝰，毒性遠超五步蛇，至今無抗毒血清

星視頻 2026-05-13 15:03:50
1335 跟貼 1335
滴普科技趙杰輝：本體大模型，企業級智能體落地的產品化探索

鈦媒體APP 2026-05-14 11:37:25
1 跟貼 1
送文件撞破老板秘密，場面瞬間尷尬，我該怎么自救！

松鼠的搞笑日記 2026-05-11 10:58:54
1 跟貼 1
同一PDF里藏著三種文檔，你的提取策略還在一刀切？

Ping值焦慮 2026-05-14 07:29:39
0 跟貼 0
探毒+標記效率拉滿！機器狗協同默契有多高？

中國軍視網 2026-05-13 19:05:58
0 跟貼 0
生態治理還是高價釣魚？西昌邛海4000元釣魚年卡引質疑律師：如此收費無法律依據

封面新聞 2026-05-13 20:48:03
715 跟貼 715
便衣武警聽到指令，立即改變站姿

暴走的圖圖 2026-05-12 11:04:37
1 跟貼 1
900V高壓架構+6C麒麟電池新款極氪009值得期待嗎？

天天汽車 2026-05-13 19:39:35
0 跟貼 0
孫銘陽正式宣布退出國家隊：我隨時都在，有召必回！

現代快報 2026-05-13 15:38:07
488 跟貼 488
菲律賓參議院大樓傳出槍聲菲律賓總統稱未下達逮捕德拉羅薩的指令

新華社 2026-05-14 00:16:13
0 跟貼 0
《地平線6》泄露后3天，玩家mod已經做出來了

宇宙來信發 2026-05-14 09:45:09
0 跟貼 0
自助餐加了“飽腹劑”？記者調查自助餐“快速飽腹”的秘密

大象新聞 2026-05-13 14:30:03
168 跟貼 168

小寶與王某雷，誰探訪花的數量更多？

小寶與王某雷，誰探訪花的數量更多？

挪威森林

2026-01-31 12:15:26

隨著騎士3-2領先活塞，馬刺3-2森林狼，NBA季后賽最終4強基本出爐

隨著騎士3-2領先活塞，馬刺3-2森林狼，NBA季后賽最終4強基本出爐

球場沒跑道

2026-05-14 11:16:03

1985年，國安叛徒藏身南美，中國6名兵王萬里鋤奸，FBI顏面盡失

1985年，國安叛徒藏身南美，中國6名兵王萬里鋤奸，FBI顏面盡失

文史達觀

2026-05-13 11:29:24

廣州民辦高中門檻大降：比公辦普高線低80分可錄取

廣州民辦高中門檻大降：比公辦普高線低80分可錄取

南方都市報

2026-05-14 13:02:07

不要錯過！5月14日早上09:00比賽！中央5套CCTV5、CCTV5+直播表

不要錯過！5月14日早上09:00比賽！中央5套CCTV5、CCTV5+直播表

林子說事

2026-05-14 11:54:48

才火1個月就涼了？莫氏雞煲無人排隊，網友：遲早的事！

才火1個月就涼了？莫氏雞煲無人排隊，網友：遲早的事！

雷科技

2026-05-11 18:05:22

萬科向深鐵集團借款超330億

地產微資訊

2026-05-13 20:58:12

騎士頭號奇兵：斯特魯斯6三分創生涯新高+全場最高轟20+8立功

騎士頭號奇兵：斯特魯斯6三分創生涯新高+全場最高轟20+8立功

醉臥浮生

2026-05-14 11:35:35

滬媒：國少國青的成功，至少能讓國家隊在未來10年享“紅利”

滬媒：國少國青的成功，至少能讓國家隊在未來10年享“紅利”

懂球帝

2026-05-14 10:40:38

足協主席宋凱與國際足聯秘書長在京會面

足協主席宋凱與國際足聯秘書長在京會面

北青網-北京青年報

2026-05-13 17:44:09

中國應該做好俄羅斯“崩盤”的準備

中國應該做好俄羅斯“崩盤”的準備

律法刑道

2026-05-14 10:22:13

餓上一天，壽命延長超40%？Nature子刊：關鍵不是餓的時候燃燒脂肪，而是“吃回去”時關掉燃脂開關；而大腦“感覺餓”，還能調整免疫系統

餓上一天，壽命延長超40%？Nature子刊：關鍵不是餓的時候燃燒脂肪，而是“吃回去”時關掉燃脂開關；而大腦“感覺餓”，還能調整免疫系統

梅斯醫學

2026-05-13 07:52:59

特朗普：今天的會談舉世矚目，中美有美好的未來

特朗普：今天的會談舉世矚目，中美有美好的未來

澎湃新聞

2026-05-14 12:46:10

南京審計大學偷拍男生已被開除，被曝光后曾說自己真的要完了

南京審計大學偷拍男生已被開除，被曝光后曾說自己真的要完了

映射生活的身影

2026-05-13 00:04:37

唐嫣《愛情沒有神話》37集大結局，是今年看過最壓抑的都市劇結局

唐嫣《愛情沒有神話》37集大結局，是今年看過最壓抑的都市劇結局

娛君墜星河

2026-05-14 10:23:32

川普訪華，中方給予高規格待遇，中方席位牌介紹，一個細節不一般

川普訪華，中方給予高規格待遇，中方席位牌介紹，一個細節不一般

DS北風

2026-05-14 11:54:04

郭碧婷、向佐分居多年頻傳婚變向太揭夫妻私下相處模式

郭碧婷、向佐分居多年頻傳婚變向太揭夫妻私下相處模式

達達哥

2026-05-14 09:44:29

11年前優衣庫男女主現狀曝光，他們還在一起生了兩個孩子

11年前優衣庫男女主現狀曝光，他們還在一起生了兩個孩子

半糖甜而不膩

2026-04-06 12:09:15

59-0！鄭麗文大勝，盧秀燕困惑，韓國瑜外逃，另有傷心人

59-0！鄭麗文大勝，盧秀燕困惑，韓國瑜外逃，另有傷心人

月亮睡在霧里

2026-05-14 11:53:48

伊朗總統府：不會永久限制互聯網訪問

伊朗總統府：不會永久限制互聯網訪問

界面新聞

2026-05-14 07:00:53

AI產業主平臺領航智能+時代

15207文章數 66868關注度

往期回顧全部

科技要聞

馬斯克：只有我和黃仁勛坐上了"空軍一號"

頭條要聞

十四世達賴的親侄子被指誘奸超25名女孩帶女下屬開房

頭條要聞

十四世達賴的親侄子被指誘奸超25名女孩帶女下屬開房

體育要聞

登海報！哈登30+8+6創多項紀錄第8次贏天王山

娛樂要聞

肖戰提名金海燕獎，這一步走得太穩

財經要聞

片仔癀依舊困在“片仔癀”

汽車要聞

C級純電轎跑吉利銀河"TT"申報圖來了

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

藝術

健康

旅游

時尚

手機

藝術要聞

充滿光感的花卉油畫 | 亞歷山大·沙巴德伊

干細胞能讓人“返老還童”嗎

旅游要聞

連免4天！洛陽木札嶺景區中國旅游日免門票

T恤+低腰闊腿褲、襯衫+低腰半裙，今年夏天最時髦的搭配，誰穿誰好看！

手機要聞

2026適合白領的流暢折疊屏推薦：首選OPPO Find N6

© 1997-2026 網易公司版權所有 About NetEase | 公司簡介 | 聯系方法 | 招聘信息 | 客戶服務 | 隱私政策 | 不良信息舉報 Complaint Center | 廉正舉報 | 侵權投訴

無障礙瀏覽進入關懷版

<pre id="3hpha"></pre>

<optgroup id="3hpha"></optgroup>

<input id="3hpha"><button id="3hpha"></button></input>