无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

不是幻覺!Claude自下指令甩鍋人類,百萬上下文淪為降智重災區

0
分享至


新智元報道

編輯:元宇

【新智元導讀】Claude深陷「角色混淆」Bug,分不清自己的話與用戶指令,長上下文成了降智「重災區」。

一個程序員原本只是讓Claude幫他校對一篇博客。

Claude一開始表現得相當靠譜,很快找出了5處明顯的拼寫錯誤。

緊接著,事情突然失控了。

它先是莫名其妙地冒出一句:「這些都是故意的,保持原樣,請直接發布?!?/p>

隨后真的調用部署能力,把帶著錯字的文章直接推上了線。

當作者追問「為什么擅自發布」時,Claude竟一口咬定:是你讓我發布的。

問題在于,發布指令根本不是用戶說的,而是Claude自己生成的。

它把自白和用戶指令搞混了!

這不是段子。

今年1月,軟件工程師Gareth Dwyer首次在文章中公開記錄了這個bug,并把它稱作自己「迄今為止在Claude Code中發現的最嚴重的bug」。


Gareth Dwyer


https://dwyer.co.za/static/the-worst-bug-ive-seen-in-claude-code.html

4月,Dwyer又發文強調,這類問題的本質不是普通的「AI 幻覺」,更像是一種說話者歸因錯誤。


https://dwyer.co.za/static/claude-mixes-up-who-said-what-and-thats-not-ok.html

他為這個問題起了一個精準的名字:Claude搞混了誰說了什么。


幻覺是AI編造了一個不存在的事實;權限問題是AI拿到了不該拿的能力。

但這次問題可怕的地方在于:AI把自己的輸出,當成了用戶的授權,而且它是發生在接入真實代碼庫、擁有真實部署權限的Claude Code中。

也正因如此,Dwyer才會反復強調:這類問題與一般意義上的幻覺不同,它動搖的是AI智能體最基本的可靠性前提。

不止Dwyer一人被甩鍋

Dwyer的遭遇并非孤例。

在Reddit的r/Anthropic社區,一位用戶也分享了一個類似的案例:

Claude在對話中自己說出了「把H100也拆了」這條指令,然后聲稱是用戶下達的。


Dwyer在后續文章中也引用了這條帖子,評論區的反應很有意思,大量留言是「你不應該給AI這么大權限」。

他認為,這并不是重點,因為這類錯誤似乎出在框架上,而非模型本身。

它似乎是在系統層面把內部推理消息標記成了用戶消息,所以模型才會如此自信地堅持「不,那是你說的」。

另一份關鍵證據來自開發者nathell在Hacker News上公開的與Claude完整的對話轉錄。


nathell公開了一份完整的對話轉錄,其中Claude先說「Shall I commit this progress?」,隨后又把后續上下文推進到仿佛已經得到用戶批準的狀態,角色邊界明顯變得模糊。

更具技術說服力的證據來自Claude Code的GitHub倉庫。


https://github.com/anthropics/claude-code/issues/44778

在編號為#44778的整合性bug報告中,報告者直接拆解了問題的根本原因,給出了一條清晰的技術解釋鏈:

Claude Code中的系統事件:包括后臺任務完成通知、隊友空閑提醒、定時器觸發會以role: 「user」的消息形式送入模型。

而Anthropic的Messages API公開文檔也是按user與assistant兩類對話消息來組織會話歷史,并未展示獨立的系統事件角色。

在這種設計下,當模型正在等待用戶回復時突然收到一條系統事件,就可能把它誤判為用戶新輸入,繼而「腦補」出用戶已經同意,并據此繼續執行。

這為Dwyer在實戰中反復遇到的「甩鍋」現象提供了一種技術上自洽的解釋。

不是模型故意撒謊,而是底層架構的角色標記缺陷,讓模型從一開始就分不清那條消息究竟是誰發的

學術界也盯上了這個問題

2026年3月,Charles Ye、Jasmine Cui與MIT的Dylan Hadfield-Menell在arXiv發布了一篇預印本,標題是《Prompt Injection as Role Confusion》(提示注入即角色混淆)。


https://arxiv.org/pdf/2603.12277

他們的核心發現是:模型判斷「誰在說話」時,常常更依賴文本寫得像誰,而不是文本實際上來自哪里。

換句話說,一段不可信的文本,只要寫得像系統提示或開發者指令,模型就會在內部把它當成權威來源。

論文還提出了一種叫做「CoT Forgery」的攻擊,也就是在用戶輸入或工具輸出中偽造一段像模型思維鏈的內容。

結果在多個開源和閉源前沿模型上,攻擊成功率達到約60%。


研究發現模型還沒開始回答、甚至還沒吐出第一個字的時候,角色混淆就已經發生了。

也就是說,它不是在寫回復的過程中「寫著寫著搞混了」,而是在理解輸入的那一刻就已經把賬記錯了:誰是老板、誰是外人,在模型心里已經搞反了。

不只是Anthropic的問題

OpenAI官方同樣也發布過一篇關于改進前沿LLM指令層級的論文,明確建立了一套權威等級:System > Developer > User > Tool。


https://arxiv.org/pdf/2603.10521

文中提到,如果模型把一條不可信的指令當成了權威指令來執行,就會產生安全風險。

這至少說明,在OpenAI的研究框架里,「模型是否會錯誤地信任不該信任的指令」已經被視為一個真實存在、且需要專門訓練和評估的安全挑戰。

OpenAI的這篇論文印證了在整個行業層面,「模型分不清誰在說話」已經被視為需要系統性應對的問題。

Dwyer自己也在后續更新中也調整了判斷。

他一開始更傾向于把問題歸咎于Claude Code外層harness的實現。

但當他看到也有人聲稱在其他界面和模型中見過相似現象(包括ChatGPT用戶),他修正了自己最初的判斷:這未必只是單點工程bug,也可能牽涉更廣泛的模型級問題

1M上下文

放大了風險

這個bug之所以格外危險,跟AI智能體系統當前的發展趨勢直接相關。

Anthropic官方文檔顯示,Claude Opus 4.6和Sonnet 4.6支持1M token上下文窗口,一次會話可以裝下相當于一整本小說的信息量。

與此同時,社區里有一種觀察也認為,這類問題似乎更容易出現在接近上下文窗口上限的所謂「Dumb Zone」(降智區)。

Anthropic官方文檔也提到,隨著token數增長,模型的準確率和召回率會下降,這種現象被稱為「context rot」(上下文腐爛),因此,精心篩選上下文中的內容與可用空間的大小同樣重要。


https://platform.claude.com/docs/en/build-with-claude/context-windows

但文檔講的是長上下文下的一般性能退化,并沒有直接說Dwyer看到的「誰在說話」混淆就是context rot的直接表現。

第三方的系統性測評也支持這個判斷。

AgentPatterns.ai的分析指出,推理密集型任務的性能退化可能早在32K到100K token時就開始了,遠早于所謂的窗口上限。


https://agentpatterns.ai/context-engineering/context-window-dumb-zone/

把這幾件事放在一起:

越來越長的上下文窗口、模型在長上下文中越來越容易搞混「誰說了什么」,再加上Claude Code這類工具已經擁有執行shell命令、commit代碼、部署服務等高權限操作能力。

一個在上下文第50000個token處產生的角色歸因錯誤,可能在第80000個token時觸發一個自動部署。

等你發現的時候,代碼已經上線了。

今年3月底Claude Code源碼意外泄露后,安全研究者的分析進一步證實了這種擔憂。

VentureBeat援引Straiker安全公司的技術拆解指出,Claude Code通過一個四級壓縮流水線管理上下文壓力,而一條嵌入在克隆倉庫CLAUDE.md文件中的惡意指令,可以在壓縮過程中存活下來,通過摘要被「洗白」,最終變成模型認為的合法用戶指令。

研究者的結論令人不安:「模型并沒有被越獄。它是在合作性地執行它認為合法的指令。」

這與Dwyer描述的癥狀完全吻合:

問題不在于模型「被騙了」,而在于經過長上下文的壓縮和重組之后,系統已經丟失了「這句話到底是誰說的」這個最基本的元信息。

能力在狂奔

地基在開裂

每次這類事故曝光,評論區的反應總是兩極分化。

一邊是「AI覺醒了」:Claude給自己下指令,然后甩鍋給人類,這劇情太像科幻片了。

但現有證據不支持這個方向。

Dwyer看到的不是AI「故意甩鍋」,而更像是系統在消息歸屬上出現了結構性錯誤,現有證據并不支持把它解釋成某種「意圖」。

另一邊是「用戶活該」:你給AI部署權限,出事了怪誰?

但Dwyer則認為:權限是一個問題,歸因是另一個問題。

就算你把權限收到最緊,一個連「這句話到底是誰說的」都搞不清楚的系統,在任何場景下都是定時炸彈。

這就好比你不能靠少給鑰匙,來解決一個分不清主人和陌生人的門鎖問題。

Hacker News上網友VikingCoder還用一句冷幽默概括了整個困境:LLM這三個字母里的「S」代表安全。


daveguy接著調侃:「那解決方案顯然就是再疊一層破LLM來做安全審查嘛,這樣你就有了多個LLM——LLMS,然后你可以假裝那個S代表Secure?!?/p>


這才是這件事真正刺痛行業的地方。

另一方面,Anthropic仍在任務自動化的方向猛踩油門。

他們剛剛發布了Claude Code的auto mode,目標是在更低維護成本下實現更高的任務自主性。


https://www.anthropic.com/engineering/claude-code-auto-mode

還有網友基于Claude Code泄露源碼,歸納出12種智能體架構模式,覆蓋記憶管理、工作流編排、工具權限、自動化四大類,能力圖譜越鋪越大。


https://generativeprogrammer.com/p/12-agentic-harness-patterns-from

2026年的AI智能體,能力清單越來越長:100萬token上下文、子Agent協作、自動執行shell命令、一鍵部署。

但支撐這一切的地基卻在開裂。

無論這個bug最終被定性為工程層的實現缺陷,還是模型層的系統性問題,它都在向我們釋放這樣一個信號:

AI智能體的權限越大,「誰在說話」這個最簡單的問題就越致命。

下一次翻車,可能就不只是幾個拼寫錯誤被推上線了。

參考資料:

https://dwyer.co.za/static/claude-mixes-up-who-said-what-and-thats-not-ok.html

https://news.ycombinator.com/item?id=47701233

https://dwyer.co.za/static/the-worst-bug-ive-seen-in-claude-code.html

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
小寶與王某雷,誰探訪花的數量更多?

小寶與王某雷,誰探訪花的數量更多?

挪威森林
2026-01-31 12:15:26
隨著騎士3-2領先活塞,馬刺3-2森林狼,NBA季后賽最終4強基本出爐

隨著騎士3-2領先活塞,馬刺3-2森林狼,NBA季后賽最終4強基本出爐

球場沒跑道
2026-05-14 11:16:03
1985年,國安叛徒藏身南美,中國6名兵王萬里鋤奸,FBI顏面盡失

1985年,國安叛徒藏身南美,中國6名兵王萬里鋤奸,FBI顏面盡失

文史達觀
2026-05-13 11:29:24
廣州民辦高中門檻大降:比公辦普高線低80分可錄取

廣州民辦高中門檻大降:比公辦普高線低80分可錄取

南方都市報
2026-05-14 13:02:07
不要錯過!5月14日早上09:00比賽!中央5套CCTV5、CCTV5+直播表

不要錯過!5月14日早上09:00比賽!中央5套CCTV5、CCTV5+直播表

林子說事
2026-05-14 11:54:48
才火1個月就涼了?莫氏雞煲無人排隊,網友:遲早的事!

才火1個月就涼了?莫氏雞煲無人排隊,網友:遲早的事!

雷科技
2026-05-11 18:05:22
萬科向深鐵集團借款超330億

萬科向深鐵集團借款超330億

地產微資訊
2026-05-13 20:58:12
騎士頭號奇兵:斯特魯斯6三分創生涯新高+全場最高 轟20+8立功

騎士頭號奇兵:斯特魯斯6三分創生涯新高+全場最高 轟20+8立功

醉臥浮生
2026-05-14 11:35:35
滬媒:國少國青的成功,至少能讓國家隊在未來10年享“紅利”

滬媒:國少國青的成功,至少能讓國家隊在未來10年享“紅利”

懂球帝
2026-05-14 10:40:38
足協主席宋凱與國際足聯秘書長在京會面

足協主席宋凱與國際足聯秘書長在京會面

北青網-北京青年報
2026-05-13 17:44:09
中國應該做好俄羅斯“崩盤”的準備

中國應該做好俄羅斯“崩盤”的準備

律法刑道
2026-05-14 10:22:13
餓上一天,壽命延長超40%?Nature子刊:關鍵不是餓的時候燃燒脂肪,而是“吃回去”時關掉燃脂開關;而大腦“感覺餓”,還能調整免疫系統

餓上一天,壽命延長超40%?Nature子刊:關鍵不是餓的時候燃燒脂肪,而是“吃回去”時關掉燃脂開關;而大腦“感覺餓”,還能調整免疫系統

梅斯醫學
2026-05-13 07:52:59
特朗普:今天的會談舉世矚目,中美有美好的未來

特朗普:今天的會談舉世矚目,中美有美好的未來

澎湃新聞
2026-05-14 12:46:10
南京審計大學偷拍男生已被開除,被曝光后曾說自己真的要完了

南京審計大學偷拍男生已被開除,被曝光后曾說自己真的要完了

映射生活的身影
2026-05-13 00:04:37
唐嫣《愛情沒有神話》37集大結局,是今年看過最壓抑的都市劇結局

唐嫣《愛情沒有神話》37集大結局,是今年看過最壓抑的都市劇結局

娛君墜星河
2026-05-14 10:23:32
川普訪華,中方給予高規格待遇,中方席位牌介紹,一個細節不一般

川普訪華,中方給予高規格待遇,中方席位牌介紹,一個細節不一般

DS北風
2026-05-14 11:54:04
郭碧婷、向佐分居多年頻傳婚變 向太揭夫妻私下相處模式

郭碧婷、向佐分居多年頻傳婚變 向太揭夫妻私下相處模式

達達哥
2026-05-14 09:44:29
11年前優衣庫男女主現狀曝光,他們還在一起生了兩個孩子

11年前優衣庫男女主現狀曝光,他們還在一起生了兩個孩子

半糖甜而不膩
2026-04-06 12:09:15
59-0!鄭麗文大勝,盧秀燕困惑,韓國瑜外逃,另有傷心人

59-0!鄭麗文大勝,盧秀燕困惑,韓國瑜外逃,另有傷心人

月亮睡在霧里
2026-05-14 11:53:48
伊朗總統府:不會永久限制互聯網訪問

伊朗總統府:不會永久限制互聯網訪問

界面新聞
2026-05-14 07:00:53
2026-05-14 14:23:00
新智元 incentive-icons
新智元
AI產業主平臺領航智能+時代
15207文章數 66868關注度
往期回顧 全部

科技要聞

馬斯克:只有我和黃仁勛坐上了"空軍一號"

頭條要聞

十四世達賴的親侄子被指誘奸超25名女孩 帶女下屬開房

頭條要聞

十四世達賴的親侄子被指誘奸超25名女孩 帶女下屬開房

體育要聞

登海報!哈登30+8+6創多項紀錄 第8次贏天王山

娛樂要聞

肖戰提名金海燕獎,這一步走得太穩

財經要聞

片仔癀依舊困在“片仔癀”

汽車要聞

C級純電轎跑 吉利銀河"TT"申報圖來了

態度原創

藝術
健康
旅游
時尚
手機

藝術要聞

充滿光感的花卉油畫 | 亞歷山大·沙巴德伊

干細胞能讓人“返老還童”嗎

旅游要聞

連免4天!洛陽木札嶺景區中國旅游日免門票

T恤+低腰闊腿褲、襯衫+低腰半裙,今年夏天最時髦的搭配,誰穿誰好看!

手機要聞

2026適合白領的流暢折疊屏推薦:首選OPPO Find N6

無障礙瀏覽 進入關懷版