无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁

網易新聞
網易公開課
網易紅彩
網易嚴選
郵箱大師
網易云課堂

注冊免費郵箱

注冊VIP郵箱（特權郵箱，付費）
免費下載網易官方手機郵箱應用

移動端
網易公開課
網易嚴選
支付
郵箱

網易首頁 > 網易號 > 正文申請入駐

圖片越糊越危險？西湖大學發現多模態大模型「攻擊舒適區」

2026-06-14 19:09:16　來源: 機器之心Pro

天津舉報

0

分享至

多模態大模型越來越會讀圖中文字，但最新研究顯示，「讀得出來」并不等于「防得住」。西湖大學 AGI Lab 的研究團隊發現，當有害文本被渲染成低清、模糊或帶噪圖片后，模型在一個特定清晰度區間內反而更容易被越獄。該論文已被 ACL 2026 Findings 接收，并開源代碼與核心數據。

如果把一段長文本壓縮成圖片，再交給多模態大模型處理，會發生什么？

在長上下文成為大模型基礎能力之后，這個問題正在變得現實。DeepSeek-OCR、Glyph 等工作已經展示了一條頗具吸引力的路線：把文本渲染成高密度圖像，用更少視覺 token 承載更多上下文。換句話說，模型不再只是「看圖」，也開始用視覺通道「讀文檔」。

但安全問題也隨之而來：當文本被壓縮進圖像，尤其是圖像變得低清、模糊、帶噪聲之后，模型的安全對齊還能像處理純文本時一樣穩定嗎？

西湖大學 AGI Lab 的一項新研究給出了一個反直覺答案：在某些「剛好還能看清、但識別起來很費力」的視覺退化區間里，多模態大模型的安全防線會明顯變脆。論文已被ACL 2026 Findings接收。

論文的第一作者為西湖大學 AGI 實驗室研究助理宋志學，指導老師為西湖大學助理教授張馳。

論文標題：Hard to Read, Easy to Jailbreak: How Visual Degradation Bypasses MLLM Safety Alignment
論文鏈接：https://arxiv.org/pdf/2605.07250
代碼與數據：https://github.com/Westlake-AGI-Lab/ACZ-Jailbreak

清晰輸入通常會觸發安全拒絕；視覺退化后的同類文本更容易繞過安全檢查。

不是越模糊越危險，而是存在一個「攻擊舒適區」

直覺上，圖片越清晰，模型越容易看懂；圖片越模糊，模型越難執行其中的指令。因此，如果有害文本被做成低清圖片，最自然的猜測是：模型要么看不懂，要么看懂后拒絕。

但這項研究觀察到的曲線并不是單調變化，而是一個倒 U 型。

真正危險的不是完全看不清的圖片，而是「還能看清，但需要費勁看清」的圖片。

在論文中，研究團隊將 770 條去重后的有害查詢渲染為不同 DPI 的圖像，并在 GPT-4.1、Claude Sonnet 4.5、Doubao Seed 1.6、Qwen3-VL、GLM-4.5V、Intern-S1 等閉源與開源多模態模型上測試 OCR 準確率和攻擊成功率（ASR）。

Attack Comfort Zone 中，OCR 仍保持較高水平，但圖像攻擊成功率同步升高，形成倒 U 型風險曲線。

結果顯示，在 ACZ 中，模型往往仍然能讀懂圖片文字，但安全判斷卻明顯失靈。以 Qwen3-VL-32B-Thinking 為例，論文匯總表中其文本輸入 ASR 為 36.7%，ACZ 圖像 ASR 升至 86.2%；與此同時，OCR ACC 仍有 95.4%（字符級）和 93.2%（詞級）。

這意味著，多模態安全評估不能只問「模型能不能讀懂圖片文字」，還必須問「模型讀懂之后，是否仍能穩定觸發安全機制」。

論文整體框架：視覺退化觸發風險上升，并通過結構化認知卸載進行緩解。

為什么會這樣？模型忙著識別文字，安全審查被延遲

為了解釋這一現象，論文提出了Visual Cognitive Overload（視覺認知過載）假設。

可以把它理解為一種「一心二用」失敗：在清晰輸入中，模型可以較早捕捉到有害語義并觸發拒絕；但在退化圖片中，模型需要先投入更多計算和注意力去辨認字符、恢復詞語、拼合句子，原本應該同步發生的安全審查被擠壓或延遲。

這就像人在讀一張模糊截圖時，注意力會先被「這到底寫的是什么」占據。等內容被讀懂時，對其意圖的判斷已經慢了一拍。

為了驗證這一機制，研究團隊訓練了 layer-wise safety probe，觀察模型不同層中的安全特征。結果顯示，對于清晰圖像，有害特征在淺層就更容易被識別；而 ACZ 輸入在淺層更接近無害樣本，直到更深層才逐漸顯現危險性。

安全探針顯示，ACZ 輸入中的有害特征在淺層不明顯，到更深層才逐漸顯現。

換句話說，ACZ 輸入并不是簡單的「模型讀錯了」。更準確地說，模型把這些圖像當成有效視覺信號處理了，但安全特征出現得更晚，錯過了淺層安全機制最有效的窗口。

研究團隊還使用 t-SNE 分析排除了簡單的 OOD 解釋。ACZ 樣本并不像極低 DPI 噪聲那樣孤立在表示空間之外，而是與高保真樣本處在相近流形中。這說明它們并沒有被模型當成無效輸入丟掉，而是在一個更隱蔽的位置繞開了安全判斷。

t-SNE 分析顯示，ACZ 樣本并非簡單離群噪聲，而是被模型當作有效視覺信號處理。

不只是低分辨率：噪聲、扭曲、遮擋也會放大風險

如果 ACZ 只是低分辨率帶來的偶然現象，那它的現實風險或許有限。但論文進一步發現，多種自然視覺退化都會誘發類似問題。

研究團隊測試了模糊、幾何扭曲、干擾線、馬賽克、噪聲、遮擋等多種擾動。結果顯示，只要視覺理解變得更費力，模型的攻擊成功率就可能被抬高。

更值得注意的是，這一現象并不只存在于英文。論文在中文有害提示上也觀察到 ACZ 區間顯著高于 300 DPI 的攻擊成功率。例如 Doubao Seed 1.6 在 300 DPI 下 ASR 為 16.7%，而 ACZ 下升至 70.3%。

關鍵提醒：未來的視覺文本壓縮、OCR 增強多模態系統和圖像化長上下文應用，不能只把「可讀性」當作唯一指標。只要輸入需要模型費力辨認，安全對齊就可能出現額外壓力。

一種簡單防御：先轉寫，再審查，最后回答

針對這一機制，論文提出了一個很樸素的緩解策略：Structured Cognitive Offloading（結構化認知卸載）。

它不是再訓練一個新模型，而是把原本混在一起完成的任務拆成串行流程：

Transcription：先逐字轉寫圖片中的文本；
Safety Evaluation：再基于轉寫后的純文本進行安全判斷；
Response：最后決定是否回答。

這個思路的關鍵在于，把「視覺識別」和「內容審查」解耦。模型不再一邊費力 OCR、一邊同時判斷是否有害，而是先把視覺負擔卸載掉，再回到其更穩健的文本安全審查通道。

Structured Cognitive Offloading 將識別、審查和回答拆成串行流程后，顯著降低 ACZ 區間攻擊成功率。

實驗顯示，這一簡單策略可以顯著降低 ACZ 風險。以 Qwen3-VL 為例，攻擊成功率從約 67.4% 降至 4%。同時，在一個 300 樣本的正常 OCR 文檔理解子集上，該策略沒有引入額外誤拒，反而提升了回答質量。

當然，這不是一個沒有代價的方案。論文也指出，該串行流程會讓平均輸出長度增加約 102%，因此在實時、高吞吐場景中仍需要更系統的工程優化。

這項工作提醒了什么

回過頭看，ACZ 的意義并不只是又發現了一類視覺越獄攻擊。

它更像是在提醒整個多模態模型社區：安全對齊不是一個只發生在語義層面的靜態能力，也可能受到輸入形態、視覺質量、計算資源分配和層級特征出現時機的影響。

當文本進入視覺通道，模型面對的就不再是單純的語言輸入，而是視覺識別、語義理解和安全審查交織在一起的任務。更強的 OCR 能力，未必自動帶來更強的安全能力。

對于正在快速發展的視覺文本壓縮路線來說，這一點尤其重要。提升壓縮率、降低 token 成本當然有價值，但如果壓縮后的圖像把模型推入「攻擊舒適區」，效率收益就可能伴隨新的安全成本。

論文最后將這一問題概括為一種資源分配視角：多模態安全不只是數據對齊問題，也可能是模型在有限計算與注意力資源下如何分配「看清」和「審查」的問題。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

“都公示過了，全家等著我去上班呢” 黑龍江女子考編排名第一卻被別人遞補，維權后崗位被取消，當地：審核人員把關不嚴

看看新聞 2026-06-14 09:38:33
4499 跟貼 4499
平田整地要讓農民還貸？每畝200元連交15年！甘肅最新回應

央視新聞客戶端 2026-06-14 15:11:54
2734 跟貼 2734

美聯儲，重磅來襲！加息，傳來大消息！

證券時報 2026-06-14 16:50:07
4 跟貼 4

外媒：俄烏戰爭時長已經超過一戰戰斗極其艱苦膠著

參考消息 2026-06-14 11:25:15
658 跟貼 658
瑞典稱一天內兩次出動"鷹獅"戰機攔截俄戰機

環球網資訊 2026-06-14 08:55:09
3153 跟貼 3153

航行警告！南海海域進行實彈射擊禁止駛入

看看新聞Knews 2026-06-14 11:10:23
22 跟貼 22

上海頭部高校重磅！復旦、交大、同濟、華東師大齊宣布：本科擴招！

環球網資訊 2026-06-13 22:01:12
305 跟貼 305
布倫森獨扛45分！尼克斯時隔53年再捧NBA總冠軍獎杯

澎湃新聞 2026-06-14 11:32:33
1366 跟貼 1366

廣州一奔馳4S店人去樓空車主售后維保被發配到200公里外

新快報新聞 2026-06-14 16:31:04
63 跟貼 63
國安部披露：石某某前往深山中一處軍事基地，拍攝軍事設施照片記錄“越野成果”，被處罰

政知新媒體 2026-06-14 08:28:49
413 跟貼 413
太原南站東西廣場擺渡車正式投用

錦繡太原 2026-06-14 07:06:03
70 跟貼 70
政治算計換不來民生福祉（微言）

金臺資訊 2026-06-14 06:14:26
32 跟貼 32
游客吐槽無錫國保園林寄暢園像“吸煙室”，古建古樹間煙霧彌漫，景區回應：已全面禁煙

上游新聞 2026-06-13 18:13:12
1369 跟貼 1369
雨勢強烈！廣州天氣：盡快到安全室內暫避

極目新聞 2026-06-14 18:40:48
3 跟貼 3
只是技術故障！國際足聯：瑞士造點沒越位，圖像沒能正常顯示

澎湃新聞 2026-06-14 08:36:28
65 跟貼 65
海光信息在漢披露：國產CPU處理器性能已比肩英特爾

支點財經 2026-06-11 21:27:18
174 跟貼 174
鴻蒙開發者跨過千萬門檻后，一群“非程序員”正在涌入

第一財經資訊 2026-06-14 19:26:22
0 跟貼 0
揭秘：為什么不建議老舊家電“超期服役”?

北青網-北京青年報 2026-06-12 12:00:04
313 跟貼 313
消費者稱湯面中吃出蛆蟲和府撈面:暫未查出類似問題

南方都市報 2026-06-14 17:02:46
94 跟貼 94
買火車票有新優惠政策！

西安發布 2026-06-14 11:31:22
75 跟貼 75
雷雨過后，有醫院一晚接診40多例！專家提醒——

BRTV新聞 2026-06-14 19:51:16
0 跟貼 0
長安“天樞領航”亮相重慶車展長安啟源Q06將全系搭載

中國經營報 2026-06-14 14:47:14
46 跟貼 46
五冠王巴西隊，首戰被摩洛哥隊逼平

南方都市報 2026-06-14 09:48:11
82 跟貼 82
唐斯：感激愛德華茲一直和我交流前隊友們讓我變得更好

北青網-北京青年報 2026-06-14 20:13:25
2 跟貼 2
深夜撞了29只羊，女司機賠了32只：多出來的那3只，才是一個人走到哪都站得住的本錢！

犀利強哥 2026-06-14 20:31:16
0 跟貼 0
男子一投訴就遭上門辱罵，信息泄露成謎？街道否認

看看新聞Knews 2026-06-14 20:34:29
0 跟貼 0
致8人死亡、2人失蹤，遼綏漁35261船重大傾覆事故調查報告公布

澎湃新聞 2026-06-14 20:35:08
0 跟貼 0
男子深夜遭3次撞擊碾壓致死，路面留下3攤血跡，民警抽絲剝繭揭開真相

環球網資訊 2026-06-14 20:38:09
0 跟貼 0

貴人推一把！6-7月旺到讓人眼紅的4個生肖，順風順水悶聲發財

貴人推一把！6-7月旺到讓人眼紅的4個生肖，順風順水悶聲發財

毅談生肖

2026-06-14 12:01:26

大反轉！Anthropic CEO拒修漏洞才被封，舉報Claude新模型是自家大股東

大反轉！Anthropic CEO拒修漏洞才被封，舉報Claude新模型是自家大股東

智東西

2026-06-14 10:01:06

不止輸球，林詩棟打急眼了！鄧亞萍毫不留情：怎么全犯低級錯誤？

不止輸球，林詩棟打急眼了！鄧亞萍毫不留情：怎么全犯低級錯誤？

十點街球體育

2026-06-14 20:05:27

雙頂流被曝戀情后，男方媽媽態度已說明一切，這次真捏到軟柿子了

雙頂流被曝戀情后，男方媽媽態度已說明一切，這次真捏到軟柿子了

楓塵余往逝

2026-06-14 06:52:04

iOS 27悄悄更新了6個功能，第一條就讓我血壓下來了

iOS 27悄悄更新了6個功能，第一條就讓我血壓下來了

心事寄山海

2026-06-13 00:10:34

一輪牛市，科技見頂就是牛市結束，大家被“洗腦”了！

一輪牛市，科技見頂就是牛市結束，大家被“洗腦”了！

郭小凡財經

2026-06-14 09:13:07

體面分手！大白邊揭曉CBA總決賽謎團：一對一交易，盧偉絕口不提

體面分手！大白邊揭曉CBA總決賽謎團：一對一交易，盧偉絕口不提

林子說事

2026-06-14 14:27:11

今年7月1日深圳全城開放無人出租車運營，科技正影響普通人飯碗？

今年7月1日深圳全城開放無人出租車運營，科技正影響普通人飯碗？

侃故事的阿慶

2026-06-14 14:23:55

最新披露：美國同意伊朗稀釋濃縮鈾庫存，將解凍伊朗250億美元的資產，允許伊朗出售石油并獲取收入

最新披露：美國同意伊朗稀釋濃縮鈾庫存，將解凍伊朗250億美元的資產，允許伊朗出售石油并獲取收入

政知新媒體

2026-06-14 18:48:06

“排除中國的G7，就像沒有冠軍隊的世界杯”

“排除中國的G7，就像沒有冠軍隊的世界杯”

觀察者網

2026-06-14 16:31:23

恥辱！巴西世界杯首戰丟分頭號罪人！從世界級變廢柴！

恥辱！巴西世界杯首戰丟分頭號罪人！從世界級變廢柴！

奶蓋熊本熊

2026-06-14 08:34:31

1904年，王維勤被活剮凌遲時一張罕見留影，臉面向人群充滿絕望

1904年，王維勤被活剮凌遲時一張罕見留影，臉面向人群充滿絕望

史之銘

2026-06-14 15:03:48

我替富豪生孩子，查出生病后讓我打掉我沒聽，生產當天富豪傻眼了

我替富豪生孩子，查出生病后讓我打掉我沒聽，生產當天富豪傻眼了

星宇共鳴

2026-03-13 09:28:49

特奧多羅在撒謊！他的家族企業與中國關系密切，甚至工廠就在中國

特奧多羅在撒謊！他的家族企業與中國關系密切，甚至工廠就在中國

阿龍聊軍事

2026-06-14 12:53:56

一招隨手棋葬送大好局面，LG杯首盤局勢大反轉

一招隨手棋葬送大好局面，LG杯首盤局勢大反轉

田心生活

2026-06-14 19:13:35

林高遠王曼昱戀情真相曝光，31歲近況解釋淡出國乒原因

林高遠王曼昱戀情真相曝光，31歲近況解釋淡出國乒原因

殘夢斷憶

2026-06-13 00:56:06

中國北方生態回暖！東平湖發現了淡水蟶，華北地下水回升！

中國北方生態回暖！東平湖發現了淡水蟶，華北地下水回升！

林子說事

2026-06-14 13:45:42

女人和婚外異性有了關系，多半會變成這種樣子，不難發現

女人和婚外異性有了關系，多半會變成這種樣子，不難發現

葉飛飛情感屋

2026-06-14 17:15:49

馬刺今夏三大目標！3個首輪換頂級鋒線，換走?？怂狗稣?？

馬刺今夏三大目標！3個首輪換頂級鋒線，換走?？怂狗稣?？

劉哥談體育

2026-06-14 15:20:30

93年遼寧大批77式手槍失竊，北京限期春節破案，嫌犯身份出人意料

93年遼寧大批77式手槍失竊，北京限期春節破案，嫌犯身份出人意料

磊子講史

2026-06-06 13:11:48

機器之心Pro

專業的人工智能媒體

13256文章數 142669關注度

往期回顧全部

科技要聞

Anthropic最強模型被禁，傳亞馬遜通風報信

頭條要聞

伊朗球員受訪反問美記者：我在美國安全嗎

頭條要聞

伊朗球員受訪反問美記者：我在美國安全嗎

體育要聞

8年8隊奪冠，鄧肯那句話，現在還給了馬刺

娛樂要聞

鄧超攜子觀戰NBA，等等帥氣十足

財經要聞

金價跌至900元關口，大媽又來抄底了！

汽車要聞

綜合續航超1600km/零百加速4秒級 2027款星途ES預售18.99萬起

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

家居

教育

時尚

房產

本地

家居要聞

空間微調移形換境

自由流光回溯生活真意
雅奢之序五層別墅
220平對味兒家空間情緒宅

教育要聞

高三生必看！四川省本科高校2026年招生章程要點匯總

世界杯的“頭”等大事，來了

房產要聞

海南最賺錢行業曝光！最快4年半，?？谌钯I三房！

本地新聞

AK劉彰邂逅河北南大港濕地

© 1997-2026 網易公司版權所有 About NetEase | 公司簡介 | 聯系方法 | 招聘信息 | 客戶服務 | 隱私政策 | 不良信息舉報 Complaint Center | 廉正舉報 | 侵權投訴

無障礙瀏覽進入關懷版