无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

圖片越糊越危險?西湖大學發現多模態大模型「攻擊舒適區」

0
分享至



多模態大模型越來越會讀圖中文字,但最新研究顯示,「讀得出來」并不等于「防得住」。西湖大學 AGI Lab 的研究團隊發現,當有害文本被渲染成低清、模糊或帶噪圖片后,模型在一個特定清晰度區間內反而更容易被越獄。該論文已被 ACL 2026 Findings 接收,并開源代碼與核心數據。

如果把一段長文本壓縮成圖片,再交給多模態大模型處理,會發生什么?

在長上下文成為大模型基礎能力之后,這個問題正在變得現實。DeepSeek-OCR、Glyph 等工作已經展示了一條頗具吸引力的路線:把文本渲染成高密度圖像,用更少視覺 token 承載更多上下文。換句話說,模型不再只是「看圖」,也開始用視覺通道「讀文檔」。

但安全問題也隨之而來:當文本被壓縮進圖像,尤其是圖像變得低清、模糊、帶噪聲之后,模型的安全對齊還能像處理純文本時一樣穩定嗎?

西湖大學 AGI Lab 的一項新研究給出了一個反直覺答案:在某些「剛好還能看清、但識別起來很費力」的視覺退化區間里,多模態大模型的安全防線會明顯變脆。論文已被ACL 2026 Findings接收。

論文的第一作者為西湖大學 AGI 實驗室研究助理宋志學,指導老師為西湖大學助理教授張馳。



  • 論文標題:Hard to Read, Easy to Jailbreak: How Visual Degradation Bypasses MLLM Safety Alignment
  • 論文鏈接:https://arxiv.org/pdf/2605.07250
  • 代碼與數據:https://github.com/Westlake-AGI-Lab/ACZ-Jailbreak



清晰輸入通常會觸發安全拒絕;視覺退化后的同類文本更容易繞過安全檢查。

不是越模糊越危險,而是存在一個「攻擊舒適區」

直覺上,圖片越清晰,模型越容易看懂;圖片越模糊,模型越難執行其中的指令。因此,如果有害文本被做成低清圖片,最自然的猜測是:模型要么看不懂,要么看懂后拒絕。

但這項研究觀察到的曲線并不是單調變化,而是一個倒 U 型。



真正危險的不是完全看不清的圖片,而是「還能看清,但需要費勁看清」的圖片。

在論文中,研究團隊將 770 條去重后的有害查詢渲染為不同 DPI 的圖像,并在 GPT-4.1、Claude Sonnet 4.5、Doubao Seed 1.6、Qwen3-VL、GLM-4.5V、Intern-S1 等閉源與開源多模態模型上測試 OCR 準確率和攻擊成功率(ASR)。



Attack Comfort Zone 中,OCR 仍保持較高水平,但圖像攻擊成功率同步升高,形成倒 U 型風險曲線。

結果顯示,在 ACZ 中,模型往往仍然能讀懂圖片文字,但安全判斷卻明顯失靈。以 Qwen3-VL-32B-Thinking 為例,論文匯總表中其文本輸入 ASR 為 36.7%,ACZ 圖像 ASR 升至 86.2%;與此同時,OCR ACC 仍有 95.4%(字符級)和 93.2%(詞級)。



這意味著,多模態安全評估不能只問「模型能不能讀懂圖片文字」,還必須問「模型讀懂之后,是否仍能穩定觸發安全機制」。



論文整體框架:視覺退化觸發風險上升,并通過結構化認知卸載進行緩解。

為什么會這樣?模型忙著識別文字,安全審查被延遲

為了解釋這一現象,論文提出了Visual Cognitive Overload(視覺認知過載)假設。

可以把它理解為一種「一心二用」失敗:在清晰輸入中,模型可以較早捕捉到有害語義并觸發拒絕;但在退化圖片中,模型需要先投入更多計算和注意力去辨認字符、恢復詞語、拼合句子,原本應該同步發生的安全審查被擠壓或延遲。

這就像人在讀一張模糊截圖時,注意力會先被「這到底寫的是什么」占據。等內容被讀懂時,對其意圖的判斷已經慢了一拍。

為了驗證這一機制,研究團隊訓練了 layer-wise safety probe,觀察模型不同層中的安全特征。結果顯示,對于清晰圖像,有害特征在淺層就更容易被識別;而 ACZ 輸入在淺層更接近無害樣本,直到更深層才逐漸顯現危險性。



安全探針顯示,ACZ 輸入中的有害特征在淺層不明顯,到更深層才逐漸顯現。

換句話說,ACZ 輸入并不是簡單的「模型讀錯了」。更準確地說,模型把這些圖像當成有效視覺信號處理了,但安全特征出現得更晚,錯過了淺層安全機制最有效的窗口。

研究團隊還使用 t-SNE 分析排除了簡單的 OOD 解釋。ACZ 樣本并不像極低 DPI 噪聲那樣孤立在表示空間之外,而是與高保真樣本處在相近流形中。這說明它們并沒有被模型當成無效輸入丟掉,而是在一個更隱蔽的位置繞開了安全判斷。



t-SNE 分析顯示,ACZ 樣本并非簡單離群噪聲,而是被模型當作有效視覺信號處理。

不只是低分辨率:噪聲、扭曲、遮擋也會放大風險

如果 ACZ 只是低分辨率帶來的偶然現象,那它的現實風險或許有限。但論文進一步發現,多種自然視覺退化都會誘發類似問題。

研究團隊測試了模糊、幾何扭曲、干擾線、馬賽克、噪聲、遮擋等多種擾動。結果顯示,只要視覺理解變得更費力,模型的攻擊成功率就可能被抬高。



更值得注意的是,這一現象并不只存在于英文。論文在中文有害提示上也觀察到 ACZ 區間顯著高于 300 DPI 的攻擊成功率。例如 Doubao Seed 1.6 在 300 DPI 下 ASR 為 16.7%,而 ACZ 下升至 70.3%。

關鍵提醒:未來的視覺文本壓縮、OCR 增強多模態系統和圖像化長上下文應用,不能只把「可讀性」當作唯一指標。只要輸入需要模型費力辨認,安全對齊就可能出現額外壓力。

一種簡單防御:先轉寫,再審查,最后回答

針對這一機制,論文提出了一個很樸素的緩解策略:Structured Cognitive Offloading(結構化認知卸載)。

它不是再訓練一個新模型,而是把原本混在一起完成的任務拆成串行流程:

  1. Transcription:先逐字轉寫圖片中的文本;
  2. Safety Evaluation:再基于轉寫后的純文本進行安全判斷;
  3. Response:最后決定是否回答。

這個思路的關鍵在于,把「視覺識別」和「內容審查」解耦。模型不再一邊費力 OCR、一邊同時判斷是否有害,而是先把視覺負擔卸載掉,再回到其更穩健的文本安全審查通道。



Structured Cognitive Offloading 將識別、審查和回答拆成串行流程后,顯著降低 ACZ 區間攻擊成功率。

實驗顯示,這一簡單策略可以顯著降低 ACZ 風險。以 Qwen3-VL 為例,攻擊成功率從約 67.4% 降至 4%。同時,在一個 300 樣本的正常 OCR 文檔理解子集上,該策略沒有引入額外誤拒,反而提升了回答質量。

當然,這不是一個沒有代價的方案。論文也指出,該串行流程會讓平均輸出長度增加約 102%,因此在實時、高吞吐場景中仍需要更系統的工程優化。

這項工作提醒了什么

回過頭看,ACZ 的意義并不只是又發現了一類視覺越獄攻擊。

它更像是在提醒整個多模態模型社區:安全對齊不是一個只發生在語義層面的靜態能力,也可能受到輸入形態、視覺質量、計算資源分配和層級特征出現時機的影響。

當文本進入視覺通道,模型面對的就不再是單純的語言輸入,而是視覺識別、語義理解和安全審查交織在一起的任務。更強的 OCR 能力,未必自動帶來更強的安全能力。

對于正在快速發展的視覺文本壓縮路線來說,這一點尤其重要。提升壓縮率、降低 token 成本當然有價值,但如果壓縮后的圖像把模型推入「攻擊舒適區」,效率收益就可能伴隨新的安全成本。

論文最后將這一問題概括為一種資源分配視角:多模態安全不只是數據對齊問題,也可能是模型在有限計算與注意力資源下如何分配「看清」和「審查」的問題。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
貴人推一把!6-7月旺到讓人眼紅的4個生肖,順風順水悶聲發財

貴人推一把!6-7月旺到讓人眼紅的4個生肖,順風順水悶聲發財

毅談生肖
2026-06-14 12:01:26
大反轉!Anthropic CEO拒修漏洞才被封,舉報Claude新模型是自家大股東

大反轉!Anthropic CEO拒修漏洞才被封,舉報Claude新模型是自家大股東

智東西
2026-06-14 10:01:06
不止輸球,林詩棟打急眼了!鄧亞萍毫不留情:怎么全犯低級錯誤?

不止輸球,林詩棟打急眼了!鄧亞萍毫不留情:怎么全犯低級錯誤?

十點街球體育
2026-06-14 20:05:27
雙頂流被曝戀情后,男方媽媽態度已說明一切,這次真捏到軟柿子了

雙頂流被曝戀情后,男方媽媽態度已說明一切,這次真捏到軟柿子了

楓塵余往逝
2026-06-14 06:52:04
iOS 27悄悄更新了6個功能,第一條就讓我血壓下來了

iOS 27悄悄更新了6個功能,第一條就讓我血壓下來了

心事寄山海
2026-06-13 00:10:34
一輪牛市,科技見頂就是牛市結束,大家被“洗腦”了!

一輪牛市,科技見頂就是牛市結束,大家被“洗腦”了!

郭小凡財經
2026-06-14 09:13:07
體面分手!大白邊揭曉CBA總決賽謎團:一對一交易,盧偉絕口不提

體面分手!大白邊揭曉CBA總決賽謎團:一對一交易,盧偉絕口不提

林子說事
2026-06-14 14:27:11
今年7月1日深圳全城開放無人出租車運營,科技正影響普通人飯碗?

今年7月1日深圳全城開放無人出租車運營,科技正影響普通人飯碗?

侃故事的阿慶
2026-06-14 14:23:55
最新披露:美國同意伊朗稀釋濃縮鈾庫存,將解凍伊朗250億美元的資產,允許伊朗出售石油并獲取收入

最新披露:美國同意伊朗稀釋濃縮鈾庫存,將解凍伊朗250億美元的資產,允許伊朗出售石油并獲取收入

政知新媒體
2026-06-14 18:48:06
“排除中國的G7,就像沒有冠軍隊的世界杯”

“排除中國的G7,就像沒有冠軍隊的世界杯”

觀察者網
2026-06-14 16:31:23
恥辱!巴西世界杯首戰丟分頭號罪人!從世界級變廢柴!

恥辱!巴西世界杯首戰丟分頭號罪人!從世界級變廢柴!

奶蓋熊本熊
2026-06-14 08:34:31
1904年,王維勤被活剮凌遲時一張罕見留影,臉面向人群充滿絕望

1904年,王維勤被活剮凌遲時一張罕見留影,臉面向人群充滿絕望

史之銘
2026-06-14 15:03:48
我替富豪生孩子,查出生病后讓我打掉我沒聽,生產當天富豪傻眼了

我替富豪生孩子,查出生病后讓我打掉我沒聽,生產當天富豪傻眼了

星宇共鳴
2026-03-13 09:28:49
特奧多羅在撒謊!他的家族企業與中國關系密切,甚至工廠就在中國

特奧多羅在撒謊!他的家族企業與中國關系密切,甚至工廠就在中國

阿龍聊軍事
2026-06-14 12:53:56
一招隨手棋葬送大好局面,LG杯首盤局勢大反轉

一招隨手棋葬送大好局面,LG杯首盤局勢大反轉

田心生活
2026-06-14 19:13:35
林高遠王曼昱戀情真相曝光,31歲近況解釋淡出國乒原因

林高遠王曼昱戀情真相曝光,31歲近況解釋淡出國乒原因

殘夢斷憶
2026-06-13 00:56:06
中國北方生態回暖!東平湖發現了淡水蟶,華北地下水回升!

中國北方生態回暖!東平湖發現了淡水蟶,華北地下水回升!

林子說事
2026-06-14 13:45:42
女人和婚外異性有了關系,多半會變成這種樣子,不難發現

女人和婚外異性有了關系,多半會變成這種樣子,不難發現

葉飛飛情感屋
2026-06-14 17:15:49
馬刺今夏三大目標!3個首輪換頂級鋒線,換走??怂狗稣??

馬刺今夏三大目標!3個首輪換頂級鋒線,換走??怂狗稣??

劉哥談體育
2026-06-14 15:20:30
93年遼寧大批77式手槍失竊,北京限期春節破案,嫌犯身份出人意料

93年遼寧大批77式手槍失竊,北京限期春節破案,嫌犯身份出人意料

磊子講史
2026-06-06 13:11:48
2026-06-14 21:00:49
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
13256文章數 142669關注度
往期回顧 全部

科技要聞

Anthropic最強模型被禁,傳亞馬遜通風報信

頭條要聞

伊朗球員受訪 反問美記者:我在美國安全嗎

頭條要聞

伊朗球員受訪 反問美記者:我在美國安全嗎

體育要聞

8年8隊奪冠,鄧肯那句話,現在還給了馬刺

娛樂要聞

鄧超攜子觀戰NBA,等等帥氣十足

財經要聞

金價跌至900元關口,大媽又來抄底了!

汽車要聞

綜合續航超1600km/零百加速4秒級 2027款星途ES預售18.99萬起

態度原創

家居
教育
時尚
房產
本地

家居要聞

空間微調 移形換境

教育要聞

高三生必看!四川省本科高校2026年招生章程要點匯總

世界杯的“頭”等大事,來了

房產要聞

海南最賺錢行業曝光!最快4年半,??谌钯I三房!

本地新聞

AK劉彰邂逅河北南大港濕地

無障礙瀏覽 進入關懷版