微小的圖像變化可以繞過人工智能的防護(hù)機(jī)制，使不安全反應(yīng)的發(fā)生率幾乎翻倍

2026-06-24 19:10:48　來源: 人工智能學(xué)家

北京舉報(bào)

分享至

這是一張使用 JaiLIP 修改過的圖像。JaiLIP 由佛羅里達(dá)國際大學(xué)的研究人員開發(fā)，這種圖像處理方法已被證明能夠繞過某些人工智能模型內(nèi)置的安全防護(hù)措施。圖片來源：Taimy Alvarez / 佛羅里達(dá)國際大學(xué)

來源：https://techxplore.com/news/2026-06-microscopic-image-bypass-ai-guardrails.html

在你看來，它可能像是一張熊貓的圖片，但對你公司的 AI 代理來說，它就像一把萬能鑰匙，可以繞過安全措施，并可能導(dǎo)致模型生成有害的、誤導(dǎo)性的或違反政策的輸出。

佛羅里達(dá)國際大學(xué)奈特基金會計(jì)算機(jī)與信息科學(xué)學(xué)院副教授哈迪·阿米尼(Hadi Amini)的最新研究聚焦于這一風(fēng)險(xiǎn)。他與研究生助理穆罕默德·朱埃爾·米亞(Md Jueal Mia)合作，研究篡改后的圖像如何“突破”某些人工智能系統(tǒng)的防線，使其超出內(nèi)置的安全防護(hù)范圍。

阿米尼說：“人工智能模型看待圖像的方式與人類不同。它們看到的是數(shù)字和像素的模式。通過精心操縱這些像素，我們可以影響人工智能對圖像的解讀和反應(yīng)。”

該團(tuán)隊(duì)的研究表明，小語言人工智能模型（小型企業(yè)經(jīng)常使用這類模型來執(zhí)行諸如會計(jì)或客戶服務(wù)等日常任務(wù)）特別容易受到基于圖像的攻擊。正如發(fā)表在IEEE Xplore上的研究所示，該團(tuán)隊(duì)發(fā)現(xiàn)，通過在圖像中引入稱為“擾動”的微小像素級變化，他們可以誘使這些人工智能系統(tǒng)生成通常會被阻止的響應(yīng)。

阿米尼說：“篡改后的圖像就像一張陌生人的臉。人工智能必須學(xué)會謹(jǐn)慎對待請求才能做出回應(yīng)。為了保護(hù)人工智能系統(tǒng)免受攻擊，我們會嘗試自行破解它們，識別潛在漏洞并設(shè)計(jì)防御機(jī)制。”

研究人員隨后著手探究系統(tǒng)的防御機(jī)制。他們越成功地突破模型的防御屏障，就越能訓(xùn)練系統(tǒng)抵御未來的威脅。為此，阿米尼和他的團(tuán)隊(duì)開發(fā)了一種名為 JaiLIP（基于損失引導(dǎo)的圖像擾動越獄）的方法，該方法使用一種算法來確定像素級操作的最佳程度。

研究人員和開發(fā)人員使用BLIP-2多模態(tài)人工智能模型進(jìn)行測試時(shí)，Amini及其團(tuán)隊(duì)發(fā)現(xiàn)，經(jīng)JaiLIP修改的圖像顯著增加了系統(tǒng)生成有害或不安全響應(yīng)的可能性。例如，一個(gè)經(jīng)過JaiLIP修改的紅綠燈圖像欺騙了人工智能模型，使其泄露了如何闖紅燈以避免交通罰單的詳細(xì)說明。總體而言，使用JaiLIP圖像使人工智能模型生成的有害響應(yīng)數(shù)量幾乎翻了一番。

風(fēng)險(xiǎn)不僅限于用戶向人工智能系統(tǒng)發(fā)出非法活動指令。隨著企業(yè)越來越多地采用人工智能客服代理、聊天機(jī)器人和自動化工作流程，開源或防護(hù)薄弱的系統(tǒng)中的漏洞可能會對用戶信任度產(chǎn)生負(fù)面影響，或?yàn)榫W(wǎng)絡(luò)攻擊開辟新的途徑。

阿米尼表示：“小型企業(yè)和公司可以利用人工智能來提高效率，但他們必須意識到潛在的漏洞。他們必須確保部署足夠的防護(hù)措施，以維護(hù)人工智能工具的安全性和完整性。”

阿米尼表示，在將人工智能融入企業(yè)或工作場所之前，每個(gè)人都應(yīng)該采取一些基本的預(yù)防措施，包括限制向人工智能系統(tǒng)提供的敏感信息（尤其是圖像），限制誰可以訪問這些系統(tǒng)，以及在部署之前仔細(xì)評估人工智能工具中內(nèi)置的安全措施。

由于安全至關(guān)重要，阿米尼和他的團(tuán)隊(duì)正努力在人工智能領(lǐng)域領(lǐng)先于潛在的惡意行為者一步。他和他的團(tuán)隊(duì)發(fā)現(xiàn)的漏洞越多，人工智能就能越快地學(xué)會修復(fù)它們。他表示，真正的挑戰(zhàn)在于確保人工智能能夠識別出隱藏在顯而易見之處的威脅——即使人類無法識別。

閱讀最新前沿科技趨勢報(bào)告，請?jiān)L問21世紀(jì)關(guān)鍵技術(shù)研究院的“未來知識庫”

未來知識庫是 “21世紀(jì)關(guān)鍵技術(shù)研究院”建立的在線知識庫平臺，收藏的資料范圍包括人工智能、腦科學(xué)、互聯(lián)網(wǎng)、超級智能，數(shù)智大腦、能源、軍事、經(jīng)濟(jì)、人類風(fēng)險(xiǎn)等等領(lǐng)域的前沿進(jìn)展與未來趨勢。目前擁有超過8000篇重要資料。每周更新不少于100篇世界范圍最新研究資料。歡迎掃描二維碼或訪問https://wx.zsxq.com/group/454854145828進(jìn)入。

截止到2月28日 ”未來知識庫”精選的百部前沿科技趨勢報(bào)告

（加入未來知識庫，全部資料免費(fèi)閱讀和下載）

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.