![]()
這是一張使用 JaiLIP 修改過的圖像。JaiLIP 由佛羅里達(dá)國際大學(xué)的研究人員開發(fā),這種圖像處理方法已被證明能夠繞過某些人工智能模型內(nèi)置的安全防護(hù)措施。圖片來源:Taimy Alvarez / 佛羅里達(dá)國際大學(xué)
來源:https://techxplore.com/news/2026-06-microscopic-image-bypass-ai-guardrails.html
在你看來,它可能像是一張熊貓的圖片,但對你公司的 AI 代理來說,它就像一把萬能鑰匙,可以繞過安全措施,并可能導(dǎo)致模型生成有害的、誤導(dǎo)性的或違反政策的輸出。
佛羅里達(dá)國際大學(xué)奈特基金會計(jì)算機(jī)與信息科學(xué)學(xué)院副教授哈迪·阿米尼(Hadi Amini)的最新研究聚焦于這一風(fēng)險(xiǎn)。他與研究生助理穆罕默德·朱埃爾·米亞(Md Jueal Mia)合作,研究篡改后的圖像如何“突破”某些人工智能系統(tǒng)的防線,使其超出內(nèi)置的安全防護(hù)范圍。
阿米尼說:“人工智能模型看待圖像的方式與人類不同。它們看到的是數(shù)字和像素的模式。通過精心操縱這些像素,我們可以影響人工智能對圖像的解讀和反應(yīng)。”
該團(tuán)隊(duì)的研究表明,小語言人工智能模型(小型企業(yè)經(jīng)常使用這類模型來執(zhí)行諸如會計(jì)或客戶服務(wù)等日常任務(wù))特別容易受到基于圖像的攻擊。正如發(fā)表在IEEE Xplore上的研究所示,該團(tuán)隊(duì)發(fā)現(xiàn),通過在圖像中引入稱為“擾動”的微小像素級變化,他們可以誘使這些人工智能系統(tǒng)生成通常會被阻止的響應(yīng)。
阿米尼說:“篡改后的圖像就像一張陌生人的臉。人工智能必須學(xué)會謹(jǐn)慎對待請求才能做出回應(yīng)。為了保護(hù)人工智能系統(tǒng)免受攻擊,我們會嘗試自行破解它們,識別潛在漏洞并設(shè)計(jì)防御機(jī)制。”
研究人員隨后著手探究系統(tǒng)的防御機(jī)制。他們越成功地突破模型的防御屏障,就越能訓(xùn)練系統(tǒng)抵御未來的威脅。為此,阿米尼和他的團(tuán)隊(duì)開發(fā)了一種名為 JaiLIP(基于損失引導(dǎo)的圖像擾動越獄)的方法,該方法使用一種算法來確定像素級操作的最佳程度。
研究人員和開發(fā)人員使用BLIP-2多模態(tài)人工智能模型進(jìn)行測試時(shí),Amini及其團(tuán)隊(duì)發(fā)現(xiàn),經(jīng)JaiLIP修改的圖像顯著增加了系統(tǒng)生成有害或不安全響應(yīng)的可能性。例如,一個(gè)經(jīng)過JaiLIP修改的紅綠燈圖像欺騙了人工智能模型,使其泄露了如何闖紅燈以避免交通罰單的詳細(xì)說明。總體而言,使用JaiLIP圖像使人工智能模型生成的有害響應(yīng)數(shù)量幾乎翻了一番。
風(fēng)險(xiǎn)不僅限于用戶向人工智能系統(tǒng)發(fā)出非法活動指令。隨著企業(yè)越來越多地采用人工智能客服代理、聊天機(jī)器人和自動化工作流程,開源或防護(hù)薄弱的系統(tǒng)中的漏洞可能會對用戶信任度產(chǎn)生負(fù)面影響,或?yàn)榫W(wǎng)絡(luò)攻擊開辟新的途徑。
阿米尼表示:“小型企業(yè)和公司可以利用人工智能來提高效率,但他們必須意識到潛在的漏洞。他們必須確保部署足夠的防護(hù)措施,以維護(hù)人工智能工具的安全性和完整性。”
阿米尼表示,在將人工智能融入企業(yè)或工作場所之前,每個(gè)人都應(yīng)該采取一些基本的預(yù)防措施,包括限制向人工智能系統(tǒng)提供的敏感信息(尤其是圖像),限制誰可以訪問這些系統(tǒng),以及在部署之前仔細(xì)評估人工智能工具中內(nèi)置的安全措施。
由于安全至關(guān)重要,阿米尼和他的團(tuán)隊(duì)正努力在人工智能領(lǐng)域領(lǐng)先于潛在的惡意行為者一步。他和他的團(tuán)隊(duì)發(fā)現(xiàn)的漏洞越多,人工智能就能越快地學(xué)會修復(fù)它們。他表示,真正的挑戰(zhàn)在于確保人工智能能夠識別出隱藏在顯而易見之處的威脅——即使人類無法識別。
閱讀最新前沿科技趨勢報(bào)告,請?jiān)L問21世紀(jì)關(guān)鍵技術(shù)研究院的“未來知識庫”
![]()
未來知識庫是 “21世紀(jì)關(guān)鍵技術(shù)研究院”建 立的在線知識庫平臺,收藏的資料范圍包括人工智能、腦科學(xué)、互聯(lián)網(wǎng)、超級智能,數(shù)智大腦、能源、軍事、經(jīng)濟(jì)、人類風(fēng)險(xiǎn)等等領(lǐng)域的前沿進(jìn)展與未來趨勢。目前擁有超過8000篇重要資料。每周更新不少于100篇世界范圍最新研究資料。 歡迎掃描二維碼或訪問https://wx.zsxq.com/group/454854145828進(jìn)入。
截止到2月28日 ”未來知識庫”精選的百部前沿科技趨勢報(bào)告
(加入未來知識庫,全部資料免費(fèi)閱讀和下載)
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.