網易首頁 > 網易號 > 正文申請入駐

你的AI安全測試可能測錯了語言：52,272個評分揭示英語排名在非英語中完全失效

2026-05-27 04:52:54　來源: 硅嶼手記

北京舉報

分享至

2026年Appen的一項研究（arXiv:2605.23157）揭示了一個被忽視的安全盲區：大語言模型的安全排名在語言切換后完全失效。同一批模型，換個語言提問，"最脆弱"的模型就會換位。這項覆蓋52,272個人工評分的研究顯示，沒有任何重標定方法能恢復英語測試時的排名順序。

另一項針對印地語-英語混合語（Hinglish）的紅隊測試（arXiv:2505.14226）結果更刺眼——通過代碼混用的語音擾動攻擊，成功率接近99%。

這意味著什么？你的英語專屬紅隊測試，測量的攻擊面與非英語用戶實際面臨的攻擊面，根本就是兩個東西。

問題在于，大多數團隊的安全門禁（gate）機制建立在英語測試數據上。當攻擊者用印地語、斯瓦希里語或Hinglish發起提示注入時，系統可能毫無防備。

平均安全分數在這里是危險的幻覺——它掩蓋了你最薄弱的語言環節，而這正是攻擊者會找到的突破口。

一個最小可行的解決方案是：為每種語言單獨運行對抗測試集，分別評分，并以表現最差的那種語言作為門禁標準，而非取平均。以下是實現這一思路的框架結構（需自備對抗提示詞和評判器，本文不包含具體攻擊字符串）：

核心結構包含三個硬性規則。第一，每種語言獨立成集、獨立評分。evaluate()函數從不返回單一數字，而是返回每種語言的攻擊成功率（ASR）。

第二，以最差語言為門禁依據，而非平均。gate()函數會故意打印平均值并標注"勿以此為準"——平均值恰恰隱藏了你最脆弱的語言。

第三，使用原生表達，而非翻譯。Probe.prompt字段要求用用戶實際輸入的語體編寫（對Hinglish而言，是代碼混用的口語化表達，而非印地語的正式譯文）。

代碼實現上，Probe數據類記錄語言代碼、原生措辭的對抗提示詞，以及安全代理應當拒絕的標記。run_agent()和is_attack_success()兩個函數需要接入你的實際代理客戶端和評判邏輯——可以是基于評分標準的自動評判，也可以是人工審核，關鍵是保持確定性且具備語言感知能力。

evaluate()函數按語言分組計算ASR，gate()函數則找出最高攻擊成功率的語言，與閾值（默認5%）比較。輸出會清晰標注哪門語言是"最差（決定構建門禁）"，并明確區分平均值與最差值。

這個框架的價值不在于代碼本身，而在于強制團隊面對一個 uncomfortable truth：全球化產品的安全水位，由其最薄弱的語言市場決定。當你的非英語用戶量增長時，英語紅隊的"通過"標簽可能正在制造虛假的安全感。

實施建議：從覆蓋你實際用戶語種的極簡集合開始，優先測試代碼混合語（如Hinglish、Taglish）和書寫系統差異大的語言。對抗提示詞應聘請母語者編寫，而非依賴機器翻譯——語音層面的擾動和口語化陷阱往往無法通過譯文復現。

最終門禁決策應寫入CI/CD流程：只有當所有語言的ASR均低于閾值時，構建才可通過。這意味著某門小語種的意外漏洞，能夠阻止整體部署——這正是設計意圖。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

有教授曾說：英語一旦退出主科地位，將和鋼琴一樣，普通人學不起

顧史 2026-05-27 00:49:04
0 跟貼 0
中印大比拼，印度全民狂飆咖喱英語，中國五千年漢字里藏著國運

風流女漢 2026-05-26 20:31:46
1 跟貼 1

日本App Store截圖：為什么直譯英文會翻車

灰度測試中 2026-05-27 03:33:30
0 跟貼 0

英文根本無法理解中文為什么要“上廁所” ！

小章的藝術人生 2026-05-23 01:25:09
18 跟貼 18
暴雨天英語學習也不能停英語學習需要隨時隨地#英語#

秋楓未語 2026-05-24 15:17:32
0 跟貼 0

第08課-怎樣向別人介紹自己的朋友

沙中的世界 2026-05-26 11:56:22
3 跟貼 3

我發財了，英文怎么說？

人間閑散客 2026-05-26 19:15:48
0 跟貼 0
什么樣的人一定要遠離？老師一番話讓大家沉思

遼寧老年報全搜索 2026-05-26 11:52:49
0 跟貼 0

和一起 Day25 堅持打卡堅持進步

人間閑散客 2026-05-26 18:20:57
0 跟貼 0
第07課-跟人碰面怎么打招呼更親切？

沙中的世界 2026-05-25 13:12:37
3 跟貼 3
第05課-口語提高方法論

沙中的世界 2026-05-23 15:08:43
3 跟貼 3
堅持我們的情懷，讓行業越來越好

赫龍賊拉干 2026-05-26 19:11:01
0 跟貼 0
宇寧海外開唱在即，外國友人學中文正當時

小久解說 2026-05-26 05:45:09
1 跟貼 1
第04課-聽力提高方法論

沙中的世界 2026-05-22 14:14:13
4 跟貼 4
梨花朗誦用戶反饋：讓朗誦做到聲臨其境

墜愛心新得 2026-05-26 15:58:51
1 跟貼 1
Wordle開局別猜"TRAIN"了，這組字母才是數據贏家

Ping值焦慮 2026-05-27 02:53:54
0 跟貼 0
蔡章兵：三分鐘學會奇速記單詞方法，簡單又高效，告別死記硬背

奇速英語時文閱讀 2026-05-27 00:55:00
0 跟貼 0
豎屏賽道競爭大不大，看似冷門實則人不少，這賽道或許不寬松

搞笑熱血青年 2026-05-27 00:00:00
0 跟貼 0
小道消息：今年四六級考試大放洪水了

銜春信 2026-05-25 18:45:27
0 跟貼 0
英語真是世上最難學的東西

快樂追劇吧 2026-05-25 17:17:58
1 跟貼 1
兒子英語就考了8分，本來爸爸已經很氣了，想不到還有意外驚喜！

子桑鷹脈 2026-05-26 06:05:33
15 跟貼 15
這是你心里想的數字嗎

碰個冷知識 2026-05-26 16:32:00
0 跟貼 0
在下對英語也是略知one two！

肚子又圓啦嗚嗚嗚 2026-05-26 14:12:03
3 跟貼 3
這家遠程公司招.NET工程師，英語C1是硬門檻

全棧遛狗員 2026-05-27 03:53:03
0 跟貼 0
華為工程師，偷偷用中文寫代碼，這事兒在硅谷炸鍋了

逗比歡樂營 2026-05-25 10:20:37
1 跟貼 1
常識確實很重要

一頭漂浮在北京的大妞 2026-05-25 05:30:23
0 跟貼 0
壓軸題，難倒很多學霸，你學會了嗎？

智慧的小老虎 2026-05-25 20:52:47
0 跟貼 0
“最嚴禁令”下，泰山石照賣不誤：有人借河道工程盜采囤石上千噸，快遞面單寫成“日用品”

新京報 2026-05-26 11:45:53
1923 跟貼 1923
要是說翻譯，我可是專業的

圖圖看劇 2026-05-23 13:47:59
1 跟貼 1
PS Plus這操作我真沒見過：一款游戲跨兩個月白送

山月不知2 2026-05-27 04:03:23
0 跟貼 0
新人程序員踩坑實錄：學校沒教的10條生存法則

硅嶼手記 2026-05-27 03:53:58
0 跟貼 0
我造了一個會進化的本地面試教練

像素與芯片 2026-05-27 01:31:53
0 跟貼 0
多數同學留空白，高手用兩個基本公式直接拿下

智慧的小老虎 2026-05-23 19:28:33
0 跟貼 0
易錯題，原以為是送分題，結果丟分的一大批

智慧的小老虎 2026-05-24 20:52:14
0 跟貼 0
比不過又想改規則，張雪機車成了其他品牌眼中釘，奈何實力不允許

今天吃幾碗 2026-05-25 11:35:32
1 跟貼 1
很多同學考慮半天不得其解，高手這方法挺巧妙

智慧的小老虎 2026-05-23 20:38:46
0 跟貼 0
小學數學思維升級必備，家長收藏，孩子受益！

胡如意 2026-05-26 00:02:57
3 跟貼 3
“數學如何開竅記住這4句話”，男子：簡單的題慢慢做，復雜的題畫圖做，不會的題反復做，做錯的題下次邊講邊做

河南都市頻道 2026-05-22 14:19:47
0 跟貼 0
三年級數學，方框里填幾？難倒全班同學

郎老師趣味數學課堂 2026-05-23 22:20:46
0 跟貼 0
比補課更高效，比旅游更有料

奇速英語時文閱讀 2026-05-26 15:26:32
1 跟貼 1

手機 / 數碼

房產 / 家居

你的AI安全測試可能測錯了語言：52,272個評分揭示英語排名在非英語中完全失效

河南老牌公辦二本師范——商丘師范學院！外省低至 409 分可報考#搜索千校視頻計劃##高考填報指南#...

以色列：初步評估顯示哈馬斯新任軍事領導人被打死

以色列：初步評估顯示哈馬斯新任軍事領導人被打死

上賽季差點降入英甲，下賽季要踢英超了

臺媒貼臉！S媽被問大S嗑藥當場沉默

中國鋁行業爆單 下一個“煤炭”大周期？

中國AI要向外卷，而不只是做第二個OpenAI

涉水加強 福特烈馬亞馬遜限量版上市 售價39.98萬

態度原創

小學LED屏火了！兩千多學生放學只需十幾分鐘，網友喊話全國推廣

用云錦的方式，打開江蘇南京

兒子和媽媽的關系好，往往將來更有出息。

美伊在阿巴斯港附近短暫交火 交戰過程披露

中國鋁行業爆單下一個“煤炭”大周期？

涉水加強福特烈馬亞馬遜限量版上市售價39.98萬

美伊在阿巴斯港附近短暫交火交戰過程披露