2026年Appen的一項研究(arXiv:2605.23157)揭示了一個被忽視的安全盲區:大語言模型的安全排名在語言切換后完全失效。同一批模型,換個語言提問,"最脆弱"的模型就會換位。這項覆蓋52,272個人工評分的研究顯示,沒有任何重標定方法能恢復英語測試時的排名順序。
另一項針對印地語-英語混合語(Hinglish)的紅隊測試(arXiv:2505.14226)結果更刺眼——通過代碼混用的語音擾動攻擊,成功率接近99%。
![]()
這意味著什么?你的英語專屬紅隊測試,測量的攻擊面與非英語用戶實際面臨的攻擊面,根本就是兩個東西。
問題在于,大多數團隊的安全門禁(gate)機制建立在英語測試數據上。當攻擊者用印地語、斯瓦希里語或Hinglish發起提示注入時,系統可能毫無防備。
平均安全分數在這里是危險的幻覺——它掩蓋了你最薄弱的語言環節,而這正是攻擊者會找到的突破口。
一個最小可行的解決方案是:為每種語言單獨運行對抗測試集,分別評分,并以表現最差的那種語言作為門禁標準,而非取平均。以下是實現這一思路的框架結構(需自備對抗提示詞和評判器,本文不包含具體攻擊字符串):
核心結構包含三個硬性規則。第一,每種語言獨立成集、獨立評分。evaluate()函數從不返回單一數字,而是返回每種語言的攻擊成功率(ASR)。
第二,以最差語言為門禁依據,而非平均。gate()函數會故意打印平均值并標注"勿以此為準"——平均值恰恰隱藏了你最脆弱的語言。
第三,使用原生表達,而非翻譯。Probe.prompt字段要求用用戶實際輸入的語體編寫(對Hinglish而言,是代碼混用的口語化表達,而非印地語的正式譯文)。
代碼實現上,Probe數據類記錄語言代碼、原生措辭的對抗提示詞,以及安全代理應當拒絕的標記。run_agent()和is_attack_success()兩個函數需要接入你的實際代理客戶端和評判邏輯——可以是基于評分標準的自動評判,也可以是人工審核,關鍵是保持確定性且具備語言感知能力。
evaluate()函數按語言分組計算ASR,gate()函數則找出最高攻擊成功率的語言,與閾值(默認5%)比較。輸出會清晰標注哪門語言是"最差(決定構建門禁)",并明確區分平均值與最差值。
這個框架的價值不在于代碼本身,而在于強制團隊面對一個 uncomfortable truth:全球化產品的安全水位,由其最薄弱的語言市場決定。當你的非英語用戶量增長時,英語紅隊的"通過"標簽可能正在制造虛假的安全感。
實施建議:從覆蓋你實際用戶語種的極簡集合開始,優先測試代碼混合語(如Hinglish、Taglish)和書寫系統差異大的語言。對抗提示詞應聘請母語者編寫,而非依賴機器翻譯——語音層面的擾動和口語化陷阱往往無法通過譯文復現。
最終門禁決策應寫入CI/CD流程:只有當所有語言的ASR均低于閾值時,構建才可通過。這意味著某門小語種的意外漏洞,能夠阻止整體部署——這正是設計意圖。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.