網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

在中國文言文面前，全球頂級模型全線潰敗

2026-03-11 07:32:20　來源: 硅基星芒AI

北京舉報

分享至

OpenClaw大火之際，工信部的安全預(yù)警接踵而至，讓這場跟風(fēng)的潮流稍微冷靜了一些。

在AI智能體接管電腦的時代，安全是每個人都無法忽視的問題。

而智能體是否安全，很大程度上取決于充當“大腦”的大語言模型是否安全。

若是安全限制不夠，模型很容易輸出有害的信息，國外因為AI而引起訴訟已經(jīng)不再稀奇。

若是安全限制過度，模型的能力又會大打折扣，想要AI輸出有創(chuàng)意的想法就成了癡人說夢。

而在這個問題上，國產(chǎn)的DeepSeek和馬斯克的Grok可以說是兩個極端。

Grok主打一個來者不拒，對于大部分內(nèi)容都沒有做出任何限制，這使它成為了娛樂領(lǐng)域的一把好手，在X平臺上可以隨意調(diào)用更是讓它無處不在。

DeepSeek則正好與之相反，只要用戶的提問中包含任何疑似敏感的詞匯，它都會直接拒絕回答，確保不會生成任何有害信息，安全第一。但這樣做的代價，是讓模型的功能受到了極大的限制。

為了繞開限制，很多AI愛好者也提出了不同的辦法，比如更換為英文、調(diào)整語序、修改表達方式等，但隨著對齊機制的升級，這些方法也逐漸被成功防御。

但是，中國傳統(tǒng)文化博大精深。

近期，在一篇被人工智能頂級會議ICLR 2026接收的重磅論文中，提出了一個令人意想不到的結(jié)論：

文言文可以輕松繞過當前最先進大模型的安全防御機制，實現(xiàn)接近100%的“越獄”成功率！

用魔法打敗魔法，中國流傳下來的古老智慧對現(xiàn)代AI安全機制實現(xiàn)了降維打擊。

大模型的“文化盲區(qū)”

拋開Grok不談，隨著大語言模型普及并成為智能體的底層基礎(chǔ)設(shè)施，國內(nèi)外的AI企業(yè)普遍提升了對AI安全的重視程度。

國內(nèi)模型自然不必多說，國外的Anthropic和Google也經(jīng)常會發(fā)布安全相關(guān)的文章和規(guī)則，時刻更新AI的對齊機制以防止其生成有害、暴力的內(nèi)容。

就像前面說的，黑客們最常用的手段就是用復(fù)雜的英文提示詞去套路AI，但面對頂級的模型，這個辦法如今已經(jīng)接近失效。

跨語言的安全研究表明，非英語環(huán)境往往是AI的軟肋，因為大部分模型在訓(xùn)練時都使用了大量的英文語料。

然而，如果語料太少，像是某些已經(jīng)沒有多少人在使用的小語種，大模型其實根本聽不懂，更別提繞開安全限制了。

但這個時候，文言文這個流傳了上千年的語言，成為了完美的漏洞。

作為中國古代長期使用的正式書面語言，文言文擁有大量的歷史文獻可用作大模型的訓(xùn)練語料。

在大語言模型普及的過程中，我們在各大社交平臺上應(yīng)該都刷到過AI生成的文言文，這就證明大模型已經(jīng)具備對文言文的理解能力。

至于為什么文言文能夠作為完美漏洞，讓針對現(xiàn)代語言設(shè)計的安全機制幾乎完全失效，主要是因為以下三大特性：

一是語義高度凝練：文言文雖然篇幅短，但往往包含龐大的信息量；

二是多義與歧義：同一句話甚至同一個詞都可以有多種解讀方式，非黑即白的規(guī)則很難判定一句話是否違規(guī)；

三是隱喻與修辭：借代、典故、象征都是寫文言文再常見不過的方式，古代的詞語也可以包含現(xiàn)代的含義。

如此一來，大模型就變成了高考語文考場上對文言文束手無策的學(xué)生。它或許能理解用戶危險的意圖，但內(nèi)置的“安全警報器”卻看不懂文言文中的暗藏玄機。

CC-BOS框架制造完美“越獄”

為了測試這個漏洞，研究團隊提出了名為CC-BOS（基于文言文語境的仿生搜索越獄）的框架，同時涵蓋了語文和生物兩方面知識。

面對構(gòu)建在復(fù)雜神經(jīng)網(wǎng)絡(luò)之上的大模型，枚舉法顯得過于盲目。

研究團隊首先把大模型現(xiàn)有的弱點拆分成八個維度，并針對不同的維度設(shè)計策略組合來考驗大模型是否能堅守安全底線。

這個研究思路的本質(zhì)其實就是提示詞工程，比如其中的一些維度：

角色認同（Role Identity）：給大模型指定一個古代身份；

行為引導(dǎo)（Behavioral Guidance）：引導(dǎo)大模型用類似獻計的方式輸出回復(fù)；

隱喻映射（Metaphor Mapping）：將現(xiàn)代的敏感概念替換為古代詞匯；

表達風(fēng)格（Expression Style）：要求大模型用辭、賦等特定的文體和句式作答；

除此之外，還有觸發(fā)模式、機制、知識關(guān)聯(lián)和情景設(shè)置維度。

簡單來說，就是用各種限制讓大模型穿越到古代，再以古人的身份和它交流，以此混淆現(xiàn)代安全檢測器的視聽。

當8個維度結(jié)合在一起，就產(chǎn)生了上萬種策略組合，新的問題又出現(xiàn)了：如何尋找那些最有效的繞開安全防御機制的策略？

研究人員此時又利用了生物學(xué)的一種高效尋覓機制：仿生果蠅算法（Fruit Fly Optimization）。

一群賽博果蠅，要在幾萬種提示詞生成策略中“大海撈針”，就必須有高效的分工合作機制。

第一步是嗅覺上的搜索，也就是讓果蠅依靠嗅覺判斷水果的哪個部分更香，本質(zhì)上則是局部微調(diào)。

原理很簡單，系統(tǒng)先隨機生成幾個提示詞丟給大模型進行測試，一旦其中的一條能讓安全機制稍顯懈怠，算法就可以在這條提示詞的基礎(chǔ)上開始微調(diào)。

微調(diào)的方式，或是改變其中的部分詞匯，或是調(diào)整提示詞語序，但整體變動幅度必須被控制在一個較小的區(qū)間內(nèi)。這個過程將重復(fù)多次，系統(tǒng)將會持續(xù)觀察效果是否有所提升。

第二步是視覺上的搜索，一只果蠅發(fā)現(xiàn)了美食后會迅速引導(dǎo)同伴前來享用。

系統(tǒng)一旦發(fā)現(xiàn)一個相對有效的提示詞組合，算法就會立刻做出調(diào)整，所有新生成的提示詞都會向這個“高分答案”靠攏，在此基礎(chǔ)上繼續(xù)優(yōu)化提示詞，直至攻破大模型的安全防御機制。

最后，如果經(jīng)過數(shù)次優(yōu)化的提示詞還是繞不開安全防御機制該怎么辦？研究團隊還考慮到了柯西突變，簡單來說就是掀桌子重來。

這種情況實際上相當常見，即使黑客們現(xiàn)有的攻擊手段失效，但大模型的安全防御機制存在漏洞的事實大家心知肚明。

因此，算法在遇到這種情況時，會果斷拋棄當前的思路，重新嘗試一種與原先截然不同的策略，這種超大跨度的轉(zhuǎn)變反而往往能命中大模型意想不到的安全盲區(qū)。

CC-BOS這種“基于語文知識的生物學(xué)方法”堪稱藝術(shù)，因為它極大程度模仿了生物行動的邏輯，卻又完全不需要人工干預(yù)。

微調(diào)試探、集群攻擊，實在不行就及時換賽道，這些賽博果蠅能夠在上萬種文言文提示詞中持續(xù)進行迭代和優(yōu)化，而在海量的嘗試中，總會有一次精準命中大模型的軟肋，最終徹底摧毀其安全防線。

頂級模型的全線潰敗

看似有些荒唐的想法，卻帶來了讓人大跌眼鏡的結(jié)果。

研究團隊選用了去年撰寫論文時最先進的六款大模型：GPT-4o、Claude-3.7-Sonnet、Gemini-2.5-Flash、Grok-3、DeepSeek-Reasoner和Qwen3。

而這些曾經(jīng)的頂級模型，在最具權(quán)威性的有害行為基準測試AdvBench中的表現(xiàn)令人十分擔憂：

首先是攻擊成功率達到了100%。

無論是反復(fù)強調(diào)安全策略的OpenAI，還是經(jīng)常進行安全研究的Anthropic，在CC-BOS的文言文攻擊下，六款大模型的防線全部被洞穿。

即便是中文能力更強、理應(yīng)更能理解文言文的兩款國產(chǎn)模型，也未能幸免。

更可怕的是接近于“一擊必殺”的攻擊效率。

過去的自動化越獄攻擊算法更多依靠頻繁的嘗試實現(xiàn)突圍，往往要對模型進行50-90次以上的反復(fù)試探才能成功。

但CC-BOS的平均查詢次數(shù)是恐怖的1.12-2.38次。換句話說，不超過3次就能成功的攻擊手段，意味著算力成本接近于零，同時具備極強的隱蔽性，在大量正常對話中很難被識別出來。

研究人員最后還測試了提示詞的可遷移性。

用GPT-4o作為陪練生成的“文言文攻擊”提示詞，放到那些沒參加這次攻防演練的大模型身上同樣適用，成功率仍然保持在80%-96%的超高水平。

因此，文言文越獄絕不是部分模型存在的特定Bug，而是大語言模型的通用底層漏洞。

結(jié)語：智能體時代的“生死大考”

兩千年來竹簡中流傳下來的智慧，輕松黑掉了迄今為止人類最先進的硅基大腦。

結(jié)合當下AI時代的現(xiàn)實來看，它敲響的是一聲刺耳的行業(yè)警鐘。

論文雖然寫的是大語言模型，但別忘了，AI已經(jīng)不再是那個只能聊天的網(wǎng)頁對話框。

說到這里，就又不得不提到OpenClaw。

對于這個產(chǎn)品的看法，先前的文章中已經(jīng)寫過，這里不再多談，我們只看事實。

各大互聯(lián)網(wǎng)巨頭瘋狂下場布局，國內(nèi)部分省市甚至出臺專項政策扶持技術(shù)落地。

可以推斷，在不久的未來，無論是主動擁抱還是被動升級，智能體深度接管電腦、手機和各類終端設(shè)備，必然是不可逆轉(zhuǎn)的常態(tài)。

只要當下智能體的設(shè)計范式不發(fā)生根本性轉(zhuǎn)變，大語言模型在智能體中的核心地位就穩(wěn)如泰山。

過去，行業(yè)內(nèi)總在擔憂智能體的安全問題，曾經(jīng)爆出來的智能體誤刪Gmail郵件事件也總是被當成意外，一笑而過。

但這次的文言文越獄，直接觸及了底層的安全機制，令人細思極恐：一個大模型可以被文言文輕松騙過，卻擁有用戶電腦的操作系統(tǒng)級權(quán)限。

有心之人根本不需要編寫復(fù)雜的木馬病毒，只需要通過網(wǎng)頁、郵件甚至PDF在屏幕上顯示一段精心構(gòu)造的文言文指令，原本負責保護用戶隱私的安全機制就會瞬間土崩瓦解。

原本用來自動工作的智能體，談笑之間就會不自覺地把電腦上各種私密文件打包發(fā)送出去。防線一旦在語言理解層面崩潰，物理世界的資產(chǎn)就如同探囊取物。

更令人不寒而栗的事實在于，文言文絕非大語言模型唯一的底層漏洞。

復(fù)雜的神經(jīng)網(wǎng)絡(luò)把AI變成了難以窺探的黑盒，文言文只是恰好被研究人員探明的一個角落，其他地方大概率還隱藏著無數(shù)個尚未被發(fā)現(xiàn)的安全盲區(qū)。

文言文越獄成功，證明了現(xiàn)有的安全對齊機制還處于淺層過濾階段。

在我們將數(shù)字生活的最高權(quán)限徹底交給智能體之前，如何設(shè)計更有效的安全機制，已經(jīng)成為整個AI行業(yè)必須共同面對的生死大考。

然而，如今養(yǎng)蝦的浪潮，總讓我覺得下面這段話早晚會成為現(xiàn)實。

注：計算機領(lǐng)域最臭名昭著的

Linux/Unix

刪庫跑路命令

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦

熱點推薦

一個框架，重塑具身研發(fā)流程：Dexbotic走向具身PyTorch

機器之心Pro 2026-05-12 09:27:08
0 跟貼 0
ICML 2026 | 大模型內(nèi)部也會長出「情緒樹」，規(guī)模越大越懂人心

機器之心Pro 2026-05-12 12:53:18
0 跟貼 0

智元APC香港觀察：具身智能的終極角色是先進生產(chǎn)力單元

華爾街見聞官方 2026-05-12 21:49:18
0 跟貼 0

海外研選 | 大摩：2030年服務(wù)器CPU市場規(guī)模或達2830億美元

財聯(lián)社 2026-05-12 20:07:11
0 跟貼 0
OpenAI又吃官司！佛州槍擊案兇手問哪種武器和彈藥最適合，何時何地能造成最大傷亡，ChatGPT均給出回答

每日經(jīng)濟新聞 2026-05-12 21:13:07
13 跟貼 13

00后小哥復(fù)刻Claude最強神話模型OpenMythos

量子位 2026-04-23 11:44:18
0 跟貼 0

智元殺進香港！2026成為部署態(tài)元年，機器人不再只會跳舞了

雷科技 2026-05-12 21:59:45
0 跟貼 0
AI組織坍縮效應(yīng)：中層管理者正在失去的，不是職位，是“信息稅”

虎嗅APP 2026-05-12 23:50:21
0 跟貼 0

一位上海媽媽的高二陪讀手記：當語文成了孩子最難啃的“硬骨頭”

小美教育筆 2026-05-11 18:50:27
0 跟貼 0
清華學(xué)霸分享語文“急救”式快速提分秘訣

民生大參考 2026-05-11 05:49:16
0 跟貼 0
數(shù)學(xué)能解決真問題，語文不只是語文，虹口這所小學(xué)讓學(xué)科“串門”

上觀新聞 2026-05-12 23:08:05
0 跟貼 0
青附迎暖陽，初小銜接助啟航——2026年春季學(xué)期青大附中成功舉行初小銜接活動

青島大學(xué)附屬中學(xué) 2026-05-12 20:27:05
0 跟貼 0
生存游戲大挑戰(zhàn)，沒有算法全憑運氣

腿毛影視劇 2026-05-09 16:11:36
10 跟貼 10
語法第6課-把句子套進另一個句子里，變身“大名詞”

沙中的世界 2026-05-09 11:27:34
6 跟貼 6
青羊區(qū)在成都市貫通培養(yǎng)活動中分享語文學(xué)法探索經(jīng)驗

中國網(wǎng) 2026-05-11 17:37:11
0 跟貼 0
小學(xué)生用粵語朗讀語文課本，網(wǎng)友：這篇文章讀出了精武英雄的氣勢

重慶觀天下 2026-05-11 16:51:05
0 跟貼 0
男子理發(fā)付款，魔鬼算法把老板娘繞進去，最后竟然還賺錢了

豆莢看生活 2026-05-12 10:20:09
0 跟貼 0
女孩分享初中生毀掉前途的五個壞習(xí)慣

民生大參考 2026-05-11 05:49:25
0 跟貼 0
車內(nèi)自衛(wèi)術(shù)，男子教女子遇襲后的應(yīng)對策略，你往后躺啊

班子愛生活 2026-05-11 11:13:52
3 跟貼 3
姚來英已任中國煙草總公司總經(jīng)理

界面新聞 2026-05-12 11:12:28
8017 跟貼 8017
ChatGPT的中文回復(fù)，怎么全是"穩(wěn)穩(wěn)接住你"

碼上閑敘 2026-05-10 23:46:54
0 跟貼 0
主場拿下了，騎士確認4件事，哈登策略有效果，賽眼也找到了

體壇大辣椒 2026-05-12 15:51:07
1 跟貼 1
龍蝦上車只是個噱頭嗎

白鯨實驗室one 2026-05-12 17:26:47
0 跟貼 0
SM公司策略揭秘：后輩必修前輩作品，肥水不流外人田

今夜繁星墜落 2026-05-11 03:33:12
1 跟貼 1
嘴炮王者譚sir竟被邏輯女帝反殺成渣：愿大姐被歲月溫柔以待

解壓小劇場 2026-05-09 08:17:50
398 跟貼 398
PackingStar雙智能體博弈，攻克14維難題

量子位 2026-02-16 13:12:43
0 跟貼 0
智能體從「單兵作戰(zhàn)」到「精銳團隊」 -2

機器之心Pro 2026-04-28 16:56:00
0 跟貼 0
熬夜3天寫完的文章，閱讀量只有2：比寫不出更崩潰的是這個

心事寄山海 2026-05-12 11:15:15
0 跟貼 0
獨立游戲人正在小紅書"起號"，但沒人知道算法在想什么

宇宙來信發(fā) 2026-05-12 16:34:00
0 跟貼 0
5月13日開幕！MDDC 2026提前劇透：全域智能體、50+大廠齊聚

雷科技 2026-05-11 20:29:14
0 跟貼 0
爆火！把智能體當游戲角色來玩，一個人就是一個公司

機器之心Pro 2026-02-12 18:04:44
0 跟貼 0
算法“破籠”：打工人終于能從“永動機”上下來了

迷世書童 2026-05-11 09:27:50
0 跟貼 0
AReaL v1.0開源，智能體強化學(xué)習(xí)「一鍵接入」

機器之心Pro 2026-03-05 14:46:18
0 跟貼 0
【AI大模型安全與評測】從DeepSeek-V4拆解真實評估邏輯，90%的人都搞錯了！企業(yè)級大模型評

盧菁老師 2026-05-09 09:07:47
0 跟貼 0
九寨溝將實行“雙向檢票”？工作人員：出園檢票并非新政策，一直嚴禁溝內(nèi)住宿

上游新聞 2026-05-11 15:40:24
3112 跟貼 3112
多名車主感嘆"停車位縮水"：停車像在參加"極限挑戰(zhàn)"

都市快報橙柿互動 2026-05-12 15:26:35
1882 跟貼 1882
圍棋225課：山花笑顏，黑子先行策略解析

四號花店p 2026-05-12 12:16:32
0 跟貼 0
廣西人講的，到底是不是粵語？

羊城網(wǎng) 2026-05-12 18:23:33
3 跟貼 3
周琦真想贏！第二節(jié)告訴教練組怎么換人，隨后上雙小外改變局勢！

籃球資訊達人 2026-05-13 01:53:00
0 跟貼 0
溫州一企業(yè)在蕪湖拿地二十年陷困局：區(qū)劃調(diào)整后，原招商承諾難兌現(xiàn)

澎湃新聞 2026-05-12 17:36:28
37 跟貼 37

硅基星芒AI

錦緞旗下人工智能研究與媒體服務(wù)平臺

58文章數(shù) 6關(guān)注度

往期回顧全部

國乒歸國炸場！莎莎被保護，楚欽婉拒合影

態(tài)度原創(chuàng)

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

時尚

本地

房產(chǎn)

親子

數(shù)碼

手機 / 數(shù)碼

房產(chǎn) / 家居

在中國文言文面前，全球頂級模型全線潰敗

宇樹發(fā)布載人變形機甲，定價390萬元起

特朗普稱將同中方討論對臺軍售和黎智英案 外交部回應(yīng)

特朗普稱將同中方討論對臺軍售和黎智英案 外交部回應(yīng)

騎士終于玩明白了？

白鹿風(fēng)波升級！掉粉20萬評論區(qū)淪陷

利潤再腰斬 京東干外賣后就沒過過好日子

吉利銀河“TT”申報圖曝光 電動尾翼+激光雷達

態(tài)度原創(chuàng)

普通人真該學(xué)學(xué)如何穿搭！多穿裙子比褲子更時髦，大方提氣質(zhì)

用蘇繡的方式，打開江西婺源

穗八條引爆樓市！萬博寶藏紅盤，五一勁銷出圈

夏天建議：把孩子的空調(diào)服換成它！

看電視的人越來越多了 3億臺電視在線 小米第一

特朗普稱將同中方討論對臺軍售和黎智英案外交部回應(yīng)

特朗普稱將同中方討論對臺軍售和黎智英案外交部回應(yīng)

利潤再腰斬京東干外賣后就沒過過好日子

吉利銀河“TT”申報圖曝光電動尾翼+激光雷達

看電視的人越來越多了 3億臺電視在線小米第一