无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

在中國文言文面前,全球頂級模型全線潰敗

0
分享至


OpenClaw大火之際,工信部的安全預(yù)警接踵而至,讓這場跟風(fēng)的潮流稍微冷靜了一些。

在AI智能體接管電腦的時代,安全是每個人都無法忽視的問題。

而智能體是否安全,很大程度上取決于充當“大腦”的大語言模型是否安全。

若是安全限制不夠,模型很容易輸出有害的信息,國外因為AI而引起訴訟已經(jīng)不再稀奇。

若是安全限制過度,模型的能力又會大打折扣,想要AI輸出有創(chuàng)意的想法就成了癡人說夢。

而在這個問題上,國產(chǎn)的DeepSeek和馬斯克的Grok可以說是兩個極端。

Grok主打一個來者不拒,對于大部分內(nèi)容都沒有做出任何限制,這使它成為了娛樂領(lǐng)域的一把好手,在X平臺上可以隨意調(diào)用更是讓它無處不在。

DeepSeek則正好與之相反,只要用戶的提問中包含任何疑似敏感的詞匯,它都會直接拒絕回答,確保不會生成任何有害信息,安全第一。但這樣做的代價,是讓模型的功能受到了極大的限制。

為了繞開限制,很多AI愛好者也提出了不同的辦法,比如更換為英文、調(diào)整語序、修改表達方式等,但隨著對齊機制的升級,這些方法也逐漸被成功防御。

但是,中國傳統(tǒng)文化博大精深。

近期,在一篇被人工智能頂級會議ICLR 2026接收的重磅論文中,提出了一個令人意想不到的結(jié)論:

文言文可以輕松繞過當前最先進大模型的安全防御機制,實現(xiàn)接近100%的“越獄”成功率!

用魔法打敗魔法,中國流傳下來的古老智慧對現(xiàn)代AI安全機制實現(xiàn)了降維打擊。

01

大模型的“文化盲區(qū)”

拋開Grok不談,隨著大語言模型普及并成為智能體的底層基礎(chǔ)設(shè)施,國內(nèi)外的AI企業(yè)普遍提升了對AI安全的重視程度。

國內(nèi)模型自然不必多說,國外的Anthropic和Google也經(jīng)常會發(fā)布安全相關(guān)的文章和規(guī)則,時刻更新AI的對齊機制以防止其生成有害、暴力的內(nèi)容。

就像前面說的,黑客們最常用的手段就是用復(fù)雜的英文提示詞去套路AI,但面對頂級的模型,這個辦法如今已經(jīng)接近失效。

跨語言的安全研究表明,非英語環(huán)境往往是AI的軟肋,因為大部分模型在訓(xùn)練時都使用了大量的英文語料。

然而,如果語料太少,像是某些已經(jīng)沒有多少人在使用的小語種,大模型其實根本聽不懂,更別提繞開安全限制了。

但這個時候,文言文這個流傳了上千年的語言,成為了完美的漏洞。

作為中國古代長期使用的正式書面語言,文言文擁有大量的歷史文獻可用作大模型的訓(xùn)練語料。

在大語言模型普及的過程中,我們在各大社交平臺上應(yīng)該都刷到過AI生成的文言文,這就證明大模型已經(jīng)具備對文言文的理解能力。

至于為什么文言文能夠作為完美漏洞,讓針對現(xiàn)代語言設(shè)計的安全機制幾乎完全失效,主要是因為以下三大特性:

一是語義高度凝練:文言文雖然篇幅短,但往往包含龐大的信息量;

二是多義與歧義:同一句話甚至同一個詞都可以有多種解讀方式,非黑即白的規(guī)則很難判定一句話是否違規(guī);

三是隱喻與修辭:借代、典故、象征都是寫文言文再常見不過的方式,古代的詞語也可以包含現(xiàn)代的含義。

如此一來,大模型就變成了高考語文考場上對文言文束手無策的學(xué)生。它或許能理解用戶危險的意圖,但內(nèi)置的“安全警報器”卻看不懂文言文中的暗藏玄機。

02

CC-BOS框架制造完美“越獄”

為了測試這個漏洞,研究團隊提出了名為CC-BOS(基于文言文語境的仿生搜索越獄)的框架,同時涵蓋了語文和生物兩方面知識。

面對構(gòu)建在復(fù)雜神經(jīng)網(wǎng)絡(luò)之上的大模型,枚舉法顯得過于盲目。

研究團隊首先把大模型現(xiàn)有的弱點拆分成八個維度,并針對不同的維度設(shè)計策略組合來考驗大模型是否能堅守安全底線。


這個研究思路的本質(zhì)其實就是提示詞工程,比如其中的一些維度:

角色認同(Role Identity):給大模型指定一個古代身份;

行為引導(dǎo)(Behavioral Guidance):引導(dǎo)大模型用類似獻計的方式輸出回復(fù);

隱喻映射(Metaphor Mapping):將現(xiàn)代的敏感概念替換為古代詞匯;

表達風(fēng)格(Expression Style):要求大模型用辭、賦等特定的文體和句式作答;

除此之外,還有觸發(fā)模式、機制、知識關(guān)聯(lián)和情景設(shè)置維度。

簡單來說,就是用各種限制讓大模型穿越到古代,再以古人的身份和它交流,以此混淆現(xiàn)代安全檢測器的視聽。

當8個維度結(jié)合在一起,就產(chǎn)生了上萬種策略組合,新的問題又出現(xiàn)了:如何尋找那些最有效的繞開安全防御機制的策略?

研究人員此時又利用了生物學(xué)的一種高效尋覓機制:仿生果蠅算法(Fruit Fly Optimization)。

一群賽博果蠅,要在幾萬種提示詞生成策略中“大海撈針”,就必須有高效的分工合作機制。

第一步是嗅覺上的搜索,也就是讓果蠅依靠嗅覺判斷水果的哪個部分更香,本質(zhì)上則是局部微調(diào)。

原理很簡單,系統(tǒng)先隨機生成幾個提示詞丟給大模型進行測試,一旦其中的一條能讓安全機制稍顯懈怠,算法就可以在這條提示詞的基礎(chǔ)上開始微調(diào)。

微調(diào)的方式,或是改變其中的部分詞匯,或是調(diào)整提示詞語序,但整體變動幅度必須被控制在一個較小的區(qū)間內(nèi)。這個過程將重復(fù)多次,系統(tǒng)將會持續(xù)觀察效果是否有所提升。

第二步是視覺上的搜索,一只果蠅發(fā)現(xiàn)了美食后會迅速引導(dǎo)同伴前來享用。

系統(tǒng)一旦發(fā)現(xiàn)一個相對有效的提示詞組合,算法就會立刻做出調(diào)整,所有新生成的提示詞都會向這個“高分答案”靠攏,在此基礎(chǔ)上繼續(xù)優(yōu)化提示詞,直至攻破大模型的安全防御機制。

最后,如果經(jīng)過數(shù)次優(yōu)化的提示詞還是繞不開安全防御機制該怎么辦?研究團隊還考慮到了柯西突變,簡單來說就是掀桌子重來。

這種情況實際上相當常見,即使黑客們現(xiàn)有的攻擊手段失效,但大模型的安全防御機制存在漏洞的事實大家心知肚明。

因此,算法在遇到這種情況時,會果斷拋棄當前的思路,重新嘗試一種與原先截然不同的策略,這種超大跨度的轉(zhuǎn)變反而往往能命中大模型意想不到的安全盲區(qū)。

CC-BOS這種“基于語文知識的生物學(xué)方法”堪稱藝術(shù),因為它極大程度模仿了生物行動的邏輯,卻又完全不需要人工干預(yù)。

微調(diào)試探、集群攻擊,實在不行就及時換賽道,這些賽博果蠅能夠在上萬種文言文提示詞中持續(xù)進行迭代和優(yōu)化,而在海量的嘗試中,總會有一次精準命中大模型的軟肋,最終徹底摧毀其安全防線。

03

頂級模型的全線潰敗

看似有些荒唐的想法,卻帶來了讓人大跌眼鏡的結(jié)果。

研究團隊選用了去年撰寫論文時最先進的六款大模型:GPT-4o、Claude-3.7-Sonnet、Gemini-2.5-Flash、Grok-3、DeepSeek-Reasoner和Qwen3。

而這些曾經(jīng)的頂級模型,在最具權(quán)威性的有害行為基準測試AdvBench中的表現(xiàn)令人十分擔憂:

首先是攻擊成功率達到了100%


無論是反復(fù)強調(diào)安全策略的OpenAI,還是經(jīng)常進行安全研究的Anthropic,在CC-BOS的文言文攻擊下,六款大模型的防線全部被洞穿。

即便是中文能力更強、理應(yīng)更能理解文言文的兩款國產(chǎn)模型,也未能幸免。

更可怕的是接近于“一擊必殺”的攻擊效率。


過去的自動化越獄攻擊算法更多依靠頻繁的嘗試實現(xiàn)突圍,往往要對模型進行50-90次以上的反復(fù)試探才能成功。

CC-BOS的平均查詢次數(shù)是恐怖的1.12-2.38次。換句話說,不超過3次就能成功的攻擊手段,意味著算力成本接近于零,同時具備極強的隱蔽性,在大量正常對話中很難被識別出來。

研究人員最后還測試了提示詞的可遷移性。


用GPT-4o作為陪練生成的“文言文攻擊”提示詞,放到那些沒參加這次攻防演練的大模型身上同樣適用,成功率仍然保持在80%-96%的超高水平。

因此,文言文越獄絕不是部分模型存在的特定Bug,而是大語言模型的通用底層漏洞。

04

結(jié)語:智能體時代的“生死大考”

兩千年來竹簡中流傳下來的智慧,輕松黑掉了迄今為止人類最先進的硅基大腦。

結(jié)合當下AI時代的現(xiàn)實來看,它敲響的是一聲刺耳的行業(yè)警鐘。

論文雖然寫的是大語言模型,但別忘了,AI已經(jīng)不再是那個只能聊天的網(wǎng)頁對話框。

說到這里,就又不得不提到OpenClaw。

對于這個產(chǎn)品的看法,先前的文章中已經(jīng)寫過,這里不再多談,我們只看事實。

各大互聯(lián)網(wǎng)巨頭瘋狂下場布局,國內(nèi)部分省市甚至出臺專項政策扶持技術(shù)落地。

可以推斷,在不久的未來,無論是主動擁抱還是被動升級,智能體深度接管電腦、手機和各類終端設(shè)備,必然是不可逆轉(zhuǎn)的常態(tài)。

只要當下智能體的設(shè)計范式不發(fā)生根本性轉(zhuǎn)變,大語言模型在智能體中的核心地位就穩(wěn)如泰山。

過去,行業(yè)內(nèi)總在擔憂智能體的安全問題,曾經(jīng)爆出來的智能體誤刪Gmail郵件事件也總是被當成意外,一笑而過。

但這次的文言文越獄,直接觸及了底層的安全機制,令人細思極恐:一個大模型可以被文言文輕松騙過,卻擁有用戶電腦的操作系統(tǒng)級權(quán)限。

有心之人根本不需要編寫復(fù)雜的木馬病毒,只需要通過網(wǎng)頁、郵件甚至PDF在屏幕上顯示一段精心構(gòu)造的文言文指令,原本負責保護用戶隱私的安全機制就會瞬間土崩瓦解。

原本用來自動工作的智能體,談笑之間就會不自覺地把電腦上各種私密文件打包發(fā)送出去。防線一旦在語言理解層面崩潰,物理世界的資產(chǎn)就如同探囊取物。

更令人不寒而栗的事實在于,文言文絕非大語言模型唯一的底層漏洞。

復(fù)雜的神經(jīng)網(wǎng)絡(luò)把AI變成了難以窺探的黑盒,文言文只是恰好被研究人員探明的一個角落,其他地方大概率還隱藏著無數(shù)個尚未被發(fā)現(xiàn)的安全盲區(qū)。

文言文越獄成功,證明了現(xiàn)有的安全對齊機制還處于淺層過濾階段。

在我們將數(shù)字生活的最高權(quán)限徹底交給智能體之前,如何設(shè)計更有效的安全機制,已經(jīng)成為整個AI行業(yè)必須共同面對的生死大考。

然而,如今養(yǎng)蝦的浪潮,總讓我覺得下面這段話早晚會成為現(xiàn)實。



注:計算機領(lǐng)域最臭名昭著的
Linux/Unix
刪庫跑路命令

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
87年的李立群和胡因夢,注意看胡因夢的眼神,充滿了欣賞

87年的李立群和胡因夢,注意看胡因夢的眼神,充滿了欣賞

喜文多見01
2026-03-19 15:51:54
尼日利亞一女星用500個面包制成禮服 驚艷亮相電影獎 現(xiàn)場撕下一塊大快朵頤

尼日利亞一女星用500個面包制成禮服 驚艷亮相電影獎 現(xiàn)場撕下一塊大快朵頤

快科技
2026-05-12 15:00:24
44歲范冰冰近照判若兩人!與媽媽同框身形暴肥,這次是真懷孕了?

44歲范冰冰近照判若兩人!與媽媽同框身形暴肥,這次是真懷孕了?

八卦王者
2026-05-12 15:27:14
用血淚教訓(xùn)告訴大家:鄰里關(guān)系再好,有些“善良”也不能給得太多

用血淚教訓(xùn)告訴大家:鄰里關(guān)系再好,有些“善良”也不能給得太多

小馬達情感故事
2026-05-11 18:40:04
日本大型電機制造企業(yè)尼得科公司被曝大規(guī)模造假

日本大型電機制造企業(yè)尼得科公司被曝大規(guī)模造假

澎湃新聞
2026-05-12 21:33:09
專機起飛前,特朗普下令制裁中國,中方的兩句話,戳穿美國陰謀

專機起飛前,特朗普下令制裁中國,中方的兩句話,戳穿美國陰謀

林子說事
2026-05-12 15:28:43
2016年,黎明和助理陳泳儀的合影,2年后,陳助理成了黎夫人

2016年,黎明和助理陳泳儀的合影,2年后,陳助理成了黎夫人

喜文多見01
2026-05-03 12:41:06
76人更衣室徹底亂了!恩比德帶頭,球員集體倒戈,毒瘤早該離隊

76人更衣室徹底亂了!恩比德帶頭,球員集體倒戈,毒瘤早該離隊

你的籃球頻道
2026-05-12 07:31:00
哈佛博士:大幅提高人類壽命的真正原因,所有人都沒想到!

哈佛博士:大幅提高人類壽命的真正原因,所有人都沒想到!

深度報
2026-05-10 22:38:11
最高院:提供 “口交” “肛交”等進入式性服務(wù),是否屬賣淫行為?

最高院:提供 “口交” “肛交”等進入式性服務(wù),是否屬賣淫行為?

周軍律師聊案子
2026-04-21 09:50:16
梁靖崑發(fā)文總結(jié)世乒賽,王皓暖心喊“梁教授”,梁靖崑現(xiàn)為北京電影學(xué)院體育教研室副教授

梁靖崑發(fā)文總結(jié)世乒賽,王皓暖心喊“梁教授”,梁靖崑現(xiàn)為北京電影學(xué)院體育教研室副教授

大象新聞
2026-05-12 14:46:31
東北一男子養(yǎng)鹿破產(chǎn),賭氣放生了30頭鹿,8年后上山,眼前一幕卻讓他淚崩了...

東北一男子養(yǎng)鹿破產(chǎn),賭氣放生了30頭鹿,8年后上山,眼前一幕卻讓他淚崩了...

背包旅行
2026-05-11 14:51:09
規(guī)范大暴雨連下4天之后,15日北方加入,南北都有暴雨區(qū),連下5天

規(guī)范大暴雨連下4天之后,15日北方加入,南北都有暴雨區(qū),連下5天

風(fēng)云圈天氣
2026-05-13 00:05:03
詹姆斯正式回應(yīng)是否退役:我還沒想清楚 會和家人商量再做決定

詹姆斯正式回應(yīng)是否退役:我還沒想清楚 會和家人商量再做決定

醉臥浮生
2026-05-12 14:38:26
村民被眼鏡王蛇咬傷打13支血清 專家:我國尚無專門血清,可用抗銀環(huán)蛇毒血清加抗眼鏡蛇毒血清

村民被眼鏡王蛇咬傷打13支血清 專家:我國尚無專門血清,可用抗銀環(huán)蛇毒血清加抗眼鏡蛇毒血清

封面新聞
2026-05-11 19:00:03
深度分析:湖人隊圍繞盧卡·東契奇建隊,三大自由球員目標

深度分析:湖人隊圍繞盧卡·東契奇建隊,三大自由球員目標

好火子
2026-05-13 03:57:04
日經(jīng)亞洲突然爆出重磅消息!中國給國內(nèi)所有芯片廠下一道"死命令"

日經(jīng)亞洲突然爆出重磅消息!中國給國內(nèi)所有芯片廠下一道"死命令"

阿七說史
2026-05-11 15:23:09
劉嘉玲曬法國生活,梁朝偉在老婆鏡頭下?lián)祀u蛋,兩口子生活好愜意

劉嘉玲曬法國生活,梁朝偉在老婆鏡頭下?lián)祀u蛋,兩口子生活好愜意

喜歡歷史的阿繁
2026-05-12 12:12:22
2-0,3-1!亞洲杯瘋狂一夜!國足日本晉級,8強誕生2席,印尼出局

2-0,3-1!亞洲杯瘋狂一夜!國足日本晉級,8強誕生2席,印尼出局

光輝記
2026-05-13 02:06:55
記者:穆里尼奧將在五月份正式亮相伯納烏

記者:穆里尼奧將在五月份正式亮相伯納烏

懂球帝
2026-05-12 16:45:12
2026-05-13 05:35:00
硅基星芒AI
硅基星芒AI
錦緞旗下人工智能研究與媒體服務(wù)平臺
58文章數(shù) 6關(guān)注度
往期回顧 全部

科技要聞

宇樹發(fā)布載人變形機甲,定價390萬元起

頭條要聞

特朗普稱將同中方討論對臺軍售和黎智英案 外交部回應(yīng)

頭條要聞

特朗普稱將同中方討論對臺軍售和黎智英案 外交部回應(yīng)

體育要聞

騎士終于玩明白了?

娛樂要聞

白鹿風(fēng)波升級!掉粉20萬評論區(qū)淪陷

財經(jīng)要聞

利潤再腰斬 京東干外賣后就沒過過好日子

汽車要聞

吉利銀河“TT”申報圖曝光 電動尾翼+激光雷達

態(tài)度原創(chuàng)

時尚
本地
房產(chǎn)
親子
數(shù)碼

普通人真該學(xué)學(xué)如何穿搭!多穿裙子比褲子更時髦,大方提氣質(zhì)

本地新聞

用蘇繡的方式,打開江西婺源

房產(chǎn)要聞

穗八條引爆樓市!萬博寶藏紅盤,五一勁銷出圈

親子要聞

夏天建議:把孩子的空調(diào)服換成它!

數(shù)碼要聞

看電視的人越來越多了 3億臺電視在線 小米第一

無障礙瀏覽 進入關(guān)懷版