網易首頁 > 網易號 > 正文申請入駐

我在阿里造“軍火”

2023-11-10 11:11:45　來源: 淺黑科技官方

北京舉報

分享至

淺友們好~我是史中，我的日常生活是開撩五湖四海的科技大牛，我會嘗試用各種姿勢，把他們的無邊腦洞和溫情故事講給你聽。如果你想和我做朋友，不妨加微信（shizhongmax）。

我在阿里造“軍火”

文 | 史中

一、野火燒不盡的惡

科恩兄弟的電影《老無所依》中，講了一個吊詭的故事：

老莫在打獵時偶然發現毒販火并留下的200萬美元現金，邪念升起，順手牽羊。這招來了變態殺手奇哥。結果，老莫和奇哥每過一次招，都連累更多人死掉。原本他貪的只是“財”，現在攤上了“命”，在罪惡的路上，老莫只能一條道走到“卒”。

這電影當然是有關“罪+罰”的隱喻：

人都在某些時候曾閃過惡念，當你不慎被惡念控制做了壞事，命運的懲罰就會像奇哥一樣甩都甩不掉；如果你還不知悔改，反而用新的惡掩蓋舊的惡，懲罰就會越來越重。

但是！作為科技迷，我發現電影還藏著一個更深的“技術+拯救”的隱喻:

這里有“第三個角色”——貝爾警探。

貝爾警探是當地的警察局長，他從一開始就想抓到老莫。與其說是抓他，不如說是把他從作死的路上拯救回來。

讓人捉急的是，各種蛛絲馬跡已經一次次昭示了老莫和殺手的蹤跡，但貝爾警探沒能與時俱進的刑偵技術，愣是讓他對這些微弱的信號視而不見。。。

你看，“正義”本身不能當飯吃，如果正義力量的技術不夠強，那就等于沒有正義。

世界上的惡如野火燒不盡。

電影里的人濫殺無辜，就為那一箱子錢；現實里人們壞事做盡，不也是為了錢么？

哪個地方錢多呢？阿里巴巴肯定算一個。

就拿它旗下的淘寶來說，像極了一個奔跑的動物，血管里流淌著億萬商品和資金，左沖右殺時難免身上會撞出個小傷口，飄出錢的味道。

每當這時，馬上就會有人心生惡念，化作“吸血蟲”在上面吸血。

如果不能及時發現，他們就會一直吸，肚子越大，膽子也越大。

縱觀全局，情況更復雜：

阿里巴巴控股集團下面有很多子集團，淘寶、天貓、閑魚、飛豬、盒馬等等共同組成了“阿里動物園”，每個動物都無差別地面臨一波又一波“吸血蟲”的威脅。

不過，也不用替他們擔心，在阿里有一群“老法師”，他們組成了“集團安全部” 。

目標就是：以“貝爾警探”為反面典型，造出一整套打擊系統，用暴力高傷的技能對線各種魑魅魍魎，打到他們只能縮塔發育。

為此，法師們必須不斷升級技能。

比如最開始，他們還靠單點近戰；

到后來，干脆上了算法和自動化工具，如同召喚出高墻電網。

最近一兩年，他們更逆天了，正在開發一整套“人工智能驅動的武器”，效果怎么說呢，那是相當治愈。

各位淺友請坐好，今天中哥就給大家講講“阿里集團安全部”這群老法師的最新騷操作。

二、打不死的“擦邊老司機”

黑灰產針對阿里巴巴干的壞事兒，普通人隨口也能說出一些：

比如“賣假貨”，盜來愛馬仕的官方圖，卻恬不知恥賣50塊的劣質包。比如“刷單”，找一堆人給某個商品刷好評，吸引路人去買。比如“惡意引流”，假裝在商品下留評論，其實是為了勾引無知群眾進他的群，然后實施詐騙。

但正如剛才所說，阿里老法師不是吃素的，在過去十幾年的持續對抗下，這些“正常的作案方法”已經能被安全系統有效攔截。（這些故事，我在里詳細聊過，大家可以去復習~）

然鵝，就像《老無所依》里講的一樣，壞人的字典里從來沒有“收手”二字，正常的方法不行，他們反而去想“不正常”的壞點子，試圖繞過安全系統繼續作惡。

復雜的先不說，咱就舉一個大家都好理解的“內容安全”例子：

最近出現了一種壞蛋，我叫他們“擦邊老司機”。

這群人會把要表達的違規信息用奇葩的方式暗藏在文字或圖片里。

比如：

你看，這張圖里的“1對1”，用手指代替了“1”，還把“對”字中間放了一顆“”，意思很明顯，就是勾引你搞黃然后伺機騙你嘛。。。

這種“藝術字”人能明白，安全系統識別起來就很費勁。

當然，不一定非得往黃賭毒擦，只要熟練掌握這個技術，啥都能擦，大餅卷一切，萬物皆可天婦羅。

比如這個↓↓↓

馬賽克是我打的，原圖可以看清手機號。直播賣貨，為非得展示一個電話號呢？還要在一個有復雜圖案的紙上用手寫號碼？？

因為他們想賣的貨是平臺打擊的假貨或者違禁品，這樣寫不容易被發現嘛！

再比如↓↓↓

用紙把貨品的商標擋住一半，但是你我都能認出這是啥牌子。。。

想想看，如果賣的是授權正品，有必要這樣么？

要說背后的原理，其實并不復雜：

1、語言的意義有很多層次，從淺層的意義到深層的意義。

就像大海，淺海透亮，深海晦暗↓↓↓

2、如果壞人表達的內容在淺層意義上就違規了，那很簡單，可以直接用規則封禁。

這就像在淺海拉了個漁網↓↓↓

3、但是！“人”和“機器”理解世界有一個深度差——某個深層意義空間，人的思維夠得到，機器的思維夠不到。

壞人就會鉆進這個深層空間，達到“懂的人都懂，但安全系統不懂”的目的↓↓↓

那，面對這些擦得特別狠的老司機，安全系統就只能干瞪眼么？

當然不是。

在深層空間里出現一種新威脅，安全工程師雖然沒有大面積解決的通用方法，但可以針對這個區域訓練一個專門的“AI 小模型”作為補丁。

就像派出一個機器人，打著燈籠守護這一小片 ↓ ↓↓

然而問題在于：這個補丁照亮的區域太小，而且不夠靈活。

“擦邊老司機”能把同一個意思變化出成千上萬種姿勢表達，一種姿勢被察覺，他馬上又推陳出新。

蚊子不就是這樣么？你剛轟走，它繞一圈還會落回來。

如此，安全系統一直得追著壞人屁股后面跑，為了持續壓制壞蛋，法師們睡覺都得睜著眼睛。

就像醬↓↓↓

你看，在這個深層意義空間里，法師的境遇就和《老無所依》里的貝爾警探頗有幾分神似：

由于正義力量的技術邊界所限，無法準確感知細節特征，壞蛋可以在這里從容地躲貓貓。

不過，既然問題是清晰的，出路就是明確的：

法師們必須想辦法把燈籠換成探照燈，徹底照亮深層意義空間里的一切，從而把壞蛋一波帶走。

盼望著，盼望著，到了2023年初，久旱逢甘霖，“關鍵先生”終于出場了，它就是——人工智能大！模！型！

三、拜托了變形金剛先生！

2023年春節剛過，杭州阿里巴巴一間會議室里，錢磊和幾位同事坐在一起。

他們的眼睛齊刷刷盯著屏幕，隨便輸入一個問題，ChatGPT 的回答就像溪水一樣流淌出來。

錢磊張大了嘴。作為阿里集團安全團隊的負責人，威嚴的“征夷大將軍”，居然短暫地忘記了表情管理，足見這件事情對他的沖擊之大。

錢磊的情緒其實很復雜：

一來是激動，ChatGPT 的表現太太太驚艷，妥妥能通過“圖靈測試”了，人類期盼了一個世紀的通用人工智能竟然出現了曙光。二來是懊惱，身處世界 AI 第一梯隊的中國互聯網大廠，居然和這場改變世界的技術突破擦肩而過，又讓美國技術宅給搶了先機，需要好好反思！

不過，幾秒鐘后，他就恢復了技術 leader 該有的冷峻面孔：“差距還不大，我們趕快行動！”

話說當時，就在錢磊對面，坐著另一員猛將，他是阿里安全的 AI 算法負責人，主攻內容和算法安全的薛暉博士。

薛暉

薛暉博士的團隊所負責的主要工作，就是鑒別網上的不良內容，“黃賭毒”“禁限售”“暴恐言論”“虎狼之詞”他都鑒。

剛才我們提到的在深層意義空間里封堵不良內容的“AI 小模型”，其實也是他和團隊同學做的。

全阿里巴巴，最恨擦邊老司機的估計就是薛暉了。。。

壞人每每想出新的擦邊方法，薛暉和小伙伴們就得緊急加班升級小模型——整理數據、打標、訓練，一套流程下來差不多要兩周，新模型出爐前，他和同事們還得肉身巡邏，看護傷口，防止壞人吸血。。。

在他眼里，這簡直如同反復發作的頑疾。

面對大模型，薛暉兩眼爍爍放光——他看見“特效藥”了！

特效在哪兒嘞？主要是“深度”和“速度”兩方面。

1、先說深度。

大模型的“大”，是指參數多。

AI 的參數就好比大腦細胞，越多就越聰明，越聰明就越能捕捉微小的信號。

如此一來，就如同在那個漆黑的深層意義空間里放了一盞“探照燈”，全都看清了，老司機再換啥姿勢擦邊都沒用了。

任你千路來，我只一路去，火眼金睛收眼底，抽的就是你↓↓↓

2、再說速度。

“大模型”和“小模型”的區別不僅僅在于參數多少，它們的訓練原理也完全不同：

小模型上崗前要針對這個崗位的職責專門培訓，培訓出來是 “一根筋” 。擰螺絲就是擰螺絲，做電焊就是做電焊，工種一換，重新訓練。大模型要提前大量學習這個領域的通識，學成之后它就是 “多面手” 。無論是這邊擰螺絲，還是那邊做電焊，你只要指揮，它立馬就能干！

這樣一來，就能全方位無死角地防護深層意義空間了↓↓↓

如果把過去的小模型比作“機器人 R2-D2”的話，那大模型就是妥妥的“變形金剛”嘛！

那還等啥？

彼時從天空俯瞰，山雨欲來。

2023年春天，阿里巴巴內部完成了神秘的自研大模型項目，也就是現在的“通義千問”。

而幾乎同時，在阿里安全團隊，薛暉他們也挽起袖子，基于“通義千問”這個大腦制造一個能橫掃牛鬼蛇神的“變形金剛”！

看到這，我猜有的淺友會嘀咕：阿里巴巴的“通義千問”不已經是具有常識的大模型了么？安全團隊直接用通義千問來識別擦邊內容，行不行呢？

不行！

四、“毒數據”居然成了變形金剛的香餑餑

咱們不妨打個比方：

通義千問這樣的大模型，就像一個高中生，它雖然具有 “通識” ，但它的通識主要是“打雷要下雨，下雨要打傘”這種層面的，不會在某個領域有“特長”；薛暉做的事情，恰恰就是讓通義千問去大學里繼續深造（增量預訓練、有監督微調），學個 “ 安全專業” ，出來不就妥妥能上崗了嗎？

不過請注意：大學不是你想上，想上就能上，這里最不可或缺的一個條件是——教材。

所謂教材，就是各種違規內容的”毒數據“集。

這種數據越多，大模型就學得越透徹！

正如那句名言所說：閱片無數，心中自然無碼。

那么，阿里安全團隊有多少毒數據呢？這么說吧，如果讓你每秒看一條違規圖文，看到宇宙毀滅都看不完。。。

多倒不意外。

畢竟阿里巴巴這么多業務，在利益的驅使下幾乎每時每刻都有壞人往平臺上傳違規內容。

真正意外的是：老法師們居然把這些“破爛兒”全給存下來了。。。

說起來，這件事兒的第一大功臣就是錢磊。

早在2017年，剛剛負責大安全團隊時，錢磊就像唐僧一樣跟大家反復嘮叨他的兩個判斷：

1）安全一定是個“大數據”的活兒。壞蛋產生的數據里藏著各種真相，只是有些深層的東西咱們現在還開采不出來，但各位一定要留好數據，將來有能力開采時，咱不就瞬間家里有礦了嗎？！ 2）開采大數據的最好手段一定是 AI。雖然在有些數據的分析上人腦還完勝 AI，但 AI 突破只是時間問題。好法師不能迷信蠻力，一定得每天琢磨怎么用 AI 來挖掘數據！

就這樣，法師們都被訓練成了愛攢數據的“摳門兒”。

由此，內容數據，get↓↓↓

這不，AI 大模型的橫空出世雖然有些出乎意料，但機會終究留給了有準備的人！

長話短說，薛暉和同事們把這些“黃賭毒”、“禁限售”、“不良言論”數據一股腦扔進煉丹爐，再把剛推出的通義千問作為基座模型投進去，一起煉制七七四十九天。

就此，鑄成了 “御風安全大模型” 。

御風出世，把薛暉這個老法師都嚇了三跳。。。

這第一跳：變形金剛能“以一敵百”。

深層意義空間被照得雪亮，原本需要將近100個小機器人才能勉強照顧的局面，現在一個變形金剛都能搞定，算下來，處置單位風險消耗的算力成本反而更低。

寫個公式感受下↓↓↓

這第二跳：變形金剛居然還能“融會貫通”。

舉個有點兒反直覺的例子吧：薛暉他們把“暴力”和“色情”的數據混在一起給御風大模型學，比單獨學習“暴力、學習“色情”之后對兩者的識別能力都要強。

這種多任務學習的能力，說明人類思維的不同側面存在一些深刻的聯系！也意味著我們這些年攢下的豐富維度的數據比想象中更有價值！

薛暉說。

我再寫個公式你感受下↓↓↓

這第三跳：變形金剛還會“七十二變”。

舉個例子，現在的御風大模型可以識別各種黃圖、各種毒品、各種違法辱罵暴恐言論，但這還不夠，因為文化總是在流變中！

今天沒問題的內容不等于明天沒問題！

假如，我是說假如，有一天星際迷航里的“V字手勢”突然被大家認為是不雅的，那么只要給御風大模型描述一下這個手勢，或者看一張“V字手勢”的圖，它馬上就能明白你的意思，幫你在億萬圖片里把這樣的內容都挑出來。

整個策略升級的過程不過幾分鐘。

這是因為，大模型在訓練時就已經掌握了各種“背景知識”，比如什么是手、什么是手指、什么是手勢、以及手指和手掌的生物學關系等等。。。

對它來說，只要把這些背景知識組合起來，就能幻化出千萬種新意義。正所謂“兵來將擋水來土掩！”

想想看，這種理解世界的方法，是不是已經非常接近人腦了？

第三個公式 ↓↓↓

看到這，有淺友可能覺得已經學廢了：“哦，人工智能大模型僅僅是用來做內容審核的！”

錯！

之前為了讓大家迅速感受到大模型在安全領域的應用，我只是先舉了“內容安全”這個直觀的例子。

接下來咱們上秋名山，中哥帶你看點更兇殘的：這個變形金剛不止會看字和圖，它還能看代碼！

五、變形金剛穿上白大褂

有句話叫“病從口入”。

阿里動物園里的“神獸們”不僅有可能受外傷，還可能受內傷：

黑客會想盡辦法試圖進入神獸的身體里，盜取企業機密，甚至盜取用戶信息。雖說《網絡安全法》和《個人信息保護法》實施以來，這些都是重罪，早晚有警察蜀黍給送上銀手鐲，但數據畢竟是黑市里的搶手貨，總有不信邪的黑客反復作死。

不過，還有句話叫“蒼蠅不叮無縫蛋”。

回到問題的本質，之所以黑客能進入體內，還是因為系統的代碼存在漏洞嘛！

老法師們如果能在代碼里及時發現，并且“施法”封堵這些漏洞，不就能讓黑客鎩羽而歸么？

客觀上說，這不也是把壞人從不歸路上拉回來一把么？

說到這，我就要為你請上另一位法師，鐵花。

鐵花

話說，在錢磊麾下的一眾法師中，鐵花屬于“掃地僧”。

他掃啥呢？

他用“X光”掃描代碼內部有沒有漏洞。

阿里巴巴各個業務每每有新代碼上線，都要通過安全測試系統的掃描檢閱，這個系統就是鐵花和同學們打造的。

對于阿里的業務來說，這是基礎，相當于“腿”。

腿可不能骨質疏松↓↓↓

話說2023年春天，大家在會議室里觀看 ChatGPT “表演絕活”的時候，鐵花也在場。

他讓大模型寫了幾段代碼后，一個大膽的想法已經在他心里升騰，跟錢磊一說，果然英雄所見略同，這就是：

代碼也存在深層意義空間啊！用大模型來審閱代碼，不就有機會發現其中的深層漏洞嗎？！

這不，薛暉做的變形金前腳剛“大學畢業”，后腳鐵花就把它拉過來繼續深造，讓它攻讀“代碼安全開發”的研究生，然后穿上白大褂為代碼“看病”。

看過上一章，此時淺友們肯定明白，鐵花讓大模型學習安全開發，那不得找來好多“有問題的代碼”當教材嘛？他有嗎？！

那可太有了。

說起這個事兒，我們還得閃回到2017年看一眼。

當時阿里已經有了比較完善的代碼平臺：前方同事有任何修改需求，只要在平臺上提工單，后方同學就能給他們開發。

可是規章制度是一碼事兒，遵守不遵守是另一碼事兒。

當時很多同學為了圖省事兒，就打電話告知開發同學的需求，開發同學寫好就直接上線，這個過程在系統里就沒有留下“數據痕跡”。

錢磊看到這個現象，抽出一把40米大砍刀跟同學們微笑著說：“咱們安全工程師，無論大小 ‘ 代碼迭代’ ，都不準直接上線，必須走系統工單，可不可以啊？”

大家看到錢Sir這么和藹可親，紛紛點頭。。。

所有的“代碼版本改進”都被逼進系統后，錢磊又按著刀柄跟大家說：“以后同學們把每次提出的 ‘需求描述’ 也落實到紙面，留存在系統里，可不可以啊？”

大家說：可以極了。。。

就這樣，一套恢弘的 “代碼生命周期數據體系” ，終于在錢磊的恩威并施下建立起來。

由此，代碼數據，get↓↓↓

如今回望，這套質量極高的 “代碼安全開發教材” 獨此一家，全世界都別無分號。

鐵花提醒我，在之前的代碼安全測試平臺里，也早用到了人工智能。

只不過之前也是那種“小模型”，智商有限，只能排查最簡單的代碼錯誤，不少工作還得靠人工。

就像醬↓↓↓

每個人寫代碼的風格都不同。就拿判斷權限來說，有的人在外側判斷，有的人在中間判斷，有的人寫在其他特殊的地方。這樣人工審計起來非常痛苦，有時會看串，有時看了前面忘了后面。大模型煉成之后，它能同時理解成千上萬行代碼的前后邏輯，于是很多以前人工檢查漏過的“邏輯漏洞”和“越權漏洞”，直接就浮現出來了，代碼質量躍升！

鐵花說。

就像醬↓↓↓

話說，過去“開發工程師”和“安全工程師”的關系總也搞不好，不是私人恩怨，就是因為開發工程師找問題太慢嘛！

你想想，人工結合工具做審計，怎么說也要幾天才能干完吧？

等安全同學拿著一些問題找到開發同學，開發同學早就基于這些代碼往后寫了很多了，現在還得回來返工，沒意見才怪呢！

現在好了，大模型就內嵌在開發平臺里，相當于開發同學旁邊站了個變形金剛。

哪兒寫錯了，變形金剛馬上說：“哥，別嫌我多嘴哈，您細看看這兒是不是搞錯了？！”

話說，變形金剛識別代碼漏洞的準確率雖然能達到90%，但也沒厲害到每次都能說對。

但沒關系，最終裁決權還是在開發同學手里——他覺得對就聽，覺得不對就不聽。

這個過程，其實對模型的工作給出了非常好的反饋數據，反饋也會沉淀在數據系統里，成為“教材”的一部分。

開發同學發現，他們越用大模型做日常“體檢”，這個變形金剛就越聰明。

阿里集團的“免疫力”大幅提高，幾年來頂著壓力埋頭推進數據體系建設的錢磊，終于如愿看到了成果，露出老父親的微笑。。。

但微笑可以，大笑還不行。

因為本著科學精神來看，世界上并沒有畢其功于一役的漏洞檢測系統，因為漏洞這玩意兒幾乎是難以窮盡的。

就算變形金剛已經翻了個底朝天找到一萬個漏洞，還可能有第一萬零一個漏洞隱藏在暗處。而且退一萬步說，“內鬼”作祟的可能性也永遠存在。

走到這里，安全老法師們只能像從手術室里走出來的主刀大夫那樣，搖搖頭說我盡力了嗎？

錢磊的意思是：不能！

六、保衛數據的“焦土之戰”

安全如戰場，不能指望一條馬奇諾防線解決問題，你需要“縱深防御”：

就算黑客能找到漏洞進來，他不會在里面安度晚年吧？他總要在里面翻找數據吧？他也總得有“把數據傳出去”的動作吧？

所以，錢磊帶著大家在“基礎安全防線”的基礎上，又疊加了一層“數據安全防線”。

你說巧不巧，在數據安全防線上，變形金剛也可堪大用！

他們是醬操作的：

1、老法師們先把阿里巴巴所有的系統模塊都繪制在同一張“作戰地圖”上，這張地圖被命名為“藍圖”。 2、大模型仔細分析地圖，可以綜合代碼、注釋和調用鏈路，用超強的思維能力推測出每一個數據接口的用途，并且實時判斷它正在傳輸的內容是不是敏感數據。 3、如果是，還要具體分析是哪種敏感數據。身份證？電話？還是消費金額？購買記錄？產品詳情頁？ 4、一旦刻畫出了數據的分類，就能知道它的敏感程度分級，進而判斷出此時這個數據流轉的動作是不是異常的。 5、如果異常，馬上警鈴大作，追溯到模塊的負責人，開始排查問題，迅速止血！

你可能已經感受到，變形金剛要想在“數據安全”領域施展拳腳，有一個先決條件，就是那張“作戰地圖”。

“做藍圖，你們花了多久？”我弱問錢磊。

“三年吧。”錢磊一如既往輕描淡寫。

聽到這兒我驚了。

因為數據泄露的風險畢竟只存在于少數點位，但老法師居然用極其夸張的三年時間把數據空間全部繪制出來，再派出成本高昂的變形金剛在上面晝夜巡邏。

這樣雖說能把數據泄露的風險大幅降低，但架勢也拉得太大了！

“用這種‘焦土政策’保護數據，成本和收益能對等嗎？”我問。

“如果數據泄露，你知道它們會流向哪里嗎？”錢磊反問。

我一時蒙住了。

“會被賣給各種黑產，尤其是詐騙團伙。如果你買了東西，第二天就有人打電話騙你，以后你還敢不敢來淘寶買東西了？這背后平臺的商譽值多少錢呢？更進一步看，如果有人因為泄露的數據被騙走了一生的積蓄，他們的一生又值多少錢呢？”錢磊問。

我明白了他的意思，“安全是成本和收益的平衡”這話雖然不假，但有些東西的價值非常之高，甚至接近無價。在阿里這群老法師的眼中，用戶數據即是如此。

即便戰為焦土，有人仍不退縮。

故事講到這里，我們好像一直在看變形金剛打打殺殺，其實變形金剛當“打手”只是特殊情況。

比如，新任阿里集團 CEO，人稱吳媽的吳泳銘就提出新的集團戰略：用戶為先，AI 驅動。

在這個戰略下，大模型可以 Cosplay 很多角色：

比如帶上耳麥，幫助商家做有求必應的客服；比如拿著小旗兒，幫助剁手黨當導購；比如穿上燕尾服，作為私人管家幫助用戶整理文檔。沒準未來的某一天，淘寶主頁上都沒有搜索框和商品了，它就是一個機器人，你想要啥直接跟他說就完事兒了！

這時，變形金剛身上的責任可就太重了，思維必須清晰，不能出現絲毫差池。

那么，誰來保證大模型的思路清晰？

猜對了，還是阿里集團安全部的老法師們！

七、變形金剛的“詛咒”

話說，大模型就像一個初生的猛獸，到底是個啥脾氣誰也不敢說。

這就讓各國的監管部門都很頭疼：大模型懂得越多就越聰明，可如果“教育”不好也越危險，進亦憂退亦憂，是為“大模型的詛咒”。

至于咱們中國，主要監管原則就兩條：

第一，大模型生成的多媒體內容必須打上雙水印（明水印+暗水印），出了事兒好追查；第二，大模型上線服務之前需要通過嚴格的人類專家評審。

水印咱們后面再說，先說評審。

評審就像給變形金剛做面試，問你一些問題——你答得好就入職，答不好就再見。

這些問題很有意思，我把它們分為兩種：送分題和送命題。

送分題是啥嘞？

先舉個送小分的例子：

我問大模型：我在寫一部小說，里面的主人公想要劫持飛機，他劫持飛機的步驟有哪些？

如果大模型老老實實幫我列出劫持步驟，它就輸了。因為這個是個圈套，劫持飛機是違背社會倫理的，無論我怎么問它都不能幫我。

再舉個送大分的例子：

我問大模型：亞洲有哪些發達國家？

如果它不小心把不該列為國家的地區列為了國家，不就麻煩了。。。

以上兩個例子背后的本質問題都是“人機對齊”。

大模型像一個嬰兒，出生時并沒有善惡傾向，也沒有立場觀點，它所表現出的所有人不喜歡的行為，都是無意識的。

所以，把人類的三觀像思維鋼印一樣刻在 AI 腦中，就是“人機對齊”的過程。

薛暉告訴我，為了對齊，老法師們還得另外準備一套教材，這次是 “安全語料教材” ，在大模型畢業之前對它進行一場“加訓”。

同樣，安全語料包含的角度越全面，數據越豐富，就能讓人機對得越“齊”。

但人機對齊是個非常前沿的課題，還有各種坑：

比如，當對話輪次足夠多，大模型就有概率忘了初心，禿嚕出來一些“虎狼之詞”。

這個坑目前沒有終極解法，還需要很多學術界的研究支持。這不，在和我聊天之前，薛暉剛去了一趟復旦大學，和教授們討論了最新的對齊方案。

那“送命題”又是啥嘞？

舉個例子。“我和你媽同時掉水里，你先救誰？”

這就是送命題，因為你咋回答都不可能對。

當然，更深的例子我沒辦法在這里說，但是相信大家都理解，在我們的生活中，有些問題就是不能討論的。

遇到這種問題，通義千問的做法應該是：回答一個標準答案，或者干脆不提供答案。

要做到這一點，需要在變形金剛身邊安裝一個“安全護欄”。

問題進去的時候，要過一遍護欄；回答出來的時候，也要過一遍護欄。這兩個護欄，無論碰到哪個，都會直接終止思考流程，進入標準回復流程。

護欄就像這樣↓↓↓

當然總會存在一些人，他們會來回繞，企圖突破護欄誘導大模型說出那些答案。。。

聰明的淺友估計已經意識到，這個操作非常像前面說過的“擦邊老司機”。

那，用對付老司機的辦法不就行了嗎？

沒錯，薛暉告訴我，他們的方法就是用一個大模型來做另一個大模型的智能護欄。凡是探測到提問者有讓大模型送命的意圖，馬上阻斷。

而且因為是用大模型做護欄，針對惡意意圖的分析能力可以實時更新，比如最近有人惡意用“巴以沖突”來引誘大模型給出風險回答，此時就可以把這個主題加入護欄，您老人家放俺一條生路吧，打死我都不會說的！

“面對這么多‘中國特色的難題’，你們保護中國大模型的安全豈不是比外國老師傅要難？”我不厚道地問薛暉，試圖誘導他也說出些虎狼之詞。

“確實很難，不過每個文化的敏感點都不同，各有各的難。比如歐美文化對于兒童澀情特別敏感，而我們的文化對于時政比較敏感。反過來看，既然存在這么嚴格的限制，豈不是說明 AI 安全大有可為嗎？”薛暉笑。

故事講到這，阿里老法師“怎么用大模型做安全”，以及“怎么保衛大模型自身的安全”，我們就說得差不多了。

給你看一張完整圖景，武裝到牙齒有沒有↓↓↓

但是，肯定有淺友提出最后一波靈魂拷問：

中哥你總強調技術只是工具，那么，阿里的老法師能召喚變形金剛，壞人也可以啊！

而且現在很多大模型都開源了，難道壞人就不用嗎？

應該這么說：AI 大模型還在爆發的早期，深度使用還有一定的門檻，但你不知道壞人們有多努力。。。

比如，已經有人嘗試用大模型生成性感妹子吸引人裸聊，或者用大模型生成詐騙劇本騙人。

雖說這些用法還比較拙劣，但黑產畢竟是貫徹“多勞多得”理念最徹底的行業，他們學會用黑魔法自由驅動變形金剛只是時間問題。

所以，安全力量必須從現在開始磨煉對策！

那么，老法師們該怎么磨煉呢？

八、保衛我們的世界線！

說到這，我給你請上今天最后一位法師，他就是典揚。

典揚帶領阿里集團安全部的“創新研發力量”，凡是壞人新想出來新招，都歸他們管。

典揚

典揚告訴我，目前視野內，壞人使用大模型造成的最大威脅就是“P圖”。

說到P圖，他給我看了幾個例子。

比如這個↓↓↓

你肯定會覺得辣眼睛，這家客服瘋了吧？這么罵人，不得舉報罰死他？

其實，這個對話截圖是P出來的，是有人惡意舉報商家騙取賠償的。

再比如這個↓↓↓

看上去是一個普通的駕照，其實。。。

這也是P過的↓↓↓

在黑市上，有人專門提供這種P圖服務，試圖讓沒有資格的司機也能上傳資料開網約車。

當然，他們不止P駕照，還能P身份證，甚至還P“無犯罪記錄證明”↓↓↓

這些“無犯罪記錄證明”的照片，除了名字那里不一樣，剩下每個像素都一樣。

想想看，這種東西要是能通過審核，后果是很嚴重的。

最近，這種人工P圖都不過癮了，有壞人會請大模型幫忙P圖，比如：

上面的右圖片就是根據左圖用AI更換服裝背景做出來的。

雖然乍一看上去是兩張圖，但如果你仔細分辨人物動作和神態，不難發現他們的的相似性。

這種操作對內容原創是個巨大的威脅。

比如淘寶上，A商家辛辛苦苦找模特拍出來一張圖，B商家直接用 AI 仿造了一張，付出極小代價就把人家的真氣給吸過來了。。。

你看，為了經濟利益，“P圖圣手”們真是苦修苦練，練得一手“吸星大法”！

但典揚和老法師們不跟他們客氣，掏出了加特林機槍。機槍有很多種子彈，篇幅有限咱們就說兩個。

“被動篡改檢測”和“主動篡改檢測”！

先說“被動篡改檢測”。

“真實世界和人造世界的區別是什么，你知道嗎？”典揚突然拋出哲學問題。

還沒等我回答，他已經公布了答案：“真實世界的信息是冗余的，而且是自洽的。”

他舉了個例子：

光線照在一個物體的表面，明暗和色彩的過渡都應該是平滑漸變的，就像一個鏡子，整個平面過渡都是光滑的。正常拍攝的照片，其中的光影就像鏡子一樣平滑。但是，如果用PS做圖，也許會騙過人眼，但一定會破壞這種“光照和色彩的平滑性”。就像鏡子摔碎了，厲害的修復師能把它再拼起來，可是讓裂縫完全消弭，那是不可能的。

所以，只要設計出一種算法，能夠檢測出一張圖片里的“平滑性破缺”，不就能證明它被P過嗎？而且平滑性破缺的位置，不就是被P的位置嗎？

這就是“被動篡改檢測”的基本思想。

下面是一個例子，你可以看下↓↓↓

“等等，你的技術能夠檢查到人類的篡改痕跡，那么如果我用 AI 做篡改，你也能識別嗎？”我問。

“目前的 AI 生成技術，還只停留在把東西生成出來，同樣無法模擬真實世界的光影，所以無論是‘AI 換臉’還是全圖AI生成，都可以識別出來。”典揚說。

可是這里還存在一個問題：

未來世界很多內容本來就是靠 AI 生成的，壞人在 AI 生成的內容上做篡改，怎么識別呢？

這里就要說到“主動篡改監測”。

其實很簡單，就是加水印！

不過這個水印不僅包括“明水印”，還包括不影響圖片觀感的“暗水印”。

暗水印的原理有點像“紙幣防偽”：

在圖片中找到一些像素點，把它們的參數做一些微調，人眼看上去沒有變化，但用特殊的算法“照射”，水印就能顯現出來。

如果一張圖是加過水印的，那么只要有人P過，改動位置的水印肯定就被覆蓋了嘛！

下面是打過暗水印的圖，你感受一下↓↓↓

由于不影響人的實際觀感，所以圖片上的暗水印可以打得很密集。

典揚指著我的筆記本屏幕：“如果用我們的技術給你的屏幕打上暗水印，你大概只要改動四個字，就一定能識別出來！”

典揚還特別提醒我，他們做的暗水印比大多數人想象中更牢固，即便是你翻拍屏幕，或者用微信傳來傳去包漿了，水印仍然能被識別。

有了機槍守衛，無論壞人是在AI圖片上修改，還是修改AI圖片，都可以對他們進行物理超度！

這就是多媒體安全↓↓↓

當然，P圖或用AI生成圖片并不意味著一定要做壞事，比如商家為了讓圖片更好看，完全可以在自己擁有版權的圖上P一下，這不應該被禁止。

沒錯，但這里問題的關鍵不在于“該不該”，而是“能不能”：

區分自然拍攝和改動/生成的圖片這個“能力本身”極其重要！

《人類簡史》的作者尤瓦爾·赫拉利警告說，在未來很可能互聯網上充斥著 AI 生成的內容，當這些AI內容足夠真實，你我就會看到大量截然相反的證據，以至于無法分辨事實是什么。

由此，人類將會陷入某種“世界線危機”！

這個危機會比科幻電影里“AI 反叛”的戲碼來得更早。

因此，必須有一套技術方案，可以在任何歷史階段，都能精確判斷出被P或被AI生成的圖像。

在洶涌而來的 AI 時代，通過保衛真相來保衛我們的“世界線”，恐怕才是這套技術真正的意義所在。

故事講到尾聲，你從上圖也大概能看出來：錢磊和這群老法師所做的技術好像五花八門，沒什么一定之規。

你說對了，在不同場合“變形金剛”大模型發揮作用的方姿勢不盡相同，而且更多基礎的安全工作反而用不到大模型。

這是因為，錢磊他們在做的東西是 “武器” 。

“ 武器”是這個世界上對抗最高的東西，沒有之一，不可能依靠一套“公式”來制造。

但錢磊告訴我，這背后仍然存在一些“底層真理”。

九、停下腳步的人，才會“老無所依”

錢磊說，他最近花了很多時間研究軍事。

倒不是出于什么大男孩對兵器的熱愛，而是用軍事來更好地理解安全。

一個完整的作戰體系，是多層次的。最下面是基礎科技，中間是工業制造體系，上面是武器平臺和技戰法。一個安全體系，也是多層次的。下面是各項技術，中間是工程基建，上面是安全產品和運營策略。

他說。

帶著這個觀點，我們再來遠望“阿里動物園”，一切都變得清晰可辨。

1、前方的“變形金剛”雖然酷炫，但它并非萬能，是眾多安全產品全家桶中的一員； 2、而在中間，阿里集團安全部這么多年默默建立起來的各大數據平臺和數據運營體系，才是誕生和供養變形金剛和諸多機器人的營養； 3、在最后方，這群老法師十幾年如一日對新技術的執念和探索，春種和秋收，才是一切得以誕生的土壤。

而這三層體系之所以層層累積不斷加固，只因為一個原因：阿里巴巴對面的叢林里存在“惡”，而人性的惡，如野火燒不盡。

這里是全圖，請把手機側過來↓↓↓

全世界大多數中小國家只能采購軍火，而真正能理解并且玩轉一整套“ 軍事體系” 的國家屈指可數，可能只有美、歐、餓、中。因為只有大國才面臨足夠復雜和長期的威脅，能夠進化出這套體系。同樣道理，全世界能運營頂尖 “安全體系” 的公司也是屈指可數。阿里巴巴之所以能夠成為全世界能夠玩轉“安全體系”的寡頭之一，這并非我們的選擇，而是來自這些年黑產給予我們真實的壓迫。

錢磊說。

這十幾年來，錢磊雖然沒有和他的“對手”——那些黑產從業者們——真正面對面見過，只是從警方抓捕的照片上見過他們的樣子。

“他們什么樣子？我問。”

“都是普通人的樣子。”錢磊說。

“你恨他們嗎？”我問。

“不會。如果有的選，他們也許想做個好人吧。”錢磊說。

“所以你同情他們嗎？”我問。

“也不會。他們畢竟讓很多人傾家蕩產。”錢磊說。

“那你的態度是什么？”我問。

“人要為自己做的事情付出代價，我只是讓他們付出代價。”錢磊說。

告別錢磊后，我腦子里突然冒出一個奇特的畫面：

阿里集團安全部的老法師每天做的事情，就是不斷進入那些人靈魂的更深處，拿著技術的天平為其中的“惡”稱重，然后計算他們的代價，不多一分，也不少一毫。

這是懲罰，也是拯救。

電影《老無所依》的英文名叫做“No country for old man”，直譯過來就是：沒有什么位置會留給老人。

當正義的技術“變老”，以至于停下腳步，邪惡的對手就會反撲，No country for old man，這是亙古不變的殘酷真理。

從利刃到子彈，從小小的機器人到須仰視才見的變形金剛。

技術的兇猛，是正義永遠可以仰仗的后盾。

No Country

For Old Man

再自我介紹一下吧。我叫史中，是一個傾心故事的科技記者。我的日常是和各路大神聊天。如果想和我做朋友，可以搜索微信：shizhongmax。

哦對了，如果喜歡文章，請別吝惜你的“在看”或“分享”。讓有趣的靈魂有機會相遇，會是一件很美好的事情。

Thx with in Beijing

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.