![]()
最近AI自媒體開始踴躍討論各種英文技術(shù)名詞的中文新譯法。Token的新譯法紛紛涌現(xiàn):靈符、模元、信符、道元、智籌、智元、智根、偷啃……
“茴字有幾種寫法”的當(dāng)代活動版本,從未像現(xiàn)在這樣生機(jī)勃勃且不(太)招人嫌。琢磨AI、token和prompt該怎么譯,真的給業(yè)界帶來一陣中國溫度。
將token譯為“偷啃”、將AI譯為“硅頭”,固然不太妥當(dāng)。但現(xiàn)在大家的咬文嚼字熱情,也不是特別必要。專有名詞的翻譯與流行有自生的規(guī)則,硬鉆牛角尖費(fèi)力不討好。
畢竟“中國日均詞元調(diào)用量突破140萬億”報(bào)道,已經(jīng)將token和“詞元”的譯法標(biāo)定。自媒體再有人氣,大不過這種認(rèn)證。
01
按唐僧的標(biāo)準(zhǔn),直接音譯對中文無害
現(xiàn)在大家都知道嚴(yán)復(fù)的“譯事三難”原則是外文譯中文的基礎(chǔ)原則,不過“信、達(dá)、雅”雖然本身是外文中譯的黃金標(biāo)準(zhǔn)和典范示例,但不是唯一的標(biāo)準(zhǔn)。中文不是從百多年前才開始有翻譯。
玄奘法師作為翻譯界祖師之一,給過“五不翻”的準(zhǔn)則,在五種情況下,可以不對外文中的專屬名詞進(jìn)行意譯,用音譯也行:
“秘密”,有神秘性質(zhì)的術(shù)語;
“含多義”,多義詞;
“此無”,中文里實(shí)在找不到有絲毫相近的近義詞;
“順古”,已經(jīng)通行的音譯,荀子講過“約定俗成謂之宜,異于約則謂之不宜”;
“生善”,有宣揚(yáng)譯者推崇的觀念的需要。
![]()
以這“五不翻”,就能看出AI相關(guān)字眼如果沒法意譯,直接音譯也無礙。拿天怒人怨、神泣鬼號、最出名的技術(shù)名詞翻譯“魯棒性”來說吧,這個(gè)音譯詞乍看礙眼、細(xì)琢磨卻符合“五不翻”原則。
現(xiàn)在大家都知道“魯棒”是直接音譯“robust”。可考證的源頭,是1979年南開大學(xué)涂奉生、齊寅峰教授發(fā)表的論文《魯棒(Robust)調(diào)節(jié)器》和《魯棒調(diào)節(jié)器的一種設(shè)計(jì)》。
在此之前,要把“robust”在各種工程學(xué)科中“系統(tǒng)在外部壓力、不確定條件、環(huán)境特性參數(shù)變化下維持原有性能狀態(tài)”的含義翻譯出,“寬容性”和“穩(wěn)健性”的譯法都用過,但都不完全傳達(dá)含義。“魯棒”一出,業(yè)內(nèi)都覺得這說法的字義最貼合。
1980年的專業(yè)人士評價(jià)是:“魯棒有山東大棒之意,倒是音義兼顧”;
“‘音義兼顧’的絕好譯法。因?yàn)椤畆obust調(diào)節(jié)器’具有‘使系統(tǒng)保持穩(wěn)定且具有漸進(jìn)調(diào)節(jié)特性的能力’,而‘魯’者粗莽也,‘棒’者強(qiáng)之同義也。所以‘魯棒’一詞較好地表明了此類調(diào)節(jié)器的特征,且較‘粗壯’,‘強(qiáng)壯’等詞生動”。
看,“魯棒”符合了“含多義”、“順古”的音譯原則。
說回AI范疇,大家在琢磨完Token和Prompt該怎么意譯之前,是否該想想如果要意譯每個(gè)英文AI字眼,SOTA該不該排位更先?畢竟一個(gè)State of the art的縮寫詞非要寫英文字眼、且按英文拼音法連讀,而非直接意譯成“業(yè)內(nèi)前沿”,真是豈有此理。
當(dāng)然,不譯SOTA也符合“五不翻”原則里的“秘密”、“順古”和“生善”。用當(dāng)代粗話說,就是大家習(xí)慣了,而且這字眼顯得使用者懂行、看不懂的人外行,體現(xiàn)逼格和門檻,你硬碰大家已經(jīng)形成的語言習(xí)慣干嘛。
02
若講究“傳信”且“通達(dá)”,Token就是“詞元”
“信達(dá)雅”三原則,在翻譯中必有取舍:“信”為根本,但不能執(zhí)拗;在保證“達(dá)”的前提下,“信”可以適當(dāng)妥協(xié);“雅”就是烤串上的孜然,有當(dāng)然很好,沒有也過得去。從孔子開始,“文勿勝質(zhì)”、“勿以辭害意”就是說中文的標(biāo)準(zhǔn)。
Token譯成“詞元”,不僅“順古”,而且在“信”、“達(dá)”、“雅”三要素中至少占了兩個(gè),真沒必要繼續(xù)琢磨了。
“順古”,是因?yàn)椤队?jì)算機(jī)科學(xué)技術(shù)名詞(第三版)》里,已將AI自然語言處理/計(jì)算語言學(xué)場景下的Token規(guī)范譯為“詞元”;頂級會議論文集和專業(yè)刊物論文的中文譯稿、中國高校的計(jì)算語言學(xué)專業(yè)教材,也大都采用“詞元”譯法。你要改,你先跟“中國科學(xué)技術(shù)名詞審定委員會”和外國的會議舉辦方去杠。
而且Token譯成“詞元”,在“信”的準(zhǔn)確性要求、和“達(dá)”的曉暢明白要求之間,有最合適的均衡。在byte頂了“字節(jié)”的“字”之后,“詞”和“元”的組合詞,就是最切近而且最易理解的“最基礎(chǔ)、不可再分的基本計(jì)算單元”表述。
挑戰(zhàn)“詞元”譯法的立論,大都在“Token不能嚴(yán)格對應(yīng)單個(gè)字/詞”的技術(shù)性質(zhì)上立基。
是啊是啊,耗千個(gè)token生成的是750個(gè)左右英語單詞、大模型答不對“strawberry里有幾個(gè)r”和“9.11與9.9誰更大”是因?yàn)閠oken的分隔原理和自然人說話不一樣,你知道我知道大家都知道。但揪著這些技術(shù)細(xì)節(jié),去改已經(jīng)通用的譯名,顯你讀書多、能耐大嗎?
硬要追求譯詞指代的涵義既全面又精準(zhǔn),那Token用區(qū)塊鏈時(shí)代的“代幣”譯法也比新造好。
畢竟從黃仁勛到騰訊、阿里,大廠和大老板們現(xiàn)在都說token消耗量與生產(chǎn)效能掛鉤、要把token配比薪資發(fā)給員工。管Token叫“代幣”,這下又沒毛病了。拿南京方言口音念,還有一絲諧謔的惡趣味,“雅”這塊也顧及。
03
譯詞越短越好,Prompt只會成為“提示”
中譯技術(shù)專屬名詞,音譯敵不過意譯、最終被意譯取代的例子不少,大都符合兩個(gè)條件:一是音譯實(shí)在太不知所謂,二是意譯比音譯短、且有最短的選項(xiàng)。
音譯讓人不曉得在說啥的典范,就是嚴(yán)復(fù)本人。大清國的賜進(jìn)士老爺既要翻譯英文書,又討厭當(dāng)時(shí)直接搬運(yùn)“和式漢語”字眼的“東學(xué)”風(fēng)氣,就只有用音譯來完成專有名詞的英譯中任務(wù)。
“幺匿”、“拓都”、“涅伏”,嚴(yán)復(fù)獨(dú)創(chuàng)的這些音譯看上去比“魯棒”不知所謂得多。別說現(xiàn)在,近百年前的知識分子一眼也猜不透這是在說啥,不讀他的譯作,誰也不知道這是在翻譯“unit”、“total”、“nerve”。當(dāng)時(shí)大人物的翻譯被收入入學(xué)考試之后,直接讓未來大人物郭沫若哭爹叫娘:“我的媽!這樣偉大的一個(gè)難題,實(shí)在足以把人難倒。”
當(dāng)“幺匿”、“拓都”、“涅伏”被中文使用者拋棄,“nerve”的中文對應(yīng)詞沒有退回到譚嗣同和洋教士版本的“腦氣筋”,“unit”、“total”、“nerve”譯詞使用了日本人的“個(gè)體”、“總體”、“神經(jīng)”。原因不消解釋,三個(gè)字的單詞永遠(yuǎn)沒有兩個(gè)字的單詞更受歡迎。
如果直接音譯更準(zhǔn)確但更拗口,中文使用者會很開明地使用意思不那么準(zhǔn)確、而字面更簡潔的意譯。比如“伯里璽天德”是清國翻譯的精準(zhǔn)表述:“權(quán)力效能比皇上強(qiáng)、但禮儀尊貴不如皇上的頭號大官”,“總統(tǒng)”是日本人譯法“大統(tǒng)領(lǐng)”的縮寫。“伯里璽天德”縮成“總統(tǒng)”,意思上不夠準(zhǔn)確,但后者迅速流行。
哪種譯法在比較保真的前提下更短,普羅大眾就會選擇哪種。“西敏寺”比“威斯敏斯特”好用,是因?yàn)榧葌鬟f“Westminster這地方是古倫敦西界以外更西”的意思,又更簡短。“拍立得”、“肯德基”,更是典范。現(xiàn)在最鉆牛角尖的中國人也不會用“即時(shí)成像相機(jī)”、“肯塔基州炸雞”來說這兩種商品。
這條原則應(yīng)用在AI業(yè)界,就是Prompt即使不被譯成“提示詞”,也不可能譯成其他花里胡哨、附庸風(fēng)雅的硬拗,只會被縮寫成“提示”或“提詞”。這種語言現(xiàn)象正在發(fā)生,在阿里云的官方網(wǎng)站上就有出現(xiàn)。
![]()
現(xiàn)在“生成-對抗網(wǎng)絡(luò)”這個(gè)AI概念不流行了,不然還會給這種語言現(xiàn)象添上更有趣的注解:看大家是會使用“生成-對抗網(wǎng)絡(luò)”這個(gè)詞,還是直接把英文縮寫GAN拿中文拼音法讀出來。
畢竟現(xiàn)在網(wǎng)店商家拿AI生成的假圖當(dāng)成門面照片、商品實(shí)拍,網(wǎng)購顧客拿AI生成的假圖當(dāng)退款憑據(jù),已成大眾新潮流。這種真人們相互做“生成器-判別器”對抗的生活,真的是很GAN啊。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.