![]()
隨著 AI 的發展,Token這個詞早已從科技領域“破圈”,成了大眾的日常用語。
然而大家要么直呼Token,要么寫作“托肯”甚至“偷啃”,可謂五花八門。對于這個我們每天都要接觸到,甚至會數次用到的高頻詞,沒有正式中文翻譯確實說不過去。
這 段混亂的歷史,終于要終結了。
在2026年3月24日的中國發展高層論壇上,國家數據局正式給出了Token的官方中文:詞元。
劉烈宏局長表示,“詞元”不僅是智能時代的價值錨點,更是連接技術供給與商業需求的“結算單位”,為商業模式的落地提供了可量化的可能。
下面我們來追溯下Token的演進史。
NLP時代的標準翻譯
其實,將Token稱作詞元的歷史頗為悠久。
在大型語言模型(LLM)爆發之前,AI有一個細分領域叫做“自然語言處理”,簡稱NLP。在NLP中,Token表達的就是詞、語素、詞位等各種語言符號的最小單元,其標準翻譯就是“詞元”。
但在當時,這只是一個小眾的學術概念,并未進入大眾視野。
大模型讓Token破圈
隨著ChatGPT引發的AI發展狂潮,Token的概念迅速蔓延到幾乎每一個行業,每一個領域。
對于不了解NLP的大眾來說,這就是一個全新的詞,自然跟著業界一起叫Token。
再后來,隨著多模態大模型的發展,Token不再局限于語言,而是變成了AI能處理一切離散符號的最小單元,圖像、視頻、聲音等都可以拆解成Token。
此時,業界忙于獲取AI時代的船票,快馬加鞭地訓練模型,推出各種產品,無暇顧及Token的名稱問題,也就沒有沒有形成一致認可的翻譯。
是時候給Token定名了
截至今年3月,我國日均Token調用量已超過140萬億,相比2024年增長了1000多倍;相比2025年底,僅僅三個月時間就增長了40%多。
這表明,我國AI產業已進入爆發期,迫切需要用中文表達這些基礎概念。如果說Token是“乳名”的話,是時候給它起個“大名”了。
那么,有哪些備選呢?
智元?
雖說Token是AI大模型的處理的數據最小單元,但它本身只是一串符號,比如文本的一個詞、一個字、一個標點,或者一小塊圖像的像素集,和智能一點不沾邊。因此將其翻譯成“智元”是不合適的。
符元?
符元的支持者認為Token本質上只是符號空間的離散取值,是數據的載體,翻譯成“符元”是非常嚴謹的。這一點確實沒錯,但終究是缺少使用基礎。
模元?
既然Token是大模型的的專屬計量單位,那就把它叫做“模元”吧,簡單直接。個人認為,“模”多少有些指代不明的感覺,這個翻譯不如“符元”好,也缺少使用基礎。
最終,國家數據局沒有采納這些備選名,而是選擇尊重歷史回歸初心,將Token的中文名定為“詞元”。
詞元這名字到底好不好
相比于其他無根之水,詞元在NLP領域確實是業界認可的翻譯。現在它的內涵擴展了,沿用下去并普及開來是最好的選擇。
正如在現代語境下的“火箭”并不是燃燒著烈火的箭矢,而是將人造衛星送上太空的載具。
隨著Token的正名,AI產業發展也必將像搭乘火箭一樣,一飛沖天。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.