隨著 AI 大模型(LLM)的發展,Token這個詞被越來越頻繁地提及。無論是咨詢報告、發言材料、廣告宣傳,還是普通人的日常交流,這個詭異的詞 無孔不入 。它仿佛已是 AI 時代的基本概念,含義不言自明。
那么,Token 到底指什么?為什么它能成為衡量 AI 工作量的 “貨幣單位”?下文將逐一拆解說明。
什么是大模型的Token?
人類通過整句話、整幅圖、整段視頻來理解世界,但 AI 模型只能處理離散的數字信息。
在支持文本、圖像、視頻、音頻等多種輸入格式的多模態大模型中,要讓 AI 讀懂這些復雜內容,需要先把它們拆解成一個個標準化的片段,這些片段就是 Token。
在大模型的世界里,Token 可以被理解為人工智能處理信息的 “基本原子”,是其處理各類數據的最小單位。
我們先以文本為例,直觀解釋 Token 的生成過程。
文字本身是現成的離散信息,因此生成 Token 的過程十分直接:大模型通過查找一個固定的 “詞表”,把一段文字拆分成一個個最小處理單元(包含標點),這個過程就叫做 “分詞”。
對于英文,大模型通常不會按完整單詞或單個字母切分,因為單詞可以拆分為詞根、詞綴等更小的元素。比如,單詞 "Hamburger"(漢堡包)可能會被切分成 "Ham" 和 "burger" 兩個Token。
對于中文,一般會按漢字拆分,“人工智能” 可能被拆分為四個單字,也就是 4 個 Token。在部分詞表中,也可能被切分成 “人工” 和 “智能” 兩個 Token。
從下圖可以看出,豆包 AI 將 “你好,我是無線深海” 這句話切分為了 7 個 Token。
![]()
文本的 Token 化邏輯相對直觀,而圖片等格式的 Token 化過程則沒那么好理解。圖片的本質是連續的像素陣列,這些像素要怎么變成 Token?
目前最主流的方法是圖像分塊:大模型會像切蛋糕一樣,把一張完整的圖片切成許多個小方塊(例如 16x16 像素),每個小方塊就是一個圖像 Token,包含了圖片某一局部區域的顏色、紋理和形狀信息。
![]()
我們同樣用豆包的 Token 計算器做個測試:上傳一張 620x465 像素的香農照片,豆包按 28x28 像素為一個 Token 切分,最終這張圖片的 Token 數量為 368。多模態模型可同時支持圖片和文本輸入,因此圖片 Token 數加文本 Token 數,就是總的 Token 數。
視頻則可以看作是 “隨時間變化的圖片序列”,和圖片切出的 2D 小方塊不同,視頻 Token 切出的是 3D 小數據塊(例如:長 16 像素、寬 16 像素、跨越 4 幀畫面的小立方體),同時覆蓋空間與時間維度的信息。
Token,AI的 “貨幣單位”?
核心原因很簡單:對于某一固定大模型來說,輸入與輸出的 Token 數量越多,就代表大模型的運算工作量越大,對應的服務成本越高,因此用 Token 作為計價單位合情合理。
但和比特不同,Token 并非全球通用的度量衡,因為不同模型的 Token 切分方式完全不同。它更像是每家 AI 公司自己發行的 “專屬代幣”,類似游戲廳的游戲幣,只能在對應廠商的體系內使用,不同廠商的 Token “購買力” 也存在差異。
這種差異主要來自兩個核心原因:
第一,不同公司、不同模型使用的 “分詞器” 和 “詞表” 截然不同:有的模型詞表只有 3 萬個詞,有的有 10 萬個,有的甚至達到 25 萬個。詞表越大,單個 Token 能包含的字符往往就越多。
第二,不同模型的訓練語料偏好不同(尤其是中文等非英語語言)。如果一個分詞器的訓練語料以英文為主、中文占比很低,那么它對英文的壓縮率會極高,一個復雜的英文單詞可能僅對應 1 個 Token,而對中文的切分會非常細碎,甚至一個漢字會被切成 2-3 個 Token。
正因為 Token 不是標準化單位,在使用不同大模型時就會產生 “Token 匯率差”。
假設我們要讓 AI 處理一段 1000 個漢字的文本:
模型 A:對中文支持一般,把 1000 個漢字切成了 2500 個 Token。
模型 B:為中文專門優化過詞表,把 1000 個漢字只切成了 800 個 Token。
如果模型 A 的定價是 1 元 / 百萬 Token,模型 B 的定價是 2 元 / 百萬 Token,表面上看模型 A 更便宜,但實際處理這段中文時,模型 A 要收取 2500 個 Token 的費用,而模型 B 只收 800 個 Token 的費用,最終反而是 “單價更貴” 的模型 B 更省錢。
值得一提的是,閉源大模型廠商雖不公開模型內部的神經網絡,但都會公開對應的 “分詞字典” 和分詞算法。每次交互都會明確計算輸入 Token、輸出 Token、總 Token 數量,相當于給用戶提供了清晰的 “購物小票”,保障計費透明。
廠商在宣傳 “支持 100 萬 Token 上下文” 時,為了營銷效果和降低用戶理解門檻,通常不會詳細解釋不同模型的差異和 Token 的計算方法,久而久之,“Token” 在日常語境中也成了一個抽象的容量代名詞。
從 “Bit 經營” 到 “Token 經營”
在 AI 產業迅猛發展的同時,作為連接提供者的移動運營商,也紛紛向 “算力與智能服務提供商” 轉型,核心方向就是從傳統的 “Bit 經營” 轉向 “Token 經營”。
Token 經營分為 “對內精細化運營” 和 “對外商業化經營” 兩大層面。
對內 Token 精細化運營的核心目標是降本增效。
要把大模型的能力用在刀刃上,核心思路就是把 Token 消耗與業務產出掛鉤,解決大模型規模化應用中 “成本計算不清、故障定位慢、資源浪費嚴重、價值與消耗脫節” 的痛點,把 Token 管控融入 AI 全生命周期管理。
具體落地動作包括全鏈路 Token 計量與成本分攤、精準流控與差異化調度、精細化運維與價值對齊等。通過這些措施,倒逼企業內部的 AI 應用優化,讓 Token 消耗真正轉化為業務價值。
目前,對內的 Token 精細化運營已實現規模化落地。
對外的 Token 商業化經營,就要重構商業模式了。
它以 Token 為核心經營標的,跳出 “賣流量、賣算力” 的傳統模式,轉型為 “智能服務提供商”,以 Token 為載體,整合算網能力、模型能力與場景服務,打造全新的盈利模式。
這就需要運營商通過自有大模型及自有云服務提供模型推理、專屬算力集群、私有化部署等服務,直接成為AI 服務的提供方。
針對有強合規、數據不出域、高安全要求的政企客戶,運營商提供“專網傳輸 + 專屬算力池 + 私有化模型 + 全鏈路運維”的一體化閉環服務。所有 AI 交互、Token消耗,全程都在運營商管控之內,自然可以實現Token收費。
運營商還可以搭建開放的AI 服務聚合平臺,向上向多家大模型廠商批量采購 Token 算力,向下面向中小商戶、個人用戶提供統一的 Token 池套餐。
就算底層模型不是運營商自研的,運營商也通過生態聚合切入了Token經營并賺取差價與服務費,同時還能綁定網絡自身的賬戶體系和安全能力。
最后就是我們之前所說的 AI-RAN ,即基站內的算力變現了。面向車聯網、低空經濟、機器人、工業智能體等對低時延、高可靠有強需求的場景,運營商可以在基站等邊緣算力節點部署 AI 服務,向有邊側推理需求的企業銷售并按 Token 計費。
對外的 Token 商業化經營,正是行業轉型的核心探索方向。
Token 經營是 AI 時代運營商商業模式的一次根本性變革,對內是大模型時代降本增效的必備能力,對外是突破管道瓶頸、實現價值升維的核心抓手。
其最終能否落地成功,核心不在于更換計價單位,而在于運營商能否真正補齊技術與生態短板,把獨有的算網優勢、用戶優勢、運營優勢,轉化為Token 生態的主導權與核心競爭力。
Token,用中文怎么說?
目前業界并沒有約定俗成的統一譯法,使用最廣泛的是 “詞元”。
但 “詞元” 這個翻譯,帶著濃厚的 “前 AI 時代” 文本處理的遺留色彩,面對如今能處理視頻、音頻、圖片的多模態模型,再叫 “詞元” 已經明顯詞不達意。
個人認為,把 Token 翻譯成 “智元” 是更合適的選擇。
“智” 對應大模型的智能本質,“元” 錨定 “原子化、基礎元單位” 的核心屬性。技術上,它是 AI 智能處理的最小信息單元;商業上,它是智能服務的最小計價單元,完美適配多模態場景與 AI 商業化的雙重內涵。
在中文語境下,你覺得 Token 這個詞需要翻譯嗎?怎么翻譯才“信達雅”?
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.