![]()
在使用AI進行文字對話時,會出現這樣一幕場景:AI回答問題不是直接給出完整語段,而是閃爍著接連不斷的字符,整個過程看似一場文字接龍。實際上,在AI輸出這些字符時,后臺正在進行一場密集的計算。機器并不直接處理人類感知的“字”或“詞”,而是通過計算得出一個個詞元(Token),并將其解碼為自然語言。
今年初,全國科學技術名詞審定委員會正式確定“詞元”作為Token的規范中文名。近日,多位接受本報記者采訪的學者表示,當下,“詞元”這個原本存在于AI后臺的技術名詞,正進入AI智能體消費市場、AI自主性競爭等公共性話題的討論中。
01
從“數字原子”到“智能貨幣”
“從技術本質上來說,‘詞元’是大模型處理信息的最小離散單位。”復旦大學計算與智能創新學院教授黃萱菁介紹,大模型在處理文本時將輸入切分成的一系列基本單元,即為詞元,例如一個完整的詞或一個詞根、詞綴,甚至是單個漢字或字符。“詞元”的譯名也由此而來,“詞”點明了與語言文字的密切關聯,“元”則表示“基本單元、原子”之意。
隨著AI在圖像、音頻、視頻等領域的縱深推進,模態融合下的“詞元“概念早已遠超文字范疇。黃萱菁表示,在多模態大模型中,文字、圖像、聲音最終都被統一表示為詞元序列,共同進入模型的計算流程。可以說,詞元已經從最初的“文字基本單元”拓展為AI理解和生成信息的通用基本單位——它是人類世界與機器智能之間的橋梁。在暨南大學智能科學與工程學院副教授趙闊看來,詞元使AI得以通過概率組合數字原子,實現對復雜世界的統一感知與重構。
當詞元成為機器解構世界并展開創作的底層邏輯時,這些跳動的“數字原子”也躍出屏幕,在市場中成為“智能貨幣”。國家數據局局長劉烈宏在中國發展高層論壇2026年年會上提出,“詞元”不僅是智能時代的價值錨點,更是連接技術供給與商業需求的結算單位。根據艾媒咨詢發布的《2024—2025年中國AI大模型市場現狀及發展趨勢研究報告》,2024年,中國大模型市場規模已達294.16億元,預計到2026年將突破700億元。面對如此龐大的市場體量,當前,各大模型廠商的API定價都以“每百萬詞元”為基礎單位。
福耀科技大學常務副校長徐飛在最新發表的文章中提到,詞元的標準化與通用化將重構AI產業生態,催生詞元經濟這一全新經濟形態,也將催生全新的職業與產業賽道。
02
詞元體系競爭力凸顯
2023年,“新質算力基礎設施”概念首次被提出,其核心要義在于整合算力、數據、存儲及安全技術,為新質生產力發展提供支撐。時隔三年,“打造智能經濟新形態”“實施超大規模智算集群、算電協同等新基建工程”被正式寫入2026年政府工作報告。這一變化背后是人工智能與經濟社會各領域的深度融合,而算力作為培育新質生產力的新動能,其基礎設施布局在人工智能生態體系建設中發揮著關鍵作用。受訪學者認為,詞元體系建設作為大語言模型的核心環節,更是構建新質算力基礎設施的重要支撐。
“若將語言智能處理的整體能力與水平視為一種‘新質算力’,那么大語言模型相關軟硬件的研發與建設,便是打造‘新質算力基礎設施’的核心內容之一。”上海外國語大學語言科學研究院教授施建軍表示,詞元體系關系到模型的自主性、推理速度、輸出質量及價值觀導向,其重要性不言而喻。
趙闊認為,當前全球大模型詞元體系已呈現出四大鮮明特征。其一,技術路徑呈現多元化發展態勢,文本領域以子詞算法為主導,多模態領域則逐步轉向向量量化的離散映射模式。其二,標準化進程加速推進,國內已明確“詞元”的術語定義及結算地位,國際層面則通過擴容詞表破解碎片化難題,標準化建設進入關鍵階段。其三,生態兼容性持續提升,以HuggingFace為代表的開源工具鏈日趨成熟,主流模型與框架已實現詞表互通。其四,商業價值日益凸顯,詞元已成為大模型服務的核心計費單位,與此同時,也引發了版權保護、隱私安全及跨語種規則等一系列新的行業挑戰。
黃萱菁表示,我國已形成較強的詞元體系自主創新能力,但底層算力芯片與基礎軟件生態仍有優化空間。她從四個維度給出衡量標準及前沿數據。一是日均詞元調用量。截至2026年3月,日均詞元調用量已突破140萬億,凸顯出詞元經濟是AI商業化的核心邏輯,大模型正落地產業應用。二是分詞效率,國產大模型成效突出。DeepSeek等國產模型采用中文優化分詞器,編碼效率大大提升。三是上下文窗口規模。目前,國內外主流模型已擴展至數十萬乃至百萬級詞元,國產模型與國際前沿基本同步。四是詞元處理吞吐量與成本成為我國詞元體系建設的重點突破方向。國產大模型的算法優化成果提升了詞元處理效率。
趙闊補充道,國產大模型在中文詞元化效率上已實現超越——通過優化詞表結構,國產模型處理中文時詞元消耗更少,推理成本更低、響應速度更快。此外,在政務、金融等垂直領域,我國詞元體系更貼合本土語境,落地應用的針對性與緊密性更強。但我國詞元體系建設仍存在差距:開源分詞工具與國際頂尖水平仍有差距,多模態標注體系及跨模態基準尚不完善,地方方言與小語種語料資源相對匱乏,相關數據集與工具生態的建設仍需持續推進。
03
助力人工智能產業發展
“詞元”為人類理解世界提供了新視角,也為推動人工智能在產業變革中高質量發展奠定了基礎。學者認為,我國詞元體系建設不僅要持續突破技術瓶頸,更要著力培育新質生產力,為高質量發展謀篇布局。
在詞元發展的數據底座建設上,趙闊提出,政策落地需從三方面發力。一是建立統一數據標準體系,健全采集管理標準與跨領域標注、質量評估規范,保障數據集多場景、多語種覆蓋。二是強化隱私合法保障,深化隱私計算應用,實現數據安全流通。三是依托國家數據交易平臺搭建共享機制,破除跨部門跨領域數據壁壘。
趙闊表示,高質量數據是詞元技術升級的關鍵支撐,豐富的語料可優化子詞詞表、提升低頻詞類推能力,跨模態標注助力詞元精準對齊,低資源語種語料能拓展覆蓋范圍。為此,需聚焦工業制造、金融、醫療等重點領域建設多模態語料庫,加大開源工具與對齊基準的政策資金支持,建立常態化質量評估體系,推動數據與詞元技術深度融合,構建自主可控的產業生態。
黃萱菁建議,以科學技術推動基礎研究實現突破,以工程智能推動產業升級,以具身智能打通數字與物理世界,構建自主可控算力底座,建設開放協同創新生態,夯實高質量數據供給與人工智能治理。
提升人工智能自主性競爭力的同時,還要讓其為人所用。當人工智能工具能夠作為數字載體生動還原歷史場景時,如何區分哪些內容是人類創作的,哪些是人工智能生成的,至關重要。“在此背景下,人類文化原創內容的數字繼承彌足珍貴。”施建軍說。
詞元連通數字與物理世界的信息往來,是人工智能理解語言、重構現實的核心載體,正從技術后臺走向市場前沿、從產業優化邁向國際競爭。受訪學者一致認為,“詞元”的推廣試用,將推動我國人工智能發展更加規范有序,圍繞詞元的技術創新與實踐探索,將持續助力人工智能更好地服務人類社會發展。
中國社會科學報記者 李永杰 實習生 付錦林
來源:中國社會科學報
責任編輯:許可
新媒體編輯:宗敏
如需交流可聯系我們
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.