網易首頁 > 網易號 > 正文申請入駐

詞元重構AI產業新生態

2026-05-07 13:55:55　來源: 積學儲寶

北京舉報

分享至

在使用AI進行文字對話時，會出現這樣一幕場景：AI回答問題不是直接給出完整語段，而是閃爍著接連不斷的字符，整個過程看似一場文字接龍。實際上，在AI輸出這些字符時，后臺正在進行一場密集的計算。機器并不直接處理人類感知的“字”或“詞”，而是通過計算得出一個個詞元（Token），并將其解碼為自然語言。

今年初，全國科學技術名詞審定委員會正式確定“詞元”作為Token的規范中文名。近日，多位接受本報記者采訪的學者表示，當下，“詞元”這個原本存在于AI后臺的技術名詞，正進入AI智能體消費市場、AI自主性競爭等公共性話題的討論中。

從“數字原子”到“智能貨幣”

“從技術本質上來說，‘詞元’是大模型處理信息的最小離散單位。”復旦大學計算與智能創新學院教授黃萱菁介紹，大模型在處理文本時將輸入切分成的一系列基本單元，即為詞元，例如一個完整的詞或一個詞根、詞綴，甚至是單個漢字或字符。“詞元”的譯名也由此而來，“詞”點明了與語言文字的密切關聯，“元”則表示“基本單元、原子”之意。

隨著AI在圖像、音頻、視頻等領域的縱深推進，模態融合下的“詞元“概念早已遠超文字范疇。黃萱菁表示，在多模態大模型中，文字、圖像、聲音最終都被統一表示為詞元序列，共同進入模型的計算流程。可以說，詞元已經從最初的“文字基本單元”拓展為AI理解和生成信息的通用基本單位——它是人類世界與機器智能之間的橋梁。在暨南大學智能科學與工程學院副教授趙闊看來，詞元使AI得以通過概率組合數字原子，實現對復雜世界的統一感知與重構。

當詞元成為機器解構世界并展開創作的底層邏輯時，這些跳動的“數字原子”也躍出屏幕，在市場中成為“智能貨幣”。國家數據局局長劉烈宏在中國發展高層論壇2026年年會上提出，“詞元”不僅是智能時代的價值錨點，更是連接技術供給與商業需求的結算單位。根據艾媒咨詢發布的《2024—2025年中國AI大模型市場現狀及發展趨勢研究報告》，2024年，中國大模型市場規模已達294.16億元，預計到2026年將突破700億元。面對如此龐大的市場體量，當前，各大模型廠商的API定價都以“每百萬詞元”為基礎單位。

福耀科技大學常務副校長徐飛在最新發表的文章中提到，詞元的標準化與通用化將重構AI產業生態，催生詞元經濟這一全新經濟形態，也將催生全新的職業與產業賽道。

詞元體系競爭力凸顯

2023年，“新質算力基礎設施”概念首次被提出，其核心要義在于整合算力、數據、存儲及安全技術，為新質生產力發展提供支撐。時隔三年，“打造智能經濟新形態”“實施超大規模智算集群、算電協同等新基建工程”被正式寫入2026年政府工作報告。這一變化背后是人工智能與經濟社會各領域的深度融合，而算力作為培育新質生產力的新動能，其基礎設施布局在人工智能生態體系建設中發揮著關鍵作用。受訪學者認為，詞元體系建設作為大語言模型的核心環節，更是構建新質算力基礎設施的重要支撐。

“若將語言智能處理的整體能力與水平視為一種‘新質算力’，那么大語言模型相關軟硬件的研發與建設，便是打造‘新質算力基礎設施’的核心內容之一。”上海外國語大學語言科學研究院教授施建軍表示，詞元體系關系到模型的自主性、推理速度、輸出質量及價值觀導向，其重要性不言而喻。

趙闊認為，當前全球大模型詞元體系已呈現出四大鮮明特征。其一，技術路徑呈現多元化發展態勢，文本領域以子詞算法為主導，多模態領域則逐步轉向向量量化的離散映射模式。其二，標準化進程加速推進，國內已明確“詞元”的術語定義及結算地位，國際層面則通過擴容詞表破解碎片化難題，標準化建設進入關鍵階段。其三，生態兼容性持續提升，以HuggingFace為代表的開源工具鏈日趨成熟，主流模型與框架已實現詞表互通。其四，商業價值日益凸顯，詞元已成為大模型服務的核心計費單位，與此同時，也引發了版權保護、隱私安全及跨語種規則等一系列新的行業挑戰。

黃萱菁表示，我國已形成較強的詞元體系自主創新能力，但底層算力芯片與基礎軟件生態仍有優化空間。她從四個維度給出衡量標準及前沿數據。一是日均詞元調用量。截至2026年3月，日均詞元調用量已突破140萬億，凸顯出詞元經濟是AI商業化的核心邏輯，大模型正落地產業應用。二是分詞效率，國產大模型成效突出。DeepSeek等國產模型采用中文優化分詞器，編碼效率大大提升。三是上下文窗口規模。目前，國內外主流模型已擴展至數十萬乃至百萬級詞元，國產模型與國際前沿基本同步。四是詞元處理吞吐量與成本成為我國詞元體系建設的重點突破方向。國產大模型的算法優化成果提升了詞元處理效率。

趙闊補充道，國產大模型在中文詞元化效率上已實現超越——通過優化詞表結構，國產模型處理中文時詞元消耗更少，推理成本更低、響應速度更快。此外，在政務、金融等垂直領域，我國詞元體系更貼合本土語境，落地應用的針對性與緊密性更強。但我國詞元體系建設仍存在差距：開源分詞工具與國際頂尖水平仍有差距，多模態標注體系及跨模態基準尚不完善，地方方言與小語種語料資源相對匱乏，相關數據集與工具生態的建設仍需持續推進。

助力人工智能產業發展

“詞元”為人類理解世界提供了新視角，也為推動人工智能在產業變革中高質量發展奠定了基礎。學者認為，我國詞元體系建設不僅要持續突破技術瓶頸，更要著力培育新質生產力，為高質量發展謀篇布局。

在詞元發展的數據底座建設上，趙闊提出，政策落地需從三方面發力。一是建立統一數據標準體系，健全采集管理標準與跨領域標注、質量評估規范，保障數據集多場景、多語種覆蓋。二是強化隱私合法保障，深化隱私計算應用，實現數據安全流通。三是依托國家數據交易平臺搭建共享機制，破除跨部門跨領域數據壁壘。

趙闊表示，高質量數據是詞元技術升級的關鍵支撐，豐富的語料可優化子詞詞表、提升低頻詞類推能力，跨模態標注助力詞元精準對齊，低資源語種語料能拓展覆蓋范圍。為此，需聚焦工業制造、金融、醫療等重點領域建設多模態語料庫，加大開源工具與對齊基準的政策資金支持，建立常態化質量評估體系，推動數據與詞元技術深度融合，構建自主可控的產業生態。

黃萱菁建議，以科學技術推動基礎研究實現突破，以工程智能推動產業升級，以具身智能打通數字與物理世界，構建自主可控算力底座，建設開放協同創新生態，夯實高質量數據供給與人工智能治理。

提升人工智能自主性競爭力的同時，還要讓其為人所用。當人工智能工具能夠作為數字載體生動還原歷史場景時，如何區分哪些內容是人類創作的，哪些是人工智能生成的，至關重要。“在此背景下，人類文化原創內容的數字繼承彌足珍貴。”施建軍說。

詞元連通數字與物理世界的信息往來，是人工智能理解語言、重構現實的核心載體，正從技術后臺走向市場前沿、從產業優化邁向國際競爭。受訪學者一致認為，“詞元”的推廣試用，將推動我國人工智能發展更加規范有序，圍繞詞元的技術創新與實踐探索，將持續助力人工智能更好地服務人類社會發展。

中國社會科學報記者李永杰實習生付錦林

來源：中國社會科學報

責任編輯：許可

新媒體編輯：宗敏

如需交流可聯系我們

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.