![]()
讓詞元更有質(zhì)量
——推動(dòng)詞元經(jīng)濟(jì)高質(zhì)量發(fā)展
編者按詞元(Token)正成為人工智能服務(wù)的核心計(jì)量、結(jié)算與統(tǒng)計(jì)單位。當(dāng)前,詞元經(jīng)濟(jì)呈現(xiàn)爆發(fā)式增長(zhǎng)態(tài)勢(shì),各類應(yīng)用場(chǎng)景層出不窮,但“有流量、無質(zhì)量”“有消耗、難評(píng)價(jià)”等問題日益凸顯:詞元消耗量難以反映AI服務(wù)真實(shí)價(jià)值、定價(jià)機(jī)制混亂、高質(zhì)量供給缺乏有效激勵(lì)。
近日,國(guó)家數(shù)據(jù)局召開詞元經(jīng)濟(jì)座談會(huì),明確將詞元經(jīng)濟(jì)納入工作體系,釋放出推動(dòng)行業(yè)從規(guī)模擴(kuò)張轉(zhuǎn)向高質(zhì)量發(fā)展的強(qiáng)烈信號(hào)。中國(guó)經(jīng)濟(jì)時(shí)報(bào)社等機(jī)構(gòu)的專家學(xué)者和部分知名企業(yè)代表應(yīng)邀參會(huì)發(fā)言。本期《智薈月刊》以“讓詞元更有質(zhì)量——推動(dòng)詞元經(jīng)濟(jì)高質(zhì)量發(fā)展”為主題,特別邀請(qǐng)四位與會(huì)專家,圍繞詞元經(jīng)濟(jì)健康發(fā)展的核心議題展開深入研討,并從政策、技術(shù)、經(jīng)濟(jì)與治理等維度帶來前沿思考與務(wù)實(shí)建議,以饗讀者。
![]()
習(xí)近平經(jīng)濟(jì)思想研究中心研究三部主任、研究員毛科俊
核心觀點(diǎn)
我國(guó)詞元經(jīng)濟(jì)健康發(fā)展面臨著計(jì)量定價(jià)、數(shù)據(jù)供給、技術(shù)自主、算電協(xié)同、安全防護(hù)等諸多關(guān)鍵關(guān)口。能否跨越這些關(guān)口,決定著我國(guó)詞元經(jīng)濟(jì)能否實(shí)現(xiàn)量質(zhì)齊升,也在一定程度上決定了我國(guó)智能經(jīng)濟(jì)發(fā)展質(zhì)量。
■毛科俊 梁永堅(jiān)
詞元是大模型處理信息的最小信息單元。我國(guó)日均詞元調(diào)用量從2024年初的1000億,到2025年底的100萬億,再到今年3月突破140萬億,兩年間增長(zhǎng)超千倍。圍繞詞元的生產(chǎn)、調(diào)用、分發(fā)與結(jié)算所衍生形成的新型經(jīng)濟(jì)形態(tài)——詞元經(jīng)濟(jì),正在從理論探討進(jìn)入產(chǎn)業(yè)實(shí)踐階段,反映了人工智能正從技術(shù)攻堅(jiān)階段邁向價(jià)值兌現(xiàn)新階段。然而,和任何新生事物一樣,詞元經(jīng)濟(jì)的健康發(fā)展絕非坦途。從當(dāng)前實(shí)踐看,我國(guó)詞元經(jīng)濟(jì)健康發(fā)展面臨著計(jì)量定價(jià)、數(shù)據(jù)供給、技術(shù)自主、算電協(xié)同、安全防護(hù)等諸多關(guān)鍵關(guān)口。能否跨越這些關(guān)口,決定著我國(guó)詞元經(jīng)濟(jì)能否實(shí)現(xiàn)量質(zhì)齊升,也在一定程度上決定了我國(guó)智能經(jīng)濟(jì)發(fā)展質(zhì)量。
一、詞元經(jīng)濟(jì)健康發(fā)展需跨越計(jì)量定價(jià)關(guān)
詞元經(jīng)濟(jì)之所以能夠成為現(xiàn)實(shí),關(guān)鍵在于詞元本身具備可計(jì)量、可定價(jià)、可交易屬性,為原本難以度量的數(shù)據(jù)活化程度、智能服務(wù)規(guī)模提供了“度量衡”。詞元計(jì)量標(biāo)準(zhǔn)的統(tǒng)一性與定價(jià)機(jī)制的科學(xué)性,是整個(gè)詞元經(jīng)濟(jì)賴以健康運(yùn)行的制度基石。
從計(jì)量層面看,詞元缺乏統(tǒng)一的標(biāo)準(zhǔn)體系。詞元是分詞算法對(duì)輸入文本進(jìn)行切分后形成的產(chǎn)物。不過,具體切分邏輯內(nèi)嵌于模型架構(gòu)之中,對(duì)外部參與者而言透明度不高。而同一語義內(nèi)容在不同模型的切分邏輯下,可能對(duì)應(yīng)數(shù)量相差數(shù)倍的詞元。這種技術(shù)上的“黑箱”特性,使得詞元這一本應(yīng)客觀中立的計(jì)量單位,在現(xiàn)實(shí)中容易被掌握分詞規(guī)則制定權(quán)的平臺(tái)方影響,進(jìn)而形成一種非對(duì)稱計(jì)量權(quán)力關(guān)系。
從定價(jià)層面看,詞元經(jīng)濟(jì)面臨成本結(jié)構(gòu)的非對(duì)稱性、量與質(zhì)脫鉤的局面。詞元生產(chǎn)的成本結(jié)構(gòu)呈現(xiàn)極端的“L型”特征:大模型預(yù)訓(xùn)練階段成本巨大,而一旦模型訓(xùn)練完成,生成額外詞元的邊際成本較低。隨著用戶持續(xù)增多,前期投入的巨額成本被不斷攤薄,理論上可趨近于零。與此同時(shí),相同數(shù)量的詞元在不同場(chǎng)景中可能價(jià)值迥異:一份商業(yè)合約分析與一次日常閑聊所消耗的詞元可能相近,但前者產(chǎn)生的經(jīng)濟(jì)價(jià)值可能是后者的成千上萬倍。然而,當(dāng)前無論是按量計(jì)費(fèi)、訂閱制還是混合式的大模型計(jì)價(jià)模式,本質(zhì)都是基于詞元消耗數(shù)量,而對(duì)詞元生成質(zhì)量陷入無差別定價(jià),導(dǎo)致量質(zhì)脫鉤問題突出。這種計(jì)價(jià)單位的“均質(zhì)化”假設(shè),可能誘發(fā)開發(fā)者為節(jié)約成本而刻意縮短詞元長(zhǎng)度,而非著力提高回答質(zhì)量,出現(xiàn)“劣幣驅(qū)逐良幣”的逆向淘汰。
從制度層面看,詞元經(jīng)濟(jì)的治理能力滯后于市場(chǎng)實(shí)踐。詞元定價(jià)權(quán)高度集中于平臺(tái)尤其是頭部平臺(tái),用戶與數(shù)據(jù)貢獻(xiàn)者缺乏議價(jià)能力。平臺(tái)單方面制定計(jì)價(jià)規(guī)則,即使不直接調(diào)整名義價(jià)格,也能通過微調(diào)分詞器設(shè)計(jì)、上下文緩存策略等關(guān)鍵技術(shù)參數(shù)而間接影響交易,形成傳統(tǒng)反壟斷工具難以有效識(shí)別的新型市場(chǎng)權(quán)力,容易導(dǎo)致收益分配的結(jié)構(gòu)性失衡。
破解計(jì)量定價(jià)困局,需要加快標(biāo)準(zhǔn)建設(shè)、完善定價(jià)機(jī)制、加強(qiáng)監(jiān)管治理協(xié)同發(fā)力。在標(biāo)準(zhǔn)建設(shè)層面,盡快明晰詞元統(tǒng)計(jì)口徑、核算方法與分詞規(guī)則的規(guī)范,建立分詞器備案與計(jì)量審計(jì)制度。在定價(jià)機(jī)制層面,引入響應(yīng)精度、任務(wù)完成率、安全合規(guī)性等質(zhì)量指標(biāo),進(jìn)行復(fù)合評(píng)價(jià),使詞元定價(jià)從單純的數(shù)量計(jì)費(fèi)走向量質(zhì)并重計(jì)費(fèi)。在監(jiān)管治理層面,明確平臺(tái)披露詞元計(jì)量規(guī)則、通知價(jià)格調(diào)整、留存計(jì)費(fèi)日志等方面要求,并建立健全第三方核驗(yàn)機(jī)制,切實(shí)保障用戶的知情權(quán)與在不同平臺(tái)間比價(jià)的能力。
二、詞元經(jīng)濟(jì)健康發(fā)展需跨越數(shù)據(jù)供給關(guān)
數(shù)據(jù)為詞元的形成提供了最基本的原材料。詞元經(jīng)濟(jì)健康發(fā)展離不開數(shù)據(jù)供給尤其是高質(zhì)量數(shù)據(jù)供給。
從數(shù)據(jù)質(zhì)量看,詞元經(jīng)濟(jì)健康發(fā)展不止于數(shù)據(jù)規(guī)模擴(kuò)大,更依賴于數(shù)據(jù)質(zhì)量的提升。2025年,我國(guó)年度數(shù)據(jù)生產(chǎn)總量達(dá)52.3澤字節(jié),同比增長(zhǎng)27.3%,數(shù)據(jù)生產(chǎn)總量占全球約27.4%。然而,我國(guó)數(shù)據(jù)供給面臨數(shù)據(jù)規(guī)模擴(kuò)張與高質(zhì)量數(shù)據(jù)集不足的量質(zhì)失衡困境。AI需要“精細(xì)糧”,相對(duì)線性增長(zhǎng)的高質(zhì)量數(shù)據(jù)卻難以匹配AI的超線性發(fā)展預(yù)期,比如高端制造、教育培訓(xùn)、醫(yī)療診斷等垂直領(lǐng)域?qū)I(yè)化、標(biāo)準(zhǔn)化、高可信度的數(shù)據(jù)依然稀缺,影響了專業(yè)場(chǎng)景下的大模型應(yīng)用效果,制約著詞元經(jīng)濟(jì)從通用服務(wù)領(lǐng)域擴(kuò)大到專業(yè)賦能領(lǐng)域。
從數(shù)據(jù)流通看,“數(shù)據(jù)孤島”現(xiàn)象依然存在。公共數(shù)據(jù)開發(fā)利用仍需加力推進(jìn),公共數(shù)據(jù)開放共享和安全保護(hù)的平衡難度較大。大量高價(jià)值數(shù)據(jù)沉淀在政府部門、社會(huì)組織、企業(yè)等的內(nèi)部系統(tǒng)中,因安全顧慮、利益博弈或技術(shù)問題而無法有效流通。
從數(shù)據(jù)權(quán)益分配機(jī)制看,貢獻(xiàn)與回報(bào)失衡的問題日益凸顯。用戶在消費(fèi)詞元時(shí)所產(chǎn)生的交互數(shù)據(jù),可反哺上游模型的優(yōu)化,通過“消費(fèi)即生產(chǎn)”形成正反饋循環(huán)。然而,在這一價(jià)值共創(chuàng)鏈條中,用戶貢獻(xiàn)如何確認(rèn)、平臺(tái)能否無償吸收用戶在使用服務(wù)過程中形成的知識(shí)經(jīng)驗(yàn),是有待厘清的涉及生產(chǎn)關(guān)系的深層次問題。
破解數(shù)據(jù)供給困局,需要從提升質(zhì)量、促進(jìn)流通、強(qiáng)化激勵(lì)等層面系統(tǒng)推進(jìn)。在提升質(zhì)量層面,深化行業(yè)高質(zhì)量數(shù)據(jù)集建設(shè)行動(dòng),以場(chǎng)景需求為牽引,構(gòu)建覆蓋高端制造、教育培訓(xùn)、醫(yī)療診斷等高價(jià)值場(chǎng)景的“數(shù)據(jù)糧倉”。在促進(jìn)流通層面,深化數(shù)據(jù)要素市場(chǎng)化配置改革,鼓勵(lì)公共部門、科研機(jī)構(gòu)、頭部企業(yè)在安全前提下有序開放脫敏后的高價(jià)值數(shù)據(jù),協(xié)同詞元服務(wù)開發(fā)者共建解決方案,持續(xù)探索“詞元交易”等新型交易模式。在強(qiáng)化激勵(lì)層面,探索建立用戶數(shù)據(jù)貢獻(xiàn)的回饋機(jī)制,使用戶能夠依據(jù)其產(chǎn)生的數(shù)據(jù)價(jià)值而獲得相應(yīng)的合理報(bào)酬。
三、詞元經(jīng)濟(jì)健康發(fā)展需跨越技術(shù)自主關(guān)
詞元的生產(chǎn)、調(diào)用等效能高度依賴芯片性能、算法效率與算力協(xié)同調(diào)度水平。如果核心技術(shù)受制于人,詞元經(jīng)濟(jì)的發(fā)展容易陷入“數(shù)字技術(shù)依附”。技術(shù)自主可控是詞元經(jīng)濟(jì)健康發(fā)展的關(guān)鍵。
從供應(yīng)鏈安全看,硬件、軟件等層面存在不同程度的對(duì)外依賴。在硬件層面,高端GPU、EUV光刻機(jī)、高端EDA工具、光刻膠等產(chǎn)品的核心技術(shù)仍被國(guó)外少數(shù)大型廠商壟斷,國(guó)產(chǎn)替代尚需時(shí)日。在軟件層面,操作系統(tǒng)、IDE等同樣面臨對(duì)外依賴。在算法層面,核心算法仍被國(guó)外少數(shù)技術(shù)寡頭壟斷。
從基礎(chǔ)研究看,底層原創(chuàng)能力不足是制約技術(shù)自主可控的關(guān)鍵瓶頸。大模型架構(gòu)、高效分詞算法、分布式訓(xùn)練框架等原創(chuàng)性突破仍主要源于國(guó)外。雖然我國(guó)在應(yīng)用層創(chuàng)新層面十分活躍,涌現(xiàn)出一批優(yōu)秀的模型和應(yīng)用場(chǎng)景,但在基礎(chǔ)理論、底層架構(gòu)、算法范式等“根技術(shù)”領(lǐng)域,原創(chuàng)性累積不夠。這種“應(yīng)用強(qiáng)、基礎(chǔ)弱”的創(chuàng)新結(jié)構(gòu),意味著我國(guó)詞元經(jīng)濟(jì)的發(fā)展在相當(dāng)程度上是在他國(guó)開辟的技術(shù)路線上進(jìn)行優(yōu)化和追趕,新技術(shù)方向開辟不足。而一旦技術(shù)范式發(fā)生重大變革,或國(guó)際科技合作環(huán)境惡化,我國(guó)詞元經(jīng)濟(jì)的技術(shù)體系可能面臨被動(dòng)局面。
從技術(shù)生態(tài)看,研發(fā)、應(yīng)用等各環(huán)節(jié)之間的協(xié)同不足制約技術(shù)水平整體提升。一個(gè)健康的技術(shù)生態(tài)不僅需要單點(diǎn)突破,更需要多點(diǎn)爆發(fā)、協(xié)同演進(jìn)。否則,單個(gè)環(huán)節(jié)的自主可控難以轉(zhuǎn)化為整個(gè)技術(shù)體系的自主可控。當(dāng)前,我國(guó)在芯片設(shè)計(jì)、算法研發(fā)、應(yīng)用開發(fā)等多個(gè)環(huán)節(jié)之間還存在協(xié)同不足的問題。比如,在軟硬件協(xié)同方面,我國(guó)國(guó)產(chǎn)大模型與國(guó)產(chǎn)算力芯片之間的適配度不高,而算法框架和芯片架構(gòu)之間的不適配會(huì)直接拉低訓(xùn)練效率、推高推理成本。
破解技術(shù)“卡脖子”困局,需要從補(bǔ)齊供應(yīng)鏈短板、強(qiáng)化基礎(chǔ)研究、優(yōu)化技術(shù)生態(tài)等方面加力。在供應(yīng)鏈層面,加大對(duì)關(guān)鍵軟硬件研發(fā)等重點(diǎn)領(lǐng)域的扶持,著力突破瓶頸制約。在基礎(chǔ)研究層面,加強(qiáng)對(duì)基礎(chǔ)理論、底層架構(gòu)等的前瞻性研究,鼓勵(lì)探索新技術(shù)范式,為下一代技術(shù)變革儲(chǔ)備原創(chuàng)性成果。在技術(shù)生態(tài)層面,推動(dòng)算法、芯片、應(yīng)用等環(huán)節(jié)協(xié)同演進(jìn),構(gòu)建良性技術(shù)生態(tài)。
四、詞元經(jīng)濟(jì)健康發(fā)展需跨越算電協(xié)同關(guān)
算力的盡頭是電力。詞元生產(chǎn)成本中電力支出比重較高。據(jù)測(cè)算,電力成本占數(shù)據(jù)中心運(yùn)營(yíng)成本的50%至70%,這幾乎是算力最大的剛性支出。算力與電力的深度協(xié)同,不僅關(guān)乎詞元經(jīng)濟(jì)當(dāng)下的發(fā)展速度,更關(guān)乎這一新形態(tài)可持續(xù)發(fā)展能力。
從跨區(qū)域調(diào)度看,算力需求與電力資源區(qū)域分布存在空間錯(cuò)配問題。東部地區(qū)算力需求全國(guó)占比相對(duì)較高,但電力資源緊張;西部地區(qū)電力資源富集,但算力需求全國(guó)占比相對(duì)較低。而電網(wǎng)調(diào)度與算力調(diào)度實(shí)時(shí)交互機(jī)制尚不完善,跨區(qū)域綠電交易通道容量有限,跨區(qū)域算電系統(tǒng)協(xié)同調(diào)節(jié)效率仍然不高。
從匹配效率看,綠電供給間歇性特征與算力中心連續(xù)用電需求之間存在內(nèi)在矛盾。風(fēng)電、光伏等新能源發(fā)電具有明顯的間歇性和波動(dòng)性。而算力中心的運(yùn)行恰恰需要連續(xù)、穩(wěn)定的電力供應(yīng),斷電或電壓波動(dòng)可能導(dǎo)致訓(xùn)練任務(wù)中斷、數(shù)據(jù)丟失甚至硬件損壞。儲(chǔ)能技術(shù)雖然可以在一定程度上平抑波動(dòng),但大規(guī)模儲(chǔ)能的成本仍然較高。
從技術(shù)支撐看,算電深度融合仍存在多項(xiàng)技術(shù)瓶頸。當(dāng)前,超萬卡規(guī)模智算集群在面臨負(fù)載動(dòng)態(tài)遷移時(shí),存在效率低、時(shí)延高的問題,而電力系統(tǒng)要求快速響應(yīng)。同時(shí),綠電溯源標(biāo)準(zhǔn)化、智能化水平偏低,難以支撐綠色算力認(rèn)證與交易。
破解算電協(xié)同難題,需要從加強(qiáng)規(guī)劃、完善機(jī)制、提升技術(shù)水平等方面著力。在規(guī)劃層面,加強(qiáng)算力布局與電力規(guī)劃統(tǒng)籌銜接,推動(dòng)算力設(shè)施向西部綠電富集區(qū)集群布局,提高可再生能源利用水平,緩解算電分離狀況。在機(jī)制層面,加快跨區(qū)域電力市場(chǎng)建設(shè),完善綠電交易機(jī)制。在技術(shù)層面,加快突破算電聯(lián)合調(diào)度等關(guān)鍵技術(shù)瓶頸,完善綠電溯源、消費(fèi)核算等配套技術(shù)。
五、詞元經(jīng)濟(jì)健康發(fā)展需跨越安全防護(hù)關(guān)
詞元生產(chǎn)、調(diào)用等過程涉及面廣,安全風(fēng)險(xiǎn)點(diǎn)多,高度依賴全鏈條的安全可控。一旦安全底線失守,不僅可能導(dǎo)致用戶隱私泄露、企業(yè)商業(yè)損失,更可能引發(fā)虛假信息蔓延、社會(huì)認(rèn)知混亂乃至威脅意識(shí)形態(tài)安全。
在隱私泄露風(fēng)險(xiǎn)方面,在模型輸入、處理、輸出端均存在隱私泄露可能。在輸入端,用戶提示詞可能包含涉及隱私的敏感信息;在處理端,大模型可能“記憶”敏感信息,形成“記憶泄露”潛在風(fēng)險(xiǎn);在輸出端,大模型可能在“無意”中泄露敏感信息。模型被攻擊、數(shù)據(jù)被捕獲也可能造成隱私泄露。
在數(shù)字鴻溝方面,詞元接入差距可能成為制約智能普惠的結(jié)構(gòu)性因素。只有那些有能力負(fù)擔(dān)相應(yīng)詞元消耗量的機(jī)構(gòu)和個(gè)體,才有機(jī)會(huì)使用具備更強(qiáng)推理能力、能夠完成更復(fù)雜任務(wù)的模型,而無能力負(fù)擔(dān)的其他用戶只能使用僅能完成簡(jiǎn)單任務(wù)的模型。這種詞元接入上的差距有可能演變?yōu)樽罱K的收益鴻溝。
從認(rèn)知錯(cuò)位風(fēng)險(xiǎn)看,將詞元生產(chǎn)、調(diào)用等嵌入知識(shí)、文化傳播過程,從而將可能的風(fēng)險(xiǎn)延伸至價(jià)值觀等認(rèn)知層面。大模型并非價(jià)值中立的語義機(jī)器,其訓(xùn)練語料的構(gòu)成、知識(shí)關(guān)聯(lián)的選擇、生成內(nèi)容的傾向,都影響著使用者的認(rèn)知框架。在這個(gè)意義上,詞元經(jīng)濟(jì)能夠影響知識(shí)建構(gòu)、文化表達(dá)、價(jià)值闡釋。如果模型預(yù)設(shè)的文化觀念和價(jià)值立場(chǎng)與主流認(rèn)知存在偏差,用戶可能在潛移默化中受到影響。
構(gòu)筑詞元經(jīng)濟(jì)的安全防線,需要從加強(qiáng)隱私防護(hù)、降低使用門檻、維護(hù)認(rèn)知安全等方面推進(jìn)。在加強(qiáng)隱私防護(hù)方面,建立覆蓋數(shù)據(jù)采集、模型訓(xùn)練、模型推理、內(nèi)容輸出等全鏈條的防護(hù)體系,加強(qiáng)數(shù)據(jù)加密、隱私計(jì)算等技術(shù)手段的應(yīng)用。在降低使用門檻方面,通過公共算力補(bǔ)貼、詞元套餐普惠化、農(nóng)村地區(qū)服務(wù)下沉等方式,讓詞元經(jīng)濟(jì)的發(fā)展成果惠及更廣泛的社會(huì)群體。在維護(hù)認(rèn)知安全方面,加快建設(shè)高質(zhì)量中文語料庫體系,把中華優(yōu)秀傳統(tǒng)文化、社會(huì)主義核心價(jià)值觀等轉(zhuǎn)化為規(guī)范完整的高質(zhì)量語義資源,增強(qiáng)我國(guó)詞元服務(wù)體系的文化自主性與價(jià)值判斷力。
(毛科俊系習(xí)近平經(jīng)濟(jì)思想研究中心研究三部主任、研究員;梁永堅(jiān)系習(xí)近平經(jīng)濟(jì)思想研究中心助理研究員)
![]()
總 監(jiān) 制丨王列軍車海剛
監(jiān) 制丨陳 波 王 彧 楊玉洋
主 編丨毛晶慧 編 輯丨陳姝含
![]()
![]()
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.