本文約2700字,預計5.4分鐘閱讀完畢
商務君按:在全球互聯(lián)網(wǎng)語料中,英文語料占比59.8%,而中文只占到1.3%。高質(zhì)量中文語料稀缺,將直接影響國產(chǎn)AI大模型的訓練,如何解決這一問題?在近期舉辦的2026中國網(wǎng)絡媒體論壇上,長期從事AI語料體系研究的專家施其明,針對中文語料供給問題給出了可行性建議。
![]()
算力軍備競賽的硝煙尚未散盡,一場更深層的戰(zhàn)略焦慮正在AI產(chǎn)業(yè)圈蔓延——支撐下一代大模型訓練的高質(zhì)量中文語料,嚴重告急。
在2026中國網(wǎng)絡媒體論壇“善用善治:AI內(nèi)容規(guī)范發(fā)展”主題論壇案例分享環(huán)節(jié),長期從事AI語料體系研究的專家施其明,圍繞中文語料供給問題作出系統(tǒng)闡述。與以往不同的是,這一次,他不僅給出判斷,也帶來了一套經(jīng)過實踐驗證的整體性框架。
![]()
“語料問題,本質(zhì)上不是技術(shù)問題,而是戰(zhàn)略問題。”施其明說。
在他的研究體系中,算法、算力與語料構(gòu)成AI發(fā)展的三大核心變量。前兩者已在政策與產(chǎn)業(yè)層面獲得高度重視,而語料,尤其是高質(zhì)量中文語料,卻長期游離于戰(zhàn)略視野之外。
“語料承載價值導向,也塑造模型的理解方式。”他說,“如果模型主要依賴英文數(shù)據(jù)成長,它對世界的認知框架、表達習慣乃至價值判斷,都會不可避免地產(chǎn)生偏移。”
他判斷,這種結(jié)構(gòu)性忽視,正在產(chǎn)生代價。
失衡:1.3%意味著什么
“59.8%對1.3%。”
這是英文與中文在全球互聯(lián)網(wǎng)語料中各自占據(jù)的份額。在施其明看來,這種差距并不會停留在統(tǒng)計層面,而會在模型能力上不斷放大,并最終反饋到產(chǎn)業(yè)應用之中。
尤其在垂直領(lǐng)域,這一問題表現(xiàn)得更為突出。當前,醫(yī)療、法律、制造等專業(yè)場景對大模型的需求快速增長,但能夠支撐垂類模型訓練的高質(zhì)量中文語料卻極為稀缺。
“有需求,沒數(shù)據(jù),這是很多團隊正在面對的現(xiàn)實。”他說。
在長期研究基礎(chǔ)上,施其明將中文語料供給的結(jié)構(gòu)性問題歸納為4個方面:一是全球語料結(jié)構(gòu)失衡,導致中文語境被邊緣化;二是垂直領(lǐng)域?qū)I(yè)語料匱乏,制約行業(yè)模型發(fā)展;三是語料標注標準不統(tǒng)一,高水平標注能力不足;四是高價值數(shù)據(jù)分散,形成“數(shù)據(jù)孤島”,流通機制缺失。
“這不是單點問題,而是供給體系層面的失靈。”他說。
更緊迫的,是時間窗口正在收窄。隨著大模型訓練成本不斷攀升,公開數(shù)據(jù)資源逐步被消耗殆盡,行業(yè)競爭正從“誰能用數(shù)據(jù)”,轉(zhuǎn)向“誰能獲取高質(zhì)量私域數(shù)據(jù)”。
“下一階段,比拼的是數(shù)據(jù)質(zhì)量與組織能力。”施其明判斷,“這個窗口期不會太長。”
在他的分析中,語料已成為繼算力之后,決定AI競爭格局的關(guān)鍵變量。“算力可以通過投入獲得,技術(shù)可以通過研發(fā)突破,但語料,尤其是承載本土知識體系與文化結(jié)構(gòu)的高質(zhì)量中文語料,沒有現(xiàn)成路徑,只能系統(tǒng)建設(shè)。”他說。
破局:一個超預期的答案
面對這一結(jié)構(gòu)性缺口,施其明并未直接給出宏觀解法,而是選擇從具體場景入手,驗證語料供給體系的可行路徑。
2025年,他與團隊將目光投向出版業(yè),將其作為第一個實驗性切口。這一選擇,源于他對“高質(zhì)量語料應具備何種特征”的反向推導。
“一個理想的語料來源,應同時具備3個條件:內(nèi)容經(jīng)過嚴格篩選,結(jié)構(gòu)具備系統(tǒng)性,生產(chǎn)過程具備可控性。”施其明說,“沿著這個標準去看,出版體系具備典型特征。”
在他看來,出版流程本身就是一套成熟的質(zhì)量控制機制。從選題論證到專家評審,再到“三審三校”,內(nèi)容在進入市場之前已完成多輪篩選與校驗,相較于互聯(lián)網(wǎng)數(shù)據(jù),具備更高的可靠性與更低的噪聲水平。
同時,書籍在文本結(jié)構(gòu)上的優(yōu)勢,也與大模型訓練需求高度契合。系統(tǒng)化的知識組織、完整的論證鏈條、穩(wěn)定的語義結(jié)構(gòu),使其成為訓練長文本理解與復雜推理能力的重要數(shù)據(jù)來源。
“當前模型在處理復雜長文本任務時的不穩(wěn)定表現(xiàn),很大程度上源于訓練數(shù)據(jù)結(jié)構(gòu)的缺失。”施其明說,“出版內(nèi)容所提供的,是一種‘能力型語料’。”
在實踐過程中,他進一步將關(guān)注點從內(nèi)容延伸至生產(chǎn)主體。施其明注意到,編輯群體在長期工作中形成的內(nèi)容判斷能力與規(guī)范執(zhí)行能力,與語料加工需求高度契合。
“編輯的工作,本質(zhì)上是對語義進行精細加工與標準化處理。”他說,“很多編輯在一個專業(yè)方向深耕10年、20年,他們做的語義判斷,是任何自動化工具都替代不了的。”
在這一邏輯下,出版體系不僅是內(nèi)容來源,也構(gòu)成語料加工的重要節(jié)點。目前,部分出版機構(gòu)已參與相關(guān)實踐,完成了從語料測評、加工到流通的全流程驗證。
“我們更關(guān)心的是路徑是否成立。”施其明說,“從結(jié)果來看,這種以專業(yè)內(nèi)容體系為基礎(chǔ)、以人工能力為支撐的語料供給方式,是可以跑通的。”
在他的整體框架中,出版業(yè)的意義,并不在于其行業(yè)屬性本身,而在于提供了一種可復制的方法——即如何將既有的知識生產(chǎn)體系,轉(zhuǎn)化為面向人工智能的高質(zhì)量數(shù)據(jù)供給體系。
藍圖:面向"十五五"的系統(tǒng)工程
在施其明的構(gòu)想中,出版業(yè)只是起點,而非終點。
“出版體系承載的是存量知識,而AI的應用還涉及動態(tài)決策與前沿探索。”他說,“真正的語料體系,必須覆蓋更廣泛的知識生產(chǎn)網(wǎng)絡。”
基于這一判斷,他將語料供給體系的擴展路徑指向基礎(chǔ)教育、高等教育、科研機構(gòu)與智庫體系等多個知識生產(chǎn)節(jié)點。“所有具備系統(tǒng)化知識生產(chǎn)能力的機構(gòu),都可以成為語料供給節(jié)點。”他說。
最終,這些節(jié)點將被組織為一個統(tǒng)一的體系,形成自主可控、安全合規(guī)、標準統(tǒng)一的國家級中文語料庫。“目標是從根本上改變中文語料的弱勢地位,為國產(chǎn)AI構(gòu)建穩(wěn)定的數(shù)據(jù)基座。”施其明說。
圍繞這一目標,他將實現(xiàn)路徑拆解為3個層面。
在制度層面,他強調(diào)標準體系建設(shè)的先行性。“當前最大的問題,是缺乏統(tǒng)一標準,導致語料質(zhì)量無法衡量,數(shù)據(jù)也難以流通。”他建議由國家層面牽頭,聯(lián)合科研機構(gòu)與行業(yè)主體,制定覆蓋采集、清洗、標注與共享的全流程標準。“有了標準,產(chǎn)業(yè)才能從分散走向協(xié)同。”
在技術(shù)層面,他指出工程化能力的缺口。“從學術(shù)研究到規(guī)模化生產(chǎn)之間,仍存在明顯斷層。”他建議加強產(chǎn)學研協(xié)同,重點突破知識型語料加工的關(guān)鍵技術(shù),構(gòu)建可規(guī)模復制的加工體系。
在流通層面,他認為激勵機制是關(guān)鍵所在。“數(shù)據(jù)確權(quán)、收益分配與安全流通機制不完善,會直接影響高價值數(shù)據(jù)的供給意愿。”他建議依托可信數(shù)據(jù)空間等基礎(chǔ)設(shè)施,探索語料確權(quán)與交易機制,“讓語料資源在安全合規(guī)的軌道上高效流動,而不是繼續(xù)沉睡在各自的孤島里”。
“語料體系建設(shè),是一項長期工程,它既關(guān)系當下競爭,也決定未來格局。”施其明說。人工智能的競爭,正在從技術(shù)能力的比拼,轉(zhuǎn)向基礎(chǔ)資源與體系能力的較量。
“鑄實基座,方能始通新途。”他說,“基座不牢,走得再快,也難以走遠。”
*本文圖片由施其明團隊提供
編輯:楊志敏
審核:盛 娟
終審:陳佳楣
分享、在看與點贊,商務君至少要擁有一個
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.