![]()
(圖片來源:攝圖網)
(記者 杜峰)國家數據局發布的相關數據顯示,截至2025年底,全國已建成的高質量數據集超過10萬個,總體量超過890PB,這相當于中國國家圖書館數字資源總量的310倍。然而,數據的“豐裕”并不等同于價值的“釋放”。從海量“原礦”到真正可用的“燃料”,仍然舉步維艱,亟需找出一條破局之路。
缺乏加工和處理,高質量數據日漸稀缺
數據,被譽為人工智能時代的“新石油”。何為高質量數據?國家數據局指導發布的《高質量數據集建設指引》指出,高質量數據是指經過采集、加工等數據處理,可直接用于開發和訓練人工智能模型,能有效提升模型表現的數據的集合。“10萬個數據集”這一數字固然振奮人心,但當前,海量數據仍處于“原礦”狀態,缺乏初級加工和處理。這一困境的癥結,主要體現在三個層面。
首先是標準之困。目前尚無全國統一的《高質量數據集質量評測規范》,缺乏一套覆蓋分類、元數據、質量評價的國家級統一標準,各行業、地區對“高質量”的定義差異較大,導致數據集質量良莠不齊。清華大學法學院教授申衛星指出,衍生數據由原始數據經加工、建模、分析等形成,但“加工到何種程度可構成衍生數據”尚無統一標準,導致確權困難。
其次是成本之困。數據清洗是公認的高成本環節。根據Gartner的統計,數據科學家花費60%-80%的時間在數據清洗上,而糟糕的數據質量會導致企業決策錯誤的概率增加30%-50%。對于廣大中小企業而言,高昂的數據清洗成本更是將其擋在了“人工智能+”大門之外。
第三是安全之困。數據的價值在于流通,但流通的前提是安全與合規。一方面,數據交易規則和監管機制不健全,導致數據濫用、數據泄露等風險;另一方面,數據分類分級、數據脫敏、數據加密等技術應用不足,難以滿足數據全生命周期的安全管理需求。正如國家數據局局長劉烈宏所明確提出的,要破解數據“安全、合規、高效流通”的“不可能三角”難題。
運營商破局從“數據原礦”到“精煉燃料”
在破解數據“煉油”難題的過程中,三大通信運營商正以其獨特優勢,成為這場變革的探路者和先行者。
中國電信以“數據運營”為核心驅動力,將海量數據與科技能力轉化為賦能千行百業的核心能力。據中國電信總經理劉桂清介紹,中國電信正努力成為數據和基礎大模型服務提供商,打造數據智能中臺,匯集自有、開源和第三方數據,已匯集10萬億token通信行業數據和14個行業超350TB的行業數據,賦能模型訓練和應用。自主研發的星辰大模型體系和智能體服務平臺,正加快推進模型服務更加普惠。
中國移動依托梧桐大數據平臺,公司已構建458個高質量數據集,存儲高價值數據達2000PB,打造的“數聯網”實現數據安全可信流通。數據標注方面,通過自主研發多模態標注工具與全流程質量管理體系,構建“采集-標注-管理”閉環,標注效率較傳統模式提升300%,為20余個重點大模型項目提供核心支撐。
中國聯通推出Universe生態開放平臺,該平臺由“數據底倉”“聯通優選”“解決方案工廠”三大模塊構成,以可信數據空間為基礎,打通OT與IT數據語義壁壘,聚合連接、算力、服務、安全等原子能力及生態伙伴優質能力,構建可復制、可推廣的行業解決方案模板庫。與此同時,聯通還構建了信息通信領域高質量數據集,總量達53.5TB,數據集質檢合規率超過98%,涵蓋網絡運營、客戶服務、電信反詐等六大領域。這些經過“精煉”的數據產品,正在成為AI大模型訓練不可或缺的高質量“燃料”。
邁向“精煉時代”制度與技術雙輪驅動
三大運營商的實踐表明,數據“煉油”之難并非無解之題。通過標準化治理破解“方言”困局,通過可信技術縫合安全與流通的裂縫,通過數據運營賦能垂直場景的價值釋放,運營商正在構建一條從“原礦”到“燃料”的完整產業鏈。
但破局不僅需要企業層面的探索,更呼喚制度層面的頂層設計。2026年被國家數據局定調為“數據價值釋放年”,一系列制度安排正在加速落地。
在制度層面,國家數據局正加大數據產權制度宣貫力度,加快建立全國統一的數據產權登記制度,明確數據的“持有權、使用權、經營權”配置方案。這一制度設計旨在破解“不敢供數、不愿共享、難以定價”的困局,讓數據真正“流動起來”。
在技術層面,隱私計算、區塊鏈等技術正在成為破解“不可能三角”的關鍵工具。通過推廣“數據可用不可見”的技術方案,在保障安全的前提下實現數據價值的合規流通。中國電信翼支付推出的“辰璣”數智金融系統,實現了從底層芯片、操作系統到上層業務應用的100%全棧國產化,采用云原生單元化分布式架構,支撐10萬TPS高并發支付,這一自主可控的底層能力,為數據要素的安全高效流通提供了堅實基座。
在生態層面,國家正更大力度培育物流、金融、醫療、養老等高價值應用場景,支持數據流通服務平臺、數據商等機構探索流通新模式,推動行業數據集在數據交易所掛牌交易。近日中國電信攜手成都市國家數據標注基地正式啟用數據標注技術研究中心,發布星海·可信數據空間與智云四川·AI超市兩大平臺,以全棧技術能力布局數據要素市場,為AI時代構筑一座堅實、安全、高效的“數據糧倉”。
站在“十五五”歷史節點上,我們有理由相信,當制度供給與技術賦能形成合力,當運營商等市場主體持續深耕,數據“煉油”的難關終將被攻克。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.