通信世界網消息(CWW)“傳統模式下,數據反哺業務,形成‘數據飛輪’;AI興起后,‘數據飛輪’升級為‘數據-智能-業務’三維飛輪,數據需通過智能環節實現對業務的精準賦能。”在近日舉辦的2025數據要素發展大會上,中國信通院云計算與大數據研究所姜春宇主任表示。
在本次大會上,姜春宇發表了《高質量數據集建設觀察》的主題演講,聚焦十大重點行業,系統闡述了政策支持下高質量數據集建設的技術與應用進展,剖析了當前面臨的制度、標準、技術、生態等層面挑戰,展望了中短期技術普及與長期協同生態的發展趨勢。
姜春宇表示,隨著智能算力、模型訓推等對數據集依賴的日益加深,高質量數據集的重要性愈發凸顯。在此背景下,我國政府通過一系列措施,著力推動高質量數據集建設,從“人工智能+”行動的順利發布,到《高質量數據集建設指引》對外亮相,政策層面已形成多層次的支撐體系。
據姜春宇觀察,伴隨高質量數據集的建設,各類交易平臺已開始上架高質量數據集,以央國企等行業龍頭為建設主體,成為推動建設工作的核心力量。姜春宇介紹,為進一步推動重點行業高質量數據集建設,中國信通院在國資委支持下開展了專項調研,覆蓋10個重點行業、20家重點央企,通過實踐調研、專家訪談等,全面掌握行業高質量數據集建設情況。
姜春宇介紹了十大行業的數據特點:在智能能源領域,石油天然氣數據具有碎片化特點,電網運行數據具有高保密特征;在工業制造領域,數據具有多源性、強時序性、高價值性等特征;在綠色低碳領域,數據涉及范圍廣、來源豐富、跨領域性強、國際化程度高;在金融服務領域,存在結構化、半結構化、非結構化等多種數據;在交通物流領域,細分領域較多,數據模態較為豐富;在農業農村,數據來源廣泛,時間依賴性和季節屬性強,部分領域存在噪聲多、缺失多、來源分散的問題;在醫療衛生領域,數據具有高敏感、專業性和格式多樣的特點,在隱私性、完整性和安全合規方面要求嚴格;在應急管理方面,數據分散在多部門、多區域、多系統之間,存在采集標準不統一、數據互通不暢的問題;在移動通信領域,數據規模龐大、實時性強、關聯度高;在文化旅游領域,數據具有多模態、多來源、長尾分布明顯、情感表達豐富、審美標準多元、依賴文化語境的特點。
在分析十大行業數據特點的同時,姜春宇也發現了行業高質量數據集建設存在四大挑戰:制度機制不健全、標準體系未完善、技術能力較薄弱、數據生態較局限。他介紹,中國信通院制定了一系列標準體系,指導企業構建研發、交付、運維、運營一體化的生產流程;搭建了全方位服務能力,涵蓋質量評價、建設運營評估、技術支撐等;形成了平臺工具的技術規范,明確數據處理與管理的技術要求;構建了高質量數據集標準體系,為業界提供參考。
展望未來,姜春宇表示,高質量數據集建設工作剛剛起步,后續需在制度、標準、技術、生態等方面形成合力,充分發揮數據、智能與業務的飛輪效應,形成繁榮、可持續的產業生態,持續賦能各行業智能化轉型。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.