智通財經APP獲悉,4月15日,國家數據局發布關于向社會征求《關于推進行業高質量數據集建設行動的實施方案(征求意見稿)》意見的公告。征求意見稿提出,到2028年底,建成一批覆蓋重點領域、經過應用驗證的行業高質量數據集,打造一批數據驅動人工智能創新發展的典型應用場景,培育一批具備領先優勢的創新型數據企業和專業人才,形成一批行業高質量數據集建設標準和工具。數據從供給到價值釋放的良性循環基本形成,數據賦能人工智能創新發展的作用更加凸顯,數據產業與人工智能深度融合,持續催生智能經濟新增長點。
原文如下:
關于推進行業高質量數據集建設行動的實施方案
(征求意見稿)
行業高質量數據集是經過采集、加工等數據處理,可直接用于開發和訓練人工智能模型,并能有效提升模型、智能體、智能終端等應用效能的行業數據的集合,包含行業通識和行業專識數據集。行業高質量數據集是推動“人工智能+”賦能千行百業、實現產業落地的基礎性、關鍵性資源。為落實國民經濟和社會發展“十五五”規劃綱要,深入實施“人工智能+”行動,推動行業高質量數據集建設推廣與“人工智能+”同頻共振、互促共進,強化數據賦能人工智能創新發展,制定本方案。
一、總體要求
以習近平新時代中國特色社會主義思想為指導,深入貫徹黨的二十大和歷次全會精神,全面落實“人工智能+”行動,主動順應人工智能發展范式躍遷,按照“需求牽引,急用先行,應用驗證,安全保障”原則,聚焦國民經濟發展重點行業和戰略性新興產業,圍繞行業高質量數據集供給、流通、應用等關鍵環節,部署強基擴容、標注攻堅、提質增效、應用賦能、管理服務、價值釋放六個專項行動,形成“場景牽引數據、數據驅動模型、模型賦能應用、應用創造價值”的“數據飛輪”,加快構建數據要素與人工智能協同演進的共生生態。
到2028年底,建成一批覆蓋重點領域、經過應用驗證的行業高質量數據集,打造一批數據驅動人工智能創新發展的典型應用場景,培育一批具備領先優勢的創新型數據企業和專業人才,形成一批行業高質量數據集建設標準和工具。數據從供給到價值釋放的良性循環基本形成,數據賦能人工智能創新發展的作用更加凸顯,數據產業與人工智能深度融合,持續催生智能經濟新增長點。
二、實施強基擴容行動
順應人工智能加速向行業滲透,從對話向多模態生成、決策執行、具身智能、物理交互等范式躍遷的趨勢,拓寬數據供給渠道,豐富數據供給類型,加快建設行業高質量數據集,為人工智能發展和應用提供充足“燃料”。
(一)聚焦行業領域推進高質量數據集建設。聚焦科學研究、工業制造、農業農村、智慧能源、交通運輸、金融服務、醫療衛生、教育教學、電子商務、人力資源、文化旅游、應急管理、氣象服務、綠色低碳、公共安全、城市治理、住房建設、自然資源等重點領域,以及低空經濟、具身智能、智能駕駛、智慧海洋、生物制造等創新領域,加快推進行業高質量數據集建設。
(二)體系化推進行業高質量數據集建設。梳理行業數據資源底數和應用場景,建立數據資源清單和數據集需求清單。以應用為牽引,持續推進行業高質量數據集建設先行先試,加快形成一批可復制、可推廣的數據驅動型示范場景。強化鏈主單位牽引帶動作用,推動產業鏈上下游協同共建和資源整合,持續擴大行業高質量數據集供給規模,鼓勵鏈主單位面向行業開放數據集并提供數據服務。加大公共數據資源開發利用力度,依托公共數據建設一批高質量數據集。
(三)順應人工智能發展推進行業高質量數據集建設。面向人工智能預訓練、指令微調、強化學習、測評等各階段,持續推進文本、代碼、圖像、音頻、視頻、點云、時序數據、科學數據等多模態高質量數據集建設。面向智能體等新型智能應用形態,加強知識庫、知識圖譜、本體等數據集建設,加快復雜任務規劃、長程推理、人機交互、決策執行等數據集建設。面向具身智能發展需求,加快重點場景物理交互、環境感知、運動控制等真機交互數據集建設,積極應用仿真模擬與合成技術擴大數據供給。積極布局世界模型等前沿方向數據集建設。
(四)強化與數據基礎設施建設有機聯動。鼓勵依托國家數據基礎設施,充分運用隱私保護計算、可信數據空間等能力,開展數據集安全存儲、可信流通、高效應用,推動數據集從分散持有向集約化、標準化供給轉變。鼓勵探索建設支撐大規模、多模態數據集的數據基礎設施存力中心。
三、實施標注攻堅行動
數據標注是將知識和經驗注入到訓練數據的過程,是行業高質量數據集建設不可或缺的關鍵環節。引導數據標注從以人為主向人機協同、專家深度參與的多層次標注模式轉變,推動數據標注向專業化、智能化、體系化躍升。
(五)推動數據標注轉型升級。加強數據標注領域科技創新,強化自動化工具和平臺的研發與應用,發展“模型預標注+人工校準”、“人工標注+模型檢驗”、“模型預標注+模型檢驗”等智能化標注服務,全面提升數據標注水平。發展專家型數據標注服務,建立行業專家認證注冊機制,推動專家深度參與指令微調、強化學習等階段所需的專業知識標注,生產邏輯推理、領域知識等高質量數據集,提高數據集的知識密度與專業價值。
(六)持續推動數據標注先行先試。指導首批七個承擔數據標注先行先試任務的城市,持續做強做深數據標注產業。面向創新能力強、發展基礎好、產業特色優的地區,梯次布局一批數據標注創新試驗區。有序引導具備條件的地區因地制宜開展試驗區建設,避免一哄而上,防止同質化、低水平重復建設,促進數據標注產業鏈上下游緊密協同,形成產業集聚效應。培育一批數據標注龍頭企業、獨角獸企業、瞪羚企業,壯大數據標注產業。
(七)擴大數據標注人才供給。支持有條件的院校增設數據標注相關課程,依托產教融合、校企協同等方式,培育具備專業知識的數據標注人才。鼓勵開展數據標注職業技能等級認定,強化繼續教育與在職培訓,暢通人才發展通道。完善分層分類人才評價體系,建設專職與兼職相結合的專業標注人才隊伍。鼓勵高校畢業生等群體參與標注工作,通過靈活就業、項目協作、多元崗位供給等,擴展就業渠道。
四、實施提質增效行動
推動構建符合結構完整性、內容多樣性、標注準確性、模型適配性等質量標準、滿足人工智能就緒(AI-Ready)的高質量數據集,降低訓練推理成本,有效提升模型性能。
(八)提升行業高質量數據集建設質效。加強數據清洗、增強、標注、對齊、質檢等關鍵技術攻關和全過程自動化工具研發應用,支撐高效率、高標準構建行業高質量數據集。針對行業特定應用場景,鼓勵運用數據智能過濾與配比等技術,構建更精、更強的高知識密度數據集,降低訓練推理成本。發揮數據合成在數據集建設中的積極作用,利用模型、仿真系統等生成的數據,解決稀缺場景數據集構造難、真實場景數據采集成本高等問題。
(九)推動高質量數據集標準體系建設和應用落地。加快推進高質量數據集格式、類型、標注、質量測評等相關國家標準研制,健全高質量數據集標準體系。鼓勵各行業、各地方與國家標準聯動,推動重點行業領域高質量數據集標準研制。加強標準應用驗證和貫標,促進高質量數據集規范化建設。
(十)強化高質量數據集質量測評和結果互認。持續完善“數據質量驗證+模型應用反饋”的測評方法,加快建設覆蓋多行業、多場景、多模態的測評數據集,有效評估高質量數據集應用效果。發起高質量數據集測評聯合行動倡議,推動相關單位按照標準,采用統一測評方案和工具開展測評和封裝工作,實現“一次測評、全國互認”。
五、實施應用賦能行動
堅持行業高質量數據集建設與實際應用深度融合,以模引數、用數賦模,促進高質量數據集建設與“數據要素×”“人工智能+”同頻共振,全面賦能產業數智化轉型。
(十一)打造“數據飛輪”應用閉環。以模型應用牽引數據供給、以數據驅動模型迭代,打造“場景—數據—模型”協同發展的良性循環。發揮“人工智能+”場景牽引作用,推動數據供給和場景的精準匹配,以用促建,以實際需求吸引更多數據資源匯聚,推動行業高質量數據集有效供給和持續優化。結合“數據要素×”行動,深化行業高質量數據集建設,以建促用,充分利用模型應用產生的動態交互數據等,驅動行業模型能力持續提升。
(十二)打造行業應用標桿和示范工程。著力打造集“數據集生產加工和流通利用、支撐模型訓練應用”于一體的數據賦能工場,打造一批行業標桿,加速人工智能應用落地。打造一批“數據×智能體”示范工程,樹立高質量數據集成功驅動智能體解決實際問題的樣板,引領帶動規模化應用。
(十三)繁榮數據集協同發展生態。加強統籌協調,強化部門聯動,分行業分領域有序推進高質量數據集建設和應用。搭建企業、高校院所、科研機構、行業協會、金融機構等多方交流平臺,形成共建共享、互利共贏的產業生態。常態化舉辦供需對接活動,提升供需匹配效率,促進實質性合作落地。組織遴選行業高質量數據集建設和應用典型案例,發揮行業示范引領作用。支持舉辦行業高質量數據集創新賽事活動,以賽促建、以賽促用。深化國際交流合作,鼓勵行業高質量數據集建設主體積極參與全球數據生態建設。
六、實施管理服務行動
加強數據集管理,完善數據倫理和治理機制,推動落實數據權益相關制度,推進數據集建設體系更加規范有序。
(十四)構建數據集全生命周期的管理體系。加強覆蓋數據采集、處理、標注、質檢、測評、迭代、審計等全生命周期的數據集管理服務能力建設,依托數據基礎設施,強化隱私保護計算、區塊鏈等技術應用,確保數據可管、可控、可追溯。建設“物理分散、邏輯集中”的國家數據集管理平臺,實現數據集目錄、供需等信息互聯互通。支持各地方、行業依托國家平臺設置專區,支持已有平臺與國家平臺對接。
(十五)探索面向人工智能發展的數據權益相關制度。按照數據持有權、使用權、經營權三權分置原則,明確數據集產權配置方案。在保障合法權益的前提下,適度拓展版權合理使用邊界。兼顧產權保護與創新發展需求,在人工智能訓練階段探索彈性監管體系,打造權責清晰、合規包容的制度環境。
(十六)堅持倫理先行與公平普惠。研究探索高質量數據集倫理道德規范,堅持有益社會的價值導向,嚴禁非法收集或使用敏感數據。防范數據集建設全流程產生數據偏見與歧視,充分考慮社會各界多元需求,最大限度確保數據集建設成果惠及全民。
七、實施價值釋放行動
發揮數據集的應用價值,以行業高質量數據集賦能人工智能發展。釋放數據集的要素價值,推動數據集商業化、資產化,培育為數據付費的市場共識,探索以詞元(Token)為基礎的價值體系。
(十七)發揮行業高質量數據集的應用價值。建立數據集和模型需求對接機制,推動行業高質量數據集和模型精準適配,提高模型質量和效率,深度賦能行業發展。推動行業高質量數據集跨行業、跨領域、跨場景融合利用,鼓勵“以數換數”、“數模互換”、“數據托管”、“數算一體”等多種應用模式。積極參與開源社區建設,鼓勵中介機構、公益機構將具有基礎性、公益性數據集作為公共產品向社會公開,激發用數活力。
(十八)創新行業高質量數據集商業模式。完善數據集長效運營機制,鼓勵數據集在數據交易所等數據流通服務機構掛牌交易,發展“訂閱模式”、“商場模式”、“定制模式”等多元服務形態,推動商業模式從基礎數據包銷售向應用程序接口(API)調用、模型化解決方案及全棧服務梯次躍升。探索詞元交易等新型交易模式,構建以詞元為基礎,可量化、可定價的數據集價值體系。
(十九)探索行業高質量數據集資產化創新路徑。鼓勵有條件的單位率先探索開展數據集資產盤點、登記、評估等試點工作,為數據資產化積累可復制、可推廣的經驗。鼓勵探索數據集質押融資、作價入股、資產證券化、數據信托、數據保險等多元化資產化創新模式,拓寬數據價值轉化渠道。
(二十)培育為高質量數據付費的市場共識。建立健全市場化利益分配機制,確保數據供給、加工、流通、應用等各環節主體均能獲得市場化價值回報,共享數據紅利。鼓勵數據需求方通過購買、合作等形式加大投入,充分發揮政府部門、國有企業、模型企業等單位的示范引領作用,推動數據采買納入預算編制,率先開展數據采購實踐,帶動形成數據有償使用市場共識,構建健康可持續的數據市場生態。
八、保障措施
國家數據局發揮統籌協調作用,會同有關部門協同推進高質量數據集建設與應用,構建“部門協同、領域聯動”的工作格局。各地要落實屬地管理責任,加大組織實施力度,結合實際制定配套措施,統籌安排數據產品和服務采購經費,用于支持行業高質量數據集建設。支持各類主體以應用為牽引,積極開展和參與行業高質量數據集建設。引導金融機構、耐心資本、產業基金等,加大對行業高質量數據集建設的投資力度,鼓勵地方設立專項資金,探索多元化、多渠道投入機制。建立健全盡職免責機制,完善試錯容錯管理制度,鼓勵在依法依規、風險可控前提下開展創新探索。持續跟蹤行業高質量數據集建設工作,完善監測指標,評估建設和應用成效,階段性總結經驗。強化安全保障,落實數據安全相關法律法規要求,建立全流程安全治理機制,防范數據投毒、數據篡改、數據泄露等安全風險,守牢數據安全底線。
本文編選自國家數據局,智通財經編輯:陳雯芳。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.