網易首頁 > 網易號 > 正文申請入駐

在食品安全領域人工智能垂直應用中構建高質量專業語料的思考

2026-04-09 16:55:26　來源: 中國食品安全報

北京舉報

分享至

當前，人工智能正以前所未有的速度滲透至食品安全風險治理領域，推動食品安全監管從“被動響應”向“主動預見”、從“經驗驅動”向“數據驅動”的根本性轉變。然而，在這一轉型過程中，一個核心問題日益凸顯：如果缺乏高質量的食品安全領域專業語料，將可能導致人工智能應用陷入“場景陷阱”，即投入大量資源建設的智能化平臺，最終因無法滿足實際需求而淪為“場景擺設”。本文旨在初步闡述食品安全風險治理領域垂直應用中為何必須構建高質量專業語料，為全國推進“人工智能+食品安全”行動提供參考。

一、理論層次：專業語料是垂直領域人工智能的“認知基石”

1.人工智能模型的“數據決定論”。人工智能模型的性能邊界內在地取決于其訓練數據的質量。無論算法架構如何優化，若缺乏高質量數據，模型將無法學習到該領域的核心知識與規律。我們的研究證實，沒有高質量的專業語料庫，人工智能在垂直領域的應用就是“無米之炊”“無源之水”。這一結論在學術界正在形成廣泛共識。通用大語言模型雖然在海量通用數據上表現卓越，但在食品安全領域面臨知識體系碎片化、語義解析粗粒度、專業邏輯離散化等三重局限，難以滿足食品安全風險識別等復雜任務對高精度領域知識的需求。

2.食品安全領域的知識特殊性。食品安全領域知識特殊性主要體現在以下維度：第一，專業術語體系復雜且多義性強。食品安全領域涉及食品科學、微生物學、化學、法學、公共管理等多學科深度交叉，存在大量專業術語和復雜概念。同一術語在不同語境下可能呈現不同的語義指向和表達方式，通用語料無法有效識別這些術語之間的復雜語義關系，導致AI模型在知識抽取與理解過程中出現認知偏差。第二，知識體系動態更新且時效性要求高。食品安全法律法規、標準規范、監管政策處于持續迭代更新之中，新發風險、新興污染物、新型違法手段不斷涌現。通用語料受限于訓練數據的時間窗口，無法及時捕獲這些動態變化，導致模型輸出信息存在滯后性甚至根本性錯誤，難以滿足風險治理對時效性的剛性要求。第三，風險信號隱蔽性強且傳導鏈條復雜。食品安全風險往往隱匿于“從農田到餐桌”的復雜產業鏈條之中，涉及生產、加工、流通、餐飲、消費等多個環節，跨環節、跨區域、跨主體的風險傳導路徑錯綜復雜。單一維度的數據難以完整呈現風險全貌，對風險信號的捕捉需要突破“點狀數據”的局限。高質量專業語料能關聯多源異構信息，構建起覆蓋全鏈條、可追溯、可推理的風險傳導知識圖譜，實現對隱蔽風險的穿透式識別與預警。

3.語料標注的核心價值。語料標注是將原始文本數據轉化為機器可理解和可學習知識的關鍵過程。從食品安全風險管理學角度而言，其價值體現在：第一，橋梁作用。連接非結構化原始文本與結構化機器知識。食品安全領域的原始文本（如行政處罰決定書、刑事判決書、民事判決書等）具有高度非結構化、語義復雜、邏輯嚴密的特點。語料標注通過實體識別、關系抽取、事件標注等技術手段，將這些“人類可讀但機器難解”的文本轉化為“機器可計算、可推理”的結構化知識，架設起從原始數據到智能應用的語義橋梁。第二，定義作用。決定AI模型的學習邊界與性能天花板。語料標注直接定義了AI模型能夠學習什么任務、學到什么深度、達到什么精度。標注的粒度粗細、維度多寡、質量高低，從根本上決定了模型的上限，高質量的精細標注能夠支撐模型學習復雜的法律邏輯與量罰關系，而粗放式標注則只能實現淺層的信息抽取。第三，基石作用。構建食品安全知識圖譜與高級AI應用的底層支撐。食品安全風險治理的智能化本質上依賴于對領域知識的系統化組織與深度挖掘。高質量標注形成的語料庫是構建食品安全風險知識圖譜、風險傳導模型、智能預警系統、行政處罰單自動生成智能體等高級應用的基礎設施。沒有高質量標注，就沒有真正意義上的“AI+食品安全”智能應用。

二、技術層次：專業語料決定垂直應用的性能邊界

1.從通用模型到垂直應用的“知識鴻溝”。通用大語言模型雖然在開放域問答中表現優異，但在食品安全垂直領域面臨明顯的“知識鴻溝”。以國內某研究機構發布的FoodSky（食天）食品大語言模型研究為例，研究者發現通用模型在廚師和營養師專業考試中的準確率遠低于領域專用模型，通用大模型在處理食品安全領域的細粒度知識時明顯不足，難以應對不同飲食文化背景下的復雜數據與專業場景。沒有專業語料的支撐，再強大的通用模型也無法在特定領域達到可用水平，這構成了從通用能力到專業應用之間不可逾越的技術鴻溝。

2.語料標注的多層次技術需求。食品安全領域的人工智能應用涉及從感知到認知的多層次任務，每一層次都對語料標注提出差異化、遞進式的技術要求：第一，詞法層面。領域術語的精準切分與識別。對于中文食品安全文本，需要構建專業領域詞典，實現對“微生物污染”“保健食品”“非法添加物”等專業術語的正確切分與邊界識別，避免通用分詞模型對領域術語的誤切、漏切。第二，語義層面。實體識別與語義關系的深度抽取。包括命名實體識別、語義角色標注、情感標注等。在食品安全領域需要精準識別風險主體（生產者、經營者）、風險因子（致病菌、農獸藥殘留）、受影響群體（消費者、特定人群）等關鍵實體，以及它們之間的語義關系（導致、引發、來源于），形成結構化的風險知識單元。第三，句法與篇章層面。跨句、跨段的共指消解與知識關聯。例如，“三文魚”的商品通用名與其學名“大西洋鮭”需建立共指關聯；黃曲霉毒素B1在文本中的多種表述需實現統一識別與歸并等。

江南大學食品安全與國家戰略治理實驗室宋曉寧教授的研究指出，通過綜合運用大語言模型、知識圖譜與文本向量庫，可以顯著提升食品安全領域的知識檢索效率與準確性。科學的食品知識圖譜將食品安全領域的知識結構化，形成可關聯、可追溯、可推理的知識網絡，確保信息的準確性、一致性與可解釋性。

三、比較研究：國際前沿與國內實踐

1.國際前沿研究。國際學術界在食品安全領域專業語料構建方面已取得顯著進展，形成了多模態、多場景、多任務的發展格局。Cell Press旗下期刊《Patterns》近年來發表的FoodSky研究，代表了食品大語言模型的前沿方向。該研究通過整合多種權威來源的食品數據，構建了大規模的食品語料庫，并提出了分層主題檢索增強生成算法，通過在推理過程中檢索外部知識庫來增強生成內容的準確性與可靠性。

在計算機視覺領域，面向食品質量檢測的專用數據集不斷涌現。加納學者發布的MeatScan數據集，包含11000幅高分辨率RGB圖像，覆蓋露天市場、肉鋪和冷庫等真實場景，用于深度學習-based的新鮮與變質牛肉分類。孟加拉國學者發布的FruitVision數據集，包含81232幅圖像，涵蓋蘋果、香蕉、芒果等五種水果的新鮮、腐爛和福爾馬林混合三類狀態，為檢測非法添加物提供了寶貴的訓練數據與基準參考。國際經驗表明：專業語料的建設已成為全球食品人工智能領域的競爭焦點。誰掌握了高質量的專業語料，誰就掌握了該領域人工智能發展的主動權。這一趨勢深刻揭示出：在食品安全垂直領域，語料建設已從“支撐性工作”上升為“戰略性工程”。

2.國內探索。總體而言，目前國內食品安全專業領域語料庫建設還剛剛起步。江南大學在食品安全領域人工智能應用方面開展了系統性探索，為全國提供了可借鑒的經驗。2025年7月，江南大學食品學院與科大訊飛、華為等單位共同發布全球首個食品學科專用大模型FoodSeek（食問）。該模型初步完成了食品專業學科大模型基座構建和多個專用智能體應用的研發工作，初步具備專注于解決食品學科的信息抽取、推理、精準解析、智能問答等多維度功能需求的專業能力。江南大學食品安全與國家戰略治理實驗室與北京市煒衡（無錫）律師事務所、北京熱熱科技有限公司等深度合作，基于“企業標注能力+律師專業素養+高校專業模型”的聯合模式，正在開發“食品安全風險治理領域專業語料標注平臺”，有望填補國內空白。該平臺依靠食品安全專業領域的專家標注高質量語料數據，將人工智能專家的知識注入模型，實現了“專業知識+工程能力+場景落地”的閉環。

盡管我國在食品安全領域人工智能應用方面取得重要進展，但我們的調研發現，不少地方在建設“AI+食品安全監管智能化”平臺中存在突出問題：沒有或很少基于食品安全風險治理語料庫，沒有科學地對語料進行標注。這一問題導致部分應用場景淪為“場景擺設”——由于缺少高質量的語料，AI模型無法理解食品安全領域的專業術語和上下文，無法在復雜的風險信息中找到路徑并進行預測，最終難以支撐真實的業務閉環。沒有標注的語料對AI來說就是“天書”，標注質量直接決定AI模型的準確率。

四、未來建議：構建國家通用的食品安全專業語料體系

1.建設國家級食品安全語料庫。建議國家相關部門牽頭，頂層設計，高度重視食品安全專業語料體系建設，將其作為推進“人工智能+食品安全”行動的基礎性、先導性工程，統籌規劃、系統推進，為構建全域、全程、全員的食品安全智慧治理新范式奠定堅實基礎。

2.形成多層次的語料體系。從政府治理食品安全風險的角度，完整的食品安全語料體系至少應該包括范圍廣、全覆蓋、體系化的行政處罰與司法懲罰案例語料體系，食品安全法律、法規與政策語料體系，食品安全國家技術標準語料體系，各地再深化地方性法規、政策、地方食品技術標準語料體系，從而形成自上而下的全國性食品安全語料庫，使之成為推進“AI+食品安全”行動的戰略資源。

3.標準先行。語料體系的建設基礎是語料的標注，而語料標注需要標注規則。查閱國內所有文獻資料與全國性、地方性標準，似乎沒有食品安全風險治理領域語料的相關標注規則、方法、指南等。我們思考后初步認為，應該率先研制《食品安全風險治理本體模型與類型定義規范》《食品安全風險治理語料標注操作指南》《食品安全風險治理語料質量分級與審計規程》三個基礎性標準。上述第一標準面向食品安全風險治理領域，可以采用本體建模方法，對領域核心概念及其類型進行定義的規范性文件；第二個標準承擔著將理論藍圖轉化為高質量語料的關鍵職能，它既是給標注員的“施工手冊”，也是連接“學術定義”與“工程實踐”的橋梁；第三個標準是承擔著“建得怎么樣”的核心職能，它是語料庫建設的“質檢關卡”和“信任基石”。這三個標準之間，可以類比為“憲法—稅法—審計法” 的邏輯關系，構成一個從理論建構—工程落地—質量保障的完整閉環。

4.政產學研用協同創新。國家相關部門可采用揭榜掛帥的方式選擇全國食品安全風險治理領域語料庫建設的牽頭單位，組建由高校、科研院所、食品企業、人工智能企業共同參與的政產學研用體系，共同建設國家級食品安全專業語料庫，制定全國性的食品安全語料采集、清洗、標注的技術規范和標準體系。鼓勵人工智能企業與食品企業合作，將實踐經驗反哺語料庫建設，實現“專業知識+工程能力+場景落地”的閉環。從國家法律法規數據庫、國家市場監督管理總局官網、國家裁判文書網等官方渠道歸集權威、宏觀數據與提供覆蓋從農田到餐桌的全鏈條，包括生產、加工、流通、消費各環節的風險信息，服務語料體系建設。

5.建立語料動態更新機制。食品安全知識具有動態性，語料庫建設不是“一錘子買賣”。應同步建議法規動態跟蹤：實時捕獲法律法規、標準規范的更新信息，風險事件歸集：將新發生的食品安全事件及時納入語料庫，模型反饋閉環：利用AI模型在實際應用中的表現，反向指導語料的優化和擴充等更新機制（本文為上海市經濟和信息化委員會，項目編號：2025-GZL-RGZN-BTBX-02016的階段性研究成果）。

作者：江南大學食品安全與國家戰略治理實驗室首席專家吳林海

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.