![]()
大語言模型驅動的詞典編纂實踐革新與理論重構,共同勾勒出面向未來的詞典學新范式雛形。
原文 :《大語言模型催生詞典編纂新范式》
作者 |黑龍江大學俄語學院副教授 何洋洋
圖片 |網絡
近年來,大語言模型的快速發展對詞典學產生了深刻影響。長期以來,如何在保證學術規范與編纂質量的前提下提高詞典編纂效率,是學術界普遍關注的問題。經過大規模語料預訓練的大語言模型,憑借其出色的語言生成能力,使詞典“內容生成自動化”成為可能。我們須把握宏觀趨勢,從范式演進的高度認識大語言模型對詞典編纂實踐與理論的重構,致力于構建具有中國立場和學術自覺的新型詞典學自主知識體系。
![]()
![]()
![]()
基于內容生成自動化的詞典編纂新范式
詞典編纂向來周期長、投入大。此前的自動化與數字化嘗試,著力于提升編纂流程效率,如借助語料庫檢索輔助收詞、通過數據庫實現詞條統一管理、利用數字排版技術改進編輯與出版環節等。這使詞典編纂流程實現了一定程度的自動化,但詞條釋義、義項劃分和例證撰寫等核心環節仍主要依賴有經驗的編者完成。大語言模型強大的生成能力為詞典編纂從“流程自動化”轉向“內容生成自動化”提供了可能,詞典編纂新范式呼之欲出。
大語言模型主要是基于Transformer 架構的預訓練機制來實現詞典詞條的自動生成。其在大規模語料學習過程中內化了豐富的語言結構信息,具備了生成連貫文本的能力。在義項劃分方面,同一詞形在不同語境中,經由大模型編碼后呈現出不同的向量表征。通過對這些向量表征的聚類分析,篩選出語義明確的用法類型,即可對應詞的不同義項。在釋義與例句生成方面,大模型能在給定語境的情況下,生成符合要求的釋義與例句。此外,大語言模型的分布式表征能為構建詞匯語義網絡提供機器可循的線索:詞與詞在向量空間中的相似度,可用來識別同義、反義或轉換(如教與學、買和賣等)關系;結合它們在不同語境中的共現與替換分布特征,可識別上下位關系。通過對海量語料的概率建模與分布式表征學習,大語言模型使詞典內容自動生成在多個關鍵環節上具備可行性。從這個意義上講,它正深刻變革詞典編纂實踐,重構詞典編纂理論。
![]()
![]()
![]()
智能協同的詞典編纂實踐
大語言模型驅動的詞典編纂實踐在以下三方面顯著區別于傳統模式。
編纂載體的變化。詞典編纂的載體,傳統上是卡片,互聯網時代是語料庫,而在人工智能時代則有望被大語言模型和智能體取代。前兩者更新周期長、維護成本高,編纂流程仍主要依賴人工完成。這種靜態載體導致傳統詞典編纂存在周期長、更新慢的局限。大語言模型驅動的詞典編纂實踐,其載體不再是孤立的數據庫,而是一個以通用語言模型為中樞、多智能體協同運作的集成化平臺。通用模型提供對自然語言的理解與生成能力,不同智能體則分別承擔語義分析、釋義與例句生成等下游任務,為編纂工作的自動化與智能化奠定了技術基礎。
編纂流程的變化。大語言模型解構了傳統詞典編纂流程。在傳統流程中,編者必須先通過語料觀察和語義分析確定意義,再轉寫為規范釋文并佐以例證。大語言模型則依托其在大規模文本上習得的語言模式與共現規律,在給定詞目、語體/體例約束與上下文提示的條件下,直接進行概率式生成,產出多版本、可比較的候選表述。編者據此檢驗其語義覆蓋度、語料支撐與體例合規性。大語言模型并非先理解意義再尋找表達,而是先給出表達,再借由評估逼近合適的意義。傳統流程的核心在于“從語料中正確概括出意義”,新流程的核心則是“從或然性表述中,篩選并校準出最可靠的版本”。編纂的關鍵環節由“撰寫”轉為“驗收”,一套基于內容自動生成的新型人機協同流程得以確立。
編者角色的變化。在傳統模式中,詞典編者既是詞條內容的生產者,又是詞典質量的把關人。編者須親自完成每條釋義與例句的撰寫,全程參與資料搜集、內容編寫與定稿審核,其學術水平決定了詞典的權威性。大語言模型時代,編者更傾向于作為生成過程的引導者與質量審校者:一方面,通過設計提示框架與約束條件,引導模型穩定產出符合受眾定位、語言規范與詞典體例的詞條;另一方面,嚴格評估、核驗與潤色生成內容,把關事實是否準確、邏輯是否自洽和語言是否地道。編者須與模型對話,對不當內容及時糾偏并形成修訂規則。更關鍵的是,專家反饋將審校意見不斷固化,進一步提升模型生成內容的穩定性與可用性。編者工作重心從直接生產文本,轉向對生成機制、質量標準與最終結果的統籌和裁決。
![]()
![]()
![]()
生成導向的詞典編纂理論
與詞典編纂實踐相適應,大語言模型時代的詞典編纂理論在認識論、對象形態功能和規范觀方面都發生了深刻變革。
編纂認識論的變化。傳統詞典學的認識論根植于結構主義語言觀,將詞義視為穩定、可定義的概念實體,預設詞具有相對明確的語義邊界及可被識別和枚舉的義項集合。編者通過義項劃分、釋義撰寫與例證選取,將復雜的語言使用現象抽象和固化,使詞典成為對語言意義進行分類、歸納與固定化呈現的知識系統。大語言模型則基于大規模語料的統計學習,在不同上下文分布中自動捕捉詞義差異,由此構建了一種“生成主義”的詞典編纂認識論。新的認識論強調語義的概率性與情境依存性,承認詞義是在生成與使用中不斷被更新和校準的。相應地,詞典編纂不再以窮盡列舉并劃定詞義邊界為核心,而是借助模型捕捉語言意義的流動性,在具體語境中生成更貼合使用的解釋與呈現。這標志著詞典編纂從結構主義的“分類邏輯”邁向了生成主義的“生成邏輯”。
編纂對象形態功能的變化。大語言模型改變了詞典編纂對象(即詞典本身)的形態、組織方式與應用場景。傳統上,無論是紙質詞典還是電子詞典,其知識均被預定義為離散的詞條,通過固定的宏觀結構與模塊化的微觀結構(如分欄呈現釋義、例句)進行編排,本質上是結構化的知識載體,功能局限于被動的單向查詢。未來,詞典形態有望從有形的“書”演變為可嵌入各類語言使用場景的應用程序編程接口(API)或對話界面,其功能將升級為根據具體問題輸出連貫、滿足當下語言知識需求的解釋。詞典不再只是等待查詢的數據庫,而是能深度嵌入閱讀、寫作、翻譯等場景的交互式語言知識服務產品。其價值重心也從提供標準化釋義,轉向在具體場景中降低用戶獲取與應用語言知識的成本。詞典編纂也須順應形態功能的演變作出調整。
編纂規范觀的變化。在傳統編纂模式下,編纂者作為把關人,依據相對穩定、共時的語言體系,預先判斷哪些詞匯與用法可被收錄以及應當如何表述。規范主要表現為釋義措辭的取舍、用法標簽與例證選擇,包括對語體與風格的優劣判斷。這種排他式的規范觀更多依賴編者在撰寫詞條前作出裁定。大語言模型介入的詞典編纂,主要體現為對編纂過程的約束,即規定編纂系統如何按照提示及相應規則生成詞條內容、明確可用語料,統一釋義風格、術語體系與義項,設置事實核驗、一致性檢查以及幻覺的處置規則,并將審校意見作為約束條件以持續修正偏差。由此,詞典規范的標準從編者的個人審度,轉向人機協作對生成結果的持續校準,實現了從前期權威裁定到全流程約束的根本轉變。
![]()
大語言模型驅動的詞典編纂實踐革新與理論重構,共同勾勒出面向未來的詞典學新范式雛形。在這一范式下,詞典的核心角色已不再局限于作為權威參照的靜態工具書,而是演變為能夠持續追蹤語言動態、融合多源信息、服務于真實語言生活的知識服務產品。大語言模型為詞典學帶來的遠不止于技術層面的升級,更在于推動其重新審視自身的研究對象、方法論體系與價值目標。展望未來,如何在智能化背景下,構建兼具學術自覺、理論主體性與自主知識體系的詞典學理論,仍有賴于學界持續而深入的探索。
文章為社會科學報“思想工坊”融媒體原創出品,原載于社會科學報第2002期第5版,未經允許禁止轉載,文中內容僅代表作者觀點,不代表本報立場。
本期責編:程鑫云
![]()
《社會科學報》2026年征訂
點擊下方圖片網上訂報↓↓↓
![]()
![]()
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.