周三下午三點,一個語言學家刪掉了自己寫了三年的規則庫。他意識到,靠手工歸納復合名詞的語義關系,這條路走不通了。于是,他開始嘗試讓機器自己從數據里學。
這個實驗的核心設計很簡單:給統計模型喂一堆名詞復合詞,看它能不能學會區分“巧克力蛋糕”和“蛋糕巧克力”。前者是材料關系,后者是口味關系。人類一眼能懂,但機器要猜對,需要足夠多的共現線索。
研究人員用了一個樸素的做法——不預設任何語言學規則,只讓模型計算兩個名詞在語料庫里的搭配概率。結果發現,即便是最簡單的二元組統計,也能在封閉測試集上拿到超過七成的準確率。這比當年最復雜的符號系統還高了十幾個點。
更有意思的是錯誤分析。模型在“西紅柿醬”這種高頻搭配上幾乎全對,但在“蘋果汁”和“蘋果派”的區分上頻繁翻車。因為語料里兩者都常見,統計信號互相抵消了。
這個實驗發生在詞向量和Transformer遠未出現的年代,但它埋下了一條重要線索:當任務定義得足夠窄,簡單的統計就能揭示語言的結構規律。今天的多模態模型能不能看懂名詞復合詞?這個老問題值得重新挖出來看看。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.