網易首頁 > 網易號 > 正文申請入駐

ACL 2026 Oral｜語義推理如鯁在喉：大模型被「短語」難住了

2026-06-11 14:46:33　來源: 機器之心Pro

天津舉報

分享至

研究發表于 ACL 2026 主會，并獲選為 Oral 論文，核心作者為北京通用人工智能研究院的研究者劉洋和北京科技大學的本科生李鴻銘，指導老師為北京科技大學外國語學院教授秦曉惠以及計算機與通信工程學院副教授劉乾坤和黃超。

論文標題：Revisiting a Pain in the Neck: A Semantic Reasoning Benchmark for Language Models
項目主頁：https://semanticqa.github.io
論文鏈接：https://arxiv.org/pdf/2604.16593
評測實現：https://github.com/jacklanda/SemanticQA

引言：當語言理解成為假象

AI 的能力邊界正在不斷被刷新。從數學推理到代碼生成，再到數字化白領，語言模型和語言智能體在諸多基準測試中已展現出超越人類專家的表現。一個看似順理成章的判斷早已成為共識：語言模型已經具備了扎實的語言理解和語義推理能力。然而，ACL 2026 Oral的一項研究工作從一個更基礎的層面重新審視了這個問題：語言模型真的理解（短語）語義嗎？

問題的起點，是一類經典的語言現象。「Kick the Bucket」不是「踢桶」，「Rocket Science」并非「火箭科學」，「Alarm Clock Rings」也遠不止字面意義上的「鬧鈴」。這類多詞表達（Multiword Expressions，簡稱為 MWE）在自然語言中無處不在，它們的含義往往無法從各個組成詞語中直接推導，需要結合語境、慣例乃至世界知識才能準確理解。長期以來，這被視為自然語言處理的經典難題，如鯁在喉（A Pain in the Neck for NLP）[1] 。

時至今日，這道難題依舊擺在了前沿模型面前。

來自北京通用人工智能研究院與北京科技大學的研究者提出了一個分析框架SemanticQA，系統評估了模型在短語語義理解上的真實水平。

不同于以往孤立考察單一任務的做法，SemanticQA 將語義理解拆解為三種原子操作：分類（Categorization）、抽取（Extraction）與釋義（Interpretation），并在此基礎上覆蓋了四類典型短語現象：慣用表達、固定搭配、復合名詞與動詞多詞表達，形成了一個結構嚴謹、覆蓋廣泛的診斷性測試基準。

評估對象橫跨十余個模型，從 BERT 和 T5 等經典架構模型，到 GPT-5、Claude Sonnet、DeepSeek-R1 和 Gemini 2.5 Pro 等近期前沿模型，幾乎涵蓋了主流的開源與閉源系統。

反直覺的結論：即便是最先進的大模型，在處理短語層面的語義時仍存在系統性缺陷。沒有任何一個模型能夠在所有任務上保持穩定的高水準表現，不同操作類型之間的性能落差顯著：模型或許能夠流暢地解釋一個慣用語，卻在精確抽取相同表達時屢屢失手；分類任務隨著語義類別數量的增加急劇退化，而在需要多步驟串聯的組合任務中，上游的抽取錯誤更會如滾雪球般放大下游的解釋偏差。更值得警惕的是，那些在語義相似度指標（如 BERTScore）下表現亮眼的模型，未必真正掌握了結構性的語義推理能力。高分背后，可能只是對示例模式的精巧模仿。

這些發現提醒我們：在為語言模型的驚人能力歡呼之前，或許值得在更基礎的地方多停留片刻。短語，是語言理解扎根的地方。

背景與痛點：為什么我們需要語義推理？

當前主流的推理評測基準大多聚焦于數學求解、代碼生成與邏輯推斷。它們考察的是模型在顯式符號規則下的運算能力，卻鮮少觸及語言最基本的構成單元 —— 短語 [2][10]。事實上，大量日常表達的含義并非來自詞語的簡單疊加，而是涌現于詞匯之間的約定俗成、語境線索與世界知識的交織之中。現有評測的盲區，恰恰就藏在這里。

與現有基準不同，SemanticQA 沒有簡單堆砌任務規模，而是先做了一步簡潔的抽象：將「短語語義理解」拆解為三個可操作的基本能力環節：

抽取：從句子中準確識別目標短語，要求完成精確的跨度定位，而非模糊的猜測；
分類：判斷該短語的語義類型（如習語、固定搭配、名詞復合詞等），考察模型對語義關系的結構化理解；
釋義：在給定語境下生成該短語的釋義，要求模型將潛在的詞義解釋成可讀的自然語言陳述。

這三步分別對應結構識別、語義判斷和生成表達，共同構成對短語語義的完整檢驗。它們的輸出形式各異，抽取要求精準的字面匹配，分類依賴有限選項內的判斷，釋義則是開放式的語言生成 —— 這種結構差異本身，也成為診斷模型能力邊界的有效手段。

其核心設計思想是「操作對齊」（Operation-Aligned）：同一個短語實例在不同任務中被統一建模，采用固定的提示模板加以呈現，從而有效壓制提示誘導帶來的噪聲，使不同模型之間的橫向比較更加公平可靠。這一設計也直接回應了傳統評測中長期存在的混淆：任務表現不等于能力水平，一個模型或許憑借格式敏感性在釋義任務中得高分，卻在抽取同一短語時茫然失措。

換句話說，如果模型真的理解了某個短語，它應當在這三類任務上表現出穩定的跨操作一致性，而非只在某一類上擅長。正是這種一致性，才是 SemanticQA 所定義的（短語）語義推理能力。

主要貢獻：涵蓋四大短語難題

在數據層面，SemanticQA 涵蓋了四類最典型、也最讓語言處理系統頭疼的短語現象：習語（Idiomatic Expressions）、固定搭配（Lexical Collocations）、名詞復合結構（Noun Compounds）和動詞多詞表達（Verbal MWEs）[3][8]。這些表達廣泛存在于自然語言中，且其含義往往無法通過簡單的詞義組合規則推導，正是檢驗模型「真理解」還是「假套路」的試金石 [4][5]。

SemanticQA 基于現有多個語義標注資源構建，這些資源在標注協議、難度分布及語義粒度上存在顯著差異。該基準匯總了各任務來源的數據集、輸入輸出結構、測試樣本數量及所涵蓋的短語類型，從而展現了其規模與多樣性：上千條的測試樣本，覆蓋檢測、抽取與釋義三類語義任務，且每個任務均采用統一的提示模板、句子上下文及輸出格式。這種標準化卻非同質化的設計旨在反映真實語義標注場景中固有的自然變異性，而非強行要求不同來源之間保持難度或標注一致性。因此，SemanticQA 適于展現這種異質性，但不適用于對短語類型進行絕對化的橫向比較。

短語現象具有高度多樣性，不同文獻中使用的術語亦不統一。為保障基準的可復現性，SemanticQA 通過顯式列出細粒度的子類別，避免將短語簡單二分為「習語 vs. 非習語」的粗放式分類，從而支持研究者深入分析模型在特定語義子類上的性能表現。例如，模型可能對非組合習語完全失效，卻在可分解習語上表現良好，這一差異有助于揭示模型究竟是依賴局部詞義線索，還是基于整體的短語模式進行語義判斷 [6][7]。

核心洞察：能力各有短板，優績不代表真懂

SemanticQA 不只看模型會不會做，而是看它在抽取、分類和釋義三種不同約束下是否一致。

研究發現，即便是當前的前沿模型，在這三項核心能力上也遠未均衡發展：

分類任務：模型對粗粒度的語義判斷尚可應付，但面對結構化的語義關系時，依然缺乏顯著的歸納能力。
抽取任務：要求模型從句子中精確圈出目標短語，是最能反映「是否真看到」的操作。即使模型能在分類或釋義任務中表現良好，其抽取準確率卻往往十分低下。這種不一致表明，模型往往依賴上下文中的表面模式來猜短語邊界，而非真正理解其「句法 vs. 語義」地位。
釋義任務：生成的釋義在短語結構、語義焦點方面與標準答案存在偏差。換句話說，模型擅長「說得像」，卻不一定「說得對」。將釋義與抽取、分類結果對照時，經常出現「能解釋卻抽不對」或「能分類卻解釋偏」的割裂現象，暴露出語義推理的不確定性。

以 GPT-5 為例：在習語分類（IED）五樣本提示（5-Shot）設定下達到 85.4% 的分類準確率，但對應的習語抽取（IEE）僅為 78.7% 的精確匹配率，而習語釋義（IEI）則只有 22.5% 的表面相似度（Meteor）。這種落差意味著：模型可以「猜對類別」，甚至「生成合理的解釋」，但并不具備跨任務一致的語義表示。

更典型的是抽取任務。研究指出，抽取是最能暴露模型是否能看到「短語邊界」的操作。多個模型在釋義任務上取得較高的語義相似度（BERTScore），卻在嚴格按照精確匹配的抽取任務中明顯失效。例如：GPT-5 在名詞復合詞釋義（NCI）中的語義相似度（BERTScore）可達到 96.8%，但同一模型在對應的 NCE 上的抽取準確率僅 79.0%。這說明當前模型更擅長生成語義上相似的話語，但無法以同樣的熟練度實現穩定的短語抽取。

三項任務之間的不一致，正是語義理解能力欠缺的直接證據。一個真正理解短語語義的模型，應當在結構化輸出（抽取）、離散決策（分類）和自由生成（釋義）上保持行為兼容，而非只在某一種任務上取巧。

現實世界中的語義關系呈現出豐富且細粒度的特性，然而現有大多數基準僅測試粗粒度的語義分類（例如 2 至 4 個類別）。為考察模型是否具備真正的語義歸納能力，即：隨著類別數增加，任務表現能否保持穩定，抑或出現急劇退化，相關實驗結果極具啟發性：前沿語言模型擅長在粗粒度、高頻的語義區分任務上表現出較高的表面準確率，但一旦需要精細區分十多個細粒度語義類別，其歸納能力顯著不足。特別指出：DeepSeek-R1 的分類準確率從 81.7% 下降到 35.4%，跌幅達到 46.3 個百分點；GPT-5 雖然更穩定，但在 16 分類的條件下仍明顯退化。這一現象表明，現有模型更多依賴表層的統計共現信息，而非具備真正的語義推理能力 [9]。

由于本工作的研究跨度較長，我們還特地對 OpenAI 的四款代表性模型（GPT-3.5-Turbo、GPT-4、o3 和 GPT-5）進行了跨越三年的歷時分析。結果顯示，多數任務表現出了顯著的偏序和排名一致性，例如在 LCI、NCI 和 IEI 等任務中，模型性能隨代際更迭呈現出穩步遞增的趨勢（GPT-5≥o3 > GPT-4 > GPT-3.5-Turbo），且 Few-Shot 提示普遍優于 Zero-Shot。

多米諾效應：上游一步錯，下游步步錯

現實應用中的語義處理往往是多步流程，例如先抽取短語，再對其進行釋義或分類。SemanticQA 專門設計了組合推理任務來模擬這一場景。結果顯示：

抽取錯誤直接拖垮下游：即使模型在孤立釋義任務中表現尚可，一旦輸入來自自身抽取（而非人工標注）的短語，其釋義質量便大幅下降。上游哪怕只出現少量邊界偏移，下游的語義重建也會明顯偏離。
少樣本無法補償結構誤差：增加演示樣例能小幅提升抽取準確率，但對「條件式釋義」（基于正確抽取的短語）提升有限。說明當前模型缺乏對中間結果的自我校驗與糾錯能力，難以構建穩健的語義處理流水線。
分類組合任務同樣敏感：要求先抽取后分類時，端到端準確率相比獨立分類任務顯著下降，且類別越多下降越劇烈。這表明模型在傳遞結構化語義時存在明顯的衰減。

組合推理實驗進一步揭示了「上游一步錯，下游步步錯」的問題。在「先抽取 + 后釋義」的順序任務中：GPT-5 在詞匯搭配的組合任務中，5-Shot 條件下抽取準確率為 41.3%，條件釋義（即抽對后再解釋）的 Meteor 相似度可達到 41.8%，但整體的 Meteor 相似度最終僅為 17.3%。

這些結果揭示了一個被原子任務評測長期掩蓋的事實：語言模型在單點任務上也許能產生高光表現，但同時也很容易在多步的級聯任務中土崩瓦解。語義推理，必須經得起流程化檢驗。

實踐啟示：不能只看會不會，更得看穩不穩

SemanticQA 的設計思路給當前的語言模型評估帶來五點重要啟示：

單指標、單任務無法衡量語義能力。模型可能在釋義任務上得高分，卻在抽取任務上一敗涂地；在四分類上接近人類，卻在十六分類時崩潰。不同任務暴露的是互補的失敗模式，只有多操作、多約束的對照評估，才能照見模型語義表征的實際水平。
情境學習的收益因任務而異，不可一概而論。釋義類任務從示例中獲益穩定，抽取任務的表現卻高度依賴示例與測試實例的結構匹配，一旦分布偏移，增加示例反而可能拖累性能。在實際部署中，示例的質量與任務適配，遠比示例的數量更為關鍵。
規模擴展不等于語義深化，領域監督有時比能力涌現更可靠。分類粒度從二分類擴展到十六分類時，千億參數大模型的性能衰減幅度卻遠超小規模監督模型。這表明大模型對細粒度語義關系的「理解」，更多依賴于統計模式的共現而非結構化表示，領域監督所帶來的收益可能遠比單純擴大規模更扎實。
語義表征與任務格式深度耦合，而非操作無關。人類理解一個短語后，可以自然完成識別、歸類與釋義；但大模型卻往往在多選分類中答對，卻在開放抽取中失手，或在生成解釋時產生語義漂移。當前模型習得更接近對任務格式的適應，而非真正意義上可遷移的短語語義表征。
魯棒性與診斷價值，是評測的意義所在。模型一旦從單步任務進入多步串聯流程，上游的識別錯誤便會顯著拖累下游語義質量，這種脆弱性在單任務評測中幾乎無從察覺。隨著主流基準加速飽和，評測的核心價值不應是給模型打出一個排名總分，而是精準揭示能力斷層在哪里、為何存在以及如何修復。

研究局限

本工作完稿于 2023 年，并于 2025 年進行修訂和投稿錄用。該診斷性評測基于單輪靜態設計，在當時是合理的，但放到 2026 年的 Agent 語境下，它測的東西已經不夠用了。Agent 不再是單輪推理，而是在長時運行：一步走偏，后面全部走偏，工具調用失敗或推理錯誤被帶入下一步、鏈路越長偏差越大導致掉入前綴陷阱，如蝴蝶效應般不可逆地疊加。因此，如何針對語言智能體進行動態自適應的評估，成為了當今更有價值的科學與實踐問題。

靜態 Evals 在 Agent 時代的根本性失效問題：

靜態基準測的是能力截面，Agent 的風險在時間軸上，錯誤不是孤立的，它會被寫入狀態、沿鏈路傳播疊加，第三步的幻覺在第七步才爆炸，而靜態分數對此一無所知
分數相同的兩個模型，執行軌跡可能天差地別：一個靠運氣蒙對，一個扎扎實實地走對。當當前真正有價值的問題不是 Evals 分數是多少，而是：評估體系本身能不能動態進化，打分模型要被驗證、任務要有生命周期、任務執行軌跡要作為審計入口、安全護欄要有一票否決權；
Evals 不是測試的升級，是 Agent 時代唯一可執行的產品定義方式，因為我們無法用 PRD 定義一個概率系統。

結語

語義推理不是黑盒系統里的靈光一現，而是可分解、可檢驗以及可追溯的系統能力。SemanticQA 通過操作對齊的設計，將（短語）語義理解這一古早難題重新帶回研究前沿，并給出了一個清醒的判斷：語言模型遠未真正「懂語言」，至少在短語層面，它們有了很大的改進，但仍在摸索前行。這項工作的意義不僅在于指出不足，更在于提供了一套可操作、可復現的診斷工具，幫助社區朝著更穩健、更結構化的短語處理前沿邁進。

參考文獻

[1] Shwartz and Dagan. Still a Pain in the Neck: Evaluating Text Representations on Lexical Composition. TACL 2019.

[2] Wei et al. Chain of Thought Prompting Elicits Reasoning in Large Language Models. NeurIPS 2022.

[3] Constant et al. Multiword Expression Processing: A Survey. Computational Linguistics 2017.

[4] Coil and Shwartz. From Chocolate Bunny to Chocolate Crocodile: Do Language Models Understand Noun Compounds? ACL Findings 2023.

[5] Espinosa-Anke et al. Evaluating Language Models for the Retrieval and Categorization of Lexical Collocations. EACL 2021.

[6] Chakrabarty et al. It’s Not Rocket Science: Interpreting Figurative Language in Narratives. TACL 2022.

[7] Pham et al. PiC: A Phrase-in-Context Dataset for Phrase Understanding and Semantic Search. EACL 2023.

[8] Ramisch et al. A Survey of MWE Identification Experiments: The Devil is in the Details. MWE Workshop 2023.

[9] Miletic and Schulte im Walde. Semantics of Multiword Expressions in Transformer-based Models: A Survey. TACL 2024.

[10] Zeng and Bhat. Getting BART to Ride the Idiomatic Train: Learning to Represent Idiomatic Expressions. TACL 2022.

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.