紐倫堡工業(yè)大學等機構(gòu)首次大規(guī)模審查七年間的人工標注報告質(zhì)量

2026-06-08 17:13:54　來源: 科技行者

北京舉報

分享至

這項由紐倫堡工業(yè)大學NLLG實驗室與奧地利IT跨學科轉(zhuǎn)型大學NLP實驗室聯(lián)合開展的研究，以arXiv預印本形式發(fā)布于2026年6月（編號arXiv:2606.02255），有興趣深入了解的讀者可通過該編號查詢完整論文。

**研究背景：一個被忽視的基礎(chǔ)問題**

每當我們談?wù)撊斯ぶ悄茉诜g、情感分析或文本生成上有多厲害時，背后總有一群默默無聞的人在支撐整個體系——他們就是人工標注者。這些人負責給數(shù)據(jù)打上標簽，告訴機器"這句話是正面情緒"、"這段文字含有仇恨言論"或者"這個翻譯比那個更準確"。可以說，沒有他們，整個現(xiàn)代自然語言處理（NLP，也就是讓計算機理解人類語言的技術(shù)領(lǐng)域）幾乎無從運轉(zhuǎn)。

然而，有一個問題長期以來幾乎沒有人系統(tǒng)追問：這些標注者究竟是誰？他們有沒有受過專業(yè)訓練？報酬是否合理？他們的背景會不會影響標注結(jié)果的客觀性？以及，在發(fā)表的學術(shù)論文中，研究者到底有沒有如實報告這些信息？

這個問題其實非常關(guān)鍵。假設(shè)一篇論文要評估AI生成的詩歌質(zhì)量，而標注者里沒有一個熟悉詩歌的人，那評估結(jié)果還可信嗎？或者，研究偏見和仇恨言論的論文，如果標注者都來自同一文化背景，結(jié)論會不會存在系統(tǒng)性偏差？這就像讓一群從未吃過川菜的人來評選最正宗的川菜館，結(jié)果自然值得懷疑。

正是帶著這樣的疑問，這支來自德國和奧地利的研究團隊開始了他們的調(diào)查工作。他們想弄清楚：在過去將近十年的NLP頂級期刊和會議論文中，研究者們到底有沒有說清楚"誰在做標注、怎么做的、做得好不好"這些基本問題。

**一、這項研究究竟要查什么——七個維度的審查框架**

為了系統(tǒng)回答上述問題，研究團隊首先設(shè)計了一套分類框架，就像為"標注報告質(zhì)量"制作了一張體檢表，共涵蓋七大維度、二十五個具體檢查項目。

第一個維度是對標注任務(wù)的基本描述，包括這篇論文研究的是什么話題、標注任務(wù)是什么類型（比如是讓人打分、選類別還是畫出特定片段），以及標注的結(jié)果打算用來干什么——是建數(shù)據(jù)集、評估模型輸出，還是與人類表現(xiàn)做對比。

第二個維度是一致性水平，也就是不同標注者之間的意見有多統(tǒng)一。這在學術(shù)上叫"標注者間一致性"（IAA），可以用多種數(shù)學指標來衡量，比如Fleiss的κ值或Krippendorff的α值。研究團隊不僅檢查論文有沒有報告這個數(shù)值，還檢查報告的是哪種指標、具體數(shù)值是多少。

第三個維度是工作量信息，包括總共有多少標注者、標注了多少條數(shù)據(jù)、每條數(shù)據(jù)由幾個人標注，以及每個人平均處理了多少條數(shù)據(jù)。

第四個維度是招募與資質(zhì)信息，涵蓋標注者是通過眾包平臺（比如Amazon Mechanical Turk）找來的，還是作者本人，抑或是學生、專家等；眾包場景下有沒有做資質(zhì)篩選；有沒有對標注者進行培訓；他們的語言水平如何；以及他們的專業(yè)程度是高、中、一般，還是壓根沒有提。

第五個維度是報酬信息，即標注者有沒有獲得報酬，報酬是否具體說明了金額或比率。

第六個維度是人口學背景信息，包括標注者的年齡、性別、國籍、居住國、教育水平和政治傾向是否有所披露。

第七個維度是質(zhì)量控制，包括標注完成后有沒有對數(shù)據(jù)進行過濾或篩查，以及不同標注者意見不一致時是如何解決的——是多數(shù)投票、專家裁定、第三方仲裁、討論達成共識，還是保留所有分歧意見。

這套框架的設(shè)計邏輯很清晰：它覆蓋了從"找到什么人來做"到"做完后怎么保證質(zhì)量"的完整流程，任何一個環(huán)節(jié)的信息缺失，都可能讓讀者無法判斷這項標注工作是否可靠、是否可以被復現(xiàn)。

**二、如何完成這項調(diào)查——人工標注黃金集與AI輔助大規(guī)模提取**

建立框架只是第一步，接下來的挑戰(zhàn)是：如何在海量論文中高效、準確地提取這些信息？

研究團隊采取了兩步走的策略，這兩步相互驗證、互為補充，就像先請專家手工鑒定真品，再用這批真品去校準機器的識別能力。

第一步是建立一個人工標注的黃金標準數(shù)據(jù)集，命名為ANNOTATEDGOLD。研究團隊從ACL選集（自然語言處理領(lǐng)域最重要的論文庫）中檢索2018年到2025年間發(fā)表于ACL、EMNLP、NAACL、TACL、EACL和AACL這六個頂級會議和期刊的論文，通過34個與人工標注相關(guān)的關(guān)鍵詞（如"manual annotation"、"human evaluation"、"crowdsourcing"等）進行初步篩選，得到候選論文后再人工精選。最終，41篇論文通過了嚴格篩選，其中共識別出72個獨立的標注任務(wù)，構(gòu)成了黃金標準集。

這41篇論文的標注工作由12位研究人員完成，包括2位教授、2位博士后、6位博士生和2位碩士生，所有人都能熟練閱讀英文學術(shù)論文。每篇論文至少由兩位標注者獨立完成，遇到意見分歧時，先由兩位標注者討論協(xié)商，仍無法解決的則引入第三位標注者裁決。這套兩階段仲裁流程最終產(chǎn)出了一批經(jīng)過人工共識確認的標簽，作為評估后續(xù)自動化工具準確性的基準。

這項人工標注工作耗費了大量人力時間，按照德國科研基金會2026年公布的學術(shù)人員標準費率估算，整個標注和仲裁過程的人力成本約為6300歐元——這也解釋了為什么黃金標準集的規(guī)模相對有限。

第二步是利用大型語言模型（LLM，簡單說就是像ChatGPT這樣的AI系統(tǒng)）來完成大規(guī)模的自動信息提取，得到的數(shù)據(jù)集命名為ANNOTATEDLLM。研究團隊評估了六種不同的AI模型，其中三個是閉源的商業(yè)模型（Gemini-3.1-Pro、Gemini-3.1-Flash-Lite、GPT-4.1），三個是開放權(quán)重模型（Qwen3.6-27B、gemma-4-31B-it、gpt-oss-120b）。

每個AI模型都被要求用同一套提示詞來處理論文，提示詞中包含了完整的分類框架說明、各字段的精確允許取值、字段間的邏輯依賴關(guān)系，以及一個自我審查清單——這個清單專門提醒AI"別只看論文的第一個標注部分就停下來"，因為很多論文包含多個標注實驗，漏掉后續(xù)的是最常見的錯誤之一。模型的輸出被約束為固定格式的JSON數(shù)據(jù)，每篇論文中每個獨立的標注實驗生成一條記錄。

評估結(jié)果揭示了一個令人振奮的結(jié)論：最強的AI模型Gemini-3.1-Pro在與黃金標準對比時，整體準確率達到79.9%，而人類標注者之間的一致率是79.2%；使用Krippendorff的α值衡量時，AI達到0.606，人類為0.585。換句話說，這個AI模型的整體表現(xiàn)已經(jīng)與人類標注者相當甚至略優(yōu)，這意味著用它來做大規(guī)模自動化信息提取是可行的，誤差在可接受范圍內(nèi)。

基于這一驗證結(jié)果，研究團隊選用Gemini-3.1-Pro對剩余的1603篇論文進行批量處理，共提取出2667個標注任務(wù)，形成了ANNOTATEDLLM數(shù)據(jù)集，這是整個研究大規(guī)模分析的基礎(chǔ)。整個AI提取過程的費用約為8300歐元。

值得一提的是，由于ANNOTATEDLLM是通過關(guān)鍵詞篩選出來的、偏向于含有人工標注內(nèi)容的論文集合，而非隨機抽樣，研究團隊也專門做了驗證比較：將關(guān)鍵詞篩選結(jié)果與從相同年份和會議中隨機抽取的3000篇論文對比，發(fā)現(xiàn)關(guān)鍵詞篩選將"含有可標注人工標注內(nèi)容"的論文比例從36%提升到了82%，效率大幅提高；同時，兩種方式在各維度統(tǒng)計分布上的差異總體上是溫和的，平均絕對差異不超過5.2個百分點。因此，ANNOTATEDLLM被定位為一個高召回率、聚焦標注內(nèi)容的研究語料庫，而非對全體ACL論文的代表性抽樣。

**三、報告質(zhì)量的現(xiàn)狀——什么信息被說清楚了，什么被遮遮掩掩**

有了2667個標注任務(wù)的數(shù)據(jù)，研究團隊開始描繪NLP論文在標注報告上的整體畫像。結(jié)果既有令人欣慰之處，也有不少讓人皺眉的地方。

令人欣慰的部分首先體現(xiàn)在"操作性信息"的報告上。招募方式（也就是標注者是從哪里來的）被報告的比例高達90.4%，標注者的專業(yè)水平信息報告比例為86.5%，總共標注了多少條數(shù)據(jù)的信息報告比例為86.0%。也就是說，論文在"誰來做、做了多少"這類基本事實上，大多數(shù)時候還是交代清楚了的。

然而，當問題變成"這些標注工作做得可不可靠、可不可以被復現(xiàn)"時，情況就大相徑庭了。標注者是否接受過培訓，只有18.7%的論文有所說明——也就是說，超過八成的論文對這件事沉默不語。標注者的語言水平，只有24.0%的論文提及。是否提供了可供他人參考的標注指南，只有34.1%。至于標注者的報酬狀況，有記錄的比例為56%，但沒有任何具體數(shù)字的籠統(tǒng)提及占了相當大比例。人口學信息方面，年齡信息被報告的比例只有5%，性別為6%，國籍僅為2%，政治傾向幾乎為零（1%）。標注后的質(zhì)量控制（比如有沒有篩除低質(zhì)量標注）被報告的比例為25%，不同標注者意見不一致時如何處理的信息（仲裁流程）的報告比例為24%。

可以用一個形象的比喻來理解這種差距：在招募員工時，公司會告訴你"我們招了多少人、他們叫什么頭銜"，但不會告訴你"他們有沒有經(jīng)過崗前培訓、工資是多少、背景是否和工作匹配"。對于需要復現(xiàn)或評估這項工作的人來說，前者提供了表面信息，后者才是真正需要的核實依據(jù)。

研究團隊進一步將這25個報告維度分為三類：所有標注任務(wù)都應報告的"通用指標"（共10個，包括招募方式、培訓情況、專業(yè)水平、語言水平、教育水平、標注者數(shù)量、標注條數(shù)、報酬情況、質(zhì)量控制、指南可及性），只在特定條件下適用的"條件指標"（共6個，如一致性指標和仲裁方式，在單人標注任務(wù)中不適用），以及特別針對主觀判斷或社會現(xiàn)象研究任務(wù)額外要求報告的"人口學指標"（共5個，包括年齡、性別、國籍等）。

在這個框架的基礎(chǔ)上，研究團隊為每個標注任務(wù)計算了一個"報告得分"（REPORTAGE SCORE），公式很直觀：已報告的適用指標數(shù)量除以應報告的適用指標總數(shù)量。得分越高，說明這篇論文對標注過程的交代越完整。

**四、時間趨勢與政策效果——七年間情況在變好，但速度在放緩**

研究團隊將數(shù)據(jù)按年份排列后，觀察到了一條整體向上的曲線：從2018年到2021年，報告得分穩(wěn)步提升，說明NLP社區(qū)在這段時間里確實越來越注重對標注流程的說明。

2022年是一個特別值得關(guān)注的時間節(jié)點，因為ACL在這一年通過NAACL會議推出了"負責任NLP檢查清單"（Responsible NLP Checklist）。這份清單要求作者在提交論文時，主動回答一系列關(guān)于數(shù)據(jù)、標注和倫理的問題，初衷是推動整個領(lǐng)域的透明度和規(guī)范性。

然而，研究團隊做了一個專門的統(tǒng)計模型（中斷時間序列回歸），用來檢驗2022年之后報告質(zhì)量是否出現(xiàn)了明顯躍升。結(jié)論是：沒有出現(xiàn)明顯的立即改善。報告得分確實在2022年之后繼續(xù)上升，但上升的斜率明顯比2022年之前更平緩，甚至低于按照原有趨勢外推的預測值。

這意味著，檢查清單在某種程度上可能僅僅是將2022年之前就已經(jīng)自發(fā)形成的規(guī)范趨勢"官方化"了，而并非獨立地推動了質(zhì)量提升。研究團隊給出了兩種可能的解釋：其一，2021年的NeurIPS會議率先推出了類似的檢查清單，ACL的清單在某種程度上是借鑒這一先例，相關(guān)意識實際上在2022年正式實施前就已經(jīng)開始擴散；其二，不同類型的論文在這一時期的變化方向可能相互抵消，使得總體平均數(shù)掩蓋了細分結(jié)構(gòu)的差異。

從三個主要會議的分拆分析來看，EMNLP在整個觀察期內(nèi)的報告得分都相對較高，而ACL和NAACL的起點較低，但在2022年之前呈現(xiàn)更陡峭的上升趨勢，并在2022年后逐漸向EMNLP靠攏。這三個會議在2022年后的整體走勢趨于收斂，差距縮小，表明檢查清單可能在促進不同會議間標準統(tǒng)一方面起到了一定的作用，即便對整體水平的提升效果有限。

**五、不同用途、不同標準——模型評估類研究的報告質(zhì)量普遍偏低**

一個尤為突出的發(fā)現(xiàn)來自對標注任務(wù)"用途"的分析。研究團隊將所有標注任務(wù)按照其主要目的分成三類：用于構(gòu)建數(shù)據(jù)集或資源（Resource Creation），用于評估模型輸出質(zhì)量（Model Output Evaluation），以及用于提供人類基準表現(xiàn)（Human Performance）。

對比來看，用于構(gòu)建數(shù)據(jù)集的標注任務(wù)，其報告得分在整個七年中都顯著高于模型評估類任務(wù)，而且這個差距從未消失。模型評估類論文更頻繁地省略了標注者的招募信息、報酬情況、培訓過程和質(zhì)量控制細節(jié)。

這個發(fā)現(xiàn)其實挺反直覺的。人們可能覺得，為了評估自己模型的論文，研究者應該會格外認真地說明標注過程，因為這直接關(guān)系到結(jié)論是否可信。但現(xiàn)實恰恰相反——正因為這些評估通常是用來為自己的模型"背書"的，研究者或許會無意中降低對方法透明度的重視程度。

**六、主觀語言研究與其他領(lǐng)域的比較——差異真實但規(guī)模有限**

研究團隊還專門分析了涉及主觀判斷和社會語言現(xiàn)象的論文（如仇恨言論標注、立場判斷、情感分析、偏見檢測等），將其與其他NLP研究對比，因為這類研究在理論上對標注者背景的依賴性更強——標注者的政治立場、文化背景和語言母語情況，都可能影響他們對"這句話算不算騷擾"這類問題的判斷。

然而，在整體報告得分上，這類論文與其他類型論文并無系統(tǒng)性差異。也就是說，主觀語言研究者雖然在"找誰來做"這個問題上更細心，但在培訓、補償、質(zhì)量控制等更深層的方法學透明度上，并沒有表現(xiàn)出全面的優(yōu)勢。在不一致意見的處理上，這類論文更傾向于使用多數(shù)投票或保留所有標注者分布的方式，而較少采用專家裁決或討論協(xié)商，這意味著標注者之間的分歧在這些研究中往往被簡單化處理，而非深入解決。

**七、研究建議——三條具體的改進方向**

基于上述發(fā)現(xiàn)，研究團隊提出了三條具體的改進建議。

第一條是設(shè)立一個最低限度的報告標準，要求所有使用人工標注的論文，無論標注目的如何，都必須說明以下信息：標注者來源、總標注者數(shù)量、總標注條數(shù)、每條數(shù)據(jù)由幾人標注、是否進行過培訓、語言水平、專業(yè)程度、報酬情況、質(zhì)量控制措施，以及標注指南是否可以獲取。這些不是可有可無的附加信息，而是讀者判斷標注結(jié)論是否可信的最低必要條件。

第二條是倡導任務(wù)敏感型報告標準。對于涉及主觀或社會現(xiàn)象的標注任務(wù)，人口學信息尤為重要；對于生成基準數(shù)據(jù)或評估標簽的任務(wù)，一致性指標、仲裁流程和質(zhì)量控制信息是核心。不同類型的任務(wù)應有不同的報告重點，而不是一刀切。

第三條是針對模型評估類研究的專項要求。這類研究在報告質(zhì)量上普遍落后，但它們往往是論文主要結(jié)論的直接證據(jù)來源，因此反而應當提高透明度標準，而非降低。

歸根結(jié)底，這項研究的核心主張很簡單：人工標注的過程描述不應該只是學術(shù)論文的"附屬品"，而應當被視為研究方法本身的一部分。就像一項藥物臨床試驗不能只報告最終療效，還必須說明誰參與了試驗、如何控制干預變量一樣，NLP研究也需要把"誰來標注、怎么標注"這件事當成科研記錄的核心內(nèi)容來對待。

說到底，這項研究做的事情就是給NLP領(lǐng)域做了一次體檢，發(fā)現(xiàn)它在某些外顯癥狀上（"找了多少人標注了多少數(shù)據(jù)"）表現(xiàn)不錯，但在內(nèi)在健康指標上（"標注者合不合適、流程可不可重復"）還有相當大的提升空間。特別是在AI越來越多地被用于評估AI的今天，人工標注的質(zhì)量和透明度更加重要——畢竟，如果我們連"評估這個AI模型的人是誰、他們靠不靠譜"都說不清楚，那這些評估結(jié)果又能值多少分呢？這個問題并不是針對任何個別研究者的，而是整個領(lǐng)域需要共同面對的結(jié)構(gòu)性挑戰(zhàn)。如果你對這份完整的調(diào)查報告感興趣，可以通過arXiv編號2606.02255檢索原文，數(shù)據(jù)集和代碼也將在論文正式接受后公開發(fā)布。

Q&A

Q1：NLP論文中的人工標注報告有哪些信息經(jīng)常缺失？

A：根據(jù)這項大規(guī)模審查，最常被遺漏的信息包括：標注者是否接受過培訓（僅18.7%的論文有說明）、標注者的語言水平（僅24%）、是否公開了標注指南（僅34.1%），以及標注者的年齡、性別、國籍等人口學背景（報告比例普遍低于10%）。這些信息對于判斷標注結(jié)果是否可靠、能否被復現(xiàn)至關(guān)重要。

Q2：ACL負責任NLP檢查清單對標注報告質(zhì)量有沒有實質(zhì)改善效果？

A：這項研究通過統(tǒng)計模型分析發(fā)現(xiàn)，ACL檢查清單于2022年推出后，報告得分并沒有出現(xiàn)明顯的立即提升。報告質(zhì)量確實在持續(xù)改善，但改善速度反而比清單推出之前更慢，說明檢查清單更多是將已有趨勢"官方化"，而非獨立推動質(zhì)量躍升。不過清單可能有助于減小不同會議之間的報告差距。

Q3：為什么用于模型評估的標注比用于建數(shù)據(jù)集的標注報告質(zhì)量更差？

A：這項研究發(fā)現(xiàn)，數(shù)據(jù)集構(gòu)建類研究報告質(zhì)量控制措施的可能性，在統(tǒng)計上顯著高于模型評估類研究，差距接近數(shù)倍。研究者推測，評估類標注通常是為了證明自己模型的表現(xiàn)，缺乏外部數(shù)據(jù)集那種"供他人使用"的壓力，因此在方法學透明度上的重視程度相對較低。但這類研究恰恰直接支撐著論文的核心結(jié)論，報告不足反而更值得關(guān)注。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.