![]()
這項由紐倫堡工業(yè)大學NLLG實驗室與奧地利IT跨學科轉(zhuǎn)型大學NLP實驗室聯(lián)合開展的研究,以arXiv預印本形式發(fā)布于2026年6月(編號arXiv:2606.02255),有興趣深入了解的讀者可通過該編號查詢完整論文。
**研究背景:一個被忽視的基礎(chǔ)問題**
每當我們談?wù)撊斯ぶ悄茉诜g、情感分析或文本生成上有多厲害時,背后總有一群默默無聞的人在支撐整個體系——他們就是人工標注者。這些人負責給數(shù)據(jù)打上標簽,告訴機器"這句話是正面情緒"、"這段文字含有仇恨言論"或者"這個翻譯比那個更準確"。可以說,沒有他們,整個現(xiàn)代自然語言處理(NLP,也就是讓計算機理解人類語言的技術(shù)領(lǐng)域)幾乎無從運轉(zhuǎn)。
然而,有一個問題長期以來幾乎沒有人系統(tǒng)追問:這些標注者究竟是誰?他們有沒有受過專業(yè)訓練?報酬是否合理?他們的背景會不會影響標注結(jié)果的客觀性?以及,在發(fā)表的學術(shù)論文中,研究者到底有沒有如實報告這些信息?
這個問題其實非常關(guān)鍵。假設(shè)一篇論文要評估AI生成的詩歌質(zhì)量,而標注者里沒有一個熟悉詩歌的人,那評估結(jié)果還可信嗎?或者,研究偏見和仇恨言論的論文,如果標注者都來自同一文化背景,結(jié)論會不會存在系統(tǒng)性偏差?這就像讓一群從未吃過川菜的人來評選最正宗的川菜館,結(jié)果自然值得懷疑。
正是帶著這樣的疑問,這支來自德國和奧地利的研究團隊開始了他們的調(diào)查工作。他們想弄清楚:在過去將近十年的NLP頂級期刊和會議論文中,研究者們到底有沒有說清楚"誰在做標注、怎么做的、做得好不好"這些基本問題。
**一、這項研究究竟要查什么——七個維度的審查框架**
為了系統(tǒng)回答上述問題,研究團隊首先設(shè)計了一套分類框架,就像為"標注報告質(zhì)量"制作了一張體檢表,共涵蓋七大維度、二十五個具體檢查項目。
第一個維度是對標注任務(wù)的基本描述,包括這篇論文研究的是什么話題、標注任務(wù)是什么類型(比如是讓人打分、選類別還是畫出特定片段),以及標注的結(jié)果打算用來干什么——是建數(shù)據(jù)集、評估模型輸出,還是與人類表現(xiàn)做對比。
第二個維度是一致性水平,也就是不同標注者之間的意見有多統(tǒng)一。這在學術(shù)上叫"標注者間一致性"(IAA),可以用多種數(shù)學指標來衡量,比如Fleiss的κ值或Krippendorff的α值。研究團隊不僅檢查論文有沒有報告這個數(shù)值,還檢查報告的是哪種指標、具體數(shù)值是多少。
第三個維度是工作量信息,包括總共有多少標注者、標注了多少條數(shù)據(jù)、每條數(shù)據(jù)由幾個人標注,以及每個人平均處理了多少條數(shù)據(jù)。
第四個維度是招募與資質(zhì)信息,涵蓋標注者是通過眾包平臺(比如Amazon Mechanical Turk)找來的,還是作者本人,抑或是學生、專家等;眾包場景下有沒有做資質(zhì)篩選;有沒有對標注者進行培訓;他們的語言水平如何;以及他們的專業(yè)程度是高、中、一般,還是壓根沒有提。
第五個維度是報酬信息,即標注者有沒有獲得報酬,報酬是否具體說明了金額或比率。
第六個維度是人口學背景信息,包括標注者的年齡、性別、國籍、居住國、教育水平和政治傾向是否有所披露。
第七個維度是質(zhì)量控制,包括標注完成后有沒有對數(shù)據(jù)進行過濾或篩查,以及不同標注者意見不一致時是如何解決的——是多數(shù)投票、專家裁定、第三方仲裁、討論達成共識,還是保留所有分歧意見。
這套框架的設(shè)計邏輯很清晰:它覆蓋了從"找到什么人來做"到"做完后怎么保證質(zhì)量"的完整流程,任何一個環(huán)節(jié)的信息缺失,都可能讓讀者無法判斷這項標注工作是否可靠、是否可以被復現(xiàn)。
**二、如何完成這項調(diào)查——人工標注黃金集與AI輔助大規(guī)模提取**
建立框架只是第一步,接下來的挑戰(zhàn)是:如何在海量論文中高效、準確地提取這些信息?
研究團隊采取了兩步走的策略,這兩步相互驗證、互為補充,就像先請專家手工鑒定真品,再用這批真品去校準機器的識別能力。
第一步是建立一個人工標注的黃金標準數(shù)據(jù)集,命名為ANNOTATEDGOLD。研究團隊從ACL選集(自然語言處理領(lǐng)域最重要的論文庫)中檢索2018年到2025年間發(fā)表于ACL、EMNLP、NAACL、TACL、EACL和AACL這六個頂級會議和期刊的論文,通過34個與人工標注相關(guān)的關(guān)鍵詞(如"manual annotation"、"human evaluation"、"crowdsourcing"等)進行初步篩選,得到候選論文后再人工精選。最終,41篇論文通過了嚴格篩選,其中共識別出72個獨立的標注任務(wù),構(gòu)成了黃金標準集。
這41篇論文的標注工作由12位研究人員完成,包括2位教授、2位博士后、6位博士生和2位碩士生,所有人都能熟練閱讀英文學術(shù)論文。每篇論文至少由兩位標注者獨立完成,遇到意見分歧時,先由兩位標注者討論協(xié)商,仍無法解決的則引入第三位標注者裁決。這套兩階段仲裁流程最終產(chǎn)出了一批經(jīng)過人工共識確認的標簽,作為評估后續(xù)自動化工具準確性的基準。
這項人工標注工作耗費了大量人力時間,按照德國科研基金會2026年公布的學術(shù)人員標準費率估算,整個標注和仲裁過程的人力成本約為6300歐元——這也解釋了為什么黃金標準集的規(guī)模相對有限。
第二步是利用大型語言模型(LLM,簡單說就是像ChatGPT這樣的AI系統(tǒng))來完成大規(guī)模的自動信息提取,得到的數(shù)據(jù)集命名為ANNOTATEDLLM。研究團隊評估了六種不同的AI模型,其中三個是閉源的商業(yè)模型(Gemini-3.1-Pro、Gemini-3.1-Flash-Lite、GPT-4.1),三個是開放權(quán)重模型(Qwen3.6-27B、gemma-4-31B-it、gpt-oss-120b)。
每個AI模型都被要求用同一套提示詞來處理論文,提示詞中包含了完整的分類框架說明、各字段的精確允許取值、字段間的邏輯依賴關(guān)系,以及一個自我審查清單——這個清單專門提醒AI"別只看論文的第一個標注部分就停下來",因為很多論文包含多個標注實驗,漏掉后續(xù)的是最常見的錯誤之一。模型的輸出被約束為固定格式的JSON數(shù)據(jù),每篇論文中每個獨立的標注實驗生成一條記錄。
評估結(jié)果揭示了一個令人振奮的結(jié)論:最強的AI模型Gemini-3.1-Pro在與黃金標準對比時,整體準確率達到79.9%,而人類標注者之間的一致率是79.2%;使用Krippendorff的α值衡量時,AI達到0.606,人類為0.585。換句話說,這個AI模型的整體表現(xiàn)已經(jīng)與人類標注者相當甚至略優(yōu),這意味著用它來做大規(guī)模自動化信息提取是可行的,誤差在可接受范圍內(nèi)。
基于這一驗證結(jié)果,研究團隊選用Gemini-3.1-Pro對剩余的1603篇論文進行批量處理,共提取出2667個標注任務(wù),形成了ANNOTATEDLLM數(shù)據(jù)集,這是整個研究大規(guī)模分析的基礎(chǔ)。整個AI提取過程的費用約為8300歐元。
值得一提的是,由于ANNOTATEDLLM是通過關(guān)鍵詞篩選出來的、偏向于含有人工標注內(nèi)容的論文集合,而非隨機抽樣,研究團隊也專門做了驗證比較:將關(guān)鍵詞篩選結(jié)果與從相同年份和會議中隨機抽取的3000篇論文對比,發(fā)現(xiàn)關(guān)鍵詞篩選將"含有可標注人工標注內(nèi)容"的論文比例從36%提升到了82%,效率大幅提高;同時,兩種方式在各維度統(tǒng)計分布上的差異總體上是溫和的,平均絕對差異不超過5.2個百分點。因此,ANNOTATEDLLM被定位為一個高召回率、聚焦標注內(nèi)容的研究語料庫,而非對全體ACL論文的代表性抽樣。
**三、報告質(zhì)量的現(xiàn)狀——什么信息被說清楚了,什么被遮遮掩掩**
有了2667個標注任務(wù)的數(shù)據(jù),研究團隊開始描繪NLP論文在標注報告上的整體畫像。結(jié)果既有令人欣慰之處,也有不少讓人皺眉的地方。
令人欣慰的部分首先體現(xiàn)在"操作性信息"的報告上。招募方式(也就是標注者是從哪里來的)被報告的比例高達90.4%,標注者的專業(yè)水平信息報告比例為86.5%,總共標注了多少條數(shù)據(jù)的信息報告比例為86.0%。也就是說,論文在"誰來做、做了多少"這類基本事實上,大多數(shù)時候還是交代清楚了的。
然而,當問題變成"這些標注工作做得可不可靠、可不可以被復現(xiàn)"時,情況就大相徑庭了。標注者是否接受過培訓,只有18.7%的論文有所說明——也就是說,超過八成的論文對這件事沉默不語。標注者的語言水平,只有24.0%的論文提及。是否提供了可供他人參考的標注指南,只有34.1%。至于標注者的報酬狀況,有記錄的比例為56%,但沒有任何具體數(shù)字的籠統(tǒng)提及占了相當大比例。人口學信息方面,年齡信息被報告的比例只有5%,性別為6%,國籍僅為2%,政治傾向幾乎為零(1%)。標注后的質(zhì)量控制(比如有沒有篩除低質(zhì)量標注)被報告的比例為25%,不同標注者意見不一致時如何處理的信息(仲裁流程)的報告比例為24%。
可以用一個形象的比喻來理解這種差距:在招募員工時,公司會告訴你"我們招了多少人、他們叫什么頭銜",但不會告訴你"他們有沒有經(jīng)過崗前培訓、工資是多少、背景是否和工作匹配"。對于需要復現(xiàn)或評估這項工作的人來說,前者提供了表面信息,后者才是真正需要的核實依據(jù)。
研究團隊進一步將這25個報告維度分為三類:所有標注任務(wù)都應報告的"通用指標"(共10個,包括招募方式、培訓情況、專業(yè)水平、語言水平、教育水平、標注者數(shù)量、標注條數(shù)、報酬情況、質(zhì)量控制、指南可及性),只在特定條件下適用的"條件指標"(共6個,如一致性指標和仲裁方式,在單人標注任務(wù)中不適用),以及特別針對主觀判斷或社會現(xiàn)象研究任務(wù)額外要求報告的"人口學指標"(共5個,包括年齡、性別、國籍等)。
在這個框架的基礎(chǔ)上,研究團隊為每個標注任務(wù)計算了一個"報告得分"(REPORTAGE SCORE),公式很直觀:已報告的適用指標數(shù)量除以應報告的適用指標總數(shù)量。得分越高,說明這篇論文對標注過程的交代越完整。
**四、時間趨勢與政策效果——七年間情況在變好,但速度在放緩**
研究團隊將數(shù)據(jù)按年份排列后,觀察到了一條整體向上的曲線:從2018年到2021年,報告得分穩(wěn)步提升,說明NLP社區(qū)在這段時間里確實越來越注重對標注流程的說明。
2022年是一個特別值得關(guān)注的時間節(jié)點,因為ACL在這一年通過NAACL會議推出了"負責任NLP檢查清單"(Responsible NLP Checklist)。這份清單要求作者在提交論文時,主動回答一系列關(guān)于數(shù)據(jù)、標注和倫理的問題,初衷是推動整個領(lǐng)域的透明度和規(guī)范性。
然而,研究團隊做了一個專門的統(tǒng)計模型(中斷時間序列回歸),用來檢驗2022年之后報告質(zhì)量是否出現(xiàn)了明顯躍升。結(jié)論是:沒有出現(xiàn)明顯的立即改善。報告得分確實在2022年之后繼續(xù)上升,但上升的斜率明顯比2022年之前更平緩,甚至低于按照原有趨勢外推的預測值。
這意味著,檢查清單在某種程度上可能僅僅是將2022年之前就已經(jīng)自發(fā)形成的規(guī)范趨勢"官方化"了,而并非獨立地推動了質(zhì)量提升。研究團隊給出了兩種可能的解釋:其一,2021年的NeurIPS會議率先推出了類似的檢查清單,ACL的清單在某種程度上是借鑒這一先例,相關(guān)意識實際上在2022年正式實施前就已經(jīng)開始擴散;其二,不同類型的論文在這一時期的變化方向可能相互抵消,使得總體平均數(shù)掩蓋了細分結(jié)構(gòu)的差異。
從三個主要會議的分拆分析來看,EMNLP在整個觀察期內(nèi)的報告得分都相對較高,而ACL和NAACL的起點較低,但在2022年之前呈現(xiàn)更陡峭的上升趨勢,并在2022年后逐漸向EMNLP靠攏。這三個會議在2022年后的整體走勢趨于收斂,差距縮小,表明檢查清單可能在促進不同會議間標準統(tǒng)一方面起到了一定的作用,即便對整體水平的提升效果有限。
**五、不同用途、不同標準——模型評估類研究的報告質(zhì)量普遍偏低**
一個尤為突出的發(fā)現(xiàn)來自對標注任務(wù)"用途"的分析。研究團隊將所有標注任務(wù)按照其主要目的分成三類:用于構(gòu)建數(shù)據(jù)集或資源(Resource Creation),用于評估模型輸出質(zhì)量(Model Output Evaluation),以及用于提供人類基準表現(xiàn)(Human Performance)。
對比來看,用于構(gòu)建數(shù)據(jù)集的標注任務(wù),其報告得分在整個七年中都顯著高于模型評估類任務(wù),而且這個差距從未消失。模型評估類論文更頻繁地省略了標注者的招募信息、報酬情況、培訓過程和質(zhì)量控制細節(jié)。
這個發(fā)現(xiàn)其實挺反直覺的。人們可能覺得,為了評估自己模型的論文,研究者應該會格外認真地說明標注過程,因為這直接關(guān)系到結(jié)論是否可信。但現(xiàn)實恰恰相反——正因為這些評估通常是用來為自己的模型"背書"的,研究者或許會無意中降低對方法透明度的重視程度。
**六、主觀語言研究與其他領(lǐng)域的比較——差異真實但規(guī)模有限**
研究團隊還專門分析了涉及主觀判斷和社會語言現(xiàn)象的論文(如仇恨言論標注、立場判斷、情感分析、偏見檢測等),將其與其他NLP研究對比,因為這類研究在理論上對標注者背景的依賴性更強——標注者的政治立場、文化背景和語言母語情況,都可能影響他們對"這句話算不算騷擾"這類問題的判斷。
然而,在整體報告得分上,這類論文與其他類型論文并無系統(tǒng)性差異。也就是說,主觀語言研究者雖然在"找誰來做"這個問題上更細心,但在培訓、補償、質(zhì)量控制等更深層的方法學透明度上,并沒有表現(xiàn)出全面的優(yōu)勢。在不一致意見的處理上,這類論文更傾向于使用多數(shù)投票或保留所有標注者分布的方式,而較少采用專家裁決或討論協(xié)商,這意味著標注者之間的分歧在這些研究中往往被簡單化處理,而非深入解決。
**七、研究建議——三條具體的改進方向**
基于上述發(fā)現(xiàn),研究團隊提出了三條具體的改進建議。
第一條是設(shè)立一個最低限度的報告標準,要求所有使用人工標注的論文,無論標注目的如何,都必須說明以下信息:標注者來源、總標注者數(shù)量、總標注條數(shù)、每條數(shù)據(jù)由幾人標注、是否進行過培訓、語言水平、專業(yè)程度、報酬情況、質(zhì)量控制措施,以及標注指南是否可以獲取。這些不是可有可無的附加信息,而是讀者判斷標注結(jié)論是否可信的最低必要條件。
第二條是倡導任務(wù)敏感型報告標準。對于涉及主觀或社會現(xiàn)象的標注任務(wù),人口學信息尤為重要;對于生成基準數(shù)據(jù)或評估標簽的任務(wù),一致性指標、仲裁流程和質(zhì)量控制信息是核心。不同類型的任務(wù)應有不同的報告重點,而不是一刀切。
第三條是針對模型評估類研究的專項要求。這類研究在報告質(zhì)量上普遍落后,但它們往往是論文主要結(jié)論的直接證據(jù)來源,因此反而應當提高透明度標準,而非降低。
歸根結(jié)底,這項研究的核心主張很簡單:人工標注的過程描述不應該只是學術(shù)論文的"附屬品",而應當被視為研究方法本身的一部分。就像一項藥物臨床試驗不能只報告最終療效,還必須說明誰參與了試驗、如何控制干預變量一樣,NLP研究也需要把"誰來標注、怎么標注"這件事當成科研記錄的核心內(nèi)容來對待。
說到底,這項研究做的事情就是給NLP領(lǐng)域做了一次體檢,發(fā)現(xiàn)它在某些外顯癥狀上("找了多少人標注了多少數(shù)據(jù)")表現(xiàn)不錯,但在內(nèi)在健康指標上("標注者合不合適、流程可不可重復")還有相當大的提升空間。特別是在AI越來越多地被用于評估AI的今天,人工標注的質(zhì)量和透明度更加重要——畢竟,如果我們連"評估這個AI模型的人是誰、他們靠不靠譜"都說不清楚,那這些評估結(jié)果又能值多少分呢?這個問題并不是針對任何個別研究者的,而是整個領(lǐng)域需要共同面對的結(jié)構(gòu)性挑戰(zhàn)。如果你對這份完整的調(diào)查報告感興趣,可以通過arXiv編號2606.02255檢索原文,數(shù)據(jù)集和代碼也將在論文正式接受后公開發(fā)布。
Q&A
Q1:NLP論文中的人工標注報告有哪些信息經(jīng)常缺失?
A:根據(jù)這項大規(guī)模審查,最常被遺漏的信息包括:標注者是否接受過培訓(僅18.7%的論文有說明)、標注者的語言水平(僅24%)、是否公開了標注指南(僅34.1%),以及標注者的年齡、性別、國籍等人口學背景(報告比例普遍低于10%)。這些信息對于判斷標注結(jié)果是否可靠、能否被復現(xiàn)至關(guān)重要。
Q2:ACL負責任NLP檢查清單對標注報告質(zhì)量有沒有實質(zhì)改善效果?
A:這項研究通過統(tǒng)計模型分析發(fā)現(xiàn),ACL檢查清單于2022年推出后,報告得分并沒有出現(xiàn)明顯的立即提升。報告質(zhì)量確實在持續(xù)改善,但改善速度反而比清單推出之前更慢,說明檢查清單更多是將已有趨勢"官方化",而非獨立推動質(zhì)量躍升。不過清單可能有助于減小不同會議之間的報告差距。
Q3:為什么用于模型評估的標注比用于建數(shù)據(jù)集的標注報告質(zhì)量更差?
A:這項研究發(fā)現(xiàn),數(shù)據(jù)集構(gòu)建類研究報告質(zhì)量控制措施的可能性,在統(tǒng)計上顯著高于模型評估類研究,差距接近數(shù)倍。研究者推測,評估類標注通常是為了證明自己模型的表現(xiàn),缺乏外部數(shù)據(jù)集那種"供他人使用"的壓力,因此在方法學透明度上的重視程度相對較低。但這類研究恰恰直接支撐著論文的核心結(jié)論,報告不足反而更值得關(guān)注。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.