網易首頁 > 網易號 > 正文申請入駐

荷蘭伊拉斯姆斯大學打造了一個"讀懂論文"的AI系統

2026-04-22 22:51:46　來源: 科技行者

北京舉報

分享至

這項由荷蘭伊拉斯姆斯大學鹿特丹分校與英國開放大學聯合開展的研究，以預印本形式于2026年4月13日發布在arXiv平臺，編號為arXiv:2604.11152v1。這是一篇中間階段的技術報告，距離最終完成尚有一段路程，但研究團隊選擇提前公開成果，正是為了聽取各方反饋——這本身就體現了一種與主流AI開發截然不同的態度。

**一、一個讓人感到不安的問題**

每次打開ChatGPT，你是否有過這樣的感受：輸入一個問題，幾秒鐘后一篇看起來像模像樣的文章就出現在屏幕上，行云流水，言之成理，卻又總讓你覺得少了點什么？那種感覺就像是去餐廳點了一道招牌菜，端上來的卻是速凍食品加熱后的模樣——形狀對，味道卻不太對。

對于社會科學和人文學科（這兩個領域合稱SSH，涵蓋歷史、哲學、社會學、政治學、法學、語言學、藝術等幾乎所有以"人"為核心的學問）的學者來說，這種不安感尤其強烈。這些學科的核心不是給出標準答案，而是不斷提問、質疑、重構，甚至顛覆現有的認知框架。當一個AI系統開始替你"生成"論文、"生成"觀點，它實際上是在用一種高度標準化的語言，把本來應該充滿張力和探索性的學術思考變成了一碗速食粥。

荷蘭伊拉斯姆斯大學的研究團隊正是被這個問題困擾著。他們的核心追問是：AI語言技術真的只能以這種方式被使用嗎？答案是否定的。他們提出了一套全新的方案，叫做SHARE（社會人文AI研究與教育系統）和MIRROR（模型反思性研究輸出修訂界面）。這不是另一個ChatGPT，而是一個完全不同哲學取向的工具——它的設計目標不是替你寫作，而是幫你更清晰地看見自己寫了什么。

**二、現有AI系統的根本問題在哪里**

要理解這個研究為什么重要，先得搞清楚目前的AI語言模型是怎么運作的，以及為什么它對人文社科學者來說存在根本性的問題。

現在我們用的大型語言模型，無論是ChatGPT、Claude還是Gemini，本質上都是在做一件事：預測"接下來最可能出現的詞"。你輸入"太陽從東方"，它就會補上"升起"，因為在它見過的海量文本里，這個搭配出現的頻率最高。這種能力讓它可以寫出語法通順、邏輯連貫的文章，但同時也意味著它天然傾向于產出"最常見的說法"，而不是"最有洞見的說法"。

這對人文社科是致命的。一個哲學研究者的價值，恰恰在于他能提出一個讓人猝不及防、之前沒人想到過的論點。一個歷史學家的貢獻，可能是把一段被主流敘事長期忽視的地方性經驗重新帶入視野。一個社會學研究者的洞見，可能來自于刻意反對某種已經被學界視為常識的解釋框架。這些都是對"期望"的違背，是對常規表達的偏離——而恰恰是這種偏離，構成了人文社科學術貢獻的核心。

問題還不止于此。現有的大型語言模型幾乎都是用互聯網上的通用數據訓練出來的，STEM領域（科學、技術、工程、數學）的內容在其中占據壓倒性比例。數學證明、編程代碼、化學實驗報告——這些領域的知識有明確的對錯標準，可以用來驗證AI的推理能力。相比之下，人文社科的知識是高度情境化、解釋性的，沒有統一的標準答案。這導致主流AI模型在人文社科方面的訓練本來就不充分，又因為沒有合適的方法來衡量它在這些領域的表現，整個領域的AI開發形成了一種系統性的偏見：STEM領域的AI工具越來越精良，而人文社科領域幾乎被忽視。

更麻煩的是，當商業AI公司出于安全和合規考慮對模型進行"價值對齊"時——比如讓模型拒絕回答涉及仇恨言論或種族歧視的問題——這其實無意間堵死了人文社科研究者正當的學術需求。研究種族歧視的社會學家，研究歷史上暴力事件的歷史學家，研究極端主義話語的政治學家，都可能因為模型的安全過濾而無法得到需要的內容。這不是模型在保護他們，而是在阻礙他們。

**三、SHARE是什么，它是怎么被造出來的**

SHARE是一個從零開始專為人文社科領域訓練的語言模型。與其他模型最根本的區別在于：它的"食譜"只有人文社科的"食材"。

先說數據來源。研究團隊從三個大類的語料庫中篩選內容。第一類是維基百科，他們沒有把所有詞條都納入，而是根據維基百科自己的主題分類系統，專門選取與商業、傳播、文化、經濟、教育、地理、政府、歷史、人類行為、人文、語言、法律、哲學、政治、宗教、社會等相關的條目，同時排除了動植物通訊等非人類社會內容，并且對"科學"類別只保留社會科學和形式科學部分。第二類是古騰堡計劃的書庫，這是一個以公共領域歷史書籍為主的數字圖書館。研究團隊根據美國國會圖書館的分類編號，選取了哲學與心理學、歷史、地理與人類學、社會科學、政治學、法學、教育、音樂、美術等類別的書籍。第三類也是最重要的一類，是學術論文，主要來自兩個大型開放獲取數據庫：PeS2o（包含約4000萬篇開放獲取學術論文，源自語義學者開放研究語料庫）和CORE（一個由英國開放大學運營的大型學術內容聚合平臺，截至2025年5月已收錄約4920萬篇全文學術文檔和4.49億條元數據記錄）。

為了從這些龐大的數據庫中精準提取人文社科內容，研究團隊采用了一種混合策略。當數據庫本身提供了學科分類元數據時，他們直接利用這些標簽進行篩選。當沒有現成標簽時，他們使用了AllenAI（美國艾倫人工智能研究所）開發的學科分類器，自動判斷一篇文章屬于哪個學科領域。最終保留的學科包括藝術、商業、經濟學、地理、教育、歷史、法學、語言學、哲學、政治學、心理學和社會學。

關于模型的架構，研究團隊選擇了微軟Phi-4的結構作為基礎框架，但把它的"詞典"換成了自己從訓練數據中學習出來的版本。原版Phi-4的詞典有約10萬個詞條，而SHARE的詞典只有5萬個，這是因為訓練數據主要是英文和荷蘭文，不需要那么多詞條也能有效處理高度專業化的學術文本。研究團隊同樣訓練了兩個規模的模型：參數量約39億的SHARE-4B，以及參數量約140億的SHARE-14B，分別對應Phi-4-mini和Phi-4的規模。

訓練過程的細節也相當值得了解。SHARE-4B的訓練得到了英偉達學術資助的支持，在一個叫做Saturn Cloud的云計算環境中，用8塊英偉達A100 GPU跑了656小時，完成了280億個詞條的兩輪訓練。這個訓練過程產生的碳排放量大約相當于一張從阿姆斯特丹飛往紐約的經濟艙單程機票。SHARE-14B目前仍在訓練中，已經處理了960億個詞條，最終目標是完成6300億詞條的計算最優訓練量，也就是說在這份技術報告發布時，14B模型只完成了15%的訓練。這部分訓練先在Saturn Cloud的8塊A100 GPU上跑了167小時，后來轉移到荷蘭國家超級計算機Snellius上，使用20塊H100 GPU并行運算了約225小時。團隊還特別強調，他們為確保高效運算花了相當大的工夫，使用了多種加速技術。

**四、MIRROR：一個"不生成任何文字"的AI界面**

SHARE模型做好了之后，研究團隊面臨一個關鍵決定：怎么讓人們使用它？

通常的路徑是：在預訓練完成后，進行監督微調（讓模型學會回答問題），然后做價值對齊（讓模型學會拒絕有害請求）。但研究團隊決定不走這條路，原因有幾個。其一，根本沒有專門為人文社科設計的微調數據集。其二，如前所述，通用的價值對齊會干擾人文社科的正當研究需求。其三，他們在實驗中發現，對SHARE進行通用的微調之后，模型生成文本的質量反而下降了，這與近期其他研究的發現一致。

正因如此，他們決定讓SHARE保持在純粹的預訓練狀態，并為它設計一種完全不同的使用方式。

MIRROR的核心邏輯是這樣的：一個只用人文社科文本訓練出來的語言模型，當它預測"下一個詞最可能是什么"的時候，它實際上是在表達人文社科文本的"平均期望"。如果你寫的某個詞在這個模型看來是高度出乎意料的，那要么是你犯了個錯誤，要么是你寫出了真正有原創性的內容。這兩種情況都值得你停下來想一想。

具體操作是這樣的：你把一段文字輸入MIRROR，它不會生成任何新的內容，而是對你文字中的每一個詞計算一個"意外程度分數"。分數越高，說明這個詞在人文社科的語境下越出乎意料。然后，這些詞會在屏幕上用顏色深淺來顯示——顏色越深，說明越意外。

背后的數學并不復雜，但值得了解一下。研究團隊計算了每個詞的"驚訝度"（簡單說就是：這個詞有多不像模型預測的那個詞），以及整個詞庫在這個位置的"混亂度"（簡單說就是：模型在這個位置本來就沒有特別確定的預測，所以意外性本身意義不大）。把這兩個指標結合起來，得到每個詞的Z分數——這是統計學中衡量"與正常情況偏離了多少個標準差"的指標。Z分數高的詞就會被MIRROR用深色標注出來，提示作者："嘿，這里有點不尋常，你要不要看一看？"

當你把鼠標懸停在某個被標注的詞上時，MIRROR還會顯示"模型原本最期待在這里出現的詞是什么"，呈現出一個類似詞典輔助功能但性質完全不同的東西——不是告訴你這個詞的同義詞，而是告訴你在這個上下文里，整個人文社科文獻中最常用的詞是什么。

除了這個基本的詞級標注，MIRROR還提供幾種擴展視圖。一種是把文章中所有被標注詞按意外程度排名，讓你一眼看出哪些地方最特別。另一種是反過來看：在你的文章里，模型覺得"應該出現但實際上沒出現"的詞是哪些，讓你思考是否有什么重要概念被自己忽略了。還可以按句子或段落來匯總意外性分數，幫助你從更宏觀的角度了解哪些部分最符合領域常規，哪些部分最具獨特性。

這個界面的設計靈感來自一種叫做"期望違背理論"的學術框架。這個理論來自人際傳播研究，它提出一個看似反直覺的觀點：違背期望有時候比符合期望更好。在人文社科的寫作中，這個原理格外適用。期望的違背可能意味著錯誤，也可能意味著創新。MIRROR的作用就是把這些違背期望的地方標示出來，讓作者自己來判斷：這是一個需要修改的錯誤，還是一個值得保留的創新？

**五、這個系統有多好用：三類測試的完整結果**

研究團隊通過三個層次的測試來評估SHARE的實際表現。

第一個層次是驗證SHARE是否真的比通用模型更適合人文社科文本。他們用的方法是測量"困惑度"——這是語言模型領域衡量"模型對一段文字有多不確定"的指標，值越低說明模型越能理解這段文字。他們用的測試素材是2025年第三季度和第四季度在伊拉斯姆斯大學鹿特丹發表的論文摘要，這批摘要不在SHARE的訓練數據中，可以公平地測試模型的真實能力。對比的基準是Phi-4模型（與SHARE架構相同的通用模型），比較兩者在理解不同學科論文時困惑度的差異。

結果顯示，在藝術、教育、社會學這些典型人文社科領域，SHARE與Phi-4之間的困惑度差距明顯小于生物、工程、醫學這些STEM領域——這說明SHARE在人文社科領域的理解能力相比Phi-4確實有更高的相對專業性。以學院為單位來看，伊拉斯姆斯大學醫學中心的論文與SHARE的契合度在所有學院中最低，而歷史文化傳播學院、法學院、社會行為科學學院的契合度則明顯更高，這與直覺完全一致。

不過，Phi-4在絕對困惑度數值上仍然總體低于SHARE，也就是說通用性能上Phi-4更強。研究團隊把這歸因于訓練數據量的巨大差距：Phi-4用了約萬億規模的詞條，而SHARE只用了數百億，對英語本身的掌握自然沒有Phi-4那么全面。這個局限性引出了第二個測試。

第二個層次是專門為這項研究設計的"SSH完形填空基準測試"。完形填空是語言學習中的一種經典測試形式——把一個句子中的某個詞挖掉，讓被測者猜是什么詞。研究團隊把這個方法改造成一種專門測試人文社科領域知識的工具。

具體做法是這樣的：他們從2026年第一季度發表的275篇人文社科領域學術摘要（這批摘要肯定不在任何模型的訓練數據中，保證了測試的公平性）中，找出需要學科背景知識才能判斷的詞對，比如"正向"vs"負向"、"更高"vs"更低"、"更大"vs"更小"。以"社交媒體使用與幸福感的相關性是負向的"這句話為例，要預測"是"字只需要懂英語語法，但要預測"負向"而不是"正向"，就需要了解相關的社會科學研究結果。這275個例子來自11個學科（藝術、商業、傳播、經濟學、教育、地理、歷史、法學、哲學、心理學、社會學），每個學科25個例子，通過在Web of Science上搜索特定關鍵詞并按引用量排序來選取，盡可能代表各領域的標志性研究成果。

測試結果相當令人注目。SHARE-14B（僅完成了15%的訓練！）取得了79.6%的修正準確率，超過了完整訓練完畢的OLMO-2-13B（73.8%）和Pythia-12B（61.5%），并且與架構完全相同、完整訓練完畢的Phi-4-14B（81.8%）僅差2個百分點——而Phi-4所用的訓練詞條量是SHARE的100倍。從計算效率的角度看，SHARE-14B處于所有測試模型中效率最高的那個位置：用最少的計算量達到了最接近頂級的準確率。SHARE-4B（66.2%）的表現也比同等規模的Pythia-3B（63.6%）略好，但低于參數量僅1.1億卻專為社會科學摘要訓練的SSciBERT模型（67.6%），這說明在完形填空這類任務上，專為該任務設計的掩碼語言模型（即類似BERT的雙向模型，而非SHARE這類自回歸模型）仍有其優勢。

第三個層次是定性測試，研究團隊用四個具體案例展示了SHARE-MIRROR系統在真實使用場景中的表現。

第一個案例是錯別字和風格問題檢測。研究團隊用了一段受一年級本科生寫作啟發構建的文本，里面故意埋入了錯別字（"platforma"多了一個字母a）和不符合學術規范的風格選擇（文章開頭直接引用、沒有給"Twitter"加引號、用"literary"代替"literature"）。兩個模型都成功標注了錯別字，14B模型還額外標出了更微妙的風格問題，比如"But so"這種不常見的句子開頭方式。

第二個案例是內容錯誤檢測。研究團隊構造了一個把議程設置理論的發明者寫成了Gerbner和Katz（實際上是McCombs和Shaw）的錯誤陳述。兩個模型在"proposed by"之后都預測"McC"（即McCombs的開頭）是最可能出現的詞，但只有14B模型的置信度高到足以觸發紅色標注。這個案例還揭示了一個重要的使用原則：如果文本前面已經有了一個錯誤，模型會被這個錯誤"帶偏"，對后續內容的判斷也會受影響。因此，MIRROR在使用時應當從文章開頭開始逐步修改，而不是跳著來。

第三個案例展示了正面的期望違背，也就是真正的創新性內容。研究團隊用了一篇2026年關于社交媒體隱私的元分析文章的討論部分，這篇文章在隱私研究的語境中引入了平臺監管、數字素養等不太常見的討論維度。模型標注了"guide"（引導）、"platform"（平臺）、"literacy"（素養）等詞為意外詞——這不是錯誤，而是這篇研究提出的獨特視角。研究團隊還演示了"缺失詞"功能：模型認為在這段文字中"應該出現但沒有出現"的詞是什么？SHARE-4B給出了"section"、"safety"、"protection"，SHARE-14B給出了"ecosystems"、"designing"、"prioritize"。作者可以自己判斷這些"缺失詞"是否值得被納入討論。

第四個案例最為深刻。研究團隊選取了傳播學者Gregory Gondwe在2025年國際傳播學會年會主席致辭回應文章的第一段。這篇文章討論的是全球化傳播研究中長期存在的地理偏見問題——來自非洲的知識生產者被主流傳播學視野邊緣化。MIRROR標注了大量詞匯為意外，包括"cosmopolitan"（世界主義）、"curiosity"（好奇心）、"African"（非洲的）和"locations"（地點）。更耐人尋味的是：當模型看到"African"這個詞時，它最可能預測的下一個詞不是"continent"（大陸）或"scholars"（學者），而是"-"（破折號）和"American"——因為在整個英文人文社科文獻中，"African"最常見的用法是"African-American"（非裔美國人）。這個結果以一種幾乎不需要解釋的方式，用模型自身的偏見揭示了Gondwe文章所批評的那種結構性偏見：即便是在學術文獻中，非洲作為獨立的知識來源也是"意外的"。

**六、為什么不做成聊天機器人，以及這意味著什么**

理解了SHARE和MIRROR的設計之后，有一個問題可能已經浮出水面：為什么不做成更熟悉的對話式AI？你說一句話，它回一句話，這樣不是更方便嗎？

研究團隊的選擇有著深思熟慮的理由。他們認為，把語言模型做成一個能流暢對話的助手，本質上是在鼓勵一種思維上的依賴關系。當你把寫作任務交給一個對話AI，它給你一個答案，你接受或者微調，這個循環讓模型成了思考的主體，而你成了審核者。對于人文社科的學者來說，這恰好顛倒了應有的關系。

MIRROR的界面設計刻意沒有任何文字輸入框——不，準確來說是有一個輸入框，但你輸入的是你自己寫好的文章，而不是一個問題或指令。輸出也不是一段生成的文字，而是對你已有文字的分析。這種設計讓AI始終處于工具的位置，而不是創作者的位置。

此外，研究團隊也在擔心一種叫做"擬人化效應"的心理現象：當AI系統像人一樣跟你對話，你會不知不覺地開始把它的輸出當成權威，賦予它一種它本不該擁有的可信度。歷史上有一個著名的例子叫做"ELIZA效應"——1960年代麻省理工學院開發的早期聊天程序ELIZA，其實只是在用簡單的規則模仿心理咨詢師說話，但測試的人們卻對它產生了真實的情感依附，甚至有人把它當成真正的治療師。研究團隊認為，現代的對話AI正在以更大的規模重演這個問題，而MIRROR的非對話設計是一種刻意的對抗。

在數據使用的倫理方面，研究團隊也做了相當多的工作。他們用于訓練的學術文獻都來自開放獲取來源，這些論文的作者讓自己的研究成為公共財富，是為了讓知識傳播，而不是為了讓商業公司從中牟利。研究團隊為SHARE制定了一個叫做"負責任AI許可證"（RAIL）的自定義許可條款，明確禁止商業使用、禁止模型蒸餾（一種從大模型中提取知識來訓練小模型的技術，如果允許的話商業公司可以繞過非商業限制），并且限制將模型用于自動文本生成的應用場景。

他們還特別注意數據處理的地理范圍：原始數據的預處理只在歐盟境內的服務器上進行，發送到美國云服務器進行訓練的數據已經是處理后的詞條化形式，并在訓練結束30天后刪除。這與歐盟通用數據保護條例的要求相符。

關于版權風險，研究團隊通過實驗證明SHARE模型并沒有"背誦"訓練數據的問題。當他們用訓練集中的文章片段來測試模型，讓它按確定性最高的方式逐詞續寫，模型生成的內容很快就偏離了原文，說明它沒有把這些文字原封不動地記住。唯一能被"記住"的內容是一些標準化的免責聲明和文件頭部信息，這些本來就不受版權保護。

**七、研究團隊對局限性的坦誠**

這項研究有一個相當少見的特質：研究團隊對自己工作的局限性十分坦誠，沒有試圖掩飾或淡化。

第一個已知局限是語言覆蓋面。盡管人文社科是一個全球性的學術領域，SHARE的訓練數據主要是英文，以及少量荷蘭文。這意味著它對人文社科的"期望"是基于英語學術文獻的"期望"，這本身就是一種偏見——正如第四案例所揭示的，即使是英文開放獲取的人文社科文獻，也已經因為歷史上的殖民結構而存在嚴重的地理和文化偏向。一個用這些文獻訓練出來的模型，會把這些偏見內化為"正常"，把來自非洲、亞洲、拉丁美洲的本土知識框架標注為"意外"。研究團隊認為這個局限需要在未來迭代中通過納入多語種語料庫來解決，但他們同時也指出，這個問題本身已經是MIRROR可以讓人意識到的一種偏見——模型的局限性變成了可見的學術議題。

第二個局限是SHARE-14B在報告發布時只完成了15%的訓練。這意味著目前公開的模型性能只是最終版本的預覽，很多能力還沒有完全發展出來。在完形填空測試中與Phi-4已經相當接近的表現，讓研究團隊對完整訓練后的結果持有信心，但這仍然是推斷，不是已證實的結論。

第三個局限是SSH完形填空基準測試本身的局限性。275個例子、11個學科，這個規模還相對有限。此外，測試中選取的詞對（正向/負向、更高/更低等）并不完全能代表所有類型的領域知識，而且測試摘要中可能有一部分是用大型語言模型輔助寫成的，這會影響測試的干凈程度，盡管研究團隊認為這個風險相對可控。

第四個潛在風險是MIRROR本身的使用方式可能被誤用。如果讀者（比如論文審稿人）把MIRROR的輸出當作一種捷徑——只關注紅色標注的部分，把"出乎意料的多"直接等同于"寫得好"或"有創新性"——這就和研究團隊的設計初衷背道而馳了。MIRROR是一個引發反思的工具，不是一個提供結論的工具。這種誤用的風險是真實存在的，而且目前沒有技術手段可以完全防止。

**說到底，這項研究在做一件困難的事**

歸根結底，SHARE和MIRROR試圖解決的是一個從根源上就帶有張力的問題：如何用本質上是"預測常規"的技術，來支持本質上是"創造非常規"的工作？

研究團隊的回答是：不要試圖讓AI去模擬人文社科的創新，而是讓AI精確地告訴你什么是常規，然后由人來判斷自己的偏離是不是有意義的偏離。這個方案不能完全解決這個張力，但它至少把判斷權還給了人——把AI從一個生產者變成了一面鏡子。

這項由荷蘭伊拉斯姆斯大學鹿特丹分校與英國開放大學聯合發布的研究（arXiv:2604.11152v1，2026年4月13日），對所有關心AI與人文價值之間關系的人來說，都是一個值得認真思考的參照。如果你想了解更多，可以用論文編號arXiv:2604.11152在arXiv平臺上找到完整的技術報告，包括所有訓練細節、基準測試數據以及MIRROR的技術實現方式。

Q&A

Q1：SHARE模型和ChatGPT的根本區別是什么？

A：SHARE模型只用人文社科領域的文獻訓練，沒有經過"讓模型學會回答問題"的微調，也沒有做商業AI常做的價值對齊處理。ChatGPT這類模型是用海量通用互聯網數據訓練，然后進一步調教成能流利對話的助手，設計目標是生成用戶期望的回答。SHARE的設計目標恰恰相反——它保留的是對人文社科文本"什么是常規"的原始判斷，而不是追求流利地生成文字。

Q2：MIRROR界面具體怎么用，普通學生能用上嗎？

A：使用方式是把自己寫好的文章粘貼進MIRROR，系統會對每個詞計算"意外程度分數"并用顏色深淺顯示出來。顏色越深說明這個詞在人文社科文獻中越不常見。懸停在某個詞上還能看到模型"原本期待在這里出現的詞"。研究團隊提到SHARE-4B的量化版本可以在只有CPU的普通筆記本電腦上運行，未來有讓學生能在本地使用的潛力，但目前主要以研究原型的形式存在。

Q3：SSH完形填空基準測試是如何保證公平性的？

A：研究團隊專門選取了2026年第一季度發表的學術摘要作為測試素材，確保這些內容在所有被測試模型的訓練截止日期之后才出現，從根源上排除了"模型之前見過這些文字"的可能性。此外，所有被測試的詞對（正向/負向、更高/更低等）都是那種單靠英語語感無法判斷、必須了解該領域具體研究結論才能猜對的詞，專門用來測量領域知識而非語言能力本身。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.