![]()
撰文|張天祁
在傳統的學術評價體系中,一篇能夠發表在頂級期刊上的實證論文,代表著研究者長達數年的高強度投入。從打磨原始構思、清洗海量噪聲數據,到構建復雜的計量模型,最后還有和審稿人之間漫長的反復拉扯。
然而,2026年2月,蘇黎世大學經濟學教授 David Yanagizawa-Drott 發布了一個視頻,在視頻里他花了不到6個小時,一下午的時間就用AI寫出了一篇“頂刊論文”。
Yanagizawa-Drott 曾長期擔任《經濟學季刊》(QJE)的副主編,目前仍是《政治經濟學雜志》(JPE)的編委。這次他利用 Claude Code,在不到 6 小時的交互過程中,生成了一篇結構完整、長達 53 頁的宏觀經濟學論文。
在他公開的記錄中,AI 的介入已不再局限于文字潤色,而是幾乎完全自動化。從最初的構思,到自主編寫代碼進行模擬運算,再到最終完成 LaTeX 排版,整個流程都由AI完成。而且這完全不是編造或者模擬,而是利用真實數據,具體來說是2000 年 1 月至 2024 年 6 月美國50個州的面板數據做出的研究。
這篇論文只是 APE Project(自主政策評估項目)的成果展示之一[1]。由Yanagizawa-Drott參與發起的這一項目,已經自動生產了數百篇論文。該項目的野心是建立一套全自動的研究流水線,讓 AI 獨立完成從選題、數據抓取到因果推斷的全過程。為了挑戰傳統范式,APE 項目甚至設計了一場競賽,將 AI 的初稿與《美國經濟評論》(AER)等頂刊即將發表的人類作品進行自動化評分對比。
這次頗具沖擊力的展示,很快在經濟學界激起了好奇與跟進。《知識分子》為此聯系了三位學者,中國農業大學經濟管理學院教授朱晨、中央財經大學財經研究院數字財經研究中心執行主任陳波,以及一位長期關注中國宏觀經濟政策和微觀基礎領域的研究者。他們都在最近進行了使用AI智能體生成論文,并分享了各自的操作過程與經驗。
為了探尋這套自動化邏輯的邊界,三位學者分別搭建了各自的科研智能體系統。盡管都完成了從數據處理到論文初稿生成的流程,但在如何引導 AI,以及 AI 將如何影響科研的問題上,他們的看法并不一致。
01 AI生成論文,到底什么水平?
Yanagizawa-Drott 用 AI 生成的論文往往非常工整,初看之下,很難將其與人類資深學者的作品一眼區分開來。也正是這種“看起來像那么回事”的特征,在傳播過程中不斷被放大。在自媒體和社交平臺的多次傳播中,APE 項目已經演變成了“AI幾小時就能生成頂刊論文”的學術神話。
這種形似是否等同于真實的學術高度?AI完成的論文到底是什么水平?
朱晨認為,Yanagizawa-Drott的APE項目產出的論文,在論文結構和寫作規范上已經相當成熟,“從形式上來說是過關的”,能夠生成一篇符合經濟學論文基本要求的文本。
但她通過對自身實踐的總結指出,如果直接將其等同于頂刊水平,依然過于夸張。更接近現實的定位,是達到研究生論文的標準,甚至一些影響因子在3到4分左右的開放獲取期刊,也可以嘗試去投稿。
關注中國宏觀經濟政策和微觀基礎領域的那位研究者,評價標準是最嚴格的,并且對“幾小時生成頂刊論文”的說法表示非常反感。
這位學者也關注了APE項目,甚至瀏覽了幾乎全部200篇論文的內容。但在他看來,在已經公開的兩百多篇論文中,只有極少數選題具備繼續推進的價值。這些流水線作品的含金量極低,在那 200 多篇論文里,只有一篇關于勞動經濟學的選題思路非常好,其余大多“只是剛入門的研究生水平”。
甚至,他認為這些 AI 產出的邏輯和深度,還不如他手下那些相對成熟的高年級本科生或研究生。若以審稿人的標準衡量,這些文章很難通過基本篩選,“如果送到我手里,我會直接拒掉”。病灶不在寫作,而在分析實在太過于淺顯,方法部分更是殘缺不全。
一篇成熟的經濟學頂刊實證論文,對方法的要求一定是非常嚴格的。例如使用雙重差分(DID)方法的論文,不僅要完成基準回歸,還需要進行平行趨勢檢驗(parallel trends)、平行趨勢的敏感性檢驗(sensitivity analysis),以及異質性處理效應(heterogeneous treatment effects)的分析。
這些步驟,尤其是后兩者,已經成為近年來使用DID方法研究中的常規要求。但在目前公開的AI生成論文中,這些關鍵步驟往往缺失,或者只是形式性地出現,無法支撐有效的因果推斷。
他進一步指出,這未必是模型能力本身的上限,更可能是工作流設計的問題。研究者在調用AI時,并沒有把這些方法論上的要求嵌入進去。為此,他自己專門發布了一套包含11個環節的DID完整工作流,把這些近年來形成的規范逐一拆解,并轉化為可以直接執行的指令結構。
按照這套邏輯運行,“做到博士生論文初稿的水平是完全有可能的”。但即便如此,這位學者依然堅信,從初稿到成品之間,仍需人類來補足分析深度。在社會科學領域,他短期內看不到“人什么都不用干,就在那里等結果”的全自動化可能。
陳波對AI能力的評價則是最為樂觀的,他的思路也更“工業化”,他更關注整體的投入產出效率。根據他的經驗,如果不刻意追求深度和考慮細節,AI 最快可以在 20 分鐘內產出一篇 70 分左右的初稿。
“如果中間覺得不滿意讓它返工的話,這個時間肯定就會更長,但通常一到兩個小時會基本上出一個相對比較強的一個版本。”在陳波看來,AI智能體單純基于數據分析來寫論文,完成時間目前已經可以穩定控制在 1 小時以內。雖然判斷選題本身是否具備學術價值,或者研究視角是否符合當前學術界的共識,這些還需要由研究者來判斷。
陳波認為修改過的論文大致能達到85分的水平。這個分數意味著,這些論文大體可以達到中等期刊及以上的的水平,但距離頂級期刊仍存在一定差距。具體文章的質量,在一定程度上取決于選題本身。由于生成過程帶有一定隨機性,如果問題設定得當,結果可能會更接近高水平研究。
如果只是作為一篇規范的期刊論文,他認為這類論文達到核心期刊標準問題不大,甚至在某些方面已經超過不少既有工作。
02 AI現在能做到哪一步了?
朱晨開始使用AI智能體寫論文是在今年春節前后。Yanagizawa-Drott 發布視頻后,她也搭建了自己的智能體,這種程度的自動化,是她之前完全沒有想過的。一直將 AI 局限于潤色語言、排查代碼問題等輔助工作的她,第一次意識到AI已經進化成了真正有可能獨立完成科研的工作伙伴。
朱晨將原本由研究者逐步完成的經濟學實證研究流程拆解為一系列標準化步驟,并交由不同的 AI 智能體分別執行,研究者只需要在少數環節干預,這套系統被她稱為 HLER(Human-in-the-Loop Economic Research)[2]。
系統將研究拆解為七個環節,由專門的智能代理執行。它們負責審計和分析數據、生成候選研究問題、收集與處理數據、進行計量分析、撰寫初稿,并由 AI 審稿者進行初步評價。人類研究者只需在選擇研究問題和批準最終稿件時介入,其余環節均可由 AI 完成。
![]()
對 AI 生成內容的批評,往往集中在其不夠準確。它提出的問題常常似是而非,甚至與實際數據并不匹配。很多學者也堅持認為科研問題的提出仍要依賴學科經驗。
但在經濟學等高度依賴數據庫的研究中,如果AI智能體能夠學會合理調用數據庫數據,把研究建立在具體數據之上,至少可以在很大程度上保證其可行性。
在HLER系統里,智能體會先掃描本地數據庫,了解可用變量、時間跨度和樣本量,然后生成 4 個左右初步研究方案。每個方案都必須滿足三個條件:變量在數據庫存在、研究設計與數據結構匹配、可用計量方法可解決。
每個生成的問題由兩名研究人員獨立評估,若意見不一致,則通過討論達成共識。結果發現,在調用數據庫的情況下,AI生成問題其實是很有保障的。在十四次運行中,這一數據集感知機制共生成 79 個候選問題,其中87%都符合所有條件。
不過,在研究問題創新性這個問題上,朱晨還是認為只有擁有經驗的學者才能把控。所以相比APE的完全自動生成選題,她還是堅持人機結合。AI智能體可以針對單個數據集生成數十個技術上可行的研究問題,但僅靠這些可行性標準是不夠的。如果研究者從中只挑選統計顯著的結果作為研究結論,就等于把 AI 的“可行問題庫”變成了學術不端的工具,這種風險正是人機結合所要避免的。
甚至,AI 的能力并不止于提出問題。
在陳波的嘗試中,他觀察到,AI 不僅能夠根據數據內容生成選題,還能在完成建模分析后,根據結果反過來調整研究方向,甚至進一步優化所使用的數據來源,主動擴展和補充新的公開數據。
這也意味著研究流程本身正在發生變化。換句話說,選題不再是研究的起點,而只是 AI 智能體研究循環中的一個環節。不再是先有問題、再去根據數據分析,而是從數據出發生成問題,再由結果反過來篩選和調整問題。
如果說選題還離不開學者的把關,那么在具體方法執行層面,自動化已經更為徹底。
朱晨介紹,過去如果使用相對復雜的計量方法,比如雙重差分(DID),必須先把方法寫成函數再讓系統調用。但自從有了Claude Code之后,她只需要簡單用文字說明,例如“現在的OLS方法太簡單識別不了因果,需要引入DID的方法”,智能體就能自主去調用相關的內容,并生成相應代碼,無需她手動操作。
當程序報錯,AI還會自動去讀取日志以修復代碼,速度甚至比人工調試還要快。特別是在處理高維面板數據時,她認為AI“比很多剛上手的博士生都要嚴謹,因為它不會馬虎,會一遍一遍地去校驗結果”。
在這種情況下,研究者的角色也在悄然變化。
朱晨感慨,現在她和AI的相處并不像使用一種工具,而是作為AI的“訓練家”。她只要把需求和方向說清楚,其余的執行和學習,系統都能自動在后臺完成。
如果說選題與代碼編寫還停留在執行層面,那么進入審稿階段,AI已經可以在研究思路上給出很多建議了。甚至能夠根據論文的邏輯漏洞,自主在方法庫中檢索并升級實證方法。
以“高等教育是否縮小了中國農村女性的職業性別差距”這個問題為例,智能體首先調取了中國健康與營養調查(CHNS)1989年至2011年的五萬余條數據,在確認命題后,完成了一輪標準的固定效應回歸,并生成了一篇約5000字的初稿。
接下來,初稿會進入審稿階段。審稿智能體首先根據新穎性、識別可信度、數據質量、清晰度和政策相關性等五個維度的標準對論文進行評價,然后在1到10分中給出一個分數,如果不夠6分的及格線會反復迭代,通常情況下會生成兩到三稿。
更關鍵的是,這一過程不僅是打分,還伴隨著具體的學術反饋。審稿智能體會按照真實投稿的標準提出意見,指出論證中和方法的問題,要求補充穩健性檢驗,或建議進行分組一致性分析等。
在那篇關于高等教育與農村女性的論文中,審稿智能體就提出可能存在反向因果的問題,即職業選擇的前景本身可能會影響女性接受高等教育的機會。審稿意見建議引入 事件研究(event-study)設計、開展敏感性分析(sensitivity analysis),并對固定效應模型的識別假設作出更明確的說明。
這些意見會被直接轉化為新的分析任務。執行智能體據此在方法庫中檢索更嚴密的方案,對實證策略進行補充和修正。經過多輪迭代,論文整體評分從 4.6 提升至 6.5,其中識別可信度由 3.2 提高至 5.8,表達清晰度從 4.1 提升至 6.9,提升最為明顯。
然而,隨著自動化程度不斷提高,一個無法回避的問題也隨之浮現:這些由 AI 生成的研究,究竟在多大程度上是可信的?
“幻覺”始終是對AI科研最核心的質疑之一。對于科研寫作而言,這不僅意味著個別事實錯誤,更可能體現在引文不存在、數據對應錯誤,甚至在看似嚴密的論證中摻入并不存在的依據。一旦這些問題進入論文,就很難通過表面閱讀被識別出來。
也正因此,朱晨花了很多時間去加強模型系統驗證的力度。她的做法是在系統生成引文時,實時調用 Google Scholar 和 Crossref 等公開數據庫的 API,并自動觸發一個驗證流程:只有在數據庫中找到對應條目,且作者、年份、期刊信息完全匹配,并附有唯一 DOI 的文獻,才會被保留,驗證不通過的引用則會被直接剔除。
與此同時,結果本身也必須經過復現檢驗。在每次研究完成后,系統都會生成完整的 R 代碼,研究者可以基于原始數據和抓取數據重新運行分析流程,確認回歸結果與報告一致。朱晨強調,這一步復現是整個流程中不可或缺的環節,也是確保研究可靠、避免 AI 幻覺的關鍵。
03 學術界的危機
過去幾年,盡管有著AlphaFold這樣的AI科研工具誕生,但是研究者們好像沒有真正擔心AI會沖擊科研本身,它更多被視作一項方便的、能夠提升效率的工具。
然而在今年,隨著AI智能體的發展,科研工作似乎也不再安全了。從數據獲取、數據清洗到模型設計以及寫作,這些工作正在一塊塊被模型接過。原本要做上幾周的事情,現在往往幾小時就能出結果,成本也更低。
隨之而來的問題是,博士還要怎么培養?學術分工還是否站得住?論文本身到底還有多少意義,這不僅涉及部分學科,還涉及到整個學術和教育體制。
朱晨的判斷相對克制。她認為真正被沖擊的是學術生產中那些早已高度流程化的部分,而不是學科本身。“AI打擊的是那些機械重復流程性工作、不思考自己到底要做什么的人,不管是文科還是理科 ”。
在她看來,文科生反而可能迎來一波技術紅利。以往人文社科研究者常受制于編程或建模的門檻,而智能體的進步,讓技術門檻被迅速抹平。朱晨以自身為例:“我的編程水平很初級也不會 Python,但我把想法告訴 Claude,它就能直接實現”。
從另一個角度看,既然AI能夠替代大量重復性勞動,編程和寫作等技能在研究者訓練中的重要性可能會下降,而判斷力則變得更加核心。朱晨指出:“如果你沒有自己的知識體系和明確的研究目的,你甚至不知道讓Agent去干什么,也無法判斷它生成的東西是否可靠。”
她進一步強調,這正是AI難以替代的部分:“研究的重要性、創新性,這些判斷還是需要人來做。而且,這需要具備相關理論積累的人才能勝任”。
研究者,則堅信AI不存在替代研究者的可能。“專業的事情永遠需要專業的人來做。對專業研究者來說,AI永遠只是一個輔助工具”。他認為真正拉開差距的不在于是否使用AI,而在于能否讓技術服務于研究。用得好的人,會進一步拉開與他人的差距,成為頂尖研究者,否則可能在競爭中被淘汰。
陳波的觀察則更為冷峻。把學者的判斷力看作防止AI替代的護城河,在他看來是一種出于自我保護心態的錯覺。人所謂的判斷或者品味只是一種偏好,視野狹窄而且局限于自己的知識范圍。AI其實也有自己的“品味”,甚至由于能夠抓取并整合海量數據,它在全局視野下做出的判斷往往比人類更優。
既然學者已經沒有優越性,在AI的沖擊下,陳波認為不僅初級崗位,中級崗位現在也已經面臨被替代的風險,因為現在的AI產品已經達到了中等偏上的水平。之所以還沒發生大規模的替代,阻礙不在于 AI 的能力,而在于學術界的接受度沒有跟上。
“只要看過它產出的速度和質量,你就知道在現有的范式下,人類的體力勞動已經沒有競爭優勢了。未來的競爭不再是個人的勞動時間,而是你消耗的 Token產生的價值。智能體睡覺時也在跑,它的產出與人的時間不再是正相關的”。陳波直言。
而論文能夠批量生產,也意味著相關能力訓練的貶值。過去一位博士要花很長時間才能做完的事情,現在可能借助AI一個小時就已經可以出結果了。在這種情況下,再繼續用原來的方式做事已經失去意義,這些能力訓練在企業也不會得到重視。
“如果博士不值錢,從長遠來看整個教育體系都會受到很大影響”,他進一步表示,整個學術界的意義,未來都需要重新反思。“以后發論文這件事會極速貶值。如果寫文章變得這么容易,那除了為了應付考核,寫這些文章的真正社會價值到底在哪”?
這并不是說研究和數據分析的工作本身沒有意義,但AI的介入已經將學術界的平庸產出推到了極致,讓人更加質疑大量人力投入到知識生產和論文發表的必要性。
即使不作這種相對宏觀的判斷,部分初級研究崗位將被AI替代,也是三位學者共同認可的現實。
朱晨表示,初級研究崗位受沖擊是必然的,這并不是她一個人的感受。在她發布使用Claude Code撰寫論文的相關博文后,一些同事也開始嘗試,結果他們普遍反饋Claude Code的效率要比研究助理更高。
不過,這不意味著博后崗或者研究助理崗一定縮水,而是這種變革導致了人才篩選標準的變化。在處理純二手數據、文獻整理等機械性工作上,智能體的能力已經超越了普通研究助理。朱晨坦言,過去傾向于招募代碼寫得好、手快的 RA,而現在這種需求已經消失,她更傾向于尋找智能體的“訓練家”。
“如果我現在招博士后,我不再看重他是否會寫基礎代碼,因為這些 AI 都能做。”她目前最看重的兩點,一是駕馭 AI 的工具能力,二是面對技術變革時的開放心態(Open Mind)。在她看來,如果一名研究者僅僅在重復 AI 都能完成的工作,那他確實危險了。
長期關注中國宏觀經濟政策和微觀基礎領域的那位研究者也認為,如果AI進一步發展,對初級科研崗位的替代幾乎是不可避免的。
在他以往的工作模式中,一篇論文往往對應一到兩個研究助理,而團隊同時推進三到四個研究方向。哪怕是遠程工作,一位助理一個月也要兩三千元。現在不再需要這么多助理,反而需要一個熟悉整套AI輔助研究流程的人,幫忙去同時盯著多個項目。“過去一年可能需要十個研究助理,現在一個人就可以覆蓋大部分流程”。
那么,余下的研究助理崗位是否會消失?他認為不會。這部分助理可以投入新的工作。“過去一個周期可能只開展三到四個項目,而現在這個數量可能擴展到三四十個”。這樣的發表速度下,能推動經濟社會發展的學術貢獻也會積累更快。
陳波的判斷走得更遠,他認為由于 AI 工具的普及,如今一名本科生在短時間內就能達到過去博士生的產出水平,這意味著學術訓練的傳統價值正被稀釋,未來的研究者首先要學會做使用AI的指揮官。
“現在的學生挺難的,可能還沒畢業,學的東西就已經失效了,”陳波感慨。因此,他一向鼓勵學生打破條條框框,不要被學校禁止使用AI之類的陳舊規定束縛。在他看來,在顛覆性技術變革面前,積極擁抱新技術是唯一的生存之道。
陳波表示,未來的就業結構會發生巨變。就從當下來說,新的崗位尚未大規模涌現,但現有職位的已經出現了下降的趨勢。年輕人中可能會涌現出一批具備極強能力體系的個體,而有經驗的人可能轉型做策劃,處在中間層的這批人很難有能力和AI競爭。
“不僅是研究人員和程序員,所有坐在電腦前的工作都一樣,未來可能 90% 都要被替代 。這在硅谷已經不是預言,而是正在發生的現實”。
參考資料:
- [1] Social Catalyst Lab. (2026).APE-Papers: A repository of autonomous economic research(Version 1.0) [Source code]. GitHub.
- [2]Zhu, C., & Wang, X. (2026). HLER: Human-in-the-Loop Economic Research via Multi-Agent Pipelines for Empirical Discovery.arXiv preprint arXiv:2603.07444
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.