網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

剛剛，DeepSeek陳德里與兩個(gè)AI，合寫了一篇論文

2026-05-27 10:43:32　來源: 機(jī)器之心Pro

河北舉報(bào)

分享至

機(jī)器之心編輯部

「借助 CodeAgent，我終于可以重新?lián)炱鸷芏噙^去因?yàn)榫Σ蛔愣鴶R置的事情了，寫博客就是其中之一。這篇博客大概 1% 是我寫的，99% 是 Agent 寫的」。

剛剛，DeepSeek 研究員陳德里（Deli Chen）在 X 上分享了一篇由 AI Agent 深度參與完成的文章「From Copilots to Colleagues: A Survey of Autonomous Research Agents」。

文章地址：https://victorchen96.github.io/auto_research_survey.pdf

陳德里也特別說明，這篇文章更多是一次興趣驅(qū)動(dòng)的嘗試：一方面是出于好玩，另一方面也是為了測(cè)試自己開發(fā)的 DeliAutoResearch 技能。因此，它并不是一篇嚴(yán)格意義上的學(xué)術(shù)論文，文中觀點(diǎn)也僅代表個(gè)人，不代表任何公司或組織立場(chǎng)。

這篇論文一共迭代了6 輪（V1：4 輪，V2：1 輪，V3：1 輪），V1 初稿耗時(shí) 76 分鐘，總耗時(shí) 6 天。大約經(jīng)歷了 108 輪 Agent 交互，消耗約64.8 萬 tokens，LaTeX 共 2234 行。

103 篇參考文獻(xiàn)，全部已核驗(yàn)。篇幅從 45 頁增加到 46 頁。包含 7 張圖和 4 張表。現(xiàn)在論文一共 46 頁，文件大小 538KB。

完成這篇文章后，陳德里也由此拋出了一個(gè)頗有意思的判斷，他形容為個(gè)人暴論：Code Agent 正在讓計(jì)算機(jī)科學(xué)論文發(fā)生瘋狂通脹 —— 過去同樣的工作，至少要花一個(gè)月。

陳德里表示，在這個(gè)過程里真正動(dòng)腦消耗的「總 CPU 」時(shí)間：不到 2 小時(shí)

簡(jiǎn)單介紹一下，第一作者陳德里來自 DeepSeek，是 V1、V2、V3、V4、R1、DeepSeek-Coder 和 DeepSeek-MoE 架構(gòu)的核心貢獻(xiàn)者之一。他還曾在世界互聯(lián)網(wǎng)大會(huì)上代表 DeepSeek 發(fā)言。

博客地址：https://victorchen96.github.io/

另外兩位「合著者」，一位是 DeepSeek-V4-Pro，一位是 GPT-Image2—— 前者負(fù)責(zé)文字，后者負(fù)責(zé)圖像

也就是說，這篇論文本質(zhì)上是陳德里用 AI 寫了一篇關(guān)于 AI 做科研的綜述。這個(gè)設(shè)定也是一個(gè)重要的實(shí)驗(yàn)：陳德里搭建了一個(gè)他稱為「Deli AutoResearch SKILL」的自主科研智能體框架，這篇 45 頁的文章的部分內(nèi)容正是用它生產(chǎn)出來的。此外，他還在論文中聲明：這篇綜述是他以「?jìng)€(gè)人研究項(xiàng)目」名義發(fā)布的，觀點(diǎn)不代表任何公司立場(chǎng)。

研究者本身成為了研究對(duì)象。這件事意味著什么，論文的其余部分會(huì)慢慢說清楚。

綜述覆蓋了超過 95 篇論文，系統(tǒng)分析了 17 個(gè)主流系統(tǒng)，試圖為一個(gè)混亂生長(zhǎng)的領(lǐng)域第一次畫出清晰的地圖。這個(gè)領(lǐng)域叫做「自主科研智能體（Autonomous Research Agents）」：給 AI 一個(gè)科研目標(biāo)，它能獨(dú)立完成從假設(shè)提出、實(shí)驗(yàn)設(shè)計(jì)、代碼執(zhí)行、結(jié)果分析到論文撰寫的完整循環(huán)，全程無需人類在每一步審批。

這已經(jīng)不是設(shè)想。就在過去 18 個(gè)月里，衡量軟件工程能力的 SWE-bench 基準(zhǔn)上，AI 解決真實(shí) GitHub 問題的比率從不足 5% 攀升至 70% 以上；有系統(tǒng)以每篇 15 美元的成本產(chǎn)出完整學(xué)術(shù)論文并通過了人類初審；還有系統(tǒng)在無人引導(dǎo)的情況下，發(fā)現(xiàn)了超越已知邊界的新數(shù)學(xué)構(gòu)造。

AI 正在從「研究工具」變成「研究者」本身，速度之快出乎所有人的預(yù)料。

背景：「副駕駛」還是「同事」？

要理解這場(chǎng)變革的意義，不妨先想象一位傳統(tǒng)的科研助理：給他一個(gè)課題，他能幫你檢索文獻(xiàn)、整理表格、執(zhí)行代碼。但你需要告訴他每一步怎么做，他遇到問題會(huì)停下來等你指示，他不會(huì)主動(dòng)思考「接下來研究什么更有價(jià)值」。

這是過去幾年 AI 扮演的角色 —— 副駕駛（Copilot）。方向盤，始終在人類手里。

現(xiàn)在正在發(fā)生的是一場(chǎng)「交權(quán)實(shí)驗(yàn)」。新一代智能體系統(tǒng)正在嘗試獨(dú)立完成完整的科研循環(huán)：提出假設(shè)、設(shè)計(jì)實(shí)驗(yàn)、執(zhí)行代碼、分析結(jié)果、撰寫報(bào)告，甚至自我審閱和迭代。從頭到尾，無需人類在每一步批準(zhǔn)。

這種轉(zhuǎn)變有多快？研究者們描述它「迅速而決定性」：短短 18 個(gè)月，便從工具進(jìn)化到了同事。

但「同事」的含義也差別懸殊。有的系統(tǒng)只是能跑完一段代碼不報(bào)錯(cuò)；有的則可以在機(jī)器人實(shí)驗(yàn)室里獨(dú)自合成化合物。要給這片混亂的版圖建立秩序，需要一套統(tǒng)一的語言。這正是這篇綜述的核心貢獻(xiàn)。

核心貢獻(xiàn)一：為「自主程度」建立五級(jí)分類

這篇綜述最重要的貢獻(xiàn)是提出了一套L1 至 L5 的自主等級(jí)分類體系，類比汽車駕駛自動(dòng)化的 SAE 標(biāo)準(zhǔn)：

L1（自動(dòng)補(bǔ)全），是最常見的狀態(tài)。GitHub Copilot、各類代碼補(bǔ)全工具都在此列。AI 預(yù)測(cè)下一行代碼，但你掌控一切方向。生產(chǎn)力提升約 30% 至 55%，代價(jià)是毫無自主性。

L2（任務(wù)執(zhí)行），是現(xiàn)在大多數(shù)人用 ChatGPT、Claude 日常交互的層級(jí)。AI 能分解任務(wù)、調(diào)用工具，但每一步都需要你點(diǎn)頭認(rèn)可。你是策略決策者，AI 是執(zhí)行者。

L3（多步自主，設(shè)有檢查點(diǎn)），是當(dāng)前主流「智能體編程工具」的位置 ——Claude Code、Cursor Agent 屬于這一層。AI 能在設(shè)定的檢查節(jié)點(diǎn)前獨(dú)立執(zhí)行數(shù)十步操作，出了預(yù)定范圍才來找你確認(rèn)。人類保持戰(zhàn)略監(jiān)督，但不必過問每個(gè)細(xì)節(jié)。

L4（端到端全自動(dòng)），是當(dāng)前技術(shù)前沿。Devin、SWE-Agent、AI Scientist 都在這里。給它一個(gè)科研目標(biāo)，它能獨(dú)立工作數(shù)小時(shí)乃至數(shù)天，產(chǎn)出完整成果。你只需要在最后評(píng)估結(jié)果。綜述中分析的 17 個(gè)主要系統(tǒng)，最高均處于 L4。

L5（自主設(shè)定研究議程），目前仍是「愿景」。這一層級(jí)的系統(tǒng)不只執(zhí)行研究，還能自己選擇研究什么問題、分配資源、在數(shù)周到數(shù)月的時(shí)間跨度里持續(xù)積累知識(shí)。沒有任何現(xiàn)有系統(tǒng)完整實(shí)現(xiàn)了 L5，但一些苗頭已經(jīng)出現(xiàn)：Google 的 Co-Scientist 具備部分自主假設(shè)生成能力，DeepMind 的 FunSearch 通過迭代程序搜索發(fā)現(xiàn)了真正的數(shù)學(xué)新知。

這套分類描繪了一條清晰的演化路徑：從「幫你干活」到「替你思考」，每一級(jí)之間橫亙著什么樣的技術(shù)鴻溝。

核心貢獻(xiàn)二：四種架構(gòu)模式的得與失

知道「系統(tǒng)自主到什么程度」還不夠，還需要理解「它是怎么做到的」。綜述歸納了當(dāng)前主流的四種智能體架構(gòu)。

單智能體循環(huán)，是最簡(jiǎn)潔的形態(tài)：一個(gè)模型反復(fù)「計(jì)劃 — 行動(dòng) — 觀察 — 反思」。像一位獨(dú)自工作的研究員，想好了就動(dòng)手，看到結(jié)果再調(diào)整。好處是簡(jiǎn)單可控，缺點(diǎn)是遇到復(fù)雜任務(wù)容易觸及上限。就像一個(gè)人同時(shí)負(fù)責(zé)所有工種，體力和注意力都會(huì)先撐不住。

多智能體協(xié)作，相當(dāng)于組建團(tuán)隊(duì)。不同智能體分工扮演不同角色，相互審核和補(bǔ)充。MetaGPT 走得更遠(yuǎn)：它把標(biāo)準(zhǔn)作業(yè)流程（SOP）編碼進(jìn)多智能體協(xié)作中，就像一家軟件公司，產(chǎn)品經(jīng)理、架構(gòu)師、工程師、測(cè)試員各司其職，通過規(guī)范化文檔交接，而非自由聊天。結(jié)果是任務(wù)完成率從 67% 躍升至 100%。

層級(jí)編排，是「管理者 - 執(zhí)行者」模式的技術(shù)實(shí)現(xiàn)。一個(gè)高層智能體分解目標(biāo)、分配任務(wù)，多個(gè)專項(xiàng)子智能體各自負(fù)責(zé)具體執(zhí)行并匯報(bào)結(jié)果。Claude Code 采用這一架構(gòu)：主智能體維持全局狀態(tài)和高層規(guī)劃，遇到文件編輯或網(wǎng)頁搜索之類的具體任務(wù)，便派出子智能體獨(dú)立完成，避免無關(guān)信息污染主體判斷。

工具增強(qiáng)執(zhí)行，是「給智能體配備外部手腳」—— 代碼執(zhí)行環(huán)境、網(wǎng)絡(luò)瀏覽、數(shù)據(jù)庫查詢、實(shí)驗(yàn)室機(jī)器人控制接口……ChemCrow 集成了 18 種化學(xué)專用工具，讓模型從「知道怎么回答化學(xué)問題」升級(jí)到「能真正操作化學(xué)流程」。化學(xué)問題的正確率因此從原始 GPT-4 的不足 30% 跳升至 75%。

這四種架構(gòu)各有擅長(zhǎng)，沒有哪一種全面碾壓其他。現(xiàn)實(shí)中最強(qiáng)大的系統(tǒng)，往往是將它們混合使用：層級(jí)編排負(fù)責(zé)統(tǒng)籌，工具增強(qiáng)負(fù)責(zé)執(zhí)行，多智能體協(xié)作負(fù)責(zé)質(zhì)量審核，單智能體循環(huán)負(fù)責(zé)具體推理。

核心貢獻(xiàn)三：六大未解難題

綜述最誠(chéng)實(shí)的部分是直面這個(gè)領(lǐng)域仍無解的困境。

認(rèn)知循環(huán)陷阱：智能體陷入死循環(huán) —— 反復(fù)執(zhí)行同一個(gè)失敗操作，卻意識(shí)不到自己在原地打轉(zhuǎn)。AutoGPT 因此聲名狼藉：進(jìn)入無限循環(huán)是它最常被提及的缺陷。目前沒有通用的系統(tǒng)性解決方案，大多數(shù)「反循環(huán)」機(jī)制靠的是特定任務(wù)的手工調(diào)參。

上下文窗口限制：模型的「工作記憶」是有限的。一次長(zhǎng)時(shí)間科研會(huì)話可能產(chǎn)生十萬個(gè)以上的詞元（token），超出窗口范圍的早期信息便永久消失。層級(jí)編排能緩解這個(gè)問題，但仍難以真正實(shí)現(xiàn)跨會(huì)話的「研究記憶」。

新穎性評(píng)估：AI 產(chǎn)出的研究成果，如何判斷它是否真正新穎？引用量預(yù)測(cè)受社會(huì)因素干擾，語義相似度又無法區(qū)分「新穎」和「偏僻冷門」。目前能做到客觀驗(yàn)證的，只有像 FunSearch 那樣用程序輸出量化衡量的極少數(shù)領(lǐng)域。

可重現(xiàn)性危機(jī)：同樣的系統(tǒng)、同樣的任務(wù)，每次運(yùn)行結(jié)果可能大相徑庭。基準(zhǔn)測(cè)試上的性能數(shù)字，標(biāo)準(zhǔn)差動(dòng)輒達(dá)到 5% 至 15%。如何在隨機(jī)性和嚴(yán)謹(jǐn)性之間找到平衡，目前尚無定論。

安全與倫理：能自主設(shè)計(jì)化學(xué)合成方案的系統(tǒng)，同樣可能被引向危險(xiǎn)化合物。這不只是「加一個(gè)過濾器」就能解決的工程問題，而是一個(gè)根本性的架構(gòu)矛盾 —— 對(duì)益處有用的能力，往往和對(duì)害處有用的能力難以分離。

成本與可及性：解決一個(gè) SWE-bench 任務(wù)的 API 費(fèi)用，約在 5 至 50 美元之間；完整的科研流程則可能消耗數(shù)百至數(shù)千美元。最強(qiáng)大的基礎(chǔ)模型仍是專有的、昂貴的。如果自主科研能力只屬于資源雄厚的機(jī)構(gòu)，那么它加速的，也可能是科研不平等而非科研本身。

結(jié)語

綜述覆蓋了超過 95 篇論文，詳細(xì)分析了 17 個(gè)主要系統(tǒng)。結(jié)論清醒而審慎：當(dāng)前最好的系統(tǒng)處于 L4，L5 仍是愿景；代碼類任務(wù)已有相當(dāng)成熟的自動(dòng)化能力，真正意義上的開放科學(xué)發(fā)現(xiàn)仍停留在演示階段。

論文的最后寫道：「L5 自主研究 —— 能夠自主制定長(zhǎng)期研究議程的智能體 —— 是一個(gè)『何時(shí)』而非『是否』的問題。研究社區(qū)的任務(wù)是確保這一轉(zhuǎn)變伴隨著充分的理解、適當(dāng)?shù)谋Ｕ希约肮降氖找娣峙洹！?/p>

這句話出自一位參與構(gòu)建了 DeepSeek-R1 的研究員和兩個(gè) AI。他們共同寫下了這段對(duì)自身未來的警示。

這本身就是一件值得細(xì)想的事。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.