![]()
機(jī)器之心編輯部
「借助 CodeAgent,我終于可以重新?lián)炱鸷芏噙^去因?yàn)榫Σ蛔愣鴶R置的事情了,寫博客就是其中之一。這篇博客大概 1% 是我寫的,99% 是 Agent 寫的」。
剛剛,DeepSeek 研究員陳德里(Deli Chen)在 X 上分享了一篇由 AI Agent 深度參與完成的文章「From Copilots to Colleagues: A Survey of Autonomous Research Agents」。
![]()
文章地址:https://victorchen96.github.io/auto_research_survey.pdf
陳德里也特別說明,這篇文章更多是一次興趣驅(qū)動(dòng)的嘗試:一方面是出于好玩,另一方面也是為了測(cè)試自己開發(fā)的 DeliAutoResearch 技能。因此,它并不是一篇嚴(yán)格意義上的學(xué)術(shù)論文,文中觀點(diǎn)也僅代表個(gè)人,不代表任何公司或組織立場(chǎng)。
這篇論文一共迭代了6 輪(V1:4 輪,V2:1 輪,V3:1 輪),V1 初稿耗時(shí) 76 分鐘,總耗時(shí) 6 天。大約經(jīng)歷了 108 輪 Agent 交互,消耗約64.8 萬 tokens,LaTeX 共 2234 行。
103 篇參考文獻(xiàn),全部已核驗(yàn)。篇幅從 45 頁增加到 46 頁。包含 7 張圖和 4 張表。現(xiàn)在論文一共 46 頁,文件大小 538KB。
完成這篇文章后,陳德里也由此拋出了一個(gè)頗有意思的判斷,他形容為個(gè)人暴論:Code Agent 正在讓計(jì)算機(jī)科學(xué)論文發(fā)生瘋狂通脹 —— 過去同樣的工作,至少要花一個(gè)月。
陳德里表示,在這個(gè)過程里真正動(dòng)腦消耗的「總 CPU 」時(shí)間:不到 2 小時(shí)
![]()
簡(jiǎn)單介紹一下,第一作者陳德里來自 DeepSeek,是 V1、V2、V3、V4、R1、DeepSeek-Coder 和 DeepSeek-MoE 架構(gòu)的核心貢獻(xiàn)者之一。他還曾在世界互聯(lián)網(wǎng)大會(huì)上代表 DeepSeek 發(fā)言。
![]()
博客地址:https://victorchen96.github.io/
另外兩位「合著者」,一位是 DeepSeek-V4-Pro,一位是 GPT-Image2—— 前者負(fù)責(zé)文字,后者負(fù)責(zé)圖像
也就是說,這篇論文本質(zhì)上是陳德里用 AI 寫了一篇關(guān)于 AI 做科研的綜述。這個(gè)設(shè)定也是一個(gè)重要的實(shí)驗(yàn):陳德里搭建了一個(gè)他稱為「Deli AutoResearch SKILL」的自主科研智能體框架,這篇 45 頁的文章的部分內(nèi)容正是用它生產(chǎn)出來的。此外,他還在論文中聲明:這篇綜述是他以「?jìng)€(gè)人研究項(xiàng)目」名義發(fā)布的,觀點(diǎn)不代表任何公司立場(chǎng)。
![]()
研究者本身成為了研究對(duì)象。這件事意味著什么,論文的其余部分會(huì)慢慢說清楚。
綜述覆蓋了超過 95 篇論文,系統(tǒng)分析了 17 個(gè)主流系統(tǒng),試圖為一個(gè)混亂生長(zhǎng)的領(lǐng)域第一次畫出清晰的地圖。這個(gè)領(lǐng)域叫做「自主科研智能體(Autonomous Research Agents)」:給 AI 一個(gè)科研目標(biāo),它能獨(dú)立完成從假設(shè)提出、實(shí)驗(yàn)設(shè)計(jì)、代碼執(zhí)行、結(jié)果分析到論文撰寫的完整循環(huán),全程無需人類在每一步審批。
![]()
這已經(jīng)不是設(shè)想。就在過去 18 個(gè)月里,衡量軟件工程能力的 SWE-bench 基準(zhǔn)上,AI 解決真實(shí) GitHub 問題的比率從不足 5% 攀升至 70% 以上;有系統(tǒng)以每篇 15 美元的成本產(chǎn)出完整學(xué)術(shù)論文并通過了人類初審;還有系統(tǒng)在無人引導(dǎo)的情況下,發(fā)現(xiàn)了超越已知邊界的新數(shù)學(xué)構(gòu)造。
![]()
AI 正在從「研究工具」變成「研究者」本身,速度之快出乎所有人的預(yù)料。
背景:「副駕駛」還是「同事」?
要理解這場(chǎng)變革的意義,不妨先想象一位傳統(tǒng)的科研助理:給他一個(gè)課題,他能幫你檢索文獻(xiàn)、整理表格、執(zhí)行代碼。但你需要告訴他每一步怎么做,他遇到問題會(huì)停下來等你指示,他不會(huì)主動(dòng)思考「接下來研究什么更有價(jià)值」。
這是過去幾年 AI 扮演的角色 —— 副駕駛(Copilot)。方向盤,始終在人類手里。
現(xiàn)在正在發(fā)生的是一場(chǎng)「交權(quán)實(shí)驗(yàn)」。新一代智能體系統(tǒng)正在嘗試獨(dú)立完成完整的科研循環(huán):提出假設(shè)、設(shè)計(jì)實(shí)驗(yàn)、執(zhí)行代碼、分析結(jié)果、撰寫報(bào)告,甚至自我審閱和迭代。從頭到尾,無需人類在每一步批準(zhǔn)。
這種轉(zhuǎn)變有多快?研究者們描述它「迅速而決定性」:短短 18 個(gè)月,便從工具進(jìn)化到了同事。
但「同事」的含義也差別懸殊。有的系統(tǒng)只是能跑完一段代碼不報(bào)錯(cuò);有的則可以在機(jī)器人實(shí)驗(yàn)室里獨(dú)自合成化合物。要給這片混亂的版圖建立秩序,需要一套統(tǒng)一的語言。這正是這篇綜述的核心貢獻(xiàn)。
核心貢獻(xiàn)一:為「自主程度」建立五級(jí)分類
這篇綜述最重要的貢獻(xiàn)是提出了一套L1 至 L5 的自主等級(jí)分類體系,類比汽車駕駛自動(dòng)化的 SAE 標(biāo)準(zhǔn):
![]()
L1(自動(dòng)補(bǔ)全),是最常見的狀態(tài)。GitHub Copilot、各類代碼補(bǔ)全工具都在此列。AI 預(yù)測(cè)下一行代碼,但你掌控一切方向。生產(chǎn)力提升約 30% 至 55%,代價(jià)是毫無自主性。
L2(任務(wù)執(zhí)行),是現(xiàn)在大多數(shù)人用 ChatGPT、Claude 日常交互的層級(jí)。AI 能分解任務(wù)、調(diào)用工具,但每一步都需要你點(diǎn)頭認(rèn)可。你是策略決策者,AI 是執(zhí)行者。
L3(多步自主,設(shè)有檢查點(diǎn)),是當(dāng)前主流「智能體編程工具」的位置 ——Claude Code、Cursor Agent 屬于這一層。AI 能在設(shè)定的檢查節(jié)點(diǎn)前獨(dú)立執(zhí)行數(shù)十步操作,出了預(yù)定范圍才來找你確認(rèn)。人類保持戰(zhàn)略監(jiān)督,但不必過問每個(gè)細(xì)節(jié)。
L4(端到端全自動(dòng)),是當(dāng)前技術(shù)前沿。Devin、SWE-Agent、AI Scientist 都在這里。給它一個(gè)科研目標(biāo),它能獨(dú)立工作數(shù)小時(shí)乃至數(shù)天,產(chǎn)出完整成果。你只需要在最后評(píng)估結(jié)果。綜述中分析的 17 個(gè)主要系統(tǒng),最高均處于 L4。
L5(自主設(shè)定研究議程),目前仍是「愿景」。這一層級(jí)的系統(tǒng)不只執(zhí)行研究,還能自己選擇研究什么問題、分配資源、在數(shù)周到數(shù)月的時(shí)間跨度里持續(xù)積累知識(shí)。沒有任何現(xiàn)有系統(tǒng)完整實(shí)現(xiàn)了 L5,但一些苗頭已經(jīng)出現(xiàn):Google 的 Co-Scientist 具備部分自主假設(shè)生成能力,DeepMind 的 FunSearch 通過迭代程序搜索發(fā)現(xiàn)了真正的數(shù)學(xué)新知。
![]()
這套分類描繪了一條清晰的演化路徑:從「幫你干活」到「替你思考」,每一級(jí)之間橫亙著什么樣的技術(shù)鴻溝。
![]()
核心貢獻(xiàn)二:四種架構(gòu)模式的得與失
知道「系統(tǒng)自主到什么程度」還不夠,還需要理解「它是怎么做到的」。綜述歸納了當(dāng)前主流的四種智能體架構(gòu)。
![]()
單智能體循環(huán),是最簡(jiǎn)潔的形態(tài):一個(gè)模型反復(fù)「計(jì)劃 — 行動(dòng) — 觀察 — 反思」。像一位獨(dú)自工作的研究員,想好了就動(dòng)手,看到結(jié)果再調(diào)整。好處是簡(jiǎn)單可控,缺點(diǎn)是遇到復(fù)雜任務(wù)容易觸及上限。就像一個(gè)人同時(shí)負(fù)責(zé)所有工種,體力和注意力都會(huì)先撐不住。
![]()
多智能體協(xié)作,相當(dāng)于組建團(tuán)隊(duì)。不同智能體分工扮演不同角色,相互審核和補(bǔ)充。MetaGPT 走得更遠(yuǎn):它把標(biāo)準(zhǔn)作業(yè)流程(SOP)編碼進(jìn)多智能體協(xié)作中,就像一家軟件公司,產(chǎn)品經(jīng)理、架構(gòu)師、工程師、測(cè)試員各司其職,通過規(guī)范化文檔交接,而非自由聊天。結(jié)果是任務(wù)完成率從 67% 躍升至 100%。
層級(jí)編排,是「管理者 - 執(zhí)行者」模式的技術(shù)實(shí)現(xiàn)。一個(gè)高層智能體分解目標(biāo)、分配任務(wù),多個(gè)專項(xiàng)子智能體各自負(fù)責(zé)具體執(zhí)行并匯報(bào)結(jié)果。Claude Code 采用這一架構(gòu):主智能體維持全局狀態(tài)和高層規(guī)劃,遇到文件編輯或網(wǎng)頁搜索之類的具體任務(wù),便派出子智能體獨(dú)立完成,避免無關(guān)信息污染主體判斷。
工具增強(qiáng)執(zhí)行,是「給智能體配備外部手腳」—— 代碼執(zhí)行環(huán)境、網(wǎng)絡(luò)瀏覽、數(shù)據(jù)庫查詢、實(shí)驗(yàn)室機(jī)器人控制接口……ChemCrow 集成了 18 種化學(xué)專用工具,讓模型從「知道怎么回答化學(xué)問題」升級(jí)到「能真正操作化學(xué)流程」。化學(xué)問題的正確率因此從原始 GPT-4 的不足 30% 跳升至 75%。
這四種架構(gòu)各有擅長(zhǎng),沒有哪一種全面碾壓其他。現(xiàn)實(shí)中最強(qiáng)大的系統(tǒng),往往是將它們混合使用:層級(jí)編排負(fù)責(zé)統(tǒng)籌,工具增強(qiáng)負(fù)責(zé)執(zhí)行,多智能體協(xié)作負(fù)責(zé)質(zhì)量審核,單智能體循環(huán)負(fù)責(zé)具體推理。
核心貢獻(xiàn)三:六大未解難題
綜述最誠(chéng)實(shí)的部分是直面這個(gè)領(lǐng)域仍無解的困境。
![]()
認(rèn)知循環(huán)陷阱:智能體陷入死循環(huán) —— 反復(fù)執(zhí)行同一個(gè)失敗操作,卻意識(shí)不到自己在原地打轉(zhuǎn)。AutoGPT 因此聲名狼藉:進(jìn)入無限循環(huán)是它最常被提及的缺陷。目前沒有通用的系統(tǒng)性解決方案,大多數(shù)「反循環(huán)」機(jī)制靠的是特定任務(wù)的手工調(diào)參。
上下文窗口限制:模型的「工作記憶」是有限的。一次長(zhǎng)時(shí)間科研會(huì)話可能產(chǎn)生十萬個(gè)以上的詞元(token),超出窗口范圍的早期信息便永久消失。層級(jí)編排能緩解這個(gè)問題,但仍難以真正實(shí)現(xiàn)跨會(huì)話的「研究記憶」。
新穎性評(píng)估:AI 產(chǎn)出的研究成果,如何判斷它是否真正新穎?引用量預(yù)測(cè)受社會(huì)因素干擾,語義相似度又無法區(qū)分「新穎」和「偏僻冷門」。目前能做到客觀驗(yàn)證的,只有像 FunSearch 那樣用程序輸出量化衡量的極少數(shù)領(lǐng)域。
可重現(xiàn)性危機(jī):同樣的系統(tǒng)、同樣的任務(wù),每次運(yùn)行結(jié)果可能大相徑庭。基準(zhǔn)測(cè)試上的性能數(shù)字,標(biāo)準(zhǔn)差動(dòng)輒達(dá)到 5% 至 15%。如何在隨機(jī)性和嚴(yán)謹(jǐn)性之間找到平衡,目前尚無定論。
![]()
安全與倫理:能自主設(shè)計(jì)化學(xué)合成方案的系統(tǒng),同樣可能被引向危險(xiǎn)化合物。這不只是「加一個(gè)過濾器」就能解決的工程問題,而是一個(gè)根本性的架構(gòu)矛盾 —— 對(duì)益處有用的能力,往往和對(duì)害處有用的能力難以分離。
成本與可及性:解決一個(gè) SWE-bench 任務(wù)的 API 費(fèi)用,約在 5 至 50 美元之間;完整的科研流程則可能消耗數(shù)百至數(shù)千美元。最強(qiáng)大的基礎(chǔ)模型仍是專有的、昂貴的。如果自主科研能力只屬于資源雄厚的機(jī)構(gòu),那么它加速的,也可能是科研不平等而非科研本身。
結(jié)語
綜述覆蓋了超過 95 篇論文,詳細(xì)分析了 17 個(gè)主要系統(tǒng)。結(jié)論清醒而審慎:當(dāng)前最好的系統(tǒng)處于 L4,L5 仍是愿景;代碼類任務(wù)已有相當(dāng)成熟的自動(dòng)化能力,真正意義上的開放科學(xué)發(fā)現(xiàn)仍停留在演示階段。
論文的最后寫道:「L5 自主研究 —— 能夠自主制定長(zhǎng)期研究議程的智能體 —— 是一個(gè)『何時(shí)』而非『是否』的問題。研究社區(qū)的任務(wù)是確保這一轉(zhuǎn)變伴隨著充分的理解、適當(dāng)?shù)谋U希约肮降氖找娣峙洹!?/p>
![]()
這句話出自一位參與構(gòu)建了 DeepSeek-R1 的研究員和兩個(gè) AI。他們共同寫下了這段對(duì)自身未來的警示。
這本身就是一件值得細(xì)想的事。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.