无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

剛剛,DeepSeek陳德里與兩個(gè)AI,合寫了一篇論文

0
分享至



機(jī)器之心編輯部

「借助 CodeAgent,我終于可以重新?lián)炱鸷芏噙^去因?yàn)榫Σ蛔愣鴶R置的事情了,寫博客就是其中之一。這篇博客大概 1% 是我寫的,99% 是 Agent 寫的」。

剛剛,DeepSeek 研究員陳德里(Deli Chen)在 X 上分享了一篇由 AI Agent 深度參與完成的文章「From Copilots to Colleagues: A Survey of Autonomous Research Agents」。



文章地址:https://victorchen96.github.io/auto_research_survey.pdf

陳德里也特別說明,這篇文章更多是一次興趣驅(qū)動(dòng)的嘗試:一方面是出于好玩,另一方面也是為了測(cè)試自己開發(fā)的 DeliAutoResearch 技能。因此,它并不是一篇嚴(yán)格意義上的學(xué)術(shù)論文,文中觀點(diǎn)也僅代表個(gè)人,不代表任何公司或組織立場(chǎng)。

這篇論文一共迭代了6 輪(V1:4 輪,V2:1 輪,V3:1 輪),V1 初稿耗時(shí) 76 分鐘,總耗時(shí) 6 天。大約經(jīng)歷了 108 輪 Agent 交互,消耗約64.8 萬 tokens,LaTeX 共 2234 行。

103 篇參考文獻(xiàn),全部已核驗(yàn)。篇幅從 45 頁增加到 46 頁。包含 7 張圖和 4 張表。現(xiàn)在論文一共 46 頁,文件大小 538KB。

完成這篇文章后,陳德里也由此拋出了一個(gè)頗有意思的判斷,他形容為個(gè)人暴論:Code Agent 正在讓計(jì)算機(jī)科學(xué)論文發(fā)生瘋狂通脹 —— 過去同樣的工作,至少要花一個(gè)月。

陳德里表示,在這個(gè)過程里真正動(dòng)腦消耗的「總 CPU 」時(shí)間:不到 2 小時(shí)



簡(jiǎn)單介紹一下,第一作者陳德里來自 DeepSeek,是 V1、V2、V3、V4、R1、DeepSeek-Coder 和 DeepSeek-MoE 架構(gòu)的核心貢獻(xiàn)者之一。他還曾在世界互聯(lián)網(wǎng)大會(huì)上代表 DeepSeek 發(fā)言。



博客地址:https://victorchen96.github.io/

另外兩位「合著者」,一位是 DeepSeek-V4-Pro,一位是 GPT-Image2—— 前者負(fù)責(zé)文字,后者負(fù)責(zé)圖像

也就是說,這篇論文本質(zhì)上是陳德里用 AI 寫了一篇關(guān)于 AI 做科研的綜述。這個(gè)設(shè)定也是一個(gè)重要的實(shí)驗(yàn):陳德里搭建了一個(gè)他稱為「Deli AutoResearch SKILL」的自主科研智能體框架,這篇 45 頁的文章的部分內(nèi)容正是用它生產(chǎn)出來的。此外,他還在論文中聲明:這篇綜述是他以「?jìng)€(gè)人研究項(xiàng)目」名義發(fā)布的,觀點(diǎn)不代表任何公司立場(chǎng)。



研究者本身成為了研究對(duì)象。這件事意味著什么,論文的其余部分會(huì)慢慢說清楚。

綜述覆蓋了超過 95 篇論文,系統(tǒng)分析了 17 個(gè)主流系統(tǒng),試圖為一個(gè)混亂生長(zhǎng)的領(lǐng)域第一次畫出清晰的地圖。這個(gè)領(lǐng)域叫做「自主科研智能體(Autonomous Research Agents)」:給 AI 一個(gè)科研目標(biāo),它能獨(dú)立完成從假設(shè)提出、實(shí)驗(yàn)設(shè)計(jì)、代碼執(zhí)行、結(jié)果分析到論文撰寫的完整循環(huán),全程無需人類在每一步審批。



這已經(jīng)不是設(shè)想。就在過去 18 個(gè)月里,衡量軟件工程能力的 SWE-bench 基準(zhǔn)上,AI 解決真實(shí) GitHub 問題的比率從不足 5% 攀升至 70% 以上;有系統(tǒng)以每篇 15 美元的成本產(chǎn)出完整學(xué)術(shù)論文并通過了人類初審;還有系統(tǒng)在無人引導(dǎo)的情況下,發(fā)現(xiàn)了超越已知邊界的新數(shù)學(xué)構(gòu)造。



AI 正在從「研究工具」變成「研究者」本身,速度之快出乎所有人的預(yù)料。

背景:「副駕駛」還是「同事」?

要理解這場(chǎng)變革的意義,不妨先想象一位傳統(tǒng)的科研助理:給他一個(gè)課題,他能幫你檢索文獻(xiàn)、整理表格、執(zhí)行代碼。但你需要告訴他每一步怎么做,他遇到問題會(huì)停下來等你指示,他不會(huì)主動(dòng)思考「接下來研究什么更有價(jià)值」。

這是過去幾年 AI 扮演的角色 —— 副駕駛(Copilot)。方向盤,始終在人類手里。

現(xiàn)在正在發(fā)生的是一場(chǎng)「交權(quán)實(shí)驗(yàn)」。新一代智能體系統(tǒng)正在嘗試獨(dú)立完成完整的科研循環(huán):提出假設(shè)、設(shè)計(jì)實(shí)驗(yàn)、執(zhí)行代碼、分析結(jié)果、撰寫報(bào)告,甚至自我審閱和迭代。從頭到尾,無需人類在每一步批準(zhǔn)。

這種轉(zhuǎn)變有多快?研究者們描述它「迅速而決定性」:短短 18 個(gè)月,便從工具進(jìn)化到了同事。

但「同事」的含義也差別懸殊。有的系統(tǒng)只是能跑完一段代碼不報(bào)錯(cuò);有的則可以在機(jī)器人實(shí)驗(yàn)室里獨(dú)自合成化合物。要給這片混亂的版圖建立秩序,需要一套統(tǒng)一的語言。這正是這篇綜述的核心貢獻(xiàn)。

核心貢獻(xiàn)一:為「自主程度」建立五級(jí)分類

這篇綜述最重要的貢獻(xiàn)是提出了一套L1 至 L5 的自主等級(jí)分類體系,類比汽車駕駛自動(dòng)化的 SAE 標(biāo)準(zhǔn):



L1(自動(dòng)補(bǔ)全),是最常見的狀態(tài)。GitHub Copilot、各類代碼補(bǔ)全工具都在此列。AI 預(yù)測(cè)下一行代碼,但你掌控一切方向。生產(chǎn)力提升約 30% 至 55%,代價(jià)是毫無自主性。

L2(任務(wù)執(zhí)行),是現(xiàn)在大多數(shù)人用 ChatGPT、Claude 日常交互的層級(jí)。AI 能分解任務(wù)、調(diào)用工具,但每一步都需要你點(diǎn)頭認(rèn)可。你是策略決策者,AI 是執(zhí)行者。

L3(多步自主,設(shè)有檢查點(diǎn)),是當(dāng)前主流「智能體編程工具」的位置 ——Claude Code、Cursor Agent 屬于這一層。AI 能在設(shè)定的檢查節(jié)點(diǎn)前獨(dú)立執(zhí)行數(shù)十步操作,出了預(yù)定范圍才來找你確認(rèn)。人類保持戰(zhàn)略監(jiān)督,但不必過問每個(gè)細(xì)節(jié)。

L4(端到端全自動(dòng)),是當(dāng)前技術(shù)前沿。Devin、SWE-Agent、AI Scientist 都在這里。給它一個(gè)科研目標(biāo),它能獨(dú)立工作數(shù)小時(shí)乃至數(shù)天,產(chǎn)出完整成果。你只需要在最后評(píng)估結(jié)果。綜述中分析的 17 個(gè)主要系統(tǒng),最高均處于 L4。

L5(自主設(shè)定研究議程),目前仍是「愿景」。這一層級(jí)的系統(tǒng)不只執(zhí)行研究,還能自己選擇研究什么問題、分配資源、在數(shù)周到數(shù)月的時(shí)間跨度里持續(xù)積累知識(shí)。沒有任何現(xiàn)有系統(tǒng)完整實(shí)現(xiàn)了 L5,但一些苗頭已經(jīng)出現(xiàn):Google 的 Co-Scientist 具備部分自主假設(shè)生成能力,DeepMind 的 FunSearch 通過迭代程序搜索發(fā)現(xiàn)了真正的數(shù)學(xué)新知。



這套分類描繪了一條清晰的演化路徑:從「幫你干活」到「替你思考」,每一級(jí)之間橫亙著什么樣的技術(shù)鴻溝。



核心貢獻(xiàn)二:四種架構(gòu)模式的得與失

知道「系統(tǒng)自主到什么程度」還不夠,還需要理解「它是怎么做到的」。綜述歸納了當(dāng)前主流的四種智能體架構(gòu)。



單智能體循環(huán),是最簡(jiǎn)潔的形態(tài):一個(gè)模型反復(fù)「計(jì)劃 — 行動(dòng) — 觀察 — 反思」。像一位獨(dú)自工作的研究員,想好了就動(dòng)手,看到結(jié)果再調(diào)整。好處是簡(jiǎn)單可控,缺點(diǎn)是遇到復(fù)雜任務(wù)容易觸及上限。就像一個(gè)人同時(shí)負(fù)責(zé)所有工種,體力和注意力都會(huì)先撐不住。



多智能體協(xié)作,相當(dāng)于組建團(tuán)隊(duì)。不同智能體分工扮演不同角色,相互審核和補(bǔ)充。MetaGPT 走得更遠(yuǎn):它把標(biāo)準(zhǔn)作業(yè)流程(SOP)編碼進(jìn)多智能體協(xié)作中,就像一家軟件公司,產(chǎn)品經(jīng)理、架構(gòu)師、工程師、測(cè)試員各司其職,通過規(guī)范化文檔交接,而非自由聊天。結(jié)果是任務(wù)完成率從 67% 躍升至 100%。

層級(jí)編排,是「管理者 - 執(zhí)行者」模式的技術(shù)實(shí)現(xiàn)。一個(gè)高層智能體分解目標(biāo)、分配任務(wù),多個(gè)專項(xiàng)子智能體各自負(fù)責(zé)具體執(zhí)行并匯報(bào)結(jié)果。Claude Code 采用這一架構(gòu):主智能體維持全局狀態(tài)和高層規(guī)劃,遇到文件編輯或網(wǎng)頁搜索之類的具體任務(wù),便派出子智能體獨(dú)立完成,避免無關(guān)信息污染主體判斷。

工具增強(qiáng)執(zhí)行,是「給智能體配備外部手腳」—— 代碼執(zhí)行環(huán)境、網(wǎng)絡(luò)瀏覽、數(shù)據(jù)庫查詢、實(shí)驗(yàn)室機(jī)器人控制接口……ChemCrow 集成了 18 種化學(xué)專用工具,讓模型從「知道怎么回答化學(xué)問題」升級(jí)到「能真正操作化學(xué)流程」。化學(xué)問題的正確率因此從原始 GPT-4 的不足 30% 跳升至 75%。

這四種架構(gòu)各有擅長(zhǎng),沒有哪一種全面碾壓其他。現(xiàn)實(shí)中最強(qiáng)大的系統(tǒng),往往是將它們混合使用:層級(jí)編排負(fù)責(zé)統(tǒng)籌,工具增強(qiáng)負(fù)責(zé)執(zhí)行,多智能體協(xié)作負(fù)責(zé)質(zhì)量審核,單智能體循環(huán)負(fù)責(zé)具體推理。

核心貢獻(xiàn)三:六大未解難題

綜述最誠(chéng)實(shí)的部分是直面這個(gè)領(lǐng)域仍無解的困境。



認(rèn)知循環(huán)陷阱:智能體陷入死循環(huán) —— 反復(fù)執(zhí)行同一個(gè)失敗操作,卻意識(shí)不到自己在原地打轉(zhuǎn)。AutoGPT 因此聲名狼藉:進(jìn)入無限循環(huán)是它最常被提及的缺陷。目前沒有通用的系統(tǒng)性解決方案,大多數(shù)「反循環(huán)」機(jī)制靠的是特定任務(wù)的手工調(diào)參。

上下文窗口限制:模型的「工作記憶」是有限的。一次長(zhǎng)時(shí)間科研會(huì)話可能產(chǎn)生十萬個(gè)以上的詞元(token),超出窗口范圍的早期信息便永久消失。層級(jí)編排能緩解這個(gè)問題,但仍難以真正實(shí)現(xiàn)跨會(huì)話的「研究記憶」。

新穎性評(píng)估:AI 產(chǎn)出的研究成果,如何判斷它是否真正新穎?引用量預(yù)測(cè)受社會(huì)因素干擾,語義相似度又無法區(qū)分「新穎」和「偏僻冷門」。目前能做到客觀驗(yàn)證的,只有像 FunSearch 那樣用程序輸出量化衡量的極少數(shù)領(lǐng)域。

可重現(xiàn)性危機(jī):同樣的系統(tǒng)、同樣的任務(wù),每次運(yùn)行結(jié)果可能大相徑庭。基準(zhǔn)測(cè)試上的性能數(shù)字,標(biāo)準(zhǔn)差動(dòng)輒達(dá)到 5% 至 15%。如何在隨機(jī)性和嚴(yán)謹(jǐn)性之間找到平衡,目前尚無定論。



安全與倫理:能自主設(shè)計(jì)化學(xué)合成方案的系統(tǒng),同樣可能被引向危險(xiǎn)化合物。這不只是「加一個(gè)過濾器」就能解決的工程問題,而是一個(gè)根本性的架構(gòu)矛盾 —— 對(duì)益處有用的能力,往往和對(duì)害處有用的能力難以分離。

成本與可及性:解決一個(gè) SWE-bench 任務(wù)的 API 費(fèi)用,約在 5 至 50 美元之間;完整的科研流程則可能消耗數(shù)百至數(shù)千美元。最強(qiáng)大的基礎(chǔ)模型仍是專有的、昂貴的。如果自主科研能力只屬于資源雄厚的機(jī)構(gòu),那么它加速的,也可能是科研不平等而非科研本身。

結(jié)語

綜述覆蓋了超過 95 篇論文,詳細(xì)分析了 17 個(gè)主要系統(tǒng)。結(jié)論清醒而審慎:當(dāng)前最好的系統(tǒng)處于 L4,L5 仍是愿景;代碼類任務(wù)已有相當(dāng)成熟的自動(dòng)化能力,真正意義上的開放科學(xué)發(fā)現(xiàn)仍停留在演示階段。

論文的最后寫道:「L5 自主研究 —— 能夠自主制定長(zhǎng)期研究議程的智能體 —— 是一個(gè)『何時(shí)』而非『是否』的問題。研究社區(qū)的任務(wù)是確保這一轉(zhuǎn)變伴隨著充分的理解、適當(dāng)?shù)谋U希约肮降氖找娣峙洹!?/p>



這句話出自一位參與構(gòu)建了 DeepSeek-R1 的研究員和兩個(gè) AI。他們共同寫下了這段對(duì)自身未來的警示。

這本身就是一件值得細(xì)想的事。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
古巴8個(gè)鮮為人知的事實(shí):曾迫使數(shù)萬華人流亡,從富裕國(guó)家滑落至極度困難

古巴8個(gè)鮮為人知的事實(shí):曾迫使數(shù)萬華人流亡,從富裕國(guó)家滑落至極度困難

三言四拍
2026-05-30 13:05:06
扎哈羅娃:俄將對(duì)羅馬尼亞迅速采取報(bào)復(fù)措施

扎哈羅娃:俄將對(duì)羅馬尼亞迅速采取報(bào)復(fù)措施

參考消息
2026-05-30 11:58:56
三花智控高管“為孩子教育”減持套現(xiàn),兩千億巨頭陷熱門概念敘事與資本套現(xiàn)割裂

三花智控高管“為孩子教育”減持套現(xiàn),兩千億巨頭陷熱門概念敘事與資本套現(xiàn)割裂

每日經(jīng)濟(jì)新聞
2026-05-30 14:41:08
“結(jié)婚22年后發(fā)現(xiàn)兩兒子均非親生”當(dāng)事人發(fā)聲:我對(duì)他們恨之入骨!

“結(jié)婚22年后發(fā)現(xiàn)兩兒子均非親生”當(dāng)事人發(fā)聲:我對(duì)他們恨之入骨!

新民周刊
2026-05-30 17:32:14
兩名9歲女孩被困電梯近2小時(shí)!求救幾十次后,保安回應(yīng):不要再按電梯玩了

兩名9歲女孩被困電梯近2小時(shí)!求救幾十次后,保安回應(yīng):不要再按電梯玩了

上觀新聞
2026-05-30 19:34:29
俄烏戰(zhàn)爭(zhēng),如果俄羅斯最終贏了,你我在有生之年很可能會(huì)親歷戰(zhàn)爭(zhēng)

俄烏戰(zhàn)爭(zhēng),如果俄羅斯最終贏了,你我在有生之年很可能會(huì)親歷戰(zhàn)爭(zhēng)

混沌錄
2026-05-29 23:26:12
重磅:烏克蘭擊毀俄羅斯兩架圖142!打掉伊斯坎德爾系統(tǒng)

重磅:烏克蘭擊毀俄羅斯兩架圖142!打掉伊斯坎德爾系統(tǒng)

項(xiàng)鵬飛
2026-05-30 16:28:01
西決搶七大戰(zhàn)裁判出爐:戴維斯擔(dān)任主裁 三人執(zhí)哨兩隊(duì)勝率曝光

西決搶七大戰(zhàn)裁判出爐:戴維斯擔(dān)任主裁 三人執(zhí)哨兩隊(duì)勝率曝光

羅說NBA
2026-05-30 21:26:04
央視曝光!涉事品牌:全部下架!天熱很多人愛喝

央視曝光!涉事品牌:全部下架!天熱很多人愛喝

蓬勃新聞
2026-05-29 14:53:17
打虎!王益華被查

打虎!王益華被查

新京報(bào)
2026-05-30 20:29:17
41歲夫妻因“房事頻繁”雙雙入院,醫(yī)生提醒:每周不應(yīng)超過一個(gè)數(shù)

41歲夫妻因“房事頻繁”雙雙入院,醫(yī)生提醒:每周不應(yīng)超過一個(gè)數(shù)

醫(yī)學(xué)原創(chuàng)故事會(huì)
2026-05-29 23:34:07
伊朗濃縮鈾材料將被挖出銷毀,特朗普就伊朗戰(zhàn)事最新表態(tài)

伊朗濃縮鈾材料將被挖出銷毀,特朗普就伊朗戰(zhàn)事最新表態(tài)

上游新聞
2026-05-29 23:35:03
D1804次列車受電弓遭異物擊打,被困隧道內(nèi)超2小時(shí),乘客稱全車停電悶熱異常,身上像從水里撈出來的,備用列車已到現(xiàn)場(chǎng)并開始轉(zhuǎn)運(yùn)

D1804次列車受電弓遭異物擊打,被困隧道內(nèi)超2小時(shí),乘客稱全車停電悶熱異常,身上像從水里撈出來的,備用列車已到現(xiàn)場(chǎng)并開始轉(zhuǎn)運(yùn)

臺(tái)州交通廣播
2026-05-30 13:47:54
耿同學(xué)再下一城!南開免去陳某院長(zhǎng)職務(wù),14張圖表確認(rèn)學(xué)術(shù)不端

耿同學(xué)再下一城!南開免去陳某院長(zhǎng)職務(wù),14張圖表確認(rèn)學(xué)術(shù)不端

聽心堂
2026-05-30 20:24:06
中方代表:日本沒有資格談國(guó)際防務(wù)合作 須警惕軍國(guó)主義思潮借機(jī)復(fù)活

中方代表:日本沒有資格談國(guó)際防務(wù)合作 須警惕軍國(guó)主義思潮借機(jī)復(fù)活

環(huán)球網(wǎng)資訊
2026-05-30 19:36:11
禁投美股,難得全球大國(guó)中惟一正確

禁投美股,難得全球大國(guó)中惟一正確

家傳編輯部
2026-05-30 12:24:47
海南一三甲醫(yī)院空調(diào)外機(jī)安在室內(nèi)走廊,患者吐槽“看病比室外還熱”,院方回應(yīng)

海南一三甲醫(yī)院空調(diào)外機(jī)安在室內(nèi)走廊,患者吐槽“看病比室外還熱”,院方回應(yīng)

上游新聞
2026-05-30 16:05:05
中建八局資質(zhì)被正式撤銷,給全行業(yè)敲響警鐘,考公需要注意了。

中建八局資質(zhì)被正式撤銷,給全行業(yè)敲響警鐘,考公需要注意了。

解說阿洎
2026-05-29 12:34:21
最新!債務(wù)突破100萬億!

最新!債務(wù)突破100萬億!

葉初七
2026-05-30 10:28:14
網(wǎng)紅狗被偷后續(xù):男子被帶走,老婆還在哺乳期,收狗人曝更多內(nèi)情

網(wǎng)紅狗被偷后續(xù):男子被帶走,老婆還在哺乳期,收狗人曝更多內(nèi)情

閱微札記
2026-05-30 11:47:19
2026-05-31 00:19:00
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
13116文章數(shù) 142655關(guān)注度
往期回顧 全部

科技要聞

車圈大佬發(fā)聲:價(jià)格戰(zhàn)遠(yuǎn)去,但競(jìng)爭(zhēng)仍殘酷

頭條要聞

兩名9歲女孩被困電梯近2小時(shí) 求救幾十次物業(yè)無動(dòng)于衷

頭條要聞

兩名9歲女孩被困電梯近2小時(shí) 求救幾十次物業(yè)無動(dòng)于衷

體育要聞

歲月不饒人!39歲德約鏖戰(zhàn)近5小時(shí)拼到嘔吐

娛樂要聞

張碧晨《歌手》 “活人微死” 自嘲

財(cái)經(jīng)要聞

雙匯管不住一頭豬

汽車要聞

900V+3.2秒破百 領(lǐng)克10+&領(lǐng)克10上市16.99萬元起

態(tài)度原創(chuàng)

時(shí)尚
家居
數(shù)碼
藝術(shù)
本地

美回巔峰的她們,帶火的這些爆款真的好用嗎

家居要聞

云棲 舒展如流云

數(shù)碼要聞

消息稱微軟下周發(fā)布英偉達(dá)處理器Windows PC,戴爾也會(huì)跟進(jìn)

藝術(shù)要聞

339米!珠海第一高樓,形似“蛟龍出海”

本地新聞

用剪紙的方式,打開江蘇揚(yáng)州

無障礙瀏覽 進(jìn)入關(guān)懷版