无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

DeepSeek研究員讓AI自己研究自己!AI執(zhí)筆99%,6天搞定45頁論文

0
分享至


智東西
作者 程茜
編輯 李水青

DeepSeek和GPT合體寫論文了!

智東西5月27日報道,昨晚,DeepSeek資深研究員陳德里(Deli Chen)放出一篇他和Agent合寫的45頁論文,其中99%內容都是CodeAgent所寫

論文題目是《從Copilots到同事:自主科研智能體綜述(From Copilots to Colleagues:A Survey of Autonomous Research Agents)》,作者是陳德里、DeepSeek-V4-Pro、GPT-Image2。


陳德里還特意發(fā)了免責聲明:這篇論文絕非嚴謹學術論文、不代表任何公司或組織觀點,只是出于興趣以及順便測試下他搭建的DeliAutoResearch。


他透露,論文共迭代6次,耗時6天搞定,而初稿僅用了76分鐘。期間智能體累計運行約108輪、消耗Token約64.8萬、LaTeX代碼共2234行,最終成品45頁,其中包含7個圖標、4個表格,文件大小538KB。陳德里也不禁感嘆,同樣的工作以前至少需要一個月才能完成,而這次他本人的“CPU運轉時長”不到2小時

陳德里是DeepSeek-V1、V2、V3、V4、DeepSeek-R1、DeepSeek-Coder、DeepSeek-MoE架構的核心貢獻者,他曾獲得北京大學信息管理學士學位及計算機科學碩士學位,曾在騰訊擔任微信AI研究員。


這篇論文梳理了機器學習、軟件工程、科學發(fā)現三大領域共計105篇相關文獻,陳德里稱已經對這些文獻進行了驗證。其核心目的是為能夠自主開展研究的AI智能體提供統(tǒng)一的分析框架,主要有四項研究成果:

1、提出一套五級自主能力分級體系(L1–L5),層級從代碼自動補全延伸至完全自主制定研究規(guī)劃,為各類系統(tǒng)的界定與對比提供規(guī)范的術語標準。

2、剖析了四大主流架構模式:單智能體循環(huán)、多智能體協(xié)作、分層調度編排、工具增強執(zhí)行;同時搭建對比分析框架,評估各類架構在可擴展性、成本、穩(wěn)定性及人工監(jiān)管方面的優(yōu)劣取舍。

3、基于六維特征矩陣,對17款主流系統(tǒng)展開分析。研究結果表明,當前前沿系統(tǒng)普遍處于L4級別(限定領域內可完成多步驟自主執(zhí)行),而L5級別仍停留在目標構想階段

4、梳理出六大核心待解難題:認知死循環(huán)、上下文窗口限制、創(chuàng)新價值評估、結果可復現性、安全風險與使用成本,并針對每項難題給出具體研究方向。

其研究分析發(fā)現,實現L5級自主能力的核心瓶頸并非模型基礎性能,而是在于長效知識沉淀、可靠的自我評估能力,以及具備理論支撐的智能體架構規(guī)模化方案三大難點。

不少開發(fā)者紛紛在陳德里的評論區(qū)下面求開源。


論文:https://victorchen96.github.io/auto_research_survey.pdf

一、當前系統(tǒng)多為能獨立產出論文的L4級,已有系統(tǒng)展現出L5級特征

論文將自主研究智能體定義為:一類軟件系統(tǒng),在接收到高層級研究目標后,能夠獨立執(zhí)行科學探究的迭代閉環(huán),包括假設生成、實驗設計、執(zhí)行、分析與迭代優(yōu)化,且在執(zhí)行流程中僅需極少、甚至完全無需人工干預。

自主研究智能體的五級自主能力分級體系(L1–L5),是基于兩個維度:

一是智能體可對什么內容獨立做出決策,二是智能體在無需人工審核介入的情況下,可持續(xù)自主運行多久。


L1的典型代表是GitHub Copilot等代碼補全工具,這一層級中智能體可運行單個token或單行文本,核心能力是對人類撰寫文本后續(xù)內容的預測,且人類完全主導內容的方向、結構與正確性。

論文中提到,從CodeX演化而來的代碼補全模型,在受控編碼任務中可實現30%-55%的效率提升,但無法獨立完成多步驟目標。

L2的代表是帶插件的ChatGPT、支持工具調用的Claude等對話式AI助手,智能體能夠將定義清晰的任務拆解為多個步驟并執(zhí)行,但每一步都需要人工的顯式或隱式審批。

其能力包括網頁搜索、代碼執(zhí)行、信息整合,全程需要人類引導對話、驗證中間結果。

L3是代碼智能體,這之中,智能體可自主執(zhí)行10-100個連續(xù)動作,僅在預設的檢查點、或遇到不確定情況時,才請求人工審核。其能自主查看代碼倉庫、編輯文件,無需人類逐步驟審批。

L3與L2級的核心區(qū)別在于:智能體可自主做出決策,例如選擇編輯哪個文件、如何修復測試失敗,無需逐步驟獲得人工批準;人類僅保留監(jiān)督權。

L4的代表是AI Scientist系統(tǒng)、Devin、SWE-Agent等,可自主生成研究思路、撰寫論文、運行實驗、產出完整論文,甚至完成自動化同行評審,全流程無人工干預。

這一層級的智能體接收到研究目標后,可獨立運行數小時至數天,包括自主從故障中恢復、迭代優(yōu)化策略、最終產出完整的研究成果。人類僅需評估最終輸出結果,無需全程監(jiān)督執(zhí)行過程。

L5是自主能力的最高等級,智能體不僅能執(zhí)行研究任務,還能自主選擇研究問題、在多個項目間分配資源、基于過往成果持續(xù)迭代。

其研究顯示目前尚無系統(tǒng)達到這一層級,可自主生成難度遞增任務學習課程的智能體Voyager,可基于過往成功程序迭代發(fā)現新數學構造的智能體FunSearch已經展現出了L5的部分特征。


二、四大主流架構可適配不同層級系統(tǒng)

論文歸納了四大主流架構模式:單智能體循環(huán)(ReAct/Reflexion)、多智能體協(xié)作(MetaGPT/AutoGen)、分層編排(Supervisor-Worker)、工具增強執(zhí)行(CodeAct)。


單智能體循環(huán)(ReAct/Reflexion):這是自主智能體中最簡單、應用最廣泛的基礎架構,由單個語言模型迭代執(zhí)行“觀察環(huán)境→推理下一步動作→執(zhí)行動作→吸收反饋”的閉環(huán)流程,是絕大多數L3-L4級系統(tǒng)的核心架構。

盡管架構設計簡單,但它是絕大多數L3-L4級系統(tǒng)的核心骨架,且在推理策略上存在大量可優(yōu)化、可變化的空間,適配性極強。

多智能體協(xié)作(MetaGPT/AutoGen):多智能體系統(tǒng)可以將任務責任拆分給多個專業(yè)化智能體,通過智能體間的通信與協(xié)作完成目標。

分層編排(Supervisor-Worker):隨著任務復雜度不斷提升,扁平化的多智能體通信模式會逐漸失效,分層編排引入了明確的監(jiān)督管控關系:由一個高層監(jiān)督者智能體負責拆解任務,將子任務分配給專業(yè)化的執(zhí)行者智能體,同時監(jiān)控任務進度,并在必要時介入調整。

最后是工具增強執(zhí)行(CodeAct):這是自主研究智能體的核心標志性特征,是其與外部工具、外部環(huán)境交互的能力。工具增強執(zhí)行將語言模型從被動的文本生成器,轉變?yōu)橛嬎闩c物理工作流中的參與者,再加上其可以外接代碼、實驗、網頁,能力上限最高。


總的來看,L2級系統(tǒng)用簡單的單智能體循環(huán)即可高效運行,L3級系統(tǒng)采用Reflexion,可天然嵌入檢查點機制,收益最大,L4級系統(tǒng)通常需要分層編排架構,搭配自主迭代優(yōu)化,才能在長時間自主運行中維持輸出質量,理論上的L5級系統(tǒng)大概率需要具備自重組能力的圖結構架構才能實現。

三、三大結論:開閉源差距收窄,專用智能體超越通用,代碼智能體最成熟

基于六維特征矩陣,論文對17款主流系統(tǒng)展開分析,六維特征包括前文提到的L1-L5自主等級、核心應用領域、架構模式、工具集成廣度、評測方法論、開源屬性。


其得到三大結論:

首先更聚焦某一領域的系統(tǒng),能力上限更高,其中,代碼智能體在所有維度中表現最優(yōu),受益于自動化評測體系、成熟的工具環(huán)境、大規(guī)模基準測試的支撐,是當前行業(yè)最成熟的賽道。

其次領域專用智能體全面超越通用智能體,SWE-Agent、Coscientist、FunSearch等L4級系統(tǒng)均通過收縮應用范圍實現了穩(wěn)定輸出,AutoGPT、BabyAGI等通用智能體,始終無法在多樣化任務中實現穩(wěn)定的L4級運行。

最后,開源與閉源的差距正在收窄,開源系統(tǒng)OpenHands的性能表現已經非常接近Devin等閉源系統(tǒng)。

在評測體系方面,論文提到了需要聚焦三大核心方向:

多維度指標:聯(lián)合評估創(chuàng)新性、正確性、效率、安全性,而非單一維度的優(yōu)化;長周期評測:追蹤智能體在長期科研項目中的表現,而非孤立的單次任務;社群化評估:將專家反饋循環(huán)嵌入評測流程,建立行業(yè)共識的評估標準。

論文最后還給出了智能體系統(tǒng)六大核心待解難題:認知死循環(huán)、上下文窗口限制、創(chuàng)新價值評估、結果可復現性、安全風險與使用成本。


其中認知死循環(huán)、原創(chuàng)性評測、安全問題最為關鍵,因此認知循環(huán)問題使得智能體仍無法識別自身陷入困境,只會在失敗策略上持續(xù)堅持,而非尋找全新方法;再加上其沒有可靠的自動化指標,能衡量科研成果的質量與原創(chuàng)性,導致智能體無法在閉環(huán)中實現自我改進;最后隨著智能體能力提升,其安全邊界與倫理風險愈發(fā)突出。

結語:雙AI協(xié)作產出完整論文,智能體真變身科研同事了

陳德里此次的實驗,讓智能體實現了從想法到完整論文的自主產出,其僅投入2小時人類思考時間,通過雙AI協(xié)作就產出了AI科研綜述論文,證明了AI從工具進化為“科研同事”的可行性。

AI此次面對長周期、長流程的復雜工作,最后生成的論文邏輯清晰且沒有跑偏,展現出了超長文本處理、長流程持續(xù)執(zhí)行、全程邏輯統(tǒng)一的核心能力。

在科研智能體領域,陳德里不僅用有趣的實驗展現出了科研智能體的能力,還通過完整的論文分析解讀展現出當下這一領域發(fā)展的現狀及痛點,可以說是雙管齊下,或為后續(xù)智能體的研究提供了新穎的參考方向。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
咱們的治安水平,在藍星上來說,其實是不正常的

咱們的治安水平,在藍星上來說,其實是不正常的

占理兒
2026-05-25 20:10:03
愛的深度:解鎖女性高潮的秘密花園

愛的深度:解鎖女性高潮的秘密花園

精彩分享快樂
2026-05-27 12:00:07
5400萬美元變300萬?曝詹姆斯不愿大幅降薪 重回騎士或需簽換艾倫

5400萬美元變300萬?曝詹姆斯不愿大幅降薪 重回騎士或需簽換艾倫

羅說NBA
2026-05-27 06:32:21
被網友們“低成本防蚊大法”驚到了!不花啥錢,讓蚊子不敢靠近

被網友們“低成本防蚊大法”驚到了!不花啥錢,讓蚊子不敢靠近

摳搜俠
2026-05-25 14:33:50
49.98萬起預訂破6萬臺!全新問界M9 5月27日上市:玄武架構2.0上車

49.98萬起預訂破6萬臺!全新問界M9 5月27日上市:玄武架構2.0上車

快科技
2026-05-24 21:54:05
畫餅、上套、下場、殺違約金,陷入“酒吧GOGO”的女孩們

畫餅、上套、下場、殺違約金,陷入“酒吧GOGO”的女孩們

新京報
2026-05-27 07:48:06
400萬投資血本無歸!浙江老板怒砸門店,背后內情疑似慘遭做局

400萬投資血本無歸!浙江老板怒砸門店,背后內情疑似慘遭做局

行者聊官
2026-05-27 08:27:43
女子白嫖外賣:吃掉后投訴騎手,小哥上門現場抓包,已傳播到國外

女子白嫖外賣:吃掉后投訴騎手,小哥上門現場抓包,已傳播到國外

天天熱點見聞
2026-05-26 06:07:42
主角:晚年癱瘓截肢的劉紅兵,離婚喪子父母不認,卻一生有情有義

主角:晚年癱瘓截肢的劉紅兵,離婚喪子父母不認,卻一生有情有義

容妃
2026-05-25 15:44:15
華為鄭俊:Mate90將使用韜(τ)定律芯片,已達到業(yè)界的3nm水平

華為鄭俊:Mate90將使用韜(τ)定律芯片,已達到業(yè)界的3nm水平

鳳凰網財經
2026-05-27 13:46:17
阿里員工十三薪并入年終獎!

阿里員工十三薪并入年終獎!

北京商報
2026-05-27 12:38:24
跟隊:姆伯莫后期狀態(tài)下滑,他在小蜜蜂時就難以應對緊湊賽程

跟隊:姆伯莫后期狀態(tài)下滑,他在小蜜蜂時就難以應對緊湊賽程

懂球帝
2026-05-27 10:55:42
1981年黃植誠駕機歸來,放走不愿歸順的許秋麟,其回臺后引人探尋

1981年黃植誠駕機歸來,放走不愿歸順的許秋麟,其回臺后引人探尋

嘮叨說歷史
2026-05-25 14:15:16
俄羅斯譴責烏克蘭違反國際法,向基輔發(fā)出新威脅

俄羅斯譴責烏克蘭違反國際法,向基輔發(fā)出新威脅

山河路口
2026-05-26 12:51:51
孫興慜:看到熱刺為保級而戰(zhàn)我很難受;有時候會想我是不是離開太早了

孫興慜:看到熱刺為保級而戰(zhàn)我很難受;有時候會想我是不是離開太早了

懂球帝
2026-05-27 12:00:10
比賴清德還狂!若2028年她當臺灣地區(qū)領導人,解放軍出手武力統(tǒng)臺

比賴清德還狂!若2028年她當臺灣地區(qū)領導人,解放軍出手武力統(tǒng)臺

阿訊說天下
2026-05-26 13:40:22
米切爾公開挽留!哈登手握4230萬選項何去何從?美媒曬出3大選項

米切爾公開挽留!哈登手握4230萬選項何去何從?美媒曬出3大選項

鍋子籃球
2026-05-26 23:25:17
美國漫展驚現“新鮮腳汁” 一杯賣15美元

美國漫展驚現“新鮮腳汁” 一杯賣15美元

3DM游戲
2026-05-25 15:33:17
央視主持人文清現狀胖到不敢認,在桂林陪讀,老公在澳洲當院長

央視主持人文清現狀胖到不敢認,在桂林陪讀,老公在澳洲當院長

凜若秋霜
2026-05-25 04:41:33
臺灣最瀟灑的萬億級老板,安息了

臺灣最瀟灑的萬億級老板,安息了

華商韜略
2026-05-27 10:27:16
2026-05-27 14:15:00
智東西 incentive-icons
智東西
智東西,AI產業(yè)新媒體,專注報道人工智能的前沿技術發(fā)展,和技術應用帶來的千行百業(yè)產業(yè)變革。
11904文章數 117085關注度
往期回顧 全部

科技要聞

韜定律:全球在卷納米數 華為換了一把尺子

頭條要聞

258畝薺菜地遭數百人哄搶造成損失約70萬 種植戶發(fā)聲

頭條要聞

258畝薺菜地遭數百人哄搶造成損失約70萬 種植戶發(fā)聲

體育要聞

這群老阿姨,是最硬核的馬刺球迷

娛樂要聞

小S曬歸寧宴舊照,大S穿吊帶裙扎丸子頭

財經要聞

ST巖石退市背后:A股“炒殼”時代終結

汽車要聞

極狐問道V9今日將正式上市 搭載華為雪鸮增程系統(tǒng)

態(tài)度原創(chuàng)

游戲
時尚
藝術
家居
公開課

昂揚不滅!2026英雄聯(lián)盟手游超級聯(lián)賽夏季賽正式開賽

多巴胺“粉”,赫本是這樣穿的!

藝術要聞

這個夏天去蘇州過幾天清閑安逸的日子

家居要聞

古老而持久 石影扶手椅

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版