網易首頁 > 網易號 > 正文申請入駐

2026智源大會熱議 Agent 最前沿趨勢，從“會執行”到“會進化”

2026-06-14 16:29:01　來源: 人工智能學家

北京舉報

分享至

“終端智能體與OpenClaw”和“AI自進化”論壇現場

來源：智源社區

編輯：宇軒夢佳

2026年6月12日下午，第8屆智源大會兩場有關Agent研究最前沿的論壇在中關村國際創新中心海慧廳A/B相鄰的兩個報告廳火熱召開。

“終端智能體與OpenClaw”論壇重點討論了大模型智能體如何獲得真實執行能力：通過Harness連接模型、工具、環境、記憶、符號結構、安全沙箱和端云系統，使Agent從一個會響應指令的語言模型，變成能夠在終端和組織中持續完成任務的執行系統；

“AI自進化”論壇則進一步追問Agent的成長機制。該論壇圍繞 “Agent 如何從一次次交互、失敗、探索和反饋中形成記憶、規則、世界模型與學習能力”展開。

兩扇門之間，恰好反映出當下Agent技術最重要的兩個研究趨勢：它正從“能執行、會調用工具的助手”，走向“能學習、在世界中持續成長的系統”。這兩場論壇，把 Agent 的兩面放在同一個時代剖面中觀察：一面是它如何進入社會的毛細血管，成為新的生產力接口；另一面是它如何不再只是被人訓練好的靜態模型，而是在環境中形成持續學習的閉環。前者關乎產業入口，后者關乎智能演進本身。

終端智能體與OpenClaw：Agent 正在成為新的操作層
論壇主席、清華大學計算機系教授劉知遠在開場致辭中，首先把這場論壇投影到智源大會連續多年關注智能體的歷史中。他指出，Agent已經從幾年前還略顯前沿的學術概念，變成大模型賦能千行百業的重要技術形態。而OpenClaw即便未必是最終平臺，也以一種標志性方式宣告了大模型正在從云端聊天助手進入工作場域。所謂“終端智能體”，核心正是讓智能體在社會的毛細血管、行業現場和各種終端上發揮作用。

清華大學計算機系教授劉知遠

開場致辭后，中國人民大學高瓴人工智能學院林衍凱作了題為《從OpenClaw看智能體技術發展趨勢》的報告，上海交通大學人工智能學院錢忱作了題為《Organization Model：讓組織變得可生成》的報告，清華大學智能產業研究院李元春作了題為《Mobile Agent Harness》的報告，南京大學智能科學與技術學院郭蘭哲作了題為《Neuro-Symbolic Agent：從反應式決策到可驗證決策》的報告，CAMEL技術負責人范文棟作了題為《Environment is the Missing “Data” for Agents》的報告，網易有道首席科學家段亦濤作了題為《AI原生戰略下的Agent產品思考與實踐》的報告，百度搭子DuMate產品總架構師李景秋作了題為《從“能聊”到“能力”：讓智能體擁有超級執行力》的報告，騰訊云資深產品專家汪晟杰作了題為《Work Buddy思考與實踐》的報告。隨后，智源研究院院長王仲遠與劉知遠教授共同發布了「智源-面壁聯合加速器」。

從聊天框到操作系統：OpenClaw 的路標意義

劉知遠在開場中指出，OpenClaw的歷史意義不在于它是否會一直流行，而在于它標志著大模型智能體從云端聊天助手進入工作場域。林衍凱進一步把這個判斷展開：OpenClaw并沒有在基座模型預訓練、后訓練或推理優化上創造核心突破，它真正做的是系統集成，把模型、Skill、記憶、接口和用戶入口組織到一起。

這恰恰是它值得被討論的地方。很多劃時代的技術節點，并不是因為它發明了全部底層技術，而是因為它第一次把分散能力組織成一種可被大眾感知的形態。瀏覽器并沒有發明互聯網，卻定義了普通人進入互聯網的方式；OpenClaw之于Agent，也有類似意義。它把“模型能做什么”轉譯成“用戶如何讓模型替自己做事”，也把行業問題從模型能力推進到協議、運行時、工具生態和入口定義權。

因此，這場論壇真正關心的是誰會定義Agent時代的“操作層”。未來的Agent研究，要重點關注“誰來管理模型調用，誰來調度工具，誰來存儲記憶，誰來連接設備，誰來劃定安全邊界，誰來成為用戶的默認入口”。

Harness 的黃金時代：模型之外的工程學

如果說OpenClaw提供了一個時代樣本，李元春的報告則給出了更清晰的工程語言：Agent = Model+Harness。模型負責泛化能力，Harness負責把能力拴到真實任務、真實環境和真實約束中。到了終端智能體這里，Harness甚至比模型更接近產品成敗的分水嶺。

原因很簡單：Coding Agent之所以進展快，是因為代碼世界有大量訓練數據、清晰執行環境和可驗證獎勵。但GUI Agent、Mobile Agent、多模態端側Agent面對的是更混亂的現實界面。手機APP的狀態、按鈕、頁面跳轉、權限、賬號和用戶數據，都不是一個通用語言模型天然理解的。于是，李元春團隊試圖用APP知識庫、自動探索、狀態轉換圖、合成環境和腳本化交互，為端側模型補上一層“環境記憶”。

這使Harness不再只是prompt、工具或腳手架，而是成為一種新的應用工程學。它既要提高成功率，也要降低成本，還要承擔安全、隱私、權限和沙箱隔離。端側Agent能不能真正進入每個人的設備，取決于模型，也取決于這套模型之外的工程結構能否足夠細密、可靠、便宜。

從個人助手到可生成組織：多智能體的社會想象

錢忱的報告把討論從“一個Agent如何完成任務”推向了“多個Agent如何生成組織”。在他看來，AI過去學會了生成語言、圖像和世界模型，下一步也許要學會生成組織。好的大學、公司、研究院之所以稀缺，并不只是名額少，而是創建和運行成本高；如果組織的教學、管理、決策、研發、測試、輔導等職能都能被Agent化，那么組織本身就可能成為一種按需生成的軟件。

這個視角把多智能體研究從workflow工程推向了組織科學。真正的組織不是把幾個Agent串成流水線，而是有角色、協議、反饋、信用分配和演化機制。TeachMaster和Agentic University的案例說明，教育場景已經開始出現這種“組織化Agent”的雛形：對外看，它像一個AI教師或一所AI大學；對內看，它是一組可分工、可協作、可積累反饋的智能體組織。

這條主線的重要性在于，它擴展了Agent的想象邊界。Agent不只是替個人寫代碼、做PPT、查資料，它也可能重構教育、研發、企業培訓、創業孵化等社會功能。

走向真實世界：可驗證、環境和產品閉環

越靠近真實世界，Agent越不能只靠流暢表達取勝。郭蘭哲從神經符號角度指出，語言驅動的Agent仍然面臨可靠性、安全性和可驗證性問題。一個skill如果只是自然語言腳本，就很容易在環境變化時失敗；它需要狀態判斷、變量綁定、控制流、失敗修復和可執行圖結構。換言之，經驗必須被壓縮成可操作、可泛化、可組合的符號結構。

范文棟則從CAMEL的開源實踐指出，Environment是Agent缺失的數據。沒有可規模化、可驗證、可訓練的環境，Agent就沒有辦法形成真正的長程能力和強化學習閉環。環境不只是測試場，也是訓練數據的來源、reward的載體和能力演化的土壤。

段亦濤、李景秋和汪晟杰則把這些問題帶回產品現場。教育Agent要圍繞業務目標而不是論文benchmark優化；超級執行助手要把“能聊”變成“能力”；Work Buddy和AgentOS要處理端云協同、沙箱、審計、記憶分層、多設備調度和企業數據歸屬。到論壇最后發布“智能體+硬件創新加速孵化器”，這條故事線變得更加完整：Agent的下一站，不只是軟件產品，而是與硬件、終端、創業生態和產業資源相互綁定的新入口。

AI自進化：Agent 正在尋找自己的學習閉環

論壇主席諸葛鳴晨博士在開場中，先為“AI自進化”劃定了問題邊界。在他看來，一個程序能夠讀取自身狀態、修改自身，并證明下一版本優于上一版本，才構成理想意義上的recursive self-improvement。但在真實工程中，這一證明往往退化為經驗式閉環，即通過生成候選、運行benchmark、篩選更優版本來迭代。同時，2025年前后模型代碼能力和智能體能力達到超越頂級人類工程師的臨界點，進一步促使RSI從思想進入更可操作的工程階段。

在諸葛鳴晨博士的開場致辭后，Meta資深研究科學家劉澤春作了題為《Scaling Down: Optimizing Foundation Models for Edge Deployment》的報告，英偉達研究院科學家張少坤作了題為《Recursive Self-Learning through Scalable Agentic Experience》的報告，NeoCognition聯合創始人谷雨作了題為《The Illusion of Self-Improving Agents》的報告，西湖大學人工智能系特聘研究員林濤作了題為《面向自進化統一多模態模型：少步生成與智能體式理解》的報告，前騰訊混元Frontier專家研究員王琰作了題為《Empowering LLMs with More Agency: From Context Engineering to Self-Engineering Architectures》的報告，布里斯托大學助理教授楊夢月圍繞強化學習、因果發現、因果推斷與世界模型作了報告，廈門大學人工智能研究院副教授鄭俠武圍繞科學測量和驗證抽象與推理能力作了報告。最后，華中師范大學人工智能教育學部助理教授熊宇軒主持了題為“覺醒與進化：AI如何自我迭代？”的圓桌討論。

如果說OpenClaw論壇關心Agent如何擁有“身體”和入口，那么AI自進化論壇關心的是Agent如何擁有“成長能力”。系統完成單次任務的能力固然重要，但更重要的是它在完成任務之后是否變得更強：是否更懂環境，是否記住失敗，是否形成規則，是否知道下一次該怎么探索。

試錯必須足夠便宜：自進化的算力前提

劉澤春從壓縮、量化和邊緣部署講起，看似離“自進化”的宏大命題較遠，實則觸及了它的底層條件。遞歸學習需要大量iteration，如果每一次試錯、評估和更新都昂貴，自進化就只能停留在概念里。

她關于量化模型、低比特訓練、數據選擇和edge deployment的討論，把RSI帶回工程現實：一個會自我改進的系統，首先要承擔得起反復改進的成本。更小、更快、更穩的模型不僅意味著更便宜的部署，也意味著更多輪反饋、更頻繁的更新，以及更可能發生在端側和隱私保護場景中的個性化學習。

經驗從哪里來：Rollout、沙箱與強化學習基礎設施

張少坤把Self-evolving Agent拆成兩個特性：遞歸式自迭代，以及從自身探索經驗中學習。早期AgentOptimizer讓Agent觀察自己的prompt、workflow和tools，并根據環境反饋修改自身結構。而ProRL Agent Server則把問題推進到基礎設施層面，如果Agent要通過強化學習獲得能力，就必須能夠在大量環境中并行rollout，收集長程、多輪、工具調用軌跡。

圖：英偉達研究院科學家張少坤

這讓自進化從一個算法命題變成了系統命題。普通語言模型的訓練循環已經復雜，而Agent的rollout還要啟動沙箱、執行工具、處理文件、跑代碼、計算reward、合并trajectory。訓練循環和Agent執行循環如果糾纏在一起，研究者很難擴展。因此，張少坤強調把RL trainer和Agent rollout loop解耦，讓不同harness、不同推理引擎、不同任務環境可以接入同一套經驗采集基礎設施。

自進化不是“模型自己想一想就變強”，而是要有一整套經驗的生產系統。沒有可規模化拓展的探索，就沒有足夠多的失敗。沒有足夠多的失敗，就沒有可學習的邊界。沒有可學習的邊界，就談不上真正的自我改進。

記憶不是堆上下文：從經驗到結構

谷雨的報告給自進化熱潮潑了一盆必要的冷水。他認為，許多self-improving Agent只是把新memory或skill放進prompt里，讓模型下次參考，這并不等于真正學習。學習的本質是memory update，而memory要解決三個問題：如何表示，如何可靠更新，如何在執行中被真正使用。

這一區分非常關鍵。Markdown skill有語言抽象，但缺少結構；向量數據庫容易append，卻不做壓縮；模型權重壓縮率高，卻面臨持續學習和在線更新的困難。真正有價值的記憶，應當把經驗壓縮成可復用的概念、規則、圖結構、決策樹、workflow或參數變化，并且在執行失敗時形成閉環。

王琰的報告從另一個角度呼應了這個問題。他討論主動context管理、reward-free self-evolution和world knowledge，試圖讓Agent在未知下游任務前先探索環境、形成可復用知識，而不是每次任務都重新讀完整個世界。他進一步提出FlashMemory類機制，試圖降低長上下文推理成本。兩者共同說明：自進化的關鍵不是“記得更多”，而是“把經歷轉化為結構”。

世界模型、因果與抽象：如何避免偽進化

林濤把自進化閉環描述為understanding、imagination、acting和feedback。一個Agent要成長，必須理解當前狀態，想象可能未來，在環境中行動，并用反饋修正自身。如果想象太貴，多輪rollout就只會停留在demo；如果想象與現實不一致，就必須通過真實環境反饋修正模型。

楊夢月進一步把“理解世界”推進到因果層面。在開放世界中，Agent無法窮舉所有數據，也無法只靠相關性做安全決策。它需要因果世界模型，知道哪些關系是真正的干預關系，哪些只是表面共現。更重要的是，Agent要學會向環境提問：當現有因果理解不確定時，主動設計探索，觀察反饋，更新world understanding。

鄭俠武則從抽象和推理評測切入，指出人類文明進化的核心，是從經驗中抽象規律，再把規律遷移到新問題。對AI自進化而言，危險恰恰在于模型可能只學到了表象，而沒有學到規律；它可能在benchmark上進步，卻在真實遷移中停滯。由此，自進化的核心科學問題浮現出來：我們如何判斷一個Agent是真的學會了規律，而不是學會了投機？

如今，研究者開始討論模型上線后如何在交互中形成記憶、構建環境、發現邊界、設計探索、更新評價標準，并最終把外部經驗轉化為內部能力。Agent的核心能力正在“task solving”走向“learning how to learn”。

覺醒與進化：AI 如何自我迭代？

AI自進化論壇的圓桌主題是“覺醒與進化：AI如何自我迭代？”，由華中師范大學人工智能教育學部助理教授熊宇軒主持。

參與討論的嘉賓包括NeoCognition聯合創始人兼Head of Research谷雨，西湖大學人工智能系特聘研究員林濤，前騰訊混元Frontier專家研究員王琰，以及布里斯托大學助理教授楊夢月。與會嘉賓分別具備“語言智能體、世界模型、無獎勵自進化、因果強化學習和模型訓練”等不同的學術背景，不斷追問：什么才算自我改進？它發生在哪里？誰來評估它？誰來約束它？人又會在這個過程中變成什么？

圖：圓桌討論“覺醒與進化：AI如何自我迭代？什么才算真正的自進化？”

當“自進化”成為一個越來越高頻的概念，最需要警惕的反而是它被泛化成所有性能提升的統稱：只要指標上漲，就被稱為進化；只要系統會反思，就被稱為自我改進。因此，圓桌首先需要澄清的是，怎樣的改進才配得上“自進化”這個詞。

針對這一問題，谷雨認為，self-improving至少包含兩個維度：一是Agent是否知道自己缺什么、該學什么、什么時候學；二是具體如何實現可靠學習。前者決定學習目標是否由系統自身發現，后者決定學習過程是否真的有效。

王琰則提出更尖銳的區分。他認為，很多所謂self-evolution，其實只是“人類追問的evolution”。如果訓練時已經預設了下游任務、reward和評價方式，那么系統確實可能進步，但還不能輕易稱為真正的自進化。更困難的情況是，Agent不知道未來任務是什么，也沒有顯式獎勵，卻仍然能夠主動探索環境，形成對未來任務有幫助的world knowledge。

這讓圓桌討論越過了“指標漲了多少”的層面。真正的自進化不是簡單的性能提升，而是系統是否能生成自己的學習問題，識別自己的知識邊界，并找到下一步探索的方向。

外腦、內腦與記憶的遷移

如果自進化不是一句口號，那么它必然要落在某種可更新的載體上：是prompt在變，工具在變，harness在變，還是模型參數本身在變？這背后其實是在追問一個更深的問題：Agent的“外腦”和“內腦”如何相互轉化。

針對這一問題，谷雨提出一個統一視角：harness、tools和模型權重都可以看作長期記憶，只是層級不同。Harness更像元級記憶，工具更像過程知識，模型參數則是更內化、更壓縮的長期記憶。

林濤從模型訓練角度補充，harness中的經驗可以先影響post-training，得到更強模型。更強模型又可以反過來影響基模訓練，形成不同尺度上的閉環。楊夢月則把過程拆成forward design、backward update和memory/skill的沉淀。“Agent如何產生trajectory”，“如何利用reward更新經驗”，“如何把中間知識沉淀為規則、skill或causal knowledge”，都可能成為自進化發生的位置。

因此，未來的自進化不會只有“改prompt”或“改參數”兩種選擇。更可能出現的是外部工具、執行軌跡、環境知識、結構化記憶和模型參數之間的連續遷移。“外腦”可以幫助系統行動，行動產生經驗，經驗沉淀為結構，結構再被內化為能力。

會進化的系統如何被評測？

當評測對象是一個靜態模型時，benchmark可以像一張試卷；但當評測對象是一個會學習、會適應、甚至可能會利用評價漏洞的Agent時，試卷本身也會被卷入進化過程。于是，評測不再只是“測得準不準”，而是要回答：如何衡量一個系統的學習過程，而不僅是某一刻的能力存量。

針對這一問題，楊夢月提出增長式、動態式benchmark的必要性：環境應當隨Agent能力逐步升級，像訓練一個炒菜機器人一樣，從簡單場景逐步增加調料、遮擋、變化和不可見因素。

王琰對自動化評測保持懷疑。他提醒，復雜工作流中的很多失敗，可能只有線上數據和人類評測能真正發現。谷雨則提出一個更本質的轉向：self-improving的評測不能只看最終分數，而要看學習曲線。橫軸是做過多少任務，縱軸是能力表現；關鍵不是某一刻會什么，而是經驗增加后是否持續變好。

林濤進一步把智能定義為“單位時間內能力增長速度”。如果智能不只是能力存量，而是能力增長率，那么評測也必須從結果評測轉向過程評測，從“模型掌握了什么”轉向“模型如何掌握”。此外，林濤認為，短期內最有可能實現的動態評測是有人參與的半自動化評測。

安全、可控與人的共同進化

只要討論自進化，就無法回避一個不那么輕松的問題：一個越變越強的系統，是否也可能越變越不可控？更進一步說，當AI開始改變人的工作方式、學習方式和判斷方式時，人的能力結構是否也會被重新塑造。

針對這一問題，王琰給出了悲觀判斷：行業激勵更偏向能力加速，而較為忽視安全克制。林濤因此強調，動態benchmark和自進化過程仍需有人參與，至少要提供人類定義的邊界。楊夢月從可信AI的角度指出，白盒、因果解釋和可見決策過程很重要；如果不知道系統為什么做出決策，就很難談控制。谷雨則把短期可控性落到兩個更具體的詞：可靠性和可驗證性。可靠性意味著這次做對，下次也要做對；可驗證性意味著做錯時，系統要知道自己錯了。

當討論進一步推向人本身，楊夢月觀察到，基礎扎實的人更能駕馭AI工具，基礎薄弱的人反而容易被大量輸出誤導。王琰擔心AI會減少年輕人真正理解問題的訓練機會，讓他們更快完成任務，卻更慢建立全局理解。谷雨則給出一個更開放的判斷：如果AI仍被視為工具，人和工具會共同演進；但如果AI不只是工具，而是接近一種平等甚至更高階的存在，問題就會進入更深的哲學和社會層面。

在本場圓桌討論中，嘉賓們針對“AI自進化”這一議題表現出了“謹慎的樂觀”，重點討論了四個繞不開的問題：自進化的主體性、記憶的內化路徑、評測的動態化，以及人類如何在系統變強時仍保有理解、約束和共同成長的能力。

結語：Agent 正從“自動化工具”變成“生命史”

如今，Agent不再只是一個模型的外殼，也不只是一個自動化工具，而是在形成自己的“生命史”。所謂生命史，指的是是一個成熟Agent系統將有自己的誕生環境、身體接口、記憶結構、任務經歷、組織關系、學習曲線、錯誤修復機制和治理約束。

OpenClaw論壇討論的是Agent的身體和社會位置：它在哪里運行，如何接入終端，如何調用工具，如何跨設備，如何組織協作，如何進入教育、辦公、研發、硬件和企業系統。AI自進化論壇討論的是Agent的學習和成長機制：它如何壓縮經驗，如何構建世界模型，如何探索環境，如何更新記憶，如何評估自己是否真的進步。前者讓Agent“活在世界里”，后者讓Agent“在世界中成長”。

如果說2023年的Agent熱潮證明了大模型可以調用工具，2024-2025年的Agent產品證明了它可以完成更長任務，那么2026年智源大會這兩場論壇呈現的趨勢是：Agent開始從“工具使用者”走向“環境參與者”，從“任務執行器”走向“持續學習體”，從“聊天入口”走向“新操作層”。這正是當下Agent發展的真正拐點！

大會回放 https://2026.baai.ac.cn

閱讀最新前沿科技趨勢報告，請訪問21世紀關鍵技術研究院的“未來知識庫”

未來知識庫是 “21世紀關鍵技術研究院”建立的在線知識庫平臺，收藏的資料范圍包括人工智能、腦科學、互聯網、超級智能，數智大腦、能源、軍事、經濟、人類風險等等領域的前沿進展與未來趨勢。目前擁有超過8000篇重要資料。每周更新不少于100篇世界范圍最新研究資料。歡迎掃描二維碼或訪問https://wx.zsxq.com/group/454854145828進入。

截止到2月28日 ”未來知識庫”精選的百部前沿科技趨勢報告

（加入未來知識庫，全部資料免費閱讀和下載）

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.