![]()
作者:劉鋒
繼2025年之后,2026年,"智能體"(Agent)繼續成為整個科技領域最炙手可熱的名詞之一。從能自主寫代碼的編程助手,到會操作瀏覽器、跨系統辦事的"數字員工",但是在火熱潮背后卻隱藏著這一個危機:那就是火熱的"智能體"概念,至今沒有一個公認的定義。
這個概念其實由來已久。"Agent"一詞源自哲學,本指有意圖、能行動的主體;進入人工智能后,經羅素與諾維格的經典教材《人工智能:一種現代方法》正式確立——智能體被定義為"能通過傳感器感知環境、并通過執行器作用于環境的事物"。它的中文譯名也幾經周折,"代理""行為體"等說法爭論多年,直到由全國科學技術名詞審定委員會審定為"智能體",并給出"體現自治性、反應性、社會性等智能特征的軟硬件實體"這一官方釋義。
![]()
進入大模型時代,智能體的定義反而進一步分化。這一點在產業界表現得尤為明顯。2026年1月,美國戰略與國際研究中心(CSIS)發布報告《迷失于定義:AI智能體定義混亂如何削弱美國治理框架》,對當下主流科技企業與咨詢機構給出的"智能體"定義做了一次集中盤點,結果頗能說明問題。
OpenAI 把智能體描述為"能在較長時間跨度內持續推進既定目標、無需事先腳本化每一步行為的系統",并提出用"代理度"(agenticness)來刻畫其自主程度;Anthropic 則把"agent"一詞嚴格保留給"以大模型為核心的循環系統,由模型自身決定調用哪些工具、按什么順序、何時停止",而把更寬泛的工具型流程歸入"agentic systems"。
IBM 強調智能體是"能獨立組裝工作流、調用可用工具完成任務的 AI 系統";AWS 把它定義為"與環境交互、采集數據、并據此自主完成預定人類目標的軟件";谷歌云的定義則包含"推理、規劃、記憶"以及"足以做出決策、學習和適應"的自主性。咨詢機構的口徑更寬——麥肯錫甚至把客服聊天機器人也視為"初級智能體",而 IBM、OpenAI 等明確把聊天機器人排除在外。
![]()
CSIS 的研究者進一步把這些定義拆解到七個特征維度上:自主性、是否以大模型為內核、學習與反饋、記憶、推理與規劃、協作、感知與觀察。對照之下,唯一被各家普遍接受的只有"自主性"一項,而即使在這一項上,"什么才算自主"也莫衷一是——從只會按規則反應的簡單反應式系統,到能根據歷史經驗自我更新的學習型系統,都被裝進了同一個筐里。其余六個維度則呈現明顯的"紅黃綠斑駁":有的家把記憶列為必備,有的避而不談;有的強調多智能體協作,有的只字未提;有的要求具備感知通道,有的則把它視作可選項。
學界的圖景同樣分裂。符號主義看重邏輯推理,聯結主義強調分布式表征,控制論關注反饋調節,具身認知則看重感知與行動的耦合,各家依舊使用著互不兼容的語言。
這種碎片化不只是學術上的不便。CSIS 報告指出,當"智能體"既可以指一個簡單的聊天助手,也可以指一支具備作戰能力的自主集群時,測試與評估、采購與合規、責任與問責,都會因為同一個詞承載了截然不同的能力而陷入混亂,監管者可能照著聊天機器人的標準去審查一個本應受嚴格管控的高自主系統,也可能反過來用對待復雜自主系統的尺度去衡量一個不過是規則腳本的工具。當智能體已經長成一個真實的產業,連"它到底是什么"都莫衷一是,理論的系統發展與工程的標準化都會因此受阻。
一、跳出范式之爭,回到第一性原理
科學史告訴我們,走出概念混亂的出路往往不是各方妥協,而是回到功能本質,重建一套最小的公理系統。
![]()
沃森和克里克用四種堿基確立了遺傳編碼的最小完備集,馮·諾依曼用五個部件定義了通用計算的完整過程,粒子物理的標準模型則用有限的基本粒子統一了物質與基本相互作述。再往前看,細胞學說用"細胞是生命的基本單位"奠定了生物學的統一根基,熱力學則用"能量守恒"厘清了物理世界的底層邏輯。這些奠基性的成就有一個共同的特點:不糾纏于物理細節的層層還原,而是在功能或原理的層面上做減法,用最小性換取邏輯上的完整。
沿著這條路,如果重新考察香農的信息論、薛定諤的開放系統理論、西蒙的人工科學、弗里斯頓的自由能原理,以及羅素的經典教程,谷歌的定義和中國科學技術名詞審定委員會的審定,可以發現它們表面分歧之下藏著同一個內核:智能體本質上是一個開放信息處理系統。從惠勒的"萬物源于比特"到普里高津的耗散結構理論,這一判斷在物理學、生命科學、認知科學與人工智能中反復出現。
![]()
我們不妨將這個共同的內核當作一條公理。它其實蘊含兩個彼此獨立的側面:一是"開放",系統擁有一條區分自我與環境的邊界,并跨越這條邊界與外界交換信息;二是"信息處理",系統在邊界之內對信息進行加工。這兩點合起來,恰好框定了一個智能體全部的本體特征。這條公理不依賴任何具體實現載體,無論碳基、硅基還是混合系統都同樣適用,因而具備跨范式的本體論普遍性。
二、構建智能體最小完備架構
有了這條公理,接下來的問題就變得很純粹:要讓一個開放的信息處理系統從頭到尾運轉完整,最少需要幾種功能?
我們可以把信息在系統里可能經歷的過程逐一排查,看至少要哪些功能才能全部接住。歸攏起來,可以沿著三個方向展開。
第一個方向是系統的邊界。信息相對于"我"和"環境"這條界線,只有兩種走向:進來,或出去。進來的是輸入(I),出去的是輸出(O)。缺了輸入,系統就成了對外界一無所知的自循環,像一臺只會照固定節奏走、卻沒法對時的鐘表;缺了輸出,它就成了"缸中之腦"——能感知、能記憶、能思考,卻動彈不得,如同神志清醒卻無法行動的閉鎖綜合征患者。
![]()
第二個方向是信息進來之后的內部處理。這里同樣有兩件相互獨立的事:把信息留住,還是造出新的信息。前者是記憶(M),后者是生成(G)。沒有記憶,系統就只會對眼前的輸入做即時反應、轉頭就忘,像一臺學不會主人作息的簡單恒溫器;沒有生成,它就只能照搬已有的內容,像一臺只會播放錄音、卻譜不出新曲的錄音機。
![]()
![]()
記憶和生成到底怎么區分?有一個很樸素的標準:經過這道工序,系統里的信息究竟是"多出了新東西",還是只是被保留、調取或刪除?多出新內容的,算生成;沒有新增的,無論是存、是取還是刪,都算記憶。如此一來,不管背后用的是擲骰子般的隨機、按部就班的計算,還是復雜的推理,都能用"有沒有變多"這把客觀尺子來量,而不必糾結于"算不算新穎""算不算確定"這些見仁見智的說法。
第三個方向是調控。上面四種功能湊在一起運轉時,總得有個角色來安排誰先誰后、各出幾分力,這就是控制(C)。控制自己并不直接加工信息,它更像樂隊里的指揮:不親手碰任何一件樂器,卻決定著每件樂器何時進入、聲音多強、彼此怎么配合。注意力渙散的多動癥患者就是個反例——感知、行動、記憶、生成樣樣不缺,偏偏這位"指揮"出了狀況,于是各聲部各吹各的,亂作一團。
![]()
至此,就得到了一個智能體的最小完備功能架構的定義:即任何一個智能體都是由信息的輸入、輸出、記憶、生成以及對上述四個進行控制等五個功能構成的信息處理系統。可以簡潔地寫作一個五元組 (C, G, M, O, I)——五個字母依次代表控制、生成、記憶、輸出、輸入。
![]()
值得探討的是:記憶在五個基礎功能中也處于非常中心和獨特的位置,如果沒有記憶,輸入的信息無法保存,生成的新信息也無法保存,輸出的信息沒有來源,甚至是負責對控制功能進行支持的調度指令也無處安身,由此可見記憶對于智能體是非常關鍵和核心的一種智能特征。
三,以最小完備架構詮釋智能與認知的核心概念
在最小完備架構之上,把每一項基礎功能再細分為"無、有限、無限"三種狀態,五個維度組合便給出 3? = 243 種智能體類型。能力全為 0 的是阿爾法智能體,全趨于無窮的是歐米伽智能體,二者構成演化的兩個極點,其余所有現實智能體都坐落其間。把這些類型有序排開,便是一張智能體能力周期表。
![]()
五個基礎功能合起來,可以形成一個五維的能力向量空間。阿爾法智能體和歐米伽智能體這兩個極點不僅是分類的邊界,更標示出演化的方向,由此引出兩種信息動力學意義上的‘引力場’/‘演化勢能’:其中阿爾法引力(場)匯聚了資源耗散、信息遺忘與結構衰朽,牽引智能體趨向能力歸零;而歐米伽引力(場)則匯聚了學習、適應與自組織,推動它趨向能力的無限。
![]()
如果視野從單體擴展到群體后,再沿感知、通信、交互三個層層遞進的維度刻畫兩兩智能體的耦合關系:能否覺察對方、能否建立信息通道、彼此是中立、協作、對抗還是層級控制。三者疊加,構成一張多智能體關系圖譜。
![]()
至此,最小完備架構、能力周期表、演化動力學與關系圖譜,從結構、能力、動力到關系層層展開,可以構成以智能體為核心的廣義智能體理論體系。
下面我們用智能體的最小完備架構先從智能和意識這兩個最核心、也最難定義的概念開始進行分析:
智能,在 GAT 框架里,被定義為智能體調動五個基礎功能、在兩種智能場的牽引下沿能力空間演化時所表現出的整體效能。
這里需要進一步指出,最小架構中的五個基礎功能并不"平級"。輸入、輸出、記憶、生成負責直接處理信息,是打底的"基礎智能";而控制管的是"如何調度這四者",站在它們之上,構成更高一層的"高階智能"。也正是這一層調度,讓五個功能的并置不再是簡單相加,而成為一個會統籌、有章法的整體
意識則被嚴格地界定為控制功能 C 本身及其運行過程,也就是對輸入、輸出、記憶、生成四個基礎功能的調度與協同。
進而,根據控制指令的來源,意識可分為兩類:指令源自智能體內部(可不受圖靈可計算性約束)的,稱為自我意識,人類與其他生物體屬此類;指令源自智能體外部、并經圖靈可計算機制派生的,稱為人工意識,當今所有 AI 系統嚴格落入此類。
這樣一來,長期被懸置在哲學層面的"AI 是否擁有意識"問題,就被翻譯成了一個可對其功能架構進行考察的工程問題。
在界定智能與意識的定義之后,我們可以將這一理論框架往外延伸,看看智能科學與認知科學里那些散落各處的術語,能否同樣被收進同一套坐標。下面是二十個核心概念的簡譯:
概念
以智能體最小完備架構為基礎的詮釋
感知
環境狀態 → 內部瞬態表征(I)
多模態
異構信號經多通道并行轉導后,在內部完成統一表征(I + M)
圖像輸入
光子信號經感光器件轉換為像素矩陣表征(I 的一個特例)
行動
內部狀態 → 對環境的物理作用(O)
檢索
控制激活記憶,按線索定位并取出信息(C 作用于 M)
遺忘
信息從記憶集合中主動刪除或被動衰減(M 的逆向過程)
記憶存儲
瞬態信息固化為可持久訪問的內部狀態(M 的寫入)
計算
按確定規則對輸入或記憶做變換,產出新信息(G,確定性子集)
推理
在控制調度下,以規則對已有信息做邏輯演繹,生成新結論(C 調用 M 與 G)
抽象
從多個具體表征中提取共性特征,構建更高層概念(C 主導下的 G+M)
理解
當前輸入與已有記憶建立穩定語義關聯(I 與 M 的對齊)
預測
基于當前輸入與記憶,對未來狀態生成估計(G 受 C 與 M 共同約束)
圍繞給定目標生成有序動作序列(C 調度 G,落于 O)
決策
生成候選方案集并按某種偏好選出最優解(G 提供候選,C 完成選擇)
學習
閉環反饋(I → M → C → O → I → G → M)持續更新記憶
注意力
動態分配各功能的運行強度與信息流優先級(C 的核心職能)
反饋
輸出經環境回返為輸入(O → 環境 → I 的閉環)
命令
一個智能體的控制信號跨邊界進入另一智能體(C 的跨主體傳遞)
對齊
不同智能體的異構內部表征投影到共享語義空間(M 與 G 的跨主體協調)
確定目標
在控制層生成并錨定一個期望的終止狀態(C 的元級行為)
二十個本來散落于不同領域、不同語境的術語,在同一套架構里獲得了初步的詮釋。值得說一句的是,這種"翻譯"并不是給術語貼標簽,而是給出它的最小功能分解。
為了讓這套翻譯方式看起來更具體,不妨以"學習"為例,把它的內部機理逐步拆開。
![]()
設想一個孩子學騎自行車。他先看父親示范、感受車把的重量(輸入 I),把動作要領記在腦里(記憶 M);上車后,大腦根據這些要領發出指令(控制 C),驅動手腳去蹬、去把(輸出 O);車子歪斜、身體失衡的反作用,沿著皮膚與平衡器官傳回(輸入 I);系統把"實際感受到的失衡"和"本應保持的平衡"作差,產生出修正方案——比如"重心再往左一點"(生成 G);新方案被寫回記憶并替換舊要領(M 的更新)。如此反復多輪,直到穩穩騎出去。
把這個過程抽出來,就是咋樣一條回路: I → M → C → O → I → G → M 。它看似是七步,實則不過是五個基礎功能在控制的統一調度下,沿一條閉環各司其職一遍。
任何"學習",無論生物的、人的、還是 AI 的,本質上都是這條回路在不同載體上的實現:神經突觸的可塑性是這條回路,反向傳播也是這條回路,強化學習里"環境—狀態—動作—獎勵"的四元組本質上仍然是這條回路
四.寫在最后
需要說明的是,以上對二十個核心概念的詮釋只是一種初步的嘗試。最小完備架構作為一個仍在演進中的探索性框架,其內部邏輯、概念邊界乃至術語本身的取舍,都還存在進一步打磨的空間,某些詮釋或許過于簡化,某些概念可能尚未被完全收攏,也有可能存在我們眼下未能察覺的疏漏,這些問題我們也希望在未來通過不斷深化研究予以解決。
說明:本文核心內容已作為論文《From Physical Observer to AI Agent: A First-Principles Derivation of the Minimal Complete Architecture》發表在2026第17屆國際群體智能會議(ICSI’2026)
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.