網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

給AI裝上一個(gè)“行動(dòng)派大腦”，它就不只是聊天工具了

2026-05-31 21:15:42　來(lái)源: 爬蟲飼養(yǎng)員

北京舉報(bào)

分享至

2022 年，Google Brain 的幾個(gè)研究員坐在電腦前，盯著屏幕上大模型的輸出結(jié)果，忽然提了一個(gè)在當(dāng)時(shí)看來(lái)有點(diǎn)“出格”的問(wèn)題——如果模型不是直接給答案，而是先想清楚缺什么信息，主動(dòng)去查，查到之后再重新思考，會(huì)怎么樣？

這個(gè)念頭，后來(lái)變成了一篇論文《ReAct: Synergizing Reasoning and Acting in Language Models》（Yao 等，2022）。它給大語(yǔ)言模型設(shè)計(jì)了一種新的行為模式：交替輸出“思考步驟”與“行動(dòng)步驟”，一邊想，一邊干。如今回頭再看，這一刻幾乎可以看作“智能體時(shí)代”的一個(gè)微型起點(diǎn)。它沒(méi)有發(fā)明任何新的模型架構(gòu)，卻把人們對(duì)模型能力的想象從“一次性計(jì)算器”拉向了“持續(xù)運(yùn)行中的進(jìn)程”。

很多人在 2026 年回過(guò)頭去讀 Russell 和 Norvig 那本經(jīng)典的《人工智能：一種現(xiàn)代方法》，才更清楚地理解一件事——智能體的定義其實(shí)早已寫在教科書里：任何能通過(guò)傳感器感知環(huán)境、通過(guò)執(zhí)行器對(duì)環(huán)境施加影響的東西，都可以叫智能體。把大語(yǔ)言模型放進(jìn)這個(gè)框架，就是一個(gè)循環(huán)：接收到觀察，推理出下一步該做什么，通過(guò)工具調(diào)用或文本輸出采取行動(dòng)，獲取新的觀察，再進(jìn)入下一輪推理。這個(gè)循環(huán)聽起來(lái)簡(jiǎn)單，但并不是每一個(gè)跑循環(huán)的系統(tǒng)都稱得上“有自主性”。研究者后來(lái)逐漸形成了共識(shí)，真正的自主智能體至少要跨過(guò)三道門檻：第一，能持續(xù)與動(dòng)態(tài)環(huán)境互動(dòng)；第二，能自主規(guī)劃一連串動(dòng)作以達(dá)成目標(biāo)；第三，能從零開始發(fā)現(xiàn)并選取合適的工具，而不是等著人替它配好工具箱。

2026 年市面上大批自稱“智能體”的生產(chǎn)系統(tǒng)，充其量只穩(wěn)定邁過(guò)了前兩道門檻。第三道——讓算法在沒(méi)有先驗(yàn)工具列表的前提下，自己認(rèn)出“我需要一個(gè)能搜索郵件的東西”，然后自己去找到或者創(chuàng)建它——在工業(yè)界仍然是一個(gè)很大的未解問(wèn)題。而 ReAct 的意義就在于，它用最低的工程成本，把前兩種能力做進(jìn)了同一個(gè)輸出模板里，并且給出了可追溯的推理鏈條。

ReAct 做法十分直白：不讓模型一口氣生成最終回復(fù)，而是把輸出切成“思考——行動(dòng)”的塊。比如，當(dāng)模型接到一個(gè)需要結(jié)合最新數(shù)據(jù)的提問(wèn)時(shí)，它會(huì)先在思考?jí)K里寫下“我需要了解當(dāng)前大模型部署的統(tǒng)計(jì)數(shù)據(jù)”，接著在行動(dòng)塊里調(diào)用搜索，把查詢語(yǔ)發(fā)出去。等外部環(huán)境返回一段“68% 的企業(yè)已在生產(chǎn)流程中使用大語(yǔ)言模型”之類的觀察，模型再進(jìn)入下一輪思考：“上下文夠了，我現(xiàn)在可以回答原問(wèn)題了。”這套模板沒(méi)有增加新的參數(shù)，也不改變底層模型的訓(xùn)練方式，它只是重新組織了解碼過(guò)程。

原始論文在 HotpotQA 和 ALFWorld 兩個(gè)基準(zhǔn)上做了評(píng)測(cè)。相對(duì)于只讓模型在腦子里做思維鏈推理的基線，ReAct 在兩個(gè)任務(wù)上都贏了，而且在那種需要多次順序檢索才能拼出答案的題目上，領(lǐng)先幅度尤其明顯。背后的原理不難理解：思維鏈解決的是“把已知信息推演清楚”的問(wèn)題，ReAct 解決的則是“先把需要的信息拿進(jìn)來(lái)，再推演”的問(wèn)題。

不過(guò) ReAct 的局限性也寫在它的名字里：它是反應(yīng)式的。如果前幾步推理就跑偏了方向，它沒(méi)有一種內(nèi)建的機(jī)制讓自己退后一步、重新審視整個(gè)決策路徑。也就是說(shuō)，它能把單條線索的邏輯鏈條拉得很漂亮，但沒(méi)法像人類那樣在探索幾條死胡同之后，忽然意識(shí)到“等等，我好像從一開始就選錯(cuò)了路”。這個(gè)缺陷在需要多輪試錯(cuò)和路徑修正的復(fù)雜環(huán)境中，還遠(yuǎn)沒(méi)有被彌補(bǔ)。

這也是現(xiàn)在很多架構(gòu)師和研究員在反復(fù)翻看 2022 年那篇論文時(shí)，心里那種既興奮又撓頭的感覺的來(lái)源。興奮的是，原來(lái)只要給大模型一個(gè)結(jié)構(gòu)化的“想+做”模板，它就能從被動(dòng)的問(wèn)答機(jī)器變成主動(dòng)的信息獵人。撓頭的是，要真正實(shí)現(xiàn)完整定義上的自主性，光靠模板堆疊顯然不夠，底層的推理機(jī)制需要能夠回溯、能夠否定自己、能夠重新設(shè)定子目標(biāo)。而這一切，在當(dāng)前的模型訓(xùn)練范式里，依然缺少一個(gè)干凈利落的理論框架來(lái)支撐。

如果把 2022 年 ReAct 出現(xiàn)之前的語(yǔ)言模型比作一臺(tái)函數(shù)計(jì)算器，給定輸入，經(jīng)過(guò)一次正向傳播就給出輸出，那么加入行動(dòng)循環(huán)之后的系統(tǒng)，就更像一個(gè)持續(xù)運(yùn)行的操作系統(tǒng)進(jìn)程。它有一個(gè)目標(biāo)，有朝著目標(biāo)分步走的意識(shí)，也會(huì)在途中遇到意外信息時(shí)調(diào)整下一步動(dòng)作。這個(gè)變化之所以讓人著迷，不在于它多出了一個(gè)“工具調(diào)用”的功能，而在于它把推理從純內(nèi)部心智活動(dòng)，延展到了外部世界的真實(shí)交互中。每一條行動(dòng)都有跡可循，每一個(gè)思考步驟都綁定了一個(gè)具體的行動(dòng)理由，這為日后的可審計(jì)性、可解釋性以及安全性校驗(yàn)，都留下了接口。

從行業(yè)影響來(lái)看，ReAct 催生了一整類框架：隨后幾年里，人們開始在它上面疊加長(zhǎng)期記憶、任務(wù)分解、多智能體協(xié)作等模塊，試圖把一個(gè)反應(yīng)式循環(huán)擴(kuò)展為更接近“目標(biāo)驅(qū)動(dòng)持續(xù)運(yùn)行實(shí)體”的東西。在寫這篇筆記的時(shí)候，很多創(chuàng)業(yè)公司已經(jīng)把自主智能體作為下一代應(yīng)用開發(fā)的默認(rèn)范式，但同樣也有越來(lái)越多的人開始冷靜地指出，市面上很多所謂的自主性，只是把一串提前編排好的工具調(diào)用包裝成了循環(huán)。當(dāng)前階段能穩(wěn)定交付的，依然是在垂直場(chǎng)景里，把感知、推理與行動(dòng)組合成可控過(guò)程的那部分系統(tǒng)。

重溫這篇論文最讓人難忘的一個(gè)句子，是作者們?cè)谝岳飳懙模骸耙粋€(gè)會(huì)回答問(wèn)題的大語(yǔ)言模型是工具；一個(gè)能自己決定該問(wèn)什么問(wèn)題，并根據(jù)答案采取行動(dòng)的大語(yǔ)言模型，就完全是另一回事了。”這句話在 2022 年讀起來(lái)像一句預(yù)言，在 2026 年讀起來(lái)，則更像一份尚未完工的施工圖。大家都看到了目的地，但通往那里的路，還需要一段一段地鋪過(guò)去。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.