2022 年,Google Brain 的幾個(gè)研究員坐在電腦前,盯著屏幕上大模型的輸出結(jié)果,忽然提了一個(gè)在當(dāng)時(shí)看來(lái)有點(diǎn)“出格”的問(wèn)題——如果模型不是直接給答案,而是先想清楚缺什么信息,主動(dòng)去查,查到之后再重新思考,會(huì)怎么樣?
這個(gè)念頭,后來(lái)變成了一篇論文《ReAct: Synergizing Reasoning and Acting in Language Models》(Yao 等,2022)。它給大語(yǔ)言模型設(shè)計(jì)了一種新的行為模式:交替輸出“思考步驟”與“行動(dòng)步驟”,一邊想,一邊干。如今回頭再看,這一刻幾乎可以看作“智能體時(shí)代”的一個(gè)微型起點(diǎn)。它沒(méi)有發(fā)明任何新的模型架構(gòu),卻把人們對(duì)模型能力的想象從“一次性計(jì)算器”拉向了“持續(xù)運(yùn)行中的進(jìn)程”。
![]()
很多人在 2026 年回過(guò)頭去讀 Russell 和 Norvig 那本經(jīng)典的《人工智能:一種現(xiàn)代方法》,才更清楚地理解一件事——智能體的定義其實(shí)早已寫在教科書里:任何能通過(guò)傳感器感知環(huán)境、通過(guò)執(zhí)行器對(duì)環(huán)境施加影響的東西,都可以叫智能體。把大語(yǔ)言模型放進(jìn)這個(gè)框架,就是一個(gè)循環(huán):接收到觀察,推理出下一步該做什么,通過(guò)工具調(diào)用或文本輸出采取行動(dòng),獲取新的觀察,再進(jìn)入下一輪推理。這個(gè)循環(huán)聽起來(lái)簡(jiǎn)單,但并不是每一個(gè)跑循環(huán)的系統(tǒng)都稱得上“有自主性”。研究者后來(lái)逐漸形成了共識(shí),真正的自主智能體至少要跨過(guò)三道門檻:第一,能持續(xù)與動(dòng)態(tài)環(huán)境互動(dòng);第二,能自主規(guī)劃一連串動(dòng)作以達(dá)成目標(biāo);第三,能從零開始發(fā)現(xiàn)并選取合適的工具,而不是等著人替它配好工具箱。
2026 年市面上大批自稱“智能體”的生產(chǎn)系統(tǒng),充其量只穩(wěn)定邁過(guò)了前兩道門檻。第三道——讓算法在沒(méi)有先驗(yàn)工具列表的前提下,自己認(rèn)出“我需要一個(gè)能搜索郵件的東西”,然后自己去找到或者創(chuàng)建它——在工業(yè)界仍然是一個(gè)很大的未解問(wèn)題。而 ReAct 的意義就在于,它用最低的工程成本,把前兩種能力做進(jìn)了同一個(gè)輸出模板里,并且給出了可追溯的推理鏈條。
ReAct 做法十分直白:不讓模型一口氣生成最終回復(fù),而是把輸出切成“思考——行動(dòng)”的塊。比如,當(dāng)模型接到一個(gè)需要結(jié)合最新數(shù)據(jù)的提問(wèn)時(shí),它會(huì)先在思考?jí)K里寫下“我需要了解當(dāng)前大模型部署的統(tǒng)計(jì)數(shù)據(jù)”,接著在行動(dòng)塊里調(diào)用搜索,把查詢語(yǔ)發(fā)出去。等外部環(huán)境返回一段“68% 的企業(yè)已在生產(chǎn)流程中使用大語(yǔ)言模型”之類的觀察,模型再進(jìn)入下一輪思考:“上下文夠了,我現(xiàn)在可以回答原問(wèn)題了。”這套模板沒(méi)有增加新的參數(shù),也不改變底層模型的訓(xùn)練方式,它只是重新組織了解碼過(guò)程。
原始論文在 HotpotQA 和 ALFWorld 兩個(gè)基準(zhǔn)上做了評(píng)測(cè)。相對(duì)于只讓模型在腦子里做思維鏈推理的基線,ReAct 在兩個(gè)任務(wù)上都贏了,而且在那種需要多次順序檢索才能拼出答案的題目上,領(lǐng)先幅度尤其明顯。背后的原理不難理解:思維鏈解決的是“把已知信息推演清楚”的問(wèn)題,ReAct 解決的則是“先把需要的信息拿進(jìn)來(lái),再推演”的問(wèn)題。
不過(guò) ReAct 的局限性也寫在它的名字里:它是反應(yīng)式的。如果前幾步推理就跑偏了方向,它沒(méi)有一種內(nèi)建的機(jī)制讓自己退后一步、重新審視整個(gè)決策路徑。也就是說(shuō),它能把單條線索的邏輯鏈條拉得很漂亮,但沒(méi)法像人類那樣在探索幾條死胡同之后,忽然意識(shí)到“等等,我好像從一開始就選錯(cuò)了路”。這個(gè)缺陷在需要多輪試錯(cuò)和路徑修正的復(fù)雜環(huán)境中,還遠(yuǎn)沒(méi)有被彌補(bǔ)。
這也是現(xiàn)在很多架構(gòu)師和研究員在反復(fù)翻看 2022 年那篇論文時(shí),心里那種既興奮又撓頭的感覺的來(lái)源。興奮的是,原來(lái)只要給大模型一個(gè)結(jié)構(gòu)化的“想+做”模板,它就能從被動(dòng)的問(wèn)答機(jī)器變成主動(dòng)的信息獵人。撓頭的是,要真正實(shí)現(xiàn)完整定義上的自主性,光靠模板堆疊顯然不夠,底層的推理機(jī)制需要能夠回溯、能夠否定自己、能夠重新設(shè)定子目標(biāo)。而這一切,在當(dāng)前的模型訓(xùn)練范式里,依然缺少一個(gè)干凈利落的理論框架來(lái)支撐。
如果把 2022 年 ReAct 出現(xiàn)之前的語(yǔ)言模型比作一臺(tái)函數(shù)計(jì)算器,給定輸入,經(jīng)過(guò)一次正向傳播就給出輸出,那么加入行動(dòng)循環(huán)之后的系統(tǒng),就更像一個(gè)持續(xù)運(yùn)行的操作系統(tǒng)進(jìn)程。它有一個(gè)目標(biāo),有朝著目標(biāo)分步走的意識(shí),也會(huì)在途中遇到意外信息時(shí)調(diào)整下一步動(dòng)作。這個(gè)變化之所以讓人著迷,不在于它多出了一個(gè)“工具調(diào)用”的功能,而在于它把推理從純內(nèi)部心智活動(dòng),延展到了外部世界的真實(shí)交互中。每一條行動(dòng)都有跡可循,每一個(gè)思考步驟都綁定了一個(gè)具體的行動(dòng)理由,這為日后的可審計(jì)性、可解釋性以及安全性校驗(yàn),都留下了接口。
從行業(yè)影響來(lái)看,ReAct 催生了一整類框架:隨后幾年里,人們開始在它上面疊加長(zhǎng)期記憶、任務(wù)分解、多智能體協(xié)作等模塊,試圖把一個(gè)反應(yīng)式循環(huán)擴(kuò)展為更接近“目標(biāo)驅(qū)動(dòng)持續(xù)運(yùn)行實(shí)體”的東西。在寫這篇筆記的時(shí)候,很多創(chuàng)業(yè)公司已經(jīng)把自主智能體作為下一代應(yīng)用開發(fā)的默認(rèn)范式,但同樣也有越來(lái)越多的人開始冷靜地指出,市面上很多所謂的自主性,只是把一串提前編排好的工具調(diào)用包裝成了循環(huán)。當(dāng)前階段能穩(wěn)定交付的,依然是在垂直場(chǎng)景里,把感知、推理與行動(dòng)組合成可控過(guò)程的那部分系統(tǒng)。
重溫這篇論文最讓人難忘的一個(gè)句子,是作者們?cè)谝岳飳懙模骸耙粋€(gè)會(huì)回答問(wèn)題的大語(yǔ)言模型是工具;一個(gè)能自己決定該問(wèn)什么問(wèn)題,并根據(jù)答案采取行動(dòng)的大語(yǔ)言模型,就完全是另一回事了。”這句話在 2022 年讀起來(lái)像一句預(yù)言,在 2026 年讀起來(lái),則更像一份尚未完工的施工圖。大家都看到了目的地,但通往那里的路,還需要一段一段地鋪過(guò)去。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.