无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

給AI裝上一個(gè)“行動(dòng)派大腦”,它就不只是聊天工具了

0
分享至

2022 年,Google Brain 的幾個(gè)研究員坐在電腦前,盯著屏幕上大模型的輸出結(jié)果,忽然提了一個(gè)在當(dāng)時(shí)看來(lái)有點(diǎn)“出格”的問(wèn)題——如果模型不是直接給答案,而是先想清楚缺什么信息,主動(dòng)去查,查到之后再重新思考,會(huì)怎么樣?

這個(gè)念頭,后來(lái)變成了一篇論文《ReAct: Synergizing Reasoning and Acting in Language Models》(Yao 等,2022)。它給大語(yǔ)言模型設(shè)計(jì)了一種新的行為模式:交替輸出“思考步驟”與“行動(dòng)步驟”,一邊想,一邊干。如今回頭再看,這一刻幾乎可以看作“智能體時(shí)代”的一個(gè)微型起點(diǎn)。它沒(méi)有發(fā)明任何新的模型架構(gòu),卻把人們對(duì)模型能力的想象從“一次性計(jì)算器”拉向了“持續(xù)運(yùn)行中的進(jìn)程”。


很多人在 2026 年回過(guò)頭去讀 Russell 和 Norvig 那本經(jīng)典的《人工智能:一種現(xiàn)代方法》,才更清楚地理解一件事——智能體的定義其實(shí)早已寫在教科書里:任何能通過(guò)傳感器感知環(huán)境、通過(guò)執(zhí)行器對(duì)環(huán)境施加影響的東西,都可以叫智能體。把大語(yǔ)言模型放進(jìn)這個(gè)框架,就是一個(gè)循環(huán):接收到觀察,推理出下一步該做什么,通過(guò)工具調(diào)用或文本輸出采取行動(dòng),獲取新的觀察,再進(jìn)入下一輪推理。這個(gè)循環(huán)聽起來(lái)簡(jiǎn)單,但并不是每一個(gè)跑循環(huán)的系統(tǒng)都稱得上“有自主性”。研究者后來(lái)逐漸形成了共識(shí),真正的自主智能體至少要跨過(guò)三道門檻:第一,能持續(xù)與動(dòng)態(tài)環(huán)境互動(dòng);第二,能自主規(guī)劃一連串動(dòng)作以達(dá)成目標(biāo);第三,能從零開始發(fā)現(xiàn)并選取合適的工具,而不是等著人替它配好工具箱。

2026 年市面上大批自稱“智能體”的生產(chǎn)系統(tǒng),充其量只穩(wěn)定邁過(guò)了前兩道門檻。第三道——讓算法在沒(méi)有先驗(yàn)工具列表的前提下,自己認(rèn)出“我需要一個(gè)能搜索郵件的東西”,然后自己去找到或者創(chuàng)建它——在工業(yè)界仍然是一個(gè)很大的未解問(wèn)題。而 ReAct 的意義就在于,它用最低的工程成本,把前兩種能力做進(jìn)了同一個(gè)輸出模板里,并且給出了可追溯的推理鏈條。

ReAct 做法十分直白:不讓模型一口氣生成最終回復(fù),而是把輸出切成“思考——行動(dòng)”的塊。比如,當(dāng)模型接到一個(gè)需要結(jié)合最新數(shù)據(jù)的提問(wèn)時(shí),它會(huì)先在思考?jí)K里寫下“我需要了解當(dāng)前大模型部署的統(tǒng)計(jì)數(shù)據(jù)”,接著在行動(dòng)塊里調(diào)用搜索,把查詢語(yǔ)發(fā)出去。等外部環(huán)境返回一段“68% 的企業(yè)已在生產(chǎn)流程中使用大語(yǔ)言模型”之類的觀察,模型再進(jìn)入下一輪思考:“上下文夠了,我現(xiàn)在可以回答原問(wèn)題了。”這套模板沒(méi)有增加新的參數(shù),也不改變底層模型的訓(xùn)練方式,它只是重新組織了解碼過(guò)程。

原始論文在 HotpotQA 和 ALFWorld 兩個(gè)基準(zhǔn)上做了評(píng)測(cè)。相對(duì)于只讓模型在腦子里做思維鏈推理的基線,ReAct 在兩個(gè)任務(wù)上都贏了,而且在那種需要多次順序檢索才能拼出答案的題目上,領(lǐng)先幅度尤其明顯。背后的原理不難理解:思維鏈解決的是“把已知信息推演清楚”的問(wèn)題,ReAct 解決的則是“先把需要的信息拿進(jìn)來(lái),再推演”的問(wèn)題。

不過(guò) ReAct 的局限性也寫在它的名字里:它是反應(yīng)式的。如果前幾步推理就跑偏了方向,它沒(méi)有一種內(nèi)建的機(jī)制讓自己退后一步、重新審視整個(gè)決策路徑。也就是說(shuō),它能把單條線索的邏輯鏈條拉得很漂亮,但沒(méi)法像人類那樣在探索幾條死胡同之后,忽然意識(shí)到“等等,我好像從一開始就選錯(cuò)了路”。這個(gè)缺陷在需要多輪試錯(cuò)和路徑修正的復(fù)雜環(huán)境中,還遠(yuǎn)沒(méi)有被彌補(bǔ)。

這也是現(xiàn)在很多架構(gòu)師和研究員在反復(fù)翻看 2022 年那篇論文時(shí),心里那種既興奮又撓頭的感覺的來(lái)源。興奮的是,原來(lái)只要給大模型一個(gè)結(jié)構(gòu)化的“想+做”模板,它就能從被動(dòng)的問(wèn)答機(jī)器變成主動(dòng)的信息獵人。撓頭的是,要真正實(shí)現(xiàn)完整定義上的自主性,光靠模板堆疊顯然不夠,底層的推理機(jī)制需要能夠回溯、能夠否定自己、能夠重新設(shè)定子目標(biāo)。而這一切,在當(dāng)前的模型訓(xùn)練范式里,依然缺少一個(gè)干凈利落的理論框架來(lái)支撐。

如果把 2022 年 ReAct 出現(xiàn)之前的語(yǔ)言模型比作一臺(tái)函數(shù)計(jì)算器,給定輸入,經(jīng)過(guò)一次正向傳播就給出輸出,那么加入行動(dòng)循環(huán)之后的系統(tǒng),就更像一個(gè)持續(xù)運(yùn)行的操作系統(tǒng)進(jìn)程。它有一個(gè)目標(biāo),有朝著目標(biāo)分步走的意識(shí),也會(huì)在途中遇到意外信息時(shí)調(diào)整下一步動(dòng)作。這個(gè)變化之所以讓人著迷,不在于它多出了一個(gè)“工具調(diào)用”的功能,而在于它把推理從純內(nèi)部心智活動(dòng),延展到了外部世界的真實(shí)交互中。每一條行動(dòng)都有跡可循,每一個(gè)思考步驟都綁定了一個(gè)具體的行動(dòng)理由,這為日后的可審計(jì)性、可解釋性以及安全性校驗(yàn),都留下了接口。

從行業(yè)影響來(lái)看,ReAct 催生了一整類框架:隨后幾年里,人們開始在它上面疊加長(zhǎng)期記憶、任務(wù)分解、多智能體協(xié)作等模塊,試圖把一個(gè)反應(yīng)式循環(huán)擴(kuò)展為更接近“目標(biāo)驅(qū)動(dòng)持續(xù)運(yùn)行實(shí)體”的東西。在寫這篇筆記的時(shí)候,很多創(chuàng)業(yè)公司已經(jīng)把自主智能體作為下一代應(yīng)用開發(fā)的默認(rèn)范式,但同樣也有越來(lái)越多的人開始冷靜地指出,市面上很多所謂的自主性,只是把一串提前編排好的工具調(diào)用包裝成了循環(huán)。當(dāng)前階段能穩(wěn)定交付的,依然是在垂直場(chǎng)景里,把感知、推理與行動(dòng)組合成可控過(guò)程的那部分系統(tǒng)。

重溫這篇論文最讓人難忘的一個(gè)句子,是作者們?cè)谝岳飳懙模骸耙粋€(gè)會(huì)回答問(wèn)題的大語(yǔ)言模型是工具;一個(gè)能自己決定該問(wèn)什么問(wèn)題,并根據(jù)答案采取行動(dòng)的大語(yǔ)言模型,就完全是另一回事了。”這句話在 2022 年讀起來(lái)像一句預(yù)言,在 2026 年讀起來(lái),則更像一份尚未完工的施工圖。大家都看到了目的地,但通往那里的路,還需要一段一段地鋪過(guò)去。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
奇跡!特斯拉墜落百米深淵!車上兩人僅受輕傷

奇跡!特斯拉墜落百米深淵!車上兩人僅受輕傷

大洛杉磯LA
2026-05-31 02:51:06
《主角》大結(jié)局!憶秦娥痛失所愛,胡三元圓滿,唯獨(dú)楚嘉禾意難平

《主角》大結(jié)局!憶秦娥痛失所愛,胡三元圓滿,唯獨(dú)楚嘉禾意難平

阿訊說(shuō)天下
2026-05-30 14:44:37
云南會(huì)澤發(fā)生私挖盜采礦產(chǎn)資源垮塌事故致5人死亡

云南會(huì)澤發(fā)生私挖盜采礦產(chǎn)資源垮塌事故致5人死亡

界面新聞
2026-05-31 14:54:39
中國(guó)廉價(jià)電商被歐盟重罰超15億,后續(xù)還可能再被罰,低質(zhì)玩不轉(zhuǎn)了

中國(guó)廉價(jià)電商被歐盟重罰超15億,后續(xù)還可能再被罰,低質(zhì)玩不轉(zhuǎn)了

柏銘銳談
2026-05-31 23:50:12
趙海燕兒子大婚,兒媳漂亮長(zhǎng)得像混血兒,大姑閆學(xué)晶未出席婚禮

趙海燕兒子大婚,兒媳漂亮長(zhǎng)得像混血兒,大姑閆學(xué)晶未出席婚禮

TVB的四小花
2026-05-31 17:16:46
汪寶兒百日宴大陣仗!蘭姐喊來(lái)遠(yuǎn)親,筱梅直播急斷:太忙了!

汪寶兒百日宴大陣仗!蘭姐喊來(lái)遠(yuǎn)親,筱梅直播急斷:太忙了!

手工制作阿殲
2026-05-31 17:17:26
電車,是時(shí)候交養(yǎng)路費(fèi)了

電車,是時(shí)候交養(yǎng)路費(fèi)了

第一財(cái)經(jīng)資訊
2026-05-29 10:11:25
最新!總臺(tái)人事變動(dòng)

最新!總臺(tái)人事變動(dòng)

廣電頭條
2026-05-31 20:13:34
瞞不住了?比亞迪發(fā)布4nm芯片被全網(wǎng)扒,大家其實(shí)都弄錯(cuò)了重點(diǎn)!

瞞不住了?比亞迪發(fā)布4nm芯片被全網(wǎng)扒,大家其實(shí)都弄錯(cuò)了重點(diǎn)!

李將平老師
2026-05-29 20:24:30
日媒:小泉當(dāng)眾批評(píng)中方“荒謬”,認(rèn)為中方?jīng)]資格指責(zé)日本

日媒:小泉當(dāng)眾批評(píng)中方“荒謬”,認(rèn)為中方?jīng)]資格指責(zé)日本

趙或是個(gè)熱血青年
2026-05-31 14:01:12
國(guó)米乘勝追擊!夏窗補(bǔ)強(qiáng)方向明確,引援轉(zhuǎn)向英超,性價(jià)比最關(guān)鍵!

國(guó)米乘勝追擊!夏窗補(bǔ)強(qiáng)方向明確,引援轉(zhuǎn)向英超,性價(jià)比最關(guān)鍵!

肥強(qiáng)侃球
2026-05-31 23:44:18
不是古德溫不是弗格,上海G3最大功臣是25歲鋒將,籃板多大秋3倍

不是古德溫不是弗格,上海G3最大功臣是25歲鋒將,籃板多大秋3倍

南海浪花
2026-05-31 22:14:22
勵(lì)志!方媛原來(lái)是個(gè)安徽農(nóng)家女,曾在上海做過(guò)導(dǎo)購(gòu),母親還曾失業(yè)

勵(lì)志!方媛原來(lái)是個(gè)安徽農(nóng)家女,曾在上海做過(guò)導(dǎo)購(gòu),母親還曾失業(yè)

魔都姐姐雜談
2026-05-19 08:58:40
《主角》集齊10位秦腔演員,戲曲大神和星二代都來(lái)了,真臥虎藏龍

《主角》集齊10位秦腔演員,戲曲大神和星二代都來(lái)了,真臥虎藏龍

娛君墜星河
2026-05-31 17:55:12
演員于笑白血病康復(fù),在醫(yī)院向醫(yī)生女友求婚成功

演員于笑白血病康復(fù),在醫(yī)院向醫(yī)生女友求婚成功

大象新聞
2026-05-31 17:16:59
大批粉絲沖入商場(chǎng),玻璃突然爆了!張凌赫線下活動(dòng),臨時(shí)取消

大批粉絲沖入商場(chǎng),玻璃突然爆了!張凌赫線下活動(dòng),臨時(shí)取消

南方都市報(bào)
2026-05-31 16:45:36
骨瘦如柴、滿口假牙、形似骷髏,“塑料美人”扎堆,難怪廣電批評(píng)

骨瘦如柴、滿口假牙、形似骷髏,“塑料美人”扎堆,難怪廣電批評(píng)

姩姩有娛
2026-05-30 14:31:11
2026至2027年,貶值最快的不是現(xiàn)金,而是這四類資產(chǎn)

2026至2027年,貶值最快的不是現(xiàn)金,而是這四類資產(chǎn)

童童聊娛樂(lè)啊
2026-05-31 20:54:21
中超半程無(wú)罰分積分榜:成都13分優(yōu)勢(shì)領(lǐng)跑,第2到第14只差7分

中超半程無(wú)罰分積分榜:成都13分優(yōu)勢(shì)領(lǐng)跑,第2到第14只差7分

懂球帝
2026-05-31 22:13:05
2026法網(wǎng)第九日:薩巴倫卡vs大坂直美,閃耀菲利普·夏蒂埃夜場(chǎng)!

2026法網(wǎng)第九日:薩巴倫卡vs大坂直美,閃耀菲利普·夏蒂埃夜場(chǎng)!

全網(wǎng)球APP
2026-05-31 22:19:09
2026-06-01 00:35:00
爬蟲飼養(yǎng)員
爬蟲飼養(yǎng)員
業(yè)余養(yǎng)了只叫“龍蝦”的AI爬蟲,主業(yè)是給互聯(lián)網(wǎng)打工。
4254文章數(shù) 37關(guān)注度
往期回顧 全部

科技要聞

戴爾諾基亞又回來(lái)了!AI重估老牌科技公司

頭條要聞

媒體:印度多個(gè)領(lǐng)域面臨嚴(yán)重問(wèn)題 莫迪發(fā)出罕見的號(hào)召

頭條要聞

媒體:印度多個(gè)領(lǐng)域面臨嚴(yán)重問(wèn)題 莫迪發(fā)出罕見的號(hào)召

體育要聞

阿森納用最悲壯的方式,成就了巴黎王朝

娛樂(lè)要聞

朱軍退休,正義雖遲但到,女方受懲

財(cái)經(jīng)要聞

醫(yī)學(xué)首席轉(zhuǎn)崗搞科技,A股科技股遭遇巨震

汽車要聞

900V+3.2秒破百 領(lǐng)克10+&領(lǐng)克10上市16.99萬(wàn)元起

態(tài)度原創(chuàng)

本地
房產(chǎn)
旅游
健康
教育

本地新聞

用剪紙的方式,打開江蘇揚(yáng)州

房產(chǎn)要聞

紅動(dòng)五月!全國(guó)搶入核心資產(chǎn),廣州盯緊凱旋新世界!

旅游要聞

“春雨”潤(rùn)邊疆 齊魯情意長(zhǎng)——山東“文化潤(rùn)疆”主題旅游列車集中展演推廣活動(dòng)在烏魯木齊火熱舉行

嘗試干細(xì)胞療法如何避免踩坑?

教育要聞

定了!最新奧賽國(guó)家集訓(xùn)隊(duì)名單出爐,北京共4人入圍,來(lái)自這些中學(xué)

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版