網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

別再迷信單一的技術(shù)教條！圖靈獎(jiǎng)得主巴托完整演講：你的大腦本質(zhì)上是一個(gè)多智能體社會(huì)

2026-06-12 17:06:08　來(lái)源: AI科技大本營(yíng)

北京舉報(bào)

分享至

AI 確實(shí)完美執(zhí)行了你的 Prompt，但也極易順手毀掉你想要的結(jié)果。

編譯 | 王啟隆

出品丨AI 科技大本營(yíng)（ID：rgznai100）

“享樂(lè)型神經(jīng)元”——1977 年，當(dāng) 29 歲的安德魯·巴托（Andrew Barto）在馬薩諸塞大學(xué)接下這個(gè)聽(tīng)起來(lái)有些“瘋狂”的博士后項(xiàng)目時(shí)，強(qiáng)化學(xué)習(xí)（RL）還只是計(jì)算機(jī)科學(xué)邊緣的一個(gè)異類(lèi)。“

在隨后的幾十年里，監(jiān)督學(xué)習(xí)和深度神經(jīng)網(wǎng)絡(luò)席卷全球，而巴托與他的學(xué)生——如今被世人稱(chēng)為“強(qiáng)化學(xué)習(xí)之父”的理查德·薩頓（Richard Sutton），卻在“試錯(cuò)”與“獎(jiǎng)懲”的冷板凳上坐了半個(gè)世紀(jì)。直到大模型時(shí)代降臨，RLHF（人類(lèi)反饋強(qiáng)化學(xué)習(xí)）與智能體（Agent）成為通往 AGI 的必經(jīng)之路，這對(duì)師徒才在 2024 年被授予以計(jì)算機(jī)界諾貝爾獎(jiǎng)之稱(chēng)的圖靈獎(jiǎng)。

? Andrew Barto & Richard Sutton ?

直到大模型時(shí)代降臨，RLHF（人類(lèi)反饋強(qiáng)化學(xué)習(xí)）與智能體（Agent）成為通往 AGI 的必經(jīng)之路，這對(duì)師徒才在 2024 年被授予以計(jì)算機(jī)界諾貝爾獎(jiǎng)之稱(chēng)的圖靈獎(jiǎng)。

2026 年 6 月 12 日，在第八屆北京智源大會(huì)上，78 歲的巴托因身體原因未能親臨現(xiàn)場(chǎng)，他隔著屏幕，用略顯沙啞的聲音發(fā)表了名為《重新發(fā)現(xiàn)強(qiáng)化學(xué)習(xí)》的演講。他將視線(xiàn)拉回到了 1898 年桑代克的“謎箱”與動(dòng)物實(shí)驗(yàn)，并警示人們：當(dāng)智能體被釋放到物理世界，最致命的危險(xiǎn)依然是控制論之父維納半個(gè)世紀(jì)前就提出的警告——系統(tǒng)只會(huì)給你“你所要求的東西”，而非“你真正想要的東西”。

演講結(jié)束后，南洋理工大學(xué)教授安波與巴托展開(kāi)了一場(chǎng)關(guān)于“算力分配、自進(jìn)化與 AGI 終局”的極具張力的對(duì)話(huà)。這位 78 歲的圖靈獎(jiǎng)得主，在這場(chǎng)思想碰撞中厘清了強(qiáng)化學(xué)習(xí)在 AI 自進(jìn)化時(shí)代最本質(zhì)的坐標(biāo)：

強(qiáng)化學(xué)習(xí)絕非僅能“激發(fā)”模型的既有能力，它是探索并發(fā)現(xiàn)全新行為的算法通路。大語(yǔ)言模型的預(yù)訓(xùn)練本質(zhì)是模仿，而強(qiáng)化學(xué)習(xí)的底層是“探索與利用”的試錯(cuò)博弈。在序貫決策中，即使序列中的每一步動(dòng)作都是已知的，它們重組后的序列仍然可能產(chǎn)生超越人類(lèi)既有經(jīng)驗(yàn)的全新結(jié)果。
時(shí)序差分算法（TD）中預(yù)測(cè)誤差的數(shù)學(xué)項(xiàng)，在提出十多年后被證明與大腦多巴胺的相位活動(dòng)特征完全吻合。
強(qiáng)化學(xué)習(xí)并不是僅靠“只要 RL 就夠了”的單一教條就能通往通用人工智能（AGI）。盡管薩頓等學(xué)者堅(jiān)持“獎(jiǎng)勵(lì)即一切”的終極假設(shè)，但純粹的 RL 在計(jì)算上極度昂貴且極其低效。AGI 的終局絕非單一范式的勝利，而是 RL 與環(huán)境模型、規(guī)劃、推理等多種機(jī)制深度協(xié)同的復(fù)雜系統(tǒng)。
就像邁達(dá)斯許愿“點(diǎn)石成金”卻把女兒也變成金子的寓言，系統(tǒng)極易走向“反向?qū)嵗薄_實(shí)高效執(zhí)行了你寫(xiě)下的指令，卻徹底偏離了你真正想要的結(jié)果。
年輕學(xué)者如果想在強(qiáng)化學(xué)習(xí)領(lǐng)域?qū)崿F(xiàn)范式突破，最值得深耕的依然是“多智能體強(qiáng)化學(xué)習(xí)”（Multi-agent RL）。盡管其博弈復(fù)雜性呈指數(shù)級(jí)上升，以至于早期的教科書(shū)極少提及，但“神經(jīng)系統(tǒng)本質(zhì)上是多個(gè)強(qiáng)化學(xué)習(xí)智能體相互作用的社會(huì)”這一假說(shuō)，仍有巨大的未墾空間。

以下為巴托教授的演講內(nèi)容。

強(qiáng)化學(xué)習(xí)的本質(zhì)是什么？

我給這場(chǎng)報(bào)告起的標(biāo)題叫《重新發(fā)現(xiàn)強(qiáng)化學(xué)習(xí)》（Rediscovering Reinforcement Learning）。這個(gè)標(biāo)題暗示的是：強(qiáng)化學(xué)習(xí)其實(shí)已經(jīng)存在了非常非常久，這一點(diǎn)我接下來(lái)會(huì)講得很清楚。

這個(gè)主題之所以一直讓我著迷，其中一個(gè)原因就在于，它和很多別的領(lǐng)域都有聯(lián)系，正如這里展示的那樣。首先當(dāng)然是心理學(xué)，很多相關(guān)方法最早就是從那里開(kāi)始的；當(dāng)然也包括人工智能、控制理論和運(yùn)籌學(xué)；還有經(jīng)濟(jì)學(xué)與金融學(xué)；再比如神經(jīng)科學(xué)、博弈論等等。

這些聯(lián)系，在我研究這一主題的整個(gè)過(guò)程中，一直都讓我很著迷。

CSDN 6 月寵粉福利

200 小時(shí) GP U 算力免費(fèi)領(lǐng)

瑞幸咖啡/肯德基早餐/下午茶等能量套餐任選其一

入群還可每月定期抽取旗艦顯卡、AI PC 等極客神裝

領(lǐng)取地址：https://s.csdn.cn/4nPsOp

如果把時(shí)間回溯到 19 世紀(jì)，回到 Edward Thorndike——他用動(dòng)物研究學(xué)習(xí)問(wèn)題。大家最熟悉的，大概是他把動(dòng)物放進(jìn)一個(gè)謎箱（puzzle box）里，箱子的門(mén)閂設(shè)計(jì)得比較特殊。動(dòng)物并不喜歡待在箱子里，于是會(huì)四處摸索，最后偶然發(fā)現(xiàn)如何逃出來(lái)。然后他再把動(dòng)物放回去，這些動(dòng)物就會(huì)比之前更快地逃出箱子。再往后，只要一被重新放進(jìn)去，它們就會(huì)相當(dāng)“聽(tīng)話(huà)”地把自己放出來(lái)。

這是一種學(xué)習(xí)形式，在當(dāng)時(shí)被稱(chēng)為“試錯(cuò)學(xué)習(xí)”（trial-and-error learning），后來(lái)則被稱(chēng)為工具性條件作用（instrumental conditioning）或操作性條件作用（operant conditioning）。

他提出了“效果律”（law of effect）這個(gè)術(shù)語(yǔ)，時(shí)間是在 1898 年。這里展示的是效果律的一種表述。

從根本上說(shuō)，這是一種非常符合常識(shí)的觀念：如果某件事之后緊跟著的是滿(mǎn)足感，那么在其他條件相同的情況下，先前采取的那些動(dòng)作就會(huì)與當(dāng)時(shí)的情境建立連接；這樣一來(lái)，當(dāng)同樣的情境再次出現(xiàn)時(shí)，那些動(dòng)作就更可能再次發(fā)生。反過(guò)來(lái)，如果某件事之后跟著的是不適或痛苦，那么動(dòng)物內(nèi)部這些連接就會(huì)被削弱，于是這些動(dòng)作再次發(fā)生的可能性就會(huì)降低。

我想強(qiáng)調(diào)的是，這里處理的不局限在“找到令人滿(mǎn)足的東西”或者“避開(kāi)不令人滿(mǎn)足的東西”，還包括把動(dòng)作和情境聯(lián)系起來(lái)。所以這本質(zhì)上是一個(gè)聯(lián)想性的過(guò)程。實(shí)際上，即便在那個(gè)時(shí)候，它就已經(jīng)被稱(chēng)為“聯(lián)結(jié)主義”（connectionism），因?yàn)檫@里建立的是從情境到那些被證明有益的動(dòng)作之間的連接。

這被稱(chēng)為試錯(cuò)學(xué)習(xí)；用更現(xiàn)代的話(huà)說(shuō)，就是工具性條件作用或操作性條件作用。

哲學(xué)家 Daniel Dennett 曾寫(xiě)過(guò)一篇文章，題目叫《為什么效果律不會(huì)消失》（Why the Law of Effect Will Not Go Away）。他甚至提出一個(gè)更強(qiáng)的說(shuō)法：效果律不只是對(duì)行為的一種可能解釋的一部分，而是任何充分的行為解釋都不可或缺的一部分。

因此，盡管效果律這些年來(lái)不斷被修正、被批評(píng)，但它依然是我們理解某類(lèi)學(xué)習(xí)如何發(fā)生時(shí)，一個(gè)非常符合常識(shí)的解釋框架。

現(xiàn)在說(shuō)回 RL，也就是計(jì)算意義上的強(qiáng)化學(xué)習(xí)。在我看來(lái)——當(dāng)然，我不確定每個(gè)人都會(huì)同意——它是控制（control）、搜索（search）和聯(lián)想記憶（associative memory）的結(jié)合。

所謂控制，是指學(xué)習(xí)系統(tǒng)會(huì)影響未來(lái)發(fā)生的事情。所謂搜索，是指試錯(cuò)式的“生成并測(cè)試”（generate-and-test），或者更準(zhǔn)確地說(shuō)，“生成并評(píng)估”（generate-and-evaluate）、“變異與選擇”（variation and selection）。這些其實(shí)都是同一類(lèi)過(guò)程的不同名稱(chēng)：通過(guò)探索，看看會(huì)產(chǎn)生怎樣的評(píng)估結(jié)果。而所謂記憶，則是記住在每一種情境下什么方法最有效，并在下一次從那里出發(fā)。所以，這里的聯(lián)想記憶，正是它的聯(lián)結(jié)主義一面。

同時(shí)，生成器和評(píng)估器本身也都應(yīng)該以某種方式體現(xiàn)智能性，這一點(diǎn)非常重要，不過(guò)我今天不會(huì)在這個(gè)問(wèn)題上展開(kāi)太多。大家只需要記住：有時(shí)“生成并測(cè)試”會(huì)被稱(chēng)為“盲變異”（blind variation），但“盲”并不一定意味著完全隨機(jī)，它只是表示：結(jié)果在一開(kāi)始并不能被預(yù)見(jiàn)。

好，我們知道監(jiān)督學(xué)習(xí)（supervised learning）是從帶標(biāo)簽樣本中學(xué)習(xí)，它是一種誤差校正（error-correction）過(guò)程，有時(shí)也被稱(chēng)為“有教師的學(xué)習(xí)”（learning with a teacher）。無(wú)監(jiān)督學(xué)習(xí)（unsupervised learning）則是從無(wú)標(biāo)簽樣本中學(xué)習(xí)。強(qiáng)化學(xué)習(xí)和這兩者都不同，有時(shí)它也被稱(chēng)為“有評(píng)判器的學(xué)習(xí)”（learning with a critic）。

評(píng)判器（critic）和教師（teacher）并不一樣。教師會(huì)直接給出期望的響應(yīng)；而評(píng)判器只是對(duì)已經(jīng)生成出來(lái)的結(jié)果進(jìn)行評(píng)價(jià)，卻不會(huì)明確告訴你本來(lái)應(yīng)該生成什么。

另外，當(dāng)人們把這種學(xué)習(xí)稱(chēng)為“試錯(cuò)”時(shí)，其實(shí)也不完全準(zhǔn)確，因?yàn)樗⒉灰欢ㄉ婕啊板e(cuò)誤”。事實(shí)上，心理學(xué)家所說(shuō)的試錯(cuò)學(xué)習(xí)，并不等同于誤差校正。它和強(qiáng)化學(xué)習(xí)的關(guān)系，反而比和監(jiān)督學(xué)習(xí)更近。

當(dāng)年我們?cè)谘芯窟@個(gè)問(wèn)題時(shí)，嘗試回頭尋找歷史上那些已經(jīng)構(gòu)建出、用今天的話(huà)說(shuō)屬于強(qiáng)化學(xué)習(xí)的系統(tǒng)。其中一個(gè)方向，就是隨機(jī)學(xué)習(xí)自動(dòng)機(jī)（stochastic learning automata）；而在統(tǒng)計(jì)學(xué)里，它通常更常被稱(chēng)作多臂老虎機(jī)問(wèn)題（multi-armed bandit problems）。

在這類(lèi)問(wèn)題中，隨機(jī)環(huán)境會(huì)生成動(dòng)作，而學(xué)習(xí)自動(dòng)機(jī)會(huì)對(duì)這些動(dòng)作進(jìn)行獎(jiǎng)勵(lì)或懲罰，從而改變未來(lái)生成這些動(dòng)作的概率。如果學(xué)習(xí)規(guī)則設(shè)計(jì)得合適，它就會(huì)收斂到回報(bào)最高的那個(gè)動(dòng)作。

我們?cè)缙谟幸黄撐模芯康氖抢秒S機(jī)學(xué)習(xí)自動(dòng)機(jī)進(jìn)行模式識(shí)別（pattern recognition）。那篇論文是我和 Anand Barto 一起做的，他那時(shí)還是研究生。這項(xiàng)工作把聯(lián)想學(xué)習(xí)的部分和 bandit 問(wèn)題連接了起來(lái)。也就是說(shuō)，它不只是找到“哪個(gè)動(dòng)作的獎(jiǎng)勵(lì)最高”，而是進(jìn)一步建立了一個(gè)從情境到動(dòng)作的映射。

這就是 Anand——現(xiàn)在的 Anand。當(dāng)時(shí)他還是學(xué)生。我們?yōu)橐粋€(gè)把隨機(jī)學(xué)習(xí)自動(dòng)機(jī)和聯(lián)想學(xué)習(xí)結(jié)合起來(lái)的算法證明了收斂性。我們當(dāng)時(shí)覺(jué)得，這正是此前隨機(jī)學(xué)習(xí)自動(dòng)機(jī)研究中所缺失的一塊。

后來(lái)，我們又加入了一個(gè)想法：學(xué)習(xí)的對(duì)象不一定只是“做出一個(gè)動(dòng)作”，也可以是學(xué)習(xí)一串由狀態(tài)轉(zhuǎn)移觸發(fā)的動(dòng)作序列。于是問(wèn)題就變成了序貫決策問(wèn)題（sequential decision problems）。會(huì)有一系列狀態(tài)出現(xiàn)，動(dòng)作會(huì)影響狀態(tài)轉(zhuǎn)移和獎(jiǎng)勵(lì)，而獎(jiǎng)勵(lì)可以在這個(gè)序貫過(guò)程中任何一步出現(xiàn)。

在這種情況下，系統(tǒng)性能由一個(gè)叫作“回報(bào)”（return）的量來(lái)評(píng)估。這個(gè)概念其實(shí)來(lái)自金融領(lǐng)域。某個(gè)特定的回報(bào)——比如折扣回報(bào)（discounted return）——本質(zhì)上就是未來(lái)獎(jiǎng)勵(lì)的折扣和。折扣率如果是 0，那么看重的就是即時(shí)獎(jiǎng)勵(lì)；如果是 1，那就是把所有未來(lái)獎(jiǎng)勵(lì)全部加起來(lái)。

因此，系統(tǒng)追求的就不再只是讓眼前結(jié)果最大化，而是可以擴(kuò)展到處理時(shí)間跨度更長(zhǎng)的結(jié)果。這正是大多數(shù)研究強(qiáng)化學(xué)習(xí)的人真正想要理解的問(wèn)題。

如果我想再?gòu)?qiáng)調(diào)幾個(gè)特征，那就是：學(xué)習(xí)者并不會(huì)被教師直接告知該采取什么動(dòng)作。它必須通過(guò)嘗試，并觀察這些動(dòng)作得到怎樣的評(píng)價(jià)，自己去發(fā)現(xiàn)。所以從本質(zhì)上說(shuō)，“變異與評(píng)估”其實(shí)就是一個(gè)優(yōu)化問(wèn)題。

獎(jiǎng)勵(lì)也可能是延遲到來(lái)的，而“為了更大的長(zhǎng)期收益而犧牲短期收益”正是其中的核心問(wèn)題。系統(tǒng)需要探索，去發(fā)現(xiàn)哪些動(dòng)作回報(bào)更高；然后又要利用（exploit）這些知識(shí)，把獎(jiǎng)勵(lì)真正積累起來(lái)。實(shí)際上，我們研究的那類(lèi)強(qiáng)化學(xué)習(xí)，把整個(gè)問(wèn)題看作一個(gè)目標(biāo)導(dǎo)向的智能體在不確定環(huán)境中的交互問(wèn)題。

那我是怎么進(jìn)入這個(gè)領(lǐng)域的呢？我后來(lái)做博士后時(shí)，參與了一個(gè)項(xiàng)目。這個(gè)項(xiàng)目的目標(biāo)，是評(píng)估 Harry Klopf 的一個(gè)想法。

Klopf 當(dāng)時(shí)是美國(guó)空軍科研辦公室（Air Force Office of Scientific Research）某個(gè)主管部門(mén)的一位資深科學(xué)家。他提出了一個(gè)假說(shuō)：神經(jīng)元是“享樂(lè)型的”（hedonistic），也就是說(shuō)，每個(gè)神經(jīng)元本身并不考慮整體，只是努力最大化某種局部意義上的“快樂(lè)類(lèi)比”，同時(shí)最小化某種局部意義上的“痛苦類(lèi)比”。

他寫(xiě)過(guò)一些報(bào)告，也寫(xiě)過(guò)這本書(shū)。比如這本書(shū)的第一版出版于 1972 年。1977 年，馬薩諸塞大學(xué)聘我做博士后的那個(gè)項(xiàng)目，名稱(chēng)就叫“面向自適應(yīng)智能的目標(biāo)尋求組件”（Goal-Seeking Components for Adaptive Intelligence）。

他認(rèn)為，大腦是由一群像社會(huì)一樣相互作用的享樂(lè)型神經(jīng)元構(gòu)成的。我們?cè)谶@個(gè)項(xiàng)目中的任務(wù)，就是看看這件事究竟有沒(méi)有道理。它聽(tīng)上去相當(dāng)前衛(wèi)，甚至也許有點(diǎn)瘋狂。但問(wèn)題是：它之前有人研究過(guò)嗎？它已經(jīng)被否定了嗎？它值得研究嗎？

我、我的第一個(gè)學(xué)生 Rich Sutton，以及其他一些學(xué)生，都相當(dāng)深入地鉆研了這整段歷史，最后我們認(rèn)為：這件事值得繼續(xù)追下去。我們也因此了解了很多這方面的歷史。

下面我想稍微講一點(diǎn)：他的想法到底是什么，神經(jīng)元在這個(gè)框架里又是如何工作的。

強(qiáng)化學(xué)習(xí)的基石

這是一條突觸（synapse）：前面是突觸前末梢（presynaptic terminal），后面是一個(gè)突觸后神經(jīng)元（postsynaptic neuron）。突觸連接由一個(gè)權(quán)重（weight）來(lái)表征；而在 Klopf 的理論中，突觸前末梢還由另一個(gè)他稱(chēng)之為 eligibility 的量來(lái)表征。

Klopf 的說(shuō)法是：當(dāng)一個(gè)神經(jīng)元發(fā)放動(dòng)作電位（action potential）時(shí)，所有那些當(dāng)時(shí)處于活躍狀態(tài)、并且對(duì)這個(gè)動(dòng)作電位有貢獻(xiàn)的突觸，都會(huì)變得“具備資格”，可以發(fā)生效能或權(quán)重上的變化。如果在一個(gè)合適的時(shí)間窗口內(nèi)，這個(gè)動(dòng)作電位之后伴隨著獎(jiǎng)勵(lì)增加，那么所有這些具備資格的突觸，它們的效能都會(huì)提高；如果伴隨的是懲罰，則效能降低。

換句話(huà)說(shuō)，按照這個(gè)設(shè)想，突觸可塑性（synaptic plasticity）實(shí)現(xiàn)的就是效果律。至于在單個(gè)神經(jīng)元層面，什么才算是獎(jiǎng)勵(lì)或懲罰，這一點(diǎn)并沒(méi)有被具體說(shuō)明。

那我們是怎么研究這個(gè)想法的呢？我們使用了一種單獨(dú)的信號(hào)，把所謂的獎(jiǎng)勵(lì)信號(hào)傳遞給這些人工神經(jīng)元。

強(qiáng)化學(xué)習(xí)的應(yīng)用有很多，而且我?guī)缀趺刻於紩?huì)聽(tīng)到新的應(yīng)用場(chǎng)景。當(dāng)然包括棋類(lèi)游戲、機(jī)器人、能源管理、自動(dòng)駕駛、交易與金融、自然語(yǔ)言處理、醫(yī)療健康——凡是序貫決策很重要的地方都可能用得上。比如，隨著時(shí)間推進(jìn)去安排治療方案，依據(jù)每個(gè)階段的結(jié)果來(lái)制定化療計(jì)劃。對(duì)于大語(yǔ)言模型來(lái)說(shuō)，也有大量應(yīng)用，比如微調(diào)，以及其他大語(yǔ)言模型可以借助的過(guò)程。

所謂深度強(qiáng)化學(xué)習(xí)（deep reinforcement learning），就是把強(qiáng)化學(xué)習(xí)和深度神經(jīng)網(wǎng)絡(luò)結(jié)合起來(lái)。因此，這些享樂(lè)型神經(jīng)元的輸入，就會(huì)來(lái)自一個(gè)可能具有很深層級(jí)的網(wǎng)絡(luò)的輸出。

這個(gè)想法其實(shí)出現(xiàn)得非常早，甚至早于計(jì)算機(jī)本身。在 20 世紀(jì) 30 年代，人們已經(jīng)在使用機(jī)電裝置，本質(zhì)上做的就是強(qiáng)化學(xué)習(xí)。這是華盛頓大學(xué)心理學(xué)領(lǐng)域 Stephen Smith 的工作：那其實(shí)有點(diǎn)像一輛模型火車(chē)，可以自己決定在軌道上往哪個(gè)方向走。不過(guò)那是 1935 年，所以這個(gè)思路的歷史真的非常久遠(yuǎn)。

當(dāng)然，在心理學(xué)中，操作性條件作用——或者說(shuō)強(qiáng)化學(xué)習(xí)——也一度是研究動(dòng)物學(xué)習(xí)時(shí)最熱門(mén)的話(huà)題之一。

另外，就我所知，最早提出在數(shù)字計(jì)算機(jī)上實(shí)現(xiàn) RL 的想法的人，是 Alan Turing。他描述過(guò)一個(gè)“快樂(lè)—痛苦系統(tǒng)”（pleasure-pain system）。他的原話(huà)大致是這樣：

“當(dāng)系統(tǒng)到達(dá)某個(gè)配置，而在該配置下應(yīng)采取什么動(dòng)作尚未確定時(shí)，就會(huì)針對(duì)缺失的數(shù)據(jù)做出一次隨機(jī)選擇，并在描述中寫(xiě)入相應(yīng)條目。如果隨后出現(xiàn)痛苦刺激，這些暫時(shí)寫(xiě)入的條目就會(huì)被取消；如果隨后出現(xiàn)快樂(lè)刺激，它們就會(huì)全部被永久保留。”

這件事發(fā)生在 1948 年。Turing 本人并沒(méi)有真正把它實(shí)現(xiàn)出來(lái)，因?yàn)樗?dāng)時(shí)能用到的那種計(jì)算機(jī)實(shí)際上還并不存在。但這已經(jīng)是對(duì)某類(lèi)強(qiáng)化學(xué)習(xí)系統(tǒng)非常清晰的表述了。

Claude Shannon 那只名叫 Theseus 的“老鼠”，本質(zhì)上也是一個(gè)強(qiáng)化學(xué)習(xí)系統(tǒng)。嚴(yán)格說(shuō)來(lái)，真正進(jìn)行學(xué)習(xí)的其實(shí)不是“老鼠”本身，而是它所運(yùn)行的那個(gè)迷宮，但那仍然是一個(gè)本質(zhì)上依賴(lài)強(qiáng)化學(xué)習(xí)的迷宮求解系統(tǒng)。

我只想強(qiáng)調(diào)一點(diǎn)：它必須去探索。沒(méi)有人告訴它該走哪條岔路，它必須自己去試，看看這些路到底通向哪里。

再往后，F(xiàn)arley 和 Clark 在 1954 年做的工作——據(jù)我所知——是第一次在數(shù)字計(jì)算機(jī)上模擬一個(gè)會(huì)學(xué)習(xí)的自適應(yīng)人工神經(jīng)網(wǎng)絡(luò)。

他們研究了一個(gè)網(wǎng)絡(luò)，當(dāng)時(shí)使用的是一臺(tái)擁有 4K 個(gè) 16 位字的機(jī)器，并實(shí)現(xiàn)了 64 個(gè)隨機(jī)線(xiàn)性閾值單元（stochastic linear threshold units）。他們用強(qiáng)化過(guò)程來(lái)訓(xùn)練這個(gè)網(wǎng)絡(luò)，目標(biāo)是：依據(jù)輸入模式，讓一組輸出單元的激活高于另一組。

所以，這是一個(gè)在數(shù)字計(jì)算機(jī)上實(shí)現(xiàn)的聯(lián)想式強(qiáng)化系統(tǒng)；據(jù)我判斷，這是這一類(lèi)系統(tǒng)的第一次實(shí)例。

后來(lái)第二年，在下一篇論文里，Clark 和 Farley 用的還是同一個(gè)網(wǎng)絡(luò)，但他們改做了監(jiān)督學(xué)習(xí)，并且開(kāi)始對(duì)模式識(shí)別和泛化感興趣——從標(biāo)題里你就能看出來(lái)。

所以在我看來(lái)，這幾乎就標(biāo)志著人們開(kāi)始放棄強(qiáng)化學(xué)習(xí)，轉(zhuǎn)而擁抱監(jiān)督學(xué)習(xí)；而監(jiān)督學(xué)習(xí)后來(lái)也確實(shí)成了機(jī)器學(xué)習(xí)、或者說(shuō)神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)中更突出的主流研究對(duì)象。

Marvin Minsky 的博士論文，其實(shí)做的也是強(qiáng)化學(xué)習(xí)。他使用了一種叫作隨機(jī)神經(jīng)模擬強(qiáng)化計(jì)算器（stochastic neural analog reinforcement calculators, SNARCs）的裝置，它們實(shí)際上就很像突觸。這是一個(gè)非常明確的強(qiáng)化學(xué)習(xí)系統(tǒng)，他在自己那篇著名的 1961 年論文里也談了很多。

他討論了“信用分配問(wèn)題”（credit assignment），也就是如何把訓(xùn)練信息送到正確的位置、并在正確的時(shí)間送達(dá)。在那里，這個(gè)問(wèn)題就是在強(qiáng)化學(xué)習(xí)的語(yǔ)境下提出的。因此，我們后來(lái)參與的很多強(qiáng)化學(xué)習(xí)工作，本質(zhì)上都在處理信用分配問(wèn)題，而這正是讓這些系統(tǒng)真正起作用的關(guān)鍵所在。

當(dāng)然，Minsky 后來(lái)轉(zhuǎn)向了邏輯機(jī)器（logic machines），不再繼續(xù)走這條路；但他的博士論文直到今天讀起來(lái)仍然非常有意思。

Arthur Samuel 的跳棋程序（checker player）也是 AI 史上的一個(gè)里程碑，而且我認(rèn)為它本質(zhì)上也是一個(gè)強(qiáng)化學(xué)習(xí)系統(tǒng)——盡管有些人未必同意這個(gè)判斷。但它確實(shí)是通過(guò)自我博弈（self-play）來(lái)學(xué)習(xí)的。

他的核心想法是：他希望給棋盤(pán)上的每一個(gè)局面打分，使這個(gè)分?jǐn)?shù)看起來(lái)像是“在真實(shí)對(duì)弈中最有可能發(fā)生的那串走子最終所對(duì)應(yīng)的終局局面”的分?jǐn)?shù)。換句話(huà)說(shuō)，這個(gè)分?jǐn)?shù)其實(shí)是在預(yù)測(cè)整局棋最終的結(jié)果。

這個(gè)想法在強(qiáng)化學(xué)習(xí)中當(dāng)然極其關(guān)鍵，事實(shí)上，它也正是把這一領(lǐng)域與最優(yōu)控制（optimal control）和動(dòng)態(tài)規(guī)劃（dynamic programming）聯(lián)系起來(lái)的橋梁。動(dòng)態(tài)規(guī)劃是 Richard Bellman 提出的術(shù)語(yǔ)，原本指的是一種處理多種不同問(wèn)題——尤其也包括最優(yōu)控制問(wèn)題——的計(jì)算過(guò)程。

更具體地說(shuō)，在最優(yōu)控制里，給狀態(tài)賦分的這個(gè)過(guò)程對(duì)應(yīng)的就是價(jià)值函數(shù)（value functions）。這里有一個(gè)公式，表示從某個(gè)特定初始狀態(tài)出發(fā)時(shí)的期望回報(bào)（expected return）。所以，這其實(shí)就是對(duì)一個(gè)狀態(tài)的打分，而這個(gè)分?jǐn)?shù)反映的是：從該狀態(tài)出發(fā)后，未來(lái)能夠獲得的期望獎(jiǎng)勵(lì)。

還有一種變體會(huì)把動(dòng)作也一起納入考慮。因此，用來(lái)學(xué)習(xí)這些量的算法，本來(lái)是經(jīng)典的動(dòng)態(tài)規(guī)劃算法；但我們后來(lái)做成了一種更簡(jiǎn)單、遞歸式的形式。

特別是 Rich Sutton——也就是憑借這項(xiàng)工作，和我共同獲得圖靈獎(jiǎng)的人——提出了今天所謂的時(shí)序差分算法（temporal-difference algorithm）。

它本質(zhì)上是一種誤差校正過(guò)程。這個(gè)誤差項(xiàng)，就是“當(dāng)前獎(jiǎng)勵(lì) + 對(duì)未來(lái)獎(jiǎng)勵(lì)的一個(gè)估計(jì)”，再減去“先前對(duì)未來(lái)獎(jiǎng)勵(lì)的估計(jì)”。如果把這個(gè)誤差項(xiàng)用于一個(gè)監(jiān)督學(xué)習(xí)算法里，并且算法收斂了，那么它最終就會(huì)收斂到價(jià)值本身。在這里沒(méi)有折扣因子，因此這個(gè)價(jià)值就是未來(lái)獎(jiǎng)勵(lì)的總和。所以它實(shí)際上是在估計(jì)當(dāng)前狀態(tài)的狀態(tài)價(jià)值。

這個(gè)想法如今已經(jīng)被非常廣泛地使用。

我們當(dāng)時(shí)想親自試一試這個(gè)思路，于是看到了 Donald Michie 和 Roger Chambers 在 1968 年發(fā)表的一篇論文，來(lái)自愛(ài)丁堡大學(xué)。這是一個(gè)經(jīng)典控制問(wèn)題。他們把它稱(chēng)為BOXES，因?yàn)樗麄儼训沽[小車(chē)系統(tǒng)（cart-pole system）的狀態(tài)空間劃分成一個(gè)個(gè)“盒子”，每個(gè)盒子都對(duì)應(yīng)某種狀態(tài)索引。每個(gè)盒子里都有一個(gè)所謂的 demon，它會(huì)記錄自己提出了什么動(dòng)作，以及在采取這個(gè)動(dòng)作之后，桿子被維持平衡了多久。

這個(gè)系統(tǒng)確實(shí)學(xué)會(huì)了保持平衡。小車(chē)—倒立擺本來(lái)就是一個(gè)經(jīng)典控制問(wèn)題。

我們對(duì)這個(gè)問(wèn)題很感興趣，于是沿用了這種問(wèn)題設(shè)定，進(jìn)一步構(gòu)建了后來(lái)被稱(chēng)為actor-critic 的系統(tǒng)。

我們用了兩個(gè)類(lèi)似神經(jīng)元的單元：一個(gè)是我們稱(chēng)作自適應(yīng)評(píng)判器單元（adaptive critic element）的部分，另一個(gè)則是聯(lián)想搜索單元（associative search element）。

所以，critic 是一個(gè)基于時(shí)序差分進(jìn)行預(yù)測(cè)的單元，而聯(lián)想搜索單元?jiǎng)t是一個(gè)遵循效果律的單元。我們現(xiàn)在會(huì)區(qū)分 reinforcement 和 reward。我們當(dāng)時(shí)把這里的 reinforcement 實(shí)際上視為 reward，而 TD 誤差則被用作傳給 actor 的強(qiáng)化信號(hào)。

這是我們 1983 年發(fā)表的一篇論文。它實(shí)際上是我們被引用最多的論文之一。最近我還寫(xiě)過(guò)一篇文章，專(zhuān)門(mén)回顧我們當(dāng)時(shí)是怎么完成這項(xiàng)工作的，其中有哪些問(wèn)題、有哪些困難，以及我們?cè)谀瞧撐睦锓高^(guò)哪些錯(cuò)誤——這些錯(cuò)誤我們自己也很遺憾。比如說(shuō)，我們?cè)诜抡胬锇阎亓Φ姆?hào)寫(xiě)反了；但那些試圖復(fù)現(xiàn)實(shí)驗(yàn)的人會(huì)說(shuō)，我們的系統(tǒng)居然一下就把桿子平衡住了。其實(shí)那是因?yàn)橹亓Ψ较虮緛?lái)就反過(guò)來(lái)了。

于是，這就演化成了今天強(qiáng)化學(xué)習(xí)中所說(shuō)的 actor-critic 系統(tǒng)。

正如我前面提到的，Google 開(kāi)發(fā)的圍棋程序 AlphaGo Zero，在沒(méi)有事先輸入人類(lèi)棋譜的情況下，也是通過(guò)與自己對(duì)弈來(lái)學(xué)習(xí)的，這一點(diǎn)和很久以前 Samuel 的做法非常相似。當(dāng)然，這些問(wèn)題難得多，但無(wú)論有沒(méi)有先驗(yàn)信息，它們最終都學(xué)會(huì)了極高水平的博弈能力。

類(lèi)似的思路也出現(xiàn)在 DeepMind 的AlphaProof中。你可以看到，在那張流程圖的后半部分，基本上就是 AlphaGo Zero 的思路，只不過(guò)它的獎(jiǎng)勵(lì)來(lái)自“證明是否成功”，而證明本身是一系列操作構(gòu)成的序列。所以，這套思想已經(jīng)滲透進(jìn)了一些相當(dāng)驚人的成果之中。

下面我想簡(jiǎn)單談一下大腦。

多巴胺（dopamine）是一種神經(jīng)調(diào)質(zhì)（neuromodulator），由大腦中一些很小的區(qū)域產(chǎn)生，但會(huì)廣泛分布到大腦的許多不同區(qū)域。多巴胺與我們感受到的愉悅和獎(jiǎng)勵(lì)有關(guān)；在經(jīng)典觀點(diǎn)里，人們常常認(rèn)為，這些產(chǎn)生多巴胺的腦區(qū)輸出的就是獎(jiǎng)勵(lì)信號(hào)。

而 Wolfram Schultz——現(xiàn)在在劍橋大學(xué)的一位神經(jīng)科學(xué)家——做過(guò)一些關(guān)鍵實(shí)驗(yàn)。他在清醒、能夠自主行為的猴子身上記錄多巴胺神經(jīng)元的活動(dòng)，因?yàn)樗胫溃哼@些神經(jīng)元到底在做什么，它們的信號(hào)又是什么樣子。

他發(fā)現(xiàn)，在最開(kāi)始的時(shí)候，猴子會(huì)在這個(gè)實(shí)驗(yàn)裝置里得到葡萄干之類(lèi)的獎(jiǎng)勵(lì)；起初，當(dāng)獎(jiǎng)勵(lì)真正送達(dá)時(shí)，會(huì)出現(xiàn)一個(gè)很大的反應(yīng)，你們?cè)诘谝粭l記錄軌跡里就能看到。

但如果事先有一個(gè)預(yù)測(cè)信號(hào)（predictor），會(huì)發(fā)生什么呢？多巴胺神經(jīng)元的反應(yīng)會(huì)在時(shí)間上向前移動(dòng)，并且不再出現(xiàn)在獎(jiǎng)勵(lì)真正到來(lái)的那個(gè)時(shí)刻。也就是說(shuō)，它會(huì)回溯到那個(gè)預(yù)測(cè)信號(hào)上；如果還有更早的預(yù)測(cè)信號(hào)，它又會(huì)繼續(xù)往更早的地方移動(dòng)。如果你在原本應(yīng)該給出獎(jiǎng)勵(lì)的時(shí)刻沒(méi)有真正給獎(jiǎng)勵(lì)，就會(huì)出現(xiàn)一個(gè)負(fù)向下陷（depression）；在最下面張柱狀圖里，這一點(diǎn)看得最清楚。你會(huì)看到，在原本獎(jiǎng)勵(lì)應(yīng)該出現(xiàn)的位置，會(huì)出現(xiàn)一個(gè)明顯下陷。

這件事當(dāng)時(shí)讓神經(jīng)科學(xué)家非常困惑；但我們這些了解 TD 算法的人知道，TD 誤差恰恰就會(huì)表現(xiàn)出這種現(xiàn)象。這里其實(shí)只是快速展示了一下：在 Wolfram Schultz 所做實(shí)驗(yàn)的類(lèi)似情境中，這個(gè) delta 項(xiàng)會(huì)如何變化。

這件事幾乎有種不可思議的巧合意味，因?yàn)樵?TD 算法被提出的時(shí)候，那些實(shí)驗(yàn)結(jié)果還根本沒(méi)人知道。后來(lái)，這條線(xiàn)索催生出了如今所謂的“獎(jiǎng)勵(lì)預(yù)測(cè)誤差假說(shuō)”（reward-prediction-error hypothesis），由 Schultz、Peter Dayan 和 Montague 在 1997 年提出。

這個(gè)假說(shuō)認(rèn)為：中腦多巴胺神經(jīng)元的相位性活動(dòng)（phasic activity）所傳遞的，是對(duì)未來(lái)期望獎(jiǎng)勵(lì)的新舊估計(jì)之間的誤差——換句話(huà)說(shuō)，也就是 TD 誤差。這個(gè)假說(shuō)讓神經(jīng)科學(xué)家獲得了很大啟發(fā)；隨后人們做了大量實(shí)驗(yàn)，發(fā)現(xiàn)它在很多類(lèi)型的實(shí)驗(yàn)中都能得到支持——當(dāng)然，也不是所有實(shí)驗(yàn)都如此。因此，這一假說(shuō)和其他想法之間一直存在持續(xù)的辯論與互動(dòng)。不過(guò)，TD 誤差這一思路，確實(shí)讓我們對(duì)多巴胺機(jī)制有了新的理解。

所以我認(rèn)為，它確實(shí)改變了神經(jīng)科學(xué)家理解獎(jiǎng)勵(lì)系統(tǒng)的方式。

好，現(xiàn)在還有很多其他話(huà)題我沒(méi)法展開(kāi)：比如無(wú)模型強(qiáng)化學(xué)習(xí)（model-free RL）——我剛才主要講的其實(shí)就是這個(gè)；還有基于模型的強(qiáng)化學(xué)習(xí)（model-based RL），在那里面你會(huì)擁有一個(gè)環(huán)境模型。我們還可以談規(guī)劃、推理、問(wèn)題求解、工作記憶。強(qiáng)化學(xué)習(xí)并不排斥把世界模型納入整個(gè)系統(tǒng)的一部分。

現(xiàn)在人們也在研究更好的算法、更穩(wěn)定的算法、策略梯度算法（policy-gradient algorithms）、多智能體強(qiáng)化學(xué)習(xí)（multi-agent RL）——這又回到了 Klopf 最初那個(gè)想法：神經(jīng)元構(gòu)成了一個(gè)強(qiáng)化學(xué)習(xí)智能體的社會(huì)。還有人研究所謂的分布強(qiáng)化學(xué)習(xí)（distributional RL）：它不再只是預(yù)測(cè)期望獎(jiǎng)勵(lì)，而是嘗試去學(xué)習(xí)一個(gè)完整的分布，而不僅僅是期望值。

此外，還有計(jì)算精神病學(xué)（computational psychiatry）方向，它會(huì)利用這些思想，幫助我們理清某些精神疾病中大腦究竟發(fā)生了什么。

最后再說(shuō)一點(diǎn)，強(qiáng)化學(xué)習(xí)面臨的一大挑戰(zhàn)，就是獎(jiǎng)勵(lì)設(shè)計(jì)問(wèn)題。在有些情況下，比如游戲里，定義贏或輸很容易；但在其他類(lèi)型的問(wèn)題中，事情就沒(méi)有那么簡(jiǎn)單。

控制論之父 Norbert Wiener 早在半個(gè)多世紀(jì)前，其實(shí)就提醒過(guò)人們這個(gè)問(wèn)題。他當(dāng)時(shí)講的還不一定是強(qiáng)化學(xué)習(xí)，而更廣義地是在談優(yōu)化（optimization）。當(dāng)你指定了一個(gè)目標(biāo)函數(shù)，你其實(shí)并不知道還會(huì)連帶引入什么別的東西。

用他的話(huà)說(shuō)：系統(tǒng)會(huì)給你“你所要求的東西”，但不一定給你“你本該要求的東西”，或者“你真正想要的東西”。

Nick Bostrom——那位寫(xiě)過(guò)一本關(guān)于人工智能問(wèn)題、頗有影響力著作的人——把這種現(xiàn)象稱(chēng)作“反向?qū)嵗保╮everse instantiation）。Wiener 也舉過(guò)一個(gè)典型例子：邁達(dá)斯之觸（Midas touch）。他許愿自己碰到什么都能變成金子，結(jié)果碰到自己的女兒，女兒也變成了金子，諸如此類(lèi)。

所以，這是一個(gè)經(jīng)典問(wèn)題。它并不是隨著 RL 才出現(xiàn)的新問(wèn)題。我認(rèn)為它非常重要，尤其是在智能體化 AI（agentic AI）的語(yǔ)境下更是如此。如果智能體真的被釋放出去，而它們又是強(qiáng)化學(xué)習(xí)智能體，那么你事先并不知道它們最終會(huì)想出什么辦法來(lái)。因此，你需要護(hù)欄（guardrails），也需要大量實(shí)驗(yàn)，來(lái)確認(rèn)它們做的事情真的是你希望它們做的。

好，我最后想說(shuō)的是：強(qiáng)化學(xué)習(xí)與神經(jīng)網(wǎng)絡(luò)的計(jì)算研究，它們的歷史從一開(kāi)始就是緊密交織在一起的。兩者最初都源于關(guān)于大腦如何運(yùn)作、如何學(xué)習(xí)的假說(shuō)，而且從誕生之初，它們的發(fā)展就是相互耦合的。

我剛才提到了 RL 和智能體化 AI，我認(rèn)為這對(duì)于自我改進(jìn)型智能體來(lái)說(shuō)是一個(gè)關(guān)鍵議題。如今，深度強(qiáng)化學(xué)習(xí)的計(jì)算能力，再加上我們近年對(duì)大腦獎(jiǎng)勵(lì)系統(tǒng)的研究結(jié)果，正在指向下一輪突破可能出現(xiàn)的方向。

問(wèn)答環(huán)節(jié)：強(qiáng)化學(xué)習(xí)是通向通用人工智能（AGI）的唯一道路嗎？

演講結(jié)束后，南洋理工大學(xué)校長(zhǎng)講座教授、人工智能交叉研究院院長(zhǎng)安波教授，與巴托教授開(kāi)展了學(xué)術(shù)對(duì)話(huà)。以下為內(nèi)容翻譯：

安波：謝謝你帶來(lái)這場(chǎng)非常精彩的主題演講，也謝謝你對(duì)強(qiáng)化學(xué)習(xí)歷史中一些非常重要概念的回顧。我有幾個(gè)問(wèn)題想請(qǐng)教你，第一個(gè)問(wèn)題是：強(qiáng)化學(xué)習(xí)是否就是通向 AGI 的那條路。我想像 Rich Sutton、David Silver 這樣一些人會(huì)主張，RL 是走向 AGI 的唯一道路。但也有另一些人，比如 Yann LeCun，并不這么認(rèn)為。我們很想聽(tīng)聽(tīng)你的看法。或者說(shuō)，也許會(huì)有好幾種不同的架構(gòu)，都可能通向 AGI。

安德魯·巴托：是的，這是個(gè)非常好的問(wèn)題。

我認(rèn)為，各種不同形式的學(xué)習(xí)都會(huì)參與到通用人工智能之中。RL 確實(shí)有一些其他方法不具備的能力，但其他方法也同樣有 RL 不具備的能力。

比如說(shuō)，RL 真的很難。它需要很長(zhǎng)時(shí)間，需要大量試驗(yàn)。這些博弈系統(tǒng)會(huì)和自己對(duì)弈數(shù)百萬(wàn)次。所以我覺(jué)得，真正起作用的絕不只是純粹的 RL。

我能理解 Sutton 他們?yōu)槭裁磿?huì)認(rèn)為“只要 RL 就夠了”，但我個(gè)人傾向于不認(rèn)為世界上只有這一種東西。它也許是一個(gè)必要組成部分——就像我在演講開(kāi)頭引用的那位哲學(xué)家所說(shuō)的，它是必要的——但我不認(rèn)為僅靠它就足夠了。這就是我對(duì)這個(gè)問(wèn)題的看法。

安波：謝謝。下一個(gè)問(wèn)題是：我記得我讀博士那會(huì)兒，RL 方向的人在工業(yè)界找工作其實(shí)很難。那時(shí)候，SVM 之類(lèi)的話(huà)題在工業(yè)界特別重要、也特別流行。但現(xiàn)在，RL 已經(jīng)變得非常重要了，比如大語(yǔ)言模型里的 RLHF，如今在智能體方向人們也在做 agentic RL。

最近還有一些研究——我想是經(jīng)驗(yàn)層面的——展示了 RL 的能力。那么，這是否意味著你在把模型的分布收縮到某些可達(dá)且高回報(bào)的軌跡上？有些人猜測(cè)，RL 本身并不能建立新的能力，它只是把已有能力激發(fā)出來(lái)。這對(duì)我們?nèi)绾畏峙渌懔?huì)有非常大的影響：是投給基座模型，還是投給 RL？因?yàn)槿绻@是真的，那么基座模型的 scaling 其實(shí)也就決定了 RL 的 scaling。所以我想知道你怎么看：RL 到底能不能真正建立新能力，還是說(shuō)它仍然只是在從基座模型里激發(fā)出已有能力？

安德魯·巴托：是的，這是個(gè)很有意思的問(wèn)題。

在 RL 里，系統(tǒng)必須進(jìn)行探索（explore），這意味著它必須去嘗試那些并不是事先預(yù)設(shè)好的、也不是由既有行為直接推導(dǎo)出來(lái)的東西。從計(jì)算實(shí)現(xiàn)上看，常見(jiàn)做法是：系統(tǒng)會(huì)時(shí)不時(shí)做出一些原本發(fā)生概率非常非常低、甚至理論上概率為零的動(dòng)作——這就是你的探索。它對(duì)于發(fā)現(xiàn)新東西來(lái)說(shuō)是必不可少的。

所以，我認(rèn)為“RL 只會(huì)激發(fā)現(xiàn)有能力”這個(gè)假設(shè)并不正確。事實(shí)上，我知道有些人甚至?xí)M(jìn)一步主張：發(fā)現(xiàn)新東西的唯一方式就是 RL。對(duì)此我自己也不完全同意，但這確實(shí)是一種相當(dāng)常見(jiàn)的看法。

正如我前面提到的，探索與利用（exploit）是這些系統(tǒng)的核心：它們既要探索，也要利用，并且必須在兩者之間找到某種平衡。實(shí)現(xiàn)這種平衡的方法有很多。我覺(jué)得我們?nèi)祟?lèi)自己也是這樣。有時(shí)候我們?cè)谔剿鳎恢澜Y(jié)果會(huì)是什么，也不知道會(huì)發(fā)生什么；有時(shí)候我們知道自己在做什么，于是就會(huì)利用這種確定性，去獲取它所能帶來(lái)的好處。

但我認(rèn)為，“利用與探索”這對(duì)機(jī)制，本質(zhì)上是隨機(jī)系統(tǒng)的一種回報(bào)結(jié)構(gòu)。所謂隨機(jī)系統(tǒng)，就是結(jié)果本身帶有不確定性的系統(tǒng)。所以，說(shuō) RL 只能激發(fā)現(xiàn)有行為，我覺(jué)得是不對(duì)的；它實(shí)際上可以發(fā)現(xiàn)新的行為。尤其是在討論序貫決策問(wèn)題時(shí)，這一點(diǎn)更明顯：因?yàn)槟呐滦蛄兄械拿恳粋€(gè)單步動(dòng)作，其后果都是相對(duì)已知的，整個(gè)序列組合起來(lái)，卻仍然可能產(chǎn)生非常不一樣、甚至全新的結(jié)果。這就是我對(duì)這個(gè)問(wèn)題的看法。這個(gè)問(wèn)題非常好。

安波：我想今天現(xiàn)場(chǎng)應(yīng)該有很多博士生。你能不能給這些年輕人一些研究方向上的建議？也就是，從概念上看，哪些 RL 方向是值得他們從現(xiàn)在開(kāi)始投入去做的？

安德魯·巴托：可以。我覺(jué)得首先是多智能體強(qiáng)化學(xué)習(xí)（multi-agent RL）。已經(jīng)有人在做了，但我認(rèn)為它仍然研究得不夠充分。當(dāng)然，我們自己其實(shí)一直也沒(méi)有真正做到這一步，因?yàn)樗浅ｋy，確實(shí)很難。可是，“神經(jīng)系統(tǒng)是許多強(qiáng)化學(xué)習(xí)智能體相互作用的結(jié)果”這個(gè)想法——人們研究過(guò)，我們也研究過(guò)——但還有大量工作可以做。所以，多智能體 RL 是一個(gè)方向。

另外，我覺(jué)得在醫(yī)療領(lǐng)域也有一些很有意思的應(yīng)用。比如針對(duì)慢性病，去設(shè)計(jì)時(shí)間跨度較長(zhǎng)的治療方案；這些決策過(guò)程，完全有可能通過(guò) RL 得到改進(jìn)。

所以如果要我選，我大概還是會(huì)堅(jiān)持多智能體這個(gè)方向。就我自己的工作來(lái)說(shuō)，如果你去看我們那本書(shū)，就會(huì)發(fā)現(xiàn)我們其實(shí)并沒(méi)有太多篇幅談多智能體。這是因?yàn)樗娴暮茈y，我們自己也沒(méi)能在這方面做得特別深入。但別人已經(jīng)做了一些。所以除此之外，當(dāng)然還有神經(jīng)科學(xué)——也就是 RL 與神經(jīng)科學(xué)的交叉。我認(rèn)為，用機(jī)器學(xué)習(xí)的一些概念，尤其是 RL 的概念，去觀察神經(jīng)系統(tǒng)，可以獲得很多新的知識(shí)；而現(xiàn)在也確實(shí)已經(jīng)有不少神經(jīng)科學(xué)家在這樣做。

所以，是的，大概就是這些。也許還有別的方向，但我現(xiàn)在一時(shí)想不起來(lái)了。

安波：感謝您這場(chǎng)很有啟發(fā)性的演講，也希望未來(lái)還能見(jiàn)到你。

CSDN 6 月寵粉福利

200 小時(shí) GP U 算力免費(fèi)領(lǐng)

瑞幸咖啡/肯德基早餐/下午茶等能量套餐任選其一

入群還可每月定期抽取旗艦顯卡、AI PC 等極客神裝

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.