无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

別再迷信單一的技術(shù)教條!圖靈獎(jiǎng)得主巴托完整演講:你的大腦本質(zhì)上是一個(gè)多智能體社會(huì)

0
分享至


AI 確實(shí)完美執(zhí)行了你的 Prompt,但也極易順手毀掉你想要的結(jié)果。

編譯 | 王啟隆

出品丨AI 科技大本營(yíng)(ID:rgznai100)

“享樂(lè)型神經(jīng)元”——1977 年,當(dāng) 29 歲的安德魯·巴托(Andrew Barto)在馬薩諸塞大學(xué)接下這個(gè)聽(tīng)起來(lái)有些“瘋狂”的博士后項(xiàng)目時(shí),強(qiáng)化學(xué)習(xí)(RL)還只是計(jì)算機(jī)科學(xué)邊緣的一個(gè)異類(lèi)。“

在隨后的幾十年里,監(jiān)督學(xué)習(xí)和深度神經(jīng)網(wǎng)絡(luò)席卷全球,而巴托與他的學(xué)生——如今被世人稱(chēng)為“強(qiáng)化學(xué)習(xí)之父”的理查德·薩頓(Richard Sutton),卻在“試錯(cuò)”與“獎(jiǎng)懲”的冷板凳上坐了半個(gè)世紀(jì)。直到大模型時(shí)代降臨,RLHF(人類(lèi)反饋強(qiáng)化學(xué)習(xí))與智能體(Agent)成為通往 AGI 的必經(jīng)之路,這對(duì)師徒才在 2024 年被授予以計(jì)算機(jī)界諾貝爾獎(jiǎng)之稱(chēng)的圖靈獎(jiǎng)。


? Andrew Barto & Richard Sutton ?

直到大模型時(shí)代降臨,RLHF(人類(lèi)反饋強(qiáng)化學(xué)習(xí))與智能體(Agent)成為通往 AGI 的必經(jīng)之路,這對(duì)師徒才在 2024 年被授予以計(jì)算機(jī)界諾貝爾獎(jiǎng)之稱(chēng)的圖靈獎(jiǎng)。

2026 年 6 月 12 日,在第八屆北京智源大會(huì)上,78 歲的巴托因身體原因未能親臨現(xiàn)場(chǎng),他隔著屏幕,用略顯沙啞的聲音發(fā)表了名為《重新發(fā)現(xiàn)強(qiáng)化學(xué)習(xí)》的演講。他將視線(xiàn)拉回到了 1898 年桑代克的“謎箱”與動(dòng)物實(shí)驗(yàn),并警示人們:當(dāng)智能體被釋放到物理世界,最致命的危險(xiǎn)依然是控制論之父維納半個(gè)世紀(jì)前就提出的警告——系統(tǒng)只會(huì)給你“你所要求的東西”,而非“你真正想要的東西”。


演講結(jié)束后,南洋理工大學(xué)教授安波與巴托展開(kāi)了一場(chǎng)關(guān)于“算力分配、自進(jìn)化與 AGI 終局”的極具張力的對(duì)話(huà)。這位 78 歲的圖靈獎(jiǎng)得主,在這場(chǎng)思想碰撞中厘清了強(qiáng)化學(xué)習(xí)在 AI 自進(jìn)化時(shí)代最本質(zhì)的坐標(biāo):

  • 強(qiáng)化學(xué)習(xí)絕非僅能“激發(fā)”模型的既有能力,它是探索并發(fā)現(xiàn)全新行為的算法通路。大語(yǔ)言模型的預(yù)訓(xùn)練本質(zhì)是模仿,而強(qiáng)化學(xué)習(xí)的底層是“探索與利用”的試錯(cuò)博弈。在序貫決策中,即使序列中的每一步動(dòng)作都是已知的,它們重組后的序列仍然可能產(chǎn)生超越人類(lèi)既有經(jīng)驗(yàn)的全新結(jié)果。

  • 時(shí)序差分算法(TD)中預(yù)測(cè)誤差的數(shù)學(xué)項(xiàng),在提出十多年后被證明與大腦多巴胺的相位活動(dòng)特征完全吻合。

  • 強(qiáng)化學(xué)習(xí)并不是僅靠“只要 RL 就夠了”的單一教條就能通往通用人工智能(AGI)。盡管薩頓等學(xué)者堅(jiān)持“獎(jiǎng)勵(lì)即一切”的終極假設(shè),但純粹的 RL 在計(jì)算上極度昂貴且極其低效。AGI 的終局絕非單一范式的勝利,而是 RL 與環(huán)境模型、規(guī)劃、推理等多種機(jī)制深度協(xié)同的復(fù)雜系統(tǒng)。

  • 就像邁達(dá)斯許愿“點(diǎn)石成金”卻把女兒也變成金子的寓言,系統(tǒng)極易走向“反向?qū)嵗薄_實(shí)高效執(zhí)行了你寫(xiě)下的指令,卻徹底偏離了你真正想要的結(jié)果。

  • 年輕學(xué)者如果想在強(qiáng)化學(xué)習(xí)領(lǐng)域?qū)崿F(xiàn)范式突破,最值得深耕的依然是“多智能體強(qiáng)化學(xué)習(xí)”(Multi-agent RL)。盡管其博弈復(fù)雜性呈指數(shù)級(jí)上升,以至于早期的教科書(shū)極少提及,但“神經(jīng)系統(tǒng)本質(zhì)上是多個(gè)強(qiáng)化學(xué)習(xí)智能體相互作用的社會(huì)”這一假說(shuō),仍有巨大的未墾空間。

以下為巴托教授的演講內(nèi)容。


強(qiáng)化學(xué)習(xí)的本質(zhì)是什么?

我給這場(chǎng)報(bào)告起的標(biāo)題叫《重新發(fā)現(xiàn)強(qiáng)化學(xué)習(xí)》(Rediscovering Reinforcement Learning)。這個(gè)標(biāo)題暗示的是:強(qiáng)化學(xué)習(xí)其實(shí)已經(jīng)存在了非常非常久,這一點(diǎn)我接下來(lái)會(huì)講得很清楚。

這個(gè)主題之所以一直讓我著迷,其中一個(gè)原因就在于,它和很多別的領(lǐng)域都有聯(lián)系,正如這里展示的那樣。首先當(dāng)然是心理學(xué),很多相關(guān)方法最早就是從那里開(kāi)始的;當(dāng)然也包括人工智能、控制理論和運(yùn)籌學(xué);還有經(jīng)濟(jì)學(xué)與金融學(xué);再比如神經(jīng)科學(xué)、博弈論等等。


這些聯(lián)系,在我研究這一主題的整個(gè)過(guò)程中,一直都讓我很著迷。

CSDN 6 月寵粉福利

200 小時(shí) GP U 算力免費(fèi)領(lǐng)

瑞幸咖啡/肯德基早餐/下午茶等能量套餐任選其一

入群還可每月定期抽取旗艦顯卡、AI PC 等極客神裝


領(lǐng)取地址:https://s.csdn.cn/4nPsOp

如果把時(shí)間回溯到 19 世紀(jì),回到 Edward Thorndike——他用動(dòng)物研究學(xué)習(xí)問(wèn)題。大家最熟悉的,大概是他把動(dòng)物放進(jìn)一個(gè)謎箱(puzzle box)里,箱子的門(mén)閂設(shè)計(jì)得比較特殊。動(dòng)物并不喜歡待在箱子里,于是會(huì)四處摸索,最后偶然發(fā)現(xiàn)如何逃出來(lái)。然后他再把動(dòng)物放回去,這些動(dòng)物就會(huì)比之前更快地逃出箱子。再往后,只要一被重新放進(jìn)去,它們就會(huì)相當(dāng)“聽(tīng)話(huà)”地把自己放出來(lái)。

這是一種學(xué)習(xí)形式,在當(dāng)時(shí)被稱(chēng)為“試錯(cuò)學(xué)習(xí)”(trial-and-error learning),后來(lái)則被稱(chēng)為工具性條件作用(instrumental conditioning)操作性條件作用(operant conditioning)

他提出了“效果律”(law of effect)這個(gè)術(shù)語(yǔ),時(shí)間是在 1898 年。這里展示的是效果律的一種表述。

從根本上說(shuō),這是一種非常符合常識(shí)的觀念:如果某件事之后緊跟著的是滿(mǎn)足感,那么在其他條件相同的情況下,先前采取的那些動(dòng)作就會(huì)與當(dāng)時(shí)的情境建立連接;這樣一來(lái),當(dāng)同樣的情境再次出現(xiàn)時(shí),那些動(dòng)作就更可能再次發(fā)生。反過(guò)來(lái),如果某件事之后跟著的是不適或痛苦,那么動(dòng)物內(nèi)部這些連接就會(huì)被削弱,于是這些動(dòng)作再次發(fā)生的可能性就會(huì)降低。

我想強(qiáng)調(diào)的是,這里處理的不局限在“找到令人滿(mǎn)足的東西”或者“避開(kāi)不令人滿(mǎn)足的東西”,還包括把動(dòng)作和情境聯(lián)系起來(lái)。所以這本質(zhì)上是一個(gè)聯(lián)想性的過(guò)程。實(shí)際上,即便在那個(gè)時(shí)候,它就已經(jīng)被稱(chēng)為“聯(lián)結(jié)主義”(connectionism),因?yàn)檫@里建立的是從情境到那些被證明有益的動(dòng)作之間的連接。

這被稱(chēng)為試錯(cuò)學(xué)習(xí);用更現(xiàn)代的話(huà)說(shuō),就是工具性條件作用或操作性條件作用。

哲學(xué)家 Daniel Dennett 曾寫(xiě)過(guò)一篇文章,題目叫《為什么效果律不會(huì)消失》(Why the Law of Effect Will Not Go Away)。他甚至提出一個(gè)更強(qiáng)的說(shuō)法:效果律不只是對(duì)行為的一種可能解釋的一部分,而是任何充分的行為解釋都不可或缺的一部分。

因此,盡管效果律這些年來(lái)不斷被修正、被批評(píng),但它依然是我們理解某類(lèi)學(xué)習(xí)如何發(fā)生時(shí),一個(gè)非常符合常識(shí)的解釋框架。

現(xiàn)在說(shuō)回 RL,也就是計(jì)算意義上的強(qiáng)化學(xué)習(xí)。在我看來(lái)——當(dāng)然,我不確定每個(gè)人都會(huì)同意——它是控制(control)、搜索(search)和聯(lián)想記憶(associative memory)的結(jié)合。

所謂控制,是指學(xué)習(xí)系統(tǒng)會(huì)影響未來(lái)發(fā)生的事情。所謂搜索,是指試錯(cuò)式的“生成并測(cè)試”(generate-and-test),或者更準(zhǔn)確地說(shuō),“生成并評(píng)估”(generate-and-evaluate)、“變異與選擇”(variation and selection)。這些其實(shí)都是同一類(lèi)過(guò)程的不同名稱(chēng):通過(guò)探索,看看會(huì)產(chǎn)生怎樣的評(píng)估結(jié)果。而所謂記憶,則是記住在每一種情境下什么方法最有效,并在下一次從那里出發(fā)。所以,這里的聯(lián)想記憶,正是它的聯(lián)結(jié)主義一面。

同時(shí),生成器和評(píng)估器本身也都應(yīng)該以某種方式體現(xiàn)智能性,這一點(diǎn)非常重要,不過(guò)我今天不會(huì)在這個(gè)問(wèn)題上展開(kāi)太多。大家只需要記住:有時(shí)“生成并測(cè)試”會(huì)被稱(chēng)為“盲變異”(blind variation),但“盲”并不一定意味著完全隨機(jī),它只是表示:結(jié)果在一開(kāi)始并不能被預(yù)見(jiàn)。

好,我們知道監(jiān)督學(xué)習(xí)(supervised learning)是從帶標(biāo)簽樣本中學(xué)習(xí),它是一種誤差校正(error-correction)過(guò)程,有時(shí)也被稱(chēng)為“有教師的學(xué)習(xí)”(learning with a teacher)。無(wú)監(jiān)督學(xué)習(xí)(unsupervised learning)則是從無(wú)標(biāo)簽樣本中學(xué)習(xí)。強(qiáng)化學(xué)習(xí)和這兩者都不同,有時(shí)它也被稱(chēng)為“有評(píng)判器的學(xué)習(xí)”(learning with a critic)。

評(píng)判器(critic)和教師(teacher)并不一樣。教師會(huì)直接給出期望的響應(yīng);而評(píng)判器只是對(duì)已經(jīng)生成出來(lái)的結(jié)果進(jìn)行評(píng)價(jià),卻不會(huì)明確告訴你本來(lái)應(yīng)該生成什么。

另外,當(dāng)人們把這種學(xué)習(xí)稱(chēng)為“試錯(cuò)”時(shí),其實(shí)也不完全準(zhǔn)確,因?yàn)樗⒉灰欢ㄉ婕啊板e(cuò)誤”。事實(shí)上,心理學(xué)家所說(shuō)的試錯(cuò)學(xué)習(xí),并不等同于誤差校正。它和強(qiáng)化學(xué)習(xí)的關(guān)系,反而比和監(jiān)督學(xué)習(xí)更近。

當(dāng)年我們?cè)谘芯窟@個(gè)問(wèn)題時(shí),嘗試回頭尋找歷史上那些已經(jīng)構(gòu)建出、用今天的話(huà)說(shuō)屬于強(qiáng)化學(xué)習(xí)的系統(tǒng)。其中一個(gè)方向,就是隨機(jī)學(xué)習(xí)自動(dòng)機(jī)(stochastic learning automata);而在統(tǒng)計(jì)學(xué)里,它通常更常被稱(chēng)作多臂老虎機(jī)問(wèn)題(multi-armed bandit problems)

在這類(lèi)問(wèn)題中,隨機(jī)環(huán)境會(huì)生成動(dòng)作,而學(xué)習(xí)自動(dòng)機(jī)會(huì)對(duì)這些動(dòng)作進(jìn)行獎(jiǎng)勵(lì)或懲罰,從而改變未來(lái)生成這些動(dòng)作的概率。如果學(xué)習(xí)規(guī)則設(shè)計(jì)得合適,它就會(huì)收斂到回報(bào)最高的那個(gè)動(dòng)作。

我們?cè)缙谟幸黄撐模芯康氖抢秒S機(jī)學(xué)習(xí)自動(dòng)機(jī)進(jìn)行模式識(shí)別(pattern recognition)。那篇論文是我和 Anand Barto 一起做的,他那時(shí)還是研究生。這項(xiàng)工作把聯(lián)想學(xué)習(xí)的部分和 bandit 問(wèn)題連接了起來(lái)。也就是說(shuō),它不只是找到“哪個(gè)動(dòng)作的獎(jiǎng)勵(lì)最高”,而是進(jìn)一步建立了一個(gè)從情境到動(dòng)作的映射。


這就是 Anand——現(xiàn)在的 Anand。當(dāng)時(shí)他還是學(xué)生。我們?yōu)橐粋€(gè)把隨機(jī)學(xué)習(xí)自動(dòng)機(jī)和聯(lián)想學(xué)習(xí)結(jié)合起來(lái)的算法證明了收斂性。我們當(dāng)時(shí)覺(jué)得,這正是此前隨機(jī)學(xué)習(xí)自動(dòng)機(jī)研究中所缺失的一塊。

后來(lái),我們又加入了一個(gè)想法:學(xué)習(xí)的對(duì)象不一定只是“做出一個(gè)動(dòng)作”,也可以是學(xué)習(xí)一串由狀態(tài)轉(zhuǎn)移觸發(fā)的動(dòng)作序列。于是問(wèn)題就變成了序貫決策問(wèn)題(sequential decision problems)。會(huì)有一系列狀態(tài)出現(xiàn),動(dòng)作會(huì)影響狀態(tài)轉(zhuǎn)移和獎(jiǎng)勵(lì),而獎(jiǎng)勵(lì)可以在這個(gè)序貫過(guò)程中任何一步出現(xiàn)。


在這種情況下,系統(tǒng)性能由一個(gè)叫作“回報(bào)”(return)的量來(lái)評(píng)估。這個(gè)概念其實(shí)來(lái)自金融領(lǐng)域。某個(gè)特定的回報(bào)——比如折扣回報(bào)(discounted return)——本質(zhì)上就是未來(lái)獎(jiǎng)勵(lì)的折扣和。折扣率如果是 0,那么看重的就是即時(shí)獎(jiǎng)勵(lì);如果是 1,那就是把所有未來(lái)獎(jiǎng)勵(lì)全部加起來(lái)。


因此,系統(tǒng)追求的就不再只是讓眼前結(jié)果最大化,而是可以擴(kuò)展到處理時(shí)間跨度更長(zhǎng)的結(jié)果。這正是大多數(shù)研究強(qiáng)化學(xué)習(xí)的人真正想要理解的問(wèn)題。

如果我想再?gòu)?qiáng)調(diào)幾個(gè)特征,那就是:學(xué)習(xí)者并不會(huì)被教師直接告知該采取什么動(dòng)作。它必須通過(guò)嘗試,并觀察這些動(dòng)作得到怎樣的評(píng)價(jià),自己去發(fā)現(xiàn)。所以從本質(zhì)上說(shuō),“變異與評(píng)估”其實(shí)就是一個(gè)優(yōu)化問(wèn)題。

獎(jiǎng)勵(lì)也可能是延遲到來(lái)的,而“為了更大的長(zhǎng)期收益而犧牲短期收益”正是其中的核心問(wèn)題。系統(tǒng)需要探索,去發(fā)現(xiàn)哪些動(dòng)作回報(bào)更高;然后又要利用(exploit)這些知識(shí),把獎(jiǎng)勵(lì)真正積累起來(lái)。實(shí)際上,我們研究的那類(lèi)強(qiáng)化學(xué)習(xí),把整個(gè)問(wèn)題看作一個(gè)目標(biāo)導(dǎo)向的智能體在不確定環(huán)境中的交互問(wèn)題。

那我是怎么進(jìn)入這個(gè)領(lǐng)域的呢?我后來(lái)做博士后時(shí),參與了一個(gè)項(xiàng)目。這個(gè)項(xiàng)目的目標(biāo),是評(píng)估 Harry Klopf 的一個(gè)想法。


Klopf 當(dāng)時(shí)是美國(guó)空軍科研辦公室(Air Force Office of Scientific Research)某個(gè)主管部門(mén)的一位資深科學(xué)家。他提出了一個(gè)假說(shuō):神經(jīng)元是“享樂(lè)型的”(hedonistic),也就是說(shuō),每個(gè)神經(jīng)元本身并不考慮整體,只是努力最大化某種局部意義上的“快樂(lè)類(lèi)比”,同時(shí)最小化某種局部意義上的“痛苦類(lèi)比”。

他寫(xiě)過(guò)一些報(bào)告,也寫(xiě)過(guò)這本書(shū)。比如這本書(shū)的第一版出版于 1972 年。1977 年,馬薩諸塞大學(xué)聘我做博士后的那個(gè)項(xiàng)目,名稱(chēng)就叫“面向自適應(yīng)智能的目標(biāo)尋求組件”(Goal-Seeking Components for Adaptive Intelligence)。

他認(rèn)為,大腦是由一群像社會(huì)一樣相互作用的享樂(lè)型神經(jīng)元構(gòu)成的。我們?cè)谶@個(gè)項(xiàng)目中的任務(wù),就是看看這件事究竟有沒(méi)有道理。它聽(tīng)上去相當(dāng)前衛(wèi),甚至也許有點(diǎn)瘋狂。但問(wèn)題是:它之前有人研究過(guò)嗎?它已經(jīng)被否定了嗎?它值得研究嗎?

我、我的第一個(gè)學(xué)生 Rich Sutton,以及其他一些學(xué)生,都相當(dāng)深入地鉆研了這整段歷史,最后我們認(rèn)為:這件事值得繼續(xù)追下去。我們也因此了解了很多這方面的歷史。

下面我想稍微講一點(diǎn):他的想法到底是什么,神經(jīng)元在這個(gè)框架里又是如何工作的。


強(qiáng)化學(xué)習(xí)的基石


這是一條突觸(synapse):前面是突觸前末梢(presynaptic terminal),后面是一個(gè)突觸后神經(jīng)元(postsynaptic neuron)。突觸連接由一個(gè)權(quán)重(weight)來(lái)表征;而在 Klopf 的理論中,突觸前末梢還由另一個(gè)他稱(chēng)之為 eligibility 的量來(lái)表征。

Klopf 的說(shuō)法是:當(dāng)一個(gè)神經(jīng)元發(fā)放動(dòng)作電位(action potential)時(shí),所有那些當(dāng)時(shí)處于活躍狀態(tài)、并且對(duì)這個(gè)動(dòng)作電位有貢獻(xiàn)的突觸,都會(huì)變得“具備資格”,可以發(fā)生效能或權(quán)重上的變化。如果在一個(gè)合適的時(shí)間窗口內(nèi),這個(gè)動(dòng)作電位之后伴隨著獎(jiǎng)勵(lì)增加,那么所有這些具備資格的突觸,它們的效能都會(huì)提高;如果伴隨的是懲罰,則效能降低。

換句話(huà)說(shuō),按照這個(gè)設(shè)想,突觸可塑性(synaptic plasticity)實(shí)現(xiàn)的就是效果律。至于在單個(gè)神經(jīng)元層面,什么才算是獎(jiǎng)勵(lì)或懲罰,這一點(diǎn)并沒(méi)有被具體說(shuō)明。

那我們是怎么研究這個(gè)想法的呢?我們使用了一種單獨(dú)的信號(hào),把所謂的獎(jiǎng)勵(lì)信號(hào)傳遞給這些人工神經(jīng)元。

強(qiáng)化學(xué)習(xí)的應(yīng)用有很多,而且我?guī)缀趺刻於紩?huì)聽(tīng)到新的應(yīng)用場(chǎng)景。當(dāng)然包括棋類(lèi)游戲、機(jī)器人、能源管理、自動(dòng)駕駛、交易與金融、自然語(yǔ)言處理、醫(yī)療健康——凡是序貫決策很重要的地方都可能用得上。比如,隨著時(shí)間推進(jìn)去安排治療方案,依據(jù)每個(gè)階段的結(jié)果來(lái)制定化療計(jì)劃。對(duì)于大語(yǔ)言模型來(lái)說(shuō),也有大量應(yīng)用,比如微調(diào),以及其他大語(yǔ)言模型可以借助的過(guò)程。

所謂深度強(qiáng)化學(xué)習(xí)(deep reinforcement learning),就是把強(qiáng)化學(xué)習(xí)和深度神經(jīng)網(wǎng)絡(luò)結(jié)合起來(lái)。因此,這些享樂(lè)型神經(jīng)元的輸入,就會(huì)來(lái)自一個(gè)可能具有很深層級(jí)的網(wǎng)絡(luò)的輸出。

這個(gè)想法其實(shí)出現(xiàn)得非常早,甚至早于計(jì)算機(jī)本身。在 20 世紀(jì) 30 年代,人們已經(jīng)在使用機(jī)電裝置,本質(zhì)上做的就是強(qiáng)化學(xué)習(xí)。這是華盛頓大學(xué)心理學(xué)領(lǐng)域 Stephen Smith 的工作:那其實(shí)有點(diǎn)像一輛模型火車(chē),可以自己決定在軌道上往哪個(gè)方向走。不過(guò)那是 1935 年,所以這個(gè)思路的歷史真的非常久遠(yuǎn)。

當(dāng)然,在心理學(xué)中,操作性條件作用——或者說(shuō)強(qiáng)化學(xué)習(xí)——也一度是研究動(dòng)物學(xué)習(xí)時(shí)最熱門(mén)的話(huà)題之一。


另外,就我所知,最早提出在數(shù)字計(jì)算機(jī)上實(shí)現(xiàn) RL 的想法的人,是 Alan Turing。他描述過(guò)一個(gè)“快樂(lè)—痛苦系統(tǒng)”(pleasure-pain system)。他的原話(huà)大致是這樣:

“當(dāng)系統(tǒng)到達(dá)某個(gè)配置,而在該配置下應(yīng)采取什么動(dòng)作尚未確定時(shí),就會(huì)針對(duì)缺失的數(shù)據(jù)做出一次隨機(jī)選擇,并在描述中寫(xiě)入相應(yīng)條目。如果隨后出現(xiàn)痛苦刺激,這些暫時(shí)寫(xiě)入的條目就會(huì)被取消;如果隨后出現(xiàn)快樂(lè)刺激,它們就會(huì)全部被永久保留。”

這件事發(fā)生在 1948 年。Turing 本人并沒(méi)有真正把它實(shí)現(xiàn)出來(lái),因?yàn)樗?dāng)時(shí)能用到的那種計(jì)算機(jī)實(shí)際上還并不存在。但這已經(jīng)是對(duì)某類(lèi)強(qiáng)化學(xué)習(xí)系統(tǒng)非常清晰的表述了。

Claude Shannon 那只名叫 Theseus 的“老鼠”,本質(zhì)上也是一個(gè)強(qiáng)化學(xué)習(xí)系統(tǒng)。嚴(yán)格說(shuō)來(lái),真正進(jìn)行學(xué)習(xí)的其實(shí)不是“老鼠”本身,而是它所運(yùn)行的那個(gè)迷宮,但那仍然是一個(gè)本質(zhì)上依賴(lài)強(qiáng)化學(xué)習(xí)的迷宮求解系統(tǒng)。

我只想強(qiáng)調(diào)一點(diǎn):它必須去探索。沒(méi)有人告訴它該走哪條岔路,它必須自己去試,看看這些路到底通向哪里。

再往后,F(xiàn)arley 和 Clark 在 1954 年做的工作——據(jù)我所知——是第一次在數(shù)字計(jì)算機(jī)上模擬一個(gè)會(huì)學(xué)習(xí)的自適應(yīng)人工神經(jīng)網(wǎng)絡(luò)。


他們研究了一個(gè)網(wǎng)絡(luò),當(dāng)時(shí)使用的是一臺(tái)擁有 4K 個(gè) 16 位字的機(jī)器,并實(shí)現(xiàn)了 64 個(gè)隨機(jī)線(xiàn)性閾值單元(stochastic linear threshold units)。他們用強(qiáng)化過(guò)程來(lái)訓(xùn)練這個(gè)網(wǎng)絡(luò),目標(biāo)是:依據(jù)輸入模式,讓一組輸出單元的激活高于另一組。

所以,這是一個(gè)在數(shù)字計(jì)算機(jī)上實(shí)現(xiàn)的聯(lián)想式強(qiáng)化系統(tǒng);據(jù)我判斷,這是這一類(lèi)系統(tǒng)的第一次實(shí)例。

后來(lái)第二年,在下一篇論文里,Clark 和 Farley 用的還是同一個(gè)網(wǎng)絡(luò),但他們改做了監(jiān)督學(xué)習(xí),并且開(kāi)始對(duì)模式識(shí)別和泛化感興趣——從標(biāo)題里你就能看出來(lái)。


所以在我看來(lái),這幾乎就標(biāo)志著人們開(kāi)始放棄強(qiáng)化學(xué)習(xí),轉(zhuǎn)而擁抱監(jiān)督學(xué)習(xí);而監(jiān)督學(xué)習(xí)后來(lái)也確實(shí)成了機(jī)器學(xué)習(xí)、或者說(shuō)神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)中更突出的主流研究對(duì)象。

Marvin Minsky 的博士論文,其實(shí)做的也是強(qiáng)化學(xué)習(xí)。他使用了一種叫作隨機(jī)神經(jīng)模擬強(qiáng)化計(jì)算器(stochastic neural analog reinforcement calculators, SNARCs)的裝置,它們實(shí)際上就很像突觸。這是一個(gè)非常明確的強(qiáng)化學(xué)習(xí)系統(tǒng),他在自己那篇著名的 1961 年論文里也談了很多。

他討論了“信用分配問(wèn)題”(credit assignment),也就是如何把訓(xùn)練信息送到正確的位置、并在正確的時(shí)間送達(dá)。在那里,這個(gè)問(wèn)題就是在強(qiáng)化學(xué)習(xí)的語(yǔ)境下提出的。因此,我們后來(lái)參與的很多強(qiáng)化學(xué)習(xí)工作,本質(zhì)上都在處理信用分配問(wèn)題,而這正是讓這些系統(tǒng)真正起作用的關(guān)鍵所在。


當(dāng)然,Minsky 后來(lái)轉(zhuǎn)向了邏輯機(jī)器(logic machines),不再繼續(xù)走這條路;但他的博士論文直到今天讀起來(lái)仍然非常有意思。

Arthur Samuel 的跳棋程序(checker player)也是 AI 史上的一個(gè)里程碑,而且我認(rèn)為它本質(zhì)上也是一個(gè)強(qiáng)化學(xué)習(xí)系統(tǒng)——盡管有些人未必同意這個(gè)判斷。但它確實(shí)是通過(guò)自我博弈(self-play)來(lái)學(xué)習(xí)的。

他的核心想法是:他希望給棋盤(pán)上的每一個(gè)局面打分,使這個(gè)分?jǐn)?shù)看起來(lái)像是“在真實(shí)對(duì)弈中最有可能發(fā)生的那串走子最終所對(duì)應(yīng)的終局局面”的分?jǐn)?shù)。換句話(huà)說(shuō),這個(gè)分?jǐn)?shù)其實(shí)是在預(yù)測(cè)整局棋最終的結(jié)果。


這個(gè)想法在強(qiáng)化學(xué)習(xí)中當(dāng)然極其關(guān)鍵,事實(shí)上,它也正是把這一領(lǐng)域與最優(yōu)控制(optimal control)和動(dòng)態(tài)規(guī)劃(dynamic programming)聯(lián)系起來(lái)的橋梁。動(dòng)態(tài)規(guī)劃是 Richard Bellman 提出的術(shù)語(yǔ),原本指的是一種處理多種不同問(wèn)題——尤其也包括最優(yōu)控制問(wèn)題——的計(jì)算過(guò)程。

更具體地說(shuō),在最優(yōu)控制里,給狀態(tài)賦分的這個(gè)過(guò)程對(duì)應(yīng)的就是價(jià)值函數(shù)(value functions)。這里有一個(gè)公式,表示從某個(gè)特定初始狀態(tài)出發(fā)時(shí)的期望回報(bào)(expected return)。所以,這其實(shí)就是對(duì)一個(gè)狀態(tài)的打分,而這個(gè)分?jǐn)?shù)反映的是:從該狀態(tài)出發(fā)后,未來(lái)能夠獲得的期望獎(jiǎng)勵(lì)。

還有一種變體會(huì)把動(dòng)作也一起納入考慮。因此,用來(lái)學(xué)習(xí)這些量的算法,本來(lái)是經(jīng)典的動(dòng)態(tài)規(guī)劃算法;但我們后來(lái)做成了一種更簡(jiǎn)單、遞歸式的形式。

特別是 Rich Sutton——也就是憑借這項(xiàng)工作,和我共同獲得圖靈獎(jiǎng)的人——提出了今天所謂的時(shí)序差分算法(temporal-difference algorithm)


它本質(zhì)上是一種誤差校正過(guò)程。這個(gè)誤差項(xiàng),就是“當(dāng)前獎(jiǎng)勵(lì) + 對(duì)未來(lái)獎(jiǎng)勵(lì)的一個(gè)估計(jì)”,再減去“先前對(duì)未來(lái)獎(jiǎng)勵(lì)的估計(jì)”。如果把這個(gè)誤差項(xiàng)用于一個(gè)監(jiān)督學(xué)習(xí)算法里,并且算法收斂了,那么它最終就會(huì)收斂到價(jià)值本身。在這里沒(méi)有折扣因子,因此這個(gè)價(jià)值就是未來(lái)獎(jiǎng)勵(lì)的總和。所以它實(shí)際上是在估計(jì)當(dāng)前狀態(tài)的狀態(tài)價(jià)值。

這個(gè)想法如今已經(jīng)被非常廣泛地使用。

我們當(dāng)時(shí)想親自試一試這個(gè)思路,于是看到了 Donald Michie 和 Roger Chambers 在 1968 年發(fā)表的一篇論文,來(lái)自愛(ài)丁堡大學(xué)。這是一個(gè)經(jīng)典控制問(wèn)題。他們把它稱(chēng)為BOXES,因?yàn)樗麄儼训沽[小車(chē)系統(tǒng)(cart-pole system)的狀態(tài)空間劃分成一個(gè)個(gè)“盒子”,每個(gè)盒子都對(duì)應(yīng)某種狀態(tài)索引。每個(gè)盒子里都有一個(gè)所謂的 demon,它會(huì)記錄自己提出了什么動(dòng)作,以及在采取這個(gè)動(dòng)作之后,桿子被維持平衡了多久。


這個(gè)系統(tǒng)確實(shí)學(xué)會(huì)了保持平衡。小車(chē)—倒立擺本來(lái)就是一個(gè)經(jīng)典控制問(wèn)題。

我們對(duì)這個(gè)問(wèn)題很感興趣,于是沿用了這種問(wèn)題設(shè)定,進(jìn)一步構(gòu)建了后來(lái)被稱(chēng)為actor-critic 的系統(tǒng)

我們用了兩個(gè)類(lèi)似神經(jīng)元的單元:一個(gè)是我們稱(chēng)作自適應(yīng)評(píng)判器單元(adaptive critic element)的部分,另一個(gè)則是聯(lián)想搜索單元(associative search element)


所以,critic 是一個(gè)基于時(shí)序差分進(jìn)行預(yù)測(cè)的單元,而聯(lián)想搜索單元?jiǎng)t是一個(gè)遵循效果律的單元。我們現(xiàn)在會(huì)區(qū)分 reinforcement 和 reward。我們當(dāng)時(shí)把這里的 reinforcement 實(shí)際上視為 reward,而 TD 誤差則被用作傳給 actor 的強(qiáng)化信號(hào)。

這是我們 1983 年發(fā)表的一篇論文。它實(shí)際上是我們被引用最多的論文之一。最近我還寫(xiě)過(guò)一篇文章,專(zhuān)門(mén)回顧我們當(dāng)時(shí)是怎么完成這項(xiàng)工作的,其中有哪些問(wèn)題、有哪些困難,以及我們?cè)谀瞧撐睦锓高^(guò)哪些錯(cuò)誤——這些錯(cuò)誤我們自己也很遺憾。比如說(shuō),我們?cè)诜抡胬锇阎亓Φ姆?hào)寫(xiě)反了;但那些試圖復(fù)現(xiàn)實(shí)驗(yàn)的人會(huì)說(shuō),我們的系統(tǒng)居然一下就把桿子平衡住了。其實(shí)那是因?yàn)橹亓Ψ较虮緛?lái)就反過(guò)來(lái)了。

于是,這就演化成了今天強(qiáng)化學(xué)習(xí)中所說(shuō)的 actor-critic 系統(tǒng)。

正如我前面提到的,Google 開(kāi)發(fā)的圍棋程序 AlphaGo Zero,在沒(méi)有事先輸入人類(lèi)棋譜的情況下,也是通過(guò)與自己對(duì)弈來(lái)學(xué)習(xí)的,這一點(diǎn)和很久以前 Samuel 的做法非常相似。當(dāng)然,這些問(wèn)題難得多,但無(wú)論有沒(méi)有先驗(yàn)信息,它們最終都學(xué)會(huì)了極高水平的博弈能力。


類(lèi)似的思路也出現(xiàn)在 DeepMind 的AlphaProof中。你可以看到,在那張流程圖的后半部分,基本上就是 AlphaGo Zero 的思路,只不過(guò)它的獎(jiǎng)勵(lì)來(lái)自“證明是否成功”,而證明本身是一系列操作構(gòu)成的序列。所以,這套思想已經(jīng)滲透進(jìn)了一些相當(dāng)驚人的成果之中。

下面我想簡(jiǎn)單談一下大腦。


多巴胺(dopamine)是一種神經(jīng)調(diào)質(zhì)(neuromodulator),由大腦中一些很小的區(qū)域產(chǎn)生,但會(huì)廣泛分布到大腦的許多不同區(qū)域。多巴胺與我們感受到的愉悅和獎(jiǎng)勵(lì)有關(guān);在經(jīng)典觀點(diǎn)里,人們常常認(rèn)為,這些產(chǎn)生多巴胺的腦區(qū)輸出的就是獎(jiǎng)勵(lì)信號(hào)。

而 Wolfram Schultz——現(xiàn)在在劍橋大學(xué)的一位神經(jīng)科學(xué)家——做過(guò)一些關(guān)鍵實(shí)驗(yàn)。他在清醒、能夠自主行為的猴子身上記錄多巴胺神經(jīng)元的活動(dòng),因?yàn)樗胫溃哼@些神經(jīng)元到底在做什么,它們的信號(hào)又是什么樣子。

他發(fā)現(xiàn),在最開(kāi)始的時(shí)候,猴子會(huì)在這個(gè)實(shí)驗(yàn)裝置里得到葡萄干之類(lèi)的獎(jiǎng)勵(lì);起初,當(dāng)獎(jiǎng)勵(lì)真正送達(dá)時(shí),會(huì)出現(xiàn)一個(gè)很大的反應(yīng),你們?cè)诘谝粭l記錄軌跡里就能看到。

但如果事先有一個(gè)預(yù)測(cè)信號(hào)(predictor),會(huì)發(fā)生什么呢?多巴胺神經(jīng)元的反應(yīng)會(huì)在時(shí)間上向前移動(dòng),并且不再出現(xiàn)在獎(jiǎng)勵(lì)真正到來(lái)的那個(gè)時(shí)刻。也就是說(shuō),它會(huì)回溯到那個(gè)預(yù)測(cè)信號(hào)上;如果還有更早的預(yù)測(cè)信號(hào),它又會(huì)繼續(xù)往更早的地方移動(dòng)。如果你在原本應(yīng)該給出獎(jiǎng)勵(lì)的時(shí)刻沒(méi)有真正給獎(jiǎng)勵(lì),就會(huì)出現(xiàn)一個(gè)負(fù)向下陷(depression);在最下面張柱狀圖里,這一點(diǎn)看得最清楚。你會(huì)看到,在原本獎(jiǎng)勵(lì)應(yīng)該出現(xiàn)的位置,會(huì)出現(xiàn)一個(gè)明顯下陷。

這件事當(dāng)時(shí)讓神經(jīng)科學(xué)家非常困惑;但我們這些了解 TD 算法的人知道,TD 誤差恰恰就會(huì)表現(xiàn)出這種現(xiàn)象。這里其實(shí)只是快速展示了一下:在 Wolfram Schultz 所做實(shí)驗(yàn)的類(lèi)似情境中,這個(gè) delta 項(xiàng)會(huì)如何變化。

這件事幾乎有種不可思議的巧合意味,因?yàn)樵?TD 算法被提出的時(shí)候,那些實(shí)驗(yàn)結(jié)果還根本沒(méi)人知道。后來(lái),這條線(xiàn)索催生出了如今所謂的“獎(jiǎng)勵(lì)預(yù)測(cè)誤差假說(shuō)”(reward-prediction-error hypothesis),由 Schultz、Peter Dayan 和 Montague 在 1997 年提出。

這個(gè)假說(shuō)認(rèn)為:中腦多巴胺神經(jīng)元的相位性活動(dòng)(phasic activity)所傳遞的,是對(duì)未來(lái)期望獎(jiǎng)勵(lì)的新舊估計(jì)之間的誤差——換句話(huà)說(shuō),也就是 TD 誤差。這個(gè)假說(shuō)讓神經(jīng)科學(xué)家獲得了很大啟發(fā);隨后人們做了大量實(shí)驗(yàn),發(fā)現(xiàn)它在很多類(lèi)型的實(shí)驗(yàn)中都能得到支持——當(dāng)然,也不是所有實(shí)驗(yàn)都如此。因此,這一假說(shuō)和其他想法之間一直存在持續(xù)的辯論與互動(dòng)。不過(guò),TD 誤差這一思路,確實(shí)讓我們對(duì)多巴胺機(jī)制有了新的理解。

所以我認(rèn)為,它確實(shí)改變了神經(jīng)科學(xué)家理解獎(jiǎng)勵(lì)系統(tǒng)的方式。

好,現(xiàn)在還有很多其他話(huà)題我沒(méi)法展開(kāi):比如無(wú)模型強(qiáng)化學(xué)習(xí)(model-free RL)——我剛才主要講的其實(shí)就是這個(gè);還有基于模型的強(qiáng)化學(xué)習(xí)(model-based RL),在那里面你會(huì)擁有一個(gè)環(huán)境模型。我們還可以談規(guī)劃、推理、問(wèn)題求解、工作記憶。強(qiáng)化學(xué)習(xí)并不排斥把世界模型納入整個(gè)系統(tǒng)的一部分。

現(xiàn)在人們也在研究更好的算法、更穩(wěn)定的算法、策略梯度算法(policy-gradient algorithms)、多智能體強(qiáng)化學(xué)習(xí)(multi-agent RL)——這又回到了 Klopf 最初那個(gè)想法:神經(jīng)元構(gòu)成了一個(gè)強(qiáng)化學(xué)習(xí)智能體的社會(huì)。還有人研究所謂的分布強(qiáng)化學(xué)習(xí)(distributional RL):它不再只是預(yù)測(cè)期望獎(jiǎng)勵(lì),而是嘗試去學(xué)習(xí)一個(gè)完整的分布,而不僅僅是期望值。

此外,還有計(jì)算精神病學(xué)(computational psychiatry)方向,它會(huì)利用這些思想,幫助我們理清某些精神疾病中大腦究竟發(fā)生了什么。

最后再說(shuō)一點(diǎn),強(qiáng)化學(xué)習(xí)面臨的一大挑戰(zhàn),就是獎(jiǎng)勵(lì)設(shè)計(jì)問(wèn)題。在有些情況下,比如游戲里,定義贏或輸很容易;但在其他類(lèi)型的問(wèn)題中,事情就沒(méi)有那么簡(jiǎn)單。

控制論之父 Norbert Wiener 早在半個(gè)多世紀(jì)前,其實(shí)就提醒過(guò)人們這個(gè)問(wèn)題。他當(dāng)時(shí)講的還不一定是強(qiáng)化學(xué)習(xí),而更廣義地是在談優(yōu)化(optimization)。當(dāng)你指定了一個(gè)目標(biāo)函數(shù),你其實(shí)并不知道還會(huì)連帶引入什么別的東西。

用他的話(huà)說(shuō):系統(tǒng)會(huì)給你“你所要求的東西”,但不一定給你“你本該要求的東西”,或者“你真正想要的東西”。

Nick Bostrom——那位寫(xiě)過(guò)一本關(guān)于人工智能問(wèn)題、頗有影響力著作的人——把這種現(xiàn)象稱(chēng)作“反向?qū)嵗保╮everse instantiation)。Wiener 也舉過(guò)一個(gè)典型例子:邁達(dá)斯之觸(Midas touch)。他許愿自己碰到什么都能變成金子,結(jié)果碰到自己的女兒,女兒也變成了金子,諸如此類(lèi)。

所以,這是一個(gè)經(jīng)典問(wèn)題。它并不是隨著 RL 才出現(xiàn)的新問(wèn)題。我認(rèn)為它非常重要,尤其是在智能體化 AI(agentic AI)的語(yǔ)境下更是如此。如果智能體真的被釋放出去,而它們又是強(qiáng)化學(xué)習(xí)智能體,那么你事先并不知道它們最終會(huì)想出什么辦法來(lái)。因此,你需要護(hù)欄(guardrails),也需要大量實(shí)驗(yàn),來(lái)確認(rèn)它們做的事情真的是你希望它們做的。

好,我最后想說(shuō)的是:強(qiáng)化學(xué)習(xí)與神經(jīng)網(wǎng)絡(luò)的計(jì)算研究,它們的歷史從一開(kāi)始就是緊密交織在一起的。兩者最初都源于關(guān)于大腦如何運(yùn)作、如何學(xué)習(xí)的假說(shuō),而且從誕生之初,它們的發(fā)展就是相互耦合的。

我剛才提到了 RL 和智能體化 AI,我認(rèn)為這對(duì)于自我改進(jìn)型智能體來(lái)說(shuō)是一個(gè)關(guān)鍵議題。如今,深度強(qiáng)化學(xué)習(xí)的計(jì)算能力,再加上我們近年對(duì)大腦獎(jiǎng)勵(lì)系統(tǒng)的研究結(jié)果,正在指向下一輪突破可能出現(xiàn)的方向。


問(wèn)答環(huán)節(jié):強(qiáng)化學(xué)習(xí)是通向通用人工智能(AGI)的唯一道路嗎?

演講結(jié)束后,南洋理工大學(xué)校長(zhǎng)講座教授、人工智能交叉研究院院長(zhǎng)安波教授,與巴托教授開(kāi)展了學(xué)術(shù)對(duì)話(huà)。以下為內(nèi)容翻譯:

安波:謝謝你帶來(lái)這場(chǎng)非常精彩的主題演講,也謝謝你對(duì)強(qiáng)化學(xué)習(xí)歷史中一些非常重要概念的回顧。我有幾個(gè)問(wèn)題想請(qǐng)教你,第一個(gè)問(wèn)題是:強(qiáng)化學(xué)習(xí)是否就是通向 AGI 的那條路。我想像 Rich Sutton、David Silver 這樣一些人會(huì)主張,RL 是走向 AGI 的唯一道路。但也有另一些人,比如 Yann LeCun,并不這么認(rèn)為。我們很想聽(tīng)聽(tīng)你的看法。或者說(shuō),也許會(huì)有好幾種不同的架構(gòu),都可能通向 AGI。

安德魯·巴托:是的,這是個(gè)非常好的問(wèn)題。

我認(rèn)為,各種不同形式的學(xué)習(xí)都會(huì)參與到通用人工智能之中。RL 確實(shí)有一些其他方法不具備的能力,但其他方法也同樣有 RL 不具備的能力。

比如說(shuō),RL 真的很難。它需要很長(zhǎng)時(shí)間,需要大量試驗(yàn)。這些博弈系統(tǒng)會(huì)和自己對(duì)弈數(shù)百萬(wàn)次。所以我覺(jué)得,真正起作用的絕不只是純粹的 RL。

我能理解 Sutton 他們?yōu)槭裁磿?huì)認(rèn)為“只要 RL 就夠了”,但我個(gè)人傾向于不認(rèn)為世界上只有這一種東西。它也許是一個(gè)必要組成部分——就像我在演講開(kāi)頭引用的那位哲學(xué)家所說(shuō)的,它是必要的——但我不認(rèn)為僅靠它就足夠了。這就是我對(duì)這個(gè)問(wèn)題的看法。

安波:謝謝。下一個(gè)問(wèn)題是:我記得我讀博士那會(huì)兒,RL 方向的人在工業(yè)界找工作其實(shí)很難。那時(shí)候,SVM 之類(lèi)的話(huà)題在工業(yè)界特別重要、也特別流行。但現(xiàn)在,RL 已經(jīng)變得非常重要了,比如大語(yǔ)言模型里的 RLHF,如今在智能體方向人們也在做 agentic RL。

最近還有一些研究——我想是經(jīng)驗(yàn)層面的——展示了 RL 的能力。那么,這是否意味著你在把模型的分布收縮到某些可達(dá)且高回報(bào)的軌跡上?有些人猜測(cè),RL 本身并不能建立新的能力,它只是把已有能力激發(fā)出來(lái)。這對(duì)我們?nèi)绾畏峙渌懔?huì)有非常大的影響:是投給基座模型,還是投給 RL?因?yàn)槿绻@是真的,那么基座模型的 scaling 其實(shí)也就決定了 RL 的 scaling。所以我想知道你怎么看:RL 到底能不能真正建立新能力,還是說(shuō)它仍然只是在從基座模型里激發(fā)出已有能力?

安德魯·巴托:是的,這是個(gè)很有意思的問(wèn)題。

在 RL 里,系統(tǒng)必須進(jìn)行探索(explore),這意味著它必須去嘗試那些并不是事先預(yù)設(shè)好的、也不是由既有行為直接推導(dǎo)出來(lái)的東西。從計(jì)算實(shí)現(xiàn)上看,常見(jiàn)做法是:系統(tǒng)會(huì)時(shí)不時(shí)做出一些原本發(fā)生概率非常非常低、甚至理論上概率為零的動(dòng)作——這就是你的探索。它對(duì)于發(fā)現(xiàn)新東西來(lái)說(shuō)是必不可少的。

所以,我認(rèn)為“RL 只會(huì)激發(fā)現(xiàn)有能力”這個(gè)假設(shè)并不正確。事實(shí)上,我知道有些人甚至?xí)M(jìn)一步主張:發(fā)現(xiàn)新東西的唯一方式就是 RL。對(duì)此我自己也不完全同意,但這確實(shí)是一種相當(dāng)常見(jiàn)的看法。

正如我前面提到的,探索與利用(exploit)是這些系統(tǒng)的核心:它們既要探索,也要利用,并且必須在兩者之間找到某種平衡。實(shí)現(xiàn)這種平衡的方法有很多。我覺(jué)得我們?nèi)祟?lèi)自己也是這樣。有時(shí)候我們?cè)谔剿鳎恢澜Y(jié)果會(huì)是什么,也不知道會(huì)發(fā)生什么;有時(shí)候我們知道自己在做什么,于是就會(huì)利用這種確定性,去獲取它所能帶來(lái)的好處。

但我認(rèn)為,“利用與探索”這對(duì)機(jī)制,本質(zhì)上是隨機(jī)系統(tǒng)的一種回報(bào)結(jié)構(gòu)。所謂隨機(jī)系統(tǒng),就是結(jié)果本身帶有不確定性的系統(tǒng)。所以,說(shuō) RL 只能激發(fā)現(xiàn)有行為,我覺(jué)得是不對(duì)的;它實(shí)際上可以發(fā)現(xiàn)新的行為。尤其是在討論序貫決策問(wèn)題時(shí),這一點(diǎn)更明顯:因?yàn)槟呐滦蛄兄械拿恳粋€(gè)單步動(dòng)作,其后果都是相對(duì)已知的,整個(gè)序列組合起來(lái),卻仍然可能產(chǎn)生非常不一樣、甚至全新的結(jié)果。這就是我對(duì)這個(gè)問(wèn)題的看法。這個(gè)問(wèn)題非常好。

安波:我想今天現(xiàn)場(chǎng)應(yīng)該有很多博士生。你能不能給這些年輕人一些研究方向上的建議?也就是,從概念上看,哪些 RL 方向是值得他們從現(xiàn)在開(kāi)始投入去做的?

安德魯·巴托:可以。我覺(jué)得首先是多智能體強(qiáng)化學(xué)習(xí)(multi-agent RL)。已經(jīng)有人在做了,但我認(rèn)為它仍然研究得不夠充分。當(dāng)然,我們自己其實(shí)一直也沒(méi)有真正做到這一步,因?yàn)樗浅ky,確實(shí)很難。可是,“神經(jīng)系統(tǒng)是許多強(qiáng)化學(xué)習(xí)智能體相互作用的結(jié)果”這個(gè)想法——人們研究過(guò),我們也研究過(guò)——但還有大量工作可以做。所以,多智能體 RL 是一個(gè)方向。

另外,我覺(jué)得在醫(yī)療領(lǐng)域也有一些很有意思的應(yīng)用。比如針對(duì)慢性病,去設(shè)計(jì)時(shí)間跨度較長(zhǎng)的治療方案;這些決策過(guò)程,完全有可能通過(guò) RL 得到改進(jìn)。

所以如果要我選,我大概還是會(huì)堅(jiān)持多智能體這個(gè)方向。就我自己的工作來(lái)說(shuō),如果你去看我們那本書(shū),就會(huì)發(fā)現(xiàn)我們其實(shí)并沒(méi)有太多篇幅談多智能體。這是因?yàn)樗娴暮茈y,我們自己也沒(méi)能在這方面做得特別深入。但別人已經(jīng)做了一些。所以除此之外,當(dāng)然還有神經(jīng)科學(xué)——也就是 RL 與神經(jīng)科學(xué)的交叉。我認(rèn)為,用機(jī)器學(xué)習(xí)的一些概念,尤其是 RL 的概念,去觀察神經(jīng)系統(tǒng),可以獲得很多新的知識(shí);而現(xiàn)在也確實(shí)已經(jīng)有不少神經(jīng)科學(xué)家在這樣做。

所以,是的,大概就是這些。也許還有別的方向,但我現(xiàn)在一時(shí)想不起來(lái)了。

安波:感謝您這場(chǎng)很有啟發(fā)性的演講,也希望未來(lái)還能見(jiàn)到你。

CSDN 6 月寵粉福利

200 小時(shí) GP U 算力免費(fèi)領(lǐng)

瑞幸咖啡/肯德基早餐/下午茶等能量套餐任選其一

入群還可每月定期抽取旗艦顯卡、AI PC 等極客神裝


特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
GX上市即爆單 交付已破萬(wàn)臺(tái)!小鵬6月交付40,126臺(tái) 大漲15.9%

GX上市即爆單 交付已破萬(wàn)臺(tái)!小鵬6月交付40,126臺(tái) 大漲15.9%

快科技
2026-07-01 14:56:16
一連串!6000w、5200萬(wàn)、1900w湖人連簽三人!

一連串!6000w、5200萬(wàn)、1900w湖人連簽三人!

運(yùn)籌帷幄的籃球
2026-07-02 00:51:02
女孩吃席“搶獅子頭”,面目猙獰,終于理解了什么叫上不了臺(tái)面!

女孩吃席“搶獅子頭”,面目猙獰,終于理解了什么叫上不了臺(tái)面!

世界圈
2026-06-12 17:03:53
燒了5000億,用時(shí)4年,僅修建2.4公里,沙特未來(lái)城大概是要爛尾了

燒了5000億,用時(shí)4年,僅修建2.4公里,沙特未來(lái)城大概是要爛尾了

史筆似塵鉤
2025-06-17 20:48:06
他是上將里最早進(jìn)政治局的,沒(méi)怎么發(fā)揮作用,解放后早早止步軍隊(duì)

他是上將里最早進(jìn)政治局的,沒(méi)怎么發(fā)揮作用,解放后早早止步軍隊(duì)

雍親王府
2026-07-01 10:15:04
存儲(chǔ)芯片股高位“踩剎車(chē)”:盤(pán)中閃迪跌超10%、美光跌近9%

存儲(chǔ)芯片股高位“踩剎車(chē)”:盤(pán)中閃迪跌超10%、美光跌近9%

華爾街見(jiàn)聞官方
2026-07-02 00:09:50
Hulu的新劇,太敢拍了

Hulu的新劇,太敢拍了

來(lái)看美劇
2026-06-29 19:06:47
吃不起!天津出現(xiàn)1380元煎餅果子,商家回應(yīng):合理,長(zhǎng)期售賣(mài)

吃不起!天津出現(xiàn)1380元煎餅果子,商家回應(yīng):合理,長(zhǎng)期售賣(mài)

西昆侖Bruce
2026-07-01 20:21:38
菲律賓游行第2天,人數(shù)飆至10萬(wàn),馬科斯怕了?一大早跑去軍營(yíng)

菲律賓游行第2天,人數(shù)飆至10萬(wàn),馬科斯怕了?一大早跑去軍營(yíng)

觀察者小海風(fēng)
2026-07-01 16:44:46
最恐怖的“年度印鈔機(jī)”,來(lái)了

最恐怖的“年度印鈔機(jī)”,來(lái)了

中國(guó)新聞周刊
2026-06-30 23:13:06
天呢!為應(yīng)對(duì)大規(guī)模失業(yè),馬斯克開(kāi)出了驚人藥方…

天呢!為應(yīng)對(duì)大規(guī)模失業(yè),馬斯克開(kāi)出了驚人藥方…

慧翔百科
2026-06-25 12:29:09
一夜之間局勢(shì)瘋轉(zhuǎn),萊昂納德哈登逐夢(mèng),同時(shí)改寫(xiě)命運(yùn)

一夜之間局勢(shì)瘋轉(zhuǎn),萊昂納德哈登逐夢(mèng),同時(shí)改寫(xiě)命運(yùn)

林子說(shuō)事
2026-07-01 09:44:54
失去才懂什么叫珍惜!烏克蘭人民懷念亞努科維奇!伊拉克:我懂!

失去才懂什么叫珍惜!烏克蘭人民懷念亞努科維奇!伊拉克:我懂!

探源歷史
2026-06-24 15:15:06
火箭將以3年合同報(bào)價(jià)斯瑪特!隊(duì)記曝醞釀交易:范喬丹+芬尼成籌碼

火箭將以3年合同報(bào)價(jià)斯瑪特!隊(duì)記曝醞釀交易:范喬丹+芬尼成籌碼

生活新鮮市
2026-07-02 00:03:31
女子大鬧奶茶店后續(xù):人被拘留,學(xué)校停了她的課,正臉曝光已社死

女子大鬧奶茶店后續(xù):人被拘留,學(xué)校停了她的課,正臉曝光已社死

江山揮筆
2026-05-26 09:32:15
收的是20塊避雨費(fèi),丟的是一座城市的溫度

收的是20塊避雨費(fèi),丟的是一座城市的溫度

清哲木觀察
2026-06-30 16:25:33
女人最容易出軌的4個(gè)地方:不是渣,是渴得慌

女人最容易出軌的4個(gè)地方:不是渣,是渴得慌

藝鑒在線(xiàn)
2026-07-01 18:42:41
性感藍(lán)衣女神:那不是暴露,是自信的另一種寫(xiě)法

性感藍(lán)衣女神:那不是暴露,是自信的另一種寫(xiě)法

疾跑的小蝸牛
2026-07-01 19:35:01
重慶談判結(jié)束后主席突發(fā)不適,眾人疑下毒,蘇聯(lián)醫(yī)生診斷出人意料

重慶談判結(jié)束后主席突發(fā)不適,眾人疑下毒,蘇聯(lián)醫(yī)生診斷出人意料

嘮叨說(shuō)歷史
2026-05-29 15:55:55
江蘇17歲女孩溺水,被救后苦尋恩人10年,結(jié)婚時(shí)才知恩人竟是丈夫

江蘇17歲女孩溺水,被救后苦尋恩人10年,結(jié)婚時(shí)才知恩人竟是丈夫

嘉琪Feel
2025-05-31 11:19:30
2026-07-02 01:59:00
AI科技大本營(yíng) incentive-icons
AI科技大本營(yíng)
連接AI技術(shù)的創(chuàng)造者和使用者
2737文章數(shù) 7711關(guān)注度
往期回顧 全部

科技要聞

Claude Code被曝“植入木馬”識(shí)別中國(guó)用戶(hù)

頭條要聞

許家印英國(guó)豪宅被指遭流浪漢“霸占” 真相披露

頭條要聞

許家印英國(guó)豪宅被指遭流浪漢“霸占” 真相披露

體育要聞

賣(mài)球衣救子的門(mén)將,把德國(guó)撲出了世界杯

娛樂(lè)要聞

77歲牛群公證裸捐全部財(cái)產(chǎn),清貧獨(dú)居堅(jiān)持月捐

財(cái)經(jīng)要聞

新氧貸款:宣傳年化15%,實(shí)際頂格24%

汽車(chē)要聞

同比暴漲188.4% 方程豹6月熱銷(xiāo)35607臺(tái)

態(tài)度原創(chuàng)

藝術(shù)
手機(jī)
教育
親子
公開(kāi)課

藝術(shù)要聞

西安美術(shù)學(xué)院,2026屆油畫(huà)系碩士研究生畢業(yè)作品選(二)

手機(jī)要聞

TCL華星宣布獨(dú)供REDMI K90至尊版屏幕:165Hz高刷 40+款游戲原生適配

教育要聞

高考落幕,征途未止!高中為畢業(yè)生開(kāi)設(shè)大學(xué)先修課

親子要聞

預(yù)防尿床的方法

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版