![]()
AI 確實(shí)完美執(zhí)行了你的 Prompt,但也極易順手毀掉你想要的結(jié)果。
編譯 | 王啟隆
出品丨AI 科技大本營(yíng)(ID:rgznai100)
“享樂(lè)型神經(jīng)元”——1977 年,當(dāng) 29 歲的安德魯·巴托(Andrew Barto)在馬薩諸塞大學(xué)接下這個(gè)聽(tīng)起來(lái)有些“瘋狂”的博士后項(xiàng)目時(shí),強(qiáng)化學(xué)習(xí)(RL)還只是計(jì)算機(jī)科學(xué)邊緣的一個(gè)異類(lèi)。“
在隨后的幾十年里,監(jiān)督學(xué)習(xí)和深度神經(jīng)網(wǎng)絡(luò)席卷全球,而巴托與他的學(xué)生——如今被世人稱(chēng)為“強(qiáng)化學(xué)習(xí)之父”的理查德·薩頓(Richard Sutton),卻在“試錯(cuò)”與“獎(jiǎng)懲”的冷板凳上坐了半個(gè)世紀(jì)。直到大模型時(shí)代降臨,RLHF(人類(lèi)反饋強(qiáng)化學(xué)習(xí))與智能體(Agent)成為通往 AGI 的必經(jīng)之路,這對(duì)師徒才在 2024 年被授予以計(jì)算機(jī)界諾貝爾獎(jiǎng)之稱(chēng)的圖靈獎(jiǎng)。
![]()
? Andrew Barto & Richard Sutton ?
直到大模型時(shí)代降臨,RLHF(人類(lèi)反饋強(qiáng)化學(xué)習(xí))與智能體(Agent)成為通往 AGI 的必經(jīng)之路,這對(duì)師徒才在 2024 年被授予以計(jì)算機(jī)界諾貝爾獎(jiǎng)之稱(chēng)的圖靈獎(jiǎng)。
2026 年 6 月 12 日,在第八屆北京智源大會(huì)上,78 歲的巴托因身體原因未能親臨現(xiàn)場(chǎng),他隔著屏幕,用略顯沙啞的聲音發(fā)表了名為《重新發(fā)現(xiàn)強(qiáng)化學(xué)習(xí)》的演講。他將視線(xiàn)拉回到了 1898 年桑代克的“謎箱”與動(dòng)物實(shí)驗(yàn),并警示人們:當(dāng)智能體被釋放到物理世界,最致命的危險(xiǎn)依然是控制論之父維納半個(gè)世紀(jì)前就提出的警告——系統(tǒng)只會(huì)給你“你所要求的東西”,而非“你真正想要的東西”。
![]()
演講結(jié)束后,南洋理工大學(xué)教授安波與巴托展開(kāi)了一場(chǎng)關(guān)于“算力分配、自進(jìn)化與 AGI 終局”的極具張力的對(duì)話(huà)。這位 78 歲的圖靈獎(jiǎng)得主,在這場(chǎng)思想碰撞中厘清了強(qiáng)化學(xué)習(xí)在 AI 自進(jìn)化時(shí)代最本質(zhì)的坐標(biāo):
強(qiáng)化學(xué)習(xí)絕非僅能“激發(fā)”模型的既有能力,它是探索并發(fā)現(xiàn)全新行為的算法通路。大語(yǔ)言模型的預(yù)訓(xùn)練本質(zhì)是模仿,而強(qiáng)化學(xué)習(xí)的底層是“探索與利用”的試錯(cuò)博弈。在序貫決策中,即使序列中的每一步動(dòng)作都是已知的,它們重組后的序列仍然可能產(chǎn)生超越人類(lèi)既有經(jīng)驗(yàn)的全新結(jié)果。
時(shí)序差分算法(TD)中預(yù)測(cè)誤差的數(shù)學(xué)項(xiàng),在提出十多年后被證明與大腦多巴胺的相位活動(dòng)特征完全吻合。
強(qiáng)化學(xué)習(xí)并不是僅靠“只要 RL 就夠了”的單一教條就能通往通用人工智能(AGI)。盡管薩頓等學(xué)者堅(jiān)持“獎(jiǎng)勵(lì)即一切”的終極假設(shè),但純粹的 RL 在計(jì)算上極度昂貴且極其低效。AGI 的終局絕非單一范式的勝利,而是 RL 與環(huán)境模型、規(guī)劃、推理等多種機(jī)制深度協(xié)同的復(fù)雜系統(tǒng)。
就像邁達(dá)斯許愿“點(diǎn)石成金”卻把女兒也變成金子的寓言,系統(tǒng)極易走向“反向?qū)嵗薄_實(shí)高效執(zhí)行了你寫(xiě)下的指令,卻徹底偏離了你真正想要的結(jié)果。
年輕學(xué)者如果想在強(qiáng)化學(xué)習(xí)領(lǐng)域?qū)崿F(xiàn)范式突破,最值得深耕的依然是“多智能體強(qiáng)化學(xué)習(xí)”(Multi-agent RL)。盡管其博弈復(fù)雜性呈指數(shù)級(jí)上升,以至于早期的教科書(shū)極少提及,但“神經(jīng)系統(tǒng)本質(zhì)上是多個(gè)強(qiáng)化學(xué)習(xí)智能體相互作用的社會(huì)”這一假說(shuō),仍有巨大的未墾空間。
以下為巴托教授的演講內(nèi)容。
![]()
強(qiáng)化學(xué)習(xí)的本質(zhì)是什么?
我給這場(chǎng)報(bào)告起的標(biāo)題叫《重新發(fā)現(xiàn)強(qiáng)化學(xué)習(xí)》(Rediscovering Reinforcement Learning)。這個(gè)標(biāo)題暗示的是:強(qiáng)化學(xué)習(xí)其實(shí)已經(jīng)存在了非常非常久,這一點(diǎn)我接下來(lái)會(huì)講得很清楚。
這個(gè)主題之所以一直讓我著迷,其中一個(gè)原因就在于,它和很多別的領(lǐng)域都有聯(lián)系,正如這里展示的那樣。首先當(dāng)然是心理學(xué),很多相關(guān)方法最早就是從那里開(kāi)始的;當(dāng)然也包括人工智能、控制理論和運(yùn)籌學(xué);還有經(jīng)濟(jì)學(xué)與金融學(xué);再比如神經(jīng)科學(xué)、博弈論等等。
![]()
這些聯(lián)系,在我研究這一主題的整個(gè)過(guò)程中,一直都讓我很著迷。
CSDN 6 月寵粉福利
200 小時(shí) GP U 算力免費(fèi)領(lǐng)
瑞幸咖啡/肯德基早餐/下午茶等能量套餐任選其一
入群還可每月定期抽取旗艦顯卡、AI PC 等極客神裝
![]()
領(lǐng)取地址:https://s.csdn.cn/4nPsOp
如果把時(shí)間回溯到 19 世紀(jì),回到 Edward Thorndike——他用動(dòng)物研究學(xué)習(xí)問(wèn)題。大家最熟悉的,大概是他把動(dòng)物放進(jìn)一個(gè)謎箱(puzzle box)里,箱子的門(mén)閂設(shè)計(jì)得比較特殊。動(dòng)物并不喜歡待在箱子里,于是會(huì)四處摸索,最后偶然發(fā)現(xiàn)如何逃出來(lái)。然后他再把動(dòng)物放回去,這些動(dòng)物就會(huì)比之前更快地逃出箱子。再往后,只要一被重新放進(jìn)去,它們就會(huì)相當(dāng)“聽(tīng)話(huà)”地把自己放出來(lái)。
這是一種學(xué)習(xí)形式,在當(dāng)時(shí)被稱(chēng)為“試錯(cuò)學(xué)習(xí)”(trial-and-error learning),后來(lái)則被稱(chēng)為工具性條件作用(instrumental conditioning)或操作性條件作用(operant conditioning)。
他提出了“效果律”(law of effect)這個(gè)術(shù)語(yǔ),時(shí)間是在 1898 年。這里展示的是效果律的一種表述。
從根本上說(shuō),這是一種非常符合常識(shí)的觀念:如果某件事之后緊跟著的是滿(mǎn)足感,那么在其他條件相同的情況下,先前采取的那些動(dòng)作就會(huì)與當(dāng)時(shí)的情境建立連接;這樣一來(lái),當(dāng)同樣的情境再次出現(xiàn)時(shí),那些動(dòng)作就更可能再次發(fā)生。反過(guò)來(lái),如果某件事之后跟著的是不適或痛苦,那么動(dòng)物內(nèi)部這些連接就會(huì)被削弱,于是這些動(dòng)作再次發(fā)生的可能性就會(huì)降低。
我想強(qiáng)調(diào)的是,這里處理的不局限在“找到令人滿(mǎn)足的東西”或者“避開(kāi)不令人滿(mǎn)足的東西”,還包括把動(dòng)作和情境聯(lián)系起來(lái)。所以這本質(zhì)上是一個(gè)聯(lián)想性的過(guò)程。實(shí)際上,即便在那個(gè)時(shí)候,它就已經(jīng)被稱(chēng)為“聯(lián)結(jié)主義”(connectionism),因?yàn)檫@里建立的是從情境到那些被證明有益的動(dòng)作之間的連接。
這被稱(chēng)為試錯(cuò)學(xué)習(xí);用更現(xiàn)代的話(huà)說(shuō),就是工具性條件作用或操作性條件作用。
哲學(xué)家 Daniel Dennett 曾寫(xiě)過(guò)一篇文章,題目叫《為什么效果律不會(huì)消失》(Why the Law of Effect Will Not Go Away)。他甚至提出一個(gè)更強(qiáng)的說(shuō)法:效果律不只是對(duì)行為的一種可能解釋的一部分,而是任何充分的行為解釋都不可或缺的一部分。
因此,盡管效果律這些年來(lái)不斷被修正、被批評(píng),但它依然是我們理解某類(lèi)學(xué)習(xí)如何發(fā)生時(shí),一個(gè)非常符合常識(shí)的解釋框架。
現(xiàn)在說(shuō)回 RL,也就是計(jì)算意義上的強(qiáng)化學(xué)習(xí)。在我看來(lái)——當(dāng)然,我不確定每個(gè)人都會(huì)同意——它是控制(control)、搜索(search)和聯(lián)想記憶(associative memory)的結(jié)合。
所謂控制,是指學(xué)習(xí)系統(tǒng)會(huì)影響未來(lái)發(fā)生的事情。所謂搜索,是指試錯(cuò)式的“生成并測(cè)試”(generate-and-test),或者更準(zhǔn)確地說(shuō),“生成并評(píng)估”(generate-and-evaluate)、“變異與選擇”(variation and selection)。這些其實(shí)都是同一類(lèi)過(guò)程的不同名稱(chēng):通過(guò)探索,看看會(huì)產(chǎn)生怎樣的評(píng)估結(jié)果。而所謂記憶,則是記住在每一種情境下什么方法最有效,并在下一次從那里出發(fā)。所以,這里的聯(lián)想記憶,正是它的聯(lián)結(jié)主義一面。
同時(shí),生成器和評(píng)估器本身也都應(yīng)該以某種方式體現(xiàn)智能性,這一點(diǎn)非常重要,不過(guò)我今天不會(huì)在這個(gè)問(wèn)題上展開(kāi)太多。大家只需要記住:有時(shí)“生成并測(cè)試”會(huì)被稱(chēng)為“盲變異”(blind variation),但“盲”并不一定意味著完全隨機(jī),它只是表示:結(jié)果在一開(kāi)始并不能被預(yù)見(jiàn)。
好,我們知道監(jiān)督學(xué)習(xí)(supervised learning)是從帶標(biāo)簽樣本中學(xué)習(xí),它是一種誤差校正(error-correction)過(guò)程,有時(shí)也被稱(chēng)為“有教師的學(xué)習(xí)”(learning with a teacher)。無(wú)監(jiān)督學(xué)習(xí)(unsupervised learning)則是從無(wú)標(biāo)簽樣本中學(xué)習(xí)。強(qiáng)化學(xué)習(xí)和這兩者都不同,有時(shí)它也被稱(chēng)為“有評(píng)判器的學(xué)習(xí)”(learning with a critic)。
評(píng)判器(critic)和教師(teacher)并不一樣。教師會(huì)直接給出期望的響應(yīng);而評(píng)判器只是對(duì)已經(jīng)生成出來(lái)的結(jié)果進(jìn)行評(píng)價(jià),卻不會(huì)明確告訴你本來(lái)應(yīng)該生成什么。
另外,當(dāng)人們把這種學(xué)習(xí)稱(chēng)為“試錯(cuò)”時(shí),其實(shí)也不完全準(zhǔn)確,因?yàn)樗⒉灰欢ㄉ婕啊板e(cuò)誤”。事實(shí)上,心理學(xué)家所說(shuō)的試錯(cuò)學(xué)習(xí),并不等同于誤差校正。它和強(qiáng)化學(xué)習(xí)的關(guān)系,反而比和監(jiān)督學(xué)習(xí)更近。
當(dāng)年我們?cè)谘芯窟@個(gè)問(wèn)題時(shí),嘗試回頭尋找歷史上那些已經(jīng)構(gòu)建出、用今天的話(huà)說(shuō)屬于強(qiáng)化學(xué)習(xí)的系統(tǒng)。其中一個(gè)方向,就是隨機(jī)學(xué)習(xí)自動(dòng)機(jī)(stochastic learning automata);而在統(tǒng)計(jì)學(xué)里,它通常更常被稱(chēng)作多臂老虎機(jī)問(wèn)題(multi-armed bandit problems)。
在這類(lèi)問(wèn)題中,隨機(jī)環(huán)境會(huì)生成動(dòng)作,而學(xué)習(xí)自動(dòng)機(jī)會(huì)對(duì)這些動(dòng)作進(jìn)行獎(jiǎng)勵(lì)或懲罰,從而改變未來(lái)生成這些動(dòng)作的概率。如果學(xué)習(xí)規(guī)則設(shè)計(jì)得合適,它就會(huì)收斂到回報(bào)最高的那個(gè)動(dòng)作。
我們?cè)缙谟幸黄撐模芯康氖抢秒S機(jī)學(xué)習(xí)自動(dòng)機(jī)進(jìn)行模式識(shí)別(pattern recognition)。那篇論文是我和 Anand Barto 一起做的,他那時(shí)還是研究生。這項(xiàng)工作把聯(lián)想學(xué)習(xí)的部分和 bandit 問(wèn)題連接了起來(lái)。也就是說(shuō),它不只是找到“哪個(gè)動(dòng)作的獎(jiǎng)勵(lì)最高”,而是進(jìn)一步建立了一個(gè)從情境到動(dòng)作的映射。
![]()
這就是 Anand——現(xiàn)在的 Anand。當(dāng)時(shí)他還是學(xué)生。我們?yōu)橐粋€(gè)把隨機(jī)學(xué)習(xí)自動(dòng)機(jī)和聯(lián)想學(xué)習(xí)結(jié)合起來(lái)的算法證明了收斂性。我們當(dāng)時(shí)覺(jué)得,這正是此前隨機(jī)學(xué)習(xí)自動(dòng)機(jī)研究中所缺失的一塊。
后來(lái),我們又加入了一個(gè)想法:學(xué)習(xí)的對(duì)象不一定只是“做出一個(gè)動(dòng)作”,也可以是學(xué)習(xí)一串由狀態(tài)轉(zhuǎn)移觸發(fā)的動(dòng)作序列。于是問(wèn)題就變成了序貫決策問(wèn)題(sequential decision problems)。會(huì)有一系列狀態(tài)出現(xiàn),動(dòng)作會(huì)影響狀態(tài)轉(zhuǎn)移和獎(jiǎng)勵(lì),而獎(jiǎng)勵(lì)可以在這個(gè)序貫過(guò)程中任何一步出現(xiàn)。
![]()
在這種情況下,系統(tǒng)性能由一個(gè)叫作“回報(bào)”(return)的量來(lái)評(píng)估。這個(gè)概念其實(shí)來(lái)自金融領(lǐng)域。某個(gè)特定的回報(bào)——比如折扣回報(bào)(discounted return)——本質(zhì)上就是未來(lái)獎(jiǎng)勵(lì)的折扣和。折扣率如果是 0,那么看重的就是即時(shí)獎(jiǎng)勵(lì);如果是 1,那就是把所有未來(lái)獎(jiǎng)勵(lì)全部加起來(lái)。
![]()
因此,系統(tǒng)追求的就不再只是讓眼前結(jié)果最大化,而是可以擴(kuò)展到處理時(shí)間跨度更長(zhǎng)的結(jié)果。這正是大多數(shù)研究強(qiáng)化學(xué)習(xí)的人真正想要理解的問(wèn)題。
如果我想再?gòu)?qiáng)調(diào)幾個(gè)特征,那就是:學(xué)習(xí)者并不會(huì)被教師直接告知該采取什么動(dòng)作。它必須通過(guò)嘗試,并觀察這些動(dòng)作得到怎樣的評(píng)價(jià),自己去發(fā)現(xiàn)。所以從本質(zhì)上說(shuō),“變異與評(píng)估”其實(shí)就是一個(gè)優(yōu)化問(wèn)題。
獎(jiǎng)勵(lì)也可能是延遲到來(lái)的,而“為了更大的長(zhǎng)期收益而犧牲短期收益”正是其中的核心問(wèn)題。系統(tǒng)需要探索,去發(fā)現(xiàn)哪些動(dòng)作回報(bào)更高;然后又要利用(exploit)這些知識(shí),把獎(jiǎng)勵(lì)真正積累起來(lái)。實(shí)際上,我們研究的那類(lèi)強(qiáng)化學(xué)習(xí),把整個(gè)問(wèn)題看作一個(gè)目標(biāo)導(dǎo)向的智能體在不確定環(huán)境中的交互問(wèn)題。
那我是怎么進(jìn)入這個(gè)領(lǐng)域的呢?我后來(lái)做博士后時(shí),參與了一個(gè)項(xiàng)目。這個(gè)項(xiàng)目的目標(biāo),是評(píng)估 Harry Klopf 的一個(gè)想法。
![]()
Klopf 當(dāng)時(shí)是美國(guó)空軍科研辦公室(Air Force Office of Scientific Research)某個(gè)主管部門(mén)的一位資深科學(xué)家。他提出了一個(gè)假說(shuō):神經(jīng)元是“享樂(lè)型的”(hedonistic),也就是說(shuō),每個(gè)神經(jīng)元本身并不考慮整體,只是努力最大化某種局部意義上的“快樂(lè)類(lèi)比”,同時(shí)最小化某種局部意義上的“痛苦類(lèi)比”。
他寫(xiě)過(guò)一些報(bào)告,也寫(xiě)過(guò)這本書(shū)。比如這本書(shū)的第一版出版于 1972 年。1977 年,馬薩諸塞大學(xué)聘我做博士后的那個(gè)項(xiàng)目,名稱(chēng)就叫“面向自適應(yīng)智能的目標(biāo)尋求組件”(Goal-Seeking Components for Adaptive Intelligence)。
他認(rèn)為,大腦是由一群像社會(huì)一樣相互作用的享樂(lè)型神經(jīng)元構(gòu)成的。我們?cè)谶@個(gè)項(xiàng)目中的任務(wù),就是看看這件事究竟有沒(méi)有道理。它聽(tīng)上去相當(dāng)前衛(wèi),甚至也許有點(diǎn)瘋狂。但問(wèn)題是:它之前有人研究過(guò)嗎?它已經(jīng)被否定了嗎?它值得研究嗎?
我、我的第一個(gè)學(xué)生 Rich Sutton,以及其他一些學(xué)生,都相當(dāng)深入地鉆研了這整段歷史,最后我們認(rèn)為:這件事值得繼續(xù)追下去。我們也因此了解了很多這方面的歷史。
下面我想稍微講一點(diǎn):他的想法到底是什么,神經(jīng)元在這個(gè)框架里又是如何工作的。
![]()
強(qiáng)化學(xué)習(xí)的基石
![]()
這是一條突觸(synapse):前面是突觸前末梢(presynaptic terminal),后面是一個(gè)突觸后神經(jīng)元(postsynaptic neuron)。突觸連接由一個(gè)權(quán)重(weight)來(lái)表征;而在 Klopf 的理論中,突觸前末梢還由另一個(gè)他稱(chēng)之為 eligibility 的量來(lái)表征。
Klopf 的說(shuō)法是:當(dāng)一個(gè)神經(jīng)元發(fā)放動(dòng)作電位(action potential)時(shí),所有那些當(dāng)時(shí)處于活躍狀態(tài)、并且對(duì)這個(gè)動(dòng)作電位有貢獻(xiàn)的突觸,都會(huì)變得“具備資格”,可以發(fā)生效能或權(quán)重上的變化。如果在一個(gè)合適的時(shí)間窗口內(nèi),這個(gè)動(dòng)作電位之后伴隨著獎(jiǎng)勵(lì)增加,那么所有這些具備資格的突觸,它們的效能都會(huì)提高;如果伴隨的是懲罰,則效能降低。
換句話(huà)說(shuō),按照這個(gè)設(shè)想,突觸可塑性(synaptic plasticity)實(shí)現(xiàn)的就是效果律。至于在單個(gè)神經(jīng)元層面,什么才算是獎(jiǎng)勵(lì)或懲罰,這一點(diǎn)并沒(méi)有被具體說(shuō)明。
那我們是怎么研究這個(gè)想法的呢?我們使用了一種單獨(dú)的信號(hào),把所謂的獎(jiǎng)勵(lì)信號(hào)傳遞給這些人工神經(jīng)元。
強(qiáng)化學(xué)習(xí)的應(yīng)用有很多,而且我?guī)缀趺刻於紩?huì)聽(tīng)到新的應(yīng)用場(chǎng)景。當(dāng)然包括棋類(lèi)游戲、機(jī)器人、能源管理、自動(dòng)駕駛、交易與金融、自然語(yǔ)言處理、醫(yī)療健康——凡是序貫決策很重要的地方都可能用得上。比如,隨著時(shí)間推進(jìn)去安排治療方案,依據(jù)每個(gè)階段的結(jié)果來(lái)制定化療計(jì)劃。對(duì)于大語(yǔ)言模型來(lái)說(shuō),也有大量應(yīng)用,比如微調(diào),以及其他大語(yǔ)言模型可以借助的過(guò)程。
所謂深度強(qiáng)化學(xué)習(xí)(deep reinforcement learning),就是把強(qiáng)化學(xué)習(xí)和深度神經(jīng)網(wǎng)絡(luò)結(jié)合起來(lái)。因此,這些享樂(lè)型神經(jīng)元的輸入,就會(huì)來(lái)自一個(gè)可能具有很深層級(jí)的網(wǎng)絡(luò)的輸出。
這個(gè)想法其實(shí)出現(xiàn)得非常早,甚至早于計(jì)算機(jī)本身。在 20 世紀(jì) 30 年代,人們已經(jīng)在使用機(jī)電裝置,本質(zhì)上做的就是強(qiáng)化學(xué)習(xí)。這是華盛頓大學(xué)心理學(xué)領(lǐng)域 Stephen Smith 的工作:那其實(shí)有點(diǎn)像一輛模型火車(chē),可以自己決定在軌道上往哪個(gè)方向走。不過(guò)那是 1935 年,所以這個(gè)思路的歷史真的非常久遠(yuǎn)。
當(dāng)然,在心理學(xué)中,操作性條件作用——或者說(shuō)強(qiáng)化學(xué)習(xí)——也一度是研究動(dòng)物學(xué)習(xí)時(shí)最熱門(mén)的話(huà)題之一。
![]()
另外,就我所知,最早提出在數(shù)字計(jì)算機(jī)上實(shí)現(xiàn) RL 的想法的人,是 Alan Turing。他描述過(guò)一個(gè)“快樂(lè)—痛苦系統(tǒng)”(pleasure-pain system)。他的原話(huà)大致是這樣:
“當(dāng)系統(tǒng)到達(dá)某個(gè)配置,而在該配置下應(yīng)采取什么動(dòng)作尚未確定時(shí),就會(huì)針對(duì)缺失的數(shù)據(jù)做出一次隨機(jī)選擇,并在描述中寫(xiě)入相應(yīng)條目。如果隨后出現(xiàn)痛苦刺激,這些暫時(shí)寫(xiě)入的條目就會(huì)被取消;如果隨后出現(xiàn)快樂(lè)刺激,它們就會(huì)全部被永久保留。”
這件事發(fā)生在 1948 年。Turing 本人并沒(méi)有真正把它實(shí)現(xiàn)出來(lái),因?yàn)樗?dāng)時(shí)能用到的那種計(jì)算機(jī)實(shí)際上還并不存在。但這已經(jīng)是對(duì)某類(lèi)強(qiáng)化學(xué)習(xí)系統(tǒng)非常清晰的表述了。
Claude Shannon 那只名叫 Theseus 的“老鼠”,本質(zhì)上也是一個(gè)強(qiáng)化學(xué)習(xí)系統(tǒng)。嚴(yán)格說(shuō)來(lái),真正進(jìn)行學(xué)習(xí)的其實(shí)不是“老鼠”本身,而是它所運(yùn)行的那個(gè)迷宮,但那仍然是一個(gè)本質(zhì)上依賴(lài)強(qiáng)化學(xué)習(xí)的迷宮求解系統(tǒng)。
我只想強(qiáng)調(diào)一點(diǎn):它必須去探索。沒(méi)有人告訴它該走哪條岔路,它必須自己去試,看看這些路到底通向哪里。
再往后,F(xiàn)arley 和 Clark 在 1954 年做的工作——據(jù)我所知——是第一次在數(shù)字計(jì)算機(jī)上模擬一個(gè)會(huì)學(xué)習(xí)的自適應(yīng)人工神經(jīng)網(wǎng)絡(luò)。
![]()
他們研究了一個(gè)網(wǎng)絡(luò),當(dāng)時(shí)使用的是一臺(tái)擁有 4K 個(gè) 16 位字的機(jī)器,并實(shí)現(xiàn)了 64 個(gè)隨機(jī)線(xiàn)性閾值單元(stochastic linear threshold units)。他們用強(qiáng)化過(guò)程來(lái)訓(xùn)練這個(gè)網(wǎng)絡(luò),目標(biāo)是:依據(jù)輸入模式,讓一組輸出單元的激活高于另一組。
所以,這是一個(gè)在數(shù)字計(jì)算機(jī)上實(shí)現(xiàn)的聯(lián)想式強(qiáng)化系統(tǒng);據(jù)我判斷,這是這一類(lèi)系統(tǒng)的第一次實(shí)例。
后來(lái)第二年,在下一篇論文里,Clark 和 Farley 用的還是同一個(gè)網(wǎng)絡(luò),但他們改做了監(jiān)督學(xué)習(xí),并且開(kāi)始對(duì)模式識(shí)別和泛化感興趣——從標(biāo)題里你就能看出來(lái)。
![]()
所以在我看來(lái),這幾乎就標(biāo)志著人們開(kāi)始放棄強(qiáng)化學(xué)習(xí),轉(zhuǎn)而擁抱監(jiān)督學(xué)習(xí);而監(jiān)督學(xué)習(xí)后來(lái)也確實(shí)成了機(jī)器學(xué)習(xí)、或者說(shuō)神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)中更突出的主流研究對(duì)象。
Marvin Minsky 的博士論文,其實(shí)做的也是強(qiáng)化學(xué)習(xí)。他使用了一種叫作隨機(jī)神經(jīng)模擬強(qiáng)化計(jì)算器(stochastic neural analog reinforcement calculators, SNARCs)的裝置,它們實(shí)際上就很像突觸。這是一個(gè)非常明確的強(qiáng)化學(xué)習(xí)系統(tǒng),他在自己那篇著名的 1961 年論文里也談了很多。
他討論了“信用分配問(wèn)題”(credit assignment),也就是如何把訓(xùn)練信息送到正確的位置、并在正確的時(shí)間送達(dá)。在那里,這個(gè)問(wèn)題就是在強(qiáng)化學(xué)習(xí)的語(yǔ)境下提出的。因此,我們后來(lái)參與的很多強(qiáng)化學(xué)習(xí)工作,本質(zhì)上都在處理信用分配問(wèn)題,而這正是讓這些系統(tǒng)真正起作用的關(guān)鍵所在。
![]()
當(dāng)然,Minsky 后來(lái)轉(zhuǎn)向了邏輯機(jī)器(logic machines),不再繼續(xù)走這條路;但他的博士論文直到今天讀起來(lái)仍然非常有意思。
Arthur Samuel 的跳棋程序(checker player)也是 AI 史上的一個(gè)里程碑,而且我認(rèn)為它本質(zhì)上也是一個(gè)強(qiáng)化學(xué)習(xí)系統(tǒng)——盡管有些人未必同意這個(gè)判斷。但它確實(shí)是通過(guò)自我博弈(self-play)來(lái)學(xué)習(xí)的。
他的核心想法是:他希望給棋盤(pán)上的每一個(gè)局面打分,使這個(gè)分?jǐn)?shù)看起來(lái)像是“在真實(shí)對(duì)弈中最有可能發(fā)生的那串走子最終所對(duì)應(yīng)的終局局面”的分?jǐn)?shù)。換句話(huà)說(shuō),這個(gè)分?jǐn)?shù)其實(shí)是在預(yù)測(cè)整局棋最終的結(jié)果。
![]()
這個(gè)想法在強(qiáng)化學(xué)習(xí)中當(dāng)然極其關(guān)鍵,事實(shí)上,它也正是把這一領(lǐng)域與最優(yōu)控制(optimal control)和動(dòng)態(tài)規(guī)劃(dynamic programming)聯(lián)系起來(lái)的橋梁。動(dòng)態(tài)規(guī)劃是 Richard Bellman 提出的術(shù)語(yǔ),原本指的是一種處理多種不同問(wèn)題——尤其也包括最優(yōu)控制問(wèn)題——的計(jì)算過(guò)程。
更具體地說(shuō),在最優(yōu)控制里,給狀態(tài)賦分的這個(gè)過(guò)程對(duì)應(yīng)的就是價(jià)值函數(shù)(value functions)。這里有一個(gè)公式,表示從某個(gè)特定初始狀態(tài)出發(fā)時(shí)的期望回報(bào)(expected return)。所以,這其實(shí)就是對(duì)一個(gè)狀態(tài)的打分,而這個(gè)分?jǐn)?shù)反映的是:從該狀態(tài)出發(fā)后,未來(lái)能夠獲得的期望獎(jiǎng)勵(lì)。
還有一種變體會(huì)把動(dòng)作也一起納入考慮。因此,用來(lái)學(xué)習(xí)這些量的算法,本來(lái)是經(jīng)典的動(dòng)態(tài)規(guī)劃算法;但我們后來(lái)做成了一種更簡(jiǎn)單、遞歸式的形式。
特別是 Rich Sutton——也就是憑借這項(xiàng)工作,和我共同獲得圖靈獎(jiǎng)的人——提出了今天所謂的時(shí)序差分算法(temporal-difference algorithm)。
![]()
它本質(zhì)上是一種誤差校正過(guò)程。這個(gè)誤差項(xiàng),就是“當(dāng)前獎(jiǎng)勵(lì) + 對(duì)未來(lái)獎(jiǎng)勵(lì)的一個(gè)估計(jì)”,再減去“先前對(duì)未來(lái)獎(jiǎng)勵(lì)的估計(jì)”。如果把這個(gè)誤差項(xiàng)用于一個(gè)監(jiān)督學(xué)習(xí)算法里,并且算法收斂了,那么它最終就會(huì)收斂到價(jià)值本身。在這里沒(méi)有折扣因子,因此這個(gè)價(jià)值就是未來(lái)獎(jiǎng)勵(lì)的總和。所以它實(shí)際上是在估計(jì)當(dāng)前狀態(tài)的狀態(tài)價(jià)值。
這個(gè)想法如今已經(jīng)被非常廣泛地使用。
我們當(dāng)時(shí)想親自試一試這個(gè)思路,于是看到了 Donald Michie 和 Roger Chambers 在 1968 年發(fā)表的一篇論文,來(lái)自愛(ài)丁堡大學(xué)。這是一個(gè)經(jīng)典控制問(wèn)題。他們把它稱(chēng)為BOXES,因?yàn)樗麄儼训沽[小車(chē)系統(tǒng)(cart-pole system)的狀態(tài)空間劃分成一個(gè)個(gè)“盒子”,每個(gè)盒子都對(duì)應(yīng)某種狀態(tài)索引。每個(gè)盒子里都有一個(gè)所謂的 demon,它會(huì)記錄自己提出了什么動(dòng)作,以及在采取這個(gè)動(dòng)作之后,桿子被維持平衡了多久。
![]()
這個(gè)系統(tǒng)確實(shí)學(xué)會(huì)了保持平衡。小車(chē)—倒立擺本來(lái)就是一個(gè)經(jīng)典控制問(wèn)題。
我們對(duì)這個(gè)問(wèn)題很感興趣,于是沿用了這種問(wèn)題設(shè)定,進(jìn)一步構(gòu)建了后來(lái)被稱(chēng)為actor-critic 的系統(tǒng)。
我們用了兩個(gè)類(lèi)似神經(jīng)元的單元:一個(gè)是我們稱(chēng)作自適應(yīng)評(píng)判器單元(adaptive critic element)的部分,另一個(gè)則是聯(lián)想搜索單元(associative search element)。
![]()
所以,critic 是一個(gè)基于時(shí)序差分進(jìn)行預(yù)測(cè)的單元,而聯(lián)想搜索單元?jiǎng)t是一個(gè)遵循效果律的單元。我們現(xiàn)在會(huì)區(qū)分 reinforcement 和 reward。我們當(dāng)時(shí)把這里的 reinforcement 實(shí)際上視為 reward,而 TD 誤差則被用作傳給 actor 的強(qiáng)化信號(hào)。
這是我們 1983 年發(fā)表的一篇論文。它實(shí)際上是我們被引用最多的論文之一。最近我還寫(xiě)過(guò)一篇文章,專(zhuān)門(mén)回顧我們當(dāng)時(shí)是怎么完成這項(xiàng)工作的,其中有哪些問(wèn)題、有哪些困難,以及我們?cè)谀瞧撐睦锓高^(guò)哪些錯(cuò)誤——這些錯(cuò)誤我們自己也很遺憾。比如說(shuō),我們?cè)诜抡胬锇阎亓Φ姆?hào)寫(xiě)反了;但那些試圖復(fù)現(xiàn)實(shí)驗(yàn)的人會(huì)說(shuō),我們的系統(tǒng)居然一下就把桿子平衡住了。其實(shí)那是因?yàn)橹亓Ψ较虮緛?lái)就反過(guò)來(lái)了。
于是,這就演化成了今天強(qiáng)化學(xué)習(xí)中所說(shuō)的 actor-critic 系統(tǒng)。
正如我前面提到的,Google 開(kāi)發(fā)的圍棋程序 AlphaGo Zero,在沒(méi)有事先輸入人類(lèi)棋譜的情況下,也是通過(guò)與自己對(duì)弈來(lái)學(xué)習(xí)的,這一點(diǎn)和很久以前 Samuel 的做法非常相似。當(dāng)然,這些問(wèn)題難得多,但無(wú)論有沒(méi)有先驗(yàn)信息,它們最終都學(xué)會(huì)了極高水平的博弈能力。
![]()
類(lèi)似的思路也出現(xiàn)在 DeepMind 的AlphaProof中。你可以看到,在那張流程圖的后半部分,基本上就是 AlphaGo Zero 的思路,只不過(guò)它的獎(jiǎng)勵(lì)來(lái)自“證明是否成功”,而證明本身是一系列操作構(gòu)成的序列。所以,這套思想已經(jīng)滲透進(jìn)了一些相當(dāng)驚人的成果之中。
下面我想簡(jiǎn)單談一下大腦。
![]()
多巴胺(dopamine)是一種神經(jīng)調(diào)質(zhì)(neuromodulator),由大腦中一些很小的區(qū)域產(chǎn)生,但會(huì)廣泛分布到大腦的許多不同區(qū)域。多巴胺與我們感受到的愉悅和獎(jiǎng)勵(lì)有關(guān);在經(jīng)典觀點(diǎn)里,人們常常認(rèn)為,這些產(chǎn)生多巴胺的腦區(qū)輸出的就是獎(jiǎng)勵(lì)信號(hào)。
而 Wolfram Schultz——現(xiàn)在在劍橋大學(xué)的一位神經(jīng)科學(xué)家——做過(guò)一些關(guān)鍵實(shí)驗(yàn)。他在清醒、能夠自主行為的猴子身上記錄多巴胺神經(jīng)元的活動(dòng),因?yàn)樗胫溃哼@些神經(jīng)元到底在做什么,它們的信號(hào)又是什么樣子。
他發(fā)現(xiàn),在最開(kāi)始的時(shí)候,猴子會(huì)在這個(gè)實(shí)驗(yàn)裝置里得到葡萄干之類(lèi)的獎(jiǎng)勵(lì);起初,當(dāng)獎(jiǎng)勵(lì)真正送達(dá)時(shí),會(huì)出現(xiàn)一個(gè)很大的反應(yīng),你們?cè)诘谝粭l記錄軌跡里就能看到。
但如果事先有一個(gè)預(yù)測(cè)信號(hào)(predictor),會(huì)發(fā)生什么呢?多巴胺神經(jīng)元的反應(yīng)會(huì)在時(shí)間上向前移動(dòng),并且不再出現(xiàn)在獎(jiǎng)勵(lì)真正到來(lái)的那個(gè)時(shí)刻。也就是說(shuō),它會(huì)回溯到那個(gè)預(yù)測(cè)信號(hào)上;如果還有更早的預(yù)測(cè)信號(hào),它又會(huì)繼續(xù)往更早的地方移動(dòng)。如果你在原本應(yīng)該給出獎(jiǎng)勵(lì)的時(shí)刻沒(méi)有真正給獎(jiǎng)勵(lì),就會(huì)出現(xiàn)一個(gè)負(fù)向下陷(depression);在最下面張柱狀圖里,這一點(diǎn)看得最清楚。你會(huì)看到,在原本獎(jiǎng)勵(lì)應(yīng)該出現(xiàn)的位置,會(huì)出現(xiàn)一個(gè)明顯下陷。
這件事當(dāng)時(shí)讓神經(jīng)科學(xué)家非常困惑;但我們這些了解 TD 算法的人知道,TD 誤差恰恰就會(huì)表現(xiàn)出這種現(xiàn)象。這里其實(shí)只是快速展示了一下:在 Wolfram Schultz 所做實(shí)驗(yàn)的類(lèi)似情境中,這個(gè) delta 項(xiàng)會(huì)如何變化。
這件事幾乎有種不可思議的巧合意味,因?yàn)樵?TD 算法被提出的時(shí)候,那些實(shí)驗(yàn)結(jié)果還根本沒(méi)人知道。后來(lái),這條線(xiàn)索催生出了如今所謂的“獎(jiǎng)勵(lì)預(yù)測(cè)誤差假說(shuō)”(reward-prediction-error hypothesis),由 Schultz、Peter Dayan 和 Montague 在 1997 年提出。
這個(gè)假說(shuō)認(rèn)為:中腦多巴胺神經(jīng)元的相位性活動(dòng)(phasic activity)所傳遞的,是對(duì)未來(lái)期望獎(jiǎng)勵(lì)的新舊估計(jì)之間的誤差——換句話(huà)說(shuō),也就是 TD 誤差。這個(gè)假說(shuō)讓神經(jīng)科學(xué)家獲得了很大啟發(fā);隨后人們做了大量實(shí)驗(yàn),發(fā)現(xiàn)它在很多類(lèi)型的實(shí)驗(yàn)中都能得到支持——當(dāng)然,也不是所有實(shí)驗(yàn)都如此。因此,這一假說(shuō)和其他想法之間一直存在持續(xù)的辯論與互動(dòng)。不過(guò),TD 誤差這一思路,確實(shí)讓我們對(duì)多巴胺機(jī)制有了新的理解。
所以我認(rèn)為,它確實(shí)改變了神經(jīng)科學(xué)家理解獎(jiǎng)勵(lì)系統(tǒng)的方式。
好,現(xiàn)在還有很多其他話(huà)題我沒(méi)法展開(kāi):比如無(wú)模型強(qiáng)化學(xué)習(xí)(model-free RL)——我剛才主要講的其實(shí)就是這個(gè);還有基于模型的強(qiáng)化學(xué)習(xí)(model-based RL),在那里面你會(huì)擁有一個(gè)環(huán)境模型。我們還可以談規(guī)劃、推理、問(wèn)題求解、工作記憶。強(qiáng)化學(xué)習(xí)并不排斥把世界模型納入整個(gè)系統(tǒng)的一部分。
現(xiàn)在人們也在研究更好的算法、更穩(wěn)定的算法、策略梯度算法(policy-gradient algorithms)、多智能體強(qiáng)化學(xué)習(xí)(multi-agent RL)——這又回到了 Klopf 最初那個(gè)想法:神經(jīng)元構(gòu)成了一個(gè)強(qiáng)化學(xué)習(xí)智能體的社會(huì)。還有人研究所謂的分布強(qiáng)化學(xué)習(xí)(distributional RL):它不再只是預(yù)測(cè)期望獎(jiǎng)勵(lì),而是嘗試去學(xué)習(xí)一個(gè)完整的分布,而不僅僅是期望值。
此外,還有計(jì)算精神病學(xué)(computational psychiatry)方向,它會(huì)利用這些思想,幫助我們理清某些精神疾病中大腦究竟發(fā)生了什么。
最后再說(shuō)一點(diǎn),強(qiáng)化學(xué)習(xí)面臨的一大挑戰(zhàn),就是獎(jiǎng)勵(lì)設(shè)計(jì)問(wèn)題。在有些情況下,比如游戲里,定義贏或輸很容易;但在其他類(lèi)型的問(wèn)題中,事情就沒(méi)有那么簡(jiǎn)單。
控制論之父 Norbert Wiener 早在半個(gè)多世紀(jì)前,其實(shí)就提醒過(guò)人們這個(gè)問(wèn)題。他當(dāng)時(shí)講的還不一定是強(qiáng)化學(xué)習(xí),而更廣義地是在談優(yōu)化(optimization)。當(dāng)你指定了一個(gè)目標(biāo)函數(shù),你其實(shí)并不知道還會(huì)連帶引入什么別的東西。
用他的話(huà)說(shuō):系統(tǒng)會(huì)給你“你所要求的東西”,但不一定給你“你本該要求的東西”,或者“你真正想要的東西”。
Nick Bostrom——那位寫(xiě)過(guò)一本關(guān)于人工智能問(wèn)題、頗有影響力著作的人——把這種現(xiàn)象稱(chēng)作“反向?qū)嵗保╮everse instantiation)。Wiener 也舉過(guò)一個(gè)典型例子:邁達(dá)斯之觸(Midas touch)。他許愿自己碰到什么都能變成金子,結(jié)果碰到自己的女兒,女兒也變成了金子,諸如此類(lèi)。
所以,這是一個(gè)經(jīng)典問(wèn)題。它并不是隨著 RL 才出現(xiàn)的新問(wèn)題。我認(rèn)為它非常重要,尤其是在智能體化 AI(agentic AI)的語(yǔ)境下更是如此。如果智能體真的被釋放出去,而它們又是強(qiáng)化學(xué)習(xí)智能體,那么你事先并不知道它們最終會(huì)想出什么辦法來(lái)。因此,你需要護(hù)欄(guardrails),也需要大量實(shí)驗(yàn),來(lái)確認(rèn)它們做的事情真的是你希望它們做的。
好,我最后想說(shuō)的是:強(qiáng)化學(xué)習(xí)與神經(jīng)網(wǎng)絡(luò)的計(jì)算研究,它們的歷史從一開(kāi)始就是緊密交織在一起的。兩者最初都源于關(guān)于大腦如何運(yùn)作、如何學(xué)習(xí)的假說(shuō),而且從誕生之初,它們的發(fā)展就是相互耦合的。
我剛才提到了 RL 和智能體化 AI,我認(rèn)為這對(duì)于自我改進(jìn)型智能體來(lái)說(shuō)是一個(gè)關(guān)鍵議題。如今,深度強(qiáng)化學(xué)習(xí)的計(jì)算能力,再加上我們近年對(duì)大腦獎(jiǎng)勵(lì)系統(tǒng)的研究結(jié)果,正在指向下一輪突破可能出現(xiàn)的方向。
![]()
問(wèn)答環(huán)節(jié):強(qiáng)化學(xué)習(xí)是通向通用人工智能(AGI)的唯一道路嗎?
演講結(jié)束后,南洋理工大學(xué)校長(zhǎng)講座教授、人工智能交叉研究院院長(zhǎng)安波教授,與巴托教授開(kāi)展了學(xué)術(shù)對(duì)話(huà)。以下為內(nèi)容翻譯:
安波:謝謝你帶來(lái)這場(chǎng)非常精彩的主題演講,也謝謝你對(duì)強(qiáng)化學(xué)習(xí)歷史中一些非常重要概念的回顧。我有幾個(gè)問(wèn)題想請(qǐng)教你,第一個(gè)問(wèn)題是:強(qiáng)化學(xué)習(xí)是否就是通向 AGI 的那條路。我想像 Rich Sutton、David Silver 這樣一些人會(huì)主張,RL 是走向 AGI 的唯一道路。但也有另一些人,比如 Yann LeCun,并不這么認(rèn)為。我們很想聽(tīng)聽(tīng)你的看法。或者說(shuō),也許會(huì)有好幾種不同的架構(gòu),都可能通向 AGI。
安德魯·巴托:是的,這是個(gè)非常好的問(wèn)題。
我認(rèn)為,各種不同形式的學(xué)習(xí)都會(huì)參與到通用人工智能之中。RL 確實(shí)有一些其他方法不具備的能力,但其他方法也同樣有 RL 不具備的能力。
比如說(shuō),RL 真的很難。它需要很長(zhǎng)時(shí)間,需要大量試驗(yàn)。這些博弈系統(tǒng)會(huì)和自己對(duì)弈數(shù)百萬(wàn)次。所以我覺(jué)得,真正起作用的絕不只是純粹的 RL。
我能理解 Sutton 他們?yōu)槭裁磿?huì)認(rèn)為“只要 RL 就夠了”,但我個(gè)人傾向于不認(rèn)為世界上只有這一種東西。它也許是一個(gè)必要組成部分——就像我在演講開(kāi)頭引用的那位哲學(xué)家所說(shuō)的,它是必要的——但我不認(rèn)為僅靠它就足夠了。這就是我對(duì)這個(gè)問(wèn)題的看法。
安波:謝謝。下一個(gè)問(wèn)題是:我記得我讀博士那會(huì)兒,RL 方向的人在工業(yè)界找工作其實(shí)很難。那時(shí)候,SVM 之類(lèi)的話(huà)題在工業(yè)界特別重要、也特別流行。但現(xiàn)在,RL 已經(jīng)變得非常重要了,比如大語(yǔ)言模型里的 RLHF,如今在智能體方向人們也在做 agentic RL。
最近還有一些研究——我想是經(jīng)驗(yàn)層面的——展示了 RL 的能力。那么,這是否意味著你在把模型的分布收縮到某些可達(dá)且高回報(bào)的軌跡上?有些人猜測(cè),RL 本身并不能建立新的能力,它只是把已有能力激發(fā)出來(lái)。這對(duì)我們?nèi)绾畏峙渌懔?huì)有非常大的影響:是投給基座模型,還是投給 RL?因?yàn)槿绻@是真的,那么基座模型的 scaling 其實(shí)也就決定了 RL 的 scaling。所以我想知道你怎么看:RL 到底能不能真正建立新能力,還是說(shuō)它仍然只是在從基座模型里激發(fā)出已有能力?
安德魯·巴托:是的,這是個(gè)很有意思的問(wèn)題。
在 RL 里,系統(tǒng)必須進(jìn)行探索(explore),這意味著它必須去嘗試那些并不是事先預(yù)設(shè)好的、也不是由既有行為直接推導(dǎo)出來(lái)的東西。從計(jì)算實(shí)現(xiàn)上看,常見(jiàn)做法是:系統(tǒng)會(huì)時(shí)不時(shí)做出一些原本發(fā)生概率非常非常低、甚至理論上概率為零的動(dòng)作——這就是你的探索。它對(duì)于發(fā)現(xiàn)新東西來(lái)說(shuō)是必不可少的。
所以,我認(rèn)為“RL 只會(huì)激發(fā)現(xiàn)有能力”這個(gè)假設(shè)并不正確。事實(shí)上,我知道有些人甚至?xí)M(jìn)一步主張:發(fā)現(xiàn)新東西的唯一方式就是 RL。對(duì)此我自己也不完全同意,但這確實(shí)是一種相當(dāng)常見(jiàn)的看法。
正如我前面提到的,探索與利用(exploit)是這些系統(tǒng)的核心:它們既要探索,也要利用,并且必須在兩者之間找到某種平衡。實(shí)現(xiàn)這種平衡的方法有很多。我覺(jué)得我們?nèi)祟?lèi)自己也是這樣。有時(shí)候我們?cè)谔剿鳎恢澜Y(jié)果會(huì)是什么,也不知道會(huì)發(fā)生什么;有時(shí)候我們知道自己在做什么,于是就會(huì)利用這種確定性,去獲取它所能帶來(lái)的好處。
但我認(rèn)為,“利用與探索”這對(duì)機(jī)制,本質(zhì)上是隨機(jī)系統(tǒng)的一種回報(bào)結(jié)構(gòu)。所謂隨機(jī)系統(tǒng),就是結(jié)果本身帶有不確定性的系統(tǒng)。所以,說(shuō) RL 只能激發(fā)現(xiàn)有行為,我覺(jué)得是不對(duì)的;它實(shí)際上可以發(fā)現(xiàn)新的行為。尤其是在討論序貫決策問(wèn)題時(shí),這一點(diǎn)更明顯:因?yàn)槟呐滦蛄兄械拿恳粋€(gè)單步動(dòng)作,其后果都是相對(duì)已知的,整個(gè)序列組合起來(lái),卻仍然可能產(chǎn)生非常不一樣、甚至全新的結(jié)果。這就是我對(duì)這個(gè)問(wèn)題的看法。這個(gè)問(wèn)題非常好。
安波:我想今天現(xiàn)場(chǎng)應(yīng)該有很多博士生。你能不能給這些年輕人一些研究方向上的建議?也就是,從概念上看,哪些 RL 方向是值得他們從現(xiàn)在開(kāi)始投入去做的?
安德魯·巴托:可以。我覺(jué)得首先是多智能體強(qiáng)化學(xué)習(xí)(multi-agent RL)。已經(jīng)有人在做了,但我認(rèn)為它仍然研究得不夠充分。當(dāng)然,我們自己其實(shí)一直也沒(méi)有真正做到這一步,因?yàn)樗浅ky,確實(shí)很難。可是,“神經(jīng)系統(tǒng)是許多強(qiáng)化學(xué)習(xí)智能體相互作用的結(jié)果”這個(gè)想法——人們研究過(guò),我們也研究過(guò)——但還有大量工作可以做。所以,多智能體 RL 是一個(gè)方向。
另外,我覺(jué)得在醫(yī)療領(lǐng)域也有一些很有意思的應(yīng)用。比如針對(duì)慢性病,去設(shè)計(jì)時(shí)間跨度較長(zhǎng)的治療方案;這些決策過(guò)程,完全有可能通過(guò) RL 得到改進(jìn)。
所以如果要我選,我大概還是會(huì)堅(jiān)持多智能體這個(gè)方向。就我自己的工作來(lái)說(shuō),如果你去看我們那本書(shū),就會(huì)發(fā)現(xiàn)我們其實(shí)并沒(méi)有太多篇幅談多智能體。這是因?yàn)樗娴暮茈y,我們自己也沒(méi)能在這方面做得特別深入。但別人已經(jīng)做了一些。所以除此之外,當(dāng)然還有神經(jīng)科學(xué)——也就是 RL 與神經(jīng)科學(xué)的交叉。我認(rèn)為,用機(jī)器學(xué)習(xí)的一些概念,尤其是 RL 的概念,去觀察神經(jīng)系統(tǒng),可以獲得很多新的知識(shí);而現(xiàn)在也確實(shí)已經(jīng)有不少神經(jīng)科學(xué)家在這樣做。
所以,是的,大概就是這些。也許還有別的方向,但我現(xiàn)在一時(shí)想不起來(lái)了。
安波:感謝您這場(chǎng)很有啟發(fā)性的演講,也希望未來(lái)還能見(jiàn)到你。
CSDN 6 月寵粉福利
200 小時(shí) GP U 算力免費(fèi)領(lǐng)
瑞幸咖啡/肯德基早餐/下午茶等能量套餐任選其一
入群還可每月定期抽取旗艦顯卡、AI PC 等極客神裝
![]()
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.