網易首頁 > 網易號 > 正文申請入駐

從鴿子到人工智能，強化學習怎樣按人類的意愿行事？

2025-10-26 20:08:03　來源: 新發現雜志

上海舉報

分享至

人工智能（AI）堪稱當下最熱門的科技詞匯之一。隨著ChatGPT、DeepSeek等人工智能工具的出現，我們在親眼見證甚至親自體驗人工智能的力量的同時，卻也在目睹學術界和產業界領軍人物對人工智能的潛在風險發出警告：本應和人類相向而行的人工智能，卻很有可能和人類背道而馳。而如果我們想避免發生人工智能挑戰人類的事情，當務之急是解決“對齊問題”。

美國計算機科學暢銷書作家布萊恩·克里斯汀（Brian Christian）就瞄準“對齊問題”，在他的作品《人機對齊：如何讓人工智能學習人類價值觀》中以廣闊的視野探討了諸多涉及人工智能的關鍵問題，呈現了機器學習和人類價值觀之間的深層聯系。以下這些來自克里斯汀書中的內容，讓我們看到早期對鴿子和其他動物的研究如何啟發了當今人工智能中的強化學習以及背后的挑戰和困境。

1943年，斯金納在研究一個戰時秘密項目，這個項目最初是由通用磨坊食品公司贊助的。通用磨坊把明尼阿波利斯金牌面粉廠的頂樓給斯金納做實驗室。這個項目是當時最大膽的構想之一：斯金納打算訓練鴿子啄食轟炸目標的圖像，然后把鴿子3只一組放在真正的炸彈里，在投彈時制導。“我和同事們知道，”斯金納說，“在全世界眼中，我們是瘋子。”

斯金納意識到，許多人會認為這個項目瘋狂且殘忍。關于瘋狂，他指出，人類將動物（超越人類）的感官用于人類目的的歷史悠久且有傳奇色彩：導盲犬、搜尋松露的豬，等等。關于殘忍，他辯解道：“我們是否有權將低等生物轉化為不自知的英雄，思考這個倫理問題是和平時期才有的奢侈。”

▲斯金納

斯金納長期致力于強化研究，他著名的“斯金納盒子”可以說是桑代克迷箱在20世紀中期的升級版。盒子中的燈、杠桿和機械食物給料器（通常是用自動售貨機改裝）可以對強化進行精確和定量的研究，它們將被幾代研究人員沿用（例如舒爾茨將其用于研究猴子的多巴胺）。1950年代，斯金納利用他的盒子研究動物如何在各種條件下學會采取行動來最大化獎勵（通常是以食物的形式）。他提出了“強化程序”的概念，測試了各種類型的強化程序并觀察效果。例如，他比較了按“比率”強化（一定數量的正確行為會得到獎勵）與按“間隔”強化（一定時間后的正確行為會得到獎勵）。他測試了“固定”和“可變”強化，前者的行為數量或時長保持不變，后者允許波動。斯金納的著名發現是，最強烈、最重復、最持久的行為往往來自可變比率的程序——也就是說，獎勵出現在重復多次的行為之后，但重復次數會波動。這些發現對理解賭博成癮有一定啟示——可悲的是，它們無疑也啟發了如何設計更容易讓玩家上癮的賭博游戲。

▲一個以小鼠為實驗對象的斯金納盒子

然而，在頂樓的秘密實驗室，斯金納還面臨另一個挑戰：不僅要弄清楚哪些強化程序能植入最根深蒂固的簡單行為，還要弄清楚如何僅僅通過獎勵來產生相對復雜的行為。有一次，當他和同事試圖教鴿子擊球時，困難變得很明顯。他們建了一個微型保齡球館，里面有木球和玩具球瓶，打算在鴿子向球猛擊時給予它第一次食物獎勵。不幸的是，什么都沒發生。鴿子沒有這樣做。實驗員等啊等啊……最終失去了耐心。

然后他們改變了策略。如斯金納所述：

我們決定強化任何與擊球稍有關聯的反應，也許起初只是看向球的行為，然后選擇更接近最終目標的反應。結果令我們驚訝。幾分鐘后，球開始在盒子壁間碰撞，就好像鴿子是壁球冠軍。

效果是如此驚人，以至于斯金納的兩位助手——瑪麗安·布雷蘭（Marian Breland）和凱勒·布雷蘭（Keller Breland）夫妻倆——決定放棄心理學學術生涯，成立一家動物訓練公司。“我們想利用斯金納的行為控制原理來謀生，”瑪麗安說。他們的動物行為公司將成為全世界同行業最大的公司，訓練各種動物在電視、電影、商業廣告和海洋世界等主題公園中表演。不僅僅是謀生：他們建立了一個王國。

斯金納也認為,在面粉廠秘密實驗室的微型保齡球館里的這一刻對他是一種頓悟，改變了他職業生涯的軌跡。他認為，關鍵是“通過強化與最終目標大致相似的行為來逐漸塑造行為，而不是等待完全一樣的行為”。

然而，鴿子計劃最終沒有付諸實施。鴿子們干得非常出色，如此出色，以至于轉移了政府科學研究和發展辦公室委員會的注意力。“由活著的鴿子執行任務的景象，不管多么美麗，”斯金納寫道，“只會提醒委員會我們的提議多么不切實際。”斯金納當時還不知道，政府正在努力推進曼哈頓計劃，研發一種殺傷半徑非常大的炸彈，用他的話來說，“有一段時間，精確轟炸的需要似乎已經徹底消失了”。然而，鴿子項目最終在海軍研究實驗室找到了安頓之所，改名為 ORCON（“生物控制”的簡稱），研究一直持續到戰后的20世紀50年代。

斯金納認為這個概念已經證明可行，在20世紀50年代末，他自豪地寫道：“可以說，用生物來制導，不再是一個瘋狂的想法。”雖然可行，但已經不合時宜。關鍵是他們發現了塑造：通過簡單獎勵來灌輸復雜行為，獎勵一連串近似的行為。“這使得塑造動物的行為成為可能，”斯金納寫道，“就像雕塑家捏黏土一樣。”這個想法，以及這個術語，將在斯金納的職業生涯中扮演關鍵角色。他從一開始就意識到，它對商業和家庭生活都有影響。

他寫道：“其中一些（強化程序）類似工業中廣泛使用的不固定的日工資或計件工資；還有一些類似賭博機中精心設計的偶然事件，具有誘導持續行為的能力，讓人欲罷不能。”他還認為強化對養育子女可能產生顯著影響：“對強化的科學分析有助于更好地理解人際關系。無論是否有意，我們幾乎總是在強化他人的行為。”斯金納指出，父母的注意力是一個強大的強化因素，父母如果對禮貌的要求反應遲鈍，就可能在不知不覺中訓練孩子變得煩人和愛出風頭。（他說，補救方法是對可接受的吸引注意力的行為——而不是大喊大叫或不禮貌的行為——做出更迅速、更一致的回應。）

也許最具預言性的是，斯金納認為，基于他的研究發現的原理，廣義的教育，無論是針對人還是動物，可能會成為一個嚴格的、客觀的領域，這個領域有可能實現飛躍。正如他所說：“人們常說，教學是一門藝術，但我們越來越有理由希望它最終會成為一門科學。”斯金納可能比他預想的更正確。在21世紀，機器學習專家也可能會使用“塑造”這個術語，而且用法同心理學家一樣。對獎勵的研究，尤其是如何戰略性地管理獎勵以獲得你想要的行為，而不是你不想要的行為，的確已成為一門嚴格的定量科學，盡管可能不是像斯金納想象的那樣針對生物學習者。

“試錯法”這個短語可能是蘇格蘭哲學家亞歷山大·貝恩（Alexander Bain）在1855年創造的，用來描述人類和動物是如何學習。（他創造的另一個短語—— “探索實驗”——也很貼切，但似乎沒有流行起來。）

從最基本的角度來說，強化學習是通過試錯學習，這種試錯（也可以說是探索）最簡單的算法形式是所謂的“ε-貪婪”（厄普西隆―貪婪）算法。希臘字母 ε在數學上常用來表示“一點點”，ε-貪婪的意思就是“貪婪，除了一點點時間外”。一個按照ε-貪婪運行的自主體，大部分時間——比如說，99%——會根據到目前為止的有限經驗，采取它認為能帶來最大收益的行動。但是偶爾——例如，1%——會完全隨機地嘗試一些東西。比方說，在雅達利游戲中，偶爾隨機敲擊按鈕，看看會發生什么。

如何用這種探索行為學習，有許多不同的風格，但基本想法是相同的——反復學習，多做讓你得到獎勵的事情，少做讓你受懲罰的事情。你可以嘗試顯式地理解世界是如何運作的（“基于模型的”強化學習），或者打磨你的直覺（“無模型的”強化學習）來做到這一點。你也可以通過學習某種狀態或行為能帶來多少收益來做到這一點（“價值”學習），或者只需知道哪些策略總體上做得更好（“策略”學習）。不管怎樣，幾乎所有方法都是基于這樣一個想法：首先偶然成功，然后傾向于去做更多看起來有效的事情。

事實證明，有些任務比其他任務更適用這種方法。

例如，在像《太空入侵者》這樣的游戲中，成群的敵人向你撲來，你所能做的就是左移、右移和射擊。隨機敲擊按鈕可能有機會干掉幾個游戲角色，每個角色都值幾分，這些初步的分數就可以用來啟動學習過程，通過學習，某些行為模式得到加強，更好的策略得到發展。例如，你可能會發現，只有射擊才會得分，所以你會更頻繁地射擊，得分也會更多。這類游戲一般都有“密集”的獎勵，從而相對容易學習。

在其他游戲中，比如國際象棋，獎勵不是那么立竿見影，但它們仍然是確定的。一盤棋要么輸要么贏要么和棋，一般幾十步，幾乎不可能下到幾百步。即使你對策略一無所知，只會在棋盤上隨意擺弄，至少你很快就會知道你是贏了、輸了還是和棋。

然而，在許多情況下，獲得任何收益都是奇跡。斯金納就有親身體會，他在獎勵鴿子在迷你保齡球館擊球時發現了這一點。鴿子不知道它面對的是什么游戲，可能需要幾年時間才能做出正確行為。當然，它（和斯金納）在那之前早就餓死了。

機械學習者也是如此。例如，讓人形機器人將足球踢進網，可能需要對幾十個關節施加成千上萬次精確的扭矩，所有這些都必須完美協調。很難想象機器人隨意轉動幾十個關節能直立起來，與球進行有意義的接觸更難，更不要說將球送入網。

強化學習研究人員稱這個為稀疏獎勵問題，或者更簡潔地稱為稀疏問題。如果是根據最終目標或與最終目標相當接近的東西來給獎勵，那么人們基本上只能等待，直到隨機按按鈕或動作產生預期的效果。數學可以證明，大多數強化學習算法最終都會實現，但實際上，可能在太陽毀滅后很久才會實現。如果你試圖訓練一個圍棋程序來擊敗世界冠軍，而世界冠軍每次投子認輸你都獎勵它1分，否則就給0分，你將會等很長時間。

稀疏問題還有安全隱患。如果你打算利用ε-貪婪強化學習開發一種能力極強的超智能 AI，并且決定，如果它能治愈癌癥，你就獎勵它1分，如果它不能治愈癌癥，得0分，那你得小心，因為在它得到第一個獎勵之前，它將不得不做大量隨機嘗試。其中許多嘗試都很笨拙。

和布朗大學的邁克爾·利特曼（Michael Littman）聊天時，我問他，他對強化學習的研究對他教育子女有沒有幫助。他立刻想到了稀疏問題。他曾和妻子開玩笑說要對兒子使用稀疏獎勵：“這樣怎么樣？在他學會說中文前，我們不要給他東西吃。那會是很好的激勵手段！我們看看這行不行得通！”利特曼笑了。“我妻子頭腦非常清醒……她說：‘不，我們不玩這個游戲。’”

同斯金納一樣，利特曼當然知道不能那樣做。事實上，稀疏問題已經促使強化學習研究者去追溯斯金納的時代，他們相當直接地借鑒了他的建議。具體來說，他關于塑造的想法已經啟發了兩種不同但又相互交織的思想：一種是關于課程，另一種是關于激勵。

（本文摘編自《人機對齊：如何讓人工智能學習人類價值觀》的“塑造”一章，配圖和標題為編者所加）

書名：人機對齊：如何讓人工智能學習人類價值觀

?♂? 作者：[美]布萊恩·克里斯汀

譯者：唐璐

內容簡介

如今的“機器學習”系統已具備非凡能力，能夠在各種場合代替我們看和聽，并代表我們做決定。但是警鐘已經敲響。隨著機器學習飛速發展，人們的擔憂也在與日俱增。如果我們訓練的人工智能（AI）做的事情與我們真正的目的不符，就會引發潛在的風險和倫理問題。研究人員稱之為對齊問題（the alignment problem）。

暢銷書作家布萊恩·克里斯汀用生動的筆調，清晰闡釋了AI與我們息息相關的問題。在書中，我們將認識第一批積極應對對齊問題的學者，了解他們為了避免AI發展的局面失控，付出的卓絕努力和雄心勃勃的計劃。克里斯汀不僅精練地描繪了機器學習的發展史，并且親自深入科研一線同科學家對話，準確呈現了機器學習最前沿的進展。讀者可以清晰認識到，對齊問題研究的成敗，將對人類的未來產生決定性影響。對齊問題還是一面鏡子，將人類自身的偏見和盲點暴露出來，讓我們看清自己從未闡明的假設和經常自相矛盾的目標。這是一部精彩紛呈的跨學科史詩，不僅審視了人類的科技，也審視了人類的文化，時而讓人沮喪，時而又柳暗花明。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.