機(jī)器之心編輯部
真是令人意外。
PPO(Proximal Policy Optimization)這個(gè)后來(lái)在 RLHF 和大模型訓(xùn)練中被廣泛使用的經(jīng)典算法,當(dāng)年曾被 NIPS 2017 拒之門(mén)外。
這件事最近由 PPO 作者 John Schulman 本人提起。他只用一句話概括了這段往事:PPO,曾經(jīng)被 NIPS 2017 拒了。
![]()
這篇最早在 2017 年 7 月發(fā)布的論文,當(dāng)時(shí)看起來(lái)只是一個(gè)更簡(jiǎn)單、更工程友好的策略優(yōu)化算法。它的目標(biāo),是在保留 TRPO 穩(wěn)定性的同時(shí),降低實(shí)現(xiàn)復(fù)雜度,讓強(qiáng)化學(xué)習(xí)訓(xùn)練更好調(diào)、更實(shí)用。
![]()
- 論文標(biāo)題:Proximal Policy Optimization Algorithms
- 論文地址:https://arxiv.org/pdf/1707.06347
但幾年之后,真正把 PPO 推向更大舞臺(tái)的,反而不是 Atari、機(jī)器人控制這些傳統(tǒng)強(qiáng)化學(xué)習(xí)任務(wù),而是大語(yǔ)言模型。
從 RLHF 到今天的 RLVR,PPO 成了大模型后訓(xùn)練里繞不開(kāi)的基礎(chǔ)算法之一。按照 Schulman 的說(shuō)法,PPO 在 LLM 時(shí)代迎來(lái)第二波熱潮,原因甚至超出了原論文當(dāng)年的預(yù)期。
![]()
這看起來(lái)并不像是 Schulman 在抱怨當(dāng)年被拒稿,而更像是一種事后感慨:一項(xiàng)技術(shù)的真正影響力,往往會(huì)以發(fā)明者最初沒(méi)有預(yù)料到的方式釋放出來(lái)。
看到這里,很多人自然會(huì)好奇:PPO 當(dāng)年為什么會(huì)被拒?
Schulman 后來(lái)給出的解釋是,這篇論文在當(dāng)時(shí)被認(rèn)為創(chuàng)新性有限,相比已有基線方法的提升也不夠明顯。
![]()
有網(wǎng)友評(píng)論「這背后其實(shí)折射出學(xué)術(shù)評(píng)價(jià)與真實(shí)產(chǎn)業(yè)需求之間的一種錯(cuò)位。學(xué)術(shù)界往往更看重新穎性,以及在小規(guī)模、受控實(shí)驗(yàn)環(huán)境下相對(duì)基線的提升;而真實(shí)世界更在意的是方法能不能擴(kuò)展到更大規(guī)模,能不能在復(fù)雜系統(tǒng)里保持穩(wěn)定,能不能真正跑得起來(lái)。」
![]()
Schulman 對(duì)此也顯得很平和。他表示,那已經(jīng)是很久以前的事了,希望這些年過(guò)去之后,學(xué)術(shù)界已經(jīng)逐漸理解并吸收了這種「簡(jiǎn)單但可規(guī)模化」的審美。
真正讓他意外的是,PPO 這篇論文以及其中的目標(biāo)函數(shù),竟然能持續(xù)影響這么久。一個(gè)算法改動(dòng)到底只是很快被遺忘、被替代的小修小補(bǔ),還是會(huì)長(zhǎng)期留在系統(tǒng)里、變成難以超越的基礎(chǔ)組件,往往很難在一開(kāi)始就判斷出來(lái)。
而 PPO 的故事,恰恰說(shuō)明了這一點(diǎn)。
![]()
其實(shí)何止 PPO。AI 史上不少后來(lái)被證明影響深遠(yuǎn)的工作,都曾在最初投稿時(shí)被頂會(huì)拒之門(mén)外。
- LSTM:1996 年被 NIPS 拒稿,當(dāng)時(shí)被認(rèn)為過(guò)于復(fù)雜、缺乏生物學(xué)合理性。但后來(lái)成為語(yǔ)音識(shí)別、機(jī)器翻譯等序列建模任務(wù)的核心技術(shù)。
- SIFT:曾被 ICCV 1997、CVPR 1998 拒稿,原因是工程步驟繁瑣、不夠優(yōu)雅。但它后來(lái)統(tǒng)治前深度學(xué)習(xí)時(shí)代的計(jì)算機(jī)視覺(jué)十多年。
- Dropout:2012 年被 NIPS 拒稿,被認(rèn)為像工程 hack、理論解釋不夠嚴(yán)謹(jǐn)。但它后來(lái)成為深度神經(jīng)網(wǎng)絡(luò)最重要的正則化方法之一,并獲得 NeurIPS 時(shí)間檢驗(yàn)獎(jiǎng)。
更多案例請(qǐng)參考《被拒≠失敗!這些高影響力論文都被頂會(huì)拒收過(guò)》。
有時(shí)候,時(shí)間才是最嚴(yán)格、也最公平的評(píng)審。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.