編輯|Panda
咱們 AI 領域,研究者既是一個身份,也是一種幻覺。
很多人以為自己在做研究,其實只是在追論文、追熱點、追大廠的發布會……看起來很忙,實則在原地踏步。
近日,Anthropic 研究者 Vivek Nair 發布了一篇 長文,分享了他對于如何成為一位優秀研究者的見解。
![]()
- 原文地址:https://x.com/itsreallyvivek/status/2064686372737454155
他指出,真正的研究能力從來不是靠追熱點追出來的,而是由一系列可被刻意訓練的小技能疊加而成的:怎么選題、怎么讀文獻、怎么寫作、怎么加速實驗循環,每一條都有具體的方法,每一條都踩過真實的坑。
這篇文章沒有雞湯,只有干貨,讀完你可能會覺得有點刺痛;因為他說的,正是我們大多數人從未認真想過的問題。
這篇文章引發廣泛關注,很多研究者也參與討論。
![]()
![]()
![]()
Qwen 前負責人林俊旸也轉發分享了一下。
![]()
下面我們就來詳細看看這篇文章:
真的沒有人教你做研究。你會得到一張辦公桌,一個別人挑選好的問題,以及一個模糊的指示,要求你產出一些新穎的東西。因此,大多數人通過他們能看到的東西(即論文、帖子和公告)對這份工作進行逆向工程。
他們最終學到的是如何看起來像一個研究者,并未學到如何真正成為一個研究者。
真正的研究能力是由一堆較小的技能疊加而成的,其中幾乎每一項技能都可以被刻意訓練。
挑選你自己的問題
理查德·漢明(Richard Hamming)在貝爾實驗室有一個習慣,這讓他在午餐時很不受歡迎。他會問坐在他附近的人,他們那個領域的重要問題是什么。接著他會問,為什么他們沒有在研究這些問題。于是人們紛紛換桌子。
![]()
Richard Hamming(1915-1998)是美國數學家、計算機科學先驅,長期任職于 Bell Labs。他最著名的貢獻是提出了漢明碼(Hamming Code)和漢明距離(Hamming Distance),奠定了現代糾錯編碼與數字通信的重要基礎,使計算機和通信系統能夠檢測并糾正數據傳輸中的錯誤。除了技術研究外,Hamming 還以其關于科研方法論的思考聞名,其演講《You and Your Research》至今仍被廣泛傳播,被許多科學家和工程師視為關于如何開展重要研究的經典作品。
這個問題令人刺痛,因為我們大多數人都拿不出好的答案。我們不去選擇問題,只會吸收它們。我們從導師那里,從某個大實驗室上個季度宣布的內容里,從大家本周都在轉發引用的那篇論文里吸收問題。
吸收來的問題的麻煩在于,你只掌握了結論,卻缺乏推理過程。
你知道某個著名的實驗室關心某個方向。你不知道原因,不知道他們期望發現什么,也不知道什么會導致他們放棄這個方向。當他們轉換研究方向時,你會在一年后才發現。而且在一個已經很流行的問題上,你正與一千個起步更早、擁有比你更多算力的人同臺競爭。
約翰·舒爾曼(John Schulman)關于 ML 研究的指南將這項工作分為兩種模式。
![]()
http://joschu.net/blog/opinionated-guide-ml-research.html
第一種模式里,你閱讀文獻并尋找可以改進的地方。另一種模式下,你選擇一個你真心希望存在的結果,然后反向推理出所需的實驗。
他主張第二種方式。其背后的深層原因是這種方式能夠創造出原創性。一個你真正關心的目標會將你拖入沒有任何綜述論文涵蓋的領域。
與此同時,品味常被討論得像是一種天賦。但它的表現更像是一塊肌肉。在你運行每個實驗之前,先預測它的結果。遮住一篇論文的結果部分,僅根據方法來猜測數據。記下本月發布的哪些內容在 2 年后仍然重要,以后再來檢查你的預測命中率。一次預測加上一次糾正,重復幾百次,這就是每一個優秀模型被訓練出來的方式。你大腦里的那個模型也不例外。
升級你的輸入
共享的閱讀清單會產生共享的想法。如果你的信息來源是 arXiv 的趨勢頁面,加上那些在群聊過濾后幸存下來的內容,你必然會與其他人同時得出相同的結論。這會讓這些結論幾乎毫無價值。
舊資料的價值被嚴重低估了。這個領域總是延遲重演它自己的過去:混合專家模型可追溯到 1991 年,LSTM 可追溯到 1997 年,反向傳播在 1986 年成為主流。
理查德·薩頓(Rich Sutton)在 2019 年大約用了一千字寫下了「苦澀的教訓」。它比長度是其十倍的綜述文章更能準確預測該領域的發展輪廓。
![]()
http://www.incompleteideas.net/IncIdeas/BitterLesson.html
克勞德·香農(Claude Shannon)在 1952 年做了一場關于創造性思維(Creative Thinking)的演講。他的開場動作是將一個問題縮小到幾乎微不足道的程度,解決這個極小化版本,然后再將難度逐一引入。這一個技巧將幫助你突破障礙,其效果遠勝任何現代的生產力建議。
![]()
香農
知識的廣度與深度同樣重要。可解釋性毫無顧忌地從神經科學中借鑒內容。評估設計就是穿上了實驗室外套的機制設計。如果你對 GPU 實際如何移動內存有一種實踐層面的認知,你就能在基準測試結果出來之前,判斷出哪些架構論文注定會失敗。此外,誠實的統計學可能是 ML 中最罕見的技能。在這里,許多發表出來的所謂嚴謹研究,只是一種帶有誤差棒的虛假氛圍。
還有一件事。去閱讀論文本身,別去讀總結它的帖子。附錄才是真正隱藏關鍵細節的地方。而且,局限性部分通常是整篇文檔中最誠實的一段。
寫下一切
保羅·格雷厄姆(Paul Graham)指出,一個想法在你試圖用語言表達它之前,都會感覺已經完全成型。紙面書寫會發現你大腦掩蓋住的漏洞。比如你從未測試過的假設,其實缺乏連貫性的步驟,以及兩個暗中相互矛盾的主張。
費曼法則(Feynman's Rule)是,你必須避免愚弄的第一個人就是你自己。因為你是最容易被當作目標的。寫作是有史以來發明的最廉價的防御手段。
![]()
費曼
達爾文走得更遠,并使其程序化。任何與他的理論相悖的事實都會被當場寫下來。因為他發現自己的記憶刪除不利證據的速度,比刪除有利證據的速度快得多。
你的記憶對你那些失敗的實驗也會做同樣的事情。保持記錄的習慣:假設、設置、期望、結果、更新后的認知。重新閱讀上個月的記錄會讓你感到謙卑,這是任何審稿人都無法比擬的。
然后將其中一些內容公之于眾。奧拉和卡特關于研究債務的文章提出,各個領域都因為未被消化的想法而窒息。清晰的解釋不僅是一項服務工作,它就是一項真正的貢獻。今天許多從事可解釋性研究的人是通過易讀的帖子發現這個領域的,他們并未通過會議論文入門。大量的公開寫作也可以作為你能擁有的最強資歷。因為它是你思考方式的一份無法偽造的樣本。
收緊反饋循環
關于 Alec Radford 的故事很少涉及某一次單一的天才靈感。這些故事往往關乎數量。每天更多的運行次數,每周拋棄更多的錯誤想法,以及一個比任何人都更新得更快的現實模型。這才是真正的游戲規則。研究的速度主要取決于你發現自己犯錯的速度。
這使得開發工具成為了一項頂級的科研活動。啟動一次運行應該只需要一條命令。繪制結果圖表應該只需要多加一條命令。每一個實驗都應該能從其配置文件中復現。比較兩次運行應該只需要幾秒鐘,絕對不需要花一個下午去翻找歷史記錄。
Karpathy 訓練神經網絡的秘訣中有一個步驟,其回報百倍于投入:在大規模訓練之前,先在一個單批次數據上過擬合。只要 30 秒的時間,你的一半 bug 就會消失。縮小一切規模直到成本低廉,把一切弄正確,然后再消耗算力。
![]()
Karpathy
并且,拋棄工程在這里只是次要角色的想法。在前沿領域,這兩項工作已經融合。能夠建立測試框架、評估機制和數據流水線的研究者,才是其假設真正能被測試的人。其他所有人都在排隊等待。
盯著輸出結果
一條下降的損失曲線并不能算作分析。它只是一種安慰。你的實驗所釋放出的信息遠超你的消耗量。比如記錄、失敗案例,以及分布中奇怪的尾部現象。其中大部分信息都未被閱讀,死在了日志文件夾中。
Karpathy 的秘訣在編寫任何訓練代碼之前就開始了。他會花上幾個小時手動處理原始數據。大多數 ML 的 bug 都存在于數據中,并且它們會悄無聲息地失敗。沒有任何東西會崩潰。你得到的僅僅是一個平庸的模型,以及一個關于其原因的錯誤理論。
吳恩達十多年來一直在教授同樣并不光鮮的招數,因為沒有什么能打敗它。挑出一百個失敗案例,把它們全部看一遍。將它們分門別類,然后集中攻克最大的一類。它對模型有效,對評估機制也同樣有效。如果你從未閱讀過某個基準測試的記錄文本,那你就根本沒有真正理解這個基準測試。一份真正奇怪行為的記錄文本教給你的東西,將比小數點后下一位的準確率帶來的多得多。
有目的地漫游
你的第一個子領域只是一次時間的偶然,所以請坦然面對這一事實。在決定你深耕的領域之前,花點真功夫去了解可解釋性、評估、RL 和系統方向。在這個領域里的某個角落,你特有的那種古怪會成為一種不公平的優勢。找到這個角落的唯一方法是在幾個不同的地方交學費。沒人能免交這筆學費。
首先運行每個想法的即用即拋版本,讓它們中的大多數早早夭折。極其嚴苛地調整你的基準線。因為 ML 的墳墓里滿是那些在適當調整的基準線面前煙消云散的成果。而審稿人是你認識到這一點的最糟糕人選。不斷進行消融實驗,直到你弄清楚究竟是哪個組件帶來了實驗結果。起作用的通常只有一個組件。而且它往往并不是出現在標題中的那個。
廣度也是一種保險。所有的子領域都會飽和。這種情況通常發生在它們在推特上達到頂峰之后。那些能在這些過渡期繼續產出成果的人,正是那些早已經熟悉鄰近領域情況的人。
找到你的同路人
漢明注意到,那些最終完成重要工作的人身上存在一種規律。辦公室門緊閉的同事在任何一年里都能完成更多的工作。而辦公室門敞開的同事則完成了那些真正重要的工作。因為不時的打擾帶來了關于這個世界到底需要什么的信息。你的敞開之門可能是一個收件箱。請保持它的暢通。
在研究中,慷慨帶來的復利效應是無與倫比的。復現一個結果并發表你的發現。發布你為自己構建的工具。用平實的語言解釋一些復雜晦澀的事物。幾個月后,回報會以意想不到的方式到來。比如一次合作、一次引用,或者一個你原本無法申請到的職位。把你那些半成型的想法也公之于眾。因為在時間線上犯錯的成本,遠比在正式出版物中犯錯的成本要低。如果有一個合作者能在你為一個糟糕的想法投入 3 個月時間之前提醒你,那他的價值將勝過算力。
這種關系是買不到的,只能通過努力去贏得。
長期博弈
巴斯德說過,機會總是留給有準備的頭腦。
![]()
法國科學家、微生物學之父路易·巴斯德(Louis Pasteur)
漢明在此基礎上建立了一整套職業哲學:知識和生產力像利息一樣產生復利。每天積累的優勢孤立來看顯得微不足道。
你閱讀的內容、你記錄的事物、你的循環運行得多快,以及你與誰辯論。給這些習慣幾年的時間,它們會造就出外界看來如同純粹憑借運氣的職業生涯。在你覺得有必要之前,盡早開始積累復利。
未來的你早已明白,這其實是成本最低的部分。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.