網易首頁 > 網易號 > 正文申請入駐

林俊旸推薦，Anthropic研究者自白：如何成為一位優秀研究者？

2026-06-15 14:54:02　來源: 機器之心Pro

天津舉報

分享至

編輯｜Panda

咱們 AI 領域，研究者既是一個身份，也是一種幻覺。

很多人以為自己在做研究，其實只是在追論文、追熱點、追大廠的發布會……看起來很忙，實則在原地踏步。

近日，Anthropic 研究者 Vivek Nair 發布了一篇長文，分享了他對于如何成為一位優秀研究者的見解。

原文地址：https://x.com/itsreallyvivek/status/2064686372737454155

他指出，真正的研究能力從來不是靠追熱點追出來的，而是由一系列可被刻意訓練的小技能疊加而成的：怎么選題、怎么讀文獻、怎么寫作、怎么加速實驗循環，每一條都有具體的方法，每一條都踩過真實的坑。

這篇文章沒有雞湯，只有干貨，讀完你可能會覺得有點刺痛；因為他說的，正是我們大多數人從未認真想過的問題。

這篇文章引發廣泛關注，很多研究者也參與討論。

Qwen 前負責人林俊旸也轉發分享了一下。

下面我們就來詳細看看這篇文章：

真的沒有人教你做研究。你會得到一張辦公桌，一個別人挑選好的問題，以及一個模糊的指示，要求你產出一些新穎的東西。因此，大多數人通過他們能看到的東西（即論文、帖子和公告）對這份工作進行逆向工程。

他們最終學到的是如何看起來像一個研究者，并未學到如何真正成為一個研究者。

真正的研究能力是由一堆較小的技能疊加而成的，其中幾乎每一項技能都可以被刻意訓練。

挑選你自己的問題

理查德·漢明（Richard Hamming）在貝爾實驗室有一個習慣，這讓他在午餐時很不受歡迎。他會問坐在他附近的人，他們那個領域的重要問題是什么。接著他會問，為什么他們沒有在研究這些問題。于是人們紛紛換桌子。

Richard Hamming（1915-1998）是美國數學家、計算機科學先驅，長期任職于 Bell Labs。他最著名的貢獻是提出了漢明碼（Hamming Code）和漢明距離（Hamming Distance），奠定了現代糾錯編碼與數字通信的重要基礎，使計算機和通信系統能夠檢測并糾正數據傳輸中的錯誤。除了技術研究外，Hamming 還以其關于科研方法論的思考聞名，其演講《You and Your Research》至今仍被廣泛傳播，被許多科學家和工程師視為關于如何開展重要研究的經典作品。

這個問題令人刺痛，因為我們大多數人都拿不出好的答案。我們不去選擇問題，只會吸收它們。我們從導師那里，從某個大實驗室上個季度宣布的內容里，從大家本周都在轉發引用的那篇論文里吸收問題。

吸收來的問題的麻煩在于，你只掌握了結論，卻缺乏推理過程。

你知道某個著名的實驗室關心某個方向。你不知道原因，不知道他們期望發現什么，也不知道什么會導致他們放棄這個方向。當他們轉換研究方向時，你會在一年后才發現。而且在一個已經很流行的問題上，你正與一千個起步更早、擁有比你更多算力的人同臺競爭。

約翰·舒爾曼（John Schulman）關于 ML 研究的指南將這項工作分為兩種模式。

http://joschu.net/blog/opinionated-guide-ml-research.html

第一種模式里，你閱讀文獻并尋找可以改進的地方。另一種模式下，你選擇一個你真心希望存在的結果，然后反向推理出所需的實驗。

他主張第二種方式。其背后的深層原因是這種方式能夠創造出原創性。一個你真正關心的目標會將你拖入沒有任何綜述論文涵蓋的領域。

與此同時，品味常被討論得像是一種天賦。但它的表現更像是一塊肌肉。在你運行每個實驗之前，先預測它的結果。遮住一篇論文的結果部分，僅根據方法來猜測數據。記下本月發布的哪些內容在 2 年后仍然重要，以后再來檢查你的預測命中率。一次預測加上一次糾正，重復幾百次，這就是每一個優秀模型被訓練出來的方式。你大腦里的那個模型也不例外。

升級你的輸入

共享的閱讀清單會產生共享的想法。如果你的信息來源是 arXiv 的趨勢頁面，加上那些在群聊過濾后幸存下來的內容，你必然會與其他人同時得出相同的結論。這會讓這些結論幾乎毫無價值。

舊資料的價值被嚴重低估了。這個領域總是延遲重演它自己的過去：混合專家模型可追溯到 1991 年，LSTM 可追溯到 1997 年，反向傳播在 1986 年成為主流。

理查德·薩頓（Rich Sutton）在 2019 年大約用了一千字寫下了「苦澀的教訓」。它比長度是其十倍的綜述文章更能準確預測該領域的發展輪廓。

http://www.incompleteideas.net/IncIdeas/BitterLesson.html

克勞德·香農（Claude Shannon）在 1952 年做了一場關于創造性思維（Creative Thinking）的演講。他的開場動作是將一個問題縮小到幾乎微不足道的程度，解決這個極小化版本，然后再將難度逐一引入。這一個技巧將幫助你突破障礙，其效果遠勝任何現代的生產力建議。

香農

知識的廣度與深度同樣重要。可解釋性毫無顧忌地從神經科學中借鑒內容。評估設計就是穿上了實驗室外套的機制設計。如果你對 GPU 實際如何移動內存有一種實踐層面的認知，你就能在基準測試結果出來之前，判斷出哪些架構論文注定會失敗。此外，誠實的統計學可能是 ML 中最罕見的技能。在這里，許多發表出來的所謂嚴謹研究，只是一種帶有誤差棒的虛假氛圍。

還有一件事。去閱讀論文本身，別去讀總結它的帖子。附錄才是真正隱藏關鍵細節的地方。而且，局限性部分通常是整篇文檔中最誠實的一段。

寫下一切

保羅·格雷厄姆（Paul Graham）指出，一個想法在你試圖用語言表達它之前，都會感覺已經完全成型。紙面書寫會發現你大腦掩蓋住的漏洞。比如你從未測試過的假設，其實缺乏連貫性的步驟，以及兩個暗中相互矛盾的主張。

費曼法則（Feynman's Rule）是，你必須避免愚弄的第一個人就是你自己。因為你是最容易被當作目標的。寫作是有史以來發明的最廉價的防御手段。

費曼

達爾文走得更遠，并使其程序化。任何與他的理論相悖的事實都會被當場寫下來。因為他發現自己的記憶刪除不利證據的速度，比刪除有利證據的速度快得多。

你的記憶對你那些失敗的實驗也會做同樣的事情。保持記錄的習慣：假設、設置、期望、結果、更新后的認知。重新閱讀上個月的記錄會讓你感到謙卑，這是任何審稿人都無法比擬的。

然后將其中一些內容公之于眾。奧拉和卡特關于研究債務的文章提出，各個領域都因為未被消化的想法而窒息。清晰的解釋不僅是一項服務工作，它就是一項真正的貢獻。今天許多從事可解釋性研究的人是通過易讀的帖子發現這個領域的，他們并未通過會議論文入門。大量的公開寫作也可以作為你能擁有的最強資歷。因為它是你思考方式的一份無法偽造的樣本。

收緊反饋循環

關于 Alec Radford 的故事很少涉及某一次單一的天才靈感。這些故事往往關乎數量。每天更多的運行次數，每周拋棄更多的錯誤想法，以及一個比任何人都更新得更快的現實模型。這才是真正的游戲規則。研究的速度主要取決于你發現自己犯錯的速度。

這使得開發工具成為了一項頂級的科研活動。啟動一次運行應該只需要一條命令。繪制結果圖表應該只需要多加一條命令。每一個實驗都應該能從其配置文件中復現。比較兩次運行應該只需要幾秒鐘，絕對不需要花一個下午去翻找歷史記錄。

Karpathy 訓練神經網絡的秘訣中有一個步驟，其回報百倍于投入：在大規模訓練之前，先在一個單批次數據上過擬合。只要 30 秒的時間，你的一半 bug 就會消失。縮小一切規模直到成本低廉，把一切弄正確，然后再消耗算力。

Karpathy

并且，拋棄工程在這里只是次要角色的想法。在前沿領域，這兩項工作已經融合。能夠建立測試框架、評估機制和數據流水線的研究者，才是其假設真正能被測試的人。其他所有人都在排隊等待。

盯著輸出結果

一條下降的損失曲線并不能算作分析。它只是一種安慰。你的實驗所釋放出的信息遠超你的消耗量。比如記錄、失敗案例，以及分布中奇怪的尾部現象。其中大部分信息都未被閱讀，死在了日志文件夾中。

Karpathy 的秘訣在編寫任何訓練代碼之前就開始了。他會花上幾個小時手動處理原始數據。大多數 ML 的 bug 都存在于數據中，并且它們會悄無聲息地失敗。沒有任何東西會崩潰。你得到的僅僅是一個平庸的模型，以及一個關于其原因的錯誤理論。

吳恩達十多年來一直在教授同樣并不光鮮的招數，因為沒有什么能打敗它。挑出一百個失敗案例，把它們全部看一遍。將它們分門別類，然后集中攻克最大的一類。它對模型有效，對評估機制也同樣有效。如果你從未閱讀過某個基準測試的記錄文本，那你就根本沒有真正理解這個基準測試。一份真正奇怪行為的記錄文本教給你的東西，將比小數點后下一位的準確率帶來的多得多。

有目的地漫游

你的第一個子領域只是一次時間的偶然，所以請坦然面對這一事實。在決定你深耕的領域之前，花點真功夫去了解可解釋性、評估、RL 和系統方向。在這個領域里的某個角落，你特有的那種古怪會成為一種不公平的優勢。找到這個角落的唯一方法是在幾個不同的地方交學費。沒人能免交這筆學費。

首先運行每個想法的即用即拋版本，讓它們中的大多數早早夭折。極其嚴苛地調整你的基準線。因為 ML 的墳墓里滿是那些在適當調整的基準線面前煙消云散的成果。而審稿人是你認識到這一點的最糟糕人選。不斷進行消融實驗，直到你弄清楚究竟是哪個組件帶來了實驗結果。起作用的通常只有一個組件。而且它往往并不是出現在標題中的那個。

廣度也是一種保險。所有的子領域都會飽和。這種情況通常發生在它們在推特上達到頂峰之后。那些能在這些過渡期繼續產出成果的人，正是那些早已經熟悉鄰近領域情況的人。

找到你的同路人

漢明注意到，那些最終完成重要工作的人身上存在一種規律。辦公室門緊閉的同事在任何一年里都能完成更多的工作。而辦公室門敞開的同事則完成了那些真正重要的工作。因為不時的打擾帶來了關于這個世界到底需要什么的信息。你的敞開之門可能是一個收件箱。請保持它的暢通。

在研究中，慷慨帶來的復利效應是無與倫比的。復現一個結果并發表你的發現。發布你為自己構建的工具。用平實的語言解釋一些復雜晦澀的事物。幾個月后，回報會以意想不到的方式到來。比如一次合作、一次引用，或者一個你原本無法申請到的職位。把你那些半成型的想法也公之于眾。因為在時間線上犯錯的成本，遠比在正式出版物中犯錯的成本要低。如果有一個合作者能在你為一個糟糕的想法投入 3 個月時間之前提醒你，那他的價值將勝過算力。

這種關系是買不到的，只能通過努力去贏得。

長期博弈

巴斯德說過，機會總是留給有準備的頭腦。

法國科學家、微生物學之父路易·巴斯德（Louis Pasteur）

漢明在此基礎上建立了一整套職業哲學：知識和生產力像利息一樣產生復利。每天積累的優勢孤立來看顯得微不足道。

你閱讀的內容、你記錄的事物、你的循環運行得多快，以及你與誰辯論。給這些習慣幾年的時間，它們會造就出外界看來如同純粹憑借運氣的職業生涯。在你覺得有必要之前，盡早開始積累復利。

未來的你早已明白，這其實是成本最低的部分。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.