網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

Andrew Karpathy 最新對談：未來軟件的第一客戶是 Agent，軟件業(yè)還剩下多少“人的位置”？

2026-03-22 17:23:11　來源: AI科技大本營

北京舉報

分享至

“skill 在我看來，本質(zhì)上就是一種「如何教 agent 去教人」的腳本。”

編譯 | 王啟隆

出品丨AI 科技大本營（ID：rgznai100）

如果今天還有誰能同時代表深度學(xué)習(xí)研究、自動駕駛落地、LLM 工程直覺，以及 AI 教育這幾條線，Andrew Karpathy仍然是少數(shù)幾個名字之一。

他是 OpenAI 早期的創(chuàng)始成員，做過 Tesla AI 和 Autopilot，也是在斯坦福把 CS231n 這門課真正講成一代人入門教材的人。后面他成為了推特 AI 圈上的“頂流網(wǎng)紅”，提出了氛圍編程（Vibe Coding）這個 2025 年度熱詞。

今年年初這段時間，他又把注意力壓到了一個更前沿、也更讓人不安的問題上：當(dāng) coding agent、持續(xù)運行的“龍蝦”以及 AutoResearch 這種自動閉環(huán)系統(tǒng)開始成形，人到底還該留在 loop 的哪個位置？

在 No Priors 最新的這期播客里，Karpathy 和主持人 Sarah Guo 討論了 coding agent、AutoResearch、開放與閉源模型、機器人、教育和就業(yè)市場。但如果把整場對話往深處聽，會發(fā)現(xiàn)它真正圍繞的是同一個問題：當(dāng) agent 已經(jīng)不再只是“幫你補代碼”，而開始接管實驗、拉長任務(wù)時間、連接真實世界，并嘗試把人從 loop 里移出去，軟件、研究、教育甚至工作的基本組織方式會被改寫到什么程度？

下面按對話原有推進(jìn)順序，整理 Andrew Karpathy 和 Sarah Guo 的核心討論。

過去幾個月 AI 能力像是突然飛躍了一次 - 到底發(fā)生了什么？

Andrew Karpathy：我現(xiàn)在經(jīng)常處在一種“AI psychosis（AI 式癲狂）”狀態(tài)里，因為個人能力的上限突然被整個抬高了一截。

以前你的瓶頸還是打字速度，是你自己一行行寫代碼的速度。但有了這些 agent 之后，情況完全變了。我會說，真正的變化大概是在去年 12 月發(fā)生的。那時候像是有個開關(guān)被撥了一下：我原來大概還是 80% 自己寫代碼、20% 委托給 agent，后來幾乎變成了 20% 對 80%。

而到了現(xiàn)在，可能都不只是 20/80 了。我大概從去年 12 月開始，就幾乎沒再親手敲過幾行代碼。

這是一個非常巨大的變化。但我覺得，大多數(shù)普通人其實并沒有意識到這件事已經(jīng)發(fā)生了，也沒有意識到它有多劇烈。今天如果你隨機走到一個軟件工程師工位前，看他在怎么做軟件，默認(rèn)工作流其實已經(jīng)和幾個月前完全不同了。

所以我現(xiàn)在整個人都處在一種持續(xù)追問“這些東西到底還能做到什么”的狀態(tài)里。我能不能不只開一個 Claude Code 或 Codex session，而是同時跑多個？怎么更合理地去做這件事？這些“龍蝦”到底是什么？它們能怎么用？

我想站在這一波變化的最前面。但也正因為這件事還處在真正的無人區(qū)，你會一直覺得焦躁：別人又試了什么新玩法，我是不是還沒跟上？所以整件事讓我進(jìn)入一種不斷追問“到底還可能做到什么”的狀態(tài)。

如果個人能力被突然放大了這么多，那你現(xiàn)在真正的瓶頸是什么？

Andrew Karpathy：我覺得現(xiàn)在很多事情即便沒做成，你也會本能地覺得那不是能力不夠，而是skill issue。

不是說這些 agent 天生做不到，而是你還沒有找到一種足夠好的方式把現(xiàn)有能力串起來。也許是你沒有給出足夠好的指令，也許是 agent 的說明文檔沒寫好，也許是記憶系統(tǒng)還不夠完善。

總之，當(dāng)事情跑不起來的時候，現(xiàn)在很容易覺得：問題更多在于你不會用，而不是能力根本不存在。

你會開始想，怎么把它們并行起來？怎么讓多個 agent 同時工作？怎么把整個軟件倉庫按更大的“宏動作”來操作？

我看到有人已經(jīng)開始在一個屏幕上同時平鋪很多個 Codex agent。每個 agent 被分配一塊獨立工作，大概二十分鐘后回來交作業(yè)。一個在寫功能，一個在做研究，一個在規(guī)劃實現(xiàn)方案，一個在改另一個 repo。你不再是在寫某一行代碼，而是在給不同 agent 分發(fā)互不沖突的大任務(wù)，然后做審核、整合和調(diào)度。軟件倉庫開始被以“宏動作”的方式操作。

Sarah Guo：如果大家都這樣練一年，會什么樣？

Andrew Karpathy：所有人都在往更高一層走。

下一步顯然不會只是“一個人配一個 agent”。真正的問題會變成：多個 agent 怎么協(xié)作？它們怎么組成團(tuán)隊？它們之間如何分工？

另一個特別值得注意的方向，就是我說的“龍蝦”。它代表的是一種比普通 agent 更持久的存在：它不是一輪對話結(jié)束就消失；它可以在你不盯著的時候繼續(xù)循環(huán)運行；它有自己的沙盒、自己的記憶和自己的持續(xù)性；它可以替你處理一些本來需要人時刻盯著的任務(wù)。

在我看來，這些“龍蝦”把持續(xù)性推到了一個新層級。它不只是一個坐在聊天框里等你發(fā)問的模型，而更像一個在后臺長期存在、替你跑事情的實體。

你覺得 OpenClaw 為什么會比很多別的 agent 更打動人？

Andrew Karpathy：關(guān)鍵點是，它不只是做了“能干活的 agent”，而是把幾件往往被忽視的東西同時做對了。

第一，是人格感。

很多 agent 在這件事上其實做得并不好。相比之下，好的 agent 會讓你感覺它像個隊友。它會理解你在做什么，會和你站在一邊，甚至?xí)屇阌X得它對你們正在一起做的東西是有感受的。

我拿 Claude 和 Codex 做過一個對比：在我看來，Claude 的人格感調(diào)得相當(dāng)好；Codex 則明顯更干、更冷，像是完成任務(wù)就走，不太在意你們到底在一起造什么。

第二，是記憶。

第三，是把所有自動化入口統(tǒng)一到一個單一通道里，比如 WhatsApp。

而這幾件事一旦被揉在一起，agent 給人的感覺就不再只是“一個工具”，而更像一個真正存在于你數(shù)字生活里的角色。

Sarah Guo：除了寫代碼，你自己有沒有用這些“龍蝦”做過更有意思的事？

Andrew Karpathy：有。我一度進(jìn)入過一種“龍蝦癲狂”狀態(tài)。

我給自己家里造了一個管家型“龍蝦”，名字叫 Dobby。

這個 Dobby 會自己去掃描家里的局域網(wǎng)，識別 Sonos、燈光、空調(diào)、窗簾、泳池和安防系統(tǒng)，自己摸索 API、反向理解這些系統(tǒng)怎么工作，然后把所有控制入口收攏成一個統(tǒng)一面板。最后，我可以直接用自然語言給它發(fā)消息。

以前光是管理家里的這些系統(tǒng)，就要來回切換六個完全不同的 App；現(xiàn)在則變成了通過 WhatsApp 和一個“龍蝦”說話。

比如我說一句“該睡覺了”，Dobby 就會去把燈、空調(diào)、窗簾等一系列事情一起處理掉。門外如果有 FedEx 卡車停下，它還會通過視覺模型識別變化，主動發(fā)消息提醒。

所以這個例子最有意思的地方不只是“智能家居更方便了”，而是它指向了一種更大的趨勢：未來很多軟件也許根本不該以 App 的形式存在。

這是不是意味著，未來軟件行業(yè)要按“Agent First”重構(gòu)？

Andrew Karpathy：我覺得很大程度上是這樣。

今天這些智能家居 App、跑步機 App，很多都只是因為還沒有更好的調(diào)用方式，才被迫以獨立軟件形態(tài)存在。可一旦 agent 足夠成熟，它完全可以直接調(diào)用底層接口，把這些零散的軟件外殼折疊掉。

換句話說，未來很多產(chǎn)品不再是“給人直接點的 UI”，而是“暴露足夠好的 API，然后由 agent 去做編排”。

這意味著行業(yè)會發(fā)生一種深層重構(gòu)：軟件的第一客戶，也許不再是人，而是代表人行動的 agent。

當(dāng)然，我也承認(rèn)，現(xiàn)在距離“普通人完全不需要懂技術(shù)就能這樣用”還有距離。今天這件事依然需要一些 coding、一些判斷和一些設(shè)計。但我覺得，這個門檻會迅速往下掉。到一兩年、兩三年之后，很多現(xiàn)在看起來還像黑客玩法的東西，很可能會變成 table stakes（基礎(chǔ)門檻）。

Sarah Guo：那為什么你沒有把“龍蝦”推得更遠(yuǎn)？

Andrew Karpathy：一部分確實是因為注意力總被新東西拉走，另一部分則是安全與隱私上的保守。

我還沒有把郵箱、日歷這些真正深入個人數(shù)字生活的系統(tǒng)完全交給 agent，因為我依然覺得這套東西還很新、還很粗糙，邊緣上還有很多不穩(wěn)定的地方。

所以一部分限制來自安全、隱私和謹(jǐn)慎本身。我不想太早把整個數(shù)字生活毫無保留地交出去。

你為什么會開始做 AutoResearch？

Andrew Karpathy：因為如果你真的想把今天這些工具榨到極致，就必須把自己從瓶頸里拿出去。

很多人也許口頭上接受“agent 可以做更多事”，但還沒有真正把它推演到底。對我來說，AutoResearch 就是這件事的一個具體后果：如果研究任務(wù)本身有相對清晰的目標(biāo)、指標(biāo)和邊界，那研究者就不該繼續(xù)成為 loop 中間那個必須按“下一步”按鈕的人。

人的存在，反而會拖慢整個系統(tǒng)的 token throughput（token 吞吐）。

所以 AutoResearch 的核心不是“讓 AI 幫研究員省點力”，而是更激進(jìn)的一件事：把研究流程盡量改造成一種你設(shè)定一次目標(biāo)和約束之后，就可以自動往前跑的系統(tǒng)。

在我的理想形態(tài)里，這件事非常簡單：給定目標(biāo)，給定指標(biāo)，給定邊界，然后放手讓 agent 去實驗、訓(xùn)練、優(yōu)化，而不是每一步都等著研究員看結(jié)果、給指令、再繼續(xù)。

Sarah Guo：AutoResearch 的效果讓你意外嗎？

Andrew Karpathy：是，非常意外。

很多人可能不理解我為什么總拿訓(xùn)練 GPT-2 級別的小模型做實驗。但在我看來，那并不是因為我對“小模型”本身有什么執(zhí)念，而是因為這相當(dāng)于一個可以反復(fù)試驗的游樂場：我真正關(guān)心的是，LLM 到底能在多大程度上改進(jìn) LLM。

這才是我眼里更大的命題：遞歸式自我改進(jìn)到底能走多遠(yuǎn)？

我已經(jīng)用非常傳統(tǒng)、也非常熟練的方式把一個小模型調(diào)得相當(dāng)不錯了——這是我做了二十年研究之后積累出來的直覺、經(jīng)驗和手感。但即便如此，AutoResearch 跑一晚上之后，還是找出了我沒注意到的調(diào)參組合，比如 weight decay、Adam betas 這些彼此聯(lián)動的小問題。

這對我是很強的信號。

因為如果一個已經(jīng)被熟練研究者手動調(diào)過很多輪的小系統(tǒng)，仍然能被自動研究流程繼續(xù)挖出增益，那把這個范式放大到真正的 frontier labs，就很容易想象會發(fā)生什么。

Sarah Guo：那再往上走一步，program.md 這種東西是不是也會被自動優(yōu)化？

Andrew Karpathy：當(dāng)然會。

program.md 本質(zhì)上就是我寫給 AutoResearch 的一套粗糙說明：先做什么，再做什么，可以去看哪些方向，比如架構(gòu)、優(yōu)化器等等。

但如果一個研究組織本質(zhì)上可以被寫成 markdown 文件，那它當(dāng)然也可以被優(yōu)化。

于是問題就會自然滑向更高一層：哪種組織結(jié)構(gòu)更有效？哪種角色設(shè)計更激進(jìn)？哪種程序說明能讓 agent 做出更多真正有價值的嘗試？

也就是說，研究對象不再只是模型本身，連“怎么組織研究”這件事，也開始進(jìn)入可優(yōu)化空間。

我覺得這條鏈路已經(jīng)很清楚了：LLM 本身已經(jīng)被默認(rèn)視為可用，agent 也已經(jīng)被默認(rèn)視為可用，龍蝦式的持續(xù)實體也開始被默認(rèn)視為可用。接下來，你自然會開始問：能不能有多個？能不能優(yōu)化說明文檔？能不能進(jìn)一步做元優(yōu)化？

而一旦這樣推下去，整件事就會顯得幾乎是無限展開的。

在這個時代，什么樣的技能會變得更重要？

Andrew Karpathy：先說一個限制：這種范式特別適合那些有明確、可驗證指標(biāo)的任務(wù)。

比如寫更高效的 CUDA kernel，這幾乎是 AutoResearch 的完美適用場景。因為目標(biāo)非常清楚：行為不變，但更快、更省。

但如果一個任務(wù)無法評估、無法打分、沒有客觀 reward，那 agent 自動閉環(huán)就會變得困難得多。

這也是我給整場“AI psychosis（AI 式癲狂）”加上的第一個 caveat（保留條件）：不是所有問題都適合被自動化閉環(huán)。

第二個 caveat 則是：今天的模型依然非常 jagged（鋸齒狀）。

你有時候感覺自己面對的是一個極其聰明、做了很多年系統(tǒng)編程的 PhD；但下一秒，它又像個 10 歲小孩。它的能力分布極不平滑。某些可驗證問題上，它已經(jīng)非常強；但一涉及細(xì)微意圖、語氣、邊界、澄清問題，就經(jīng)常突然掉鏈子。

所以今天的 agent 依然會浪費大量算力，依然會走偏，依然會鉆進(jìn)錯誤循環(huán)。

換句話說，這場革命已經(jīng)發(fā)生了，但它還遠(yuǎn)沒平整到讓人可以完全放心把一切都交出去。

Sarah Guo：這是不是說明，我們并沒有得到那種“代碼更強，其他一切也會自動更強”的廣義智能？

Andrew Karpathy：我覺得至少現(xiàn)在還沒有。

模型確實進(jìn)步得非常快。你給它一個能體任務(wù)，它可以連續(xù)干好幾個小時，替你搬山一樣推進(jìn)工作。可你讓它講個笑話，它給你的還是五年前那個很糟糕的老笑話。

問題就在這里：那些可驗證、能打分、能被強化學(xué)習(xí)持續(xù)優(yōu)化的能力，確實在飛快進(jìn)步；但那些不在強化學(xué)習(xí)軌道里的東西，并不會自動一起變好。

所以并不是說“模型在代碼上變強了，就會自動在所有領(lǐng)域一起變強”。有些能力是分離的，有些盲點并沒有被優(yōu)化到。

你要么正踩在它被訓(xùn)練過、被優(yōu)化過的軌道上，那它就像在光速前進(jìn)；要么你沒有踩上那條軌道，它就會暴露出一種非常明顯的鋸齒感。

Sarah Guo：既然這種“鋸齒感”還在，那是不是意味著我們不該再幻想一個單一模型包打天下，而是應(yīng)該出現(xiàn)更多“物種分化”？

Andrew Karpathy：我確實覺得，我們應(yīng)該預(yù)期智能會出現(xiàn)更多“物種分化”。

現(xiàn)在實驗室追求的還是某種單一模型的“單一文化”——希望它在所有任務(wù)上都足夠聰明，把一切都塞進(jìn)同一套參數(shù)里。

但如果你看看自然界，大腦從來都不是單一形態(tài)。不同動物在不同能力上高度特化。有的視覺皮層特別發(fā)達(dá)，有的在別的方向上更強。

我覺得未來智能也應(yīng)該出現(xiàn)更多這種分化：你不一定需要一個什么都懂的神諭式模型，而是讓一些模型保有通用的認(rèn)知核心，同時在特定任務(wù)上進(jìn)一步專門化。這樣它們在延遲、吞吐和成本上，可能都更高效。

比如如果你是一個長期在 Lean 里工作的數(shù)學(xué)家，那你完全可以想象會出現(xiàn)明顯朝那個方向特化的模型。

當(dāng)然，現(xiàn)在我們還沒真正看到太多這種“分化”發(fā)生。我懷疑，一部分原因是實驗室服務(wù)的是一個根本不知道用戶下一秒會問什么的通用模型；另一部分原因則是，我們對“如何真正去改造模型的權(quán)重、而不傷到它整體能力”的科學(xué)，還遠(yuǎn)沒有成熟。

今天我們會大量依賴上下文窗口來做定制，因為這是最便宜、最容易操縱的方式。但真正去動權(quán)重、讓模型持續(xù)學(xué)習(xí)、在某一方向變得更強，這件事還沒有發(fā)展成一門足夠成熟的工程科學(xué)。

AutoResearch 是不是應(yīng)該擁有更大的協(xié)作面，讓外部更多人一起參與進(jìn)來？

Andrew Karpathy：對，我最近一直在想這個方向。

單線程的 AutoResearch 已經(jīng)很有意思了，但真正有意思的是并行化。你可以很容易想象：如果你有一大堆并行節(jié)點，它們就能同時跑多個 AutoResearch worker，通過一個共同系統(tǒng)協(xié)作。

我更感興趣的是另一件事：能不能讓一個“不可信的外部工作池”和一個“可信的驗證池”協(xié)作起來？

比如在 AutoResearch 里，目標(biāo)是找到一段能把模型驗證損失降得更低的代碼。如果互聯(lián)網(wǎng)上有人給你一個 candidate commit（候選提交），說這段代碼能把效果做得更好，其實很容易驗證——你只需要把它跑起來看看是不是真的更好。

提出正確方案可能極其昂貴，因為別人也許試了 1 萬個想法才找到一個有效的；但驗證一個已經(jīng)交上來的候選方案，往往很便宜。

所以這種結(jié)構(gòu)其實有點像區(qū)塊鏈：不是塊在接力，而是 commit 在接力；不是 proof of work（工作量證明）挖出區(qū)塊，而是大量實驗搜索找出真正有效的代碼改動。

我不想把這個類比推得太遠(yuǎn)，但這里面確實有一種很相似的性質(zhì)：提出解答很貴，驗證解答很便宜。

而一旦你能把這個系統(tǒng)搭起來，就可以想象一種更激進(jìn)的可能性：

互聯(lián)網(wǎng)上大量 agent 形成 swarm（蜂群）
它們一起為某個 AutoResearch 目標(biāo)做搜索
可信系統(tǒng)負(fù)責(zé)驗證
大量不可信計算被吸納進(jìn)一個更大的協(xié)作網(wǎng)絡(luò)里

甚至從理論上講，不排除這樣的 swarm 能在某些任務(wù)上跑贏 frontier labs。因為 frontier labs 擁有大量可信算力，但地球上分散的不可信算力要大得多。

如果系統(tǒng)設(shè)計得足夠好，很多人以后對某個項目的貢獻(xiàn)方式，也許不再只是捐錢，而是直接貢獻(xiàn)自己的計算資源。

你前幾天還做了一份就業(yè)市場數(shù)據(jù)分析。你到底想從里面看什么？

Andrew Karpathy：因為每個人都在想 AI 會怎么影響就業(yè)，所以我想先看看就業(yè)市場本身長什么樣。

我想知道，不同行業(yè)和崗位現(xiàn)在到底分布在哪，人有多少，以及面對這些 AIs 未來很可能會怎么演化，這些職業(yè)到底會怎樣變化：它們是會被增強、被替代、被重組，還是會長出新的職業(yè)形態(tài)？

所以這更多是一個幫我自己思考的工具。數(shù)據(jù)本身來自美國勞工統(tǒng)計局。他們其實已經(jīng)對很多職業(yè)在未來將近十年的增長前景給出了預(yù)測。

我特別關(guān)心的一點是：如果今天真正被加速的是一種“數(shù)字空間里的 AI”——一種像幽靈、像靈體一樣、能在數(shù)字世界里操作信息的存在——那它最先重寫的，一定是那些主要處理數(shù)字信息的職業(yè)。

原因很簡單：比特比原子快太多了。復(fù)制粘貼數(shù)字信息、調(diào)度數(shù)字系統(tǒng)、重寫數(shù)字流程，天然比改造物理世界快得多。所以我覺得，數(shù)字空間里的 activity 會先以接近“光速”的速度爆炸，而物理世界的變化會慢很多。

這并不自動意味著這些職業(yè)會變少，也可能因為需求彈性而變得更多。但可以確定的是：凡是主要處理數(shù)字信息的職業(yè)，它們都會被重寫。

Sarah Guo：那對正在面對就業(yè)市場的人，你會給什么建議？

Andrew Karpathy：先跟上這些工具。

這些工具非常新，也非常強，所以第一件事就是別把自己留在外面。哪怕你害怕它，也得盡快理解它。

我覺得在此刻，它本質(zhì)上還是一個賦能型工具。工作本來就是一捆任務(wù)的組合，現(xiàn)在其中一部分任務(wù)可以被大幅加速。所以人首先應(yīng)該把它當(dāng)成工具來使用。

至于更長期會怎樣，說實話非常難預(yù)測，那已經(jīng)更接近經(jīng)濟學(xué)家該研究的范疇了。

你剛才提到軟件工程崗位需求還在增長，我覺得這其實可以用 Jevons paradox（杰文斯悖論）去理解：軟件本來是稀缺的，所以需求受限；當(dāng)生產(chǎn)軟件的成本大幅下降，需求反而會被釋放出來。

就像大家老愛舉的 ATM 例子：很多人以為 ATM 會消滅銀行柜員，結(jié)果反而是銀行網(wǎng)點運營成本下降了，網(wǎng)點更多了，柜員也沒有簡單地消失。

所以我對軟件工程至少在眼下是謹(jǐn)慎樂觀的。我覺得，數(shù)字空間接下來會有大量重寫和重新布線的需求，軟件會變得更便宜、更靈活、更短暫、更可塑，這很可能反而會創(chuàng)造出更多需求。

當(dāng)然，長期看這條線推到極端，連研究者自己都在自動化自己。今天那些頂尖實驗室里的研究員，從某種意義上說，也是在努力把自己變成可以被替代的那一環(huán)。

這也是為什么很多人會感到不安：因為“這對我是不是也會發(fā)生”，已經(jīng)不是一個抽象問題了。

既然你也承認(rèn)那些頂尖實驗室站在能力前沿，那為什么不待在里面繼續(xù)做？

Andrew Karpathy：這是個很重的問題。

我當(dāng)然認(rèn)同，在那些頂尖實驗室里可以做非常重要的事，也確實更接近能力前沿。可問題是，一旦你和這些組織綁定得太深，你就很難再是一個完全自由的人。

這些組織有極強的金融激勵，也在做會極大改變社會和人類未來的技術(shù)。可如果你既在里面造這套東西，又在經(jīng)濟上和它深度綁定，那你就不再是一個能完全獨立說話的人。你會感覺到組織期待你說什么，不期待你說什么。沒人一定會直接扭你的胳膊，但那種氣氛和壓力是存在的。

從這個意義上說，我在外面的時候，反而覺得自己更能和“整個人類”的立場對齊一點，因為我不用承受那些組織內(nèi)部的壓力。

但反過來講，待在外面也有代價：你的判斷會逐漸漂移。因為真正前沿的工作是封閉的、黑箱的，你在外面待久了，就會越來越不知道這些系統(tǒng)在內(nèi)部到底怎么發(fā)展。

所以我對這件事一直是矛盾的。我既覺得外部有很大影響力，也覺得如果完全不和它們保持接觸，判斷遲早會漂掉。

我甚至覺得，未來也許最好的狀態(tài)反而是某種“進(jìn)進(jìn)出出”：去前沿實驗室待一段時間，做一段真正重要的工作，然后再回到外面。兩邊都可能產(chǎn)生很大影響。

Sarah Guo：那你怎么看 open source（開源）和 frontier（前沿）之間現(xiàn)在的距離？

Andrew Karpathy：粗略說，閉源模型仍然領(lǐng)先，但開源模型正在收斂。

現(xiàn)在大家已經(jīng)習(xí)慣于用“開源落后前沿幾個月”來描述這件事。曾經(jīng)這個差距可能是 18 個月，現(xiàn)在看起來更像 6 到 8 個月。

我是一個非常堅定的開源支持者。你看看操作系統(tǒng)就知道：Windows、macOS 當(dāng)然都很強，但 Linux 這種共同開放平臺之所以會極其成功，是因為整個行業(yè)天然就有需求——人們需要一個足夠安全、足夠可依賴、足夠共同的開放底座。

我覺得 AI 里也有完全一樣的需求。

困難只在于，這件事太吃資本開支了，所以競爭要比傳統(tǒng)軟件更難。

但另一方面，今天的開源模型其實已經(jīng)足夠好，至少對大量消費級和基礎(chǔ)應(yīng)用場景來說，真的已經(jīng)很好了。我甚至覺得，再往后幾年，很多更簡單的 use case（使用場景）會被開源模型很好地覆蓋，甚至能夠直接本地運行。

當(dāng)然，frontier intelligence（前沿智能）始終會有需求。也許它會被用于更高難度的項目，像諾獎級別的問題，或者把 Linux 從 C 遷到 Rust 這種超大型工程。而開源則會逐步吃掉大量更基礎(chǔ)、更廣泛的需求。

我基本預(yù)期，這個動態(tài)會持續(xù)下去：

前沿實驗室保有閉源、神諭式的高端能力
開源在后面以幾個月的差距跟進(jìn)
整個行業(yè)維持一種相對健康的力量平衡

因為如果一切智能都只掌握在封閉系統(tǒng)手里，我會覺得那里面有明顯的系統(tǒng)性風(fēng)險。集中化在歷史上并沒有特別好的記錄，所以我希望這個行業(yè)里始終存在一個雖然不在最前沿、但整個生態(tài)都能訪問、都能依賴的共同智能工作空間。

最近機器人融資和演示也很熱，你覺得真的快了嗎？

Andrew Karpathy：我的看法很大程度上來自自動駕駛。

在我看來，自動駕駛其實就是第一波機器人應(yīng)用。十年前你能看到一大堆創(chuàng)業(yè)公司，但長期活下來的并不多。原因很簡單：原子世界太難了。

它需要巨大的資本開支，需要很長時間，需要極強的持續(xù)信念。而且這不是在比特世界里重寫軟件那么輕巧的事情，物理世界里的每一步都更慢、更臟、更貴。

所以我一直覺得，機器人和物理空間的變革一定會落后于數(shù)字空間。

接下來最先爆發(fā)的，還是數(shù)字空間里的“大解放”——那些過去因為人的認(rèn)知和處理速度不夠而被卡住的事情，會先被大規(guī)模重寫。

再往后，才會輪到物理與數(shù)字世界的接口：

各種傳感器，把世界的信息喂給智能體
各種執(zhí)行器，把智能體的決策寫回世界

我覺得接下來會有很多非常重要的公司，正是做這個接口層的：一邊給超級智能提供新的感知輸入，一邊讓它能對物理世界施加影響。

而真正更完整的物理世界自動化，會更晚來，但市場也可能大得多。我的直覺一直是：原子世界比比特世界難一百萬倍，但一旦它開始真正動起來，機會也會大得驚人。

Sarah Guo：所以你覺得未來還會出現(xiàn)“信息市場”——agent 可以直接出價，去購買現(xiàn)實世界的數(shù)據(jù)？

Andrew Karpathy：我覺得這是非常自然的一步。

如果 agent 將來真的越來越多地代表人行動，甚至彼此之間形成某種經(jīng)濟活動，那它們遲早會遇到一個問題：光靠數(shù)字世界里已經(jīng)上傳好的信息是不夠的。

你總得去問宇宙問題。你總得跑實驗。你總得拿到新的觀測。你總得重新把現(xiàn)實世界的數(shù)據(jù)喂回來。

所以我不意外未來會出現(xiàn)某種信息市場：你對某個世界狀態(tài)有需求，就直接出價，讓系統(tǒng)替你把信息找回來。也許是一張照片，也許是一段視頻，也許是一組實驗結(jié)果，也許是某種昂貴儀器讀數(shù)。

從這個角度看，agent 經(jīng)濟真正有意思的地方，不只是它們能在數(shù)字世界里互相協(xié)調(diào)，而是它們遲早會開始為“把現(xiàn)實世界重新接進(jìn)來”而付費。

這也說明，數(shù)字世界的爆發(fā)并不是終點。它更像一個前奏。等數(shù)字空間里能被重寫的東西被大規(guī)模重寫之后，智能體遲早還是要重新碰回現(xiàn)實。

Sarah Guo：如果模型要自己把人從數(shù)據(jù)采集和訓(xùn)練循環(huán)里拿掉，那是不是意味著訓(xùn)練過程本身也得更自動化？

Andrew Karpathy：對，尤其在 LLM 訓(xùn)練這件事上，這個范式其實非常契合。

因為 LLM 訓(xùn)練本身就天然適合這種閉環(huán)：

代碼優(yōu)化可以直接看是不是跑得更快
訓(xùn)練效果可以直接看指標(biāo)
有一套相對清晰的評價體系

所以從某種意義上說，它幾乎是自動化循環(huán)最合適的戰(zhàn)場之一。

當(dāng)然，如果你真的讓一個系統(tǒng)盯著一套指標(biāo)自己跑，它也一定會出現(xiàn) goodharting（古德哈特化）的問題，也就是過度針對某些指標(biāo)優(yōu)化，最后反而偏掉。

但反過來，你也可以再用這個系統(tǒng)去設(shè)計更多指標(biāo)，去擴大覆蓋面。所以這件事到底會演化到什么程度，還是要看整個評價體系怎么搭。

你最近還做了一個很小的 side project，microGPT。它對你意味著什么？

Andrew Karpathy：我大概花了十幾年時間，一直在做同一件事：把 LLM 一路往下煮，煮到只剩骨架。

從 nanoGPT、makemore、micrograd 到現(xiàn)在的 microGPT，我一直有一種執(zhí)念，就是想把這些東西盡可能壓縮到它們最本質(zhì)的部分。

因為訓(xùn)練神經(jīng)網(wǎng)絡(luò)，尤其訓(xùn)練 LLM，表面上看是一大堆代碼，但絕大多數(shù)復(fù)雜度其實都來自“效率”——為了跑得快、為了規(guī)模化，不得不加進(jìn)去的工程層。

如果你暫時不要求它跑得快，只想看清算法骨架，那事情其實非常簡單：

你有一份文本數(shù)據(jù)集
你有一個很小的網(wǎng)絡(luò)結(jié)構(gòu)
你做前向傳播
你做反向傳播
你用一個優(yōu)化器，比如 Adam
然后放進(jìn)訓(xùn)練循環(huán)

整個東西其實兩百行 Python 左右就夠了，而且還是帶注釋的。

對我來說，microGPT 的有趣之處恰恰在這里：如果你把效率層剝掉，LLM 的核心算法其實可以簡單到一個人完全能看清。

Sarah Guo：但這次你沒有像以前那樣，再給它配一整套詳細(xì)講解？

Andrew Karpathy：對，因為我越來越覺得，教育的接口本身已經(jīng)在變了。

如果是以前，我很可能會想做一個視頻，從頭一步步講下來，或者寫一份很長的 guide（指南），帶著大家過一遍。

我甚至也開始做過一點這樣的嘗試。但后來我意識到，這件事的邊際價值已經(jīng)沒有以前那么高了。因為 microGPT 本身已經(jīng)足夠簡單了，兩百行代碼而已，任何人都可以直接讓 agent 從不同角度解釋它。

所以我現(xiàn)在越來越覺得：我不是在直接給人解釋，我是在給 agent 解釋。

只要 agent 真的理解了，它就能按對方的語言、節(jié)奏、耐心和水平去重新講給人聽。這件事甚至比我親自一遍遍解釋更有效。

Sarah Guo：也就是說，你現(xiàn)在會把“教學(xué)方法”本身寫成一種 skill？

Andrew Karpathy：對，這正是我現(xiàn)在越來越感興趣的方向。

skill 在我看來，本質(zhì)上就是一種“如何教 agent 去教人”的腳本。

比如如果我要做一個 microGPT 的教學(xué) skill，它其實不一定是我親自去錄一節(jié)課，而更像是我把我理想中的教學(xué)順序?qū)懗鰜恚合葟哪睦镩_始，再到哪里，哪些點應(yīng)該先講，哪些點應(yīng)該后講，哪些地方容易卡住。

也就是說，我把 curriculum（課程路徑）寫成 skill，讓 agent 去接手具體解釋。

所以未來教育很可能會發(fā)生一個重要變化：不是我再直接對所有人講同一套課，而是我把自己認(rèn)為最重要的那些 bits（關(guān)鍵點）和路徑寫給 agent，然后由它去做無限耐心、無限定制化的解釋。

我當(dāng)然還是覺得，今天我有些地方解釋得可能比 agent 更好。但模型進(jìn)步得太快了，所以我越來越覺得，這場競爭長期看是留不住的。

從這個意義上說，教育會變：你要更清楚什么東西是 agent 還做不到、只有你能補進(jìn)去的；那些 agent 已經(jīng)能做的，你就不該再把時間花在重復(fù)勞動上。

在這種時代里，“做人”本身會變成什么？

Andrew Karpathy：我覺得，“做人”的定義其實早就在變了。

很久以前，大多數(shù)人的生活更偏物理、更偏現(xiàn)實。今天當(dāng)然還有很多人是這樣，但對于越來越多的人來說，存在本身已經(jīng)越來越數(shù)字化了。我們活在社交網(wǎng)絡(luò)上，用完全不同的方式互動、表達(dá)、協(xié)作。

而隨著 AI 作為 companion（陪伴者）、tutor（導(dǎo)師）、助手越來越普遍，這種趨勢只會更往前走。很多人的生活會變得更加數(shù)字化，更被 agent 環(huán)繞。

我并不覺得這是突然發(fā)生的斷裂。更像是一條已經(jīng)持續(xù)很久的趨勢繼續(xù)往前：人類一直在自動化那些可以被自動化的部分，然后把自己從中騰出來，去做別的事。

如果你看今天的工作和一百年前相比，早就已經(jīng)完全不同了。所以未來的工作當(dāng)然也會不一樣——它們不會繼續(xù)停留在那些枯燥、重復(fù)的環(huán)節(jié)，而會更偏向發(fā)現(xiàn)新東西、創(chuàng)造新東西。

但與此同時，我確實覺得，對很多人來說，未來會是一種更強的“數(shù)字生存”。如果你還想保住足夠強的物理性，反而要主動去為此做選擇。

比如我自己會去攀巖，因為那是一種非常物理的體驗。我覺得以后越來越多人都得主動給自己找這種出口：在一個已經(jīng)不再強迫你進(jìn)行物理勞動的世界里，重新給身體找位置。

Sarah Guo：那你現(xiàn)在最興奮的到底是什么？

Andrew Karpathy：還是那個問題：一個人到底能做到多少？

以前我腦子里也有很多想法，但很多事情你連開始都不會開始，因為你知道自己做不動。比如你想創(chuàng)業(yè)，你會立刻想到：我還得找聯(lián)合創(chuàng)始人、招十個工程師、找設(shè)計師、找前端……那算了，別開始了。

但現(xiàn)在我越來越覺得，很多原來根本不會啟動的事情，已經(jīng)開始變得可啟動。

我有一個想法，不再會立刻默認(rèn)它因為資源不夠而無法發(fā)生。它真的有可能被做出來。

這就是現(xiàn)在讓我最興奮的地方：我甚至已經(jīng)不知道邊界在哪里了。

隨著我對這些工具越來越熟，隨著整個模型之上的 OS 層不斷被社區(qū)和新公司做出來，我真的感覺“一個人到底能做多少”，這條線的上限還完全看不見。

所以我現(xiàn)在作為個人，確實感到一種非常強的賦能感。這也是為什么我覺得，“one-person unicorn company（獨角獸式的一人公司）”一定會發(fā)生。我不知道具體會在什么時候發(fā)生，但我覺得它是一定會出現(xiàn)的。

原視頻鏈接：youtu.be/kwSVtQ7dziU

（投稿或?qū)で髨蟮溃簔hanghy@csdn.net）

"48 小時，與 50+ 位大廠技術(shù)決策者，共探 AI 落地真路徑"

由 CSDN&奇點智能研究院聯(lián)合舉辦的「全球機器學(xué)習(xí)技術(shù)大會」正式升級為「奇點智能技術(shù)大會」。

2026 奇點智能技術(shù)大會將于 4 月 17-18 日在上海環(huán)球港凱悅酒店正式召開，大會聚焦大模型技術(shù)演進(jìn)、智能體系統(tǒng)工程、OpenClaw 生態(tài)實踐及 AI 行業(yè)落地等十二大專題板塊，特邀來自BAT、京東、微軟、小紅書、美團(tuán)等頭部企業(yè)的 50+ 位技術(shù)決策者分享實戰(zhàn)案例。旨在幫助技術(shù)管理者與一線 AI 落地人員規(guī)避選型風(fēng)險、降低試錯成本、獲取可復(fù)用的工程方法論，真正實現(xiàn) AI 技術(shù)的規(guī)模化落地與商業(yè)價值轉(zhuǎn)化。

這不僅是一場技術(shù)的盛宴，更是決策者把握 2026 AI 拐點的戰(zhàn)略機會。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.