![]()
作者 | Tina
“我敢斷言:把 AI Agent 引入軟件開發(fā),將會成為這個領(lǐng)域歷史上代價最慘重的錯誤之一。”
說出這句話的人是 George Hotz。17 歲那年他第一個破解了 iPhone,后來又逆向工程了 PlayStation 3——Sony 因此把他告上了法庭。再后來他創(chuàng)辦了 comma.ai,成了自動駕駛領(lǐng)域最不按常理出牌的人。
過去六個月,Hotz 把市面上叫得上名字的 AI 編程 Agent 全試了一遍。他用它們寫過 tinygrad 的代碼,用它們逆向過一個 USB 轉(zhuǎn) PCIe 芯片。他換過不同模型、不同 harness,也試過不同提示詞。
上周日,他把自己的結(jié)論寫成一篇博客,標題叫《永恒的 Sloptember》,認為大規(guī)模采用人工智能編碼 Agent 將以災(zāi)難告終,或者至少接近災(zāi)難。
Hotz 的核心論點很明確:Agent 不是程序員。“Agent 不會編程,而且我們意識到它們不會編程這件事,正在變得越來越難。”他寫道,“它們是一種高度復(fù)雜的統(tǒng)計模型,被設(shè)計出來模仿‘編程’這件事的分布。它們生成的東西就是壞的,只是壞得越來越隱蔽、越來越難查出來。而這,正是一個越來越精確的統(tǒng)計模型會帶來的結(jié)果。”
AI 編程的兩極:
Karpathy 看見革命,Hotz 看見災(zāi)難
五天前,AI 圈最知名的研究者之一 Andrej Karpathy 剛剛加入 Anthropic,并公開表示一個明確的觀點:AI Agent 已經(jīng)徹底改變了軟件開發(fā)。
現(xiàn)在,這兩個人代表了行業(yè)尚未解決的一場爭論的兩個極端,而且雙方都有足夠的可信度來支撐自己的立場。
![]()
Hotz 并不是一開始就這么確信。他花了六個月時間,在真實項目中使用 Agent:包括為他的開源深度學習框架 Tinygrad 寫部分代碼,以及對一個 USB-PCIe 芯片做完整的固件逆向工程。但最后他的結(jié)論是,每一次他都本可以靠手工“做得更好、更快”。他觀察到的模式是:“Agent 會把所有進展都提前堆在前面,然后遞給你一個老虎機拉桿,讓你不斷去拉,指望它把最后的打磨做完。但它總是差那么一點。”
Hotz 預(yù)料到了最顯而易見的反駁:
在有人跳出來說“是你用錯了”之前,我先說:不同模型、不同 harness、不同提示詞,我都試過。問題不在這里。那些說這種話的人,大概也會對老虎機說同樣的話:你看,拿到一個櫻桃之后就應(yīng)該押五條線,難怪你一直贏不了! 我并不是說 AI 沒用,它顯然有用。對大多數(shù)搜索來說,它肯定是一個更好的 Google。只要你需要一個快速原型,又不在乎打磨程度,它的速度快得離譜。 但它是軟件工程師嗎?離我工作過的任何一家公司的標準都差得遠。關(guān)鍵在于,你要知道什么時候該用它,什么時候不該用。
一個把手藝視為自我身份一部分的程序員,自然會抵觸那些威脅要取代他的工具。他也認真對待了這個質(zhì)疑,但也從事實層面駁回了它。
Hotz 寫道:“我后來又想了想所謂維護自我價值這件事。(Google 的) AFL 找到的 bug 比 LLM 更多,也沒人因此有這種感覺。國際象棋和圍棋比以往任何時候都更流行。”從某種意義上說,他是對的,因為國際象棋 AI 統(tǒng)治人類已經(jīng)有幾十年了,但這項游戲反而變得更受歡迎。
所以,他擔心的并不是自己被取代。他真正擔心的是,當所有人同時使用這些工具時,代碼質(zhì)量會發(fā)生什么變化,尤其是在大型科技公司和華爾街不斷推動這些工具大規(guī)模使用的情況下。
Hotz 認為:“我甚至覺得,這套說法有點像某種為了賣 Agent 而制造出來的心理戰(zhàn)。對損失的恐懼,是少數(shù)能推動大公司行動的方式之一。只不過我認為,它們正在這種恐懼中犯下一個巨大的錯誤。”
他認為,到頭來,Agent 對大型組織造成的傷害,會比對高績效個人或小型組織更大。
過去六個月,我一直在觀察身邊的朋友和同事是怎么采用這些工具的。所有高績效的人身上都有一個共同特征:他們有糾錯能力,而且大多數(shù)時候,他們都能看出來什么時候垃圾就是垃圾。確實需要花一點時間去探索、試用,并調(diào)整外層循環(huán),比如什么時候用它們、什么時候信任它們、該怎么用它們等等。但除了少數(shù)邊界很清楚的領(lǐng)域之外,我沒有見過他們中的任何一個人轉(zhuǎn)向一種“不再認真閱讀并理解每一行代碼”的模式。
再看看大型組織。反饋循環(huán)慢得多,對齊程度也低得多。那些表現(xiàn)最差的人,不會有這種自我檢查能力。而他們恰恰會成為借助 Agent 產(chǎn)出“10 倍代碼”的人。你覺得這會讓一個組織的平均產(chǎn)出變成什么樣?又會讓整個世界的平均產(chǎn)出變成什么樣?
Agent 最終會生產(chǎn)出比以往更多的代碼、更多的應(yīng)用、更多的功能。這會是一個垃圾代碼成噸涌出的黃金時代,也會是高質(zhì)量精品的黑暗時代。
在更深層的技術(shù)問題上,Hotz 已經(jīng)轉(zhuǎn)向了另一個陣營。他說:“雖然我并不完全認同他們的所有觀點,但在 LLM 這個問題上,我現(xiàn)在站到了 LeCun / Marcus 陣營。我不認為這類模型能夠真正實現(xiàn)編程,我認為過程很重要。”
在他看來,真正的編程 Agent 需要世界模型,而不是現(xiàn)在這種基于 RLVR 的方法。對于后者,他說得很直白:那就是“把失敗的測試注釋掉,然后告訴你所有測試都通過了”的那套東西。
![]()
他認為,更深的問題在于我們怎么看待一個產(chǎn)物。過去,人們看到一段代碼或一個軟件,會默認它背后有一個類似人類的創(chuàng)作過程。但這個默認前提現(xiàn)在不成立了。“東西可能以過去不可能出現(xiàn)的方式壞掉,而語法、文法這些過去用來判斷底層質(zhì)量的信號,已經(jīng)沒用了。”Agent 寫出來的代碼,不是按人類寫代碼的方式產(chǎn)生的。這種差別從統(tǒng)計上看也許很細,但當你試圖像對待人寫的代碼一樣去理解它、繼續(xù)在上面開發(fā)時,它就會變得很明顯。
Hotz 還警告那些正在用 AI Agent 做嚴肅軟件的人:“這個時代真正的故事,將是誰能在自己的 AI 狂熱中避免傷到自己。”
制造 AI 編程熱潮的人
開始擔心它失控
Hotz 不是唯一一個發(fā)出這種聲音的人。
Mario Zechner 和 Armin Ronacher,親手打造了爆火 OpenClaw AI Agent 核心組件的兩位工程師,如今發(fā)出警告:那些號稱能取代程序員的 AI,正在把大量糟糕的、甚至危險的代碼推向世界。他們把這種現(xiàn)象叫做“vibe slop”——程序員不再認真設(shè)計和測試系統(tǒng),而是讓 AI 快速拼出一套東西,最后產(chǎn)出一堆經(jīng)不起時間考驗的軟件。
“基礎(chǔ)設(shè)施正在崩潰,軟件比以前漏洞百出,”O(jiān)penClaw 內(nèi)部框架 Pi 的創(chuàng)建者 Zechner 說。“我們還能再玩幾個月甚至幾年,但它最終會讓我們付出代價。”
Zechner 和 Ronacher 不是 AI 黑。他們自己寫代碼時也用 AI 處理枯燥工作,親手打造的工具 Pi 有幾百萬人使用。正因為他們身處其中,這個警告才不是外行人的空喊。他們擔心的是:許多公司正在用短期生產(chǎn)率換取長期麻煩:初級人才管道干涸、bug 增多、安全漏洞、技術(shù)債不斷累積。
Alphabet CEO Pichai 說 Google 75%的新代碼由 AI 生成。Meta 的 Zuckerberg 預(yù)測 2026 年前 AI 將編寫和審查其 AI 團隊的大部分代碼。但 Zechner 認為,這些說法恰恰說明很多人沒搞清楚 AI Agent 能做什么、不能做什么。
AI 編程工具擅長生成新代碼,但不擅長評估和升級既有軟件——尤其是成熟公司內(nèi)部那些龐大、復(fù)雜的遺留系統(tǒng)。用 vibe coding 沖起來的創(chuàng)業(yè)公司可以快速起步,但 Zechner 說,一旦系統(tǒng)長到一定規(guī)模,它們就會撞上和大公司同樣的墻:AI Agent 的用處是有限的。
拿 Anthropic 的 Claude Code 來說。Zechner 的評價毫不留情:“Claude Code 是我這輩子用過的最破碎的軟件之一。”這些問題源于開發(fā)者用 AI 來構(gòu)建它。而 Anthropic 產(chǎn)品負責人 Catherine Wu 進行了辯解但也承認:“最終責任仍然在人類身上。”
計算機科學家 Timothy B. Lee 指出,Anthropic 擁有全球最優(yōu)秀的一批 AI 工程師,所以這種高度依賴 AI 的方法對他們可能行得通,但不一定適用于這家公司的所有客戶。很多公司在處理內(nèi)部軟件系統(tǒng)時,依賴的是員工程序員多年積累下來的隱性知識,而這些知識并不會出現(xiàn)在 AI Agent 的訓練數(shù)據(jù)中。
“這些模型很容易走錯方向,而必須有人注意到這一點。”
Zechner 認為,一場清算正在到來。
他認為,大公司很快就會意識到,它們對 AI 生成代碼的過度強調(diào)正在推高成本,并導致軟件質(zhì)量下降。他認為,許多依賴 vibe coding 的小型創(chuàng)業(yè)公司會倒閉。他還認為,像 GitHub 這樣托管有用軟件工具的云端代碼倉庫,會繼續(xù)被 AI 生成的編程垃圾填滿。
AI 的回報,目前還沒跟上它的消耗
如果說 Hotz 和 Zechner 擔心的是代碼質(zhì)量,那 Uber 高管擔心的就是另一件事了:錢。
Uber 首席運營官 Andrew Macdonald 在3天前的一期訪談里說,在公司內(nèi)部,AI 成本正變得越來越難被說服為“合理投入”。
他提到,Uber CTO Praveen Neppalli Naga 今年 4 月接受 The Information 采訪時曾說,Uber 已經(jīng)提前花光了 2026 年的 Claude Code 預(yù)算。這句話后來在網(wǎng)上傳開。
Macdonald 說,這句話在 Uber 內(nèi)部炸開了鍋,大家開始認真討論 AI token 消耗的問題,以及這種消耗帶來的取舍,比如是否會影響人員編制。他說,在和 Uber 多位高級工程負責人溝通之后,他意識到,token 用得更多,并不意味著公司就能同比例地交付更多真正有用的消費者功能。
“這個關(guān)聯(lián)現(xiàn)在還不存在,” Macdonald 說。“很難把其中某一個指標和‘好,現(xiàn)在我們實際產(chǎn)出了 25% 更多有用的消費者功能’直接對應(yīng)起來。”
當這條因果線畫不出來的時候,AI 的成本就很難被合理化。Uber 的 CEO 本月早些時候已經(jīng)表示,為了對沖 AI 投資,公司正在放緩招聘。
Macdonald 還補了一句:如果你只是一個坐在那里想各種有趣用例的用戶,又不用自己掏錢,AI 看起來確實是免費的。但賬單最終是由公司來買單的。
有些公司已經(jīng)開始往回調(diào)。比如 Duolingo,此前曾計劃把 AI 使用情況納入績效考核,但員工很快提出疑問:到底是為了把事情做得更好而使用 AI,還是為了證明自己“用了 AI”而使用 AI?隨后,公司撤回了這一決定。Duolingo CEO 后來也承認:“當時給人的感覺是,我們不是在要求大家對實際結(jié)果負責,而是在推動某種工具的使用;但在一些情況下,它其實并不適用。”
今年 4 月,英偉達應(yīng)用深度學習副總裁 Bryan Catanzaro 提到,AI 并沒有降低用人成本——實際上,目前人工智能的成本比公司現(xiàn)有的人力成本更高。至少在他的團隊里,“計算成本遠遠超過員工成本。”
結(jié) 語
所以,真正的問題不是“人寫爛代碼,AI 也寫爛代碼,那有什么區(qū)別”。
區(qū)別在于,過去再差的代碼,至少寫它的人心里有一個粗糙的心智模型:他知道自己為什么這么寫。但現(xiàn)在,大量 AI 生成的代碼被快速提交、合并、發(fā)布,很多人并沒有真正理解它,只是看到它通過了測試——而測試本身可能就是殘缺的。
壞代碼從來不新鮮。新鮮的是,壞想法現(xiàn)在可以以更快的速度變成 commit,而理解、審查和責任卻沒有同步變快。
有人在 Twitter 上說:“再等六個月,持續(xù)學習和記憶系統(tǒng)會解決這些問題。”也許吧。但過去六個月的進展,并沒有讓 Hotz 和 Zechner 變得更樂觀。
https://geohot.github.io//blog/jekyll/update/2026/05/24/the-eternal-sloptember.html
https://archive.ph/iyszw
https://www.businessinsider.com/uber-coo-andrew-macdonald-ai-token-spending-harder-justify-2026-5
https://www.youtube.com/watch?v=y_mQ6xLcKyc&t=1776s
聲明:本文為 InfoQ 整理,不代表平臺觀點,未經(jīng)許可禁止轉(zhuǎn)載。
會議推薦
企業(yè)級 Agent 落地,繞不開 4 個真實的工程問題!如何在 Agent 安全性和可用性之間找到平衡點?Agent 需要什么樣的記憶系統(tǒng)才能真正理解上下文?如何通過算法壓榨實現(xiàn)智力增量與成本控制的極致平衡?多 Agent 協(xié)作,如何做到可觀測、可治理、可控制?6.26-27 AICon 上海站,國內(nèi)頭部公司的 Agent 實踐,一次說透。
今日薦文
![]()
你也「在看」嗎?
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.