編程 Agent 可能是軟件開發(fā)史上最昂貴的錯誤之一

2026-05-30 13:34:47　來源: AI前線

北京舉報

分享至

作者 | Tina

“我敢斷言：把 AI Agent 引入軟件開發(fā)，將會成為這個領(lǐng)域歷史上代價最慘重的錯誤之一。”

說出這句話的人是 George Hotz。17 歲那年他第一個破解了 iPhone，后來又逆向工程了 PlayStation 3——Sony 因此把他告上了法庭。再后來他創(chuàng)辦了 comma.ai，成了自動駕駛領(lǐng)域最不按常理出牌的人。

過去六個月，Hotz 把市面上叫得上名字的 AI 編程 Agent 全試了一遍。他用它們寫過 tinygrad 的代碼，用它們逆向過一個 USB 轉(zhuǎn) PCIe 芯片。他換過不同模型、不同 harness，也試過不同提示詞。

上周日，他把自己的結(jié)論寫成一篇博客，標題叫《永恒的 Sloptember》，認為大規(guī)模采用人工智能編碼 Agent 將以災(zāi)難告終，或者至少接近災(zāi)難。

Hotz 的核心論點很明確：Agent 不是程序員。“Agent 不會編程，而且我們意識到它們不會編程這件事，正在變得越來越難。”他寫道，“它們是一種高度復(fù)雜的統(tǒng)計模型，被設(shè)計出來模仿‘編程’這件事的分布。它們生成的東西就是壞的，只是壞得越來越隱蔽、越來越難查出來。而這，正是一個越來越精確的統(tǒng)計模型會帶來的結(jié)果。”

AI 編程的兩極：

Karpathy 看見革命，Hotz 看見災(zāi)難

五天前，AI 圈最知名的研究者之一 Andrej Karpathy 剛剛加入 Anthropic，并公開表示一個明確的觀點：AI Agent 已經(jīng)徹底改變了軟件開發(fā)。

現(xiàn)在，這兩個人代表了行業(yè)尚未解決的一場爭論的兩個極端，而且雙方都有足夠的可信度來支撐自己的立場。

Hotz 并不是一開始就這么確信。他花了六個月時間，在真實項目中使用 Agent：包括為他的開源深度學習框架 Tinygrad 寫部分代碼，以及對一個 USB-PCIe 芯片做完整的固件逆向工程。但最后他的結(jié)論是，每一次他都本可以靠手工“做得更好、更快”。他觀察到的模式是：“Agent 會把所有進展都提前堆在前面，然后遞給你一個老虎機拉桿，讓你不斷去拉，指望它把最后的打磨做完。但它總是差那么一點。”

Hotz 預(yù)料到了最顯而易見的反駁：

在有人跳出來說“是你用錯了”之前，我先說：不同模型、不同 harness、不同提示詞，我都試過。問題不在這里。那些說這種話的人，大概也會對老虎機說同樣的話：你看，拿到一個櫻桃之后就應(yīng)該押五條線，難怪你一直贏不了！我并不是說 AI 沒用，它顯然有用。對大多數(shù)搜索來說，它肯定是一個更好的 Google。只要你需要一個快速原型，又不在乎打磨程度，它的速度快得離譜。但它是軟件工程師嗎？離我工作過的任何一家公司的標準都差得遠。關(guān)鍵在于，你要知道什么時候該用它，什么時候不該用。

一個把手藝視為自我身份一部分的程序員，自然會抵觸那些威脅要取代他的工具。他也認真對待了這個質(zhì)疑，但也從事實層面駁回了它。

Hotz 寫道：“我后來又想了想所謂維護自我價值這件事。（Google 的） AFL 找到的 bug 比 LLM 更多，也沒人因此有這種感覺。國際象棋和圍棋比以往任何時候都更流行。”從某種意義上說，他是對的，因為國際象棋 AI 統(tǒng)治人類已經(jīng)有幾十年了，但這項游戲反而變得更受歡迎。

所以，他擔心的并不是自己被取代。他真正擔心的是，當所有人同時使用這些工具時，代碼質(zhì)量會發(fā)生什么變化，尤其是在大型科技公司和華爾街不斷推動這些工具大規(guī)模使用的情況下。

Hotz 認為：“我甚至覺得，這套說法有點像某種為了賣 Agent 而制造出來的心理戰(zhàn)。對損失的恐懼，是少數(shù)能推動大公司行動的方式之一。只不過我認為，它們正在這種恐懼中犯下一個巨大的錯誤。”

他認為，到頭來，Agent 對大型組織造成的傷害，會比對高績效個人或小型組織更大。

過去六個月，我一直在觀察身邊的朋友和同事是怎么采用這些工具的。所有高績效的人身上都有一個共同特征：他們有糾錯能力，而且大多數(shù)時候，他們都能看出來什么時候垃圾就是垃圾。確實需要花一點時間去探索、試用，并調(diào)整外層循環(huán)，比如什么時候用它們、什么時候信任它們、該怎么用它們等等。但除了少數(shù)邊界很清楚的領(lǐng)域之外，我沒有見過他們中的任何一個人轉(zhuǎn)向一種“不再認真閱讀并理解每一行代碼”的模式。

再看看大型組織。反饋循環(huán)慢得多，對齊程度也低得多。那些表現(xiàn)最差的人，不會有這種自我檢查能力。而他們恰恰會成為借助 Agent 產(chǎn)出“10 倍代碼”的人。你覺得這會讓一個組織的平均產(chǎn)出變成什么樣？又會讓整個世界的平均產(chǎn)出變成什么樣？

Agent 最終會生產(chǎn)出比以往更多的代碼、更多的應(yīng)用、更多的功能。這會是一個垃圾代碼成噸涌出的黃金時代，也會是高質(zhì)量精品的黑暗時代。

在更深層的技術(shù)問題上，Hotz 已經(jīng)轉(zhuǎn)向了另一個陣營。他說：“雖然我并不完全認同他們的所有觀點，但在 LLM 這個問題上，我現(xiàn)在站到了 LeCun / Marcus 陣營。我不認為這類模型能夠真正實現(xiàn)編程，我認為過程很重要。”

在他看來，真正的編程 Agent 需要世界模型，而不是現(xiàn)在這種基于 RLVR 的方法。對于后者，他說得很直白：那就是“把失敗的測試注釋掉，然后告訴你所有測試都通過了”的那套東西。

他認為，更深的問題在于我們怎么看待一個產(chǎn)物。過去，人們看到一段代碼或一個軟件，會默認它背后有一個類似人類的創(chuàng)作過程。但這個默認前提現(xiàn)在不成立了。“東西可能以過去不可能出現(xiàn)的方式壞掉，而語法、文法這些過去用來判斷底層質(zhì)量的信號，已經(jīng)沒用了。”Agent 寫出來的代碼，不是按人類寫代碼的方式產(chǎn)生的。這種差別從統(tǒng)計上看也許很細，但當你試圖像對待人寫的代碼一樣去理解它、繼續(xù)在上面開發(fā)時，它就會變得很明顯。

Hotz 還警告那些正在用 AI Agent 做嚴肅軟件的人：“這個時代真正的故事，將是誰能在自己的 AI 狂熱中避免傷到自己。”

制造 AI 編程熱潮的人

開始擔心它失控

Hotz 不是唯一一個發(fā)出這種聲音的人。

Mario Zechner 和 Armin Ronacher，親手打造了爆火 OpenClaw AI Agent 核心組件的兩位工程師，如今發(fā)出警告：那些號稱能取代程序員的 AI，正在把大量糟糕的、甚至危險的代碼推向世界。他們把這種現(xiàn)象叫做“vibe slop”——程序員不再認真設(shè)計和測試系統(tǒng)，而是讓 AI 快速拼出一套東西，最后產(chǎn)出一堆經(jīng)不起時間考驗的軟件。

“基礎(chǔ)設(shè)施正在崩潰，軟件比以前漏洞百出，”O(jiān)penClaw 內(nèi)部框架 Pi 的創(chuàng)建者 Zechner 說。“我們還能再玩幾個月甚至幾年，但它最終會讓我們付出代價。”

Zechner 和 Ronacher 不是 AI 黑。他們自己寫代碼時也用 AI 處理枯燥工作，親手打造的工具 Pi 有幾百萬人使用。正因為他們身處其中，這個警告才不是外行人的空喊。他們擔心的是：許多公司正在用短期生產(chǎn)率換取長期麻煩：初級人才管道干涸、bug 增多、安全漏洞、技術(shù)債不斷累積。

Alphabet CEO Pichai 說 Google 75%的新代碼由 AI 生成。Meta 的 Zuckerberg 預(yù)測 2026 年前 AI 將編寫和審查其 AI 團隊的大部分代碼。但 Zechner 認為，這些說法恰恰說明很多人沒搞清楚 AI Agent 能做什么、不能做什么。

AI 編程工具擅長生成新代碼，但不擅長評估和升級既有軟件——尤其是成熟公司內(nèi)部那些龐大、復(fù)雜的遺留系統(tǒng)。用 vibe coding 沖起來的創(chuàng)業(yè)公司可以快速起步，但 Zechner 說，一旦系統(tǒng)長到一定規(guī)模，它們就會撞上和大公司同樣的墻：AI Agent 的用處是有限的。

拿 Anthropic 的 Claude Code 來說。Zechner 的評價毫不留情：“Claude Code 是我這輩子用過的最破碎的軟件之一。”這些問題源于開發(fā)者用 AI 來構(gòu)建它。而 Anthropic 產(chǎn)品負責人 Catherine Wu 進行了辯解但也承認：“最終責任仍然在人類身上。”

計算機科學家 Timothy B. Lee 指出，Anthropic 擁有全球最優(yōu)秀的一批 AI 工程師，所以這種高度依賴 AI 的方法對他們可能行得通，但不一定適用于這家公司的所有客戶。很多公司在處理內(nèi)部軟件系統(tǒng)時，依賴的是員工程序員多年積累下來的隱性知識，而這些知識并不會出現(xiàn)在 AI Agent 的訓練數(shù)據(jù)中。

“這些模型很容易走錯方向，而必須有人注意到這一點。”

Zechner 認為，一場清算正在到來。

他認為，大公司很快就會意識到，它們對 AI 生成代碼的過度強調(diào)正在推高成本，并導致軟件質(zhì)量下降。他認為，許多依賴 vibe coding 的小型創(chuàng)業(yè)公司會倒閉。他還認為，像 GitHub 這樣托管有用軟件工具的云端代碼倉庫，會繼續(xù)被 AI 生成的編程垃圾填滿。

AI 的回報，目前還沒跟上它的消耗

如果說 Hotz 和 Zechner 擔心的是代碼質(zhì)量，那 Uber 高管擔心的就是另一件事了：錢。

Uber 首席運營官 Andrew Macdonald 在3天前的一期訪談里說，在公司內(nèi)部，AI 成本正變得越來越難被說服為“合理投入”。

他提到，Uber CTO Praveen Neppalli Naga 今年 4 月接受 The Information 采訪時曾說，Uber 已經(jīng)提前花光了 2026 年的 Claude Code 預(yù)算。這句話后來在網(wǎng)上傳開。

Macdonald 說，這句話在 Uber 內(nèi)部炸開了鍋，大家開始認真討論 AI token 消耗的問題，以及這種消耗帶來的取舍，比如是否會影響人員編制。他說，在和 Uber 多位高級工程負責人溝通之后，他意識到，token 用得更多，并不意味著公司就能同比例地交付更多真正有用的消費者功能。

“這個關(guān)聯(lián)現(xiàn)在還不存在，” Macdonald 說。“很難把其中某一個指標和‘好，現(xiàn)在我們實際產(chǎn)出了 25% 更多有用的消費者功能’直接對應(yīng)起來。”

當這條因果線畫不出來的時候，AI 的成本就很難被合理化。Uber 的 CEO 本月早些時候已經(jīng)表示，為了對沖 AI 投資，公司正在放緩招聘。

Macdonald 還補了一句：如果你只是一個坐在那里想各種有趣用例的用戶，又不用自己掏錢，AI 看起來確實是免費的。但賬單最終是由公司來買單的。

有些公司已經(jīng)開始往回調(diào)。比如 Duolingo，此前曾計劃把 AI 使用情況納入績效考核，但員工很快提出疑問：到底是為了把事情做得更好而使用 AI，還是為了證明自己“用了 AI”而使用 AI？隨后，公司撤回了這一決定。Duolingo CEO 后來也承認：“當時給人的感覺是，我們不是在要求大家對實際結(jié)果負責，而是在推動某種工具的使用；但在一些情況下，它其實并不適用。”

今年 4 月，英偉達應(yīng)用深度學習副總裁 Bryan Catanzaro 提到，AI 并沒有降低用人成本——實際上，目前人工智能的成本比公司現(xiàn)有的人力成本更高。至少在他的團隊里，“計算成本遠遠超過員工成本。”

結(jié) 語

所以，真正的問題不是“人寫爛代碼，AI 也寫爛代碼，那有什么區(qū)別”。

區(qū)別在于，過去再差的代碼，至少寫它的人心里有一個粗糙的心智模型：他知道自己為什么這么寫。但現(xiàn)在，大量 AI 生成的代碼被快速提交、合并、發(fā)布，很多人并沒有真正理解它，只是看到它通過了測試——而測試本身可能就是殘缺的。

壞代碼從來不新鮮。新鮮的是，壞想法現(xiàn)在可以以更快的速度變成 commit，而理解、審查和責任卻沒有同步變快。

有人在 Twitter 上說：“再等六個月，持續(xù)學習和記憶系統(tǒng)會解決這些問題。”也許吧。但過去六個月的進展，并沒有讓 Hotz 和 Zechner 變得更樂觀。

https://geohot.github.io//blog/jekyll/update/2026/05/24/the-eternal-sloptember.html

https://archive.ph/iyszw

https://www.businessinsider.com/uber-coo-andrew-macdonald-ai-token-spending-harder-justify-2026-5

https://www.youtube.com/watch?v=y_mQ6xLcKyc&t=1776s

聲明：本文為 InfoQ 整理，不代表平臺觀點，未經(jīng)許可禁止轉(zhuǎn)載。

會議推薦

企業(yè)級 Agent 落地，繞不開 4 個真實的工程問題！如何在 Agent 安全性和可用性之間找到平衡點？Agent 需要什么樣的記憶系統(tǒng)才能真正理解上下文？如何通過算法壓榨實現(xiàn)智力增量與成本控制的極致平衡？多 Agent 協(xié)作，如何做到可觀測、可治理、可控制？6.26-27 AICon 上海站，國內(nèi)頭部公司的 Agent 實踐，一次說透。

今日薦文

你也「在看」嗎？

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.