无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

編程 Agent 可能是軟件開發(fā)史上最昂貴的錯誤之一

0
分享至


作者 | Tina

“我敢斷言:把 AI Agent 引入軟件開發(fā),將會成為這個領(lǐng)域歷史上代價最慘重的錯誤之一。”

說出這句話的人是 George Hotz。17 歲那年他第一個破解了 iPhone,后來又逆向工程了 PlayStation 3——Sony 因此把他告上了法庭。再后來他創(chuàng)辦了 comma.ai,成了自動駕駛領(lǐng)域最不按常理出牌的人。

過去六個月,Hotz 把市面上叫得上名字的 AI 編程 Agent 全試了一遍。他用它們寫過 tinygrad 的代碼,用它們逆向過一個 USB 轉(zhuǎn) PCIe 芯片。他換過不同模型、不同 harness,也試過不同提示詞。

上周日,他把自己的結(jié)論寫成一篇博客,標題叫《永恒的 Sloptember》,認為大規(guī)模采用人工智能編碼 Agent 將以災(zāi)難告終,或者至少接近災(zāi)難。

Hotz 的核心論點很明確:Agent 不是程序員。“Agent 不會編程,而且我們意識到它們不會編程這件事,正在變得越來越難。”他寫道,“它們是一種高度復(fù)雜的統(tǒng)計模型,被設(shè)計出來模仿‘編程’這件事的分布。它們生成的東西就是壞的,只是壞得越來越隱蔽、越來越難查出來。而這,正是一個越來越精確的統(tǒng)計模型會帶來的結(jié)果。”

AI 編程的兩極:

Karpathy 看見革命,Hotz 看見災(zāi)難

五天前,AI 圈最知名的研究者之一 Andrej Karpathy 剛剛加入 Anthropic,并公開表示一個明確的觀點:AI Agent 已經(jīng)徹底改變了軟件開發(fā)。

現(xiàn)在,這兩個人代表了行業(yè)尚未解決的一場爭論的兩個極端,而且雙方都有足夠的可信度來支撐自己的立場。


Hotz 并不是一開始就這么確信。他花了六個月時間,在真實項目中使用 Agent:包括為他的開源深度學習框架 Tinygrad 寫部分代碼,以及對一個 USB-PCIe 芯片做完整的固件逆向工程。但最后他的結(jié)論是,每一次他都本可以靠手工“做得更好、更快”。他觀察到的模式是:“Agent 會把所有進展都提前堆在前面,然后遞給你一個老虎機拉桿,讓你不斷去拉,指望它把最后的打磨做完。但它總是差那么一點。”

Hotz 預(yù)料到了最顯而易見的反駁:

在有人跳出來說“是你用錯了”之前,我先說:不同模型、不同 harness、不同提示詞,我都試過。問題不在這里。那些說這種話的人,大概也會對老虎機說同樣的話:你看,拿到一個櫻桃之后就應(yīng)該押五條線,難怪你一直贏不了! 我并不是說 AI 沒用,它顯然有用。對大多數(shù)搜索來說,它肯定是一個更好的 Google。只要你需要一個快速原型,又不在乎打磨程度,它的速度快得離譜。 但它是軟件工程師嗎?離我工作過的任何一家公司的標準都差得遠。關(guān)鍵在于,你要知道什么時候該用它,什么時候不該用。

一個把手藝視為自我身份一部分的程序員,自然會抵觸那些威脅要取代他的工具。他也認真對待了這個質(zhì)疑,但也從事實層面駁回了它。

Hotz 寫道:“我后來又想了想所謂維護自我價值這件事。(Google 的) AFL 找到的 bug 比 LLM 更多,也沒人因此有這種感覺。國際象棋和圍棋比以往任何時候都更流行。”從某種意義上說,他是對的,因為國際象棋 AI 統(tǒng)治人類已經(jīng)有幾十年了,但這項游戲反而變得更受歡迎。

所以,他擔心的并不是自己被取代。他真正擔心的是,當所有人同時使用這些工具時,代碼質(zhì)量會發(fā)生什么變化,尤其是在大型科技公司和華爾街不斷推動這些工具大規(guī)模使用的情況下。

Hotz 認為:“我甚至覺得,這套說法有點像某種為了賣 Agent 而制造出來的心理戰(zhàn)。對損失的恐懼,是少數(shù)能推動大公司行動的方式之一。只不過我認為,它們正在這種恐懼中犯下一個巨大的錯誤。”

他認為,到頭來,Agent 對大型組織造成的傷害,會比對高績效個人或小型組織更大。


過去六個月,我一直在觀察身邊的朋友和同事是怎么采用這些工具的。所有高績效的人身上都有一個共同特征:他們有糾錯能力,而且大多數(shù)時候,他們都能看出來什么時候垃圾就是垃圾。確實需要花一點時間去探索、試用,并調(diào)整外層循環(huán),比如什么時候用它們、什么時候信任它們、該怎么用它們等等。但除了少數(shù)邊界很清楚的領(lǐng)域之外,我沒有見過他們中的任何一個人轉(zhuǎn)向一種“不再認真閱讀并理解每一行代碼”的模式。
再看看大型組織。反饋循環(huán)慢得多,對齊程度也低得多。那些表現(xiàn)最差的人,不會有這種自我檢查能力。而他們恰恰會成為借助 Agent 產(chǎn)出“10 倍代碼”的人。你覺得這會讓一個組織的平均產(chǎn)出變成什么樣?又會讓整個世界的平均產(chǎn)出變成什么樣?
Agent 最終會生產(chǎn)出比以往更多的代碼、更多的應(yīng)用、更多的功能。這會是一個垃圾代碼成噸涌出的黃金時代,也會是高質(zhì)量精品的黑暗時代。

在更深層的技術(shù)問題上,Hotz 已經(jīng)轉(zhuǎn)向了另一個陣營。他說:“雖然我并不完全認同他們的所有觀點,但在 LLM 這個問題上,我現(xiàn)在站到了 LeCun / Marcus 陣營。我不認為這類模型能夠真正實現(xiàn)編程,我認為過程很重要。”

在他看來,真正的編程 Agent 需要世界模型,而不是現(xiàn)在這種基于 RLVR 的方法。對于后者,他說得很直白:那就是“把失敗的測試注釋掉,然后告訴你所有測試都通過了”的那套東西。


他認為,更深的問題在于我們怎么看待一個產(chǎn)物。過去,人們看到一段代碼或一個軟件,會默認它背后有一個類似人類的創(chuàng)作過程。但這個默認前提現(xiàn)在不成立了。“東西可能以過去不可能出現(xiàn)的方式壞掉,而語法、文法這些過去用來判斷底層質(zhì)量的信號,已經(jīng)沒用了。”Agent 寫出來的代碼,不是按人類寫代碼的方式產(chǎn)生的。這種差別從統(tǒng)計上看也許很細,但當你試圖像對待人寫的代碼一樣去理解它、繼續(xù)在上面開發(fā)時,它就會變得很明顯。

Hotz 還警告那些正在用 AI Agent 做嚴肅軟件的人:“這個時代真正的故事,將是誰能在自己的 AI 狂熱中避免傷到自己。”

制造 AI 編程熱潮的人

開始擔心它失控

Hotz 不是唯一一個發(fā)出這種聲音的人。

Mario Zechner 和 Armin Ronacher,親手打造了爆火 OpenClaw AI Agent 核心組件的兩位工程師,如今發(fā)出警告:那些號稱能取代程序員的 AI,正在把大量糟糕的、甚至危險的代碼推向世界。他們把這種現(xiàn)象叫做“vibe slop”——程序員不再認真設(shè)計和測試系統(tǒng),而是讓 AI 快速拼出一套東西,最后產(chǎn)出一堆經(jīng)不起時間考驗的軟件。

“基礎(chǔ)設(shè)施正在崩潰,軟件比以前漏洞百出,”O(jiān)penClaw 內(nèi)部框架 Pi 的創(chuàng)建者 Zechner 說。“我們還能再玩幾個月甚至幾年,但它最終會讓我們付出代價。”

Zechner 和 Ronacher 不是 AI 黑。他們自己寫代碼時也用 AI 處理枯燥工作,親手打造的工具 Pi 有幾百萬人使用。正因為他們身處其中,這個警告才不是外行人的空喊。他們擔心的是:許多公司正在用短期生產(chǎn)率換取長期麻煩:初級人才管道干涸、bug 增多、安全漏洞、技術(shù)債不斷累積。

Alphabet CEO Pichai 說 Google 75%的新代碼由 AI 生成。Meta 的 Zuckerberg 預(yù)測 2026 年前 AI 將編寫和審查其 AI 團隊的大部分代碼。但 Zechner 認為,這些說法恰恰說明很多人沒搞清楚 AI Agent 能做什么、不能做什么。

AI 編程工具擅長生成新代碼,但不擅長評估和升級既有軟件——尤其是成熟公司內(nèi)部那些龐大、復(fù)雜的遺留系統(tǒng)。用 vibe coding 沖起來的創(chuàng)業(yè)公司可以快速起步,但 Zechner 說,一旦系統(tǒng)長到一定規(guī)模,它們就會撞上和大公司同樣的墻:AI Agent 的用處是有限的。

拿 Anthropic 的 Claude Code 來說。Zechner 的評價毫不留情:“Claude Code 是我這輩子用過的最破碎的軟件之一。”這些問題源于開發(fā)者用 AI 來構(gòu)建它。而 Anthropic 產(chǎn)品負責人 Catherine Wu 進行了辯解但也承認:“最終責任仍然在人類身上。”

計算機科學家 Timothy B. Lee 指出,Anthropic 擁有全球最優(yōu)秀的一批 AI 工程師,所以這種高度依賴 AI 的方法對他們可能行得通,但不一定適用于這家公司的所有客戶。很多公司在處理內(nèi)部軟件系統(tǒng)時,依賴的是員工程序員多年積累下來的隱性知識,而這些知識并不會出現(xiàn)在 AI Agent 的訓練數(shù)據(jù)中。

“這些模型很容易走錯方向,而必須有人注意到這一點。”

Zechner 認為,一場清算正在到來。

他認為,大公司很快就會意識到,它們對 AI 生成代碼的過度強調(diào)正在推高成本,并導致軟件質(zhì)量下降。他認為,許多依賴 vibe coding 的小型創(chuàng)業(yè)公司會倒閉。他還認為,像 GitHub 這樣托管有用軟件工具的云端代碼倉庫,會繼續(xù)被 AI 生成的編程垃圾填滿。

AI 的回報,目前還沒跟上它的消耗

如果說 Hotz 和 Zechner 擔心的是代碼質(zhì)量,那 Uber 高管擔心的就是另一件事了:錢。

Uber 首席運營官 Andrew Macdonald 在3天前的一期訪談里說,在公司內(nèi)部,AI 成本正變得越來越難被說服為“合理投入”。

他提到,Uber CTO Praveen Neppalli Naga 今年 4 月接受 The Information 采訪時曾說,Uber 已經(jīng)提前花光了 2026 年的 Claude Code 預(yù)算。這句話后來在網(wǎng)上傳開。

Macdonald 說,這句話在 Uber 內(nèi)部炸開了鍋,大家開始認真討論 AI token 消耗的問題,以及這種消耗帶來的取舍,比如是否會影響人員編制。他說,在和 Uber 多位高級工程負責人溝通之后,他意識到,token 用得更多,并不意味著公司就能同比例地交付更多真正有用的消費者功能。

“這個關(guān)聯(lián)現(xiàn)在還不存在,” Macdonald 說。“很難把其中某一個指標和‘好,現(xiàn)在我們實際產(chǎn)出了 25% 更多有用的消費者功能’直接對應(yīng)起來。”

當這條因果線畫不出來的時候,AI 的成本就很難被合理化。Uber 的 CEO 本月早些時候已經(jīng)表示,為了對沖 AI 投資,公司正在放緩招聘。

Macdonald 還補了一句:如果你只是一個坐在那里想各種有趣用例的用戶,又不用自己掏錢,AI 看起來確實是免費的。但賬單最終是由公司來買單的。

有些公司已經(jīng)開始往回調(diào)。比如 Duolingo,此前曾計劃把 AI 使用情況納入績效考核,但員工很快提出疑問:到底是為了把事情做得更好而使用 AI,還是為了證明自己“用了 AI”而使用 AI?隨后,公司撤回了這一決定。Duolingo CEO 后來也承認:“當時給人的感覺是,我們不是在要求大家對實際結(jié)果負責,而是在推動某種工具的使用;但在一些情況下,它其實并不適用。”

今年 4 月,英偉達應(yīng)用深度學習副總裁 Bryan Catanzaro 提到,AI 并沒有降低用人成本——實際上,目前人工智能的成本比公司現(xiàn)有的人力成本更高。至少在他的團隊里,“計算成本遠遠超過員工成本。”

結(jié) 語

所以,真正的問題不是“人寫爛代碼,AI 也寫爛代碼,那有什么區(qū)別”。

區(qū)別在于,過去再差的代碼,至少寫它的人心里有一個粗糙的心智模型:他知道自己為什么這么寫。但現(xiàn)在,大量 AI 生成的代碼被快速提交、合并、發(fā)布,很多人并沒有真正理解它,只是看到它通過了測試——而測試本身可能就是殘缺的。

壞代碼從來不新鮮。新鮮的是,壞想法現(xiàn)在可以以更快的速度變成 commit,而理解、審查和責任卻沒有同步變快。

有人在 Twitter 上說:“再等六個月,持續(xù)學習和記憶系統(tǒng)會解決這些問題。”也許吧。但過去六個月的進展,并沒有讓 Hotz 和 Zechner 變得更樂觀。

https://geohot.github.io//blog/jekyll/update/2026/05/24/the-eternal-sloptember.html

https://archive.ph/iyszw

https://www.businessinsider.com/uber-coo-andrew-macdonald-ai-token-spending-harder-justify-2026-5

https://www.youtube.com/watch?v=y_mQ6xLcKyc&t=1776s

聲明:本文為 InfoQ 整理,不代表平臺觀點,未經(jīng)許可禁止轉(zhuǎn)載。

會議推薦

企業(yè)級 Agent 落地,繞不開 4 個真實的工程問題!如何在 Agent 安全性和可用性之間找到平衡點?Agent 需要什么樣的記憶系統(tǒng)才能真正理解上下文?如何通過算法壓榨實現(xiàn)智力增量與成本控制的極致平衡?多 Agent 協(xié)作,如何做到可觀測、可治理、可控制?6.26-27 AICon 上海站,國內(nèi)頭部公司的 Agent 實踐,一次說透。

今日薦文


你也「在看」嗎?

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
利物浦核心中衛(wèi)或自由身離隊 國際米蘭已接觸其團隊

利物浦核心中衛(wèi)或自由身離隊 國際米蘭已接觸其團隊

墜入溫柔晚風
2026-05-31 02:06:12
韓國變天!尹錫悅判無罪,樸槿惠出山公開助選,李在明大勢已去?

韓國變天!尹錫悅判無罪,樸槿惠出山公開助選,李在明大勢已去?

史行途
2026-05-30 18:05:39
半場1-0,阿森納暴擊歐冠衛(wèi)冕冠軍,26歲德國尖刀奔襲+小角度爆桿

半場1-0,阿森納暴擊歐冠衛(wèi)冕冠軍,26歲德國尖刀奔襲+小角度爆桿

側(cè)身凌空斬
2026-05-31 00:53:58
爆虧23億,理想沒了“光環(huán)”!

爆虧23億,理想沒了“光環(huán)”!

互聯(lián)網(wǎng)品牌官
2026-05-28 18:47:26
上海26歲女博士懷孕五個月查出胰腺癌,丈夫湊了200萬為她治病,誰料,女子竟哭著大喊:你們再逼我化療,我就從20樓跳下去!

上海26歲女博士懷孕五個月查出胰腺癌,丈夫湊了200萬為她治病,誰料,女子竟哭著大喊:你們再逼我化療,我就從20樓跳下去!

大愛三湘
2026-05-30 20:18:34
印度富婆看不起中國,攜帶200萬元就來炫富,結(jié)果想在中國定居

印度富婆看不起中國,攜帶200萬元就來炫富,結(jié)果想在中國定居

千秋文化
2026-05-29 19:52:25
我們是棄子,但我們不走!87年后松江那支全軍覆沒孤軍必須被正名

我們是棄子,但我們不走!87年后松江那支全軍覆沒孤軍必須被正名

浪子說
2026-05-31 00:50:03
爛透了!當下食品行業(yè)的道德底線,早已被貪婪的利益徹底碾碎。

爛透了!當下食品行業(yè)的道德底線,早已被貪婪的利益徹底碾碎。

二大爺觀世界
2026-05-29 00:21:23
“司機激活智駕,雙手脫離方向盤”,一轎車追尾貨車致3死,調(diào)查報告公布

“司機激活智駕,雙手脫離方向盤”,一轎車追尾貨車致3死,調(diào)查報告公布

南方都市報
2026-05-30 10:38:10
抓住岳母把柄,女婿答應(yīng)為其保密,隨后提出一個要求讓岳母崩潰

抓住岳母把柄,女婿答應(yīng)為其保密,隨后提出一個要求讓岳母崩潰

麥子情感故事
2026-05-30 14:20:32
惠州惠東縣農(nóng)業(yè)農(nóng)村局原局長李小明被查

惠州惠東縣農(nóng)業(yè)農(nóng)村局原局長李小明被查

南方都市報
2026-05-30 18:26:15
一集三場床戲,這部成人新劇太會拍了

一集三場床戲,這部成人新劇太會拍了

i書與房
2026-05-28 12:23:55
戈登轉(zhuǎn)會巴薩,拉什福德的路是堵死還是更寬?

戈登轉(zhuǎn)會巴薩,拉什福德的路是堵死還是更寬?

熱血體育社
2026-05-31 01:54:20
我的三星表終于連上三星手機,才懂這些年白玩了

我的三星表終于連上三星手機,才懂這些年白玩了

碼上閑敘
2026-05-31 02:00:57
提醒老年人:過了70歲,寧愿天天玩手機,也不要隨便做這5件事!

提醒老年人:過了70歲,寧愿天天玩手機,也不要隨便做這5件事!

垚垚分享健康
2026-05-10 22:20:05
50歲李小冉機場吃面,褪去濾鏡才懂,普通人的衰老藏不住

50歲李小冉機場吃面,褪去濾鏡才懂,普通人的衰老藏不住

庭小娛
2026-05-13 12:06:40
曼城或成帕萊斯特拉爭奪戰(zhàn)最大熱門

曼城或成帕萊斯特拉爭奪戰(zhàn)最大熱門

賽場名場面
2026-05-31 02:13:48
你最接近生理極限的一次經(jīng)歷是什么?網(wǎng)友分享讓人目瞪口呆!

你最接近生理極限的一次經(jīng)歷是什么?網(wǎng)友分享讓人目瞪口呆!

夜深愛雜談
2026-04-09 19:39:13
景甜身材真豐腴!穿緊身T恤+短褲秒變“大號水蜜桃”,又純又欲

景甜身材真豐腴!穿緊身T恤+短褲秒變“大號水蜜桃”,又純又欲

蓓小西
2026-05-24 09:31:04
Apple TV+新劇大膽探討在線性工作,三部美劇同時聚焦同一話題

Apple TV+新劇大膽探討在線性工作,三部美劇同時聚焦同一話題

熱搜摘要官
2026-05-29 01:39:05
2026-05-31 03:16:49
AI前線 incentive-icons
AI前線
面向AI愛好者、開發(fā)者和科學家,提供AI領(lǐng)域技術(shù)資訊。
1532文章數(shù) 151關(guān)注度
往期回顧 全部

科技要聞

車圈大佬發(fā)聲:價格戰(zhàn)遠去,但競爭仍殘酷

頭條要聞

兩名9歲女孩被困電梯近2小時 求救幾十次物業(yè)無動于衷

頭條要聞

兩名9歲女孩被困電梯近2小時 求救幾十次物業(yè)無動于衷

體育要聞

歲月不饒人!39歲德約鏖戰(zhàn)近5小時拼到嘔吐

娛樂要聞

張碧晨《歌手》 “活人微死” 自嘲

財經(jīng)要聞

雙匯管不住一頭豬

汽車要聞

900V+3.2秒破百 領(lǐng)克10+&領(lǐng)克10上市16.99萬元起

態(tài)度原創(chuàng)

健康
旅游
時尚
游戲
房產(chǎn)

嘗試干細胞療法如何避免踩坑?

旅游要聞

伊利亮相2026“跟著品牌去旅行”對接交流活動 以工業(yè)文旅融合彰顯中國品牌力量

美回巔峰的她們,帶火的這些爆款真的好用嗎

巫師3新DLC跨十年:年輕玩家在初發(fā)售時還是小孩!

房產(chǎn)要聞

紅動五月!全國搶入核心資產(chǎn),廣州盯緊凱旋新世界!

無障礙瀏覽 進入關(guān)懷版