出品 | 網易智能
作者 | 小爪
編輯 | 王鳳枝
很多人都把“小龍蝦”忘了。
3月那陣子,它讓很多人第一次真切感到:AI不只會聊天,開始會動手了。各種智能體滿天飛,所有人都在聊“下一個操作系統級入口”。到了5月,除了少數發燒友,沒什么人再打開它了。
于是一個很自然的判斷冒出來:智能體也涼了。
但知名技術博主、開源開發者、AI工具評論者西蒙·威利森(Simon Willison)近日撰文《OpenAI和Anthropic可能已經找到了PMF》,給了一個相反的答案。
![]()
西蒙認為,OpenAI和Anthropic可能已經找到了PMF(product-market fit),讓產品真正長在了用戶的工作流里。不是因為聊天機器人更會聊天,不是因為演示更能打動人,而是因為Claude Code、OpenAI Codex這類編程智能體,已經讓一批用戶從“試試看”走到了“天天用、重度用、貴了也要用”。
用的人多了,用量上去了,真正有用的AI甚至開始變貴。小龍蝦退燒,只能說明智能體敘事從熱鬧進入篩選;西蒙這篇文章要講的,是另一件更硬的事:AI沒涼,真正有PMF的智能體,開始進入用戶賬單、預算和工作流。
西蒙的核心判斷
這篇文章的重點,不是“編程智能體很強”,而是OpenAI和Anthropic可能終于找到了真正能變成收入的PMF。西蒙給出的判斷標準也不復雜:用戶會不會反復回來,產品會不會被塞進工作流,價格變真實以后,用戶是轉身就走,還是開始討論怎么繼續用。
第一組證據,是使用深度變了。早期AI工具更多是低頻試用:問一個問題、生成一段文案、試一段演示,覺得新鮮,但未必第二天還打開。Claude Code、Codex這類工具不一樣,它們開始被放進每天的工作流里:讀項目、改文件、跑測試、解釋報錯、繼續下一輪修改。用戶不是來圍觀能力,而是在把一部分工作交給它推進。
第二組證據,是賬單。西蒙用自己的使用量算了一筆賬:他每月付100美元給Anthropic、100美元給OpenAI,一共200美元;但過去30天,如果按API token價格折算,Claude Code大約花掉1199.79美元,OpenAI Codex大約花掉980.37美元,加起來是2180.16美元。也就是說,一個中重度用戶在個人訂閱里“包住”的真實調用量,已經接近訂閱費的11倍。
這個反差很重要。個人訂閱用戶會覺得自己賺到了,模型公司卻會看到另一件事:編程智能體的真實使用量足夠大,已經不能再當成贈品了。當智能體真的開始干活,它就不再是一次問答,而是一連串觀察、推理、調用工具、修改、報錯、再修改的高強度計算。
西蒙還提到,到2026年4月,OpenAI Codex和Anthropic的Claude Code / Cowork,企業使用都更直接地對齊API價格。OpenAI的Codex計價在4月從按消息轉向更接近token用量;Anthropic的企業方案也從“企業訂閱包含典型工作日用量”的想象,轉向“訂閱費之外,使用量另按API價格計費”。這意味著企業客戶不再只是訂閱一個AI軟件,而是在為真實推理消耗付錢。
這就是西蒙說OpenAI和Anthropic可能找到PMF的核心證據:編程智能體不只是讓人覺得酷,而是開始讓用戶愿意為真實使用付真錢。真正有PMF的產品,往往不是所有人都立刻歡呼,而是客戶在預算會議上討論怎么管控,而不是直接取消。
為什么偏偏是編程智能體
這聽起來像程序員小圈子的故事,其實不是。編程智能體先跑出來,不是因為程序員最愛嘗鮮,也不是因為程序員最會寫prompt,而是因為代碼工作天然給了AI一套驗收系統。
![]()
代碼能不能跑,可以驗證;測試過不過,可以驗證;diff改了什么,可以檢查;git能不能回滾,可以控制;日志、報錯、類型檢查、CI,都在給智能體提供密集反饋。AI最危險的地方不是不會說話,而是它很會說,但你不知道它到底做對沒有。代碼世界復雜、抽象、容易出錯,卻也更容易把錯誤暴露出來。
這就是編程智能體和很多其他智能體的分水嶺。一個會議智能體總結得好不好,常常需要人重新讀一遍;一個研究智能體給的資料靠不靠譜,往往還要回源核對;一個銷售智能體自動發郵件,出錯就是品牌風險;一個金融智能體真能動賬戶,誤操作就可能直接變成損失。越靠近真實業務,越需要權限、審批、審計、回滾和責任邊界。
編程智能體當然也會犯錯,但它們所在的流程更容易把風險關在一個可檢查的范圍里。一個智能體改代碼,你可以看diff、跑測試、讓它重試,再決定要不要合并。換句話說,代碼不是AI最簡單的應用場景,卻可能是最早形成可靠反饋閉環的復雜場景。
不過這也帶來一個反向門檻:編程智能體用得越重,對人的代碼質量、架構理解和review能力要求越高。AI幫你寫出代碼,不等于你就能長期維護它;它把構建門檻降下來了,也把驗收和維護的責任更清楚地推到人面前。
真正的門檻不是會不會寫prompt,而是能不能給AI建驗收標準。西蒙那篇文章里的PMF判斷,背后其實就是這個邏輯。
智能體開始被篩選
過去一年,智能體這個詞被用得太滿了。什么都可以叫智能體:銷售智能體、客服智能體、會議智能體、招聘智能體、財務智能體、個人助理智能體。很多產品第一次演示時確實有沖擊力,模型會自己分步驟,會調用工具,會從一個網頁跳到另一個網頁,像是真的開始替人做事。
但演示不是PMF。讓AI自動跑十步,和讓它每天穩定完成一項真實工作,中間隔著上下文、權限、成本、安全、審計和失敗兜底。用戶第一次看到它能動手,會興奮;第三次發現它會亂點、亂填、亂花token,就會開始問:它到底能接什么系統?誰批準它行動?它錯了誰負責?我能不能回滾?
這不是說泛智能體都沒前途。西蒙的寫法其實更克制:目前最清楚看到PMF的,是編程智能體。其他智能體方向當然也可能成立,只是它們還需要證明自己能從“能演示”走到“能日常使用”。
會聊天的智能體不稀缺。會點按鈕的智能體也不一定稀缺。真正稀缺的是能穩定完成高頻任務、能被驗證、能被納入真實流程、出錯后能縮小事故半徑、變貴后用戶還愿意繼續用的智能體。
西蒙文中提到的Microsoft和Uber案例,也可以放在這個角度看。企業預算被Claude Code之類工具提前消耗完,表面上看像壞消息;但從產品角度看,它也說明使用需求比原先預算假設強得多。預算疼,不等于產品沒有價值,很多時候說明產品已經從“可有可無的新玩具”變成了“財務部門必須重新核算的生產力工具”。
這也是PMF的另一種樣子。不是媒體繼續興奮,不是用戶繼續曬圖,而是采購、財務和技術團隊開始認真討論:怎么限制用量,怎么分配預算,怎么把它放進正式流程。
這和普通人有什么關系
對普通人來說,氛圍編程(vibe coding)的價值在于,很多想法第一次可以低成本落地。一個網頁、一個內部工具、一個自動化表格、一個報名系統,以前可能需要找開發、寫需求、排期、外包,現在可以先做出一個粗版本,拿給真實用戶或同事看。
不過真正重要的不是“人人都能寫代碼”,而是“人人都要學會驗收AI做出來的東西”。AI可以降低構建門檻,但不能替你承擔維護責任。一個原型能跑,和一個產品能長期被使用,是兩回事。
這也正好回到西蒙的判斷:編程智能體先接近PMF,不是因為它們會寫代碼,而是因為代碼世界有一套更清楚的驗收機制。普通人能從這件事里學到的,也不是寫prompt的技巧,而是怎樣把一個任務變成可執行、可檢查、可修正的流程。
篩選開始了
智能體沒涼,因為賬單開始說話了。西蒙文章最有意思的地方在于,它沒有繼續追問“模型又強了多少”,而是把問題換成了:誰已經找到了用戶愿意長期使用、并且持續付費的場景。Claude Code、Claude Cowork、Codex這些編程智能體,是目前最清楚的樣本。
![]()
他順手算了另一筆賬:這些公司不僅在收錢,推理調用越頻繁,算力成本越高。智能體從回答一句話變成連續執行任務,最后會同時變成供應商的收入、客戶的賬單和云算力的壓力。
小龍蝦熱潮的降溫,也不是壞事。它讓討論從“什么都能智能體化”回到更樸素的產品問題:有沒有真實痛點,有沒有日常使用,有沒有驗收閉環,有沒有價格承受力。
如果答案是yes的,會從玩具變成工具,從工具變成工作流,從工作流變成預算項;如果答案暫時還不清楚的,就需要繼續等待真實使用來驗證。
所以,不要問AI是不是涼了。
要問:哪些AI已經開始讓人愿意付真實賬單,哪些智能體還只是讓人看了一眼熱鬧。
前者才是PMF。
后者還在接受篩選。
