網易首頁 > 網易科技 > 網易科技 > 正文

用戶嫌貴但還在用！OpenAI和Anthropic可能找到了AI的付費場景

2026-05-28 18:24:56　來源: 網易智能

北京舉報

分享至

出品 | 網易智能

作者 | 小爪

編輯 | 王鳳枝

很多人都把“小龍蝦”忘了。

3月那陣子，它讓很多人第一次真切感到：AI不只會聊天，開始會動手了。各種智能體滿天飛，所有人都在聊“下一個操作系統級入口”。到了5月，除了少數發燒友，沒什么人再打開它了。

于是一個很自然的判斷冒出來：智能體也涼了。

但知名技術博主、開源開發者、AI工具評論者西蒙·威利森（Simon Willison）近日撰文《OpenAI和Anthropic可能已經找到了PMF》，給了一個相反的答案。

西蒙認為，OpenAI和Anthropic可能已經找到了PMF（product-market fit），讓產品真正長在了用戶的工作流里。不是因為聊天機器人更會聊天，不是因為演示更能打動人，而是因為Claude Code、OpenAI Codex這類編程智能體，已經讓一批用戶從“試試看”走到了“天天用、重度用、貴了也要用”。

用的人多了，用量上去了，真正有用的AI甚至開始變貴。小龍蝦退燒，只能說明智能體敘事從熱鬧進入篩選；西蒙這篇文章要講的，是另一件更硬的事：AI沒涼，真正有PMF的智能體，開始進入用戶賬單、預算和工作流。

西蒙的核心判斷

這篇文章的重點，不是“編程智能體很強”，而是OpenAI和Anthropic可能終于找到了真正能變成收入的PMF。西蒙給出的判斷標準也不復雜：用戶會不會反復回來，產品會不會被塞進工作流，價格變真實以后，用戶是轉身就走，還是開始討論怎么繼續用。

第一組證據，是使用深度變了。早期AI工具更多是低頻試用：問一個問題、生成一段文案、試一段演示，覺得新鮮，但未必第二天還打開。Claude Code、Codex這類工具不一樣，它們開始被放進每天的工作流里：讀項目、改文件、跑測試、解釋報錯、繼續下一輪修改。用戶不是來圍觀能力，而是在把一部分工作交給它推進。

第二組證據，是賬單。西蒙用自己的使用量算了一筆賬：他每月付100美元給Anthropic、100美元給OpenAI，一共200美元；但過去30天，如果按API token價格折算，Claude Code大約花掉1199.79美元，OpenAI Codex大約花掉980.37美元，加起來是2180.16美元。也就是說，一個中重度用戶在個人訂閱里“包住”的真實調用量，已經接近訂閱費的11倍。

這個反差很重要。個人訂閱用戶會覺得自己賺到了，模型公司卻會看到另一件事：編程智能體的真實使用量足夠大，已經不能再當成贈品了。當智能體真的開始干活，它就不再是一次問答，而是一連串觀察、推理、調用工具、修改、報錯、再修改的高強度計算。

西蒙還提到，到2026年4月，OpenAI Codex和Anthropic的Claude Code / Cowork，企業使用都更直接地對齊API價格。OpenAI的Codex計價在4月從按消息轉向更接近token用量；Anthropic的企業方案也從“企業訂閱包含典型工作日用量”的想象，轉向“訂閱費之外，使用量另按API價格計費”。這意味著企業客戶不再只是訂閱一個AI軟件，而是在為真實推理消耗付錢。

這就是西蒙說OpenAI和Anthropic可能找到PMF的核心證據：編程智能體不只是讓人覺得酷，而是開始讓用戶愿意為真實使用付真錢。真正有PMF的產品，往往不是所有人都立刻歡呼，而是客戶在預算會議上討論怎么管控，而不是直接取消。

為什么偏偏是編程智能體

這聽起來像程序員小圈子的故事，其實不是。編程智能體先跑出來，不是因為程序員最愛嘗鮮，也不是因為程序員最會寫prompt，而是因為代碼工作天然給了AI一套驗收系統。

代碼能不能跑，可以驗證；測試過不過，可以驗證；diff改了什么，可以檢查；git能不能回滾，可以控制；日志、報錯、類型檢查、CI，都在給智能體提供密集反饋。AI最危險的地方不是不會說話，而是它很會說，但你不知道它到底做對沒有。代碼世界復雜、抽象、容易出錯，卻也更容易把錯誤暴露出來。

這就是編程智能體和很多其他智能體的分水嶺。一個會議智能體總結得好不好，常常需要人重新讀一遍；一個研究智能體給的資料靠不靠譜，往往還要回源核對；一個銷售智能體自動發郵件，出錯就是品牌風險；一個金融智能體真能動賬戶，誤操作就可能直接變成損失。越靠近真實業務，越需要權限、審批、審計、回滾和責任邊界。

編程智能體當然也會犯錯，但它們所在的流程更容易把風險關在一個可檢查的范圍里。一個智能體改代碼，你可以看diff、跑測試、讓它重試，再決定要不要合并。換句話說，代碼不是AI最簡單的應用場景，卻可能是最早形成可靠反饋閉環的復雜場景。

不過這也帶來一個反向門檻：編程智能體用得越重，對人的代碼質量、架構理解和review能力要求越高。AI幫你寫出代碼，不等于你就能長期維護它；它把構建門檻降下來了，也把驗收和維護的責任更清楚地推到人面前。

真正的門檻不是會不會寫prompt，而是能不能給AI建驗收標準。西蒙那篇文章里的PMF判斷，背后其實就是這個邏輯。

智能體開始被篩選

過去一年，智能體這個詞被用得太滿了。什么都可以叫智能體：銷售智能體、客服智能體、會議智能體、招聘智能體、財務智能體、個人助理智能體。很多產品第一次演示時確實有沖擊力，模型會自己分步驟，會調用工具，會從一個網頁跳到另一個網頁，像是真的開始替人做事。

但演示不是PMF。讓AI自動跑十步，和讓它每天穩定完成一項真實工作，中間隔著上下文、權限、成本、安全、審計和失敗兜底。用戶第一次看到它能動手，會興奮；第三次發現它會亂點、亂填、亂花token，就會開始問：它到底能接什么系統？誰批準它行動？它錯了誰負責？我能不能回滾？

這不是說泛智能體都沒前途。西蒙的寫法其實更克制：目前最清楚看到PMF的，是編程智能體。其他智能體方向當然也可能成立，只是它們還需要證明自己能從“能演示”走到“能日常使用”。

會聊天的智能體不稀缺。會點按鈕的智能體也不一定稀缺。真正稀缺的是能穩定完成高頻任務、能被驗證、能被納入真實流程、出錯后能縮小事故半徑、變貴后用戶還愿意繼續用的智能體。

西蒙文中提到的Microsoft和Uber案例，也可以放在這個角度看。企業預算被Claude Code之類工具提前消耗完，表面上看像壞消息；但從產品角度看，它也說明使用需求比原先預算假設強得多。預算疼，不等于產品沒有價值，很多時候說明產品已經從“可有可無的新玩具”變成了“財務部門必須重新核算的生產力工具”。

這也是PMF的另一種樣子。不是媒體繼續興奮，不是用戶繼續曬圖，而是采購、財務和技術團隊開始認真討論：怎么限制用量，怎么分配預算，怎么把它放進正式流程。

這和普通人有什么關系

對普通人來說，氛圍編程（vibe coding）的價值在于，很多想法第一次可以低成本落地。一個網頁、一個內部工具、一個自動化表格、一個報名系統，以前可能需要找開發、寫需求、排期、外包，現在可以先做出一個粗版本，拿給真實用戶或同事看。

不過真正重要的不是“人人都能寫代碼”，而是“人人都要學會驗收AI做出來的東西”。AI可以降低構建門檻，但不能替你承擔維護責任。一個原型能跑，和一個產品能長期被使用，是兩回事。

這也正好回到西蒙的判斷：編程智能體先接近PMF，不是因為它們會寫代碼，而是因為代碼世界有一套更清楚的驗收機制。普通人能從這件事里學到的，也不是寫prompt的技巧，而是怎樣把一個任務變成可執行、可檢查、可修正的流程。

篩選開始了

智能體沒涼，因為賬單開始說話了。西蒙文章最有意思的地方在于，它沒有繼續追問“模型又強了多少”，而是把問題換成了：誰已經找到了用戶愿意長期使用、并且持續付費的場景。Claude Code、Claude Cowork、Codex這些編程智能體，是目前最清楚的樣本。