網易首頁 > 網易號 > 正文申請入駐

從賣token到賣結果，這些公司開始讓AI背KPI了

2026-05-19 12:12:30　來源: 機器之心Pro

河北舉報

分享至

編輯｜張倩

自從黃仁勛在 GTC 上大手一揮，鼓勵企業把 token 消耗量算進工程師的 KPI，魔幻的事情就一天比一天多了。

先是 Meta 內部搞起「燒 token 競賽」，員工為沖 KPI，寫死循環 bot、用低效提示詞刷量；接著亞馬遜員工為了證明自己「高頻使用 Agent」，明明不需要自動化的活兒，硬給做成自動。表面看，這是大廠員工在「卷 AI 使用率」，但背后暴露的問題其實更嚴重：當企業無法衡量 AI 的真實價值時，就只能退而求其次，用「調用量」代替「產出」。

而這種失真，正在變成整個行業的共同困境。

麥肯錫數據顯示，88% 的企業已經在至少一個職能中常態化使用 AI，但真正能被定義為「AI 高績效企業」，即 EBIT 因 AI 提升超過 5% 的，不到 6%。大量預算、算力和工程師時間被投入進去，最后換來的，卻往往只是一份「看起來很忙」的賬單。企業知道 AI 很重要，也知道競爭對手在用，但問題是：錢到底花得值不值？沒人說得清

這其實也是過去兩年 AI 落地最尷尬的地方。

因為大多數 AI 公司賣的，本質上還是「工具」。工具是否真正創造價值，風險天然由采購方承擔。更何況，這一次的工具不僅更貴、更復雜，還高度依賴企業自身的數據、流程和組織配合。于是，很多企業最后只能盯著 token、調用次數、Agent 使用頻率這些「過程指標」，試圖從里面推測 AI 有沒有產生結果。

但問題在于，企業真正想買的，從來不是 token。

CEO 不會因為員工多調用了幾次模型而高興，董事會也不會因為 Agent 使用率提升就認可 ROI。企業真正想要的，其實一直都很簡單：結果，而且是能被驗證、能被歸因、最好還能直接寫進財報里的結果

只是過去，很少有 AI 公司敢為這個結果負責。

而現在，一批公司開始嘗試改寫這件事：他們不再按「賣工具」收費，而是開始直接對結果收費，讓 AI 真正背上 KPI。其中，硅谷的 Sierra 與國內的零犀科技，恰好代表了這一模式在海內外的先行探索。

當 AI 公司開始為結果負責

今年 3 月份，紅杉的一篇文章帶火了一個名為「Raas（Result-as-a-Service）」的概念。

文章開篇就拋出斷言：「下一個萬億美元級公司，將是一家偽裝成服務公司的軟件公司。」

怎么理解？先看文中定義的兩種 AI 商業模式：Copilot 和 Autopilot。前者賣的是工具 —— 專業人士用 AI 提效，但雇人用 AI 還得額外花錢。后者賣的是「工作成果」本身：AI 直接交付結果，客戶只為可衡量的業務結果付費，而不是軟件訂閱。

紅杉的判斷是：后者價值高得多。因為數據擺在那里 ——企業每花 1 美元在軟件工具上，就要在相關服務和人力上花掉約 6 美元。AI 的進步讓「賣結果」成為可能，Autopilot 公司可以直擊這個遠超工具市場的勞動預算。

這篇文章在圈內引發轟動，原因很簡單：一個頂級投資機構，親自把「賣結果」的前景和分量點明了，等于給投資人指了下一波重倉方向。

不過，也有人質疑這是投資機構炒概念，但緊隨其后的一個融資消息讓市場開始認真審視這個概念的分量。

這個消息來自一家名為 Sierra 的公司。該公司由 OpenAI 董事會主席 Bret Taylor 與前谷歌高管 Clay Bavor 聯合創立，旨在通過 AI 為企業提供定制化的客戶體驗解決方案（比如幫用戶改訂單、退款、調庫存），其核心理念就是讓客戶「pay for a job well done」。今年 5 月，該公司宣布完成 9.5 億美元融資，公司估值超過 150 億美元。

要知道，這一估值是他們ARR（1.5 億美元）的 100 多倍。對于一個剛剛被擺上牌桌的新賽道來說，這幾乎已經不是普通意義上的高估值，而更像是一種明確的下注。

而真正說服投資人的，是 Sierra 本身的商業化進展。目前，他們已經覆蓋超過 40% 的財富 50 強企業。在客戶體驗與自動化服務這種高度核心、又極度看重穩定性和 ROI 的場景里，大企業不會因為「概念性感」就大規模采購。某種意義上，這些客戶本身就是最嚴格的投票人。

而 Sierra 拿下這些客戶，本身就在說明一件事：RaaS 已經不再停留在 PPT 和融資故事里，而是開始完成真正的大規模商業驗證

在國內，類似的事情也在發生。而且國內公司還額外證明了一件事：RaaS 模式能實現規模化盈利和正現金流

讓市場注意到這一點的，是一家名為零犀科技的公司。

坦白說，國內宣稱走 RaaS 路線的公司不止他們一家，但現階段，真正能拿出盈利數據的卻鳳毛麟角，而零犀恰恰是那個少數派

他們做的事，其實可以理解成「讓 AI Agent 直接去賣東西」。在保險、汽車這些行業里，零犀的 AI 會直接面向 C 端用戶溝通，從最開始判斷用戶有沒有興趣，到中間的跟進、推薦，再到最后成交，整套銷售流程都由 AI 自己完成。這個過程最大的難點在于，你最終要拿結果說話 —— 用戶是不是真的下單、保單是不是真的成交、錢是不是真的進來是金標準。

但從 2019 年開始，零犀就選擇為這件事的結果負責，并一路走到了今天：從早期負毛利，到 2024 年實現公司級凈利轉正，再到 2025 年跑出規模化盈利與正現金流。數據顯示，某頭部保險機構接入其智能體后，新增保費超過 20 億元。而如果用傳統人機結合模式完成同樣的增量，往往需要一支 800 到 1000 人的銷售團隊。

無論是硅谷的 Sierra，還是國內的零犀，它們都在做同一件需要膽量的事：把傳統上由客戶承擔的不確定性，主動攬到自己身上

在 AI 仍被多數人當作「效率工具」的語境下，這種選擇本質上需要足夠的技術底氣。因為只有當你真的相信，自己的系統能夠穩定完成任務、持續優化結果、并長期控制波動時，你才敢簽下這樣的合同。否則，一次結果不達標，吞掉的就是真金白銀的虧損。

也正因如此，RaaS 真正有意思的地方，從來不只是商業模式創新，而是它天然會倒逼公司走向另一個維度的技術探索。而這，恰恰也是 Sierra 和零犀接下來最值得被拆解的地方。

為結果負責，不能單靠大模型基座

Sierra 和零犀，表面上看業務差別很大。Sierra 把「Better customer experiences. Built on Sierra.」掛在官網最顯眼的位置，核心產品 Agent OS 幫企業批量造 AI 客服，談的是體驗。零犀則一頭扎進保險、汽車等銷售場景，談的是成交。

但從底層來看，兩家公司面對的是同一個根本性難題：如何讓 AI 在真實業務場景里穩定地把事情做完，并且為結果負責。正是這個共同的出發點，倒逼出了高度相似的技術路徑。

首先，兩家都不是在單純地賣模型能力，而是在賣任務完成 ——Agent 的設計目標從一開始就指向業務結果，而不是簡單的生成質量。為此，它們都在大模型之上額外搭了一套執行、記憶與評估系統，并對模型本身做了二次干預，讓它在特定場景下更可靠、更少犯錯、更清楚什么算好結果。更關鍵的是，兩套系統都不是靜止的 —— 它們在真實業務里持續跑、持續學，越用越強。

這些共性讓它們看起來走在同一條大路上。但接下來的岔口，客戶體驗與銷售的本質差異，把兩家推向了完全不同的技術縱深。

當回答對≠能成交

由于瞄準客戶體驗，Sierra 的核心命題是「把事情做對」，目標是答對問題、少犯錯、不出合規風險。圍繞這個目標，Sierra 搭建的是一套精密的模型編排體系：15 款以上的異構模型按任務特性分工協作，再由監督者模型實時審查每一次輸出。這是一種偏向「組織架構管理」的技術思路 —— 把正確性管住，系統就能穩定運轉。

但對于瞄準銷售的零犀來說，核心命題截然不同 —— 它不是「對不對」的問題，因為話術對不等于能成交。舉個例子，一位女士在咨詢保險過程中說「我要和老公商量一下」，通用大模型可能順勢接一句「好的，您回去商量」。看起來，這個回復沒有什么毛病。但在實際的銷售場景中，一個金牌銷售不會讓話題就這么終結，而是讀懂這句話背后的真實顧慮（比如怕買錯或沒搞懂保障范圍），并做進一步努力。

這種情況下，模型必須學會向高轉化方向傾斜。因此，零犀真正需要的是一套獎懲機制 —— 做對了給正向激勵，沒達到預期就施加懲罰，通過后訓練持續把模型的權重推向想要的方向。

但這個后訓練過程，遠比訓練模型去做編程等任務坎坷，因為銷售場景的難點是全方位的 —— 數據稀缺、信號稀疏、歸因復雜，而且根本無法在虛擬環境中驗證。

我們知道，銷售的成交率本來就低，實際場景里可能只有百分之幾，大部分用戶都不會成交。這意味著你拿到的正向反饋天然稀少，沒辦法像訓練代碼模型那樣 —— 寫一段代碼，跑一下看有沒有報錯，就能立刻得到明確的對錯反饋，進而產生大量訓練數據。銷售結果是由真實的人來決定的，你沒辦法造出一個虛擬用戶，設定「只要這樣說他就一定會買」，這個環境根本不存在。

歸因則是更復雜的問題。一單成交了，是因為 AI 話術好，還是客戶本來就有購買意向？一單丟了，是 AI 策略失誤，還是客戶客觀原因？這和「吸煙是否導致肺癌」是同一類問題 —— 不是個體能直接驗證的，必須靠大量真實樣本的統計因果分析才能建立可信的歸因邏輯。

但統計也不是萬能的，因為很多時候基于統計的大模型無法區分真正的因果和虛假的相關，這也是所謂「幻覺」的根源。當模型看到「溝通時間長」與「成交」之間存在統計相關，它可能就學會拼命延長對話，卻不知道如果用戶一直在投訴，聊再久也不會買單。單純依賴統計因果，模型會輕易被混淆變量帶偏，這正是銷售場景里最容易踩的坑。這也是為什么通用大模型無論能力多強，在銷售轉化這件事上都難以直接搞定。

零犀的突破口：讓模型學會「因果」

正因為銷售場景存在以上這些問題，零犀最后走出了一條和通用大模型很不一樣的后訓練路徑。這條路徑的關鍵，不是單純讓模型「更會說」，而是讓模型在后訓練階段學會：用戶買，為什么會買，什么策略真正有效、為什么有效，以及什么樣的策略應該被持續雖化

為了達到這個目標，首先，它解決的是「歸因」這件事。

前面提到，銷售最大的難點之一，是模型很容易被虛假的統計相關帶偏。這里的問題不在于模型不會統計，而在于它不知道真正起作用的「因」是什么。

所以，零犀沉淀的并不只是普通對話數據，而是一套盡可能因果完備的全鏈路數據：用戶當時是什么狀態、瀏覽了什么頁面、AI 為什么采取這個策略、用戶后續又給出了什么反饋…… 這些信息都會被完整記錄下來，并沉淀為領域因果知識圖譜，作為事實底盤約束模型輸出。因為只有「因」足夠完整，模型才不會只學到表面的相關性。

但數據只是基礎，更難的是把銷售經驗真正變成模型能力

很多銷冠并不一定能準確說清自己為什么厲害，但他們往往知道：什么情況下應該推進，什么情況下應該轉移話題，什么情況下用戶真正的顧慮其實沒有說出口。零犀做的，是把這些原本存在于人腦中的經驗，拆解成一套「用戶狀態識別 — 策略選擇 — 結果反饋」的因果邏輯，再通過后訓練沉淀進模型。這套「邏輯因果」方法與「統計因果」共同作用，使得模型的輸出更加可靠，能讓模型知道什么該獎、什么該罰、什么樣的策略值得被強化學習持續放大。

此外，起作用的還有反事實推理。系統不僅記錄「做了什么」，還會評估「如果沒做會怎樣」—— 對每一次未成交，它會復盤：比如在給新生兒父母介紹保險時，如果當時沒講性價比，而是繼續聊孩子保障缺口，轉化率預計能到多少？這種從「沒發生的事」里提取知識的能力，讓模型在真實數據稀疏時依然能持續學習。

當這些能力建立起來之后，系統的自主進化才真正開始運轉。

由于零犀本身就是按結果收費，它天然能夠拿到最直接的反饋閉環。哪些策略帶來了更高轉化，哪些用戶會在什么節點流失，哪些干預方式實際上適得其反，系統都能在真實業務環境中持續完成評估、歸因和策略調優。

與此同時，新的業務規則、成功案例和失敗教訓，也會被不斷加工成結構化的因果知識片段，重新沉淀回模型與知識圖譜之中。隨著服務規模擴大，系統對用戶理解、策略選擇和交付能力的積累也會越來越深，最終形成一種持續自我優化、自我進化的后訓練體系。

因此，零犀的壁壘，本質上并不是某一個單點技術，而是一套不斷自我強化的飛輪：因果完備的數據、業務 know-how 的 AI 化，以及真實業務環境中的持續迭代，三者彼此咬合，最終形成了一個會越跑越快的后訓練系統。

而支撐這個飛輪持續運轉的，是一支優秀的后訓練團隊。除了來自頭部高校和大廠的算法工程師之外，零犀還長期引入深耕行業十年以上的銷售專家。他們參與的并不只是「標注數據」，還在幫助系統回答一個更難的問題：頂級銷售真正有效的能力，到底該如何被 AI 理解、拆解和復制。

RaaS：AI 的價值回歸

當我們把視線從具體的技術細節拉回來，會發現 Sierra 和零犀的探索，其實正在回答 AI 行業一個更根本的問題：AI 到底應該怎么創造價值，又該如何被定價

這兩年，一個趨勢正在變得越來越明顯：單點工具的壁壘正在被快速瓦解。Claude Code 等 Agent 產品的出現，讓很多專門工具，變成了「用時生成、用完即棄」的東西。工具本身的價值，正在以肉眼可見的速度被稀釋。但與此同時，另一件事情的價值卻在水漲船高：把工作真正做完、做好的服務。

原因很簡單。工具只是流程里的一把錘子，你買了錘子，還得自己去釘釘子，釘歪了、釘錯了，責任都在你。但服務交付的是「把釘子釘好」這件事本身 —— 結果確定，風險轉移。

這其實也是 AI 從誕生第一天開始，人們真正期待它做到的事情 ——成為一個能獨立背 KPI 的數字勞動力。誰能真正做到這一點，誰能拿到的市場，就會比傳統軟件大出一個數量級。

而 RaaS 這個賽道更值得關注的地方在于，它的護城河并不會隨著基礎模型升級而被削弱，反而可能越來越深

因為 SaaS 賣的是工具，客戶今天能買，明天也能換；但 RaaS 一旦開始端到端地交付結果，它就會逐漸嵌入客戶真正的業務流程。更關鍵的是，每一次真實交付，都會沉淀新的結果數據、行業 know-how、策略經驗和合規邏輯。這些東西不會因為底層模型升級就被清零，相反，模型越強，它們的價值反而越會被放大。

還有一個容易被忽視的變化是：當客戶開始習慣「按結果付費」之后，他們會反過來用這套標準去要求所有后來的 AI 服務商。

這也是為什么，零犀提到說，他們的一些大客戶，已經開始不再關心「你用了哪個模型」「參數量是多少」，而是直接追問：「你到底能不能把轉化率做上去？」一旦行業開始用結果而不是功能評估 AI，整個競爭邏輯都會被徹底改寫。

所以，先發者真正占據的，并不只是時間窗口，而是定義規則的能力

回到文章開頭，那些大廠內部為了沖 AI 使用率而瘋狂「燒 token」的荒誕場景，本質上其實暴露的是同一個問題：AI 的價值，始終沒有被真正兌現。而 RaaS 真正重要的地方，恰恰在于它把這件事重新拉回了正軌。

從本質上來講，這是一種價值回歸：讓 AI 真正對結果負責，讓收益和風險對齊，也讓「生產力」這個詞第一次真正回到商業世界最樸素的衡量標準里 —— 到底有沒有把事情做成。

摩根士丹利 2026 年初發布的報告將 AI 定義為第六次技術革命。前五次技術革命的歷史已經反復驗證：短期賣「鏟子」的基礎設施商最先獲利，長期最大價值卻沉淀在應用層和采用者手中。由于這種生產率紅利的滯后性，AI 對生產率的實質性帶動可能要到 2030 年之后才會充分顯現。當泡沫退去、噪音消散，真正穿越周期的，永遠是那些敢于為結果負責、把技術轉化為生產率的公司。

這也正是 RaaS 最值得被長期看好的底層邏輯。零犀和 Sierra 的探索，不是在做概念，而是在重演一個被歷史反復驗證的劇本：誰能把「鏟子」用好，把工作真正做完，誰就能定義下一個十年。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.