Jay 發自 凹非寺
量子位 | 公眾號 QbitAI
AI當「老板」,快給10家公司干破產了……
普林斯頓大學最近搞了個CEO-Bench,讓AI運營一家虛擬SaaS初創,為期500天。
誰曾想,14位硅基CEO上場,只有4個保住了本金。
而這第四名,還是個純rule-based算法……
AI自主運營公司?讓AI當老板??
至少現在,還是個大問號。
當然,也有一些能力突出的模型,已經展現出潛力了——
Fable 5,500天到賬4715萬美元,全世界最強「AI老板」。
人工智能CEO大賽
在正式開始觀看本場「AI翻車」名場面前,先講講游戲規則。
- 啟動狀態:本金100萬美金,零客戶。
- 游戲目標:在500天的模擬周期內,盡可能多賺錢。
- 評判標準:游戲結束時賬上還剩多少錢。如果中途余額跌破零,直接宣告破產,模擬終止。
還蠻容易理解的,跟玩大富翁差不多,只不過交互方式不一樣。
核心是一個Python API,包含34個工具、19張數據庫表。Agent接入后,可以寫代碼、用SQL查詢數據庫,再根據查詢結果動態調整工作流。
![]()
博弈環境中的變量也要多得多。
定價策略、廣告投放渠道、研發預算分配、基礎設施擴容、客服團隊配置——全得自己拿主意。
甚至還有個模擬社交網絡,AI可以在上面刷帖子、看客戶投訴、視奸競爭對手。
基本上能操控公司的一切,權限無限大,和人類CEO一模一樣。
![]()
但這也意味著,沒有人再從對話框里敲下指令。模型必須獨自為每一個判斷負責。
這也是這場「饑餓游戲」最有意思的地方——
廣告投放后,客戶可能下周才來;研發預算砸進去,產品質量提升要等好幾天……
成本馬上就能燒干。回報,會延遲很久。
這就是CEO最害怕的「不確定性」,錯一步就會觸發連鎖反應。
想用統計學路線大力出奇跡?不好意思,關鍵變量全部「隱式」存在。
客戶滿意度、支付意愿、最低質量預期——這些指標,只能從退訂率、工單數量、社交網絡里反推。
與此同時,外部環境始終在動態變化:競爭對手會出陰招,市場偏好隨時間漂移,還有宏觀的經濟周期……
堪稱「地獄級」難度的長程決策任務。
上下文太爆炸了,不可能等所有信息去噪結束再做決定,人類CEO更多時候也是靠直覺。
![]()
事實證明,結果確實慘烈。
14位參賽選手中,絕大多數褲衩子都快虧沒了。
GLM 5.1、Claude Haiku 4.5、Gemini 3 Flash、DeepSeek V4 Pro、Grok 4.20,這五位更是中道崩殂,甚至都沒完賽,「破產」遺憾離場。
跑出正收益AI,只有3個:
- Claude Fable 5,4715萬美元;
- Claude Opus 4.8,2780萬美元;
- GPT-5.5,2130萬美元。
冠軍花落Fable 5——全世界最會當「老板」的模型。
毫無懸念的第一名,給本金翻了整整47倍,斷層領先第二名Opus 4.8。
并且,Fable 5是唯一一個在不止一次運行中收益超過初始資金的模型。
(btw,安全限制還在發力,Fable 5多次拒絕響應)
但這不是最精彩的地方。
其實有四位選手賺到了錢,只不過第四位不是LLM……
三位最佳「資本家」之外,排在第四名的參賽選手——
是個純rule-based的啟發式算法。
完全沒有調用任何語言模型。固定定價、固定配額、固定層級……全是腳本設計好的規則。
你敢信,就是這么個「阿甘」,賺了1576萬美金。
超過了除Fable 5、Opus 4.8和GPT-5.5之外的所有模型。包括Qwen 3.7 Max、Opus 4.7、GLM 5.2、Kimi K2.6……
![]()
Takeaways
相當Drama了。
不過,比起比賽結果,這個過程中能提煉出的insight,或許更有價值。
這篇論文有兩個核心Takeaway——
1、探索>謹慎
算是一個比較符合直覺的發現。
從模型備忘錄里能看到,GPT-5.5 和 Claude Opus 4.8 會隨著情況的變化不斷嘗試新的策略,無論是加大客戶獲取力度、調整層級,還是調整支持和研發預算。
相比之下,Claude Opus 4.7在遇到挫折時主要采取削減成本、保留現金的策略。
這種保守打法,雖然能讓模型茍活到最后,卻無法盈利。
![]()
俗話說:好死不如賴活著。
但商業世界是「贏家通吃」——僅僅是活著,可能真沒什么意義。
想當一位成功的CEO,「賭博」是必備技能(bushi)。
除此之外,該論文還提煉了四項關鍵能力維度:
- 發現隱藏信息:比如哪個廣告渠道對特定客戶群最有效
- 預測未來:以四周現金流預測的誤差衡量
- 快速適應變化:以模型察覺競爭對手動作的速度衡量
- 提前規劃:以Agent筆記中if-then情景分析的出現頻率衡量
在這四個維度上,Opus 4.8和GPT-5.5均高于其余模型的平均線。
2、編程Agent并非萬金油。
Harness是最近的熱門話題,這項研究也涉及了。
但結論,相當反共識。
研究員用Claude Code跑Opus 4.7,用Codex跑GPT-5.5。
結果,兩位選手的行動次數顯著減少,表現大幅下降……
經過分析,研究員指出原因可能出在系統提示詞上。
編程Agent的系統提示詞是為軟件開發場景優化的,硬套在CEO角色上反而成了束縛。
強加「馬鞍」,還不如裸騎。
前段時間SaaS股暴跌,全球投資者高呼「軟件末日」。編程Agent + MCP + Skill,似乎能吃掉一切。
但這項研究給出了不一樣的判斷:
Agent可能和大模型一樣——不同行業,需要特定的Harness框架,需要垂直場景的深度適配。
而這,或許會在模型廠商紛紛下場侵蝕應用層的當下,創造出新的增量空間。
畢竟,不可能每個人都會用Codex,然后自己一步步搭建工作流。與Agent交互本身就有學習成本,同一套Harness也并不能馭萬馬。
寫作Agent、HR Agent、財務Agent……大部分用戶仍然需要極致化的垂直產品。
畫矩陣的人
1997年,蘋果距離破產只剩90天。
然后,喬布斯畫了那個經典的2x2矩陣,指向兩個方向——消費級和專業級、臺式機和筆記本。
![]()
隨后大筆一揮,砍掉了蘋果70%的產品線,宣布只為這四個格子造產品。
后來的事情大家都知道了。iMac、iPod、iPhone。
這是喬老爺子回歸蘋果時的「神來之筆」:在極端不確定性下,完全靠直覺,把無數可能性壓縮進了一個極簡框架。
回看科技史上的偉大轉折,往往都源于這種「純粹的直覺」:
黃仁勛在AlexNet驚艷亮相后,力排眾議將英偉達的未來押注于深度學習;
Ilya Sutskever在曲線剛抬頭時,便篤定地喊出「All in Scaling Law」;
Anthropic敏銳嗅到編程場景的潛力,在大家都在做多模態時選擇了Coding,打OpenAI一個措手不及……
現在的AI,能在每個格子里,按照指定模板把顏色填滿。
但畫出那個矩陣的能力——
還屬于人類。
官方博客:https://ceobench.com/
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.