无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

AI當老板,快給10家公司干破產了…

0
分享至

Jay 發自 凹非寺
量子位 | 公眾號 QbitAI

AI當「老板」,快給10家公司干破產了……

普林斯頓大學最近搞了個CEO-Bench,讓AI運營一家虛擬SaaS初創,為期500天。

誰曾想,14位硅基CEO上場,只有4個保住了本金。

而這第四名,還是個純rule-based算法……

AI自主運營公司?讓AI當老板??

至少現在,還是個大問號。

當然,也有一些能力突出的模型,已經展現出潛力了——

Fable 5,500天到賬4715萬美元,全世界最強「AI老板」。

人工智能CEO大賽

在正式開始觀看本場「AI翻車」名場面前,先講講游戲規則。

  • 啟動狀態:本金100萬美金,零客戶。
  • 游戲目標:在500天的模擬周期內,盡可能多賺錢。
  • 評判標準:游戲結束時賬上還剩多少錢。如果中途余額跌破零,直接宣告破產,模擬終止。

還蠻容易理解的,跟玩大富翁差不多,只不過交互方式不一樣。

核心是一個Python API,包含34個工具、19張數據庫表。Agent接入后,可以寫代碼、用SQL查詢數據庫,再根據查詢結果動態調整工作流。



博弈環境中的變量也要多得多。

定價策略、廣告投放渠道、研發預算分配、基礎設施擴容、客服團隊配置——全得自己拿主意。

甚至還有個模擬社交網絡,AI可以在上面刷帖子、看客戶投訴、視奸競爭對手。

基本上能操控公司的一切,權限無限大,和人類CEO一模一樣。



但這也意味著,沒有人再從對話框里敲下指令。模型必須獨自為每一個判斷負責。

這也是這場「饑餓游戲」最有意思的地方——

廣告投放后,客戶可能下周才來;研發預算砸進去,產品質量提升要等好幾天……

成本馬上就能燒干。回報,會延遲很久。

這就是CEO最害怕的「不確定性」,錯一步就會觸發連鎖反應。

想用統計學路線大力出奇跡?不好意思,關鍵變量全部「隱式」存在。

客戶滿意度、支付意愿、最低質量預期——這些指標,只能從退訂率、工單數量、社交網絡里反推。

與此同時,外部環境始終在動態變化:競爭對手會出陰招,市場偏好隨時間漂移,還有宏觀的經濟周期……

堪稱「地獄級」難度的長程決策任務。

上下文太爆炸了,不可能等所有信息去噪結束再做決定,人類CEO更多時候也是靠直覺。



事實證明,結果確實慘烈。

14位參賽選手中,絕大多數褲衩子都快虧沒了。

GLM 5.1、Claude Haiku 4.5、Gemini 3 Flash、DeepSeek V4 Pro、Grok 4.20,這五位更是中道崩殂,甚至都沒完賽,「破產」遺憾離場。

跑出正收益AI,只有3個:

  • Claude Fable 5,4715萬美元;
  • Claude Opus 4.8,2780萬美元;
  • GPT-5.5,2130萬美元。

冠軍花落Fable 5——全世界最會當「老板」的模型。

毫無懸念的第一名,給本金翻了整整47倍,斷層領先第二名Opus 4.8。

并且,Fable 5是唯一一個在不止一次運行中收益超過初始資金的模型。

(btw,安全限制還在發力,Fable 5多次拒絕響應)

但這不是最精彩的地方。

其實有四位選手賺到了錢,只不過第四位不是LLM……

三位最佳「資本家」之外,排在第四名的參賽選手——

是個純rule-based的啟發式算法。

完全沒有調用任何語言模型。固定定價、固定配額、固定層級……全是腳本設計好的規則。

你敢信,就是這么個「阿甘」,賺了1576萬美金

超過了除Fable 5、Opus 4.8和GPT-5.5之外的所有模型。包括Qwen 3.7 Max、Opus 4.7、GLM 5.2、Kimi K2.6……



Takeaways

相當Drama了。

不過,比起比賽結果,這個過程中能提煉出的insight,或許更有價值。

這篇論文有兩個核心Takeaway——

1、探索>謹慎

算是一個比較符合直覺的發現。

從模型備忘錄里能看到,GPT-5.5 和 Claude Opus 4.8 會隨著情況的變化不斷嘗試新的策略,無論是加大客戶獲取力度、調整層級,還是調整支持和研發預算。

相比之下,Claude Opus 4.7在遇到挫折時主要采取削減成本、保留現金的策略。

這種保守打法,雖然能讓模型茍活到最后,卻無法盈利。



俗話說:好死不如賴活著。

但商業世界是「贏家通吃」——僅僅是活著,可能真沒什么意義。

想當一位成功的CEO,「賭博」是必備技能(bushi)。

除此之外,該論文還提煉了四項關鍵能力維度:

  • 發現隱藏信息:比如哪個廣告渠道對特定客戶群最有效
  • 預測未來:以四周現金流預測的誤差衡量
  • 快速適應變化:以模型察覺競爭對手動作的速度衡量
  • 提前規劃:以Agent筆記中if-then情景分析的出現頻率衡量

在這四個維度上,Opus 4.8和GPT-5.5均高于其余模型的平均線。

2、編程Agent并非萬金油。

Harness是最近的熱門話題,這項研究也涉及了。

但結論,相當反共識。

研究員用Claude Code跑Opus 4.7,用Codex跑GPT-5.5。

結果,兩位選手的行動次數顯著減少,表現大幅下降……

經過分析,研究員指出原因可能出在系統提示詞上。

編程Agent的系統提示詞是為軟件開發場景優化的,硬套在CEO角色上反而成了束縛。

強加「馬鞍」,還不如裸騎。

前段時間SaaS股暴跌,全球投資者高呼「軟件末日」。編程Agent + MCP + Skill,似乎能吃掉一切。

但這項研究給出了不一樣的判斷:

Agent可能和大模型一樣——不同行業,需要特定的Harness框架,需要垂直場景的深度適配。

而這,或許會在模型廠商紛紛下場侵蝕應用層的當下,創造出新的增量空間。

畢竟,不可能每個人都會用Codex,然后自己一步步搭建工作流。與Agent交互本身就有學習成本,同一套Harness也并不能馭萬馬。

寫作Agent、HR Agent、財務Agent……大部分用戶仍然需要極致化的垂直產品。

畫矩陣的人

1997年,蘋果距離破產只剩90天。

然后,喬布斯畫了那個經典的2x2矩陣,指向兩個方向——消費級和專業級、臺式機和筆記本。



隨后大筆一揮,砍掉了蘋果70%的產品線,宣布只為這四個格子造產品。

后來的事情大家都知道了。iMac、iPod、iPhone。

這是喬老爺子回歸蘋果時的「神來之筆」:在極端不確定性下,完全靠直覺,把無數可能性壓縮進了一個極簡框架。

回看科技史上的偉大轉折,往往都源于這種「純粹的直覺」:

黃仁勛在AlexNet驚艷亮相后,力排眾議將英偉達的未來押注于深度學習

Ilya Sutskever在曲線剛抬頭時,便篤定地喊出「All in Scaling Law」

Anthropic敏銳嗅到編程場景的潛力,在大家都在做多模態時選擇了Coding,打OpenAI一個措手不及……

現在的AI,能在每個格子里,按照指定模板把顏色填滿。

但畫出那個矩陣的能力——

還屬于人類。

官方博客:https://ceobench.com/

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
濟科:我支持巴西,但如果日本贏了也不難過

濟科:我支持巴西,但如果日本贏了也不難過

懂球帝
2026-06-28 22:20:07
中俄轟炸機聯合巡航后,不到24小時,日本發現更讓人震驚的新情況

中俄轟炸機聯合巡航后,不到24小時,日本發現更讓人震驚的新情況

卷史
2026-06-29 12:34:28
飛機撒潑女子后續:剛登機就鬧,正臉曝光頭發全白疑患病

飛機撒潑女子后續:剛登機就鬧,正臉曝光頭發全白疑患病

糖逗在娛樂
2026-06-29 11:48:20
男子稱購買4瓶同款茅臺重量不一,差距超60克,門店回應:總重并無官方統一標準,重量差異主要源于瓶身燒制工藝,換貨需走正規鑒定流程

男子稱購買4瓶同款茅臺重量不一,差距超60克,門店回應:總重并無官方統一標準,重量差異主要源于瓶身燒制工藝,換貨需走正規鑒定流程

瀟湘晨報
2026-06-29 12:33:17
新冠后遺癥的長期侵襲,無數人在不知不覺中深陷困境

新冠后遺癥的長期侵襲,無數人在不知不覺中深陷困境

律法刑道
2026-04-01 10:15:47
先擊落軍機,再炸基地、雷達、港口,炸完后,萬斯反勸伊朗打電話

先擊落軍機,再炸基地、雷達、港口,炸完后,萬斯反勸伊朗打電話

小小科普員
2026-06-29 14:22:40
在派出所能聽到多少八卦?網友:一個比一個狗血

在派出所能聽到多少八卦?網友:一個比一個狗血

另子維愛讀史
2026-06-27 22:18:43
最高可判刑入獄20年!36歲佛得角隊長涉嫌強奸 FIFA回應:暫不評價

最高可判刑入獄20年!36歲佛得角隊長涉嫌強奸 FIFA回應:暫不評價

風過鄉
2026-06-29 06:09:10
虧大了!安徽考生高考使用修正帶,數學判0分,總分458分超本科線

虧大了!安徽考生高考使用修正帶,數學判0分,總分458分超本科線

火山詩話
2026-06-26 05:41:30
女人一旦有下面五種行為,男人就別聯系了,沒必要

女人一旦有下面五種行為,男人就別聯系了,沒必要

朗威談星座
2026-06-29 14:45:05
76歲的萬科創始人王石,最近徹底成了全網焦點。

76歲的萬科創始人王石,最近徹底成了全網焦點。

夢錄的西方史話
2026-04-23 14:36:39
烏軍攻勢已經攔不住了?普京遭俄羅斯強硬派施壓,要求動用核武器

烏軍攻勢已經攔不住了?普京遭俄羅斯強硬派施壓,要求動用核武器

王鶔吃吃喝喝
2026-06-29 16:58:30
把瑜伽褲穿成日常的松弛感美女

把瑜伽褲穿成日常的松弛感美女

只要高興就好
2026-04-13 14:30:30
向佐向佑再同框!兄弟倆一起參加線下活動,弟弟最新露臉有變化

向佐向佑再同框!兄弟倆一起參加線下活動,弟弟最新露臉有變化

喜歡歷史的阿繁
2026-06-28 21:23:50
三大股指悉數翻紅,滬指漲近1%

三大股指悉數翻紅,滬指漲近1%

每日經濟新聞
2026-06-29 14:01:09
四任主政25年皆被查,任職期間亂作為,終究是自己挖坑自己跳

四任主政25年皆被查,任職期間亂作為,終究是自己挖坑自己跳

元芳有看法
2026-06-28 21:50:43
80后,正成為社會的高危人群

80后,正成為社會的高危人群

細說職場
2026-06-29 15:45:42
布朗的心,真被凱爾特人傷透了

布朗的心,真被凱爾特人傷透了

野球帝
2026-06-29 11:14:11
百噸王組團沖卡后續!知情人爆料:一個都沒跑掉,已全部落網!

百噸王組團沖卡后續!知情人爆料:一個都沒跑掉,已全部落網!

奇思妙想草葉君
2026-06-29 15:52:34
6.4萬FSD,百元破解,特斯拉后門為何失守?

6.4萬FSD,百元破解,特斯拉后門為何失守?

小怪吃美食
2026-06-27 06:30:33
2026-06-29 18:43:00
量子位 incentive-icons
量子位
追蹤人工智能動態
12862文章數 176506關注度
往期回顧 全部

科技要聞

殺瘋了!深圳一天出兩家200億具身智能公司

頭條要聞

媒體:臺軍偷拍福建艦 還異想天開用幾款導彈摧毀航母

頭條要聞

媒體:臺軍偷拍福建艦 還異想天開用幾款導彈摧毀航母

體育要聞

他和伊朗隊,再次贏得全世界的尊重

娛樂要聞

跟風電影《給阿公的牛肉丸》開機

財經要聞

近20家半導體企業開啟新一輪漲價潮

汽車要聞

全新寶馬iX3長軸版將于成都車展預售 四季度交付

態度原創

數碼
手機
家居
健康
公開課

數碼要聞

TrendForce:蘋果將導入未來顯示色彩基準BT.2020

手機要聞

屏幕反人類,但AI絕了!酷派小方塊上手:沒法當主力機用

家居要聞

傳奇筑 日常詩

狂吃“糯嘰嘰”小心腸梗阻!

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版