无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁

網易新聞
網易公開課
網易紅彩
網易嚴選
郵箱大師
網易云課堂

注冊免費郵箱

注冊VIP郵箱（特權郵箱，付費）
免費下載網易官方手機郵箱應用

移動端
網易公開課
網易嚴選
支付
郵箱

網易首頁 > 網易號 > 正文申請入駐

AI當老板，快給10家公司干破產了…

2026-06-29 16:27:33　來源: 量子位

河北舉報

0

分享至

Jay 發自凹非寺
量子位 | 公眾號 QbitAI

AI當「老板」，快給10家公司干破產了……

普林斯頓大學最近搞了個CEO-Bench，讓AI運營一家虛擬SaaS初創，為期500天。

誰曾想，14位硅基CEO上場，只有4個保住了本金。

而這第四名，還是個純rule-based算法……

AI自主運營公司？讓AI當老板？？

至少現在，還是個大問號。

當然，也有一些能力突出的模型，已經展現出潛力了——

Fable 5，500天到賬4715萬美元，全世界最強「AI老板」。

人工智能CEO大賽

在正式開始觀看本場「AI翻車」名場面前，先講講游戲規則。

啟動狀態：本金100萬美金，零客戶。
游戲目標：在500天的模擬周期內，盡可能多賺錢。
評判標準：游戲結束時賬上還剩多少錢。如果中途余額跌破零，直接宣告破產，模擬終止。

還蠻容易理解的，跟玩大富翁差不多，只不過交互方式不一樣。

核心是一個Python API，包含34個工具、19張數據庫表。Agent接入后，可以寫代碼、用SQL查詢數據庫，再根據查詢結果動態調整工作流。

博弈環境中的變量也要多得多。

定價策略、廣告投放渠道、研發預算分配、基礎設施擴容、客服團隊配置——全得自己拿主意。

甚至還有個模擬社交網絡，AI可以在上面刷帖子、看客戶投訴、視奸競爭對手。

基本上能操控公司的一切，權限無限大，和人類CEO一模一樣。

但這也意味著，沒有人再從對話框里敲下指令。模型必須獨自為每一個判斷負責。

這也是這場「饑餓游戲」最有意思的地方——

廣告投放后，客戶可能下周才來；研發預算砸進去，產品質量提升要等好幾天……

成本馬上就能燒干。回報，會延遲很久。

這就是CEO最害怕的「不確定性」，錯一步就會觸發連鎖反應。

想用統計學路線大力出奇跡？不好意思，關鍵變量全部「隱式」存在。

客戶滿意度、支付意愿、最低質量預期——這些指標，只能從退訂率、工單數量、社交網絡里反推。

與此同時，外部環境始終在動態變化：競爭對手會出陰招，市場偏好隨時間漂移，還有宏觀的經濟周期……

堪稱「地獄級」難度的長程決策任務。

上下文太爆炸了，不可能等所有信息去噪結束再做決定，人類CEO更多時候也是靠直覺。

事實證明，結果確實慘烈。

14位參賽選手中，絕大多數褲衩子都快虧沒了。

GLM 5.1、Claude Haiku 4.5、Gemini 3 Flash、DeepSeek V4 Pro、Grok 4.20，這五位更是中道崩殂，甚至都沒完賽，「破產」遺憾離場。

跑出正收益AI，只有3個：

Claude Fable 5，4715萬美元；
Claude Opus 4.8，2780萬美元；
GPT-5.5，2130萬美元。

冠軍花落Fable 5——全世界最會當「老板」的模型。

毫無懸念的第一名，給本金翻了整整47倍，斷層領先第二名Opus 4.8。

并且，Fable 5是唯一一個在不止一次運行中收益超過初始資金的模型。

（btw，安全限制還在發力，Fable 5多次拒絕響應）

但這不是最精彩的地方。

其實有四位選手賺到了錢，只不過第四位不是LLM……

三位最佳「資本家」之外，排在第四名的參賽選手——

是個純rule-based的啟發式算法。

完全沒有調用任何語言模型。固定定價、固定配額、固定層級……全是腳本設計好的規則。

你敢信，就是這么個「阿甘」，賺了1576萬美金。

超過了除Fable 5、Opus 4.8和GPT-5.5之外的所有模型。包括Qwen 3.7 Max、Opus 4.7、GLM 5.2、Kimi K2.6……

Takeaways

相當Drama了。

不過，比起比賽結果，這個過程中能提煉出的insight，或許更有價值。

這篇論文有兩個核心Takeaway——

1、探索>謹慎

算是一個比較符合直覺的發現。

從模型備忘錄里能看到，GPT-5.5 和 Claude Opus 4.8 會隨著情況的變化不斷嘗試新的策略，無論是加大客戶獲取力度、調整層級，還是調整支持和研發預算。

相比之下，Claude Opus 4.7在遇到挫折時主要采取削減成本、保留現金的策略。

這種保守打法，雖然能讓模型茍活到最后，卻無法盈利。

俗話說：好死不如賴活著。

但商業世界是「贏家通吃」——僅僅是活著，可能真沒什么意義。

想當一位成功的CEO，「賭博」是必備技能（bushi）。

除此之外，該論文還提煉了四項關鍵能力維度：

發現隱藏信息：比如哪個廣告渠道對特定客戶群最有效
預測未來：以四周現金流預測的誤差衡量
快速適應變化：以模型察覺競爭對手動作的速度衡量
提前規劃：以Agent筆記中if-then情景分析的出現頻率衡量

在這四個維度上，Opus 4.8和GPT-5.5均高于其余模型的平均線。

2、編程Agent并非萬金油。

Harness是最近的熱門話題，這項研究也涉及了。

但結論，相當反共識。

研究員用Claude Code跑Opus 4.7，用Codex跑GPT-5.5。

結果，兩位選手的行動次數顯著減少，表現大幅下降……

經過分析，研究員指出原因可能出在系統提示詞上。

編程Agent的系統提示詞是為軟件開發場景優化的，硬套在CEO角色上反而成了束縛。

強加「馬鞍」，還不如裸騎。

前段時間SaaS股暴跌，全球投資者高呼「軟件末日」。編程Agent + MCP + Skill，似乎能吃掉一切。

但這項研究給出了不一樣的判斷：

Agent可能和大模型一樣——不同行業，需要特定的Harness框架，需要垂直場景的深度適配。

而這，或許會在模型廠商紛紛下場侵蝕應用層的當下，創造出新的增量空間。

畢竟，不可能每個人都會用Codex，然后自己一步步搭建工作流。與Agent交互本身就有學習成本，同一套Harness也并不能馭萬馬。

寫作Agent、HR Agent、財務Agent……大部分用戶仍然需要極致化的垂直產品。

畫矩陣的人

1997年，蘋果距離破產只剩90天。

然后，喬布斯畫了那個經典的2x2矩陣，指向兩個方向——消費級和專業級、臺式機和筆記本。

隨后大筆一揮，砍掉了蘋果70%的產品線，宣布只為這四個格子造產品。

后來的事情大家都知道了。iMac、iPod、iPhone。

這是喬老爺子回歸蘋果時的「神來之筆」：在極端不確定性下，完全靠直覺，把無數可能性壓縮進了一個極簡框架。

回看科技史上的偉大轉折，往往都源于這種「純粹的直覺」：

黃仁勛在AlexNet驚艷亮相后，力排眾議將英偉達的未來押注于深度學習；

Ilya Sutskever在曲線剛抬頭時，便篤定地喊出「All in Scaling Law」；

Anthropic敏銳嗅到編程場景的潛力，在大家都在做多模態時選擇了Coding，打OpenAI一個措手不及……

現在的AI，能在每個格子里，按照指定模板把顏色填滿。

但畫出那個矩陣的能力——

還屬于人類。

官方博客：https://ceobench.com/

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

2028，RSI降臨！

新智元 2026-06-28 12:17:46
4 跟貼 4
Transformer的八個爹媽，如今都在哪？

機器之心Pro 2026-06-29 10:27:31
3 跟貼 3

AI 批量造 App，也在批量埋雷

鈦媒體APP 2026-06-27 10:05:13
8 跟貼 8

Dwarkesh Patel：下一代AI，可能是干活干出來的

機器之心Pro 2026-06-29 14:30:27
0 跟貼 0
一夜收獲3000顆星，AI視頻的“龍蝦時刻”降臨了？

鈦媒體APP 2026-06-29 13:13:09
0 跟貼 0

AWS在中國，等來了AI出海

虎嗅APP 2026-06-29 06:47:06
0 跟貼 0

活力中國調研行｜通用數據大模型進廠，傳統石雕也用上AI設計??實探工業AI如何在這里升級迭代

每日經濟新聞 2026-06-28 15:22:06
0 跟貼 0
OceanBase發布AI數據庫三件套，TOC最高降50%螞蟻阿福靈光都在用

智東西 2026-06-29 17:37:27
0 跟貼 0

給Transformer變個形，LLM竟能變得更聰明

機器之心Pro 2026-06-29 18:39:15
0 跟貼 0
大神程序員蒸餾自己，用16個skill給AI注入軟件工程之魂

量子位 2026-05-12 03:08:58
0 跟貼 0
登頂全球具身智能權威榜單！無界動力MWA隱空間世界模型牛在哪？

雷科技 2026-06-29 16:28:34
0 跟貼 0
AI Agent是科技革命中的一次真正的范式轉移

量子位 2026-04-03 22:52:35
0 跟貼 0
字節開始跟你算賬了

虎嗅APP 2026-06-29 16:51:04
0 跟貼 0
對話Rokid：AI眼鏡公司做頭盔，新硬件長跑還沒開始

鈦媒體APP 2026-06-29 17:16:23
0 跟貼 0
這個時代必須以Agent為中心：三個趨勢回顧

量子位 2026-04-05 02:14:15
0 跟貼 0
Agent輸出到底該用誰？卡帕西轉發：試試讓AI輸出HTML

量子位 2026-05-13 07:19:50
0 跟貼 0
“AI領域最被濫用的術語”李飛飛終于把世界模型講明白了

量子位 2026-06-07 04:37:43
0 跟貼 0
王曉野：Working Agent將是下一個爆發點

量子位 2026-05-21 08:05:51
0 跟貼 0
Anthropic 450億致命死穴，中國式「白菜價」反手出招！

新智元 2026-06-29 11:40:58
36 跟貼 36
阿sir警車實拍，六車道沒一輛敢開過去的，真正的規則威懾力

甜心萌物醬i 2026-06-28 15:26:00
0 跟貼 0
最強模型每次都重新學上網？這個項目實現點一遍，Agent永久復用

機器之心Pro 2026-06-29 10:20:22
2 跟貼 2
破產時你的“所有權”為啥不好使了？民法典這記“釜底抽薪”

劉揚LEGAL 2026-06-24 23:58:20
0 跟貼 0
歐洲人駕車200公里搶購中國空調

現代快報 2026-06-28 20:18:17
18567 跟貼 18567
萬的富婆，如今破產負債4000萬！落魄后只有親人才會幫自己

繩師48號 2026-06-26 01:45:50
0 跟貼 0
企業微信Agent一手實測！3小時干了我一周的活

智東西 2026-06-28 17:44:39
0 跟貼 0
硅谷極客執掌國防部，算法打得俄軍沒脾氣：戰爭還能這么玩？

百態中的情感起伏 2026-06-29 07:56:57
0 跟貼 0
開了一次就“頭暈”？看到機器上的英文單詞，他覺得自己被罵了

北青網-北京青年報 2026-06-28 14:48:24
1827 跟貼 1827
機器人失控太可怕，不顧指令瘋狂殺人

片場小王 2026-06-26 19:11:52
3 跟貼 3
韓國隊主帥洪明甫辭職：我所有決定都是為韓國足球

看看新聞Knews 2026-06-28 23:58:49
4315 跟貼 4315
千余名高校選手參賽滿幫首屆Agent算法大賽搭建數字貨運“試驗田”

人民資訊 2026-06-29 18:24:17
0 跟貼 0
日媒：中國關鍵金屬進口量飆升 "手上有牌"

澎湃新聞 2026-06-29 16:20:35
107 跟貼 107
一歲的萌娃，完美配合爸爸指令，不光聽得懂口令動作還十分標準！

趣笑小行星 2026-06-29 11:31:40
1 跟貼 1
巴黎兩家殯儀館爆滿

第一財經資訊 2026-06-28 23:36:01
5061 跟貼 5061
女生雨天開車發現雨刮條被掰走

瀟湘晨報 2026-06-29 11:40:21
37 跟貼 37
培文少年展鋒芒省賽奪魁晉國賽

商訊 2026-06-29 15:51:08
0 跟貼 0
重慶達州律師：總包破產怎么辦？教你合法追回工程欠款

劉江律說重慶達州法律幫手 2026-06-28 14:00:38
3 跟貼 3
來看高德的算法有多逆天

老王日常犯傻 2026-06-29 09:14:51
0 跟貼 0
單Agent時代正式結束：一個干不過，就上300個-3

機器之心Pro 2026-04-22 00:08:00
0 跟貼 0
12306賬戶關聯超7個會員賬號，女子半年內購票90余次“薅羊毛”

現代快報 2026-06-29 15:31:20
22 跟貼 22
年中盤點｜站在“光”里，走進“芯”里，“存”在“PCB”里，AI上游材料通脹行情“星光璀璨”……一文看懂2026年上半年A股熱炒題材

財聯社 2026-06-29 16:44:12
0 跟貼 0

濟科：我支持巴西，但如果日本贏了也不難過

濟科：我支持巴西，但如果日本贏了也不難過

懂球帝

2026-06-28 22:20:07

中俄轟炸機聯合巡航后，不到24小時，日本發現更讓人震驚的新情況

中俄轟炸機聯合巡航后，不到24小時，日本發現更讓人震驚的新情況

卷史

2026-06-29 12:34:28

飛機撒潑女子后續：剛登機就鬧，正臉曝光頭發全白疑患病

飛機撒潑女子后續：剛登機就鬧，正臉曝光頭發全白疑患病

糖逗在娛樂

2026-06-29 11:48:20

男子稱購買4瓶同款茅臺重量不一，差距超60克，門店回應：總重并無官方統一標準，重量差異主要源于瓶身燒制工藝，換貨需走正規鑒定流程

男子稱購買4瓶同款茅臺重量不一，差距超60克，門店回應：總重并無官方統一標準，重量差異主要源于瓶身燒制工藝，換貨需走正規鑒定流程

瀟湘晨報

2026-06-29 12:33:17

新冠后遺癥的長期侵襲，無數人在不知不覺中深陷困境

新冠后遺癥的長期侵襲，無數人在不知不覺中深陷困境

律法刑道

2026-04-01 10:15:47

先擊落軍機，再炸基地、雷達、港口，炸完后，萬斯反勸伊朗打電話

先擊落軍機，再炸基地、雷達、港口，炸完后，萬斯反勸伊朗打電話

小小科普員

2026-06-29 14:22:40

在派出所能聽到多少八卦？網友：一個比一個狗血

在派出所能聽到多少八卦？網友：一個比一個狗血

另子維愛讀史

2026-06-27 22:18:43

最高可判刑入獄20年!36歲佛得角隊長涉嫌強奸 FIFA回應：暫不評價

最高可判刑入獄20年!36歲佛得角隊長涉嫌強奸 FIFA回應：暫不評價

風過鄉

2026-06-29 06:09:10

虧大了！安徽考生高考使用修正帶，數學判0分，總分458分超本科線

虧大了！安徽考生高考使用修正帶，數學判0分，總分458分超本科線

火山詩話

2026-06-26 05:41:30

女人一旦有下面五種行為，男人就別聯系了，沒必要

女人一旦有下面五種行為，男人就別聯系了，沒必要

朗威談星座

2026-06-29 14:45:05

76歲的萬科創始人王石，最近徹底成了全網焦點。

76歲的萬科創始人王石，最近徹底成了全網焦點。

夢錄的西方史話

2026-04-23 14:36:39

烏軍攻勢已經攔不住了？普京遭俄羅斯強硬派施壓，要求動用核武器

烏軍攻勢已經攔不住了？普京遭俄羅斯強硬派施壓，要求動用核武器

王鶔吃吃喝喝

2026-06-29 16:58:30

把瑜伽褲穿成日常的松弛感美女

只要高興就好

2026-04-13 14:30:30

向佐向佑再同框！兄弟倆一起參加線下活動，弟弟最新露臉有變化

向佐向佑再同框！兄弟倆一起參加線下活動，弟弟最新露臉有變化

喜歡歷史的阿繁

2026-06-28 21:23:50

三大股指悉數翻紅，滬指漲近1%

三大股指悉數翻紅，滬指漲近1%

每日經濟新聞

2026-06-29 14:01:09

四任主政25年皆被查，任職期間亂作為，終究是自己挖坑自己跳

四任主政25年皆被查，任職期間亂作為，終究是自己挖坑自己跳

元芳有看法

2026-06-28 21:50:43

80后，正成為社會的高危人群

細說職場

2026-06-29 15:45:42

布朗的心，真被凱爾特人傷透了

野球帝

2026-06-29 11:14:11

百噸王組團沖卡后續！知情人爆料：一個都沒跑掉，已全部落網！

百噸王組團沖卡后續！知情人爆料：一個都沒跑掉，已全部落網！

奇思妙想草葉君

2026-06-29 15:52:34

6.4萬FSD，百元破解，特斯拉后門為何失守？

6.4萬FSD，百元破解，特斯拉后門為何失守？

小怪吃美食

2026-06-27 06:30:33

追蹤人工智能動態

12862文章數 176506關注度

往期回顧全部

科技要聞

殺瘋了！深圳一天出兩家200億具身智能公司

頭條要聞

媒體：臺軍偷拍福建艦還異想天開用幾款導彈摧毀航母

頭條要聞

媒體：臺軍偷拍福建艦還異想天開用幾款導彈摧毀航母

體育要聞

他和伊朗隊，再次贏得全世界的尊重

娛樂要聞

跟風電影《給阿公的牛肉丸》開機

財經要聞

近20家半導體企業開啟新一輪漲價潮

汽車要聞

全新寶馬iX3長軸版將于成都車展預售四季度交付

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

數碼

手機

家居

健康

公開課

數碼要聞

TrendForce：蘋果將導入未來顯示色彩基準BT.2020

手機要聞

屏幕反人類，但AI絕了！酷派小方塊上手：沒法當主力機用

家居要聞

傳奇筑日常詩

綠意盎然自然之境
空間微調移形換境
自由流光回溯生活真意

狂吃“糯嘰嘰”小心腸梗阻！

公開課

李玫瑾：為什么性格比能力更重要？

白巖松談人口老齡化：社會要降低老年人門檻
為什么人類有不同的膚色？
布洛芬是怎么給人止痛的？
李彥宏：百度離破產30天

© 1997-2026 網易公司版權所有 About NetEase | 公司簡介 | 聯系方法 | 招聘信息 | 客戶服務 | 隱私政策 | 不良信息舉報 Complaint Center | 廉正舉報 | 侵權投訴

無障礙瀏覽進入關懷版