无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網(wǎng)易首頁

網(wǎng)易新聞
網(wǎng)易公開課
網(wǎng)易紅彩
網(wǎng)易嚴選
郵箱大師
網(wǎng)易云課堂

注冊免費郵箱

注冊VIP郵箱（特權郵箱，付費）
免費下載網(wǎng)易官方手機郵箱應用

移動端
網(wǎng)易公開課
網(wǎng)易嚴選
支付
郵箱

網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

奧特曼預言與現(xiàn)實相差幾何？12個頂級模型“創(chuàng)業(yè)”一年，僅3個存活

2026-04-03 17:11:08　來源: 鈦媒體APP

北京舉報

0

分享至

“在 AI 時代，一個人有可能創(chuàng)辦一家估值 10 億美元的獨角獸公司?！?024 年初，OpenAI CEO 山姆·奧特曼（Sam Altman）拋出考慮了這個后來被廣泛引用的判斷。

數(shù)據(jù)似乎也正驗證這一趨勢。據(jù)股權管理平臺Carta 統(tǒng)計的2025 年數(shù)據(jù)顯示：超過三分之一的新公司由單人創(chuàng)始人創(chuàng)辦。從 2019 年的 23.7% 到 2025 年上半年的 36.3% ，獨立創(chuàng)始人創(chuàng)立公司的比例在六年間增長了 53% 。不僅不需要聯(lián)合創(chuàng)始人了，甚至一個人、一套 AI 工具就能打天下的“一人公司”案例也開始出現(xiàn)在科技媒體的報道中。

AI越來越強，但一個人+AI，真的等于一家公司嗎？AI能做到什么程度？

Collinear AI（專注企業(yè)級AI Agent的初創(chuàng)公司）的研究團隊認為，整個行業(yè)正在快速邁向長周期、多步驟的Agent工作流，但可靠性并沒有跟上這一進程。因此，他們發(fā)布了YC-Bench（首個帶有模擬時鐘的開源長時序 Agent 評測基準）試圖用科學的方式回答這個問題——不是靠感覺和案例，而是把“一個人能做的事”拆解成可量化的任務，然后用全球最強的 AI 模型逐一去測試。

研究團隊構建了一個高擬真度的模擬創(chuàng)業(yè)環(huán)境，AI 在里面扮演 CEO，讓 AI Agent 從零運營一家公司：管理員工、挑選項目合同、應付難纏的客戶、維持公司賬上的現(xiàn)金流。一年后，從起始資金 20 萬美元，到最終能活下來且賺錢的，12 個頂級模型里，只有 3 個做到了。

論文來源： YC-Bench: Benchmarking AI Agents for Long-Term Planning and Consistent Execution https://arxiv.org/abs/2604.01212

YC-Bench 怎么測的？

前沿模型能經(jīng)營一家創(chuàng)業(yè)公司嗎？

帶著這樣的疑問，研究團隊發(fā)布了 YC Bench。其核心設計思路是：給一個前沿模型種子資金、一支小團隊和一個任務市場，讓它模擬經(jīng)營一家 AI 初創(chuàng)公司——管理員工、按時交付、分配資源，在一年內(nèi)實現(xiàn)利潤最大化。

核心挑戰(zhàn)有三層：

不確定性下的規(guī)劃：市場是部分可觀察的，AI 不能“偷看答案”，必須基于不完整信息做決策。
延遲反饋：很多決策的后果要幾周甚至幾個月才顯現(xiàn)，AI 必須從延遲的信號中學習和調(diào)整。
錯誤累積：早期的一個糟糕決策會在后期放大，最終導致破產(chǎn)——這正是現(xiàn)實創(chuàng)業(yè)中最殘忍的規(guī)律。

其中，研究團隊增加了對抗性壓力：環(huán)境里有意設置了難纏的客戶、不斷上漲的人力成本，讓 AI 在壓力下做出判斷。

評估的方法，是12 個模型（含閉源和開源），每個模型跑 3 次（不同隨機種子數(shù)據(jù)集），唯一允許在回合間“記事”的工具是 Scratchpad（草稿本）——相當于 AI 的內(nèi)部筆記本，這是它跨回合保持記憶的唯一方式。

在這個評測中，Agent = LLM + 工具 + 決策框架，LLM 是大腦，框架是手腳。

每個被測模型都被套上了一層 Agent 框架，讓它們能：

查看公司當前狀態(tài)（財務報表、員工情況）
根據(jù)看到的信息做推理和決策
調(diào)用工具執(zhí)行動作（分配任務、招聘員工、推進時間）

這 12 個模型做的就是這個 Agent 循環(huán)，不是單純地回答問題。YC-Bench 測的不是"哪個大模型答卷考得好"，而是"哪個模型當老板當?shù)煤?。

12 個模型，同一場壓力測試，結果：三個沒想到

研究團隊挑選了 12 個來自不同公司的主流 AI 模型，放在同一套環(huán)境里進行三輪獨立測試。

模型在模擬環(huán)境里的行為差異極大，主要體現(xiàn)在四個維度。其中，Scratchpad 寫入頻率反映了 AI 在長程任務中進行主動規(guī)劃和自我反思的強度；任務檢查比例反映了 AI 是否主動核實客戶可信度；并發(fā)任務數(shù)反映 AI 是否存在“過度并行”問題。

在計算成本與穩(wěn)定性上，API成本差異極為懸殊，而結果卻并不與成本正相關。

圖中可以看到不同模型之間運行時間差異巨大。同樣跑完一年模擬，Claude Opus 4.6 用了70分鐘，GPT-5.4 Nano只用了3分鐘。深入拆解，有以下幾個原因：

首先，運行時間和Token量強相關，這意味著AI在每個決策回合“想了多久”。Claude Opus 4.6 產(chǎn)生了16.7M token，而GPT-5.4 Nano只有2.0M token。這背后源于兩個行為：Scratchpad的寫入量（記錄各種情況）和每輪發(fā)出的命令數(shù)（與環(huán)境交互）。
其次，不同模型本身推理速度和吞吐量差別也很大，比如Gemini Flash系列是專為速度優(yōu)化，推理極快，其他GPT-5.4 Nano/Mini也是輕量級小模型，參數(shù)少、推理快，而Claude Opus 4.6是旗艦大模型，參數(shù)量大，每個Token計算量高，自然也就慢了。
此外，還存在API網(wǎng)絡延遲的疊加效應。YC-Bench中跑了幾百個回合，每輪都要調(diào)用API，旗艦款模型的響應延遲高于輕量模型，再乘以幾百輪，延遲就會被大幅放大。

綜合來看，結論還是有不少讓人意外之處。

1. 頂級模型的差距，比想象中大得多

在三輪測試中，12 個模型里，只有 3 個能持續(xù)跑贏 20 萬美元起始資金。剩下 9 個，要么勉強持平，要么在一年內(nèi)走向破產(chǎn)。

但更有意思的是始終存活下來的前三名對比：

Top 3 模型最終資金對比

其中，GLM-5 以極低成本接近 Claude Opus 的表現(xiàn)，可以說是 Claude Opus 的“性價比殺手”——差距極小，但算力消耗天差地別。這對那些想用 AI 運營公司的人來說，是個重要信號：最貴的模型不一定是最優(yōu)的。

2. Scratchpad 是生死線

這是整個論文最反直覺的發(fā)現(xiàn)：決定輸贏的并不完全是參數(shù)量，而是Scratchpad 的使用方式。

例如，在前文表格中，Gemini 3.1pro 作為旗艦款的Pro模型，按慣例來講應該是同系列中參數(shù)最大的，但在三次測試中破產(chǎn)兩次；反觀其輕量版模型Gemini 3 Flash一次都沒有破產(chǎn)，雖然最終資金不多，但至少活下來了。

而其他能持續(xù)、規(guī)律地使用 Scratchpad 做規(guī)劃和自我反思的 AI（如 Opus 4.6、GLM-5、GPT-5.4），表現(xiàn)遠優(yōu)于那些"走一步看一步"的 AI。GPT-5.4 雖然 Scratchpad 使用頻率極高（10.6次/100輪），但其高任務檢查率使其也維持了穩(wěn)定盈利。

這像極了人類創(chuàng)業(yè)者：那些隨時記筆記、復盤決策、做長期打算的人，往往比那些憑直覺行動的人走得更遠。AI 也不例外。

3. 第一道坎，來自最難纏的客戶

47% 的破產(chǎn)都始于對抗性客戶——AI 在沒有充分核實背景的情況下接受了不利條款，或者沒有識別出客戶的惡意意圖。其他主要失敗原因包括：員工分配不當（26%）、過度并行化（17%）以及其他因素（10%）。

這個數(shù)字令人意外：人們通常認為 AI 在邏輯推理和數(shù)據(jù)分析上很強，但識別意圖和風險，恰恰是它最薄弱的地方。

更諷刺的是，論文還發(fā)現(xiàn)前沿模型有一種獨特的失敗模式：過度并行化——Claude Sonnet 4.6 平均同時承接 7.2 個任務，遠超其他模型，但這種"多線程"策略反而導致資源分散、每條線都做不深。

這不只是論文，更像是現(xiàn)實的壓力測試

看完這些實驗數(shù)據(jù)，你會發(fā)現(xiàn) YC-Bench 測的，其實就是"一個人 + AI 工具"能否真正成為一家公司的核心能力。

換句話說，YC-Bench 用代碼模擬的，正是每一個想靠 AI 創(chuàng)業(yè)的"超級個體"每天都在面對的真實挑戰(zhàn)。

山姆·奧特曼說，一個人可以創(chuàng)辦一家獨角獸。

YC-Bench 的研究說明，前提是這個人得比 AI 更懂什么時候不該聽 AI 的。這不是對 AI 的否定，恰恰是對 AI 時代“一人公司”最誠實的定義：一個人 + AI，不是降低了對創(chuàng)業(yè)者的要求，而是把要求從“你會多少技能”變成了“你有多擅長做判斷”。

YC-Bench 的價值，不在于告訴我們 AI 能做什么，而在于誠實地揭示了 AI 現(xiàn)在還不能做什么——以及在那些縫隙里，一個人必須自己補上的那些能力。

最后，綜合這份論文中的判斷，或許可以給在做“一人公司”的人提供幾個提示：

不要被 AI 的“智商”騙了——模型在各項評測榜單上分數(shù)很高，但在長程任務里，堅持用筆記、持續(xù)復盤、主動識別風險的做事習慣，比純粹的推理能力更重要。目前沒有哪個模型在這一點上做到完美，包括測試中的大贏家Claude Opus。
“最貴的”不等于“最合適的”——GLM-5 的出現(xiàn)說明，模型選擇上存在被嚴重低估的性價比路線。一人公司本就在資源有限的前提下運營，沒必要為最貴的模型付溢價。
早期的一個失誤，真的會殺死你——這是YC-Bench最殘酷的發(fā)現(xiàn)：AI 在前幾個月的決策質(zhì)量，直接決定了后期的發(fā)展空間。一個人創(chuàng)業(yè)也是如此——最初的合同、人員、方向選擇，會在12個月后被放大成巨大的優(yōu)勢或劣勢。
AI 的盲點，在人際判斷上——47%的破產(chǎn)源于客戶識別失誤，這不是技術問題，而是 AI 缺乏“社會經(jīng)驗”的系統(tǒng)性弱點。在現(xiàn)實中，這意味著一個人用 AI 跑公司，必須自己在關鍵決策上保持判斷力，而不是完全依賴 AI 的建議。

（文｜數(shù)智達觀，作者｜蓋虹達，編輯丨楊林）

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

當AI從租GPU走向賣Token，誰會賺到真正的錢？

虎嗅APP 2026-05-19 00:08:10
17 跟貼 17
從Token無上限到全員Agent：MiniMax的AI Native組織進化實踐

量子位 2026-05-31 11:48:15
3 跟貼 3

AI原生時代，讓世界適應Agent而非教AI做人 | 港大黃超@AIGC2026

量子位 2026-05-31 11:56:06
0 跟貼 0

Anthropic估值萬億，但Claude 4.8沒那么驚艷

鈦媒體APP 2026-05-30 09:39:07
0 跟貼 0
新一輪大模型要來了！Blackwell加持下，AI能力更強了？

華爾街見聞官方 2026-05-29 14:46:14
4 跟貼 4

復旦鐵三角：開辟最優(yōu)物理AI路徑！時空一體世界動作模型問世

新智元 2026-05-31 13:08:37
2 跟貼 2

小學生畫了撇胡子騙過AI年齡驗證，硅谷工程師沉默了

機器之心Pro 2026-05-31 14:27:31
0 跟貼 0
AI Agent是科技革命中的一次真正的范式轉(zhuǎn)移

量子位 2026-04-03 22:52:35
0 跟貼 0

00后小哥復刻Claude最強神話模型OpenMythos

量子位 2026-04-23 11:44:18
0 跟貼 0
Agent輸出到底該用誰？卡帕西轉(zhuǎn)發(fā)：試試讓AI輸出HTML

量子位 2026-05-13 07:19:50
0 跟貼 0
這個時代必須以Agent為中心：三個趨勢回顧

量子位 2026-04-05 02:14:15
0 跟貼 0
王曉野：Working Agent將是下一個爆發(fā)點

量子位 2026-05-21 08:05:51
0 跟貼 0
讓大模型邊想邊說：這篇文章把「何時開口」變成可學習策略

機器之心Pro 2026-05-18 14:49:11
0 跟貼 0
一群人在景區(qū)表演空翻，奧特曼見狀也不甘示弱，網(wǎng)友：真講究出招前先拆裝備

星沙時報 2026-05-29 16:21:44
0 跟貼 0
面試官：說一下 Agent 的常見范式

新浪財經(jīng) 2026-05-31 10:41:28
0 跟貼 0
未來人的末日預言，2026年6月6日世界陷入三天黑暗？怎么回事

火宗君講奇聞 2026-05-30 18:17:12
8 跟貼 8
鳩摩智的預言成真了

對齊看劇 2026-05-30 09:44:54
0 跟貼 0
巴頓將軍80年前的預言正在變成現(xiàn)實，就看川普能否挽狂瀾于既倒

壹家言 2026-05-31 08:29:09
236 跟貼 236
盤點9個多年前的神預言

爆笑君呀 2026-05-29 17:23:44
1 跟貼 1
驚人預言：到2035年的中國，多半會變成這般模樣，速來一探究竟

歸史 2026-05-31 11:49:32
0 跟貼 0
范丞丞半月前的預言，居然全中了

阿鼵評論哥 2026-05-31 03:26:35
1 跟貼 1
奧特曼和達里奧的十年恩怨，如何走到全面開戰(zhàn)？

量子位 2026-04-06 05:39:19
0 跟貼 0
豆包頻上熱搜背后：AI的價值、幻覺與常識

象先志 2026-05-31 00:31:32
7 跟貼 7
日本插畫家分享父親的“神秘”照片，網(wǎng)友的推理引發(fā)大家共鳴

ACG萌博士 2026-05-27 14:05:20
2 跟貼 2
男子奧特曼的穿搭，只聽見了秋千的哀嚎，承受了太多！

逗趣小油條 2026-05-29 16:57:22
1 跟貼 1
誰也想不到落魄富豪，竟淪落到專偷有錢鄰律的地步

沐木看劇 2026-05-29 13:07:11
23 跟貼 23
在高中生的放縱下，雷德王竟成為網(wǎng)絡熱梗

手談姬 2026-05-29 10:29:08
0 跟貼 0
為什么壓力越大，腦子越“不轉(zhuǎn)彎”？這篇文章你一定要看！

醫(yī)學界神經(jīng)病學頻道 2026-05-28 20:01:17
0 跟貼 0
經(jīng)濟上升期才能擁有的美好國漫作品——呆毛艾斯《要相信光》

集悅讀 2026-05-27 18:06:39
0 跟貼 0
當視頻難以被表征1

機器之心Pro 2026-03-03 17:21:59
0 跟貼 0
人機大戰(zhàn)誰是預言家？劉語熙：AI干不過我，因為我的預測不可預測

咪咕體育 2026-05-29 14:37:12
0 跟貼 0
單Agent時代正式結束：一個干不過，就上300個-3

機器之心Pro 2026-04-22 00:08:00
0 跟貼 0
女子吃了隔夜見手青連撞兩輛車，回家后還對著空氣輔導作業(yè)

南陽日報 2026-05-30 17:19:03
451 跟貼 451
TTS新傳考研名詞解釋：逆火效應

禿頭研究所新傳考研 2026-05-31 14:37:19
0 跟貼 0
在杭州2050遇見丨A民主化把推理還給每個人

商學院雜志 2026-05-31 08:18:07
0 跟貼 0
今日交通案例快刷

AKA灰叔 2026-05-28 17:20:59
0 跟貼 0
中方代表香會講話當場向日方提出兩個問題

環(huán)球網(wǎng)資訊 2026-05-30 19:36:11
8413 跟貼 8413
小孩砸壞車子被車主怒扇巴掌下秒富豪爸爸來出氣

婆婆愛剪輯 2026-05-29 16:27:13
1 跟貼 1
跟鞋營銷號玉米科學小實驗（十一）

人間閑散客 2026-05-31 03:34:26
0 跟貼 0
房主將自家住宅變“網(wǎng)約房” 鄰居有權說“不”嗎？

北青網(wǎng)-北京青年報 2026-05-30 21:06:09
5954 跟貼 5954

鼻毛往外躥的男人有何不同？鼻毛旺盛說明了什么？男性朋友需了解

鼻毛往外躥的男人有何不同？鼻毛旺盛說明了什么？男性朋友需了解

熊貓醫(yī)學社

2026-05-30 11:35:03

這一回，輪到煙草員工開始沒心情上班了？干活沒底氣了？

這一回，輪到煙草員工開始沒心情上班了？干活沒底氣了？

今朝牛馬

2026-05-26 20:40:56

哭了！文班亞馬放肆痛哭！未來是他的，現(xiàn)在也是！

哭了！文班亞馬放肆痛哭！未來是他的，現(xiàn)在也是！

貴圈真亂

2026-05-31 11:38:23

悲情槍手，阿森納兩進歐冠決賽均先進球，但都無緣冠軍

悲情槍手，阿森納兩進歐冠決賽均先進球，但都無緣冠軍

懂球帝

2026-05-31 03:14:14

大結局將至！日本放棄救美元，中國反手加倉黃金，美聯(lián)儲不敢妄動

大結局將至！日本放棄救美元，中國反手加倉黃金，美聯(lián)儲不敢妄動

解鎖世界風云

2026-05-30 16:26:50

戶口正式“失效”！國家新規(guī)落地，教育、醫(yī)保、住房被全面解綁

戶口正式“失效”！國家新規(guī)落地，教育、醫(yī)保、住房被全面解綁

鯨探所長

2026-05-30 09:59:16

女演員顏值有多重要？看劉浩存和楊紫就知道了，沒對比就沒傷害

女演員顏值有多重要？看劉浩存和楊紫就知道了，沒對比就沒傷害

草莓信箱

2026-05-20 02:30:26

前國足主帥加盟新鵬城？知名媒體人稱陳濤下課并非因為成績

前國足主帥加盟新鵬城？知名媒體人稱陳濤下課并非因為成績

陳秣愛釣魚

2026-05-31 14:06:06

50歲影帝屠家換錢：13年殺2妻3子換600萬！每殺一人都拜佛裝善！

50歲影帝屠家換錢：13年殺2妻3子換600萬！每殺一人都拜佛裝善！

莫地方

2026-05-22 01:50:03

杭州一大樓半年外賣被偷126次，民警用了這一招，一個月來再也沒丟過

杭州一大樓半年外賣被偷126次，民警用了這一招，一個月來再也沒丟過

都市快報橙柿互動

2026-05-30 17:40:21

兩個人一起同房，到底能不能減肥??？（單身勿入）

兩個人一起同房，到底能不能減肥啊？（單身勿入）

許超醫(yī)生

2026-05-29 10:06:22

博主：深圳換帥不是因為競技層面，陳濤和體育總監(jiān)嚴重不和

博主：深圳換帥不是因為競技層面，陳濤和體育總監(jiān)嚴重不和

懂球帝

2026-05-31 11:13:02

陪玩陪睡根本不夠！認干爹、舔手指，背地里的陰暗面完全藏不住了

陪玩陪睡根本不夠！認干爹、舔手指，背地里的陰暗面完全藏不住了

杰絲聊古今

2026-05-03 13:35:27

徐帆回應離婚幾個月后，68歲馮小剛再惹爭議，養(yǎng)女徐朵成導火索！

徐帆回應離婚幾個月后，68歲馮小剛再惹爭議，養(yǎng)女徐朵成導火索！

鄉(xiāng)野小珥

2026-05-18 08:58:28

爸爸夢到已故兒子說腳被刺扎了，立馬驅(qū)車來到孩子墓前，眼前的一幕讓人驚呆了！

爸爸夢到已故兒子說腳被刺扎了，立馬驅(qū)車來到孩子墓前，眼前的一幕讓人驚呆了！

張曉磊

2026-04-10 11:24:23

王博：布朗的體能沒問題，我們會為了榮譽捍衛(wèi)自己的主場

王博：布朗的體能沒問題，我們會為了榮譽捍衛(wèi)自己的主場

懂球帝

2026-05-31 13:31:04

19年秦漢為父親孫元良站臺，共青團下場批駁：民族敗類，何足紀念

19年秦漢為父親孫元良站臺，共青團下場批駁：民族敗類，何足紀念

抽象派大師

2026-05-29 00:19:03

德比斯僅獲第8原因曝光！張雪機車尾速墊底再受限制？規(guī)則應公平

德比斯僅獲第8原因曝光！張雪機車尾速墊底再受限制？規(guī)則應公平

念洲

2026-05-31 08:14:33

交了智商稅才明白：這4種家電一定要買貴的，沒錢干脆先不買

交了智商稅才明白：這4種家電一定要買貴的，沒錢干脆先不買

裝修秀

2026-05-21 21:07:00

王菲做夢都想不到，和那英二十九年的閨蜜情，如今竟成了竇靖童的發(fā)展阻礙

王菲做夢都想不到，和那英二十九年的閨蜜情，如今竟成了竇靖童的發(fā)展阻礙

動物奇奇怪怪

2026-05-30 19:27:27

獨立財經(jīng)科技媒體

134352文章數(shù) 862209關注度

往期回顧全部

科技要聞

戴爾諾基亞又回來了！AI重估老牌科技公司

頭條要聞

美國嚴厲警告后德國仍上趕著：將擴大"印太"軍事參與

頭條要聞

美國嚴厲警告后德國仍上趕著：將擴大"印太"軍事參與

體育要聞

阿森納用最悲壯的方式，成就了巴黎王朝

娛樂要聞

賈玲最新動作！侯明昊給虞書欣抬轎！

財經(jīng)要聞

醫(yī)學首席轉(zhuǎn)崗搞科技，A股科技股遭遇巨震

汽車要聞

900V+3.2秒破百領克10+&領克10上市16.99萬元起

態(tài)度原創(chuàng)

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

藝術

本地

健康

游戲

教育

藝術要聞

Luis Alvarez Roure | 美國現(xiàn)實主義畫家

本地新聞

用剪紙的方式，打開江蘇揚州

嘗試干細胞療法如何避免踩坑？

91歲楊老頭棄坑《生化危機7》!直言:不嚇自己只想快樂

教育要聞

2025高考數(shù)學第一題，算平均數(shù)？

© 1997-2026 網(wǎng)易公司版權所有 About NetEase | 公司簡介 | 聯(lián)系方法 | 招聘信息 | 客戶服務 | 隱私政策 | 不良信息舉報 Complaint Center | 廉正舉報 | 侵權投訴

無障礙瀏覽進入關懷版