无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

Clawdbot 之后,我們離能規模化落地的 Agent 還差什么?

0
分享至

OpenClaw (原名 Clawdbot)爆火。

對于個人極客來說,OpenClaw 是有趣的。但對于企業和商業環境來說,問題立刻暴露:昂貴(燒 Token)、不可控(安全邊界模糊)、存在隱私問題,且難以協作。

可以說,目前的 Agent 更多還是驚艷的 Demo,不是可以規模化的產品。

Monolith 礪思資本辦了一場「After the Model」技術沙龍,聊了聊:Agent 離規模化落地還有哪些難題?

在活動中,一個被反復提及的觀點是:Agent 需要是一個可持續工作的系統,而非單次任務的跑通。

這意味著,光有「模型智力」是遠遠不夠的。想跨過工程這條鴻溝,必須還要「死磕」這幾個硬指標:穩定性、高吞吐量、成本控制、精確的狀態管理。

以下是活動的一些核心 Insight,供從業者參考。

??關注 Founder Park,最及時最干貨的創業分享

Founder Park 聯合扣子,舉辦了一場 Skill 招募大賽。如果你手里有一套在用、能交付結果的方法論,很適合來試試!

歡迎飛書掃碼加群:

進群后,你有機會得到:

  • 可落地的 Skill 搭建方法

    從一個想法或一套 SOP,拆解成真正能跑起來的 Skill

  • Skill 的展示與放大通道

    不只是自己用,而是被更多人看到、用到

  • 被看見后的實際激勵

    好的 Skill,有機會獲得明確回報

01教模型做事的成本太高,

不能用黃金蓋平房

任何系統的可持續性,最終都得回歸到單位經濟模型(UE)。如果 Agent 創造的價值覆蓋不了它消耗的成本,那么無論模型多么先進,這個系統在商業上都是不可持續的。

當前 Agent 的門檻主要存在于數據與設施上。

在 SFT(監督微調)模式下,我們依賴人類專家來教模型做事。但在 GUI Agent(讓 AI 操作電腦界面)這種高門檻任務中,這種依賴變成了難以承受的負擔。

為了獲得高質量的 GUI 任務數據,部分從業者發現,他們需要雇傭「985 高校的高年級博士生」來進行標注,而即使是這樣高水平的人力,標注一條數據也需要耗費 20 分鐘。

這種高昂的時間與人力成本直接限制了數據的規模,團隊最終只標注了 200 多個任務,無法進一步擴大。

簡單點說,我們實際上正在用黃金蓋平房——依靠堆砌專家人力來換取智能的提升,在復雜 Agent 場景下是不可持續的。

這反向逼迫行業必須轉向 RL(強化學習)——讓 Agent 在虛擬環境里自己試錯、自我博弈,擺脫對昂貴人工數據的依賴。只有這樣,才能把數據成本從"按人頭算"變成"按算力算",實現邊際成本的下降。

但是,RL 的門檻也不低。

傳統的工業級 RL 訓練往往依賴龐大的算力集群。即使是經過優化的訓練流程,仍然需要 16 張顯卡(8 卡采樣、8 卡訓練)以及大量的 CPU 資源來支撐仿真環境。

對于大多數中小企業或學術團隊而言,這是一筆不菲的開銷。如果無法通過 RL 實現數據的自我生成,Agent 的商業模式會被高昂的人力成本直接鎖死。

破局的關鍵是構建高仿真環境,讓 Agent 通過自主探索產生海量交互數據,再通過設計有效的獎勵信號,用 RL 訓練出更強的策略。

02光速的 GPU 算力,

但被迫在龜速的操作系統上訓 Agent

當前 Agent 訓練面臨的悖論還有:光速的 GPU 算力,配上了龜速的操作系統。

在傳統的 RL 任務(比如下棋、打游戲)中,環境反饋是毫秒級的,步長短、速度快。

但在 GUI Agent 場景下,Agent 執行一個動作——比如在虛擬機里點擊 Excel 按鈕——需要經歷"虛擬機渲染→截屏→圖像回傳→視覺模型處理"的漫長鏈路。

實際訓練中,完成一個 Step 的交互甚至需要30 秒以上,令人難以忍受。

極高的延遲又進一步導致了計算資源的極度浪費——在傳統的 RL 流程中,架構通常是緊耦合的。這意味著,當 GPU 在更新模型時,環境在等待;而當環境在采樣數據時,GPU 又在空轉。

這種時空的錯配、互相阻塞導致了極低的計算利用率。

除了速度慢,環境的復雜度也呈指數級上升。

不同于文本生成,GUI Agent 面臨的是一個像素級(Pixel-level)的動作空間,理論上它可以在屏幕上的任意坐標進行點擊或拖拽,這使得動作空間接近無限。

這使得獎勵極為稀疏。比如"將 Excel 內容打印為 PDF"這樣的任務,Agent 需要連續執行幾十個步驟。在這個過程中,環境往往一片死寂,不會告訴 Agent 中間某次點擊是對是錯,只有最后一步才能得到結果。

這種「長程視野 + 稀疏反饋 + 無限空間」的組合,構成了 Agent 所在環境的真實面貌——它是一個充滿了摩擦的環境。我們不能再用訓練聊天機器人的邏輯來訓練 Agent。

對于創業公司而言,這意味著必須投入資源去構建仿真訓練環境,這比單純購買 H100 顯卡更考驗團隊的技術沉淀。

03基礎設施:太重、太貴、玩不起

如何解決環境問題?

在現場,不同的分享者分別從橫向擴展與縱向輕量化兩個維度,給出了 Infra 重構的答案:解耦(Decoupling)。

橫向解耦:打破采樣與訓練的同步鎖

面對 GUI Agent 交互速度極慢的問題,有研究者提出了一種名為 Dart(Decoupled Agent RL)的框架。

其核心邏輯是將采樣端與訓練端在物理上徹底分開。

在這一架構下,采樣端不再等待模型更新,而是利用 Kubernetes(K8s)并行啟動上百個 Docker 容器作為 Environment,持續不斷地生產軌跡數據。數據通過一個基于 MySQL 的軌跡管理器進行異步調度,再輸送給訓練端。

這種設計雖然引入了 Off-policy(數據和模型不同步)的挑戰,需要通過數據篩選機制來平衡,但收益是巨大的,至少有三層:

  • 消除了 GPU 等待環境反饋的空轉時間

  • 實現了 5.5 倍的環境利用率提升

  • 整體訓練吞吐量翻了近一倍

這也意味著,Agent 的 Infra 必須具備處理異步數據流的能力,而非傳統的同步批處理,將訓練過程轉變成了一個持續流動的、高吞吐的流水線。


Dart 框架

縱向解耦:降低算力門檻

Infra 的另一個痛點在于「重」。

現有的工業級框架(如 Verl, OpenRLHF)往往針對大規模集群,代碼量龐大且模塊耦合嚴重,對于學術界或資源受限的初創團隊而言,修改算法邏輯或適配小規模集群的門檻極高。

另一位研究者展示了輕量化的解耦思路——開發模塊化框架,將算法邏輯、模型架構與分布式引擎分離

這種 RL-Centric 的設計理念,把工程復雜度封裝在模塊邊界內,實現了"邏輯即實現"——研究者可以像搭積木一樣,通過插件化配置自由組合 GAE、GRPO、PPO 等算法組件,大幅降低了處理底層分布式的負擔。

同時他們還通過 CPU Offload 技術實現了顯存復用——推理采樣時將訓練參數卸載至 CPU,優化更新時再加載回 GPU,顯著降低了硬件門檻。


RLLaVA 框架

所有這些技術細節背后的邏輯都趨于一致:要讓 AI Agent 可行,首先得把它的工位(基礎設施)配齊。現有的工具太重、太貴、太慢。因此,我們需要更輕量、模塊化的中間件,讓中小團隊也能玩得起 Agent 訓練。

這也正是 Infra 領域的創業機會。

04Long Context 并不等同于記憶

算力和環境之外,另一個問題是狀態管理

Transformer 架構雖然強大,但它缺乏可讀寫存儲器,無法顯式地存儲或更新中間的推理狀態,也沒有循環或遞歸機制。

在處理簡單問答時,這種無狀態特性不是大問題;但在面對復雜的軟件開發或長程邏輯推理時,這種缺陷是致命的。

由于缺乏對推理狀態的有效管理,模型在解決復雜遞歸任務時,往往會出現推理鏈路斷裂或邏輯漂移。

這些問題,相信重度使用 AI 的用戶都能感受到。

學術界與工業界也正在嘗試從架構底層進行修補。諸如Mamba 等 State Space Models(SSM)、Linear Attention 機制、Stack 機制,正在成為解決這一問題的熱門方向。

這些新架構試圖通過更高效的狀態壓縮與傳遞機制,讓模型具備原生的狀態推演能力,從而彌補 Transformer 在長程狀態管理上的先天不足。

另一個思路是改變推理的載體。當前大多數 Agent 依賴自然語言進行思維鏈推理,但自然語言在精確計算和狀態追蹤上有局限。

一種思路是讓模型學會用代碼思考——代碼天然具備變量、函數和邏輯流,比自然語言更適合精確的狀態管理。


Code Thinking

在工程落地層面,一個常見誤區是把 Long Context(長上下文)等同于"記憶"。但單純拉長上下文窗口既不經濟也不實用。

實際場景中,記憶被劃分為兩類:用戶側記憶執行側記憶。前者類似傳統用戶畫像,記錄用戶偏好和基本信息,大多數 AI 客服已具備雛形。后者是 Agent 自我進化的關鍵——不僅要記住「用戶是誰」,更要記住「我上次是如何完成任務的」,包括執行軌跡和經驗教訓。

當再次遇到類似任務時,Agent 應能復用成功路徑或規避踩過的坑,而非從零開始。

在記憶架構上,一種思路是將其設計為file system 式的分層存儲。當 Agent 需要回顧時,它執行的是讀取文件的操作,而非在上下文窗口中大海撈針。

對于一個系統而言,「記憶」的本質不應該是記住所有的對話歷史,而是能夠像計算機一樣,精確地管理每一個變量的周期與狀態。

總而言之,對于企業級應用來說,客戶不在乎你的上下文窗口有多長,只在乎 AI 能不能記住「我上次說過什么」以及「公司的業務規則是什么」諸如此類問題。

解決健忘問題,是 Agent 從玩具走向企業級員工的入場券。

05護城河變了,

贏家也會變

盡管這場沙龍是一場偏向技術、工程層面的交流,但我們仍能從中提取出很多信號。

過去我們認為護城河在于模型本身,但隨著開源模型能力的快速逼近,護城河正在從"單點模型能力"向"系統整合能力"擴展。

未來的贏家,不一定是模型最強的團隊,而是那些能通過優秀的 Infra 架構、低成本的數據閉環和高效的記憶管理,最大化釋放模型能力的團隊。工程化能力正在成為新的差異化來源。

其次,我們需要注意,賣鏟子的邏輯變了,Agent Infra 是被低估的洼地。

正如沙龍中所討論到的,為了讓 Agent 真正落地,我們需要全新的基礎設施,不是傳統的云計算,而是專門為 Agent 設計的諸如異步訓練框架、解耦的采樣環境和向量化記憶文件系統之類的 Agent Native Infra。

目前的 Agent 開發棧依然非常原始。這意味著,誰能為 Agent 開發者提供好用的「IDE」、「調試器」和「虛擬訓練場」,誰就有機會成為 AI 2.0 時代的 Databricks 或 Snowflake。

最后,隨著 GUI 等復雜場景的出現,人工標注的成本顯然已不可持續。

未來的數據壁壘,不再是誰爬取了更多的互聯網文本,而是誰能構建更逼真的仿真環境,讓 Agent 在其中自我博弈、自我進化。這種通過 RL 產生的高質量合成數據,將是下一階段最稀缺的資源。

我們永遠處在一個不斷出現噪音,排出噪音的商業環境中,Agent 的深水區才剛剛開始。


轉載原創文章請添加微信:founderparker

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
研究發現:體質好的人,一般有6個特征,能占4個,就很不錯

研究發現:體質好的人,一般有6個特征,能占4個,就很不錯

蜉蝣說
2026-05-19 21:58:27
生育率問題的罪魁禍首不是房價和經濟 而是你手里拿著的這樣東西

生育率問題的罪魁禍首不是房價和經濟 而是你手里拿著的這樣東西

新浪財經
2026-05-17 14:34:05
錢大媽5年閉店約500家,創始人馮冀生套現超億元跑路

錢大媽5年閉店約500家,創始人馮冀生套現超億元跑路

財觀潮頭
2026-05-19 20:42:43
安切洛蒂談世界杯:五個奪冠熱門,但沒有球隊是完美的

安切洛蒂談世界杯:五個奪冠熱門,但沒有球隊是完美的

懂球帝
2026-05-19 09:42:40
華為、騰訊、比亞迪等都等不及了!深圳高校2026集體“瘋狂上新”

華為、騰訊、比亞迪等都等不及了!深圳高校2026集體“瘋狂上新”

深圳夢
2026-05-19 21:53:00
姚晨緊急刪文僅一天,不對勁一幕出現,為什么圈內好友無一人發聲

姚晨緊急刪文僅一天,不對勁一幕出現,為什么圈內好友無一人發聲

青杉依舊啊啊
2026-05-20 02:54:17
挺進決賽!U17國足2比0完勝澳大利亞,將與日本隊爭冠!

挺進決賽!U17國足2比0完勝澳大利亞,將與日本隊爭冠!

足球報
2026-05-20 04:30:59
深挖 | 夏奇拉:世界杯的“音樂符號”,人生比情歌更跌宕

深挖 | 夏奇拉:世界杯的“音樂符號”,人生比情歌更跌宕

新民周刊
2026-05-19 09:10:27
上海交大樊同學要哭死:學校終止她的儲才計劃,取消她校內轉專業

上海交大樊同學要哭死:學校終止她的儲才計劃,取消她校內轉專業

江山揮筆
2026-05-19 22:16:34
深夜,“烏龍指”再現?!

深夜,“烏龍指”再現?!

證券時報
2026-05-19 23:34:05
好消息!上調至3.67%

好消息!上調至3.67%

幸福肥東
2026-05-19 14:56:40
誰干的?以色列核彈頭儲存基地發生強烈爆炸!特朗普推遲打擊伊朗

誰干的?以色列核彈頭儲存基地發生強烈爆炸!特朗普推遲打擊伊朗

影孖看世界
2026-05-19 21:47:46
全民拒接陌生來電,我們正在經歷,一場無聲的信任危機

全民拒接陌生來電,我們正在經歷,一場無聲的信任危機

天天熱點見聞
2026-05-07 06:55:16
A股:中央兩部門剛剛發聲,釋放一信號,明日將迎來更大的變盤

A股:中央兩部門剛剛發聲,釋放一信號,明日將迎來更大的變盤

云鵬敘事
2026-05-20 00:00:05
還是忘不了!特朗普又曬檢閱解放軍儀仗隊照片,還展示自己軍裝照

還是忘不了!特朗普又曬檢閱解放軍儀仗隊照片,還展示自己軍裝照

阿龍聊軍事
2026-05-17 21:08:17
熱議海港勝成都:史上最弱海港做到了;成都主場失利是警醒

熱議海港勝成都:史上最弱海港做到了;成都主場失利是警醒

懂球帝
2026-05-19 23:11:08
蔡卓妍:全部都是假的

蔡卓妍:全部都是假的

最江陰
2026-05-19 15:05:17
郎朗真有福!吉娜戛納紅毯開叉到大腿根,生圖曝光網友吵翻天!

郎朗真有福!吉娜戛納紅毯開叉到大腿根,生圖曝光網友吵翻天!

動物奇奇怪怪
2026-05-20 04:29:55
果然!是華人而不是中國人統治了芯片,真夠扎心的…

果然!是華人而不是中國人統治了芯片,真夠扎心的…

慧翔百科
2026-05-19 08:34:16
怒增5700億!大行消費貸“殺瘋了”

怒增5700億!大行消費貸“殺瘋了”

柒財經
2026-05-19 23:19:43
2026-05-20 05:19:00
FounderPark incentive-icons
FounderPark
關注AI創業,專注和創業者聊真問題
1217文章數 162關注度
往期回顧 全部

財經要聞

潔麗雅硬剛豪門內斗傳言

頭條要聞

媒體:特朗普為何拋涉臺"四不"說法 魯比奧解釋清楚了

頭條要聞

媒體:特朗普為何拋涉臺"四不"說法 魯比奧解釋清楚了

體育要聞

文班亞馬:沒拿到MVP,就證明自己是MVP

娛樂要聞

姚晨刪博難平眾怒,為什么她還能蹦噠

科技要聞

馬斯克敗訴,法院判他起訴OpenAI太晚了

汽車要聞

煥新極氪009上市41.38萬起 齊家版讓MPV回歸家庭

態度原創

游戲
藝術
教育
旅游
數碼

PS嚴重安全漏洞!大量賬號被盜 索尼官方依舊沉默

藝術要聞

看完直呼可愛!大師畫寶寶萌翻全網速!

教育要聞

中考數學,-0的倒數是多少?

旅游要聞

中國旅游日主會場廣州啟動!廣東全力建設旅游友好型城市

數碼要聞

谷歌推出Gemini 3.5系列模型

無障礙瀏覽 進入關懷版