无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

從智能體到賽博員工,生產力智能涌現

0
分享至



機器之心發(fā)布

最近一兩年,AI 行業(yè)有一個很微妙的變化:大家不再滿足于問 “模型會不會回答”,也不再只關心 “Agent 能不能調用工具”。越來越多的討論開始回到一個更終極的問題:AI 到底能不能完全自動化接管工作區(qū),理解個性化需求,像一個真實的人類勞動力一樣,把一件事情從頭到尾做完?

這個問題并不新。過去,每一輪模型升級都會帶來一批令人驚艷的 Demo:寫代碼、做 PPT、總結文檔、整理會議紀要,甚至在瀏覽器中代替人完成流程。然而,一旦將其放入真實的個人或企業(yè)工作流中,差距很快顯現出來:Demo 中的 AI 像一個聰明的助手,真實工作中的 AI 卻常常像一個健忘、不了解組織上下文的新同事。以圖中的案例為例,許多 Agent 表面上能夠 “完成表格”,但實際結果中仍存在結構錯誤、統(tǒng)計偏差、關鍵字段缺失等問題。



相關鏈接:https://huggingface.co/Workspace-Bench

我們在分析飛書內部 100+ 個真實案例后發(fā)現,當前 Agent 已經進入大量工作流,但大多數仍停留在 “行動層”,比如寫一段話、打開一些文件。它們可以執(zhí)行任務,卻難以理解任務背后的真實工作世界。其中一個關鍵挑戰(zhàn)是,當一個任務背后有一整套長期積累的工作空間時,AI 能不能知道該看什么、信什么、忽略什么,以及最后如何把這些材料組織成一個可交付的結果。

這也是我們在實踐中越來越強烈感受到的轉折:Agent 的下一站,不只是更強的模型,也不只是更強的 Agent Harness,而是生產力智能。

需求:從 “演示干活” 到 “進入崗位”

想象一個很普通的工作場景。你剛加入一個團隊,老板對你說:“幫我整理一份明年全球產品策略報告。”

如果這是一個傳統(tǒng) AI 任務,用戶可能會把三份材料上傳給模型,并明確告訴它:“請基于這三份文件寫一份報告。” 這時,AI 需要做的事情相對清楚:讀取文件、抽取要點、生成文本。

但真實工作不是這樣發(fā)生的。真實情況往往是,你面對的是一個團隊多年沉淀下來的工作站:舊版方案、最終版方案、會議紀要、表格數據、客戶反饋、郵件導出、PPT 草稿、競品分析、臨時截圖、歷史復盤,全都散落在不同目錄、不同命名規(guī)則和不同版本里。更麻煩的是,很多關鍵關系并不會寫在文件名里。某個圖表可能來自三個月前的 Excel,某個結論可能來自一次沒有歸檔好的會議,某個 “最終版” 旁邊還躺著一個其實更新的 “final_v3”。

從這個角度看,我們真正需要的不是一個 “萬能聊天機器人”,也不是一個能把工具鏈串起來的自動化腳本,而是一種新的生產力單位:它要擁有自己的工作站,理解崗位職責,能夠面對任務目標自主探索、持續(xù)學習,并以可驗證的方式交付結果。我們把這種形態(tài)稱為賽博員工

這就是 Workspace-Bench 試圖揭示的問題。它不是為了再造一個 “誰分數更高” 的榜單,而是把 AI Agent 放回真實員工的辦公環(huán)境中,測試它們是否具備一種更接近生產現場的能力:Workspace Learning,工作空間學習

工作空間學習,指的是 AI Agent 能夠在復雜工作空間中識別、推理、利用并更新異構文件之間顯性與隱性的依賴關系,從而完成日常和進階工作任務的能力。



相關鏈接:https://workspace-bench.github.io/leaderboard.html

現狀:今天的 Agent 技術,哪些能適配賽博員工,哪些還不能

過去我們談 Agent,常常強調模型之外的系統(tǒng)能力。一個 Agent Harness 會給模型接上工具、記憶、文件系統(tǒng)、瀏覽器、MCP、狀態(tài)管理和多步執(zhí)行能力。它讓 AI 不只是 “說”,也能 “做”。近年的 Agent Harness 已經把 AI Agent 的操作范圍大幅擴展到模型推理之外:連接外部工具與 MCP,維護任務狀態(tài)和長期記憶,編排多步執(zhí)行,加入安全邊界,并支持系統(tǒng)性評估機制。這些能力使 Agent 能夠減少人類在日常任務甚至高級任務中的重復勞動。

Workspace-Bench 1.0 選擇了一個很有挑戰(zhàn)性的切口:不再把 Agent 放在干凈、預設、單文件的任務里,而是構建五類真實工作角色的工作空間,覆蓋運營經理、物流經理、產品經理、后端開發(fā)和研究員等畫像;整個環(huán)境包含 20,476 個文件、74 種文件類型、3,299 個目錄,最大目錄深度達到 8,最大單個工作站包含 11,020 個文件。



相關鏈接:https://arxiv.org/abs/2605.03596

它圍繞 388 個帶有文件依賴圖的任務進行評測,并設計了 7,399 條細粒度 rubric,平均每個任務需要解析 5.1 條依賴邊、跨越 4.7 個不同文件,并接受 19.1 條評價標準檢驗。這種評測方式不只看最終答案是否像樣,還看 Agent 是否找對了源文件,是否理解了文件之間的關系,是否使用了正確版本,是否遵循了任務所需的依賴結構。

這與真實辦公非常接近。現實里,一個報告寫得漂亮但數據源錯了,比報告寫得樸素更危險;一個策略建議語言流暢但證據鏈斷了,反而會放大組織風險。

一個代表性任務很有意思:運營經理需要生成一份全球市場產品策略報告。任務要求 Agent 遍歷全球市場數據,比較 USCA、Asia Pacific、Europe、LATAM、Africa 五個市場的銷售額和利潤率,分析不同產品類別在不同市場的盈利能力,評估物流成本對利潤的影響,比較客戶細分貢獻,并最終生成 `Global_Product_Strategy.md`。這看起來像一個 “寫報告” 的任務,但實際上它要求 Agent 找到 9 個核心文件,連接訂單 CSV、物流 PDF、產品信息 Excel、客戶分層表、銷售計劃 PDF 等多源材料,并通過 25 條 rubric 驗證基礎交付、結果正確性和過程正確性。

這不是傳統(tǒng)意義上的 “總結文檔”,而是一次小型的數字辦公室試煉。Agent 必須自己完成一件真實員工每天都在做的事:從散亂材料中恢復工作脈絡,從多源證據中形成判斷,再把判斷組織成可交付成果。

實驗結果也說明了差距的結構性。Workspace-Bench-Lite 上,各類 Agent 配置的總體通過率約在 27% 到 60% 之間,平均約 45.1%,明顯低于人類專家配合工具的 80.7%。在完整統(tǒng)計中,跨 27 種 Agent Harness 與 Foundation Model 組合的平均 Rubrics Pass Rate 約為 43.3%,最佳組合接近 60%,但仍與人類加工具存在顯著差距。



更值得關注的是,難度越接近真實工作,Agent 的性能下降越明顯。論文顯示,任務從 Easy 到 Medium 再到 Hard,平均通過率從 51.4% 降到 46.0%,再降到 35.7%。Easy 任務往往只是較簡單的多文件總結或單文件修改;Hard 任務則引入文件關系發(fā)現、長程規(guī)劃、狀態(tài)跟蹤和錯誤恢復。換句話說,Agent 不是不會動手,而是一旦進入真實工作站的復雜依賴網絡,就很容易迷路。

其中最有啟發(fā)的一點,是論文對依賴圖識別的分析。Agent 的 Node F1 通常高于 Edge F1,說明它們相對更容易找到 “哪些文件可能相關”,但更難判斷 “這些文件之間到底是什么關系”。這其實非常符合我們的實踐經驗:今天的 Agent 常常能搜到一堆材料,卻不知道哪個是源數據,哪個是派生報告,哪個是歷史版本,哪個只是背景約束。

這就是賽博員工與普通 Agent 的分界線。普通 Agent 只要找到材料,就可以開始生成;賽博員工必須先理解材料之間的關系,再決定如何生成。

Scaling :從模型參數到提供的工作世界本身

今天行業(yè)討論 Scaling,很多時候仍然圍繞模型本身展開:更大的參數、更長的上下文、更強的推理、更低的 token 成本。這些當然重要,但它們并沒有完全回答企業(yè)生產力的問題。

我們從實踐中看到,后面真正需要規(guī)模化擴展的,未必是 Agent 本身或模型本身,而是三個更難但更關鍵的對象。

第一,是工作站的規(guī)模。真實企業(yè)不是一個干凈的 benchmark 文件夾,而是成千上萬個不斷變化的 workspace。每個團隊的文件結構、命名習慣、權限邊界、歷史遺留和業(yè)務語義都不同。AI 如果只能在單個被整理好的文件包里工作,它就很難進入真實組織。

第二,是提供的角色的規(guī)模。企業(yè)需要的不是一個泛化的 “萬能 Agent”,而是一組能夠承擔具體職責的角色:運營經理、產品經理、物流經理、后端負責人、研究員、銷售、財務、HR、法務。每個角色都有不同的目標函數、證據標準和交付格式。讓 AI 從 “執(zhí)行工具” 變成 “崗位角色”,本身就是一次更復雜的工程化挑戰(zhàn)。

第三,是各種典型生產力工作的規(guī)模。企業(yè)真正關心的不是 AI 能否完成一次炫技任務,而是能否穩(wěn)定覆蓋周報生成、客戶分析、項目復盤、策略報告、數據核對、合規(guī)審查、需求整理、進度跟蹤等高頻任務。這些任務往往不難描述,卻很難穩(wěn)定交付,因為它們高度依賴組織上下文和跨文件證據鏈。

這三件事都非常難 Scaling。它們不像模型參數那樣可以通過統(tǒng)一的訓練流程線性推進,也不像單個 Agent Demo 那樣可以靠精心設計的場景展示效果。它們要求 AI 系統(tǒng)真正理解企業(yè)里的 “工作世界”:文件如何產生,信息如何流轉,角色如何協(xié)作,任務如何沉淀為流程。

生產力智能涌現

過去談 AI 涌現,行業(yè)常常把它理解為模型能力突變:模型規(guī)模達到某個臨界點,突然出現更強的推理、規(guī)劃、編碼或多模態(tài)理解能力。這種涌現仍然重要,但它不是生產力智能的全部。

在生產力場景里,我們需要一個新的定義:生產力智能的涌現,是當模型、Agent Harness、工作站結構、角色語境、任務反饋和組織流程形成閉環(huán)后,系統(tǒng)在真實工作中表現出穩(wěn)定、可復用、可擴展交付能力的過程。



這個定義有三個關鍵變化。

第一,涌現的驅動力不完全來自模型。更強模型當然能提升上限,但論文結果顯示,同一模型在不同 Harness 下會呈現不同的能力分布,而同一 Harness 在不同模型上也會出現顯著差異。尤其在 Hard 任務中,性能下降來自模型推理能力與 Harness 編排約束的雙重作用。這說明,生產力智能不是單點模型能力,而是系統(tǒng)組合能力。



第二,涌現的驅動力也不完全來自 Agent 技術本身。Harness 可以讓 AI 更會行動,但如果它不能理解工作站中的文件血緣、語義依賴和任務支撐關系,就會陷入 “動得很多,但做得不準” 的狀態(tài)。高交互輪次和高 token 消耗并不必然帶來高質量結果。某些配置會產生 40 到 60 輪交互、消耗大量 token,卻只能停留在 30% 到 45% 的準確率區(qū)間。相反,更高效的系統(tǒng)能夠用更少交互輪次找到關鍵證據,體現出更強的推理效率。



第三,涌現可能源于工作站本身的變革。當工作站不再只是文件存儲,而是成為一種可被機器理解、可被角色繼承、可被任務驗證的生產力環(huán)境時,AI 的能力邊界會發(fā)生變化。它不再只是 “訪問文件”,而是在一個結構化、帶有血緣、權限、反饋和評價機制的工作世界中學習如何工作。

結語:下一代 AI 競爭,是爭奪生產力智能的基礎設施

過去,AI 產品常常從 “能力” 出發(fā):能寫作、能畫圖、能檢索、能 coding、能調用工具。但未來,真正能夠進入企業(yè)生產系統(tǒng)的 AI 產品,必須從 “工作” 出發(fā):一個角色每天要完成什么任務?需要訪問哪些工作站?如何識別文件之間的關系?如何發(fā)現缺失信息、修復錯誤、檢查版本,并在多人協(xié)作中留下可追溯的證據鏈?

這正是當前 Agent 的核心瓶頸。許多 Agent 本質上仍是 request-response system:用戶提出指令,它在 prompt 邊界內執(zhí)行動作。但真實員工更接近 outcome-responsible system:老板只提出目標,員工會主動補齊數據、核對上下文、預判風險,并對最終交付負責。因此,賽博員工與普通 Agent 的核心分層,不在于是否能夠調用工具,而在于是否能夠將目標轉化為可靠交付。普通 Agent 更多是把指令轉化為動作,賽博員工則需要把目標轉化為結果。

從 Agent 到生產力智能的范式遷移,并不容易。工作站的規(guī)模、角色的規(guī)模、典型生產力工作的規(guī)模,都可能構成新的 scaling-up 問題。但也正因為難,它才是 AI 真正進入工作世界的潛在關鍵。

參考內容:

《Workspace-Bench 1.0: Benchmarking AI Agents on Workspace Tasks with Large-Scale File Dependencies》 https://arxiv.org/pdf/2605.03596

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
廣西玉林村民自組草根“西游團隊”火了!發(fā)起人自費七八十萬圓夢 鄉(xiāng)土實景演繹取經生活

廣西玉林村民自組草根“西游團隊”火了!發(fā)起人自費七八十萬圓夢 鄉(xiāng)土實景演繹取經生活

封面新聞
2026-05-15 17:48:04
編外人員“清退”開始,城管協(xié)管、輔警、護士教師都在其中

編外人員“清退”開始,城管協(xié)管、輔警、護士教師都在其中

巢客HOME
2026-05-14 05:55:06
談判桌上攤牌!美方死咬 2500 萬噸大豆訂單,想把中國當接盤俠?

談判桌上攤牌!美方死咬 2500 萬噸大豆訂單,想把中國當接盤俠?

達文西看世界
2026-05-15 08:35:02
中美談判桌炸出4顆深水炸彈:特朗普千億訂單被中國反手撕碎?

中美談判桌炸出4顆深水炸彈:特朗普千億訂單被中國反手撕碎?

小莜讀史
2026-05-14 13:43:45
世乒賽剛結束,日本主帥評價梁靖崑,只字未提實力卻句句戳心

世乒賽剛結束,日本主帥評價梁靖崑,只字未提實力卻句句戳心

阿訊說天下
2026-05-15 11:51:27
丁海峰夫婦凌晨1點機場接娃,兒子身高超190,長相隨媽比爸爸還帥

丁海峰夫婦凌晨1點機場接娃,兒子身高超190,長相隨媽比爸爸還帥

八怪娛
2026-05-14 11:08:39
馬斯克帶兒子亮相人民大會堂,搶鏡的虎頭包,疑似馬斯克媽媽挑選

馬斯克帶兒子亮相人民大會堂,搶鏡的虎頭包,疑似馬斯克媽媽挑選

丁鸊驚悚影視解說
2026-05-15 11:08:25
2女共侍1夫,關系卻情同姐妹,生前“三人行”,死后三人葬同墓穴

2女共侍1夫,關系卻情同姐妹,生前“三人行”,死后三人葬同墓穴

史之銘
2026-05-14 14:40:37
會談結束后,中方的表述變了,特朗普本次訪華,達成了哪些共識?

會談結束后,中方的表述變了,特朗普本次訪華,達成了哪些共識?

混沌錄
2026-05-15 18:17:59
張柏芝和劉詩詩同框!張柏芝變樣了,臉太腫,劉詩詩滿臉疲憊

張柏芝和劉詩詩同框!張柏芝變樣了,臉太腫,劉詩詩滿臉疲憊

阿褲趣聞君
2026-05-15 14:06:33
武功山景區(qū)遭“臭屁蟲”圍攻?有游客調侃“張嘴能吃飽”,景區(qū)提醒:可自備防蟲藥物

武功山景區(qū)遭“臭屁蟲”圍攻?有游客調侃“張嘴能吃飽”,景區(qū)提醒:可自備防蟲藥物

瀟湘晨報
2026-05-14 17:33:19
難怪黃仁勛那么積極跟著特朗普訪華,一到北京就拿下了大額訂單。

難怪黃仁勛那么積極跟著特朗普訪華,一到北京就拿下了大額訂單。

魔都姐姐雜談
2026-05-14 22:09:10
四川武警營門推哨兵后續(xù):大家都搞錯了罪名,她面臨的不是襲警罪

四川武警營門推哨兵后續(xù):大家都搞錯了罪名,她面臨的不是襲警罪

奇思妙想草葉君
2026-05-13 18:25:17
成本超2億,票房僅41萬,收手吧黃渤,別讓百億影帝成一個笑話

成本超2億,票房僅41萬,收手吧黃渤,別讓百億影帝成一個笑話

靠譜電影君
2026-05-14 18:02:24
張雪宣布停產!博主:雷軍出問題你建議退款 自己出問題只補償

張雪宣布停產!博主:雷軍出問題你建議退款 自己出問題只補償

念洲
2026-05-14 14:29:33
故宮建造時使用的木材,來自哪里?為何這些木材至今沒有腐爛

故宮建造時使用的木材,來自哪里?為何這些木材至今沒有腐爛

云霄紀史觀
2026-05-15 01:49:45
加速心梗惡化的原因:飲酒排第8,排第1的,很多朋友天天做

加速心梗惡化的原因:飲酒排第8,排第1的,很多朋友天天做

芹姐說生活
2026-05-15 15:08:06
斯基拉:內馬爾已成功獲得意大利國籍,正式成為意大利公民

斯基拉:內馬爾已成功獲得意大利國籍,正式成為意大利公民

懂球帝
2026-05-15 17:39:48
重慶一市區(qū)公園出現毒蛇?專家辨認系劇毒蛇,社區(qū):有居民反映看到,排查暫未發(fā)現

重慶一市區(qū)公園出現毒蛇?專家辨認系劇毒蛇,社區(qū):有居民反映看到,排查暫未發(fā)現

瀟湘晨報
2026-05-15 17:05:36
突發(fā):央視已獲世界杯版權,簽約價格揭曉!

突發(fā):央視已獲世界杯版權,簽約價格揭曉!

仕道
2026-05-15 15:59:40
2026-05-15 19:43:00
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
13006文章數 142649關注度
往期回顧 全部

科技要聞

兩年聯姻一地雞毛,傳蘋果OpenAI瀕臨決裂

頭條要聞

美媒詢問是否認為現在的美國是"衰落國家" 外交部回應

頭條要聞

美媒詢問是否認為現在的美國是"衰落國家" 外交部回應

體育要聞

德約科維奇買的球隊,從第6級聯賽升入法甲

娛樂要聞

方媛為何要來《桃花塢6》沒苦硬吃?

財經要聞

騰訊掉隊,馬化騰戳破真相

汽車要聞

高爾夫GTI刷新紐北紀錄 ID. Polo GTI迎全球首秀

態(tài)度原創(chuàng)

游戲
親子
教育
家居
軍事航空

LCK第二賽段:打出對位差距,HLE多點開花橫掃DK

親子要聞

這可是你自愿吃的啊~

教育要聞

上海外國語大學2026綜評,新增商務英語和外交學專業(yè),同分拼校測

家居要聞

110㎡淡而有致的生活表達

軍事要聞

烏克蘭首都基輔遭空襲 死亡人數增至12人

無障礙瀏覽 進入關懷版