无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

從智能體到賽博員工,生產力智能涌現

0
分享至



機器之心發布

最近一兩年,AI 行業有一個很微妙的變化:大家不再滿足于問 “模型會不會回答”,也不再只關心 “Agent 能不能調用工具”。越來越多的討論開始回到一個更終極的問題:AI 到底能不能完全自動化接管工作區,理解個性化需求,像一個真實的人類勞動力一樣,把一件事情從頭到尾做完?

這個問題并不新。過去,每一輪模型升級都會帶來一批令人驚艷的 Demo:寫代碼、做 PPT、總結文檔、整理會議紀要,甚至在瀏覽器中代替人完成流程。然而,一旦將其放入真實的個人或企業工作流中,差距很快顯現出來:Demo 中的 AI 像一個聰明的助手,真實工作中的 AI 卻常常像一個健忘、不了解組織上下文的新同事。以圖中的案例為例,許多 Agent 表面上能夠 “完成表格”,但實際結果中仍存在結構錯誤、統計偏差、關鍵字段缺失等問題。



相關鏈接:https://huggingface.co/Workspace-Bench

我們在分析飛書內部 100+ 個真實案例后發現,當前 Agent 已經進入大量工作流,但大多數仍停留在 “行動層”,比如寫一段話、打開一些文件。它們可以執行任務,卻難以理解任務背后的真實工作世界。其中一個關鍵挑戰是,當一個任務背后有一整套長期積累的工作空間時,AI 能不能知道該看什么、信什么、忽略什么,以及最后如何把這些材料組織成一個可交付的結果。

這也是我們在實踐中越來越強烈感受到的轉折:Agent 的下一站,不只是更強的模型,也不只是更強的 Agent Harness,而是生產力智能。

需求:從 “演示干活” 到 “進入崗位”

想象一個很普通的工作場景。你剛加入一個團隊,老板對你說:“幫我整理一份明年全球產品策略報告。”

如果這是一個傳統 AI 任務,用戶可能會把三份材料上傳給模型,并明確告訴它:“請基于這三份文件寫一份報告。” 這時,AI 需要做的事情相對清楚:讀取文件、抽取要點、生成文本。

但真實工作不是這樣發生的。真實情況往往是,你面對的是一個團隊多年沉淀下來的工作站:舊版方案、最終版方案、會議紀要、表格數據、客戶反饋、郵件導出、PPT 草稿、競品分析、臨時截圖、歷史復盤,全都散落在不同目錄、不同命名規則和不同版本里。更麻煩的是,很多關鍵關系并不會寫在文件名里。某個圖表可能來自三個月前的 Excel,某個結論可能來自一次沒有歸檔好的會議,某個 “最終版” 旁邊還躺著一個其實更新的 “final_v3”。

從這個角度看,我們真正需要的不是一個 “萬能聊天機器人”,也不是一個能把工具鏈串起來的自動化腳本,而是一種新的生產力單位:它要擁有自己的工作站,理解崗位職責,能夠面對任務目標自主探索、持續學習,并以可驗證的方式交付結果。我們把這種形態稱為賽博員工

這就是 Workspace-Bench 試圖揭示的問題。它不是為了再造一個 “誰分數更高” 的榜單,而是把 AI Agent 放回真實員工的辦公環境中,測試它們是否具備一種更接近生產現場的能力:Workspace Learning,工作空間學習

工作空間學習,指的是 AI Agent 能夠在復雜工作空間中識別、推理、利用并更新異構文件之間顯性與隱性的依賴關系,從而完成日常和進階工作任務的能力。



相關鏈接:https://workspace-bench.github.io/leaderboard.html

現狀:今天的 Agent 技術,哪些能適配賽博員工,哪些還不能

過去我們談 Agent,常常強調模型之外的系統能力。一個 Agent Harness 會給模型接上工具、記憶、文件系統、瀏覽器、MCP、狀態管理和多步執行能力。它讓 AI 不只是 “說”,也能 “做”。近年的 Agent Harness 已經把 AI Agent 的操作范圍大幅擴展到模型推理之外:連接外部工具與 MCP,維護任務狀態和長期記憶,編排多步執行,加入安全邊界,并支持系統性評估機制。這些能力使 Agent 能夠減少人類在日常任務甚至高級任務中的重復勞動。

Workspace-Bench 1.0 選擇了一個很有挑戰性的切口:不再把 Agent 放在干凈、預設、單文件的任務里,而是構建五類真實工作角色的工作空間,覆蓋運營經理、物流經理、產品經理、后端開發和研究員等畫像;整個環境包含 20,476 個文件、74 種文件類型、3,299 個目錄,最大目錄深度達到 8,最大單個工作站包含 11,020 個文件。



相關鏈接:https://arxiv.org/abs/2605.03596

它圍繞 388 個帶有文件依賴圖的任務進行評測,并設計了 7,399 條細粒度 rubric,平均每個任務需要解析 5.1 條依賴邊、跨越 4.7 個不同文件,并接受 19.1 條評價標準檢驗。這種評測方式不只看最終答案是否像樣,還看 Agent 是否找對了源文件,是否理解了文件之間的關系,是否使用了正確版本,是否遵循了任務所需的依賴結構。

這與真實辦公非常接近。現實里,一個報告寫得漂亮但數據源錯了,比報告寫得樸素更危險;一個策略建議語言流暢但證據鏈斷了,反而會放大組織風險。

一個代表性任務很有意思:運營經理需要生成一份全球市場產品策略報告。任務要求 Agent 遍歷全球市場數據,比較 USCA、Asia Pacific、Europe、LATAM、Africa 五個市場的銷售額和利潤率,分析不同產品類別在不同市場的盈利能力,評估物流成本對利潤的影響,比較客戶細分貢獻,并最終生成 `Global_Product_Strategy.md`。這看起來像一個 “寫報告” 的任務,但實際上它要求 Agent 找到 9 個核心文件,連接訂單 CSV、物流 PDF、產品信息 Excel、客戶分層表、銷售計劃 PDF 等多源材料,并通過 25 條 rubric 驗證基礎交付、結果正確性和過程正確性。

這不是傳統意義上的 “總結文檔”,而是一次小型的數字辦公室試煉。Agent 必須自己完成一件真實員工每天都在做的事:從散亂材料中恢復工作脈絡,從多源證據中形成判斷,再把判斷組織成可交付成果。

實驗結果也說明了差距的結構性。Workspace-Bench-Lite 上,各類 Agent 配置的總體通過率約在 27% 到 60% 之間,平均約 45.1%,明顯低于人類專家配合工具的 80.7%。在完整統計中,跨 27 種 Agent Harness 與 Foundation Model 組合的平均 Rubrics Pass Rate 約為 43.3%,最佳組合接近 60%,但仍與人類加工具存在顯著差距。



更值得關注的是,難度越接近真實工作,Agent 的性能下降越明顯。論文顯示,任務從 Easy 到 Medium 再到 Hard,平均通過率從 51.4% 降到 46.0%,再降到 35.7%。Easy 任務往往只是較簡單的多文件總結或單文件修改;Hard 任務則引入文件關系發現、長程規劃、狀態跟蹤和錯誤恢復。換句話說,Agent 不是不會動手,而是一旦進入真實工作站的復雜依賴網絡,就很容易迷路。

其中最有啟發的一點,是論文對依賴圖識別的分析。Agent 的 Node F1 通常高于 Edge F1,說明它們相對更容易找到 “哪些文件可能相關”,但更難判斷 “這些文件之間到底是什么關系”。這其實非常符合我們的實踐經驗:今天的 Agent 常常能搜到一堆材料,卻不知道哪個是源數據,哪個是派生報告,哪個是歷史版本,哪個只是背景約束。

這就是賽博員工與普通 Agent 的分界線。普通 Agent 只要找到材料,就可以開始生成;賽博員工必須先理解材料之間的關系,再決定如何生成。

Scaling :從模型參數到提供的工作世界本身

今天行業討論 Scaling,很多時候仍然圍繞模型本身展開:更大的參數、更長的上下文、更強的推理、更低的 token 成本。這些當然重要,但它們并沒有完全回答企業生產力的問題。

我們從實踐中看到,后面真正需要規模化擴展的,未必是 Agent 本身或模型本身,而是三個更難但更關鍵的對象。

第一,是工作站的規模。真實企業不是一個干凈的 benchmark 文件夾,而是成千上萬個不斷變化的 workspace。每個團隊的文件結構、命名習慣、權限邊界、歷史遺留和業務語義都不同。AI 如果只能在單個被整理好的文件包里工作,它就很難進入真實組織。

第二,是提供的角色的規模。企業需要的不是一個泛化的 “萬能 Agent”,而是一組能夠承擔具體職責的角色:運營經理、產品經理、物流經理、后端負責人、研究員、銷售、財務、HR、法務。每個角色都有不同的目標函數、證據標準和交付格式。讓 AI 從 “執行工具” 變成 “崗位角色”,本身就是一次更復雜的工程化挑戰。

第三,是各種典型生產力工作的規模。企業真正關心的不是 AI 能否完成一次炫技任務,而是能否穩定覆蓋周報生成、客戶分析、項目復盤、策略報告、數據核對、合規審查、需求整理、進度跟蹤等高頻任務。這些任務往往不難描述,卻很難穩定交付,因為它們高度依賴組織上下文和跨文件證據鏈。

這三件事都非常難 Scaling。它們不像模型參數那樣可以通過統一的訓練流程線性推進,也不像單個 Agent Demo 那樣可以靠精心設計的場景展示效果。它們要求 AI 系統真正理解企業里的 “工作世界”:文件如何產生,信息如何流轉,角色如何協作,任務如何沉淀為流程。

生產力智能涌現

過去談 AI 涌現,行業常常把它理解為模型能力突變:模型規模達到某個臨界點,突然出現更強的推理、規劃、編碼或多模態理解能力。這種涌現仍然重要,但它不是生產力智能的全部。

在生產力場景里,我們需要一個新的定義:生產力智能的涌現,是當模型、Agent Harness、工作站結構、角色語境、任務反饋和組織流程形成閉環后,系統在真實工作中表現出穩定、可復用、可擴展交付能力的過程。



這個定義有三個關鍵變化。

第一,涌現的驅動力不完全來自模型。更強模型當然能提升上限,但論文結果顯示,同一模型在不同 Harness 下會呈現不同的能力分布,而同一 Harness 在不同模型上也會出現顯著差異。尤其在 Hard 任務中,性能下降來自模型推理能力與 Harness 編排約束的雙重作用。這說明,生產力智能不是單點模型能力,而是系統組合能力。



第二,涌現的驅動力也不完全來自 Agent 技術本身。Harness 可以讓 AI 更會行動,但如果它不能理解工作站中的文件血緣、語義依賴和任務支撐關系,就會陷入 “動得很多,但做得不準” 的狀態。高交互輪次和高 token 消耗并不必然帶來高質量結果。某些配置會產生 40 到 60 輪交互、消耗大量 token,卻只能停留在 30% 到 45% 的準確率區間。相反,更高效的系統能夠用更少交互輪次找到關鍵證據,體現出更強的推理效率。



第三,涌現可能源于工作站本身的變革。當工作站不再只是文件存儲,而是成為一種可被機器理解、可被角色繼承、可被任務驗證的生產力環境時,AI 的能力邊界會發生變化。它不再只是 “訪問文件”,而是在一個結構化、帶有血緣、權限、反饋和評價機制的工作世界中學習如何工作。

結語:下一代 AI 競爭,是爭奪生產力智能的基礎設施

過去,AI 產品常常從 “能力” 出發:能寫作、能畫圖、能檢索、能 coding、能調用工具。但未來,真正能夠進入企業生產系統的 AI 產品,必須從 “工作” 出發:一個角色每天要完成什么任務?需要訪問哪些工作站?如何識別文件之間的關系?如何發現缺失信息、修復錯誤、檢查版本,并在多人協作中留下可追溯的證據鏈?

這正是當前 Agent 的核心瓶頸。許多 Agent 本質上仍是 request-response system:用戶提出指令,它在 prompt 邊界內執行動作。但真實員工更接近 outcome-responsible system:老板只提出目標,員工會主動補齊數據、核對上下文、預判風險,并對最終交付負責。因此,賽博員工與普通 Agent 的核心分層,不在于是否能夠調用工具,而在于是否能夠將目標轉化為可靠交付。普通 Agent 更多是把指令轉化為動作,賽博員工則需要把目標轉化為結果。

從 Agent 到生產力智能的范式遷移,并不容易。工作站的規模、角色的規模、典型生產力工作的規模,都可能構成新的 scaling-up 問題。但也正因為難,它才是 AI 真正進入工作世界的潛在關鍵。

參考內容:

《Workspace-Bench 1.0: Benchmarking AI Agents on Workspace Tasks with Large-Scale File Dependencies》 https://arxiv.org/pdf/2605.03596

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
黑絲穿半天膝蓋鼓包小腿松垮怎么辦?氨綸回彈力比面料薄厚更重要

黑絲穿半天膝蓋鼓包小腿松垮怎么辦?氨綸回彈力比面料薄厚更重要

紙上聽松風
2026-06-29 18:00:15
人有沒有血栓,睡覺就知道?體內有血栓的人,睡覺常有這4個表現

人有沒有血栓,睡覺就知道?體內有血栓的人,睡覺常有這4個表現

劉哥談體育
2026-06-30 19:11:26
前德國國腳:納格爾斯曼下課不可避免,99%德國人都想克洛普執教

前德國國腳:納格爾斯曼下課不可避免,99%德國人都想克洛普執教

云隱南山
2026-06-30 18:56:05
遺憾,荷蘭成本屆世界杯周期首支在正賽出局的世界前10球隊

遺憾,荷蘭成本屆世界杯周期首支在正賽出局的世界前10球隊

懂球帝
2026-06-30 14:44:05
中國“熔鹽堆”官宣上船!美國在切航母換燃料,我們換賽道

中國“熔鹽堆”官宣上船!美國在切航母換燃料,我們換賽道

南宗歷史
2026-06-09 15:26:42
烏克蘭發廣告全球征兵

烏克蘭發廣告全球征兵

樞密院十號
2026-06-29 18:24:24
徐昕將出國打球,曝廣東男籃欲提前回購,廣州男籃獲得資金補償

徐昕將出國打球,曝廣東男籃欲提前回購,廣州男籃獲得資金補償

中國籃壇快訊
2026-06-30 16:34:26
為何狂犬病毒致死率是99.99%,不是100%,誰幸運活下來了?

為何狂犬病毒致死率是99.99%,不是100%,誰幸運活下來了?

荊醫生科普
2026-06-29 21:45:04
比南京大屠殺更慘烈的悲劇,被日軍掩蓋了50年!

比南京大屠殺更慘烈的悲劇,被日軍掩蓋了50年!

搜史君
2026-06-29 06:00:45
科特迪瓦VS挪威,兩個黑馬之戰,比分精準預測,懸念十足

科特迪瓦VS挪威,兩個黑馬之戰,比分精準預測,懸念十足

劉哥談體育
2026-06-30 12:25:16
2026年上半年十大牛股出爐

2026年上半年十大牛股出爐

第一財經資訊
2026-06-30 17:07:21
649分兒子非要報哈工大,湖南媽媽求助,兩千多評論沒有一個站她

649分兒子非要報哈工大,湖南媽媽求助,兩千多評論沒有一個站她

解說阿洎
2026-06-30 01:55:55
一夜起飛,豬價上漲“漲翻天”!附:7月1日豬價

一夜起飛,豬價上漲“漲翻天”!附:7月1日豬價

豬友巴巴
2026-06-30 15:55:03
上海低保、失業金、醫保迎來新調整!2026年7月1日起正式實施

上海低保、失業金、醫保迎來新調整!2026年7月1日起正式實施

國曙
2026-06-30 14:02:59
韓國學者金在吉:中國歷史不是五千年,韓國曾是中國的一部分

韓國學者金在吉:中國歷史不是五千年,韓國曾是中國的一部分

北海史記
2026-06-30 17:33:56
日本內閣:日本就日本20家公司被列入出口管制名單向中國提出抗議

日本內閣:日本就日本20家公司被列入出口管制名單向中國提出抗議

俄羅斯衛星通訊社
2026-06-30 15:59:03
丘吉爾曾言:如果不是被原子彈炸過,日本這個國家可能就不存在了

丘吉爾曾言:如果不是被原子彈炸過,日本這個國家可能就不存在了

掠影后有感
2026-06-30 09:40:38
歐洲人熱得開始罵體制了

歐洲人熱得開始罵體制了

雷斯林
2026-06-30 15:41:22
廣東退休,工齡34年11個月,個人賬戶近33萬,退休金有多少錢?

廣東退休,工齡34年11個月,個人賬戶近33萬,退休金有多少錢?

阿芒娛樂說
2026-06-30 18:33:28
李連杰首度公開回應不管前妻兩女兒:她們曾被送回北京由奶奶帶大,但利智給前妻女兒買房留錢到100歲

李連杰首度公開回應不管前妻兩女兒:她們曾被送回北京由奶奶帶大,但利智給前妻女兒買房留錢到100歲

背包旅行
2026-06-29 15:13:56
2026-06-30 20:32:49
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
13401文章數 142685關注度
往期回顧 全部

科技要聞

iPhone18 Pro遭泄密!印度代工商惹禍

頭條要聞

日本隊世界杯出局后 韓媒來勁了

頭條要聞

日本隊世界杯出局后 韓媒來勁了

體育要聞

大熱倒灶壓力給到法國 王楚揭法國隊隱患

娛樂要聞

韓紅稱要退出公益,多位名人挽留

財經要聞

韓國萬億"芯"基建:存儲能否成AI時代油田

汽車要聞

奇瑞風云A9探店 五個理由一定來看看

態度原創

教育
時尚
游戲
手機
旅游

教育要聞

學醫的隱藏好處,曾醫生悄悄告訴你,一般人根本不知道!

“復古波點”又流行回來了!夏天簡單穿就很時髦

游戲還沒發售就有“攻略書”了?AI瞎編20歐元一本

手機要聞

摩托羅拉Edge 70 Max手機獲Qi 2.2.1認證,支持磁吸充電

旅游要聞

漂流、溯溪、輕極限 年輕人避暑主打一個“活力”

無障礙瀏覽 進入關懷版