網易首頁 > 網易號 > 正文申請入駐

從智能體到賽博員工，生產力智能涌現

2026-05-15 18:02:32　來源: 機器之心Pro

河北舉報

分享至

機器之心發布

最近一兩年，AI 行業有一個很微妙的變化：大家不再滿足于問 “模型會不會回答”，也不再只關心 “Agent 能不能調用工具”。越來越多的討論開始回到一個更終極的問題：AI 到底能不能完全自動化接管工作區，理解個性化需求，像一個真實的人類勞動力一樣，把一件事情從頭到尾做完？

這個問題并不新。過去，每一輪模型升級都會帶來一批令人驚艷的 Demo：寫代碼、做 PPT、總結文檔、整理會議紀要，甚至在瀏覽器中代替人完成流程。然而，一旦將其放入真實的個人或企業工作流中，差距很快顯現出來：Demo 中的 AI 像一個聰明的助手，真實工作中的 AI 卻常常像一個健忘、不了解組織上下文的新同事。以圖中的案例為例，許多 Agent 表面上能夠 “完成表格”，但實際結果中仍存在結構錯誤、統計偏差、關鍵字段缺失等問題。

相關鏈接：https://huggingface.co/Workspace-Bench

我們在分析飛書內部 100+ 個真實案例后發現，當前 Agent 已經進入大量工作流，但大多數仍停留在 “行動層”，比如寫一段話、打開一些文件。它們可以執行任務，卻難以理解任務背后的真實工作世界。其中一個關鍵挑戰是，當一個任務背后有一整套長期積累的工作空間時，AI 能不能知道該看什么、信什么、忽略什么，以及最后如何把這些材料組織成一個可交付的結果。

這也是我們在實踐中越來越強烈感受到的轉折：Agent 的下一站，不只是更強的模型，也不只是更強的 Agent Harness，而是生產力智能。

需求：從 “演示干活” 到 “進入崗位”

想象一個很普通的工作場景。你剛加入一個團隊，老板對你說：“幫我整理一份明年全球產品策略報告。”

如果這是一個傳統 AI 任務，用戶可能會把三份材料上傳給模型，并明確告訴它：“請基于這三份文件寫一份報告。” 這時，AI 需要做的事情相對清楚：讀取文件、抽取要點、生成文本。

但真實工作不是這樣發生的。真實情況往往是，你面對的是一個團隊多年沉淀下來的工作站：舊版方案、最終版方案、會議紀要、表格數據、客戶反饋、郵件導出、PPT 草稿、競品分析、臨時截圖、歷史復盤，全都散落在不同目錄、不同命名規則和不同版本里。更麻煩的是，很多關鍵關系并不會寫在文件名里。某個圖表可能來自三個月前的 Excel，某個結論可能來自一次沒有歸檔好的會議，某個 “最終版” 旁邊還躺著一個其實更新的 “final_v3”。

從這個角度看，我們真正需要的不是一個 “萬能聊天機器人”，也不是一個能把工具鏈串起來的自動化腳本，而是一種新的生產力單位：它要擁有自己的工作站，理解崗位職責，能夠面對任務目標自主探索、持續學習，并以可驗證的方式交付結果。我們把這種形態稱為賽博員工

這就是 Workspace-Bench 試圖揭示的問題。它不是為了再造一個 “誰分數更高” 的榜單，而是把 AI Agent 放回真實員工的辦公環境中，測試它們是否具備一種更接近生產現場的能力：Workspace Learning，工作空間學習

工作空間學習，指的是 AI Agent 能夠在復雜工作空間中識別、推理、利用并更新異構文件之間顯性與隱性的依賴關系，從而完成日常和進階工作任務的能力。

相關鏈接：https://workspace-bench.github.io/leaderboard.html

現狀：今天的 Agent 技術，哪些能適配賽博員工，哪些還不能

過去我們談 Agent，常常強調模型之外的系統能力。一個 Agent Harness 會給模型接上工具、記憶、文件系統、瀏覽器、MCP、狀態管理和多步執行能力。它讓 AI 不只是 “說”，也能 “做”。近年的 Agent Harness 已經把 AI Agent 的操作范圍大幅擴展到模型推理之外：連接外部工具與 MCP，維護任務狀態和長期記憶，編排多步執行，加入安全邊界，并支持系統性評估機制。這些能力使 Agent 能夠減少人類在日常任務甚至高級任務中的重復勞動。

Workspace-Bench 1.0 選擇了一個很有挑戰性的切口：不再把 Agent 放在干凈、預設、單文件的任務里，而是構建五類真實工作角色的工作空間，覆蓋運營經理、物流經理、產品經理、后端開發和研究員等畫像；整個環境包含 20,476 個文件、74 種文件類型、3,299 個目錄，最大目錄深度達到 8，最大單個工作站包含 11,020 個文件。

相關鏈接：https://arxiv.org/abs/2605.03596

它圍繞 388 個帶有文件依賴圖的任務進行評測，并設計了 7,399 條細粒度 rubric，平均每個任務需要解析 5.1 條依賴邊、跨越 4.7 個不同文件，并接受 19.1 條評價標準檢驗。這種評測方式不只看最終答案是否像樣，還看 Agent 是否找對了源文件，是否理解了文件之間的關系，是否使用了正確版本，是否遵循了任務所需的依賴結構。

這與真實辦公非常接近。現實里，一個報告寫得漂亮但數據源錯了，比報告寫得樸素更危險；一個策略建議語言流暢但證據鏈斷了，反而會放大組織風險。

一個代表性任務很有意思：運營經理需要生成一份全球市場產品策略報告。任務要求 Agent 遍歷全球市場數據，比較 USCA、Asia Pacific、Europe、LATAM、Africa 五個市場的銷售額和利潤率，分析不同產品類別在不同市場的盈利能力，評估物流成本對利潤的影響，比較客戶細分貢獻，并最終生成 `Global_Product_Strategy.md`。這看起來像一個 “寫報告” 的任務，但實際上它要求 Agent 找到 9 個核心文件，連接訂單 CSV、物流 PDF、產品信息 Excel、客戶分層表、銷售計劃 PDF 等多源材料，并通過 25 條 rubric 驗證基礎交付、結果正確性和過程正確性。

這不是傳統意義上的 “總結文檔”，而是一次小型的數字辦公室試煉。Agent 必須自己完成一件真實員工每天都在做的事：從散亂材料中恢復工作脈絡，從多源證據中形成判斷，再把判斷組織成可交付成果。

實驗結果也說明了差距的結構性。Workspace-Bench-Lite 上，各類 Agent 配置的總體通過率約在 27% 到 60% 之間，平均約 45.1%，明顯低于人類專家配合工具的 80.7%。在完整統計中，跨 27 種 Agent Harness 與 Foundation Model 組合的平均 Rubrics Pass Rate 約為 43.3%，最佳組合接近 60%，但仍與人類加工具存在顯著差距。

更值得關注的是，難度越接近真實工作，Agent 的性能下降越明顯。論文顯示，任務從 Easy 到 Medium 再到 Hard，平均通過率從 51.4% 降到 46.0%，再降到 35.7%。Easy 任務往往只是較簡單的多文件總結或單文件修改；Hard 任務則引入文件關系發現、長程規劃、狀態跟蹤和錯誤恢復。換句話說，Agent 不是不會動手，而是一旦進入真實工作站的復雜依賴網絡，就很容易迷路。

其中最有啟發的一點，是論文對依賴圖識別的分析。Agent 的 Node F1 通常高于 Edge F1，說明它們相對更容易找到 “哪些文件可能相關”，但更難判斷 “這些文件之間到底是什么關系”。這其實非常符合我們的實踐經驗：今天的 Agent 常常能搜到一堆材料，卻不知道哪個是源數據，哪個是派生報告，哪個是歷史版本，哪個只是背景約束。

這就是賽博員工與普通 Agent 的分界線。普通 Agent 只要找到材料，就可以開始生成；賽博員工必須先理解材料之間的關系，再決定如何生成。

Scaling ：從模型參數到提供的工作世界本身

今天行業討論 Scaling，很多時候仍然圍繞模型本身展開：更大的參數、更長的上下文、更強的推理、更低的 token 成本。這些當然重要，但它們并沒有完全回答企業生產力的問題。

我們從實踐中看到，后面真正需要規模化擴展的，未必是 Agent 本身或模型本身，而是三個更難但更關鍵的對象。

第一，是工作站的規模。真實企業不是一個干凈的 benchmark 文件夾，而是成千上萬個不斷變化的 workspace。每個團隊的文件結構、命名習慣、權限邊界、歷史遺留和業務語義都不同。AI 如果只能在單個被整理好的文件包里工作，它就很難進入真實組織。

第二，是提供的角色的規模。企業需要的不是一個泛化的 “萬能 Agent”，而是一組能夠承擔具體職責的角色：運營經理、產品經理、物流經理、后端負責人、研究員、銷售、財務、HR、法務。每個角色都有不同的目標函數、證據標準和交付格式。讓 AI 從 “執行工具” 變成 “崗位角色”，本身就是一次更復雜的工程化挑戰。

第三，是各種典型生產力工作的規模。企業真正關心的不是 AI 能否完成一次炫技任務，而是能否穩定覆蓋周報生成、客戶分析、項目復盤、策略報告、數據核對、合規審查、需求整理、進度跟蹤等高頻任務。這些任務往往不難描述，卻很難穩定交付，因為它們高度依賴組織上下文和跨文件證據鏈。

這三件事都非常難 Scaling。它們不像模型參數那樣可以通過統一的訓練流程線性推進，也不像單個 Agent Demo 那樣可以靠精心設計的場景展示效果。它們要求 AI 系統真正理解企業里的 “工作世界”：文件如何產生，信息如何流轉，角色如何協作，任務如何沉淀為流程。

生產力智能涌現

過去談 AI 涌現，行業常常把它理解為模型能力突變：模型規模達到某個臨界點，突然出現更強的推理、規劃、編碼或多模態理解能力。這種涌現仍然重要，但它不是生產力智能的全部。

在生產力場景里，我們需要一個新的定義：生產力智能的涌現，是當模型、Agent Harness、工作站結構、角色語境、任務反饋和組織流程形成閉環后，系統在真實工作中表現出穩定、可復用、可擴展交付能力的過程。

這個定義有三個關鍵變化。

第一，涌現的驅動力不完全來自模型。更強模型當然能提升上限，但論文結果顯示，同一模型在不同 Harness 下會呈現不同的能力分布，而同一 Harness 在不同模型上也會出現顯著差異。尤其在 Hard 任務中，性能下降來自模型推理能力與 Harness 編排約束的雙重作用。這說明，生產力智能不是單點模型能力，而是系統組合能力。

第二，涌現的驅動力也不完全來自 Agent 技術本身。Harness 可以讓 AI 更會行動，但如果它不能理解工作站中的文件血緣、語義依賴和任務支撐關系，就會陷入 “動得很多，但做得不準” 的狀態。高交互輪次和高 token 消耗并不必然帶來高質量結果。某些配置會產生 40 到 60 輪交互、消耗大量 token，卻只能停留在 30% 到 45% 的準確率區間。相反，更高效的系統能夠用更少交互輪次找到關鍵證據，體現出更強的推理效率。

第三，涌現可能源于工作站本身的變革。當工作站不再只是文件存儲，而是成為一種可被機器理解、可被角色繼承、可被任務驗證的生產力環境時，AI 的能力邊界會發生變化。它不再只是 “訪問文件”，而是在一個結構化、帶有血緣、權限、反饋和評價機制的工作世界中學習如何工作。

結語：下一代 AI 競爭，是爭奪生產力智能的基礎設施

過去，AI 產品常常從 “能力” 出發：能寫作、能畫圖、能檢索、能 coding、能調用工具。但未來，真正能夠進入企業生產系統的 AI 產品，必須從 “工作” 出發：一個角色每天要完成什么任務？需要訪問哪些工作站？如何識別文件之間的關系？如何發現缺失信息、修復錯誤、檢查版本，并在多人協作中留下可追溯的證據鏈？

這正是當前 Agent 的核心瓶頸。許多 Agent 本質上仍是 request-response system：用戶提出指令，它在 prompt 邊界內執行動作。但真實員工更接近 outcome-responsible system：老板只提出目標，員工會主動補齊數據、核對上下文、預判風險，并對最終交付負責。因此，賽博員工與普通 Agent 的核心分層，不在于是否能夠調用工具，而在于是否能夠將目標轉化為可靠交付。普通 Agent 更多是把指令轉化為動作，賽博員工則需要把目標轉化為結果。

從 Agent 到生產力智能的范式遷移，并不容易。工作站的規模、角色的規模、典型生產力工作的規模，都可能構成新的 scaling-up 問題。但也正因為難，它才是 AI 真正進入工作世界的潛在關鍵。

參考內容：

《Workspace-Bench 1.0: Benchmarking AI Agents on Workspace Tasks with Large-Scale File Dependencies》 https://arxiv.org/pdf/2605.03596

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.