![]()
機器之心發(fā)布
最近一兩年,AI 行業(yè)有一個很微妙的變化:大家不再滿足于問 “模型會不會回答”,也不再只關心 “Agent 能不能調用工具”。越來越多的討論開始回到一個更終極的問題:AI 到底能不能完全自動化接管工作區(qū),理解個性化需求,像一個真實的人類勞動力一樣,把一件事情從頭到尾做完?
這個問題并不新。過去,每一輪模型升級都會帶來一批令人驚艷的 Demo:寫代碼、做 PPT、總結文檔、整理會議紀要,甚至在瀏覽器中代替人完成流程。然而,一旦將其放入真實的個人或企業(yè)工作流中,差距很快顯現出來:Demo 中的 AI 像一個聰明的助手,真實工作中的 AI 卻常常像一個健忘、不了解組織上下文的新同事。以圖中的案例為例,許多 Agent 表面上能夠 “完成表格”,但實際結果中仍存在結構錯誤、統(tǒng)計偏差、關鍵字段缺失等問題。
![]()
相關鏈接:https://huggingface.co/Workspace-Bench
我們在分析飛書內部 100+ 個真實案例后發(fā)現,當前 Agent 已經進入大量工作流,但大多數仍停留在 “行動層”,比如寫一段話、打開一些文件。它們可以執(zhí)行任務,卻難以理解任務背后的真實工作世界。其中一個關鍵挑戰(zhàn)是,當一個任務背后有一整套長期積累的工作空間時,AI 能不能知道該看什么、信什么、忽略什么,以及最后如何把這些材料組織成一個可交付的結果。
這也是我們在實踐中越來越強烈感受到的轉折:Agent 的下一站,不只是更強的模型,也不只是更強的 Agent Harness,而是生產力智能。
需求:從 “演示干活” 到 “進入崗位”
想象一個很普通的工作場景。你剛加入一個團隊,老板對你說:“幫我整理一份明年全球產品策略報告。”
如果這是一個傳統(tǒng) AI 任務,用戶可能會把三份材料上傳給模型,并明確告訴它:“請基于這三份文件寫一份報告。” 這時,AI 需要做的事情相對清楚:讀取文件、抽取要點、生成文本。
但真實工作不是這樣發(fā)生的。真實情況往往是,你面對的是一個團隊多年沉淀下來的工作站:舊版方案、最終版方案、會議紀要、表格數據、客戶反饋、郵件導出、PPT 草稿、競品分析、臨時截圖、歷史復盤,全都散落在不同目錄、不同命名規(guī)則和不同版本里。更麻煩的是,很多關鍵關系并不會寫在文件名里。某個圖表可能來自三個月前的 Excel,某個結論可能來自一次沒有歸檔好的會議,某個 “最終版” 旁邊還躺著一個其實更新的 “final_v3”。
從這個角度看,我們真正需要的不是一個 “萬能聊天機器人”,也不是一個能把工具鏈串起來的自動化腳本,而是一種新的生產力單位:它要擁有自己的工作站,理解崗位職責,能夠面對任務目標自主探索、持續(xù)學習,并以可驗證的方式交付結果。我們把這種形態(tài)稱為賽博員工
這就是 Workspace-Bench 試圖揭示的問題。它不是為了再造一個 “誰分數更高” 的榜單,而是把 AI Agent 放回真實員工的辦公環(huán)境中,測試它們是否具備一種更接近生產現場的能力:Workspace Learning,工作空間學習
工作空間學習,指的是 AI Agent 能夠在復雜工作空間中識別、推理、利用并更新異構文件之間顯性與隱性的依賴關系,從而完成日常和進階工作任務的能力。
![]()
相關鏈接:https://workspace-bench.github.io/leaderboard.html
現狀:今天的 Agent 技術,哪些能適配賽博員工,哪些還不能
過去我們談 Agent,常常強調模型之外的系統(tǒng)能力。一個 Agent Harness 會給模型接上工具、記憶、文件系統(tǒng)、瀏覽器、MCP、狀態(tài)管理和多步執(zhí)行能力。它讓 AI 不只是 “說”,也能 “做”。近年的 Agent Harness 已經把 AI Agent 的操作范圍大幅擴展到模型推理之外:連接外部工具與 MCP,維護任務狀態(tài)和長期記憶,編排多步執(zhí)行,加入安全邊界,并支持系統(tǒng)性評估機制。這些能力使 Agent 能夠減少人類在日常任務甚至高級任務中的重復勞動。
Workspace-Bench 1.0 選擇了一個很有挑戰(zhàn)性的切口:不再把 Agent 放在干凈、預設、單文件的任務里,而是構建五類真實工作角色的工作空間,覆蓋運營經理、物流經理、產品經理、后端開發(fā)和研究員等畫像;整個環(huán)境包含 20,476 個文件、74 種文件類型、3,299 個目錄,最大目錄深度達到 8,最大單個工作站包含 11,020 個文件。
![]()
相關鏈接:https://arxiv.org/abs/2605.03596
它圍繞 388 個帶有文件依賴圖的任務進行評測,并設計了 7,399 條細粒度 rubric,平均每個任務需要解析 5.1 條依賴邊、跨越 4.7 個不同文件,并接受 19.1 條評價標準檢驗。這種評測方式不只看最終答案是否像樣,還看 Agent 是否找對了源文件,是否理解了文件之間的關系,是否使用了正確版本,是否遵循了任務所需的依賴結構。
這與真實辦公非常接近。現實里,一個報告寫得漂亮但數據源錯了,比報告寫得樸素更危險;一個策略建議語言流暢但證據鏈斷了,反而會放大組織風險。
一個代表性任務很有意思:運營經理需要生成一份全球市場產品策略報告。任務要求 Agent 遍歷全球市場數據,比較 USCA、Asia Pacific、Europe、LATAM、Africa 五個市場的銷售額和利潤率,分析不同產品類別在不同市場的盈利能力,評估物流成本對利潤的影響,比較客戶細分貢獻,并最終生成 `Global_Product_Strategy.md`。這看起來像一個 “寫報告” 的任務,但實際上它要求 Agent 找到 9 個核心文件,連接訂單 CSV、物流 PDF、產品信息 Excel、客戶分層表、銷售計劃 PDF 等多源材料,并通過 25 條 rubric 驗證基礎交付、結果正確性和過程正確性。
這不是傳統(tǒng)意義上的 “總結文檔”,而是一次小型的數字辦公室試煉。Agent 必須自己完成一件真實員工每天都在做的事:從散亂材料中恢復工作脈絡,從多源證據中形成判斷,再把判斷組織成可交付成果。
實驗結果也說明了差距的結構性。Workspace-Bench-Lite 上,各類 Agent 配置的總體通過率約在 27% 到 60% 之間,平均約 45.1%,明顯低于人類專家配合工具的 80.7%。在完整統(tǒng)計中,跨 27 種 Agent Harness 與 Foundation Model 組合的平均 Rubrics Pass Rate 約為 43.3%,最佳組合接近 60%,但仍與人類加工具存在顯著差距。
![]()
更值得關注的是,難度越接近真實工作,Agent 的性能下降越明顯。論文顯示,任務從 Easy 到 Medium 再到 Hard,平均通過率從 51.4% 降到 46.0%,再降到 35.7%。Easy 任務往往只是較簡單的多文件總結或單文件修改;Hard 任務則引入文件關系發(fā)現、長程規(guī)劃、狀態(tài)跟蹤和錯誤恢復。換句話說,Agent 不是不會動手,而是一旦進入真實工作站的復雜依賴網絡,就很容易迷路。
其中最有啟發(fā)的一點,是論文對依賴圖識別的分析。Agent 的 Node F1 通常高于 Edge F1,說明它們相對更容易找到 “哪些文件可能相關”,但更難判斷 “這些文件之間到底是什么關系”。這其實非常符合我們的實踐經驗:今天的 Agent 常常能搜到一堆材料,卻不知道哪個是源數據,哪個是派生報告,哪個是歷史版本,哪個只是背景約束。
這就是賽博員工與普通 Agent 的分界線。普通 Agent 只要找到材料,就可以開始生成;賽博員工必須先理解材料之間的關系,再決定如何生成。
Scaling :從模型參數到提供的工作世界本身
今天行業(yè)討論 Scaling,很多時候仍然圍繞模型本身展開:更大的參數、更長的上下文、更強的推理、更低的 token 成本。這些當然重要,但它們并沒有完全回答企業(yè)生產力的問題。
我們從實踐中看到,后面真正需要規(guī)模化擴展的,未必是 Agent 本身或模型本身,而是三個更難但更關鍵的對象。
第一,是工作站的規(guī)模。真實企業(yè)不是一個干凈的 benchmark 文件夾,而是成千上萬個不斷變化的 workspace。每個團隊的文件結構、命名習慣、權限邊界、歷史遺留和業(yè)務語義都不同。AI 如果只能在單個被整理好的文件包里工作,它就很難進入真實組織。
第二,是提供的角色的規(guī)模。企業(yè)需要的不是一個泛化的 “萬能 Agent”,而是一組能夠承擔具體職責的角色:運營經理、產品經理、物流經理、后端負責人、研究員、銷售、財務、HR、法務。每個角色都有不同的目標函數、證據標準和交付格式。讓 AI 從 “執(zhí)行工具” 變成 “崗位角色”,本身就是一次更復雜的工程化挑戰(zhàn)。
第三,是各種典型生產力工作的規(guī)模。企業(yè)真正關心的不是 AI 能否完成一次炫技任務,而是能否穩(wěn)定覆蓋周報生成、客戶分析、項目復盤、策略報告、數據核對、合規(guī)審查、需求整理、進度跟蹤等高頻任務。這些任務往往不難描述,卻很難穩(wěn)定交付,因為它們高度依賴組織上下文和跨文件證據鏈。
這三件事都非常難 Scaling。它們不像模型參數那樣可以通過統(tǒng)一的訓練流程線性推進,也不像單個 Agent Demo 那樣可以靠精心設計的場景展示效果。它們要求 AI 系統(tǒng)真正理解企業(yè)里的 “工作世界”:文件如何產生,信息如何流轉,角色如何協(xié)作,任務如何沉淀為流程。
生產力智能涌現
過去談 AI 涌現,行業(yè)常常把它理解為模型能力突變:模型規(guī)模達到某個臨界點,突然出現更強的推理、規(guī)劃、編碼或多模態(tài)理解能力。這種涌現仍然重要,但它不是生產力智能的全部。
在生產力場景里,我們需要一個新的定義:生產力智能的涌現,是當模型、Agent Harness、工作站結構、角色語境、任務反饋和組織流程形成閉環(huán)后,系統(tǒng)在真實工作中表現出穩(wěn)定、可復用、可擴展交付能力的過程。
![]()
這個定義有三個關鍵變化。
第一,涌現的驅動力不完全來自模型。更強模型當然能提升上限,但論文結果顯示,同一模型在不同 Harness 下會呈現不同的能力分布,而同一 Harness 在不同模型上也會出現顯著差異。尤其在 Hard 任務中,性能下降來自模型推理能力與 Harness 編排約束的雙重作用。這說明,生產力智能不是單點模型能力,而是系統(tǒng)組合能力。
![]()
第二,涌現的驅動力也不完全來自 Agent 技術本身。Harness 可以讓 AI 更會行動,但如果它不能理解工作站中的文件血緣、語義依賴和任務支撐關系,就會陷入 “動得很多,但做得不準” 的狀態(tài)。高交互輪次和高 token 消耗并不必然帶來高質量結果。某些配置會產生 40 到 60 輪交互、消耗大量 token,卻只能停留在 30% 到 45% 的準確率區(qū)間。相反,更高效的系統(tǒng)能夠用更少交互輪次找到關鍵證據,體現出更強的推理效率。
![]()
第三,涌現可能源于工作站本身的變革。當工作站不再只是文件存儲,而是成為一種可被機器理解、可被角色繼承、可被任務驗證的生產力環(huán)境時,AI 的能力邊界會發(fā)生變化。它不再只是 “訪問文件”,而是在一個結構化、帶有血緣、權限、反饋和評價機制的工作世界中學習如何工作。
結語:下一代 AI 競爭,是爭奪生產力智能的基礎設施
過去,AI 產品常常從 “能力” 出發(fā):能寫作、能畫圖、能檢索、能 coding、能調用工具。但未來,真正能夠進入企業(yè)生產系統(tǒng)的 AI 產品,必須從 “工作” 出發(fā):一個角色每天要完成什么任務?需要訪問哪些工作站?如何識別文件之間的關系?如何發(fā)現缺失信息、修復錯誤、檢查版本,并在多人協(xié)作中留下可追溯的證據鏈?
這正是當前 Agent 的核心瓶頸。許多 Agent 本質上仍是 request-response system:用戶提出指令,它在 prompt 邊界內執(zhí)行動作。但真實員工更接近 outcome-responsible system:老板只提出目標,員工會主動補齊數據、核對上下文、預判風險,并對最終交付負責。因此,賽博員工與普通 Agent 的核心分層,不在于是否能夠調用工具,而在于是否能夠將目標轉化為可靠交付。普通 Agent 更多是把指令轉化為動作,賽博員工則需要把目標轉化為結果。
從 Agent 到生產力智能的范式遷移,并不容易。工作站的規(guī)模、角色的規(guī)模、典型生產力工作的規(guī)模,都可能構成新的 scaling-up 問題。但也正因為難,它才是 AI 真正進入工作世界的潛在關鍵。
參考內容:
《Workspace-Bench 1.0: Benchmarking AI Agents on Workspace Tasks with Large-Scale File Dependencies》 https://arxiv.org/pdf/2605.03596
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.