網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

剛剛，Codex 大更新，你在電腦的操作正在成為 AI 經(jīng)驗包

2026-06-19 21:32:20　來源: 愛范兒

廣東舉報

分享至

你坐在電腦前干活，旁邊有個家伙一聲不吭盯著你。你點哪它看哪，你填什么它記什么，等你做完，它說一句：下次這活我來。

這就是 Codex 剛剛發(fā)布的重磅功能，叫 Record & Replay。

翻譯過來就是錄制加復現(xiàn)。

你把一套操作完整演示一遍，Codex 在旁邊觀察學習，然后把整套流程打包成一個 skill（技能）。下回要干同樣的活，新開個對話，讓它調(diào)這個 skill，再告訴它這次哪里不一樣，剩下的它自己搞定。

圖形界面，這個原本為了讓人類擺脫命令行而發(fā)明的偉大創(chuàng)造，現(xiàn)在有望成了 AI 接管電腦的現(xiàn)成基礎設施。

「學徒」模式上線，Codex 開始復制你的工作流

當然，不是所有任務都適合這么玩。

Record & Replay 瞄準的是那種重復、看個人偏好、說不清楚但做一遍你就懂的活。適用場景有這么幾個：報銷、訂停車位、建一個配置正確的 issue、發(fā)視頻、拉周期性報表。

這些活有個共同點。要么步驟又固定又繁瑣，要么里頭藏著一堆只有你自己知道的隱性規(guī)則。

比如文件該怎么命名、某個字段默認填啥、到了某個岔路口該往哪走。這種東西你要用文字一條條寫清楚給 AI，成本極高。不如直接做一遍，讓它自己看。

操作過程也比想象中省事，主要拆成了七步。

先在 Codex 應用里打開 Plugins（插件），搜索并添加 Record & Replay 插件。

然后它來要錄制權限，你準備好了就點同意。

剩下的就是你在 Mac 上正常把活干一遍。

這期間 Codex 全程觀察，學這套操作要點哪些地方、動哪些窗口的內(nèi)容。

錄制會一直開著，直到你主動停止。所以記住，專心做那一個任務就行，別錄著錄著開始干別的。

干完從菜單欄或懸浮層停止，或者直接跟 Codex 說一聲已經(jīng)錄完。

錄完之后 Codex 會復盤一遍剛捕捉到的流程，自己起草一個 skill。這個 skill 里寫得很清楚：什么時候該用這套流程、需要哪些輸入、按什么步驟走、做完怎么驗證結果。

你要是覺得它寫得不夠好，還能讓它再打磨。

幾條錄制建議值得照做：

演示盡量短而完整；錄之前先把目標和那些每次會變的輸入告訴 Codex；用真實輸入，但密碼和敏感數(shù)據(jù)千萬別錄進去；錄完后補上那些重要的隱性偏好，比如命名規(guī)范、字段默認值、決策點怎么選；流程做完就停，別拖到無關的收尾動作上。

至于，下次復現(xiàn)就簡單了。新開對話，讓它調(diào)這個 skill，把這次的具體值喂給它，比如要傳哪個文件、建哪個 issue、報表要哪段時間。

有個關鍵設定需要注意：Codex 會把這個 skill 當作可復用的上下文（reusable context）。

什么意思呢？這個 skill 不是一段寫死的腳本，而是一份它每次都能拿來參考、再結合當前環(huán)境靈活執(zhí)行的說明書。所以同一個 skill，這次傳 A 文件、下次傳 B 文件，它都能套著用。

具體干活的時候，它會調(diào)動當前環(huán)境里能用的工具，包括 Computer Use、瀏覽器操作和已安裝的插件，把流程跑完。

Codex 到底怎么「用電腦」

來看一次公開演示。

這回 Codex 要學的是上傳 YouTube 視頻的完整流程。它的工作方式是盯著用戶在 YouTube Studio 里操作，把點擊、選文件、敲文字這一整串動作全捕捉下來。

諸如選視頻文件、填標題和描述、傳縮略圖、加字幕、設隱私選項等等，Codex 全記下來了，隨后展示了獨立復現(xiàn)的能力。

更有意思的是，它不只是機械地照著步驟復讀，還試圖搞懂背后的邏輯和門道。

比如什么時候該把視頻設成 Private、什么時候設 Unlisted，怎么管 .mp4 視頻文件和 .srt 字幕文件這種成對的東西，元數(shù)據(jù)字段該怎么填，字幕怎么跟視頻對上號。

它甚至現(xiàn)場處理了一次報錯：

缺 Python 環(huán)境的時候，它直接從已安裝的 skill 位置讀信息，自己適配過去了。而這一整段錄下來，轉譯成一個隨時能調(diào)用的 skill。

換句話說，Codex 一旦學會，理論上就能在沒人盯著的情況下反復執(zhí)行。對那些天天要傳一堆視頻的內(nèi)容工作流來說，這事確實有用。

要搞懂它憑什么能復現(xiàn)，得先看 Codex 到底怎么操作電腦。

OpenAI 工程師 Jason 之前梳理過 Codex 用電腦的三條路，能力有重疊，各有各的地盤。總原則是：能用插件或 MCP 就先用，視覺控制留給結構化工具夠不著的邊角。

第一種叫 Computer Use，覆蓋面最廣。

它能在 macOS 和 Windows 上看見并操作圖形界面，通過窗口、菜單、鍵盤、剪貼板來動那些授權過的應用。

代價是慢，因為它得看界面、判斷點哪、等響應、再確認狀態(tài)，一步一回頭。但好處也明顯，那些沒有 API 的應用它也能對付，比如 Spotify、Xcode、系統(tǒng)設置、iOS 模擬器，甚至能通過 iPhone 鏡像去操作 iPhone。

在 macOS 上它還能后臺跑，你能同時干別的。它信任邊界也最寬，凡涉及錢、賬戶、支付、憑據(jù)的改動，建議你全程在場盯著。

這也解釋了為什么 Record & Replay 只能跟著 Computer Use 一起開啟。它錄下來的操作要復現(xiàn)，靠的就是 Computer Use 這套看界面、動鼠標鍵盤的底層能力。

第二種是 Chrome 擴展。

它接管你已經(jīng)登錄好的 Chrome，適合那種靠賬號、cookie、已認證標簽頁的任務，比如 Gmail、Salesforce、內(nèi)部儀表盤。它能玩多標簽，把同一個任務的好幾個標簽頁串成一個完整工作流來理解。

代價是它帶著你的身份在動，網(wǎng)站會把它的點擊和提交都當成你本人，所以發(fā)送、發(fā)布、購買這種步驟一般得先過你審核。

第三種是應用內(nèi)瀏覽器。

它活在 Codex 對話內(nèi)部，跟你共享同一個渲染頁面，特別適合開發(fā)調(diào)試 Web 應用。它最大的特點是隔離，不碰你的瀏覽器配置、cookie、擴展和登錄會話。

需要的時候這是限制，不需要的時候反而是個干凈的邊界。開發(fā)者能讓它改代碼、操作頁面、截圖、修完再跑一遍，形成一個緊密的反饋循環(huán)，還能直接點頁面元素留設計意見。

另外還有個叫 Appshot 的機制，它不操作電腦，只負責把 Codex 的注意力指到你眼前的東西上。在 Mac 上連按兩下 CMD 鍵，它就抓最前面那個窗口，把圖像和文字附進對話。你對著一個報錯、一封郵件、一個看不懂的表單直接發(fā)問就行。

用 Jason 的話說，Appshot 負責指方向，瀏覽器、Chrome 擴展和 Computer Use 負責動手。而 Record & Replay 錄下來的 skill，正是可以隨時調(diào)動上面任意一種或幾種方式來復現(xiàn)。

人類操作軟件的經(jīng)驗，正在變成 AI 技能

從今年以來，Codex 的發(fā)布節(jié)奏仍在不斷加速，許多人都不知道的是，Codex 應用、CLI 和 SDK 不是只能配 OpenAI 自家模型。

在 config.toml 里配一下 model_providers，你可以把 Codex 指向 Ollama、LM Studio 這類本地開源模型，也能接 Mistral、Azure、Amazon Bedrock 這些第三方。傳個 --oss 參數(shù)就能跑本地 provider，不指定的話默認走 oss_provider。

▲ https://developers.openai.com/codex/config-advanced#oss-mode-local-providers

也就是說，Record & Replay 這種能力，載體本身是個對模型開放的客戶端。

它也有適用范圍。Record & Replay 是從一次演示里快速造 skill 的捷徑，但如果你想把一個穩(wěn)定的包發(fā)給整個團隊、捆綁好幾個 skill、加應用集成或 MCP 服務器、管安裝元數(shù)據(jù)，那就別停在錄制層面，老實打包成獨立插件。

還有幾個上手前最好先知道的限制。

Record & Replay 目前只在 macOS 上能用，首發(fā)不覆蓋歐盟、英國和瑞士，而且必須先開啟 Computer Use 功能。

如果你是組織管理員，還有個坑得避開：

要是你們用 requirements.toml 統(tǒng)一管 Codex，那 [features].computer_use 這一項是連 Record & Replay 一起管的。

▲ https://developers.openai.com/codex/record-and-replay

哪天把 computer_use 設成 false，你會發(fā)現(xiàn)這倆功能一起消失。所以要是你發(fā)現(xiàn)「我這兒壓根看不到 Record & Replay」，先去查這一項是不是被關了。

「Record & Replay」的上線，看起來只是一個錄制和復現(xiàn)操作的小功能，但放到更大的背景里，它代表的是 AI 與軟件交互方式的一次變化。

過去，自動化的基礎是 API。軟件必須先開放接口，把能力封裝成機器能夠調(diào)用的服務，自動化工具和 AI 才能接手流程。沒有 API，沒有結構化入口，很多任務就無法實現(xiàn)自動化。

因此，傳統(tǒng)自動化的邊界，往往取決于軟件愿意開放多少能力。

但現(xiàn)在，OpenAI 試圖繞開這層限制。它不再要求軟件專門為 AI 提供接口，而是讓 AI 直接學習人類使用軟件的方式。人能看懂按鈕、菜單和窗口，它也去理解；人能完成點擊、輸入和切換頁面，它也去執(zhí)行。

這意味著，AI 的工作對象開始從 API 擴展到整個圖形界面。換言之，「Computer Use」負責賦予 AI 操作電腦的能力，而「Record & Replay」則負責把人的操作經(jīng)驗沉淀成可復用的技能。

這背后對應的，其實是操作系統(tǒng)角色的變化。過去，操作系統(tǒng)是所有軟件的組織者。我們在 Mac 或 Windows 上安裝各種應用，再由人自己在不同軟件之間切換、復制、整理和傳遞信息。

人始終是連接各個軟件的中間層。

而當 AI 能夠跨應用觀察、理解并執(zhí)行任務時，它開始承擔這層角色。對于用戶來說，關注點逐漸從「如何操作軟件」，轉向「想完成什么事情」。

報銷軟件怎么填、視頻后臺怎么配置、多個系統(tǒng)之間如何來回切換，這些細節(jié)理論上都可以交給 AI 處理。照這樣發(fā)展下去，未來真正頻繁使用軟件的，未必是人，而是 AI。

對于 AI 來說，漂亮的界面沒有意義，復雜的菜單也沒有意義。它更關心的是：這個軟件能不能完成任務、能不能被調(diào)用、能不能穩(wěn)定執(zhí)行流程。

從這個角度看，「Record & Replay」真正有意思的地方，不是又多了一個自動化功能，而是它透露出一種新的趨勢：人正在從軟件的直接操作者，逐漸變成軟件能力的訓練者。

今天我們學習怎么使用工具，未來或許更重要的一項能力，是教會 AI 使用工具。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.