![]()
你坐在電腦前干活,旁邊有個家伙一聲不吭盯著你。你點哪它看哪,你填什么它記什么,等你做完,它說一句:下次這活我來。
這就是 Codex 剛剛發(fā)布的重磅功能,叫 Record & Replay。
![]()
翻譯過來就是錄制加復現(xiàn)。
你把一套操作完整演示一遍,Codex 在旁邊觀察學習,然后把整套流程打包成一個 skill(技能)。下回要干同樣的活,新開個對話,讓它調(diào)這個 skill,再告訴它這次哪里不一樣,剩下的它自己搞定。
圖形界面,這個原本為了讓人類擺脫命令行而發(fā)明的偉大創(chuàng)造,現(xiàn)在有望成了 AI 接管電腦的現(xiàn)成基礎設施。
「學徒」模式上線,Codex 開始復制你的工作流
當然,不是所有任務都適合這么玩。
Record & Replay 瞄準的是那種重復、看個人偏好、說不清楚但做一遍你就懂的活。適用場景有這么幾個:報銷、訂停車位、建一個配置正確的 issue、發(fā)視頻、拉周期性報表。
這些活有個共同點。要么步驟又固定又繁瑣,要么里頭藏著一堆只有你自己知道的隱性規(guī)則。
比如文件該怎么命名、某個字段默認填啥、到了某個岔路口該往哪走。這種東西你要用文字一條條寫清楚給 AI,成本極高。不如直接做一遍,讓它自己看。
操作過程也比想象中省事,主要拆成了七步。
先在 Codex 應用里打開 Plugins(插件),搜索并添加 Record & Replay 插件。
然后它來要錄制權限,你準備好了就點同意。
![]()
剩下的就是你在 Mac 上正常把活干一遍。
![]()
這期間 Codex 全程觀察,學這套操作要點哪些地方、動哪些窗口的內(nèi)容。
![]()
錄制會一直開著,直到你主動停止。所以記住,專心做那一個任務就行,別錄著錄著開始干別的。
干完從菜單欄或懸浮層停止,或者直接跟 Codex 說一聲已經(jīng)錄完。
![]()
錄完之后 Codex 會復盤一遍剛捕捉到的流程,自己起草一個 skill。這個 skill 里寫得很清楚:什么時候該用這套流程、需要哪些輸入、按什么步驟走、做完怎么驗證結果。
你要是覺得它寫得不夠好,還能讓它再打磨。
幾條錄制建議值得照做:
演示盡量短而完整;錄之前先把目標和那些每次會變的輸入告訴 Codex;用真實輸入,但密碼和敏感數(shù)據(jù)千萬別錄進去;錄完后補上那些重要的隱性偏好,比如命名規(guī)范、字段默認值、決策點怎么選;流程做完就停,別拖到無關的收尾動作上。
至于,下次復現(xiàn)就簡單了。新開對話,讓它調(diào)這個 skill,把這次的具體值喂給它,比如要傳哪個文件、建哪個 issue、報表要哪段時間。
![]()
有個關鍵設定需要注意:Codex 會把這個 skill 當作可復用的上下文(reusable context)。
什么意思呢?這個 skill 不是一段寫死的腳本,而是一份它每次都能拿來參考、再結合當前環(huán)境靈活執(zhí)行的說明書。所以同一個 skill,這次傳 A 文件、下次傳 B 文件,它都能套著用。
具體干活的時候,它會調(diào)動當前環(huán)境里能用的工具,包括 Computer Use、瀏覽器操作和已安裝的插件,把流程跑完。
Codex 到底怎么「用電腦」
來看一次公開演示。
這回 Codex 要學的是上傳 YouTube 視頻的完整流程。它的工作方式是盯著用戶在 YouTube Studio 里操作,把點擊、選文件、敲文字這一整串動作全捕捉下來。
諸如選視頻文件、填標題和描述、傳縮略圖、加字幕、設隱私選項等等,Codex 全記下來了,隨后展示了獨立復現(xiàn)的能力。
更有意思的是,它不只是機械地照著步驟復讀,還試圖搞懂背后的邏輯和門道。
比如什么時候該把視頻設成 Private、什么時候設 Unlisted,怎么管 .mp4 視頻文件和 .srt 字幕文件這種成對的東西,元數(shù)據(jù)字段該怎么填,字幕怎么跟視頻對上號。
它甚至現(xiàn)場處理了一次報錯:
缺 Python 環(huán)境的時候,它直接從已安裝的 skill 位置讀信息,自己適配過去了。而這一整段錄下來,轉譯成一個隨時能調(diào)用的 skill。
換句話說,Codex 一旦學會,理論上就能在沒人盯著的情況下反復執(zhí)行。對那些天天要傳一堆視頻的內(nèi)容工作流來說,這事確實有用。
要搞懂它憑什么能復現(xiàn),得先看 Codex 到底怎么操作電腦。
OpenAI 工程師 Jason 之前梳理過 Codex 用電腦的三條路,能力有重疊,各有各的地盤。總原則是:能用插件或 MCP 就先用,視覺控制留給結構化工具夠不著的邊角。
第一種叫 Computer Use,覆蓋面最廣。
它能在 macOS 和 Windows 上看見并操作圖形界面,通過窗口、菜單、鍵盤、剪貼板來動那些授權過的應用。
代價是慢,因為它得看界面、判斷點哪、等響應、再確認狀態(tài),一步一回頭。但好處也明顯,那些沒有 API 的應用它也能對付,比如 Spotify、Xcode、系統(tǒng)設置、iOS 模擬器,甚至能通過 iPhone 鏡像去操作 iPhone。
在 macOS 上它還能后臺跑,你能同時干別的。它信任邊界也最寬,凡涉及錢、賬戶、支付、憑據(jù)的改動,建議你全程在場盯著。
這也解釋了為什么 Record & Replay 只能跟著 Computer Use 一起開啟。它錄下來的操作要復現(xiàn),靠的就是 Computer Use 這套看界面、動鼠標鍵盤的底層能力。
![]()
第二種是 Chrome 擴展。
它接管你已經(jīng)登錄好的 Chrome,適合那種靠賬號、cookie、已認證標簽頁的任務,比如 Gmail、Salesforce、內(nèi)部儀表盤。它能玩多標簽,把同一個任務的好幾個標簽頁串成一個完整工作流來理解。
代價是它帶著你的身份在動,網(wǎng)站會把它的點擊和提交都當成你本人,所以發(fā)送、發(fā)布、購買這種步驟一般得先過你審核。
第三種是應用內(nèi)瀏覽器。
它活在 Codex 對話內(nèi)部,跟你共享同一個渲染頁面,特別適合開發(fā)調(diào)試 Web 應用。它最大的特點是隔離,不碰你的瀏覽器配置、cookie、擴展和登錄會話。
需要的時候這是限制,不需要的時候反而是個干凈的邊界。開發(fā)者能讓它改代碼、操作頁面、截圖、修完再跑一遍,形成一個緊密的反饋循環(huán),還能直接點頁面元素留設計意見。
另外還有個叫 Appshot 的機制,它不操作電腦,只負責把 Codex 的注意力指到你眼前的東西上。在 Mac 上連按兩下 CMD 鍵,它就抓最前面那個窗口,把圖像和文字附進對話。你對著一個報錯、一封郵件、一個看不懂的表單直接發(fā)問就行。
用 Jason 的話說,Appshot 負責指方向,瀏覽器、Chrome 擴展和 Computer Use 負責動手。而 Record & Replay 錄下來的 skill,正是可以隨時調(diào)動上面任意一種或幾種方式來復現(xiàn)。
![]()
人類操作軟件的經(jīng)驗,正在變成 AI 技能
從今年以來,Codex 的發(fā)布節(jié)奏仍在不斷加速,許多人都不知道的是,Codex 應用、CLI 和 SDK 不是只能配 OpenAI 自家模型。
在 config.toml 里配一下 model_providers,你可以把 Codex 指向 Ollama、LM Studio 這類本地開源模型,也能接 Mistral、Azure、Amazon Bedrock 這些第三方。傳個 --oss 參數(shù)就能跑本地 provider,不指定的話默認走 oss_provider。
![]()
▲ https://developers.openai.com/codex/config-advanced#oss-mode-local-providers
也就是說,Record & Replay 這種能力,載體本身是個對模型開放的客戶端。
它也有適用范圍。Record & Replay 是從一次演示里快速造 skill 的捷徑,但如果你想把一個穩(wěn)定的包發(fā)給整個團隊、捆綁好幾個 skill、加應用集成或 MCP 服務器、管安裝元數(shù)據(jù),那就別停在錄制層面,老實打包成獨立插件。
還有幾個上手前最好先知道的限制。
Record & Replay 目前只在 macOS 上能用,首發(fā)不覆蓋歐盟、英國和瑞士,而且必須先開啟 Computer Use 功能。
如果你是組織管理員,還有個坑得避開:
要是你們用 requirements.toml 統(tǒng)一管 Codex,那 [features].computer_use 這一項是連 Record & Replay 一起管的。
![]()
▲ https://developers.openai.com/codex/record-and-replay
哪天把 computer_use 設成 false,你會發(fā)現(xiàn)這倆功能一起消失。所以要是你發(fā)現(xiàn)「我這兒壓根看不到 Record & Replay」,先去查這一項是不是被關了。
「Record & Replay」的上線,看起來只是一個錄制和復現(xiàn)操作的小功能,但放到更大的背景里,它代表的是 AI 與軟件交互方式的一次變化。
過去,自動化的基礎是 API。軟件必須先開放接口,把能力封裝成機器能夠調(diào)用的服務,自動化工具和 AI 才能接手流程。沒有 API,沒有結構化入口,很多任務就無法實現(xiàn)自動化。
因此,傳統(tǒng)自動化的邊界,往往取決于軟件愿意開放多少能力。
但現(xiàn)在,OpenAI 試圖繞開這層限制。它不再要求軟件專門為 AI 提供接口,而是讓 AI 直接學習人類使用軟件的方式。人能看懂按鈕、菜單和窗口,它也去理解;人能完成點擊、輸入和切換頁面,它也去執(zhí)行。
![]()
這意味著,AI 的工作對象開始從 API 擴展到整個圖形界面。換言之,「Computer Use」負責賦予 AI 操作電腦的能力,而「Record & Replay」則負責把人的操作經(jīng)驗沉淀成可復用的技能。
這背后對應的,其實是操作系統(tǒng)角色的變化。過去,操作系統(tǒng)是所有軟件的組織者。我們在 Mac 或 Windows 上安裝各種應用,再由人自己在不同軟件之間切換、復制、整理和傳遞信息。
人始終是連接各個軟件的中間層。
而當 AI 能夠跨應用觀察、理解并執(zhí)行任務時,它開始承擔這層角色。對于用戶來說,關注點逐漸從「如何操作軟件」,轉向「想完成什么事情」。
![]()
報銷軟件怎么填、視頻后臺怎么配置、多個系統(tǒng)之間如何來回切換,這些細節(jié)理論上都可以交給 AI 處理。照這樣發(fā)展下去,未來真正頻繁使用軟件的,未必是人,而是 AI。
對于 AI 來說,漂亮的界面沒有意義,復雜的菜單也沒有意義。它更關心的是:這個軟件能不能完成任務、能不能被調(diào)用、能不能穩(wěn)定執(zhí)行流程。
從這個角度看,「Record & Replay」真正有意思的地方,不是又多了一個自動化功能,而是它透露出一種新的趨勢:人正在從軟件的直接操作者,逐漸變成軟件能力的訓練者。
今天我們學習怎么使用工具,未來或許更重要的一項能力,是教會 AI 使用工具。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.