Codex 新增 Record & Replay:把軟體操作變成可複用的 AI Skill

OpenAI Codex Record & Replay 讓團隊示範一次重複流程,再沉澱成可檢查、可編輯、可複用的 AI Skill。

Buda Team
返回部落格
Codex 新增 Record & Replay:把軟體操作變成可複用的 AI Skill

Codex Record & Replay 很容易被低估。

它看起來像一個 workflow recorder。

但它真正指向的,是一種保存公司操作知識的新方式。

OpenAI 官方 Record & Replay 文件 說得很直接:讓 Codex 看你做一遍 workflow,再把它變成可複用的 skill。例子也很日常:報銷、預約停車位、建立配置正確的 issue、發布影片、下載週期性報表。

重點恰恰在這種日常感。

一家公司裡,到處都是「會操作軟體的人」。他們知道哪個欄位該怎麼填,命名規則是什麼,哪個報表該下載,哪個勾選框不能碰,最後怎麼確認真的做完。

這些知識,大多數從來沒有變成軟體。

Record & Replay 給了另一條路:讓人示範一次,再讓 Agent 把流程草擬成可檢查、可編輯、可複用的 Skill。之後,它可以結合 Computer Use、browser actions、plugins,或多種工具一起執行。

Record & Replay 做了什麼

Record & Replay 目前可在 macOS 上使用。OpenAI 也說明,初始可用地區不包括 European Economic Area、United Kingdom 和 Switzerland。同時,Computer Use 必須可用並開啟。

流程很簡單。

你在 Codex app 裡打開 Plugins,選擇錄製一個 skill,給 Codex 一些背景,批准錄製,然後在 Mac 上照常完成這件事。做完後停止錄製。

錄製過程中,Codex 會觀察學習這個 workflow 所需的操作和視窗內容。停止錄製後,它會檢查捕捉到的流程,並草擬一個 skill。

這個 skill 會說明:

  • 什麼時候該使用這個 workflow;
  • 需要哪些輸入;
  • 應該按什麼步驟執行;
  • 如何驗證結果。

錄完以後還可以繼續 refinement,尤其是那些沒有顯式寫出來的偏好:命名規則、預設欄位、審批條件、判斷分支。

Codex Record & Replay 流程:示範、草擬、審核、複用

為什麼它不只是巨集錄製

最容易想到的類比,是 macro recorder。

但這個類比不夠。

巨集錄製記錄點擊。Skill 描述的是意圖、輸入、條件、步驟和驗證方式。它不是簡單重放座標,而是給 Agent 的可複用上下文。Agent 可以根據目前環境,使用 Computer Use、browser actions、已安裝 plugins 或其他工具完成任務。

這在真實公司裡很關鍵。

一個會提交供應商發票的人,不只是在點按鈕。他知道供應商名稱用哪個版本,什麼時候要附合約,採購訂單缺失時怎麼處理,最後如何確認提交成功。

一個會發布週期性報表的人,也不只是在下載檔案。他知道日期範圍、預設篩選條件、資料夾命名、接收對象,以及哪些資料要先 sanity check。

Record & Replay 把這類隱性的操作經驗,變成更像「活的流程文件」的東西。

人能讀。

人能改。

Agent 能複用。

新的工作單元是 Skill

過去很長一段時間,AI 工作圍繞 prompt 展開。

Prompt 有用,但當工作依賴真實介面、個人偏好和重複驗證時,prompt 就會變脆。

Skill 更適合承載重複工作。

它不只是一次請求,而是一套操作模式。它可以寫清楚哪些輸入每次會變,哪些步驟必須穩定,Agent 應該如何判斷任務完成。

這會改變誰能參與自動化。

財務同事可以示範報銷流程。市場營運可以示範影片怎麼發布。客服負責人可以示範 ticket 應該怎麼建立。營運經理可以示範每週一要拉哪張報表。

他們不需要先成為軟體工程師。

他們只需要足夠懂這件工作,能示範一次,並 review 生成出來的 Skill。

團隊經驗沉澱為可複用 AI Skills,並由人類審核

風險:錄下來的流程也需要治理

Record & Replay 也把一個安全問題擺到了台面上。

OpenAI 建議使用者保持錄製聚焦,使用真實但不敏感的輸入,避免 secrets 和 sensitive data,並在 workflow 完成後馬上停止錄製。

這很實際。因為錄製可能捕捉的不只是顯眼的步驟,還可能包括視窗內容、帳號上下文、檔名、客戶資料,甚至一些沒有寫出來的操作習慣。

團隊應該把生成的 Skills 當作營運資產來管理。

廣泛複用之前,至少要問:

  1. 這次錄製看到了什麼? 任務上下文要窄,避免無關視窗和敏感資料。

  2. 這個 Skill 能做什麼? 它是否需要 browser actions、Computer Use、plugins 或系統存取?

  3. 誰可以使用它? 報銷 Skill 和修改帳單設定的 Skill,不應該是同一種權限。

  4. 如何驗證成功? 每個可重複 workflow 都需要明確的 done state。

  5. 什麼時候必須人類確認? 提交、刪除、付款、發布這類高影響動作,應該停下來讓人 review。

Skill 越有用,就越需要歸屬和治理。

為什麼團隊需要圍繞 Skills 的工作空間

Record & Replay 指向的是一個更大的產品變化。

AI Agent 不只是回答問題。它們開始累積流程。

當一個團隊有幾十個可複用 Skills,問題就會變成營運問題:

  • Skills 放在哪裡?
  • 誰負責 review?
  • 哪個版本是目前版本?
  • 每個 Skill 可以存取哪些資料?
  • 哪些執行成功了,哪些失敗了?
  • 哪些輸出在離開工作空間前必須被檢查?

這正是 Buda 的方向。

Buda 是一個面向團隊的 AI Agent Workspace:sessions、Drive 上下文、工具、browser 和 terminal、channels、logs、skills、人類 review,都放在同一個工作空間裡。

一個可複用 Skill 只有在團隊能管理它時,才真正有用。人類應該能看見 Agent 怎麼做,調整上下文,批准敏感步驟,並把流程保存給下一次執行。

未來的自動化,不只由會寫腳本的人構建。

也會由真正懂工作的人構建:他們把流程示範清楚,再管理重複執行的 Agent。

這才是 Record & Replay 的意義。

你公司的 Skills 早就存在了。

只是還被困在會操作軟體的人腦子裡。

Buda dashboard 探索人類主導的 Agent 工作流,或閱讀 Buda Agent Workspace 文件