Codex 新增 Record & Replay:把软件操作变成可复用的 AI Skill

OpenAI Codex Record & Replay 让团队演示一次重复流程,再沉淀成可检查、可编辑、可复用的 AI Skill。

Buda Team
返回博客
Codex 新增 Record & Replay:把软件操作变成可复用的 AI Skill

Codex Record & Replay 很容易被低估。

它看起来像一个 workflow recorder。

但它真正指向的,是一种保存公司操作知识的新方式。

OpenAI 官方 Record & Replay 文档 说得很直接:让 Codex 看你做一遍 workflow,再把它变成可复用的 skill。例子也很日常:报销、预约停车位、创建配置正确的 issue、发布视频、下载周期性报表。

重点恰恰在这种日常感。

一家公司里,到处都是“会操作软件的人”。他们知道哪个字段该怎么填,命名规则是什么,哪个报表该下载,哪个勾选框不能碰,最后怎么确认真的做完。

这些知识,大多数从来没有变成软件。

Record & Replay 给了另一条路:让人示范一次,再让 Agent 把流程草拟成可检查、可编辑、可复用的 Skill。之后,它可以结合 Computer Use、browser actions、plugins,或多种工具一起执行。

Record & Replay 做了什么

Record & Replay 目前可在 macOS 上使用。OpenAI 也说明,初始可用地区不包括 European Economic Area、United Kingdom 和 Switzerland。同时,Computer Use 必须可用并开启。

流程很简单。

你在 Codex app 里打开 Plugins,选择录制一个 skill,给 Codex 一些背景,批准录制,然后在 Mac 上照常完成这件事。做完后停止录制。

录制过程中,Codex 会观察学习这个 workflow 所需的操作和窗口内容。停止录制后,它会检查捕获到的流程,并草拟一个 skill。

这个 skill 会说明:

  • 什么时候该使用这个 workflow;
  • 需要哪些输入;
  • 应该按什么步骤执行;
  • 如何验证结果。

录完以后还可以继续 refinement,尤其是那些没有显式写出来的偏好:命名规则、默认字段、审批条件、判断分支。

Codex Record & Replay 流程:示范、草拟、审核、复用

为什么它不只是宏录制

最容易想到的类比,是 macro recorder。

但这个类比不够。

宏录制记录点击。Skill 描述的是意图、输入、条件、步骤和验证方式。它不是简单重放坐标,而是给 Agent 的可复用上下文。Agent 可以根据当前环境,使用 Computer Use、browser actions、已安装 plugins 或其他工具完成任务。

这在真实公司里很关键。

一个会提交供应商发票的人,不只是在点按钮。他知道供应商名称用哪个版本,什么时候要附合同,采购订单缺失时怎么处理,最后如何确认提交成功。

一个会发布周期性报表的人,也不只是在下载文件。他知道日期范围、默认筛选条件、文件夹命名、接收对象,以及哪些数据要先 sanity check。

Record & Replay 把这类隐性的操作经验,变成更像“活的流程文档”的东西。

人能读。

人能改。

Agent 能复用。

新的工作单元是 Skill

过去很长一段时间,AI 工作围绕 prompt 展开。

Prompt 有用,但当工作依赖真实界面、个人偏好和重复验证时,prompt 就会变脆。

Skill 更适合承载重复工作。

它不只是一次请求,而是一套操作模式。它可以写清楚哪些输入每次会变,哪些步骤必须稳定,Agent 应该如何判断任务完成。

这会改变谁能参与自动化。

财务同事可以示范报销流程。市场运营可以示范视频怎么发布。客服负责人可以示范 ticket 应该怎么创建。运营经理可以示范每周一要拉哪张报表。

他们不需要先成为软件工程师。

他们只需要足够懂这件工作,能示范一次,并 review 生成出来的 Skill。

团队经验沉淀为可复用 AI Skills,并由人类审核

风险:录下来的流程也需要治理

Record & Replay 也把一个安全问题摆到了台面上。

OpenAI 建议用户保持录制聚焦,使用真实但不敏感的输入,避免 secrets 和 sensitive data,并在 workflow 完成后马上停止录制。

这很实际。因为录制可能捕获的不只是显眼的步骤,还可能包括窗口内容、账号上下文、文件名、客户数据,甚至一些没有写出来的操作习惯。

团队应该把生成的 Skills 当作运营资产来管理。

广泛复用之前,至少要问:

  1. 这次录制看到了什么? 任务上下文要窄,避免无关窗口和敏感数据。

  2. 这个 Skill 能做什么? 它是否需要 browser actions、Computer Use、plugins 或系统访问?

  3. 谁可以使用它? 报销 Skill 和修改账单设置的 Skill,不应该是同一种权限。

  4. 如何验证成功? 每个可重复 workflow 都需要明确的 done state。

  5. 什么时候必须人类确认? 提交、删除、付款、发布这类高影响动作,应该停下来让人 review。

Skill 越有用,就越需要归属和治理。

为什么团队需要围绕 Skills 的工作空间

Record & Replay 指向的是一个更大的产品变化。

AI Agent 不只是回答问题。它们开始积累流程。

当一个团队有几十个可复用 Skills,问题就会变成运营问题:

  • Skills 放在哪里?
  • 谁负责 review?
  • 哪个版本是当前版本?
  • 每个 Skill 可以访问哪些数据?
  • 哪些运行成功了,哪些失败了?
  • 哪些输出在离开工作空间前必须被检查?

这正是 Buda 的方向。

Buda 是一个面向团队的 AI Agent Workspace:sessions、Drive 上下文、工具、browser 和 terminal、channels、logs、skills、人类 review,都放在同一个工作空间里。

一个可复用 Skill 只有在团队能管理它时,才真正有用。人类应该能看见 Agent 怎么做,调整上下文,批准敏感步骤,并把流程保存给下一次运行。

未来的自动化,不只由会写脚本的人构建。

也会由真正懂工作的人构建:他们把流程示范清楚,再管理重复执行的 Agent。

这才是 Record & Replay 的意义。

你公司的 Skills 早就存在了。

只是还被困在会操作软件的人脑子里。

Buda dashboard 探索人类主导的 Agent 工作流,或阅读 Buda Agent Workspace 文档