Codex 新增 Record & Replay:把软件操作变成可复用的 AI Skill
OpenAI Codex Record & Replay 让团队演示一次重复流程,再沉淀成可检查、可编辑、可复用的 AI Skill。

Codex Record & Replay 很容易被低估。
它看起来像一个 workflow recorder。
但它真正指向的,是一种保存公司操作知识的新方式。
OpenAI 官方 Record & Replay 文档 说得很直接:让 Codex 看你做一遍 workflow,再把它变成可复用的 skill。例子也很日常:报销、预约停车位、创建配置正确的 issue、发布视频、下载周期性报表。
重点恰恰在这种日常感。
一家公司里,到处都是“会操作软件的人”。他们知道哪个字段该怎么填,命名规则是什么,哪个报表该下载,哪个勾选框不能碰,最后怎么确认真的做完。
这些知识,大多数从来没有变成软件。
Record & Replay 给了另一条路:让人示范一次,再让 Agent 把流程草拟成可检查、可编辑、可复用的 Skill。之后,它可以结合 Computer Use、browser actions、plugins,或多种工具一起执行。
Record & Replay 做了什么
Record & Replay 目前可在 macOS 上使用。OpenAI 也说明,初始可用地区不包括 European Economic Area、United Kingdom 和 Switzerland。同时,Computer Use 必须可用并开启。
流程很简单。
你在 Codex app 里打开 Plugins,选择录制一个 skill,给 Codex 一些背景,批准录制,然后在 Mac 上照常完成这件事。做完后停止录制。
录制过程中,Codex 会观察学习这个 workflow 所需的操作和窗口内容。停止录制后,它会检查捕获到的流程,并草拟一个 skill。
这个 skill 会说明:
- 什么时候该使用这个 workflow;
- 需要哪些输入;
- 应该按什么步骤执行;
- 如何验证结果。
录完以后还可以继续 refinement,尤其是那些没有显式写出来的偏好:命名规则、默认字段、审批条件、判断分支。
为什么它不只是宏录制
最容易想到的类比,是 macro recorder。
但这个类比不够。
宏录制记录点击。Skill 描述的是意图、输入、条件、步骤和验证方式。它不是简单重放坐标,而是给 Agent 的可复用上下文。Agent 可以根据当前环境,使用 Computer Use、browser actions、已安装 plugins 或其他工具完成任务。
这在真实公司里很关键。
一个会提交供应商发票的人,不只是在点按钮。他知道供应商名称用哪个版本,什么时候要附合同,采购订单缺失时怎么处理,最后如何确认提交成功。
一个会发布周期性报表的人,也不只是在下载文件。他知道日期范围、默认筛选条件、文件夹命名、接收对象,以及哪些数据要先 sanity check。
Record & Replay 把这类隐性的操作经验,变成更像“活的流程文档”的东西。
人能读。
人能改。
Agent 能复用。
新的工作单元是 Skill
过去很长一段时间,AI 工作围绕 prompt 展开。
Prompt 有用,但当工作依赖真实界面、个人偏好和重复验证时,prompt 就会变脆。
Skill 更适合承载重复工作。
它不只是一次请求,而是一套操作模式。它可以写清楚哪些输入每次会变,哪些步骤必须稳定,Agent 应该如何判断任务完成。
这会改变谁能参与自动化。
财务同事可以示范报销流程。市场运营可以示范视频怎么发布。客服负责人可以示范 ticket 应该怎么创建。运营经理可以示范每周一要拉哪张报表。
他们不需要先成为软件工程师。
他们只需要足够懂这件工作,能示范一次,并 review 生成出来的 Skill。
风险:录下来的流程也需要治理
Record & Replay 也把一个安全问题摆到了台面上。
OpenAI 建议用户保持录制聚焦,使用真实但不敏感的输入,避免 secrets 和 sensitive data,并在 workflow 完成后马上停止录制。
这很实际。因为录制可能捕获的不只是显眼的步骤,还可能包括窗口内容、账号上下文、文件名、客户数据,甚至一些没有写出来的操作习惯。
团队应该把生成的 Skills 当作运营资产来管理。
广泛复用之前,至少要问:
-
这次录制看到了什么? 任务上下文要窄,避免无关窗口和敏感数据。
-
这个 Skill 能做什么? 它是否需要 browser actions、Computer Use、plugins 或系统访问?
-
谁可以使用它? 报销 Skill 和修改账单设置的 Skill,不应该是同一种权限。
-
如何验证成功? 每个可重复 workflow 都需要明确的 done state。
-
什么时候必须人类确认? 提交、删除、付款、发布这类高影响动作,应该停下来让人 review。
Skill 越有用,就越需要归属和治理。
为什么团队需要围绕 Skills 的工作空间
Record & Replay 指向的是一个更大的产品变化。
AI Agent 不只是回答问题。它们开始积累流程。
当一个团队有几十个可复用 Skills,问题就会变成运营问题:
- Skills 放在哪里?
- 谁负责 review?
- 哪个版本是当前版本?
- 每个 Skill 可以访问哪些数据?
- 哪些运行成功了,哪些失败了?
- 哪些输出在离开工作空间前必须被检查?
这正是 Buda 的方向。
Buda 是一个面向团队的 AI Agent Workspace:sessions、Drive 上下文、工具、browser 和 terminal、channels、logs、skills、人类 review,都放在同一个工作空间里。
一个可复用 Skill 只有在团队能管理它时,才真正有用。人类应该能看见 Agent 怎么做,调整上下文,批准敏感步骤,并把流程保存给下一次运行。
未来的自动化,不只由会写脚本的人构建。
也会由真正懂工作的人构建:他们把流程示范清楚,再管理重复执行的 Agent。
这才是 Record & Replay 的意义。
你公司的 Skills 早就存在了。
只是还被困在会操作软件的人脑子里。
在 Buda dashboard 探索人类主导的 Agent 工作流,或阅读 Buda Agent Workspace 文档。