Gemini 3.5 Flash 推出 Computer Use:下一批 AI 员工不仅会聊天,还会点按钮
Google 将 computer use 变成 Gemini 3.5 Flash 的内置工具,AI Agent 开始从回答问题走向操作浏览器、手机和桌面。

很多人用 AI 最失望的瞬间,往往不是因为它不够聪明。
而是因为它只会“说”。
你让它帮你写邮件,它能写得很好。但接下来,你还是要自己打开邮箱、找联系人、复制粘贴、改标题、检查附件、点发送。
你让它帮你分析客户反馈,它能总结得不错。但接下来,你还是要自己打开后台、导出表格、筛选分类、填到另一张表里,再截图发群。
这就像你请了一个很聪明的实习生,结果他只能站在旁边给建议,不能碰电脑。
6 月 24 日,Google 发布的新功能正好补齐了这块短板。
Google 官方把 computer use 做进了 Gemini 3.5 Flash。简单说,以后开发者可以让 Gemini 看屏幕、理解界面、点击按钮、填写表单、切换页面,在浏览器、移动端和桌面环境里完成一串任务。
这比“模型又聪明了一点”更值得普通人关心。
因为它意味着,AI 开始从“给建议的人”,变成“能上手操作的人”。
复制粘贴时代的终结
办公室里最消耗人的,往往不是那些需要天才判断的大事,而是每天重复出现的电脑杂活:
- 把客户反馈整理到表格里;
- 打开后台筛出昨天未处理的订单;
- 检查网页和文档有没有明显问题;
- 上传材料,顺便填好标题、标签和说明;
- 在几个软件之间复制、核对、截图、汇报。
有了 Gemini 的 computer use,Agent 可以直接接管这些任务。它们像人一样看着界面,然后用虚拟的鼠标和键盘进行交互。
它不再是生成一段文字让你去复制,而是直接把流程跑完,等你来审核。
Gemini computer use 常见问题
Gemini computer use 是什么? 它是 Gemini 3.5 Flash 的一项新能力,允许 AI 感知视觉界面(如电脑屏幕或浏览器窗口),并像人类用户一样执行点击、滚动和打字等动作。
AI 怎么操作浏览器和电脑? AI Agent 会持续接收环境的屏幕截图。它分析视觉布局,计算出按钮或文本框的精确坐标,然后发出指令来移动虚拟鼠标或输入文本。
普通人可以用 Gemini 自动操作电脑吗? 目前它主要供开发者接入应用。但 AI 工作空间和平台正在迅速将这些能力封装成简单易用的工具,让任何人都能把界面任务分配给 Agent。
拼图的最后一块:安全的执行空间
既然 AI Agent 已经会点按钮、操作软件了,新问题就来了:它们在哪点?
你肯定不想在你敲键盘的时候,有个 AI 在你的个人电脑上抢鼠标。你也不希望一个 Agent 在没有监管的情况下,在你的生产数据库后台瞎点。
执行需要受控的环境。
这就是为什么未来不只属于大模型,也属于 Agent Workspace。
在 Buda 中,AI Browser 和 Local Browser 就是为了解决这个问题:它们提供了一个沙盒化的专属环境,让 Agent 可以安全地执行 UI 任务。Agent 拥有自己的浏览器去点击、打字和浏览。
而你,只需要负责管理 Agent、查看它的操作日志,并在最后一步进行审核批准。
Gemini 3.5 Flash 的 computer use 证明了,“下一批 AI 员工”将是行动派,而不只是聊天机器人。
问题不再是 AI 能不能干活,而是你的团队有没有一个合适的空间来管理它们。
在 Buda dashboard 探索人类主导的 Agent 工作流,或阅读 Buda Agent Workspace 文档。