Gemini 3.5 Flash 推出 Computer Use：下一批 AI 员工不仅会聊天，还会点按钮

很多人用 AI 最失望的瞬间，往往不是因为它不够聪明。

而是因为它只会“说”。

你让它帮你写邮件，它能写得很好。但接下来，你还是要自己打开邮箱、找联系人、复制粘贴、改标题、检查附件、点发送。

你让它帮你分析客户反馈，它能总结得不错。但接下来，你还是要自己打开后台、导出表格、筛选分类、填到另一张表里，再截图发群。

这就像你请了一个很聪明的实习生，结果他只能站在旁边给建议，不能碰电脑。

6 月 24 日，Google 发布的新功能正好补齐了这块短板。

Google 官方把 computer use 做进了 Gemini 3.5 Flash。简单说，以后开发者可以让 Gemini 看屏幕、理解界面、点击按钮、填写表单、切换页面，在浏览器、移动端和桌面环境里完成一串任务。

这比“模型又聪明了一点”更值得普通人关心。

因为它意味着，AI 开始从“给建议的人”，变成“能上手操作的人”。

复制粘贴时代的终结

办公室里最消耗人的，往往不是那些需要天才判断的大事，而是每天重复出现的电脑杂活：

Chat agents 和 Computer use agents 的对比

有了 Gemini 的 computer use，Agent 可以直接接管这些任务。它们像人一样看着界面，然后用虚拟的鼠标和键盘进行交互。

它不再是生成一段文字让你去复制，而是直接把流程跑完，等你来审核。

Gemini computer use 是什么？ 它是 Gemini 3.5 Flash 的一项新能力，允许 AI 感知视觉界面（如电脑屏幕或浏览器窗口），并像人类用户一样执行点击、滚动和打字等动作。

AI 怎么操作浏览器和电脑？ AI Agent 会持续接收环境的屏幕截图。它分析视觉布局，计算出按钮或文本框的精确坐标，然后发出指令来移动虚拟鼠标或输入文本。

普通人可以用 Gemini 自动操作电脑吗？ 目前它主要供开发者接入应用。但 AI 工作空间和平台正在迅速将这些能力封装成简单易用的工具，让任何人都能把界面任务分配给 Agent。

既然 AI Agent 已经会点按钮、操作软件了，新问题就来了：它们在哪点？

你肯定不想在你敲键盘的时候，有个 AI 在你的个人电脑上抢鼠标。你也不希望一个 Agent 在没有监管的情况下，在你的生产数据库后台瞎点。

执行需要受控的环境。

Buda AI Browser 沙盒中的 Agent 执行回路

这就是为什么未来不只属于大模型，也属于 Agent Workspace。

在 Buda 中，AI Browser 和 Local Browser 就是为了解决这个问题：它们提供了一个沙盒化的专属环境，让 Agent 可以安全地执行 UI 任务。Agent 拥有自己的浏览器去点击、打字和浏览。

而你，只需要负责管理 Agent、查看它的操作日志，并在最后一步进行审核批准。

Gemini 3.5 Flash 的 computer use 证明了，“下一批 AI 员工”将是行动派，而不只是聊天机器人。

问题不再是 AI 能不能干活，而是你的团队有没有一个合适的空间来管理它们。

在 Buda dashboard 探索人类主导的 Agent 工作流，或阅读 Buda Agent Workspace 文档。