Gemini 3.5 Flash 推出 Computer Use：下一批 AI 員工不僅會聊天，還會點按鈕

很多人用 AI 最失望的瞬间，往往不是因为它不够聪明。

而是因为它只会“说”。

你让它帮你写邮件，它能写得很好。但接下来，你还是要自己打开邮箱、找聯絡人、複製貼上、改标题、检查附件、点发送。

你让它帮你分析客户反馈，它能总结得不错。但接下来，你还是要自己打开後台、导出表格、筛选分类、填到另一张表里，再截图发群。

这就像你请了一个很聪明的实习生，结果他只能站在旁边给建议，不能碰电脑。

6 月 24 日，Google 发布的新功能正好补齐了这块短板。

Google 官方把 computer use 做进了 Gemini 3.5 Flash。简单说，以后開發者可以让 Gemini 看螢幕、理解界面、点击按钮、填写表單、切换页面，在瀏覽器、行動端和桌面環境里完成一串任务。

这比“模型又聪明了一点”更值得普通人关心。

因为它意味着，AI 开始从“给建议的人”，变成“能上手操作的人”。

複製貼上时代的终结

办公室里最消耗人的，往往不是那些需要天才判断的大事，而是每天重复出现的电脑杂活：

Chat agents 和 Computer use agents 的对比

有了 Gemini 的 computer use，Agent 可以直接接管这些任务。它们像人一样看着界面，然后用虚拟的滑鼠和鍵盤进行交互。

它不再是生成一段文字让你去复制，而是直接把流程跑完，等你来審核。

Gemini computer use 是什么？ 它是 Gemini 3.5 Flash 的一项新能力，允许 AI 感知視覺界面（如电脑螢幕或瀏覽器窗口），并像人类用户一样執行点击、滚动和打字等动作。

AI 怎么操作瀏覽器和电脑？ AI Agent 会持续接收環境的螢幕截图。它分析視覺布局，计算出按钮或文字框的精确座標，然后发出指令来移动虚拟滑鼠或输入文字。

普通人可以用 Gemini 自动操作电脑吗？ 目前它主要供開發者接入应用。但 AI 工作空间和平台正在迅速将这些能力封装成简单易用的工具，让任何人都能把界面任务分配给 Agent。

既然 AI Agent 已经會點按鈕、操作軟體了，新問題就来了：它们在哪点？

你肯定不想在你敲鍵盤的时候，有个 AI 在你的个人电脑上抢滑鼠。你也不希望一个 Agent 在没有监管的情况下，在你的生产数据库後台瞎点。

執行需要受控的環境。

Buda AI Browser 沙盒中的 Agent 執行回路

这就是为什么未来不只属于大模型，也属于 Agent Workspace。

在 Buda 中，AI Browser 和 Local Browser 就是为了解决这个問題：它们提供了一个沙盒化的专属環境，让 Agent 可以安全地執行 UI 任务。Agent 拥有自己的瀏覽器去点击、打字和浏览。

而你，只需要负责管理 Agent、查看它的操作日志，并在最后一步进行審核批准。

Gemini 3.5 Flash 的 computer use 证明了，“下一批 AI 員工”将是行动派，而不只是聊天机器人。

問題不再是 AI 能不能干活，而是你的團隊有没有一个合适的空间来管理它们。

在 Buda dashboard 探索人类主导的 Agent 工作流，或阅读 Buda Agent Workspace 文件。