Gemini 3.5 Flash 推出 Computer Use:下一批 AI 員工不僅會聊天,還會點按鈕

Google 將 computer use 變成 Gemini 3.5 Flash 的內建工具,AI Agent 開始從回答問題走向操作瀏覽器、手機和桌面。

Buda Team
返回部落格
Gemini 3.5 Flash 推出 Computer Use:下一批 AI 員工不僅會聊天,還會點按鈕

很多人用 AI 最失望的瞬间,往往不是因为它不够聪明。

而是因为它只会“说”。

你让它帮你写邮件,它能写得很好。但接下来,你还是要自己打开邮箱、找聯絡人、複製貼上、改标题、检查附件、点发送。

你让它帮你分析客户反馈,它能总结得不错。但接下来,你还是要自己打开後台、导出表格、筛选分类、填到另一张表里,再截图发群。

这就像你请了一个很聪明的实习生,结果他只能站在旁边给建议,不能碰电脑。

6 月 24 日,Google 发布的新功能正好补齐了这块短板。

Google 官方把 computer use 做进了 Gemini 3.5 Flash。简单说,以后開發者可以让 Gemini 看螢幕、理解界面、点击按钮、填写表單、切换页面,在瀏覽器、行動端和桌面環境里完成一串任务。

这比“模型又聪明了一点”更值得普通人关心。

因为它意味着,AI 开始从“给建议的人”,变成“能上手操作的人”。

複製貼上时代的终结

办公室里最消耗人的,往往不是那些需要天才判断的大事,而是每天重复出现的电脑杂活:

  • 把客户反馈整理到表格里;
  • 打开後台筛出昨天未处理的订单;
  • 检查网页和文件有没有明显問題;
  • 上传材料,顺便填好标题、标签和说明;
  • 在几个軟體之间复制、核对、截图、汇报。

Chat agents 和 Computer use agents 的对比

有了 Gemini 的 computer use,Agent 可以直接接管这些任务。它们像人一样看着界面,然后用虚拟的滑鼠和鍵盤进行交互。

它不再是生成一段文字让你去复制,而是直接把流程跑完,等你来審核。

Gemini computer use 常见問題

Gemini computer use 是什么? 它是 Gemini 3.5 Flash 的一项新能力,允许 AI 感知視覺界面(如电脑螢幕或瀏覽器窗口),并像人类用户一样執行点击、滚动和打字等动作。

AI 怎么操作瀏覽器和电脑? AI Agent 会持续接收環境的螢幕截图。它分析視覺布局,计算出按钮或文字框的精确座標,然后发出指令来移动虚拟滑鼠或输入文字。

普通人可以用 Gemini 自动操作电脑吗? 目前它主要供開發者接入应用。但 AI 工作空间和平台正在迅速将这些能力封装成简单易用的工具,让任何人都能把界面任务分配给 Agent。

拼图的最后一块:安全的執行空间

既然 AI Agent 已经會點按鈕、操作軟體了,新問題就来了:它们在哪点?

你肯定不想在你敲鍵盤的时候,有个 AI 在你的个人电脑上抢滑鼠。你也不希望一个 Agent 在没有监管的情况下,在你的生产数据库後台瞎点。

執行需要受控的環境。

Buda AI Browser 沙盒中的 Agent 執行回路

这就是为什么未来不只属于大模型,也属于 Agent Workspace

Buda 中,AI Browser 和 Local Browser 就是为了解决这个問題:它们提供了一个沙盒化的专属環境,让 Agent 可以安全地執行 UI 任务。Agent 拥有自己的瀏覽器去点击、打字和浏览。

而你,只需要负责管理 Agent、查看它的操作日志,并在最后一步进行審核批准。

Gemini 3.5 Flash 的 computer use 证明了,“下一批 AI 員工”将是行动派,而不只是聊天机器人。

問題不再是 AI 能不能干活,而是你的團隊有没有一个合适的空间来管理它们。

Buda dashboard 探索人类主导的 Agent 工作流,或阅读 Buda Agent Workspace 文件