便宜 AI 模型重新变香：为什么 Model Routing 会变重要

大模型太贵了。

这已经不是一句抱怨，而是 AI 产品进入真实工作流之后，所有团队都要面对的一笔账。

6 月 9 日，TechCrunch 发了一篇文章：Can tech companies learn to love cheaper AI models? 问题很直接：科技公司能不能重新喜欢上更便宜的 AI 模型？

6 月 5 日，CNBC 也讨论了类似趋势：model routing 正在成为控制 AI 超支的一种方式。简单、高频任务交给更便宜的模型；困难、高风险任务继续交给前沿模型。

重点不是最强模型不重要了。

重点是，最强模型会变成需要被谨慎调度的稀缺资源。

发生了什么：便宜模型重新变得有用

过去两年，AI 产品最容易讲的故事是：我们接入了最强模型。

在 demo 里，这句话很好用。

但在生产环境里，它很快会遇到成本问题。

一个真实的 Agent 任务，不是一轮对话。它可能要读文件、找资料、拆步骤、写代码、检查结果、修复错误，再产出最终交付物。每一步都调用最贵模型，账单会很快变得不好看。

TechCrunch 提到 Harvey 和 Fireworks AI 的一次测试。根据报道，Harvey 把 Claude Opus 和 Fireworks 的 GLM 5.1 组合使用，在不降低质量的情况下，把推理成本降低了 3 倍。关键不是完全替换强模型，而是让便宜模型处理那些不需要 Opus 的步骤。

这个信号很重要。

便宜模型变香，不是因为大家不在乎质量了。而是大家开始学会判断：质量到底在哪些步骤上最重要。

模型调度示意图：常规工作使用便宜模型，高风险判断使用前沿模型

为什么重要：AI 成本正在变成工作流成本

当 AI 离开聊天框，成本问题会变得完全不同。

一个人在聊天框里问一句问题，贵一点也许还能接受。但一个 Agent 工作流可能连续调用模型：分类、总结、检索、起草、执行、验证、修改、汇报。

这时，模型选择就不再只是技术偏好，而是工作流架构。

团队需要判断：

哪些步骤足够常规，可以用便宜模型？
哪些步骤更需要速度，而不是深推理？
哪些步骤涉及客户、代码、合同、资金或生产系统？
哪些动作必须在人类确认后才能继续？
哪些步骤需要记录下来，方便之后审计成本和判断？

这就是为什么 model routing 不只是工程优化。

它会变成产品能力。

一个永远调用最强模型的产品，demo 可能很好看，但很难规模化。一个永远调用最便宜模型的产品，成本可能漂亮，但容易在关键判断上翻车。

真正难的是中间那层调度。

新的问题：谁来决定用哪个模型？

成熟的 AI 系统，不会让一个模型做所有事情。

它会路由任务。

简单提取交给便宜模型。高频分类交给快模型。复杂规划交给强模型。高风险动作交给强模型之后，再停下来让人确认。

这很像公司运转。

不是每个决定都找 CEO。也不是每件事都交给实习生。好的组织，会把合适级别的判断放到合适的任务上。

AI 产品也需要这层纪律。

模型调度决策层示意图：任务风险、模型路由、Agent 执行和人类审核

团队接下来应该看什么

企业和团队评估 AI Agent 产品时，不要只问：你们用的是哪个模型？

这个问题仍然重要，但已经不够。

更应该问：

系统会不会按任务难度路由？
常规步骤不应该默认消耗前沿模型预算。
系统会不会按风险路由？
面向客户、财务、法律、生产、安全的步骤，需要更严格的处理。
系统能不能解释为什么用了这个模型？
管理者应该知道某一步为什么用了便宜模型、快模型或高级模型。
系统能不能看见成本？
AI 成本应该在工作流层面可见，而不是等账单来了才发现。
系统有没有人类确认点？
当下一步会改变真实系统时，只做模型路由还不够。

这些问题听起来没有 benchmark 那么性感。

但它们更接近 AI 在公司里真正落地的样子。

这和 Buda 有什么关系

Buda 的核心前提很简单：人类管理 Agent，而不是反过来。

当团队开始使用多个模型时，这件事更重要。一个真正有用的 AI Agent Workspace，不只是模型选择器。它还需要上下文、执行环境、权限、审核、日志，以及任务何时升级的判断机制。

在 Buda 里，团队可以用 Drive 管理知识，让 Agent 在沙盒里执行任务，通过 Channels 和 Skills 连接工作流，并在重要交付前保留人类审核。

目标不是每一步都用最便宜的模型。

目标是每一步都用刚刚好的模型，并在旁边放上刚刚好的人类判断。

便宜模型真正变强，是因为它们进入了一个可管理的 Agent 系统。

在 Buda dashboard 探索 Agent 工作流。