便宜 AI 模型重新变香:为什么 Model Routing 会变重要

当 AI 进入真实工作流,团队需要模型调度来同时管理成本、质量、速度和人类审核。

Buda Team
返回博客
便宜 AI 模型重新变香:为什么 Model Routing 会变重要

大模型太贵了。

这已经不是一句抱怨,而是 AI 产品进入真实工作流之后,所有团队都要面对的一笔账。

6 月 9 日,TechCrunch 发了一篇文章:Can tech companies learn to love cheaper AI models? 问题很直接:科技公司能不能重新喜欢上更便宜的 AI 模型?

6 月 5 日,CNBC 也讨论了类似趋势:model routing 正在成为控制 AI 超支的一种方式。简单、高频任务交给更便宜的模型;困难、高风险任务继续交给前沿模型。

重点不是最强模型不重要了。

重点是,最强模型会变成需要被谨慎调度的稀缺资源。

发生了什么:便宜模型重新变得有用

过去两年,AI 产品最容易讲的故事是:我们接入了最强模型。

在 demo 里,这句话很好用。

但在生产环境里,它很快会遇到成本问题。

一个真实的 Agent 任务,不是一轮对话。它可能要读文件、找资料、拆步骤、写代码、检查结果、修复错误,再产出最终交付物。每一步都调用最贵模型,账单会很快变得不好看。

TechCrunch 提到 Harvey 和 Fireworks AI 的一次测试。根据报道,Harvey 把 Claude Opus 和 Fireworks 的 GLM 5.1 组合使用,在不降低质量的情况下,把推理成本降低了 3 倍。关键不是完全替换强模型,而是让便宜模型处理那些不需要 Opus 的步骤。

这个信号很重要。

便宜模型变香,不是因为大家不在乎质量了。而是大家开始学会判断:质量到底在哪些步骤上最重要。

模型调度示意图:常规工作使用便宜模型,高风险判断使用前沿模型

为什么重要:AI 成本正在变成工作流成本

当 AI 离开聊天框,成本问题会变得完全不同。

一个人在聊天框里问一句问题,贵一点也许还能接受。但一个 Agent 工作流可能连续调用模型:分类、总结、检索、起草、执行、验证、修改、汇报。

这时,模型选择就不再只是技术偏好,而是工作流架构。

团队需要判断:

  • 哪些步骤足够常规,可以用便宜模型?
  • 哪些步骤更需要速度,而不是深推理?
  • 哪些步骤涉及客户、代码、合同、资金或生产系统?
  • 哪些动作必须在人类确认后才能继续?
  • 哪些步骤需要记录下来,方便之后审计成本和判断?

这就是为什么 model routing 不只是工程优化。

它会变成产品能力。

一个永远调用最强模型的产品,demo 可能很好看,但很难规模化。一个永远调用最便宜模型的产品,成本可能漂亮,但容易在关键判断上翻车。

真正难的是中间那层调度。

新的问题:谁来决定用哪个模型?

成熟的 AI 系统,不会让一个模型做所有事情。

它会路由任务。

简单提取交给便宜模型。高频分类交给快模型。复杂规划交给强模型。高风险动作交给强模型之后,再停下来让人确认。

这很像公司运转。

不是每个决定都找 CEO。也不是每件事都交给实习生。好的组织,会把合适级别的判断放到合适的任务上。

AI 产品也需要这层纪律。

模型调度决策层示意图:任务风险、模型路由、Agent 执行和人类审核

团队接下来应该看什么

企业和团队评估 AI Agent 产品时,不要只问:你们用的是哪个模型?

这个问题仍然重要,但已经不够。

更应该问:

  1. 系统会不会按任务难度路由?
    常规步骤不应该默认消耗前沿模型预算。

  2. 系统会不会按风险路由?
    面向客户、财务、法律、生产、安全的步骤,需要更严格的处理。

  3. 系统能不能解释为什么用了这个模型?
    管理者应该知道某一步为什么用了便宜模型、快模型或高级模型。

  4. 系统能不能看见成本?
    AI 成本应该在工作流层面可见,而不是等账单来了才发现。

  5. 系统有没有人类确认点?
    当下一步会改变真实系统时,只做模型路由还不够。

这些问题听起来没有 benchmark 那么性感。

但它们更接近 AI 在公司里真正落地的样子。

这和 Buda 有什么关系

Buda 的核心前提很简单:人类管理 Agent,而不是反过来。

当团队开始使用多个模型时,这件事更重要。一个真正有用的 AI Agent Workspace,不只是模型选择器。它还需要上下文、执行环境、权限、审核、日志,以及任务何时升级的判断机制。

在 Buda 里,团队可以用 Drive 管理知识,让 Agent 在沙盒里执行任务,通过 Channels 和 Skills 连接工作流,并在重要交付前保留人类审核。

目标不是每一步都用最便宜的模型。

目标是每一步都用刚刚好的模型,并在旁边放上刚刚好的人类判断。

便宜模型真正变强,是因为它们进入了一个可管理的 Agent 系统。

Buda dashboard 探索 Agent 工作流。