
大模型太贵了。
这已经不是一句抱怨,而是 AI 产品进入真实工作流之后,所有团队都要面对的一笔账。
6 月 9 日,TechCrunch 发了一篇文章:Can tech companies learn to love cheaper AI models? 问题很直接:科技公司能不能重新喜欢上更便宜的 AI 模型?
6 月 5 日,CNBC 也讨论了类似趋势:model routing 正在成为控制 AI 超支的一种方式。简单、高频任务交给更便宜的模型;困难、高风险任务继续交给前沿模型。
重点不是最强模型不重要了。
重点是,最强模型会变成需要被谨慎调度的稀缺资源。
发生了什么:便宜模型重新变得有用
过去两年,AI 产品最容易讲的故事是:我们接入了最强模型。
在 demo 里,这句话很好用。
但在生产环境里,它很快会遇到成本问题。
一个真实的 Agent 任务,不是一轮对话。它可能要读文件、找资料、拆步骤、写代码、检查结果、修复错误,再产出最终交付物。每一步都调用最贵模型,账单会很快变得不好看。
TechCrunch 提到 Harvey 和 Fireworks AI 的一次测试。根据报道,Harvey 把 Claude Opus 和 Fireworks 的 GLM 5.1 组合使用,在不降低质量的情况下,把推理成本降低了 3 倍。关键不是完全替换强模型,而是让便宜模型处理那些不需要 Opus 的步骤。
这个信号很重要。
便宜模型变香,不是因为大家不在乎质量了。而是大家开始学会判断:质量到底在哪些步骤上最重要。
为什么重要:AI 成本正在变成工作流成本
当 AI 离开聊天框,成本问题会变得完全不同。
一个人在聊天框里问一句问题,贵一点也许还能接受。但一个 Agent 工作流可能连续调用模型:分类、总结、检索、起草、执行、验证、修改、汇报。
这时,模型选择就不再只是技术偏好,而是工作流架构。
团队需要判断:
- 哪些步骤足够常规,可以用便宜模型?
- 哪些步骤更需要速度,而不是深推理?
- 哪些步骤涉及客户、代码、合同、资金或生产系统?
- 哪些动作必须在人类确认后才能继续?
- 哪些步骤需要记录下来,方便之后审计成本和判断?
这就是为什么 model routing 不只是工程优化。
它会变成产品能力。
一个永远调用最强模型的产品,demo 可能很好看,但很难规模化。一个永远调用最便宜模型的产品,成本可能漂亮,但容易在关键判断上翻车。
真正难的是中间那层调度。
新的问题:谁来决定用哪个模型?
成熟的 AI 系统,不会让一个模型做所有事情。
它会路由任务。
简单提取交给便宜模型。高频分类交给快模型。复杂规划交给强模型。高风险动作交给强模型之后,再停下来让人确认。
这很像公司运转。
不是每个决定都找 CEO。也不是每件事都交给实习生。好的组织,会把合适级别的判断放到合适的任务上。
AI 产品也需要这层纪律。
团队接下来应该看什么
企业和团队评估 AI Agent 产品时,不要只问:你们用的是哪个模型?
这个问题仍然重要,但已经不够。
更应该问:
-
系统会不会按任务难度路由?
常规步骤不应该默认消耗前沿模型预算。 -
系统会不会按风险路由?
面向客户、财务、法律、生产、安全的步骤,需要更严格的处理。 -
系统能不能解释为什么用了这个模型?
管理者应该知道某一步为什么用了便宜模型、快模型或高级模型。 -
系统能不能看见成本?
AI 成本应该在工作流层面可见,而不是等账单来了才发现。 -
系统有没有人类确认点?
当下一步会改变真实系统时,只做模型路由还不够。
这些问题听起来没有 benchmark 那么性感。
但它们更接近 AI 在公司里真正落地的样子。
这和 Buda 有什么关系
Buda 的核心前提很简单:人类管理 Agent,而不是反过来。
当团队开始使用多个模型时,这件事更重要。一个真正有用的 AI Agent Workspace,不只是模型选择器。它还需要上下文、执行环境、权限、审核、日志,以及任务何时升级的判断机制。
在 Buda 里,团队可以用 Drive 管理知识,让 Agent 在沙盒里执行任务,通过 Channels 和 Skills 连接工作流,并在重要交付前保留人类审核。
目标不是每一步都用最便宜的模型。
目标是每一步都用刚刚好的模型,并在旁边放上刚刚好的人类判断。
便宜模型真正变强,是因为它们进入了一个可管理的 Agent 系统。
在 Buda dashboard 探索 Agent 工作流。