便宜 AI 模型重新變香：為什麼 Model Routing 會變重要

大模型太貴了。

這已經不是一句抱怨，而是 AI 產品進入真實工作流之後，所有團隊都要面對的一筆帳。

6 月 9 日，TechCrunch 發了一篇文章：Can tech companies learn to love cheaper AI models? 問題很直接：科技公司能不能重新喜歡上更便宜的 AI 模型？

6 月 5 日，CNBC 也討論了類似趨勢：model routing 正在成為控制 AI 超支的一種方式。簡單、高頻任務交給更便宜的模型；困難、高風險任務繼續交給前沿模型。

重點不是最強模型不重要了。

重點是，最強模型會變成需要被謹慎調度的稀缺資源。

發生了什麼：便宜模型重新變得有用

過去兩年，AI 產品最容易講的故事是：我們接入了最強模型。

在 demo 裡，這句話很好用。

但在生產環境裡，它很快會遇到成本問題。

一個真實的 Agent 任務，不是一輪對話。它可能要讀文件、找資料、拆步驟、寫程式、檢查結果、修復錯誤，再產出最終交付物。每一步都呼叫最貴模型，帳單會很快變得不好看。

TechCrunch 提到 Harvey 和 Fireworks AI 的一次測試。根據報導，Harvey 把 Claude Opus 和 Fireworks 的 GLM 5.1 組合使用，在不降低品質的情況下，把推理成本降低了 3 倍。關鍵不是完全替換強模型，而是讓便宜模型處理那些不需要 Opus 的步驟。

這個訊號很重要。

便宜模型變香，不是因為大家不在乎品質了。而是大家開始學會判斷：品質到底在哪些步驟上最重要。

模型調度示意圖：常規工作使用便宜模型，高風險判斷使用前沿模型

為什麼重要：AI 成本正在變成工作流成本

當 AI 離開聊天框，成本問題會變得完全不同。

一個人在聊天框裡問一句問題，貴一點也許還能接受。但一個 Agent 工作流可能連續呼叫模型：分類、總結、檢索、起草、執行、驗證、修改、彙報。

這時，模型選擇就不再只是技術偏好，而是工作流架構。

團隊需要判斷：

哪些步驟足夠常規，可以用便宜模型？
哪些步驟更需要速度，而不是深推理？
哪些步驟涉及客戶、程式碼、合約、資金或生產系統？
哪些動作必須在人類確認後才能繼續？
哪些步驟需要記錄下來，方便之後審計成本和判斷？

這就是為什麼 model routing 不只是工程優化。

它會變成產品能力。

一個永遠呼叫最強模型的產品，demo 可能很好看，但很難規模化。一個永遠呼叫最便宜模型的產品，成本可能漂亮，但容易在關鍵判斷上翻車。

真正難的是中間那層調度。

新的問題：誰來決定用哪個模型？

成熟的 AI 系統，不會讓一個模型做所有事情。

它會路由任務。

簡單提取交給便宜模型。高頻分類交給快模型。複雜規劃交給強模型。高風險動作交給強模型之後，再停下來讓人確認。

這很像公司運轉。

不是每個決定都找 CEO。也不是每件事都交給實習生。好的組織，會把合適級別的判斷放到合適的任務上。

AI 產品也需要這層紀律。

模型調度決策層示意圖：任務風險、模型路由、Agent 執行和人類審核

團隊接下來應該看什麼

企業和團隊評估 AI Agent 產品時，不要只問：你們用的是哪個模型？

這個問題仍然重要，但已經不夠。

更應該問：

系統會不會按任務難度路由？
常規步驟不應該預設消耗前沿模型預算。
系統會不會按風險路由？
面向客戶、財務、法律、生產、安全的步驟，需要更嚴格的處理。
系統能不能解釋為什麼用了這個模型？
管理者應該知道某一步為什麼用了便宜模型、快模型或高級模型。
系統能不能看見成本？
AI 成本應該在工作流層面可見，而不是等帳單來了才發現。
系統有沒有人類確認點？
當下一步會改變真實系統時，只做模型路由還不夠。

這些問題聽起來沒有 benchmark 那麼性感。

但它們更接近 AI 在公司裡真正落地的樣子。

這和 Buda 有什麼關係

Buda 的核心前提很簡單：人類管理 Agent，而不是反過來。

當團隊開始使用多個模型時，這件事更重要。一個真正有用的 AI Agent Workspace，不只是模型選擇器。它還需要上下文、執行環境、權限、審核、日誌，以及任務何時升級的判斷機制。

在 Buda 裡，團隊可以用 Drive 管理知識，讓 Agent 在沙盒裡執行任務，透過 Channels 和 Skills 連接工作流，並在重要交付前保留人類審核。

目標不是每一步都用最便宜的模型。

目標是每一步都用剛剛好的模型，並在旁邊放上剛剛好的人類判斷。

便宜模型真正變強，是因為它們進入了一個可管理的 Agent 系統。

在 Buda dashboard 探索 Agent 工作流。