Modelos de IA mais baratos voltaram: por que model routing importa

Modelos grandes de IA são caros.

Isso já não é apenas uma reclamação de times financeiros. É uma restrição de produto para qualquer empresa que queira colocar agentes de IA em workflows reais.

Em 9 de junho, a TechCrunch publicou Can tech companies learn to love cheaper AI models?. A mudança é prática: empresas ainda querem os melhores modelos, mas não querem usar o modelo mais caro em cada etapa.

A CNBC fez um ponto parecido em 5 de junho, tratando model routing como resposta ao excesso de gastos com IA. Trabalho fácil e de alto volume pode ir para modelos mais baratos. Trabalho difícil e arriscado continua indo para modelos frontier.

A história não é que modelos fortes importam menos.

A história é que modelos fortes estão virando um recurso escasso, que precisa ser roteado com cuidado.

O que aconteceu: modelos baratos voltaram a ser úteis

Nos últimos dois anos, o posicionamento de produtos de IA era simples: usar o modelo mais forte disponível.

Isso funcionava em demos.

Funciona menos em produção.

Uma tarefa real de agente não é um prompt. Ela pode envolver ler arquivos, buscar fontes, planejar passos, escrever código, verificar saída, corrigir erros e produzir um artefato final. Se cada passo usa o modelo mais caro, o custo cresce rápido.

A TechCrunch destacou um teste envolvendo Harvey e Fireworks AI. Segundo a reportagem, Harvey combinou Claude Opus com GLM 5.1 da Fireworks e reduziu o custo de inferência em 3x sem reduzir qualidade. O ponto não foi substituir o modelo forte em tudo. Foi usar capacidade mais barata nas partes que não precisavam de Opus.

Esse é o sinal importante.

Modelos baratos não estão vencendo porque equipes deixaram de se importar com qualidade. Eles estão ganhando espaço porque equipes estão aprendendo onde qualidade é realmente necessária.

Mapa de model routing mostrando modelos baratos para trabalho rotineiro e modelos frontier para decisões de alto risco

Por que importa: custo de IA virou custo de workflow

A pergunta sobre custo muda quando a IA sai da caixa de chat.

Em uma interface de chat, uma chamada cara pode ser aceitável. Em um workflow de agente, a mesma tarefa pode acionar várias chamadas: classificar, resumir, recuperar, rascunhar, executar, verificar, revisar e reportar.

Isso transforma escolha de modelo em arquitetura de workflow.

Equipes precisam decidir:

Quais etapas são rotineiras o suficiente para modelos baratos?
Quais etapas precisam mais de velocidade do que raciocínio profundo?
Quais etapas afetam clientes, código, contratos, dinheiro ou produção?
Quais etapas exigem aprovação humana antes de continuar?
Quais etapas devem ser registradas para auditoria de custo e julgamento?

É por isso que model routing é mais que otimização de engenharia.

É capacidade de produto.

Um produto que sempre chama o modelo mais forte pode parecer bom em uma demo, mas pode ser caro demais para escalar. Um produto que sempre chama o modelo mais barato pode controlar custo, mas falhar onde julgamento importa.

A parte difícil é a camada intermediária.

A nova pergunta: quem decide qual modelo trabalha?

Um sistema maduro de IA não pede que um modelo faça tudo.

Ele roteia trabalho.

Extração simples pode ir para um modelo barato. Classificação de alto volume pode ir para um modelo rápido. Planejamento complexo pode ir para um modelo forte. Uma ação arriscada pode ir para um modelo forte e depois parar para confirmação humana.

Isso parece uma empresa.

Nem toda decisão vai para o CEO. Nem toda tarefa pertence ao estagiário. Boas organizações colocam o nível certo de julgamento no trabalho certo.

Produtos de IA agora precisam da mesma disciplina.

Diagrama de camada de decisão mostrando risco da tarefa, model routing, execução do agente e revisão humana

O que equipes devem fazer agora

Equipes que adotam agentes de IA devem parar de avaliar produtos apenas perguntando qual modelo eles usam.

Essa pergunta ainda importa.

Só está incompleta.

Pergunte também:

O sistema roteia por dificuldade da tarefa?
Etapas rotineiras não deveriam consumir orçamento de frontier model por padrão.
O sistema roteia por risco?
Etapas ligadas a clientes, finanças, jurídico, produção ou segurança precisam de tratamento mais rígido.
O sistema explica a escolha do modelo?
Gestores devem saber por que uma etapa usou um modelo barato, rápido ou premium.
O sistema mantém custo visível?
Custo de IA deve ser visível no nível do workflow, não apenas depois da fatura.
O sistema inclui checkpoints humanos?
Model routing não basta quando a próxima ação pode alterar sistemas reais.

Essas perguntas são menos chamativas que gráficos de benchmark.

Também estão mais perto de como IA vira útil dentro de uma empresa.

Como isso se conecta ao Buda

O Buda parte de uma ideia simples: humanos gerenciam agentes, não o contrário.

Isso fica mais importante quando equipes usam múltiplos modelos. Um AI Agent Workspace útil precisa de mais que um seletor de modelos. Precisa de contexto, execução, permissões, revisão, logs e uma forma de decidir quando uma tarefa deve escalar.

No Buda, equipes podem organizar conhecimento no Drive, executar agentes em sandboxes, conectar workflows com Channels e Skills, e manter humanos no loop antes de trabalhos importantes irem ao ar.

O objetivo não é usar sempre o modelo mais barato.

O objetivo é usar o modelo certo para cada etapa, com o julgamento humano certo ao redor.

É aí que modelos baratos ficam poderosos: não como compromisso, mas como parte de um sistema de agentes gerenciado.

Explore workflows de agentes no Buda dashboard.