Arquitetura de sistemas IA — Maestria6 / 9

Engenharia de Custos — Orçamentos de Tokens que Funcionam

Um recurso de IA que encanta em 100 usuários pode quebrar você em 100.000. Custo é uma restrição arquitetônica, projetada — não descoberta na fatura.

Publicado em 15 de mai. de 20262 min de leituraHaythem Rehouma · Claude Mastery

Engenharia de Custos — Orçamentos de Tokens que Funcionam

Software tradicional fica mais barato por usuário conforme você escala. Software de IA fica mais caro — cada requisição custa tokens. Se a economia unitária não for projetada, o crescimento é o que te mata.

Orçamento por requisição

Decida, por funcionalidade, um orçamento de tokens da mesma forma que você limitaria queries no BD. Conheça o custo de tokens de entrada + saída de uma requisição típica e o pior caso. "Custo por requisição × requisições/mês" é uma planilha que você pode consertar antes de virar uma fatura que não pode.

Estratificação de modelos

Nem toda etapa precisa do seu melhor modelo. Use um modelo barato e rápido para roteamento, classificação, reescrita de queries e verificações de fidelidade; reserve o modelo caro para a etapa onde qualidade é o produto. Isso frequentemente é uma redução de custo de 2–5x com qualidade igual.

Cache em tudo que é possível cachear

Cache de prompt/resposta para requisições estáveis e repetidas.
Cache de prompt (lado do provedor) para o prefixo grande e imutável de um prompt.
Cache de recuperação para que queries populares não pesquisem novamente.

Um cache hit é uma requisição quase gratuita.

Negocie qualidade por custo deliberadamente

Custos controlados. Próximo: fazer isso rápido — latência e throughput em escala.

Engenharia de Custos — Orçamentos de Tokens que Funcionam

Orçamento por requisição

Estratificação de modelos

Cache em tudo que é possível cachear

Negocie qualidade por custo deliberadamente

Skills do Claude relacionadas para instalar

Compartilhar este artigo

Série — Arquitetura de sistemas IA — Maestria

Continue aprendendo

O curso Claude Mastery