IA Aplicada · 9 min

RAG empresarial: costos reales y cómo reducirlos

RAG no es gratis. Estos son los costos reales y cómo reducirlos sin degradar la calidad.

Carlos Copisrad · 6 mayo 2026

Los componentes de costo de un RAG

Un sistema RAG en producción tiene cuatro fuentes de costo: embeddings, almacenamiento vectorial, inferencia del LLM, y el pipeline de procesamiento de documentos.

Componente	Servicio	Costo estimado
Embeddings	text-embedding-3-small	USD 0.02/1M tokens
Vector store	pgvector en Supabase	Incluido en Pro
LLM (respuesta)	Claude Haiku 3.5	USD 0.80/1M tokens input
LLM (respuesta)	Claude Sonnet	USD 3/1M tokens input

Caso real: RAG sobre base de conocimiento de soporte

Para una empresa con 5.000 documentos de soporte y 1.000 consultas/día, los costos mensuales son aproximadamente:

Indexación inicial (una vez): USD 2-5
Re-indexación semanal de documentos nuevos: USD 0.50
Embeddings de consultas: USD 3-8/mes
LLM para respuestas (usando Haiku): USD 15-40/mes
Total: USD 20-55/mes

Estrategias de optimización

1. Caché de embeddings

Las mismas preguntas se repiten. Guardar el embedding de cada consulta en Redis o Supabase con TTL de 24 horas reduce los llamados a la API de embeddings en un 40-60%.

2. Routing por complejidad

Usar Claude Haiku para el 80% de consultas simples y escalar a Sonnet solo para las complejas. Un clasificador liviano puede hacer este routing con bajo costo adicional.

3. Chunk size optimizado

Chunks demasiado grandes recuperan mucho contexto irrelevante (más tokens al LLM). Chunks muy pequeños pierden contexto. El punto óptimo está entre 512 y 1024 tokens con solapamiento del 10-15%.

4. Filtrado pre-retrieval

Si tus documentos tienen metadatos (categoría, fecha, tipo), filtrar antes de buscar por similaridad reduce el espacio de búsqueda y mejora la precisión.

¿Querés implementar esto en tu empresa? Escribinos. Diagnóstico de 30 minutos sin compromiso.