RAG empresarial: costos reales y cómo reducirlos
RAG no es gratis. Estos son los costos reales y cómo reducirlos sin degradar la calidad.
Carlos Copisrad · 6 mayo 2026
Los componentes de costo de un RAG
Un sistema RAG en producción tiene cuatro fuentes de costo: embeddings, almacenamiento vectorial, inferencia del LLM, y el pipeline de procesamiento de documentos.
| Componente | Servicio | Costo estimado |
|---|---|---|
| Embeddings | text-embedding-3-small | USD 0.02/1M tokens |
| Vector store | pgvector en Supabase | Incluido en Pro |
| LLM (respuesta) | Claude Haiku 3.5 | USD 0.80/1M tokens input |
| LLM (respuesta) | Claude Sonnet | USD 3/1M tokens input |
Caso real: RAG sobre base de conocimiento de soporte
Para una empresa con 5.000 documentos de soporte y 1.000 consultas/día, los costos mensuales son aproximadamente:
- Indexación inicial (una vez): USD 2-5
- Re-indexación semanal de documentos nuevos: USD 0.50
- Embeddings de consultas: USD 3-8/mes
- LLM para respuestas (usando Haiku): USD 15-40/mes
- Total: USD 20-55/mes
Estrategias de optimización
1. Caché de embeddings
Las mismas preguntas se repiten. Guardar el embedding de cada consulta en Redis o Supabase con TTL de 24 horas reduce los llamados a la API de embeddings en un 40-60%.
2. Routing por complejidad
Usar Claude Haiku para el 80% de consultas simples y escalar a Sonnet solo para las complejas. Un clasificador liviano puede hacer este routing con bajo costo adicional.
3. Chunk size optimizado
Chunks demasiado grandes recuperan mucho contexto irrelevante (más tokens al LLM). Chunks muy pequeños pierden contexto. El punto óptimo está entre 512 y 1024 tokens con solapamiento del 10-15%.
4. Filtrado pre-retrieval
Si tus documentos tienen metadatos (categoría, fecha, tipo), filtrar antes de buscar por similaridad reduce el espacio de búsqueda y mejora la precisión.
¿Querés implementar esto en tu empresa? Escribinos. Diagnóstico de 30 minutos sin compromiso.