IA Aplicada · 9 min
Agentes IA multimodales: texto, imagen y audio en un solo flujo
El futuro de los agentes no es monomodal. Así se construyen flujos que entienden texto, ven imágenes y escuchan audio.
Carlos Copisrad · 9 mayo 2026
¿Qué es un agente multimodal?
Un agente multimodal puede recibir y generar múltiples tipos de datos: texto, imágenes, audio, y video. A diferencia de los chatbots de texto puro, estos agentes pueden analizar una captura de pantalla, transcribir un audio de WhatsApp, o interpretar un gráfico y responder en consecuencia.
Stack técnico recomendado
- Entrada de texto: Claude Sonnet directamente
- Entrada de imagen: Claude Vision (imagen codificada en base64 o URL)
- Entrada de audio: Whisper API (OpenAI) para transcribir, luego Claude para procesar
- Orquestación: n8n con nodos condicionales según el tipo de input
Ejemplo: clasificador de reclamos con imagen
import anthropic, base64
client = anthropic.Anthropic()
def analizar_imagen(img_path, consulta):
with open(img_path, 'rb') as f:
img_b64 = base64.b64encode(f.read()).decode()
response = client.messages.create(
model='claude-sonnet-4-5',
max_tokens=1024,
messages=[{
'role': 'user',
'content': [
{'type': 'image', 'source': {'type': 'base64', 'media_type': 'image/jpeg', 'data': img_b64}},
{'type': 'text', 'text': consulta}
]
}]
)
return response.content[0].textLimitaciones a considerar
- Costo: el procesamiento de imágenes consume más tokens que texto equivalente
- Latencia: los modelos multimodales son más lentos que los de solo texto
- Audio: requiere un paso adicional de transcripción antes de pasar a Claude
¿Querés implementar esto en tu empresa? Escribinos. Diagnóstico de 30 minutos sin compromiso.