IA Aplicada · 9 min

Agentes IA multimodales: texto, imagen y audio en un solo flujo

El futuro de los agentes no es monomodal. Así se construyen flujos que entienden texto, ven imágenes y escuchan audio.

Carlos Copisrad · 9 mayo 2026

¿Qué es un agente multimodal?

Un agente multimodal puede recibir y generar múltiples tipos de datos: texto, imágenes, audio, y video. A diferencia de los chatbots de texto puro, estos agentes pueden analizar una captura de pantalla, transcribir un audio de WhatsApp, o interpretar un gráfico y responder en consecuencia.

Stack técnico recomendado

Entrada de texto: Claude Sonnet directamente
Entrada de imagen: Claude Vision (imagen codificada en base64 o URL)
Entrada de audio: Whisper API (OpenAI) para transcribir, luego Claude para procesar
Orquestación: n8n con nodos condicionales según el tipo de input

Ejemplo: clasificador de reclamos con imagen

import anthropic, base64
client = anthropic.Anthropic()

def analizar_imagen(img_path, consulta):
    with open(img_path, 'rb') as f:
        img_b64 = base64.b64encode(f.read()).decode()
    response = client.messages.create(
        model='claude-sonnet-4-5',
        max_tokens=1024,
        messages=[{
            'role': 'user',
            'content': [
                {'type': 'image', 'source': {'type': 'base64', 'media_type': 'image/jpeg', 'data': img_b64}},
                {'type': 'text', 'text': consulta}
            ]
        }]
    )
    return response.content[0].text

Limitaciones a considerar

Costo: el procesamiento de imágenes consume más tokens que texto equivalente
Latencia: los modelos multimodales son más lentos que los de solo texto
Audio: requiere un paso adicional de transcripción antes de pasar a Claude

¿Querés implementar esto en tu empresa? Escribinos. Diagnóstico de 30 minutos sin compromiso.