Agentes de voz con IA en México: del demo a producción 24/7
Cómo diseñar e implementar un agente conversacional que efectivamente atienda llamadas en producción, en español mexicano, integrado a tu CRM.
El demo es la parte fácil. Hoy cualquier developer puede armar un prototipo de agente de voz en una tarde: un LLM le da el script, un proveedor de voz neural le da la naturalidad, y un carrier le da la llamada. Lo difícil empieza cuando ese prototipo tiene que atender 2 000 llamadas reales al día, integrarse a tu CRM legacy, no romperse cuando el LLM alucina, y darte métricas que el comité de operaciones acepte. Esto es lo que aprendimos llevando agentes a producción en banca, retail y salud durante los últimos dos años.
El stack que recomiendo en 2026
En Sisvox hemos probado decenas de combinaciones. La que mejor balance de costo, latencia y naturalidad nos ha dado en español mexicano se compone de cuatro capas:
- Motor unificado en tiempo real que maneje STT + LLM + TTS dentro de la misma sesión WebSocket. Hoy hay varias opciones propietarias serias en este espacio y la elección depende del caso. Lo importante: bajar la latencia a menos de 500 ms. Esto es crítico — el oído humano detecta pausas mayores a 700 ms como "raras".
- Orquestación: n8n para webhooks, CRM, calendarios. Es self-hostable, tiene retries, y maneja queues. Lo preferimos sobre Zapier o Make por costo y control.
- Telefonía: Asterisk puro o Issabel cuando el cliente requiere DID propio, grabación legal o integración con un PBX existente. Si arrancan de cero, Twilio o Vonage son aceptables. Para suites propietarias enterprise referimos a Sisvox directamente.
- Observabilidad: Grafana + Loki + Postgres. Cada llamada produce 6-8 eventos que registramos: inicio, intención detectada, tool calls, escalamiento humano, resolución, NPS. Sin esto, vuelas a ciegas.
El error más común: lanzar sin métricas
El 80% de los proyectos de IA conversacional que veo fracasan por la misma razón — los lanzan, suenan bien en demos, y nadie sabe si están sirviendo. Antes de prender un agente en producción tienes que tener instrumentado:
- AHT (average handle time) — duración promedio. El agente debe ser más rápido que un humano, no más lento.
- Tasa de resolución sin transferencia — porcentaje de llamadas que termina sin necesidad de un operador. Buen agente: 60-80%. Mal agente: 20%.
- NPS post-llamada — preguntar al final "del 0 al 10, qué tan probable es que recomiende esta atención". El IVR lo captura.
- CSAT antes vs después — encuesta a las dos cohortes: las que recibieron humano y las que recibieron IA. Si el delta es negativo, regresa al diseño.
Recomiendo correr el agente 30 días en el 10% del tráfico antes de escalar. Los datos que salen de ese piloto son los que convencen al comité.
Diseño conversacional: el 70% del éxito
El system prompt no es código, es un guion. Y como cualquier guion necesita rondas de revisión, ensayos y feedback. Lo escribo siempre con un experto del dominio del cliente (no solo con el equipo de TI): si es un agente de RH, me siento con la directora de RH; si es de cobranza, con el supervisor del piso. Sin ese contexto, el agente suena genérico.
Lo otro que aplico siempre: incluir reglas de escalamiento humano explícitas. "Si el usuario pide hablar con persona, transferir sin discutir." "Si la consulta involucra montos superiores a X, transferir." "Si detectas frustración (3 reintentos sin avance), ofrecer humano." Los agentes que se aferran al guion cuando claramente el usuario quiere a alguien son los que generan los peores ratings.
Privacidad y compliance — no es opcional
En México: Ley Federal de Protección de Datos Personales en Posesión de los Particulares (LFPDPPP). Esto implica grabación cifrada en reposo, consentimiento explícito al inicio de la llamada ("para mejorar la calidad del servicio esta conversación puede ser grabada"), y borrado configurable. En salud agregamos NOM-024-SSA3. En banca, las regulaciones de CNBV.
Tip: pásale al cliente los textos de consentimiento aprobados por su área legal antes de empezar a desarrollar. Cambiar el consentimiento a mitad del proyecto re-graba todo el dataset y te puede empujar 2 semanas.
Costos reales (2026)
Para un agente con LLM moderno (Claude Haiku 4.5 o GPT-5-nano) más voz neural, los números que vemos:
- Voz: USD 0.08 - 0.30 por minuto, dependiendo del proveedor de TTS y de cuántos tools llama el LLM.
- Chat: ~10× más barato que voz (mismas peticiones LLM, sin TTS/STT).
- Telefonía saliente: USD 0.005 - 0.02 por minuto en México vía SIP.
- Infraestructura de orquestación (n8n, Postgres, observabilidad): USD 50-300 al mes según volumen.
Para 10 000 llamadas/mes de 2 minutos promedio: USD 1 600 - 6 000/mes. Comparar contra el costo de operadores humanos: típicamente 1 humano = USD 800-1 500/mes en México. Punto de equilibrio: ~3 humanos.
Cuándo NO usar agente de voz con IA
Soy honesto con los clientes: hay casos donde no recomiendo. Si tu volumen es menor a 200 llamadas al día, el ROI no se ve hasta el año dos. Si tus llamadas son altamente regulatorias (asesoría financiera, diagnóstico médico), todavía requieren humano. Si tu cliente promedio es mayor de 70 años o de zonas con bajo acceso digital, prefiere operador. Y si tu marca depende fuertemente de "calidez humana" en la atención (psicología, soporte de duelo), un agente IA puede dañar la percepción.
Cierre
Los agentes de voz con IA pasaron en 2024 de "demo bonito" a "infraestructura crítica". Pero pasar el puente requiere disciplina de producto, métricas, y un equipo que entienda tanto LLMs como telefonía clásica. En Sisvox lo hacemos todo el día — si tu equipo está evaluando este camino, agendemos 30 minutos para diagnosticar dónde estás y qué necesitas para llegar a producción.
Escríbeme a hola@luisrodolfo.com o por WhatsApp al +52 55 4026 6346.