En Nerai Labs construimos chatbots de WhatsApp con IA para empresas que reciben cientos o miles de mensajes por día, y la diferencia entre un proyecto que se usa y uno que termina apagado a las dos semanas casi nunca es el modelo de lenguaje. Es la arquitectura alrededor del modelo: qué datos consulta, cuándo escala a un humano, cómo controla las alucinaciones y cuánto cuesta cada conversación. WhatsApp es el canal donde está el cliente en LATAM, con tasas de apertura que las mediciones serias ubican entre el 90 y el 98 por ciento según el tipo de mensaje, pero también es un canal donde una respuesta inventada sobre un precio o una política de devolución genera un problema real con un cliente real. Acá compartimos cómo lo encaramos, con los números y los tradeoffs que vemos en producción.

Por qué los chatbots de WhatsApp con IA reemplazan a los flujos rígidos

Los bots de árbol de decisión (apretá 1, apretá 2) funcionaron durante años, pero tienen un techo claro: el cliente tiene que adaptarse al menú en lugar de escribir lo que quiere. La tasa de abandono en esos flujos suele rondar el 40 al 60 por ciento cuando la consulta no encaja en una opción prearmada. Un chatbot con un modelo de lenguaje entiende intención en lenguaje natural: “no me llegó el pedido que hice el martes” dispara directamente la consulta de tracking sin que nadie navegue un menú.

La contracara honesta es que el modelo, librado a su suerte, inventa. Si le preguntás por una política que no conoce, la deduce con confianza total. Por eso ningún chatbot serio para empresa se construye solo con un prompt. Se construye con RAG (recuperación de información sobre la base de conocimiento real) más reglas de negocio explícitas más un camino de escalamiento. El modelo redacta y entiende; la fuente de verdad son los documentos y los sistemas del negocio. Conviene además separar dos métricas que muchos confunden: deflexión (el bot evitó que la consulta llegara a un humano) y resolución (el cliente de verdad solucionó su problema). Un bot puede tener 90 por ciento de deflexión y 40 por ciento de resolución real. La que importa es la segunda.

La arquitectura que usamos en producción

Una implementación que aguanta producción tiene tres capas. Primero, la integración con la API oficial de WhatsApp Business (Cloud API de Meta), no soluciones que automatizan WhatsApp Web, porque esas últimas se banean y no escalan. Segundo, una capa de orquestación que decide qué hacer con cada mensaje: responder con conocimiento, consultar un sistema externo (CRM, ERP, sistema de turnos) vía función, o derivar a un humano. Tercero, el motor de RAG sobre la documentación, el catálogo y las preguntas frecuentes, con los datos vectorizados y actualizables sin tocar código.

El detalle que más impacto tiene en calidad es el manejo de contexto. WhatsApp es conversacional y asincrónico: alguien escribe tres mensajes seguidos, después desaparece dos horas, y vuelve. El bot tiene que agrupar esos mensajes, mantener el hilo y no perder el estado de una compra a medias. Construyendo estos sistemas en producción aprendimos que el 80 por ciento de los bugs de un chatbot no están en las respuestas sino en el manejo de estado y los casos borde: el usuario que cambia de tema, el que manda un audio, el que escribe a las 3 de la mañana.

Cómo controlamos las alucinaciones

La calidad de un chatbot empresarial se juega en lo que no dice. El modelo nunca debe ser la fuente de un precio, un stock o una política: esos datos salen de una consulta en tiempo real al sistema o de un documento recuperado por RAG, y el modelo solo los redacta. Cuando la pregunta no tiene respaldo en el conocimiento disponible, la respuesta correcta es admitir que no se sabe y derivar, no improvisar. Tres controles concretos que aplicamos: forzar que toda afirmación sobre datos del negocio venga con una fuente recuperada (grounding), acotar el alcance del bot con instrucciones explícitas sobre qué temas están fuera de su mandato, y registrar cada respuesta para poder auditar después dónde el modelo se salió del libreto. Cuando hay plata, salud o temas legales de por medio, preferimos un bot que diga “te paso con una persona” antes que uno que arriesgue una respuesta linda pero falsa.

Costos reales: lo que nadie te dice antes de firmar

Hay dos costos que se suman y conviene separar. Por un lado, desde el 1 de julio de 2025 WhatsApp cobra por mensaje de plantilla entregado, no por conversación como antes. Las categorías son marketing, utilidad, autenticación y servicio. Los mensajes de marketing son los más caros (aproximadamente entre 0,025 y 0,14 dólares según el país), los de utilidad y autenticación son bastante más baratos (del orden de fracciones de centavo a unos pocos centavos), y acá está la clave para soporte: los mensajes de servicio dentro de la ventana de atención al cliente de 24 horas que se abre cuando el cliente escribe primero son gratuitos. Un bot de soporte bien pensado, que responde a consultas entrantes, mueve gran parte de su tráfico por esa ventana sin costo de mensajería.

Por otro lado, está el costo del modelo de IA por mensaje procesado. Para dar referencias concretas de 2026: un modelo grande (tipo GPT-5 o Claude Sonnet) ronda los 3 a 5 dólares por millón de tokens de entrada, mientras que uno chico y rápido (tipo GPT-5 mini o Gemini Flash) baja al orden de 0,15 a 0,75 dólares de entrada, hasta diez veces más barato. Ese diferencial es el que define la economía del proyecto.

Acá va el tradeoff concreto que evaluamos en cada proyecto:

  • Modelo grande para todo: mejor comprensión, pero un costo por conversación que puede ser 10 a 16 veces el de un modelo chico, lo que importa cuando manejás miles de chats diarios.
  • Modelo chico o un enrutador que clasifica primero y solo escala a un modelo grande las consultas complejas: baja el costo entre 60 y 80 por ciento manteniendo calidad en el 90 por ciento de los casos simples (estado de pedido, horarios, precios).

Para un volumen de 5 mil conversaciones mensuales, esa decisión de arquitectura es la diferencia entre un costo de IA de pocas decenas de dólares y uno de varios cientos. La elegimos según el mix de consultas reales del cliente, no por default.

El escalamiento a humano no es opcional

Un chatbot que no sabe cuándo callarse es un riesgo. Definimos disparadores explícitos de derivación: el cliente lo pide, el modelo detecta baja confianza, aparece una palabra sensible (reclamo legal, cancelación, dato de tarjeta), o se superan dos intentos sin resolver. En nuestras implementaciones apuntamos a que el bot resuelva de forma autónoma entre el 60 y el 75 por ciento de las consultas en los primeros meses, en línea con los benchmarks de la industria para 2026, que ubican la resolución de despliegues estándar en torno al 65 al 70 por ciento y reservan el 85 por ciento o más para plataformas muy maduras y entrenadas. Ese número sube a medida que la base de conocimiento mejora con las conversaciones reales. Prometer 95 por ciento de automatización desde el día uno es una señal de alerta.

El handoff tiene que ser limpio: el agente humano recibe todo el contexto de la conversación, no empieza de cero. Si el equipo de soporte ya usa una herramienta, integramos el bot ahí en lugar de obligarlos a mirar dos pantallas.

Integraciones: donde el bot deja de ser un FAQ

Un chatbot que solo contesta preguntas frecuentes es útil pero limitado. El salto de valor aparece cuando el bot ejecuta acciones contra los sistemas reales del negocio. Consultar el estado de un pedido en el ERP, agendar un turno en el calendario, registrar un reclamo en el CRM, validar un cliente contra la base, generar un link de pago. Eso se resuelve con llamadas a funciones (function calling) que el modelo dispara cuando detecta la intención, siempre contra APIs con sus propias validaciones y permisos. La regla que seguimos: el modelo decide qué función llamar, pero la función es código determinístico que controla qué se puede y qué no. Así el bot pasa de deflectar consultas a cerrar gestiones completas, que es donde se ve el retorno real.

Cómo medimos si funciona

Sin métricas, un chatbot es una caja negra. Las cuatro que miramos desde la primera semana son: tasa de resolución autónoma (cuántas consultas cierra el bot sin humano, no solo cuántas deflecta), tiempo de primera respuesta (el bot lo lleva de minutos u horas a segundos), tasa de derivación correcta (que escale cuando debe, ni de más ni de menos) y satisfacción medida con una pregunta simple al final del chat. Instrumentamos esto desde el inicio porque la primera versión nunca es la definitiva: las primeras 500 conversaciones reales te muestran exactamente dónde el bot falla, y ahí es donde se gana o se pierde el proyecto.

Construir un chatbot de WhatsApp con IA que sirva a una empresa es menos un problema de prompts y más un problema de ingeniería: integraciones confiables, control de costos, manejo de estado y una salida ordenada hacia humanos.

Contanos cuántos mensajes por día recibís y qué sistemas tiene que tocar el bot (tu CRM, el ERP, el sistema de turnos), y armamos la arquitectura y el cálculo de costo por conversación para tu mix real de consultas.