En Nerai Labs nos llegan muchas consultas que empiezan igual: “queremos un agente de IA”. Cuando preguntamos qué tiene que hacer, la respuesta suele ser difusa. Por eso vale la pena ordenar el tema antes de gastar plata. Un agente de IA no es un chatbot más lindo ni una integración de ChatGPT en la intranet. Es un sistema que recibe un objetivo, decide qué pasos dar, usa herramientas reales (una base de datos, una API, un CRM) y ejecuta acciones, no solo texto. Esa diferencia entre “responder” y “ejecutar” es la que define si el proyecto te ahorra horas o te suma un juguete caro. El contexto del mercado lo resume bien un dato de Gartner: proyecta que para fines de 2027 más del 40 por ciento de los proyectos de IA agéntica se van a cancelar por costos descontrolados y ROI poco claro. La oportunidad es real, pero la tasa de fracaso también, y casi siempre se cae por la misma razón: arrancar por la herramienta en vez de por el problema.

Qué son los agentes de IA para empresas y en qué se diferencian de un chatbot

Un chatbot tradicional sigue un árbol de decisiones armado a mano: si el usuario dice A, respondé B. Un agente de IA, en cambio, usa un modelo de lenguaje como motor de decisión y tiene acceso a herramientas que puede invocar. El modelo razona qué hacer, llama a una función (por ejemplo, “consultar stock del producto X”), lee el resultado y sigue hasta cumplir el objetivo o pedir ayuda.

La distinción práctica es esta: el chatbot te dice “tu pedido está demorado”; el agente consulta el sistema de envíos, detecta que el paquete se trabó, genera una etiqueta nueva y manda el aviso al cliente. Uno informa, el otro resuelve. Esa capacidad de actuar es también lo que sube el riesgo, porque un agente que ejecuta mal una acción puede borrar datos o mandar un correo equivocado a 500 personas. Por eso el diseño de límites importa tanto como el modelo elegido.

Hay un componente técnico que conviene entender desde el principio: el “tool calling” (la capacidad del modelo de invocar funciones) es lo que convierte un chat en un agente. Y un estándar abierto, el Model Context Protocol (MCP), se volvió en 2025 y 2026 la forma común de conectar agentes con herramientas externas. Pasó a manos de la Linux Foundation y hoy lo soportan, de forma nativa o vía adaptadores, todos los frameworks importantes. Para vos eso significa una cosa práctica: las integraciones que hagas hoy tienen más chance de seguir sirviendo el año que viene.

Casos de uso reales que sí justifican la inversión

No todo problema necesita un agente. Conviene cuando la tarea tiene pasos variables, requiere consultar varias fuentes y hoy la hace una persona copiando y pegando entre sistemas. Algunos casos donde vimos retorno concreto:

  • Soporte de primer nivel que lee la documentación interna (RAG) y resuelve entre el 40 y el 60 por ciento de los tickets sin intervención humana, escalando el resto con contexto ya armado.
  • Procesamiento de facturas o remitos: el agente extrae datos, los valida contra el ERP y marca las excepciones, bajando el tiempo de carga manual de minutos a segundos por documento.
  • Calificación de leads: cruza el formulario con datos públicos y el historial del CRM, asigna prioridad y agenda el seguimiento.

Lo que tienen en común no es la industria, es la estructura: tarea repetitiva, con reglas claras pero demasiadas variantes para un flujo rígido. Si tu proceso entra en una planilla de cinco columnas sin excepciones, no necesitás un agente, necesitás una automatización simple y más barata. Un dato que ayuda a calibrar expectativas: estudios de mercado de 2026 ubican el tiempo medio hasta ver valor en torno a los 5 meses, con casos más rápidos como agentes de prospección comercial que se pagan en 3 a 4 meses, y otros más lentos como finanzas y operaciones que tardan cerca de 9. Si alguien te promete retorno en dos semanas, desconfiá.

Cómo empezar sin quemar presupuesto

El error más común que vemos es arrancar por la herramienta (“usemos tal framework de agentes”) en vez de por el problema. Nuestro orden es el inverso. Primero elegimos un caso de uso acotado, con un dueño claro del lado del negocio y una métrica que ya se pueda medir hoy: tickets resueltos, minutos por factura, leads contactados en 24 horas. Si no podés medir el “antes”, no vas a poder defender el “después”.

Después definimos el alcance mínimo. Un primer agente bien hecho hace una sola cosa y la hace confiable. Es preferible un agente que resuelve el 50 por ciento de los casos con 99 por ciento de precisión que uno que intenta el 100 por ciento y se equivoca uno de cada cinco. La precisión genera confianza interna; los errores tempranos matan la adopción y el proyecto entero. Esto no es teoría: datos de Gartner e informes de industria de 2026 estiman que cerca del 9 de cada 10 pilotos de agentes nunca llegan a producción, y los bloqueadores principales no son el modelo sino la falta de evaluación, la fricción de gobernanza y la fiabilidad.

Un detalle nada menor: arrancá con datos reales pero en un entorno de prueba, y siempre con una pasada en seco antes de habilitar acciones que escriben o borran. Nosotros gateamos las operaciones que modifican datos detrás de un flag y las activamos recién cuando los números de la simulación cierran. Es la diferencia entre un piloto controlado y un susto en producción.

Cuánto cuesta en serio: modelos, tokens e infraestructura

Acá es donde muchos proyectos se desarman, porque se mira el precio del modelo y se ignora el resto. Empecemos por el modelo. A junio de 2026, los precios de referencia por millón de tokens son aproximadamente así: en la familia Claude, Haiku 4.5 ronda 1 dólar de entrada y 5 de salida, Sonnet 4.6 está en 3 y 15, y Opus 4.7 en 5 y 25. En la familia de OpenAI, GPT-5.5 subió en abril de 2026 a unos 5 dólares de entrada y 30 de salida, con una variante Pro bastante más cara. La salida siempre cuesta varias veces más que la entrada, así que un agente verboso te sale caro sin que lo notes.

La buena noticia: hay palancas concretas para bajar la factura. El procesamiento por lotes (batch) suele costar la mitad. El caché de prompts puede recortar hasta un 90 por ciento el costo de la parte repetida del contexto, algo clave en agentes que mandan las mismas instrucciones una y otra vez. Y la elección de modelo por tarea importa: no hace falta el modelo más caro para clasificar un documento; reservá el grande para los pasos que de verdad lo necesitan. En la práctica, una arquitectura mixta (un modelo barato para el 80 por ciento de los pasos y uno potente para el 20 por ciento difícil) suele recortar el gasto de tokens a una fracción sin perder calidad.

El costo de tokens, además, casi nunca es el grueso del presupuesto en el primer año. El desarrollo, la plomería de datos, las pruebas y el monitoreo pesan más. Un detalle fino que vimos morder a más de uno: cambios de tokenizador entre versiones de un mismo modelo pueden generar más tokens para el mismo texto, así que conviene medir el costo real por operación, no asumirlo a partir del precio de lista.

Qué stack usamos y por qué no es lo primero que decidimos

La herramienta se elige después del problema, no antes. Dicho eso, el panorama de 2026 se ordenó bastante y vale conocerlo. Para flujos con estado y necesidades de producción serias (reintentos, checkpoints, trazabilidad), LangGraph es una opción sólida y con muchos despliegues empresariales reales. Para prototipar rápido un esquema multi-agente, CrewAI te lleva de la idea a una demo funcionando en pocas horas. Para agentes muy integrados al ecosistema de cada proveedor están el Agents SDK de OpenAI y el Claude Agent SDK de Anthropic, este último con la integración más profunda de MCP. Y para entornos Google Cloud y casos multimodales, Google ADK.

Ninguno de estos frameworks resuelve el problema de fondo por vos. Resuelven la coordinación; el valor sigue estando en el caso de uso, los datos y los límites. Nuestra recomendación: elegí el más simple que cumpla el requisito de hoy y evitá quedar casado con una herramienta. Como casi todos hablan MCP, mover una integración de un framework a otro es mucho menos doloroso que hace un par de años.

La pieza que casi todos subestiman: los datos y los límites

Un agente es tan bueno como el contexto al que accede. Si tu documentación está desactualizada o tus datos viven en cinco sistemas que no se hablan, el agente va a heredar ese desorden y a amplificarlo. Antes de modelar nada, conviene mapear de dónde sale la información y qué tan confiable es. En la práctica, buena parte del trabajo de un proyecto de agentes es de plomería de datos, no de inteligencia artificial.

Igual de importante son los límites. Un agente serio necesita saber qué puede hacer solo y cuándo tiene que frenar y pedir aprobación humana. Para acciones de bajo riesgo (responder una consulta, clasificar un documento) puede actuar autónomo. Para acciones sensibles (emitir un reembolso, modificar un contrato) ponemos un paso de revisión humana. Definir esa línea no es un detalle técnico, es una decisión de negocio sobre cuánto riesgo estás dispuesto a delegar. Y no es un tema menor de madurez: según relevamientos de Deloitte de 2026, solo alrededor del 21 por ciento de las empresas tiene un modelo de gobernanza de agentes maduro, justo cuando la adopción se acelera.

Gobernanza, seguridad y el factor humano

Hay riesgos que aparecen recién cuando el agente toca sistemas reales. Un agente con acceso a herramientas es, en los hechos, un usuario más con permisos: si le das la llave del CRM completo, puede hacer cualquier cosa que un humano con esa llave haría, incluido un error a escala. Por eso aplicamos el principio de menor privilegio (que el agente acceda solo a lo que su tarea exige), registramos cada acción que ejecuta para poder auditarla, y ponemos topes (cuántos correos puede mandar por hora, cuánta plata puede mover sin aprobación).

También está la inyección de instrucciones: si tu agente lee un correo o un documento externo, alguien podría esconder ahí órdenes para que haga algo que no debe. No es paranoia, es una clase de ataque conocida y vigente en 2026. La defensa es de diseño: separar datos de instrucciones, validar salidas antes de ejecutar acciones críticas y mantener al humano en el lazo donde el daño potencial es alto. La adopción interna, además, depende de la confianza: un equipo que vio al agente equivocarse feo una vez tarda meses en volver a usarlo.

Cómo medimos si funciona

Antes de declarar el éxito miramos tres cosas. Tasa de resolución autónoma: qué porcentaje de casos cierra el agente sin que intervenga una persona. Precisión: de lo que resolvió solo, cuánto estuvo bien, medido contra una muestra revisada a mano. Y costo por operación, sumando el gasto de modelo más infraestructura, comparado contra el costo del proceso manual que reemplaza.

Esos tres números te dicen si escalar o frenar. Un agente con buena resolución pero baja precisión necesita más límites o mejor contexto, no más volumen. Uno preciso pero caro quizás convenga solo en los casos de mayor valor. Nuestra recomendación honesta: empezá chico, medí en serio durante un mes con tráfico real y dejá que los datos decidan el próximo paso. Los agentes de IA para empresas dan retorno cuando se tratan como un sistema productivo con métricas, no como una demo que impresiona en una reunión.

Contanos qué tarea querés que ejecute el agente y qué métrica medís hoy en ese proceso, y te decimos si conviene un agente o una automatización más simple, y cómo armaríamos un primer piloto acotado con la escritura gateada detrás de un flag.