Investigadores de IBM presentan VAKRA: el nuevo estándar que evalúa las debilidades de los agentes de inteligencia artificial en el sector corporativo

Qué pasó
El 15 de abril de 2026, un equipo liderado por investigadores de IBM Research publicó un estudio detallado sobre VAKRA, un benchmark ejecutable y basado en herramientas que evalúa cómo los agentes de inteligencia artificial razonan y actúan en entornos corporativos. La plataforma proporciona un ecosistema donde los sistemas automatizados interactúan con más de 8.000 APIs alojadas localmente, respaldadas por bases de datos reales que abarcan 62 dominios diferentes, junto con colecciones de documentos alineados a estos sectores.
A diferencia de las pruebas tradicionales que evalúan habilidades aisladas, VAKRA mide el razonamiento composicional exigiendo a los agentes que completen tareas que requieren cadenas de lógica de entre 3 y 7 pasos. Estas instrucciones combinan la interacción estructurada con APIs y la recuperación de información no estructurada, todo bajo restricciones de uso de herramientas en lenguaje natural.
El estudio detalló cuatro tareas principales. La primera de ellas, denominada encadenamiento de APIs utilizando interfaces de inteligencia empresarial, incluye 2.077 instancias de prueba a lo largo de 54 dominios. En esta prueba, los agentes deben encadenar entre 1 y 12 llamadas a herramientas para llegar a una respuesta concreta. Por ejemplo, para identificar un equipo de fútbol específico, el modelo debe filtrar bases de datos secuenciales según velocidades y estadísticas de juego precisas.
Pese a los avances en la materia, los investigadores señalaron que los modelos actuales de inteligencia artificial presentan un rendimiento deficiente en VAKRA. El análisis expone los modos de falla específicos que los sistemas exhiben al intentar ejecutar flujos de trabajo complejos, demostrando que la ejecución fiable de tareas sigue siendo un desafío significativo para la industria tecnológica.
Contexto
El ecosistema de la inteligencia artificial está experimentando una transición desde los modelos de lenguaje generativo básicos hacia agentes autónomos capaces de ejecutar acciones concretas. Sin embargo, la adopción masiva de estos sistemas en el ámbito corporativo requiere garantizar su precisión y fiabilidad. Históricamente, la industria ha carecido de métricas estandarizadas que evalúen el rendimiento de los agentes más allá de la generación de texto aislado.
Las empresas dependen en gran medida de la integración de sistemas a través de interfaces de programación de aplicaciones. Cuando una compañía automatiza un proceso, como la gestión de inventarios o el análisis financiero, el agente de inteligencia artificial debe ser capaz de conectar datos estructurados y no estructurados sin cometer errores. El concepto de razonamiento composicional se vuelve crítico, ya que exige que la máquina entienda el contexto general y ejecute instrucciones de principio a fin.
Implementar agentes automatizados en entornos de producción sin comprender sus modos de falla conlleva riesgos operacionales significativos. Compañías de software y corporaciones a nivel global están comenzando a exigir pruebas más rigurosas antes de integrar estas tecnologías en sus flujos de trabajo esenciales. En este escenario, herramientas de evaluación avanzada como VAKRA emergen como un recurso indispensable para medir la madurez tecnológica de las soluciones disponibles en el mercado.
Impacto para empresas chilenas
Para el mercado local, la llegada de estándares de evaluación como VAKRA tiene implicancias directas en la forma en que las empresas y pymes chilenas adoptan la inteligencia artificial. A medida que la transformación digital se consolida en la industria nacional, las organizaciones buscan automatizar procesos complejos que conectan distintas áreas operativas y financieras.
En el sector retail y financiero de Chile, donde la integración de datos es fundamental para la toma de decisiones, contar con sistemas automatizados que fallen en cadenas de razonamiento de múltiples pasos puede resultar en pérdidas millonarias. Las métricas de este tipo permiten a las empresas locales auditar las soluciones tecnológicas antes de adquirirlas, garantizando que el software soporte la carga y complejidad de sus operaciones diarias.
Asimismo, el emprendimiento tecnológico chileno enfocado en el desarrollo de software corporativo debe observar estos estándares para asegurar la competitividad de sus productos a nivel global. Evaluar los modos de falla bajo parámetros estrictos permitirá a las pymes de software ofrecer plataformas más robustas, evitando costosos errores de implementación y fortaleciendo la confianza de sus clientes corporativos en la automatización de procesos.
Qué sigue
El uso generalizado de herramientas de diagnóstico como VAKRA obligará a los desarrolladores a priorizar la precisión en la ejecución de tareas sobre la mera capacidad conversacional. Se anticipa un incremento en la inversión en investigación y desarrollo para resolver los errores lógicos detectados en los agentes autónomos.
En el mediano plazo, el mercado tecnológico madurará hacia un modelo donde la adquisición de software basado en inteligencia artificial exigirá certificaciones de rendimiento en entornos simulados. Las compañías exigirán garantías comprobables de que los sistemas pueden manejar miles de interacciones de datos simultáneas antes de integrarlos en sus operaciones críticas.
¿Listo para automatizar la atención a tus clientes?
Construye un chatbot inteligente que responda preguntas frecuentes, integre IA y trabaje 24/7. Sin código, en minutos.
Construye tu chatbotArtículos Relacionados

Fundadores con experiencia en Goldman Sachs y Meta crean plataforma de IA de voz para mercados emergentes
La startup AethexAI recaudó US$ 3 millones en una ronda pre-seed para desarrollar tecnología de inteligencia artificial enfocada en mercados de África y Medio Oriente. La empresa construyó sus propios modelos de lenguaje reducidos para mitigar problemas de latencia y adaptar la tecnología a dialectos locales. Su enfoque busca resolver las barreras técnicas que han impedido la adopción de IA conversacional en regiones emergentes.

Amazon implementará imágenes generadas por inteligencia artificial en sus resultados de búsqueda
La plataforma de comercio electrónico Amazon anunció la integración de imágenes generadas por inteligencia artificial en su motor de búsqueda. La iniciativa busca orientar a los consumidores cuando utilizan términos imprecisos, mostrando fotografías sintéticas de productos. Expertos del sector cuestionan la medida, señalando que podría generar confusión entre los usuarios al mostrar artículos que no existen físicamente en el inventario.

Coralogix levanta US$ 200 millones para desarrollar la capa de monitoreo de agentes de inteligencia artificial
La empresa israelí-estadounidense Coralogix recaudó US$ 200 millones en una ronda Serie F, alcanzando una valoración de US$ 1.600 millones. La inversión refleja la creciente demanda de herramientas de observabilidad para sistemas de inteligencia artificial autónomos. Este financiamiento se suma a los US$ 115 millones obtenidos hace 11 meses, totalizando US$ 550 millones levantados hasta la fecha.