Investigadores de IBM presentan VAKRA: el nuevo estándar que evalúa las debilidades de los agentes de inteligencia artificial en el sector corporativo

Qué pasó

El 15 de abril de 2026, un equipo liderado por investigadores de IBM Research publicó un estudio detallado sobre VAKRA, un benchmark ejecutable y basado en herramientas que evalúa cómo los agentes de inteligencia artificial razonan y actúan en entornos corporativos. La plataforma proporciona un ecosistema donde los sistemas automatizados interactúan con más de 8.000 APIs alojadas localmente, respaldadas por bases de datos reales que abarcan 62 dominios diferentes, junto con colecciones de documentos alineados a estos sectores.

A diferencia de las pruebas tradicionales que evalúan habilidades aisladas, VAKRA mide el razonamiento composicional exigiendo a los agentes que completen tareas que requieren cadenas de lógica de entre 3 y 7 pasos. Estas instrucciones combinan la interacción estructurada con APIs y la recuperación de información no estructurada, todo bajo restricciones de uso de herramientas en lenguaje natural.

El estudio detalló cuatro tareas principales. La primera de ellas, denominada encadenamiento de APIs utilizando interfaces de inteligencia empresarial, incluye 2.077 instancias de prueba a lo largo de 54 dominios. En esta prueba, los agentes deben encadenar entre 1 y 12 llamadas a herramientas para llegar a una respuesta concreta. Por ejemplo, para identificar un equipo de fútbol específico, el modelo debe filtrar bases de datos secuenciales según velocidades y estadísticas de juego precisas.

Pese a los avances en la materia, los investigadores señalaron que los modelos actuales de inteligencia artificial presentan un rendimiento deficiente en VAKRA. El análisis expone los modos de falla específicos que los sistemas exhiben al intentar ejecutar flujos de trabajo complejos, demostrando que la ejecución fiable de tareas sigue siendo un desafío significativo para la industria tecnológica.

Contexto

El ecosistema de la inteligencia artificial está experimentando una transición desde los modelos de lenguaje generativo básicos hacia agentes autónomos capaces de ejecutar acciones concretas. Sin embargo, la adopción masiva de estos sistemas en el ámbito corporativo requiere garantizar su precisión y fiabilidad. Históricamente, la industria ha carecido de métricas estandarizadas que evalúen el rendimiento de los agentes más allá de la generación de texto aislado.

Las empresas dependen en gran medida de la integración de sistemas a través de interfaces de programación de aplicaciones. Cuando una compañía automatiza un proceso, como la gestión de inventarios o el análisis financiero, el agente de inteligencia artificial debe ser capaz de conectar datos estructurados y no estructurados sin cometer errores. El concepto de razonamiento composicional se vuelve crítico, ya que exige que la máquina entienda el contexto general y ejecute instrucciones de principio a fin.

Implementar agentes automatizados en entornos de producción sin comprender sus modos de falla conlleva riesgos operacionales significativos. Compañías de software y corporaciones a nivel global están comenzando a exigir pruebas más rigurosas antes de integrar estas tecnologías en sus flujos de trabajo esenciales. En este escenario, herramientas de evaluación avanzada como VAKRA emergen como un recurso indispensable para medir la madurez tecnológica de las soluciones disponibles en el mercado.

Impacto para empresas chilenas

Para el mercado local, la llegada de estándares de evaluación como VAKRA tiene implicancias directas en la forma en que las empresas y pymes chilenas adoptan la inteligencia artificial. A medida que la transformación digital se consolida en la industria nacional, las organizaciones buscan automatizar procesos complejos que conectan distintas áreas operativas y financieras.

En el sector retail y financiero de Chile, donde la integración de datos es fundamental para la toma de decisiones, contar con sistemas automatizados que fallen en cadenas de razonamiento de múltiples pasos puede resultar en pérdidas millonarias. Las métricas de este tipo permiten a las empresas locales auditar las soluciones tecnológicas antes de adquirirlas, garantizando que el software soporte la carga y complejidad de sus operaciones diarias.

Asimismo, el emprendimiento tecnológico chileno enfocado en el desarrollo de software corporativo debe observar estos estándares para asegurar la competitividad de sus productos a nivel global. Evaluar los modos de falla bajo parámetros estrictos permitirá a las pymes de software ofrecer plataformas más robustas, evitando costosos errores de implementación y fortaleciendo la confianza de sus clientes corporativos en la automatización de procesos.

Qué sigue

El uso generalizado de herramientas de diagnóstico como VAKRA obligará a los desarrolladores a priorizar la precisión en la ejecución de tareas sobre la mera capacidad conversacional. Se anticipa un incremento en la inversión en investigación y desarrollo para resolver los errores lógicos detectados en los agentes autónomos.

En el mediano plazo, el mercado tecnológico madurará hacia un modelo donde la adquisición de software basado en inteligencia artificial exigirá certificaciones de rendimiento en entornos simulados. Las compañías exigirán garantías comprobables de que los sistemas pueden manejar miles de interacciones de datos simultáneas antes de integrarlos en sus operaciones críticas.

Investigadores de IBM presentan VAKRA: el nuevo estándar que evalúa las debilidades de los agentes de inteligencia artificial en el sector corporativo

Qué pasó

Contexto

Impacto para empresas chilenas

Qué sigue

Artículos Relacionados

Reelful: aplicación móvil utiliza inteligencia artificial para transformar archivos fotográficos en videos cortos para redes sociales

Anthropic y Blackstone crean Ode, empresa de implementación de inteligencia artificial valorada en USD 1.500 millones

Plataforma de comercio en vivo Whatnot adquiere firma de inteligencia artificial Shaped para reforzar su motor de recomendaciones