Microsoft lanza herramienta de código abierto para evaluar el comportamiento de modelos de Inteligencia Artificial mediante descripciones de texto

Qué pasó

Microsoft anunció este martes 2 de junio de 2026 el lanzamiento de ASSERT (Adaptive Spec-driven Scoring for Evaluation and Regression Testing), un marco de trabajo de código abierto diseñado para evaluar el comportamiento de sistemas de inteligencia artificial de manera específica y repetible.

La herramienta funciona transformando descripciones textuales de alto nivel —redactadas en lenguaje natural— sobre los objetivos, políticas o comportamientos esperados de un modelo de IA en un conjunto estructurado de pruebas con puntuación. Esto permite que las empresas verifiquen si sus aplicaciones basadas en IA operan dentro de los parámetros definidos por la organización.

Según detalló la compañía, ASSERT opera en varias etapas: primero toma las descripciones en texto plano sobre el comportamiento esperado y las políticas del modelo; luego las convierte en un conjunto de comportamientos aceptables e inaceptables; posteriormente genera escenarios de problema y casos de prueba; los ejecuta contra el sistema objetivo; y finalmente asigna una puntuación a los resultados.

La plataforma también incluye la capacidad de registrar las rutas que toma el sistema de IA, abarcando acciones intermedias y llamadas a herramientas, lo que permite a los desarrolladores identificar con precisión dónde se producen los fallos. Los desarrolladores pueden proveer contexto del sistema, herramientas y restricciones para personalizar aún más las evaluaciones.

Sarah Bird, directora de producto de IA Responsable en Microsoft, destacó la importancia de estas evaluaciones: "Una de las cosas que hemos aprendido es que las evaluaciones son absolutamente críticas para tomar buenas decisiones. Si no se entiende el comportamiento del sistema de IA, es muy difícil saber si está cumpliendo con los estándares de la organización". Bird agregó que ASSERT puede utilizarse para evaluar sistemas durante su construcción, después del despliegue e incluso para monitoreo continuo.

Contexto

El lanzamiento de ASSERT se produce en un contexto de evolución significativa en la industria de la inteligencia artificial. Si bien los investigadores y laboratorios de IA han avanzado considerablemente en la evaluación de modelos en aspectos como seguridad, cumplimiento normativo y alineación de objetivos, las empresas enfrentan un desafío más específico: asegurar que sus sistemas de IA se comporten según lo previsto para sus productos o servicios concretos.

El sector ha experimentado un cambio gradual pero profundo en los últimos años. A medida que los modelos de IA se vuelven más capaces y complejos, los investigadores están enfocando sus esfuerzos en pruebas repetibles y verificaciones de regresión. Instituciones académicas como la Universidad de Stanford han contribuido a esta discusión, subrayando la necesidad de contar con metodologías de evaluación más rigurosas y estandarizadas.

La demanda de herramientas de evaluación específicas por aplicación refleja una maduración del mercado de IA. Las empresas ya no solo requieren modelos potentes, sino también mecanismos que garanticen que estos modelos operen dentro de los límites definidos por las políticas corporativas y las regulaciones vigentes.

En este escenario, ASSERT de Microsoft se posiciona como una solución que busca cubrir una brecha que las evaluaciones más amplias y generales no pueden abordar cuando los modelos de IA deben comportarse de manera condicionada por el contexto, las políticas y las herramientas de una aplicación o producto específico.

La tendencia hacia marcos de evaluación más sofisticados responde también a la creciente presión regulatoria global. Los gobiernos y organismos internacionales están exigiendo mayores niveles de transparencia y rendición de cuentas en el despliegue de sistemas de IA, lo que impulsa la adopción de herramientas de monitoreo continuo.

Impacto para empresas chilenas

Para las empresas y pymes chilenas que están incorporando inteligencia artificial en sus operaciones, el lanzamiento de herramientas como ASSERT representa una oportunidad relevante. Las organizaciones locales podrán acceder a un marco de trabajo de código abierto que les permitirá validar que sus implementaciones de IA cumplan con las políticas internas y regulaciones chilenas, como la ley de protección de datos personales.

En el mercado local, donde la adopción de IA está creciendo rápidamente tanto en el sector financiero, retail, minería y servicios, contar con herramientas de evaluación accesibles puede acelerar los procesos de implementación y reducir los riesgos asociados al despliegue de sistemas automatizados.

Las empresas chilenas que desarrollan productos basados en IA podrán utilizar ASSERT para realizar pruebas de regresión de manera continua, lo que es especialmente valioso en un entorno donde los modelos se actualizan frecuentemente y las condiciones del mercado cambian con dinamismo.

Para las startups y emprendimientos tecnológicos del ecosistema nacional, la disponibilidad de este tipo de herramientas de código abierto reduce las barreras de entrada y les permite competir con mayores garantías de calidad y seguridad. Esto podría fortalecer la posición de la industria tecnológica chilena en la región.

Asimismo, las empresas reguladas en Chile, como bancos, aseguradoras y prestadores de salud, encontrarán en ASSERT un recurso valioso para documentar y verificar el cumplimiento normativo de sus sistemas de IA, un requisito que está volviéndose cada vez más exigente por parte de las autoridades supervisoras.

Qué sigue

La liberación de ASSERT como proyecto de código abierto sugiere que Microsoft busca establecer un estándar en la industria para la evaluación de comportamiento de IA. Es probable que en los próximos meses veamos integraciones con otras herramientas de desarrollo y plataformas de despliegue de modelos.

La adopción generalizada de marcos de evaluación como ASSERT podría anticipar futuras regulaciones que exijan a las empresas demostrar que sus sistemas de IA han sido sometidos a pruebas rigurosas de comportamiento antes de su implementación en entornos productivos.

A mediano plazo, se espera que otras grandes tecnológicas desarrollen soluciones similares, lo que podría llevar a una estandarización de las metodologías de evaluación de IA a nivel global, beneficiando especialmente a las pymes y empresas emergentes que requieren marcos claros y accesibles.

Microsoft lanza herramienta de código abierto para evaluar el comportamiento de modelos de Inteligencia Artificial mediante descripciones de texto

Qué pasó

Contexto

Impacto para empresas chilenas

Qué sigue

Artículos Relacionados

Reelful: aplicación móvil utiliza inteligencia artificial para transformar archivos fotográficos en videos cortos para redes sociales

Anthropic y Blackstone crean Ode, empresa de implementación de inteligencia artificial valorada en USD 1.500 millones

Plataforma de comercio en vivo Whatnot adquiere firma de inteligencia artificial Shaped para reforzar su motor de recomendaciones