Microsoft lanza herramienta de código abierto para evaluar el comportamiento de modelos de Inteligencia Artificial mediante descripciones de texto

Qué pasó
Microsoft anunció este martes 2 de junio de 2026 el lanzamiento de ASSERT (Adaptive Spec-driven Scoring for Evaluation and Regression Testing), un marco de trabajo de código abierto diseñado para evaluar el comportamiento de sistemas de inteligencia artificial de manera específica y repetible.
La herramienta funciona transformando descripciones textuales de alto nivel —redactadas en lenguaje natural— sobre los objetivos, políticas o comportamientos esperados de un modelo de IA en un conjunto estructurado de pruebas con puntuación. Esto permite que las empresas verifiquen si sus aplicaciones basadas en IA operan dentro de los parámetros definidos por la organización.
Según detalló la compañía, ASSERT opera en varias etapas: primero toma las descripciones en texto plano sobre el comportamiento esperado y las políticas del modelo; luego las convierte en un conjunto de comportamientos aceptables e inaceptables; posteriormente genera escenarios de problema y casos de prueba; los ejecuta contra el sistema objetivo; y finalmente asigna una puntuación a los resultados.
La plataforma también incluye la capacidad de registrar las rutas que toma el sistema de IA, abarcando acciones intermedias y llamadas a herramientas, lo que permite a los desarrolladores identificar con precisión dónde se producen los fallos. Los desarrolladores pueden proveer contexto del sistema, herramientas y restricciones para personalizar aún más las evaluaciones.
Sarah Bird, directora de producto de IA Responsable en Microsoft, destacó la importancia de estas evaluaciones: "Una de las cosas que hemos aprendido es que las evaluaciones son absolutamente críticas para tomar buenas decisiones. Si no se entiende el comportamiento del sistema de IA, es muy difícil saber si está cumpliendo con los estándares de la organización". Bird agregó que ASSERT puede utilizarse para evaluar sistemas durante su construcción, después del despliegue e incluso para monitoreo continuo.
Contexto
El lanzamiento de ASSERT se produce en un contexto de evolución significativa en la industria de la inteligencia artificial. Si bien los investigadores y laboratorios de IA han avanzado considerablemente en la evaluación de modelos en aspectos como seguridad, cumplimiento normativo y alineación de objetivos, las empresas enfrentan un desafío más específico: asegurar que sus sistemas de IA se comporten según lo previsto para sus productos o servicios concretos.
El sector ha experimentado un cambio gradual pero profundo en los últimos años. A medida que los modelos de IA se vuelven más capaces y complejos, los investigadores están enfocando sus esfuerzos en pruebas repetibles y verificaciones de regresión. Instituciones académicas como la Universidad de Stanford han contribuido a esta discusión, subrayando la necesidad de contar con metodologías de evaluación más rigurosas y estandarizadas.
La demanda de herramientas de evaluación específicas por aplicación refleja una maduración del mercado de IA. Las empresas ya no solo requieren modelos potentes, sino también mecanismos que garanticen que estos modelos operen dentro de los límites definidos por las políticas corporativas y las regulaciones vigentes.
En este escenario, ASSERT de Microsoft se posiciona como una solución que busca cubrir una brecha que las evaluaciones más amplias y generales no pueden abordar cuando los modelos de IA deben comportarse de manera condicionada por el contexto, las políticas y las herramientas de una aplicación o producto específico.
La tendencia hacia marcos de evaluación más sofisticados responde también a la creciente presión regulatoria global. Los gobiernos y organismos internacionales están exigiendo mayores niveles de transparencia y rendición de cuentas en el despliegue de sistemas de IA, lo que impulsa la adopción de herramientas de monitoreo continuo.
Impacto para empresas chilenas
Para las empresas y pymes chilenas que están incorporando inteligencia artificial en sus operaciones, el lanzamiento de herramientas como ASSERT representa una oportunidad relevante. Las organizaciones locales podrán acceder a un marco de trabajo de código abierto que les permitirá validar que sus implementaciones de IA cumplan con las políticas internas y regulaciones chilenas, como la ley de protección de datos personales.
En el mercado local, donde la adopción de IA está creciendo rápidamente tanto en el sector financiero, retail, minería y servicios, contar con herramientas de evaluación accesibles puede acelerar los procesos de implementación y reducir los riesgos asociados al despliegue de sistemas automatizados.
Las empresas chilenas que desarrollan productos basados en IA podrán utilizar ASSERT para realizar pruebas de regresión de manera continua, lo que es especialmente valioso en un entorno donde los modelos se actualizan frecuentemente y las condiciones del mercado cambian con dinamismo.
Para las startups y emprendimientos tecnológicos del ecosistema nacional, la disponibilidad de este tipo de herramientas de código abierto reduce las barreras de entrada y les permite competir con mayores garantías de calidad y seguridad. Esto podría fortalecer la posición de la industria tecnológica chilena en la región.
Asimismo, las empresas reguladas en Chile, como bancos, aseguradoras y prestadores de salud, encontrarán en ASSERT un recurso valioso para documentar y verificar el cumplimiento normativo de sus sistemas de IA, un requisito que está volviéndose cada vez más exigente por parte de las autoridades supervisoras.
Qué sigue
La liberación de ASSERT como proyecto de código abierto sugiere que Microsoft busca establecer un estándar en la industria para la evaluación de comportamiento de IA. Es probable que en los próximos meses veamos integraciones con otras herramientas de desarrollo y plataformas de despliegue de modelos.
La adopción generalizada de marcos de evaluación como ASSERT podría anticipar futuras regulaciones que exijan a las empresas demostrar que sus sistemas de IA han sido sometidos a pruebas rigurosas de comportamiento antes de su implementación en entornos productivos.
A mediano plazo, se espera que otras grandes tecnológicas desarrollen soluciones similares, lo que podría llevar a una estandarización de las metodologías de evaluación de IA a nivel global, beneficiando especialmente a las pymes y empresas emergentes que requieren marcos claros y accesibles.
¿Listo para automatizar la atención a tus clientes?
Construye un chatbot inteligente que responda preguntas frecuentes, integre IA y trabaje 24/7. Sin código, en minutos.
Construye tu chatbotArtículos Relacionados

Fundadores con experiencia en Goldman Sachs y Meta crean plataforma de IA de voz para mercados emergentes
La startup AethexAI recaudó US$ 3 millones en una ronda pre-seed para desarrollar tecnología de inteligencia artificial enfocada en mercados de África y Medio Oriente. La empresa construyó sus propios modelos de lenguaje reducidos para mitigar problemas de latencia y adaptar la tecnología a dialectos locales. Su enfoque busca resolver las barreras técnicas que han impedido la adopción de IA conversacional en regiones emergentes.

Amazon implementará imágenes generadas por inteligencia artificial en sus resultados de búsqueda
La plataforma de comercio electrónico Amazon anunció la integración de imágenes generadas por inteligencia artificial en su motor de búsqueda. La iniciativa busca orientar a los consumidores cuando utilizan términos imprecisos, mostrando fotografías sintéticas de productos. Expertos del sector cuestionan la medida, señalando que podría generar confusión entre los usuarios al mostrar artículos que no existen físicamente en el inventario.

Coralogix levanta US$ 200 millones para desarrollar la capa de monitoreo de agentes de inteligencia artificial
La empresa israelí-estadounidense Coralogix recaudó US$ 200 millones en una ronda Serie F, alcanzando una valoración de US$ 1.600 millones. La inversión refleja la creciente demanda de herramientas de observabilidad para sistemas de inteligencia artificial autónomos. Este financiamiento se suma a los US$ 115 millones obtenidos hace 11 meses, totalizando US$ 550 millones levantados hasta la fecha.