Software & Tech

Epidemiología de los fallos: OpenAI corrige un error de dieciocho años en la infraestructura de ChatGPT

5 de julio de 20264 min de lectura

Qué pasó

Hace algunos meses, el equipo de infraestructura de OpenAI detectó caídas recurrentes en Rockset, un sistema de datos nativo de la nube adquirido por la compañía en 2024 y utilizado para alimentar módulos de datos de ChatGPT y para realizar búsquedas sobre conversaciones. Las funciones escritas en C++ finalizaban su ejecución de manera normal, pero devolvían el control a una dirección de memoria inexistente, lo que provocaba que el núcleo del sistema operativo detuviera el proceso.

En algunos casos, la dirección de retorno aparecía con valor nulo. En otros, el puntero de pila del procesador estaba desplazado en ocho bytes respecto de su valor esperado, como si hubiera sido alterado durante la ejecución normal. El equipo descartó múltiples hipótesis con evidencia sólida, dado que estos patrones no corresponden a fallas típicas del código de aplicación y resultaban estadísticamente improbables.

La investigación concluyó que se trataba de dos fallas no relacionadas, descubiertas de manera coincidente. La primera correspondía a una corrupción silenciosa de hardware en un servidor de Azure, donde la unidad central de procesamiento realizaba cálculos de forma incorrecta. La segunda era una condición de carrera de dieciocho años en GNU libunwind, una biblioteca de código abierto ampliamente utilizada para el desenrollado de pila en el ecosistema Linux.

El artículo técnico publicado por OpenAI describe cómo el equipo adoptó un enfoque epidemiológico para abordar el problema: en lugar de examinar volcados de memoria de forma individual, construyó un conjunto de datos de alta calidad sobre la totalidad de los fallos para identificar patrones en la población completa, metodología que permitió aislar los dos problemas subyacentes que el análisis caso a caso no había logrado detectar.

Contexto

Los modelos de OpenAI dependen crecientemente de infraestructura de datos escalable para buscar información relevante durante el tiempo de inferencia, es decir, en el momento en que los modelos procesan una consulta del usuario. Servicios como Rockset resultan críticos para que ChatGPT consulte bases de conocimiento actualizadas y entregue respuestas precisas a sus usuarios.

Gran parte de estos servicios están escritos en C++, un lenguaje que ofrece control de bajo nivel sobre el procesador y permite maximizar el rendimiento, pero que carece de mecanismos automáticos de seguridad de memoria. Esto implica que errores en el código pueden provocar caídas al escribir en direcciones incorrectas o inexistentes, un riesgo que se amplifica cuando los sistemas operan a escala global.

El caso ilustra los riesgos ocultos de depender de componentes de software heredados: una condición de carrera en GNU libunwind permaneció inadvertida durante casi dos décadas a pesar de su uso masivo, lo que subraya la fragilidad potencial de piezas fundamentales del ecosistema de código abierto.

El episodio pone de relieve una tensión estructural en la industria de la inteligencia artificial: la búsqueda de máximo rendimiento y eficiencia conduce al uso de lenguajes de bajo nivel, mientras que las garantías de seguridad de memoria que ofrecen lenguajes más modernos aún no se han adoptado de manera generalizada en los componentes críticos de la infraestructura.

Impacto para empresas chilenas

Empresas y pymes chilenas que utilizan ChatGPT y otras herramientas de inteligencia artificial en sus operaciones cotidianas dependen, muchas veces sin saberlo, de la estabilidad de servicios como Rockset. Aunque este incidente fue contenido sin afectar aparentemente a los usuarios finales, ilustra la vulnerabilidad de las cadenas tecnológicas sobre las que se apoya la transformación digital del país.

Para las startups locales que desarrollan soluciones sobre infraestructura de grandes proveedores globales, el caso subraya la necesidad de diversificar arquitecturas y mantener planes de contingencia, dado que la concentración de servicios críticos en pocos proveedores introduce riesgos sistémicos que deben considerarse al diseñar cualquier estrategia tecnológica.

La transparencia de OpenAI al publicar un análisis técnico detallado beneficia a desarrolladores y empresas chilenas, que pueden anticipar patrones de falla similares en sus propios sistemas. La metodología de análisis poblacional de errores, en lugar de revisiones caso a caso, constituye una práctica replicable por equipos de ingeniería locales que gestionan infraestructura a escala.

Finalmente, el episodio refuerza el valor del software de código abierto para la industria nacional. Contribuciones globales a proyectos como GNU libunwind terminan protegiendo indirectamente a las empresas chilenas que utilizan componentes derivados en su propia infraestructura tecnológica.

Qué sigue

OpenAI adelantó que reforzará sus procesos de prueba y monitoreo de infraestructura, con énfasis en la detección temprana de fallas de hardware y en auditorías más exhaustivas de las bibliotecas de código abierto sobre las que se soportan sus servicios. Es probable que el enfoque epidemiológico aplicado al análisis de fallos se incorpore como práctica estándar dentro de la compañía.

A nivel sectorial, el caso podría acelerar la discusión sobre la migración gradual hacia lenguajes con seguridad de memoria, una tendencia ya en marcha en otras grandes empresas tecnológicas y que podría redefinir los estándares de construcción de infraestructura crítica para inteligencia artificial en los próximos años.

Fuente:OpenAI Blog

Software & Tech

¿Necesitas software que se adapte exactamente a tu negocio?

Web apps, dashboards, APIs y plataformas a medida. Código propio, sin licencias ni plataformas genéricas.

Cotiza tu proyecto

Respuesta en menos de 24h · Cotizacion sin compromiso

Artículos Relacionados

Software & Tech

Railway capta US$100 millones para competir con AWS en infraestructura cloud nativa para inteligencia artificial

La plataforma cloud con sede en San Francisco anunció una ronda Serie B liderada por TQ Ventures, con la que busca posicionarse como alternativa a los proveedores tradicionales como Amazon Web Services y Google Cloud. La compañía, que ya cuenta con dos millones de desarrolladores y procesa más de diez millones de despliegues mensuales, apunta a reducir los tiempos de implementación que resultan críticos en la era de los asistentes de programación basados en inteligencia artificial. La valoración la sitúa entre las startups de infraestructura más relevantes surgidas durante el actual ciclo de inversión en IA.

8 jun 20264 min

Software & Tech

Apple reporta US$ 1,4 billones en transacciones de la App Store, donde el 90% no paga comisiones a la compañía

La tecnológica estadounidense presentó su informe anual sobre el ecosistema de su tienda de aplicaciones, indicando que las facturaciones y ventas de desarrolladores alcanzaron los US$ 1,4 billones durante 2025. Según la compañía, el 90% de esas transacciones no generaron comisiones para Apple. El reporte se publica días antes de la Conferencia Mundial de Desarrolladores (WWDC), donde se esperan anuncios relevantes en materia de inteligencia artificial.

4 jun 20263 min

Software & Tech

Nuevo modelo de cobro de GitHub Copilot genera rechazo entre desarrolladores por alza en costos

Microsoft anunció el cambio desde una tarifa plana a un modelo de facturación basado en el consumo de tokens para GitHub Copilot, lo que provocaría un aumento significativo en los costos para usuarios individuales y pequeñas empresas. Desarrolladores en foros como Reddit y X reportaron incrementos que van desde US$29 hasta cerca de US$750 mensuales. La medida entrará en vigencia el 1 de junio de 2026 y reaviva el debate sobre la sostenibilidad del modelo de negocios de las herramientas de inteligencia artificial.

30 may 20264 min