EMO: Un nuevo modelo de inteligencia artificial que optimiza la arquitectura de mezcla de expertos

Qué pasó

El equipo de investigación de Allen Institute for AI (Ai2), una de las principales instituciones en el desarrollo de inteligencia artificial a nivel mundial, anunció el lanzamiento de EMO (Emergent Mixture of Experts), un nuevo modelo de lenguaje que introduce una mejora sustancial en la arquitectura conocida como mezcla de expertos (MoE, por sus siglas en inglés). El anuncio fue realizado oficialmente el 8 de mayo de 2026, acompañado de la publicación de un informe técnico detallado, el código

La innovación central de EMO radica en su capacidad para desarrollar una estructura modular de manera emergente a partir de los datos de entrenamiento, prescindiendo de la necesidad de imponer categorías semánticas predefinidas por desarrolladores humanos. En modelos tradicionales de mezcla de expertos, se pretendía que diferentes componentes se especializaran en áreas como matemáticas, programación o ciencias biológicas. Sin embargo, la evidencia demostró que estos expertos tendían a especializarse en patrones léxicos de bajo nivel, como preposiciones o signos de puntuación, limitando su utilidad práctica para aplicaciones específicas.

EMO resuelve esta limitación mediante un proceso de preentrenamiento de extremo a extremo que permite que la estructura modular surja de forma natural. El resultado es un modelo capaz de mantener un rendimiento cercano al máximo utilizando únicamente el 12,5% de sus expertos para una tarea determinada. Esto representa una reducción dramática en los requisitos computacionales, ya que los modelos de lenguaje más avanzados del mercado alcanzan rutinariamente billones de parámetros, haciendo que su operación resulte prohibitiva para la mayoría de las organizaciones.

Los investigadores Ryan Wang y Kyle Wiggers, miembros del equipo de comunicaciones de Ai2, explicaron que el modelo mantiene su capacidad como sistema de propósito general cuando todos los expertos se activan en conjunto. Esta flexibilidad dual lo convierte en una herramienta versátil para diferentes escenarios de uso empresarial y de investigación.

El proyecto está disponible en la plataforma Hugging Face, el repositorio más utilizado por la comunidad global de inteligencia artificial, lo que facilita su adopción y experimentación por parte de desarrolladores, investigadores y empresas de todo el mundo.

Contexto

La arquitectura de mezcla de expertos ha ganado una relevancia significativa en el ecosistema de la inteligencia artificial durante los últimos años, como respuesta a los desafíos que plantea el crecimiento exponencial en el tamaño de los modelos de lenguaje. Los sistemas monolíticos tradicionales, que operan como una única entidad unificada, requieren cargar todos sus parámetros en memoria para funcionar, independientemente de la complejidad de la tarea que deban ejecutar. Este enfoque genera ineficiencias considerables en términos de costos de infraestructura y consumo energético.

La industria tecnológica ha buscado soluciones que permitan disponer de capacidades avanzadas sin incurrir en los gastos asociados a la operación de modelos de billones de parámetros. En este contexto, el enfoque de mezcla de expertos propone la existencia de múltiples redes neuronales más pequeñas, donde solo un subconjunto se activa para cada tarea específica. Sin embargo, las implementaciones previas de esta arquitectura enfrentaban problemas fundamentales de especialización, lo que obligaba a utilizar el modelo completo para obtener resultados aceptables.

El trabajo de instituciones como Ai2 con proyectos como FlexOlmo y la iniciativa BTX había explorado la posibilidad de asignar tokens a expertos basándose en dominios semánticos predefinidos. No obstante, esta metodología presentaba limitaciones importantes, como la necesidad de etiquetar extensos corpus de entrenamiento y la introducción de sesgos humanos en la organización del modelo.

El mercado global de infraestructura para inteligencia artificial, dominado por empresas como Nvidia, Google, Microsoft y Meta, ha experimentado una presión creciente para desarrollar soluciones más eficientes. La demanda de capacidad computacional para entrenar y desplegar modelos de lenguaje sigue superando la oferta disponible, lo que ha elevado los costos de acceso para empresas de menor tamaño y centros de investigación.

EMO se posiciona en este escenario como una propuesta que busca democratizar el acceso a modelos de alto rendimiento al reducir drásticamente los recursos necesarios para su operación, sin comprometer la calidad de los resultados obtenidos.

Impacto para empresas chilenas

Para el mercado local chileno, el desarrollo de modelos como EMO representa una oportunidad relevante para pymes y empresas medianas que buscan integrar capacidades de inteligencia artificial en sus operaciones sin incurrir en inversiones prohibitivas en infraestructura. La posibilidad de utilizar solo una fracción de los parámetros de un modelo avanzado reduce significativamente los costos de computación en la nube, que constituyen uno de los principales obstáculos para la adopción de estas tecnologías en el sector privado nacional.

El ecosistema emprendedor chileno, particularmente las startups de base tecnológica, podría beneficiarse de esta mayor eficiencia computacional al poder desarrollar productos y servicios basados en inteligencia artificial con menores barreras de entrada. Esto es especialmente relevante considerando que el financiamiento disponible para empresas en etapa temprana en Chile suele ser más limitado en comparación con mercados como Estados Unidos o Europa.

Las empresas de servicios tecnológicos en Chile, que han experimentado un crecimiento sostenido en los últimos años, podrían incorporar esta tecnología para ofrecer soluciones más competitivas a sus clientes corporativos. La capacidad de desplegar modelos especializados para tareas específicas, como análisis financiero, atención al cliente o procesamiento de documentos legales, sin necesidad de mantener infraestructura para modelos completos, mejora la propuesta de valor de estas organizaciones.

En el ámbito académico, las universidades chilenas que realizan investigación en inteligencia artificial podrían aprovechar el acceso abierto a EMO para avanzar en proyectos de investigación aplicada. La disponibilidad del código fuente y las herramientas de visualización facilita la experimentación y la formación de nuevos profesionales especializados en esta área del conocimiento.

No obstante, la adopción efectiva de esta tecnología en el país dependerá de factores como la disponibilidad de talento calificado, la conectividad a servicios de computación en la nube y la velocidad con la que las organizaciones locales logren identificar casos de uso concretos para sus necesidades específicas.

Qué sigue

Los investigadores de Ai2 han señalado que EMO abre nuevas líneas de investigación en el campo de la modularidad emergente en modelos de inteligencia artificial. El equipo continuará explorando cómo esta arquitectura puede adaptarse a dominios completamente nuevos que no estaban presentes durante la fase de preentrenamiento, lo que representaría un avance significativo hacia modelos verdaderamente flexibles y adaptables.

Para la industria global de la inteligencia artificial, este desarrollo sugiere un cambio potencial en la forma en que se diseñan y despliegan los modelos de lenguaje a gran escala. Si la tendencia hacia arquitecturas modulares más eficientes se consolida, las empresas podrían reconsiderar sus estrategias de inversión en infraestructura de computación, priorizando soluciones que ofrezcan un mejor equilibrio entre rendimiento y costo operativo.

El impacto a largo plazo de tecnologías como EMO podría acelerar la democratización del acceso a la inteligencia artificial avanzada, permitiendo que organizaciones de menor tamaño en mercados emergentes, incluyendo América Latina, puedan competir en igualdad de condiciones con actores más grandes en el desarrollo de aplicaciones basadas en estas herramientas.

EMO: Un nuevo modelo de inteligencia artificial que optimiza la arquitectura de mezcla de expertos

Qué pasó

Contexto

Impacto para empresas chilenas

Qué sigue

Artículos Relacionados

Reelful: aplicación móvil utiliza inteligencia artificial para transformar archivos fotográficos en videos cortos para redes sociales

Anthropic y Blackstone crean Ode, empresa de implementación de inteligencia artificial valorada en USD 1.500 millones

Plataforma de comercio en vivo Whatnot adquiere firma de inteligencia artificial Shaped para reforzar su motor de recomendaciones