DeepMind presenta DiffusionGemma: modelo experimental de IA que acelera hasta cuatro veces la generación de texto en GPU

14 de junio de 20265 min de lectura

Qué pasó

Google DeepMind anunció el 10 de junio de 2026 el lanzamiento de DiffusionGemma, un modelo experimental de inteligencia artificial que introduce un enfoque de difusión textual para acelerar la generación de lenguaje natural. A diferencia de los modelos autorregresivos tradicionales, que producen texto token por token de forma secuencial, esta arquitectura genera bloques completos de texto en paralelo, lo que permite reducir de manera significativa los tiempos de inferencia.

El modelo, liberado bajo licencia Apache 2.0, posee una arquitectura de 26 mil millones de parámetros totales bajo el esquema de Mezcla de Expertos (MoE, por sus siglas en inglés), aunque solo activa 3,8 mil millones durante la inferencia. De acuerdo con las pruebas publicadas por DeepMind, DiffusionGemma es capaz de superar los mil tokens por segundo en una GPU NVIDIA H100 y los 700 tokens por segundo en una tarjeta NVIDIA GeForce RTX 5090, lo que representa una mejora de hasta cuatro veces respecto de los modelos autorregresivos de la familia Gemma 4 sobre los que fue construido.

La investigación estuvo a cargo de los científicos Brendan O'Donoghue y Sebastian Flennerhag, quienes lideraron la integración de un cabezal de difusión diseñado para maximizar la velocidad de generación. La solución incorpora un mecanismo de atención bidireccional que procesa 256 tokens en simultáneo dentro de cada pasada, lo que habilita ventajas en dominios no lineales como la edición de texto en línea, el completado de código, las secuencias de aminoácidos o los grafos matemáticos.

Otro atributo destacado por la compañía es la capacidad de autocorrección del modelo, ya que evalúa el bloque completo de texto de manera iterativa para corregir errores en tiempo real. En cuanto a los requisitos de hardware, DiffusionGemma opera cómodamente dentro del límite de 18 GB de memoria VRAM que ofrecen las tarjetas gráficas de consumo de gama alta cuando se aplica cuantización, un factor que amplía las posibilidades de despliegue en estaciones de trabajo locales.

DeepMind aclaró que DiffusionGemma se concibe como una herramienta experimental para investigadores y desarrolladores, y que la calidad general de sus resultados es inferior a la de los modelos Gemma 4 autorregresivos. Para aplicaciones que demanden máxima calidad en producción, la compañía recomienda continuar utilizando los modelos estándar de la familia Gemma 4, aunque es posible mejorar el desempeño de DiffusionGemma en tareas específicas mediante fine-tuning.

Contexto

El anuncio se inscribe en una tendencia creciente dentro de la industria de la inteligencia artificial orientada a explorar arquitecturas alternativas al paradigma autorregresivo dominante desde la irrupción de los modelos Transformer. Iniciativas paralelas, como Mercury, Gemini Diffusion y otros proyectos de generación por difusión, han buscado durante los últimos meses demostrar que la generación en paralelo puede competir en velocidad con los modelos convencionales sin sacrificar de forma significativa la coherencia del texto producido.

La apuesta de DeepMind llega en un momento de creciente presión competitiva en el segmento de modelos abiertos. Meta, Mistral, Alibaba y otras compañías han intensificado el ritmo de lanzamientos de modelos con pesos abiertos, lo que ha estrechado la brecha con las soluciones propietarias de OpenAI, Anthropic o Google. En ese escenario, la diferenciación por eficiencia computacional se ha transformado en un eje estratégico clave, dado el costo energético y de capital que implica escalar la inferencia de modelos de gran tamaño.

La decisión de DeepMind de liberar DiffusionGemma bajo licencia Apache 2.0 también responde a la dinámica de la comunidad académica y de desarrolladores independientes, que demanda acceso a arquitecturas de frontera para experimentación. El enfoque de difusión resulta particularmente atractivo para aplicaciones que requieren baja latencia, como asistentes de programación, herramientas de edición colaborativa en tiempo real, agentes conversacionales y sistemas de respuesta inmediata en atención al cliente. La publicación de benchmarks y código de entrenamiento refuerza, además, el posicionamiento de Google como un actor que combina investigación de frontera con estrategias de apertura selectiva.

En el plano regional, la maduración de modelos abiertos con menores requisitos de hardware abre una ventana para que empresas, universidades y centros de investigación de América Latina puedan experimentar con arquitecturas de última generación sin depender exclusivamente de las API comerciales de los grandes proveedores.

Impacto para empresas chilenas

Para el ecosistema empresarial chileno, la disponibilidad de un modelo como DiffusionGemma abre oportunidades concretas en sectores donde la velocidad de respuesta es un factor competitivo determinante. Empresas de servicios financieros, firmas de comercio electrónico y operadores de logística, por ejemplo, podrían integrar esta tecnología en asistentes internos, sistemas de atención al cliente y herramientas de generación de documentación sin necesidad de recurrir de forma exclusiva a proveedores hyperscaler.

El requisito de 18 GB de VRAM en tarjetas de consumo facilita la implementación en estaciones de trabajo de ingeniería y en servidores locales de tamaño mediano, lo que resulta relevante para organizaciones que operan bajo marcos regulatorios estrictos o que manejan información sensible que no puede ser transferida a servidores externos. En este sentido, la arquitectura MoE con activación parcial de parámetros ofrece un equilibrio atractivo entre capacidad de razonamiento y eficiencia de cómputo.

Pymes y startups chilenas con equipos técnicos reducidos podrían beneficiarse particularmente de las capacidades de edición en línea, completado de código y generación de estructuras no lineales que ofrece el modelo. Industrias como la agroindustria —donde el procesamiento de secuencias biológicas tiene aplicación directa— o el sector minero, que demanda herramientas de análisis documental en tiempo real, encuentran en este tipo de modelos un recurso de menor barrera de entrada frente a soluciones propietarias de mayor costo.

A nivel de capital humano, la llegada de arquitecturas de difusión también plantea la necesidad de actualizar los programas de formación en ciencia de datos e ingeniería de inteligencia artificial. Universidades, INACAP y los programas de posgrado técnico deberán considerar la incorporación de contenidos asociados a modelos de difusión y a técnicas de fine-tuning, dado que la especialización en esta arquitectura podría convertirse en una ventaja competitiva en el mercado laboral regional.

Qué sigue

En el corto plazo, la atención de la industria se centrará en evaluar si las mejoras de velocidad de DiffusionGemma se traducen en aplicaciones comerciales concretas y en comparativas de calidad frente a los modelos autorregresivos de referencia. DeepMind ha indicado que el modelo es experimental y que su calidad de salida es inferior a la de Gemma 4, por lo que el desempeño en producción dependerá en gran medida de procesos de ajuste fino y de la selección cuidadosa de casos de uso.

De consolidarse la tendencia, es esperable que los principales proveedores de modelos abiertos incorporen variantes de difusión a sus portafolios durante los próximos doce a dieciocho meses, lo que intensificaría la presión competitiva y aceleraría la reducción de costos de inferencia para aplicaciones de baja latencia en el mercado chileno y regional.

Fuente:DeepMind Blog

¿Listo para automatizar la atención a tus clientes?

Construye un chatbot inteligente que responda preguntas frecuentes, integre IA y trabaje 24/7. Sin código, en minutos.

Construye tu chatbot

Respuesta en menos de 24h · Cotizacion sin compromiso

DeepMind presenta DiffusionGemma: modelo experimental de IA que acelera hasta cuatro veces la generación de texto en GPU

Qué pasó

Contexto

Impacto para empresas chilenas

Qué sigue

¿Listo para automatizar la atención a tus clientes?

Artículos Relacionados

Google rediseña por primera vez en 25 años su icónica caja de búsqueda y la transforma en un asistente conversacional con IA

Amazon habilita el diseno de merchandising personalizado mediante inteligencia artificial

Apple presenta mejoras sustanciales en su aplicación de generación de imágenes Image Playground