Presentamos Gemma 4 12B: un modelo multimodal unificado sin codificador

10 de junio de 2026·Google DeepMind

Google DeepMind lanza Gemma 4 12B, primer modelo multimodal sin codificador separado que procesa texto e imágenes con arquitectura unificada.

Gemma 4 12B elimina el codificador en modelos multimodales

Los modelos de visión y lenguaje tradicionales requieren componentes separados para procesar imágenes y texto. Google DeepMind rompe con esta convención al presentar Gemma 4 12B, un modelo que integra ambas capacidades en una arquitectura única sin necesidad de codificadores externos.

¿Qué ha pasado?

Google DeepMind ha lanzado Gemma 4 12B, un modelo multimodal de 12 mil millones de parámetros que representa un cambio arquitectónico significativo en el procesamiento de información visual y textual. A diferencia de los modelos multimodales convencionales que utilizan un codificador de imágenes separado (generalmente basado en Vision Transformer o similares) junto a un modelo de lenguaje, Gemma 4 12B procesa directamente tanto texto como imágenes dentro de una única arquitectura unificada.

Esta aproximación encoder-free elimina la necesidad de entrenar y mantener componentes separados, simplificando el pipeline de procesamiento. El modelo forma parte de la familia Gemma, la serie de modelos abiertos de Google diseñados para ser accesibles y eficientes. La arquitectura unificada permite que el modelo aprenda representaciones conjuntas de imágenes y texto de manera más integrada, sin depender de embeddings visuales generados por sistemas externos.

Por qué importa

Este enfoque arquitectónico tiene implicaciones directas para desarrolladores y equipos de investigación que trabajan con modelos multimodales. Al eliminar el codificador separado, Gemma 4 12B reduce la complejidad del sistema, lo que puede traducirse en menor latencia, menos requisitos de memoria y pipelines de entrenamiento más simples.

Para la comunidad de desarrollo, esto significa menos dependencias que mantener y potencialmente mayor flexibilidad para adaptar el modelo a casos de uso específicos. La arquitectura unificada también puede facilitar el fine-tuning en tareas especializadas, ya que no hay que preocuparse por congelar o ajustar componentes visuales separados.

Desde una perspectiva técnica, este modelo desafía el paradigma dominante en visión-lenguaje, donde sistemas como CLIP o SigLIP han establecido el estándar de codificadores visuales separados. Si Gemma 4 12B demuestra rendimiento competitivo, podría impulsar una nueva generación de modelos multimodales más compactos y eficientes, especialmente relevante para despliegues en entornos con recursos limitados o aplicaciones edge.

Contexto

Los modelos multimodales han evolucionado tradicionalmente siguiendo una arquitectura de dos etapas: un codificador visual pre-entrenado (como los basados en ViT) que convierte imágenes en embeddings, y un modelo de lenguaje que procesa estos embeddings junto al texto. Modelos como LLaVA, GPT-4V o Gemini siguen este patrón.

La familia Gemma se lanzó originalmente como alternativa abierta y eficiente a modelos más grandes, enfocándose en ofrecer rendimiento competitivo con menor tamaño. Esta nueva versión multimodal continúa esa filosofía pero introduce una innovación arquitectónica que otros laboratorios están explorando en paralelo, buscando simplificar el stack tecnológico de los sistemas de IA multimodal sin sacrificar capacidades.

Fuente oficial: https://deepmind.google/blog/introducing-gemma-4-12b-a-unified-encoder-free-multimodal-model/

Leer en la fuente oficial

#gemma#multimodal#model-release#google-deepmind#encoder-free#vision-language

Newsletter gratuita

¿Te ha gustado esta noticia? No te pierdas las siguientes

Suscríbete gratis y recibe cada semana las noticias más importantes de IA en tu correo.