MolmoMotion: Predicción de movimiento 3D guiada por lenguaje natural

18 de junio de 2026·Hugging Face

MolmoMotion combina lenguaje natural y predicción de movimiento 3D para animación, robótica y simulación. Un avance multimodal de Allen AI.

MolmoMotion une lenguaje natural y movimiento 3D en un solo modelo

La capacidad de traducir instrucciones verbales en movimientos tridimensionales ha sido un desafío persistente en inteligencia artificial. MolmoMotion, el nuevo modelo desarrollado por Allen Institute for AI, cierra esa brecha al integrar procesamiento de lenguaje natural con predicción de trayectorias 3D, abriendo posibilidades en campos que van desde la animación digital hasta la robótica avanzada.

¿Qué ha pasado?

Allen Institute for AI ha presentado MolmoMotion, un modelo multimodal que combina comprensión del lenguaje con visión por computadora para generar y predecir movimientos en espacio tridimensional. El sistema es capaz de interpretar instrucciones en lenguaje natural y traducirlas directamente en trayectorias de movimiento 3D coherentes y precisas.

El modelo representa un avance significativo en la integración de capacidades lingüísticas y espaciales. A diferencia de sistemas anteriores que requerían interfaces complejas o conjuntos de comandos predefinidos, MolmoMotion permite a los usuarios describir el movimiento deseado de forma natural, como si estuvieran dando instrucciones a otra persona. El sistema procesa estas descripciones y genera las correspondientes coordenadas y trayectorias tridimensionales.

Allen AI ha publicado el modelo y su documentación técnica en Hugging Face, facilitando el acceso a investigadores y desarrolladores. La arquitectura subyacente integra modelos de lenguaje de gran escala con redes especializadas en procesamiento de datos espaciales y temporales, logrando una sincronización efectiva entre la comprensión semántica y la generación de movimiento físicamente plausible.

Por qué importa

Este desarrollo tiene implicaciones directas en múltiples industrias. En animación y efectos visuales, reduce significativamente el tiempo necesario para crear secuencias de movimiento complejas: los animadores pueden describir acciones en lugar de ajustar manualmente cientos de parámetros. Para estudios pequeños y creadores independientes, esto democratiza capacidades que antes requerían equipos especializados.

En robótica, la capacidad de comunicar movimientos mediante lenguaje natural simplifica la programación y el control de robots. Los operadores sin formación técnica avanzada pueden dirigir sistemas robóticos complejos usando instrucciones cotidianas, lo que amplía las aplicaciones prácticas en almacenes, manufactura y asistencia.

El campo de la simulación y entrenamiento también se beneficia: crear escenarios realistas para entrenar otros sistemas de IA o simular situaciones para planificación urbana y diseño se vuelve más accesible. La previsión de trayectorias permite anticipar movimientos futuros basándose en patrones observados, útil en análisis deportivo, sistemas de seguridad y navegación autónoma.

La disponibilidad pública del modelo en Hugging Face fomenta la experimentación y desarrollo de aplicaciones derivadas, acelerando la innovación en sectores que históricamente han dependido de software propietario costoso.

Contexto

La predicción de movimiento 3D ha sido un problema fundamental en visión por computadora durante décadas, pero tradicionalmente se abordaba mediante técnicas puramente geométricas o físicas. La incorporación de modelos de lenguaje grandes a este campo es relativamente reciente, surgiendo de los avances en IA multimodal de los últimos dos años.

Proyectos como Motion-GPT y MotionDiffuse ya habían explorado la generación de movimiento desde texto, pero se centraban principalmente en movimiento humano y animación de personajes. MolmoMotion amplía este alcance a predicción general de trayectorias tridimensionales, aplicable a objetos, cámaras y entidades diversas.

Allen AI ha mantenido un enfoque consistente en modelos multimodales de código abierto, como demostró con su serie Molmo de modelos de visión y lenguaje. MolmoMotion extiende esa filosofía al dominio espaciotemporal.

Fuente oficial: https://huggingface.co/blog/allenai/molmomotion

Leer en la fuente oficial

#3D motion#language models#motion forecasting#computer vision#multimodal AI#Hugging Face#deep learning

Newsletter gratuita

¿Te ha gustado esta noticia? No te pierdas las siguientes

Suscríbete gratis y recibe cada semana las noticias más importantes de IA en tu correo.