Nuevo modelo de IA llamado "Contar Cualquier Cosa" hace exactamente lo que dice, y eso es más difícil de lo que parece

14 de junio de 2026·The Decoder

Count Anything reduce a la mitad los errores en conteo de objetos usando solo texto. El primer modelo de IA capaz de contar cualquier cosa.

Count Anything: la IA que cuenta objetos solo con texto

Contar objetos en una imagen parece una tarea trivial para los humanos, pero ha representado un desafío significativo para los sistemas de inteligencia artificial. Los modelos anteriores requerían entrenamientos específicos para cada tipo de objeto o fallaban ante escenarios complejos.

¿Qué ha pasado?

Investigadores han presentado Count Anything, el primer modelo de IA capaz de contar objetos en cualquier tipo de imagen utilizando únicamente prompts de texto como instrucción. El sistema no necesita ejemplos visuales previos ni entrenamiento específico para cada categoría de objeto.

El modelo representa un avance cuantificable: reduce a la mitad la tasa de error comparado con los sistemas anteriores de conteo basados en visión por computadora. Esta mejora se logra mediante una arquitectura que combina procesamiento de lenguaje natural con análisis de imágenes, permitiendo interpretar descripciones textuales y mapearlas a elementos visuales.

Sin embargo, Count Anything presenta limitaciones conocidas. El sistema muestra dificultades cuando trabaja con objetos muy densos o aglomerados en espacios reducidos, donde la delimitación entre elementos se vuelve ambigua. También experimenta problemas con términos ambiguos o genéricos que pueden aplicarse a múltiples categorías de objetos en una misma imagen, lo que genera confusión en el proceso de identificación y conteo.

Por qué importa

Este desarrollo tiene aplicaciones directas en sectores que dependen del conteo automatizado: logística, inventarios, agricultura de precisión, análisis de tráfico urbano y estudios de biodiversidad. La capacidad de usar lenguaje natural elimina la barrera técnica que requería conocimientos de programación o entrenamiento de modelos personalizados.

Para desarrolladores y empresas, Count Anything ofrece una solución generalista que puede integrarse en flujos de trabajo existentes sin necesidad de crear datasets de entrenamiento específicos. Anteriormente, contar un nuevo tipo de objeto implicaba recopilar cientos de imágenes etiquetadas y reentrenar modelos, un proceso costoso en tiempo y recursos.

La reducción del 50% en tasas de error significa que aplicaciones comerciales pueden alcanzar umbrales de precisión aceptables para casos de uso reales. En inventarios de almacén, por ejemplo, un error del 10% frente al 20% representa diferencias significativas en costos operativos y gestión de stock.

Las limitaciones actuales con objetos densos señalan el siguiente desafío: escenarios del mundo real raramente presentan objetos perfectamente espaciados, lo que indica que aún hay margen de mejora antes de alcanzar adopción masiva.

Contexto

Los sistemas previos de conteo se dividían en dos categorías principales: modelos de detección de objetos que requerían entrenamiento supervisado con miles de ejemplos etiquetados, y sistemas de estimación de densidad que funcionaban solo con tipos específicos de objetos en condiciones controladas.

Modelos como YOLO o Faster R-CNN pueden contar objetos, pero necesitan ser entrenados explícitamente para cada categoría. Los enfoques de zero-shot learning intentaron resolver esto, pero con precisión limitada. Count Anything se posiciona como el primer sistema que combina la flexibilidad del procesamiento de lenguaje natural con precisión mejorada en tareas de conteo general, representando un paso hacia sistemas de visión artificial más versátiles y accesibles.

#inteligencia artificial#visión por computadora#conteo de objetos#modelos de IA#procesamiento de imágenes

Newsletter gratuita

¿Te ha gustado esta noticia? No te pierdas las siguientes

Suscríbete gratis y recibe cada semana las noticias más importantes de IA en tu correo.