EVA-Bench Data 2.0: 3 Dominios, 121 Herramientas, 213 Escenarios

5 de junio de 2026·Hugging Face

EVA-Bench Data 2.0 amplía la evaluación de agentes de IA con 121 herramientas y 213 escenarios en 3 dominios para medir el uso de herramientas externas.

EVA-Bench Data 2.0 amplía la evaluación de agentes de IA

La capacidad de los modelos de inteligencia artificial para utilizar herramientas externas se ha convertido en uno de los desafíos más relevantes de la investigación actual. EVA-Bench Data 2.0 llega como respuesta a la necesidad de conjuntos de datos robustos que permitan evaluar esta habilidad de forma sistemática y escalable.

¿Qué ha pasado?

ServiceNow AI ha lanzado EVA-Bench Data 2.0, una actualización significativa de su conjunto de datos diseñado específicamente para evaluar y entrenar agentes de inteligencia artificial en el uso de herramientas externas. Este recurso está disponible públicamente a través de Hugging Face.

La nueva versión amplía sustancialmente su alcance: cubre 3 dominios diferentes, integra 121 herramientas y presenta 213 escenarios de evaluación. Cada escenario representa situaciones reales donde los modelos deben demostrar su capacidad para seleccionar, combinar y utilizar herramientas apropiadas para resolver tareas complejas.

El conjunto de datos está estructurado para proporcionar tanto ejemplos de entrenamiento como casos de prueba estandarizados, permitiendo a investigadores y desarrolladores comparar el rendimiento de diferentes arquitecturas de agentes. EVA-Bench Data 2.0 incluye anotaciones detalladas sobre las herramientas disponibles, las secuencias de acciones esperadas y los criterios de éxito para cada escenario.

Este recurso se posiciona como una referencia fundamental para la comunidad investigadora que trabaja en el desarrollo de agentes autónomos capaces de interactuar con APIs, bases de datos y otros sistemas externos.

Por qué importa

El uso efectivo de herramientas representa uno de los principales obstáculos para que los agentes de IA pasen de prototipos de laboratorio a aplicaciones productivas. Mientras los modelos de lenguaje han alcanzado capacidades impresionantes en generación de texto, su habilidad para orquestar múltiples herramientas en secuencias lógicas sigue siendo inconsistente.

EVA-Bench Data 2.0 aborda directamente este problema proporcionando un estándar común de evaluación. Los 213 escenarios permiten medir no solo si un agente puede llamar a una herramienta, sino si puede construir planes multi-paso, recuperarse de errores y adaptar su estrategia según los resultados intermedios.

Para desarrolladores de agentes de IA, este benchmark ofrece una métrica clara de progreso y casos de prueba reproducibles. Para investigadores, proporciona datos estructurados que facilitan el análisis comparativo entre diferentes aproximaciones arquitectónicas. Las empresas que implementan sistemas autónomos encuentran aquí un marco para evaluar la fiabilidad de sus soluciones antes del despliegue.

La expansión a 121 herramientas en comparación con versiones anteriores refleja la creciente complejidad de los ecosistemas digitales reales, donde los agentes deben navegar múltiples APIs con diferentes formatos y restricciones.

Contexto

Los benchmarks de evaluación han evolucionado desde métricas simples de precisión en tareas aisladas hacia evaluaciones holísticas de capacidades complejas. EVA-Bench se inscribe en una tendencia reciente de crear conjuntos de datos específicos para agentes, similar a proyectos como ToolBench o API-Bank.

La primera versión de EVA-Bench ya estableció bases sólidas en este campo, pero la fragmentación entre diferentes dominios limitaba su aplicabilidad. Esta segunda versión consolida múltiples áreas de aplicación en un único framework coherente, facilitando la transferencia de aprendizajes entre dominios.

Empresas como Anthropic, OpenAI y equipos académicos han publicado investigaciones sobre agentes con uso de herramientas, pero la disponibilidad pública de datos de evaluación de calidad sigue siendo limitada. EVA-Bench Data 2.0 contribuye a democratizar esta línea de investigación.

Fuente oficial: https://huggingface.co/blog/ServiceNow-AI/eva-bench-data

Leer en la fuente oficial

#benchmark#dataset#evaluation#tool-use#IA-agents#research-resource

Newsletter gratuita

¿Te ha gustado esta noticia? No te pierdas las siguientes

Suscríbete gratis y recibe cada semana las noticias más importantes de IA en tu correo.