Claude Opus 4.7 rompe todos los benchmarks de razonamiento: el nuevo rey de los LLMs

15 de mayo de 2026·Anthropic

Anthropic lanza Claude Opus 4.7, su modelo más capaz hasta la fecha. Supera a GPT-4o en MMLU, HumanEval y GPQA. Analizamos qué significa esto para el mercado.

Claude Opus 4.7 rompe todos los benchmarks: Anthropic planta cara a OpenAI

Anthropic acaba de lanzar Claude Opus 4.7, y los números hablan por sí solos. El nuevo modelo supera a GPT-4o en los tres benchmarks más relevantes del sector: MMLU (conocimiento general), HumanEval (programación) y GPQA (razonamiento científico). Es la primera vez desde el lanzamiento de GPT-4 que un modelo de otro laboratorio lidera de forma consistente en todas las categorías simultáneamente.

¿Qué tiene de nuevo Opus 4.7?

El salto más importante no está en la velocidad ni en el tamaño del contexto, que sigue siendo de 200.000 tokens. Está en cómo el modelo razona: Anthropic ha incorporado una cadena de pensamiento interna más estructurada que hace que las respuestas en tareas complejas sean más coherentes y menos propensas a errores de lógica.

Benchmark	Claude Opus 4.7	GPT-4o	Gemini 1.5 Pro
MMLU	91.2%	88.7%	87.8%
HumanEval	87.4%	82.1%	78.3%
GPQA	63.8%	58.2%	55.1%

En la práctica, esto se traduce en respuestas más precisas en análisis de documentos legales, código complejo y razonamiento matemático. Los desarrolladores que ya lo están usando en la API reportan una reducción significativa de los errores en tareas de refactoring y generación de código multiarchivo.

El contexto: la carrera de los LLMs se acelera

Este lanzamiento llega apenas tres semanas después de que OpenAI actualizara GPT-4o con mejoras en razonamiento. La cadencia de lanzamientos en 2025 es brutal: los laboratorios principales están publicando actualizaciones significativas cada mes y medio de media. Esto tiene dos lecturas. La positiva: los usuarios acceden a herramientas cada vez más capaces. La negativa: es cada vez más difícil para las empresas decidir en qué modelo construir, porque su ventaja puede durar solo semanas.

Anthropic también ha confirmado que Opus 4.7 estará disponible en el plan Pro a 20$/mes, sin coste adicional respecto al modelo anterior.

Fuente original: https://www.anthropic.com/news/claude-opus-4

Leer en la fuente oficial

#claude#anthropic#llm#benchmarks#opus

Comentarios(0)

Sé el primero en comentar.

Más noticias

Negocio

Claude Opus 4.7 rompe todos los benchmarks de razonamiento: el nuevo rey de los LLMs

Claude Opus 4.7 rompe todos los benchmarks: Anthropic planta cara a OpenAI

¿Qué tiene de nuevo Opus 4.7?

El contexto: la carrera de los LLMs se acelera

Comentarios(0)

Más noticias

Veredicto judicial: Musk vs Altman en juicio de OpenAI

Composer 2.5 de Cursor iguala rendimiento de Opus 4.7 a menor costo

Cursor lanza Composer 2.5: su modelo más potente, entrenado en Colossus 2