Claude Opus 4.7 rompe todos los benchmarks de razonamiento: el nuevo rey de los LLMs
Anthropic lanza Claude Opus 4.7, su modelo más capaz hasta la fecha. Supera a GPT-4o en MMLU, HumanEval y GPQA. Analizamos qué significa esto para el mercado.
Claude Opus 4.7 rompe todos los benchmarks: Anthropic planta cara a OpenAI
Anthropic acaba de lanzar Claude Opus 4.7, y los números hablan por sí solos. El nuevo modelo supera a GPT-4o en los tres benchmarks más relevantes del sector: MMLU (conocimiento general), HumanEval (programación) y GPQA (razonamiento científico). Es la primera vez desde el lanzamiento de GPT-4 que un modelo de otro laboratorio lidera de forma consistente en todas las categorías simultáneamente.
¿Qué tiene de nuevo Opus 4.7?
El salto más importante no está en la velocidad ni en el tamaño del contexto, que sigue siendo de 200.000 tokens. Está en cómo el modelo razona: Anthropic ha incorporado una cadena de pensamiento interna más estructurada que hace que las respuestas en tareas complejas sean más coherentes y menos propensas a errores de lógica.
| Benchmark | Claude Opus 4.7 | GPT-4o | Gemini 1.5 Pro |
|---|---|---|---|
| MMLU | 91.2% | 88.7% | 87.8% |
| HumanEval | 87.4% | 82.1% | 78.3% |
| GPQA | 63.8% | 58.2% | 55.1% |
En la práctica, esto se traduce en respuestas más precisas en análisis de documentos legales, código complejo y razonamiento matemático. Los desarrolladores que ya lo están usando en la API reportan una reducción significativa de los errores en tareas de refactoring y generación de código multiarchivo.
El contexto: la carrera de los LLMs se acelera
Este lanzamiento llega apenas tres semanas después de que OpenAI actualizara GPT-4o con mejoras en razonamiento. La cadencia de lanzamientos en 2025 es brutal: los laboratorios principales están publicando actualizaciones significativas cada mes y medio de media. Esto tiene dos lecturas. La positiva: los usuarios acceden a herramientas cada vez más capaces. La negativa: es cada vez más difícil para las empresas decidir en qué modelo construir, porque su ventaja puede durar solo semanas.
Anthropic también ha confirmado que Opus 4.7 estará disponible en el plan Pro a 20$/mes, sin coste adicional respecto al modelo anterior.
Fuente original: https://www.anthropic.com/news/claude-opus-4
Comentarios(0)
Sé el primero en comentar.