Los modelos de IA a menudo dan respuestas correctas pero citan fuentes equivocadas

26 de mayo de 2026·The Decoder

Investigadores revelan que GPT y Gemini citan fuentes incorrectas aunque den respuestas correctas. Crean benchmark CiteVQA para evaluar.

GPT y Gemini citan mal sus fuentes aunque acierten la respuesta

Los modelos de lenguaje más avanzados pueden proporcionar información correcta pero justificarla con referencias equivocadas. Un equipo de la Universidad de Pekín ha documentado este fenómeno sistemático y creado una herramienta para medirlo, lo que plantea serias dudas sobre la confiabilidad de la IA en contextos profesionales.

¿Qué ha pasado?

Investigadores de la Universidad de Pekín han identificado un problema crítico en modelos como GPT y Gemini que denominan "alucinación de atribución". Se trata de situaciones en las que estos sistemas citan pasajes de texto que no respaldan realmente sus respuestas, incluso cuando la información proporcionada es correcta.

Para evaluar sistemáticamente este fenómeno, el equipo ha desarrollado CiteVQA, un nuevo benchmark diseñado específicamente para medir la capacidad de los modelos de IA para atribuir correctamente sus respuestas a las fuentes consultadas. Esta herramienta permite analizar no solo si la respuesta es acertada, sino si la justificación citada efectivamente respalda lo que el modelo afirma.

El problema afecta a los modelos de lenguaje más avanzados del mercado. Según los hallazgos, estos sistemas pueden extraer conclusiones válidas de su entrenamiento, pero al momento de señalar de dónde proviene esa información, apuntan a fragmentos de texto que no contienen evidencia real de lo afirmado.

Por qué importa

Este descubrimiento tiene implicaciones directas para sectores donde la verificabilidad es fundamental. En medicina, un sistema de IA podría recomendar un tratamiento correcto pero citando un estudio que no lo menciona, imposibilitando la validación por parte de profesionales. En derecho, un modelo podría ofrecer un precedente legal válido pero señalar jurisprudencia irrelevante.

La alucinación de atribución es más peligrosa que la alucinación convencional porque genera una falsa sensación de confianza. Un usuario puede verificar que la fuente citada existe y es legítima, pero no detectar que el contenido específico no respalda la afirmación. Esto convierte a estos sistemas en herramientas potencialmente engañosas para cualquier uso profesional que requiera trazabilidad.

El benchmark CiteVQA representa el primer intento sistemático de cuantificar este problema. Sin métricas estandarizadas, las empresas desarrolladoras no pueden optimizar sus modelos para mejorar la atribución correcta, y los usuarios carecen de información para evaluar la fiabilidad de diferentes sistemas en este aspecto crítico.

Contexto

La cuestión de las alucinaciones en modelos de lenguaje no es nueva. Desde el lanzamiento de ChatGPT, la tendencia de estos sistemas a inventar información ha sido ampliamente documentada. Las empresas tecnológicas han trabajado en reducir respuestas completamente fabricadas mediante técnicas como RLHF (aprendizaje por refuerzo con retroalimentación humana).

Sin embargo, la atribución incorrecta representa una evolución más sutil del problema. Mientras que las alucinaciones tradicionales generan información falsa, la alucinación de atribución mezcla contenido correcto con justificaciones erróneas, haciendo la detección mucho más compleja. Otros equipos de investigación han señalado problemas similares con las capacidades de razonamiento citacional de modelos como Claude y GPT-4, pero faltaba una metodología estandarizada para su evaluación sistemática.