Resumen
Comparamos modelos de IA respondiendo a más de 70 consultas reales sobre ejemplares de Mundo Deportivo, Marca y AS. Para cada pregunta, una persona leyó el diario y redactó la respuesta correcta. Luego medimos la coincidencia del modelo con esa respuesta humana (score ∈ [0,1]).
# | Modelo | Score |
---|
Última actualización: .
Modo Avanzado de Hemerobot usa o3; el modo Básico (gratuito) usa Gemini 1.5‑flash.
Metodología
- Más de 70 prompts reales, abarcando alineaciones, goleadores, crónicas, tablas, titulares, etc.
- Comparación automática entre la respuesta del modelo y la respuesta humana (ground truth) a nivel semántico y factual.
- Diarios con maquetaciones diversas y OCR imperfecto; casos especialmente duros en ejemplares antiguos (p. ej., 1920s).