Idioma
Hemerobot Logo

Hemerobench

Benchmark de pruebas de precisión sobre hemerotecas deportivas para modelos IA

Resumen

Comparamos modelos de IA respondiendo a más de 70 consultas reales sobre ejemplares de Mundo Deportivo, Marca y AS. Para cada pregunta, una persona leyó el diario y redactó la respuesta correcta. Luego medimos la coincidencia del modelo con esa respuesta humana (score ∈ [0,1]).

# Modelo Score

Última actualización: .
Modo Avanzado de Hemerobot usa o3; el modo Básico (gratuito) usa Gemini 1.5‑flash.

Metodología

  • Más de 70 prompts reales, abarcando alineaciones, goleadores, crónicas, tablas, titulares, etc.
  • Comparación automática entre la respuesta del modelo y la respuesta humana (ground truth) a nivel semántico y factual.
  • Diarios con maquetaciones diversas y OCR imperfecto; casos especialmente duros en ejemplares antiguos (p. ej., 1920s).
Hemerobot | Benchmark | BDFutbol