Un modelo puede liderar una tabla pública y fallar en tu flujo más importante. El benchmark correcto es una muestra representativa de las decisiones que tu producto debe tomar.
Evalúa la tarea, no la reputación
Construye un conjunto pequeño de casos reales, incluye los bordes incómodos y define qué errores son aceptables. Mide precisión, latencia, costo y consistencia.
Después revisa los fallos con personas que entiendan el dominio. Una métrica agregada puede ocultar justo el error que más daño produce.
La evaluación es parte del producto
Cada cambio de prompt, modelo o herramienta debe poder compararse contra una línea base. Sin esa disciplina, optimizar IA se vuelve una colección de impresiones.