
Los equipos de contratación adoran su rúbrica de entrevista. Pocos saben si de verdad predice quién tiene éxito. La respuesta honesta para la mayoría es: no lo hace. Los benchmarks del sector ponen la correlación entre los scores de entrevistas no estructuradas y el desempeño en el puesto en r = 0,20 — apenas por encima del azar.
El scoring de entrevista estructurado con IA es una categoría diferente. En nuestra cohorte benchmark de 2.400 contrataciones con performance reviews verificados a 6 meses, la correlación de Pearson es 0,74. Eso es validez predictiva fuerte — comparable a los tests de habilidad cognitiva, el gold standard en psicología I/O.
En el momento de la entrevista, la IA puntúa a cada candidato por competencia: comunicación, profundidad técnica, resolución de problemas, motivación, encaje cultural (configurable). La decisión de contratación y los términos de la oferta quedan logueados.
A los tres meses, el manager del nuevo hire valora el desempeño real. A los seis meses, otra vez. El sistema empareja esas valoraciones con los scores originales de IA y corre una correlación por competencia. Las correlaciones fuertes significan que la señal era real; las débiles significan que esa parte de la rúbrica no es predictiva — quítala.
El benchmark global r = 0,74 es el punto de partida. El fine-tuning por cliente, tras unas 50 contrataciones closed-loop por familia de puesto, sube la precisión predictiva otro 12–18 % en los puestos específicos de ese equipo.
Tres o cuatro ciclos de contratación después, el modelo está calibrado a tu listón — sabe cómo se ve un 'gran ingeniero backend' en tu empresa específicamente. Los nuevos candidatos se puntúan contra esa calibración. La contratación deja de ser intuición y empieza a ser un sistema medible.

