Ayer, en clase con los de Ciencias del Trabajo, me pasó una cosa graciosísima cuando les expliqué lo que es un intervalo de confianza e hicimos un ejemplo.
(Desgraciadamente, quien no sea estadístico es posible que no sólo no le encuentre la gracia sino que no entienda nada de lo que sigue.)
La estadística que aprenden los alumnos de Ciencias del Trabajo, puesto que el único uso para ellos de la inferencia estadística es en auditoría sociolaboral, se basa fundamentalmente en la distribución hipergeométrica: se ven la binomial, la Poisson y la normal como aproximaciones de ella, y sólo se enseña inferencia sobre proporciones (la proporción de documentos, trabajadores, etc. que incumplen la normativa aplicable).
Por tanto, al contarles los intervalos de confianza, la interpretación frecuentista del nivel de confianza está clarísima en este caso: si un intervalo se ha construido con una confianza del 95%, quiere decir que el 95% de las muestras posibles nos dan un intervalo correcto y nosotros confiamos en que estamos en ese 95% y no en el 5% de muestras "malas".
Nótese que en las distribuciones continuas como la normal, el concepto de
muestras posibles en la interpretación frecuentista es un poco una "entelequia" porque en realidad el conjunto de valores de la normal que nunca aparecerán en una muestra tiene medida 1 al contener a los irracionales, que, al medir la variable con una precisión finita en el mundo real, en realidad no pueden salir. Por lo tanto, hablar de lo que pasaría en el 95% de las muestras posibles, cuando en realidad casi todas esas muestras son imposibles, es ideología frecuentista y poco más. Por eso yo evito decir "los intervalos correspondientes al 95% de las muestras posibles serían correctos" y digo cualquier vaguedad como "el 95% de los intervalos que pudiéramos hacer serían correctos", quedándome más tranquilo aunque los alumnos no noten la diferencia.
Pero en el caso de la hipergeométrica, en el que uno podría tomarse la molestia de escribir a mano todas las muestras posibles si tuviera suficiente tiempo y nada que hacer, sí que es totalmente legítimo decir que el 95% de las muestras nos darían un intervalo correcto (si obviamos que el intervalo se calcula aproximando a la normal y que por tanto será solo "aproximadamente el 95%").
Pues bien, les digo que la estimación que nos ha salido es que la proporción de trabajadores irregulares en el sector hostelero está entre el 5 y el 13%. Que nosotros nunca podremos saber con certeza, sin hacer inspecciones masivas, si eso es realmente así o no. Pero que en el 95% de muestras de trabajadores que hubiéramos podido tomar, habríamos obtenido intervalos que contendrían a la verdadera proporción. Nosotros no sabemos si nuestra muestra está en ese 95% o en el otro 5%, simplemente sabemos que usando este método acertaremos a la larga 19 veces de cada 20, sin saber si cada una en concreto ha sido acertada o equivocada.
Bueno, levanta la mano una chica de la primera fila y me dice (esencialmente) que no le satisface que no podamos decir nada concreto de ese intervalo concreto y que lo que ella quiere decir es que la probabilidad de que la proporción esté entre el 5 y el 13% es 0'95.
Pienso yo: "¡Vaya, una bayesiana!". Y mientras le intento explicar que esa es una pregunta muy profunda ("Ah, ¿sí?", me responde) y que hay una escuela de estadísticos que piensan como ella, otro de la primera fila levanta la mano y me dice:
-Lo que ella y tú queréis decir, ¿no es que el que el valor de la proporción esté entre el 5 y el 13% tiene, digamos, una verdad del 95%, y que esté por encima del 13% o por debajo del 5% tiene una verdad del 5%?
Y pienso yo: "Vaya... ¡un difuso!".