viernes, 14 de diciembre de 2012

Retomando

Pues llevo una temporada de concentración quitándome de encima artículos que tenía avanzados. Pero, bueno, me han aceptado un artículo hace un rato así que voy a contar de qué va.

Estoy muy contento porque el artículo se va a publicar en Transactions of the American Mathematical Society, lo que es un paso adelante. No creo, salvo que me pase a temas que interesen a más de 6 personas en el mundo, que llegue ya nunca a publicar más arriba que esto, así que pienso celebrarlo.

El trabajo, Laws of large numbers without additivity, trata de la ley fuerte de los grandes números. Esencialmente, este teorema dice que el valor medio de una muestra se aproxima al de toda la población cuando el número de individuos que forman la muestra tiende a infinito.

Dicho así, parece un teorema absurdo porque, si el número de individuos tiende a infinito, antes o después agotarán toda la población y entonces la muestra y la población serán lo mismo, y por tanto su media será la misma. Parece como el chiste que aparece en un episodio de Big Bang que acaba: "...pero solo funciona para gallinas esféricas en el vacío!".

En cambio, es un resultado en el que van dos siglos desde la primera versión "tentativa" (Bernoulli, 1713) hasta la primera versión "definitiva" (Khinchin, 1927, para la ley débil, y Kolmogorov, 1933, para la ley fuerte). La ley de los grandes números es el resultado estrella del libro de probabilidad de Bernoulli, Ars Conjectandi. Había sido observada empíricamente por Cardano otro par de siglos antes y se consideraba una manifestación del orden divino. De hecho, Bernoulli escribió a Leibniz que "es una regla que incluso la persona más estúpida conoce mediante cierto instinto natural per se y sin instrucción previa".

Si conjectamos que el Ars Conjectandi se publicó póstumamente en 1713 con que 2013 será el Año Internacional de la Estadística, y conjectamos que Bernoulli consideraba la ley de los grandes números su teorema de oro con que tampoco era manco (inventó el número e, descubrió cuál es la curva por la que desciende un cuerpo con la máxima rapidez, y muchas otras cosas), la pregunta es: ¿cómo reconciliar la importancia que algunos ociosos damos a este teorema, con que parece una perogrullada y encima nos habla de lo que pasa cuando reunimos un número de individuos que puede superar al máximo que hay en la población?

(Aquí hacemos una pausa para que cada uno pueda cavilar un poco.)

La respuesta es que la ley de los grandes números hay que leerla al revés. Si podemos extraer una muestra indefinidamente grande, es que la población de la que nos habla el teorema es infinita. En ese caso, cualquier muestra es infinitamente pequeña respecto a la población. Por tanto, lo que dice es que la aproximación de la media de la muestra a la media "verdadera" es un fenómeno que no necesita que la muestra sea un trozo grande de la población.

A lo mejor pensamos intuitivamente que la media de una muestra puede ser cercana a la verdadera cuando, por ejemplo, la muestra contiene el 10%, o el 20%, de toda la población. En una ciudad de diez mil habitantes, una encuesta a 2000 cogidos al azar podría dar un resultado cercano a la media de todos. En una ciudad de un millón de habitantes, una encuesta a 200000 cogidos al azar. Esto ya es un éxito porque no deja de ahorrarnos preguntar a 800000 personas.

Pero lo que la ley nos dice es que no hace falta que la muestra contenga el 20% de todos los individuos, ni el 10%, ni el 1%. Que funciona hasta en el caso infinito, en el que la muestra es el 0% de la población, porque el fenómeno solo depende del número de individuos que forman la muestra, aunque sean una fracción muy pequeña de toda la población.

Es decir, que una encuesta a 2000 personas es igual de fiable en una ciudad de diez mil o de un millón, porque una encuesta a 2000 ( = un número muy grande de) personas se comporta igual en una población de diez mil, de un millón, o de infinitas personas.

Y esto sí que no es una perogrullada :)

De hecho, tres siglos después de la primera versión del teorema, muchas personas cultas lo consideran imposible de creer.

6 comentarios:

Sr. IA dijo...

El sentido común me dice que estoy entre esas personas cultas? que se niegan a aceptar que una muestra muy grande, es igual de fiable cualquiera que sea la población... pero vamos ¿qué debo hacer?
Me ha encantado el post.

Ángel M. Felicísimo dijo...

¡Coño! ¡Lo he entendido! (bueno, he entendido la versión para "personas humanas" ¡Y además me interesa! De todas formas, no veo como una muestra de 100 puede ser igual de fiable si la población es de 100 o si es de un millón. Para números "grandes" sí, pero ¿para poblaciones pequeñas?

Pedro Terán dijo...

Gracias por los ánimos :)

Supongamos que estamos hablando de una encuesta electoral y que tenemos un mecanismo que nos permite elegir un individuo de la población de forma que todos tengan la misma probabilidad de ser elegidos y que las sucesivas selecciones sean totalmente independientes entre sí. A nosotros nos interesa saber si van a votar al PMT (Partido Mejor de Todos).

Si eso se cumple, el número de personas de la muestra que van a votar al PMT es una variable binomial B(n,p) con n= número de encuestados, p= proporción de la población que va a votar al PMT. Cualquier probabilidad que calculemos con ella solo depende de n y de p, no del tamaño de la población. En la práctica esto quiere decir que si en Avilés y en Madrid hay el mismo porcentaje de votantes del PMT, una encuesta en las dos ciudades tendría el mismo margen de error.

Si en vez de Avilés o Madrid cogemos mi portal, el tamaño de la muestra suficiente para conseguir ese margen de error será el mismo. Si ese tamaño es 2000 personas, pues entrevistando a 2000 personas de mi portal se garantiza que el error será ese. (En el portal no hay 2000 personas, pero por la hipótesis de independencia de las selecciones, el que es encuestado una vez sigue teniendo las mismas posibilidades de volver a serlo más veces, así que sería una muestra en que cada vecino saldría varias veces repetido.)

En este extremo es donde está la perogrullada, que te digan que p.ej. 2000 personas te bastan para una población cualquiera es muy útil para una población de 50 millones pero no te sirve de nada para una población de 50 personas.

Si la población es pequeña entonces se haría un muestreo sin reposición (no se encuestaría dos veces al mismo) y sí pasa a tener importancia el tamaño de la población, ya que, como bien dices, no es lo mismo una muestra de 100 en una población de 100 que de 200.

Si la población es grande, la influencia de hacerlo con o sin reposición es muy pequeña (cuanto más grande es la población, más improbable es que se encueste dos veces al mismo).

Ángel M. Felicísimo dijo...

Comprendido y aclarado. Además creo que le sacaré jugo en alguna discusión. Avisa del artículo cuando se publique ¿vale?
Por cierto mecago en los captchas :-(

Pedro Terán dijo...

Lo siento, era un río de spam fluyendo hacia mi correo. Google lo borraba automáticamente del blog pero me llegaban los avisos al correo. Había días que me levantaba y ya tenía nueve correos de avisos de comentarios.

Ángel M. Felicísimo dijo...

No, si el problema es mío, que no llego a los estándares de reconocimiento de patrones que un primate debería tener.