Ha habido dos tipos de reacciones a estas entradas: a unos les han gustado y otros protestan, o porque no las entienden o porque sí las entienden pero no visitan mi blog para leer cosas serias. En fin, yo pienso seguir hasta el final, sobre todo porque este año estoy metido en muchos temas distintos y por ello estas entradas no serán excesivamente repetitivas. En el horizonte tenemos:
2/20: Decisión en grupo.
3/20: Profundidad estadística (análisis multivariante de datos).
4/20: Medidas de posición y profundidad. (Por fin hago algo citable.)
5,6/20: Esperanzas de conjuntos aleatorios, con generalizaciones de la propiedad de la intersección de Mazur, geometría de espacios de Banach y otros temas poco divulgables. Esto es continuación del trabajo aquel y estoy muy contento, lo que explica los enormes problemas que estoy teniendo para publicarlo (y llevará a una entrada parecida a esta).
Bueno, ya no nos acordamos dónde habíamos quedado (sobre todo, yo). Estábamos diciendo que la teoría de la probabilidad se fundamenta en la "regla de la suma" que dice que, si dos sucesos no pueden ocurrir a la vez, la probabilidad de que ocurra alguno de los dos es la suma de sus probabilidades respectivas.
También decíamos que esa regla no necesariamente es válida en todos los contextos en los que podría aplicarse la probabilidad, por ejemplo cuando la información de la que partimos es pobre. Una alternativa a la "regla de la suma" es la "regla del máximo" que conduce a la teoría de la posibilidad.
Finalamente, habíamos visto que a la noción de variable aleatoria le corresponde en ese contexto la de variable posibilística. Se postula un espacio imaginario de "resultados", cada uno conducente a un valor de la variable que estemos estudiando.
Bien, una de las cuestiones de las que trata la teoría de la probabilidad es: ¿qué género de cosas podremos afirmar si recopilamos muchos datos? Aunque estamos en una situación en la que repetir el mismo experimento nos da resultados distintos, eso no quiere decir que no se pueda decir nada sobre qué características definidas tendrá un gran conjunto de repeticiones del experimento. Y, si no, que se lo pregunten a los dueños de los casinos.
Por alguna razón, esos teoremas tienen nombres especialmente pintorescos. Por ejemplo:
-La ley de los grandes números
-El teorema del límite central
-La ley del logaritmo iterado
-El principio de las grandes desviaciones
-El código Da Vinci (ah, no, este no).
Lo que nos dicen es que, si uno coge los datos que ha reunido y hace determinadas operaciones con ellos, cuantos más datos tenga el resultado se irá estabilizando en torno a un valor. Ese valor tiene dos características importantes:
(1) Es siempre el mismo. Es decir, si dos personas realizan la toma de datos independientemente, a cada una le saldrán valores concretos distintos pero a la larga "se estabilizarán" los dos en torno al mismo valor.
(2) Es calculable a priori sin tener ningún dato, a partir de las probabilidades de los distintos sucesos que pueden darse en el experimento.
En algunos casos, como el TLC o el PGD, el resultado no es "siempre el mismo" y lo que se establecen son "leyes" obedecidas por esos valores; pero a nosotros nos importa ahora el caso, más sencillo, de la ley de los grandes números, donde sí se cumple lo que he dicho ahora.
La ley de los grandes números dice que la media de los datos "se estabilizará" en torno a un valor, siempre el mismo y calculable a priori, que se llama valor esperado, esperanza matemática o simplemente media de la variable. Para el lanzamiento de un dado perfecto, ese valor es 3'5, que es la media de todos los valores que podemos obtener: 1+2+3+4+5+6=21, y 21/6=3'5.
¿Qué quiere decir que la media de lo que nos haya salido "se estabilizará" en torno a 3'5? Porque puede ocurrir que tire el dado y me salga siempre 1.
Intuitivamente, lo que significa es que, al tirar el dado, obtenemos una serie de valores; cuantos más lanzamientos, se hacen escasísimas las series cuya media no es cercana a 3'5, en comparación con aquellas cuya media sí lo es.
La ley débil de los grandes números nos dice que existe un número de lanzamientos a partir del cual (p.ej.) más del 99,99% de las series que nos pueden salir tienen la media entre 3'49 y 3'51; y lo mismo para cualquier grado de exigencia arbitraria tanto en la cercanía de la probabilidad al 100% como de la media a 3'5.
La ley fuerte de los grandes números nos dice que existe una probabilidad del 100% de que, conforme vamos lanzando el dado, llegue un momento en que la media entre en la zona entre 3'49 y 3'51 y ya nunca vuelva a salir. Luego, llegará un momento en que entrará en la zona entre 3'499 y 3'501 y ya nunca saldrá, y así sucesivamente (una especie de agujero negro).
La diferencia entre estos dos teoremas es sutil. Imaginemos un juego en el que cada persona del mundo se pone a lanzar un dado, siendo el objetivo mantenerse lejos de 3'5. Las dos leyes dicen que a la gente se le acaba la suerte, pero de forma distinta:
-La ley débil dice: "A casi nadie le dura la suerte más de x lanzamientos".
-La ley fuerte dice: "A nadie le dura la suerte eternamente".
La ley débil no prohíbe que se pierda la suerte y se vuelva a recuperar: aunque nos diga (números inventados por vagancia) que el 1% de los participantes tienen suerte a la altura de 5 lanzamientos y que el 0'5% tienen suerte a la altura de 6 lanzamientos, no nos dice que los afortunados del 1% y los del 0'5% son los mismos. Puede ocurrir que uno tuviera una media de 3'4 en el 5º lanzamiento (cercano a 3'5 y por tanto no gana nada), y luego tenga la suerte de sacar un 1, con lo que su media pasaría a ser 3 (alejada de 3'5). La ley fuerte, por contra, asegura que a todos los participantes se les acabará la suerte para siempre en algún momento, aunque no puede decir cuándo le ocurrirá a cada uno.
Se puede comprobar que la ley fuerte es más fuerte que la ley débil. A cambio, la ley débil se cumple en casos en los que la ley fuerte no se cumple, es decir, en los que la variable no tiene esperanza; concretamente, si hay alguien suficientemente curioso al respecto, si no recuerdo mal la condición necesaria y suficiente para que una variable X cumpla la ley débil es que n·P(|X|>n) esté acotada (existencia de primer momento débil), en cuyo caso el valor límite se obtiene como límite de las esperanzas de las variables truncadas cuyos valores son 0 si |X|>n y X en caso contrario.
(Esto último lo digo al haber mayoría de matemáticos entre el público.)
La noción de "estabilización" en la ley débil se llama convergencia en probabilidad; la de la ley fuerte, convergencia casi seguro. Pues bien, la convergencia en necesidad de que habla el título es el análogo de la convergencia en probabilidad. En esta última, a partir de un cierto número de datos tenemos que la probabilidad de que la media esté cerca de 3'5 es al menos del 99,99% (o el valor que sea), por lo tanto la probabilidad de que la media esté lejos de 3'5 es inferior al 0'01%. Cuando la posibilidad es la que es inferior al 0'01%, o cualquier otra cota que establezcamos, es casi imposible que la media no esté cerca del valor límite. De ahí el nombre de convergencia en necesidad, ya que decir que es imposible que algo no ocurra es lo mismo que decir que necesariamente va a ocurrir.
(No recuerdo si había tenido la prevención de definir la medida de necesidad de un suceso en las entradas anteriores, pero creo que no.)
La idea de convergencia casi seguro se adapta de igual forma: en lugar de decir que hay una probabilidad del 100% de que algo ocurra, y por tanto un 0% de que no ocurra, se trata de que la posibilidad de que no ocurra sea del 0% (esto es, es imposible que no se produzca o es necesario que se produzca).
Con lo cual, ya somos capaces de entender el título: "Sobre la convergencia en necesidad y sus leyes de los grandes números".
Lo sorprendente es que en el contexto de la teoría de la posibilidad, la ley débil es más fuerte que la ley fuerte. Pero me parece que eso ya queda para otro día.
Cómo ser feliz tú y no los otros
Hace 1 día