viernes, 8 de abril de 2011

Divulgando

Voy a intentar escribir una pequeña entrada divulgativa sobre cada trabajo que me vayan aceptando.

En el último hay una parte curiosa en la que se da una definición unificada de distintos conceptos conocidos en la Estadística a partir de conceptos de Conjuntos Difusos. Tradicionalmente, si hay algo peor visto en la Estadística que matar a un niño para robarle un riñón, son los Conjuntos Difusos. Se han publicado múltiples intentos de mostrar o bien que los difusos contradicen a la Estadística (y por tanto podemos prescindir de ellos) o bien que los difusos se deducen de la Estadística (y por tanto podemos prescindir de ellos). Es decir, los difusos o dicen lo mismo que el Corán o lo contrario. Así que es gracioso verlo al revés por una vez.

El punto de partida es que tenemos un conjunto de datos y queremos resumirlo en un solo número. Por ejemplo, conocemos los salarios de todos los trabajadores españoles y queremos decir "en torno a qué valor" están para poder hacer comparaciones deprimentes como estas.

Los valores que más se utilizan son la media, la moda y la mediana. Por recordar, la media es el resultado de sumar lo que ganan todos y dividir por el número total (21900 € anuales), la mediana es el valor que cumple que el 50% de los trabajadores gana menos que ese valor y el 50% gana más (18200 € anuales) y la moda el que más veces se repite (15500€ anuales).

La idea en la que se basa el artículo es la siguiente: para definir una estimación del valor "en torno al que" se sitúan los datos, cogemos a todos los trabajadores y los ponemos en línea recta a partir de la Puerta del Sol (km. 0 de la red viaria española) a una distancia igual al sueldo que ganan. Nosotros somos unos ángeles que los miramos desde el cielo, preguntándonos qué valor será el mejor representante de lo que ganan todas esas personas.

Le daríamos vueltas a la cuestión observando desde lo alto. Entonces, se va acercando una formación de nubes que empiezan a taparnos parte de la gente. Lo que faltaba, nos decimos. Van pasando nubes por debajo y a veces vemos a muchos trabajadores, a veces pocos, a veces se les ve bien y a veces mal. Qué lío.

Entonces es cuando se nos ocurre la idea: nos fijamos en que hay un tío con rastas y camiseta tricolor que nos molesta vagamente (nosotros odiamos las rastas) porque parece que siempre está ahí. Cuando a través de las nubes se ven muchos trabajadores, a él se le ve. Y cuando las nubes se mueven y solo se ven zonas de la carretera donde no hay casi nadie, a él no se le ve. Empezamos a sacar fotos desde arriba y nos fijamos en que, para desgracia nuestra, esto es así todo el rato aunque la forma de las nubes vaya variando. Es decir, es como el Vicente de "¿Dónde va Vicente? Donde va la gente".

El tío de las rastas es nuestro representante de lo que ganan todos los españoles.

---
Está claro que esta idea, aparte de ser un poco así, no puede funcionar tal como la he contado, ya que si hubiera sólo una nube minúscula sobre la cabeza del rastafari, se vería a todo el mundo menos a él, con lo que es imposible que sea cual sea la forma y posición de las nubes se vea a esa persona siempre que se vea mucha gente.

Lo que se propone es agenciarse un catálogo de formaciones nubosas elegidas a priori e ir sacando fotos en la que cada formación oculta parte de los datos. Según el catálogo elegido, el representante de todos los trabajadores saldrá uno u otro. El objeto del artículo es mostrar que eligiendo el catálogo adecuado obtenemos varios conceptos ya conocidos.

Por ejemplo, si usamos formaciones en las que se pasa progresivamente de la claridad total a una neblina cada vez más espesa y luego nubes densas, o viceversa, obtenemos la media. Si son frentes de nubes con una frontera muy brusca, la mediana. Y si son cielos cubiertos excepto por un solo punto, la moda.

Por otra parte, como la densidad de las nubes puede variar, cada punto se ve unas veces mejor y otras peor. Lo que se hace es calcular, para cada punto, el valor de verdad (difuso, o sea, entre 0 y 1) de la proposición
"En todas las fotos de formaciones de nubes en las que aparece el punto, se ve gran parte de los datos"*,
en la que las partes en negrita representan conceptos difusos.

Se escoge como representante al punto para el que ese valor de verdad sea el máximo. Es decir, el punto cuya visibilidad mejor permite predecir en qué fotos aparecerán muchos datos.

El caso de la moda es paradigmático y fácil de ver. En ese caso decíamos que cogemos el catálogo formado por todos los cielos cubiertos excepto en un punto. Como en cada foto sólo se ve un punto, efectivamente el punto que mejor predice que en su foto sale mucha gente es aquel donde se concentran más datos, todos exactamente con el mismo valor. Es decir, el valor que más veces se repite (la moda).

El artículo luego sigue con más de lo mismo durante páginas y páginas, mostrando cómo obtener más objetos conocidos o desconocidos: el intervalo intercuartílico, la mediana semiespacial, el zonoide, el zonoide elevado, la curva de Lorenz, varias medias y medianas de conjuntos aleatorios (Aumann, Herer, Vorob'ev), la función de recubrimiento de un conjunto aleatorio, varias funciones de profundidad (simplicial, semiespacial y por mayoría), y la integral de Choquet.

Lo que me sigue pareciendo más surrealista no es que se pueda dar una definición común de todos esos conceptos, sino que todos ellos se puedan ver como generalizaciones de la moda.

La mayor parte de las demostraciones son cuentas pero aun así se utilizan resultados graciosos como que toda función medible en un espacio polaco es continua respecto a otra topología polaca que genera la misma sigma-álgebra de Borel que la primera**.

El artículo aparecerá en un número especial de International Journal of Approximate Reasoning con trabajos seleccionados del congreso mundial de difusos de Lisboa 2009.


*Técnicamente, "Para todo suceso difuso A en una familia especificada, si x pertenece a A entonces A es probable". Se usa una lógica difusa que incluye la modalidad "ser probable" dando como valor de verdad de "A es probable" la probabilidad de A, y como implicación difusa la de Goguen.

**Esto no viene a cuento pero es que me hace gracia cómo suena ese teorema :)

7 comentarios:

Pedro Terán dijo...

Borel fue ministro de la marina de Francia. Hoy ya no existe ese ministerio, pero para hacernos una idea es como si fuera un ministerio de misiones de paz humanitarias.

Sim dijo...

Muchas gracias. Lo voy a volver a leer, pero me ha parecido ameno y divulgativo. En serio. Mi interés filosófico en este tema es que creo que puede ayudar a replantear modelos cognitivos. Me explico, no creo que sea posible explicar los patrones de generación de información desde 0 y 1. En algún momento se precisa entrar en "lógicas estadísticas" basadas en la probabilidad. Es por eso (entre otras cosas) que me resulta muy de agradecer su vis didáctica, Pedro.

Pedro Terán dijo...

Vis didáctica o vis dormitiva, una de las dos cosas.

"no creo que sea posible explicar los patrones de generación de información desde 0 y 1"

Yo tampoco, la verdad. Aunque admiro mucho el proyecto de siglos y siglos de alcanzar una "lógica total", me parece que la supervivencia de la especie humana se debe de haber basado más en reacciones o razonamientos de una validez meramente parcial, basados en percepciones inexactas y puestos en práctica en situaciones que sólo se corresponden parcialmente con lo aprendido. Y eso también merece la pena tratar de explicarlo.

A lo mejor te resulta interesante este vídeo (5 minutos):

http://www.youtube.com/watch?v=2ScTwFCcXGo

Matías dijo...

Me interesa esta variedad de conceptos. Falta un link al paper, sin embargo. Está en arxiv?

Sim dijo...

Claro, es admirabilísimo... pero formalizaciones basadas en la probabilidad se ajustarían -y de hecho se ajustan ya en algunos campos, pienso en la IA-

Vale, lo miro, gracias. A lo mejor te resulta interesante la entrada de la IA del próximo martes...

Pedro Terán dijo...

Matías, vaya despiste, falta lo esencial:

http://www.box.net/shared/fn87ea0dpn

Al final nunca me he animado a subir los artículos al arXiv, por pura vagancia de no averiguar a qué revistas podría enviarlos luego y a cuáles no. Hace algún tiempo que Elsevier, p.ej., no tiene problemas con ello; pero Springer y otras editoriales no lo sé. Es absurdo no subir todo el material posible al arXiv, a ver si me pongo con ello este verano.

Un saludo.

Borjano dijo...

Yo ya no se si hablas en broma o en serio, estoy difuso.
Blis toma cartas en el asunto y reconduce a Pedro al camino correcto.