Saltar al contenido

3

Los periodistas deportivos suelen construir historias basadas en datos estadísticos. Es atractivo construir narrativas épicas que expliquen los datos, aunque luego no sean fieles a lo que realmente dicen esos datos. Kiko Llaneras tiene una serie de artículos relacionados con este tema muy buenos: cartera vs carteracanteras de barça y madridnarrativas infundadas.

Supongo que en parte se debe a que nuestro cerebro no está acostumbrado a hacer cálculos estadísticos complejos. En el libro de Nassim Taleb ¿Existe la suerte? se explica esta idea aplicada al campo de las finanzas: nuestro cerebro no calcula bien las probabilidades y suele tomar "atajos" para realizar cálculos de probabiidades.

Por otro lado, hace tiempo que pienso que introduciendo aleatoriedad por medio de probabilidades, se podría romper la frialdad asociada a los ordenadores y se podrían construir programas menos predecibles, más humanos. Incluso escribí un artículo sobre la posibilidad de usar redes bayesianas para la generación de textos de horóscopos y predicciones del futuro.

Y hace poco me encontré con un artículo de O'Reilly sobre narrativas deportivas generadas por ordenador hablando sobre una empresa, automated insights, que se dedica a unificar estas dos ideas, la aplicación de la inteligencia artificial para la generación de narrativas deportivas. A partir de unos datos, nos cuentan una historia para que los datos no se presenten tan fríos. Así que inspirado en el proceso que usamos los humanos para construir narrativas en los deportes, los ordenadores están empezando a contarnos historias analizando el contenido de grandes bases de datos.

4HC4Y6QJXBGX

Paradojas de la estadística:

No sé si llegará al 1%, pero si consigo acertar con el futuro de alguien, estará convencido de que mi experimento es capaz de adivinar el futuro. Y si consigues acertar 2 veces (1 cada 10.000) todavia más convencido. Y sin embargo con los millones de usuarios que hay en internet lo dificil sería no acertar con nadie.

1

Desde que leí el libro de Nassim Taleb, Fooled by Randomness tenía pendiente un post sobre correlación y causalidad y ahora que estoy trasteando con el calculo probabilístico, me he decidido a retomar esta idea. Dejando de lado la cuestión filosófica sobre la existencia de la causalidad, yo creo que la causalidad existe y que el método científico supone la búsqueda de esas relaciones causales, aunque en la práctica sólo podemos medir la correlación estadística entre distintos hechos.

Para distinguir entre correlación y causalidad, me gusta usar el problema de los niños y las cigüeñas que nos pusieron en el posgrado en inteligencia artificial. Estadíticamente en una ciudad o pueblo, existe una correlación estadística entre el número de niños y cigüeñas. Así que podríamos postular la teoría de que a los niños los traen las cigüeñas y los datos avalarían nuestra teoría: cuantas más cigüeñas, más niños. La teoría es incorrecta puesto que la verdadera razón de esta correlación se debe al crecimiento demográfico: al aumentar el número de habitantes, aumenta el número de niños y de iglesias. Al haber más iglesias hay más nidos y más cigüeñas (hablamos de las cigüeñas cerca de las ciudades o pueblos).

Sin embargo también puede darse la situación desde el punto de vista contrario. Tenemos una teoría: al lanzar una pelota contra el suelo, rebota. Hacemos una batería de pruebas y observamos que la pelota rebota el 100% de las veces. Entonces damos por bueno nuestro modelo y hacemos un programa informático que calcula la fuerza y altura a la que rebota nuestra pelota. Hasta aquí todo bien, somos capaces de predecir la fuerza del rebote de nuestra pelota. Pero llega un día en el que la pelota, desgastada por el uso, se rompe y no rebota. Este hecho no contradice nuestro modelo, pero lo lleva a los límites de su validez: la pelota rebota, siempre que esté en buen estado. Estadísticamente, nuestra pelota rebotará bien un millón de veces seguidas, pero al final llega el día en el que deja de botar. Sin embargo a efectos prácticos, nuestro programa informático no tiene en cuenta que la pelota puede explotar y ya no es válido. En este caso la estadística nos engañaba porque el 100% de la veces la pelota ha rebotado, pero al final la relación causal (la pelota termina rompiendose por sobreuso) termina apareciendo.

En el mundo de las pelotas que rebotan, este problema no es importante, pero el uso de un modelo matemático incorrecto es una de las causas de la crisis económica actual (influyen muchos más factores no sólo éste y el más importante en última instancia es el factor humano: avaricia, ignorancia, etc). Se usaron modelos de evaluación de riesgos que luego en la práctica se llevaron al límite y dejaron de ser válidos. Así que los riesgos de conceder hipotecas a lo loco han sido mucho más elevados de lo que se había calculado inicialmente y el negocio bancario se ha visto comprometido. En los noventa sucedió algo parecido con LTCM cómo nos cuenta Nassim Taleb en su libro, porque en última instancia es un problema de la economía como ciencia: no se pueden probar las teorías económicas en un laboratorio. Tampoco existen mercados bursátiles reales de prueba, ni economías mundiales de laboratorio y consecuentemente los diferentes modelos económicos hay que corregirlos siempre a posteriori, cuando ya han fallado. Volviendo a la idea inicial, estadísticamente son correctos, existe una correlación cuando hacemos pruebas y simulaciones en ordenador, pero la realidad termina mostrando su comportamiento causal.

Y por último, una forma diferente de entender la diferencia entre correlación y causalidad en xkcd:

chiste sobre correlacion estadistica en xkcd
correlacion estadistica en xkcd

Antes pensaba que la correlación implicaba causalidad.

Entonces asistí a una clase de estadística. Ahora no pienso así.

Parece que la clase te ayudó.

Bueno, es posible.