correlación y causalidad

Desde que leí el libro de Nassim Taleb, Fooled by Randomness tenía pendiente un post sobre correlación y causalidad y ahora que estoy trasteando con el calculo probabilístico, me he decidido a retomar esta idea. Dejando de lado la cuestión filosófica sobre la existencia de la causalidad, yo creo que la causalidad existe y que el método científico supone la búsqueda de esas relaciones causales, aunque en la práctica sólo podemos medir la correlación estadística entre distintos hechos.

Para distinguir entre correlación y causalidad, me gusta usar el problema de los niños y las cigüeñas que nos pusieron en el posgrado en inteligencia artificial. Estadíticamente en una ciudad o pueblo, existe una correlación estadística entre el número de niños y cigüeñas. Así que podríamos postular la teoría de que a los niños los traen las cigüeñas y los datos avalarían nuestra teoría: cuantas más cigüeñas, más niños. La teoría es incorrecta puesto que la verdadera razón de esta correlación se debe al crecimiento demográfico: al aumentar el número de habitantes, aumenta el número de niños y de iglesias. Al haber más iglesias hay más nidos y más cigüeñas (hablamos de las cigüeñas cerca de las ciudades o pueblos).

Sin embargo también puede darse la situación desde el punto de vista contrario. Tenemos una teoría: al lanzar una pelota contra el suelo, rebota. Hacemos una batería de pruebas y observamos que la pelota rebota el 100% de las veces. Entonces damos por bueno nuestro modelo y hacemos un programa informático que calcula la fuerza y altura a la que rebota nuestra pelota. Hasta aquí todo bien, somos capaces de predecir la fuerza del rebote de nuestra pelota. Pero llega un día en el que la pelota, desgastada por el uso, se rompe y no rebota. Este hecho no contradice nuestro modelo, pero lo lleva a los límites de su validez: la pelota rebota, siempre que esté en buen estado. Estadísticamente, nuestra pelota rebotará bien un millón de veces seguidas, pero al final llega el día en el que deja de botar. Sin embargo a efectos prácticos, nuestro programa informático no tiene en cuenta que la pelota puede explotar y ya no es válido. En este caso la estadística nos engañaba porque el 100% de la veces la pelota ha rebotado, pero al final la relación causal (la pelota termina rompiendose por sobreuso) termina apareciendo.

En el mundo de las pelotas que rebotan, este problema no es importante, pero el uso de un modelo matemático incorrecto es una de las causas de la crisis económica actual (influyen muchos más factores no sólo éste y el más importante en última instancia es el factor humano: avaricia, ignorancia, etc). Se usaron modelos de evaluación de riesgos que luego en la práctica se llevaron al límite y dejaron de ser válidos. Así que los riesgos de conceder hipotecas a lo loco han sido mucho más elevados de lo que se había calculado inicialmente y el negocio bancario se ha visto comprometido. En los noventa sucedió algo parecido con LTCM cómo nos cuenta Nassim Taleb en su libro, porque en última instancia es un problema de la economía como ciencia: no se pueden probar las teorías económicas en un laboratorio. Tampoco existen mercados bursátiles reales de prueba, ni economías mundiales de laboratorio y consecuentemente los diferentes modelos económicos hay que corregirlos siempre a posteriori, cuando ya han fallado. Volviendo a la idea inicial, estadísticamente son correctos, existe una correlación cuando hacemos pruebas y simulaciones en ordenador, pero la realidad termina mostrando su comportamiento causal.

Y por último, una forma diferente de entender la diferencia entre correlación y causalidad en xkcd:

chiste sobre correlacion estadistica en xkcd
correlacion estadistica en xkcd

Antes pensaba que la correlación implicaba causalidad.

Entonces asistí a una clase de estadística. Ahora no pienso así.

Parece que la clase te ayudó.

Bueno, es posible.

Un comentario en “correlación y causalidad

Deja un comentario