Also available in English

Inf@Vis!

La revista digital de InfoVis.net

John Wilder Tukey: In memoriam.
por Juan C. Dürsteler [mensaje nº 6]

El pasado 25 de julio murió John Wilder Tukey a los 85 años de edad. Tukey ha sido uno de los grandes talentos estadísticos del siglo XX, con una notable influencia en la Visualización de Información.

Quizá su contribución mejor conocida es la de la transformada rápida de Fourier (FFT). No obstante, Tukey ha dado lugar a muchas otras contribuciones a la estadística moderna. Entre ellas se cuenta la estadística descriptiva (Exploratory Data Analysis o EDA). 

Su libro Exploratory Data Analysis (1977) es el clásico sobre este tema. EDA es una filosofía básicamente gráfica de exploración de datos estadísticos. Por ello muchas veces se la confunde con la estadística gráfica, aunque EDA va más allá.

Vale la pena mirar la excelente página sobre EDA en el manual de estadística del National Institute of Standards & Technology. para hacerse una idea de la extensión e interés de este desarrollo.

Lo interesante, a nuestros efectos, de EDA, es la potencia que añaden los gráficos, la representación visual, a las herramientas estadísticas. Los gráficos proporcionan a los resultados estadísticos una gran ayuda para la comprensión de su significado. 

Vale la pena detenerse un momento para ver algunos de los gráficos ideados por Tukey como el "Box-and-Whisker Plot" o el "Stem-and-Leaf Diagram" (Diagrama de tallo y hojas), entre otros.

En el diagrama "tallo y hojas" cada dato representa su valor y, a la vez, ocupa un espacio de forma que obtenemos simultáneamente la presentación de los datos y el perfil de una distribución en una variable. Por otra parte, la información repetitiva se reduce al mínimo. 

Como ejemplo, tenemos un horario de trenes que he confeccionado a partir de un díptico de la línea Castelldefels-Barcelona(Sants) recogido en la estación de Renfe. Originalmente el horario ocupa una tabla de 10 filas y 9 columnas más una columna "viuda" con el tren de las 22:38. Un total de 91 campos con formato hh.mm cada uno, 455 caracteres.

Díptico original Trayecto Castelldefels -> Barcelona-Sants 
5.03  7.32   9.02  11.07  13.32  15.07  16.50  18.32  20.07  22.38
6.02  7.37   9.07  11.32  13.37  15.20  17.02  18.37  20.20
6.18  7.50   9.24  11.37  13.50  15.32  17.07  18.50  20.32
6.37  8.02   9.32  12.02  14.02  15.37  17.20  19.02  20.37
6.48  8.05   9.37  12.07  14.07  15.50  17.32  19.07  20.50
6.55  8.20  10.02  12.32  14.20  16.02  17.37  19.20  21.02
7.02  8.24  10.07  12.37  14.32  16.07  17.50  19.32  21.07
7.07  8.32  10.32  13.02  14.37  16.20  18.02  19.37  21.20
7.20  8.37  10.37  13.07  14.50  16.32  18.07  19.50  21.32
7.25  8.51  11.02  13.20  15.02  16.37  18.20  20.02  21.37

En el diagrama Stem & Leaf se representa la hora a la izquierda de la barra de separación | y los minutos de la salida de cada tren a la derecha. La frecuencia de los trenes se deduce fácilmente de la longitud de las filas y es, además, muy fácil ver en que minutos de cada hora pasan típicamente los mismos.

Castelldefels -> Barcelona-Sants Diagrama Stem & Leaf Castelldefels -> Barcelona-Sants Diagrama Stem & Leaf reducido
05 | 03
06 | 02 18 37 48 55
07 | 02 07 20 25 32 37 50
08 | 02 05 20 24 32 37 51
09 | 02 07 24 32 37
10 | 02 07 32 37
11 | 02 07 32 37
12 | 02 07 32 37
13 | 02 07 20 32 37 50
14 | 02 07 20 32 37 50
15 | 02 07 20 32 37 50
16 | 02 07 20 32 37 50
17 | 02 07 20 32 37 50
18 | 02 07 20 32 37 50
19 | 02 07 20 32 37 50
20 | 02 07 20 32 37 50
21 | 02 07 20 32 37
22 | 38
                                   05 | 03
                                   06 | 02 18 37 48 55
                                   07 | 02 07 20 25 32 37 50
                                   08 | 02 05 20 24 32 37 51
                                   09 | 02 07 24 32 37
                             10 11 12 | 02 07 32 37
              13 14 15 16 17 18 19 20 | 02 07 20 32 37 50
                                   21 | 02 07 20 32 37
                                   22 | 38

Por otra parte, dado que a algunas horas se repite exactamente el horario de los trenes se puede reducir aún más el tamaño del gráfico, sin perder información y ganando en claridad (ver el diagrama de la derecha, reducido)

Al final tenemos 59 campos de 2 dígitos, 118 caracteres más los separadores, es decir 4 veces menos dígitos que con el horario original, menos espacio y más claridad.  

Esto nos da idea de que una disposición apropiada de los datos puede ser doblemente informativa y que la representación gráfica puede contribuir enormemente a la percepción de patrones y a la comprensión de la naturaleza de los fenómenos.

Porque...¿alguien se imagina mirar la evolución de las ventas sin plasmarlo en un gráfico?. ¿Quién no ha visto la evolución de la bolsa representada como una línea quebrada?. ¿O un histograma de la frecuencia de ciertas enfermedades según la edad?. 

Quizá muchos de nosotros estamos utilizando EDA a diario sin saberlo.

Enlaces de este artículo:

http://www-groups.dcs.st-and.ac.uk/~history/Mathematicians/Tukey.html  
http://www.itl.nist.gov/div898/handbook/eda/eda.htm  
http://www.itl.nist.gov/  
http://mathworld.wolfram.com/Box-and-WhiskerPlot.html  
http://www.renfe.es  
© Copyright InfoVis.net 2000-2018