EDA Analisis Exploratorio de Datos

ANALISIS GRAFICO Y ANALISIS EXPLORATORIO DE LOS DATOS (AED) Notas Indice 1. OBJETIVOS DEL TEMA

1

2. CONCEPTOS BÁSICOS PREVIOS

1

3. INTRODUCCIÓN

2

4. APUNTE HISTÓRICO

3

5. ETAPAS DEL AED

3

6. PROCEDIMIENTOS AED RELACIONADOS CON DISTRIBUCIONES UNIVARIADAS

5

7. PROCEDIMIENTOS AED RELACIONADOS CON DISTRIBUCIONES BIVARIADAS

12

8. PROCEDIMIENTOS AED RELACIONADOS CON DISTRIBUCIONES MULTIVARIADAS

13

9. PROCEDIMIENTOS RELACIONADOS CON ANÁLISIS DE SERIES TEMPORALES

13

10. PROCEDIMIENTOS GRÁFICOS RELACIONADOS CON EL DISEÑO EXPERIMENTAL UNIFACTORIAL

14

11. PROCEDIMIENTOS RELACIONADOS CON EL DISEÑO EXPERIMENTAL MULTIFACTORIAL

17

12. PROCEDIMIENTOS RELACIONADOS CON EL CONTROL DE LA CALIDAD

18

13. OTROS PROCEDIMIENTOS DE ANÁLISIS EXPLORATORIO DE DATOS : EL DIAGRAMA DE TALLO Y HOJAS

18

1. Objetivos del tema • • • • • • •

Conocer y comprender el concepto de análisis exploratorio de los datos (AED) Conocer las etapas a seguir para realizar un AED Conocer las herramientas gráficas y numéricas que constituyen constit uyen el AED Saber seleccionar los procedimientos más adecuados para examinar los datos y relaciones de interés Comprobar si se verifican las hipótesis de interés Saber identificar identific ar la presencia de datos atípicos (extremos o anómalos) Saber evaluar la trascendencia trascendenci a de datos ausentes y su potencial impacto

2. Conceptos básicos previos Distribuciones Distribuciones aleatorias Estadísticos descriptivos Muestreo

3. Introducción 3.1. Concepto del AED El análisis exploratorio de los datos (AED) más que un conjunto de técnicas o herramientas gráficas y numéricas, es un enfoque, actitud, línea de investigación o filosofía del análisis estadístico previo a la comprobación de hipótesis o análisis especializados para diseccionar y entender la estructura de los datos u observaciones de la muestra y las posibles relaciones entre las variables medidas. (1, 2). Aunque muy a menudo se identifica “análisis gráfico” y AED no debieran confundirse. El análisis gráfico es una colección de procedimientos estadísticos basados en gráficos enfocados a caracterizar un aspecto determinado de los datos. AED es un concepto más ambicioso, que combina procedimientos numéricos y gráficos y se propone investigar la estructura subyacente a una base de datos sugiriendo modelos, relaciones e interpretaciones como primer paso de un estudio estadístico. El siguiente paso será el “análisis confirmatorio”, o inferencial (3). Con todo no hay que olvidar que el análisis exploratorio de los datos fue diseñado en una época preinformática, donde no existía la facilidad de componer gráficos como hoy en día. El AED Se compone de un conjunto de técnicas diseñadas para identificar modelos fundamentales, conceptualmente significativos, las relaciones entre los datos y para llamar la atención sobre aquellas observaciones que se desvían del modelo fundamental. Entre las principales herramientas gráficas del AED están: • Histograma • Diagrama de cajas • Diagrama “multivari” • Diagrama continuo • Diagrama de Pareto • Diagrama de dispersión • Gráfico de tronco y hojas

3.2. Objetivos del AED El análisis exploratorio de los datos (AED), en oposición al “análisis explicativo” de los datos, tiene por finalidad general: • ahondar en la estructura (normal, asimétrica, lineal, homocedástica, etc.) de los datos • Descubrir estructuras subyacentes • Sugerir hipótesis causales de los fenómenos observados • Descubrir las relaciones o patrones sistemáticos existentes entre las variables analizadas • Desarrollar modelos con el mínimo número de parámetros (parsimoniosos) • Ayudar a seleccionar las herramientas estadísticas apropiadas • Determinar el conjunto óptimo de factores • Sintetizar y presentar la información contenida en el conjunto de datos de forma óptima • Proporcionar una base para muestreos (observacionales o experimentales) subsiguientes

3.3. Estrategia del AED Entre sus estrategias están: • Organizar y preparar los datos para ulteriores análisis estadísticos; • Detectar fallos de diseño, errores en la obtención o codificación de datos y tratamiento de datos ausentes • Identificar la presencia de datos atípicos (extremos o anómalos) • Comprobar que las suposiciones subyacentes en las técnicas estadísticas inferenciales se cumplen en la muestra de datos

2

4. Apunte histórico

John Wilder Tukey (1915-2000) Las numerosas contribuciones a la estadística de John W Tukey, pionero del AED (3), tuvieron un impacto definitivo sobre el análisis estadístico de los datos. John W Tukey acuñó términos como “software”, “bit”, etc.

5. Etapas del AED 5.1. Preparación de los datos Selección del método de entrada al sistema informático: (a) entrada manual por teclado; (b) entrada a un paquete ofimático (ej.: MS Excel); (c) entrada a un paquete estadístico (ej.: SPSS); (d) importación, si procede al paquete estadístico. Codificación de los datos: (a) continuos o de intervalo; (b) ordinales; (c) nominales; (d) dicotómicos. Transformaciones y manipulaciones de los datos: (a) combinar o segregar conjuntos de datos; (b) ordenar datos; (c) agregar o suprimir datos o variables; (d) transformar datos (ex.: logaritmos, dicotomización); (e) guardar, imprimir o exportar datos. Establecer claves de los códigos utilizados.

5.2. Análisis gráfico de las variables individuales Según la naturaleza de los datos (a) diagrama de datos ordenados (b) diagrama de dispersión en el diseño experimental (DEX) (c) diagramas de medias DEX (d) Interacción de efectos (e) diagrama de cajas (f) sondas DEX (g) efectos (h) diagrama seminormal (i) diagrama residual acumulativo (j) diagrama de contorno

5.3. Análisis gráfico de las relaciones entre variables Diagrama de dispersión

3

5.4. Evaluación de supuestos básicos subyacentes Gráficos PP Gráficos cuantil-cuantil

5.5. Investigación de la presencia de datos atípicos Diagrama de cajas

5.6. Investigación de la existencia de datos ausentes escala de medida Intervalo Ordinal Nominal

métodos gráficos Histograma Polígono de frecuencias Diagrama de cajas Diagrama de barras Diagrama de líneas Diagrama de sectores

métodos numéricos localización Media Mediana Moda

dispersión Desviación típica Coeficiente de variación Rango interfractílico

Procedimientos relacionados Diagrama bootstrap con distribuciones univariadas Diagrama de demora Diagrama de linealidad de Cox y Box Diagrama de probabilidad Diagrama de normalidad de Cox y Box Diagrama de probabilidad normal Diagrama de probabilidad del coeficiente de correlación Diagrama de secuencia serial Diagrama de Weibull Diagrama múltiple Histograma Procedimientos relacionados Diagrama de dispersión con distribuciones bivariadas Diagrama 6 Diagrama de correlación lineal Diagrama de interceptación lineal Diagrama de pendiente lineal Diagrama de desviación típica residual lineal Procedimientos relacionados Diagrama de estrella con distribuciones Gráficos funcionales de Andrews multivariadas Procedimientos relacionados Diagrama de autocorrelación con análisis de series temporales Procedimientos relacionados Bihistograma con el diseño experimental Diagrama de cajas unifactorial Diagrama de desviaciones típicas Diagrama de dispersión Diagrama de medias Diagrama cuantil–cuantil 4

Procedimientos relacionados con el diseño experimental multifactorial

Procedimientos relacionados con el control de la calidad

Diagrama de bloques Diagrama de contorno Diagrama de desviación típica en diseño experimental Diagrama de dispersión en diseño experimental Diagrama de medias en diseño experimental Diagrama de Youden Gráficas de control para observaciones individuales: CuSum, MA, MR, EWMA Gráficas de Pareto Gráficas de Shewhart para control de variables: R , s , s 2 , x Gráficas de Shewhart para control de atributos: C , N P , P , U Gráficas T 2 de Hotelling para control multivariado

6. Procedimientos AED relacionados con distribuciones univariadas 6.1. Diagrama “ bootstrap” (ver Módulo 4: “Bootstrap”)

6.2. Diagrama de demora Definición:

Sinónimo: Propósito:

Ejemplos:

El diagrama de demora es un gráfico de dispersión de cada observación respecto a la observación anterior. Una demora ( lag) es un desplazamiento temporal fijo. En el conjunto de datos { X 1 , X 2 ,… , X n } la demora entre X 8 y X 3 es 8 − 3 = 5 . Pueden dibujarse gráficos para cualquier demora, aunque quizás los más utilizados son los de demora 1. Un diagrama de demora 1 tiene por: (a) abscisas:

X i −1

∀ i1

(b) ordenadas:

X i

∀ i

Lag plot

La finalidad del diagrama de demora es comprobar (a) la aleatoriedad de un conjunto de datos o serie temporal; (b) la presencia de autocorrelación en una serie temporal 2; (c) la presencia o ausencia de datos extremos (datos aberrantes, outliers ); y (d) si existe un modelo adecuado a la estructura de los datos. (4)

1 El símbolo ∀ se lee “para todo”, en este caso, ∀ i significa “para todo (alternativamente, “para cualquier”), valor de i ”. 2 Una serie temporal es una secuencia de observaciones sucesivas, y por lo tanto estadísticamente no independientes. Se caracteriza por presentar (o no) tendencia (aumentos o decrementos en los valores medios), periodicidad (fluctuaciones por ejemplo diarias, mensuales, estacionales o anuales) y autocorrelación (las observaciones más próximas son más probablemente similares que las más alejadas en el tiempo). 5

Técnicas estadísticas relacionadas:

Diagrama de autocorrelación (véase Módulo 3: “análisis de series temporales”); Diagrama espectral (véase Módulo 3: “análisis de series temporales”); Test de rachas. Interpretación: En caso de tratarse de un conjunto aleatorio de datos, el gráfico no presentará ninguna estructura identificable. En el ejemplo (a) se observa un modelo lineal, fuertemente no aleatorio y sin presencia de datos aberrantes.

6.3. Diagrama de linealidad de Cox y Box Definición:

La transformación linear de Box y Cox (5, 6) es una familia particularmente útil de transformaciones utilizadas para mejorar el ajuste lineal. Se definen como

 X λ − 1  X ′ =  λ ln ( X ) 

si λ ≠ 0 si λ = 0

X ′ es la variable transformada; X es la variable transformada; y λ es el parámetro de transformación. El diagrama de linealidad de Box y Cox es un gráfico que permite hallar de una forma sencilla el valor del parámetro λ de la correlación existente entre la variable Y y la variable X ′ ( X transformada) para un valor dado de λ . Se define,

donde:

(a) en abscisas:

λ (el valor óptimo para λ es la correlación máxima cuando es positiva, o la mínima cuando es negativa). (b) en ordenadas: la correlación entre Y y X ′ . El valor óptimo para λ será la correlación máxima cuando es positiva, o la mínima cuando es negativa.

Sinónimo: Propósito: Ejemplo:

Box-Cox linearity plot

Investigar si el ajuste mejorará con una transformación y en este caso, hallar el mejor valor para el parámetro de la transformación. (4)

6


Regresión lineal; Diagrama de normalidad de Box y Cox Interpretación: En el ejemplo se observa como el gráfico de los datos originales y los residuales sugiere un ajuste no lineal (cuadrático, concretamente) o, alternativamente una transformación. El coeficiente de correlación es de –1 para λ = 2,0 . La transformación de Box Cox con éste valor de parámetro permite el ajuste lineal mostrado en el tercer diagrama.

6.4. Diagrama de normalidad de Box y Cox Definición: Sinónimo: Propósito: Ejemplo:

Box-Cox normality plot

(4)

Técnicas estadísticas relacionadas: Interpretación:

6.5. Diagrama de probabilidad y de probabilidad normal Definición:


es un diagrama que representa la distribución acumulada de las observaciones estandarizadas. Puede incorporar una línea correspondiente a la distribución teórica (por ejemplo, la distribución normal) para enfatizar el ajuste de los datos experimentales (a) abscisas: resultados ordenados en forma creciente (algunas versiones utilizan las medianas ordenadas); (b) ordenadas: frecuencia (es decir, probabilidad) acumulada de los resultados de la variable dependiente escalada según la distribución que se desea comprobar (“papel probabilístico normal” en el caso de la distribución normal) 3; diagrama PP, PP plot, [normal] probability plot Evaluar la bondad de ajuste de la distribución de los datos a una distribución determinada. El diagrama de probabilidad normal es un caso especial del diagrama de probabilidad en el que la distribución a examen es la normal. Permite investigar si los datos se ajustan a una determinada distribución, por ejemplo la normal, y en caso que no sea así; cuál es la posible razón de este alejamiento de la normalidad (por ejemplo, el sesgo) y cuál puede ser la distribución teórica más apropiada

3

Por ejemplo, en el caso de la distribución normal, los valores estandarizados, resultado de la transformación: − x z = s utilizando tablas de la distribución normal inversa o funciones implementadas en paquetes estadísticos para obtener el fractil de la distribución normal y representarlo en una escala decimal. No obstante, la mayor parte de paquetes estadísticos proporciona directamente el diagrama y no es necesaria esta transformación. 7

Ejemplo:

(4)


diagramas de probabilidad; diagrama de probabilidad del coeficiente de correlación; histograma; tests de normalidad (Shapiro Wilks, Anderson Darling, Kolmogorov, χ 2 , etc.)

Interpretación: Cuando la distribución observada se ajusta a la teórica, los puntos se disponen en línea recta. Cuando este ajuste no es bueno, adoptan otras formas. En los siguientes gráficos se indica cuando la distribución es (A) asimétrica a la derecha, (B) asimétrica a la izquierda, (C) leptocúrtica, o (D) platicúrtica:

A

B

C

D

Las principales ventajas son la sencillez de interpretación, la extensión a cualquier tipo de distribución y, en el caso de la distribución normal, la facilidad de obtener el diagrama ya que está implementado en muchos paquetes estadísticos. Además, no requieren muestras tan numerosas como algunos tests de normalidad. El principal inconveniente es la subjetividad de la interpretación visual, ya que al contrario de los tests de normalidad numéricos, no se concluye con una “ p “ objetiva.

6.6. Diagrama de probabilidad del coeficiente de correlación Definición:

Sinónimo:

el diagrama de probabilidad del coeficiente de correlación (1) es un gráfico que representa el coeficiente de correlación frente al parámetro de forma de la distribución, λ : (a) abscisas: valor del parámetro de la forma de la distribución λ ; y (b) ordenadas: diagrama de probabilidad del coeficiente de correlación. PPCC, probability plot correlation coefficient plot, diagrama lambda de Tukey 4

4 La distribución lambda generalizada (lambda asimétrica, lambda de Tukey) es una distribución con un amplio abanico de formas. Se define por su función cuantil –la inversa de la función (acumulativa) de distribución–, con cuatro parámetros: λ 1 , λ 2 , λ 3 , λ 4 . Existen varias parametrizaciones, por ejemplo la propuesta por Freimer (7) con una función cuantil: 8

Propósito:

estimar parámetros de localización y escala, proporcionando al mismo tiempo una evaluación gráfica de la bondad de ajuste en aquellos problemas en que el análisis estadístico asume un cierto tipo de distribución. Es aplicable a distribuciones (como la de Weibull) que se definen mediante un parámetro de forma además de los parámetros de localización y escala. Por esta razón no es adecuada para caracterizar distribuciones como la normal caracterizadas únicamente por parámetros de localización y escala. Una aplicación adicional es decidir qué familia de distribuciones se ajusta mejor a los datos observados.

Ejemplo:

Técnicas estadísticas relacionadas: diagrama de probabilidad. Interpretación: El parámetro formal es especialmente útil para orientar si una distribución posee una cola más o menos extensa e indica varias distribuciones comunes: λ 1

-1 0 0,14 0,5 1

Forma de la distribución

Cauchy (aproximada) Logística (exacta) Normal (aproximada) U Uniforme (exacta)

6.7. Diagrama secuencial (Véase el tema “Análisis de series temporales”)

6.8. Diagrama de Weibull Definición:

El diagrama de Weibull es una técnica gráfica para evaluar el ajuste y obtener una estimación de los parámetros de forma y escala de una distribución de Weibull 5. Está definido por: λ

1 F − ( u ) = λ 1 +

donde:

4 λ u 3 − 1 (1 − u ) − 1 − λ3 λ 4

λ 2

λ 1 es un parámetro de localización; λ 2

es un parámetro de dispersión; y

λ3 , λ 4 son dos parámetros de forma, tales que si λ1 = λ 2 la distribución es simétrica.

5 La distribución de Weibull es una familia de distribuciones caracteriza por: β −1

Y = α β ( X − γ )

donde:

α

es el parámetro de escala; 9

e

− α β ( X − γ )

(a) abscisas: (b) ordenadas:

el logaritmo neperiano de la respuesta ordenada; y la probabilidad acumulada (en porcentaje) de la distribución de Weibull, una escala diseñada para que, de seguir tal distribución, el gráfico resultante del ajuste por mínimos cuadrados sea aproximadamente linear: Y = ln ( − ln (1 − p ) )

donde:

p =

i − 0,3 n + 0, 4

;y

i es el orden (el ordinal) de la observación: se requiere un mínimo de 7 observaciones:


Weibull plot

Es una técnica gráfica para establecer si un conjunto de datos procede de una población que se ajusta razonablemente a la distribución de Weibull con dos parámetros, suponiendo que la localización es cero (8).. (4)


Diagrama de probabilidad de Weibull; Diagrama PPCC de Weibull; Diagrama de riesgo de Weibull. Estos dos últimos permiten a diferencia del diagrama de Weibull la existencia de datos ausentes. Interpretación: la misma que otros diagrama de ajuste de datos a distribuciones treóricas.

6.9. Diagramas múltiples Sinónimo: Propósito: Ejemplos:

4–Plot, 6 plot

Combinar en un mismo diagrama diversos gráficos (4, 6, etc.). (4)

β

es el parámetro de forma;

γ

es el parámetro de localización. 10

6.10. Histograma Definición:

El histograma es un gráfico que presenta frecuencias tabuladas. Viene a ser la versión gráfica de la tabla, mostrando la proporción de casos que caen dentro de determinadas categorías o clase. Formalmente el histograma puede definirse como un “mapa” que presenta el recuento de observaciones que pertenecen a n categorías disjuntas o clases y el diagrama histograma es su expresión gráfica. El histograma hi satisface la condición N =

n

∑ h

i

i =1

donde: N i

es el número total de observaciones; y es el índice que identifica la clase.

Un histograma acumulativo H i de un histograma hi es un “mapa” que presenta el recuento acumulativo de observaciones que pertenecen a las i categorías disjuntas o clases previas, definiéndose como: i

∑ h

H i =

j

j =1

Un histograma estandarizado (clásico o acumulativo) es aquel en que se representan frecuencias relativas en lugar de frecuencias absolutas. El número de clases n tiene una importancia decisiva en el aspecto e interpretación del histograma, por lo que debe seleccionarse con cuidado, a partir de reglas empíricas como: n=

N

n = 2 N n = 10log N

(esta última regla requiere un número de observaciones superior a 50). O alternativamente, usando parámetros estadísticos: así, el número “óptimo” de clases es el que minimiza la siguiente expresión

 2 x − s2  n = min    c  donde: c es la amplitud o intervalo de la clase. El intervalo de clase c puede ser estimado a partir de la regla de Freedman–Diaconis (9): − 13

c = 2 × rango intercuartílico × N

Una vez establecido el número de clases, la representación gráfica del histograma consiste en dibujar n rectángulos adosados correspondientes a las clases en que se clasifican los datos:

11

Propósito: Ejemplo:

(a) abscisas: clases; y (b) ordenadas: densidad de frecuencia: el área de cada barra y no su altura representa la frecuencia, por lo que sería más correcto nombrar el eje de ordenadas como “densidad de frecuencia”. Si la base de los rectángulos, es decir el intervalo de la clase, es igual, la altura es proporcional al área y no aplica esta distinción. Cuando la altura representa la frecuencia, se habla de “polígono de frecuencias” La finalidad del histograma es resumir gráficamente la distribución univariada de un conjunto de observaciones. (4)


Diagrama de cajas Diagrama de probabilidad Interpretación: En el histograma debe evaluarse la localización (centralización) de los datos y eventualmente la presencia de varias modas; su dispersión (escala); la existencia de sesgo; la presencia de valores extremos. Calculadoras on line: http://www.ton.scphys.kyoto-u.ac.jp/~hideaki/res/histogram.html http://people.hofstra.edu/faculty/Stefan_Waner/stats/histogram.html http://nlvm.usu.edu/en/nav/frames_asid_145_g_4_t_5.html?open=instructions

7. Procedimientos AED relacionados con distribuciones bivariadas 7.1. Diagrama múltiple (Véase el apartado 6.9)

7.2. Diagrama de dispersión (Véase el tema “Correlación”)

7.3. Diagrama de correlación lineal (Véase el tema “Correlación”)

7.4. Diagramas de interceptación y de pendiente lineales (Véase el tema “Regresión”)

7.5. Diagrama de desviación residual estándar lineal (Véase el tema “Regresión”)

12

8. Procedimientos AED relacionados con distribuciones multivariadas 8.1. Diagrama de estrella Definición:

El diagrama de estrella es un método para representar datos multivariados (10), estudiando las variables dominantes en cada observación, las observaciones más parecidas (nubes o “clusters”) y la existencia de datos extremos ( outliers ). Cada “estrella” representa una observación individual formada por la unión de los vértice de vectores (separados por ángulos iguales) que representan las variables. Estos vectores emergen del centro de un círculo, siendo la longitud de cada vector proporcional a la magnitud de la variable en todos los puntos. El nombre proviene del aspecto que presenta estas observaciones. Ya que representan datos individuales, su principal limitación es que es válido para un número limitado de observaciones. Cuando este número crece el gráfico se hace cada vez más confuso.


star plot

Ejemplo:

Este diagrama se utiliza para examinar en un mismo gráfico los valores relativos de determinadas variables y localizar observaciones similares. (4)

Técnicas estadísticas relacionadas: Gráfico de caras de Chernoff. Interpretación: Estos diagramas pueden interpretarse desde el punto de vista de las observaciones individuales, buscando por ejemplo qué variables son más determinantes, o desde el punto de vista de las variables, buscando modelos de comportamiento y agrupando los casos por el aspecto similar de las “estrellas” respectivas

9. Procedimientos relacionados con análisis de series temporales 9.1. Diagrama de autocorrelación (Véase Modulo 3 “Análisis de series temporales”).

9.2. Diagrama espectral (Véase Modulo 3 “Análisis de series temporales”).

9.3. Diagramas de desmodulación compleja de la amplitud y la fase (Véase Modulo 3 “Análisis de series temporales”).

9.4. Diagrama secuencial (Véase Modulo 3 “Análisis de series temporales”).

9.5. Diagrama funcional de Andrews (Véase Modulo 3 “Análisis de series temporales”). 13

10. Procedimientos gráficos relacionados con el diseño experimental unifactorial 10.1. Bihistograma Definición:


El bihistograma es un gráfico basado en el histograma clásico para visualizar dos distribuciones simultáneamente consistente en la yuxtaposición de dos histogramas: en la parte superior la medición en el primer nivel 1 del factor y en la parte inferior la distribución corresponde a la medición en el segundo nivel. Está, pues restringido a examinar los efectos de factores que tienen únicamente dos niveles. Desde el punto de vista gráfico puede ser más ilustrativo que un test estadístico equivalente (como el test t de Student) ya que pone en evidencia simultáneamente los parámetros de localización, dispersión y forma y la existencia o no de datos extremos. histograma bidimensional evaluar si una modificación de nivel de un factor ha modificado la localización, variación o forma y características de una distribución (4)


Diagramas QQ; Test t de Student; Test F de Snedecor; Test de Kolmogorov–Smirnov.

10.2. Diagrama de cajas Definición:

Sinónimos: Propósito: Ejemplo:

El diagrama de cajas representa en una forma simple y cómoda una o varias poblaciones de observaciones sin prejuzgar el tipo de distribución teórica subyacente. Es un gráfico esquemático que representa cuatro de las principales características de la distribución de los datos: (a) localización: media, mediana; (b) dispersión: rango, rango intercuartílico; (c) aspecto: sesgo; y (d) presencia de datos extremos. Tiene el aspecto de una caja central que abarca la mitad de los datos, con una línea de prolongación trazada a la altura de la mediana y una indicación de la media. De la caja emergen unas líneas (“bisagras”) acotadas en el percentil 25 y 75 y a partir de estas acotaciones se indican los valores extremos. Diagrama de cajas y bigotes; Box–and–whisker plot, candlestick chart Representar las distribuciones y sus principales características de una o varias muestras simultáneamente (4)

14

Variantes:

Existen numerosas variantes de este esquema clásico que incluye la presencia de muescas que representan intervalos de confianza, modificaciones de las acotaciones de líneas que emergen de la caja, etc. (11, 12) Por ejemplo, construyendo muescas (11) en: 1, 25 × rango intercuatílico mediana ± 1, 7 × 1,35 × N o adoptando formas más sofisticadas, como la de un violín (12):

Calculadores “on line”:

http://www.physics.csbsju.edu/stats/box2.html http://nlvm.usu.edu/en/nav/frames_asid_200_g_3_t_5.html?open=instructions

10.3. Diagrama de dispersión (Véase el tema “Correlación”)

10.4. Diagrama de escalas Definición:


Los diagramas de escala (desviación típica, desviación absoluta, etc.) se utilizan para averiguar si la dispersión varía entre diferentes grupos de observaciones, y la magnitud o el modelo de esta variación. El agrupamiento puede ser natural, forzado por el investigador o arbitrario (dividiendo aleatoriamente los datos). Típicamente se asocian a diagramas de localización (véase 10.5). (a) abscisas: identificador de la clase o grupo; y (b) ordenadas: dispersión (por ejemplo, desviación típica) de la clase. Diagrama de desviaciones típicas, Standard deviation plot Comprobar la igualdad de la dispersión de diferentes grupos o clases. (4)

15


Diagrama de localización Diagrama de dispersión de diseño experimental Interpretación: Bajo la hipótesis nula de igualdad de dispersión, el diagrama proporciona una aproximación visual para comprobar esta suposición.

10.5. Diagrama de localización Definición:

Los diagramas de localización (media, media truncada, mediana, etc.) se utilizan para averiguar si la localización o centralización varía entre diferentes grupos de observaciones, y la magnitud o el modelo de esta variación. Al igual que los gráficos de dispersión (con los que suele asociarse el gráfico de localización), los grupos o clases pueden ser naturales, definidos por el investigador o arbitrarios. (c) abscisas: identificador de la clase o grupo; y (d) ordenadas: localización (por ejemplo, media) de la clase. Es frecuente dibujar una línea recta, paralela a las abscisas en el punto de ordenadas correspondiente a la media global.


Mean plot, median plot, trimmed mean plot

Ejemplo:

Valorar la consistencia de una medida de localización (media, media recortada, mediana) entre grupos o subconjuntos de datos objeto de estudio, organizados según niveles de una variable de agrupación o “factor” (por ejemplo la variable o factor “tiempo en meses” tiene 12 niveles por año). Permite investigar cuál es la magnitud de los cambios en las medidas de localización en los diferentes grupos y averiguar si existe un modelo bien definido en el caso de que tales medidas de localización no sean consistentes. (4)


Diagrama de escalas Diagrama de medias en diseño experimental (DEX) Diagrama de cajas Interpretación: En el análisis experimental unifactorial o en el diseño de estudios univariados se asume que la medida de localización o centralización es constante, es decir consistente, entre todos los grupos. Este diagrama permite una comprobación gráfica de que se cumple este supuesto.

16

10.6. Diagrama cuantil–cuantil Definición:

El diagrama cuantil–cuantil es una representación gráfica de la distribución de los datos procedentes de dos poblaciones para comprobar que proceden de una distribución común. k (a) abscisas: cuantiles6 observados en una distribución acumulada estandarizada; y n +1 (b) ordenadas: cuantiles observados en una segunda muestra. Se traza la bisectriz del cuadrante como linea de referencia, En cierto modo se parece al diagrama de probabilidad 7, con la salvedad que no se representan frecuencias estandarizadas (el valor k -ésimo de una distribución de media 0 y varianza 1) sino cuantiles. Igualmente puede utilizarse para visualizar alejamientos de la distribución normal si la distribución esperada es la normal. No requiere que ambas muestras sean iguales. Si lo son, el diagrama es esencialmente una representación de los datos ordenados de una muestra frente a los datos ordenados de la segunda


QQ plot

Averiguar si dos poblaciones tienen una distribución común. Además es útil para descubrir datos aberrantes o extremos. (4)


Bihistograma Test t

Test F Test ji–cuadrado para dos muestras Test de Kolmogorov–Smirnov para dos muestras Interpretación: Cuanto más se aleje la dispersión de puntos de la línea de pendiente 45 º, menos verosímil es que las dos distribuciones procedan de una distribución común. Permite detectar diferencias en localización, escala, forma (sesgo) y la presencia de datos extremos. Conclusiones:

11. Procedimientos relacionados con el diseño experimental multifactorial 11.1. Diagrama de bloques (Véase Módulo 3 “Diseño experimental”)

6

Cuantil es la fracción (por ejemplo porcentual) de casos por debajo de un valor determinado. Así, el cuantil 0,25 (percentil 25 %) es aquel valor que deja un por debajo suyo un 25 % de casos de la distribución, y un 75 % por encima. 7 Cuando n es grande, los dos gráficos son idénticos 17

11.2. Diagrama de contorno (Véase Módulo 3 “Diseño experimental”)

11.3. Diagramas de dispersión, media y desviación típica en diseño experimental (Véase Módulo 3 “Diseño experimental”)

12. Procedimientos relacionados con el control de la calidad Los principales gráficos asociados a la gestión de la calidad son: el hsitograma, el diagrama de Youden, el diagrama de Pareto, los gráficos de Schewhart, el diagrama de causa efecto y el diagrama de dispersión.

12.1. Diagrama de Youden (Véase Módulo 3 “Calidad”)

12.2. Diagrama de control para observaciones individuales: CuSum, MA, MR, EWMA (Véase Módulo 3 “Calidad”)

12.3. Diagrama de Pareto (Véase Módulo 3 “Calidad”)

12.4. Diagrama de Shewhart para control de variables: R , s , s 2 , (Véase Módulo 3 “Calidad”)

12.5. Diagrama de Shewhart para control de atributos: C , N P , P , U (Véase Módulo 3 “Calidad”)

12.6. Diagrama T 2 de Hotelling para control multivariado (Véase Módulo 3 “Calidad”)

13. Otros procedimientos de análisis exploratorio de datos: el diagrama de tallo y hojas Definición:

El diagrama de tallo y hojas de Tukey presenta la distribución de los valores observados en una muestra utilizando las cifras principales como “tallo” de un árbol, y las demás cifras, a la derecha del tallo, representan las “hojas”. Si hay datos extremos se agrupan en la parte o inferior del “tallo” como “ALTOS” y “BAJOS” respectivamente.


Stem–and–leaf plot, stemplot

Ejemplo:

Representar de forma rápida una muestra de datos, manteniendo visible su valor numérico, y facilitar el calculo de medianas, fractiles, etc. La siguiente información corresponde a una muestra de 150 observaciones. BAJO |96,3 96,4 2 96 | 6 96 |7789 19 97 |0111222344444 40 97 |556666777888888899999 (38) 98 |00000000000111222222222233333444444444 52 98 |555666666666677777777888888888899 19 99 |000001112223344 4 99 |59 2 100 |0 ALTO |100,8 18

Técnicas estadísticas relacionadas: Calculadora “on line”:

Histograma http://math.uc.edu/~pelikan/probandstat/stem.htm

Bibliografía Bibliografía citada 1. Filliben JJ. The probability plot correlation coefficient test for normality. Technometrics 1975;17(1):111117. 2. Smith AF, Prentice DA. Exploratory data analysis, a handbook for data analysis in the behavioral sciences: statistical issues; 1993. 3. Tukey JW. Exploratory data analysis: Addison Wesley; 1977. 4. NIST/SEMATECH. e-Handbook of Statistical Methods. In:: NIST,; 2003. 5. Box GEP, Cox DR. An analysis of transformations. J R Stat Soc, Ser. B 1964;26:211-243. 6. Box GEP, Cox DR. An analysis of transformations revisited, rebutted. J Am Stat Assoc 1982;77(377):209210. 7. Freimer M, Mudholkar GS, Kollia G, Lin CT. A study of the generalized Tukey lambda family. Com Stat Theor Meth 1988;17:3547-3567. 8. Nelson W. Applied life data analysis: Addison-Wesley; 1982. 9. Freedman D, Diaconis P. On the histogram as a density estimator L2 theory. Prob Theor Rel Fields 1981;57(4):453-476. 10.Chambers J, Cleveland W, Kleiner B, Tukey P. Graphical methods for data analysis: Wadsworth; 1983. 11.McGill R, Tukey JW, Larsen WA. Variations of box plots. Am Stat 1978;32:12-16. 12.Hintze JL, Nelson RD. Violin plots: a box plot-density trace synergism. Am Stat 1998;52(2):181-184.

En Internet http://www.5campus.com/leccion/aed http://ciberconta.unizar.es/LECCION/aed/ead.pdf http://www.statsoft.com/textbook/stdatmin.html http://www.statgraphics.com/eda.htm

SPSS www.sussex.ac.uk/Users/andyf/eda.pdf

Excel http://www.qualitydigest.com/oct97/html/excel.html

19

EDA Analisis Exploratorio de Datos

Recommend Documents