Unidad III. Estadística descriptiva: métodos numéricos M.C. Angel David Trujillo Hernández
Contenido 3.1. Medidas de localización Media Mediana Moda Percentiles Cuartiles
3.2. Medidas de variabilidad Rango Rango intercuartil Varianza Desviación estándar Coeficiente de variación
3.3. Medidas de localización relativa y detección de valores atípicos Valores z Teorema de Chebyshev La regla empírica
Detección de valores atípicos
M.C. Angel David Trujillo Hernández
Continuación contenido 3.4. Análisis exploratorio de datos Resumen de cinco números Diagrama de caja 3.5. Medidas de asociación entre dos variables Covarianza Interpretación de la covarianza Coeficiente de la correlación Interpretación del coeficiente de correlación 3.6. Media Ponderada y manejo de datos agrupados Media ponderada Datos agrupados
M.C. Angel David Trujillo Hernández
3.1. Medidas de localización Las medidas de localización y de dispersión se calculan a partir de los n valores de los datos.
Si se calculan partiendo de datos de una muestra se llaman estadísticos de la muestra. Si se calculan a partir de los datos de una
población, entonces se denominan parámetros poblacionales.
Media. Conocida también como promedio de una variable, la media es una de las medidas de localización central más empleadas. Ésta se obtiene sumando todos los valores de los datos y dividiendo el resultado entre la cantidad de los valores.
M.C. Angel David Trujillo Hernández
A continuación se pueden observar las formulas para calcular la media en una muestra y en una población respectivamente,
donde,
La letra griega Σ es el signo de suma, o sumatoria.
M.C. Angel David Trujillo Hernández
Ejemplo del cálculo de la media Consideremos los siguientes datos de cinco grupo en una escuela, 46 54 42 46 32 Aplicando la notación x1, x2, x3, x4, x5, para representar la cantidad de alumnos en cada uno de los siguientes grupos. X1 = 46 X2 = 54 X3 = 42 X4 = 46 X5 = 32
Para las cinco clases muestreadas, el tamaño promedio del grupo es 44 alumnos. M.C. Angel David Trujillo Hernández
Ejemplo del cálculo de la media Considere la muestra de 12 graduados a los cuales se les pregunto su salario mensual, los datos reunidos se pueden observar en la tabla.
Egresado
Salario mensual
Egresado
Salario mensual
1
2850
7
2890
2
2950
8
3130
3
3050
9
2940
4
2880
10
3325
5
2755
11
2920
6
2710
12
2880
M.C. Angel David Trujillo Hernández
El promedio de salario mensual de la muestra:
M.C. Angel David Trujillo Hernández
Mediana. Es otra medida de la localización central de los datos. Es el valor intermedio, cuando los valores de los datos se ordenan en forma ascendente.
Si hay una cantidad impar de elementos, la mediana es el valor del elemento intermedio, cuando todos los elementos están ordenados de manera ascendente. Si hay una cantidad par de elementos, la mediana es el valor promedio de los dos elementos intermedios, cuando todo se ordenan en forma ascendente. Aplicando esta definición para calcular la mediana del tamaño de un grupo para la muestra de cinco grupos en la escuela. 32 42 46 46 54 Como n = 5 es impar, la mediana es el elemento intermedio de la lista ordenada. Así el tamaño de clase es 46 alumnos. M.C. Angel David Trujillo Hernández
Calculando la mediana del salario inicial de 12 egresados 2710 2755 2850 2880 2880 2890 2920 2940 2950 3050 3130 3325
Como n = 12 es par, identificamos los dos elementos intermedios. La mediana es la media de esos dos valores. Mediana = (2890+2920)/2 = 2905
Aunque la media es la medida de localización central que más se usa, hay algunas casos en los que se prefiere la mediana; ya que la media se ve influenciada por valores demasiados pequeños o demasiados grandes. Cuando hay valores extremadamente altos o bajos de los datos, con frecuencia la mediana es la medida preferida de localización central.
M.C. Angel David Trujillo Hernández
Para observar lo antes mencionado cambiemos el ultimo valor del ejercicio anterior por otro dato con un valor mucho más grande (3325 por 10 000), 2710 2755 2850 2880 2880 2890 2920 2940 2950 3050 3130 10000
Calculando de nuevo la media Media = 41955 / 12 = 3496
Recordemos que la media antes calculada era de 2940. Se observa el incremento en el valor de la media provocado por incorporar un valor (en el extremo) muy alto en cálculo. Sin embrago si calculamos de nuevo la mediana con el cambio del último valor, se puede observar que no sufre ninguna modificación con respecto al valor de la mediana antes calculada, ya que el número de datos y la ubicación de los valores centrales no se modifican.
M.C. Angel David Trujillo Hernández
Moda. La moda es el valor de los datos que se presenta con más frecuencia. Considerar la muestra de los cinco tamaños de grupo,
32 42 46 46 54 El único valor que se presenta más de una vez es 46; como este valor tiene la máxima frecuencia, constituye la moda (frecuencia de 2). Otro ejemplo, es considerando los valores de los 12 salarios de los egresados, 2710 2755 2850 2880 2880 2890 2920 2940 2950 3050 3130 3325 El único valor que presenta una mayor frecuencia es el dato 2880, el cual tiene una frecuencia de 2, por lo tanto representa la moda.
M.C. Angel David Trujillo Hernández
Se dan casos en los que la máxima frecuencia se presenta en dos o más valores distintos, por lo que en ellos existe más de una moda. Si los datos tienen exactamente dos modas, se que son datos bimodales. Si tienen más de dos modas, son multimodales. La moda es una medida importante de localización de datos cualitativos. Marca
Frecuencia
Coca clásica Coca dietética
19 8
Dr. Pepper
5
Pepsi - Cola
13
Sprite
5 Total
M.C. Angel David Trujillo Hernández
50
Comparación de la media mediana y moda Propiedades:
Media •Es
la más empleada cálculo es simple •Los datos no requieren ser ordenados •Es muy sensible a valores demasiados grandes o pequeños (ocasionan •Su
una distribución oblicua o asimétrica) •Es muy tedioso su cálculo •Considera todos los datos Mediana •Los
datos necesitan ser ordenados tedioso su cálculo cuando el tamaño del conjunto de datos es muy grande (ordenamiento) •No se ve afectada por valores demasiados grandes o pequeños •Solo toma uno o dos valores de la población •Es
Moda •El
conteo es lo único necesario
M.C. Angel David Trujillo Hernández
Relaciones entre la media, mediana y moda
Media, mediana, moda (a) Simétrica unimodal
Moda Mediana moda Media (b) Simétrica bimodal
Moda Mediana Media (d) Asimétrica a la derecha, M.C. Angel David Trujillo Hernández (c) Asimétrica a la izquierda, unimodal Media Mediana Moda
En resumen..
Si el histograma de un conjunto de mediciones es simétrico, use la media como promedio. Si el histograma no es simétrico , emplee la mediana o la moda como medidas de posición.
M.C. Angel David Trujillo Hernández
Percentiles. El p-ésimo percentil es un valor tal que por lo menos p por ciento de las observaciones son menores o iguales que este valor y por lo menos (100-p) por ciento de las observaciones son mayores o iguales que este valor. Para calcular el p-ésimo percentil se aplica el siguiente método, Paso Paso 1. 2. Ordenar Calcular los un datos índicede i manera ascendente
Paso 3. a) si i no es entero, se redondea. El valor entero inmediato mayor que i indica la posición del p-ésimo percentil. b) Si i es entero, el p-ésimo percentil es el promedio de los valores de los datos ubicados en los lugares i e i+1. M.C. Angel David Trujillo Hernández
Ejemplo Percentiles.
Considerar los datos de los salarios, calcular el percentil 85 Paso 1. Ordenar los datos de manera ascendente 2710 2755 2850 2880 2880 2890 2920 2940 2950 3050 3130 3325 Paso 2. Calcular un índice i
Paso 3. Como i no es entero, se redondea. El lugar del percentil 85 es el siguiente entero mayor que 10.2, o sea, el lugar 11. Vemos que el percentil 85 es el valor en la posición décima primera, o 3130.
M.C. Angel David Trujillo Hernández
Otro ejemplo de Percentiles.
Calcular el percentil 50 para los datos anteriores Aplicando el paso 2 Paso 2. Calcular un índice i
Paso 3. Como i es entero, el percentil 50 es el promedio de los valores de los datos sexto y séptimo; (2890+2920)/2 = 2905 Observe que el percentil 50 es también la mediana.
M.C. Angel David Trujillo Hernández
Cuartiles. Frecuentemente los datos se dividen en cuatro partes, cada una con aproximadamente la cuarta parte, o el 25% de las observaciones.
A los puntos de división se les llama Cuartiles, y se definen como sigue, Q1= Primer cuartil, o percentil 25 Q2= Segundo cuartil, o percentil 50 (mediana) Q3= Tercer cuartil, o percentil 75 M.C. Angel David Trujillo Hernández
De nuevo usaremos los datos de sueldo inicial mensual, arreglados en el orden ascendente; ya dijimos que Q2, el segundo cuartil o la mediana, es 2905. 2710 2755 2850 2880 2880 2890 2920 2940 2950 3050 3130 3325 Para determinar Q1 y Q 3 emplearemos la regla para calcular el 25% y el 75% percentil.
Para Q1,
Como i es entero, el primer cuatil, o 25% percentil es el promedio del tercero y cuarto valor de los datos; así, Q1 = (2850+2880)/2 = 2865
M.C. Angel David Trujillo Hernández
Para Q3,
Como i es entero, el tercer cuatil, o 75% percentil es el promedio del noveno y decimo valor de los datos; así, Q3 = (2950+3050)/2 = 3000.
Se puede observar que los cuartiles han dividido los 12 valores en cuatro partes, y cada una está formada por el 25% de los elementos. 2710 2755 2850 | 2880 2880 2890 | 2920 2940 2950 | 3050 3130 3325 Q = 12865
Q =22905 (Mediana)
M.C. Angel David Trujillo Hernández
Q
3
= 3000
3.2. Medidas de variabilidad Además de las medidas de localización, con frecuencia es conveniente contar con medidas de dispersión o de la variabilidad de los valores de los datos. 0.5 ia0.4 c n0.3 e u0.2 c e r F0.1
0
9 10 11
Días hábiles
7
0.3
8
a i c0.2 n e u c e r0.1 F
9 10 11 12 13
0
Días hábiles
M.C. Angel David Trujillo Hernández
14
Rango. Quizá la medida más sencilla de la dispersión en un conjunto de datos sea el rango. Rango = Valor máximo – Valor mínimo Considerando los datos del ejemplo de los 12 salarios y calculando el rango, 2710 2755 2850 2880 2880 2890 2920 2940 2950 3050 3130 3325 Rango = 3325 – 2710 = 615 pesos Aunque el rango es la medida de dispersión más fácil de calcular, casi nunca se usa como la única medida de dispersión. La razón es que solo se basa en dos de los elementos y, por consiguiente, está muy influido por los valores extremos de los datos.
M.C. Angel David Trujillo Hernández
Si consideramos de nuevo el cambio del ultimo valor podemos observar como le afecta al cálculo del rango, 2710 2755 2850 2880 2880 2890 2920 2940 2950 3050 3130 10000
Rango = 10000 – 2710 = 7290 pesos Este valor tan grande del rango no describirá adecuadamente la variabilidad de los datos, por que 11 de los 12 salarios iníciales se agrupan estrechamente entre 2710 y 3130.
M.C. Angel David Trujillo Hernández
Rango intercuartil. Una medida de la dispersión que elimina la influencia de los valores extremos de los datos es el rango intercuartil (RIC). Esta medida de dispersión es simplemente la diferencia entre el tercer cuartil Q 3 y el primero Q1. En otras palabras, el rango intercuartil corresponde al rango del 50% intermedio de los datos. RIC = Q3 – Q1 Para los datos de los salarios mensuales a la contratación, los cuartiles son Q3 = 3000 y Q1 = 2865. Así, el RIC
RIC = 3000 – 2865
M.C. Angel David Trujillo Hernández
Varianza. Es una medida de la dispersión que emplea todos los datos. Se basa en la diferencia entre el valor de cada observación ( xi) y la media. La diferencia entre cada xi y el promedio se llama desviación respecto al promedio. Para calcular la varianza, las desviaciones con respecto al promedio se elevan al cuadrado. Varianza de una población o varianza poblacional
Varianza de la muestra o varianza muestral
M.C. Angel David Trujillo Hernández
Ejemplo de la varianza. Considere el ejemplo de los cinco grupos de una escuela, Cantidad de alumnos en el grupo (x i )
Tamaño promedio de grupo ( )
Desviación respecto a la media
Desviación respecto a la media elevada al cuadrado
46 54
44 44
2 10
4 100
42
44
-2
4
46
44
2
4
32
44
-12
144
0
256
M.C. Angel David Trujillo Hernández
Considerando el resultado anterior y sustituyéndolo a la formula,
Por lo que la varianza es de 64 alumnos2 (considerar a la varianza como una medida útil para comparar el grado de dispersión de dos o
más variables). Al comparar las variables, la que tiene mayor varianza tiene la mayor dispersión o variabilidad. Observen que las desviaciones positivas y las negativas siempre se cancelan entre sí.
M.C. Angel David Trujillo Hernández
- Desviación
+ Desviación
- Desviación + Desviación
Medidas
Media
Medidas
La varianza es un número que toma en cuenta todas las medidas de la población. Toma en cuenta la distancia de cada medida con respecto a la media. Esta distancia se llama desviación. Las desviaciones negativas y positivas se anularían, por ello se elevan al cuadrado cada desviación y finalmente se toma el promedio. M.C. Angel David Trujillo Hernández
Otro ejemplo de la varianza. Considere el ejemplo de los 12 salarios, Cantidad de alumnos en el grupo ( x i )
2850 2950 3050 2880 2755 2710 2890
3130 2940 3325 2920 2880 M.C. Angel David Trujillo Hernández
Resolviendo… Cantidad de alumnos en el grupo (x i )
Tamaño promedio de grupo ( )
Desviación respecto a la media
Desviación respecto a la media elevada al cuadrado
2850
2940
-90
8100
2950
2940
10
100
3050
2940
110
12100
2880
2940
-60
3600
2755
2940
-185
34225
2710 2890
2940 2940
-230 -50
52900 2500
3130
2940
190
36100
2940
2940
0
0
3325
2940
385
148225
2920
2940
-20
400
2880
2940
-60
3600
0
301850
M.C. Angel David Trujillo Hernández
Considerando el resultado anterior y sustituyéndolo a la formula,
Por lo que la varianza es de 27440.91 dolares2
M.C. Angel David Trujillo Hernández
Desviación estándar. La desviación estándar se define como la raíz cuadrada positiva de la varianza. Desviación estándar de una muestra Desviación estándar de una población
Recordemos la varianza muestral para los cinco grupo y para los 12 sueldos de los egresados, calculando su desviación estándar,
Nos da como resultado 8 alumnos y 165.5 dólares respectivamente. M.C. Angel David Trujillo Hernández
¿Qué se gana al pasar de la varianza a su desviación estándar correspondiente?
Las unidades de la varianza (al cuadrado) se convierten a las unidades del problema plateado inicialmente, es decir, la desviación estándar se mide con las mismas unidades que las de los datos srcinales. Por esta razón la desviación estándar se compara con más facilidad con el promedio y otros estadísticos que tienen la mismas unidades que los datos srcinales.
M.C. Angel David Trujillo Hernández
Coeficiente de variación. En algunos casos, es de interés el saber que tan grande es la desviación estándar con respecto a la media. En esos casos un medida descriptiva que nos permite conocer esa cantidad es el coeficiente de variación, el cual se calcula como sigue,
Calculando el coeficiente de variación de los ejemplos (grupos, salarios),
Lo cual indica que la desviación estándar de la muestra es el 18.2% del valor de la media de la muestra.
M.C. Angel David Trujillo Hernández
En el caso de los 12 salarios,
Es decir, la desviación estándar de esta muestra sólo es del 5.6% del valor de la media de la muestra. En general el coeficiente de variación es un estadístico útil para comparar la dispersión de variables que tienen distintas desviaciones estándar y distintos promedios.
M.C. Angel David Trujillo Hernández
El coeficiente de variación se utiliza para comparar la variabilidad de dos o más series de datos que tengan medias iguales o diferentes o que tengan unidades de medida iguales o diferentes (por decir, una serie en kilogramos y otra serie en metros).
M.C. Angel David Trujillo Hernández
Rango, varianza y desviación estándar. Discusión
Consideré calificaciones de un examen considerando cuatro diferentes registros
Conjunto
Calificaciones de la prueba
Media
Rango
1
70, 70, 70, 70, 70
70
70 – 70 = 0
2
68, 69, 70, 71, 72
70
72 – 68 = 4
3
60, 70, 70, 70, 80
70
80 – 60 = 20
4
60, 65, 70, 75, 80
70
80 - 60 = 20
La media no muestra la variabilidad de las calificaciones. M.C. Angel David Trujillo Hernández
60
65
70
75
80
60
65
Conjunto 1
60
65
70
70
75
80
75
80
Conjunto 2
75
80
60
65
70
Conjunto 4
Conjunto 3
M.C. Angel David Trujillo Hernández
60
65
70
75
60
80
Conjunto 1. Pequeña variabilidad
60
65
65
70
75
80
Conjunto 3. Alguna variabilidad
70
75
80
Conjunto 4. Gran variabilidad
M.C. Angel David Trujillo Hernández
Ejemplo… Se realizo una prueba de actitud a 20 personas, las cuales fueron divididas en dos grupos. Las personas del grupo 1 fueron evaluados de 0 a 100 y las personas del grupo 2 se evaluaron de 0 a 20. Grupo 1: 86, 81, 79, 73, 95, 86, 94, 90, 86, 88 Grupo 2: 16, 19, 13, 20, 14, 16, 19, 18, 17, 15 a) Realice un análisis de variabilidad de los dos grupos y determine que grupo tiene mayor dispersión. Fundamente su respuesta. b) ¿Se puede aceptar que el estudiante con 73 puntos del grupo 1 tiene mayor aptitud que el estudiante con 13 puntos del grupo 2?. Fundamente su respuesta.
M.C. Angel David Trujillo Hernández
Solución. Grupo1
Datos ordenados
Grupo2
Min
73
Min
13
Max
95
Max
20
Rango
22
Rango
7
73
13
79
14
Q1
81
Q1
15
81
15
Q3
90
Q3
19
86
16
86
16
RIC
9
RIC
4
86
17
88
18
varianza
45.2888889
varianza
5.34444444
90
19
DE
6.72970199
DE
2.31180545
94
19
95
20
media C.V.
85.8 7.84347551
media C.V.
16.7 13.8431464
De los resultados obtenidos se puede observar que el grupo 2 tiene mayor variabilidad debido a que el C.V. es mayor para este grupo. El resto de las mediciones no son funcionales para realizar la comparación debido a que no tienen la misma media (los rangos de evaluación fueron distintos).
De dicho análisis se puede determinar que si es valido aceptar que tiene mayor actitud el estudiante con 73 puntos del primer grupo en comparación al alumno con 13 puntos del segundo grupo, esto debido a la dispersión de los datos de los grupos. M.C. Angel David Trujillo Hernández
Características esenciales… Rango -Toma solo dos datos -Es severamente influenciado por datos muy grandes y/o pequeños -Es cálculo es muy sencillo -No se utiliza como la única medida de variabilidad (no es muy confiable) Rango Intercuartil (RIC) -Es necesario contar con el primer y tercer cuartil, por lo cual su cálculo puede ser un poco tedioso -No es influenciado por los datos pequeños o grandes -Considera el 50% de los datos (datos intermedios) descartando valores muy pequeños o muy grandes Varianza -Es la más confiable -Emplea todos los datos -Su cálculo es tedioso mientras más datos se tengan -Transforma las unidades reales a unidades al cuadrado
M.C. Angel David Trujillo Hernández
Continuación.. Desviación Estándar -Su cálculo es sencillo una vez que se haya calculado la varianza -Transforma las unidades a unidades de los datos srcinales -Es la más empleada para realizar comparaciones en conjunto con otros estadísticos , debido a que tienen las mismas unidades de los datos reales Coeficiente de Variación -Permite comparar la dispersión de variables cuando entre distintos grupos de datos se tienen diferentes desviaciones estándar y promedios
M.C. Angel David Trujillo Hernández
Índices de Asimetría y Curtosis La descripción estadística de una muestra de datos no concluye con el cálculo de su tendencia central y su dispersión. Para dar una descripción completa es necesario estudiar también el grado de simetría de los datos respecto a su medida central y la concentración de los datos alrededor de dicho valor. Distribuciones: •Simétrica (b) – Espejo respecto al punto central •Asimétrica hacia la derecha (a) – sesgada a la derecha (sesgo positivo) •Asimétrica hacia la izquierda (c) – sesgada a la izquierda (sesgo negativo)
Distribuciones: Simétrica y Asimétrica
Con el fin de cuantificar el grado de asimetría de una distribución se pueden definir los coeficientes de asimetría. Uno de los principales: Coeficiente de asimetría de Person. Coeficiente adimensional, se define como:
Interpretación: •Para distribuciones simétricas Ap = 0 •Para distribuciones asimétricas hacia la izquierda Ap < 0 •Para distribuciones asimétricas hacia la derecha Ap > 0
Otra forma de expresarlo:
Nota: Si AS<0 indica que existe presencia de la minoría de datos en la parte Izquierda de la media, aunque en algunos casos no necesariamente indicará que la distribución sea asimétrica negativa. Si AS = 0 la distribución será simétrica. Si AS > 0 indica que existe presencia de la minoría de datos en la parte derecha de la media, aunque en algunos casos no necesariamente indicará que la distribución sea asimétrica positiva.
Curtosis. La curtosis es la propiedad de una distribución de frecuencias por la cual se compara la dispersión de los datos observados cercanos al valor central con la dispersión de los datos cercanos a ambos extremos de la distribución. La curtosis se mide en comparación a la curva simétrica normal o mesocúrtica. El Coeficiente de Curtosis analiza el grado de concentración que presentan los valores alrededor de la zona central de la distribución.
Una curva simétrica con curtosis mayor que de la normal es denominada curva leptocúrtica . Una curva simétrica con curtosis menor que de la normal es denominada curva platicúrtica . Existen varias maneras de medir la curtosis de la distribución de los datos.
Curtosis basado en percentiles. Esta medida de curtosis es muy poco usada por ser muy inestable. Sin embargo, describe muy bien el concepto. En una curva normal, el cociente del rango intercuartil (percentil 75 menos el percentil 25) entre la diferencia del percentil 90 menos el percentil 10 es aproximadamente igual 0.5. A medida que P75 - P25 y P90 – P10 sean iguales (valor del cociente casi uno), la distribución será leptocúrtica, y a medida que P75 — P25 sea cada vez más pequeño con respecto a P 90 – P10 (valor del cociente casi cero) la distribución será platicúrtica.
La curtosis utilizando percentiles se define por el cociente:
Interpretación . Si la distribución es normal K tiende a 0. Si K tiende a 0.5, es leptocúrtica, y si A" tiende a -0 .5 , es platicúrtica.
Ejercicios. 1. Tiempos de espera de clientes. A continuación se presentan los tiempos de espera (en minutos) de los clientes del Banco Jefferson Valley (donde todos los clientes forman una sola fila) y del Banco Providence (donde los clientes esperan en filas individuales, en tres ventanillas diferentes): Jefferson Valley: 6.5 ,6.6, 6.7, 6.8, 7.1, 7.3, 7.4, 7.7, 7.7, 7.7 Providence: 4.2 ,5.4, 5.8, 6.2, 6.7, 7.7, 7.7, 8.5, 9.3, 10.0
2. Coca Cola regular/Coca Cola dietética. Los siguientes son los pesos (en libras) de muestras del contenido de latas de Coca Cola regular y Coca Cola dietética: Regular: 0.8192, 0.8150, 0.8163, 0.8211, 0.8181, 0.8247 Dietética: 0.7773, 0.7758, 0.7896, 0.7868, 0.7844, 0.7861
3. Mickey D vs. Jack. Al investigar los tiempos que se requieren en el servicio para automóvil (en segundos), se obtienen los siguientes resultados (con base en datos del QSR Drive-Thru Time Study). McDonald’s:
287, 128, 92, 267, 176, 240, 192, 118, 153, 254, 193, 136 Jack in the Box: 190, 229, 74, 377, 300, 481, 428, 255, 328, 270, 109, 109
4. Anchura de cráneos. Las anchuras máximas de muestras de cráneos egipcios de varones que datan del 4000 a.C. y del 150 d.C (de acuerdo con datos de Ancient Races of the Thebaid, de Thomson y Randall-Maciver) se muestran a continuación: 4000 a.C.: 131, 119, 138, 125, 129, 126, 131, 132, 126, 128, 128, 131 150 d.C.: 136, 130, 126, 126, 139, 141, 137, 138, 133, 131, 134, 129
3.3. Medidas de localización relativa y detección de valores atípicos Una vez de haber comprendido las medidas de localización y de dispersión de un conjunto de datos, es conveniente conocer la aplicación de estas medidas para obtener la localización relativa de los elementos en un conjunto de datos. Tipo Medida
Más empleada
Localización
Media
Dispersión
Desviación estándar y varianza
M.C. Angel David Trujillo Hernández
Valores z Al usar la media y la desviación estándar podemos determinar la localización relativa de cualquier observación. Con frecuencia se le da el nombre de valor estandarizado al valor z. Este valor, zi (esta asociado al valor xi), se puede interpretar como el número de desviaciones estándar que dista xidel promedio . 1 Por indicaríaIgualmente, que x1 es 1.2 desviaciones estándar que ejemplo, la media zde=1.2 la muestra. z 2= -0.5 indicaría que x2 mayor está a 0.5, o ½ desviación estándar por debajo de la media de la muestra.
Donde,
zi = el valor z del elemento xi
= la media de la muestra S = la desviación estándar de la muestra M.C. Angel David Trujillo Hernández
Si zi>0, valor de xi mayor que la media Si zi<0, valores de xi menor que la media Si z =0, el valor de la observación es igual a la media i
Dos diferentes conjuntos de datos con el mismo valor de z poseen la misma localización relativa, ya que están a la misma cantidad de desviaciones estándar con respecto a la media.
M.C. Angel David Trujillo Hernández
Aplicación.. Cuando se necesiten comparar valores observados que pertenecen a diferentes distribuciones de datos, las que difieren en su media aritmética o en su varianza, o difieren en el tipo de unidad de medida, entonces se usa el v alo r e st án d ar Z. Se puede verificar que la variable Z estandariza cualquier media en 0 y cualquier varianza en 1 .
M.C. Angel David Trujillo Hernández
Ejemplo.. Considerando el ejemplo de los 5 grupos de una escuela, a continuación se puede observar los valores z de los datos. Recuerde que la media calculada fue de = 44 alumnos, la desviación estándar fue de S = 8 alumnos Cantidad de alumnos en el grupo (x i)
Desviación respecto a la media (x i- )
Valor z
46
2
2/8=0.25
54
10
10/8=1.25
42
-2
-2/8=-0.25
46
2
2/8=0.25
32
-12
-12/8=-1.50
Recuerde que la suma de las desviaciones deben ser igual a cero El valor del quinto elemento indica que está a 1.50 desviaciones debajo del promedio (es el más alejado). M.C. Angel David Trujillo Hernández
Comprobando … Si S = 8 z1 esta a 0.25 desviaciones estándar arriba de la media = 44+0.25(8)=46= x1 z2 esta a 1.25 desviaciones estándar arriba de la media = 44+1.25(8)=54= x2 z3 esta a -0.25 desviaciones estándar arriba de la media = 44-0.25(8)=42= x3 z4 esta a 0.25 desviaciones estándar arriba de la media = 44+0.25(8)=46= x4 z5 esta a -1.50 desviaciones estándar arriba de la media = 44-1.50(8)=32= x5 M.C. Angel David Trujillo Hernández
Ejemplo .. En una evaluación de Matemáticas e Historia resultan las medias 13 y 17 y las desviaciones estándar 3 y 4, respectivamente. Si un alumno obtiene 14 en Matemáticas y 16 en Historia, ¿en cuál de los dos cursos tiene mejor rendimiento relativo?. 1 =
2 =
1 −
2 −
=
=
14 − 13 3
16 − 17 4
=
=
1 3
−1 4
= 0.333
= −0.25
Aparentemente tienen un mejor rendimiento en Historia pero al estandarizar se observa que su mejor desempeño lo tiene en matemáticas.
M.C. Angel David Trujillo Hernández
Ejemplo .. Se desea conocer de dos jugadores de basquetbol quien es el más alto. El primer jugador es Michael Jordán (NBA) el cual mide 78 pulgadas, la segunda jugadora es Rebecca Lobo (WNBA) quien mide 76 pulgadas. La media en la NBA es de 69 pulgadas con una desviación estándar de 32.8 pulgadas, mientras que la media y desviación estándar en la WNBA es 63.6 pulgadas y 2.5 pulgadas, respectivamente. 78 − 69
1 − 1
2 =
=
2 −
=
=
32.8 = 3.21
76 − 63.6 = 4.96 2.5
Aparentemente Michael Jordán tiene una mayor altura que Rebecca Lobo, pero al estandarizar se observa que es más alta la jugadora.
M.C. Angel David Trujillo Hernández
Teorema de Chebyshev
Este teorema permite inferir la proporción de valores que deben quedar dentro de una cantidad especifica de desviaciones estándar respecto a la media.
Cuando menos (1-1/z2) de los datos deben estar a menos de z desviaciones estándar de separación respecto a la media, siendo z cualquier valor mayor que 1.
M.C. Angel David Trujillo Hernández
A continuación veamos algunas de las implicaciones de este teorema, con z = 2, 3 y 4 desviaciones estándar. •Cuando
menos, el 0.75 o 75% de los datos deben estar a menos de z = 2 desviaciones estándar de la media. •Cuando
menos, el 0.89 o 89% de los datos deben estar a menos de z = 3 desviaciones estándar de la media. •Cuando
menos, el 0.94 o 94% de los datos deben estar a menos de z =
4 desviaciones estándar de la media
M.C. Angel David Trujillo Hernández
Ejemplo del Teorema de Chebyshev Suponga que las calificaciones del examen parcial de 100 alumnos en un curso de estadística tuvieron un promedio de 70 y una desviación estándar de 5. ¿Cuántos alumnos tuvieron calificaciones entre 60 y 80?¿Cuántos entre 58 y 82?
M.C. Angel David Trujillo Hernández
Calculando los valores Z Calculando el valor z para 60 1 =
1 −
=
60 − 70 5
=
−10 5
= −2
Por lo que obtenemos 2 desviaciones abajo con respecto a la media. Calculando de la misma manera el valor z para 80, nos da un valor de z de 2 desviaciones arriba con respecto a la media.
Como z debe ser mayor que uno, tomaremos el valor de z2.
M.C. Angel David Trujillo Hernández
Continuación del ejemplo del Teorema de Chebyshev Sabiendo que el valor de z es de 2 y considerando la primer implicación establecida anteriormente (aplicando el teorema), Cuando menos, el 0.75 o 75% de los datos deben estar a menos de z = 2 desviaciones estándar de la media. El 75% de las observaciones deben tener valores menores de dos desviaciones estándar del promedio. Así cuando menos el 75 de los 100 alumnos deben haber obtenido calificaciones entre 60 y 80.
M.C. Angel David Trujillo Her nández
Para las calificaciones entre 58 y 82, Z3 = 58-70/5 = -2.4 (2.4 desviaciones abajo de la media), y Z4 = 82-70/5 = 2.4 (2.4 desviaciones arriba de la media)
Aplicando el teorema de Chebyshev para el valor z>0,
Cuando menos el 82.6% de los alumnos deben tener calificaciones entre 58 y 82.
M.C. Angel David Trujillo Hernández
La Regla Empírica Una de las ventajas del teorema de Chebyshev es que se aplica a cualquier conjunto de datos, independientemente de la forma de la distribución de los mismos. En aplicaciones prácticas se ha encontrado que muchos conjuntos de datos tiene una distribución en forma de colina o de campana.
Cuando este es el caso se puede aplicar la regla empírica para determinar el porcentaje de elementos que deben estar dentro de determinada cantidad de desviaciones estándar respecto al promedio. M.C. Angel David Trujillo Hernández
Para datos con distribución en forma de campana: •Aproximadamente
el 68% de los elementos están a menos de una desviación estándar de la media •Aproximadamente el 95% de los elementos están a menos de dos desviación estándar de la media •Casi todos los elementos están a menos de tres desviaciones estándar de la media.
M.C. Angel David Trujillo Hernández
Ejemplo de la Regla Empírica En una línea de producción se llenan, automáticamente, envases de plástico con detergente líquido. Con frecuencia, los pesos de llenado tienen una distribución en forma de campana. Si el peso promedio de llenado es de 16 onzas y la desviación estándar 0.25 onzas, se puede aplicar la regla empírica para hacer las siguientes conclusiones: •Aproximadamente
68% de los envases llenos tienen entre 15.75 y 16.25 onzas (esto es, menos de una desviación estándar del promedio). •Aproximadamente
95% de los envases llenos tienen entre 15.50 y 16.50 onzas (esto es, menos de dos desviaciones estándar del promedio). •Casi
todos los envases llenos tienen entre 15.25 y 16.75 onzas (esto es, menos de tres desviaciones estándar del promedio).
M.C. Angel David Trujillo Hernández
Detección de valores atípicos A veces un conjunto de datos tiene uno o más elementos con valores demasiados grandes o demasiados pequeños. A los valores extremos como éstos se les llama valores atípicos. •Un
valor atípico puede ser un elemento para el cual se haya anotado
su valor en forma errónea, por lo que se debe corregir antes de proseguir.
Rojo Amarillo Verde Azul Verde
M.C. Angel David Trujillo Hernández
Rojo Amarillo Verde Azul Blanco
•También,
un valor atípico puede ser uno que por error se incluyó en el conjunto de datos, y en estos casos, debe eliminarse.
•Por
último, puede ser tan solo un elemento poco común que se haya anotado en forma correcta y que sí pertenece al conjunto de datos. En estos casos el elemento debe mantenerse.
M.C. Angel David Trujillo Hernández
Detección de valores atípicos Los valores estandarizados (valores z) pueden emplearse para identificar los valores atípicos. Tomando en cuenta que en la regla empírica permite decir que cuando tiene una distribución acampanada, casi todos los datos estarán a menos de tres desviaciones estándar del promedio.
Por consiguiente, al usar los valores z para identificar valores atípicos se recomienda considerar que cualquier elemento con un valor z inferior a -3 o superior a +3 sea tratado como un valor atípico. M.C. Angel David Trujillo Hernández
Ejemplo de valores atípicos Considerando el ejemplo de la cantidad de grupos empleado para calcular los valores estandarizados (z) Cantidad de alumnos en el grupo (x i)
Desviación respecto a la media (x i- )
Valor z
46
2
2/8=0.25
54
10
10/8=1.25
42
-2
-2/8=-0.25
46
2
2/8=0.25
32
-12
-12/8=-1.50
Se puede observar que el valor z del quinto elemento, es el que se encuentra más lejos con respecto a la media. Sin embargo, este valor estandarizado se encuentra dentro del criterio utilizado para identificar valores atípicos (es decir, z < -3 ó z > 3) M.C. Angel David Trujillo Hernández
M.C. Angel David Trujillo Hernández
3. 4. Análisis exploratorio de datos. Resumen de cinco números. en un resumen de cinco números se emplean cinco cantidades para resumir los datos: 1. 2. 3. 4. 5.
Valor mínimo Primer Cuartil ( Q1) Mediana ( Q2) Tercer Cuartil ( Q3) Valor Máximo
La forma más fácil de elaborar un resumen de 5 números es poner los datos en orden ascendente. Así, es fácil identificar el valor mínimo, los tres Cuartiles y el valor máximo.
M.C. Angel David Trujillo Hernández
Consideré la muestra de los salarios de los 12 egresados, 2710 2755 2850|2880 2880 2890|2920 2940 2950|3050 3130 3325 Q1 = 2865 Q2 = 2905 Q3 = 3000 1. 2. 3. 4. 5.
Valor mínimo = 2710 Primer Cuartil ( Q1) = 2865 Mediana ( Q2) = 2905 Tercer Cuartil ( Q3) = 3000 Valor Máximo = 3325
Así, el resumen de cinco números de los datos de salarios es 2710, 2865, 2905, 3000 y 3325.
M.C. Angel David Trujillo Hernández
Diagrama de caja. Un diagrama de caja es un resumen gráfico de los datos basado en un resumen de cinco números. También se usa el Rango Intercuartil, RIC = Q3- Q1. En la siguiente figura se puede observar un diagrama de caja,
M.C. Angel David Trujillo Hernández
Los pasos para trazar un diagrama de caja son los siguientes: 1. Se traza un rectángulo con los extremos en el primer y tercer cuartiles. Este rectángulo contiene el 50% intermedio de los datos. 2. En la caja se traza una recta vertical en el lugar de la mediana. Así, la línea de la mediana divide de los datos en dos partes iguales. 3. Se ubican los límites mediante el rango intercuartil, RIC = Q3- Q1. 1y a Los en el diagrama caja están a 1.5 1.5 limites (RIC) arriba de Q3. Sede considera que los (RIC) datosdebajo fuera de de Qestos limites son valores atípicos.
4. Las líneas punteadas de la figura se llaman bigotes de la caja, que se trazan desde los extremos de ésta hasta los valores mínimo y máximo dentro dentro de los limites. 5. Por último, se marcan con un asterisco (*) las localizaciones de los valores atípicos.
M.C. Angel David Trujillo Hernández
Para el ejemplo de los 12 salarios y considerando que ya se han calculado los cinco números (mínimo, Q1, mediana, Q3, máximo), realizamos los pasos necesarios para trazar el diagrama de caja: 2710 2755 2850|2880 2880 2890|2920 2940 2950|3050 3130 3325 Q1 = 2865 Q2 = 2905 Q3 = 3000 El resumen de cinco números: 2710, 2865, 2905, 3000 y 3325. 1. Se traza un rectángulo con los extremos en el primer y tercer cuartiles. Este rectángulo contiene el 50% intermedio de los datos. 2. En la caja se traza una recta vertical en el lugar de la mediana. Así, la línea de la mediana divide de los datos en dos partes iguales.
M.C. Angel David Trujillo Hernández
3. Se ubican los límites mediante el rango intercuartil, RIC = Q3- Q1. Los limites en el diagrama de caja están a 1.5 (RIC) debajo de Q1 y a 1.5 (RIC) arriba de Q3. Se considera que los datos fuera de estos limites son valores atípicos. RIC = Q3- Q1 = 3000 – 2865 = 135 Limite inferior = 2865-1.5(135) = 2662.5 Limite superior = 3000+1.5(135)= 3202.5
M.C. Angel David Trujillo Hernández
4. Las líneas punteadas de la figura se llaman bigotes de la caja, que se trazan desde los extremos de ésta hasta los valores mínimo y máximo dentro dentro de los limites. 5. Por último, se marcan con un asterisco (*) las localizaciones de los valores atípicos.
M.C. Angel David Trujillo Hernández
En la figura anterior se trazaron las líneas que indican el lugar de los límites con el fin de mostrar como se calculan éstos y dónde se ubican. Aunque siempre se calculan, por lo general no se trazan en los diagramas de caja. La siguiente figura muestra el aspecto habitual de un diagrama de caja.
M.C. Angel David Trujillo Hernández
En las siguientes figuras se pueden observar algunos diagramas de caja, realizados en diferentes softwares estadísticos
Diagrama de caja realizado en Statgraphic 5.1
M.C. Angel David Trujillo Hernández
3400
3200
le it T 3000 s i x A Y 2800
2600
B
X Axis Title
Diagrama de caja realizado en OriginPro 6.1 M.C. Angel David Trujillo Hernández
3. 5. Medidas de asociación entre dos variables. Hasta ahora se han examinado métodos numéricos cuyo objeto es resumir los datos de una sola variable. Con frecuencia quien toma decisiones le interesa la relación entre dos variables. En esta sección se presentará la covarianza y la correlación como medidas descriptivas de la relación entre dos variables.
M.C. Angel David Trujillo Hernández
Retomando el ejemplo de la cantidad de comerciales
Semana
Cantidad de comerciales x
Volumen de ventas ($) y
1
2
50
2
5
57
3
1
41
4
3
54
5
4
54
6
1
38
7
5
63
8
3
48
9
4
59
10
2
46
M.C. Angel David Trujillo Hernández
Diagrama de dispersión …. 70
60
50
s ta n e v40 e d e30 n m u l o v
20
10
0 0123456
número de comerciales
M.C. Angel David Trujillo Hernández
El diagrama de dispersión sugiere que se podría emplear una recta como una aproximación de esa relación. 70
60
50
s ta n e v40 e d e30 n m u l o v
20
10
0 0123456
número de comerciales
M.C. Angel David Trujillo Hernández
A continuación se presenta la covarianza como medida descriptiva de la asociación lineal entre dos variables.
Covarianza. Para una muestra de tamaño n con las observaciones correspondientes (x1,y1), (x2,y2) etc., la covarianza de la muestra se define como sigue: Covarianza de la muestra
Covarianza de una población
M.C. Angel David Trujillo Hernández
Para medir la intensidad de la relación lineal entre la cantidad de comerciales y el volumen de ventas, aplicamos la ecuación,
En la siguiente tabla se muestra la manera de determinar la covarianza, 2
50
-1
-1
1
5
57
2
6
12
1
41
-2
-10
20
3
54
0
3
0
4
54
1
3
3
1
38
-2
-13
26
5
63
2
12
24
3
48
0
-3
0
4
59
1
8
8
2
46
-1
-5
5
30
510
0
0
99
M.C. Angel David Trujillo Hernández
Considerando los resultados de la tabla y sustituyendo en la ecuación, se obtiene el valor de la covarianza,
M.C. Angel David Trujillo Hernández
Interpretación de la Covarianza. Como apoyo para entender la covarianza considerar la sig. Figura, 65
60
II
I
s55 ta n e v e d50 e n m u l o45 v
III
IV
40
35 0123456
número de comerciales
Es el mismo del problema del numero de comerciales, a diferencia que tiene dos líneas en los valores de la media para los datos en x y en y.
M.C. Angel David Trujillo Hernández
Son valores: xi menores que yi mayores que
Son valores: xi mayores que yi mayores que
65
60
II
I
s55 a t n e v e d50 n e m u l o45 v
III
IV
40
35 0123456
número de comerciales
Son valores: xi menores que yi menores que
Son valores: xi mayores que yi menores que M.C. Angel David Trujillo Hernández
El valor positivo de la covarianza indica que hubo mayor influencia de puntos que pueden estar en el cuadrante I y III. Por que el que valor positivo indica una asociación lineal positiva entre x y y; esto es, al aumentar el valor de x el de y aumenta. Sin embrago el valor en es negativo, indica IIque hubo influencia de los datos si ubicados los cuadrantes y IV. Lomayor que indica una asociación lineal negativa; es decir, al aumentar el valor de x, y disminuye. Si los puntos se distribuyen uniformemente mente en los cuatro cuadrantes, el valor de la covarianza será cercano a cero, indicando que no hay asociación lineal entre x y y.
M.C. Angel David Trujillo Hernández
A continuación se observan los valores que se pueden esperar con tres tipos distintos de dispersión.
Covarianza positiva Existe relación lineal positiva entre x y y.
Covarianza aproximadamente de 0 Sin relación lineal
Covarianza negativa Existe relación lineal negativa entre x y y. M.C. Angel David Trujillo Hernández
Retomando el ejercicio de los comerciales, considerando si diagrama de dispersión era de esperarse que su valor de covarianza de la muestra sería positivo 65
60
s55 ta n e v e d50 e n m u l o45 v
40
35 0123456
número de comerciales
M.C. Angel David Trujillo Hernández
De acuerdo con lo anterior parecería que un valor positivo grande de la covarianza indica una fuerte relación lineal positiva, y que con un valor negativo grande indica una fuerte relación lineal negativa. Sin embargo esto puede ser engañoso, ya que la covarianza depende de las unidades de medida y en ocasiones estas pueden indicar una muy fuerte relación lineal cuando en realidad no lo es. Para evitar esto, se emplea el coeficiente de correlación, que también mide la relación entre dos variables,
M.C. Angel David Trujillo Hernández
Coeficiente de correlación. Para los datos de correlación de una muestra, se define el coeficiente de correlación de momento del producto de Pearson, como sigue.
donde, rxy = coeficiente de correlación de la muestra Sxy = covarianza de la muestra Sx = desviación estándar muestral de x Sy = desviación estándar muestral de y
M.C. Angel David Trujillo Hernández
Para los datos de correlación de una población, se define el coeficiente de correlación de momento del producto de Pearson, como sigue.
donde,
ρxy = coeficiente de correlación de la población σxy = covarianza de la población σ x = desviación estándar poblacional de x σ y = desviación estándar poblacional de y
M.C. Angel David Trujillo Hernández
M.C. Angel David Trujillo Hernández
Calculando el coeficiente de correlación de la muestra de la tienda de equipos de sonido. Considerando la covarianza ya calculada (S xy = 11) Semana
Cantidad de comerciales x
Volumen de ventas ($) y
1
2
50
2
5
3 4
=
1 3
57 41 54
5
4
54
6
1
38
7
5
63
8
3
48
9
4
59
10
2
46
M.C. Angel David Trujillo Hernández
Interpretación del coeficiente de correlación. Primero se verá un ejemplo sencillo para ilustrar el concepto de una relación lineal positiva perfecta. Considerar los siguientes datos muestrales. xi
yi
5
10
10
30
15
50
De los datos anteriores se forma el siguiente diagrama de dispersión 60 50 40 30 20 10 0 5
10
M.C. Angel David Trujillo Hernández
15
La recta que se trazó y que pasa por cada uno de los tres puntos indica que hay una relación lineal perfecta entre las variables x y y. calculando la correlación muestral .
Así, el valor de la muestra es 1. M.C. Angel David Trujillo Hernández
Cálculos que se utilizaron para determinar el coeficiente de correlación muestral 2
2
5
10
-5
25
-20
400
100
10
30
0
0
0
0
0
15
50
5
25
20
400
100
30
90
0
50
0
800
200
M.C. Angel David Trujillo Hernández
Un coeficiente de correlación lineal +1 corresponde a una relación lineal positiva perfecta entre x y y. un coeficiente de la muestra de -1 corresponde a una relación lineal negativa perfecta entre x y y. A medida que los puntos se desvían más y más de una relación lineal positiva perfecta, el valor del coeficiente de correlación se hace más y más pequeño. Un valor del coeficiente de correlación igual a cero indica que no hay relación lineal entre x y y, y los valores del coeficiente de correlación cercanos a cero señalan una relación lineal débil.
M.C. Angel David Trujillo Hernández
Para el conjunto de datos del almacén de equipos de sonido habíamos obtenido,
En consecuencia, se llega a la conclusión de que hay una relación lineal positiva. Más específicamente, un aumento en la cantidad de comerciales se asocia con un aumento en las ventas.
M.C. Angel David Trujillo Hernández
Regresión Lineal Simple (RLS)
M.C. Angel David Trujillo Hernández
M.C. Angel David Trujillo Hernández
Recta de regresión de mínimos cuadrados
M.C. Angel David Trujillo Hernández
M.C. Angel David Trujillo Hernández
M.C. Angel David Trujillo Hernández
Coeficiente de determinación ¿Qué tan bien se ajustan los datos a la ecuación de regresión lineal?
El coeficiente de determinación es una medida de la bondad de ajuste para una ecuación de regresión.
SSE= ( )2 SST= ( )2 Ajuste perfecto: SSR = SST Valores: 0a1
SST = SSR + SSE SSR = SST - SSE
SSR= ( )2
2 =
−
M.C. Angel David Trujillo Hernández
=
≈1
Suma de cuadrados debida al error: SSE= ( )2 ó
Suma de cuadrados del total: SST= ( )2
Coeficiente de determinación: Suma de cuadrados debida a la regresión: SSR= ( )2
2 =
−
Relación entre SST, SSR y SSE SST = SSR + SSE
Por lo que si se conocen dos se puede calcular la tercera, SSR= SST - SSE
M.C. Angel David Trujillo Hernández
=
≈1
Coeficiente de correlación. Medida descriptiva de la intensidad de la asociación lineal entre dos variables, x e y. Los valores siempre están ente -1 y 1. Si ya se ha hecho un análisis de regresión y se ha calculado el coeficiente de determinación r2, el coeficiente de correlación de la muestra se puede calcular: = ( ) 2
El coeficiente de correlación se restringe a una relación lineal de dos variables El coeficiente de determinación en relaciones no lineales y en relaciones que tengan dos o más variables independientes (aplicabilidad más amplia).
M.C. Angel David Trujillo Hernández
M.C. Angel David Trujillo Hernández
M.C. Angel David Trujillo Hernández
M.C. Angel David Trujillo Hernández
M.C. Angel David Trujillo Hernández
M.C. Angel David Trujillo Hernández
Regresión Polinomial Algunos datos de ingeniería, aunque muestren un marcado patrón se representan pobremente mediante una línea recta. En estos casos, se ajusta mejor una curva a los datos. Una alternativa es ajustar polinomios a los datos usando regresión polinomial.
El procedimiento de mínimos cuadrados se puede extender fácilmente y ajustar datos a un polinomio de m-ésimo grado:
M.C. Angel David Trujillo Hernández
En este caso, la suma de los cuadrados de los residuos es:
Siguiendo el mismo procedimiento, se toma la derivada de la ecuación anterior con respecto a cada uno de los coeficientes del polinomio, para obtener:
M.C. Angel David Trujillo Hernández
Estas ecuaciones se pueden igualar a cero y reordenar de tal forma que se obtenga el siguiente conjunto de ecuaciones normales:
M.C. Angel David Trujillo Hernández
2
(n)a0 ( xi )a1 ( xi )a 2 yi 3 2 ( ) ( ) ( x a x a x a i 0 i 1 i) i 2 4 2 3 2 ( xi )a0 ( xi )a1 ( xi )a 2 xi yi
M.C. Angel David Trujillo Hernández
Ejercicio Ajustar a un polinomio de segundo grado los datos dados en las dos primeras columnas de la siguiente tabla. 70
60
50
40
30
20
10
0 0123456
M.C. Angel David Trujillo Hernández
En donde: m=2 n=6
xi 15 yi 152.6 xi
2
55
3
xi 255 4 xi 979
xi y i xi
2
x 2.5
y 25.433
585.6
yi 2488.8 70 y = 1.8607x2 + 2.3593x + 2.4786 R² = 0.9985
60
Entonces, las ecuaciones lineales simultáneas son:
50
6a0 15a1 55a3 152.6 15a0 55a1 225a3 585.6 55a0 225a1 979a3 2488.8
Resolviendo el sistema por eliminación de Gauss tenemos: a0 2.47857
je e40 l e d lo u 30 ít T
20
a1 2.35929 a2 1.86071
10
Y por lo tanto tenemos la ecuación de la forma:
y 2.47857 2.35929x 1.86071x 2
0 0123456
Título del eje
M.C. Angel David Trujillo Hernández
Ejemplo. Regresión Polinomial. Ajústese un polinomio de segundo orden con los datos de la columna.
M.C. Angel David Trujillo Hernández
M.C. Angel David Trujillo Hernández
3. 6. Media ponderada y manejo de datos agrupados. En el capítulo 3.1 se describió al promedio como una de las medidas más importantes de la estadística descriptiva.
En esta fórmula se da igual peso, o importancia a cada valor xi. Aunque esta media es la mas empleada, en algunos casos la media es calculada dando diferentes pesos, reflejando así su importancia a cada observación. A la media calculada de está manera se le llama media ponderada.
M.C. Angel David Trujillo Hernández
Media ponderada La media ponderada para una muestra se calcula como sigue,
donde xi = valor del dato i wi = peso, o factor de ponderación, del dato i
La media ponderada para una población se calcula como sigue,
M.C. Angel David Trujillo Hernández
Considerar la siguiente muestra de 5 compras de una materia prima en los últimos 3 meses, calcular la media ponderada. Compra
Costo por libra
Cantidad de libras
1
3.00
1200
2
3.40
500
3
2.80
2500
4
2.90
1000
5
3.25
800
Observar que el costo por libra cambio de 3.40 a 2.80 dólares, ya que la cantidad comprada varió de 500 a 2500 libras. Esto debido al cambio que ocurre en los costos con respeto al tiempo y a la cantidad de compra. El interés es calcular el costo promedio por libra.
M.C. Angel David Trujillo Hernández
Por lo que la media ponderada tiene un valor de,
=
1200(3.00) + 500(3.40) + 2500(2.80) + 1000(2.90) + 800(3.25) 1200 + 500 + 2500 + 1000 + 800 = 17800 = 2.967 6000
Observar el resultado empleado la media aritmética.
M.C. Angel David Trujillo Hernández
Otro ejemplo.. En la materia de estadística se asignan pesos de importancia para cada una de las unidades ; Unida I (20% del curso), Unidad II (25% del curso), Unidad III (20% del curso), Unidad IV (15% de la calificación), Unidad V (20% de la calificación ). Si las calificaciones de un alumno son las siguientes: 8 en la primera unidad, 5 en la segunda, 8 en la tercera unidad, 10 en la cuarta unidad y 8 en la última unidad. De la información se obtiene la siguiente tabla. Unidad
Ponderación por unidad (w i )
Calificación (x i )
I
20%
8
II
25%
5
III
20%
8
IV
15%
10
20%
8
V
M.C. Angel David Trujillo Hernández
Determinar la media ponderada de los datos anteriores.
=
8(0.2) + 5(0.25) + 8(0.2) + 10(0.15) + 8(0.1) 0.2 + 0.25 + 0.2 + 0.15 + 0.1 = 7.25 = 7.25 1.0
A diferencia de haber empleado la media aritmética.
M.C. Angel David Trujillo Hernández
Datos agrupados En la mayoría de los casos las medidas de localización y de variabilidad se calculan a partir de valores de datos individuales. Sin embargo en ocasiones los datos se encuentran en forma agrupada o en forma de distribución de frecuencias. Consideremos la distribución de frecuencias de los tiempo de auditoria. Tiempo de auditoria (días)
Frecuencia
10-14
4
15-19
8
20-24
5
25-29
2
30-34
1
Total
20
¿Cuál es la media del tiempo de auditoria en la muestra mencionada? M.C. Angel David Trujillo Hernández
Para calcular la media sólo mediante datos agrupados, se trata al punto medio de cada clase como representativo de los elementos de la clase. Media de la muestra para datos agrupados
en la que Mi = punto medio de la clase i f i = Frecuencia de la clase i n = Σfi = tamaño de la muestra
Media de la población para datos agrupados
M.C. Angel David Trujillo Hernández
En la tabla se puede observar el cálculo de la media de la muestra para datos agrupados. Tiempo de auditoria (días)
Punto medio de clase (M i )
Frecuencia (f i )
f iM i
10-14
(10+14)/2 =12
4
48
15-19
17
8
136
20-24 25-29
22 27
5 2
110 54
30-34
32
1
32
20
380
M.C. Angel David Trujillo Hernández
Para calcular la varianza de datos agrupados se emplea una versión un poco alterada de la que se vio en temas anteriores. Para los datos agrupados no se conocen los valores xi. En este caso, se considera que el punto medio de la clase, Mi, es un valor representativo de xi en la clase correspondiente. Entonces como se hizo con la media para datos agrupados ponderamos cada valor con la frecuencia de la clase fi y sumamos todas las clases.
Varianza de la muestra para datos agrupados
Varianza de la población para datos agrupados
M.C. Angel David Trujillo Hernández
En la tabla se puede observar el cálculo de la varianza de la muestra de los tiempos de auditoria. Tiempo de auditoria (días)
Punto medio de clase (M i )
Frecuencia (f i )
Desviación
Desviación al cuadrado
10-14
12
4
-7
49
196
15-19
17
8
-2
4
32
20-24
22
5
3
9
45
25-29
27
2
8
64
128
30-34
32
1
13
169
169
20
M.C. Angel David Trujillo Hernández
570
Para calcular la desviación estándar para datos agrupados es simplemente la raíz cuadrada de la varianza para datos agrupados. En el caso de los datos de tiempo de auditoria, la desviación estándar muestral es S = √30 = 5.48
Desviación estándar muestral para datos agrupados
Desviación estándar poblacional para datos agrupados
M.C. Angel David Trujillo Hernández