MEDIDAS DE POSICIÓN Y DISPERSIÓN La precisión que es deseable obtener al describir el conjunto de datos numéricos se refiere a dos aspectos, cada uno de los cuáles se puede traducir en una pregunta: ¿Exist ¿Existee algún algún valor de la variab variable le que repres represent entee a la maor!a maor!a de los valores valores del conjunto de datos"# ¿$ué tan separados están entre si, los diferentes valores que asume la variable respecto al valor de la variable que representa a los datos"# La primera pregunta pregunta se refiere a las medidas de posición la segunda, a las llamadas medidas de dispersión # %s! %s! tamb tambié ién, n, un inve invest stig igad ador or del del camp campoo de la educ educac ació iónn pued puedee real reali& i&ar ar una una investigación para determinar si las aptitudes matemáticas son diferentes según el sexo de los estudiant estudiantes# es# Este investiga investigador dor tendrá tendrá dos conjuntos conjuntos de calificac calificaciones iones,, luego obtend obtendrá rá la calif califica icació ciónn prome promedio dio de cada cada grupo grupo 'ará 'ará la compar comparaci ación ón de los promedios# La variabilidad de los datos es otro aspecto importante que el investigador debe de considerar, as!, necesita saber si las calificaciones son uniformes o var!a entre los estudiantes del sexo femenino del sexo masculino#
MEDIDAS DE POSICIÓN o o o o o o o
(E)*% %+*(-*.% (E)*%/% (0)% .1%+*LE2 3E+.E/*LE2 (E)*% 4E0(-+*.% (E)*% %+(0/*.%
(E)*% %+*(-*.% Definición 2i x5 ,####, xn son son los valore valoress observad observados os de una varia variable ble,, la media media aritméti aritmética ca o simplemente media o promedio promedio de estos datos se define como el cociente cociente de la suma de todos los valores observados entre el número de datos o tama6o de la muestra# 2u expresión matemática es: X
x5 x 7 ### xn n
5 n
n
xi , i 5
donde n es el número total de observaciones # Media aritmética ponderada /os permite calcular un promedio tomando en cuenta la importancia o peso de cada valor observado de la variable con respecto al total# 2u expresión matemática es: k
xi wi X w
i 5 k
donde,
wi i 5
, es la importancia o peso que se asigna a cada cada valor de la variable# 2i los datos se presentan presentan en una distribución distribución de frecuencias donde, donde, los valores xi de la variable se repiten f i veces, la fórmula 89#5 quedará expresada en la siguiente forma: wi
X
5
n
k
x i f i i 5
2i los datos se presentan en una distribución de frecuencias agrupados en intervalos de clase, los valores xi de la expresión 89#9 serán reempla&ados reempla&ados por la marca de clase de cada intervalo el valor de la media aritmética se obtiene de la siguiente manera: 5
k
x n
X
< i
f i , xi< es la i ; ésima marca de clase
i 5
MEDIANA Definición )ado x ,####, xn observaciones observaciones de la variable =, la mediana mediana es el valor valor o punto medio que supera al >? por ciento de los valores observados de la variable es superado por el restante >? por ciento# La forma de obtener el valor de la mediana depende del número de observaciones# %s! si el número de observaciones es impar, la mediana es el valor de la variable que ocupa la posición central de los datos ordenados si el número de observaciones observaciones es par, la mediana es la media aritmética de los dos valores que ocupan la posición central de los datos ordenados# Esta definición se puede plasmar mediante la siguiente expresión matemática# 5
2i n es impar : Me x n 5
7
89#>
2i n es par : x n x n Me
5 7
7
7
donde el sub!ndice indica indica la posición o lugar que ocupa el valor valor de la variable ordenada # 2i la muestra es de tama6o impar, como por ejemplo: 59 55 5@ 7? 5A 75 79, donde n B C, entonces
n 5 D , por lo que la mediana es el valor de la variable que ocupa la 7
posición D de las observaciones ordenadas: ordenadas: 55 59 5A 19 7? 7? 75 79 # Me x D B 5@# 2i el tama6o de la muestra es par, como por ejemplo 5? 5 D @ 59 5C, donde n B ordenados son:D @ 5? 59 5 5C, entonces, n 7
9,
n 7
5 D por lo que x 89 5? , x 8 D 59 ocupan la posición central# Luego Luego
el valo alor de la media diana es la med media aritm ritméétic tica de 5? 59, es dec decir 5? 59 7
Me
55#> #
3ara obtener la mediana a partir de una distribución de frecuencias se considera los siguientes casos#
Datos sin ar!par en inter"a#os de c#ase $ presentados en ta%#a de frec!encias
X
5
n
k
x i f i i 5
2i los datos se presentan en una distribución de frecuencias agrupados en intervalos de clase, los valores xi de la expresión 89#9 serán reempla&ados reempla&ados por la marca de clase de cada intervalo el valor de la media aritmética se obtiene de la siguiente manera: 5
k
x n
X
< i
f i , xi< es la i ; ésima marca de clase
i 5
MEDIANA Definición )ado x ,####, xn observaciones observaciones de la variable =, la mediana mediana es el valor valor o punto medio que supera al >? por ciento de los valores observados de la variable es superado por el restante >? por ciento# La forma de obtener el valor de la mediana depende del número de observaciones# %s! si el número de observaciones es impar, la mediana es el valor de la variable que ocupa la posición central de los datos ordenados si el número de observaciones observaciones es par, la mediana es la media aritmética de los dos valores que ocupan la posición central de los datos ordenados# Esta definición se puede plasmar mediante la siguiente expresión matemática# 5
2i n es impar : Me x n 5
7
89#>
2i n es par : x n x n Me
5 7
7
7
donde el sub!ndice indica indica la posición o lugar que ocupa el valor valor de la variable ordenada # 2i la muestra es de tama6o impar, como por ejemplo: 59 55 5@ 7? 5A 75 79, donde n B C, entonces
n 5 D , por lo que la mediana es el valor de la variable que ocupa la 7
posición D de las observaciones ordenadas: ordenadas: 55 59 5A 19 7? 7? 75 79 # Me x D B 5@# 2i el tama6o de la muestra es par, como por ejemplo 5? 5 D @ 59 5C, donde n B ordenados son:D @ 5? 59 5 5C, entonces, n 7
9,
n 7
5 D por lo que x 89 5? , x 8 D 59 ocupan la posición central# Luego Luego
el valo alor de la media diana es la med media aritm ritméétic tica de 5? 59, es dec decir 5? 59 7
Me
55#> #
3ara obtener la mediana a partir de una distribución de frecuencias se considera los siguientes casos#
Datos sin ar!par en inter"a#os de c#ase $ presentados en ta%#a de frec!encias
2i los datos datos están están en una distribuci distribución ón de frecuen frecuencias cias,, para calcula calcularr la mediana mediana se seguirán los siguientes pasos: 5 Encontrar las frecuencias absolutas acumuladas acumuladas 7 Encontrar
n 7
9 En la columna de las frecuencias absolutas acumuladas ubicar el intervalo F i 5
n
7
F i donde F i n 7
inferior o igual que superior que
n 7
5
es la frecuencia absoluta acumulada inmediatamente inmediatamente
F i
es la frecuencia frecuencia absoluta acumulada inmediatamente
#
D 1bicar en la columna del recorrido de la variable el valor xi asociado a encontrar el valor de la mediana de acuerdo a la fórmula siguiente: Me xi
si
F i 5
n
si
F i-5
n
7
F i
F i
8a
o Me
x i5 xi 7
7
F i
8b
Datos ar!pados en inter"a#os de c#ase $ presentados en !na ta%#a de frec!encia 2eguir los pasos 5, 7, 9 del caso anterior de datos sin agrupar agrupar en intervalos de clase como paso D ubicar el intervalo de clase asociado a la frecuencia absoluta acumulada F i encontrar el valor de la mediana de acuerdo a la siguiente expresión: n F i 5 a i Me Li 5 7 F i F i 5 Me Li 5
2i F i 5
2i F i 5
n 7
n 7
F i
F i
8a:
8b:
donde: Li 5 es el l!mite inferior inferior del intervalo intervalo asociado asociado a la frecuenci frecuenciaa absoluta acumulad acumuladaa F i a es la amplitud del intervalo asociado asociado a la frecuencia absoluta acumulada acumulada F i
i
C&AR'I(ES 2on números números que dividen dividen la distribuc distribución ión de frecuenc frecuencia ia de un conjunt conjuntoo de datos datos en cuatro partes iguales# Ellos son:
El cuartil uno, $5, es el punto por por debajo debajo del cuál se se ubica ubica el 7>F de los datos# datos#
El cuartil dos, $7 , es el punto por debajo debajo del cuál se ubica ubica el >?F de los los datos#
El cuartil tres, $9, es el el punto por debajo debajo del cuál se ubica ubica el C>F de los datos# datos#
C)#c!#o de c!arti#es en con*!ntos de datos pe+!e,os 3rimero ordenamos los datos en orden de magnitud creciente# Los datos ordenados se representan con x 85: , x 8 7: ,###, x 8 n : Luego encontramos la posición para cada uno de los cuartiles, según como sigue: 5
3ara el c!arti# !no calcular n 5 redondear al entero más cercano# La observación D
ordenada que ocupa esta posición, representa el c!arti# !no# 2i la posición se encuentra a mitad entre dos enteros el c!arti# !no es el promedio de los dos valores correspondientes# 3ara el c!arti# dos 8mediana 9
3ara el c!arti# tres calcular n 5 redondear al entero más cercano# La D
observación ordenada que ocupa esta posición, representa el c!arti# tres# 2i la posición se encuentra a mitad entre dos enteros el c!arti# tres es el promedio de los dos valores correspondientes#
E*emp#o -.19 3ara los siguientes conjuntos de datos a 59 55 5@ 7? 5A 75 79 b 5? 5 D @ 59 5C 0btendremos el cuartil uno, el cuartil tres la mediana# So#!ción a/ 2i tenemos la siguiente muestra de datos:59 55 5@ 7? 5A 75 79, donde nBC, entonces, para encontrar el cuartil uno calculamos
n 5 D
C 5 D
7 , por lo que el cuartil
uno es el valor de la variable que ocupa la posición 7 de las observaciones ordenadas: 55 1- 5A 5@ 7? 75 79# Luego Q5 x 7 59 # 3ara encontrar el cuartil dos usamos la formula de la mediana como n es impar Me x n 5 x C 5 x D 5@ 7
7
3ara encontrar el cuartil tres calculamos
9 D
n 5 0
9 C 5 E D
luego el cuartil tres es
Q9 x E 75 .
%/ 2i tenemos otra muestra de datos, por ejemplo 5? 5 D @ 59 5C, donde nB ordenados son: D @ 5? 59 5 5C, entonces, para encontrar el cuartil uno calculamos n 5 E 5 5#C> , D D
luego el entero más cercano es 7 por lo que el cuartil uno es el
valor de la variable que ocupa la posición 7 de las observaciones ordenadas, luego Q5 x 7 @
3ara encontrar el cuartil tres calculamos
9
n 5 0
9
D D Q9 x > 5E
5 >#7> luego el entero más
cercano es > por lo que el cuartil tres es 3ara encontrar el cuartil dos usamos la fórmula de la mediana como n es par# x n x n Me
5 7
7
7
x E x E
5 7
7
7
x 9 x D 7
5? 59 7
55 #>
3ara obtener los cuartiles a partir de !na ta%#a de distri%!ción de frec!encias , se procede como en el caso del calculo de la mediana teniendo en cuenta que la fracción n 7
será cambiada por las fracciones
n D
7n D
9n D
según se requiera calcular el
cuartil uno, cuartil dos8mediana o cuartil tres respectivamente#
Datos sin ar!par en inter"a#os de c#ase $ presentados en ta%#a de frec!encias *# 3ara encontrar el c!arti# !no, proceder de la siguiente manera: 5 Encontrar las frecuencias absolutas acumuladas 7 Encontrar
n D
9 En la columna de las frecuencias absolutas acumuladas ubicar el intervalo F i 5
n D
F i donde F i
inferior o igual que n
superior que
D
n D
5
es la frecuencia absoluta acumulada inmediatamente
F i
es la frecuencia absoluta acumulada inmediatamente
#
D 1bicar en la columna del recorrido de la variable el valor xi asociado a encontrar el valor del cuartil uno de acuerdo a la fórmula siguiente: Q5 xi
si F i 5
n D
F i
F i
8a
o Q5
xi 5 xi 7
si F i-5
n D
F i
8b
**# 3ara encontrar el c!arti# tres : 5 Encontrar las frecuencias absolutas acumuladas 7 Encontrar
9n D
9 En la columna de las frecuencias absolutas acumuladas ubicar el intervalo F i 5
9n F i donde F i 5 es la D
frecuencia absoluta acumulada inmediatamente
anterior o igual que superior que
9n D
9n D
F i
es la frecuencia absoluta acumulada inmediatamente
#
D 1bicar en la columna del recorrido de la variable el valor xi asociado a encontrar el valor del cuartil tres de acuerdo a la fórmula siguiente: Q9 xi
si F i 5
9n D
F i
F i
8a
o Q9
xi 5 xi 7
si F i-5
9n D
F i
8b
E*emp#o -.23 .on la distribución del número de 'ijos de los estudiantes de maestr!a del ejemplo 9#9, vamos a ilustrar la obtención del cuartil uno el cuartil tres# So#!ción4 a/ .uartil uno# 3rimero debemos encontrar las frecuencias absolutas acumuladas como se muestra a continuación: /úmero se 'ijos x5 0? x7 B1 x9 07 xD 0D x> 0> otal luego calcular
n D
f i
F i
7 55 55 9 9 9?
2 17D 7C 9?
, es decir,
n D
B
9? C #> . D
En la columna de frecuencias absolutas acumuladas ubicamos tal forma que, F i 5 7
n C#> F i 59 #1sando D
F i
F i 5
de
89#558a, el valor de la
variable asociada a la frecuencia absoluta acumulada F i F 7 59, es x 7 5 G luego, el valor del cuartil uno es 5# Q5 x 7 5 # El 7>F de los estudiantes tiene a lo más un 'ijo#
%/ .uartil tres# )espués de encontrar la frecuencia absoluta acumulada como se muestra en la tabla siguiente: f i F i /úmero se 'ijos x5 0? 7 7
x9 02
xD 0D x> 0>
otal .alculamos
125 7C 9?
55 55 9 9 9?
x7 B5
9n D
9n
es decir
D
0
9 9? D
077#>#
En la columna de la frecuencia absoluta acumulada ubicamos forma que, F i 5 59
9n D
F i
F i 5 de tal
77#> F i 7D #1sando 89#578a, el valor de la
variable asociada a la frecuencia absoluta acumulada F i F 9 7D, es x9 7 G luego, el valor del cuartil tres es 7# Q9 x 9 7 # El C>F de los estudiantes tiene dos o menos 'ijos#
C!arti#es a partir de !na distri%!ción de frec!encias para datos ar!pados en inter"a#os de c#ase 3ara obtener los cuartiles para datos agrupados en intervalos de clase, se procede como en el caso del cálculo de la mediana teniendo en cuenta que la fracción la fórmula 89#C será cambiada por las fracciones
n D
7n D
9n D
n 7
incluida en
según se requiera
obtener el cuartil uno, cuartil dos8mediana o cuartil tres respectivamente#
PERCEN'I(ES 2on números que dividen la distribución en 5?? partes iguales, de manera semejante a la mediana en que la distribución de un conjunto de datos se dividió en dos partes, un >?F inferior otro >?F superior, o en cuartiles en donde la distribución se dividió en cuatro partes, cada una conteniendo un 7>F de los datos %s! por ejemplo el percentil 5?, 3 5?, es el valor de la variable debajo del cual se encuentran el 5?F de los datos# Es importante calcularlos en distribuciones con un gran número de datos# % continuación se presentan los métodos de obtención de los percentiles para datos tabulados#
Datos sin ar!par en inter"a#os de c#ase $ presentados en !na ta%#a de frec!encias 2e procede como en el caso del cálculo de la mediana teniendo en cuenta que la fracción n 7
será cambiada por la fracción
k
n 5??
de acuerdo al percentil que sea de nuestro
interés encontrar 8H B5,7,I,@@, luego continuar con los pasos a conocidos: 5 Encontrar las frecuencias absolutas acumuladas
7 0btener la fracción
k
n 5??
donde k puede tomar los valores H B 5, 7,# # # ,@@
9 En la columna de las frecuencias absolutas acumuladas ubicar el intervalo F i 5
kn
5??
F i donde F i
inferior o igual que superior que
kn 5??
kn 5??
5
es la frecuencia absoluta acumulada inmediatamente
F i
es la frecuencia absoluta acumulada inmediatamente
#
D 1bicar en la columna del recorrido de la variable el valor xi asociado a encontrar el valor del percentil k de acuerdo a la fórmula siguiente: P k xi
si F i 5
Hn 5??
F i
F i
8a
o P k
xi 5 xi 7
si F i-5
Hn 5??
F i
8b
89#59
Datos ar!pados en inter"a#os de c#ase $ presentados en !na ta%#a de frec!encia 3ara obtener el percentil k en el caso de una distribución de frecuencias para datos agrupados en intervalos de clase seguir los pasos 5, 7, 9 del caso anterior de datos sin agrupar en intervalos de clase como paso D ubicar el intervalo de clase asociado a la frecuencia absoluta acumulada F i encontrar el valor del percentil k de acuerdo a la fórmula siguiente: n k F i 5 5?? a P k Li 5 i F i F i 5
2i F i 5
P k Li 5
2i F i 5
kn 5?? kn
5??
F i
8a:
F i
89#5D
8b:
donde: Li 5 , es el l!mite inferior del intervalo asociado a la frecuencia absoluta acumulada F i a es la amplitud del intervalo asociado a la frecuencia absoluta acumulada F i #
i
E*emp#o -.21 .onsiderando los datos de la edad de los estudiantes de maestr!a del ejemplo 9#D vamos a obtener el percentil C>, 3 C># So#!ción 3reviamente se calculan las frecuencias absolutas acumuladas como se muestra a continuación, Edades Jrecuencias Jrecuencia absoluta Li 5 , Li absoluta acumulada f i
F i
79 ; 97 97 ; D5 51 7 83 >? ; >@ >@ ; A otal al calcular
k
n 9? C> 77 #> 5?? 5??
57 A 7 7 9?
16 2 7A 9?
, se cumple
7, en este caso el intervalo asociado a valor de la variable que ocupa la posición
F i 5 B
F i F 9 7
C>
9? 5??
5A K k
n
5??
77#> K F i B
es D5 , >? , que contiene el
77#>
# La amplitud del intervalo
es @ el l!mite inferior D5# Entonces, usando 89#5D8a, el valor del percentil C> 3 C>, es P k Li 5
n k F i 5 77#> 5A D#> 5?? a D5 @ D5 @ DE#5 # B i F i F i 5 7E 5A A
El
C>F de los estudiantes tienen edades inferiores a D#5 a6os#
Comentarios )ependiendo de lo que se quiera representar o explicar del tipo de variable con la que estemos trabajando, se elegirá a la estad!stica de posición más apropiada según el caso, por ello 'acemos la siguientes observaciones# La media aritmética es afectada por valores extremos de la variable# La mediana no es afectada por valores extremos 8valores inferiores o superiores mu distantes del valor central de la variable# La media, mediana moda se pueden calcular para datos cuantitativos# La moda es la única medida que sirve tanto para el caso de variables categóricas como para variables cuantitativas, puesto que su definición no exige ordenar los valores de la variable, ni 'acer operaciones matemáticas con ellos# 3or ejemplo, si se está trabajando la distribución de la variable nacionalidad para un determinado conjunto de personas, no tiene ningún sentido 'ablar del promedio o de la mediana de esa distribuciónG en cambio si tiene sentido 'ablar de la moda# 2i se trabaja la distribución de una variable cuantitativa, en principio tiene sentido calcular la media, la moda la medianaG pero para efectos prácticos, puede no tenerlo# Entonces, 'ace falta desarrollar un cierto criterio para decidir en casos particulares, cuál es la mejor medida de tendencia central# La media aritmética es mu sensible a valores extremos# Entonces, si en una distribución 'ubiera presencia de dic'os valores, la media no es la mejor de las medidas de tendencia central# 3or ejemplo en lo que sigue tenemos dos conjuntos de datos, al triplicar el último valor del conjunto7, el único valor que se altera es la media: (edia (ediana (oda .onjunto5: @,@,@,5?,55,57,59,5D,5@ 55#CC 55 @ .onjunto7: @,@,@,5?,55,57,59,5D,>C 5 55 @
3uesto que las tres medidas de posición tienen debilidades fortale&as vale la pena observarlos e interpretarlos en forma conjunta# 1n forma de entender la relación entre estos tres es locali&ando los valores de cada uno de ellos en una distribución de frecuencias# La siguiente figura muestra las tres formas mu comunes de distribución de frecuencias
(odaK(edianaK (edia (ediaB(edianaB(oda (ediaK(edianaK (oda 8a 8b 8c En la distribución de frecuencias 8a la posición relativa de la media, mediana moda indica asimetr!a positiva La distribución de frecuencias 8b nos muestra que la media, mediana moda de una variable son iguales# Esta distribución tiene forma de campana se la conoce como distri%!ción norma# #8o campana de 4auss# En la distribución de frecuencias 8c la posición relativa de la media, mediana moda indica asimetr!a negativa
E*emp#o. , como se muestran en la tabla el gráfico que se presentan# 2e desea conocer cuál es el porcentaje de socios cuas edades oscilan entre 55 D9 a6os#
MEDIDAS DE DISPERSIÓN En la sección anterior se definieron medidas que permiten encontrar la ubicación del centro de una distribución que, por tanto, contribuen a la descripción del correspondiente conjunto de datos mediante un valor representativoG pero para lograr una imagen completa de cómo es la distribución es necesario saber cómo se distribuen los datos alrededor de ese valor representativo# +etomemos, entonces, la segunda pregunta formulada en la sección 9#5# ¿$ué tan separados están entre s!, los diferentes valores que asume la variable"# El objetivo del presente cap!tulo es encontrar una manera adecuada de responder la pregunta planteada, es decir encontrar una forma de medir la dispersión de los datos# Entre las medidas de dispersión más usadas están: el rango, la varian&a, la desviación estándar el coeficiente de variación#
RAN:O Es la diferencia entre los valores máximo m!nimo de un conjunto de datos# +ango x máx x mín
E*emp#o -.28
89#5>
Los dos conjuntos de valores que siguen corresponden a los a6os de servicio en la docencia de 5D profesionales en estad!stica# 0btendremos el rango para cada conjunto de valores# .onjunto5: 5> 5> 9? 9? 9? 9? 9? 9? 9? 9? 9? 9? D> D> .onjunto7: 5> 5> 7? 9? 9? 9? 9? 9? D? D? D? D? D? D>
So#!ción En el conjunto5, cuos valores a ordenados en forma ascendente son 5> 5> 9? 9? 9? 9? 9? 9? 9? 9? 9? 9? D> D> el máximo valor es D> el m!nimo valor es 5> entonces el rango es:+ango BD>; 5>B9? en el conjunto7, también el máximo valor es D> el m!nimo valor es 5> e igualmente tiene +ango B D>;5> B 9?G pero tenemos que aceptar que la primera distribución es menos dispersa que la segunda, sin embargo el rango es el mismo para las dos distribuciones# 3or tanto, en este caso el rango es una medida que no refleja las diferencias que según la intuición la observación son evidentes entre las dos distribuciones# Este 'ec'o nos exige seguir buscando otras medidas de dispersión que supere la limitación anterior# RAN:O IN'ERC&AR';(ICO Es la distancia entre el cuartil uno el cuartil tres se expresa como: +ango intercuart!lico B 89#5
Q9 Q5
Esta medida de dispersión nos permite saber en cuanto se diferencian el maor valor del menor valor del >?F de los valores que se ubican en la parte central de la muestra ordenada desde luego no se ve influenciada por la presencia de valores extremos#
E*emp#o -.2 .on los datos presentados en el ejemplo 9#7>, encontraremos el rango intercuart!lico para cada conjunto de valores# So#!ción a 3ara el conjunto 5 cuos valores son 5> 5> 9? 9? 9? 9? 9? 9? 9? 9? 9? 9? D> D>, encontraremos primero los cuartiles: .uartil uno: se tiene que n B 5D, la posición es
5 D
5
n 5 0 5D 5 9#C> $ el D
entero más cercano a 9#C> es D luego el valor que ocupa la posición D es .uartil tres: también n B 5D, la posición es
9 D
Q5
B x D B9?
9
n 5 0 5D 5 55#7> $ el entero D
más cercano a 55#7> es 55 luego el valor que ocupa la posición55 es Luego, Rano interc!art<#ico B Q9 Q5 0 9?;9? B?
Q9
B x 55 B9?
b 3arael conjunto7 cuos valores son:5> 5> 7? 9? 9? 9? 9? 9? D? D? D? D? D? D>, también primero encontraremos los cuartiles:
.uartil uno: nB5D la posic#ón es
5 D
5
n 5 0 5D 5 9#C> el entero más cercano a D
9# C> es D luego el valor que ocupa la posición D es .uartil tres: n B 5D, la posición es
9 D
Q5
B x D B9?
9
n 5 0 5D 5 55#7> $ el entero más D
cercano a 55#7> es 55 luego el valor que ocupa la posición 55 es Q9 B x 55 BD? Luego, Rano interc!art<#ico B Q9 Q5 0 D?;9? B5? En el conjunto5 el rango intercuart!lico es igual a ?, es decir no existe variabilidad en el >?F de los datos que se encuentran ubicados en la parte central# (ientras que en el conjunto7 el rango intercuart!lico es igual a 5?, indicando que el menor valor el maor valor del >?F de los datos que se encuentran ubicados en la parte central, están a una distancia de 5? unidades#
RAN:O SEMIIN'ERC&AR';(ICO Es la distancia promedio desde la mediana 'acia los dos cuartiles es decir, evalúa, en promedio, qué tan lejos se 'allan los valores de los cuartiles Q5 Q9 con respecto a la mediana se expresa mediante la fórmula: +ango semiintercuart!lico B
Q9 Q5 7
89#5C E*emp#o -.2= .on los dos datos presentados en el ejemplo 9#7>, correspondientes a los a6os de servicio en la docencia, con rangos ambos iguales a 9?, rangos intercuart!licos iguales a cero die& respectivamente, encontraremos el rango semiintercuart!lico en cada caso#
So#!ción 3ara el conjunto5: +ango semiintercuart!lico B 3ara el conjunto7: +ango semiintercuart!lico B
Q9 Q5 7 Q9 Q5 7
0 0
9? 9? 7 D? 9? 7
?
5? 7
>
3ara el conjunto5, esta medida de dispersión nos dice que no 'a dispersión en el >?F central de los datos respecto a la mediana# 3ara el conjunto7, esta medida de dispersión nos dice que tanto el valor del cuartil uno como el valor del cuartil tres distan de la mediana en promedio en > unidades#
E*emp#o -. 26 En la Escuela de 3rimaria uana de %rco, los estudiantes fueron sometidos a un examen odontolMgico# Los siguientes datos corresponden al número de dientes extra!dos en una muestra de C alumnos de primer a6o de primaria: ? 5? A 7 9 5# Encontraremos: a El rango b +ango intercuart!lico c +ango semiintercuart!lico# So#!ción a El rango es: +ango B
+ango x máx x mín
B5? N ? B5?#
b 3ara encontrar el rango intercuart!lico: 0rdenamos las observaciones en orden creciente: ? 5 7 9 A 5?# Encontramos: .uartil uno: calculamos la posición
n 5 C 5 7 entonces, en la D D
muestra
ordenada, la observación que ocupa la posición 7 es Q5 x 7 5 , quiere decir que el 7>F inferior de los alumnos se 'an extra!do menos de un diente#
98 n 5 98C 5 E entonces, en la muestra D D ordenada la observación que ocupa la posición es Q9 x A , quiere decir que
.uartil tres calculamos la posición
el 7>F superior de los alumnos se 'an extra!do más de A dientes# Luego, Rano interc!art<#ico B Q9 Q5 B A 5 C Es decir, C es la diferencia entre el maor número de dientes extra!dos el menor número de dientes extra!dos del >?F de la parte central de la muestra, a diferencia del rango que nos indica la diferencia entre el maor número de dientes extra!dos el menor número de dientes extra!dos del 5??F de la muestra# Q9 Q5
c Rano semiinterc!art<#ico B
7
B
A5 7
5
C 7
B9#># Esta medida de dispersión
nos indica que tanto el valor del cuartil uno como el valor del cuartil tres de la variable número de dientes extra!dos en el grupo de C alumnos, distan de la mediana en promedio en 9#> unidades# .ada una de las medidas que se 'an presentado 'asta el momento proporcionan información parcial de la dispersión de la muestra# 1na medida que describe la dispersión de todos los valores que conforman la muestra, es la varian&a#
>ARIAN?A (a "arian@a de un conjunto de datos numéricos es una medida de dispersión se define como la media o promedio 5 de los cuadrados de las diferencias de cada valor de la variable con respecto a la media aritmética, cua expresión matemática es: n
xi 7
X
n
x
7
donde X
i 5
S
n 5
i 5
89#5A
i
n
1na fórmula alternativa es la siguiente: n
x i
7
7
S
i 5
n
7
X
89#5@
n 5
.abe indicar que la varian&a también se puede expresar como: n
xi S 7
X
i 5
n
7
89#7?
pues cuando el tama6o de muestra es grande las dos fórmulas 89#5A 89#7? proporcionan resultados similares#
DES>IACIÓN ES'NDAR Es la ra!& cuadrada de la varian&a se expresa mediante la fórmula n
xi X i 5
2
n
7
donde X
n 5
xi i 5
n
89#75
,
E*emp#o -.29 Los siguientes datos representan las edades de seis ni6os en a6os cumplidos: 5 9 9 ? D 5# La media aritmética es X 7 a6os# 0btendremos la varian&a# So#!ción Los cálculos auxiliares para el cálculo de la varian&a se muestran en la siguiente tabla: Edades ? 5 5 9 9 D
Edad N (edia ?;7B;7 5;7B;5 5;7B;5 9;7B5 9;7B5 D;7B7
8Edad; (edia 7 D 5 5 5 5 D n
x
otal
X B57 7
i
i 5
Luego la varian&a es: S 7
5
n
x n 5
X 7
i
i 5
57 >
7#D años 7
)esviación Estándar : S
7 #D años 7 5#> años
2i resolvemos el mismo problema usando el 2322 se tienen los siguientes resultados: N Mean
Valid
6 2.00
Std. Deviation
1.549
Variante
2.400
3ara obtener la varian&a a partir de una distribución de frecuencias se considera los siguientes casos:
Datos sin ar!par en inter"a#os de c#ase $ presentados en ta%#as de frec!encias 3ara datos sin agrupar en intervalos de clase, la fórmula de la varian&a 89#5A se expresa como: k
xi S 7
7
X f i
i 5
89#77
n 5
donde k
x
i
f i
i 5
X
,
n
k es el número de valores diferentes que toma la variable, f i es la frecuencia absoluta asociada al i ; ésimo valor diferente que toma la variable#
La desviación estándar n
xi X 2
7
n
xi f i
f i
i 5
donde X
n 5
i 5
89#79
,
n
0tra expresión de la varian&a es la siguiente: k
x 7
S
i 5
7 i
k
x f
7
f i n X
donde X
n 5
i
i 5
i
n
89#7D
E*emp#o -.-3 Los alumnos del )octorado en Educación matriculados el semestre 7???, en el marco del curso de Estad!stica %plicada a la *nvestigación, reali&aron una investigación con el objetivo de establecer el perfil de los estudiantes de maestr!a de la 1/(2(, matriculados en el semestre académico 7???;* que ingresaron a la universidad entre 5@@C el a6o 5@@@# El estudio se llevó a cabo entre abril junio del a6o 7???# .omo el número total de estudiantes que cursaban las diversas maestr!as era alrededor de 7>??, después de grandes debates, los alumnos del )octorado en Educación decidieron seleccionar una muestra de 9? estudiantes de la (aestr!a en 4estión Educativa# % continuación se presentan los datos para la variable: número de 'ijos de los 9? maestristas# Encontraremos la varian&a desviación estándar del número de 'ijos# So#!ción 1saremos la expresión 89#7D# Los datos los cálculos auxiliares se presentan en la siguiente tabla: xi
f i
x i7
xi f i
x5 0?
7 55 55
? 5 D
? 55 DD
x7 05 x9 07
7
9 5 DA x> 0> 9 7> C> otal 9? 5CA +eempla&ando en la expresión 89#7D se encuentra xD 0D
k
7
x i f i n X 7
7
S S
B
i 5
5CA 9? 7
n 5 7 'ijos 7
7
B7 'ijos7
9? 5
5#D5 'ijos
La variabilidad media del número de 'ijos respecto a la media aritmética es de 5 'ijo#
Datos ar!pados en inter"a#os de c#ase $ presentados en !na ta%#a de frec!encias 3ara datos agrupados en intervalos de clase, la fórmula de la varian&a 89#5A se expresa como: k
S 7
x
< i
X f i 7
i 5
n 5
donde ,
89#7>
k es el número de intervalos de clase x i< es la marca de clase del i ; ésimo intervalo f i
es la frecuencia absoluta asociada al i ; ésimo intervalo
0tra expresión de la varian&a para datos agrupados con intervalos de clase es la siguiente: k
x S 7
<7 i
f i n X
i 5
n 5
k
7
x i
<7
donde X
i 5
f i
89#7
n
la desviación estándar es: S
S 7
en cualquiera de los dos casos#
E*emp#o -.-1 Los alumnos del )octorado en Educación matriculados el semestre 7???, en el marco del curso de Estad!stica %plicada a la *nvestigación, reali&aron una investigación con el objetivo de establecer el perfil de los estudiantes de maestr!a de la 1/(2(, matriculados en el semestre académico 7???;* que ingresaron a la universidad entre 5@@C el a6o 5@@@# El estudio se llevó a cabo entre abril junio del a6o 7???# .omo el número total de estudiantes que cursaban las diversas maestr!as era alrededor de 7>??, después de grandes debates, los alumnos del )octorado en Educación decidieron seleccionar una muestra de 9? estudiantes de la (aestr!a en 4estión Educativa# % continuación se presentan los datos para la variable: edad de los estudiantes # 0btengamos la media aritmética#
So#!ción 2e resume los pasos para la obtención de la varian&a se presentan en el siguiente cuadro: se calculan las marcas de clase, xi< , se genera una columna con los productos de cada marca de clase por su correspondiente frecuencia# xi< f i , la columna anterior 8los resultados obtenidos en cada caso se vuelve a 7 multiplicar por la correspondiente marca de clase, resultando xi< f i ,
Edades xi< Li 5i , Li 79 ; 97 7C#> 97 ; D5 9#> D5 ; >? D>#> >? ; >@ >D#> >@ ; A 9#> 0%L k
x<
7 i
x f 57?9
f i >5?@5#>
i 5
n
x i 5
< i
f i
57 A 7 7 9?
<
7
xi f i
xi< f i
5>#? D>9C#> D9A#? 5>@AC#? 9D#? 5>7#? 5?@#? >@D?#> 57C#? A?D#> 57?9#? >5?@5#>
k
i 5
5 X n
f i
< i
i
n B 9?
57?9 D?#5 a6os 9?
>5?@5#> 9? D? #5 S 7@ 7
7
@A#95 a6os 7#
@#@7 a6os# La dispersión media de las edades de los estudiantes respecto a la media es de 5? a6os# S
@A#95
Propiedades de #a "arian@a Propiedad 1 # La varian&a debe ser siempre un valor no negativo k
En la expresión
x i X
7
xi X 7
S
i 5
f i ? de a'! que
7
f i
como xi X 7 ? y
S ?
f i ?,
7
#
entonces
n 5 7
k
x
i
X ? por tanto
S 7 siempre es no negativo#
i 5
Propiedad 2 # La varian&a de una constante es igual a cero# Esto es V C ? , donde C es cualquier constante 8.onvenimos que S 7 V 8# 2upongamos que las observaciones xi B . para i , entonces X . xi X 7 ? , pues las observaciones toman un único valor, por lo tanto O8 . B?
Propiedad - # La varian&a de una constante más una variable es igual a la varian&a de la variable# Estoes si y i C xi , i B5,I,n entonces V 8Y V C X V 8 X # E*emp#o -.-2 El )irector del .olegio 4uadalupe esta preocupado porque durante el a6o académico 7??D, algunos alumnos 'an faltado frecuentemente a clases# .on la finalidad de verificar su percepción solicita al )irector %cadémico que tome una muestra de 7? estudiantes que en a6o 7??D cursaron el cuarto a6o de secundaria obtenga para dic'os estudiantes: a La varian&a de la variable X , número de inasistencias de los alumnos del cuarto a6o en el mes de noviembre# b 2i en el mes de diciembre cada uno de los 7? estudiantes faltaron a clase 7 d!as más que en noviembre, ¿cuánto será la varian&a de la variable Y , número de inasistencias de los estudiantes de cuarto a6o durante el mes de diciembre" Los datos de la muestra son: c /úmero de inasistencias 5 9 C A en el mes de noviembre f i 9 D A 9 7 So#!ción a 1sando la expresión 89#7D, el valor de la varian&a para la variable X , número de inasistencias de los alumnos de cuarto a6o en el mes de noviembre es::
S 7
E?7 ; 7?8> 7
>#9C , sabiendo que
5@
X >,7
b 2i a cada observación le sumamos la constante . B 7, inasistencias del mes de diciembre, obtendremos yi 7 xi , i B 5,I,> # 3ara calcular la varian&a de la variable Y aplicamos la propiedad V Y V C X V X se tiene: V 8Y = V 7 X V X >#9C Oemos pues que la varian&a no se modificó a pesar de 'aber sumado una constante a todas las observaciones# .
Propiedad 5 # La varian&a de una constante por una variable, es igual al producto de la constante al cuadrado por la varian&a de la variable# Esto es si y i Cx i , i B5,I,n entonces V 8Y V CX C 7V 8 X E*emp#o -.-.on los mismos datos del problema anterior aplicaremos la propiedad D# So#!ción Pa se encontró que el valor de la media aritmética es X > el valor de la varian&a S 7 >#9C # 2upongamos que el número de inasistencias de cada alumno se duplica, esto es y i 7 xi # Entonces la constante es . B 7 aplicando la propiedad se tiene que, V Y C 7V X B 7 7 8>#9C 75#DA G vemos en este caso que la varian&a s! sufrió un cambio al 'aber multiplicado por una constante a todas las observaciones#
Propiedad 8 # )ados dos conjuntos de datos de tama6os, medias varian&as respectivas: n5 , n 7 G X 5 , X 7 G S 57 , S 77 si se desea calcular la varian&a global de las dos muestras se aplica la siguiente fórmula: 7
S
S 57 8n5 : S 77 8n 7 : n5 n 7
X 5 X 7 8n5 : X 7 X 7 8n7 : n5 n7
donde: S 57 8 n5 S 77 8 n 7 el primer tér mino : representa la variabilidad dentro de cada muestra n5 n 7 se le denomina intravaria n&a# el segundo término :
X 5 X 7 8n5 X 7 X 7 8n7 n5 n7
sabiendo que =
X 5 n5 X 7 n7 n5 n7
representa la variabilidad entre las dos muestras se le denomina intervarian&a# 3or tanto la varian&a global de las dos muestra es,
S intravarian&a intervarian&a 7
Esta propiedad se puede generali&ar para más de dos muestras#
E*emp#o -.-5 En el .olegio 2an .arlos, en un concurso de álgebra, tres alumnos por cada sección de quinto a6o de secundaria, obtuvieron las calificaciones siguientes: 2ección %: C, @,55 X 5 @ S 57 7,C 2ección Q: 55,5D,5C X 5 5D S 77 E,? Encontraremos la varian&a global de las calificaciones de los alumnos, aplicando la propiedad >#
So#!ción 2ea la muestra 5 la sección % la muestra 7 la sección Q, entonces se tiene: (uestra 5 n5 9 X 5 @ S 57 7,C
(uestra 7: n 7 9 X 7 5D S 77 E,?
El valor de la intravarian&a es: S 57 8 n5 S 77 8 n 7 n5 n 7
7 #C 8 7 E 8 7 99
A 5A E
D,9>
El valor de la media global es: X goba
n5 X 5 n 7 X 7 n5 n7
98@ 985D 99
7C D7 E
E@ E
55,>
El valor de la intervarian&a:
X
5
X 8n5 X 7 X 8n7 8@ 55#> 7 9 85D 55#> 7 9 57#> 57#> E,7> n5 n7 99 D 7
7
Jinalmente, el valor de la varian&a global es: 7 S intravarian&a intervarian&a B D,9> R ,7> B 5?,
E*emp#o -.-8 .on los datos presentados en el ejemplo 97 aplicaremos la propiedad ># So#!ción %l dividir la muestra total en las siguientes dos sub muestras se obtiene: (uestra 5: x i
f i
xi f i
5 9 otal
9 D A 5>
5 S9B9 9 SDB57 SAB DA 9
(uestra 7: xi
f i
x i f i
C A 'ota#
9 7 8
C S9B75 A S7B5 -=
3ara la muestra 5 se tiene: X 5
n5B5> 9
xi X 7 5
S
E9 BD#7 5>
7
i 5
n
85 D#7: 7 9 89 D#7: 7 D 8E D#7: 7 A 5>
D#5E
3ara la muestra 7 se tiene: X 7
n7 B> 7
xi X 7 7
S
9C C# D >
7
i 5
n
8C C#D: 7 9 8A C#D: 7 7 >
?#7D
El valor de la intravarian&a es: S 57 8 n 5 S 77 8 n 7 n5 n 7
D,5E 85> ?,7D8> 5> >
9,5A
El valor de la media global es: X goba
n5 X 5 n7 X 7 n5 n7
5>8 D#7 >8C#D
El valor de la intervarian&a:
5> >
E9 9C 7?
5?? 7?
>
X
X 8n5 X 7 X 8n7 8D,7 > 7 5> 8C,D > 7 > 5,@7 n5 n7 5> > 7
5
7
Jinalmente, el valor de la varian&a global es: 7 S intravarian&a intervarian&a B 9,5A R5,@7B >,5# Este resultado coincide con el valor de la varian&a encontrado en el problema97#
Re#ación entre #a des"iación est)ndar $ #a proporción de #as o%ser"aciones en !na distri%!ción de frec!encia 'eorema de CBe%$sBe" 3ara cualquier conjunto de observaciones 8población o muestra cualquier constante k maor o igual que 5, la proporción de las observaciones que se encuentran dentro de k desviaciones estándar de ambos lados de la media es de por lo menos 5
5 k 7
89#7C
En otras palabras el teorema nos dice que en el intervalo X kS se encuentra al menos 5
5 k 7
o 5
5 k 7
F del total de las observaciones#
%s!, si k = 7, como m!nimo 5
5 7
7
9 D
?#C> , ó C>F de los valores de cualquier
conjunto de datos se encuentra dentro de las dos desviaciones estándar de ambos lados de la media# 2i k = 9, por lo menos 5
5 9
7
A @
?#AA@ , AA#@F de los valores de cualquier conjunto
de datos se encuentra dentro de las tres desviaciones estándar de ambos lados de la media#
E*emp#o -.- 2i la media varian&a de un conjunto de n B 9? observaciones son )escribiremos la distribución usando el eorema de .'ebs'ev#
X >?
S 7 D #
So#!ción La distribución del conjunto de observaciones está centrada alrededor de X >? con una desviación estándar S 7 # El teorema establece que: %l menos 9TD o el C>F central de las observaciones se encuentran en el intervalo 8 X 7 S : 8>? 78 7:, >? 787:: 8 DE,>D: # %l menos AT@ o AA#@F central de las observaciones se encuentran en el intervalo 8 X 9S 8>? 987, >? 987 8 DD,> # El teorema se aplica a cualquier distribución# En muc'os casos la fracción de las observaciones que caen en el intervalo especificado excede a 5
5 k 7
#
E*emp#o -.-= 2i todos los solicitantes interesados en trabajar para un programa de asistencia social , en un examen de aptitud obtienen una calificación media de C> puntos con una
desviación estándar de puntos ¿qué porcentaje de los solicitantes como m!nimo, debe tener un promedio en el examen de aptitud entre >C @9 puntos"#
So#!ción .omo datos tenemos que H 8 E:
X C> S # 3uesto que H
desviaciones estándar,
es equivalente a la magnitud @9;C> B C>;>CB5A, entonces
H
5A
9 # )e
acuerdo con el teorema de c'ebc'ev la fracción m!nima de solicitantes que cumplen con tener un promedio entre >C @9 es 5
5 k 7
B 5
5 9
7
A @
o AA#@F#
2i la distribución de frecuencias se asemeja gráficamente a una forma de campana, como en la siguiente figura:
;92 ;72 ;52 ? R5s R72 R92 en este caso se le suele llamar curva normal la relación entre la desviación estándar8 S la proporción de observaciones es: L!mites dentro de los cuáles se ubican las observaciones
3orcentaje de observaciones Entre 5S y 5S A#7 Entre 7 S y 7 S @>#D Entre 9S y 9S @@#A Entre X y 5S 9D#5 Entre X y 5S 9D#5 Entre X y 7S DC#C Entre X y 7 S DC#C Entre X y 9S D@#@ Entre X y 9S D@#@ % esta relación se conoce como la regla emp!rica, porque supuestamente los porcentajes de observaciones establecidos se observan en la práctica#
E*emp#o -.-6 1n club deportivo tiene como propósito planear las actividades recreativas# La distribución de frecuencias de las edades tiene forma acampanada 8normal, con media desviación estándar iguales a 7C a6os A a6os respectivamente < Li 5 Li Jrecuencia xi >;@ @;59 59;5C
C 55 5>
7 9 C
5C;75 75;7> 7>;7@ 7@;99 99;9C 9C;D5 D5;D> D>;D@
5@ 79 7C 95 9> 9@ D9 DC
57 5> 79 5 57 C 7 5
25
20 y c n e u
15
q e r F
10
5
Mean = 26,68 Std. Dev. = 8,11394 N = 100
0 0,00
10,00
20,00
30,00
40,00
50,00
edad de socios
So#!ción La distribución de la variable edad tiene forma normal, como también se puede observar en el gráfico de la figura anterior, X 7Ca6os S A a6os # 2i H S H8A la proporción de edades debe oscilar entre 55 D9, entonces X k 8A BD9 X k 8A: B 55, luego k 8A: D9;7CB7C;55B5 por tanto k 7 el porcentaje de personas cuas edades oscilan entre 55 D9 es el @> F como establece la relación# % esta relación se la conoce como la regla emp!rica, porque los porcentajes se observan en la práctica# 2i observamos la tabla de distribución de frecuencias, contamos las observaciones comprendidas desde la edad 55 'asta D9 a6os se tiene: En el intervalo @,59 la amplitud es igual D tiene 9 observaciones# 3ero necesitamos contar las frecuencias exactamente desde 55, entonces tenemos que entre 55 59 'a una amplitud de 7 le corresponde una frecuencia de
789 D
5#> 7 # %simismo en el
intervalo D5,D> la amplitud es igual a D su frecuencia es 7, entonces desde D5 'asta D9 la amplitud es 7 su frecuencia igual a
787 D
5#
%'ora a tenemos las frecuencias que están comprendidas en el intervalo 55 D9 a6os sumando tenemos: 7RCR57R5>R79R5R57RCR5B@># La proporción entonces es @> 5??
?#@>
o en porcentaje @>F# Luego 'emos comprobado que la relación teórica se cumple en la práctica#
P!nta*es Estandari@ados
Los valores originales x i de un conjunto de datos también se pueden expresar en puntajes estandari&ados ! i , donde el puntaje estandari&ado es la distancia a la que se encuentra el valor xi , por arriba o por debajo de la media, medida en unidades de la desviación estándar, es decir: ! i
x i X S
89#7A
Este puntaje estandari&ado, determina la posición de una observación dada, en relación a la media en unidades de la desviación estándar# 2i el valor de ! i es negativo indica que la observación queda debajo 8a la i&quierda de la mediaG un valor de ! i positivo indica que la observación queda arriba 8a la derec'a de la media#
E*emp#o -. -9 Los siguientes datos correspondientes al peso altura de tres estudiantes universitarios# Estudiante (aria %na +osa (edia aritmética )esviación Estándar
3eso 8Hg# %ltura 8cm = P A? 5C> > 5? ? 5C7 Y B 5D cm# X B C? Hg S x B5? Hg# S y B cm#
3ara las tres estudiantes, encontramos los puntajes estandari&ados ! #
So#!ción Encontramos los respectivos valores estandari&ados ! para la variable =, as! tenemos: (ar!a: ! 5 %na:
! 7
+osa: ! 9
x5 X
S
x 7 X S
x9 X S
A? C? 5? E> C? 5?
5 desviaciones estándar ?#> desviaciones estándar
E? C? 5 desviaciones 5?
estándar#
Los resultados se resumen en las siguientes tablas: Estudiante (aria %na +osa
3eso 8Hg# = A? > ?
3untaje estandari&ado U R5 desviación estándar ;?#> desviaciones estándar ;5 desviaciones estándar
)e igual manera se obtienen los valores ! i para los valores observados de la variable P Estudiante %ltura 8 cm# 3untaje estandari&ado
P 5C> 5? 5C7
(ar!a %na +osa
U R5#A9 desviación estándar ;?#C desviación estándar R5#99 desviación estándar
.omo se puede distinguir en las tablas anteriores, la unidad de medida que tenga cada variable, no importa, sus valores ! se miden en desviaciones estándar, luego pueden ser comparables# %s! podemos decir, respecto a, la variable peso, que (ar!a se encuentra a una desviación estándar por arriba de la media, mientras que +osa se encuentra a una desviación estándar por debajo de la media# +especto a la variable altura, (ar!a se encuentra a 5#A9 desviaciones estándar por arriba de la media, mientras qué +osa se encuentra a 5#99 desviaciones estándar, también arriba de la media# #
E*emp#o -.53 Los siguientes datos corresponden a las calificaciones de un grupo de estudiantes en el curso de Estad!stica# La media es 9D# la desviación estándar @# #2upóngase que 3edro tiene una calificación de DA# ¿.uál será la ubicación de 3edro en el grupo respecto a su nota"# So#!ción Encontraremos la nota estandari&ada de 3edro, reempla&ando su calificación en la fórmula 89#7A: !
DA 9D #E 5#D # Luego la nota de 3edro se ubica a 5#D @# E
desviaciones estándar
por arriba de la media aritmética#
E*emp#o -.51 )os alumnos rindieron exámenes en los cursos de ra&onamiento matemático ra&onamiento verbal cuas calificaciones medidas importantes se presentan a continuación# *ndividuo (anuel uan
calificaciones originales ra&onamiento ra&onamiento matemático,= verbal,P x5 B7> y5 BC> x 7 B97 y 7 BC?
*ndividuo (edia %ritmética
(edidas +a&onamiento +a&onamiento matemático verbal X B7?#@ Y B 5#9
a ¿En cuál de los dos cursos (anuel obtuvo un S y B 5>#7 S x B A mejor rendimiento" )esviación b ¿En cuál de los dos cursos uan obtuvo un estándar mejor rendimiento" c ¿$uién de los dos alumnos en cuál de los dos cursos obtuvo una mejor ubicación" So#!ción 3ara responder las preguntas planteadas debemos estandari&ar las calificaciones originales las mismas que se presentan a continuación# *ndividuo
calificaciones originales
valores U
(anuel
ra&onamiento ra&onamiento ra&onamiento ra&onamiento verbal matemático,= verbal,P matemático 7> 7?#@ C> 5 #9 x5 B7> y5 BC> ! 5 ?#> w5 0?# 5>#7
A
@? uan
x 7 B97
y 7
BC?
! 7
97 7?#@ A
5#9
@
w7
C? 5#9 5>#7
0?#
>C
a (anuel obtuvo mejor rendimiento en el curso de ra&onamiento verbal, puesto que el valor w5 ?#@? es maor que ! 5 ?#>5# b uan obtuvo mejor rendimiento en el curso de ra&onamiento matemático, puesto que el valor ! 7 5#9@ es maor que w7 ?#>C # cuan obtuvo la mejor ubicación en el curso de ra&onamiento matemático, puesto que el valor ! 7 5#9@ es el maor de todos los puntajes estandari&ados, esto es, la nota de uan está a 5#9@ desviaciones estándar por arriba de la media#
COEICIEN'E DE >ARIACIÓN El coeficiente de variación .O se define como: CV
S X
89#7A
donde: X es la media aritmética S , la desviación estándar ambién se expresa en términos de porcentajes CV
S X
85??F #
89#7@
(ide la dispersión de los datos con respecto a la media# Jrecuentemente se usa para comparar la variabilidad de dos o más conjuntos de datos que están expresados en diferentes unidades# El grupo de datos con maor coeficiente de variación, es el que tiene maor dispersión# 2i las medias aritméticas de los dos grupos son iguales, entonces el grupo que tenga maor desviación estándar será el de maor dispersión o variación#
E*emp#o -.52 El curso de estad!stica se dictó a dos grupos de estudiantes# El grupo 7 reali&ó el curso con el auxilio del softVare 2322 las calificaciones fueron de ? a 7??G mientras que el grupo 5 lo reali&ó con la metodolog!a tradicional las calificaciones fueron de ? a 5??# 4rupo 5:5? 7? 9? D? >? 4rupo 7: ? A> 55? 59> 5? ¿En cuál de los dos grupos la dispersión es maor"# So#!ción En el siguiente cuadro se muestra que las desviaciones estándar son 5>#A5 9@#>9 respectivamenteG sin embargo, no se puede decir que en el segundo grupo existe maor dispersión que en el primero puesto que las calificaciones están en diferentes escalas# 3or lo que usaremos el coeficiente de variación# .
Media
Datos 1 30.0000
Datos 2 110.0000
Desviación estndar
15.81139
"oe#iciente de variación
39.5284!
0.52!
0.359
El coeficiente de variación para el primer grupo es, .O 5B?#>7C8>7#CF para el segundo grupo, .O 7B?#9>@89>#@F, indicando que en el primer grupo existe maor dispersión relativa que en el segundo
E*emp#o -.50btendremos los coeficientes de variación para la variable número de 'ijos del ejemplo 9#9? para la variable edad del ejemplo 9#95# So#!ción Oariable Edad /úmero de 'ijos
(edia aritmética D?#5 7
)esviación estándar @#@5 5#D5
So#!ción a 3ara el número de 'ijos de los estudiantes, el coeficiente de variación toma el valor:
CV
5#D5 7
?#C?> 8C?#>F #
b 3ara la edad de los estudiantes, el coeficiente de variación toma el valor: CV
@#@5 D?#5
?#7DC5 8 7D#C5F
por lo que la variable número de 'ijos es relativamente más dispersa que la variable edad#
E*emp#o -.55 En un colegio de educación especial fue de interés del )irector evaluar la conducta de sus estudiantes a través de las siguientes variables: conducta de aislamiento cuantificado mediante el tiempo que el estudiante permanece aislado en un periodo de 7 'ora, número de participación en clase, reali&ación de tarea medido mediante el porcentaje del tiempo que los ni6os permanec!an 'aciendo la tareas# 0bservó una muestra de 7? estudiantes de quienes se presenta la media la desviación estándar de las variables evaluadas# Es nuestro interés usar dic'os resultados para evaluar la variabilidad de las mismas#
(edidas de posición dispersión (edia
.onducta de aislamiento X B> minutos
Oariables 3articipación en clase Y BC#>A participaciones
+eali&ación de tareas " BCA#9>F
)esviación estándar
S x
BD#C minutos
B7# participaciónes S
y
S !
B5@#9>F
So#!ción 0bservamos que las tres variables están expresadas en diferentes unidades de medida por tanto es pertinente 'acer uso del coeficiente de variación como medida de dispersión para anali&ar la variabilidad de las tres variables# (edidas de posición dispersión .oeficiente de variación
Oariables CV x
BA#>F
CV y
B9>#?@F
CV ! B7D#CF
La variable con menor dispersión relativa o menor coeficiente de variación es la conducta de aislamiento indicando una menor 'eterogeneidad que las variable número de participaciones en clase reali&ación de tareas#
E*emp#o -.58 .on la base de )%025;maestr!a obtenemos la varian&a la desviación estándar para los coeficientes de inteligencia usando los comandos del 2322# So#!ción 2e abre la base de )%025;maestr!a usamos los comandos de la página # Los resultados que proporciona el 2322 para la variable coeficiente de inteligencia son: N &nteli%encia
!0
$an%e 2!
Mean 101.!9
Std. Deviation 6.282
Variante 39.464
media aritmética 5?5#C@ puntos, varian&a 9@#Dpuntos 7, desviación estándar #7A puntos se calcula el valor del coeficiente de variación de la siguiente manera CV
E#7A7 85?? F E#5C '. 5?5 #C@
E*emp#o -.5 .on la base de )%029;educación para las variables: tiempo de servicio de los docentes, edad de los docentes rendimiento promedio de los docentes en el programa de capacitación, encontramos el rango, la varian&a, la desviación estándar el coeficiente de variación, usando los comandos del 2322# So#!ción 2e abre la base de )%029;educación se usan los comandos de la página obtiene la siguiente salida#
N Mean
/edia arit/tica
(D)D D( *+S ,)$-&"&,)N-(S 4!
-&(M,+ D( S($V&"&+ 4!
34.!8
13.9!
se
N+-)S ,$+M(D&+ 4! 11.536!88
Std. Deviation desviación estndar
2.264
2.080
1.3462899
Variance
variana
5.126
4.326
1.812
$an%e
ran%o
9
8
5.2505
3odemos decir que la media aritmética del tiempo de servicio es de 59#@C a6os, la varian&a D#97 a6os 7, la desviación estándar 7#?A a6os el valor del coeficiente de variación es
CV
7#?A 85??F 5D#A@F . 2i calculamos el coeficiente de variación para 59#@C
las otras variables, se tiene que el .#O# para la variable edad de los participantes es igual a #>F, el .#O# para la variable notas promedio es igual al 55#CF# Luego decimos que la variable edad de los participantes tiene los valores más 'omogéneos respecto a la media por tener menor .#O# que las otras variables, a pesar de tener la maor desviación estándar#
MEDIDAS DE ORMA4 ASIME'R;A O SES:O Y C&R'OSIS O AP&N'AMIEN'O ASIME'R;A %demás de las medidas de posición dispersión, es posible obtener otras medidas respecto al grado de asimetr!a de la distribución de frecuencias, porque estas medidas constituen una de las caracter!sticas de importancia de los datos# En la práctica casi nunca se encuentran pol!gonos o 'istogramas perfectamente simétricos, por lo que el grado en el cuál la distribución no es simétrica constitue su sesgo# La asimetr!a de las distribuciones unimodales se mide con el seso de Pearson se define como la diferencia entre la media la moda# 2i la diferencia es positiva decimos que la asimetr!a es positiva gráficamente la curva presenta la cola más larga a la derec'aG si la diferencia es cero la curva es simétricaG si la diferencia es negativa decimos que la asimetr!a es negativa gráficamente la curva presenta la cola más larga a la i&quierda, como se muestra en las siguientes figuras:
Mo Me X
%simetr!a positiva
Mo Me X
X Me Mo
2imétrica
%simetr!a negativa
La medida obtenida depende de las unidades que en cada caso se usen, por lo que para comparar la asimetr!a de dos o más curvas es necesario estandari&ar los sesgos, obteniéndose la siguiente fórmula: 3r ime$ Coefi%ien# e de a sime#$ía a5
X Mo S
89#9?
Este coeficiente de asimetr!a se compara con el valor cero que corresponde a la distribución normal 8 a5 ? # %s! tenemos si: a5 ?
la asimetr!a de la distribución de frecuencias es positiva
a5 ?
la asimetr!a de la distribución de frecuencias es negativa la distribución de frecuencias es simétrica#
a5 ?
En distribuciones que no son mu asimétricas se cumple la siguiente relación emp!rica moda X 9 media ; mediana # 89#95 1sando esta relación, el seso de Pearson se aproxima con la siguiente fórmula: Seg&ndo Coefi%ien# e de a sime#$ía a 7
9 X Me S
89#97 Este coeficiente de asimetr!a se compara con el valor cero que corresponde a la distribución normal 8 a 7 ? # %s! tenemos si: a7 ?
la asimetr!a de la distribución de frecuencias es positiva
a7 ? a7 ?
la asimetr!a de la distribución de frecuencias es negativa la distribución de frecuencias es simétrica#
Coefi%ien# e de asime#$ía de #e$%e$ o$den a 9
xi X
9
Tn
S 9
Este coeficiente de asimetr!a se compara con el valor cero que corresponde a la distribución normal 8a9 ? # %s! tenemos si: a9 ? la asimetr!a de la distribución de frecuencias es positiva a9 ? a9 ?
la asimetr!a de la distribución de frecuencias es negativa la distribución de frecuencias es simétrica#
E*emp#o -.5= 3ara la variable edad de los estudiantes de maestr!a del ejemplo 9#D, se obtuvieron los valores de las siguientes medidas: media B D?#5, mediana B 9A#C> moda B 9C#D desviación estándar B @#@5># 0btendremos el coeficiente de asimetr!a# So#!ción 9 D?#5 9A#C> 9 X Me ?#D?A> , Seg&ndo Coefi%ien# e de 'sime#$ía a 7 B S
@#@5>
por lo tanto la distribución de las edades es moderadamente asimétrica positiva#
C&R'OSIS
El coeficiente de c!rtosis de un conjunto de datos unimodal, es una medida de apuntamiento o aplastamiento de un pol!gono de frecuencias# 2i la curva de frecuencias es mu en punta las observaciones están concentradas al centro se denomina leptocúrtica si es mu plana recibe el nombre de platicúrtica# .urvas con apuntamiento medio reciben el nombre de mesocúrticas# 3earson tuvo el mérito de formali&ar el concepto de curtosis, proponiendo el coeficiente de curtosis de cuarto orden, a D : n xi X D , 89#99 n i 5 aD 9 D S
donde S es la desviación estándar de los datos# n
Este es un coeficiente sin dimensión# En distribuciones normales ,
x
i X
n
i 5
D
vale
S D
aproximadamente 9, resultando a D B?# 3or ello, si a D ? la distribución de frecuencias es leptocúrtica a D ? la distribución de frecuencias es platicúrtica# a D ? la distribución de frecuencias es mesocúrtica# 0tro coeficiente para medir curtosis, en función de los percentiles es el coeficiente de curtosis percent!lico k : 5 Q9 Q5 7 ?#7E9 k P @? P 5?
donde Q9 Q5 es el rango intercuart!lico 5
En distribuciones normales , 7
Q9 Q5
P @? P 5?
k ? #
89#9D P @?
P 5? es el
rango interpercent!lico#
vale aproximadamente ?#79, resultando
3or ello, si: k ? k ? k ?
la distribución de frecuencias es leptocúrtica la distribución de frecuencias es platicúrtica la distribución de frecuencias es mesocúrtica #
En la siguiente figura prepara usando comandos del (%L%Q podemos apreciar las tres formas de distribución de acuerdo al coeficiente de curtosis:
E*emp#o -.56 Las siguientes medidas corresponden a las edades de un grupo de 5?? estudiantes universitarios# Medidas (edia B7#C (ediana B7C (oda B7C )esviación estándarBA#55 .uartel uno B79 .uartel tresB95 3ercentil die&B5> 3ercentil noventaB9A# 3ara saber que forma tiene la distribución, calcularemos los coeficientes de asimetr!a curtosis#
So#!ción a7
9 X Me S
B
9 7#A 7C A#55
?#55A
La distribución tiene una ligera asimetr!a negativa, pero se podr!a decir que es casi simétrica# 5 5 P C> P 7> 95 79 7 7 B ?#79 ?#7 ?#79 ?#?9 k ?#7E9 9A# 5> P @? P 5?
Los valores obtenidos nos indica que la distribución tiene una forma casi mesocúrtica, es decir el mont!culo de la distribución no es mu ac'atada ni mu apuntada#
E*emp#o -.59 .on la base de )%025;maestr!a usando los comandos del 2322 obtenemos los coeficientes de sesgo curtosis # So#!ción 2e abre la base de )%025;maestr!a usando los comandos de la página se tiene: inteli%encia N
Valid Missin%
!0 0
Seness
1.301
rtosis
1.558
El coeficiente de asimetr!a8sesgo toma el valor 5#9 indicando que los datos tienen sesgo positivo, mientras que el valor 5#> para la curtosis, nos indica que estamos frente a una distribución leptocúrtica#
15
10
5
0 95
10 0
10 5
11 0
11 5
inteligencia
Ap#icación Los siguientes datos corresponden a la edad de los pacientes operados por la especialidad de cirug!a en el 'ospital %ngamos del 5 al 5> de agosto del 7??7# f i Edad x i< xi< f i ?;5? > A D? 5?;7? 5> @ 59> 7?;9? 7> 5D 9>? 9?;D? 9> 77 CC? D?;>? D> 7D 5?A? >?;? >> 7? 55?? ?;C? > 57 CA? C?;A? C> 59 @C> A?;@? A> D 99 otal >> Encontrar4 a/ (a media aritmética de #a "aria%#e edad #
X
5
k
x i f i B n <
i 5
%/ (a mediana
>> 57
DD,5Caños
Edad ?;5? 5?;7? 7?;9? 9?;D? D?;>? >?;? ?;C? C?;A? A?;@? otal n
7
57E 7
f i
F i
A @ 5D 77 7D 7? 57 59 D
A 5C 95 >9 F D CC F > @C 5?@ 577 57
E9
%l calcular
n
7
57E 7
E9 , se cumple F i F i F > CC es
el intervalo asociado a que ocupa la posición
n 7
57E 7
5
B >9 K
n E9 7
K
F i BCC,
en este caso
D? , >? , este contiene el valor de la variable
E9 # La amplitud del intervalo es 5? el l!mite
inferior D?# Entonces, el valor de la mediana es: Me Li 5
n F i 5 E9 >9 a i D? 7 CC >9 5? D? D,5 C DD,7 # F i F i 5
El >?F de
los pacientes operados tienen edades inferiores a DD,7 a6os#
c/ (os c!arti#es C!arti# !no: f i Edad ?;5? A 5?;7? @ 7?;9? 5D 9?;D? 77 D?;>? 7D >?;? 7? ?;C? 57 C?;A? 59 A?;@? D otal %l calcular
n D
F i
A 5C 95 F 9 >9 F D CC @C 5?@ 577 57 57E D
95,> se cumple F i
caso el intervalo asociado a
F i F D >9
variable que ocupa la posición
5
B 95 K
n 95,> K F i B D
>9, en este
es 9? , D? , que contiene el valor de la
57E 95,> D
# La amplitud del intervalo es 5? el
l!mite inferior 9?# Entonces, el valor del cuartil uno es
l
n F i 5 D a Q5 Li 5 F i F i 5 i B 95,> 95 ?#> 9? 5? 9? 5? 9? ?#79 9?,7D # >9 95 77
El 7>F de los pacientes
operados tienen edades inferiores a 9?,7D a6os# C!arti# tres4 Edad ?;5? 5?;7? 7?;9? 9?;D? D?;>? >?;? ?;C? C?;A? A?;@? otal
f i
F i
A @ 5D 77 7D 7? 57 59 D
A 5C 95 >9 CC @C 5?@ 577 57
%l calcular
9
n
D
F > F E
57E @D,> se D
este caso el intervalo asociado a
cumple
F i 5 B
CC K 9
F i F @C es >? , E?
variable que ocupa la posición 9
57E @D,> D
n @D,> K F i D
B@C, en
, que contiene el valor de la
# La amplitud del intervalo es 5? el
l!mite inferior >?# Entonces, el valor del cuartil tres es n 9 F i 5 D a Q9 Li 5 F i F i 5 i B @D,> CC 5C,> >? 5? >? 5? >? A,C> >A,C> # @C CC 7?
l
El C>F de los pacientes
operados tienen edades inferiores a >A,C> a6os#
d/ E# Rano +ango x máx x mín
B@?;?B@?
e/ E# Rano interc!art<#ico +ango intercuart!lico B Q9 Q5 B >A,C> ; 9?,7D B 7A,>5 *ndica que la menor edad la maor edad del >?F de los datos que se encuentran ubicados en la parte central, se diferencian en 5? a6os# f/ >arian@a Edad
x i<
f i
x
?;5? 5?;7?
> 5>
A @
;9@#5C ;7@#5C
< i
x
X
< i
X f i 7
577CD#955 C>A#???5
7?;9? 9?;D? D?;>? >?;? ?;C? C?;A? A?;@? otal
7> 9> D> >> > C> A> k
x S 7
< i
5D 77 7D 7? 57 59 D
;5@#5C ;@#5C ?#A9 5?#A9 7?#A9 9?#A9 D?#A9
7
X f i
i 5
n 5
>5DD#ADD 5AD@#@>>A 5AD@#@>>A 5#>99 79D>#CCA 579>#9>> A#9>> >9>7?#A??>
>9>7?,A??> 57E 5
D7A
/ Des"iación est)ndar B D7A B7?,C a6os La dispersión media de las edades de los pacientes respecto a la media es de 7?,C a6os# S
S 7
' E# coeficiente de "ariación de #a edad de #os pacientes sen e# seFo. Edad de #os pacientes "arones operados en e# Gospita# Anamos de# 1 a# 18 de de aosto de# 2332 Edad
x i<
f i
x
?;5? 5?;7? 7?;9? 9?;D? D?;>? >?;? ?;C? C?;A? A?;@? otal
> 5> 7> 9> D> >> > C> A>
D A @ 5A > D D
AA?5,9D 97?9,> 7C@,57 7?,?5 9D,A A75,9D 79>D,D> D?5@,> @>>,> 7@DA@,7
< i
X f i 7
a6os MeBD?,9 a6os S ( B >?A a6os 7 S B79 a6os .O B?,>99? 8>9,9?F X D7,?E
Edad de #as pacientes m!*eres operada en e# Gospita# Anamos de# 1 a# 18 de de aosto de# 2332