ESTADISTICA ESTADISTICA DESCRIPTIV DESCRIPT IVA A
DATOS DATOS SIN AGRUPAR AGRUPAR
Consideramos una muestra de tama˜ no no n de cierta poblaci´on, on, que simbolizamos x1 , x2 , x3, . . . xn . La misma muestra muestra ordenada de valores menores a valores mayores mayores es anotada por x (1) x(2) x(3) En particular, x(1) es el valor m´ınimo observado obser vado y x(n) es el valor m´aximo aximo observado.
≤
≤
≤ · · · ≤ x( ). n
´ O DE LOCACION: ´ media, mediana, moda, cuantiles 1. MEDIDAS MEDIDAS DE CENTRALIDAD, CENTRALIDAD, DE POSICION ´ (a) MEDIA o PROMEDIO PROMEDIO ARITM ARITMETICO:
X =
1 n
n
�
xi .
i=1
Siempre existe. No tiene por p or qu´e ser un valor observado observado en la muestra. Es tratable matem´ mat em´ aticamente, Se encuentra entre los valores m´ m´ınimo y m´ aximo observados. es muy sensible a los valores extremos aximo de una muestra (no es una medida robusta). Es indiferente a los valores sensibles de la muestra (es una medida robusta).
� x(
(b) MEDIANA: MEDIANA:
M e = q 2 =
+1 2
n
si n es impa imparr
),
1 parr x + x( +1) , si n es pa 2 2 (2) No tiene por qu´e ser un valor observado en la muestra. Es dif´ dif´ıcilmente tratable trat able matem´ aticamente. Se encuentra encu entra entre los valores valor es m´ınimo ınimo y m´ aximo observados. Divide la muestra en el 50% de los valores aximo observados. n
n
�
(c) MODA: MODA: es el valor valor m´as as observado de la muestra, el valor m´as as frecuente.Se calcula por observaci´ on. on. No es tratable matem´ aticame aticamente nte.. No siempre siempre existe existe y cuando existe existe no es siempre siempre unica; ´ las distribuciones con m´as as de una moda se llaman distribuciones multimodales. Es indiferente a los valores sensibles de la muestra (es una medida robusta). (d) CUANTI CUANTILES: LES: separan separan la muestr muestraa en una proporci´ proporcion o´n p a su izquierda y una proporci´on on 1 derecha. x( p) = bx (k+1) + (1
− p a su
− b)x( ) k
siendo p = el porcentaje que se quiere dejar a la izquierda 1 p + t = n 100 2 k = [t] = parte entera de t (k t k + 1) b = t k = parte decinal de t (0 b < 1)
≤ ≤ ≤
−
Cuando se separa la muestra en 4 grupos de 25% de la misma se llaman CUARTILES; cuando se separa la muestra en 4 grupos de 12,5% se llaman OCTILES; cuando se separa la muestra en 10 grupos de 10% se llaman DECILES y cuando se separa la muestra en 100 grupos de 1% de llaman PERCENTILES. Casos especiales: especiales: p = 25 quad x(25) = q 1 (primer cuartil) p = 50 quad x(50) = q 2 (segundo cuartil o mediana) p = 75 quad x(75) = q 3 (tercer cuartil)
• • •
´ O DE VARIABIL 2. MEDIDAS MEDIDAS DE DISPERSI DISPERSION VARIABILIDAD: IDAD: rango, rango , diferencia difer encia intercua int ercuart rt´´ılica, varianza y desviaci´ des viaci´on on t´ıpica (a) RANGO: RANGO: x(n)
− x(1),
diferen diferencia cia entre entre la observ observaci aci´ on o´n m´ axima axima y la observaci´on on m´ınim ın ima. a.
(b) DIFERENCIA INTERCUAR INTERCUART´ILICA: q 3
− q 1, encierra el 50% central de las observaciones.
(c) VARIANZA SIN CORREGIR O SESGADA: n 2 n 2 1 ( ni=1 xi ) 2 2 i=1 xi 2 = S = σ n = xi X = 2 n
�� − � ∑ i=1
∑ −
n
n
∑
n i=1
x2i
n
− X 2
(d) VARIANZA CORREGIDA O INSESGADA: 2
2
n
�� − � ∑ − √ � � � √ − √ � � � √ − −
s = σ n−1 =
1
1
n
xi
X
2
=
n
n i=1
i=1
2
n
x2i ( i=1 xi ) = n(n 1)
− −
∑
∑
n i=1
2
x2i nX n 1
− −
´ ESTANDAR ´ (e) DESV´IO O DESVIACION O T´IPICA SIN CORREGIR O SESGADA: S = σ n =
n
1
S 2 =
n
xi
X
2
i=1
´ ESTANDAR ´ (f) DESV´IO O DESVIACION O T´IPICA CORREGIDA O INSESGADA: s = σ n−1 =
s2 =
n
1
n
1
xi
X
2
i=1
DATOS AGRUPADOS
Consideramos una muestra de tama˜ no n de cierta poblaci´on, que simbolizamos x1 , x2 , x3 , . . . xn . Se agrupan los datos en K clases (intervalos). Se recomienda que la cantidad K de clases est´e entre 5 y 20. Es recomenable que la longitud de las clases sean iguales pero NO ES OBLIGATORIO. Si una clase intermedia quedara vac´ıa, habr´ a que juntarla con alguna de las clases contiguas aunque se sacrifique la longitus igual de las clases. Emplearemos las siguientes notaciones. f k es la frecuencia (o cantidad de observaciones) de la clase k ´esima, CON 1 k K esima, esto es el punto medio de esta clase. ck o mk es la marca de la clase k ´
−
−
≤ ≤
K
Se debe cumplir que la suma de las frecuencias de clase es n, o sea,
�
f k = n .
k=1
´ O DE LOCACION: ´ media, mediana, moda, cuantiles 1. MEDIDAS DE CENTRALIDAD, DE POSICION ´ (a) MEDIA o PROMEDIO ARITMETICO:
X =
1 n
K
�
ck .f k .
k=1
(b) MEDIANA: se identifica primero la clase mediana, o sea, la clase que acumula en ella el 50% de las observaciones. n ( f k )
− ∑ f q2
siendo Lq2 el l´ımite inferior de la clase mediana ( f k )
• • • •
∑
(c) MODA: se identifica prmero la clase modal, o sea, la clase que tiene mayor frecuencia (si es que existe)- Se procede de manera similar al del c´ alculo de la mediana. ∆1 M o = L modal + .longmodal ∆1 + ∆ 2 siendo Lmodal el l´ımite inferior de la clase modal ∆1 la diferencia entre la frecuencia de la clase modal y la frecuencia de la clase inmediata anterior ∆2 la diferencia entre la frecuencia de la clase modal y la frecuencia de la clase inmediata posterior longmodal la longitud de la clase modal.
�
• • • •
�
(d) CUANTILES: Daremos, a modo de ejemplo, el c´ alculo de los cuartiles. Estas f´ormulas pueden extenderse de manera similar para calcular cualquier cuantil deseado. i. PRIMER CUARTIL: se identifica primero la clase que contiene el primer cuartil, o sea, la clase que acumula en ella el 25% de las observaciones. n ( f k )
− ∑ f q1
siendo Lq1 el l´ımite inferior de la clase que contiene al primer cuartil ( f k )
• • • •
∑
ii. TERCER CUARTIL: se identifica primero la clase que contiene al tercer cuartil, o sea, la clase que acumula en ella el 75% de las observaciones. 3 n ( f k )
q3
−∑
q3
f q3
siendo Lq3 el l´ımite inferior de la clase que contiene al tercer cuartil ( f k )
• • • •
∑
´ O DE VARIABILIDAD: rango, diferencia intercuart´ılica, varianza y desviaci´on 2. MEDIDAS DE DISPERSION t´ıpica (a) RANGO: x(n)
− x(1),
diferencia entre la observaci´ on m´axima y la observaci´on m´ınima.
(b) DIFERENCIA INTERCUART´ILICA: q 3 (c) VARIANZA:
2
2
S = σ =
1 n
K
− q 1, encierra el 50% central de las observaciones. 2
�� − � ck
X .f k
k=1
´ ESTANDAR ´ (d) DESV´IO O DESVIACION O T´IPICA: S = σ = OTRAS MEDIDAS
√ 2
S =
� � � − K
1
n
ck
X
2
.f k
k=1
3. MEDIDAS DE ASIMETR´IA: (a) Relaci´ on entre media, mediana y moda Si la media, la mediana y la moda coinciden, la distribuci´on de los datos es sim´etrica o insesgada. Este hecho es pr´ acticamente imposible de roducirse con datos reales. Si X < Me < Mo, la distribuci´on de los datos presenta una asimetr´ııa o un sesgo hacia la izquierda. Si Mo < Me < X , la distribuci´on de los datos presenta una asimetr´ııa o un sesgo hacia la derecha. (b) COEFICIENTE DE ASIMETR´IA: S k
• • •
Para datos sin agrupar S k =
1 n
n
�� − � i=1
xi
X
S 3
3
y para datos agrupados S k =
1 n
K
�� − � k=1
ck
3
X .f k
S 3
• Si S = 0, la distribuci´on de los datos es sim´etrica o insesgada. • Si S < 0, la distribuci´on de los datos presenta una asimetr´ııa o un sesgo hacia la izquierda. • Si S > 0, la distribuci´on de los datos presenta una asimetr´ııa o un sesgo hacia la derecha. k k k
4. MEDIDA DE APUNTAMIENTO: curtosis Esta medida, la curtosis, permite determinar si la distribuci´ on de los datos es m´as aplastada 0 es m´ as puntuda que la distribuci´on normal. Para datos sin agrupar
Curtosis =
y para datos agrupados Curtosis =
1 n
n
4
�� − � − �� − � − 1
n
K
k=1
i=1
ck
xi
X
S 4
3
4
X .f k
S 4
3
• Si K = 0, la distribuci´on de los datos es mesoc´urtica (similar a una distribuci´on normal). • Si K < 0, la distribuci´on de los datos es platoc´urtica (m´as aplastada que una distribuci´on normal). • Si K > 0, la distribuci´on de los datos es leptoc´urtica (m´as puntuda que una distribuci´on normal).