ESTADÍST ESTADÍSTICA ICA DESCRIPT DESCRIPTIVA IVA Y NOCIONES NOCIONES DE PROBABILI PROBABILIDAD DAD
24
a) b) c) d) e) f)
1.4
Determinar Determinar la variable variable objeto de estudio estudio así como como su dominio. dominio. Obtene Obtenerr la tabla tabla de frecue frecuenci ncias as tanto tanto absolu absolutas tas como relativ relativas as (ordin (ordinari arias as y acumuladas). Determinar Determinar el número número de clientes clientes que tienen 5 productos productos contratado contratadoss y el porcentaje con menos de 6. El número número de clientes clientes que tienen tienen más de 3 producto productoss y el porcent porcentaje aje con 4 o menos. Porcentaje Porcentaje de clientes que tienen tienen contratados contratados entre 4 y 5 productos productos (ambos inclusive). Dibuja Dibujarr el diagrama diagrama de barras barras y el diagrama diagrama en escaler escaleraa (utili (utilizar zar las frecue frecuenncias absolutas y relativas).
Los 75 clientes clientes de la sucursal sucursal bancaria bancaria del problema problema anterior anterior presentan los siguiensiguientes saldos trimestrales (en e) en sus cuentas corrientes o de ahorro:
a) b) c) d) e) f)
Saldo trimestral (e)
Número clientes
[0 , 600[
10
[600 , 1.200[
15
[1.200 , 1.800[
35
[1.800 , 3.000[
10
[3.000 , 6.000]
5
Determinar Determinar la variable variable objeto objeto de estudio. estudio. Calcular Calcular la amplitud de los los intervalos intervalos y las marcas marcas de clase. El número número de clientes con un saldo saldo trimestral trimestral entre entre 1.200 y 1.800 1.800 e, y el porcentaje de clientes con saldo igual o superior a 1.200 e ¿Cuá ¿Cuánt ntos os clie client ntes es tien tienen en en sus sus cuen cuenta tass un sald saldo o trim trimes estr tral al entr entree 600 600 y 1.800 e (ambos inclusive)? Dibujar Dibujar el histograma histograma y polígono polígono de de frecuencias. frecuencias. Representar Representar el polígono polígono de de frecuencias frecuencias acumulativo acumulativo..
7 ITES-Paraninfo
Tema
Análisis de datos unidimensionales
2.1. 2.2. 2.3. 2.4. 2.5. 2.6.
Medidas de posición. Medidas de dispersión. Momentos. Medidas de forma. Transformaciones Transformaciones lineales y tipificación de de variables. Medidas Medidas de concentrac concentración. ión. Curva Curva de Lorenz e índice de Gini. Gini.
Cuestiones de autoevaluación. Ejercicios propuestos. Problemas resueltos. Problemas propuestos.
OBJETIVOS
Definir una serie de medidas (estadísticos descriptivos básicos) que sintetice teticen n la inform informaci ación ón conten contenida ida en una distri distribuc bució ión n de frecue frecuenci ncias as unidimensional, tanto de valores agrupados como sin agrupar, y aprender a calcularlos e interpretarlos. Comparar la dispersión entre dos o más variables o distribuciones de frecuencias. Estudiar cómo se ven afecta afectados dos los estadí estadíst stico icoss al transf transform ormar ar los datos datos de una variab variable. le. Cuantificar e interpretar la concentración de una distribución.
26
ESTADÍST ESTADÍSTICA ICA DESCRIPT DESCRIPTIVA IVA Y NOCIONES NOCIONES DE PROBABILI PROBABILIDAD DAD
2.1. Medidas Medidas de posición posición En general, las medidas de posición indican un valor de la variable en torno al cual se sitúan un grupo de observaciones. Puede distinguirse entre: a)
Medida Medidass de tenden tendencia cia centra central: l: media media aritmét aritmética ica,, armónic armónica, a, geométr geométrica ica,, mediana y moda.
b)
Medidas Medidas de tendencia tendencia no central: central: cuantiles. cuantiles.
A continuación se abordan los principales detalles conceptuales y de aplicación de cada una de las medidas referidas anteriormente.
2.1.1. 2.1.1. Media aritmética aritmética(1) Es la suma de todos los valores de la variable divididos por el número total de x 6. observaciones. Se denota por 6 N
; 6 6 % x
i
I
xi
1
%
N
o
x1n1 ! x2n2 ! ñ ! x I n I
6 x 6 %
N
; %
i
xi ni
1
%
N
I
; x f
%
i
i
i
1
%
Evidentemente, esta medida sólo se puede calcular si la variable estadística ob jeto de estudio es de naturaleza cuantitativa. El valor que toma la media debe estar siempre incluido entre el valor mínimo y máximo del dominio de la variable analizada.
Ejemplo 2.1 La plantilla plantilla de una empresa empresa durante durante los últimos últimos 4 meses ha estado estado formada por 16, 14, 15 y 15 empleados. Determinar la plantilla media de la empresa. Solución A partir de la información proporcionada, construimos la distribución de frecuencias. La variable toma I % 3 valores distintos ( xi para i % 1, 2, 3), con frecuencias 1, 2 y 1, respetivamente.
(1)
xi
ni
14
1
15
2
16
1
Este es, con diferencia, diferencia, el estadístico estadístico (cualquier (cualquier función de los valores de la variable) más imporimportante. En adelante, cuando se haga referencia referencia al término media, sin especificar especificar,, deberá entenderse entenderse media aritmética.
7 ITES-Paraninfo
ANÁLISIS ANÁLISIS DE DATOS UNIDIMENSIONALES UNIDIMENSIONALES
27
Si se añade una tercera columna que recoja, para cada elemento, el producto xi ni, su suma se corresponderá con el numerador de la expresión de la media, de manera que se obtendrá al dividir por el número total de observaciones ( N ), ), en este caso N 4. %
xi
ni
xi ni
14
1
14
15
2
30
16
1
16 3
60
;
p
i
xi ni
1
%
x 6 La media será: 6
60 %
%
15, es decir, la plantilla media de la empresa en los
4 últimos 4 meses ha sido de 15 empleados. 6 6 15) se encuentra Obsérvese que la media de empleados ( x encuentra comprendid comprendidaa entre el mínimo valor de la variable ( x1 14) y el máximo ( x3 16). %
%
%
Si la distribución de frecuencias con la que se trabaja es de datos agrupados, para poder calcular la media se toman, a modo de aproximación a los valores de la variable, las marcas de clase correspondientes a cada uno de los intervalos, lo que supondrá una pérdida de precisión, que será tanto mayor cuanto mayor sea la amplitud de los mismos.
Ejemplo 2.2 De un total total de 10 asignatu asignaturas ras optativ optativas as se ha tomado tomado el número número de alumalumnos matriculados en cada una de ellas, obteniéndose la siguiente distribución de frecuencias. Alum Alumno noss matr matric icul ulad ado os Li.1 , Li
Núme Número ro opta optati tiva vass
[10 , 20[
4
[20 , 40]
6
ni
¿Cuál es el número medio de alumnos matriculados?
Solución
6 6), Para calcular la media de alumnos matriculados ( x ), lo primero es determinar la marca de clase ( xi, i 1, 2) de cada intervalo. Seguidamente se añade una columna que recoja el producto xi ni y se suma. %
7 ITES-Paraninfo
28
ESTADÍSTICA DESCRIPTIVA Y NOCIONES DE PROBABILIDAD
Alumnos matriculados Li.1 , Li
Número optativas
Marca de clase
ni
xi
[10 , 20[
4
15
60
[20 , 40]
6
30
180
xi ni
2
240
;
p
i
xi ni
1
%
Al dividir este resultado entre el número total de observaciones ( N tiene la media, 240 6 x 24 alumnos matriculados 10 %
%
10) se ob-
%
La media aritmética puede utilizarse si los datos con los que se trabaja son de naturaleza aditiva, es decir, que al sumar todos los valores, estos representen el total de la población. Variables aditivas son, por ejemplo, el número de empleados, la renta, el salario, etc. Por el contrario, variables no aditivas son: tipos de interés, velocidad, rentabilidad, etc. Entre las principales ventajas que presenta la media se pueden destacar las siguientes: Se puede calcular siempre que las variables sean de tipo cuantitativo. Su cálculo resulta fácil y en él intervienen todos los valores de la distribución. La media aritmética es el centro de gravedad de la distribución, es decir, es el punto que por término medio dista menos de todas las observaciones de la distribución. Es una medida única y definida de forma objetiva en cada distribución de frecuencias. En cuanto a los inconvenientes, tal vez el más importante sea que la media aritmética de la distribución puede llegar a ser muy poco representativa del conjunto de los valores observados si existe mucha dispersión en los datos. Se trata de una medida muy sensible a los valores extremos(2).
Ejemplo 2.3 Para un total de 4 empresas se dispone de información relativa al tamaño, medido a través del activo (millones de e): 500, 25, 30, 545 ¿Cuál es el tamaño medio del conjunto de las empresas? (2)
En este sentido se dice que la media no es un estadístico (medida) robusto.
7 ITES-Paraninfo
ANÁLISIS DE DATOS UNIDIMENSIONALES
29
Solución
6) se obtiene al sumar todos los valores de la variable y diviEl tamaño medio ( x dir por el número de observaciones (empresas), así: 6 % x
25 ! 30 ! 500 ! 545 4
%
1.100 4
% 275
millones de
e
Como se pone de manifiesto en el ejemplo anterior, los valores del activo son muy diferentes entre sí, con lo que la media (275 millones de e) será poco representativa. Cuando ocurre esto, es preferible utilizar otras medidas de posición central, por ejemplo la mediana (véase Epígrafe 2.1.2.). Con todo, la media aritmética es la medida de posición central más utilizada, de la que cabe destacar las siguientes propiedades: 1.
La suma de las desviaciones de todos los valores de la variable respecto a su media es cero. I
; ( xi . x 6)ni % 0 i
2.
Si x 6i (i % 1, 2, ..., k ) corresponden a las medias de k grupos distintos de tamaño N i (i % 1, 2, ..., k ), respectivamente, se cumple que la media aritmética del conjunto es:
6 % x 3.
1
%
61 N 1 ! x 62 N 2 ! ñ ! x 6k N k x N 1 ! N 2 ! ñ N k
Depende de los cambios de origen y de unidad (véase Apartado 2.5).
Ejemplo 2.4 En una empresa de fabricación de muebles, el departamento de control de calidad ha inspeccionado cada hora, durante las 3 últimas, un total de 6, 8 y 6 muebles respectivamente, encontrando en cada una de ellas un número medio de defectos de 3, 5 y 2. Determinar el número medio de defectos del total de muebles inspeccionados. Solución Aplicando la segunda propiedad de la media:
6 % x
61 N 1 ! x 62 N 2 ! x 63 N 3 x N 1 ! N 2 ! N 3
%
3·6!5·8!2·6 6!8!6
% 3,5
defectos
7 ITES-Paraninfo
30
ESTADÍSTICA DESCRIPTIVA Y NOCIONES DE PROBABILIDAD
2.1.2. Media armónica y geométrica La media armónica, que se denota por
M h,
se define como:
N M h %
1 x1
n1 !
1
N
n2 ! ñ !
x2
% I
1
;
n I
x I
i
1
1 xi
· ni
%
siendo: I
;
N % i
ni
1
%
En el caso particular de que las frecuencias fuesen unitarias, esto es, entonces: I M h % I
; i
ni % 1 O i,
1
I xi
%
Además, a la hora de calcular la media armónica suele utilizarse que la inversa de la media armónica es la media aritmética de los valores inversos de la variable, esto es: I
1 M h
;
%
1
·
ni
1 xi N
i
%
Por su parte, la media geométrica, que es empleada cuando las variables son de naturaleza multiplicativa en el sentido, por ejemplo, que los intereses generan nuevos intereses o cuando el incremento salarial se efectúa sobre el anterior y no sobre uno fijo, se denota por M g y se define como: M g %
∂ x
N
n1 1
n2
· x 2 ·...· x I n I %
J
I
N
< x ni
i
i
1
%
En el caso particular de que las frecuencias fuesen unitarias ( ni % 1 ces se tienen: M g %
∂ x I
1
J <
O i),
enton-
I
· x2 ·...· x I %
I
i
xi
1
%
Además, a la hora de calcular la media geométrica suele utilizarse que el logaritmo de la media geométrica que es igual a la media aritmética de los logaritmos de los valores de la variable, esto es: I
; log( xi) ·
log M g % i
1
%
7 ITES-Paraninfo
ni N
ANÁLISIS DE DATOS UNIDIMENSIONALES
31
De la misma forma que se indicó para la media aritmética, el valor que tome la media armónica y la media geométrica (3) debe estar siempre incluido entre el valor mínimo y máximo del dominio de la variable analizada.
2.1.3. Mediana Ordenada la distribución de frecuencias de menor a mayor, la mediana, que se denota por Me, es un valor del recorrido de la variable que deja el mismo número de observaciones a su izquierda y a su derecha. Para el cálculo de la mediana es necesario distinguir entre distribuciones de frecuencias de valores sin agrupar y agrupados, pero la idea que siempre hay que tener presente es que la mediana es aquel valor de la variable al que corresponde . una frecuencia acumulada igual a N /2
2.1.3.1. Distribuciones de frecuencias de valores sin agrupar Al trabajar con valores sin agrupar hay que considerar varias posibles situaciones (Figura 2.1). Cada una de éstas será tratada a continuación. Número impar de observaciones Frecuencias unitarias Número par de observaciones
Distribución de frecuencias de valores sin agrupar
Frecuencias no unitarias Figura 2.1.
Situación 1.
Distribución de frecuencias unitarias
Si el número de observaciones es impar, el valor de la mediana coincidirá con el valor xi (Me % xi) que deje a derecha e izquierda el mismo número de observaciones. Si el número de observaciones es par, entonces el valor de la mediana se obtendrá como la media del valor (4): Me %
xi ! xi!1
2
.
(3)
Se podría comprobar que la media armónica, geométrica y armónica guardan la siguiente rela 6. ción: M h m M g m x (4) Este es el criterio que se utilizará. Otros criterios consideran que son válidos ambos valores, esto es, Me % xi y Me % xi!1, o incluso cualquier valor comprendido entre los anteriores.
7 ITES-Paraninfo
32
ESTADÍSTICA DESCRIPTIVA Y NOCIONES DE PROBABILIDAD
Ejemplo 2.5
Una variable estadística X toma los siguientes 7 valores distintos: 1, 3, 5, 6, 7, 8, 12
Determinar la mediana.
Solución Puede verse fácilmente que el valor de la variable de observaciones, un total de 3, a cada lado. 1, 3, 5
6
VWX
xi % 6
deja el mismo número
7, 8, 12 VWX
Por tanto, el valor de la mediana es: Me % xi % 6
Ejemplo 2.6 Obtener la mediana de una variable estadística que toma los siguientes 6 valores distintos: 9, 2, 5, 3, 6, 8,
Solución En este caso, lo primero que debe hacerse es ordenar la distribución de frecuencias de menor a mayor. 2, 3, 5 6, 8, 9 El valor de la variable que deja el mismo número de observaciones a ambos lados, la mediana, se sitúa entre 5 y 6. Así: Me %
Situación 2.
5!6 2
% 5,5
Distribución de frecuencias no unitarias
Cuando la distribución de frecuencias es no unitaria, se suele utilizar el siguiente criterio para determinar el valor de la mediana: sea N i la primera frecuen , entonces: cia absoluta acumulada igual o superior a N /2
D N a N a N i A i.1 2 si E N A N i % F 2 7 ITES-Paraninfo
ú
Me % xi
ú
Me %
xi ! xi!1
2
ANÁLISIS DE DATOS UNIDIMENSIONALES
Ejemplo 2.7
33
Obtener la mediana de la siguiente distribución de frecuencias. xi
ni
N i
2
3
3
3
2
5
5
3
8
Solución N
La mitad de las observaciones corresponde a
% 4. El valor de la variable que 2 contiene una frecuencia acumulada de 4 es x2 % 3, con N 2 % 5.
xi % x2 r
xi
ni
N i
2
3
3
p
N i.1 % N 1
3
2
5
p
N i % N 2
5
3
8
N
Por tanto, como
Ejemplo 2.8
N 1 a
2
a N 2 r
3 a 4 a 5 entonces Me % x2
r
Me % 3.
Obtener la mediana de la siguiente distribución de frecuencias. xi
ni
N i
3
3
3
4
2
5
6
5
10
Solución N
El valor de la variable que acumula un número de observaciones igual % 5 2 es x2 % 4. xi
ni
N i
3
3
3
xi % x2 r
4
2
5
xi!1 % x3 r
6
5
10
N
Por tanto, como N 2 % 5 %
se tendrá que Me %
2 La mediana de la distribución es 5.
p
N i % N 2
xi ! xi!1
2
r
Me %
4!6 2
% 5.
7 ITES-Paraninfo
34
ESTADÍSTICA DESCRIPTIVA Y NOCIONES DE PROBABILIDAD
2.1.3.2. Distribuciones de frecuencias agrupadas Este caso tiene menos interés, pues actualmente no se suele trabajar con datos agrupados, dado que la informática permite manejar mucha información sin necesidad de perder parte de ella en agrupaciones. El problema se resuelve obteniendo en primer lugar el llamado intervalo mediano, el primero cuya frecuencia absoluta acumulada N i alcanza o sobrepasa N / 2. N
Es decir,
m N i . 2 Para precisar el valor de la variable que corresponde a la mediana (5) se supone que la frecuencia correspondiente al intervalo se distribuye uniformemente y por reparto proporcional se obtiene el valor buscado. N i.1 a
Ejemplo 2.9 El número de proyectos de mejora propuestos por los 20 círculos de calidad existentes en una empresa han sido agrupados de la siguiente forma: Proyectos de mejora
Círculos de calidad
Li.1 , Li
ni
[8 , 12[
2
[12 , 16[
6
[16 , 20[
8
[20 , 24]
4
Determinar el intervalo mediano.
Solución Para saber en qué intervalo estará incluida la mediana lo primero es insertar una columna que represente la frecuencia absoluta acumulada ( N i), tal y como se refleja en la siguiente tabla.
Proyectos de mejora
Círculos de calidad
Li.1 , Li
ni
[8 , 12[
2
2
[12 , 16[
6
8
p
N i.1% N 2
[16 , 20[
8
16
p
N i% N 3
[20 , 24]
4
20
N i
N / 2 . N i Identificado el intervalo mediano, Me % Li.1 ! ci · , donde N i . N i.1 valo mediano y Li.1 su extremo inferior. (5)
7 ITES-Paraninfo
ci es
la amplitud del inter-
ANÁLISIS DE DATOS UNIDIMENSIONALES
35
N
Como la mediana es el valor de la variable que acumula
observaciones, ésta
2 estará contenida en el intervalo [16 , 20[, que es el intervalo mediano, puesto que N N 2 a
2
N
m N 3 ,
es decir, 8 a
2
%
10 m 16.
2.1.4. Moda La moda de una distribución, a la que se denotará por Mo, representa el valor de la variable con mayor frecuencia. No tiene por qué ser única. Es decir, si hay dos o más valores de la variable que tienen la misma frecuencia, siendo esta la mayor, se estará ante una distribución multimodal (bimodal, dos modas; trimodal, tres modas; etc.). Del mismo modo que se procedió con la mediana, para determinar la moda debe distinguirse entre distribuciones de valores sin agrupar y agrupados.
2.1.4.1. Distribuciones de frecuencias de valores sin agrupar En este caso, y según la definición de la moda, hay que fijarse en cuál es el valor de la variable que más se repite, el de mayor frecuencia.
Ejemplo 2.10 Se ha preguntado a 15 estudiantes por el número de horas semanales dedicadas al estudio, recogiéndose sus respuestas en la siguiente distribución de frecuencias. Horas semanales de estudio, xi
Número de estudiantes, ni
2
1
3
4
5
8
7
2
Obtener la moda del número de horas de estudio.
Solución La moda es 5 (Mo 5), puesto que es el valor de la variable con mayor frecuencia. Un total de 8 estudiantes dedican 5 horas a estudiar. %
7 ITES-Paraninfo
36
ESTADÍSTICA DESCRIPTIVA Y NOCIONES DE PROBABILIDAD
Ejemplo 2.11 Se ha preguntado a 5 estudiantes por el número de horas semanales dedicadas al estudio, siendo sus respuestas: 0, 2, 4, 5, 8 Obtener la moda del número de horas de estudio.
Solución En esta distribución todos los valores de la variable se considerarían modas pues ni 1 O i. %
2.1.4.2. Distribuciones de frecuencias de valores agrupados Cuando se trabaja con valores agrupados en intervalos, lo más sencillo para determinar el valor modal consiste en dibujar el histograma. La moda estará contenida en el intervalo de mayor altura, al que se denomina intervalo modal.
Ejemplo 2.12 plo 2.9.
Obtener el intervalo modal de la distribución de frecuencias del Ejem-
Solución Para determinar el intervalo modal se añade una columna que recoja la altura (hi ) asociada a cada intervalo. En este ejemplo todos los intervalos tienen la misma amplitud (ci 4), por lo que el intervalo de mayor frecuencia será el que tenga mayor altura y, por tanto, el intervalo modal. %
Proyectos de mejora,
intervalo modalr
Li.1
,
Círculo Li
de calidad,
ni
hi
ni %
ci
[8 , 12[
2
1/ 2
[12 , 16[
6
3/ 2
[16 , 20[
8
2
[20 , 24]
4
1
mayor altura
p
Así pues, la moda estará contenida en el intervalo [16 , 20[. Existen casos en los que, sin necesidad de realizar ningún cálculo, es posible aproximar el valor que toma la moda en el intervalo modal. Así, en la Figura 2.2, Gráfica (a), puede observarse cómo, si los intervalos anterior y posterior al intervalo modal tienen la misma altura, la moda coincidirá con la marca de clase. En cambio, si el intervalo posterior al modal es de mayor altura que el anterior, 7 ITES-Paraninfo
ANÁLISIS DE DATOS UNIDIMENSIONALES
37
Figura 2.2.
Gráfica (b), la moda se desplaza hacia la derecha de la marca de clase, coincidiendo su valor con el límite superior del intervalo modal cuando la altura del anterior al mismo sea cero, como puede verse en la Gráfica (c). De forma análoga, la moda coincidirá con el extremo inferior del intervalo modal cuando la altura del intervalo posterior a éste sea cero, Gráfica (d). Siguiendo con el criterio anterior de aproximar el valor de la moda en proporción inversa a las alturas de los rectángulos del histograma anterior y posterior al modal, se recurre a la siguiente expresión: Mo % Li.1 ! ci ·
hi!1
(2.1)
hi.1 ! hi!1
donde ci es la amplitud del intervalo modal, Li.1 su extremo inferior; tura asociada al intervalo anterior al modal y hi!1 a la del posterior.
hi.1 es
la al-
Ejemplo 2.13 En la siguiente distribución de frecuencias se refleja la retribución mensual de los 260 empleados del área de fabricación de una gran empresa industrial. Retribución (e) Li.1 , Li
Número de empleados
[800 , 1.000[
50
[1.000 , 1.400[
100
[1.400 , 1.800[
80
[1.800 , 2.100]
30
ni
¿Cuál es la retribución más frecuente en esta área funcional? 7 ITES-Paraninfo
38
ESTADÍSTICA DESCRIPTIVA Y NOCIONES DE PROBABILIDAD Solución
Como fácilmente puede observarse en la distribución de frecuencias del enunciado, los intervalos son de distinta amplitud. En consecuencia, y a diferencia del Ejemplo 2.12, el intervalo al que corresponde mayor frecuencia no necesariamente tiene que ser el que tenga mayor altura asociada. Añadiendo a la tabla dos nuevas columnas que recojan la amplitud ( ci) y altura (hi) de cada intervalo:
Retribución (e) Li.1 , Li intervalo modal r intervalo modal r
Número empleados
ni
ci
hi % ci
50
200
0,25
p
mayor altura
[1.000 , 1.400[
100
400
0,25
p
mayor altura
[1.400 , 1.800[
80
400
0,2
[1.800 , 2.100]
30
300
0,1
ni
[800 , 1.000[
Como puede verse en la tabla anterior, en este caso existen dos modas (la distribución es bimodal), la primera estará incluida en el intervalo [800 , 1.000[ y la segunda en [1.000 , 1.400[. Sin necesidad de realizar ningún cálculo, podría decirse que la primera moda será 1.000, puesto que la altura del intervalo anterior al modal es cero. En cambio, respecto a la segunda, como el intervalo anterior a [1.000 , 1.400[ es de mayor altura que el posterior, sólo puede decirse que su valor se encontrará ligeramente por debajo de la marca de clase ( x2 % 1.200). Una mejor aproximación al valor de la moda puede obtenerse con la expresión dada en (2.1). 0,25
Moda 1:
Mo % 800 ! 200 ·
Moda 2:
Mo % 1.000 ! 400 ·
0 ! 0,25
% 1.000
0,2 0,25 ! 0,2
% 1.177,78
Por tanto, las retribuciones más frecuentes en el área de fabricación de esta empresa son 1.000 e y 1.177,78 e.
2.1.5. Cuantiles Ordenados de menor a mayor los valores de la variable y dado un entero positivo k , las familias de cuantiles serán valores del recorrido de la variable que dividirán la distribución en k partes, conteniendo cada una de ellas la misma proporción 1 de observaciones .
AB k
7 ITES-Paraninfo
ANÁLISIS DE DATOS UNIDIMENSIONALES
39
Las familias de cuantiles más utilizadas son aquellas que dividen la distribución de frecuencias en cuatro, diez y cien partes y se conocen con el nombre de cuartiles, deciles y percentiles, respectivamente: a)
Cuartiles (k % 4): son tres valores (C s, s % 1, 2, 3) del recorrido que divi1 den la distribución en 4 partes, conteniendo cada una de ellas el 25% 4 de las observaciones. Deciles (k % 10): son nueve valores del recorrido ( Ds, s % 1, 2, ..., 9) que dividen la distribución en 10 partes, de tal forma que cada una de ellas 1 contendrá el 10% de las observaciones. 10 Percentiles (k % 100): son noventa y nueve valores del recorrido (Ps, s % 1, 2, ..., 99) que dividen la distribución en 100 partes, conteniendo cada una de ellas el 1% de las observaciones.
AB
b)
AB
c)
En general (para cualquier valor de k ): una familia de cuantiles de orden
AB s
k
s % 1, 2, ..., (k . 1), se identificará como los (k . 1) valores del recorrido de la variable Q s s % 1, 2, ..., (k . 1), que dividirán en k partes la distribución de la variak
ble conteniendo, cada una de ellas, una proporción de valores de De esta forma, si Qs es el cuantil de orden
AB s
k
.
, un porcentaje de
A B s
·100 de
k los valores de la variable (como mínimo) serán menores o iguales que Qs y un pork s k
centaje de
A.B 1
k
k
AB 1
· 100 de los valores (como mínimo) serán mayores o iguales
que Qs . k
Así, por ejemplo, el primer cuartil C 1 será el cuantil Q1 , de tal forma que, al 4
menos, el 25% de los valores serán menores o iguales que C 1 y, al menos, el 75% restante serán mayores o iguales que C 1. Análogamente, podemos identificar los deciles y percentiles como cuantiles en general: P35 % Q 35 , D8 % Q 8 , ..., etc. 100
10
El procedimiento de cálculo es análogo al estudiado en el caso de la mediana, es decir, suponiendo datos sin agrupar:
D N a s · N a N i A i.1 k si E s · N A N i % F k
ú
Q s % xi k
ú
xi ! xi!1 Qs % k
2
7 ITES-Paraninfo
40
ESTADÍSTICA DESCRIPTIVA Y NOCIONES DE PROBABILIDAD
donde Q s es el cuantil (cuartil, decil o percentil) que se quiere calcular y que acuk s mulará una proporción de observaciones. k Si la distribución de frecuencias es de valores agrupados se determinará el intervalo cuantílico, es decir, aquel que contiene el cuantil que se quiere obtener.
AB
Ejemplo 2.14
Dada la siguiente tabla de frecuencias:
Proyectos de mejora
Círculos de calidad
xi
ni
10
2
14
6
18
8
22
4
Obtener el segundo cuartil, el cuarto decil y nonagésimo percentil.
Solución Proyectos de mejora
Círculos de calidad
xi
ni
10
2
2
14
6
8
18
8
16
22
4
20
N i
El segundo cuartil (C 2) es el valor de la variable que deja a su izquierda, esto es acumula, un número mínimo de observaciones del 50%. s
%
2, k
%
por tanto, como N 2 a
4
s · N k
s · N r
a N 3
k
2·20
%
4
%
10 observaciones
(8 a 10 a 16) entonces C 2
%
Q2
x3
%
%
18.
4
Obsérvese que el valor del segundo cuartil coincide con el de la mediana. De hecho, C 2 D5 P50 Me Q1 . %
%
%
%
2
El cuarto decil ( D4) es el valor que acumula como mínimo un 40% de las observaciones: s 7 ITES-Paraninfo
%
4, k
%
10
s · N r
k
%
4·20 10
%
8 observaciones
ANÁLISIS DE DATOS UNIDIMENSIONALES
en consecuencia, como N 2 % 8 %
41
s · N , el cuarto decil será: k x2 ! x3
Qs % D4 %
2
k
%
14 ! 18 2
% 16
Por último, el nonagésimo percentil, P90, es el valor que acumula como mínimo un 90% de las observaciones: s % 90, k % 100
s · N
90·20
k
100
r
%
con lo que el percentil noventa será: Q 90 100
% P90
% 18
observaciones
% x4 % 22,
% 18 a N 4 .
dado que N 3 a
s · N k
%
2.2. Medidas de dispersión El término dispersión o variabilidad hace referencia a cómo de distantes, de separados, se encuentran los datos. En este sentido, si los distintos valores de la distribución se encuentran próximos entre sí, estos presentarán poca dispersión o variabilidad; si por el contrario están alejados, mostrarán mucha dispersión. Pueden calcularse diversas medidas de dispersión, aunque las más habituales son el rango (o recorrido), la varianza y la desviación típica. Las anteriores son medidas de dispersión absoluta. Sin embargo, si lo que se quiere es comparar varias distribuciones de frecuencias en términos de variabilidad, para ver cuál es la que presenta mayor o menor dispersión, debe obtenerse una medida relativa como, por ejemplo, el coeficiente de variación de Pearson.
2.2.1. Rango El rango o recorrido de una distribución es la diferencia entre el valor máximo y mínimo, es decir, Re % xmax . xmin . La principal desventaja de este tipo de medida de dispersión es que únicamente tiene en cuenta dos valores de la variable.
2.2.2. Varianza y desviación típica 2 La varianza, que se denota por S X , se define como la media aritmética de los cuadrados de las diferencias de los valores de la variable a la media aritmética: I
; ( xi . x 6)2 · ni 2
S X %
i
1
%
N
(2.2) 7 ITES-Paraninfo
42
ESTADÍSTICA DESCRIPTIVA Y NOCIONES DE PROBABILIDAD
Con la varianza se pretende medir la dispersión que presentan los valores de la variable respecto de su media. Cuanto mayor sea la varianza, cuanto mayor sea la dispersión, menos representativa resultará ser la media. Una expresión equivalente a la anterior para calcular la varianza, muy utilizada por cuanto simplifica considerablemente la operatoria, es: I
; 2
S X %
i
2
xi
· ni
1
%
6 . x
N
2
(2.3)(6)
De la definición de varianza se desprende que ésta nunca puede ser negativa (S X n0) y que se encuentra expresada en unidades de medida al cuadrado. Además, la varianza no depende de los cambios de origen, pero sí de los de unidad (véase Apartado 2.5.). Por su parte, la desviación típica o estándar, que se denota por S x, es la raíz cuadrada positiva de la varianza, es decir: 2
S X % !
∂ S2 n 0 X
La desviación típica es una medida de dispersión que suele proporcionarse junto con la media de la distribución, puesto que ambas magnitudes vienen expresadas en la misma unidad de medida, lo que facilita enormemente la interpretación de los resultados. Otro estadístico que se utiliza mucho, especialmente en inferencia estadística, *2 , y se define como: es la cuasivarianza, que se denota por S X I
; ( x i *2 % S X
2
i
6) . x
1
%
siendo la cuasidesviación típica,
N . 1 *%! S X
· ni
N %
N . 1
2
· S X
∂ S* 2 X
Ejemplo 2.15 El número de ofertas de empleo publicadas en los últimos cinco números en una revista especializada ha sido: 10, 20, 12, 16, 12 Calcular el rango, varianza, desviación típica, cuasivarianza y cuasidesviación típica.
Solución El rango o recorrido del número de ofertas de empleo (variable Re % xmax . xmin (6)
r
X )
es:
Re % 20 . 10 % 10
En el Apartado 2.3 se verá cómo esta expresión se corresponde con la obtenida al expresar el momento central de orden 2, que es la varianza, en función de los momentos ordinarios.
7 ITES-Paraninfo
ANÁLISIS DE DATOS UNIDIMENSIONALES
43
Para calcular la varianza, se puede recurrir a la Expresión (2.2) o (2.3). Evidentemente el resultado es el mismo, simplemente una forma resulta más cómoda que la otra, como se verá. Los cálculos necesarios para obtener la varianza pueden obtenerse añadiendo una serie de columnas a la tabla de frecuencias de las ofertas de empleo publicadas, tal y como se muestra a continuación:
6 )2 ni ( xi . x
xi ni
xi ni
4
16
10
100
4
8
24
288
2
2
4
16
256
6
6
36
20
400
6) ( xi . x
xi
ni
10
1
.
12
2
.
16
1
20
1
6 ) ni ( xi . x
4
.
2
.
; % 0 (7)
; % 64
2
; % 70 ; % 1.044
Una vez elaborada la tabla anterior resulta casi inmediato el cálculo de la media y de la varianza. I
4
%
; 6 % i x
xini
1
%
%
N
I
70 5
% 14
anuncios
4
%
; ( x
i.
2
S X %
o bien,
i
2
6) ni x
1
%
%
N I
64 5
% 12,8
(anuncios)2
4
%
2
; 2
S X %
i
xi ni
1
%
N
6 2 % . x
1.044 5
.
142 % 12,8 (anuncios)2
2 La desviación típica es: S X % ! ∂ S X % ∂ 12,8 ] 3,58 anuncios. La cuasivarianza se puede obtener a partir de la varianza:
2 S * % X
N N . 1
· S X %
La cuasidesviación típica es:
(7)
5.1
*% S X
· 12,8 % 16 (anuncios)2
∂ S* 2 % ∂ 16 % 4 anuncios. X
Obsérvese cómo la suma de las desviaciones de cada valor de la variable respecto a su media es
A; I
4
%
cero
5
2
i
1
%
B
6) · ni % 0 , tal y como se indicó en la primera propiedad de la media aritmética. ( xi . x 7 ITES-Paraninfo
44
ESTADÍSTICA DESCRIPTIVA Y NOCIONES DE PROBABILIDAD
2.2.3. Coeficiente de variación de Pearson Es el cociente entre la desviación típica y la media aritmética de la variable estadística X . Suele representarse por g0( X ). g0( X )
%
S X
6 x
Cuanto más próximo a cero se encuentre el coeficiente de variación menor será la dispersión (relativa) y mejor la representatividad de la media aritmética. El coeficiente de variación es una medida de dispersión relativa. Por esta razón, se utiliza para comparar la dispersión entre dos o más distribuciones, independientemente del valor de sus medias y de la unidad de medida de las variables.
Ejemplo 2.16 Dos revistas especializadas en empleo, A y B, han publicado una media de ofertas de trabajo, que requieren alta cualificación, de x 6 A 10 y x 6 B 16 con varianzas, respectivamente, de S A2 4 y S B2 9. ¿Qué revista presenta mayor dispersión absoluta? ¿Y relativa? %
%
%
%
Solución La revista B presenta mayor dispersión absoluta que la revista A, puesto que S 9 b S A2 4. Ahora bien, para comparar correctamente la dispersión en ambas publicaciones (con medias distintas), debe calcularse el coeficiente de variación, medida de dispersión relativa, que mide el número de veces que la desviación típica contiene a la media. Por tanto: 2 B
%
%
g0( A)
%
g0( B)
%
S A
6 A x S B
6 B x
2 %
10
%
0,2
%
0,1875
3 %
16
es decir, como g0( B) a g0( A) puede concluirse que la dispersión relativa de la revista B es menor que la de la revista A.
2.3. Momentos A partir de la distribución de frecuencias es posible calcular una serie de valores específicos que la caracterizan. Estos valores son los denominados momentos. Los estadísticos obtenidos hasta ahora como media y varianza pueden considerarse casos particulares de los momentos. A continuación se estudian los principales detalles de los distintos tipos de momentos que pueden obtenerse, momentos ordinarios y centrales, así como la relación que puede establecerse entre ellos. 7 ITES-Paraninfo
52
ESTADÍSTICA DESCRIPTIVA Y NOCIONES DE PROBABILIDAD
— Multiplicar (o dividir) por una constante b todos los valores de la variable X , es decir, de realizar sobre X un cambio de unidad (o escala): Y % b · X o X Y % . b — Practicar sobre la variable X tanto un cambio de unidad como de origen, por ejemplo: Y % b · X ! a. Pues bien, para obtener aquellas mismas medidas conocidas para la nueva variable Y no es necesario crear su distribución de frecuencias y realizar de nuevo todos los cálculos que se efectuaron en su momento para la variable X . Es suficiente con conocer cómo afectan los cambios de origen y unidad a los distintos estadísticos y recurrir a la transformación lineal empleada para obtener Y a partir de X (véase Tabla 2.1). En la Tabla 2.1, y para algunas transformaciones lineales tipo, a partir de los estadísticos x 6, S x2, g0( X ), g1( X ), g2( X ) y m p( X ) de la variable estadística X , que se suponen conocidos, se muestran estas mismas medidas para la variable Y .
Tabla 2.1. Transformación
Media ) a d i d e m ( o c i t s í d a t s E
Varianza
Cambio unidad Y % b · X
Cambio origen Y % X ! a
y 6 % b · x 6
y 6 % x 6 ! a
(depende)
(depende)
2 S 2Y % b2 · S X (depende)
2 S 2Y % S X (no depende)
Cambio origen y unidad Y % b · X ! a
6 % b · x 6 ! a y 2 S 2Y % b2 · S X
S X
b · S X
Coeficiente Variación
g0(Y ) % g0( X )
(no depende)
g0(Y ) % 6 ! a x (depende)
Coeficiente Asimetría
g1(Y ) % g1( X ) (no depende)
g1(Y ) % g1( X ) (no depende)
g1(Y ) % g1( X )
Coeficiente Curtosis
g2(Y ) % g2( X ) (no depende)
g2(Y ) % g2( X ) (no depende)
g2(Y ) % g2( X )
Momento central orden p
m p(Y )%b p · m p( X ) (depende)
m p(Y )%m p( X ) (no depende)
m p(Y )%b p · m p( X )
Ejemplo 2.20
g0(Y ) %
6 ! a b · x
Determinar la media, varianza y coeficiente de variación de Pearson de 1 la variable estadística Y , que es obtenida como Y % X ! 2, sabiendo que x 6 % 17 4 2 y S X % 4.
7 ITES-Paraninfo
ANÁLISIS DE DATOS UNIDIMENSIONALES
53
Solución
La variable Y es obtenida al aplicar, sobre la variable X , un cambio de escala (b % 1/ 4) y un cambio de origen (a % 2). La media depende tanto de los cambios de origen como de unidad, ambos deben ser tenidos en cuenta a la hora de calcular la media de la variable Y , así: 1 6 % b · x 6 ! a % · 17 ! 2 y 4
6 % 6,25 y
r
La varianza (en general todos los momentos centrales) únicamente depende de los cambios de unidad, siendo invariante ante cambios de origen, por tanto: 2 S 2Y % b2 · S X %
AB 1 4
2
·4
r
S 2Y % 0,25
El coeficiente de variación de Pearson es invariante ante cambios de unidad, pero no a los de origen; de forma que caso de existir este último queda afectado por ambos. (1/ 4 ) · 2 S Y b · S X g0(Y ) % % g0(Y ) % 0,08 % y 6 6 b · x ! a (1/ 4 )·17 ! 2 r
Por otra parte, tipificar una variable consiste en obtener, a través de una transformación lineal «especial», otra variable con media y desviación típica (o varianza) prefijada. Esto es, tipificar una variable X , con media x 6 y desviación típica S X , consiste en transformar ésta en otra Z con media z 6 y desviación típica S Z . La variable Z se dice que es la variable tipificada de X . En general, si el objetivo es conseguir una variable tipificada Z con media z 6 % m y S Z % k , la transformación lineal a realizar será: Z % k ·
A B 6 X . x S X
!m
El caso de tipificación más utilizado se conoce como tipificación estándar, y consiste en transformar la variable X en otra variable Z , con media 0 y desviación típica 1. En este caso, la transformación lineal consiste en restar al valor de la variable la media y dividir entre la desviación típica, de esta forma, la variable resultante Z , será: 6 X . x con z 6 % 0 y S Z % 1 Z % S X Si el coeficiente de variación de Pearson es empleado para comparar la dispersión entre dos o más distribuciones, la tipificación resulta útil cuando se quiere comparar individuos o cantidades que en principio no son comparables, bien porque provienen de poblaciones diferentes, bien porque aluden a conceptos distintos. 7 ITES-Paraninfo
54
ESTADÍSTICA DESCRIPTIVA Y NOCIONES DE PROBABILIDAD
En este sentido, los valores tipificados que son obtenidos indican la distancia a la que se encuentran cada uno de ellos respecto a la media, distancia que es medida en términos de desviaciones típicas. Por tanto, fácilmente puede compararse la posición relativa de cada valor.
Ejemplo 2.21 En la sección de pintura de un taller de reparaciones trabajan tres personas. Sus salarios son de 900, 950 y 1.000 e. Obtener los salarios tipificados a media cero y desviación típica 1. Solución La media y desviación típica de los salarios será: 3
; 6 % x
J
xi
1
i
%
N
%
900 ! 950 ! 1.000 r
3
6 % 950 x
3
;
S X % !
i
2
x i
1
%
N
6
. x
2
%
J
9002 ! 9502 ! 1.0002 .
3
9502
r
S X ] 40,825
Una vez obtenidas x 6 y S X pueden determinarse los valores tipificados: z1 %
z2 %
z3 %
6 x1 . x S X
6 x2 . x S X
6 x3 . x S X
%
%
%
900 . 950 40,825
z1 ] .1,225
r
z2 ] 0
950 . 950 40,825
1.000 . 950 r
40,825
x1
z3 ] 1,225
x2
x3
S z
–1,225 = z 1 –1
r
z = z 2 =
S z
0
1
z 3 = 1,225
Figura 2.7.
Puede comprobarse que z 6 % 0 y S Z % 1. Los valores z1 y z3 , que se corresponden con los salarios de 900 y 1.000 e, respectivamente, se encuentran a 1,225 desviaciones típicas de la media, es decir, se encuentran a la misma distancia de ésta.
7 ITES-Paraninfo
ANÁLISIS DE DATOS UNIDIMENSIONALES
55
2.6. Medidas de concentración: curva de Lorenz e índice de Gini Las medidas de concentración, que no se deben confundir como opuestas a las medidas de dispersión, indican el mayor o menor grado de igualdad (o equidistribución) en el reparto total de los valores de la variable objeto de estudio. La concentración puede determinarse gráficamente a través de la curva de Lorenz. Una medida analítica para la concentración es el conocido como índice de Gini.
2.6.1. Curva de Lorenz Mediante la curva de Lorenz (véase Figura 2.8) se relaciona el porcentaje acumulado de frecuencias ( pi) —hogares, familias, individuos, trabajadores, industrias, etc.—, que se representa en el eje de abscisas, con el porcentaje acumulado del volumen total de la variable ( qi) —ingresos, ventas, renta, producto interior bruto, etc.— que le corresponde, que se representa en el eje de ordenadas. Dicha curva, que comienza en el punto (0, 0) y finaliza en el (100, 100), es creciente por representar porcentajes acumulados y se encuentra situada por debajo de la bisectriz al ser pi n qi O i.
2.6.2. Índice de Gini El índice de Gini, que se denota por IG, es aproximadamente el cociente entre el área comprendida entre la bisectriz del primer cuadrante y la curva de Lorenz y el triángulo OPQ (véase Figura 2.8). ) e qi l b a i r a v l a t o t n e m u l o v o d a l u m u c a % (
Q
Bisectriz
Curva Lorenz
O
pi
P
(% acumulado de frecuencias) Figura 2.8.
7 ITES-Paraninfo
56
ESTADÍSTICA DESCRIPTIVA Y NOCIONES DE PROBABILIDAD
A nivel práctico suele utilizarse, como aproximación, la siguiente expresión: I .1
; ( p
IG
i
. qi)
i
1
%
%
I .1
; i
pi
1
%
La ventaja del índice de Gini es que proporciona una medida cuantitativa de la concentración. Éste puede tomar valores comprendidos entre 0 y 1, es decir, 0 m IG m 1, de tal forma que si IG 0 existe equidistribución (o no concentración), produciéndose una concentración máxima cuando IG 1. Por tanto, cuanto más próximo a cero se encuentre el índice de Gini, menor será el grado de concentración. Relacionando curva de Lorenz e índice de Gini (véase Figura 2.9), cuanto menor sea este último, menor será el área comprendida entre la bisectriz y la curva de Lorenz. En el caso que la concentración sea mínima ( IG 0), la curva de Lorenz coincide con la bisectriz, lo que indica que a un porcentaje acumulado de individuos le corresponde ese mismo porcentaje acumulado del volumen total de la variable ( p q O i ). %
%
%
i
%
i
Q
O
IG = 0
P
Q
O
0 < IG < 1
P
Q
O
IG = 1
P
Figura 2.9.
En caso de máxima concentración ( IG 1), la curva de Lorenz coincide con el triángulo OPQ. En este caso extremo, un solo individuo, el último, concentra el volumen total de variable, no encontrándose nada en manos de los restantes ( N . 1) individuos. %
2.6.3. Haciendo operativo el índice de Gini y la curva de Lorenz Para poder representar la curva de Lorenz y obtener el índice de Gini, es necesario calcular los porcentajes acumulados de individuos y del volumen total de la 7 ITES-Paraninfo
ANÁLISIS DE DATOS UNIDIMENSIONALES
57
variable. Para ello, lo más práctico consiste en añadir columnas a la tabla de frecuencias original, tal y como se muestra en la Tabla 2.2.
Tabla 2.2. Volumen Volumen acumulado xi
ni
N i
mi
( a)
M i
Porcentaje acumulado individuos
Porcentaje acumulado de volumen
N i
M i
pi
%
N N 1
x1
n1
N 1
m1
M 1
p1
%
x2
n2
N 2
m2
M 2
p2
%
ñ
ñ
ñ
ñ
ñ
x I
n I
N I (b)
m I
M I (c)
(a)
N
N 2 N
· 100
qi
%
M
q1
%
·100
q2
%
%
pi . qi
· 100
p1 . q1
· 100
p2 . q2
M
M 2
ñ p I
· 100
M 1
·100
M
ñ
100
q I
%
Diferencia
100
ñ p I . q I
%
0
Si no es facilitada información sobre el volumen ( mi), por ejemplo masa salarial, ésta puede ser estimada de la siguiente forma: mi xi ni . Total de individuos N I N . Volumen total de la variable M I M . %
(b) (c)
%
%
Ejemplo 2.22 Las horas de formación recibidas a lo largo del último año por los 40 directivos de distinto nivel, de la filial española de una compañía multinacional, se recogen en la siguiente tabla. Horas formación xi
Número directivos ni
20
20
30
10
40
5
50
5
Representar la curva de Lorenz y calcular el índice de Gini.
Solución Confeccionando una tabla similar a la Tabla 2.2. 7 ITES-Paraninfo
58
ESTADÍSTICA DESCRIPTIVA Y NOCIONES DE PROBABILIDAD
N i
( a) qi % · 100 M I
· 100
xi
ni
N i
mi% xi ni
M i
20
20
20
400
400
50
34,78
15,22
30
10
30
300
700
75
60,87
14,13
40
5
35
200
900
87,5
78,26
9,24
50
5
40
(a) (b) (c)
( b)
250
1.150
pi %
M i
(c)
N
100
pi . qi
100
0
Los resultados han sido redondeados a dos números decimales para facilitar los cálculos. Total directivos. Total de horas dedicadas a formación de directivos.
Representando el punto (0, 0) y los distintos pares ( pi , qi), esto es, ( p1 % 50, q1 % 34,78); ( p2 % 75, q2 % 60,87); ( p3 % 87,5, q3 % 78,26); la curva de Lorenz se obtiene al unir los puntos mediante segmentos. Curva de Lorenz
s a r o h n e m u l o v o d a l u m u c a %
100,00 90,00 80,00 70,00 60,00 50,00 40,00 30,00 20,00 10,00
(100; 100)
(87,5; 78,26) (75; 60,87)
(50; 34,78)
(0,0)
20
40
60
60
100
% acumulados de individuos Figura 2.10.
En cuanto al índice de Gini: 4.1
; ( pi.qi) IG%
i
1
%
4 .1
; i
%
( p1.q1)!( p2.q2)!( p3.q3) p1! p2! p3
%
15,22!14,13!9,24 50!75!87,5
0,1816
]
1
%
es decir, el número de horas de formación destinadas a los diferentes niveles directivos en esta filial están relativamente bien repartidas.
7 ITES-Paraninfo
ANÁLISIS DE DATOS UNIDIMENSIONALES
59
Cuestiones de autoevaluación 2.1
2.2
En un total de 10 empresas de un determinado sector de actividad se ha observado el número de empleados, obteniéndose los valores siguientes: 15, 21, 22, 26, 32, 35, 40, 50, 54, 1.000, donde x 6 % 129,5 y Me % 33,5. ¿Qué medida de posición es preferible utilizar como resumen del conjunto de datos de la variable? a)
La media aritmética, porque es la medida de posición central por excelencia y siempre que se conozca se debe utilizar ésta.
b)
La mediana, porque como existe un valor muy alejado del resto, la media es poco representativa del conjunto de valores de la distribución.
c)
Es indiferente.
d)
Ninguna de las anteriores es correcta.
Se estudian los salarios que perciben los empleados de una empresa. El menor de los salarios es de 600 e/ mes y el mayor de 2.400 e/ mes. ¿Cuál de los siguientes resultados puede ser cierto?
x 6 % 1.200 e, S X % 0 e b) x 6 % 1.000 e, S X % 200 e c) x 6 % 500 e, S X % 200 e d) x 6 % 1.200 e, S X % .150 e a)
2.3
2.4
Se invierten 12.000 e a plazo fijo durante dos años. El primer año el capital se incrementa en un 3% y el segundo en un 12% acumulativo. El interés o incremento medio anual es: a)
7,5 %.
b)
7,406 %
c)
4,8 %
Si el coeficiente de asimetría de una variable X es 4, y se realiza una transformación lineal de la forma Y % 50 ! 60 X , ¿cuál es el coeficiente de asimetría de la nueva variable? a)
El coeficiente de asimetría vale 24.
b)
El coeficiente de asimetría vale 4.
c)
El coeficiente de asimetría vale 74.
d)
No se puede obtener el coeficiente de asimetría de Y a partir de la información de la que se dispone. 7 ITES-Paraninfo
ESTADÍSTICA DESCRIPTIVA Y NOCIONES DE PROBABILIDAD
60
2.5
2 Supóngase una variable estadística X tal que x 6 % 31 y S X % 35. Si se realizase un cambio de variable aplicando la transformación Y % 10 ! 5 X , entonces:
y 6 % 165 y S 2Y % 875 b) y 6 % 165 y S 2Y % 35 c) y 6 % 155 y S 2Y % 875 d) y 6 % 155 y S 2Y % 35 a)
2.6
Una empresa de componentes electrónicos dispone de tres plantas de producción (A, B y C) con 100, 150 y 200 operarios de fabricación respectivamente. Si el número medio mensual de unidades producidas por cada empleado en la planta A es de 2.000, en la planta B de 2.500 y en la planta C de 1.750, ¿cúal es el número medio mensual de unidades producidas por cada operario para el global de la empresa? a)
b)
c)
d) 2.7
2.000 ! 2.500 ! 1.750 100 ! 150 ! 200
]
13,89
(2.000 · 100) ! (2.500 · 150) ! (1.750 · 200) 2.000 ! 2.500 ! 1.750 100 ! 150 ! 200 2.000 ! 2.500 ! 1.750
]
% 148
0,072
(2.000 · 100) ! (2.500 · 150) ! (1.750 · 200) 100 ! 150 ! 200
]
2.055,56
Dados los siguientes momentos referentes a una variable estadística: a1 % 63,
a2 % 4.219,
a3 % 296.867,
m3 % .430,
m4 % 110.024
Se puede decir que la distribución de frecuencias es:
2.8
a)
Simétrica y leptocúrtica.
b)
Asimétrica por la izquierda y platicúrtica.
c)
Asimétrica por la derecha y platicúrtica.
d)
Asimétrica por la izquierda y leptocúrtica.
Para que una distribución simétrica con desviación típica igual a 3 sea mesocúrtica, ¿cuál debe ser el valor del momento central de orden 4? a)
Igual a 243.
b)
Mayor a 243.
c)
Menor a 243.
d)
No se puede calcular el valor de m4.
7 ITES-Paraninfo
ANÁLISIS DE DATOS UNIDIMENSIONALES
2.9
61
Dada una variable estadística X con media x 6 % 25 y desviación típica S % 3, ¿qué transformación debería realizarse para que la variable tipificada tuviese media 5 y desviación típica 2? X
X . 25
a)
Z %
b)
Z %
3 X
2.10
5 X . 25
A
B
c)
Z % 2 ·
d)
Únicamente pueden obtenerse variables tipificadas con media cero y desviación típica 1.
3
!
5
Si el índice de Gini vale 1, se puede afirmar que: a) No existe concentración, los valores de las variables están equidistribuidos. b) La curva de Lorenz coincide con la diagonal principal. c) La curva de Lorenz coincide con los lados del cuadrado, formando un triángulo. d) Tanto la opción a) como la c) son ciertas.
E jercicios propuestos 2.1
Se ha preguntado a 9 empresas por el número de personas que emplean, siendo sus respuestas: 50, 56, 60, 75, 80, 85, 88, 90, 100 Calcular la media aritmética, mediana y moda.
2.2 A
15 personas que guardaban cola para entrar al museo de «El Prado» se les ha preguntado por el número de veces que han visitado previamente la pinacoteca, siendo las respuestas obtenidas: 0, 1, 1, 2, 0, 5, 3, 2, 4, 4, 0, 1, 0, 0, 1 Calcular la media aritmética, mediana y moda.
2.3 Cierta
empresa ha incrementado el salario a sus empleados en los últimos cinco años en un 1, 2, 3, 4 y 5% acumulativo. Si un trabajador empezó con un salario 1.000 e, calcular: a) El incremento medio anual aplicado en estos cinco años. b) El salario a cobrar cinco años después. 7 ITES-Paraninfo
ESTADÍSTICA DESCRIPTIVA Y NOCIONES DE PROBABILIDAD
62
2.4
Dada la siguiente tabla estadística: Intervalo
ni
[10 , 20[
9
[20 , 140[
31
[140 , 180]
10
Calcular la media, el intervalo donde está contenida la mediana y el intervalo modal. 2.5
En la siguiente distribución de frecuencias se recoge el consumo de gas (en m3), entre los meses de diciembre-enero, de una comunidad de 100 viviendas. Consumo de gas
Viviendas
[5 , 9[
5
[9 , 15[
25
[15 , 25[
50
[25 , 50[
15
[50 , 80]
5
Obtener la media aritmética, el intervalo donde está contenida la mediana y el intervalo modal de la distribución de consumo de gas. 2.6
Las siguientes cuatro muestras de datos tienen la misma media: a) b) c) d)
4 4 4 4 4 4 4 1 1 1 1 1 3 20 1 2 3 4 5 6 7 1 1 2 4 4 8 8
Ordenar el posible valor de sus varianzas (dispersión) de menor a mayor, pero sin realizar ningún cálculo. Después comprobar el resultado calculando dichas varianzas. 2.7
Inspeccionadas un total de 40 planchas, el número de defectos (obstrucción del pulverizador, funcionamiento incorrecto del termostato, etc.) encontrados por el departamento de calidad ha sido: Defectos
Planchas
0
10
1
25
2
4
3
1
Obtener el número medio de defectos y la varianza de estos. 7 ITES-Paraninfo
ANÁLISIS DE DATOS UNIDIMENSIONALES
2.8
63
El propietario de una tienda de electrodomésticos, tras un descenso en las ventas del último trimestre, observa el número de clientes que entran en su establecimiento a lo largo de quince días: 5, 8, 4, 2, 3, 5, 7, 6, 3, 4, 4, 9, 8, 5, 5 Calcular la media y la desviación típica.
2.9
Una Universidad tiene dos bibliotecas. La información disponible de la variable «Gasto dedicado a la compra de libros» entre los años 1998 y 2002, en cada una de las bibliotecas, ha sido el siguiente:
Biblioteca A
Gasto (miles de euros)
7
8 10 15 20
Biblioteca B a1
%
12 (miles de euros)
a2
%
159 (miles de euros)2
¿En cuál de las dos bibliotecas ha habido menor dispersión en el gasto destinado a la compra de libros? 2.10
Los directores de producción y recursos humanos han estudiado el absentismo laboral en dos células de producción. En la célula A el número medio de horas perdidas resultó ser de 120 horas, con una desviación típica de 36 horas. En la célula B el absentismo medio se cuantificó en 80 horas de trabajo, con una desviación típica de 30 horas. ¿En qué célula de producción hay mayor dispersión relativa en el número de horas perdidas?
2.11
Una compañía, perteneciente a un grupo de grandes empresas (Grupo A), presenta un beneficio anual de 3,5622 millones de euros. Asimismo, el beneficio anual de un comercio, perteneciente a una agrupación de pequeñas empresas (Grupo B), es de 32.280 euros. Si las medias y desviaciones típicas de los beneficios anuales de las empresas pertenecientes a cada uno de esos grupos han sido: Grupo A
6 A x
%
3,1580 millones de euros
S A
%
0,5389 millones de euros
Grupo B
x 6 B
%
S B
25.420
%
6.860
e e
Cuál de las dos empresas presenta un beneficio anual relativo mayor, ¿la compañía o el comercio? 7 ITES-Paraninfo
64
2.12
ESTADÍSTICA DESCRIPTIVA Y NOCIONES DE PROBABILIDAD
Se tiene información acerca del número de goles por partido marcados en dos ligas europeas: Liga de fútbol A: Media 3,5 goles y varianza 1,34. Liga de fútbol B: Media de 2,5 goles y varianza 1,88.
2.13
a)
¿En qué liga europea hubo una mayor dispersión relativa?
b)
Si en un partido jugado en la liga A el resultado fue 2-0 y en otro partido de la liga B el resultado fue 1-1. ¿En qué partido el número de goles fue relativamente mayor?
Dos empresas del sector químico, A y B, han recogido información sobre el número de accidentes laborales al mes con baja laboral que se ha producido durante un determinado periodo de tiempo, obteniendo los siguientes resultados: 2
x 6 A % 9 Empresa B: x 6 B % 12
Empresa A:
S A % 2,2857 S B % 1,51
Si durante un mes determinado, en la empresa A ha habido 7 accidentes con baja y en la empresa B se han producido 10 accidentes con baja, ¿en qué empresa el número de accidentes con baja ha sido relativamente mayor? 2.14
Expresar el momento central de orden 4 en función de los momentos ordinarios.
2.15
A partir de la siguiente distribución de frecuencias: xi
ni
1
2
2
5
3
10
4
5
5
2
Obtener los coeficientes de asimetría y curtosis, y decir cómo es la forma de la distribución. 2.16
2 % 9 obtener la media, varianza y coePara una distribución se sabe que x 6 % 25, S X ficiente de variación de la variable Y si:
a)
Y % X ! 4
b)
Y % 2 X
c)
Y % 2 X ! 4
d)
Y %
7 ITES-Paraninfo
2 X . 4 2
ANÁLISIS DE DATOS UNIDIMENSIONALES
2.17
2.18
65
De un estudio realizado en dos poblaciones acerca del tiempo diario (en minutos) que los niños de 4 a 10 años dedican a ver la televisión, se han obtenido los siguientes resultados: en la población A dedican una media diaria de 90 minutos con una varianza de 144, mientras que en la población B la media diaria es de 75 minutos con una varianza de 100. a)
¿En qué población es mayor la dispersión relativa?
b)
Un niño de la población A dedica 82 minutos diarios a ver televisión y otro de la población B dedica 75 minutos. En términos relativos, ¿qué niño dedica más tiempo a ver televisión?
La evolución de la variable X : «Siniestralidad de automóviles (millones de euros)» en los últimos 6 años ha sido, aproximadamente, la que se recoge a continuación: Año
Siniestralidad
1995
4.000
1996
4.500
1997
4.750
1998
5.000
1999
5.250
2000
6.000
Calcular la media, desviación típica y coeficiente de variación de Pearson de la va X . 3.000 riable X a partir del cálculo de dichos estadísticos para la variable U . 500 %
2.19
En una empresa hay una sección dedicada a la fabricación de un tipo especial de piezas. La variable X : «Número de piezas fabricadas al día por un trabajador», presenta los siguientes momentos: a1
%
140
m2( X )
%
225
m3( X )
%
.830
m4( X )
%
147.830
Asimismo, el «Salario diario de los trabajadores» (variable Y ) se compone de 21 euros fijos más una prima de 30 céntimos por pieza producida. Determinar: a)
Los coeficientes de asimetría y apuntamiento de la variable X , comentando la forma aproximada que tendrá la distribución de esta variable.
b)
La media y la desviación típica de la variable Y . ¿Qué forma tendrá la distribución de esta variable? Justifica las respuestas. 7 ITES-Paraninfo
ESTADÍSTICA DESCRIPTIVA Y NOCIONES DE PROBABILIDAD
66
2.20
Observar las curvas de Lorenz representadas a continuación: A
B
q
q
p
p
¿Cuál de las dos situaciones representa una distribución más equitativa?
Problemas resueltos 2.1
2.2
Una empresa de plásticos se dedica a la realización de piezas para vehículos de una determinada marca. La distribución del número de piezas que realizan los 250 trabajadores en una hora es la siguiente:
Número de piezas
Trabajadores
10
26
11
34
12
60
13
62
14
40
15
28
a)
Calcular el número medio de piezas terminadas en una hora, la mediana y la moda.
b)
Determinar el primer y el tercer cuartil.
c)
Obtener la varianza de las piezas, la desviación típica y el coeficiente de variación de Pearson.
Un grupo de expertos lleva a cabo una cata de aceites. A continuación se facilita la distribución de frecuencias correspondiente a las calificaciones obtenidas por los aceites de oliva procedentes de 150 almazaras:
7 ITES-Paraninfo
ANÁLISIS DE DATOS UNIDIMENSIONALES
Puntuación
Número de aceites
[0 , 4[
40
[4 , 5[
12
[5 , 7[
67
[7 , 9[
22
[9 , 10]
9
a)
Calcular la calificación media obtenida en la cata por el conjunto de los aceites evaluados.
b)
Obtener los intervalos donde están contenidas la mediana y la moda.
c)
Calcular la desviación típica de la distribución y el coeficiente de variación de Pearson.
d)
Explicar la forma de la distribución de frecuencias sabiendo que los coeficientes de asimetría y curtosis son respectivamente g1 .0,2 y g2 .0,88. %
2.3
67
%
Sea X la variable estadística que expresa el salario mensual de los trabajadores de una empresa de la construcción (datos en euros), y de la que es conocida su media 2 6 1.008 y su varianza S X 90.000. x %
%
Si se definen las siguientes variables: Y : «Deducción en las nóminas de los trabajadores para la Seguridad Social y Mutualidad». Esta consiste en deducir un 9,5% del salario más 15 euros fijos. Z : «Deducción en las nóminas de los trabajadores por retenciones del I.R.P.F». Esta consiste en deducir un 18% del salario.
Calcular la media y la varianza de las variables estadísticas Y y Z . ¿Cuál presenta una mayor dispersión relativa? 2.4
El volumen de ventas mensuales de 30 empresas se distribuye como sigue:
Ventas mensuales (en miles de euros)
Número de empresas
Volumen de ventas
[15 , 20[
8
140
[20 , 25[
7
145
[25 , 30[
5
130
[30 , 35[
4
125
[35 , 40]
6
210
Obtener el índice de Gini y la curva de Lorenz. 7 ITES-Paraninfo