Francisco Novoa Muñoz
1
CAPITULO UNO
Estadística descriptiva 1.1 Clasificación de las variables En cualquier disciplina (desde las ciencias y la ingeniería hasta las leyes y la medicina) se recibe información en forma de datos, de los cuales a menudo es necesario obtener alguna conclusión. De manera específica, los científicos e ingenieros deben diseñar nuevos productos y sistemas, o bien, perfeccionar los existentes y diseñar, desarrollar y mejorar los procesos de producción. La estadística ofrece las herramientas que permiten lograr con éxito dichos propósitos. No es fácil una definición precisa de estadística sin embargo, su materia la han dividido en descriptiva e inferencial , que desempeñan funciones distintas pero complementarias en el análisis estadístico. ,
La estadística descriptiva consiste en recopilar, organizar y resumir datos, ya sea en forma tabular, gráfica o numérica. El proceso de hacer predicciones acerca de una población o tomar decisiones basándose en la estadísti stica ca infere inferenci ncial al o infere inferenci ncia a estadí estadísti stica ca , la que a información contenida en una muestra se llama estadí su vez comprende el contras contraste te de de hipót hipótesi esiss y teoría teoría de esti estimac mación ión. La esencia de la inferencia estadística se basa en los conceptos de población y muestra. La población es cualquier colección ya sea de un número finito o virtualmente infinito de mediciones acerca de algo de interés. Mientras que, la muestra es un subconjunto representativo seleccionado de una población. Una buena muestra es aquella que refleja las características esenciales de la población de la cual se obtuvo. A toda característica, cuantificable de alguna forma, que posee la población se le conoce como variable , se representan con letras mayúsculas , , , y se clasifican en cualitativas y cuantitativas . A su vez, cada valor particular de la variable se llama dato , corresponde a números o medidas recopiladas como resultado de las observaciones y se denotan por letras minúsculas y subíndice , , , .
Las variables cualitativas son aquellas que se refieren a atributos o cualidades, se dividen en nominales y ordinales. ordinales. Las nominales se emplean para diferenciar los objetos o distintas categorías que corresponden a nombres o códigos. Las ordinales se utilizan para diferenciar el orden de supremacía de acuerdo con cierto criterio jerárquico, sus categorías pueden ser nombres o números no cuantificables. Las variables cuantitativas son aquellas cuyas observaciones resultantes pueden medirse por medio de un instrumento, se dividen en discretas y continuas . Las discretas corresponden, en general, a recuentos de unidades asociadas con la población en estudio, con valores en el conjunto 0, 1, 2, 3, . Las continuas son las que teóricamente pueden tomar cualquier valor dentro de un cierto intervalo, esto es, entre dos mediciones consecutivas de la variable, siempre será posible obtener otra medición. La siguiente tabla ilustra un resumen de d e las variables y sus divisiones: variables cualitativas nominales ordinales
cuantitativas discretas continuas
Ejemplo 1. Clasifique las siguientes variables: Fuentes de energía eléctrica. Lenguajes de programación. Rapidez de transferencia de datos. Sexo. Cantidad de energía eléctrica consumida. Tamaño de un monitor. Nivel educativo. Valores de tensión. Eficiencia energética. Color.
Francisco Novoa Muñoz
2
1.2 Presentación tabular y gráfica de los datos
La distribución o tabla de frecuencias ofrece un resumen compacto y general de los datos, es un arreglo tabular de las frecuencias número de observaciones con que ocurre cada característica en que se han dividido los datos. La característica puede estar determinada por una cualidad o categoría o por un intervalo llamado también clase o intervalo de clase .
La frecuencia o frecuencia absoluta de la categoría o intervalo está dada por , 1, 2, , ; donde representa el número total de categorías o intervalos. Análogamente, las frecuencias
relativas se denotan y calculan por
o % 100 , es el número total de datos.
Redondeo (aproximación) de datos El resultado de redondear 3.96 a enteros unidades es 4, pues 3.96 está más cerca de 4 que de 3. Análogamente, 2.9715 se redondea en décimas un decimal a 3.0; en centésimas dos decimales a 2.97; pero al redondearlo en milésimas tres decimales se presenta un dilema, pues está equidistante de 2.971 y de 2.972. La costumbre es redondear al número que termine en par , así, se redondea a 2.972.
Al efectuar cualquier operación entre números, el resultado no puede tener más decimales significativos que el operando con menor cantidad de ellos.
Ejemplo 2. Redondee
30 y log 30
a enteros, décimas, centésimas, milésimas y a cuatro decimales.
Para una variable cualitativa, su distribución de frecuencias está dada por la siguiente tabla: Categorías de la variable estudiada
Frecuencia absoluta
Categoría 1
1
Categoría Total
Frecuencia relativa
1
o %
1 ó 100 %
Ejemplo 3. En años pasados, el Departamento de Personal de una empresa eléctrica creció como sigue, en 2006: 46 administrativos, de los cuales 26 eran mujeres; en 2007: aumentó en 10 mujeres y 3 hombres, en 2008: 32 hombres de un total de 69 administrativos. Obtenga las distribuciones de frecuencias respectiva. La distribución de frecuencias para una variable cuantitativa además depende de la siguiente información: El recorrido o rango es la diferencia entre el dato mayor y el menor, esto es, mayor menor .
Lo más importante es el número de intervalos a utilizar, depende de la cantidad, naturaleza y propósito de los datos a resumir. En la práctica se obtienen buenos resultados al emplear , pero es más usada la fórmula de Sturges 1 3.322 log , redondear al entero más cercano, pues 5 20 .
Los extremos de cada intervalo se llaman límite inferior de clase , , al izquierdo y límite superior de clase, , al derecho. Si un intervalo carece de un extremo se llama intervalo de clase abierto . En forma análoga, se obtienen las fronteras de clase o límites reales de clase: frontera inferior, , y frontera superior, , son el promedio entre el límite superior de una clase y el límite inferior de la siguiente. La diferencia entre la frontera de clase superior e inferior se llama longitud o ancho del intervalo de clase. Se debe destacar que si todos los intervalos de clase de una distribución de frecuencias tienen el mismo ancho, éste se denomina amplitud denotado y calculado por , que debe tener tantos decimales como
Francisco Novoa Muñoz 3 la observación que posee más decimales, si es necesario redondear, se redondea al número superior (es decir, hacia arriba).
Independiente de la forma en que se obtuvo el ancho de cada intervalo, el primer intervalo debe contener al menor de los datos menor y el último intervalo debe contener al mayor mayor . La marca de clase del intervalo , es el punto medio de dicho intervalo, para 1, 2, , . La frecuencia acumulada absoluta y la frecuencia acumulada relativa del intervalo , es la suma de las primeras frecuencias absolutas o relativas, respectivamente, para 1, 2, , . Así, para una variable cuantitativa, su distribución de frecuencias está dada por la siguiente tabla:
1
Intervalos o Fronteras
1 1
1 1
Total
o % 1
1 ó 100 %
o % 1 1
1
Observación Una variable cuantitativa discreta se trabaja como una variable continua si los datos son numerosos y muy diferentes. En otro caso, cada observación distinta se considera como una clase y su distribución de frecuencias es como la anterior: en la primera columna van las diferentes clases y sin la última columna. Ejemplo 4. Los tiempos, en segundos, requeridos para enviar un archivo por módem están registrados en tabla adjunta. Identifique y clasifique la variable en estudio. Realice una tabla de frecuencias. 48.8 48.5
50.6 51.1
49.8 49.9
50.8 52.1
48.6 47.7
47.9 51.8
51.7 48.4
49.7 50.3
50.7 52.0
49.0 50.1
50.7 49.6
48.7 48.0
50.9 50.5
51.2 51.0
50.0 52.3
La representación gráfica de una distribución de frecuencias depende de la información que se maneje. El gráfico de barras simples, el gráfico sectorial y el gráfico de barras divididas agrupadas se utilizan para variables cualitativas. El histograma y el polígono se utilizan para variables cuantitativas.
Las representaciones gráficas de datos deben ser autoexplicativas, es decir, deben tener un título, escalas apropiadas y rótulos adecuados en los ejes cuando corresponda .
El gráfico de barras simples consiste en una serie de rectángulos barras del mismo ancho, uno por cada categoría, se dibujan separados para enfatizar la diferencia cualitativa existente, ya sea horizontal o verticalmente. La longitud de la barra indica la frecuencia asociada a la categoría respectiva.
Ejemplo 5.
Gráfico de barras simples para los datos del Ejemplo 3. Distribución de los f uncionarios del Departamento de Personal de una empresa, año 2006, según sexo s o i r a n o i c n u f º N
25 20 15 10 5 0 mujeres
sexo
hombres
Francisco Novoa Muñoz 4 El gráfico sectorial o circular consiste en un círculo dividido en sectores circulares cuyas áreas representan la proporción de cada una de las categorías. Como un círculo encierra un total de 360°, entonces a la categoría le corresponde un ángulo de centro dado por 3.6 % º, 1, 2, , .
Ejemplo 6.
Gráfico sectorial para los datos del Ejemplo 3. Distribución de los f uncionarios del Departamento de Personal de una empresa, año 2006, según sexo
hombres 43%
mujeres 57%
El gráfico de barras divididas agrupadas compara en un mismo gráfico dos o más características relacionadas, para diferentes categorías. Tales características se representan en barras contiguas (en una misma barra) y distinguible una de otra. La altura indica la frecuencia asociada a la categoría respectiva.
Ejemplo 7.
Gráfico de barras divididas de la empresa del Ejemplo 3. Distribución de los funcionarios del Departamento de Personal de una empresa por sexo según año 35 s o i r a n o i c n u f º N
30
mujeres
25
hombres
20 15 10 5 0 2006
Ejemplo 8.
año
2007
2008
Gráfico de barras agrupadas de la empresa del Ejemplo 3. Distribución de los funcionarios del Departamento de Personal de una empresa por sexo según año 70 s o i r a n o i c n u f º N
60 50
hombres
40
mujeres
30 20 10 0 2006
2007
2008
año
El histograma de frecuencias consiste en una serie de rectángulos adyacentes, uno por cada clase, con bases en un eje horizontal, centros en las marcas de clase y ancho igual al del intervalo de clase . Si todos los intervalos tienen el mismo ancho, las alturas de los rectángulos se toman iguales a las frecuencias de clase de lo contrario, la altura de cada rectángulo es proporcional a la frecuencia de clase ¡ajustar áreas !
Francisco Novoa Muñoz
Ejemplo 9.
5
Histograma de frecuencias para los datos del Ejemplo 4. Distribución de los funcionarios de una empresa según el tiempo que tardan en llegar a su trabajo s o i r a n o i c n u f e d º N
8 7 6 5 4 3 2 1 0 47.15
48.15
49.15 50.15 51.15 tiempo (minutos)
52.15
53.15
El polígono de frecuencias es un gráfico de líneas cerrado en coordenadas cartesianas. Se construye colocando un punto sobre cada marca de clase a una altura igual a la frecuencia asociada a esa clase, siempre que todos los intervalos tengan el mismo ancho; luego dichos puntos se unen por segmentos de recta. Para cerrar el polígono se consideran intervalos al inicio y al final con frecuencia cero. El área del polígono así formado es equivalente a la del histograma.
Ejemplo 10.
Polígono de frecuencias para los datos del Ejemplo 4. Distribución de los funcionarios de una empresa según el tiempo que tardan en llegar a su trabajo s o i r a n o i c n u f
e d º N
8 7 6 5 4 3 2 1 0 47.15
48.15
49.15
50.15
51.15
52.15
53.15
tiempo (minutos)
El histograma y el polígono también pueden estar referidos a frecuencias relativas y a acumuladas: La forma del histograma de frecuencias relativas es similar al de frecuencias, sólo hay diferencia en la escala del eje vertical, la cual es sustituida por la escala de frecuencias relativas. Se acostumbra utilizar un mismo histograma para representar ambas frecuencias, empleando dos ejes verticales; uno a la izquierda para registrar las frecuencias absolutas y otro a la derecha para representar las frecuencias relativas. En cuanto al polígono se hace una consideración semejante a la indicada para el histograma.
Ejemplo 11. Histograma de frecuencias relativas para los datos del Ejemplo 4. Distribución relativa de los funcionarios de una empresa según el tiempo que tardan en llegar a su trabajo 8 25%
s o i r 20% a n o i c n u 15% f o v i t a 10% l e r º N
7 s o i r a n o i c n u f
e d º N
6 5 4 3 2
5% 1 0
0% 47.15
48.15
49.15
50.15
51.15
tiempo (minutos)
52.15
53.15
Francisco Novoa Muñoz 6 Los histogramas de frecuencias acumuladas se construyen con el mismo procedimiento establecido en la confección del histograma de frecuencias. El polígono que se obtiene al unir por segmentos de recta los puntos situados a una altura igual a la frecuencia acumulada a partir de la marca de clase como se hizo con el polígono de frecuencias recibe el nombre de ojiva . La frecuencia acumulada relativa también se ilustra con el empleo del mismo histograma de frecuencia acumulada; igual situación sucede con la ojiva.
Ejemplo 12. Histograma de frecuencias acumuladas para los datos del Ejemplo 4. Distribución acumulada de los funcionarios de una empresa según el tiempo que tardan en llegar a su trabajo 30
100% 90%
s o i r a n o i c n u f
25
80% 70%
20
e d o d a l u m u c a º N
60% 15
50% 40%
10
30% 20%
5
s o i r a n o i c n u f e d m u c a t a l e r º N
10% 0
0% 47.15
48.15
49.15
50.15
51.15
52.15
53.15
tiempo (minutos)
Ejemplo 13. Ojiva (polígono de frecuencias acumuladas) para los datos del Ejemplo 4. Distribución acumulada de los funcionarios de una empresa según el tiempo que tardan en llegar a su trabajo 30
100% 90%
s 25 o i r a n o i c 20 n u f e d o 15 d a l u m u 10 c a º N
80% 70% 60% 50% 40% 30% 20%
5
s o i r a n o i c n u f o v i t a l e r l u m u c a º N
10% 0
0% 47.15
48.15
49.15
50.15
51.15
52.15
tiempo (minutos)
1.3 Medidas de posición Una medida de tendencia central o de posición es un número que se toma como orientación para referirse a un conjunto de datos y resume una característica de la variable en estudio; por ello, se dice ser una medida representativa del conjunto de datos y debido a esto es a que existen varias alternativas. Media La media o media aritmética representa el centro físico del conjunto de datos, se denota y calcula por:
1
1
para datos no agrupados sueltos
1
1
para datos agrupados distribución de frecuencias
Francisco Novoa Muñoz
7
Propiedades de la media aritmética Sean , constantes. 1
1. Si ; 1, 2, , , entonces
1 . 1
2. Si ; 1, 2, , , entonces . 3. Si ; 1, 2, , , entonces .
4. Si los datos de una sucesión tienen una importancia relativa o peso respecto de los demás datos de la sucesión, entonces la media denominada media ponderada es: 1 1 . 1
5. La suma de las desviaciones de los valores observados respecto de la media es cero, es decir:
1
0.
1
Observaciones a. En general, al agrupar los datos se "pierde" precisión en el valor obtenido para la media.
b. La media es "afectada" por datos extremos no compensados atípicos .
Ejemplo 14. Para los datos del Ejemplo 4, calcule la media aritmética (datos agrupados y no agrupados), e interprétela. Ejemplo 15. En un empresa trabajan 35 hombres con una edad media de 47.5 años y 15 mujeres, las que, en promedio, son 12% más jóvenes. ¿Cuál es la edad media de los funcionarios de dicha empresa? Mediana La mediana es el valor que divide un conjunto or denado de datos respecto de la magnitud de los valores, de tal manera que la mitad de los datos es menor y la otra mitad es mayor que él, se denota y calcula por:
1 2
2
1 2
donde:
2
1 2
1
si es impar si es par
para datos no agrupados
para datos agrupados
dato ordenado que ocupa el -ésimo lugar, 1, 2, , .
es la frontera inferior límite real inferior del intervalo mediano.
1 es la frecuencia acumulada del intervalo que precede al intervalo mediano.
es la frecuencia del intervalo mediano.
es el ancho del intervalo mediano.
Observaciones
a. El intervalo mediano es aquel cuya frecuencia acumulada contiene a 2 por primera vez. b. La mediana "no es afectada" por datos extremos no compensados atípicos . La mediana se puede obtener incluso en escalas ordinales.
Francisco Novoa Muñoz
8
Ejemplo 16. Para los datos del Ejemplo 4, calcule la mediana (datos agrupados y no agrupados), e interprétela. Moda La moda o modo es el valor, clase o categoría de la variable en estudio qu e se presenta con mayor frecuencia, se denota por y para datos agrupados se calcula mediante: 1 2 ; 1
1 1 ;
2 1
donde: es la frontera inferior límite real inferior del intervalo modal. es el ancho del intervalo modal.
Observaciones a. El intervalo modal es aquel con la mayor frecuencia absoluta. b. La moda "puede no existir" y si existe, "puede no ser única". c. Una distribución que tiene una sola moda, se llama "unimodal", si posee dos, se llama "bimodal". d. La moda es el único estadígrafo que puede determinarse para variables cualitativas nominales.
Ejemplo 17. Para los datos del Ejemplo 4, calcule la moda (datos agrupados y no agrupados), e interprétela.
1.4 Medidas de variabilidad Una medida de variabilidad es un número que indica el grado de dispersión en un conjunto de datos. Si este valor es pequeño respecto de la unidad de medida, entonces hay una gran uniformidad entre los datos, en caso contrario, indica poca uniformidad. Las medidas más comunes son la varianza y el rango. La varianza es el promedio de los cuadrados de los desvíos de las observaciones respecto de la media, denotada y calculada mediante:
1
2
1
2
para datos no agrupados
1
2
para datos agrupados
1
Propiedades de la varianza Sean , constantes. 1.
2
1
2
2 .
1
2. Si ; 1, 2, , , entonces y 3. Si ; 1, 2, , , entonces
2
1
2
0.
1
2 2 2 .
2 . 4. Si ; 1, 2, , , entonces 2 2 2 1
Aparece un nuevo concepto de gran importancia en el análisis estadístico llamado covarianza muestral de e , se denota y calcula por:
, 1
Francisco Novoa Muñoz
9
Ejemplo 18. Con los datos del Ejemplo 4, calcule la varianza, para datos agrupados y no agrupados. Desviación estándar (desviación típica) En la varianza, al aplicar el cuadrado de las desviaciones, las unidades en que estén los datos, también se expresarán en unidades al cuadrado, lo cual puede no tener sentido. Además, la diferencia real entre el dato particular y la media se magnifica. Estas circunstancias condujeron al concepto de desviación estándar o típica, que es la raíz cuadrada positiva de la varianza, denotada por , es la medida de variabilidad de mayor uso. Así:
1
1
2
para datos no agrupados
1
2
para datos agrupados
1
Propiedad de la desviación estándar Sean , constantes. Si ; 1, 2, , , entonces
.
Ejemplo 19. Para los datos del Ejemplo 4, calcule la desviación estándar, con los datos agrupados y no agrupados, e interprétela. Coeficiente de variación El coeficiente de variación representa el porcentaje que la desviación estándar es respecto de la media aritmética, está dado por: 100%
El coeficiente de variación es una medida adimensional que se emplea fundamentalmente para: a. determinar si cierta media es consistente con cierta varianza, b. comparar la variabilidad entre dos grupos de datos referidos a distintos sistemas de medida, c. comparar la variabilidad entre dos grupos de datos obtenidos por dos o más personas distintas, d. comparar la variabilidad entre dos grupos de datos que tienen distinta media.
Ejemplo 20. Para los datos del Ejemplo 4, calcule el coeficiente de variación, con los datos agrupados y no agrupados, e interprételo.