CAPITULO I
ESTADISTICA DESCRIPTIVA 1.1. LA ESTADISTICA Y LA VARIABILIDAD . La Estadística se ocupa de la recolección y análisis de datos que corresponden a fenómenos o situaciones en donde está presente la variabilidad. La finalidad del análisis es explicar tal variabilidad. Si con suficiente resolución, se realizan mediciones del peso de un artículo, se encontrará que éstas varían. Esta variabilidad puede deberse a diversas razones: al instrumento de medición, a la persona que realiza las mediciones, a las condiciones en que se realiza la medición, etc. Si se eligen 10 personas al azar y se mide su estatura se podrá observar nuevamente el fenómeno de la variabilidad y ella puede deberse: al instrumento de medida, a factores de herencia, al tipo de alimentación, etc. Para cruzar un río no es suficiente saber que en promedio la profundidad del agua es 0.50 m; Es necesario conocer como varía la profundidad. La variabilidad aparece en muchos procesos. La finalidad de la Estadística es explicarla.
A partir del conocimiento de la variabilidad se podrá realizar inferencias, predecir, y muchas veces, controlar resultados. El estudio de la variabilidad se realiza a partir de la Probabilidad. En el segundo y tercer capítulos se introducen los conceptos básicos de esta teoría. Se indica en estos capítulos los modelos probabilísticos principales que servirán para representar situaciones en donde está presente la variabilidad. En este primer capítulo se desarrollan métodos esenciales de la Estadística Descriptiva , métodos que tienen que ver con la codificación, tabulación, representación gráfica y la síntesis numérica de datos que presentan variabilidad. Se estudian las técnicas básicas para organizar y presentar los datos antes de pretender cualquier interpretación. A partir de la Estadística Descriptiva, mediante gráficos y diagramas, se identifican los modelos probabilísticos que servirán para llevar a cabo la inferencia de las características de toda una población sobre la base de los datos recolectados
2. Estad ístic a Descr iptiva .
Carlos Carlos Véliz Véliz Capuñay Capuñay
1.2. POBLACION. UNIDAD DE ANALISIS. VARIABLE. Población, unidad de análisis y variable son conceptos sobre los que se basan las técnicas estadísticas para analizar los datos. Si se estudia la opinión que tienen los peruanos respecto de una ley recién promulgada, la población será el Perú, cada una de los pobladores es una unidad de análisis y la variable está relacionada a la opinión acerca de la ley. Si se desea estudiar la variación de la edad de los habitantes de la región Sur, habrá que referirse a la población formada a los habitantes de la región Sur, a las unidades de análisis (cada uno de los pobladores de la región) y a la variable edad. Si se estudia el grado de conservación de los monumentos históricos de una ciudad, la población estará formada por los monumentos históricos de la ciudad, la unidad de análisis es cada uno de los monumentos históricos y la variable es el grado de conservación. Si para esta misma población y para estas mismas unidades de análisis se estudia la antigüedad que éstos tienen, la variable es el tiempo que tiene cada uno de los monumentos.
Lo anterior indica que una población no necesariamente estará formada por personas y que en ella pueden definirse una o más variables.
Población. Cualquier conjunto A es una población y cada uno de sus elementos es una unidad de análisis.
A cada unidad de análisis también se le llama unidad estadística o unidad experimental. 1.1. Ejemplo.
El conjunto formado por todos los trabajadores que laboran actualmente en la industria textil de un país es una población. Cada trabajador es una unidad estadística o de análisis. El conjunto formado por todos los artículos producidos por una fábrica es una población. Cada uno de los artículos es una unidad estadística o unidad experimental. Cualquier subconjunto de una población se llama muestra. 1.2. Ejemplo.
Interesaba conocer si el programa de TV “0007”, que se propaga entre las 8 p.m. y las 9 p.m., tiene o no aceptación entre los televidentes del país. Para ello se propuso estimar la proporción de las personas que ven el programa entre todos los televidentes que tienen encendido su televisor en dicho horario. La estimación se realizó escogiendo sólo 165 familias entre todas las que acostumbran encender su televisor en el horario indicado. La población la constituyen todas las familias del país que encienden su televisor entre las 8 p.m. y las 9 p.m. Las 165 familias escogidas forman una muestra.
Carlos Véliz Capuñay
E s t a d í s t i c a D e s c r i p t iv iv a . 3
En Estadística interesan las poblaciones cuyos elementos tienen características comunes y que pueden traducirse en números. Esta idea tiene que ver con el concepto de variable.
Variable o carácter. Para referirnos a una característica de los elementos de una población, por ejemplo la edad, el lugar de procedencia, el coeficiente de inteligencia de un grupo de personas, o el peso de los artículos que produce una fábrica, se usa el concepto de variable o carácter . Una variable es susceptible de adoptar distintos valores. Así, la variable edad definida en la población “Región Sur” puede tomar los valores: 10, 50, 65, etc., años; la variable opinión , establecida para estudiar si los ciudadanos de una país están de acuerdo o no con una determinada ley, puede tomar el valor 1, si el poblador está de acuerdo, el valor 2, si no está de acuerdo y el valor 3, si su posición es indiferente. El establecimiento de una variable es una de las etapas más importante de toda tarea “estadística”. Mediante una variable el investigador cuantifica, transforma en cifras las características de una cualidad de los elementos de la población.
Para estudiar una característica de una población, se hace corresponder a cada unidad de análisis un número real. De ahí que se define una variable , como una función X que a cada elemento de una población le hace corresponder un número real.
A una variable, también se le llama carácter. 1.3. Ejemplo.
En la población determinada por todos los trabajadores de la industria del automóvil se puede definir la variable X , que a cada trabajador le asigna su edad correspondiente. En la misma población también se puede definir la variable Y , que a cada trabajador le asigna el número 0 si es soltero, el número 1 si es casado y el número 3 si es viudo o divorciado. La asociación de números en lugar de palabras que indican el estado civil del trabajador será muy útil en general, pues así se evita escribir las frases: soltero, casado, etc., ahorrando tiempo y espacio al escribir. 1.4. Ejemplo.
En la población formada por los artículos producidos en una fabrica, se puede definir la variable que a cada artículo le hace corresponder el número de defectos que tiene.
4. Estad ístic a Descr iptiva .
Carlos Véliz Capuñay
Variables y encuestas A menudo se realizan encuestas, a través de cuestionarios, para recoger información de una población. Cada pregunta puede relacionarse con una variable, como en el caso siguiente: ¿Está usted de acuerdo con la ley antitabaco?. Las respuestas pueden ser: si, no, no sabe / no contesta. El entrevistado debe dar sólo una respuesta. Esta respuesta puede ser codificada, respectivamente, con los valores 1, 2 y 3, correspondiendo estos valores a una variable que puede llamarse “ley antitabaco”. Otras veces, a una pregunta de un cuestionario están ligadas varias variables como en el siguiente ejemplo. ¿Cuáles de estos medios de transporte público usa para trasladarse a su centro de labores y con qué frecuencia?. Esta pregunta puede ser relacionada con dos variables: una de éstas puede llamarse bus, la cual puede tomar los valores: 1, si viaja en bus y con gran frecuencia; 2, si viaja en bus y con poca frecuencia y 3, si no viaja en bus y la otra, que puede nombrarse con taxi y que se define de manera análoga a la anterior.
Bus Taxi
Si con gran frecuencia 1 1
Si con poca frecuencia 2 2
No 3 3
Matrices de datos. Los datos que se recogen de una población pueden escribirse en tablas formándose cuadros llamados matrices de datos. 1.5. Ejemplo.
En la siguiente tabla se presenta una serie de variables definidas en el conjunto formado por los países: Perú, Colombia, Chile, Bolivia, Argentina, Venezuela, Brasil y Japón. En la tabla se indican las siguientes variables : número de habitantes en 1992 en millones (V 1), superficie en miles de kilómetros cuadrados (V 2), producto nacional bruto promedio por habitante (PNB) en dólares y para 1992 (V 3), tasa media de inflación anual en porcentaje para 1980 - 1990 (V 4), y esperanza de vida al nacer en años (V 5). Como referencia se indica los valores de cada una de las variables para toda la población mundial.
Carlos Véliz Capuñay
E s t a d í s t i c a D e s c r i p t iv a . 5
Se han indicado algunos elementos que son esenciales para su interpretación. Estos elementos son: - el título de la tabla: INDICADORES BASICOS - la fuente de la cual se ha extraído la información: Banco Mundial . - signos empleados: el símbolo < indica "menor que ". - las unidades que se usan para representar las cifras: dólares, porcentajes, etc.
INDICADORES BASICOS N.Habit.
Superficie. 2
PNB
Tasa inf.
Esper. vida
(millón)
(en miles de km )
(en $)
(en %)
(en años)
V 1
V 2
V 3
V 4
V 5
Perú
22
1285
1160
233.9
63
Colombia
32
1139
1260
24.8
69
Chile
13
757
1940
20.5
72
Bolivia
7
1099
630
317.9
60
Argentina
32
2767
2370
395.2
71
Venezuela
20
912
2560
19.3
70
Brasil
150
8512
2680
284.3
66
Japón
124
378
25430
<5
79
5284
133342
4200
14.7
66
País
Población mundial
Fuente: Banco Mundial. Informe sobre el d esarrollo mundial 1992. < 5 indica "menor que 5, "
En lo que sigue y cuando sea necesario, se tratará de que aparezcan los principales elementos que describen la tabla. 1.6. Ejemplo.
En la siguiente tabla se presentan los valores de la variable X que a cada uno de los nueve países indicados le hace corresponder la "inflación" en el mes de Octubre de 1993; esto es, la variación del promedio de los precios de los principales bienes con respecto al mes anterior. También se presentan los valores de la variable Y que a cada uno de los países que aparecen en la tabla les hace corresponder la "inflación anual acumulada" durante el año 1993. (Los conceptos sobre inflación se explican más adelante).
6. Estad ístic a Descr iptiva .
Carlos Véliz Capuñay
INFLACION (Variación porcentual)
PAISES Brasil Venezuela Ecuador Chile Uruguay Perú Colombia Argentina Bolivia
X: Inflación Octubre 1993 34.12 5.00 5.13 2.60 2.18 1.50 1.06 0.60 0.51 Fuente: INEI
Y : Inflación anual 1993 2567.46 44.1 32.3 12.1 52.3 39.5 22.4 7.7 8.8
1.3. ESCALAS DE MEDIDA. Tipos de escala. La asignación de números a los elementos de una población se hace siguiendo determinadas reglas y teniendo en cuenta los diferentes niveles de medida de la variable en estudio. Así, a cada persona se le asigna su coeficiente de inteligencia, calculando previamente un número que corresponde a respuestas ante determinadas situaciones típicas. En general, cuando tal procedimiento se realiza se dice que se ha establecido una escala de medida. El conocimiento de los diferentes tipos de escalas de medida permite una mejor aplicación de los métodos estadísticos, de ahí que sea importante su estudio. La tradicional clasificación en cuatro escalas fundamentales: nominales, ordinales, intervalares y de razón o cociente, fue realizada por S.S. Stevens (1946).
Escala nominal. Se tiene una escala nominal si a todos las unidades estadísticas equivalentes respecto de la propiedad o atributo en estudio se les hace corresponder un mismo número real, que funciona sólo como "etiqueta". Las operaciones que se puedan realizar con los números asignados a las unidades estadísticas, así como el orden que entre ellos se puedan establecer, no tienen significado en relación con el atributo que se mide. Con una escala de este tipo se consigue la agrupación de las unidades estadísticas en clases equivalentes llamadas modalidades o categorías. La escala nominal es el tipo de escala más sencillo. Con ella se logra una notación abreviada, por lo que su uso se ha incrementado con la aparición de la computadora. 1.7. Ejemplo.
Consideremos la población formada por todos los estudiantes de la universidad AA y en ésta, la variable sexo. Asignemos a los de sexo masculino el número 1 y a los de sexo femenino, el número 0. Se tiene así una escala nominal con las modalidades o
Carlos Véliz Capuñay
E s t a d í s t i c a D e s c r i p t iv a . 7
categorías: "masculino" y "femenino". Los elementos que forman la población han quedado agrupados en dos clases: los de sexo masculino y los de sexo femenino. Es cierto que 1 es mayor que 0, pero no se puede decir lo mismo respecto de las personas de sexo masculino y femenino. A lo más se puede decir que la persona a la que se asignó el número 1 es diferente de la persona que se l e asignó el número 0. También se tiene una escala nominal si a los estudiantes de Ciencias se les asigna el valor 1, a los de Derecho, el valor 2, a los de Sicología, el valor 3, etc. Tampoco se puede decir que un estudiante de Sicología es igual a un estudiante de Ciencias más un estudiante de Derecho, aún cuando 3 = 1+2. El número de modalidades de una variable, cuyos valores corresponden a una escala nominal, depende de la información disponible. Por ejemplo, la variable "estado civil " definida en una población formada por miembros de una comunidad puede tener: - dos modalidades: casado y soltero; - tres modalidades: casado, soltero, viudo o divorciado; - cuatro modalidades: casado, soltero, viudo o divorciado, no declara.
Escala ordinal. Se tiene una escala ordinal , cuando el orden de los números asignados a las unidades estadísticas refleja diferentes grados de la propiedad o atributo en estudio. De modo que si la cifra asignada al elemento w es mayor que la asignada al elemento u, se puede inferir que w posee un mayor grado que u en la propiedad que se estudia. Los números asignados, según la escala ordinal, sólo tienen sentido en cuanto a orden se refiere. La diferencia entre los números asignados no necesariamente tiene significado. Así, el ordenamiento en categorías de los vendedores de una tienda, asignándoles el 1, al que logró las ventas más altas, el 2 al que logró ventas intermedias y el 3 al que logró las ventas más bajas, no indica que la diferencia en ventas entre los vendedores de ventas bajas y los de ventas intermedias es igual a la diferencia en ventas entre los vendedores de ventas intermedias y los de vendedores de ventas altas, aún cuando 3 - 2 = 2 - 1. 1.8. Ejemplo.
Si al considerar la población formada por los alumnos del curso de Geografía se asigna a cada uno el orden de mérito, según las calificaciones que obtuvieron, se tendrá una escala ordinal. Si a un alumno se le asignó el número 5 y a otro se le asignó el número 8, se puede decir que el primer alumno está en mejor posición que el segundo pero no podemos decir nada respecto a la diferencia 8 - 5 = 3.
8. Estad ístic a Descr iptiva .
Carlos Véliz Capuñay
1.9. Ejemplo.
Si se considera la población formada por todos los minerales que se producen en cierta región y a cada uno de éstos le asignamos un número, de acuerdo al "grado de dureza" que poseen, la escala asignada es ordinal. Si al mineral a le asignamos el valor 2; al mineral b, el valor 4; al mineral c, el valor 10 y al mineral d , el valor 12; se puede decir que el mineral a es menos "duro" que el mineral b; que el mineral d es más "duro" que el mineral c; sin embargo, si al asignar las medidas sólo se tuvo en cuenta el orden de los valores, no se puede decir que la diferencia del grado de dureza que existe entre a y b es igual, a la diferencia del grado de dureza que hay entre c y d . La diferencia que existe entre los números asignados no necesariamente tiene significación en esta escala.
Escala intervalar. Se tiene una escala intervalar, cuando los valores asignados a las unidades estadísticas no sólo permiten que éstas puedan ser ordenadas, sino que además, las diferencias iguales entre éstos indican diferencias iguales en las cuantías de las propiedades a medir. Como ejemplo de escalas intervalares, tenemos las escalas de Fahrenheit y de Celsius (centígrada) para medir la temperatura. Para cada una de estas escalas, por ejemplo la de Celsius, los números más grandes significan mayor temperatura; el orden de los números asignados tiene significado, pero 0 también tienen significado expresiones como “la temperatura de hoy es 5 C más alta que la de ayer”. La diferencia entre las temperaturas tiene sentido. PROPIEDAD.
Una propiedad importante de este tipo de escalas indica que si para medir el mismo atributo en tres elementos w1 , w2 , w3 se usan, respectivamente, los números x1 , x 2 , x 3 en la escala intervalar E1 y los valores y1 , y 2 , y 3 en una segunda escala intervalar E2 , entonces el cociente
x1 − x3 x1 − x2
es igual al cociente
y1 − y3 y1 − y2
.
Se conoce, por ejemplo que
El agua se congela a El agua hierve a Temperatura de un cuerpo A.
Grados centígrados 0 100
Grados Fahrenheit 32 212
5
41
Estadística Descriptiva. 9
Carlos Véliz Capuñay
Observando los valores de la escala centígrada, se tiene que la razón de diferencias, 100 − 0 5−0
= 20 , es igual a la que se observa en los valores correspondientes de la escala
Fahrenheit,
212 − 32 = 20 . 41 − 32
En general, la propiedad anterior, referente a la igualdad de la proporcionalidad de las diferencias de dos escalas diferentes, de manera equivalente, puede enunciarse de la siguiente manera: Si x e y son dos valores asignados al mismo elemento para medir la misma cualidad, según dos escalas de intervalo diferentes, entonces entre estos valores se cumple la relación lineal y = a + bx Es ca la II y
y = a + bx
Se observa que y − y 2 x − x 2 = y 2 − y1 x 2 − x1
y 2 y 1 Es ca la I
x 1 x 2
x Figura 1.1
Así por ejemplo, entre los valores x, en grados centígrados, y los valores y, en grados Fahrenheit, se cumple: y = 32 + (9 / 5) x .
En estas escalas, el 0 no indica ausencia de temperatura, no tiene significado. Así, bajo 0 0 ciertas condiciones, el agua se congela a 0 C y a los 32 Fahrenheit. La elección arbitraria del origen asignado en las escalas indicadas, tampoco permite decir, por ejemplo, que “300 es dos veces más caliente que 150. 1.10. Ejemplo.
Al asignarle a cada individuo de una población su edad, estamos considerando una escala intervalar. Si José, Tito, María y Juan tienen las edades: 2, 4, 10 y 12, respectivamente, se podrá decir que José es menor que Tito, etc., pero además se podrá indicar que la diferencia entre el tiempo vivido entre José y Tito es igual a la que existe entre el tiempo vivido por María y Juan. Podemos decir que “la distancia entre José y Tito es igual a la que existe entre María y Juan”. 1.11. Ejemplo.
La estatura de una persona corresponde a una escala intervalar.
10. Est adí sti ca Descr ipt iva.
Carlos Véliz Capuñay
Muchas veces, en el estudio del comportamiento humano se realizan diversas mediciones que no corresponden exactamente a escalas intervalares; sin embargo, suelen usarse como si lo fueran. Tal es el caso, por ejemplo, de mediciones de la inteligencia, del rendimiento de una persona en Matemáticas, etc. Esto permite aplicar una serie de métodos de la Estadística que se aplican para escalas intervalares. Se puede decir que la escala intervalar es una escala cuantitativa y con ella pueden aplicarse muchos de los procedimientos estadísticos conocidos. Nótese que si para los valores 100 y 5 en la escala centígrada se realiza el cociente 100/5, el resultado es diferente al que se obtiene al realizar el cociente entre los valores correspondientes en la escala Farenheit, 212 y 41. En general, la razón entre los valores para las dos escalas de temperatura no es constante. Sin embargo, esta propiedad se cumple para las escalas de razón, que a continuación se estudian.
Escala de razón. La escala de razón o cociente, es una escala intervalar en donde los cocientes o razones de los números asignados reflejan los cocientes o razones en las cuantías de las propiedades que se miden. Para este tipo de escalas, además del cociente entre los números asignados, tienen sentido el orden y las diferencias que entre ellos se puedan establecer. Es decir toda escala de razón es intervalar y ordinal. Así, una persona que gana $1200 tiene mayor “poder adquisitivo” que otra que gana $400. El orden en esta escala tiene sentido. También se puede indicar la cantidad que gana más el primero que el segundo. La diferencia entre los números asignados tiene sentido. Además los cocientes de los valores indicados tienen significación; tiene sentido, por ejemplo, la expresión “el primero gana tres veces más que el segundo”. PROPIEDAD.
Si x e y son dos valores asignados a un mismo elemento para medir la misma cualidad, según dos escalas de razón diferentes, entonces entre estos valores se cumple la relación y = bx. Es ca la II y 1
y = bx .
y Es ca la I
x
x 1 Figura 1.2
Se observa que y1 y = x1 x
Carlos Véliz Capuñay
Estadística Descriptiva. 11
Según esta relación, el 0 tiene el mismo significado para cualquier escala de razón. Indica ausencia de la propiedad en estudio. Si el salario de una persona se expresa en dólares ( x) o en soles ( y), entonces se cumple la relación y = 2.5 x, si se supone que un dólar equivale a 2.5 soles . La constante 2.5 corresponde a lo que se denomina tipo de cambio. El cociente entre los salarios de dos personas expresados en dólares es igual al cociente de los mismos expresados en soles. Si dos personas ganan 200 y 300 dólares, respectivamente, entonces la razón entre los salarios, 300/200, es igual a la razón entre los salarios expresados en soles, 750/500.
1.4. CLASIFICACION DE LAS VARIABLES. De acuerdo a la escala usada, las variables pueden ser: cualitativas o categóricas y cuantitativas.
Variables cualitativas o categóricas . Si para un variable, la asignación de valores sólo tiene sentido cuando se usa una escala nominal u ordinal, ésta se llama variable cualitativa o categórica; así por ejemplo, el “lugar de procedencia” de un conjunto de personas, "el color" de los autos producidos por una fábrica, corresponden a variables cualitativas.
Variables cuantitativas. Una variable se llama cuantitativa o también estadística si tiene sentido para las escalas intervalar o de razón. Por ejemplo, la variable que a cada persona le hace corresponder su salario es una variable cuantitativa. La variable que a cada uno de los aparatos electrónicos producidos por una fábrica le asigna su tiempo de vida es una variable cuantitativa. De acuerdo al conjunto de valores de la variable, éstas se clasifican en: discretas y continuas.
Variables discretas Una variable es discreta, si el conjunto de valores que puede tomar es finito o infinito enumerable. (Un conjunto es "infinito enumerable" si sus elementos se pueden contar). 1.12. Ejemplo.
La variable X , definida en la población formada por los trabajadores de la industria automotriz y que indica "el número de hijos, es una variable discreta. Los valores que puede tomar esta variable sólo pueden ser los del conjunto discreto {0, 1, 2, 3, 4, ... , n}.
12. Est adí sti ca Descr ipt iva.
Carlos Véliz Capuñay
Una variable discreta cuyo conjunto de valores está formado por dos elementos, se llama binaria o dicotómica.
Variables continuas . Una variable es continua , si sus valores pueden ser cualesquiera de los elementos de un intervalo o de la reunión de intervalos. 1.13. Ejemplo.
La variable que indica el tiempo de vida de los aparatos electrónicos es una variable continua, la variable que indica la estatura de cada habitante de un país es una variable continua. Los valores que pueden tomar estas variables son no negativos. Para efectos de mejor estudio de estas variables, se considera que el intervalo en donde pueden variar los valores es [ 0, +∞[ . Muchas variables estadísticas que teóricamente son continuas, en la práctica se expresan como variables discretas. Por ejemplo, la estatura de una persona es una variable cuantitativa continua pero por la limitación de los instrumentos de medición tal vez podamos expresarla, a lo más, en centésimas de milímetro. Por otro lado, una variable cuantitativa discreta o continua, en la práctica, también puede ser considerada como una variable cualitativa. Por ejemplo, si la edad de una persona se clasifica en: menos de 20 años, entre 20 y menos de 60 años y más de 60 años, se tendrá que esta variable puede tratarse como cualitativa con las modalidades correspondientes a: “joven”, “adulto” y “anciano”, respectivamente. Las variables, de acuerdo al papel que cumplen en una investigación, pueden clasificarse en independientes, dependientes y de control.
Variables independientes . Una variable es independiente, (con relación a otra u otras) si sus valores influyen en otra u otras variables.
Variables dependientes . Una variable es dependiente si sus valores dependen de los valores que tiene una variable independiente. Las variables independientes y dependientes también se llaman explicativas y explicadas, respectivamente. Así, para ver como influye una droga A en el tratamiento de una enfermedad, el investigador aplica diferentes dosis al enfermo para observar si éste mejora o no. La variable cuyos valores son las distintas dosis de droga suministrada es una variable
Carlos Véliz Capuñay
Estadística Descriptiva. 13
independiente, mientras que la variable que indica el grado de mejoría del enfermo es una variable dependiente. En este caso, los valores de la variable independiente pueden ser manejados por el experimentador; otras veces esto no es posible, pues los valores de la variable independiente son intrínsecas al individuo al cual se aplica. Así sucede cuando se considera la variable independiente “años de estudio” y la variable dependiente “sueldo”.
Variables de control . Las variables de control ayudan a comprender la relación entre una variable independiente y una dependiente. Algunas veces se puede observar que los valores de una variable aumentan (disminuyen) cuando los valores de otra también aumentan (disminuyen); sin embargo, no es suficiente para indicar que la característica que mide una es la causa de la característica que mide la otra variable. En una encuesta se determinó que la altura de una persona y sus ingresos estaban relacionados: la gente más alta ganaba más; sin embargo, esto no fue suficiente como para indicar que la relación era “causal”. No se necesitaba ser alto para tener mejor remuneración, pues un estudio posterior, en donde se introdujo la variable sexo, indicó que los hombres eran más altos que las mujeres y que los sueldos de éstas, a pesar de la igualdad de condiciones de trabajo, eran más bajos que el de los hombres. De este modo se determinó que las variables estatura y sueldo estaban relacionadas por su relación con la variable sexo. Existía tan sólo una relación espuria, de tipo práctico (relación estadística ) pero no una relación de causa - efecto (relación causal). Las variables de control también se usan para entender una relación causal, cuya existencia no se discute. Así, para explicar por qué el grado de instrucción influye en la posición política de los electores de un país, se puede usar la variable de control “ingreso”, pues se piensa que las personas con mayores estudios ganan más dinero, y el hecho de ser más o menos rico determina el comportamiento político de los electores de un país.
1.5. CLASIFICACION DE LA I NFORMACION: Codificación y tabulación. Muchas veces los números que se asignan a los elementos de una población se obtienen directamente, como por ejemplo cuando se recopila la edad de los pobladores de una región. Otras veces, la asignación de números se realiza a partir de las posibles respuestas que se obtienen al realizar el trabajo de observación; así por ejemplo, cuando se trata de obtener información sobre la opinión que un grupo de personas tiene acerca de una determinada ley, se escribe 0, si el poblador está de acuerdo; 1, si no está de
14. Est adí sti ca Descr ipt iva.
Carlos Véliz Capuñay
acuerdo y 2 si no sabe o no opina. La codificación de las respuestas da lugar a categorías o modalidades. La codificación facilita la tabulación y el conteo y debe ser cuidadosamente realizada, pues de ella depende la obtención de una buena información. Determinadas sugerencias se hacen para obtener una buena codificación sobre todo cuando la recogida se hace sobre la base de cuestionarios. Si el cuestionario comprende preguntas abiertas, (preguntas cuya respuesta es libre de parte de la persona que responde) éstas deben ser previamente clasificadas en categorías. Asignando de manera biunívoca un número a cada categoría se tendrá un código para cada respuesta. Por ejemplo, ante la pregunta ¿cuál cree usted que pueden ser las consecuencias de una guerra para el país?, las respuestas pueden ser: - Desastre económico. - Retiro de capitales. - Pérdida de muchas vidas. - Desastre ecológico. - Me abstengo de contestar.
- No inversión de capitales. - Retraso de la cultura. - Emigración de la población. - No sé.
La categorización puede ser: Para “Deterioro económico” (comprende las respuestas de tipo económico), el 1. Para “Deterioro humano” (comprende las respuestas que tienen que ver con la vida y la cultura), el 2. Para “No hay respuesta” (comprende las respuestas: No sé y me abstengo de contestar), el 3. Para “otros” (comprende cualquier otro tipo de respuesta), el 4. De este modo, el código que le corresponde a la respuesta “retiro de capitales” es 1; a “retraso de la cultura” le corresponde el código 2, etc. Para formar categorías se recomienda: •
El análisis previo del objetivo de la investigación que se realiza. Así por ejemplo, si con la pregunta anterior deseamos conocer la proporción de personas que creen
Estadística Descriptiva. 15
Carlos Véliz Capuñay
que la consecuencia de la guerra tienen que ver con la economía, bastará con formar sólo las tres categorías siguientes: 1. Deterioro económico. 2. Otras consecuencias y 3. No sabe, no contesta. •
Estudios previos de la muestra de a lgunos cuestionarios. Estos nos darán las pautas de las posibles respuestas y por lo tanto de las categorías que debemos formar. Algunas veces se realizan “investigaciones pilotos” antes de realizar toda investigación.
•
Que las categorías contemplen todas las respuestas posibles . Existirán categorías principales, para las respuestas relevantes y categorías de tipo general que comprendan a las respuestas que no caen en las categorías principales.
•
Que las categorías no se traslapen. Cada respuesta debe pertenecer a una única categoría.
•
Que las categorías sean descritas de manera clara, tratando que sean lo más detalladas posibles y útiles en la investigación que se realiza.
•
Que las categorías de tipo general no comprendan una gran cantidad de respuestas. Se sugiere que cada categoría comprenda alrededor del 5% de todas las preguntas.
Cuando las preguntas son “cerradas”; esto es, cuando las respuestas posibles son especificadas de antemano, cada categoría se identifica con cada una de las respuestas posibles. Así por ejemplo, si la pregunta es ¿cuál es su región de procedencia? y las posibles respuestas son: 1. Costa, 2. Sierra y 3. Selva, se tendrán los siguientes códigos y categorías: Código
Categoría
1
Costa
2
Sierra
3
Selva
Como se ha indicado, las categorías que deben tomarse dependen de la investigación que se desee realizar. Por ejemplo, ante la pregunta ¿cuál es su edad en años?, se puede usar tantas categorías como posibles respuestas existan o usar como categorías las siguientes:
16. Est adí sti ca Descr ipt iva.
Carlos Véliz Capuñay
Código
Categoría
1
de 0 a 13 años
2
de 14 a 18 años
3
de 19 a más años
Esta codificación no será útil si, por ejemplo, el objetivo es determinar la edad promedio de los habitantes; sin embargo, ésta si será de utilidad si el deseo es, por ejemplo, analizar la relación que exista entre la edad y otra variable cualitativa.
1.6. PRESENTACION DE LA INFORMACION Tablas de distribución de frecuencias. Algunas veces la información requerida puede obtenerse directamente de los datos sin haber sido previamente tratados; muchas veces; sin embargo, es necesario agrupar los datos y presentarlos en tablas y diagramas sencillos. Precisamente, las tablas de distribución de frecuencias son cuadros que indican la distribución de un conjunto de datos en clases o categorías, y en donde se muestra el número de elementos y la proporción que en cada una de ellas existe. Una tabla de frecuencias describe la manera como están distribuidos o como varían los valores de una variable, permitiendo una buena ayuda para formularse interrogantes acerca de los datos y un punto de partida en la búsqueda de un modelo teórico para analizar tal distribución. Los "paquetes computacionales estadísticos" disponibles en la actualidad son innumerables y muchos de ellos, aparte de realizar una serie de análisis, tienen excelentes presentaciones de gráficas y cuadros. Entre los paquetes estadísticos están: el SPSS, el STATGRAPHICS, el SAS, el BMDP, el STATPAC, el SYSTAT, etc. También existen otros tipos de "software", tales como el QUATRO, el EXCEL, etc., que sin ser de tipo estadístico, permiten la construcción de tablas y gráficos de frecuencias. En secciones anteriores se utilizaron algunas tablas de distribución de frecuencia. En lo que sigue se presentan de manera sistemática otros ejemplos.
Caso cualitativo. 1.14. Ejemplo.
Se considera la población formada por 50 personas y en ésta, la variable cualitativa sexo. Si existen 30 varones y 20 mujeres, se puede escribir la siguiente tabla de frecuencias.
Estadística Descriptiva. 17
Carlos Véliz Capuñay
Modalidad
Frecuencia
Frec. relativa
Frec. relativa en porcentaje
Varón
30
30/50 = 0.60
60
Mujer
20
20/50 = 0.40
40
Total
50
1.00
100
En la tabla, la " frecuencia" indica las veces que se repite cada modalidad. La " frecuencia relativa" de cada modalidad es igual a la frecuencia de la modalidad entre el total de observaciones. La frecuencia relativa puede expresarse en " porcentaje", tal como se indica en la última columna. La frecuencia relativa es útil para hacer comparaciones entre dos poblaciones diferentes. Por ejemplo, cuando se desea comparar la distribución de la variable sexo en la comunidad A y en la comunidad B. En forma general, una tabla de frecuencias correspondiente a una variable cualitativa C con modalidades o categorías C 1, ... , C k , es de la forma siguiente y en donde ni indica la frecuencia o las veces que se repite la modalidad C i , T es el total de datos y f i = n / i T es la frecuencia relativa de tal modalidad. DISTRIBUCION DE FRECUENCIAS DE ACUERDO A LA VARIABLE C . Modalidad de la variable
ni
f i = ni / T
(ni / T )100%
C 1 ...
n1
n1 / T
(n1 / T )100
...
...
...
C i ...
ni
ni / T
(ni / T) 100
...
...
...
C k
nk
/ T nk
(nk / T )100
Total
T
1
100
Las frecuencias relativas pueden expresarse en porcentajes y el orden elegido para las modalidades es arbitrario. 1.15. Ejemplo.
En una entidad estatal existen 18 abogados, 32 ingenieros, 45 topógrafos, 20 obreros y 15 secretarias. La distribución de los empleados de acuerdo a la variable "ocupación" aparece en la siguiente tabla, en donde 1 corresponde a “abogado”, 2, corresponde a “ingeniero”, etc.
18. Est adí sti ca Descr ipt iva.
Carlos Véliz Capuñay
Las frecuencias que se indican en las columnas de la tabla pueden representarse con barras rectangulares o mediante sectores circulares. Ocupación.
ni
ni / T
(ni / T) 100
(1): Abogados (2): Ingenieros (3): Topógrafos (4): Obreros (5): Secretarias
18 32 45 20 15
0.1385 0.2461 0.3462 0.1538 0.1154
13.85 24.61 34.62 15.38 11.54
1.0000
100.00
TOTAL
T = 130
Se representa por ejemplo, las frecuencias ni utilizando barras rectangulares (figura 1.3. a) y luego mediante sectores circulares (figura 1.3. b). En el gráfico de barras , cada barra rectangular corresponde a una modalidad, tiene base constante y su altura puede ser medida en unidades de frecuencia o de frecuencia relativa. En la gráfica, para la modalidad "abogado" se tiene una barra vertical de altura igual a 18. En los " sectores circulares", cada sector corresponde a una modalidad y su correspondiente ángulo en el centro es θi = 360on / i T , en donde ni es la frecuencia en la modalidad. A la modalidad "abogado", por ejemplo, le corresponde un sector circular cuyo ángulo en el centro es igual a (360)(18)/130 = 49.84o.
50 40
OBRE
SECR
30
ABOG
20 TOPO INGE
10 0 ABOG
INGE
TOPO
OBRE
SECR
(a)
(b)
Figura 1.3
1.16. Ejemplo.
En la industria, para mejorar la calidad de un proceso, lo primero que generalmente se hace es reunir datos sobre la frecuencia de cada tipo de fallas. Así por ejemplo, en la fabricación de cierto tipo de piezas metálicas se detectaron las siguientes causas de fallas.
Estadística Descriptiva. 19
Carlos Véliz Capuñay
Causas de fallas Herramienta gastada Errores de operación Mal diseño Mala calidad del material
Frecuencias 12 7 3 5.
La representación gráfica se hace mediante un diagrama de barras como el que sigue. 12 7 5
1: Herram. gastada 2: Errores operacio. 3: Mal diseño 4: Mala calidad
3
1
3
2
4
Figura 1.4. Diagrama de fall as .
Caso cuantitativo discreto. 1.17. Ejemplo.
En una población formada por 100 lotes de 50 artículos cada uno, se consideró la variable cuantitativa discreta X = "número de artículos defectuosos en cada lote ". Los resultados fueron: 15423453542456452532463451632543635725427465283 36424348153737241353846545454526343523431454474 6 2 6 2 4 5. La información puede organizarse como en la siguiente tabla DISTRIBUCION DE 100 LOTES DE ACUERDO AL NUMERO DE ARTICULOS DEFECTUOSOS. x i
1 2 3 4 5 6 7 8 Total
Computo
||||| ||||| ||||| ||||| ||||| ||||| ||||| |||
||||| ||||| ||||| ||||| |||||
|||| ||||| ||| ||||| ||||| ||||| ||||| |||||
ni
f i=ni /T
N i
F i
5 14 18 25 20 10 5 3
0.05 0.14 0.18 0.25 0.20 0.10 0.05 0.03
5 19 37 62 82 92 97 100
0.05 0.19 0.37 0.62 0.82 0.92 0.97 1.00
T = 100
1
20. Est adí sti ca Descr ipt iva.
Carlos Véliz Capuñay
en donde, xi , corresponde a los distintos valores que puede tomar la variable, ni , indica la frecuencia con que se repite xi (ej. la frecuencia para 3 es 18), f i = ni / T , es la frecuencia relativa respecto del número total, T, de los datos. (ej. la frecuencia relativa para 3 es 0.18). Se presenta también en porcentajes (multiplicando cada valor por 100), N i , es la frecuencia acumulada . Es igual a la suma de las frecuencias de los valores que son menores o iguales a xi, (ej. la frecuencia acumulada para 3 es 5 + 14 + 18 = 37), F i , es la frecuencia acumulada relativa. Es igual a la suma de las frecuencias relativas de los valores que son menores o iguales a xi (ej. la frecuencia acumulada relativa para 3 es 0.05 + 0.14 + 0.18 = 0.37).
En la tabla se ha incluido una columna de "cómputo ". Las marcas facilitan el conteo. En la tabla se observa que los datos varían entre 1 y 8 y que la mayoría de los valores están entre 3 y 5. La representación gráfica de las frecuencias relativas f i, , por ejemplo, puede hacerse en un sistema de ejes coordenados cartesianos (figura 1.5), colocando en el eje de las X los distintos valores xi de la variable y en el ej e de las Y , las frecuencias relativas. Se obtienen así gráficos llamados de bastones. Para el ejemplo anterior la frecuencia relativa tiene la siguiente representación. Uniendo los puntos superiores de los “bastones” se tiene el polígono de frecuencias (en este caso relativas ). f i
- 0.25
0
1
2
3
4
5
6
7
8
X
Figura 1.5. Gráfico de bastones
.
Cada una de las siguientes figuras puede usarse para representar a la frecuencia acumulada relativa, F i .
Estadística Descriptiva. 21
Carlos Véliz Capuñay
F i
F i
1
1
0.92
0.92
0.62
0.62
0.05
0.05 1
2
3
4
5
6
7
8
X
1
2
3
4
5
6
7
8
X
Figura 1.6 Gráficas de la frecuencia acumulada relativa
Los gráficos indican el punto de partida en la búsqueda del “mejor” modelo que servirá al estadístico para estudiar la variabilidad de los resultados.
Caso cuantitativo continuo. Para organizar datos de variables estadísticas continuas se procede como en el siguiente ejemplo. 1.18. Ejemplo.
Se desea estudiar la distribución de 36 niños de acuerdo a su peso en kilos. Los datos fueron como sigue: 34.51 40.00 31.60 35.40 30.00 32.91 33.29 33.15 35.61 33.00 36.20 37.10 35.47 33.20 35.93 36.57 38.24 34.55 36.23 36.88 30.16 36.00 36.80 37.85 36.96 31.54 31.57 33.80 34.50 34.60 33.98 34.90 34.00 36.70 38.20 38.10 La variable en estudio es X = peso. Esta variable es continua. Si se sigue un procedimiento como el que se usó en el caso discreto, podría tenerse una tabla de hasta 36 líneas (una línea por cada valor diferente de la variable). Esto no es conveniente, por lo que se desarrolla el siguiente procedimiento. Los valores indicados se encuentran comprendidos entre 30 y 40 y pueden ser clasificados en "clases". Estas se obtienen dividiendo el intervalo I = [30, 40] en subintervalos de longitud igual, para simplificar. Si se acuerda dividir el intervalo I en k = 8 subintervalos de igual longitud, se tendrá que cada subintervalo obtenido mide h=
x max − x min 40 − 30 = = 1.25. 8 k
en donde: xmax = dato mayor , xmin = dato menor y k = número de subintervalos. Al valor xmax - xmin se le llama recorrido o rango de la variable.
22. Esta dísti ca Descrip tiva.
Carlos Véliz Capuñay
Los subintervalos pueden ser de longitudes diferentes, para mayor facilidad se usan de longitudes iguales. Los subintervalos obtenidos se toman, por convención, cerrados por la izquierda y abiertos por la derecha, a excepción del último, que es cerrado en ambos extremos. Los intervalos que así se forman se llaman intervalos de clase. I 1 = [30.00, 31.25[ I 3 = [32.50, 33.75[ I 5 = [35.00, 36.25[ I 7 = [37.50, 38.75[
30
31.25
32.50
33.75
I 2 = [31.25, 32.50[ I 4 = [33.75, 35.00[ I 6 = [36.25, 37.50[ I 8 = [38.75, 40.00]
35.00
36.25
37.50
38.75
40
Figura 1.7
NOTA.
Si la longitud de cada intervalo de clase no es exacta, se aproximará por exceso; de este modo la reunión de los intervalos de clase cubrirá a todos los datos considerados. Los datos ahora pueden presentarse como en la siguiente tabla. DISTRIBUCION DE LOS 100 VALORES DE LA VARIABLE PESO. Intervalos
xi
ni
f i
N i
F i
I 1 I 2
30.6250
2
0.0555
2
0.0555
31.8750
3
0.0833
5
0.1388
I 3
33.1250
5
0.1388
10
0.2776
I 4 I 5
34.3750
8
0.2222
18
0.4998
35.6250
7
0.1944
25
0.6942
I 6 I 7
36.8750
6
0.1666
31
0.8608
38.1250
4
0.1111
35
0.9719
I 8
39.3750
1
0.0277
36
1
En la tercera columna de la tabla se indica la frecuencia o número de datos que existen en cada intervalo de clase. Así, en el intervalo de clase I 3 hay 5 datos. En la segunda columna aparecen las marcas de clase que son los puntos medios de cada intervalo de clase. Se puede considerar que cada uno de estos valores es un representante de los datos que caen en el respectivo intervalo de clase. En este sentido, se puede decir que 33.1250 se repite 5 veces, el valor 34.3750 se repite 8 veces, etc. De ello se deduce la importancia que tiene el escoger un número conveniente de intervalos de clase; si se eligen pocos, la longitud de cada intervalo de clase es grande y las marcas
E s t a d í s t i c a D e s c r i p t iv iv a . 2 3
Carlos Véliz Capuñay
de clase no son buenas representaciones de los valores que están en él; si se eligen muchos, la longitud de cada uno de ellos es pequeña, se logra así una mejor representación pero la organización de los datos requiere de mayor trabajo. Los estudiosos de estos métodos han indicado diferentes reglas para determinar el número de intervalos de clase. Así, una de éstas dice que cuando el número de datos, T, es una potencia de 2 lo recomendable es tomar [1+3.3log [1+3.3log10T ] como número máximo de intervalos; esta regla se llama "de "de Sturges". Sturges". Otra regla práctica para determinar el número de intervalos de clase aparece a continuación: Número de observaciones
Número de intervalos de clase
Menor que 25 Entre 25 y 50 Mayor que 50
5 o 6. de 7 a 14. de 15 a 20.
La cuarta columna de la tabla, indicada con f i , corresponde a la frecuencia la frecuencia relativa, e indica la proporción de datos en cada intervalo. En la quinta columna aparece la frecuencia acumulada y la sexta columna, corresponde a la frecuencia acumulada relativa. El valor de la frecuencia la frecuencia acumulada, N i , en , en un intervalo de clase dado, se i nterpreta como el número de datos acumulados hasta ese intervalo, mientras que el valor de la frecuencia acumulada relativa, F i , indica la proporción de datos acumulados hasta el intervalo respectivo. Una tabla así construida resalta las características importantes de los datos, aún cuando al formarla se pierde cierta información. Tabulados los datos es más fácil observar las características de variabilidad. En el ejemplo, los datos varían entre 30 y 40. La mayor parte de los datos están entre 33.75 y 37.50. OBSERVACION.
Si n es la frecuencia en el intervalo de clase [a, [ a, b[ y se considera que los datos se distribuyen de manera “uniforme” en ese intervalo, entonces podemos considerar, por ejemplo, que en el intervalo [a, [a, c] [a, b], c] contenido en [a, b], existen aproximadamente n' =
c−a n b−a
datos
24. Esta dísti ca Descrip tiva.
Carlos Carlos Véliz Véliz Capuñay Capuñay
n n’ a
b
c Figura 1.8.
En efecto, usando la semejanza de triángulos se tiene que
n n′ , de donde resulta = b−a c−a
lo antes indicado. En particular, si c es la marca de clase del intervalo, en [a, [a, c[ hay n' = (1 / 2 ) n . El resultado anterior se extiende para el caso de las frecuencias relativas De este modo si la frecuencia relativa en [a, [a, b[ es f es f , entonces la frecuencia relativa en [a, [a, c[ es f' = = [(c [(c c [ es f' )/(b - a)] f a)/(b f . 1.19. Ejemplo.
La distribución de frecuencias de 80 alumnos, de acuerdo a sus notas de Historia es ni [10, 12[ [12, 14[ [14, 16[ [16, 18]
12 30 28 10
f i 0.150 0.375 0.350 0.125
N i 12 42 70 80
F i 0.150 0.525 0.875 1.000
Si se desea asignar el calificativo "excelente" al 5% de los estudiantes, ¿cuál es el valor aproximado de la nota A nota A que se debe considerar como mínima para tener tal calificativo?. Solución. En la tabla se lee que el 87.5% de estudiantes tienen nota inferior a 16. La nota A buscada está en el intervalo [16, 18[.
El 5% de los estudiantes debe tener notas comprendidas entre los valores A valores A y y 18. Luego,
18 − 16 0125 .
=
18 − A 0.05
A = Despejando, resulta que la nota a considerar, por encima de la cual existe el 5%, es es A 17.2 1.20. Ejemplo.
Las notas de N de N estudiantes estudiantes están distribuidas tal como se indica en la siguiente tabla.
E s t a d í s t i c a D e s c r i p t iv iv a . 2 5
Carlos Véliz Capuñay
Notas
f i f 1 f 2
[8, 11[ [11, 14[ [14, 17[
f 3 f 4
[17, 20]
Calcular las frecuencias relativas si el 40% de los estudiantes tienen notas menores que 12.5, el 80% tienen notas menores que 15.5 y el 85% tienen notas menores o iguales a 16. Solución. Se tiene que f 1 + f 2 + f 3 + f 4 = 1 f 1 + 0.5 f 2 = 0.4
(la proporción de datos en [11, 12.5[ es 0.5 f 2 )
f 1 + f 2 + 0.5 f 3 = 0.80 (la proporción de datos en [14 , 15.5[ es 0.5 f 3 ) f 1 + f 2 + ( 2 / 3) f 3 = 0.85 (la proporción de datos en [14 ,16[ es (2 / 3) f 3 )
Resolviendo las ecuaciones, se tiene: f 1 = 0.15, f 2 = 0.5, f 3 = 0.30 y f 4 = 0.05.
HISTOGRAMAS Como en el caso discreto, las frecuencias de los conjuntos de datos que corresponden a variables continuas se representan gráficamente con la finalidad de obtener patrones que indiquen la variabilidad o distribución de los mismos. A menudo se usan curvas cuyas formas se obtienen a partir de los gráficos llamados histogramas. Los histogramas se obtienen al yuxtaponer bandas rectangulares. Cada banda corresponde a cada intervalo de clase I i. La base es el intervalo y la altura puede tomarse proporcional a la frecuencia que se desea representar. Así, para representar la frecuencia relativa, f i , cada altura puede tomarse igual a f / i li, en donde li es la longitud del intervalo de clase correspondiente. De este modo se tiene que la suma de las áreas de las bandas es igual a 1 y el histograma es un histograma de frecuencias relativas . polígono de de frecuencias
f i / li
l 30
I i
40
i
I i
Figura 1.9. Histograma correspondiente al ejemplo 1.17
26. Esta dísti ca Descrip tiva.
Carlos Véliz Capuñay
OBSERVACION.
A menudo se usa como altura de cada banda rectangular al lado de longitud f i, sobre todo si todos los intervalos de clase tienen la misma longitud. Cuando los intervalos de clase son de longitudes diferentes, la altura de cada banda rectangular se toma igual a f / i li.
POLIGONOS DE FRECUENCIA. Uniendo los puntos medios de los lados superiores de cada banda rectangular del histograma se obtiene un polígono llamado polígono de frecuencias. (Figura 1.9) El polígono de frecuencias, como en el caso discreto, ayuda en la búsqueda de la curva o modelo teórico que mejor describe la variabilidad o distribución de los elementos de la población de acuerdo a la variable en estudio. A continuación se presentan de manera "suavizada" diversas formas de polígonos de frecuencias. El gráfico que aparece en (a) indica que el grupo de datos se acumula a la izquierda; que hay pocos datos con valores altos. Se dice que este tipo de polígono es sesgado con cola a la derecha. De manera análoga, se puede decir que el gráfico que aparece en (b) es sesgado con cola a la izquierda. El gráfico que aparece en (c) corresponde a un histograma simétrico, indica que los datos están distribuidos de manera simétrica, que éstos están acumulados en su mayoría en la parte central mientras que a la izquierda y a la derecha del centro hay pocos. Las distribuciones con este tipo de gráficos son muy comunes y a menudo se llaman “distribuciones normales”; sin embargo, para que las distribuciones tengan este calificativo necesitan ciertas condiciones adicionales, que estudiaremos posteriormente. La gráfica (d) corresponde a una distribución bimodal ; los datos están agrupados en dos sectores de la recta.
(a )
(b )
(c )
(d )
Figura 1.10. Diversas formas de los polígonos suavizados de frecuencias.
1.21. Ejemplo.
En la siguiente tabla se presenta la distribución de 50 alumnos de un centro de educación superior de acuerdo a las calificaciones de una prueba de aptitud. El polígono de frecuencias absolutas y la curva que las suaviza aparecen a continuación. Se observa que es una gráfica asimétrica con una cola a la derecha.
E s t a d í s t i c a D e s c r i p t iv a . 2 7
Carlos Véliz Capuñay
DISTRIBUCION DE 50 ALUMNOS DE ACUERDO A LA VARIABLE "APTITUD"
Puntuaciones [30, 40[ [40, 50[ [50, 60[ [60, 70[ [70, 80[ [80, 90[ [90, 100[ [100, 110[ [110, 120]
Frec. absoluta
20 -
4 11 7 14 5 5 3 0 1
15 -
Polígono de frecuencias
10 5
-
30 40 50 60 70 80 90 100 110 120
Figura 1.11. Polígono de frecuencias y su "suavización".
Las frecuencias acumulada absoluta y acumulada relativa de un grupo de datos se representan de manera análoga a las frecuencias absoluta y relativa. En este caso las bandas yuxtapuestas tienen altura igual al valor de la frecuencia acumulada correspondiente. (Figura 1.12). La representación de un polígono de frecuencias acumuladas , por ejemplo, relativas, se hace considerando que los datos se distribuyen de manera uniforme en cada uno de los intervalos de clase, de tal modo que en cada uno de éstos la frecuencia acumulada se puede aproximar con un segmento tal como AB en el intervalo [750, 1000[. Figura 1.13 a). La poligonal que se forma con los segmentos se llama ojiva. En la figura 1.13 b). se muestra la ojiva suavizada. Los diagramas de frecuencias acumulada son herramientas que se usan a menudo para descubrir corrimientos en los datos. Así, para comparar la calidad del aire en Enero y Julio para un grupo de ciudades se puede graficar las frecuencias acumuladas relativas del número de días que tuvieron un índice de contaminación mayor que un determinado valor. 1.22. Ejemplo
La siguiente tabla corresponde a la distribución de los salarios de 25 obreros. Los valores que aparecen en la última columna corresponden a la frecuencia acumulada relativa. DISTRIBUCION DE LOS SALARIOS DE 25 OBREROS. Intervalos
xi
ni
f i
F i
[250,500[
375
2
0.08
0.08
[500,750[
625
4
0.16
0.24
[750,1000[
875
6
0.24
0.48
[1000,1250[
1125
7
0.28
0.76
[1250,1500[
1375
3
0.12
0.88
[1500,1750]
1625
3
0.12
1.00
Los histogramas para la frecuencia relativa y acumulada relativa son los siguientes:
28. Esta dísti ca Descrip tiva.
Carlos Véliz Capuñay
- f
1
- F
1
0.76 -
0.28 0.24 -
0.48 -
0.16 -
0.24 -
0.08
0.08
250
750 500
1250 1000
1750
250
1500
750 500
1250 1000
1750 1500
Figura 1.12. f: frecuencia relativa y F: frecuencia acumulada relativa .
La ojiva y su suavización se presentan a continuación. - F
1
1
0.76 -
F ( x )
Ojiva B
0.48 -
x
A
0.24 0.08
F ( x )
250
750 500
1250 1000
1750 1500
x
(a)
(b )
Figura 1.13. (a) Ojiva. (b) Ojiva suavizada
1.23. Ejemplo.
Completar la siguiente tabla de distribución de frecuencias si el histograma correspondiente es simétrico, el 75% de los datos son mayores que 43.5 y los intervalos de clase son de igual longitud. (Se considera que n = frecuencia y N = frecuencia acumulada ). n [a, b]
n1
[b, c[
n1 +5
[c, d [
30
N
[d, e[ [e, f [ [60, h]
150
Solución. Como la distribución es simétrica, se tiene que las frecuencias en los intervalos [d , e[, [e, f [ y [60, h] son: 30, n +5 y n , respectivamente. 1
1
Estadística Descriptiva. 29
Carlos Véliz Capuñay
La frecuencia acumulada en el intervalo [60, h] es 150, luego, 150 = 2 n + 2( n + 5) + 2(30). 1
1
Desarrollando resulta n = 20. A partir de este valor se obtienen las frecuencias 1
respectivas de los otros intervalos: 25, etc. Obtenidas las frecuencias para cada intervalo se encuentran las frecuencias acumuladas que faltan: 20, 45, 75, 105, 130. Para obtener los extremos de los intervalos de clase, obsérvese que si A es la longitud de cada intervalo, el extremo izquierdo del primer intervalo es 60 - 5 A. El histograma de frecuencias acumuladas para los dos primeros intervalos de clase es como sigue.
17.5
n2 = 25
n1 =20
60-4 A 43.5
60-5 A
60-3 A
Figura. 1.14
Hasta b se han acumulado 20 datos (menos del 25%). Hasta c se han acumulado 45 datos (más del 25%). Luego, el valor 43.5, hasta donde existe el 25% de los datos, estará en el segundo intervalo. Por semejanza de triángulos:
43.5 − ( 60 − 4 A) 17.5
=
A 25
, de donde resulta que A = 5.
Los extremos del primer intervalo son 35 y 40, del segundo, 40 y 45, etc. 1.24. Ejemplo.
La siguiente tabla resume la distribución porcentual de 500 familias en función de su renta. Como en los casos anteriores, los intervalos de clase incluyen el límite izquierdo y excluyen el derecho, a excepción del último intervalo. El histograma se ha construido de tal manera que el área de cada banda rectangular es igual a la frecuencia porcentual correspondiente. La suma de las áreas de todas las bandas rectangulares es igual a 100%. La altura del rectángulo con base el intervalo [7000, 10000[, por ejemplo, es de 15%/3 = 5% por cada mil dólares.
30. Est adí sti ca Descr ipt iva.
N iv e l d e in g [0 , 1 0 0 0 [ [1 0 0 0 , 2 0 00 [ [2 0 0 0 , 3 0 00 [ [3 0 0 0 , 4 0 00 [ [ 4 0 0 0 ,5 0 0 0 [ [ 5 0 0 0 ,6 0 0 0 [ [6 0 0 0 , 7 0 00 [ [ 7 00 0, 1 00 0 0[ [ 10 0 00 , 1 50 0 0[ [ 15 0 00 , 2 50 0 0[ [ 25 0 00 , 5 00 0 0]
Carlos Véliz Capuñay
% por mil dólares
% 1 2 3 4 5 5 5 15 26 26 9
6 5 4 3 2 1 0
5
25 15 10 Renta (m iles de dólares)
50
Figura. 1.15
Cuando la variable en estudio es discreta y posee muchos valores, se usan también histogramas. En tal caso, los intervalos de clase están centrados en los valores de la variable.
Histogramas y control sobre una variable. Uno de los temas a investigar que eligió un grupo de estudiantes de medicina fue el efecto del número de hijos que tenía una mujer sobre la presión sanguínea. Parecía natural comparar los histogramas de la presión sanguínea de grupos de mujeres con diferentes números de hijos y así se hizo. Si bien es cierto que se comparó grupos de mujeres con diferentes números de hijos, se presenta a continuación esbozos de la suavización de los polígonos de frecuencias de grupos de mujeres con 2 y 4 hijos.
Con 2 hijos Con 4 hijos
90 mm
160 mm
Figura. 1.16
Al parecer y según el gráfico, el número de hijos influye en el aumento de presión en las mujeres y podría concluirse que las mujeres con cuatro hijos tienen la presión más alta que las mujeres que tienen dos hijos; sin embargo, no se puede indicar que ello es una prueba de causalidad; es decir que sea el mayor número de hijos la causa del aumento de la presión sanguínea en las mujeres, pues hay que tener en cuenta que generalmente las mujeres con mayor número de hijos tienen mayor edad y podría suceder que sea la edad un factor cuyos efectos se confunden con el tener hijos. Para poder estudiar con claridad el efecto del número de hijos era necesario efectuar comparaciones independientes para cada grupo de edad, esto es, establecer un control sobre la variable edad y así se pudo comprobar que no existía asociación entre el número de niños que una mujer había tenido y su presión sanguínea.
Estadística Descriptiva. 31
Carlos Véliz Capuñay
En muchas ocasiones un factor que cause confusión puede ser controlado, como se indicará más adelante mediante el empleo de las tablas de frecuencias.
Diagrama de tallo y hojas. Los histogramas y gráficos de bastones nos muestran la manera como varían los datos. Sin embargo, éstos no permiten la identificación de los datos que se han usado para ello. El gráfico de tallo y hojas indica no sólo la manera como están distribuidos los datos sino que además los muestra. El gráfico de "tallos y hojas” se construye, básicamente, partiendo las cifras que forman al dato en dos grupos: uno con las primeras cifras para formar el tallo y el otro con las cifras restantes para formar las hojas. Así por ejemplo, si tenemos el dato 68, la cifra 6 de las décimas corresponderá al tallo mientras que el 8, que es la cifra de las unidades, formará la hoja. El tallo y las hojas que se formen se dividen con una línea vertical. Tallo 6
Hojas 8
1.25. Ejemplo.
Representar, usando el diagrama de tallo y hojas, los siguientes datos correspondientes a las puntuaciones de un test de memoria. 21 22 32 36 38 42 44 44 46 46 46 48 51 52 54 55 56 64 65 70 82. Solución. Tomando las decenas como tallos y las unidades como hojas resulta 2 3 4 5 6 7 8
12 268 2446668 12465 45 0 2
En el diagrama se observa que existe cierta simetría en la dispersión; y que el valor 82 es discordante con el resto de datos. En el caso de datos que tienen cifras decimales, al construir el diagrama de tallo y hojas, el punto decimal se pierde, por tal razón se acostumbra indicar las unidades que los datos del tallo representan. 1.26. Ejemplo.
En el siguiente diagrama la indicación "Unidad = 0.01" significa que, por ejemplo, 41|2 representa al dato 4.12.
32. Est adí sti ca Descr ipt iva.
Carlos Véliz Capuñay
Unidad = 0.01
Ejemplo. 41|2 representa 4.12. 41 42 43 44 45 46
22 668 103251 23 1 2
Si se indicara: "Unidad = 0.1", se tendría, por ejemplo, que 41|2 representa al dato 41.2.
1.7. EJERCICIOS. 1. Se ha indicado que el porcentaje de varones mayores de 20 años que no tienen empleo en una ciudad de 5 millones de habitantes es 6 %. Los resultados fueron obtenidos a partir de un cuestionario aplicado a 2000 personas de la ciudad, elegidas de entre las personas mayores de 20 años. a) ¿Sobre qué población se ha realizado la encuesta?. ¿Cuáles son las unidades estadísticas?. b) ¿Cuál ha sido la muestra utilizada?. Rpta. Población: conjunto formado por las personas mayores de 20 años. Unidad estadística: cada varón mayor de 20 años. Muestra: conjunto formado por los 2 000 personas mayores de 20 años. 2. El gerente de ventas de un a tienda de prendas de vestir desea saber cuál será la demanda de pantalones en el próximo mes, así como las tallas que más demanda tendrán. Si el gerente dispone de un registro del total de las ventas realizadas por la tienda durante los 10 meses anteriores y usa esta información como una muestra para predecir las ventas del próximo mes, ¿cuál es la población?. 3. En los siguientes casos, indicar la población, las unidades estadísticas y el tipo de escala a usar si se trata de: a) Asignar a los distritos de la capital su código postal. b) Asignar a las personas de u na ciudad, el número de teléfono que poseen. c) Asignar a cada profesor de una universidad su categoría (profesor auxiliar, profesor asociado o profesor principal). d) Asignar a cada par de ciudades de un país la distancia, en kilómetros, que existe entre ellas. Rpta. a) Nominal b) nominal, c) ordinal, d) intervalar y de razón. 4. El censo de alumnos de una universidad considera las siguientes variables: Facultad, año de ingreso, nacionalidad, tiempo de residencia en el país, número de semestres que lleva en la universidad, grado en la escala de pensiones, grado de instrucción del padre, número de hermanos, ingreso mensual familiar promedio. Clasifique las variables e indique el tipo de escala en que están medidas. 5. Un profesor propone a sus alumnos del curso de Aritmética, una prueba de 10 ejercicios de cálculo de sumas. Si alguno de los ejercicios presenta, al resolverlo, algún error de cálculo, el profesor califica la prueba con 0, d e otro modo la califica con 1. ¿Qué tipo de escala empleó?. Rpta. Ordinal. 6. Si el profesor del ejercicio anterior cuenta los ejercicios correctos y considera que tal número corresponde a la “habilidad de cálculo”, ¿qué tipo de escala ha empleado?. 7. A los elementos w, y y z de una población se les asignó los números 8, 16 y 30 respectivamente, para medir cierto atributo. Si en lugar del número asignado a w se le asignara el 20 y el número 40 a y, ¿qué número se le puede asignar a z si las escalas usadas son:
Estadística Descriptiva. 33
Carlos Véliz Capuñay
a) nominales?. b) ordinales?. c) intervalares?. Rpta. a) Cualquier número diferente de 20 y 40, b) Cualquier número mayor que 40, c) 75. 8. Ciento setenta y cinco médicos fueron clasificados de acuerdo a su especialidad. Los resultados fueron los siguientes: de Medicina General: 25, de Pediatría: 50, de Medicina Interna: 80, de otras especialidades: 20. Construir un diagrama de barras para ilustrar la distribución de los 175 médicos de acuerdo a su especialidad. 9. En Marzo de 1995 la inversión extranjera en el Perú y de acuerdo al país de origen fue como sigue: España 46% Países Bajos 6% EE.UU. 16% Panamá 5% Reino Unido 8% Chile 4% Otros 15%. a) Identificar la variable medida. b) Representar usando un diagrama de sectores circulares, la información anterior 10. En Marzo de 1995 la inversión extranjera en el Perú de acuerdo al sector de destino fue como sigue: Comunicaciones Minería Industria Energía
45% 20% 12% 8%
Finanzas Comercio Otros
6% 5% 4%
a) Identificar la variable medida. b) Representar, usando un gráfico de barras, la información anterior. 11. Usando un diagrama de barras, mostrar la extensión territorial de los países Perú, Chile, Ecuador, Argentina y Brasil. 12. Construir un diagrama adecuado que permita comparar la predilección de los estudiantes por las carreras de ciencias en tres universidades si se tienen los siguientes datos: Universida d A B C
Alumnos de Ciencias 150 50 140
Total de alumnos 2000 5000 3000
13. Los siguientes datos proporcionan los ingresos anuales en miles de dólares de 50 personas: 7.9 10.3 45.7 95 43.0 56.0 38.0 6.7 48.0 30.5 25.0 40.0 30.0 25.5 50.0 17.1 25.5 43.5 31.6 59.0 41.5 13.5 12.0 9.2 42.0 41.9 35.0 11.7 55.3 27.0 58.4 57.0 29.6 38.5 26.0 16.5 18.0 24.9 20.0 28.0 28.5 36.4 39.5 5.0 9.0 5.0 6.9 7.0 12.0 8.3. a) Construir un histograma de frecuencias relativas con 6 in tervalos de clase para los ingresos anuales. b) Interpretar el histograma. c) Usar las marcas de clase construido para estimar la proporción de ingresos que están entre 12500 dólares y 52500 dólares. d) Estimar la proporción de sueldos que están debajo de 50000. e) Estimar la proporción de sueldos que están por encima de 40000. 14. Un censo realizado a 10 jefes de familia proporcionó los datos que aparecen en la siguiente tabla, en donde
34. Est adí sti ca Descr ipt iva.
Carlos Véliz Capuñay
V 1 = Procedencia, V 2 = Edad, V 3 = Estado civil, V 4 = Sueldo, V 5 = Número de hijos y V 6 = Cantidad de dinero que asigna en alimentación de la familia.
a) Indicar a que tipo p ertenece cada una de las variables consideradas. b) Para la variable "procedencia" construir una tabla de frecuencias y represente gráficamente la distribución mediante una gráfico de barras y de sectores circulares. c) Como en la parte b), para la variable "estado civil". Familia
V 1
V 2
V 3
V 4
V 5
V 6
1 2 3 4 5 6 7 8 9 10
P P L P L L L P P P
32 28 45 38 49 50 30 32 52 49
S C C C S V S C C V
600 700 650 850 900 1000 860 550 890 900
1 1 2 2 3 2 3 2 0 3
300 400 350 380 400 380 560 300 350 400
L = Lima, P = provincias, S = soltero, C = casado, V = viudo Rpta. V 1: Cualitativa, V 2: Cuantitativa, continua, V 3: Cualitativa, V 4: Cuantitativa, continua, V 5: Cuantitativa, discreta, V 6: Cuantitativa, continua. 15. El consumo de agua, en metros cúbicos, de 30 viviendas en el mes de Julio fue como sigue: 4.3 78 6.1 15.7 12.8 17.2 3.5 16.1 12.4 6.9 18.0 11 .5 13.4 6.5 14.3 8.7 13.0 9.2 12.8 3.0 4.2 11.2 16.2 7 4 .5 7.8 15.9 16.5 8.4 5. 9. a) Construir una tabla de distribución de frecuencias usando 5 intervalos de clase y graficar: el histograma de frecuencias relativas, el polígono de frecuencias relativas y la ojiva. b) Indicar de manera aproximada el porcentaje de viviendas que consumieron entre 10 y 15 metros cúbicos. c) Graficar la ojiva y usando ésta, indicar de manera aproximada, el porcentaje de viviendas que consumieron entre 12 y 15 metros cúbicos. 16. El nú mero de periódicos que un canillita vendió durante los últimos 24 días fue como sigue: 13 21 16 30 42 5 33 26 28 45 17 28 39 32 8 34 27 33 27 26 24 28 16 21. ¿Cuál es el porcentaje de días en los que el canillita vendió más de 20 periódicos?. Usar el método de los intervalos de clase indicado para variables continuas, para obtener una tabla de distribución de frecuencias. con cuatro intervalos de clase y responder la pregunta anterior. Comentar los resultados, con respecto a los métodos usados. Rpta. 75%. 17. Los salarios que una empresa ofrece a los practicantes oscilan entre $150 y $270 y se encuentran divididos en cuatro intervalos de clase de igual longitud. Si se supone que los salarios se distribuyen de manera uniforme, que el 40% de los practicantes ganan no más de $195, el 80% ganan $225 o menos y el 15% gana más de $232.5, a) ¿cuál es el porcentaje de practicantes en cada categoría o intervalo de clase?. b) ¿Cuánto debe aumentar la compañía a cada practicante para que el 20% de ellos supere los $240 de salario?. 18. Completar la siguiente tabla. Indicar los extremos de cada intervalo de clase.
Estadística Descriptiva. 35
Carlos Véliz Capuñay
Intervalos de clase. A B C D E
Marca de clase
Frecuencia. relativa 0.10 ... 0.55 ... 0.10
.. 6 ... 14 ...
Frecuencia acumulada. relativa ... 0.25 ... 0.9 ...
19. En la siguiente tabla de distribución, un agente de seguros ha ordenado los datos mensuales correspondiente a la cantidad de dólares de las pólizas de seguros que ha vendido durante los tres años anteriores: Venta mensual [10000, 12000[ [12000, 14000[ [14000, 16000[ [16000, 18000[
Frecuencia 2 4 7 5
Venta mensual [18000, 20000[ [20000, 22000[ [22000, 24000[ [24000, 26000]
Frecuencia 6 8 2 1
a) Construir el histograma de frecuencias relativas b) Construir el polígono de frecuencias relativas. c) Indicar la ojiva correspondiente d) Indicar las características de la distribución indicada. 20. El peso, en gramos, de 30 objetos de un mismo tipo fue como sigue. 21.3 15.8 18.4 22.7 19.6 15.8 26.4 17.3 11.2 23.9 26.8 22.7 18.0 20.5 11.0 18.5 23.0 24.6 20.1 16.2 08.3 21.9 12.3 22.3 13.4 17.9 12.2 13.4 15.1 19.1. Construir un diagrama de tallo y hojas p ara los datos indicados. Indicar las características de la distribución. 21. La siguiente figura es un histograma que muestra la distribución de la presión sanguínea de un grupo de mujeres que participaron en un estudio. 4
%
3 2 1 0 90
100
110
120
130
140
150
Presión sanguínea.
Figura. 1.17.
a) ¿En qué intervalo hay más mujeres: en [135, 140] o en [140, 150] ?. b) ¿Qué intervalo es más denso: [135, 140] o [140, 150]?. c) ¿Cuál es el intervalo más denso de todo el histograma?.
160
36. Est adí sti ca Descr ipt iva.
Carlos Véliz Capuñay
1.8. METODOS NUMERICOS PARA DESCRIBIR DATOS . La naturaleza de los datos permite, en muchos casos, cierto tipo de análisis a partir de los gráficos de la distribución. Sin embargo, también es necesario considerar resúmenes numéricos que permitan tener una mejor idea de la manera como los datos están distribuidos a lo largo de la recta. Estas características numéricas, que se estudiarán en esta sección, se llaman estadígrafos. Los estadísticos han tratado de establecer estadígrafos que sean objetivos y fáciles de calcular. Algunas de estas medidas dependen de todas las observaciones y son muy sensibles a las fluctuaciones de éstas; ótras, sin embargo, no dependen de todas las observaciones, siendo resistentes ante los cambios de los valores extremos. La mayor parte de los conjuntos de datos muestran una tendencia a agruparse alrededor de un valor central. Estos valores, que de alguna manera tipifican al conjunto, se llaman medidas de tendencia central. Entre estas medidas se tienen: la moda, la media aritmética, la mediana, la media geométrica y la media armónica . Además de las medidas de tendencia central están las medidas que indican la dispersión que se produce en torno del centro de los datos. Entre estas medidas se tiene: el rango o recorrido, la varianza, la desviación estándar, el coeficiente de variación, los intercuartiles, etc. La manera como están distribuidos los datos de un conjunto puede resumirse en lo que se llama la simetría y el apuntamiento de la curva que los describe.
MEDIDAS DE TENDENCIA CENTRAL . La moda . Para un grupo de datos, correspondientes a una variable, la moda es el valor de la variable que más se repite. La moda es el dato "más frecuente". Se denotará con M 0 . (Figura 1.18 a). 1.27. Ejemplo.
Para el siguiente grupo de datos: 3 3 3 5 3 4 5 7 3 5 7 8 3 4 9 2 8 1, la moda es 3. 1.28. Ejemplo.
En la siguiente tabla se presenta la distribución de los valores de la variable “grado de instrucción” correspondiente a 40 personas. En esta tabla se observa que la categoría que más se repite corresponde al grado de instrucción secundaria, la cual se ha nombrado con el número 3. La moda es 3. La mayoría de las 40 personas tienen educación secundaria.
Estadística Descriptiva. 37
Carlos Véliz Capuñay
Grado de Instruc.
Frecuencia
Analfabetos: 1
3
Primaria:
2
11
Secundaria: 3
25
Técnica:
4
0
Universit:
5
1
Un grupo de datos puede tener una moda, dos modas, etc. En tales casos la distribución se llama, respectivamente, unimodal , bimodal , etc. La moda se puede usar para cualquier tipo de escala. Si los datos están agrupados en una tabla de intervalos de clase y corresponden a una variable continua, no será posible determinar exactamente la moda; pero sí el intervalo de mayor frecuencia; a éste se le llama intervalo modal (Figura 1.18 b).
M 0
a
b
(b) [ a, b] es el intervalo modal
(a) Moda
Figura 1.18.
La media aritmética . La media aritmética o simplemente media de un grupo de datos, caracteriza a los grupos de datos cuyo polígono de frecuencias presenta simetría y poca dispersión. Se define de la siguiente manera: Si x1, ... , xn es un grupo de valores, la media aritmética o simplemente media de estos datos es el número x =
x1 +... + x n n
=
1 n ∑ x n i =1 i
1.29. Ejemplo.
Los siguientes datos corresponden al tiempo, en minutos, que utilizan 30 empleados en realizar una tarea. 4.1 2.2 6.7 2.9 5.0 3.2 3.7 3.4 4.0 7.5 3.1 8.0 2.4 7.6 6.2 8.7 4.5 4.7 6.1 3.5 2.7 4.5 3.9 5.1 3.0 4.6 4.6 3.6 4.0 3.7.
38. Esta dísti ca Descrip tiva.
Carlos Véliz Capuñay
La media es x =
4.1+...+3.7 = 45733 . . 30
OBSERVACIONES.
1. Observar que la media no necesariamente es uno de los datos. 2. La media aritmética resulta afectada por valores extremos que no son representativos del resto de los datos. Esto es una desventaja. Si los valores x1, ... , xk se repiten, respectivamente, n1, ..., nk veces (n1 +... + nk = total de datos), entonces, x =
x1n1 +.. .+ x k n k n1 + .. .+ n k
k
= ∑ f i xi i =1
en donde f i = n / i n, ( frecuencia relativa de xi). A esta igualdad se le llama a menudo fórmula de la media para datos agrupados. Esta expresión permite interpretar la media aritmética como una suma ponderada de los diferentes datos del grupo . La ponderación de cada valor xi es f i. (Nótese que la suma de las ponderaciones es 1). En general, dados los valores x1 , x 2 , ... , x k , la media ponderada de éstos se define como el número k
x =
∑ wi xi con ∑ wi = 1 ,
i =1
en donde w i es un “peso o ponderación” que indica la importancia relativa de la i-ésima observación.
1.30. Ejemplo.
Para la confección de un artículo una compañía utiliza: 1 hora para armado y 5 horas para acabado. El salario por hora que paga la compañía es de $5 por hora para el armado y de $9 por el acabado. La compañía desea saber el promedio del costo de trabajo por hora para confeccionar dicho producto. El simple promedio aritmético de los salarios pagados por trabajo es x =
5+ 9 =7 2
Estadística Descriptiva. 39
Carlos Véliz Capuñay
Utilizando este promedio, se tendría que el costo del trabajo realizado para confeccionar una unidad del producto es 7(1 + 5) = 42. Lo que es incorrecto. Como se realizan diferentes actividades para confeccionar el producto, es obvio que ello debe tomarse en cuenta. El promedio correcto se puede determinar considerando que el costo total por el trabajo realizado es (5x1) + (9x5) = 49 y como se invierten 6 horas de trabajo, el costo promedio de trabajo por hora es 49/6 = 8.17 aprox. Se obtiene el mismo resultado si se considera que para confeccionar una unidad del producto es necesario 6 horas. Un 1/6 de ese tiempo es para el armado y 5/6 para el acabado. Utilizando estas fracciones como ponderaciones se tendrá que una hora de trabajo realizado cuesta en promedio (1/6)5 + (5/6)9 = 8.17 aprox. Se tiene que el costo promedio por hora para confeccionar un producto es la media ponderada de los valores 5 y 9. El aumento del precio de un bien puede ser “insignificante” para algunos pero “muy importante” para otros. Si el aumento del precio del consumo de electricidad es 20%, el de la vivienda el 10% y el de la alimentación, el 3%, se tendrá que la media del aumento de los precios es 11%; sin embargo, para una persona que dedica el 1% de su sueldo a consumo de electricidad, el 9% a vivienda y el 90% para alimentación, el promedio del aumento de los precios es 3.80%; para otra persona que dedica el 10% de su sueldo a electricidad, el 40% a vivienda y el 50% a alimentación, el promedio es 7.5%. Si los datos están agrupados en intervalos de clase, la media se aproxima usando las marcas de clase, x ' : x ≈
1 k ∑ x ′ n n i =1 i i
,
1.31. Ejemplo.
En la siguiente tabla de frecuencias aparecen los intervalos de clase, las marcas de clase y la frecuencia de un conjunto de 17 datos. Intervalos
ni
[5 9[
xi 7
[9 13[
11
4
[13 17[
15
7
[17 21[
19
3
[21 25]
23
1
Una aproximación de la media es
2
40. Est adí sti ca Descr ipt iva.
x ≈
Carlos Véliz Capuñay
2( 7) + 4(11) + 7(15) + 3(19 ) + 1(23) = 14.294 . 17
La media no tiene significación si los datos, para los cuales se calcula, han resultado de aplicar una escala nominal u ordinal.
Propiedades de la media aritmética . a) La suma de n datos es igual a n veces su media. Esto es , n
∑ xi
= nx
i =1
b) Si a cada uno de los datos se le suma una constante k, la media de los datos transformados es igual a la media de los datos originales más la constante k. En particular, si a cada uno de los valores x 1 , ... , xn , se les resta la media del grupo, la media de los nuevos valores es 0. Esto es, n
∑ ( xi − x )
i =1
n
=0
c) De la relación anterior se tiene que la suma de las desviaciones de cada dato respecto de su media es 0. Esto es, n
∑ ( x i − x ) = 0
i =1
d) Si a cada uno de los datos se les multiplica (divide) por una constante k, la media de los datos transformados es igual a la media de los datos originales multiplicada (dividida ) entre la constante. e) Si el conjunto de m datos , x1, ..., xm tiene media x y el conjunto de n datos, y1, ..., yn tiene media y , entonces el conjunto x1, ..., xm , y 1, ..., yn, tiene media mx + ny . m+ n f) La media x de los valores x1, ... , xn corresponde al valor de a que hace mínima a la expresión
Estadística Descriptiva. 41
Carlos Véliz Capuñay
n
∑ ( xi − a ) 2 , ∀a .
i =1 n
n
i =1
i =1
∑ ( xi − x ) 2 ≤ ∑ ( xi − a ) 2 , ∀ a.
Esto es,
Nota.
Obviamente,
n
n
i =1
i =1
∑ k ( xi − x ) 2 ≤ ∑ k ( xi − a ) 2 , ∀ a y para cualquiera valor de la
constante k. 1.32. Ejemplo.
El promedio de los precios de los artículos que conforman “la canasta familiar” en cierta ciudad es 400 unidades monetarias. Si cada artículo de la canasta aumenta el 10% de su precio entonces el nuevo promedio de los precios de la canasta es igual a (1.10)(400) = 440. 1.33. Ejemplo.
Si el salario promedio de las 20 mujeres que trabajan en una compañía A es 200 unidades monetarias y el de los 30 hombres que trabajan en la compañía B es 250 unidades monetarias, se tendrá que el salario promedio de las 50 personas que trabajan en ambas compañías es ( 20)( 200) + ( 30)( 250) = 230. 20 + 30 1.34. Ejemplo.
En un grupo de personas conformado por obreros y empleados, la edad promedio es 32 años. La edad promedio de los obreros es 25 y la de los empleados, 35. ¿Cuál es el porcentaje de obreros y empleados?. Solución. Si se denota con a al número de obreros y con b al número de empleados se tiene que
32 =
Escribiendo A =
a a +b
y B =
b a+b
25a + 35b a+b
.
, resulta: 32 = 25 A + 35 B.
Considerando que A + B = 1, se tendrá: A = 0.3 y B = 0.7. Es decir, el 30% de las personas que conforman el grupo son obreros y el resto son empleados.
42. Est adí sti ca Descr ipt iva.
Carlos Véliz Capuñay
1.35. Ejemplo
En la siguiente tabla se indica el Producto Nacional Bruto (PNB) promedio por persona y la población en tres países. País Perú Colombia Bolivia
PNB ($)
Población
1160 1260 630
22 mill. 32 mill. 7 mill.
Fuente: Banco Mundial. 1992.
Se deduce que el PNB promedio por persona en los tres países es PNB promedio =
1160( 22) + 1260( 32) + 630( 7) = 1151.63 dólares. 22 + 32 + 7
1.36. Ejemplo.
El costo por unidad para producir 3000 pantalones es 12 unidades monetarias, el costo por unidad para producir 5000 camisas es 10 unidades monetarias y el costo por unidad para producir 2000 sacos es 50 unidades monetarias. Hallar el costo promedio por unidad de producción. Solución. El costo promedio de producción es x =
12( 3000) + 10( 5000) + 50( 2000) = 18.6 unidades monetarias. 3000 + 5000 + 2000
1.37. Ejemplo.
El costo de producción de un artículo en cada una de las tres fábricas que una compañía tiene en la costa (C), en la sierra (S) y en la selva (U) es, respectivamente, 2, 2.3 y 2.5. En C se produce el 90% de los artículos que se producen en S, mientras que en U se produce 30% más artículos que en S. a) Hallar el costo promedio por artículo en las tres fábricas. b) Hallar el precio promedio de venta por artículo si el estado establece que se debe ganar el 10% por artículo. Solución. Si x es la producción en S, entonces en C la producción es 0.9 x y en U, 1.3 x. La producción total es 0.9 x + x + 1.3 x = 3.2 x.
El costo de producción es 2(0.9 x) + 2.3( x) + 2.5(1.3 x) = 7.35 x. a)
El costo promedio es 7.35 x /3.2 x = 2.2968.
Estadística Descriptiva. 43
Carlos Véliz Capuñay
b) Como el precio de venta es 1.10 × ( precio de costo ), el promedio del precio de venta es 1.10(costo promedio ) = 1.10(2.2968) = 2.5265. 1.38. Ejemplo.
Tres poblados A, B y C (en ese orden), se encuentran situados a lo largo de una carretera recta. La distancia entre A y B es 15 km, entre B y C, 22 km. Se desea construir en un punto M de la carretera un centro de recreo de tal manera que al transportar a este centro 30 personas de A, 20 de B y 40 de C, el costo total por transporte sea mínimo. Hallar el punto M si el costo por transportar a cada persona de cada poblado es proporcional al cuadrado de la distancia recorrida. Solución.
Asignemos las coordenadas 0; 15 y 37 a los poblados A, B y C, respectivamente. Si la coordenada de M es a, el costo total por transportar las 90 personas es Costo = 30k ( 0 − a ) 2 + 20k (15 − a ) 2 + 40k (37 − a ) 2 , en donde k es la constante de
proporcionalidad. Según la propiedad f), el valor de a que hace mínimo al costo es la media de los valores 0, 0, ... , 0, 15, ... , 15 , 37 , ... ,37 1 4 24 3
1 4 24 3
1 4 24 3
30 veces
20 veces
40 veces
Luego la coordenada de M es a = 19.7777. El centro de recreo debe estar 4.7777 km. de la ciudad A. La propiedad e) de la media puede extenderse de la siguiente manera: Si k conjuntos de datos constan de n 1 , n 2 , ... , n k observaciones y si tienen medias x 1 , . x 2 , ... , x k , respectivamente, entonces la media global de los k conjuntos es k
x =
∑ ni xi
i=1 k
∑ ni
i=1
La media de un conjunto de datos se calcula a partir de todos ellos, por ello es necesario tener cuidado en el momento de hacer la interpretación correspondiente, pues los datos extremos pueden influenciar fuertemente en el resultado, desvirtuando de este modo la imagen real de la media aritmética. En la siguiente tabla se indica la distribución de 11 personas de acuerdo a su sueldo.
44. Esta dísti ca Descrip tiva.
La media de los sueldos es x =
Carlos Véliz Capuñay
Sueldos ( xi)
Frecuencia (ni)
100
4
120
5
2000
1
3000
1
100(4 ) + 120(5) + 2000(1) + 3000(1) = 545.45; sin embargo, 9 11
de las 11 personas tiene una remuneración menor o igual a 121. Los valores extremos 2000 y 3000 han influido grandemente en el resultado. (Si se construye el polígono de frecuencias de la tabla anterior, podrá notarse que éste tiene un sesgo con cola a la derecha). La observación anterior indica que si una distribución de datos tiene un sesgo (con cola a la derecha o con cola a la izquierda) es mejor utilizar otra medida de tendencia central que sea resistente a los valores extremos, tal como la mediana, que a continuación se estudia.
La mediana. Para un grupo de n datos ordenados, la mediana M e es el valor central, si n es impar y es igual al promedio de los dos datos centrales, si n es par.
Para establecer el concepto de mediana se ha hecho uso del orden de los números que representan a los datos, luego esta medida no tiene significación si los datos se obtienen al usar una escala nominal.
Propiedades de la mediana. a). La mediana M e es un valor que está en el centro de los datos. Esto generalmente no ocurre con la media ni con la moda. Sin embargo, cuando el polígono de frecuencias es simétrico, los tres valores coinciden y están en el centro de los datos. b). La mediana M e es una medida de centralización resistente. Al variar uno de los datos que no sean los de la posición central, ésta no varía. Por ello se usa para resumir grupos de datos en donde existen valores excepcionalmente grandes o pequeños y cuya forma del polígono de frecuencias no sea simétrica . 1.39. Ejemplo.
La mediana de los datos: 3 4 5 8 12 15 17, es 8, y la mediana de: 4 5 6 7 es 5.5.
E s t a d í s t i c a D e s c r i p t iv a . 4 5
Carlos Véliz Capuñay
Debajo de la mediana existe aproximadamente el 50% de los datos (Figura 1.19 (a)) Suavizando la ojiva de la frecuencia acumulada relativa se ubica la mediana de un conjunto de datos correspondientes a una variable continua. (Figura 1.19 (b)).
1
F
0.5
50%
50%
M
e
M
(a)
e
(b)
Figura 1.19
En el caso discreto siempre será posible determinar exactamente la mediana, ya sea que los datos se presenten de manera enumerativa o en una tabla de frecuencias. En el caso continuo y cuando los datos se presentan en una tabla de intervalos de clase no será posible determinar exactamente el valor de la mediana por cuanto no se tiene la información completa. Sin embargo, puede aproximarse como se indica a continuación.
Aproximación de la mediana para datos agrupados en una tabla de intervalos de clase. En una tabla de frecuencias de intervalos de clase, a partir de la frecuencia acumulada relativa se puede indicar el intervalo en donde se encuentra la mediana. Suponiendo que la mediana M e está en el intervalo [a b[
(hasta a la frecuencia
acumulada relativa F a es menor que 0.5 y hasta b la frecuencia acumulada relativa F b es mayor o igual a 0.5), (Figura 1.20 a) y considerando la aproximación lineal de la parte de la gráfica de la ojiva F en el intervalo [a, b], el valor de la mediana se aproxima usando la semejanza de triángulos.
En M e el valor de la frecuencia relativa es aproximadamente igual a 0.5, haciendo uso de la semejanza de triángulos, se tiene M e − a 0.5 − F a ≈ b−a Fb − F a M e ≈ a + (b − a )
o
0.5 − F a Fb − F a
46. Esta dísti ca Descrip tiva.
Carlos Véliz Capuñay
F
F b
F
F a
F
b
0.5
a
a
a
b
M
b
e
Ojiva en [a, b] (b)
Ojiva de fr.ac.relativa (a)
Figura 1.20.
en donde a es el extremo izquierdo del intervalo que contiene la mediana, b es el extremo derecho del intervalo que contiene a la mediana, F a es el valor de la frecuencia acumulada relativa "hasta el extremo"a y F b es el valor de la frecuencia acumulada relativa "hasta el extremo"b. 1.40. Ejemplo.
A partir de la información que se encuentra en la siguiente tabla de frecuencias no es posible indicar directamente el valor de la mediana M e; sin embargo, se puede decir que ésta se encuentra en el intervalo de clase [a, b[ = [14, 17[. Interv. Clase
xi
ni
f i
F i
[5, 8[
6.5
3
0.125
0.125
[8, 11[
9.5
6
0.250
0.375
[11, 14[
12.5
2
0.083
0.458
[14, 17[
15.5
9
0.375
0.833
[17, 20[
18.5
3
0.125
0.958
[20, 23]
21.5
1
0.041
1.000
Se tiene que M e ≈ 14 + (17 - 14)
0.50 − 0.458 = 14.336 . 0.833 − 0.458
Otra propiedad de la mediana c). Se puede demostrar que para un grupo de d atos x1, ... , xn, la mediana M e de éstos corresponde al valor que hace mínima la expresión n
∑ | xi − a| , en donde a es un número real cualquiera.
i =1
E s t a d í s t i c a D e s c r i p t iv a . 4 7
Carlos Véliz Capuñay
Esto es, n
n
i =1
i =1
∑ | xi − M e | ≤ ∑ | xi − a |
∀ a real .
Relaciones entre la moda, la media y la mediana. Para distribuciones simétricas unimodales, la moda, la mediana y la media coinciden. Para curvas de frecuencia que están sesgadas a la derecha o a la izquierda, la posición de la moda, de la mediana y la media se indican en la siguiente figura.
M o
M
x
0
x
Figura 1.21.
Cuando la curva de frecuencias tiene cola a la derecha, M 0 ≤ M e ≤ x . Cuando la curva de frecuencias tiene cola a la izquierda, x ≤ M e ≤ M 0
La media geométrica y la media armónica. Dados los valores positivos x1, x2, ... , xn , se llama media geom étrica de éstos, al valor G = n x1x2 ... xn . Se observa que lnG es la media aritmética de ln( x1), ln( x2), ... , ln( xn) Se llama media armónica de los valores x1, ... , xn , diferentes de 0, al n valor H = , ( x i ≠ 0) . n 1 ∑ i =1 x i OBSERVACIONES
1. La media armónica es el inverso de la media de los inversos de cada uno de los valores. 2. Nótese que si los valores x1, ... , xk tienen frecuencias n1, ..., nk , respectivamente, (n1 + ... + nk = n), entonces
48. Esta dísti ca Descrip tiva.
Carlos Véliz Capuñay
H = k
1
∑ f i
i =1
1
xi ≠ 0
xi
en donde f i = n / i n es la frecuencia relativa de xi. A esta expresión se le llama media armónica ponderada. 1.41. Ejemplo.
Para el conjunto de datos 7 8 8 9 10 11, la media geométrica es G = 6 (7 )(8)(8)(9 )(10)(11) = 8.7328,
mientras que la media armónica es H =
6 = 86346 . . 1 / 7 + 1 / 8 + 1 / 8 + 1 / 9 + 1 / 10 + 1 / 11
1.42. Ejemplo.
En cierta región la producción de arroz, durante tres años consecutivos, aumentó respecto del año anterior en: 70%, 50%, 10%. ¿En qué razón promedio anual aumentó la producción?. Solución. Si A es la producción inicial se tendrá que después del primer año, la producción es (1.7)( A), después del segundo año, la producción es (1.5)(1.7)( A), y después del tercer año es (1.1)(1.5)(1.7)( A).
Por otro lado, si llamamos con a a la razón anual promedio, se tendrá que después del primer año, la producción es (a + 1) A, después del segundo año, (1 + a)(1 + a) A, y 3
después del tercer año, (1 + a)(1 + a)(1 + a) A = (1 + a ) A Luego: (1 + a )3 A = (1.1)(1.5)(1.7) A, de donde a = 0.41. El aumento porcentual promedio es 41.00%. Se observa que 1+a es la media geométrica de las cantidades 1.1, 1.5, y 1.7. 1.43. Ejemplo.
Los precios de una acción de la bolsa de valores en tres días consecutivos fueron: A, 0.5 A y A, respectivamente. Luego la variación de los precios con respecto al día anterior fue como sigue: -50% y 100%, respectivamente.
Carlos Véliz Capuñay
E s t a d í s t i c a D e s c r i p t iv a . 4 9
Un número adecuado para indicar la tasa de variación promedio de los precios de la acción no es la media aritmética de -50 y 100. ¿Por qué?. Procediendo como en el ejemplo anterior, se tiene que si r es la tasa promedio de variación, entonces (1 + 1)(1 − 0.5) A = (1 + r ) 2 A . De donde r = 0. Luego, la tasa promedio de variación es 0. 1.44. Ejemplo.
Una persona recorre la distancia de A a B con una velocidad de 30 km./h; otra persona recorre la misma distancia con una velocidad de 60 km./h. ¿Cuál es el "promedio" adecuado de las velocidades de las dos personas?. Solución. Si la distancia de A a B es e km, entonces la primera persona utiliza e /30 horas para recorrer la distancia de A a B y la segunda persona, e /60.
La velocidad "promedio" es 2e /[(e /30) + (e /60)] = 2/[(1/30) + (1/60)] = 40. (Es la media armónica de las cantidades 30 y 60).
MEDIDAS DE DISPERSION Dos grupos diferentes de datos pueden tener iguales medidas de tendencia central; sin embargo, las características de su distribución pueden ser diferentes. Un grupo de datos puede tener mayor o menor dispersión que el otro con respecto de la medida central. Precisamente, para interpretar mejor los datos se construyen medidas de dispersión o estadígrafos de dispersión. Las medidas de dispersión ilustran sobre la manera como varían los datos observados alrededor de una medida de tendencia central, indican como están concentrados los datos alrededor del parámetro de centralización, permiten comparar una información con otra y ayudan a verificar si determinadas medidas de tendencia central son o no significativas. Por ejemplo, cuando la dispersión es muy grande la media aritmética no tiene mucha significación; sin embargo si la dispersión es baja, la media adquiere significación. Entre las medidas de dispersión están: el recorrido o rango, la varianza, la desviación estándar, el coeficiente de variación, los intercuartiles, etc.
El recorrido o rango. Aunque de uso muy limitado, el recorrido o rango de un conjunto de datos es la diferencia entre el dato mayor y el dato menor. Por ejemplo, si los datos de cierta variable son: 23, 24, 24.5, 24.6, 24.7, 24.9, 25, 26,9, 27, 28, 100, el rango es, como en el caso anterior, 100 - 23 = 77.
50. Esta dísti ca Descrip tiva.
Carlos Véliz Capuñay
Sin embargo, puede observarse que la forma como están distribuidos los datos no es la misma en ambos casos. En el segundo caso, los datos están más agrupados hacia el dato menor. Esto muestra que el rango no indica la manera como están distribuidos los datos.
La varianza y la desviación estándar . Si x1, ... , xn es un conjunto de datos con media aritmética x , la varianza de los n datos, se denota con s' 2 , o con V y se define como 2
s' =
1 n ∑ ( x − x ) 2 . n i =1 i
La varianza es el promedio de las desviaciones al cuadrado de los datos respecto de su media. Indica la manera como los datos están dispersos alrededor de la media. La raíz cuadrada positiva de la varianza se llama desviación estándar. Se denota con s' . La desviación estándar representa, aproximadamente, el promedio de las desviaciones de cada uno de los datos respecto de su media aritmética. Como se notará más adelante, la mayor parte de los datos estará a una distancia de una desviación estándar de la media. Muy pocos estarán más allá de dos o tres veces la desviación estándar. La media de 1, 3, 5 y 7 es 4 y su varianza, V =
(1 − 4) 2 + ( 3 − 4) 2 + (5 − 4) 2 + ( 7 − 4) 2 4
= 5.
La desviación estándar es 2.2360.
NOTAS. 1. La varianza se expresa también como s' 2 =
1 n 2 ∑ x − x 2 n i =1 i
Esta fórmula se justifica pues, s' 2 =
n n 1 n 1 n 1 n ( xi − x ) 2 = ∑ x i2 − ∑ 2 x i x + ∑ x 2 = ∑ x i2 − x 2 . ∑ n i =1 n i =1 i =1 i =1 n i =1
2. Si x1 se repite n1 veces, ... , xk se repite nk veces; la varianza puede escribirse como
E s t a d í s t i c a D e s c r i p t iv a . 5 1
Carlos Véliz Capuñay
k
∑ ( xi − x ) 2 ni
s ′ 2 = i =1
k
k
∑ xi2 ni
= i =1
k
∑ n j
− ( x ) 2 ,
∑ n j
j =1
j =1
1.45. Ejemplo.
En la siguiente tabla de distribución de frecuencias xi
3
5
7
ni
10
15
9
la media aritmética y la varianza son: x = [10(3) + 15(5) + 9(7)]/[10 + 15 + 9] = 4.9412 y s '2 =
(3 − 4.9412 ) 2 (10) + (5 − 4.9412 ) 2 (15) + (7 − 4 .9412 ) 2 (9 ) = 2.2316. 10 + 15 + 9
Si n datos están agrupados en k intervalos de clase y en cada intervalo hay ni datos, usando las marcas de clase x ' i , se obtiene la siguiente aproximación de la varianza: k
∑ ( xi′ − x ) 2 ni
s' 2 = i =1
n
.
1.46. Ejemplo.
Para los datos, cuya distribución se muestra en la siguiente tabla, hallar la media y la desviación estándar de manera aproximada. Inter. de clase
[2, 4[ [4, 6[ [6, 8[ [8, 10[ [10, 12]
marca de clase x'i
frecuenc. ni
3 5 7 9 11
5 7 10 4 2
Solución. Usando las marcas de clase se tiene que k
∑ x'i ni
x ≈ i =1
n
=
3( 5) + 5(7) + 7 (10) + 9 (4 ) + 11(2 ) = 63571. . 5 + 7 + 10 + 4 + 2
52. Est adí sti ca Descr ipt iva.
Carlos Véliz Capuñay
k
∑ ( x 'i − x ) 2 ni
s' 2 ≈ i =1
n
=
(3 − 6.3571) 2 (5) +...+ (11 − 6.3571) 2 (2 ) 28
= 51581 .
s' ≈ 2.2711.
NOTA. Otra forma de medir la dispersión de los datos, es mediante la varianza muestral que se define con n
∑ ( xi − x ) 2
i =1
n −1
.
PROPIEDADES DE LA VARIANZA. A partir de la definición de la varianza se pueden deducir las siguientes propiedades: a) La varianza es un número no negativo. b) Si todos los datos son iguales a una constante c, su varianza es igual a 0. ( En este caso la media es igual a c). No hay dispersión. c) Si a cada uno de los datos x1, ..., xn se les suma una constante b, entonces la varianza de los datos transformados: x1 + b, ... , xn + b es igual a la varianza de los datos originales. d) Si a cada uno de los datos x1, ... , xn se les multiplica por una constante k, entonces la varianza de los datos transformados: kx1, ... , kxn es igual a la varianza de los datos originales multiplicada por el cuadrado de la constante. Esto es, si la varianza de los datos originales es s'2 entonces la varianza de los datos transformados es k 2 s '2 . e) Si el conjunto de m datos: x1 , ... x m tiene media x y varianza s x'2 , mientras que el conjunto de n datos : y1 ,... y n tiene media y y varianza s y'2 , entonces el conjunto de datos x1 , ... x m , y1 , ... , yn tiene varianza
2
s' =
ms' x2 + ns' 2y m+n
+
m n ( x − M ) 2 + ( y − M ) 2 , m+n m+ n
en donde M es la media del conjunto x1 , ... x m , y1 , ... , y n .
E s t a d í s t i c a D e s c r i p t iv a . 5 3
Carlos Véliz Capuñay
Si las medias x e y son iguales, entonces
2
s' =
ms' x2 + ns ' 2y m+ n
f) Existe una propiedad muy importante, llamada de Chebyshev, que permite la interpretación de la desviación estándar: Para cualquier conjunto de datos con media y desviación estándar muestral x y s ', respectivamente, la proporción de datos que caen en el intervalo [ x − ks' , x + ks' ] , en donde k = 1, 2, ... , es mayor o igual a 2
1 − (1 / k ) . Así, en el intervalo [ x - 2 s', x + 2 s'] por lo menos hay el 75% de los datos, en el intervalo [ x - 3s' , x + 3s'] por lo menos hay el 89% de los datos. 1.47. Ejemplo.
Aplicando las propiedades de la varianza, el lector puede observar que, si x1, ... , xm , es un conjunto de datos cuya varianza es V X , entonces, el conjunto de datos y1, ..., ym , obtenidos al realizar la transformación y i = axi + b , en donde a y b son constantes, tienen media, varianza y desviación estándar 2 xY = ax + b , VY = a V X , s'Y =| a| s' X , respectivamente.
1.48. Ejemplo.
N estudiantes se matricularon, cada cual, en un número de créditos cuya media y varianza son iguales a: 19.4 y 1.84, respectivamente. Si cada estudiante pagó el costo fijo de $20, más $60 por cada crédito, ¿cuál es la media y la varianza de los pagos que realizaron los estudiantes?. Solución. Si el número de créditos en que se matricularon los estudiantes es: x1 , x 2 , ... , x N .
Los pagos realizados son: 20 + 60( x1), 20 + 60( x 2 ),... , 20 + 60( x N ). Aplicando las propiedades del ejemplo anterior se tiene que la media y la varianza de los pagos realizados son, respectivamente, 20 + 60(19.4) = 1184
y
(60)2(1.84) = 6624.
1.49. Ejemplo.
En un salón de clase estudian hombres y mujeres. El promedio general en el curso de Estadística es 25 y la desviación estándar, 5. La media de las notas en el grupo de los
54. Esta dísti ca Descrip tiva.
Carlos Véliz Capuñay
varones es 27 y la desviación estándar, 4. Si la media en el grupo de las mujeres es 22, hallar la desviación estándar en este grupo. Solución. Denotemos con M al grupo de las mujeres, con H al grupo de los hombres, con m al número de mujeres, con h al número de hombres y con t al total de personas (t = m + h).
De los datos se tiene: xG = media general = 25, σG = desv. est. general = 5 x H = media hmbr. = 27, σ H = desv. est. hmbr . = 4 x M = media muje. = 22,
σ M = desv. est. muje = ?
Hallaremos la varianza en el grupo de las mujeres: σ 2 = (1 / m ) ∑ x 2 − ( x ) 2 M i M
(1)
M
A partir de los datos se tienen las siguientes relaciones: 25 =
27 h + 22 m t
(2)
∑ x i2 25 =
∑ x i2 + ∑ x i2
G
− ( 25)
t
2
=
H
M
t
2
− ( 25)
(3)
∑ xi2 16 =
2
H
− ( 27 )
h
(4)
De (3) y (4), se tiene que
∑ xi2
2
2
= [ 25 + ( 25) ]t − [16 + ( 27 ) ] h
(5)
M
Reemplazando en (1), resulta 2
σ M =
650 t − 745h m
2
− ( 22 )
(6)
De (2) y considerando que m + h = t, se obtiene t / m = 5/2 y h / m = 3/2. Luego, 2
σ M =
650t − 745h m
2
− ( 22 ) = 650(5/2) - 745(3/2) - 484 = 23.5 .
La desviación estándar de las notas en el grupo de las mujeres es
23.5 = 4.8476.
1.50. Ejemplo.
Se han registrado durante 30 días, el número de viajeros que hacen reservaciones a una agencia de viajes pero que no las hacen efectivas:
E s t a d í s t i c a D e s c r i p t iv a . 5 5
Carlos Véliz Capuñay
12 18 14 12 10 10 20 9 19 15 18 16 16 16 14 18 16 18 14 19 19 15 13 15 13 18 12 17 14 14. La media del número de pasajeros que hacen reservaciones y no las hacen efectivas es igual a 15.1333 y la desviación estándar es 2.8952. En el intervalo [9.3429, 20.9237], que tiene la media como centro y dos desviaciones estándar muestrales como radio, existe, según Chebyshev, el 75% de los datos, por lo menos.
Demostración de la propiedad de Chebyshev.
Se desea demostrar que para un conjunto de datos, x1 ,..., x n , la proporción de datos que existen en el intervalo [ x − ks ′, x + ks ′] es por lo menos 1 - (1/ k2 ). Al conjunto de datos que están dentro del intervalo lo llamaremos con D y al conjunto de los datos que están fuera con F . Llamando con a al número de datos en F , se tiene:
∑ ( xi − x ) 2 + ∑ ( xi 2
s′ =
xi ∈ D
xi ∈F
n
− x)2
∑ ( xi − x ) 2 ≥
xi ∈F
de donde resulta, tomando los extremos, s ′ 2 >
>
n ak 2 s ′ 2 n
∑ k 2 s′2
o
xi ∈F
n 1 2
k
>
=
ak 2 s ′ 2 n
,
a . n
La última relación indica que la proporción de datos que están fuera del intervalo es menor que 1/ k2 . Por tanto la proporción de datos que están dentro del intervalo es mayor o igual a 1 - 1/ k2 . 1.51. Ejemplo.
N datos correspondientes a la producción diaria de gasolina de una planta tienen media 150000 galones con una desviación estándar de 1000 galones. a) Hallar la proporción de días cuya producción de gasolina está entre 148000 y 152000. b) Si se sabe que la menor producción es 147000, calcular un intervalo que contenga por lo menos 90% de los datos. c) ¿Con qué frecuencia se puede decir que la producción será mayor que 157000 galones diarios?.
56. Esta dísti ca Descrip tiva.
Carlos Véliz Capuñay
Solución.
a ) E l i nt er val o [ 14 80 00 , 1 52 00 0] co rr es po nd e a [ x − ks′ , x + ks′ ] con x = 150000 , s′ = 1000 y k = 2. Aplicando la propiedad de Chebyshev con k = 2, se tiene que la proporción de días cuya producción está en el intervalo indicado es por lo menos igual 1 (1 / k 2 ) = 0.75. b) Un intervalo que satisface lo pedido es uno de la forma [ x − ks′, x + ks′ ] donde 1 k es tal que 1 − 2 = 0.90 . Luego k = 10 = 3.1622 y [ x − ks ′, x + ks′ ] = k [146837.80, 153162.20]. Como la menor producción es 147000, un intervalo que satisface la condición es [147000, 153162.20]. c) La distancia entre 157000 y la media de la producción expresada en desviaciones estándar de la misma es 157000 − 150000 = 7. 1000 Esto indica que 157000 está a 7 desviaciones estándar de la media. Aplicando la propiedad de Chebyshev, se tiene que la proporción de días cuyo producción está en el intervalo [150000 - 7(1000), 150000 + 7(1000)] = 1 1 [143000, 157000] es por lo menos 1 − 2 = 1 − 2 = 1 − 0.0204 = 0.9796 . k 7 Como la menor producción es 147000 podemos decir que la producción será mayor que 157000, en el (1 - 0.9796)100% = 2.04% de los días, a lo más.
Datos tipificados o estandarizados Si a cada elemento de un grupo de m datos, x1 ,... x m , se les resta su media y a este resultado se le divide entre su desviación estándar, entonces se dice que éstos se han estandarizado o tipificado. Las expresiones estandarizadas de los datos anteriores son: x1 − x s'
x − x ,..., m s'
E s t a d í s t i c a D e s c r i p t iv a . 5 7
Carlos Véliz Capuñay
Las expresiones estandarizadas permiten describir la posición relativa de una medida particular en un conjunto de datos y sirven para realizar comparaciones. Para ilustrar, supondremos que en el aula A la media de las notas de Matemáticas es 13 y la desviación estándar es 2, mientras que en el aula B las notas de Matemáticas tienen media 16 y desviación estándar 1. Si Juan, que estudia en el aula A, tiene la nota 12, y Pedro, quien estudia en el aula B, tiene la nota 14, entonces se tendrá que, dentro de cada uno de sus salones, Juan estará en mejor posición en su salón que Pedro en el suyo, ya que la nota estandarizada de Juan (-0.5) es mayor que la nota estandarizada de Pedro (-2). Nótese que, en virtud de las propiedades de la media y de la varianza, para cualquier conjunto de datos estandarizados su media es 0 y su varianza es 1.
Coeficiente de variación . El coeficiente de variación se define como CV =
s' x
Este coeficiente expresa la desviación estándar en “medias aritméticas”; también se indica en porcentaje y a menudo se usa para comparar la variabilidad de dos o más conjuntos de datos que están expresados en diferentes unidades. El grupo de datos que tiene el mayor coeficiente de variación, es el que tiene la mayor dispersión. Si las medias de los dos grupos son iguales, entonces el grupo que tenga mayor desviación estándar será el de mayor variación o dispersión. Así por ejemplo, para cada grupo de datos: 0, 1, 2, 3, 4, y 50, 75, 100, 125, 150, las desviaciones estándar son 1.4142 y 35.3553, respectivamente; sin embargo, no se puede decir que en el segundo grupo existe mayor dispersión que en el primero. Los coeficientes de variación son: para el primer grupo, CV 1 = 0.7071 (70.71%) y para el segundo grupo, CV 2 = 0.3535 (35.35%), indicando que en el primer grupo existe mayor dispersión, que en el segundo. El coeficiente de variación tiene sentido para la escala de razón. 1.52. Ejemplo.
Una serie de mediciones de la temperatura de un cuerpo realizadas con el termómetro A, tiene media 12.01 y desviación estándar 0.027; mientras que con otro termómetro B, la media de las mediciones fue 11.97 y la desviación estándar, 0.014. Suponiendo que la persona que opera los instrumentos no introduce sesgo alguno en las mediciones, ¿cuál es el termómetro relativamente más consistente?.
58. Esta dísti ca Descrip tiva.
Carlos Véliz Capuñay
Solución. El termómetro más consistente es el que tiene menor coeficiente de variación. El coeficiente de variación del termómetro A es 0.0022 (0.22%), mientras que para el termómetro B este coeficiente es 0.0012 (0.12%). El termómetro B es más consistente. 1.53. Ejemplo.
En una entidad estatal los sueldos de los directivos, de los empleados y de los obreros son como aparece en la siguiente tabla. Media
Desv. Estánd.
Directivos
2000
100
Empleados
1200
100
Obreros
1100
100
En este caso no podemos decir que la dispersión de los sueldos de los directivos, de los empleados y de los obreros son iguales, aún cuando las desviaciones estándar lo son. Los coeficientes de variación son: para los directivos, 0.0500 (5%), para los empleados, 0.0833 (8.3%) y para los obreros, 0.0909 (9.09%). Ahora podemos indicar que, con respecto a la media, la dispersión es mayor en los obreros y que la de los empleados es mayor que la de los directivos. 1.54. Ejemplo.
La media y el coeficiente de variación de los salarios de los empleados de una fábrica son $200 y 0.1, respectivamente. Si a cada empleado se le aumenta el 15% de su sueldo más $20 por concepto de movilidad, ¿cómo cambia el coeficiente de variación?. Solución. Antes de los aumentos, la media y el coeficiente de variación son iguales, respectivamente, a 200 y 0.1. Luego, la desviación estándar antes del aumento es igual a (200)(0.1) = 20. Por las propiedades de la media y de la varianza, la media de los sueldos después de los aumentos es (1.15)(200) + 20 = 250 mientras que la varianza es (1.15)2(20)2 = 529.00 (la desviación estándar es (1.15)(20) = 23).
Después de los aumentos el coeficiente de variación es (1.15)(20)/[1.15(200) + 20] = 23/250 = 0.092. La dispersión disminuyó el [(0.1 - 0.092)/(0.1)](100) = 8% con respecto al valor anterior. 1.55. Ejemplo.
En una empresa los salarios para los hombres tiene media $500 y desviación estándar $50. Para las mujeres, que constituyen el 30% del total de trabajadores, la media de los salarios es $490 y la desviación estándar 30. Para el próximo mes, la empresa proyecta realizar un aumento general del 15% a hombres y mujeres. Use el coeficiente de variación para indicar si cambia o no la dispersión de los salarios. ¿Cómo cambia la variación de los salarios si en lugar de aumentar el 15%, se aumenta $50 a cada hombre y a cada mujer?.
Carlos Véliz Capuñay
E s t a d í s t i c a D e s c r i p t iv a . 5 9
Solución. La media de todos los trabajadores es x T = 0.7 (500) + 0.3(490) = 497 .
La varianza de todos los salarios es 2 = 0.7 ( 50) 2 + 0.3(30 ) 2 + 0.7 (500 − 497 ) 2 + 0.3 ( 490 − 497 ) 2 = 2041 . sT
La desviación estándar de todos los salarios es 45.1774. El coeficiente de variación es 45.1774/497 = 0.0900 (= 9%) Después de aumentar el 15%, la media es igual a (1.5)(497) = 571.55, la desviación estándar es (1.5)(45.1774) = 51.9540 y el coeficiente de variación es 0.0909 (= 9.09%). La dispersión de los salarios aumentó. Después de aumentar $50, la media aumenta a 547, la desviación estándar sigue siendo igual a 45.1774 y el coeficiente de variación es 45.1774/547 = 0.0826, esto es 8.26%. La dispersión de los salarios disminuyó.
Percentiles e intercuartil para un grupo de datos. Muchas veces se desea describir la posición de una cierto valor en un conjunto de datos, así por ejemplo, supongamos que se desea conocer si la nota 13, que un alumno ha obtenido en una determinada asignatura, es "grande" o "pequeña" dentro de su grupo. Para responder esta inquietud se usan los percentiles. Para introducir la definición de percentil, ordenemos el conjunto de datos x1 , . x 2 , ... , x n de tal manera que x (1) sea el menor, x ( 2) sea el que le sigue y así sucesivamente hasta tener el mayor valor x ( n) . Así se tiene que x (1) ≤ x ( 2) ≤.. . ≤ x ( n) . A cada número entre paréntesis se le llama rango de la observación. Por definición, el valor x (i ) es el percentil 100[(i − 0.5) / n] del conjunto de datos. 1.56. Ejemplo.
Ordenando el siguiente conjunto de datos: 15 18 23 15 16 25 17 19 21 25 se tiene:
15 ≤ 15 ≤ 16 ≤ 17 ≤ 18 ≤ 19 ≤ 21 ≤ 23 ≤ 25≤ 25 . El valor x ( 3) = 16 es el percentil 100(3 - 0.5)/10 = 25. Nótese que debajo de 16 existe aproximadamente el 25% de los datos.
60. Esta dísti ca Descrip tiva.
Carlos Véliz Capuñay
El valor x (5) = 18 es el percentil 45. Aproximadamente, el 45% de los datos son menores o iguales que 18. El percentil 35 corresponde al dato cuyo rango es 4. Esto es, el percentil 35 es 17. En efecto, (i − 05 . )100 10(35) , de donde i = + 0.5 = 4. 10 100 Luego, el percentil 35 es x ( 4) = 17. 35 =
En general, de la definición se tiene que el percentil k es la observación con rango (nk/ 100) + 0.5. Cuando este valor no es entero, se toma el promedio de los datos cuyos rangos son próximos a este número. OBSERVACIONES.
1. Aproximadamente, el k % de los datos es menor o igual que el percentil k . 2. El percentil 50 es igual a la mediana, pues para éste el rango es n(50)/100 + 0.5 = n /2 + 0.5, valor que corresponde al dato central cuando n es impar y al promedio de los dos datos centrales cuando n es par. 3. A x (i ) se le llama también cuantil de orden (i - 0.5)/ n. Denotaremos con C k al percentil k. A partir de la “suavización”, y = F ( x), de la ojiva correspondiente a la frecuencia acumulada relativa de un grupo de datos (figura 1.22 b) se observa que F (C k ) es aproximadamente igual a k/ 100. Así, F (C 25) ≅ 25/100 = 0.25, F (C 50) ≅ 50/100 = 0.5, etc. 1 F 0.75 0.50
área
área
25%
área
área 25%
25% 25%
C
25
C
50
0.25
C
C C C 25 50 75
75
(a)
(b) Figura 1.22. Centiles.
E s t a d í s t i c a D e s c r i p t iv a . 6 1
Carlos Véliz Capuñay
A los percentiles 25, 50 y 75 se les llama primer cuartil, segundo cuartil y tercer cuartil , respectivamente. 1.57. Ejemplo.
Si los sueldos de 15 personas son, respectivamente, 100, 300, 400, 1300, 1370, 1450, 1500, 1650, 1670, 1710, 1800, 1900, 1950, 2000, 2050, se tiene que: El percentil 25 (primer cuartil) corresponde al rango (25)(15)/100 + 0.5 = 4.25. Como el rango no es entero, el percentil 25 es el valor [ x (4) + x (5) ] / 2 = [1300 + 1370] / 2 = 1335. el percentil 75 corresponde al rango (75)(15)/100 + 0.5 = 11.75. Luego, el percentil 75 es el valor [ x (11) + x (12) ] / 2 = [1800 + 1900] / 2 = 1850. 1.58. Ejemplo.
Los tiempos respectivos, en minutos, que 10 personas demoran en ir de A a B son: 81 77 76 86 79 79 80 89 77 78 85 76 88 78 83. Ordenando los datos: 76 ≤ 76 ≤ 77 ≤ 77 ≤ 78 ≤ 78 ≤ 79 ≤ 79 ≤ 80 ≤ 81 ≤ 83 ≤ 85 ≤ 86 ≤ 88 ≤ 89 La mediana es el valor cuyo rango es 15/2 +0.5 = 8. Luego, la mediana es x (8) = 79 . El primer y tercer cuartil corresponden a los valores cuyos rangos son: 15/4 + 0.5 = 4.25 y 15(3/4) + 0.5 = 11.75. Como los rangos no son enteros el primer y tercer cuartil se aproximan con: [ x ( 4) + x (5) ] / 2 = 77.5 y [ x (11) + x (12) ] / 2 = 84.5 . Utilizando los percentiles es posible formar intervalos cuyas longitudes suelen considerarse como índices de dispersión de los datos. El intervalo que más se usa es el que tiene como extremos el primer y tercer cuartil; la longitud de éste se llama rango intercuartil . En el ejemplo, el rango intercuartil es 84.50 - 77.50 = 7.00. Las ventajas del rango intercuartil, como medida de dispersión, son: la rapidez en su cálculo y la resistencia ante fluctuaciones de los datos extremos. Un dato extremo puede cambiar sensiblemente pero no el rango i ntercuartil.
62. Esta dísti ca Descrip tiva.
Carlos Véliz Capuñay
Cálculo de los percentiles para datos agrupados . A partir de una tabla de frecuencias, obtenida por el método de intervalos de clase, para aproximar el percentil C k se sigue un procedimiento análogo al que se realizó para aproximar la mediana, si se tiene en cuenta que debajo de éste existe k% de los datos, aproximadamente, 1. Se ubica el intervalo [a, b[ en donde está el percentil C k . 2. El valor del percentil es, aproximadamente, Ck ≅ a + (b − a )
( k / 100) − F a , Fb − F a
en donde F a es la frecuencia relativa hasta el valor a , mientras que F b es la frecuencia relativa hasta b. 1.59. Ejemplo.
A continuación se presenta la distribución de las puntuaciones en un examen del idioma inglés de 65 alumnos. En forma aproximada, calcular el intercuartil. Puntuaciones [50, 55[ [55, 60[ [60, 65[ [65, 70[ [70, 75[ [75, 80[ [80, 85[ [85, 90[ [90, 95[ [95, 100]
N i 1 2 3 2 8 9 7 16 11 6
f i 0.0154 0.0307 0.0461 0.0307 0.1231 0.1385 0.1077 0.2461 0.1693 0.0923
F i 0.0154 0.0461 0.0922 0.1229 0.2460 0.3845 0.4922 0.7383 0.9076 1.0000
Solución. Aproximando el primer cuartil C 25 y luego el tercer cuartil C 75.
El primer cuartil está en el intervalo [75, 80[. Aplicando la expresión general para aproximar un percentil, se tiene C 25 ≈ 75 + (5)
0.2500 − 0.2460 = 751444 . . 0.3845 − 0.2460
El tercer cuartil está en el intervalo [90, 95[, luego se tiene
E s t a d í s t i c a D e s c r i p t iv a . 6 3
Carlos Véliz Capuñay
C 75 ≈ 90 + (5)
0.7500 − 0.7383 = 90.3455. 0.9076 − 0.7383
El intercuartil es 90.3455 - 75.1444 = 15.2011, aproximadamente. Hay 50% de los alumnos que tienen puntuaciones entre 75.1444 y 90.3455.
MEDIDA DE ASIMETRIA: Sesgo de Pearson. La asimetría de los gráficos de distribuciones unimodales se mide con el sesgo de Pearson. Este índice se calcula teniendo en cuenta que en este tipo de curvas la media aritmética tiende a situarse, con respecto de la moda, al mismo lado de la cola más larga. (Figura 1.23). Una medida para el sesgo se obtiene con la diferencia media - moda. Si la diferencia es positiva, la curva tiene una cola a la derecha; si la diferencia es cero la curva es simétrica; si la diferencia es negativa la curva tiene una cola a la i zquierda. La medida obtenida depende de las unidades que en cada caso se usen, por ello para comparar la simetría de dos o más curvas es necesario estandarizar los sesgos, obteniéndose la medida que se conoce como el sesgo de Pearson:
Media − Moda Desv. est .
x
x
M 0 M 0
M x0
Figura 1.23.
En distribuciones que no son muy asimétricas se cumple la relación empírica Moda ≈ x − 3(x − Mediana ) .
Usando esta relación, el sesgo de Pearson se aproxima con
64. Esta dísti ca Descrip tiva.
Carlos Véliz Capuñay
Sesgo de Pearson ≈
3( Media − Mediana) . Desv. estd .
Esta aproximación es más fácil de calcular y como en el caso anterior, es igual a cero cuando la curva de distribución es simétrica. Si este valor es positivo, la curva de distribución tiene una cola a la derecha y si es negativo la curva de distribución tiene una cola a la izquierda. La asimetría o simetría del polígono de frecuencias suele también calcularse con A =
C75 + C25 − 2C 50 . C75 − C 25
| C
25
| C
| C 75
50
Figura 1.24.
Como C75 + C25 − 2 C50 = ( C 75 − C50 ) − ( C50 − C 25 ) , se puede indicar que el polígono de frecuencias es * simétrico, si C 75 + C 25 − 2 C 50 = 0, (las longitudes de los intervalos [ C 25 , C 50 ] y [ C50 , C 75 ] deben ser iguales). Esto es, si A = 0. * asimétrico, con cola a la derecha, si C75 + C 25 − 2 C 50 > 0. Esto es, si A > 0. * asimétrico, con cola a la izquierda, si C75 + C25 − 2 C 50 < 0. Esto es, si A < 0. NOTAS.
1. A partir de un conjunto de datos cuyo polígono de frecuencias no es simétrico, se puede lograr un nuevo conjunto de datos cuyo polígono de frecuencias si es simétrico. Para ello se eleva cada dato a una determinada potencia positiva, tal como 1/2, 1/3 o aplicando el logaritmo. La elección de la potencia adecuada puede lograrse, en primera instancia, por ensayo y luego, con ayuda del histograma, observar si se ha cumplido el objetivo. 2. Otra medida de la asimetría es el coeficiente de Fisher que se define como γ 1 =
en donde µ = 3
µ3 s′3
1 n ∑ ( x − x ) 3 y s′ es la desviación estándar de x1 ,..., xn . n i =1 i
E s t a d í s t i c a D e s c r i p t iv a . 6 5
Carlos Véliz Capuñay
El coeficiente de Fisher no tiene dimensión y es igual a 0 cuando la distribución es simétrica. Si la distribución es unimodal, el coeficiente de Fisher es positivo si ésta es asimétrica con cola a la derecha y es negativo en el caso contrario.
MEDIDA DE APUNTAMIENTO O AGUDEZA: Curtosis. El coeficiente de curtosis de un grupo de datos, es una medida del apuntamiento o aplastamiento de su polígono de frecuencias; se define como k =
( 0.5)( C75 − C 25 ) C90 − C 10
,
en donde C 75 es el percentil 75, etc. Cuando el coeficiente de curtosis tiende a 0.5; esto es, si las diferencia C 75 − C 25 y C 90 − C 10 son aproximadamente iguales, la curva se llama leptocúrtica. Si el coeficiente de curtosis tiende a 0; esto es, cuando la diferencia C 75 − C 25 es pequeña, respecto de C 90 − C 10 , la curva se llama platicúrtica. Si el coeficiente de curtosis es aproximadamente 0.25; esto es, si C 90 − C 10 es aproximadamente el doble de C 75 − C 25 , la curva se llama mesocúrtica. Leptocúrtica.
M e s o c ú r ti c a
Platicúrtica
Figura 1.25.
NOTA.
Otra medida de la curtosis es el coeficiente de apuntamiento de Fisher que se define como
γ 2 = en donde µ = 4
µ4 s′4
−3
1 n
∑ ( x − x ) 4 y s′ es la desviación estándar de x1 ,..., xn . n i =1 i
Este es un coeficiente sin dimensión. La constante 3 se elige de tal manera que el coeficiente sea nulo cuando la d istribución sea mesocúrtica.
66. Esta dísti ca Descrip tiva.
Carlos Véliz Capuñay
El coeficiente de apuntamiento de Fisher es positivo cuando la distribución es leptocúrtica y negativo cuando la distribución es platicúrtica.
GRAFICOS DE CAJAS. (“Box Plots”). En los gráficos de cajas se representan: la mediana y los cuartiles, permitiendo tener una idea de la dispersión de los datos. Un gráfico de cajas es un rectángulo, como el de la siguiente figura,
|
| |
L
|
C 25
|
|
M C e 75
|
U
Figura 1.26.
en donde los lados "laterales" indican los percentiles C 25 y C 75, respectivamente. En el rectángulo se indica la mediana, con un segmento. De los lados que representan a los percentiles 25 y 75 parten, respectivamente, un segmento hasta el valor L = C 25 − 15 . d , en donde d es el rango intercuartil y un segmento hasta el valor U = C75 + 15 . d . De un gráfico de cajas se obtiene información acerca de:
•
La centralización de los datos (con la mediana).
•
La dispersión (con el rango intercuartil C 75 - C 25).
•
La simetría (observando la posición de la mediana).
•
La longitud de las "colas" (con los s egmentos que parten de los lados laterales).
En muchos casos, observaciones inconsistentes son incluidas en un conjunto de datos. Estas observaciones atípicas o discordantes se conocen con el nombre de " outliers" (en el idioma inglés). Un "outlier" aparece generalmente debido a las siguientes causas: a) Por observación incorrecta, por anotación incorrecta o por introducción incorrecta del dato al computador. b) Porque la observación es de una población diferente a la población de la cual viene el resto de las observaciones.
E s t a d í s t i c a D e s c r i p t iv a . 6 7
Carlos Véliz Capuñay
c) Porque la medida es correcta pero el evento es raro. Una regla práctica indica que una observación es outlier si es menor que L o mayor que U . Las observaciones de este tipo se representan en el gráfico con *. 1.60. Ejemplo.
La siguiente figura representa un gráfico de cajas correspondiente a 58 notas de los alumnos de un curso de Historia.
8
2
9
12
18 * 19
|
|
*
|
|
0
20 Notas
Figura 1.27.
Se observa que el "centro" de los datos es 9 (la mediana). El percentil 25 es 8, el percentil 75 es 12. El rango intercuartil es 4 (el 50% de las notas están entre 9 y 14). Las notas 19 y 20 son datos discordantes o outliers. Los gráficos de cajas se usan para comparar la dispersión de dos o más grupos de datos, cuando éstos están expresados en la misma unidad de medida. Tal caso se presenta en la siguiente representación, en donde se nota, por ejemplo, que el grupo B tiene un outlier que es mayor que el “outlier” que se presenta en A. En el grupo A hay mayor dispersión que en el grupo B. El grupo B es más simétrico que el grupo A. El grupo A tiene una cola a la izquierda. Grupo A * Grupo B * |
|
|
|
|
|
0
20
40
60
80
100
| 120
| 140
Figura 1. 28.
1.9. CARACTERISTICAS DE CONCENTRACION: Indice de Gini. Para medir la manera como están concentrados los salarios o la riqueza, en distintos grupos de una población se usa el índice de concentración de Gini .
68. Esta dísti ca Descrip tiva.
Carlos Véliz Capuñay
Para establecer el índice de concentración de Gini, consideremos la siguiente tabla, en donde se observa la distribución de 58058 obreros de acuerdo a su salario. En esta tabla, ni es la frecuencia en cada intervalo de clase, F i es la frecuencia acumulada relativa. La columna indicada con S i expresa la suma total de los ni sueldos que se encuentran en el respectivo intervalo y la columna indicada con qi expresa la proporción de la masa total monetaria que han ganado los n1 + n2 + ... + ni primeros obreros. Esto es, i
∑ S i
qi =
j = 1
S
en donde S es el total de masa monetaria ganada por todos los obrero s. DISTRIBUCION DE 58058 OBREROS DE ACUERDO A SUS SALARIOS. inter.de clase
N i
F i
S i
qi
[100, 120[
2413
0.0416
253365
0.0293
[120, 130[
4342
0.1164
525382
0.0903
[130, 140[
8642
0.2652
1192596
0.2284
[140, 150[
13300
0.4942
1888600
0.4473
[150, 160[
14500
0.7440
2276500
0.7112
[160, 170[
10200
0.9196
1652400
0.9027
[170, 180[
4093
0.9901
732647
0.9876
[180, 190[
443
0.9978
81955
0.9971
[190, 200]
125
1.0000
24875
1.0000
Total
58058
8628320
en donde S es el total de masa monetaria ganada por todos los obrero s. En la tabla podemos leer, por ejemplo, que el 49.42% de los trabajadores reciben el 44.73% de la masa total de los salarios de los 58058 trabajadores, que el 74.40% de los trabajadores perciben el 71.12% del total de los salarios, etc. Uniendo los puntos (qi , F i) se obtiene la curva de concentración de Lorenz, que en la siguiente figura se indica.
E s t a d í s t i c a D e s c r i p t iv a . 6 9
Carlos Véliz Capuñay
F
q
F i
1 i A Curva de Lorenz
F i-1
q i -1
0
q
1 Figura 1.29.
El índice de concentración de Gini , se define como el doble del área de la región comprendida entre la curva de concentración de Lorenz y la bisectriz principal. OBSERVACIONES
1. El índice de Gini es un valor comprendido entre 0 y 1. 2. El mínimo valor del índice de Gini es igual a 0 y se obtiene cuando todos los grupos, se reparten por igual la masa monetaria. 3. Si un grupo, digamos el primero, gana toda la masa monetaria, se demuestra que el índice de Gini es igual a 1. Lo anterior indica que si la curva de concentración tiende a los lados del rectángulo, existe una " fuerte concentración"; un alto porcentaje de los asalariados se reparte una pequeña parte de los salarios mientras que un pequeño porcentaje de ellos se reparte casi la masa total de los salarios. Si la curva de concentración tiende a la bisectriz del cuadrado se dice que existe "una concentración débil"; el índice de Gini tiende a 0 y los salarios son casi idénticos para toda la masa de trabajadores. Una expresión aproximada del índice de Gini, se encuentra aproximando el área A de la región comprendida entre la bisectriz y la curva de concentración. Se tiene que Area A ≈ 0.5 -
[ ∑ 0.5( q i + qi −1 )( Fi − Fi −1 )] .
Luego,
Indice de Gini = 2( Area A) ≈ 1 - [ ∑ ( q i + qi −1 )( Fi − Fi −1 )] Para los datos registrados en la tabla de distribución de los 58058 obreros, el índice de Gini es igual a 0.4399. La concentración de los salarios es baja.
70. Esta dísti ca Descrip tiva.
Carlos Véliz Capuñay
1.10. EJERCICIOS . 1.- Calcular la media, la mediana y la moda de los datos 2 5 5 6 6 6 7 7 60. Comentar los resultados . ¿Cuál de las medidas calculadas describe mejor el centro de la distribución de los datos?. . , M 0 = 6, M e = 6. Rpta. x = 115555 2. El siguiente conjunto de datos, corresponde a los porcentajes de humedad en diferentes lugares en una determinada región: 90 63 20 18 12 60 24 28 14 11 85 29 25 8 10 86 16 25 6 11 80 16 20 16 6. a) Calcular la media y la desviación estándar s’ b) ¿Qué porcentaje de datos está en el intervalo [ x − 2 s ′, x + 2 s ′] ?. s' = 27. 2597 . . Rpta. a) x = 311600 3. A continuación se presenta la distribución de 53 tiendas de abarrotes de acuerdo al número de empleados que tienen. Núm. de emplead.
Núm. de tiendas
2
11
3
16
4
17
5
9
Usar la información de la tabla para calcular la media, la mediana y la desviación estándar del número de empleados. 4. Los siguientes resultados indican el rendimiento de dos marcas de llantas: Llanta A B
Mediana, en Km.. 25000 27000
Media en Km. 27000 25000
Si las llantas de cualquier marca se venden al mismo precio, ¿qué marca de llanta se recomienda?. 5. Los datos siguientes corresponden al tiempo, en minutos, que demora una oficina "en darle trámite" a 50 documentos que ha recibido. 400 392 358 304 108 156 438 60 360 16 8 448 224 576 384 194 21 6 120 208 232 72 264 168 128 256 72 136 168 308 340 64 480 114 80 246 224 184 104 112 184 152 152 536 224 464 72 152 168 288 264 208. a) A partir de la tabla de frecuencias, construir el histograma de frecuencias relativas. Graficar el polígono de frecuencias relativas. Indicar las características de la distribución. b) Calcular la media, varianza, desviación estándar y el coeficiente de variación de los datos. c) Calcular la mediana, utilizando directamente los datos y utilizando la ojiva de la frecuencia acumulada relativa. d) Calcular los percentiles C 10, C 20, C 75, y C 90. 6. Se informa que en el salón B las notas de Historia de los alumnos que lo forman se distribuyen tal como lo indica la siguiente tabla y en donde f i son las frecuencias relativas
E s t a d í s t i c a D e s c r i p t iv a . 7 1
Carlos Véliz Capuñay
Notas
f i
[8, 12[
f 1
[12, 16[
f 2
[16, 20]
f 3
Calcular aproximadamente la media de las notas en B si el 45% tiene una nota inferior a 11 y el 70% tienen una nota inferior a 17. Rpta. Los valores respectivos de las frecuencias relativas son 0.60, 0 y 0.4. La media es 13.2 7. Indicar una lista de 10 números de forma que la desviación estándar sea lo más grande posible con la condición de que: a) cada número sea un 1 o un 5. b) cada número sea un 1 o un 5 o un 9 y, a lo más, dos de ellos sean 5. 8. Un investigador toma una muestra de 100 hombres cuyas edades están comprendidas entre 18 y 24 años de edad en una ciudad determinada. Otro investigador toma una muestra de 1000 hombres cuyas edades también están entre 18 y 24 años. a) ¿Habrá una muestra con una media mayor que la media de la otra muestra o serán ambas parecidas?. b) ¿Habrá una muestra con una desviación estándar mayor o serán ambas parecidas?. 9. Tres profesores están comparando las notas de los exámenes finales que han realizado. Cada profesor tiene 99 alumnos. En la clase A, un estudiante obtuvo 1 punto, otro obtuvo 99 puntos, y el resto obtuvieron 50 puntos. En la clase B, 49 estudiantes lograron una puntuación de 1, un estudiante logró 50 puntos y 49 alumnos llegaron a los 99 puntos. En la clase C, un estudiante logró 1 punto, otro estudiante 2 puntos, otro estudiante 3 puntos y así sucesivamente hasta llegar el estudiante número 99 que logró los 99 puntos. a) ¿Existe alguna clase que tenga una media de notas superior a las demás o todas las medias son iguales?. b) ¿Existe alguna clase que tenga una desviación estándar de notas superior a las demás o todas las desviaciones estándar son iguales?. 10. En un conjunto de números positivos, ¿puede ser mayor la desviación estándar que la media en alguna ocasión?. 11. Un conjunto está formado por 10 números. Cada número es: o el 1, o el 2 o el 3. a) La media es 2 y la desviación estándar es 0. ¿Cómo es el conjunto de datos exactamente?. b) La desviación estándar es 1. ¿Cómo es el conjunto exactamente?. c) ¿Puede ser la desviación estándar superior a 1?. 12. Un profesor está haciendo a sus alumnos un examen que tiene una calificación máxima de 20 puntos. Su sistema es tal, que las notas deben ser necesariamente múltiplos de 5. Al final, una vez corregidos los exámenes obtiene la siguiente distribución de notas. 40% obtuvieron la nota 20, 30% obtuvieron 15, 20% obtuvieron 10 y 10% obtuvieron 5. a) Si se supone qu e hay 20 alumnos, ¿se puede hallar la media y la desviación estándar?. b) Si no se sabe el número de alumnos, ¿se puede calcular la media y la desviación estándar?. 13. La repartición de un grupo de 75 alumnos de un colegio de acuerdo a su talla en cm, es como se indica en la siguiente tabla. a) Graficar la frecuencia relativa y la frecuencia acumulada relativa.
72. Esta dísti ca Descrip tiva.
Carlos Véliz Capuñay
b) Usar las marcas de clase para aproximar la media, la mediana y la desviación estándar. Talla
Frecuencia
[80, 85[
4
[85, 90[
14
[90, 95[
23
[95, 100[
17
[100, 105[
11
[105, 110]
6
14. A continuación se presenta la distribución de los tiempos totales, en minutos, que diferentes estaciones de radio dedican a los avisos comerciales entre las 8:00 a. m. y las 12:00 m. Tiempo
# radios
[0.5, 6.5[ [6.5, 12.5[ [12.5, 18.5[ [18.5, 24.5[ [24.5, 30.5[ [30.5, 36.5[ [36.5, 42.5[ [42.5, 48.5[ [48.5, 54.5[ [54.5, 60.5]
1 3 18 2 1 10 0 0 2 14
a) Usar las marcas de clase para aproximar la media y la desviación estándar del tiempo que las estaciones de radio dedican a los avisos comerciales entre las 8:00 a.m. y las 12:00 m. b) Calcular el porcentaje de tiempos de avisos comerciales que están en el intervalo [ x − 3s ′, x + 3s′] . c) Calcular la mediana, utilizando la ojiva de la frecuencia acumulada relativa. 15. Los 100 alumnos de una sección A se distribuyen de acuerdo a sus notas de Historia tal como indica la siguiente tabla (ni indica la frecuencia). Notas [8, 10[
ni 28
[10, 12[
50
[12, 14]
22
De manera aproximada, calcular la nota debajo de la cual está el 40% de las notas. También calcular, aproximadamente, la mediana. Rpta. El percentil 40 es 10.48. 16. Se encontró que en 800 datos la media aritmética y la desviación estándar eran 9.496 y 0.345, respectivamente. Una revisión de los resultados mostró que en lugar del valor 9.56 se introdujo 1.56. Recalcular la media aritmética y la desviación estándar. Rpta. 9.506, 0.200. 17. Calcular la media de un grupo de 80 datos que ha sido dividido en tres subgrupos: A, B y C , para los cuales se tienen las medias y el número de datos correspondiente:
E s t a d í s t i c a D e s c r i p t iv a . 7 3
Carlos Véliz Capuñay
x A = 50, N A =#( A) = 10, x B = 80, N B =#( B) = 20 y xC = 60, N C =#( C ) = 50. Rpta . 63.75. 18. Aplicando las propiedades de la media, probar que si x1, ... , xm , es un conjunto de datos cuya media es x , entonces el conjunto de datos y1, ... , ym , obtenidos al realizar la transformación yi = axi + b , donde a y b son constantes, tienen media
y = ax + b.
19. Calcular la media y la desviación estándar de un grupo de 30 datos que ha sido dividido en dos grupos: A y B, para los cuales se tiene: x A = 50, N A = 10, s A = 5 y x B = 80, N B = 20, s B = 8. Rpta . La media es 70 y la desviación estándar, 15.84. 20. El 70% del personal de una compañía son varones y el resto, mujeres. El promedio de los sueldos de los varones es $ 700 y el promedio en el grupo de mujeres es $ 600. Hallar el sueldo promedio del personal de la compañía. 21. La media y la varianza de los tiempos x1 ,..., xn utilizados en realizar n tareas similares son 14 y 2.89, respectivamente. El c osto por realizar cada tarea es yi = 20 + 0.5 xi + 0.1 xi2 , hallar la media de los costos. 22. En una empresa pública el promedio de los sueldos de los obreros es 40 unidades monetarias (u.m.) y el de los empleados, 50 u.m. Si la empresa decide aumentar 20 u .m. a cada empleado y obrero; hallar el promedio general de los sueldos actuales (considerando el aumento) si el número de obreros es el 10% del número de empleados. Rpta. 69.09. 23. Durante el mes de marzo el sueldo promedio de los trabajadores del sector industrial era de $100. Para el mes de abril se considera para cada trabajador un aumento del 30%, con respecto del mes de marzo más un adicional de $50. Si el coeficiente de variación en marzo era de 0.25, ¿se puede decir que la distribución de sueldos en abril es más homogénea?. Rpta. Si, el nuevo coeficiente de variación es 0 .1805. 24. En el mes de enero, el promedio de los salarios de los empleados de una empresa era 40 u.m.; en el mes de febrero, la empresa consideró un incremento del 25% en el número de empleados y con un salario igual al 80% del promedio de los salarios de los antiguos empleados. En el mes de marzo, la empresa hizo efectivo un aumento del 25% en el salario de cada uno de los empleados, más una asignación de 20 u.m. por escolaridad. Hallar el sueldo promedio de los salarios de los empleados en el mes de marzo. 25. El coeficiente de variación de un grupo de datos es 0.1. Si a cada dato se le aumenta primero el 20% de su valor y luego 5 unidades, el coeficiente de variación es igual a 0.0 5. Halle el valor de la media y la varianza de los datos originales. Halle el valor de la media y de la varianza d espués del aumento. Rpta . La media y la desviación estándar originales son: 4.1666, 0.4166. 26. El tiempo qu e 30 operarios demoraron en ejecutar una tarea fue registrado en minutos, obteniéndose: 7.0 9.0 11.4 7.2 10.2 13.5 17.0 14.0 14.5 8.0 9.1 9.4 13.1 8.5 10.4 15.5 12.0 11.0 11.2 9.6 9.2 9.5 15.6 8.4 10.8 13.0 12.5 12.4 10.5 7.8. Construir una distribución de frecuencias con cinco intervalos de igual longitud y a partir de ésta estudiar, usando medidas estadísticas adecuadas las siguientes afirmaciones: a) “Calculando una medida central representativa para esta distribución, se deduce que el tiempo promedio de ejecución de la tarea por operario llega a superar los 11 minutos”. b) “La mitad de los operarios no demoró más de 10.8 minutos”.
74. Esta dísti ca Descrip tiva.
Carlos Véliz Capuñay
c) “Un operario cualquiera nunca demoró un tiempo que excedió al tiempo medio en más de dos desviaciones estándar”. Si se eligiera al azar a uno de los operarios y se deseara predecir el tiempo en que éste ejecutó la tarea, de tal manera que el promedio de los cuadrados de los errores fuera mínimo, ¿cuál sería el valor de predicción?. Si se eligiera al azar a uno de los operarios y se deseara predecir el tiempo en que éste ejecutó la tarea, de tal manera que el promedio de los de los errores en valor absoluto fuera mínimo, ¿cuál sería el valor de predicción?. 27. La distribución de mujeres cuyas edades fluctúan entre 40 y 50 años, de acuerdo al número de hijos en las comunidades A y B es como se indica en la siguiente tabla. Número de mujeres Número hijos
A
B
0 1 2 3 4
6 9 23 28 22
8 15 20 15 10
Comparar las distribuciones en A y B u sando las medias y los coeficientes de variación. a) ¿Las mujeres, de qué comunidad, tienen el mayor promedio de hijos?. b) ¿Para que comunidad, la d istribución del número de hijos es más homogénea?. 28. En un grupo de datos, el 1 se repite el 25% de las veces y el 2 se repite el 75% restante. Para tal grupo, hallar el valor a que hace que la suma (1 − a)2 + ... + (1 − a) 2 + (2 − a)2 + ... + (2 − a) 2 , sea mínima. Rpta. 1.75
29. Las ciudades A, B, y C (en ese orden) están unidas en línea recta por una carretera. La distancia entre las ciudades A y B es 4 km, mientras que entre B y C la distancia es 5 km. Se desea construir un centro de recreo en un punto de la carretera para un total de 200 niños distribuidos de la siguiente manera: 25% de los niños viven en A, 35% de los niños viven en B y el resto vive en C. ¿Cuál debe ser la ubicación del centro de recreo si se considera que el costo de transporte por cada niño es proporcional a la distancia recorrida y el costo total al transportar a todos los niños debe ser mínima?. Rpta . La respuesta corresponde a la mediana d e los valores: 0, repetido 50 veces, 4 repetido 70 veces y 9 repetido 50 veces. 30. Usando los datos del ejercicio 5, calcular los percentiles 10, 20, 50 y 75. 31. Usando los da tos de la tabla del ejercicio 8, c alcular aproximadamente el intercuartil. 32. Durante cuatro años consecutivos un banco aumentó su capital en 100%, 150%, 300% y 400%. Indicar la tasa de aumento promedio del capital si al inicio fue 50 millones de dólares. 33. El aumento de la tasa de cambio en el país durante las cuatro semanas del mes de Junio y con respecto a la semana anterior fue como sigue: 1%, 2%, 3%, y 2%. Calcular, usando la media geométrica, el aumento promedio de la tasa de cambio. Rpta . El aumento promedio de la tasa de cambio es 1.9975%.