Capítulo
1
ESTADÍSTICA DESCRIPTIVA PARA DATOS NO AGRUPADOS Objetivos •
Definir y explicar los conceptos de Estadística y Estadística Descriptiva. Descriptiva.
•
Ejemplificar Poblaciones y muestras de un conjunto de datos y explicar las diferencias entre Estadístico y Parámetro.
•
Explicar las diferentes escalas de medida de los datos.
•
Describir diferentes técnicas de seleccionar una muestra, así como sus características principales de cada una de ellas.
•
Definir y calcular las principales medidas centrales y de dispersión de un conjunto de datos ya sea muestrales o poblacionales.
•
Calcular los cuantiles y determinar los rangos intercuantílicos de un conjunto de datos.
•
Calcular la medida de comparación llamada coeficiente de variación.
•
Calcular los diferentes parámetros de forma para trazar la gráfica de un conjunto de datos.
•
Aplicar las diferentes medidas estudiadas para datos no agrupados en la inversión de títulos, y los portafolios de inversión.
1
2. Capítulo 1
Introducción
D
esde tiempos muy remotos el ser humano ha tenido que enfrentar al análisis de una gran cantidad de datos o información referentes a los problemas o actividades de sus comunidades. Por ejemplo, ejemplo, desde los comienzos de la civilización civilización ya se utilizaban representaciones gráficas y otros símbolos en pieles, rocas, palos de madera y paredes de cuevas para contar el número de personas, personas, animales o cosas. Hacia el año 3000 a.C. los babilonios babilonios usaban pequeñas tablillas de arcilla para recopilar datos sobre la producción agrícola y los géneros vendidos o cambiados mediante mediante el trueque. Mucho antes de construir las las pirámides, los egipcios egipcios analizaban los datos de la población y la renta del país. Otro ejemplo muy claro de la recopilación y análisis de datos lo llevo a cabo el Imperio Romano, quien fue el primer gobierno que al verse en la necesidad de mantener un control sobre sus esclavos y riquezas recopiló una gran cantidad de datos sobre la población, superficie y renta de todos los territorios bajo su control. Siguiendo con la historia de la recopilación de datos encontramos que a mediados del primer milenio, debido al gran crecimiento de las poblaciones y, para poder tener un control sobre éstas, comenzaron a efectuarse diferentes censos poblacionales, como los llevados a cabo en la edad media en Europa. Europa. Por ejemplo, los reyes caloringios caloringios1 Pipino el Breve y Carlomagno ordenaron hacer estudios minuciosos de las propiedades de la Iglesia en los años 758 y 762, respectivamente. Conforme pasaba el tiempo la recopilación y análisis de datos comenzaban a tener otro fin a parte de los censos y conocimiento de de propiedades. Por ejemplo, en Inglaterra a principios principios del siglo XVI se realizó el registro de nacimientos y defunciones con el cual en 1662 apareció el primer estudio de datos poblacionales, titulado Observations on the London Bills of Mortality (Comentarios sobre las partidas de defunción en Londres). Un estudio similar similar sobre la tasa de mortalidad mortalidad en la ciudad de Breslau, en Alemania, realizado en 1691, fue utilizado por el astrónomo inglés Edmund Halley Halley como Método base para la primera tabla de mortalidad. mortalidad. Finalmente en el siglo siglo XIX, con la generalización del Método Científico para estudiar todos los fenómenos de las ciencias naturales y sociales, los investigadores aceptaron la necesidad de reducir la información a valores numéricos para evitar la ambigüedad de las descripciones verbales. Así, tomando en cuenta los problemas que se tienen en el manejo de datos para obtener información sobre una población o muestra en estudio, el Capítulo da inicio con las definiciones de Estadística y Estadística descriptiva, después se habla sobre las poblaciones, muestras y técnicas de muestreo. Posteriormente, Posteriormente, se define y ejemplifica ejemplifica que es un parámetro parámetro y un estadístico. estadístico. Se habla sobre sobre las medidas centrales y de desviación más comunes en la estadística descriptiva (sin agrupamiento de datos), en esta parte también se habla sobre los cuantiles. Finalmente, se estudia el coeficiente de variación para comparación de datos.
1.1 ESTADÍSTICA La palabra statistik proviene proviene de la palabra italiana statista (que significa “estadista”). Fue utilizada por primera vez por Gottfriend Achenwall (1719-1772), (1719-1772), un profesor de Marborough Marborough y de Göttingen. Göttingen. El Dr. W. Zimmerman introdujo el término statistics (estadística) a Inglaterra. Su uso fue popularizado 1
Carolingia, Dinastía, también llamada Carlovingia, dinastía de reyes francos que gobernaron un vasto territorio en Europa occidental desde el siglo VII hasta el siglo X d.C.; d .C.; la dinastía toma su nombre de su más renombrado miembro, Carlomagno
2
Estadística Descriptiva para datos no agrupados. 3
por sir John Sinclair en su obra Statistical Account of Scotland 1791-1799 1791-1799 (informe estadístico sobre Escocia 1791-1799). 1791-1799). Sin embargo, embargo, mucho antes del siglo XVIII la gente gente ya utilizaba y registraba registraba datos. Después de revisar la introducción del Capítulo, estaremos de acuerdo que el ser humano se ha visto en la necesidad de crear una ciencia que reduzca la información a valores numéricos para la mejor y fácil interpretación de los fenómenos que lo rodean, dando a ésta el nombre de Estadística. ¿Qué entenderemos por Estadística? Definición 1.1 Estadística Estadística , rama de las matemáticas que proporciona métodos para reunir , organizar y y analizar
información y usar ésta para obtener diversas conclusiones que pueden ayudar a resolver problemas en la toma de decisiones y el diseño de experimentos. ¿Qué describe actualmente la Estadística?
En nuestros días, la estadística se ha convertido en un método efectivo para describir con exactitud los valores de datos económicos, políticos, sociales, psicológicos, químicos, biológicos, físicos, etc. y sirve como como herramienta para relacionar y analizar dichos dichos datos. Por tales razones, la Estadística se divide en diferentes campos entre los más aplicados y que tienen una importancia relevante en nuestros días tenemos: •
Estadística Descriptiva.
•
Estadística Inferencial.
•
Regresión lineal.
•
Diseños de experimentos.
•
Análisis multivariado.
•
Estadística no paramétrica.
•
Estadística espacial.
En el presente texto estudiaremos: •
Estadística Descriptiva.
•
Estadística Inferencial.
•
Regresión lineal simple.
La primera de ellas se ha dividido en dos partes: datos no agrupados y datos agrupados . La estadística descriptiva para datos no agrupados se estudia en el presente Capítulo, mientras que en el caso de datos agrupados la veremos en el siguiente. Con respecto a la Estadística Inferencial la revisaremos en los capítulos capítulos del 3 al 9. Finalmente, en el Capítulo Capítulo 10 veremos la Regresión simple.
1.2 POBLACIÓN Y MUESTRA MUESTRA La materia prima de la estadística consiste en conjuntos de números obtenidos al contar o medir elementos. Por lo tanto, al recopilar datos estadísticos debemos debemos tener especial cuidado, para garantizar que la información sea completa y correcta, por consiguiente, el primer problema para los estadísticos reside en determinar qué información y en qué cantidad se se deberá reunir. Por ejemplo, ejemplo, en la practica la dificultad al llevar a cabo un censo reside en obtener el número de habitantes de forma completa y exacta; de la misma manera cuando un físico quiere contar el número de colisiones por segundo entre 3
4. Capítulo 1
las moléculas de un gas, debe empezar determinando con precisión la naturaleza de los objetos a contar. ¿Cómo se obtienen los conjuntos de datos en la Estadística?
Debido a que la naturaleza de los fenómenos que podemos analizar varía mucho, es necesario dar una serie de definiciones sobre los conjuntos de datos que vamos a revisar. Definición 1.2
Se llama Población al conjunto de todos los elementos de un tipo particular cuyo conocimiento es de nuestro interés. Cada uno de los elementos que intervienen en la definición de población es un individuo u se denominan así, debido debido a que originalmente originalmente el campo campo de objeto. Los elementos de la población se actuación de la estadística fue la demografía. La información disponible para un estudio, con frecuencia, consta de una porción o subconjunto de la población. Por tal razón, introducimos introducimos un segundo concepto, concepto, “Muestra” de una Población. Definición 1.3
Se llama Muestra a cualquier subconjunto de la población. EJEMPLOS 1 1).-
Si el conjunto de datos en e n interés está constituido por todos los estudiantes de licenciatura en la UPIICSA. En este caso, cada uno de los estudiantes estudiantes será un individuo estadístico mientras que el conjunto de todos estos estudiantes será la población y una muestra podría ser el conjunto de todos los estudiantes del cuarto semestre de la licenciatura en administración.
2).-
Si el conjunto de datos en interés está constituido por todos los promedios de los grupos de licenciatura de la Universidad Autónoma Autónoma de Chapingo. Chapingo. En este caso, cada uno de los grupos será será un individuo estadístico , mientras que el conjunto de todos estos grupos será la población y una muestra podría ser el conjunto de todos los grupos del quinto semestre de la licenciatura en economía.
3).-
El estudio de ciertos experimentos experimentos químicos. En este caso, cada uno de los experimentos experimentos será un individuo estadístico y el conjunto de todos los posibles experimentos en esas condiciones será la población, mientras que una muestra podría ser, un conjunto de resultados experimentales bajo ciertas condiciones.
4).-
El conjunto de valores del coeficiente intelectual de los alumnos de nivel medio superior en la UNAM. En este caso, los los individuos son los estudiantes de nivel medio superior en la UNAM.
5).-
El conjunto de mediciones, en toneladas, de la carga máxima soportada por los cables de acero producidos por la compañía CM. En este caso, los individuos se refieren a los cables producidos por la compañía durante un período determinado.
1.2.1 CARACTERES Y VARIABLES ESTADÍSTICAS Al definir una población se habló sobre sus elementos a los que se llamamos individuos, además en los ejemplos 1 se nota que éstos pueden ser descritos por una o varias de sus propiedades o características.
4
Estadística Descriptiva para datos no agrupados. 5 Definición 1.4
Se llama carácter de un individuo u objeto a cualquier característica o propiedad por medio de la cual se puede clasificar y estudiar. EJEMPLOS 2 1).-
Si los individuos son personas, entonces el sexo, el estado civil, el número de hermanos o su estatura son caracteres.
Si el individuo es una reacción química, entonces el tiempo de la reacción, 2). producto obtenido o si éste es ácido o básico son posibles caracteres.
la cantidad de
Un carácter puede ser: Cualitativo o no métrico, si no admite medición numérica. Cuantitativo o métrico, si es
contable o medible numéricamente.
¿Qué es un carácter cualitativo y un carácter cuantitativo?
Los datos no métricos o caracteres cualitativos son atributos, características o propiedades categóricas que identifican o describen a un sujeto. Describen diferencias en tipo o clase indicando la presencia o ausencia de una característica propia. Por ejemplo, si una persona es mujer, se excluye que sea hombre. Es decir, no hay cantidad de “género”, sólo la condición de ser mujer u hombre. Por otro lado, los datos métricos o caracteres cuantitativos están constituidos de tal forma que los sujetos pueden estar identificados por diferencias entre sus cantidades. Es decir, las variables medidas métricamente reflejan cantidades relativas. Por tal razón, las medidas métricas son las más apropiadas para casos que involucren cantidad o magnitud, tales como la demanda de trabajo, el nivel de ozono en la atmósfera, etc. ¿Qué es una variable estadística?
Los distintos valores que puede tomar un carácter cuantitativo configuran una variable estadística. Las variables estadísticas existen de dos tipos: Discretas y continuas. Definición 1.5
Una variable estadística es discreta cuando sólo permite valores aislados, como pueden ser números enteros. Por ejemplo, en cierta población la variable que representa al número de hermanos puede tomar los valores: 0, 1, 2, 3, 4 y 5. Este tipo de variables se caracterizan por obtenerse mediante un proceso de conteo (ver semejanza con las variables aleatorias discretas de la Teoría de las Probabilidades). Definición 1.6
Una variable estadística es continua cuando admite todos los valores de un intervalo. Por ejemplo, en cierta población la variable que representa la estatura de una persona adulta que se mide, puede toma cualquier valor en el intervalo 135–215 cm. Otro ejemplo es la variable temperatura de una persona , la cual puede tomar cualquier valor en el intervalo 20-41 C . Este tipo de variables se caracterizan por obtenerse mediante mediciones (ver semejanzas con las variables aleatorias continuas de la Teoría de las Probabilidades). o
5
6. Capítulo 1
1.2.1.1 ESCALAS DE MEDICIÓN DE UNA VARIABLE Se mencionó que tenemos dos tipos de datos: cualitativos o no métricos y los cuantitativos o métricos. En está parte discutiremos un poco más sobre sus escalas de medición. ESCALAS DE MEDIDAS CUALITATIVAS O NO MÉTRICAS
Las medidas no métricas pueden tener escalas nominales y ordinales. •
Escala nominal o de categorías:
En esta escala podemos usar números para etiquetar o identificar a los sujetos u objetos pero no hay relación de orden. En esta escala el número asignado sólo sirve para determinar el número de ocurrencias en cada clase o categoría de la variable que estamos estudiando. Por ejemplo, los números que se asignan al sexo o al estado civil de una persona, sólo sirven para indicar la presencia o ausencia del atributo o característica bajo estudio. Esta escala es propicia sólo para variables discretas y sirve para clasificar a la población.
EJEMPLOS 3 1.
En el sector económico: Se puede clasificar como primario, industrial y de
2.
Profesión: Ingeniero, medico, matemático, abogado, etc.
3.
Propiedad del suelo: Agrícola, forestal, urbano, etc.
4.
Sexo o género de la persona: Masculino y Femenino.
5.
Colores de un objeto: blanco, negro, rojo, etc.
•
servicios.
Este tipo de escala cualitativa presenta un nivel superior de precisión de la medida que la escala nominal. Las variables pueden ser ordenadas o clasificadas con escalas ordinales en relación a la cantidad del atributo poseído. Podemos realizar una relación de orden entre las clases con base en un gradiente ascendente “mayor que” o descendente “menor que”. Esta escala es propicia sólo para variables discretas y sirve para ordenar los datos. Escala ordinal:
EJEMPLOS 4
Diferentes niveles de satisfacción de una persona sobre un producto determinado, pueden ser: Muy satisfecho, medio satisfecho y no muy satisfecho. Estos atributos representan una relación de orden en forma descendente. Obsérvese que los números posibles a utilizarse en esta escala no son cuantitativos, dado que indican posiciones relativas en series ordenadas. Esto se debe a que no hay medida de cuánta satisfacción recibe el consumidor en términos absolutos, más aún el investigador ni siquiera conoce con certeza la diferencia exacta entre diferentes puntos de la escala de satisfacción. 2. Niveles de estudio de un candidato a ocupar un puesto en la empresa: Pasante, licenciado, maestría, doctorado. Estos atributos representan una relación de orden en forma ascendente. 3. Clases sociales con respecto a su poder adquisitivo: baja, media y alta. Estos atributos representan una relación de orden en forma ascendente. 4. Clases de carros: Lujo, deportivo, automático equipado, automático, estándar equipado, estándar, austero. Estos atributos representan una relación de orden en forma descendente. Cuando una variable cualitativa sólo puede tener dos categorías que podemos nombrar de presencia-ausencia, se suelen llamar variables cualitativas binarias . Es decir, la variable indica la presencia o ausencia de un atributo, este tipo de variables las encontramos comúnmente en los cuestionarios. Ejemplos: La persona tiene casa propia o no. La persona tiene trabajo o no. Un adolescente estudia o no, etc. 1.
6
Estadística Descriptiva para datos no agrupados. 7
ESCALAS DE MEDIDAS CUANTITATIVAS O MÉTRICAS
Las medidas métricas pueden tener escalas por intervalos y razón, éstas proporcionan el nivel más alto de medida de precisión, permitiendo realizar casi todas las operaciones matemáticas. Las dos escalas tienen unidades constantes de medida, de tal forma que las diferencias entre dos puntos adyacentes de cualquier parte de la escala son iguales. La única diferencia real entre las escalas de intervalo y las de razón es que las de intervalo tienen un punto cero arbitrario, mientras que las escalas de razón tienen un cero absoluto. • Escala de intervalos: Se pueden medir distancias, el cero es arbitrario como punto de referencia. Esta escala es propicia para variables tanto discretas como continuas. Las escalas de intervalos más comunes son las escalas de temperatura Celsius y Fahrenheit. Ambas tiene un punto de cero arbitrario, pero ese cero no indica una cantidad cero o ausencia de temperatura, dado que se pueden registrar temperaturas por debajo del punto cero de esa escala. Por lo tanto, no podemos decir que un valor cualquiera situado en un intervalo de la escala es un múltiplo de cualquier otro punto de la misma escala. EJEMPLO 5
Si en un día se registra una temperatura de 80 grados Fahrenheit, no se puede decir que sea dos veces más calurosa que otro día con una temperatura de 40 grados Fahrenheit. Esto se debe a que en la escala Celsius las temperaturas equivalen a 26.7 grados y 4.4 grados, respectivamente y, obviamente 26.7 ≠ 2 × 4.4 , de tal manera que no se puede afirmar que el calor de 80 grados F sea dos veces el calor de 40 grados F porque usando diferentes escala el calor no es dos veces mayor. •
Escala de razón (proporción): Este tipo de escala es la más fuerte y prácticamente en ella se
pueden tomar cualquiera de las medidas que se estudiarán más adelante. En esta escala podemos hacer todas las operaciones aritméticas y, es propicia para variables tanto discretas como continuas. Aquí el cero toma un valor absoluto. Por tal razón, las medidas pueden expresarse en múltiplos cuando se relaciona un punto con otro de la escala. EJEMPLO 6
El peso de un mueble de 40 kg, es el doble de uno de 20 kg. Entre otros ejemplos, el nivel de inflación, el producto interno bruto, tasa de interés, tipo de cambio, precios de la mezcla de petróleo, etc. NOTA
El uso adecuado de las diferentes escalas de medición es muy importante para que el estudiante o el investigador identifiquen la escala de medición de cada variable empleada, de tal manera que no estén utilizando datos no métricos como si fueran métricos. Para finalizar la sección daremos una definición de Estadística descriptiva. Definición 1.7
La parte de la Estadística que analiza, estudia y describe a la totalidad de individuos de una población o muestra se llama Estadística Descriptiva . ¿Cuál es la finalidad de la Estadística Descriptiva?
La finalidad de la Estadística Descriptiva consiste en obtener información, para después analizarla, elaborarla y simplificarla lo necesario para que pueda ser interpretada, cómoda y rápidamente y en consecuencia se pueda utilizar eficazmente para algún fin deseado.
7
8. Capítulo 1
El proceso que sigue la Estadística Descriptiva para el estudio de una población o muestra consta de los siguientes pasos: • •
•
•
•
Selección de caracteres dignos de ser estudiados. Mediante encuesta o medición, obtención del valor de cada individuo, con respecto a cada uno de los caracteres seleccionados. Obtención de números que sinteticen los aspectos más relevantes de una distribución estadística (más adelante a dichos números en el caso de la población les llamaremos parámetros, mientras que en el caso de las muestras les llamaremos estadísticos). Elaboración de tablas de frecuencias, mediante la adecuada clasificación de los individuos dentro de cada carácter (esta parte se estudiará en el Capítulo 2 mediante el tema llamado Clases de frecuencias). Representación gráfica de los resultados (esta parte también se estudiará en el Capítulo 2 mediante la elaboración de gráficas estadísticas).
EJERCICIOS 1.1 En cada caso indique la sujeto estadístico, observación, población, discuta sobre una posible muestra, indique el carácter de interés y el tipo del carácter.
El director de una escuela primaria lleva un control de la edad en años de los alumnos de la escuela. 2).- El director de una escuela primaria mide las estaturas de los alumnos de la escuela. 3).El supervisor de una línea de producción de botes de cerveza lleva el control sobre la cantidad de líquido envasada, con la finalidad de detectar la cantidad de líquido envasada por bote al día. 4).- El supervisor de una línea de producción de botes de cerveza lleva el control sobre la cantidad de botes envasados en la línea de producción que estén en alguno de los tres rangos (llenado alto, medio y bajo) establecidos por el departamento de control de calidad de la envasadora. 5).- El gerente de mercadotecnia de una compañía recibe los informes sobre el volumen de ventas diarias de la compañía durante un año y le interesa conocer su utilidad diaria. 6).- El gerente de mercadotecnia de una compañía recibe los informes sobre el volumen de ventas diarias de la compañía durante un año. 1).-
En cada uno de los ejercicios indique el tipo de escala que se utilizaría para llevar a cabo un estudio estadístico.
En el caso de los promedios de los estudiantes de licenciatura en la Universidad, el carácter se refería a la calificación promedio del estudiante y se trata de un carácter de tipo métrico continuo. 8).- En el caso de los promedios de los grupos de licenciatura en la Universidad, el carácter se refería a la calificación promedio de los grupos de licenciatura de la Universidad y se trata de un carácter de tipo métrico continuo. 9).- En el caso del gerente de mercadotecnia de una compañía sobre el volumen de ventas diarias de la compañía durante un año, el carácter se refería al volumen de ventas al día y se trata de un carácter de tipo métrico discreto. 10).- En el caso del gerente de mercadotecnia de una compañía sobre el volumen de ventas diarias de la compañía durante un año, en donde interesaba la utilidad diaria, el carácter se refería a la utilidad y se trata de un carácter de tipo métrico discreto. 7).-
8
Estadística Descriptiva para datos no agrupados. 9 11).- Cuando los individuos son personas, entonces el sexo, el estado civil
son caracteres de tipo
cualitativo.
12).- Si el individuo es una reacción química, entonces si éste es ácido o básico se trata de un carácter de
tipo no métrico.
1.3 TÉCNICAS DE MUESTREO Los estadísticos enfrentan un problema complejo cuando, por ejemplo, toman una muestra para un sondeo de opinión o una encuesta electoral, puesto que seleccionar una muestra capaz de representar con exactitud las preferencias del total de la población no es tarea fácil. Más aún un buen muestreo debe proporcionar resultados más oportunos que permitan la obtención rápida de información de toda una población o sobre un proceso variable. Además de lo anterior, veremos que el buen muestreo es indispensable para los problemas estadísticos, en donde el estudio de toda la población resulta ser muy caro, o en los casos en que la información se destruye, el estudio de toda la población no sería factible. Por ejemplo, en el control de calidad sobre la vida media de las bombillas, se llevan a cabo pruebas de tipo destructivo puesto que la muestra se analiza hasta que las bombillas dejen de funcionar. En muchas situaciones el muestreo produce resultados más exactos que en un censo (un censo se lleva a cabo cuando es indispensable analizar todos los casos de una población), dado que la pesada carga de trabajo de procesar la información de un censo produce una gran fatiga, que a su vez, puede ser la responsable de prácticas poco adecuadas por parte de los investigadores. Asimismo, la población puede ser muy dinámica y no mantenerse en un estado el tiempo necesario para medir sus características. Por otro lado, existen infinidad de casos de laboratorio o experimentos, que no tienen todos los datos de la población, ya que éstos ocurren sólo con las repeticiones de los experimentos que pueden ser infinitas. ¿Qué entenderemos por muestreo? Definición 1.8
El muestreo es simplemente un conjunto de métodos para obtener muestras. ¿Qué buscamos con el muestreo?
Con el muestreo buscamos con el mínimo costo obtener la máxima información sobre las medidas de la población (parámetros). En otras palabras buscamos con una muestra pequeña obtener la mayor información posible de los parámetros. Al usar un muestreo se deben tomar las precauciones necesarias para asegurar la aleatoriedad de las muestras. Por consiguiente, existen diferentes técnicas para llevar a cabo un buen muestreo. Generalmente, los investigadores y estudiantes de otras áreas aplicadas requieren conocer el tamaño de una muestra ideal en su problema, por tal razón cabe aclarar que en estos resúmenes sólo se menciona en que consisten los métodos. Para determinar los tamaños de muestra que se recomienda usar en cada método, sugerimos consultar alguna de las literaturas mencionadas al final del libro sobre el tema de muestreo, ya que éstos requieren de otros conceptos que quedan fuera de las posibilidades del texto. Pero en forma general podemos decir, que si las poblaciones son homogéneas (la característica de interés es poco variable) no existe problema para realizar o diseñar un muestreo, ya que basta con un muestreo pequeño. Sin embargo, si la población es heterogénea, entonces se tendrán
9
10. Capítulo 1
ciertas dificultades para decidir sobre que tipo de muestreo debe emplearse. De acuerdo a esto último podemos decir que es necesario preparar gente que sea capaz de muestrear en poblaciones heterogéneas. A continuación revisaremos un breve resumen de las técnicas más comunes en los muestreos probabilísticos. 1.3.1 MUESTREO ALEATORIO SIMPLE Cuando hablamos de un muestreo aleatorio simple debe entenderse un muestreo sin reemplazo. El muestreo aleatorio simple se recomienda cuando las características de interés presentan gran homogeneidad, pues en caso contrario su uso requeriría muestras “grandes”, para lograr una precisión aceptable. Además, cuando se presenta cierta heterogeneidad en los datos podrían seleccionarse “muestras indeseables”. El muestreo aleatorio simple es aquel método que asigna una probabilidad igual de selección a todas y cada una de las muestras posibles y distintas. Siendo esta probabilidad 1 C N n , donde N representa al tamaño de la población y n tamaño de la muestra. Una forma equivalente de seleccionar la muestra es elegir las unidades de una en una y en forma consecutiva, dando o asignando una probabilidad de selección a las unidades en cada caso. EJEMPLO 7
De la población estudiantil de la facultad de Ciencias de la UNAM seleccionamos aleatoriamente una muestra de 50 estudiantes para encuestar y obtener cierta información. En estos casos para respetar la aleatoriedad podemos llevar a cabo la obtención de la muestra de diferentes formas, la más común consiste en asignar un número diferente a cada estudiante y posteriormente con la ayuda de una tabla de números aleatorios elegir un bloque de tamaño 50 de dicha tabla y, proceder a realizar las entrevistas a los alumnos seleccionados. 1.3.2 MUESTREO ESTRATIFICADO El muestreo estratificado consiste en lo siguiente: 1) La población se divide en subpoblaciones denominadas “Estratos”. 2) Se selecciona una muestra en forma independiente de cada estrato. Si las muestras por estrato
se eligen con el muestreo aleatorio simple, entonces el muestreo se denomina Muestreo Aleatorio Estratificado. 3) Los estimadores para los parámetros de la población completa se proponen como una combinación de los estimadores correspondientes a los parámetros de los estratos. Este método de muestreo es flexible en cuanto a la selección de la muestra en cada estrato. Aquí es válido señalar que los estratos se construyen sin importar que sean geográficamente contiguos o no. Además el tamaño de la población completa debe ser conocido, así como el tamaño de cada estrato. El muestreo estratificado es ampliamente usado por varias razones: • Puede proporcionar estimadores (ver Capítulo 5) para la población que sean más precisos (esto se logra construyendo estratos que sean lo más homogéneos posibles dentro de ellos). • Proporciona información sobre los estratos. • Permite una mejor organización del muestreo.
10
Estadística Descriptiva para datos no agrupados. 11 • • •
Permite una mejor administración de la encuesta. Permite una mejor administración de la población. Este tipo de muestreo se recomienda cuando se desea tener en la muestra representantes de cada subpoblación.
EJEMPLO 8
La población estudiantil de la UPIICSA se puede dividir en grupos que estén formados por las diferentes especialidades (Administración, Ingeniería industrial, Ingeniería en Transporte, Ingeniería en informática y Licenciatura en informática). Posteriormente, en cada una de ellas procedemos a seleccionar aleatoriamente una muestra para entrevistarles y obtener cierta información. 1.3.3 MUESTREO SISTEMÁTICO CON INICIACIÓN ALEATORIA Este método con iniciación aleatoria es un método de muestreo probabilístico que simplifica la selección de una muestra. En este caso, la primera unidad se selecciona en forma aleatoria y los restantes elementos, para formar la muestra del tamaño requerido, se toman siguiendo un patrón establecido. Las ventajas del muestreo sistemático son las siguientes: • Es más fácil de realizar en el campo y aún en la oficina. • Se eliminan errores de los enumeradores, especialmente cuando se tiene un marco de muestreo defectuoso. Extiende la muestra a toda la población o sea, se distribuye mejor y más uniformemente sobre • la población. No precisa la distinción entre muestreo sin reemplazo y con reemplazo. • • Recoge el posible efecto de la estratificación debido al orden en que figuran las unidades en la población. • Si la disposición de las unidades en la población es aleatoria, la selección sistemática equivale a un muestreo aleatorio simple. Este tipo de muestreo es propicio para realizar estudios, por ejemplo, en los árboles de un bosque, en donde podemos establecer un patrón de revisión eligiendo el primero y después seleccionar un árbol cada 100 árboles para su estudio. 1.3.4 MUESTREO POR CONGLOMERADOS Este tipo de muestreo en cierta forma es similar al estratificado, puesto que la población se divide en subpoblaciones (estratos), pero a diferencia del estratificado, no se requiere un representante de cada estrato en la muestra, ya que primeramente elegimos una muestra de estratos y, posteriormente seleccionamos una muestra de cada estrato para conformar la muestra deseada. El muestreo por conglomerados se usa en poblaciones mucho muy grandes y a diferencia de las técnicas mencionadas arriba, este tipo de muestreo no requiere de un marco de muestreo que liste las unidades de muestreo con anterioridad. Con este tipo de muestreo tenemos un gran ahorro de recursos que con cualquiera de los anteriores, pero se pierde precisión. Además, este tipo de muestre se usa cuando las unidades se encuentran muy dispersas geográficamente. EJEMPLO 9
Supóngase que se quiere llevar acabo una encuesta de los usuarios del metro (alrededor de 4 millones de usuarios diarios). Como la población en estudio es demasiado grande, podemos dividir en estratos,
11
12. Capítulo 1
por ejemplo, estaciones del metro. Posteriormente, elegimos una muestra de las estaciones (podría ser con el muestreo anterior sistemático) y, procedemos a realizar la encuesta a los usuarios en las estaciones seleccionadas. Esta forma de muestreo disminuye considerablemente el costo de la muestra ya que no se requiere numerar con anterioridad las unidades poblacionales. NOTA
El ejemplo anterior del muestreo por conglomerados es de una etapa, pero en general existen conglomerados de varias etapas. Para un estudio más detallado del tema el estudiante puede consultar alguno de los textos: “ Elementos de Muestreo ” de Richard L. Scheaffer y William Mendenhall, del Grupo Editorial Iberoamérica , o el de Muestreo Diseño y análisis, de Sharon L. Lohr, de la editorial Thomson . A continuación ilustramos el uso de las tablas de números aleatorios, para facilitar el muestreo. 1.3.5 USO DE TABLAS DE NÚMEROS ALEATORIOS Hemos visto que las muestras aleatorias se pueden obtener a partir de una tabla de números aleatorios. Supóngase que tenemos una población de 1000 individuos y queremos hacer un muestreo de 10 de éstos. En dicho caso, primero asignamos un número del 000 al 999 a cada miembro de la población y, posteriormente elegimos de la tabla de números aleatorios un bloque de 10 de ellos. Debido a que la población es de tamaño 1000 de los números que aparecen en la tabla se consideran sólo sus tres últimas cifras. Por ejemplo, sean los siguientes números aleatorios elegidos de una tabla. 9173061 0746897 7392108 0015542 4757975 0195093 8122135 7996818 1321499 0559605 De tal forma que eligiendo sus tres últimas cifras obtenemos los números que conformarán la muestra: 061, 897, 108, 542, 975, 093, 135, 818, 499 y 605. Posteriormente, procedemos a seleccionar de la población a los individuos que les corresponden estos números. ¿Qué haría para realizar un muestreo aleatorio de 10 personas con una población de 650 individuos?
De forma similar que en el caso de las mil personas, primero se asignaría un número a cada elemento de la población desde 000 hasta 649 y posteriormente elegiríamos un bloque de números aleatorios, donde las tres primeras cifras sean menores o iguales a 649. En caso de que el número seleccionado sea mayor a 649, se desecha y se elige otro de la tabla de números aleatorios. ¿Cómo saber en qué forma elegir el bloque de números aleatorios?
La manera de seleccionar el bloque de números aleatorios es indiferente, siempre y cuando se elijan los números con un criterio aleatorio. Algunas formas de elegir el bloque de números aleatorios son: Bloques verticales continuos, o con saltos fijos y Bloques horizontales continuos o con saltos fijos.
12
Estadística Descriptiva para datos no agrupados. 13
1.4 PARÁMETROS Y ESTADÍSTICOS Los números que sintetizan los aspectos más relevantes de una distribución estadística pueden obtenerse, tanto, de una población como de una muestra y, por consiguiente el investigador tiene la obligación de clasificarlos. Los números que sintetizan los aspectos más relevantes de una distribución estadística de la población reciben el nombre de Parámetros2 y cuando son obtenidos de una muestra se llaman Estadísticos2. ¿Qué es un parámetro? y ¿Qué es un estadístico?
Los parámetros y estadísticos más comunes de la Estadística Descriptiva que estudiaremos en este Capítulo se dividen en dos tipos: I.- Medidas Centrales: Media, mediana, moda, media geométrica, media armónica, media ponderada. II.- Medidas de dispersión: Rango, varianza y desviación estándar.
1.5 MEDIDAS CENTRALES Si el conjunto de datos numéricos de una muestra de tamaño n (o población de tamaño N ) es de la forma x1 , x2 , , x n (o para la población x1 , x 2 , , x N ). Podemos preguntar ¿qué características del conjunto de números son de interés? En está sección discutiremos los métodos para describir su localización y más en particular su centro de los datos. 1.5.1 LA MEDIA Cuando una persona tiene en sus manos un conjunto de datos para analizarlos, generalmente una de sus primeras inquietudes consiste en calcular un promedio de éstos. Por ejemplo, el señor Luis Martínez, tiene las cantidades mensuales que ha ganado en el último medio año ($10,800; $9,700; $11,100; $8,950; $9,750 y $10,500 pesos) y desea conocer un valor que represente al salario promedio durante ese tiempo. En este caso, como es lógico suponer el señor Luis obtendrá su ingreso promedio al sumar sus sueldos y dividir entre la cantidad de meses: K
K
10800 + 9700 + 11100 + 8950 + 9750 + 10500 = 10133.33 6 De esta forma, el sueldo promedio de los últimos 6 meses del señor Luis es $10,133.33. Así como el problema anterior, existe una infinidad de casos prácticos en donde, dado un conjunto de datos es de interés conocer un valor central que refleje la influencia que tiene cada uno de los datos en él. La medida central más propicia para tales fines se define a continuación. Definición 1.9
Dado el conjunto finito de datos muestrales x1 , x 2 , , xn , se llama Media muestral (Promedio Aritmético) o Estadístico media3 del conjunto, al estadístico que representa el promedio de los datos, y se simboliza por x ( x barra o x testada) y se calculará por: x1 + x 2 + + x n 1 n = x = x i . K
L
n
2 3
n
∑ i =1
Para un estudio más detallado de los parámetros y estadísticos, ver el Capítulo 3, sobre las distribuciones muestrales. En el Capítulo 3 veremos una definición más precisa de Estadístico media.
13
14. Capítulo 1
De forma similar se simbolizará por la letra griega miu ( µ 4 ) al Parámetro media para las poblaciones finitas, x1 , x 2 , , x N y, lo llamaremos Media poblacional o Parámetro media del conjunto a: x1 + x 2 + + x N 1 N = x i . µ = K
L
N
N
∑ i =1
EJEMPLO 10
Un fabricante de Pistones toma una muestra aleatoria de 20 de éstos, para medir su diámetro interno promedio. Los diámetros, en centímetros, que el fabricante obtuvo están dados a continuación. Calcule el diámetro medio de dichos pistones. 10.1 10.1 9.8 9.7 10.3 9.9 10.0 9.9 10.2 10.1 9.9 9.9 10.1 10.3 9.8 9.7 9.9 10.0 10.0 9.8 Solución
Como se trata de una muestra utilizamos la fórmula de la definición 1.9. 1 [10.1 + 10.1 + 9.8 + 9.7 + 10.3 + 9.9 + 10 + 9.9 + 10.2 + 10.1 + x = 20 + 9.9 + 9.9 + 10.1 + 10.3 + 9.8 + 9.7 + 9.9 + 10 + 10 + 9.8] = 9.975 La media representa un valor promedio de todas las observaciones y por consiguiente cada uno de los datos influye de igual forma en el resultado de ésta. Por tal razón, en cuando se tienen datos que se alejan considerablemente del resto, el valor promedio encontrado no refleja la realidad del caso. Ver el ejemplo siguiente. EJEMPLO 11
Supóngase que se quiere estimar el sueldo promedio de los trabajadores de una fábrica eligiendo aleatoriamente a 10 de éstos y obteniendo los siguientes resultados: Dato
x1
x 2
x3
x4
Sueldo 2,000 2,200 2,500 2,200
x 5
x6
x7
x8
x9
x10
1,800 25,000 2,400 2,300 2,800 2,400
Calculando el sueldo promedio obtenemos: x
=
1 [2000 + 2200 + 2500 + 2200 + 1800 + 25000 + 2400 + 2300 + 2800 + 2400] = 4,560 10
donde, obviamente el estadístico no refleja una realidad de los datos, puesto que el sueldo de 25,000 es mucho mayor a los demás, influyendo considerablemente en el valor promedio. En situaciones como la anterior el uso del valor promedio no es tan acertado de tal forma que se suele recurrir a otra medida de tipo central como las siguientes dos. 1.5.2 LA MEDIANA De lo expuesto al final de la subsección anterior comprendemos la necesidad de introducir otro tipo de medida central con la cual los valores muy extremosos, con respecto al resto, no tengan una influencia 4
En la Teoría de las probabilidades se ha dado una definición más general para µ , la cual se puede aplicar, tanto a, poblaciones finitas como infinitas. La definición que aquí se está tratando sólo se refiere a las poblaciones finitas.
14
Estadística Descriptiva para datos no agrupados. 15
tan marcada como en la media. Debido a su naturaleza a dicha medida se le conoce con el nombre de Mediana y la definiremos a continuación. Definición 1.10
La mediana de un conjunto de datos es el valor central de los datos cuando éstos se han ordenado en forma no decreciente en cuanto a su magnitud. Cálculo de la mediana
Sea el conjunto de datos muestrales x1 , x 2 , , xn , la Mediana muestral o Estadístico mediana del conjunto la simbolizamos por x~ ( x tilde) y se obtiene ordenando primeramente en forma no decreciente los n datos, renombrando según su posición por medio de tildes de la siguiente forma: ~ ~ ~ x ≤ x ≤ ≤ x . K
1
2
K
n
Posteriormente, localizamos el punto medio de los datos ordenados, pudiendo ocurrir alguno de los siguientes dos casos: •
Cuando la cantidad de observaciones es impar : el punto medio del ordenamiento es el dato n +1
que se encuentra en la posición •
2
.
Cuando la cantidad de datos es par: en este caso resultan dos datos medios localizados en las n n
posiciones
2
y
2
+
1 , por lo que la mediana se considera el promedio de estos datos medios.
Finalmente se resume el cálculo de la mediana con la siguiente fórmula: x~ , cuando la cantidad de datos es impar. n +1
2 ~ ~ ~ x = x n + x n 1 2 2 , cuando la cantidad de datos es par. 2 +
De forma similar definimos el parámetro mediana, sea el conjunto de datos poblacionales x1 , x 2 , , x N , se llama Mediana poblacional o parámetro mediana del conjunto al parámetro que se ~ , y se calcula: simboliza por la letra griega miu con una tilde, µ K
x~ N 1 , cuando la cantidad de datos es impar. 2 ~ ~ ~ µ = x N + x N 1 2 2 , cuando la cantidad de datos es par. 2 +
+
EJEMPLO 12
Sea el conjunto muestral de datos del ejemplo anterior referente a los sueldos promedios de los salarios. Encuentre la mediana de los salarios. Solución
La siguiente tabla muestra el conjunto de los 10 datos:
15
16. Capítulo 1 x1
Dato
x 2
x3
x4
x 5
Sueldo 2,000 2,200 2,500 2,200
x6
x7
x8
x9
x10
1,800 25,000 2,400 2,300 2,800 2,400
Ordenando los salarios en forma no decreciente y renombrándolos obtenemos: 1800 ≤ 2000 ≤ 2200 ≤ 2200 ≤ 2300 ≤ 2400 ≤ 2400 ≤ 2500 ≤ 2800 ≤ 25000 Datos originales Sueldos Datos ordenados
x 5
x1
x 2
x 4
1,800 2,000 2,200 2,200 ~ x 1
~ x 2
~ x 3
~ x 4
x8
x 7
2,300
2,400
~ x 5
~ x 6
x10
x3
x 9
x 6
2,400 2,500 2,800 25,000 ~ x 7
~ x 8
~ x 9
~ x 10
La cantidad de datos es 10 , éste es un número par. Luego, la mediana muestral se calcula con 10 n 10 n el promedio de los datos ordenados en las posiciones = = 5 y + 1 = + 1 = 6 . Es decir, 2 2 2 2 ~ ~ ~ x5 + x6 = 2300 + 2400 = 2350 . x = 2 2 Podemos observar que el valor $25,000 que sobresalía con respecto a todos los demás sueldos no influye en la mediana. Puesto que si en lugar de $25,000, elegimos $5,000 o $100,000, el sueldo medio de los 10 trabajadores seguirá siendo $2,350. Por tal razón, decimos que la mediana es una medida central insensible de los datos. 1.5.3 LA MODA En algunos estudios es necesario encontrar el valor central de un conjunto de datos, en donde la medida de interés está basada en la repetición de éstos. Por esta razón, ninguna de las dos medidas vistas es conveniente emplear. Debido a su naturaleza a la medida sobre la que hacemos referencia se le da el nombre de Moda y la definimos a continuación. Definición 1.11
La moda de un conjunto de datos es el valor de éstos que se presenta en su distribución con mayor frecuencia. Con respecta a la notación de la moda, a diferencia de las dos medidas centrales anteriores, no existe notación estándar. Aquí emplearemos la letra M para las muestras y M P para las poblaciones. EJEMPLO 13
En la siguiente lista se muestran las calificaciones de 20 exámenes de Lingüística. Encuentre la calificación que más se repite, es decir, la moda de la distribución de las calificaciones. 5 6
8 5
9 10
9 10
8 8
10 9
9 7
Solución
Realizando un conteo de los datos podemos verificar que resultan: Cinco datos con valor 5. Un dato con valor 6 y otro con valor 7.
16
5 9
10 5
5 9
Estadística Descriptiva para datos no agrupados. 17 Tres datos con valor 8. Seis datos con valor 9. Cuatro datos con valor 10.
Finalmente la moda es igual a 9, es la calificación que se repite más veces. Al calcular la moda podemos observar que se trata de una medida completamente opuesta a la mediana en cuanto a su sensibilidad . Por ejemplo, si en el caso anterior un alumno con calificación nueve hubiese obtenido cinco en lugar de nueve la ¡moda cambiaría a 5! (serían seis 5 y cinco 9). Como se puede notar con la alteración de un sólo dato cambio completamente la moda. Luego, se dice que la moda es sumamente sensible. La moda presenta los siguientes problemas: •
La moda puede no existir. Por ejemplo, al calcular la moda de los siguientes conjuntos de
datos: 6, 7, 34, 4, 8. 6, 3, 8, 9, 3, 8, 6 y 9 Resulta que en ambos conjuntos de datos la frecuencia de éstos es la misma, es decir, no tienen moda. En tales situaciones al conjunto de datos se le llama Amodal o sin moda. ¿Cuándo un conjunto de datos es amodal? •
La moda puede no ser única. Por ejemplo, la moda del siguiente conjunto de datos:
6, 7, 9, 4, 8, 6, 6, 8, 9, 6, 8, 6, 9, 3, 9 y 9 tiene al 6 y al 9 con mayor frecuencia 5 veces se repite cada uno. Así, cuando el conjunto de datos tiene más de una moda se llama Multimodal: Bimodal si son dos modas, trimodal si son tres, etc. ¿Cuándo un conjunto de datos es Multimodal?
1.5.4 OTROS VALORES MEDIOS Hasta ahora se han estudiado los tres valores centrales más conocidos y utilizados en la Estadística Descriptiva. El primero de ellos fue el valor medio definido como una media aritmética, pero como se comentó en el transcurso de la sección existen distribuciones de datos para las cuales dicha medida no es muy propicia y por consiguiente se recurre a otras de tipo central. Dos de ellas fueron la mediana y la moda, ahora se verán otros tipos de medias que en muchas ocasiones son de gran utilidad en la Estadística Descriptiva. 1.-
Valor geométrico o media geométrica: La media geométrica de los datos x1 , x 2 , K, x n se
simbolizará por MG y está definida como la raíz n-ésima del producto de las n mediciones. MG = n x1 ⋅ x2 ⋅ L xn
.
EJEMPLO 14
Calcule la media geométrica de las 20 calificaciones de los exámenes Psicológicos anteriores. 5 8 9 9 8 10 9 5 10 5 6 5 10 10 8 9 7 9 5 9
17
18. Capítulo 1 Solución MG = 20 5 × 8 × 9 × 9 × 8 × 10 × 9 × 5 × 10 × 5 × 6 × 5 × 10 × 10 × 8 × 9 × 7 × 9 × 5 × 9
=
7.5446868
NOTA
De la definición de media geométrica fácilmente se deduce que ésta no se puede aplicar cuando algún dato vale cero o cuando la cantidad de datos es par y existen algunos de ellos negativos, más sin embargo tiene cierta aplicación en la Psicofísica. Otra aplicación importante de la media geométrica la tenemos en las tasas de interés al considerar su factor de crecimiento medio, entendiendo por factor de crecimiento a: Factor de crecimiento = 1 +
tasa de interés . 100
Luego, el factor de crecimiento medio será un valor medio de los factores de crecimiento, de tal forma que la mejor medida media que deberá utilizarse resulta ser la media geométrica . Explicación: En las economías emergentes en periodos de crisis tenemos una alto índice de
inflación, los bancos deben pagar altas tasas de interés para atraer a los ahorradores. Vamos a suponer que tenemos en un periodo de 4 años en tiempo de crisis las tasas de interés anual de 100, 200, 250 y 350%. Es decir, tenemos los factores de crecimiento, 2, 3, 3.5 y 4.5, respectivamente. Queremos conocer cuánto crecerá un depósito inicial de $1000 a 4 años. En estas condiciones el banco pagará a 4 años, (((1000 × 2) × 3) × 3.5) × 4.5 = 94,500 : 1000 × 2 = 2,000 primer año. 2000 × 3 = 6,000 segundo año. 6000 × 3.5 = 21,000 tercer año. 21000 × 4.5 = 94,500 cuarto año. Es decir, al término del cuarto año el banco tendría que pagar $94,500 pesos por la inversión de $1,000 pesos. Qué pasa si dicho monto se quiere calcular con un factor de crecimiento medio y utilizamos la media. 2 + 3 + 3.5 + 4.5 = 3.25 . Factor de crecimiento promedio = 4 Luego, el monto a pagar por el banco con este promedio sería ( 1000 × 3.25 4 = 111,566.41 ): 1000 × 3.25 = 3,250 primer año. 3250 × 3.25 = 10,562.5 segundo año. 10,562.5 × 3.25 = 34,328.125 tercer año. 34,328.125 × 3.25 = 111,566.41 cuarto año. Valor que difiere del real $94,500 pesos. Por otro lado, si el valor medio del factor de crecimiento lo calculamos con la media geométrica y realizamos los cálculos. Factor de crecimiento medio geométrico = 4 2 × 3 × 3.5 × 4.5 = 3.11787 .
18
Estadística Descriptiva para datos no agrupados. 19
Luego, el monto a pagar por el banco con este promedio sería 1000 × 3.11787 4 corresponde al valor real del pago del banco.
=
94,500 , que
2.- Valor medio armónico o media armónica: La media armónica de los datos x1 , x 2 , K , x n se
simbolizará por MA y está definida como el recíproco de la media aritmética de los recíprocos. MA =
1 1 n
n
1
∑ x i =1
i
=
1 11
+
n x1
1
+L+
x 2
1
=
x n
n
1 x1
+
1
+L+
x 2
1
.
x n
Las principales aplicaciones de esta media se basan en promediar variaciones respecto del tiempo, es decir cuando la misma distancia se recorre a diferentes tiempos . Por su definición esta medida central tiene su mayor uso en Física y en Ingeniería cuando se trabaja con engranes o poleas, para determinar velocidades promedio de recorridos. EJEMPLO 15
Supóngase que si usted viaja de una ciudad a otra recorriendo los primeros 100 km. a 80 km/h, los siguientes 100 km. a una velocidad de 100 km/h y finalmente los otros 100 km. a una velocidad de 120 km/h. Ahora calcule la velocidad media realizada con la media armónica y compárela con las medias aritmética y geométrica. Solución
1 300 [80 + 100 + 120] = = 100 3 3 MG = 3 80 × 100 × 120 = 98.6485 1 = 97.2973 MA = 1 1 1 1 + + 3 80 100 120 x =
Observación
Para tomar una decisión de qué media parece ser la más correcta, calculamos la velocidad promedio Velocidad promedio =
Distancia total recorrida . Tiempo total
Distancia total recorrida es igual a 100 + 100 + 100 = 300 kilómetros. Tiempo total de recorrido
100 100 100 + + = 3.0833 horas. 80 100 120
Ahora comparamos con la distancia total real recorrida. Es decir, se comparan las distancias que presumiblemente recorrería el automóvil con cada una de las velocidades promedio calculadas: Media aritmética: 3.0833 × 100 = 308.33 km. Media geométrica: 3.0833 × 98.6485 = 304.166 km. Media armónica: 3.0833 × 97.2973 = 300 km. Note que el mejor resultado se obtiene con la media armónica.
19
20. Capítulo 1 Valor medio ponderado o media ponderada: En los casos en que cada dato tiene una 5 importancia relativa llamada “ peso” , la media más apropiada se obtiene sumando los productos de cada dato por su peso, llamando a dicha medida “ Media Ponderada”.
3.-
Definición 1.12
Dado un conjunto de datos x1 , x 2 , , x n se llama Pesos o ponderaciones, respectivamente, a las cantidades w1 , w2 , , wn que cumplen: K
K
a)
wi
∈
[0,1] para todo valor de i.
b)
w1
+
w2
+L+
wn
=
1.
La media ponderada del conjunto de datos x1 , x 2 , , x n , con pesos respectivos w1 , w2 , , wn , la denotaremos por MP y se calcula por medio de K
K
n
MP =
∑ w x i
i
.
i =1
EJEMPLO 16
Calcule la calificación promedio de un estudiante de la ESCOM en la materia de Física, si la calificación está ponderada de la siguiente forma: 10% tareas, 40% laboratorio y 50% de teoría. Suponga que las calificaciones del estudiante fueron, 8, 9 y 4, respectivamente. Solución
La calificación está ponderada por lo tanto: MP = 0.1 × 8 + 0.4 × 9 + 0.5 × 4 = 6.4 .
NOTA
Para el caso de poblaciones los parámetros correspondientes se calculan con las mismas fórmulas cambiando n por N . Al realizar un estudio del conjunto de datos cabe preguntarse si el conocimiento de sus medidas centrales es suficiente para reconocer la distribución de dichos datos. Respuesta que se puede dar sólo después de estudiar la siguiente sección. EJERCICIOS 1.2 1).2).-
Obtenga la media, mediana, moda del siguiente conjunto de datos. 145 150 165 155 155 145 150 140 145 150 160 175 150 160 Calcule la media y mediana de los tiempos entre llegadas de 6 aviones al aeropuerto Benito Juárez, de la ciudad de México, cuyos tiempos, en minutos, son:
3.5 4.2 2.9 3.8 4.0 2.8 3).- Calcule la media armónica del viaje redondo que realiza un chofer de la línea ADO al ir de México - Acapulco (460 km.). Si de ida lo recorrió por la autopista del Sol a una velocidad de 90 km/h. y de regreso por la otra carretera a una velocidad promedio de 60 km/h. 4).- Calcule la media geométrica del conjunto de datos del ejercicio 2. 5
Ver definición siguiente.
20
Estadística Descriptiva para datos no agrupados. 21
En una muestra de 100 pistones se encontró que 55 tenían un diámetro interno de 10.5cm., 25 de 10.0cm y el restante de 10.75cm. Utilice las frecuencias relativas de los diámetros internos de los pistones, para determinar la media ponderada del diámetro interno de éstos. 6).- En los envases de leche, la cantidad de líquido no es siempre un litro, se toma una muestra de 10 paquetes, obteniéndose las mediciones siguientes, en litros: 5).-
0.95 1.01 0.97 0.95 1.0
0.97 0.95 1.01 0.95 0.98
Calcule la cantidad promedio de leche en los envases de la muestra. Sean las calificaciones de 30 estudiantes en la materia de probabilidad 27 72 83 15 96 30 8 98 86 5 39 86 88 31 3 30 57 22 7 20 62 95 35 73
7).-
87 66
100 56
56 57
Calcule su media, mediana y moda de las calificaciones. La Bolsa Mexicana de valores ha tenido las diferentes alzas y bajas en puntos porcentuales 8).durante la primera quincena de Junio del 2003 3.4% 1.7% − 0.5 % 0.7% − 2.4 % − 1.8 % − 0.9 % 2.5% 0.3% 0.8% Considerando sólo los porcentajes, calcule el porcentaje medio obtenido en dicha quincena para la bolsa de valores. 9).Sean x1 , x 2 , , x n los valores muestrales y x su media, pruebe que el siguiente promedio 1 n siempre vale cero ( xi − x ) . K
n
∑ i =1
Pruebe que cualquier medida central siempre es un valor que se encuentra entre el menor y mayor de los valores de los datos.
10).-
1.6 CUANTILES En muchas aplicaciones al tener un conjunto de datos requerimos conocer los datos que están por debajo de cierto valor. Por ejemplo, al realizar un examen a un grupo de 30 personas quisiéramos conocer la calificación debajo de la cual se encuentra el 40% de los alumnos. Definición 1.13
Dado un conjunto de datos, se llama C cuantil a la cantidad C P , que representa el número para el cual el C de los valores son menores que éste. En muchas literaturas se introducen algunos conceptos más para ciertos valores de los cuantiles. Por ejemplo, •
cuando C está dado en porciento se suele nombrar C percentil o percentila o C centil.
•
cuando se trata de los 0, 0.25, 0.50 y 0.75 cuantiles (o percentil 0%, 25%, 50% y 75%) se les suele llamar el 0 cuartil, primer cuartil, segundo cuartil y el tercer cuartil, respectivamente.
•
Cuando se trata de los 0.10, 0.20, etc. cuantiles se les suele llamar el primer decil, segundo decil, etc., respectivamente.
21
22. Capítulo 1
Los cuartiles se usan con frecuencia en los datos de ventas y encuestas para dividir las poblaciones en grupos. Por ejemplo, para determinar el 25 por ciento de ingresos más altos en una población. Para calcular el C cuantil de un conjunto de datos x1 , x 2 , , x n (n datos no agrupados), lo podemos hacer de la siguiente forma. ~ ≤ x~ ≤ ≤ x~ . 1.- Primeramente ordenamos los datos en forma no decreciente, x K
1
2
K
n
2.- Se determina la fracción C de los n datos. Es decir, calcular ~ c = nC . 3.- Dependiendo del valor de ~ c , resulta ~ ~ x~c + x~c 1 . a. Si la cantidad anterior es entera, entonces C cuantil = 2 ~ b. Si ~ c no es entero, entonces C cuantil = x[~c ] 1 . En donde, [c~ ] representa a la parte entera de ~c . Por ejemplo, si ~c = 24.7 , [c~ ] = 24 , si ~c = 24.2 , [c~ ] = 24 . +
+
EJEMPLO 17
Sean las calificaciones de 20 estudiantes 45, 69, 79, 83, 38, 27, 98, 100, 84, 79, 67, 84, 92, 35, 56, 69, 47, 95, 100, 86. a).- Calcule el cuantil 0.65 de la distribución de las calificaciones. b).- Calcule el cuantil 0.42 de la distribución de las calificaciones. Solución a). Los datos originales son:
•
x1
x 2
x3
x4
x5
x6
x 7
x8
x9
x10
x11
x12
x13
45
69
79
83
38
27
98
100
84
79
67
84
92
x14
x15
x16
x17
x18
x19
x20
35
56
69
47
95
100
86
Primeramente se ordena los datos en forma no decreciente, resultando: 27, 35, 38, 45, 47, 56, 67, 69, 69, 79, 79, 83, 84, 84, 86, 92, 95, 98, 100, 100 ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ x x x x x x x x x x x x x 1
2
3
4
5
6
7
8
9
27 ~ x
35 ~ x
38 ~ x
45 ~ x
47 ~ x
56 ~ x
67 ~ x
69
69
84
86
14
• •
15
16
18
19
79
11
79
20
92 95 98 100 100 Ahora se calcula ~c = nC = 20 × 0.65 = 13 . Del inciso anterior ~c resultó entero, luego ~~ + x~~ ~ + x~ x x C 0.65
22
17
10
=
c +1
c
2
=
13
13+1
2
=
~ x 13
~
+ x14
2
=
84 + 84 = 84 . 2
12
83
13
84
Estadística Descriptiva para datos no agrupados. 23
Esto significa que el 65% de las calificaciones de los 20 estudiantes están por debajo de 84. b).- De los resultados anteriores, falta calcular ~ c = nC = 20 × 0.42 = 8.4 . • Del inciso anterior ~c no es entero, luego C = x~ ~ = x~ = x~ = 69 . 0.42
[c ]+1
8 +1
9
Esto significa que el 42% de las calificaciones de los 20 estudiantes están por debajo de 69. Con frecuencia de un conjunto datos el investigador desea conocer de forma aproximada algunas probabilidades. Por ejemplo, supóngase que los datos anteriores provienen de una variable aleatoria X , que representa las calificaciones de los estudiantes y, se desea conocer cuál es la probabilidad de que la calificación de los estudiantes sea mayor a 80. En este caso una forma simple de aproximar la probabilidad deseada, consiste en contar la cantidad de calificaciones mayores a 80: 83, 84, 84, 86, 92, 95, 98, 100 y 100. Es decir, tenemos 9 datos que cumplen con ser mayores a 80, luego la probabilidad pedida será: 9 = 0.45 . P( X > 80) ≅ 20 EJERCICIOS 1.3 1. Sean las calificaciones de 30 estudiantes en la materia de probabilidad: 27, 72, 83, 15, 96, 30, 8,
98, 86, 5, 39, 86, 87, 100, 56, 88, 31, 3, 30, 57, 22, 7, 20, 62, 95, 35, 73, 66, 56 y 57 a).- Calcule el cuantil 0.60 de la distribución de las calificaciones. b).- Calcule el tercer cuartil de la distribución de las calificaciones. c).- Supóngase que los datos provienen de una variable aleatoria X , que representa las calificaciones de los estudiantes y se desea conocer cuál es la probabilidad de que la calificación de los estudiantes sea reprobatoria (menor a 60). 2. Considérense los siguientes datos que corresponden al porciento de algodón en el material usado en
la fabricación de playeras. 34.2 33.1 34.5 35.6 34.3 35.1 34.7 33.6
33.6 34.7 35.0 35.4 36.2 36.8 36.1 35.3
33.8 34.2 33.4 34.7 34.6 35.2 35.0 34.9
34.7 33.6 32.5 34.1 35.1 36.8 37.9 36.4
37.8 36.6 35.4 34.6 33.8 37.1 34.0 34.1
32.6 33.1 34.6 35.9 34.7 33.6 32.9 33.5
35.8 37.6 37.3 34.6 35.5 32.8 32.1 34.5
34.6 33.6 34.1 34.7 35.7 36.8 34.3 32.7
a).- Calcule el primer cuartil de los porcentajes de algodón en el material usado para la fabricación de
playeras. b).- Calcule el cuantil 0.60 de los porcentajes de algodón en el material usado para la fabricación de playeras.
23
24. Capítulo 1 c).- Supóngase que los datos provienen de una variable aleatoria X , que representa los porcentajes de
algodón usado en la fabricación de playeras y se desea conocer cuál es la probabilidad de que dicho porcentaje sea mayor a 35.
1.7 MEDIDAS DE DISPERSIÓN Para un análisis de la distribución de los datos el estudio de sus medidas centrales no es suficiente, puesto que en diferentes conjuntos de datos puede dar medidas centrales iguales, y por lo tanto no se tendría el conocimiento de la forma de su distribución. Por ejemplo, si un conjunto de datos contiene los valores: 20, 12, 15, 16, 13 y 14, y un segundo conjunto los valores: 5, 0, 50, 17, 8 y 10. Fácilmente, podemos comprobar que en ambos casos se obtiene un promedio de 15 (¡verifíquelo!). Pero si representamos en una recta los datos no es difícil comprobar que las observaciones del segundo conjunto tienen una dispersión mucho mayor. Distribución de los datos del primer conjunto •
•• •
•
Distribución de los datos del segundo conjunto •
•
0
5
• •
10
•
•
15
20
25
30
35
40
45
50
55
Luego, es necesario realizar un estudio de la distribución de los datos con respecto a su valor central, es decir, necesitamos un valor que indique una medida para comparar las dispersiones de los datos entre diferentes conjuntos. A éstas últimas medidas les llamaremos valores de dispersión o variabilidad del conjunto de datos. En síntesis, una medida de dispersión indica qué tan cercanos o separados están los valores con respecto a la media u otra medida de tendencia central. En pocas palabras, una medida de dispersión indica cuán confiable es el promedio. 1.7.1 RANGO El primer valor que muestra como están dispersos los datos es muy sencillo y, se llama rango de las observaciones, lo denotáremos por r. Definición 1.14
El rango es una medida variacional de los datos que lo único que indica es el tamaño o longitud del intervalo en el que éstos se encuentran distribuidos y se calcula por: Rango = El valor mayor menos el valor menor de los datos. Por ejemplo, para los datos muestrales de los dos conjuntos anteriores, se tiene: •
En los datos anteriores en el primer conjunto su rango vale r 1 = 20 − 12 = 8 . Es decir, los datos de este conjunto están distribuidos a lo largo de un intervalo de longitud 8.
•
En el segundo conjunto su rango vale r 2 = 50 − 0 = 50 . Es decir, los datos de este conjunto están distribuidos a lo largo de un intervalo de longitud 50.
Obviamente de los dos resultados anteriores es fácil concluir que los elementos del segundo conjunto tienen una separación mayor entre ellos. Pero el resultado anterior no muestra como es el comportamiento de los datos con respecto a su media.
24
Estadística Descriptiva para datos no agrupados. 25
1.7.2 VARIANCIA Y DESVIACIÓN ESTÁNDAR Sean x1 , x 2 , , x n , n datos con valor medio igual a x , los cuadrados de las desviaciones de cada uno de los datos con respecto a su valor medio serán: ( x1 − x ) 2 , ( x 2 − x ) 2 , etc. K
De tal forma que otra medida de dispersión de los datos que está relacionada directamente con la media de éstos es la siguiente. Definición 1.15
Sea x1 , x 2 , , x n los valores de una muestra aleatoria, de tal forma que se llamará K
2
variancia (varianza) sesgada o poblacional a: s n
=
1
n
∑ ( x n
i
− x
)2 .
i =1
2
variancia (varianza) insesgada o mue stral a: s n −1
=
1 n−
n
( x 1∑
i
− x
)2 .
i =1
Tal vez surge la pregunta ¿por qué dos definiciones diferentes en lugar de una sola?. La respuesta es sencilla, la variancia sesgada refleja perfectamente el significado de una medida de dispersión y, por consiguiente, tiene una gran aplicación en el estudio de las probabilidades. Mientras que la variancia insesgada es más propicia en los cálculos estadísticos y se usa en las muestras (ver capítulo 5). Precisamente de aquí surge su nombre de variancia muestral. De forma similar para poblaciones finitas se define el parámetro variancia poblacional , la cual estará representada por la letra griega minúscula sigma σ al cuadrado, es decir, σ 2 . Sea el conjunto de datos poblacionales x1 , x 2 , , x N , con valor medio µ , se define a la variancia poblacional . 1 N 6 Variancia poblacional σ 2 = ( xi − µ ) 2 . K
N
∑ i =1
En la definición de variancia se puede notar que ésta se calcula con los cuadrados de las desviaciones, y por lo tanto, ella no estará en las mismas unidades que los datos. Por consiguiente, se introduce una nueva medida de dispersión a la que se nombra de la siguiente forma. Definición 1.16
Se llama desviación estándar de un conjunto de datos a la raíz cuadrada positiva de la variancia, y ésta dependerá del tipo de variancia que se esté empleando. EJEMPLO 18
Calcule la varianza insesgada y su desviación estándar correspondiente de cada uno de los dos conjuntos dados que se dieron al inicio de la sección. Conjunto uno 20, 12, 15, 16, 13 y 14 y el segundo conjunto 5, 0, 50, 17, 8 y 10. En el estudio de las probabilidades se dio una definición más general para σ 2 la cual se puede aplicar, tanto, a poblaciones finitas como infinitas. 6
25
26. Capítulo 1 Solución
Conjunto de 20, 12, 15, 16, 13 y 14. Calculamos x = 15 . 2
s n −1
1
=
n−
1
n
( x 1∑
− x
i
)2
=
6 −1
i =1
[(20 − 15) 2 + (12 − 15) 2 + (15 − 15) 2 + (16 − 15) 2 + (13 − 15) 2 + (14 − 15) 2 ]
1 [25 + 9 + 0 + 1 + 4 + 1] = 8 5 La desviación estándar será, s n 1 = 8 ≈ 2.8284 . =
−
Conjunto de 5, 0, 50, 17, 8 y 10. Igualmente x =15 , pero su variancia es: 2
s n −1
=
1 n−
n
( x 1∑
i
− x
)2
=
i =1
1 6 −1
[(5 − 15) 2 + (0 − 15) 2 + (50 − 15) 2 + (17 − 15) 2 + (8 − 15) 2 + (10 − 15) 2 ]
1 [100 + 225 + 1225 + 4 + 49 + 25] = 325.6 5 Similarmente al conjunto de datos anterior la desviación estándar será s n
=
1 =
−
325.6 ≈ 18.0444 .
OTRA EXPRESIÓN PARA CÁLCULOS DE LAS VARIANCIAS
En los cálculos de la variancia se acostumbra emplear otra representación equivalente a la de la definición 1.15 la cual está, dada por las siguientes fórmulas: Variancia sesgada : s n2
=
1
n
∑ n
xi2
− x
2
=
n −1 n
i =1
Variancia insesgada : s n2−1
=
1 n−
n
1∑
x i2
−
i =1
s n2−1 .
n
x 2
n −1
=
n n −1
s n2 .
DEMOSTRACIÓN 2
sn
=
1 n
=
n
∑
( xi − x )
i =1
1
n
∑ ( x
ni
1
=
2 i
2
=
1 n
n
∑ ( x
2 i
−
i =1
) − 2 xn x + n x
)=
1
n
∑
( xi ni 1 ( xi2 ) − n x 2 = 1 n
2 xi x + x
2
2
n
) − 2 x ∑ x
1
n
∑
= ni
1
=
i
i =1
=
2
n
n
∑ ( x
2 i
+
∑ i =1
x 2
) − x 2
i =1
EJEMPLO 19
Calcule la varianza insesgada para los conjuntos de datos del ejemplo 18, empleando las últimas fórmulas para la variancia y, compruebe que coinciden los resultados. Solución
Conjunto de 20, 12, 15, 16, 13 y 14. 1 n 2 1 n 2 2 [20 2 + 12 2 + 15 2 + 16 2 + 13 2 + 14 2 ] − 6 (15) 2 sn 1 = x i − x = 6 −1 6 −1 n −1 i 1 n −1 1 6 = [400 + 144 + 225 + 256 + 169 + 196] − × 225 = 278 − 270 = 8 5 5 −
∑ =
26
Estadística Descriptiva para datos no agrupados. 27
Conjunto de 5, 0, 50, 17, 8 y 10. 2
s n −1
1
=
n− =
n
1∑
xi2
i =1
−
n
x 2
n −1
=
1 6 −1
[5 2 + 0 2 + 50 2 + 17 2 + 8 2 + 10 2 ] −
6 6 −1
(15) 2
1 6 [25 + 0 + 2500 + 289 + 64 + 100] − × 225 = 595.6 − 270 = 325.6 5 5
De los cálculos anteriores podemos observar que en ambos casos coinciden los resultados con los del Ejemplo 18. 1.7.3 DESVIACIÓN MEDIA Otra medida de dispersión de los datos que está relacionada directamente con la media de éstos es la siguiente. Definición 1.17
Sean x1 , x 2 , , xn los datos en estudio, llamaremos desviación media (DM) o desviación media absoluta (DMA) del conjunto de datos, al promedio de los valores absolutos de las desviaciones 1 n de cada uno de los datos con respecto a la media. Es decir, DM = | xi − x | . K
n
∑ i =1
Tal vez para algunos lectores esta medida de variación debería ser la más adecuada para medir la dispersión de los datos, en efecto la desviación media tiene buenas propiedades para medir la dispersión, pero en muchos cálculos no es recomendable trabajar con el valor absoluto ya que éste no es una función diferenciable. EJEMPLO 20
Calcule la desviación media para los conjuntos de datos del ejemplo 18, y compare los resultados con la desviación estándar de la varianza insesgada. Solución
Conjunto de datos 20, 12, 15, 16, 13 y 14 cuya media fue 15. Luego, 1 n 1 | xi − x | = {| 20 − 15 | + | 12 − 15 | + | 15 − 15 | + | 16 − 15 | + | 13 − 15 | + | 14 − 15 |} DM = 6 n i1 1 1 {| 5 | + | −3 | + | 0 | + | 1 | + | −2 | + | −1 |} = {5 + 3 + 0 + 1 + 2 + 1} = 2 = 6 6 En este caso, la desviación estándar fue 8 = 2.828 > DM .
∑ =
Para el conjunto de 5, 0, 50, 17, 8 y 10. Su media también resultó ser igual a 15. 1 | xi − x | = {| 5 − 15 | + | 0 − 15 | + | 50 − 15 | + | 17 − 15 | + | 8 − 15 | + | 10 − 15 |} 6 n i1 1 1 = {| 10 | + | −15 | + | 35 | + | 2 | + | −7 | + | −5 |} = {10 + 15 + 35 + 2 + 7 + 5} = 12.3333 6 6
DM =
1
n
∑ =
En este caso, la desviación estándar resulta 325.6 = 18.044 > DM .
27
28. Capítulo 1
1.7.4 RANGOS INTERCUANTILES O INTERCUANTÍLICOS En la sección anterior revisamos los cuantiles como una ampliación de las medidas centrales, de forma similar definiremos los rangos intercuantílicos como una ampliación de las medidas de desviación. Definición 1.18
Sean x1 , x 2 , , x n los datos en estudio, llamaremos rango intercuantil (RIC) de los datos a: ~ ~ ~ ~ RIC 1 α = x1 α 2 − xα 2 , con α ∈ [0, 1] y x1 α 2 y xα 2 cuantiles 1 − α 2 y α 2 , respectivamente. ~ − x~ = x Que representa el (1 − α ) × 100% de los datos centrales. Por ejemplo, RIC K
−
−
−
1− 0.20
0.90
0.10
rango interdecílico o rango intercuantil 0.8. Donde el 80% de los datos están centrados. EJEMPLO 21
En el ejemplo de las calificaciones de 20 estudiantes 45, 69, 79, 83, 38, 27, 98, 100, 84, 79, 67, 84, 92, 35, 56, 69, 47, 95, 100, 86. a).- Calcule el rango intercuantílico 0.60 de la distribución de las calificaciones. b).- Calcule el rango intercuantílico 0.25 de la distribución de las calificaciones. Solución a). Los datos originales en forma no decreciente, resultando:
~
~
~
~
~
~
~
~
~
~
~
~
~
x1
x 2
x3
x4
x5
x6
x 7
x8
x9
x10
x11
x12
x13
27 ~ x
56 ~ x
67 ~ x
79
83
84
17
47 ~ x
79
16
45 ~ x
69
15
38 ~ x
69
14
35 ~ x
84
86
92
95
98
100 100
18
19
20
Deseamos el rango intercuantílico 0.60, esto implica que 1 − α = 0.60 , luego requerimos calcular los cuantiles x~1 α 2 = x~1 0.20 = x~0.80 y x~α 2 = x~0.20 . • Para el cuantil 0.20 se calcula ~c = nC = 20 × 0.20 = 4 . ~~ + x~~ ~ ~ ~ ~ x x 4 + x 4 1 x 4 + x5 45 + 47 c c 1 • = = = = 46 . Luego, C 0.20 = 2 2 2 2 • Similarmente, para el cuantil 0.80 se calcula ~c = nC = 20 × 0.80 = 16 . ~~ + x~~ ~ ~ ~ ~ x x16 + x16 1 x16 + x17 92 + 95 c c 1 Luego, C 0.80 = • = = = = 93.5 . 2 2 2 2 −
α = 0.40 .
Así, que
−
+
+
+
+
Esto significa que el 60% de las calificaciones están centradas entre 16 y 93.5. b).- De forma similar al inciso anterior, el rango intercuantílico 25%, implica que 1 − α = 0.25 , luego ~ ~ ~ ~ ~ α = 0.75 . Así, que requerimos calcular los cuantiles x1−α 2 = x1−0.375 = x 0.625 y xα 2 = x 0.375 . • • • •
Para el cuantil 37.5% se calcula ~c = nC = 20 × 0.375 = 7.5 . Luego, C 0.375 = x~[c~ ] 1 = x~7 1 = x~8 = 69 . Similarmente, para el cuantil 62.5% se calcula ~c = nC = 20 × 0.625 = 12.5 . Luego, C = x~ ~ = x~ = x~ = 84 . +
0.625
[c ]+1
+
12+1
13
Esto significa que el 25% de las calificaciones están centradas entre 69 y 84.
28
Estadística Descriptiva para datos no agrupados. 29
1.7.5 COEFICIENTE DE VARIACIÓN Y COVARIANZA En ocasiones queremos hacer comparaciones entre datos que proceden de diferentes muestras o poblaciones y sus medidas de dispersión proporcionan poca información con respecto al tamaño de dicha variación. Similarmente, puede ser de interés conocer si existe alguna relación de dependencia entre las variables estadísticas que representan a los datos de las muestras o poblaciones. Es decir, determinar de alguna forma numérica la dependencia que existe entre dichas variables. Por ejemplo, si estudiamos una persona en sus características ingresos y años totales de estudio (desde primaria hasta postgrado), para determinar a).- En qué muestra o población tiene mayor dispersión, en los ingreso o en los años de estudio. b).- Si existe alguna relación de dependencia entre los ingresos y los años de estudio de la persona. Con respecto al inciso (b), definiremos algunas medidas que nos ayudarán a dar respuesta a la dependencia entre las variables y que llevan el nombre de covarianza y coeficiente de correlación. Con respecto al inciso (a), a diferentes de otras medidas estudiadas ya revisadas, de entrada tenemos el problema de las unidades en las que se encuentra cada característica, puesto que generalmente son muy diferentes. En la situación (a), para poder llevar a cabo tales comparaciones el matemático Inglés Karl Person 7 desarrolló una medida relativa denominada coeficiente de variación, la cual se basa en la siguiente medida más general. Definición 1.19
Se llama variación relativa de un conjunto de datos: Variación relativa =
Variación de los datos . media de los datos
EJEMPLO 22
Encuentre la variación relativa de un conjunto de datos que tiene un rango de 25 y una media de 80. Solución
En este caso la medida de variación es el rango. Así de la definición 1.19 tenemos: 25 Variación relativa = = 0.3125 = 31.25% . 80 Podemos apreciar de la definición 1.19 que la variación relativa depende de la medida de variación de los datos. Por tal razón, en el caso de tratarse de la desviación estándar se tiene la siguiente definición.
7
Karl Pearson (1857-1936), matemático y filósofo de las ciencias británico, se le conoce por haber desarrollado algunas de las técnicas centrales de la Estadística moderna, y por aplicar éstas a los problemas de la herencia biológica. Pearson nació en Londres y se graduó en la Universidad de Cambridge en 1879. Estudió derecho poco después de su graduación, pero ocupó la mayor parte de su vida laboral en enseñar matemáticas aplicadas, mecánica y genética en el University College de Londres. A principios de 1900, Pearson se interesó por el trabajo de Francis Galton, que intentaba encontrar relaciones estadísticas para explicar como las características biológicas iban pasando a través de generaciones sucesivas. La investigación de Pearson colocó en gran medida las bases de la estadística del siglo XX, definiendo los significados de correlación, análisis de la regresión y desviación típica. En 1911 Pearson alcanzó el cargo de profesor de eugenesia en la University College, examinando la recopilación y análisis de la información en el sentido que las características, como inteligencia, criminalidad, pobreza y creatividad se transmiten a través de generaciones. Pearson confiaba en aplicar estas intuiciones con el fin de mejorar la raza humana. Fue un autor muy prolífico sobre gran cantidad de temas científicos y matemáticos y, escribió un libro muy influyente sobre los métodos de la ciencia, llamado La gramática de las ciencias (1892).
29
30. Capítulo 1 Definición 1.20
Una variación relativa se llama Coeficiente de variación de un conjunto de datos, si consideramos como medida de variación a la desviación estándar, luego s
σ
x
µ
Coeficient e de variación muestral = cv = ; Coeficient e de variación poblaciona l =
El coeficiente de variación es una medida muy útil en las siguientes situaciones: • Cuando los datos están en diferentes unidades, por ejemplo en el caso de los ingresos y años de estudio. • Cuando los datos están en las mismas unidades, pero las medias son muy distantes. Esto último se debe a que el tamaño de las medidas de dispersión depende de las unidades en que se mide las observaciones de la muestra o población. Por consiguiente, mientras una unidad de medida puede estar en metros, otra puede estar en centímetros, lo que significa que las dispersiones en la primera unidad han de ser mayores, cuando en realidad en variación relativa puede ser mucho menor. EJEMPLO 23
Supóngase que se estudia a un grupo de 10 personas en sus características ingresos y años de estudio. Persona Ingreso en miles Años de estudio
1
2
3
4
5
6
7
8
9
10
10.5 17
6.8 18
20.7 21
18.2 16
8.6 16
25.8 21
22.2 16
5.9 14
7.6 18
11.8 18
Compare sus coeficientes de variación para las características señaladas. Solución
Primeramente calculamos sus medias y varianzas. Para el caso de ingresos: 1 (10.5 + 6.8 + 20.7 + 18.2 + 8.6 + 25.8 + 22.2 + 5.9 + 7.6 + 11.8) = 13.81 x = 10 1 10 2 2 2 2 2 2 2 2 2 2 2 (13.81) 2 s n 1 ( x ) = (10.5 + 6.8 + 20.7 + 18.2 + 8.6 + 25.8 + 22.2 + 5.9 + 7.6 + 11.8 ) − 9 9 = 52.5899 −
Para el caso de años de estudio: 1 (17 + 18 + 21 + 16 + 16 + 21 + 16 + 14 + 18 + 18) = 17.5 y = 10 1 2 10 2 2 2 2 2 2 2 2 2 2 (17.5) 2 s n 1 ( y ) = (17 + 18 + 21 + 16 + 16 + 21 + 16 + 14 + 18 + 18 ) − 9 9 −
=
4.9444
Luego, sus coeficientes de variación muestral son: cv( x) =
s n −1 ( x) x
=
52.5899 13.81
=
0.4982 y cv( y) =
s n−1 ( y ) y
=
4.9444 17.5
=
0.1205 .
Conclusión: La dispersión es mayor en los ingresos que en los años de estudio.
Finalmente, las medidas que representan la dependencia entre dos muestras o poblacionales están definidas de la siguiente forma.
30
Estadística Descriptiva para datos no agrupados. 31 Definición 1.21
Sean los datos de dos muestras del mismo tamaño, x1 , x 2 , , x n y y1 , y 2 , , y n , referentes a diferentes características, llamaremos covarianza a la medida que refleja el grado de dependencia entre los datos de las dos muestras, la denotaremos por s xy y calcularemos por: K
s xy
=
cov( x, y) =
1
n
∑ ( x
n
i
− x
)( y i − y ) =
i =1
1 n
K
n
∑ x y i
i
− x y
.
i =1
EJEMPLO 24
En el ejemplo anterior referente al grupo de 10 personas con características ingresos y años de estudio. Calcule la covarianza entre las dos características. Solución
En el ejemplo anterior calculamos sus medias, encontrando productos Persona i Ingreso en miles ( x) Años de estudio ( y)
x
1
2
3
4
5
10.5 17
6.8 18
20.7 21
18.2 16
8.6 16
=
13.81 y y = 17.5 . Ahora sus 6
25.8 21
7
8
9
10
22.2 16
5.9 14
7.6 18
11.8 18
178.5 122.4 434.7 291.2 137.6 541.8 355.2 82.6 136.8 212.4
xi y i
De tal forma que la covarianza entre ingresos y años de estudio estará dada por s xy
=
cov( x, y) =
1 n
n
∑
x i y i
− x y =
i =1
2493.2 − 13.81(17.5) = 7.645 . 10
En estos momentos surge la pregunta sobre la interpretación del valor obtenido, 7.645, para la covarianza de las dos características, ¿Qué significa 7.645, la dependencia entre las características es elevada o pequeña?
La respuesta a la pregunta, con los datos dados, no resulta tan obvia porqué en realidad depende del tamaño de las unidades en la que están los datos. Para evitar este problema, se introduce un coeficiente que representa una medida relativa de dependencia entre los caracteres en estudio. Definición 1.22
Sean los datos de dos muestras del mismo tamaño, x1 , x 2 , , x n y y1 , y 2 , , y n , referentes a características diferentes, llamaremos coeficiente de correlación muestral a la medida que refleja el grado de dependencia entre las dos muestras y lo denotaremos por r xy , se calcula K
K
n
r xy
=
cov( x, y) 2
2
s n ( x) s n ( y )
∑ x y i
i
−
n x y
i =1
=
.
n
∑ x
n
2 i
−
i =1
n x 2
∑ y
2 i
−
n y 2
i =1
El coeficiente de correlación se encuentra entre [− 1, 1] .
31
32. Capítulo 1
EJEMPLO 25
En el ejemplo anterior referente al grupo de 10 personas con características ingresos y años de estudio. Calcule su coeficiente de correlación para las características. Solución
En el ejemplo anterior calculamos sus covarianza encontrando cov( x, y ) = 7.645 , mientras que en el ejemplo 23 calculamos sus varianzas insesgadas, luego las varianzas sesgadas estarán dadas por: 9 n −1 2 n −1 2 9 s n 1 ( y ) = ( 4.9444) = 4.4496 s n2 ( x) = s n 1 ( x ) = (52.5899) = 47.3309 y s n2 ( y) = 10 n n 10 −
−
De tal forma que el coeficiente de correlación entre ingresos y años de estudio estará dado por cov( x, y) 7.645 = = 0.5268 . r xy = 2 2 47 . 3309 4 . 4496 sn ( x) sn ( y) ¿Cómo interpretar el coeficiente de correlación muestral?
A diferencia de la covarianza el coeficiente de correlación muestral tiene una interpretación que no depende del tamaño de los valores de los datos, debido a que siempre será una cantidad entre [− 1,1] , sin importar que tan grandes o pequeños sean los datos muestrales. •
•
•
Si r xy > 0 , esto es, r xy ∈ (0,1] , entonces se dice que los caracteres son directamente proporcionales. Es decir, cuando el valor de uno de los dos caracteres aumenta o disminuye el otro también aumenta o disminuye. Si r xy < 0 , esto es, r xy ∈ [− 1, 0) , entonces se dice que los caracteres son inversamente proporcionales. Es decir, cuando el valor de uno de los dos caracteres aumenta o disminuye el otro disminuye o aumenta, respectivamente. Si r xy = 0 , entonces se dice que los caracteres no son dependientes. Es decir, el aumento o disminución de uno de ellos no influye en el aumento o disminución del otro. En forma numérica, si r xy
≈
1 , se dice que los caracteres en estudio tienen un alto grado de
dependencia, ya sea directa o indirecta según sea el signo de r xy . Por otro lado, si r xy ≈ 0 se dice que los caracteres en estudio tienen un grado muy pequeño de dependencia, ya sea directa o indirecta según sea el signo de r xy . Para valores intermedios la interpretación, en general, depende del investigador, a partir de que valores de r xy se considera que las muestras sean dependientes. Así, para algunos investigadores el valor 0.5268 puede ser considerado como una alta dependencia entre las muestras y para otros puede considerarse una dependencia moderada. EJERCICIOS 1.4
Del siguiente conjunto de datos, calcule rango, varianza insesgada, desviación media, rango intercuantílico del 60% y su coeficiente de variación. 145 150 165 155 155 145 150 140 145 150 160 175 150 160
1).-
Calcule la desviación estándar muestral de los tiempos entre llegadas referentes a 6 aviones que llegan al aeropuerto Benito Juárez, de la ciudad de México, cuyos tiempos (en minutos) son: 3.5, 4.2, 2.9, 3.8, 4.0 y 2.8
2).-
32
Estadística Descriptiva para datos no agrupados. 33 3).-
En los envases de leche, la cantidad de líquido no es siempre un litro, se toma una muestra de 10 paquetes, obteniéndose las mediciones de abajo, en litros. Calcule el rango, la varianza insesgada, la desviación media y su coeficiente de variación de los contenidos de leche. 0.95 1.01 0.97 0.95 1.0
0.97 0.95 1.01 0.95 0.98
Sean las calificaciones de 30 estudiantes en la materia de probabilidad
4).-
27
72
83
15
96
30
8
98
86
5
39
86
87
100
56
88
31
3
30
57
22
7
20
62
95
35
73
66
56
57
Calcule el rango, la varianza insesgada, la desviación media, rango intercuantílico del 80% y su coeficiente de variación de las calificaciones. 5).-
La Bolsa Mexicana de valores ha tenido las diferentes alzas y bajas en puntos porcentuales durante la primera quincena de Junio del 2003. Calcule varianza muestral y su coeficiente de variación de los puntos porcentuales de la bolsa Mexicana de valores. 3.4%
6).-
1.7%
−
0.5 % 0.7%
−
2.4 %
En la siguiente lista se muestra las materias de Cálculo y Álgebra. 80 70 43 75 95 70 Álgebra 46 83 45 90 80 30
Cálculo
100 38 50 52 43 30
−
1.8 %
−
0.9 %
2.5%
0.3%
0.8%
calificaciones de 30 alumnos correspondientes a las 55 75 75
23 57 60
98 32 65
42 73 32 82 100 86
20 50 30
35 96 10
30 80 90
10 40 35
70 40 40
30 10 90
10 40 25
45 90 10
65 65 60
Calcule las medidas de variabilidad por grupo: a) Rango y varianza insesgada. b) Coeficientes de variación de las calificaciones por materia. ¿En qué materia se tiene la mayor dispersión en las calificaciones? c) Los rangos intercuantílicos del 80% por materia. d) Covarianza y el coeficiente de correlación entre las dos materias. 25
7).-
Se llevo a cabo un experimento y se anotaron sus valores x = 53.48 , con
∑ x
2 i
=
86463 ,
i =1
calcule su varianza insesgada y coeficiente de variación de los datos. 8).-
Para determinar la dependencia entre dos caracteres se hizo un estudio de 20 de ellos y anotaron 20
sus resultados
∑ x i =1
20
i
=
208
,
∑ x i =1
2 i
20
=
2,540.5
,
∑ y
20
i
=
1,067
i =1
,
∑ y
2 i
20
=
65,713
y
i =1
∑ x y i
i
=
12,884.5 .
i =1
Calcule su coeficiente de correlación de los datos muestrales. 50
9).-
Se llevo a cabo un experimento y se anotaron sus valores
∑ x
50
i
=
i =1
1634 , con
∑ x
2 i
=
94492 ,
i =1
calcule su varianza insesgada y coeficiente de variación de los datos.
33
34. Capítulo 1 30
10).-
Se conoce que
∑ x
30
i
=
331.3 ,
∑ y
i =1
30
i
=
1,673.5 y
i =1
∑ x y i
i
=
22,414 , calcule la covarianza de los
i =1
valores muestrales para x y y.
1.8 PARÁMETROS DE FORMA EN LA DISTRIBUCIÓN DE LOS DATOS Cuando tenemos un conjunto de datos una de las primeras tareas que deseamos llevar a cabo se relaciona con el trazado de la gráfica de los mismos con el objetivo de llevar a cabo un estudio mucho más rápido y simple del problema. De tal forma que la tarea de revisar los tipos de gráficas más comunes se llevará a cabo en el siguiente capítulo, pero en el presente revisaremos algunos parámetros de los datos que se relacionan con la forma de su distribución. Definición 1.23
Sean x1 , x 2 , , xn , n datos con media x y desviación estándar muestral s n 1 , entonces se llama coeficiente de sesgo o coeficiente de asimetría a la medida que representa el grado de asimetría de la gráfica y lo denotáremos por CA, en la literatura se usan comúnmente dos fórmulas para el cálculo K
−
CA1
En donde, m3
=
=
1
n
n
( n − 1)(n − 2)
∑ i =1
3
xi − x o CA2 s n 1 −
=
m3
(sn 1 )3
=
1 n
−
n
∑ i =1
3
xi − x . s n 1 −
n
∑ ( x n
i
− x
) 3 y s n 1 es la desviación estándar correspondiente a la varianza −
i =1
insesgada. Podemos apreciar que las dos fórmulas casi coinciden, cuando n es grande, y están (n − 1)(n − 2) relacionadas por CA2 = CA1 . 2 n
El coeficiente de asimetría caracteriza el grado de alejamiento de los datos con respecto a su media y generalmente se encuentra entre − 4 y 4. Cuando el coeficiente de asimetría vale cero, esto indica que su distribución es simétrica. El paquete Excel utiliza la fórmula CA1 para la asimetría. Por otro lado, para calcular el coeficiente de asimetría se requieren mínimo de 3 datos.
moda mediana media
a
0 CA > 0 m3
>
0 CA < 0 m3
moda
<
mediana media
b
Figura 1 Muestra los dos tipos de asimetría. En (a) se observa una asimetría hacia la derecha, datos
sesgados a la derecha, mientras que en (b) a la izquierda, datos sesgados a la izquierda .
34
Estadística Descriptiva para datos no agrupados. 35
De la figura anterior, podemos apreciar que en el caso de asimetría positiva (a la derecha, figura a), la moda es más pequeña que la mediana y ésta más pequeña que la media. De forma contraria, cuando el sesgo es negativo (a la izquierda, figura b), la media es la más pequeña, le sigue en tamaño la mediana y finalmente la moda es más grande. En el caso de que la distribución sea simétrica, coinciden las tres medidas centrales. Resumiendo tenemos 0, la distribución de los datos es simétrica. CA = < 0, los datos están sesgados a la izquierda. > 0, los datos están sesgados a la derecha.
EJEMPLO 26
Calcule el coeficiente de asimetría para los datos referentes a 173.5 171.4 178.2 165.7 180.0 174.6 169.0 175.4 176.5 164.0 167.5 158.4 170.5 180.5 117.8 184.3 178.5 172.0 167.5 165.7 165.0 178.0 177.5 181.0 170.5 181.3 160.6 168.5 170.0 171.0
la estatura de 50 estudiantes del IPN. 176.0 168.5 180.1 165.9 168.0 172.8 172.5 173.2 174.5 173.0 176.3 186.4 179.5 174.6 173.2 172.9 176.5 178.9 180.0 169.0
Solución
Primeramente se calcula la media y desviación estándar muestral de los 50 datos, resultando x
=
172.124 y s n
1 =
−
9.84284 .
Ahora el coeficiente de asimetría CA1
=
xi − x s n 1
n
n
( n − 1)(n − 2)
∑ i =1
−
3
50 = 49 × 48
50
∑ i =1
3
xi − 172.124 . 9 . 84284
3
x − 172.124 , obteniendo: Se calcula cada uno de los 50 sumandos, i 9.84284
0.003 0.000 0.235 -0.032 0.037 0.088 -0.004 0.616 -168.12 -0.104 -0.278 -0.379 -0.004 0.810 -1.605
-0.278 -0.562 1.893 0.213 -0.050
0.512 -0.104 0.272 0.163 -0.010
Posteriormente, se suman resultando
−
0.016 -2.711 0.000 0.733 -0.001
0.061 -0.074 0.014 0.421 0.088
-0.050 0.000 0.001 0.016 0.326
0.532 0.000 0.076 0.001 0.512
-0.253 0.001 3.051 0.000 -0.032
163.956 , de tal forma que: 3
xi − x 50 = CA1 = ( −163.956) = −3.4855 . (n − 1)(n − 2) i 1 s n 1 49 × 48 (n − 1)(n − 2) 49 × 48 ( −3.4855) = −3.2791 . Similarmente, podemos obtener que CA2 = CA = 1 50 × 50 n2 n
n
∑
−
=
Kart Pearson, desarrolló una fórmula un poco más burda que la anterior para calcular el 3( x − x~ ) coeficiente de asimetría. La fórmula es . s n−1
35
36. Capítulo 1
En donde, x es la media, x~ la mediana y s n 1 la desviación estándar muestral de las observaciones. −
Calculando la mediana, 176.3, tenemos que el coeficiente de variación por Pearson, sería: 3( x − x~ ) 3(172.124 − 176.3) = = −1.273 . 9.8428 sn 1 −
Otra característica de la gráfica de los datos se refiere a la elevación o el achatamiento relativo de la distribución de los datos comparada con la distribución normal . De forma similar al coeficiente de asimetría, la curtosis también se puede calcular analíticamente. Definición 1.24 Curtosis
Sean x1 , x 2 , , xn , n datos con media x y desviación estándar muestral s n 1 , entonces se llama curtosis a la medida que representa el achatamiento relativo de la distribución de los datos al compararse con la distribución normal, en la literatura encontramos diferentes fórmulas para su cálculo, las cuales coinciden cuando n es grande K
−
CU 1
CU 2
CU 3
=
=
=
n(n + 1)
(n − 1)(n − 2)(n − 3) n(n + 1)
m4
(s n 1 ) 4
−
3=
=
m4
(s n 1 ) 4 −
1
n
=
n
i =1
i =1
n
∑ i =1
xi − x s n 1
4
xi − x s n 1
4
−
∑
3(n − 1) 2 − ( n − 2)(n − 3)
−
xi − x n 1
∑ s n i =1
1
∑ n
(n − 1)(n − 2)(n − 3)
−
CU 4
n
4 −
3
−
xi − x s n 1
4
−
El desplazamiento de la función en 3 unidades influye en la comparación para determinar el tipo de curtosis para una normal y se llama mesocúrtic a 0, CU 1 0 CU 3 = < 0, menos aguda y con colas más pesadas que la normal, y se llama platicúrtica > 0, más aguda y con colas menos pesadas que la normal, y se llama leptocúrtica para una normal y se llama mesocúrtica 3, CU 2 0 CU 4 = < 3, menos aguda y con colas más pesadas que la normal, y se llama platicúrti ca > 3, más aguda y con colas menos pesadas que la normal, y se llama leptocúrtica En el caso de las fórmulas CU 1 0 CU 3 la curtosis de la distribución normal vale 0 y la de la distribución t-student es mayor a cero, mientras que en el caso de desplazarse 3 unidades, CU 2 0 CU 4 , la curtosis de la distribución normal vale 3 y la de la distribución t-student es mayor a tres. El paquete Excel utiliza la fórmula CU 1 para la curtosis. Una curtosis positiva indica una distribución relativamente elevada, mientras que una curtosis negativa indica una distribución relativamente plana.
36
Estadística Descriptiva para datos no agrupados. 37
Finalmente, para calcular la curtosis se requiere mínimo de 4 datos y, que teóricamente la curtosis se calcula para distribuciones con CA ≈ 0 (simétricas), pero también se puede utilizar en el caso de que la distribución de los datos sea asimétrica. EJEMPLO 27
Calcule la curtosis para los datos del ejemplo anterior referente a la estatura de 50 estudiantes del IPN. Solución
Primeramente calculamos la media y desviación estándar muestral de los 50 datos. Esto ya se hizo y resultó x = 172.124 y s n 1 = 9.84284 . −
4
x − 172.124 , obteniendo: Para la curtosis se calcula cada uno de los 50 sumandos i 9.84284
0.000 0.010 0.001 0.049 0.001
0.000 0.145 0.181 0.410 0.012 0.039 0.464 0.049 0.524 927.866 2.342 0.176 0.181 0.274 0.127 0.089 0.755 1.879 0.018 0.002
0.004 3.780 0.000 0.661 0.000
0.024 0.031 0.003 0.315 0.039
0.018 0.000 0.000 0.004 0.225
0.431 0.000 0.032 0.000 0.410
0.160 0.000 4.425 0.000 0.010
Posteriormente se suman resultando 946.170, luego CU 1
=
n(n + 1)
(n − 1)(n − 2)(n − 3)
n
∑ i =1
xi − x s n 1 −
4
3(n − 1) 2 − (n − 2)(n − 3)
3(n − 1) 2 = = 18.633 946.170 − (n − 1)(n − 2)(n − 3) (n − 2)(n − 3) n(n + 1)
Este valor indica que la distribución de los datos es más elevada que la normal. Resumen de las escalas de medición Escala
Medidas de tendencia central que se pueden aplicar
Nominal
Moda
Ordinal
Anteriores y mediana
Intervalo
Anteriores y media
Razón
Todas
Medidas de dispersión que se pueden aplicar
Varianzas binomiales, np(1 − p) Anteriores, Rango y rangos intercuantílicos Anteriores y varianzas y desviaciones estándar Todas, coeficiente de variación
EJERCICIO 1.5 1).-
Sean las calificaciones de 30 estudiantes en la materia de probabilidad 27 72 83 15 96 30 8 98 86 5 39 86 88 31 3 30 57 22 7 20 62 95 35 73
87 66
100 56
56 57
Calcule su coeficiente de asimetría y la curtosis, e indique como es la distribución de los datos con respecto a su simetría y en comparación de la normal.
37
38. Capítulo 1 2).-
En la siguiente lista se muestran las calificaciones de materias de Cálculo y Álgebra. 80 70 43 55 23 98 75 95 70 75 57 32 Álgebra 46 83 45 75 60 65 Cálculo
90 80 30
100 38 50 52 43 30
30 80 90
10 40 35
70 40 40
30 alumnos correspondientes a las 42 73 32 82 100 86
20 50 30
35 96 10
30 10 90
10 40 25
45 90 10
65 65 60
Calcule su coeficiente de asimetría y la curtosis por grupo e indique cómo es la distribución de los datos con respecto a su simetría y en comparación de la normal.
1.9 APLICACIÓN DE LAS MEDIDAS PARA DATOS NO AGRUPADOS A INVERSIONES Los conceptos revisados sobre Estadística Descriptiva para datos no agrupados tienen una gama muy amplia de aplicaciones, en esta sección hablaremos brevemente sobre las inversiones, para esto iniciamos explicando que se entiende por título en el contexto de inversiones. En finanzas, el término título o activo financiero se aplica al conjunto de instrumentos legales que incluyen bonos, acciones y préstamos otorgados por instituciones financieras cuyos propietarios tienen ciertos derechos para percibir en el futuro una determinada cantidad monetaria. Casi todos los títulos valores que se negocian en los mercados secundarios pertenecen a uno de los siguientes dos grandes grupos: bonos o acciones. Los bonos son instrumentos crediticios (deuda emitida normalmente por el Gobierno o las empresas), a cambio de cierta cantidad de dinero, proporcionan un rendimiento fijo. Las acciones preferentes son parecidas a los bonos, ya que tienen un valor facial y proporcionan un dividendo predeterminado (parecido al cupón de los bonos). La diferencia estriba en que las acciones preferentes, a diferencia de los bonos, no tienen un plazo de vencimiento y, en que se puede no pagar los dividendos anualmente durante varios años, sin que ello implique la quiebra del emisor. Estos títulos valores tienen un periodo de vida ilimitado y sólo se pagarán dividendos si el emisor obtiene unos beneficios satisfactorios. Dado que los rendimientos de los bonos son los más seguros, constituyen la inversión menos arriesgada, pero a su vez tienen un menor rendimiento. Las acciones preferentes comportan mayores riesgos que los bonos, pero menores que los que comportan las acciones ordinarias. Éstas son las más arriesgadas, por lo que su tasa de rendimiento esperada es también la más elevada. Así, tenemos que rendimiento de un título es proporcional al riesgo, pero ¿Cómo se miden el riesgo y el rendimiento de un título?
Para medir el rendimiento de un título, necesitamos ver los diferentes precios en diferentes intervalos de los títulos. Para saber el historial de cuánto se gana y cuánto se pierde. Precio de hoy − Precio de ayer Precio de ayer Riesgo = desviación estándar, de la varianza sesgada, de los rendimientos
Rendimiento (hoy) = R =
EJEMPLO 28
Dados los títulos de Wal-Mart y Telmex en 15 días sucesivos calcule a) Rendimientos. b) Rendimientos promedio en dicho periodo.
38
=
s n ( R )
Estadística Descriptiva para datos no agrupados. 39 c) Riesgos. d) Determine los coeficientes de variación de cada título durante el periodo de 15 días e indique
cuál título es más disperso. Día
Wal-Mart
Telmex
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
34.79 34.85 34.74 34.48 34.71 35.12 34.83 34.86 35.29 35.91 35.92 35.68 35.87 35.98 36.17
17.80 17.57 17.59 17.85 17.87 18.17 18.17 18.30 18.36 18.40 18.40 18.48 18.51 18.45 18.49
Solución
Primeramente, calculamos sus rendimientos, ver tabla siguiente. Día
Wal-Mart
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
34.79 34.85 34.74 34.48 34.71 35.12 34.83 34.86 35.29 35.91 35.92 35.68 35.87 35.98 36.17
Rendimiento promedio Riesgo Coeficiente de variación
Rendimientos Wal-Mart
Telmex
0.00172 -0.00316 -0.00748 0.00667 0.01181 -0.00826 0.00086 0.01234 0.01757 0.00028 -0.00668 0.00533 0.00307 0.00528
17.8 17.57 17.59 17.85 17.87 18.17 18.17 18.3 18.36 18.4 18.4 18.48 18.51 18.45 18.49
0.00281 0.00776 2.76074
Rendimientos Telmex
-0.01292 0.00114 0.01478 0.00112 0.01679 0.00000 0.00715 0.00328 0.00218 0.00000 0.00435 0.00162 -0.00324 0.00217 0.00274 0.00717 2.66031
39
40. Capítulo 1
En resumen resulta ser un poco más dispersos los valores del título de Walt-Mart que los de Telmex. ¿Qué pasa cuando se invierte en diferentes títulos al mismo tiempo?
En el caso de analizar varios títulos para un mismo inversionista estamos hablando de portafolios. En esta situación el inversionista destina proporciones de su capital a cada título, de tal manera que requiere conocer el rendimiento promedio del portafolio. Supóngase que el inversionista tiene n títulos en los cuales invierte su capital de acuerdo a las siguientes proporciones, p1 , p 2 , , p n . De tal manera que p1 + p 2 + + p n = 1 . El rendimiento promedio del portafolio, no es otra cosa que la media ponderada de los rendimientos promedios de cada uno de los n títulos del inversionista. Luego, el rendimiento promedio del portafolio K
L
n
R P
∑ p R .
=
i
i
i =1
Mientras que el riesgo del portafolio n −1
n
s RP
∑ p s
2 2
=
i
Ri
+
n
∑ ∑ p p
2
i =1
i
j
cov( Ri , R j )
i =1 j = i +1
EJEMPLO 29
Considere un portafolio con los dos títulos del ejemplo anterior, Wal-Mart y Telmex en 15 días sucesivos y calcule a) Rendimiento promedio del portafolio para una inversión del 30% en Wal-Mart y 70% en Telmex. b) En la inversión del inciso (a) calcule el riesgo del portafolio. Solución
El rendimiento promedio del portafolio. 2
R P
=
∑ p R i
i
0.30(0.00281) + 0.70(0.00274) = 0.00276
=
i =1
Para el riesgo del portafolio primeramente necesitamos calcular la covarianza entre los rendimientos. Así, encontramos que cov( R1 , R2 ) = 0.0000019498 . Ahora el riesgo del portafolio 2
s RP
=
∑ p s
2 2
i
i =1
=
Ri
2−1
+
2
2
∑ ∑ p p i
j
cov( Ri , R j ) = p12 s R21 + p 22 s R22
+
2 p1 p 2 cov( R1 , R2 )
i =1 j =i +1
0.3 2 (0.00776) 2
+
0.7 2 (0.00717) 2
+
2(0.3)(0.7)(0.00000195) = 0.00561
EJERCICIO 1.6
Sean los 7 títulos de la siguiente tabla y, con ayuda de algún paquete calcule lo siguiente. a) Rendimientos de los títulos. b) Rendimientos promedio de cada título. c) Riesgos de cada título. d) Los coeficientes de variación de cada título e indique cuál título tiene precios más dispersos. e) Determine un portafolio de 3 títulos y calcule el rendimiento promedio del portafolio para una inversión del 30%, 20% y 50%.
40
Estadística Descriptiva para datos no agrupados. 41 f)
En la inversión del inciso anterior calcule el riesgo del portafolio. FECHA
WALMART
VITRO
Bimbo
09/06/2004 09/03/2004 09/02/2004 09/01/2004 08/31/2004 08/30/2004 08/27/2004 08/26/2004 08/25/2004 08/24/2004 08/23/2004 08/20/2004 08/19/2004 08/18/2004 08/17/2004 08/16/2004 08/13/2004 08/12/2004 08/11/2004 08/10/2004 08/09/2004 08/06/2004 08/05/2004 08/04/2004 08/03/2004 08/02/2004 07/30/2004 07/29/2004 07/28/2004 07/27/2004 07/26/2004 07/23/2004 07/22/2004 07/21/2004 07/20/2004 07/19/2004 07/16/2004 07/15/2004 07/14/2004 07/13/2004 07/12/2004 07/09/2004 07/08/2004 07/07/2004
37.10 36.99 37.83 36.36 36.17 35.98 35.87 35.68 35.92 35.91 35.29 34.86 34.83 35.12 34.71 34.48 34.74 34.85 34.79 34.95 34.29 34.52 35.02 34.87 34.91 34.74 34.71 34.63 34.85 34.84 34.59 34.65 34.68 34.50 34.41 34.13 33.93 33.73 33.32 33.79 33.79 33.49 32.61 33.00
9.78 9.78 9.81 9.95 10.00 10.30 10.25 10.05 10.00 9.94 9.82 10.29 10.30 10.32 10.45 10.30 10.29 10.31 10.38 10.64 10.30 10.31 10.61 10.55 10.70 10.67 10.52 10.40 10.25 9.97 9.96 10.00 9.85 9.75 9.82 9.99 10.00 10.00 9.99 10.00 10.18 10.50 10.31 10.72
25.02 24.84 25.19 24.80 24.83 24.60 24.44 24.30 24.31 24.54 24.12 24.09 24.19 23.85 23.52 23.51 23.35 23.22 23.66 23.50 23.40 23.53 24.20 24.23 24.22 24.05 24.27 23.22 23.00 23.00 22.60 22.88 22.83 23.20 23.16 23.12 22.67 23.14 23.14 23.40 23.18 23.55 23.06 23.43
Cemex
Comercial Mexicana
Elektra
Grupo Modelo
65.88 65.80 65.90 65.63 64.62 64.77 65.50 65.18 65.33 65.30 65.24 64.95 64.59 64.36 63.79 62.96 62.35 62.61 63.16 63.93 63.03 63.13 65.40 66.02 65.88 65.12 64.48 65.01 65.79 66.49 64.96 64.93 64.53 64.87 64.91 64.71 66.14 65.65 64.37 65.13 65.28 65.03 64.00 64.39
12.25 12.21 12.30 12.35 12.44 12.26 12.40 12.34 12.20 12.00 11.81 11.93 11.93 11.98 11.75 11.55 11.56 11.51 11.58 11.66 11.55 11.60 11.80 11.92 12.01 11.80 11.61 11.51 11.19 11.20 11.25 11.40 11.59 11.82 12.00 11.81 11.80 11.67 11.61 12.13 12.47 12.60 12.48 12.60
74.60 74.74 75.00 74.89 75.00 74.50 74.03 74.19 75.85 73.50 74.00 73.86 70.48 69.29 67.53 66.50 66.50 66.88 66.50 67.48 68.50 69.00 69.95 69.09 68.90 67.83 67.67 67.55 67.50 65.16 65.00 65.98 64.30 64.34 63.91 63.32 63.31 63.89 64.34 65.70 66.00 65.90 65.30 66.40
27.79 27.73 27.70 27.06 27.17 27.06 27.14 27.32 27.41 27.66 27.80 27.78 28.10 28.25 28.30 28.00 28.04 28.10 27.94 28.25 27.92 27.70 27.91 28.10 28.20 27.97 28.25 28.19 28.27 28.51 28.40 28.68 28.41 27.70 27.80 27.61 27.52 27.55 27.75 27.99 28.03 28.10 27.90 28.05
41
42. Capítulo 1
07/06/2004 07/05/2004 07/02/2004 07/01/2004 06/30/2004 06/29/2004 06/28/2004 06/25/2004 06/24/2004 06/23/2004 06/22/2004 06/21/2004 06/18/2004 06/17/2004 06/16/2004 06/15/2004 06/14/2004 06/11/2004 06/10/2004 06/09/2004 06/08/2004 06/07/2004 06/04/2004 06/03/2004 06/02/2004 06/01/2004 05/31/2004 05/28/2004 05/27/2004 05/26/2004 05/25/2004 05/24/2004 05/21/2004 05/20/2004 05/19/2004 05/18/2004 05/17/2004 05/14/2004 05/13/2004 05/12/2004 05/11/2004 05/10/2004 05/07/2004 05/06/2004 05/05/2004 05/04/2004
42
33.34 33.60 33.59 33.60 34.20 34.21 34.60 34.13 34.70 34.30 34.50 34.60 34.91 34.75 34.76 34.80 34.68 34.80 34.90 34.75 34.83 34.89 34.28 34.05 34.12 34.24 34.26 34.04 34.80 34.84 34.61 34.54 34.21 34.31 34.19 34.24 33.49 33.59 33.60 33.12 32.77 32.56 33.99 32.99 33.58 34.44
10.80 11.05 11.20 11.45 11.23 11.47 11.47 11.48 11.50 11.60 11.60 11.80 11.64 11.70 11.70 11.71 11.60 11.83 11.99 12.11 12.12 12.19 11.95 11.80 11.79 11.80 12.05 12.05 11.79 11.90 11.89 11.85 11.71 11.80 11.94 12.29 11.99 11.80 11.76 12.00 11.76 11.70 12.07 12.08 12.49 12.95
23.77 24.34 24.28 24.18 24.29 24.30 24.18 24.25 24.19 24.01 24.00 24.04 24.03 23.77 23.75 23.81 23.76 23.80 24.25 24.30 24.39 24.24 23.65 23.64 23.65 23.83 23.68 24.46 24.32 23.03 23.01 23.39 22.95 23.00 23.10 23.03 23.00 23.60 23.69 23.50 23.03 23.00 22.91 22.76 23.23 23.83
65.52 66.28 66.24 66.88 66.78 65.62 66.24 66.93 66.86 67.31 68.03 68.14 67.21 67.07 67.30 68.13 66.97 67.08 67.28 66.79 67.17 68.60 67.28 66.11 67.50 67.43 66.24 66.72 66.89 66.19 66.87 65.15 65.28 65.01 64.22 63.36 62.01 63.55 63.02 61.89 62.04 61.21 62.25 64.27 65.90 67.44
12.70 13.00 12.96 13.00 12.70 12.70 12.70 12.96 13.34 13.47 13.51 13.50 13.81 13.77 13.70 13.52 13.35 13.50 13.70 13.60 13.93 13.80 13.40 13.13 13.25 13.00 13.30 13.55 13.60 13.30 12.68 12.60 12.50 12.60 12.50 12.30 12.24 12.27 12.44 12.40 12.20 12.00 12.23 12.17 12.50 12.81
67.30 68.14 68.00 68.76 68.18 66.97 66.60 66.00 66.23 66.00 65.64 65.92 66.17 66.62 66.29 65.60 65.03 66.40 65.94 65.90 64.96 63.90 61.44 60.36 61.07 60.92 60.02 59.47 61.99 60.03 59.13 58.50 58.55 59.31 59.26 60.01 59.52 60.11 60.01 58.65 58.89 58.00 62.89 64.05 67.01 67.04
28.10 28.20 28.35 28.37 28.88 28.98 29.05 29.07 28.80 28.55 28.12 28.10 28.20 28.12 28.16 28.37 28.39 28.62 28.69 28.57 28.70 28.67 28.15 28.02 28.01 28.07 28.29 28.30 28.26 28.32 28.44 28.09 28.03 28.03 28.30 28.41 28.51 29.21 29.14 28.84 28.47 28.40 28.95 28.30 28.60 28.87
Estadística Descriptiva para datos no agrupados. 43
EJERCICIOS PROPUESTOS 1).-
Dado el siguiente conjunto de datos, analícelos calculando las medidas que se piden y explique el tipo de datos que se trata. 34 23 45 43 11 10 23 27 31 21 17 25 25 24 31 31 26 33 37 18 11 16 20 18 19 18 16 28 19 16 a).Media, mediana, moda. b).Rango y varianza insesgada. c).Primer cuartil, rango intercuantílico del 60%. d).Coeficiente de variación y coeficiente de asimetría
Los siguientes datos muestran los diámetros internos en centímetros de 20 pistones. Calcule 12.01 11.92 12.02 11.75 11.90 12.04 12.01 11.84 12.01 11.95 12.05 12.01 12.0 11.76 11.92 12.09 12.08 11.87 12.04 12.03 11.99 12.02 11.93 11.95 11.98 11.92 12.03 11.93 12.01 12.02 a).Diámetro interno medio b).Rango y varianza insesgada de los diámetros Rango intercuantílico del 60% para los diámetros c).d).Coeficiente de variación y coeficiente de asimetría y curtosis, ¿tendrán un comportamiento posiblemente normal los datos? 2).-
3).-
En la siguiente lista se muestra las calificaciones de la materia de Historia para dos muestras de 30 alumnos elegidos aleatoriamente de dos escuelas. 8 8 3 5 10 9 4 7 1 3 8 9 7 7 7 2 3 8 8 9 Muestra 1 7 8 4 5 6 6 10 6 3 8 Muestra 2
10 8 3
10 5 3
8 2 1
0 10 1
0 10 2
2 10 4
8 9 8
4 8 6
1 9 3
4 2 8
Calcule las siguientes medidas muestra. Media, mediana, moda. a).b).Rango y varianza insesgada. c).Tercer cuartil, rango intercuantílico del 80%. d).Coeficiente de variación y coeficiente de asimetría y curtosis. ¿Qué muestra resultó ser más homogénea en sus calificaciones? y qué se puede decir de sus posibles comportamientos de las poblaciones de procedencia de los datos. 4).-
El precio por barril de Petróleo crudo exportado por México en 15 días en el mes marzo del 2006 fue: 61.5 61.0 64.0 62.5 62.5 65.2 66.5 64.5 62.0 61.5 64.0 63.9 66.8 70.6 72.0
Calcule las siguientes medidas de los datos de la muestra. a).- Media, mediana, moda.
43
44. Capítulo 1 b).- Rango y varianza insesgada. c).- Tercer cuartil, rango intercuantílico del 80%. d).- Coeficiente de variación y coeficiente de asimetría y curtosis.
¿Qué muestra resultó ser más homogénea en sus calificaciones? y qué se puede decir de sus posibles comportamientos de las poblaciones de procedencia de los datos. 5).-
En un experimento de Psicología se pide a varios individuos que memoricen cierta secuencia de palabras. A continuación se registran los tiempos (en segundos) que necesitan los participantes para la memorización: 116, 45, 57, 112, 73, 129, 89, 128, 100, 46, 107, 109, 32, 106, 122, 41, 70, 96, 98, 117 Calcule el tiempo medio en segundos de los individuos de la prueba para memorizar la secuencia de palabras. Cuál es la variancia de la prueba para la muestra y calcule el primer cuartil.
6).-
A continuación se encuentran los salarios semanales de 15 empleados de una fábrica de artículos para el hogar: a) b) c) d)
1174, 1277, 1250, 1300, 1215, 1263, 1260, 1228, 1185, 1208, 1260, 1284, 1243, 1195, 1245 Calcule el salario muestral medio y su promedio. Calcule la variancia y desviación estándar muestrales de los salarios. Tercer cuartil, rango intercuantílico del 80% de los salarios. Coeficiente de variación y coeficiente de asimetría y curtosis.
Qué se puede decir con respecto a la distribución de los salarios semanales de los empleados. En la siguiente lista se muestra las calificaciones de 3 muestras de 10 alumnos cada una. Muestra 1 8 5 2 10 10 9 4 7 1 3 Muestra 2 1 2 4 8 6 10 10 8 8 9 Muestra 3 7 8 4 5 6 10 9 8 9 2 Determine qué muestra resultó más homogénea en sus calificaciones e indique en qué medida basa su respuesta.
7).-
8).-
En Estadística actualmente tiene gran auge trabajar con un tipo particular de datos, llamados datos censurados, que corresponden a un experimento en el cual se prueban los componentes hasta obtener los primeros n que fallen. Suponga que se lleva a cabo tal experimento con los focos y se prueban hasta que falle el 40vo. foco, obteniendo los tiempos de falla en horas de los 40 focos en secuencia como se descompusieron 690 696 699 702 710 715 716 719 720 722 722 722 724 726 730 731 734 736 738 741 742 745 745 747 748 750 752 753 753 754 759 760 763 765 767 770 772 775 780 781 Con los datos censurados obtenidos el investigador pretende hacer un reporte que indique la duración de los focos. a).¿Qué medidas, de las revisadas en el Capítulo, le recomendaría al investigador calcular e incluir en su reporte?
44
Estadística Descriptiva para datos no agrupados. 45 b).9).-
Calcule las medidas sugeridas para la vida de los focos y redacte un reporte dirigido al gerente de mercadotecnia de la empresa para la duración de los focos.
Se realiza un experimento para medir el porcentaje de encogimiento al secar los especimenes de prueba de arcilla plástica los cuales produjeron los siguientes resultados: 17.2 17.7 16.1 19.9 15.6 19.7 16.4 15.5 17.2 16.4 17.3 15.2 18.5 19.2 17.7 16.5 18.8 17.8 18.3 17.4 Con los datos obtenidos el investigador pretende hacer un reporte que indique al comprador el porcentaje de encogimiento al secar los especimenes de arcilla plástica. a).¿Qué medidas, de las revisadas en el Capítulo, le recomendaría al investigador calcular e incluir en su reporte? b).Calcule las medidas sugeridas para el porcentaje de encogimiento al secar los especimenes de arcilla plástica y redacte un reporte dirigido a los compradores. Considere los siguientes datos que corresponden al porciento de algodón en el material usado para fabricar playeras de caballero. 34.2 33.6 33.8 34.7 37.8 32.6 35.8 34.6 33.1 34.7 34.2 33.6 36.6 33.1 37.6 33.6 34.5 35.0 33.4 32.5 35.4 34.6 37.3 34.1 35.6 35.4 34.7 34.1 34.6 35.9 34.6 34.7 34.3 36.2 34.6 35.1 33.8 34.7 35.5 35.7 35.1 36.8 35.2 36.8 37.1 33.6 32.8 36.8 34.7 36.1 35.0 37.9 34.0 32.9 32.1 34.3 33.6 35.3 34.9 36.4 34.1 33.5 34.5 32.7
10).-
Con los datos obtenidos el investigador pretende hacer un reporte que indique al distribuidor el porcentaje de algodón usado para fabricar playeras de caballero. a).- ¿Qué medidas, de las revisadas en el Capítulo, le recomendaría al investigador calcular e incluir en su reporte? b).- Calcule las medidas sugeridas para el porcentaje de algodón usado para fabricar playeras de caballero y redacte un reporte dirigido a los distribuidores. Calcule la media geométrica de las calificaciones de un examen Psicológico aplicado a 8 personas cuyos resultados fueron, 7, 8, 7, 9, 6, 8, 9 y 7.
11).-
Calcule la media armónica del viaje redondo que realizó el señor Alberto de México a Querétaro (210 km.). Si de ida lo recorrió a una velocidad de 130 km/h. y de regreso a 110 km/h.
12).-
Si el señor López viajo 400 km. en 4 tramos de 100 cada uno, con velocidades de 100 km/h., 130 km/h., 90 km/h. y 110 km/h., respectivamente. Calcule con base en la media armónica la velocidad media con la que el señor López realizó el viaje.
13).-
El chofer de nombre Javier Hernández de la línea AU viajo 1000 km. en 4 tramos de 250 cada uno, con velocidades de 92 km/h., 85 km/h., 95 km/h. y 80 km/h., respectivamente. Calcule con en base en la media armónica la velocidad media con la que el señor Javier Hernández realizó el viaje.
14).-
45