Métodos Estadísticos
Tema: Estadística Descriptiva
ESTADÍSTICA GENERAL INTRODUCCIÓN La palabra estadística a menudo nos trae a la mente imágenes de números apilados en grandes arreglos y tablas, de volúmenes de cifras relativas a nacimientos, muertes, viajes, visitantes, ingresos, ventas y así sucesivamente. Algunas personas podrían pensar que la enseñanza de la estadística sólo interesa a los profesores, o bien a los investigadores que trabajan en los diferentes departamentos de una universidad. Esta es una creencia errónea, puesto que la estadística ha surgido desde la misma estadística y podemos encontrar Estadísticos en psicología, economía, medicina, ingeniería y otras áreas.
¿Que es la estadística? Según: Diccionario RAE
Ciencia o recuento de la población, de los recursos naturales e industriales, del tráfico o de cualquier otra manifestación de un Estado, provincia, pueblo, clase, etc.
Ciencia que utiliza conjuntos de datos numéricos para obtener inferencias basadas en el cálculo de probabilidades.
La Estadística se ocupa de los métodos y procedimientos para recoger, clasificar, resumir, hallar regularidades y analizar los datos, siempre y cuando la variabilidad e incertidumbre sea una causa intrínseca de los mismos; así como de realizar inferencias a partir de ellos, con la finalidad de ayudar a la toma de decisiones y en su caso formular predicciones. La Estadística, rama de las matemáticas que se ocupa de reunir, organizar y analizar datos numéricos y que ayuda a resolver problemas como el diseño de experimentos y la toma de decisiones. Estadística es un conjunto de métodos científicos para la recopilación, representación condensación y análisis de los datos extraídos de un sistema en estudio. Con el objeto de poder hacer estimaciones estimacio nes y sacar conclusiones, conclusio nes, necesarias para tomar t omar decisiones.
Ing. Est. Jorsi Ericson Balcázar Gallo
1
Métodos Estadísticos
Tema: Estadística Descriptiva
Para qué sirve la estadística 1. Para la descripción de datos. 2. Para conocer datos de población a partir de datos de muestra. 3. Para ver las relaciones entre los datos.
Importancia de la Estadística La estadística ha jugado un papel primordial en el desarrollo de la sociedad moderna, al proporcionar herramientas metodológicas generales para analizar la variabilidad, determinar relaciones entre variables, diseñar en forma óptima estudios y experimentos y mejorar las predicciones y toma de decisiones en situaciones de incertidumbre. Las técnicas estadísticas se aplican de manera amplia en mercadotecnia, contabilidad, control de calidad y en otras actividades; estudios de consumidores; análisis de resultados en deportes; administradores de instituciones; en la educación; organismos políticos; médicos; y por otras personas que intervienen en la toma de decisiones.
LA ESTADÍSTICA Y LA INVESTIGACIÓN CIENTÍFICA La Investigación Científica La investigación es un proceso de producción de conocimientos científicos; es un proceso sistemático a través del cual se recogen datos e información de la realidad objetiva para dar respuesta a las interrogantes que se plantean. No hay investigación grande o pequeña, simplemente investigar es buscar respuesta a determinadas interrogantes, a través de la aplicación de procedimientos científicos.
"PAPEL DE LA ESTADÍSTICA EN LA INVESTIGACIÓN CIENTÍFICA". La Estadística es considerada también como un suministro de un conjunto de herramientas sumamente útiles en la investigación. No existe investigación, proceso o trabajo encaminado a obtener información cuantitativa en general, en la que la estadística no tenga una aplicación. La estadística no puede ser ignorada por ningún investigador, aún cuando no tenga ocasión de emplear la Estadística Aplicada en todos sus detalles y ramificaciones. El papel de la estadística en la investigación es, entonces, funcionar como una herramienta en el diseño de investigaciones, en el análisis de datos, y en la extracción de conclusiones a partir de ellos. Escasamente podrá preveerse un papel mayor y más importante
Ing. Est. Jorsi Ericson Balcázar Gallo
2
Métodos Estadísticos
Tema: Estadística Descriptiva
El desarrollo científico científico y la investigación investigación no son posibles posibles sin la estadística estadística
TRABAJO Observar y describir diferentes problemas relacionados con su carrera. carrera. CLASIFICACION O TIPOS DE ESTUDIOS Según el tiempo de ocurrencia ocurrencia de los hechos y registros de la información Se clasifican en:
Retrospectivo: Son aquellos estudios que el investigador indaga sobre hechos ocurridos en el pasado.
Prospectivo: Son aquellos estudios que el investigador registra la información según van ocurriendo los fenómenos.
Ing. Est. Jorsi Ericson Balcázar Gallo
3
Métodos Estadísticos
Tema: Estadística Descriptiva
ESTADÍSTICA GENERAL DIVISIÓN DE LA ESTADÍSTICA La Estadística para su mejor estudio se ha dividido en dos grandes ramas: la Estadística Descriptiva y la Inferencial. Estadística Descriptiva:
Se denomina estadística descriptiva, al conjunto de métodos
estadísticos que se relacionan con el resumen y descripción de los datos, como tablas, gráficas, y el análisis mediante algunos cálculos. Estadística Inferencial
Se denomina inferencia estadística al conjunto de métodos con los
que se hacen la generalización o la inferencia sobre una población utilizando una muestra. La inferencia puede contener conclusiones que pueden no ser ciertas en forma absoluta, absolut a, por lo que es necesario que éstas sean dadas con una medida de confiabilidad que es la probabilidad. Estas dos partes de la estadística no son mutuamente excluyentes, ya que para utilizar los métodos de la inferencia estadística, se requiere conocer los métodos de la estadística descriptiva. La Estadística Inferencial investiga o analiza una población partiendo de una muestra tomada.
TÉRMINOS DE ESTADÍSTICA Los términos estadísticos que se usan en estadística es necesario conocerlos para poder entender el lenguaje estadístico que se utiliza en el desarrollo de la asignatura:
Población: En forma general, en estadística; se denomina población, a un conjunto de elementos (que consiste de personas, objetos, etc.), que contienen una característica observable común. La población debe estar perfectamente definida en el tiempo y en el espacio. Por lo tanto, al definir una población, se debe cuidar que el conjunto de elementos que
Ing. Est. Jorsi Ericson Balcázar Gallo
4
Métodos Estadísticos
Tema: Estadística Descriptiva
la integran quede perfectamente delimitado. Si, por ejemplo, estamos analizando la edad de los alumnos de la UNP, debemos especificar cuáles y cuándo, entonces seria: 14537 alumnos de la Universidad Nacional de Piura, en Abril del 2011. “La población puede ser finita o infinita”: Población Finita,
Es el conjunto finito de unidades de análisis donde se puede identificar a
un elemento inicial y/o a un elemento final. Por ejemplo, la población de fabricas de Lima Metropolitana, todos los estudiantes existentes en la Universidad Nacional de Piura. Población Infinita,
Conjunto infinito de elementos donde no se podría identificar a
una unidad inicial ni a la unidad final. Ejemplo, la población de personas con hábitos de fumar, población de personas que consumen bebidas gaseosas, población e personas que consumen cervezas, los árboles de la selva peruana, etc.
Muestra: Es una parte o subconjunto de una población en estudio. La muestra está constituida de elementos seleccionados de una manera deliberada, con el objeto de investigar las propiedades de su población. Cuando no se puede acceder a los datos de toda la población, que es lo más frecuente, y se debe trabajar con sólo los de la muestra, a la simple descripción de los datos se añade el interés por valorar hasta qué punto los resultados de la muestra son generalizables a la población. Se denomina muestra a una parte de la población seleccionada de acuerdo con un plan o regla, con el fin de obtener información acerca de la población de la cual proviene. “Toda muestra debe ser representativa y adecuada”.
Población (N)
Muestra (n)
Muestreo
X S
2
Inferencia
Ing. Est. Jorsi Ericson Balcázar Gallo
S
2
5
Métodos Estadísticos
Tema: Estadística Descriptiva
Variable: Es una característica de interés, toma diferentes valores. Las variables son características observables, susceptibles de adoptar distintos valores o ser expresados en varias categorías. Las variables se representan con letras mayúsculas del abecedario. Ejemplo:
X: Tamaño de pernos producidos por cierto proceso industrial.
Y: Ph. Del yogurt.
Q: Color de la bebida gaseosa.
Z: Número de gaseosas defectuosas por lote.
P: Método de enseñanza.
M: Temperatura de cocido de ladrillos pandereta.
N: Tipo de batería que usan los equipos de Oftalmología para el servicio de zonas rurales en el CLAS de la ciudad de Sullana en Julio del 2008. 2008.
X: Gastos realizados por la empresa por aniversario de esta, en el mes de Julio.
Y: Edad de los alumnos del colegio “Mariano Melgar”.
Z: Tiempo de servicio de los trabajadores de la empresa OKG.
Unidad de análisis o unidad elemental: Es el objeto o elemento indivisible que será estudiado en una población o en una muestra, sobre los cuales se va a obtener datos, de los ejemplos anteriores seria:
Cada perno producido.
Cada frasco que contiene al yogurt.
Cada gaseosa producida.
Cada lote producido.
Cada alumno.
Cada lote de ladrillos.
Cada equipo Oftalmológico de las zonas rurales en el CLAS Sullana.
Cada departamento de dicha empresa.
Cada alumno del colegio “Mariano Melgar”.
Cada trabajador que labora en la empresa OKG.
Ing. Est. Jorsi Ericson Balcázar Gallo
6
Métodos Estadísticos
Tema: Estadística Descriptiva
Datos: Comúnmente se le conoce como observaciones observaciones. Son los valores que toma la variable en cada unidad estadística. De los ejemplos anteriores seria:
x1=2 cm., x2=2.1 cm.
y1=12.2°, y2=13.5°
q1=amarillo, q2=rojo, q3=negra, q4=amarilla.
Etc.
Unidad de medida . Son las unidades físicas en las que son expresados los datos. Las variables cualitativas no tienen unidad de medida. De los ejemplos anteriores.
cm.
Grados.
LAS VARIABLES Podemos iniciar el tema indicando que definir las variables “me permitirá dar respuesta a lo que quiero estudiar”. El sexo, la edad, el nivel socioeconómico, el seguimiento de un
determinado plan de cuidados, el tipo de droga que se consume, la percepción de riesgo frente a una determinada conducta, etc. son aspectos que con seguridad se abordarán si estamos realizando un estudio sobre el consumo de drogas, pues bien, estos aspectos a estudiar, son lo que denominamos las variables de estudio.
CLASIFICACIÓN DE LAS VARIABLES Medir es asignar valores a las variables del estudio. Su principal función es evitar la subjetividad del investigador. La forma de medir las variables va a determinar el análisis matemático, estadístico, de las mismas.
Clasificación según su naturaleza:
VARIABLES CUALITATIVAS: Miden una característica, en término de cualidad, nunca de forma numérica.
Ing. Est. Jorsi Ericson Balcázar Gallo
7
Métodos Estadísticos
Tema: Estadística Descriptiva
Cada uno de los valores que puede tomar la variable se llama categorías. Deben incluir todas las opciones posibles que puede adoptar la variable. Pueden ser:
Escala nominal: Determina la igualdad o desigualdad de los individuos. Sexo: masculino o femenino. Fumador: Sí. No. Estado Civil: soltero, casado, viudo, separado o divorciado.
Escala ordinal: Determina el orden de los individuos de “mayor”, “menor” o “igual que”.
Habito de fumar: no fumador, fumador moderado, fumador importante. Consumo de tabaco: Tabaco: 0 c/d, 1-10 c/d, > 10 c/d Escala de dolor: Muy fuerte, fuerte, regular, débil, muy débil. Si las variables cualitativas tienen solo dos categorías se llama variable cualitativa dicotómica (Ejemplo: Sexo: Hombre. Mujer), y si tiene más de dos, variable cualitativa politómica (color de cabello: negro, rubio, castaño, pelirrojo)
VARIABLES CUANTITATIVAS: Miden una característica de forma numérica, miden una cantidad. Pueden ser:
Variables Discretas : Entre dos valores consecutivos no existe otro valor, es decir toman solo valores enteros. Se obtienen siempre por conteo. Ejemplo.
Número de hijos.
Número de maquinas registradoras.
Número de máquinas empacadoras de cemento.
Número de estaciones de servicio.
Número de cajeros automáticos.
Variables Continuas : Entre dos valores consecutivos se pueden encontrar infinitos valores, es decir toman valores decimales. Se obtienen siempre por alguna medición o un cálculo matemático. Ejemplo:
Peso de pernos Talla.
Ing. Est. Jorsi Ericson Balcázar Gallo
8
Métodos Estadísticos
Tema: Estadística Descriptiva
Tiempo de vida útil de una maquina de sellado.
VARIABLES
CUANTITATIVAS
CUALITATIVAS
Nominal
Ordinal
Continua
Discreta
ELEMENTOS DE UNA VARIABLE La identificación y definición de variables es la tarea más delicada de toda investigación y del trabajo estadístico. Téngase presente que las variables se deducen a partir de los objetivos de un estudio o investigación. En consecuencia, para tener éxito en la selección de variables, es recomendable distinguir los siguientes cinco elementos: a) Nombre o denominación de la variable. b) Definición o conceptualizacion de la variable. c) Un conjunto de categorías o niveles, que es definida por el investigador. Las categorías no son únicas, lo mínimo es dos categorías y dependen de los objetivos de la investigación. d) Procedimiento para categorizar o agrupar las unidades de análisis. e) Algunas medidas de resumen o indicadores. Ejemplo: Veamos la variable Estado Civil: a) Nombre: Estado Civil o conyugal b) Definición: Es la situación de la persona empadronada en relación con las leyes y costumbres del país. c) Categorías: (01) Soltero (02) Casado (03) Conviviente (04) Divorciado
Ing. Est. Jorsi Ericson Balcázar Gallo
9
Métodos Estadísticos
Tema: Estadística Descriptiva
(05) Viudo d) Categorización: ¿Cuál es su estado civil? e) Medidas de Resumen Indicadores: -
Distribución Porcentual
-
Tasa de Nupcionalidad
-
Etc.
Veamos la variable cuantitativa, Ingreso: a) Nombre: Ingresos b) Definición: Son los recursos monetarios netos, incluyendo todas las bonificaciones que percibe una persona por su ocupación principal y secundaria durante el periodo de referencia de la encuesta. c) Categorías: Puede proponerse en forma de niveles o simplemente intervalos. Primera forma:
Segunda forma:
(01) Alto
(01) Menos de 300
(02) Medio
(02) De 301 a 500
(03) Bajo
(03) De 501 a 700 (04) De 701 a mas
d) Categorización: ¿Cuál fue su ingreso total en el último mes? e) Medidas de resumen, Indicadores: Ingreso promedio, Ingreso mediano, etc.
EJERCICIOS 01 De los enunciados siguientes Identificar la población, muestra, unidad de análisis, dato y la variable (tipo de variable y sus elementos) elementos) 1) Se desea saber el tiempo de vida de los motores en las motocar YAMAHA cierto estudio se hizo ciudad de Tumbes e Iquitos ya que son las ciudades donde el calor es intenso todo el año y el motor de cierto objeto de estudio sufre en estas condiciones climáticas. 2) En la UNP se quiere saber cuál es el deporte más practicado por los alumnos la cual se tomo información de 200 alumnos elegidos al azar de las diferentes escuelas de esta universidad.
Ing. Est. Jorsi Ericson Balcázar Gallo
10
Métodos Estadísticos
Tema: Estadística Descriptiva
3) Se desea saber cuál es la estatura y el peso medio de los alumnos de la facultad de Educación de la UNP, la cual para obtener esta información para la estimación se eligió solo a tres escuelas de esta facultad y a 50 alumnos de dichas escuelas. 4) La UNP necesita información sobre lugar de procedencia de los alumnos que vienen a integrarse a nuestra casa de estudio en el segundo semestre del presente año.
Trabajo 02 Investigar, presentar y exponer acerca de: Recolección de datos: -
Concepto
-
Fuentes de datos
-
Técnicas de recolección de datos.
-
Censo y Encuesta
RECOPILACIÓN DE DATOS La recopilación de datos es el momento en la cual el investigador se pone en contacto directo con los sujetos, objetos o elementos sometidos al estudio con el propósito de obtener los datos o respuestas de las variables consideradas; a partir de estos datos se prepara la información estadística y se calcula las medidas de resumen e indicadores para el análisis estadístico. Para recoger la información se toma en cuenta las siguientes modalidades: Las fuentes de información, los sistemas de recolección y las técnicas de recolección. FUENTES DE INFORMACION Es el lugar, la institución o persona donde están los datos para cada una de las variables o aspectos de la investigación. Las fuentes de información pueden ser: a) Fuentes internos: Es la información recopilada por la empresa (o la institución) de los resultados de su propia gestión. Son pues las observaciones que constantemente realizan los departamentos: Administrativos, contables, comerciales, técnicos, etc. Ejemplo. Reportes financieros, Reportes de operaciones, que están dados por la información de la producción, ventas, compras, estados de pérdidas y ganancias, Reportes especiales, es información adicional para un análisis específico. b) Fuentes externas: Son informaciones estadísticas elaboradas por instituciones de investigación, ya sean públicas o privadas, o dependencias especializadas, generalmente requeridas a nivel nacional o sectorial. c) Fuentes Primarias: Cuando los datos se obtienen directamente de la misma persona o entidad (unidad de observación) utilizando ciertas técnicas.
Ing. Est. Jorsi Ericson Balcázar Gallo
11
Métodos Estadísticos
Tema: Estadística Descriptiva
Ejemplo. Llevar a cabo una encuesta para conocer el grado de satisfacción laboral de los trabajadores de la fábrica CEPICAFE. Índices de precios al consumidor. d) Fuentes Secundarias: Cuando los datos ya han sido elaborados y procesados por otras personas o instituciones. Ejemplo. La información estadística que publica el INEI de los diferentes ministerios del Perú.
SISTEMA DE RECOLECCIÓN Son procedimientos que se utilizan para recoger información, puede ser: a) Los Registros: Son libros, padrones en donde se anotan en forma regular permanente y obligatoria los hechos ocurridos. Ejemplo. Registros civiles, RENIEC, Registros Públicos, etc. b) Las Encuestas: Son procedimientos de obtención de información estructurada según criterios previos de sistematización que se efectúa con propósito específico en la población o en un sector de ella. Pueden ser:
b.1) Encuesta Censal: Cuando abarca toda la población en estudio. Ejemplo. Censo de población y vivienda de 1993. b.2) Encuesta Muestral: Cuando abarca una parte de la población en estudio. Ejemplo. Llevar una encuesta a 150 alumnos de la UCV-Piura. TECNICAS DE RECOLECCION Son procedimientos que se utilizan para recolectar información según la naturaleza del trabajo de investigación. Pueden ser: El cuestionario, la entrevista, el análisis de contenido, etc. a) La observación: Es la acción de mirar con rigor, en forma sistemática y profunda, con el interés de descubrir la importancia de aquello que se observa. b) El cuestionario: Es un instrumento constituido por un conjunto de preguntas sistemáticamente elaboradas que se formulan al encuestado o entrevistado con el propósito de obtener datos de las variables consideradas en estudio. c) La entrevista: Es un dialogo entre personas, es una técnica donde una persona llamada entrevistador, encuestador o empadronador solicita al entrevistado le proporcione algunos datos e información. d) Análisis de contenidos: Es la técnica más elaborada y que goza de mayor prestigio en el campo de la observación documental. El fin o propósito del análisis del contenido consiste en determinar los puntos más importantes de un documento para observar y reconocer el significado de los mismos en sus elementos, como palabras, frases, etc., y en clasificarlos adecuadamente para su análisis y explicación. ORGANIZACIÓN Y CLASIFICACIÓN DE DATOS Una vez que se ha llevado a cabo la recolección de datos es necesario organizarlos y presentarlos adecuadamente de tal manera que facilite su comprensión, descripción y análisis del fenómeno en estudio y obtener conclusiones válidas para la toma de decisiones. Se consideran las siguientes actividades: Revisión y corrección de los datos, construcción de tablas de distribución de frecuencias y representación tabular y gráfica. Revisión y Corrección de los Datos
Ing. Est. Jorsi Ericson Balcázar Gallo
12
Métodos Estadísticos
Tema: Estadística Descriptiva
Todo análisis estadístico, por acabado y seguro que sea, es capaz de suministrar respuestas inadecuadas si éste se basa en una información incorrecta, es por eso que es necesario inspeccionar la validez y confiabilidad de los datos para corregir los errores y omisiones de acuerdo a ciertas reglas.
CUADROS O TABLAS ESTADÍSTICAS Un cuadro estadístico es el arreglo ordenado, columnas y filas, de datos estadísticos o características relacionadas, con el objeto de ofrecer información estadística de fácil lectura, comparación e interpretación. Un cuadro estadísticos es le resultado de trabajos previos (planeamiento, recopilación, tabulación, cálculos, etc.) Partes principales: principales: 1) Número del Cuadro,
es le código o elemento de identificación que permite ubicar el cuadro en el interior de un documento. 2) Titulo, es la descripción resumida del contenido del cuadro. Responder a las clásicas preguntas: Que, Donde, Como y Cuando Que: ¿Qué información contiene el cuadro? Que hay en el cuadro, se refiere al hecho observado o la característica principal. Como: ¿Cómo está arreglada o clasificada la información? Como están ordenados o clasificados los datos en el cuadro. Donde: ¿A dónde corresponde la información tabulada? Donde: Se refiere al lugar geográfico o institución a la que corresponde la información. Cuando: ¿A qué período de tiempo se refiere la información? A que momento o periodo de tiempo esta referida la información puede ser un momento especifico o puntual, como también un periodo de varios años, mese o semanas, etc. 3) Encabezamiento Encabezamiento o conceptos, conceptos, Es la descripción resumida sobre contenido de las filas y columnas que contiene el cuadro de información. 4) Cuerpo, Comprende al contenido numérico de la información del cuadro. 5) Fuente, Se anotará el nombre de la unidad responsable de la formulación y presentación del tabulado de información estadística.
Titulo
N° de cuadro CUADRO Nº 01 DISTRIBUCIÓN DE 20 EMPRESAS SEGÚN EL NUMERO DE TRABAJADORES EN PIURA, ABRIL ABRIL DEL 2008 2008 Nº Fi Encabezamiento f i hi Trabajadores 100 2 0.07 2 110 4 0.13 6 120 8 0.27 14 Cuerpo 130 10 0.33 24 140 4 0.13 28 150 2 0.07 30 Total 30 1 Fuente Fuente: Oficina de RRHH de las 20 empresas
Ing. Est. Jorsi Ericson Balcázar Gallo
13
Métodos Estadísticos
Tema: Estadística Descriptiva
TALLO Y HOJAS Una manera muy simple de representar información en muestras de tamaño moderado, es el tallo y hojas. Básicamente, consiste en un ordenamiento en que el último dígito se escribe separadamente de los de mayor significación. Mostraremos su uso mediante los datos que aparecen en la Tabla 01 que presentamos a continuación.
Tabla 01 DATOS DE ALUMNOS ALUMNOS DEL TERCER TERCER DE INGENIERIA INDUSTRIAL CICLO DE LA UNIVERSIDAD PRIVADA CESAR VALLEJO DE PIURA, 2011. G T P E G T P E G T P E M 163 50 17 F 163 62 17 F 162 48 18 M 167 55 18 F 167 51 19 F 158 57 18 M 160 55 17 M 173 63 18 F 160 51 19 F 158 49 18 F 156 41 20 F 162 56 20 F 157 55 20 F 164 55 18 F 169 53 21 F 161 53 17 F 165 60 18 F 170 58 20 F 160 60 18 F 154 52 19 F 165 56 18 F 160 60 17 F 154 52 20 F 165 56 19 M 177 67 21 M 178 60 19 F 155 52 18 F 158 50 17 F 160 55 18 F 155 45 19 Fuente: Encuesta a alumnos.
G T P E F 163 48 19 F 160 55 18 F 158 51 19 F 166 60 18 F 174 59 20 F 174 60 19 F 173 70 20 M 173 70 18 F 157 54 17 F 158 52 18
G T P E F 163 55 17 F 167 56 18 F 158 48 19 F 170 54 18 F 160 49 20 M 174 56 20 M 172 60 22 M 172 60 19 M 166 62 20 M 171 75 19
G T P E M 178 70 18 M 185 72 18 M 165 70 19 M 180 75 20 M 176 66 21 M 175 60 18 M 169 70 19 M 173 70 19
Donde: G : genero (M= Masculino, F=Femenino) T: Estatura (cm) P: Peso (kg) E: Edad (años) En esta tabla, aparecen datos de 58 alumnos del tercer ciclo de ingeniería industrial de la Universidad Privada César Vallejo, correspondientes a las variables Género, Estatura (cm) y Peso (Kg), recolectados de una encuesta. Para construir el tallo y hojas correspondiente a la variable Estatura, se escribe una columna con las decenas de los números que serán representados. Las estaturas disponibles en la muestra, tienen como decenas a los valores 15, 16, 17 y 18. De este modo, el número 165 tiene 16 decenas y 5 unidades. Esto significa que en la columna de la derecha, a la altura del 16, se anota el dígito 5. Repitiendo este procedimiento para cada valor en la tabla, se obtiene lo siguiente:
TALLO Y HOJAS DE LA TABLA 01 ESTATURA DE ALUMNOS 15 455677888888 16 000000122333345556677799 000000122333345556677799 17 001233344456788 18 05
Ing. Est. Jorsi Ericson Balcázar Gallo
14
Métodos Estadísticos
Tema: Estadística Descriptiva
El resultado obtenido puede considerarse como un reordenamiento de la información original. Sin embargo, al poner ordenadamente las cifras, se tiene un beneficio adicional: al mirar la figura globalmente, entrega una representación gráfica de la información. (Esta visión se facilita si el gráfico se observa lateralmente). La simplicidad de este procedimiento lo hace muy adecuado para representar pequeños conjuntos de datos en forma manual.
Términos utilizados: Frecuencia absoluta simple ( f i ) : indica el número de veces que se repite -
-
un atributo, característica, valor o el número de valores de un conjunto de datos que se encuentran en un intervalo. La suma total de estas frecuencias es igual al total de datos (n o N). Frecuencia porcentual simple ( hi % ): se define en cada fila como hi %
-
f i
100 . La suma total de estas frecuencias es el 100.00%. Cuando no esta expresada en porcentaje se denomina frecuencia relativa simple ( hi ). Frecuencia absoluta acumulada ( F i ) : indica la cantidad de datos que se n
encuentran hasta cierto valor o clase. -
Frecuencia porcentual acumulada ( H i % ): indica el porcentaje de datos
-
que se encuentran hasta cierto valor o clase. Marca de clase ( Y i´ ): es el punto medio de cada intervalo, es decir ´
Y i
Li
Ls 2
.
Nota.Las frecuencias acumuladas se observan cuando estamos estudiando variables cuantitativas, la marca de clase se utilizará cuando trabajemos con intervalos.
ELABORACIÓN DE CUADROS DE DISTRIBUCIÓN DE FRECUENCIAS A) VARIABLES CUALITATIVAS EJEMPLO 1.1. En una encuesta de opinión acerca de las preferencias de una marca de bebida gaseosa por sus colores: Negro(N), Blanco(B), Rojo(R), 20 consumidores dieron las siguientes respuestas: B, N, N, B, R, N, N, B, B, N, B, N, N, R, B, N, B, R, B, N. Construir la distribución de frecuencias. Graficar la distribución
SOLUCION. La tabulación de estos datos, donde la variable cualitativa es X : Color de bebida gaseosa, es la distribución de frecuencias del cuadro 1.2.
Ing. Est. Jorsi Ericson Balcázar Gallo
15
Métodos Estadísticos
Tema: Estadística Descriptiva
Cuadro 1: Distribución de personas por su color preferido de una marca de bebida gaseosa. Valores de X
Frecuencias Frecuencias Absolutas: f i Relativas: hi
Frecuencias Porcentajes: p i
Negro (N) Blanco (B) Rojo (R) Total
9 8 3 20
0.45 0.40 0.15 1.00
45 40 15 100
Fuente: Elaboración propia.
ELABORACIÓN DE GRAFICOS GRAFICO DE BARRAS Gráfico 1: Distribución de personas por su color preferido de una marca de bebida gaseosa. Personas 9
0.45
8
0.40
7 6 5 4 3
0.15
2 1 0
Negro
Blanco
Rojo
Fuente: Cuadro 01
Ing. Est. Jorsi Ericson Balcázar Gallo
16
Métodos Estadísticos
Tema: Estadística Descriptiva
Grafico Circular El gráfico 2 es la representación mediante gráfica de sectores circulares del cuadro 1 La frecuencia 45% es equivalente a 0. 45 360 162 , la frecuencia 40% es equivalente a 0. 40 360 144 , y la frecuencia 15% es equivalente a 0.15 360 54 Gráfico 2: Distribución de personas por su color preferido de una marca de bebida gaseosa.
15 % 40 %
R B N 45%
Fuente: Cuadro 01
Ejercicio. En una muestra se recolecto datos sobre la marca de baterías que usaban 30 radios portátiles del ejército peruano de la Ciudad de Piura. Co ca se co ca Donde: ca: Panasonic Ca co ca ca Se co: Duracell se: Akita Se co se co Co so: National Co se co ca Co So
co
ca
ca
Co
Co
co
co
co
Ca
Población o muestra: 30 baterias Variable: marca de bateria
Ing. Est. Jorsi Ericson Balcázar Gallo
17
Métodos Estadísticos
Tema: Estadística Descriptiva
B) VARIABLE CUANTITATIVA B.1) CUADRO SIN INTERVALOS Suponga que se han recolectado n valores de alguna variable discreta X. El procedimiento más simple de organizar estos n datos, consiste en ordenar estos valores numéricos en forma ascendente. Si todos los n datos son distintos entre si, se obtendrá una distribución de frecuencias de n valores de la variable X , donde cada uno de estos valores tienen frecuencia absoluta igual a uno. Si algunos valores se repiten, y si al terminar el ordenamiento se obtienen k ( k n ) valores distintos de X , digamos, x1 , x 2 ,..., xk , con frecuencias absolutas respectivas f 1 , f 2 ,..., f k , la distribución de frecuencias de estos n datos se resume en el cuadro 1.3 (observar que es similar al cuadro 1.1). frecuen cias de variable discreta disc reta Cuadro 2: Distribución de frecuencias Valores de Frecuencias Frecuencias Frecuencias La variable X Absolutas f i Relativas h i Porcentajes p i x 1
f 1
h1
p1
x2
f 2
h2
p2
...
...
...
...
x k
f k
hk
pk
Total
n
1.00
100.00
Fuente:……………..
Las frecuencias absolutas relativas y porcentajes poseen , en el caso de variable discreta y continua, el mismo significado y propiedades, que en el caso de la variable cualitativa. Cuando es grande el número de datos observados de una variable discreta, su organización es muy engorrosa. En este caso, para resumir los datos y poder calcular las medidas descriptivas, es conveniente seguir el método de organización de variable continua por intervalos que se describe en la sección 1.4.3 siguiente.
Gráfica La representación gráfica más común de una distribución de frecuencias de variable discreta es del tipo bastón que consiste en trazar en cada valor distinto de la variable, segmentos de recta proporcionales a su frecuencia. También, se pueden usar barras rectangulares para graficar una distribución de frecuencias de variable discreta. EJEMPLO 1.2. Ante la pregunta del número de hijos por familia (variable X ) una muestra de 20 hogares de la ciudad de Piura, marcó las siguientes respuestas: 2, 1, 2, 4, 1, 3, 2, 3, 2, 0, 3, 2, 1, 3, 2, 3, 3, 1, 2, 4. Construir la distribución de frecuencias de la variable X . Graficar.
Ing. Est. Jorsi Ericson Balcázar Gallo
18
Métodos Estadísticos
Tema: Estadística Descriptiva
SOLUCION. Al ordenar estos datos en forma ascendente, se obtienen cinco valores distintos 0, 1, 2, 3, 4 que se repiten respectivamente 1, 4, 7, 6, 2 veces. La distribución de frecuencias de X se da en el cuadro 1.4. Cuadro 2: Familias de la ciudad de Piura, según su número de hijos. Número de Frecuencias Frecuencias Frecuencias Hijos Absolutas relativas Porcentajes X i
f i
0 1 1 4 2 7 3 6 4 2 Total 20 Fuente: Elaboración propia.
hi
pi
0.05 0.20 0.35 0.30 0.10 1.00
5 20 35 30 10 100
GRAFICO DE BASTONES Grafico 03: Familias de la ciudad de Piura, según su número de hijos. 7 6
f i
hi
0.35 0.30
5 4
0.20
3 2
0.10
1
0.05 0
1
2
3
4 X
Fuente: Cuadro 02 En la gráfica de bastones, se indican las frecuencias absolutas y relativas en cada valor distinto de la variable.
Ing. Est. Jorsi Ericson Balcázar Gallo
19
Métodos Estadísticos
Tema: Estadística Descriptiva
Ejercicio. Se tomo a 20 empresas de transportes de la Ciudad del norte del país la cual se tiene datos de la cantidad de años dando servicio de transporte puntos turísticos del norte del país: 6 5 4 4 3 3 4 4 5 5 4 5 6 2 4 3 4 6 5 3 Elabora un cuadro de distribución de frecuencias
B.1) CUADRO SIN INTERVALOS La distribución de frecuencias por intervalos o clases se usa cuando la variable estadística es continua o cuando el número de valores distintos de una variable discreta es muy grande (más de 20 líneas en el monitor de una computadora). Esta distribución se obtiene dividiendo el rango de variación de los datos en k intervalos y determinando el número de datos que contiene cada intervalo (Cuadro 1.5). frecuen cias por intervalos Cuadro 1.5. Distribución de frecuencias Frecuencia s Intervalos I i Conteo Absolutas f i Relativas Porcentajes hi
p i
f 1
h1
p1
f 2
h2
p2
...
///... ///... ...
...
...
...
I k
///...
f k
hk
pk
n
1.00
100.00
I 1 I 2
Total Fuente:……………..
Para construir la distribución de frecuencias de intervalos hay varios procedimientos. En este texto se conviene y recomienda: R1. Elegir no más de 20 intervalos ni menos de 5, ya que muchos intervalos pueden complicar innecesariamente los cálculos de las medidas descriptivas, y pocos intervalos podrían omitir características importantes de los datos. En este texto elegimos todos los intervalos de igual amplitud A. R2. El número de intervalos elegido, debe dar una distribución de frecuencias mono modal, es decir, una distribución cuyas frecuencias van aumentando progresivamente hasta una frecuencia máxima y luego van disminuyendo también progresivamente.
Construcción de la distribución de frecuencias Dados n valores de alguna variable cuantitativa X continua (o discreta con más de 20 valores distintos) uno de los métodos para construir la distribución de frecuencias es:
Ing. Est. Jorsi Ericson Balcázar Gallo
20
Métodos Estadísticos
Tema: Estadística Descriptiva
R) de variación de los datos que se define por 1. Determinar el rango ( R donde X ma x es el dato máximo y es el X min R X ma x X min ; dato mínimo. 2. Determinar el número de intervalos, k , teniendo en cuenta la recomendación R1. Un valor aproximado del número de intervalos, k , nos proporciona la regla de Sturges, donde, k = 1 + 3.3log(n), n 10 ; redondeado el número al entero inmediato mayor. Por ejemplo, si se tienen n 45 datos sin decimales, entonces, k 1 3.3 log(45) 6. 4556 . Luego, k podrá elegirse como 6, 7, 8, o cualquier otro número entero, teniendo en cuenta las recomendaciones R1 y R2. Alternativamente se puede utilizar k n , donde 25 n 400 400 .
3. Determinar la amplitud A del intervalo, dividiendo el rango entre el número de intervalos. Esto es, A R k . Si la división A R k no es exacta en el número de decimales de los datos, entonces, el número A se aproxima por exceso de manera que se cubra todo el rango, esto es, de manera que kA R . Si los datos son enteros, A es entero, si los datos tienen un decimal, A tiene un decimal, etc. Por ejemplo, si los datos tienen dos decimales y si R / k 5.3416, se elige A 5.35. (no 5.34). 4. Determinar el Exceso: E= R’-R= A*K-R 5. Determinar los extremos de los intervalos de la siguiente manera: I 1 [ X min , X min A[ I 2 [ X min A, X min 2 A[ I 3 [ X min 2 A, X min 3 A[
I k [ X min
(k 1) A, X min kA]
Observe que se cierra por la derecha el último intervalo . Esto se debe a que si la k es exacta en el número de decimales de los datos, entonces, división R / k X max X min kA . EJEMPLO 1.3. Los ingresos quincenales en dólares (variable X ) de 45 personas son: 63 89 36 49 56 64 59 35 78 43
53
70
57
62
43
68
62
26
64
72
52
51
62
60
71
61
55
59
60
67
57
67
61
67
51
81
53
64
76
44
73
56
62
63
60
Construir una distribución de frecuencias de 8 intervalos.
Ing. Est. Jorsi Ericson Balcázar Gallo
21
Métodos Estadísticos
SOLUCION: 1) De los datos, se encuentra
X ma x
Tema: Estadística Descriptiva
89 y
X min
26. El rango de variación de los datos es:
R 89 26 63
2) La amplitud del intervalo se elige a partir del valor A
R k
63 8
. . 7875
Como los datos son enteros, elegimos A 8 . 2) Los intervalos, el conteo y las frecuencias absolutas de los 45 ingresos quincenales se dan en el cuadro 1.6: 3)
in gresos de 45 personas person as Cuadro 3: Distribución de los ingresos Frecuencias Intervalos Conteo Absoluta Relativa Porcentaje I i
f i
[26,34[ / 1 [34,42[ // 2 [42,50[ //// 4 [50,58[ ///// ///// 10 [58,66[ ///// // /// ///// ///// / 16 [66,74[ ///// /// 8 [74,82[ /// 3 [82,90] / 1 Total 45 Fuente: Elaboración propia.
hi
pi %
0.022 0.044 0.089 0.222 0.356 0.178 0.067 0.022 1.000
2.2 4.4 8.9 22.2 35.6 17.8 6.7 2.2 100.0
Ejercicio. Estos datos corresponden a las puntuaciones de 60 ingresantes a la Escuela de Ingeniería Industrial en el último examen de admisión para el ingreso a la UCV – Piura. 65 43 88 59 35 76 21 45 62 41 36 78 50 48 62 60 35 53 65 74 49 37 60 76 52 48 61 34 55 82 84 40 56 74 63 55 45 67 61 58 79 68 57 70 32 51 33 42 73 26 56 72 46 51 80 54 61 69 50 35
Ing. Est. Jorsi Ericson Balcázar Gallo
22
Métodos Estadísticos
Tema: Estadística Descriptiva
GRAFICOS PARA CUADROS CON INTERVALOS (otro ejemplo) HISTOGRAMA: Es una grafica que se utiliza para representar la distribución de frecuencias absolutas o relativas simples. Consiste en un grupo de rectángulos adyacentes que tienen sus bases en el eje de las abscisas (donde se representa los intervalos de clase de la variable) y altura igual a las frecuencias de cada clase.
35 30 25
D A D I T N A C
20 15 10 5 0 4 1 0 1
9 1 5 1
4 2 0 2
9 2 5 2
4 3 0 3
EDAD (años)
POLÍGONO DE FRECUENCIA:
Ing. Est. Jorsi Ericson Balcázar Gallo
23
Métodos Estadísticos
Tema: Estadística Descriptiva
También es un grafico que se utiliza para representar la distribución de frecuencias absolutas o relativas simples. Consiste en un grafico lineal que se obtiene uniendo los puntos hallados, mediante el par de valores de marca y frecuencia correspondientes. Para fines de gráfico, se hace necesario incrementar un intervalo de clase en cada extremo, con frecuencias cero.
35 30 25 20
D A D I 15 T N A C 10
5 0 7
12
17
22
27
32
37
EDAD (años)
35 30 25 20
D A D I 15 T N A C 10
5
0 7
12
17
22
27
32
37
EDAD (años)
Ing. Est. Jorsi Ericson Balcázar Gallo
24
Métodos Estadísticos
Tema: Estadística Descriptiva
OJIVAS: Son gráficos que se utilizan para representar las frecuencias acumuladas absolutas o relativas, y que consiste en un grafico lineal que nos permite observar la cantidad de elementos que quedan por encima o por debajo de determinados valores. Las ojivas son de dos tipos: “ojivas menor que”, “ojivas o más”.
Para su elaboración se trabaja con los límites inferiores de cada intervalote clase y las frecuencias acumuladas correspondientes.
GRAFICO Nº 12
GRAFICO Nº 13
COMISARIA “X” “MENOR QUE” DE PERSONAS
COMISARIA “X” DISTRUBUCION ACUMULADA “O MAS” DE PERSONAS DETENIDAS
DETENIDAS POR DELITO DE ROBO, SEGÚN EDAD - JUNIO 2005
POR DELITO DE ROBO, SEGÚN EDAD - JUNIO 2005
DISTRUBUCION ACUMULADA
120 S A N 100 O S R E 80 P E D 60 O R E 40 M U N 20
120
S A N 100 O S R E 80 P E D 60 O R E 40 M U N 20
0 10
0 10
15
20
25
30
35
15
20
25
30
35
EDAD (años)
EDAD (años)
PRACTICA DIRIGIDA
Ing. Est. Jorsi Ericson Balcázar Gallo
25
Métodos Estadísticos
Tema: Estadística Descriptiva
1. En el tema de estadística nos referíamos a un atleta de decatlón cuya media de puntuación en las 10 pruebas era de 801.6 puntos. Especifica en este estudio estadístico quién es la población y qué tipo de variable se considera. 2 . Indica que variables s o n cualitativas y cuales cuantitativas : a . Comida Favorita. b . Profesión que te gusta. c . Número de goles marcados por tu equipo favorito en la última temporada. d . Número de alumnos de la UCV-PIURA. El color de los ojos de tus compañeros de clase. e . Coeficiente intelectual de tus compañeros de clase. f . Número de artículos defectuosos. g . Porcentaje de artículos defectuosos. h . Peso en gr. de pernos. i . Capacidad de carga del montacarga. 3 . Clasifique las variables e indique el tipo de escala en que están medidas las siguientes características - Profesión - Año de nacimiento - Nacionalidad Edad - Grado de instrucción - Estado civil - Número de hijos - Ingreso mensual familiar promedio - Número de teléfono - Número de DNI - Dirección 4 . De las siguientes variables indica cuáles son discretas y cuales continúas . a . Número de acciones vendidas cada día en la Bolsa. b . Temperaturas registradas cada hora en un observatorio. c . Período de duración de un automóvil. d . El diámetro de las ruedas de varios coches. e . Número de hijos de 50 familias. 5 . Clasificar las siguientes variables e n cualitativas y cuantitativas discretas o continuas . a . La nacionalidad de una persona. b . Número de litros de agua contenidos en un depósito. c . Número de libro en un estante de librería. d . Suma de puntos tenidos en el lanzamiento de un par de dados. e . La profesión de una persona. f . El área de las distintas baldosas de un edificio. g . Número de maquinas remalladoras. h . Número de pernos producidos diariamente. 6 . Al investigar el nivel socioeconómico en una encuesta a Profesores de la I.E. San Miguel de Piura en el mes de Diciembre del 2010 con los valores: Bajo(B), medio (M),
Ing. Est. Jorsi Ericson Balcázar Gallo
26
Métodos Estadísticos
Tema: Estadística Descriptiva
alto(A), 20 profesores dieron las siguientes respuestas: M, B, B, M, A, B, B, M, M, B, M, B, B, B, A, M, B, B, M, A, M, B. Construir la distribución de frecuencias y trazar su gráfica.
7 . En la Librería “TODO BARATO” en el mes de Enero del 2010 se realizo un inventario de 20 lotes de 48 libros cada uno y se encontró el siguiente número de libros con errores por lote: 3, 2, 5, 0, 1, 3, 2, 1, 0, 1, 3, 4, 2, 4, 4, 3, 4, 3, 2, 3. a . Construir la distribución de frecuencias relativas y frecuencias relativas acumuladas. Graficar. b . ¿Qué porcentaje de lotes tienen dos o más pero menos de 4 artículos defectuosos? 8 . Las puntuaciones obtenidas por un grupo de en una prueba de estadística a los alumnos de La UCV-Piura en el mes de Marzo del 2011 han sido: 11
17
12
13
1
20
8
20
1
16
9
1
14
1
5
12
9
17
7
5
a . Construir la tabla de distribución de frecuencias y dibuja el polígono de frecuencias .
9 . Organiza los datos y realiza un diagrama de tronco y hojas para luego realizar su cuadro con 5 intervalos de igual amplitud (k=5) y también utilizando la regla de Sturges con los sueldos anuales de las siguientes personas que trabajan en la fábrica de Cementos Pacasmayo en Lima en Enero del 2010 de la planilla de la empresa. 33320
20967
28537
29411
31611
23188
21638
32865
22513
27742
28384
24582
21081
23820
22992
26768
30092
29148
27361
30021
21809
23890
31914
26621
23437
21959
28536
20546
28931
25562
22241
32418
32880
23899
32506
26533
23511
20107
33388
28752
26794
28823
24631
22675
33419
27174
27103
25728
10.
Se ha medido a 30 enfermos del Hospital Regional de Piura en el mes de enero del 2009 el contenido de calcio en la sangre, datos recolectados de su registro medico, dándose los valores siguientes: 8.46
12.46
9.23
12.40
10.17
11.58
10.01
11.32
11.19
10.40
9.43
8.89
8.99
9.88
11.74
10.90
12.88
11.78
12.62
8.93
12.57
9.86
12.16
8.37
12.29
11.83
8.71
10.24
11.13
8.98
a . Agrupa en intervalos y represéntalo gráficamente de una manera adecuada. b . Interpreta los resultados más importantes en esta tabla.
11.
Los puntajes de una prueba de aptitud de Alumnos de la I.E. “San Juan Bautista” del
2010 en Barranca Barranca se tabularon en una distribución de frecuencias de 6 intervalos de igual amplitud. Si se tienen: marcas de clase, y , frecuencias: h1 h6 , F 6 60, completar la distribución de h3 h5 , h4 0.25, h2 h4 h1 , h3 h1 0.10, y frecuencias absolutas y graficar el polígono
Ing. Est. Jorsi Ericson Balcázar Gallo
27
Métodos Estadísticos
12.
Tema: Estadística Descriptiva
Durante este año se han contabilizado de los registros los siguientes nacimientos en la zona nort e del Perú en el año 2009, del acata medico se obtuvo lo siguiente: HOSPITAL Nº de NACIMIENTOS
A
B
C
D
F
331
592
141
499
196
Dibujar para estos datos un pictograma de cunas que represente el número de nacimientos en cada hospital (el área de la cuna debe ser proporcional a la frecuencia).
13.
El número de estrellas de los hoteles de Perú en el año 2009 según un informe del Ministerio de Economía en febrero del 2010 emitido por INEI viene dado por la siguiente serie: 3 5 4 2 2 5 2 4 2 4 3 3 2 2 2 3 3 5 a . Construir la tabla de distribución de frecuencias y dibuja el diagrama de barras.
14.
Se registra el tiempo en minutos que utilizan 30 alumnos para ejecutar una tarea, resultando los siguientes: 21.3 15.8 18.4 22.7 19.6 15.8 26.4 17.3 1 7.3 11.2 23.9 26.8 22.7 18.0 20.5 11.0 18.5 23.0 24.6 20.1 16.2 08.3 21.9 12.3 22.3 13.4 17.9 12.2 13.4 15.1 19.1 a) Construir una distribución de frecuencias de 6 intervalos de igual amplitud y a partir de ésta
15.
Las calificaciones determinadas según el registro académico de un profesor de 50 alumnos en Matemáticas del la I.E. San Miguel de Piura en el año 2008 han sido las siguientes: 20
12
14
0
10
0
1
0
19
13
3
6
18
5
17
20 20
14 14
0
6
8
3
12
13 13
6
3
3
4
20
11 11
9
3
20
4
5
4
16
2
9
0
10
8
12
20
14
18
3
17
13
7
19
a . Construir la tabla de distribución de frecuencias y dibuja el diagrama de barras .
16.
Las notas del examen parcial de estadística de Educación de la Universidad Nacional de Piura en el II ciclo del 2010 dieron la siguiente distribución de frecuencias
a) Completar la distribución de frecuencias. b) Graficar el Histograma de frecuencias respectivo. c) ¿Qué porcentaje de las notas se encuentran aproximadamente en el intervalo:[8, 14]. Nota [ , [6 , [ , [ , [ ,
[ [ [ [ ]
0.15 0.45 0.70 13.5
Ing. Est. Jorsi Ericson Balcázar Gallo
0.10
28
Métodos Estadísticos
17.
Tema: Estadística Descriptiva
Los pesos recolectados de una encuesta a los 65 empleados de la fábrica BACKUS de la Ciudad de Lima en el año 2009 vienen dados por la siguiente tabla: Pe so fi
[50, 60) [60, 70) [70, 80) [80, 90) [90, 100) [100, 110) [110, 120) 6
2
8
13
9
4
1
a . Construir la tabla de f recuencias recuencias . b . Representar el histograma y e l polígono de f recuencias recuencias .
18.
La distribución de los tiempos, en minutos, que utilizaron 65 personas para realizar una prueba de aptitud aparece representada en el siguiente histograma. ¿Qué porcentaje de las personas emplearon entre 9 y 11.5 minutos ?.
19.
En SAGAFALABELLA, el sueldo mínimo y máximo de 200 empleados de su planilla en el mes de Enero de 2010 es de $150 y $300 respectivamente. Tales sueldos se tabulan en una distribución de frecuencias de 5 intervalos de igual amplitud. Si se sabe que 20 empleados ganan al menos 150$, pero menos de $180, 60 ganan menos de 210$, 110 ganan menos de $240, 180 ganan menos de $270 y el 10% restante de empleados gana a lo más $ 300; reconstruir la distribución y graficar su polígono de frecuencias.
20.
La demanda diaria de azúcar (en decenas de kilos) en el 2010 recopilada de su registro de ventas durante ciento noventa días en COSTOS SAC , se tabuló en una distribución de frecuencias simétrica de cinco intervalos de amplitud iguales a 4. Si la marca de clase del intervalo central es igual a 12 y si la curva de frecuencias absolutas satisface la relación: f ( x) ( x 12) 2 70 reconstruir la distribución y graficar su histograma.
21.
La organización del tiempo (minutos) registrados en un informe, que tardaron 100 obreros de CONSTRUCTICOS SAC para ejecutar la reparación de un colegio en el mes de Enero del 2010, ha dado una tabla de frecuencias de cuatro intervalos de igual amplitud cuyo histograma correspondiente es simétrico. Si el intervalo I 1 [6, ?] , la frecuencia absoluta: f 2 2 f 1 5 , y si se sabe que el 85% de los obreros demoran menos de 12 minutos. Completar la distribución de frecuencias.
Ing. Est. Jorsi Ericson Balcázar Gallo
29
Métodos Estadísticos
22.
Tema: Estadística Descriptiva
Los 40 alumnos de la Universidad Nacional de Piura en el mes de Enero de 2009 de una clase han obtenido las siguientes puntuaciones, sobre 50, en un examen de Estadística. 30
3
47
24
40
34
0
36
3
19
39 39
25 25
7
1
19
1
10
4
5
14
44
19
19
48
9
34
28
31
49
1
50
8
a . Construir la tabla de f recuencias . b . Dibujar el histograma y e l polígono de frecuencias .
Ing. Est. Jorsi Ericson Balcázar Gallo
30
Métodos Estadísticos
Tema: Estadística Descriptiva
REDUCCION DE DATOS En las tres semanas anteriores están referidos, con cierto detalle, a la clasificación de variables, recolección de datos, construcción de tablas de frecuencia y a la representación grafica, como fase preliminar en la descripción y análisis estadístico. El objetivo principal de estas primeros temas, ha sido determinar la naturaleza y formas de la distribución de frecuencias, como base para la “reducción de datos”
a través de ciertas características descriptivas y medidas de
resumen.
En el problema de comparar dos o mas distribuciones de frecuencias, puede resultar fácil hacer una comparación grafica de las frecuencias, sin embargo, existen dificultades para hacer comparaciones cuantitativas. Estadísticamente para facilitar este análisis comparativo es necesario disponer de algunos indicadores o medidas de resumen.
Estas
características
descriptivas
(cantidad),
constituyen
los
llamados
ESTADIGRAFOS, que son indicadores o medidas de resumen estadísticos.
En general, para llegar a determinar los ESTADIGARFOS se sigue el siguiente esquema:
Recopilación de datos Organización y procesamientos de datos
DATOS ORIGINALES DISTRIBUCION DE FRECUENCIAS
Reducción de datos
CARACTERISTICAS DESCRITIVAS ESTADIGRAFOS
Ing. Est. Jorsi Ericson Balcázar Gallo
31
Métodos Estadísticos
Tema: Estadística Descriptiva
MEDIDAS DE TENDENCIA CENTRAL MEDIDAS DE TENDENCIA CENTRAL PARA DATOS NO AGRUPADOS Son valores que reflejan el centramiento o punto central de la variable estudiada. Son tres: la media, la mediana y la moda.
MEDIA ARITMÉTICA Es el valor promedio de todos los valores de la variable, o el “centro de gravedad “de la distribución de datos. Se representa como “μ” si se trata de la media de la población de referencia y como “x” si se trata de una media muestral.
La media puede calcularse en las variables cuantitativas continuas y discretas. La fórmula es:
X
x n
i
x1 x 2
x3 .......... . x n n
Σxi= Sumatorio de todos los valores de la variable
n = número total de todos los individuos Ejemplo: Calcular la media de edad de un grupo de 6 personas, cuyas edades son 5, 6,7, 8, 9 y 10 años.
X
5 6 7 8 9 10 6
7.5
LA MEDIANA
Cuando se tiene un numero impar de datos, la mediana es igual al termino central:
Me
x n
1
2
Ejemplo: Consideremos el peso en kilogramos de una muestra de 11 alumnos de las Escuela Profesional de Estomatología del turno Tarde: 65
76
48
48
68
78
90
87
67
72
78
Entonces n = 11 Ordenamos los datos 48
48
65
67
68
Ing. Est. Jorsi Ericson Balcázar Gallo
72
76
78 78
87
90
32
Métodos Estadísticos
Tema: Estadística Descriptiva
Ahora buscamos el término medio:
Me
x 1 1 1 x 6 ,
es decir el sexto sexto valor de la serie es la mediana, mediana, Me = 72
2
Cuando se tiene un numero par de datos, la mediana es igual: x n x n
Me
2
2
1
2
Ejemplo: Supongamos que tenemos datos sobre los sueldos en soles que reciben mensualmente el personal que labora en el hospital de la ciudad de Piura. 445
510 323
425
428 440 432 510
Entonces n = 8 y ya están ordenados
M e
x8
x 8
2
2
2
1
x 4 x 5
2
432
440 2
436
LA MODA O EL VALOR MODAL (MO): Es el valor de la variable que más veces se repite, es decir, aquella cuya frecuencia absoluta es mayor. No tiene porque por que ser única. Ejemplo:
El conjunto: 2 2 5 7 9 9 9 10 10 11 13 tiene la moda Mo = 9
El conjunto: 3 5 8 10 12 16 18 no tiene moda.
El conjunto: 2 3 4 4 4 5 5 7 7 7 9 tiene dos modas 4 y 7; es una distribución “bimodal”.
MEDIDAS DE TENDENCIA CENTRAL PARA DATOS AGRUPADOS LA MEDIA ARITMÉTICA PARA DATOS AGRUPADOS EN TABLAS DE FRECUENCIAS Los datos se pueden presentar en tablas sin intervalos y en tablas con intervalos, en ambos casos se usa la
Media aritmética Ponderada y
Y f
i i
M(Y) =
Ing. Est. Jorsi Ericson Balcázar Gallo
i 1
n
33
Métodos Estadísticos
Tema: Estadística Descriptiva
LA MEDIANA MEDIANA PARA DATOS AGRUPADOS 1. La mediana en tablas sin intervalos
a) Que
n
no coincide con algún Nj se tiene que: N j 1
2 Entonces Me = Yi
b) Que
n
2
coincide con algún Nj, se tiene que:
Entonces: M e :
1 2
Y j i Y j
N j 1
n 2
n 2
N j
N j
2. La mediana en tablas con intervalos
a. Hallamos
n
N j 1
2
n 2
N j
n N j 1 2 M e Li c N j N j 1 LA MODA MODA PARA DATOS AGRUPADOS 1. La moda en tablas sin intervalos Una vez agrupados los datos en una tabla de frecuencia, el valor modal será el valor de la variable que mas se repite o que tiene la mayor frecuencia. La mayor frecuencia se denotara con n j . La moda Mo = n j
2. La moda en tablas con intervalos
n j 1 M o Li c n n j 1 j 1
Ing. Est. Jorsi Ericson Balcázar Gallo
34
Métodos Estadísticos
Tema: Estadística Descriptiva
MEDIDAS DE POSICIÓN MEDIDAS DE POSICIÓN PARA DATOS AGRUPADOS
LOS CUARTILAS (QK) PARA DATOS AGRUPADOS Son los tres valores que dividen al conjunto de datos ordenados en cuatro partes iguales, son un caso particular de los percentiles: - El primer cuartil Q 1 es el menor valor que es mayor que una cuarta parte de los datos - El segundo cuartil Q 2 (la mediana), es el menor valor que es mayor que la mitad de los datos - El tercer cuartil Q 3 es el menor valor que es mayor que tres cuartas partes de los dato Usamos la siguiente formula:
k n N j 1 4 QK L I C N N j 1 j
K 1, 3
DECILES: son los nueve valores que dividen al conjunto de datos ordenados en diez partes iguales, tal que entre dos decilas consecutivas se encuentre no mas del 10% del total de las observaciones. En total hay nueve decilas: D1, D2, D3, D4, D5,…….., D9.
k n N j 1 10 DK L I C N N j 1 j
K 1, 9
PERCENTILES: son 99 valores que dividen en cien partes iguales el conjunto de datos ordenados. Ejemplo, el percentil de orden 15 deja por debajo al 15% de las observaciones, y por encima queda el 85%
k n N j 1 100 PK L I C N N j 1 j Ing. Est. Jorsi Ericson Balcázar Gallo
K 1, 99
35
Métodos Estadísticos
Tema: Estadística Descriptiva
PROPIEDADES DE LA MEDIA ARITMETICA 1.- E(a) = a
, a es una constante
2.- E(aX) = a*E(X) , a es una Constante , X es Variable aleatoria 3.- E(X+a) = E(X) + a
, a es una constante y X es una variable aleatoria
4.- E(X+Y) E(X+Y) = E(X) + E(Y) , X y Y son dos variables aleatorias 5.- E(aX + bY)=a*E(X)+b*E(Y)
, a y b son constantes, X y Y son variables aleatorias.
Ing. Est. Jorsi Ericson Balcázar Gallo
36
Métodos Estadísticos
Tema: Estadística Descriptiva
MEDIDAS DE DISPERSIÓN Introducción Las medidas de tendencia central no son suficientes para describir un conjunto de valores de alguna variable estadística. Los Los promedios determinan el centro, pero nada indican acerca de cómo están situados los datos respecto al centro. En primer lugar se necesita una medida del grado de dispersión o variabilidad con respecto al centro con la finalidad de ampliar la descripción de los datos o de comparar dos o más series de datos. En segundo lugar se necesita una medida del grado de asimetría o deformación en ambos lados del centro de una serie de datos, con el fin de describir la forma de la distribución de los datos. Esta medida se denomina índice de asimetría. En tercer lugar se necesita una medida que nos permita comparar el apuntamiento o curtosis de distribuciones simétricas con respecto a la distribución simétrica normal. Esta medida se denomina índice de apuntamiento o curtosis. Las estadísticas de asimetría y apuntamiento se incluyen en este capítulo dada su poca importancia. El lector debería correr paquetes de computo entre otros el MCEST para las aplicaciones de este capitulo.
3.2 Medidas de dispersión Las medidas de dispersión o variabilidad son números que miden el grado de separación de los datos con respecto a un valor central central , que generalmente es la media aritmética. Las principales medidas de dispersión son: el rango, el rango intercuartil, la varianza, la desviación estándar , y el coeficiente de variación.
3.2.1 Rango o recorrido de una variable variable recorrido, R, de una serie de datos, es la diferencia entre Definición. El rango de variación o recorrido, R, sus valores máximo y mínimo. Esto es,
R x m ax
xm in
siendo xmax el valor máximo y xmin mi n el valor mínimo.
Ing. Est. Jorsi Ericson Balcázar Gallo
37
Métodos Estadísticos
Tema: Estadística Descriptiva
El rango es una medida de dispersión muy fácilmente calculable, pero es muy inestable, ya que depende únicamente de los dos valores extremos. Su valor puede cambiar grandemente si se añade o elimina un sólo dato. Por tanto su uso es muy limitado. Por ejemplo, dadas las dos series de datos a) 1, 4, 4, 5, 5, 5, 5, 6, 6, 9 b) 1, 2, 3, 4, 5, 6, 7, 8, 9 Ambas series tienen la misma media, 5, y el mismo rango, 8, pero las dos series no tienen la misma dispersión, ya que la segunda tiene mayor variabilidad. El empleo del rango como medida de comparación de variación puede estar justificado cuando se precise rápidamente de una medida de dispersión y no haya tiempo de calcular algunas de las otras.
3.2.2 Rango intercuartil y rango semiintercuartil Definición. El rango Esto es,
intercuartil, RI, intercuartil, RI,
es la diferencia entre sus cuartiles tercero y primero.
RI RI Q3
Q1
El rango intercuartil es una medida que excluye el 25% más alto y el 25% más bajo , dando un rango dentro del cual se encuentra el 50% central de los datos observados y a diferencia del rango total no se encuentra afectada por los valores extremos. Si el rango intercuartil es muy pequeño entonces describe alta uniformidad o pequeña variabilidad de los valores centrales. Por ejemplo, si en una distribución de frecuencias de 100 ingresos quincenales se encuentran los cuartiles Q1 62$ , y Q3 70$ , entonces, el rango intercuartil es RI Q3 Q1 $70 62$ 8. Esto, indica que el 50% de los ingresos quincenales de los 100 empleados varía dentro del valor $8. El rango intercuartil se aplica a variables medidas en escala por lo menos ordinal. semiintercuartil, RSI, es igual al rango intercuartil dividido por 2. Definición. El rango semiintercuartil, RSI, El rango semiintercuartil se puede asociar con la mediana y se puede expresar en función de ella. Si una distribución es normal los cuartiles Q1 y Q3 son equidistantes de la mediana. Se deduce entonces, que el rango intercuartil y la mediana RSI , son la misma distancia. Además, como exactamente el 50% de los datos se encuentran en el rango intercuartil, entonces, el intervalo: mediana RSI contiene también exactamente el 50% de los datos. Si la distribución es asimétrica, el intervalo: mediana RSI contendría aproximadamente el 50% de los datos. Por ejemplo, si en la distribución de los 100 ingresos quincenales donde Q1 62$ , y Q3 70$ , el rango semiintercuartil es $4. Si la mediana fuera igual a $66, entonces, aproximadamente el 50% de los datos se hallan comprendidos en el intervalo $66 4.
NOTA. Si la distribución es muy asimétrica, el rango intercuartil (o el semiintercuartil) es preferible a la desviación estándar como medida de la dispersión.
Ing. Est. Jorsi Ericson Balcázar Gallo
38
Métodos Estadísticos
Tema: Estadística Descriptiva
Varianza y Desviación estándar La varianza, es una medida que cuantifica el grado de dispersión o de variación de los valores de una variable cuantitativa con respecto a su media aritmética. Si los valores tienden a concentrarse alrededor de su media, la varianza será pequeña. Si los valores tienden a distribuirse lejos de la media, la varianza será grande. La varianza calculada a partir de una muestra será denotada por s 2 y referida a una población se denotará por 2 . Definición. La varianza se define como la media aritmética de los cuadrados de las diferencias de los datos con respecto a su media aritmética. La varianza es una medida de dispersión con unidades de medición al cuadrado, por ejemplo, $2, Km2, etc.
Definición. La desviación estándar estándar es la raíz cuadrada positiva de la varianza. La desviación estándar calculada a partir de una muestra se denotará por s y referida a la población por . Esto es, s s 2 , 2 . Cálculo de la varianza 1) Varianza de datos no tabulados La varianza de n valores x1 , x 2 ,..., xn , de alguna variable cuantitativa X cuya media es x , es el número: n
s2 n
Es fácil verificar que:
( xi x ) 2
i =1
n
( x i x ) 2
i 1
n
x i nx 2
2
i 1
Por lo tanto, n
s 2
i 1
Ing. Est. Jorsi Ericson Balcázar Gallo
2
x i
n
x 2
39
Métodos Estadísticos
Tema: Estadística Descriptiva
EJEMPLO 3.1 Calcular la varianza y la desviación estándar de los 45 ingresos quincenales sin tabular del ejemplo 1.3 SOLUCION n
n 45
,
x
i
i 1
2682$,
x
n
2682
x
2 i
59.6,
45
166,244$2
i =1
Luego, la varianza es el número n
s
2
x
2 i
i 1
x 2
n
166 166,244 244
(59.6) 2 142.151$2.
45
Mientras, que la desviación estándar es: s s 2 142.151 11.923$ Observar que la varianza está en $2, mientras que la desviación estándar está en $.
2) Varianza de datos tabulados 2a) Variable discreta La varianza de n valores de una variable estadística discreta X que se clasifican en k valores distintos x1 , x2 ,..., x k con frecuencias absolutas respectivas f1, f2 ,..., f k , y cuya media aritmética es x se calcula utilizando la fórmula: k
s k
Se verifica que
f ( x i
2
i =1
n
x ) 2
i
x ) 2
f i ( xi
i 1
k
f x i
2 i
nx 2
i 1
Por lo tanto, k
s 2
f i x i2
i 1
n
x 2
EJEMPLO 3.2 Calcular la varianza y la desviación estándar del número de hijos de la muestra de 20 familias del ejemplo 1.2. SOLUCION. La distribución del ejemplo 1.2 se repite en el cuadro 3.1 donde se ha insertado una columna de productos f i ( xi ) 2 . k
Entonces,
n 20, k 5,
f x i 1
i
i
44,
Ing. Est. Jorsi Ericson Balcázar Gallo
x
44 20
2.2,
k
f x i
2 i
118
i =1
40
Métodos Estadísticos
Tema: Estadística Descriptiva
Luego, la varianza es el número k
f x i
s
2
2
i
x 2
i 1
n
La desviación estándar es:
s
s
2
118 (2.2)2 20
1.06 hijos2.
1.06 1.03 hijos.
Cuadro 3.1 Computo de la varianza: Caso de variable discreta xi
f i
0 1 2 3 4 Total
f i xi
f i xi2
0 4 14 18 8 44
0 4 28 54 32 118
1 4 7 6 2 20
2b) Varianza de datos tabulados tabulados por intervalos intervalos La varianza de n valores de alguna variable X , tabulados en k intervalos, con marcas de clases m1 , m2 ,..., mk , frecuencias absolutas respectivas f 1 , f 2 ,..., f k y con media x es el número: k
f ( y i
s2
i
x ) 2
i =1
n
Se puede verificar que: k
i 1
f i ( y i x ) 2
k
i 1
f i y i nx 2
2
Por lo tanto,
s2
2
k k 2 2 2 n f y f y f (y x ) f y i i i i i i i i i 1 i 1 2 i =1 i 1 x = . 2 k
k
n
n
n
EJEMPLO 3.3 Calcular la varianza y la desviación estándar de los 45 ingresos quincenales tabulados del ejemplo 1.3. SOLUCION. La distribución del ejemplo 1.3 se repite en el cuadro 3.2 donde se ha insertado una columna de productos f m 2 . i
i
Ing. Est. Jorsi Ericson Balcázar Gallo
41
Métodos Estadísticos
Tema: Estadística Descriptiva
Cuadro 3.2. Cálculo de la varianza para datos agrupados por intervalos Ingresos
Marcas N#.Personas Productos yi 30 38 46 54 62 70 78 86
I i
[26,34[ [34,42[ [42,50[ [50,58[ [58,66[ [66,74[ [74,82[ [82,90] Total k
n 45,
k 8,
f i y i
2702,
x
f i
f i y i
f i y i2
1 2 4 10 16 8 3 1 45
30 76 184 540 992 560 234 86 2702
900 2888 8464 29160 61504 39200 18252 7396 167764
2702
45
i 1
Productos
k
f y
60.044,
i
2
i
167,764
i =1
Luego, la varianza es el número k
s2
f y i
i 1
2 i
n
x 2
La desviación estándar es: s
167 ,764 45
2 (60.044) 2 122.754 $ .
s 2 122 .754 11.079
dólares.
Observar que la varianza de los mismos datos no tabulados es 142.151$2 . NOTA (Cálculo de la varianza varianza con frecuencias frecuencias relativas) La varianza se calcula también con frecuencias relativas (o porcentajes). En efecto, si se hace hi f i n en la varianza de datos tabulados, se tiene s 2
k
k
x , donde x hi mi
hi m i2
2
i 1
i 1
NOTA (Varianza poblacional) La varianza 2 de una población finita de N datos x1 , x2 ,..., x N sin tabular y cuya media es , se define por: N
2
( x
N
i
)
2
i =1
N
x i =1
N
2 i
2
Si formamos todas las muestras posibles de tamaño n y calculamos sus varianzas utilizando la fórmula s 2 ( xi x) 2 n , resulta que la media de todas estas varianzas vale:
n 1 n
Ing. Est. Jorsi Ericson Balcázar Gallo
2 .
42
Métodos Estadísticos
Tema: Estadística Descriptiva
Para que la media de todas las varianzas sea igual a 2 , basta multiplicar a s 2 por n (n 1) . Por esta razón, algunos autores definen la varianza (en estadística descriptiva ) con denominador n 1 . Estas 2 varianzas se tratan en el capítulo 9 de estimación de parámetros.
3.2.4 Coeficiente de variación Definición. El coeficiente de variación, C.V . es una medida de dispersión relativa (libre de unidades de medidas), que se define como la desviación estándar dividido por la media aritmética. Esto es, C .V .
s x
, o en %
El coeficiente de variación se utiliza para comparar la variabilidad de dos o más series de datos que tengan medias iguales o diferentes o que tengan unidades de medida iguales o diferentes (por decir, una serie en kilogramos y otra serie en metros). Por dar un ejemplo, si dos secciones H1 y H2 de matemática I, tienen la misma desviación estándar igual a 14, no podemos concluir que los dos horarios tienen la misma variabilidad. Así mismo, si las desviaciones estándares de H1 y H2 son iguales a 2 y 4 respectivamente no podemos concluir que las notas de H2 son más dispersas que las de H1. La variabilidad depende de las medias de los dos grupos. Si la media del horario H1 es 16 y la media del horario H2 es 11, los coeficientes de variación respectivos son: C .V 1 .
s1 x1
14 16
0.875, o 87.5%, C .V 2 .
s2 x 2
14 11
1.27 o 127%
Es decir, las calificaciones obtenidas en H1 son más homogéneas o tienen menor variabilidad que las calificaciones del horario H2.
3.2.5 Uso de las medidas de dispersión La varianza viene expresada en unidades cuadráticas en las que vienen expresados los datos. La desviación estándar viene expresada en las mismas unidades en las que vienen expresados los datos. El coeficiente de variación viene expresada en números abstractos abstractos (suprimiendo las unidades en las que vienen expresados los datos). 1) Si dos o más series de datos (observados en el mismo tipo de medición) tienen medias aritméticas iguales (o casi iguales) es más dispersa la serie que tiene mayor medida de variabilidad: Rango, o RI , o s 2 , o s, o CV . Si hay marcada asimetría, es preferible comparar con el rango intercuartil. 2) Si dos o más series de datos, no tienen medias iguales (o casi iguales), o no tienen las mismas unidades de medición, entonces, es más dispersa la serie que tenga mayor coeficiente de variación. NOTA (Valores estandarizados) Cuando se necesiten comparar valores observados que pertenecen a diferentes distribuciones de datos, las que difieren en su media aritmética o en su varianza, o difieren en el tipo de unidad de medida, entonces se usa el valor estándar Z que se define Z
Ing. Est. Jorsi Ericson Balcázar Gallo
X x s
43
Métodos Estadísticos
Tema: Estadística Descriptiva
El lector puede verificar que la variable Z estandariza cualquier media en 0 y cualquier varianza en 1. (Probar que: z 0 , y s Z 2 1 )
EJEMPLO 3.4 En una evaluación de Matemáticas e Historia resultan las medias 13 y 17 y las desviaciones estándar 3 y 4, respectivamente. Si un alumno obtiene 14 en Matemáticas y 16 en Historia, ¿en cuál de los dos cursos tiene mejor rendimiento relativo?. SOLUCION El hecho de que tenga 16 en Historia y 14 en Matemáticas no significa que tiene mejor rendimiento en Historia. Se deben calcular los rendimientos relativos con la puntuación estandarizada Z 14 13 0.333 En Matemáticas z 3
En Historia
z
16 17 4
0.25
En consecuencia, tiene mejor rendimiento relativo en Matemáticas.
3.2.6 Propiedades de la varianza. 1) La varianza es un número real no negativo y viene expresada en unidades cuadráticas. Mientras, que la desviación estándar viene expresada en las mismas unidades en las que vienen expresados los datos. 2) Dadas, la media x y la varianza
s X 2
de n datos de una variable X , la suma total de los
2 cuadrados de los valores es igual a n( s X 2 x ) . Para datos no tabulados se tiene por ejemplo, n
xi2 n( s
2
X
x2)
i =1
3) Si cada uno de n los valores xi es transformado en yi axi b , entonces, la varianza de los es, sY2 a2 s2X (verificar!). Consiguientemente, sY a s X Como casos particulares se tiene: n valores yi
2 0 Si y i b , entonces, sY . Es decir, si los n datos son iguales a una constante, entonces, su varianza es igual a cero.
Si
xi b , entonces, sY2 s2X . Es decir, si sumamos a cada dato una constante, la varianza (y la desviación estándar) no cambian.
Si
y i
yi
axi , entonces,
sY2 a2 s2X . Es decir, si multiplicamos a cada dato por una
constante, a, la varianza de los nuevos valores es igual que la varianza de los antiguos valores multiplicada por a 2 .
Ing. Est. Jorsi Ericson Balcázar Gallo
44
Métodos Estadísticos
Tema: Estadística Descriptiva
4) La varianza y la desviación estándar pueden ser calculadas también en distribución de frecuencias de intervalos de amplitud diferentes, siempre que puedan determinarse las marcas de las clases. Por otra parte, dependen de todos los datos y son sensibles a la variación de cada uno de estos. Basta que uno de los datos varíe, para que varíen aquellas. 5) Dados k series de datos con tamaños, medias y varianzas respectivas 2 2 2 , de los n1 , x1 , s1 , n2 , x2 , s2 , ..., nk , xk , s k 2 , entonces, la varianza, s T datos es: k
n2 ... nk n
k
n s n ( x x) 2
i i
2 s T
n1
i 1
i
n
2
i
i 1
n
.
6) Desigualdad de Chebyshev . Cualquiera sea la forma de la distribución de frecuencias (simétrica o asimétrica), el intervalo [ x ks X , x ks X ] , k 1 contiene por lo menos el 1
1 2
k
en % de los datos.
El porcentaje de datos que se hallan fuera del intervalo es menor que el 1 k 2
en % .
Por ejemplo, el intervalo [ x 2s X , x 2s X ] contiene por lo menos el 1
1 22
3 4
o 75%,
de los datos. El intervalo [ x 3s X , x 3s X ] contiene por lo menos el 88.89%, (8/9), de los datos. El intervalo [ x 4s X , x 4s X ] contiene por lo menos el 93.75%, (15/16), de los datos.
EJEMPLO 3.5 En el mes de Enero el sueldo promedio de los trabajadores del sector industrial era de $200. Para el mes de Julio se considera un aumento del 30% al sueldo del mes de Enero más un adicional de $50. Si el coeficiente de variación en Enero era de 0.25, ¿se puede decir que la distribución de sueldos en Julio es más homogénea? SOLUCION Sea X : Sueldos de Enero, Y : Sueldos de Julio x $200. La media de Enero es: Coeficiente de variación en Enero, CV 0.25 La desviación estándar de Enero es s X CV x 0.25200 $50 La relación entre las dos variables es: Y 1.30 X 50,
Entonces, la media de los sueldos de Julio es y 1.3x 50 1.3(200) 50 310
La varianza de los sueldos de Julio es
Ing. Est. Jorsi Ericson Balcázar Gallo
45
Métodos Estadísticos
Tema: Estadística Descriptiva
2 (1.3)2(50)2 4225 sY 2 (1.3) 2 s X
La desviación estándar:
sY
4225 65 sY
Coeficiente de variación en Julio: CV
y
65 310
0.2097.
Comparando los coeficientes de variación de Enero y Julio se puede decir que la distribución de los sueldos de Julio es más homogénea.
EJEMPLO 3.6 Si el ingreso de 120 obreros tiene una media de $300 y una desviación estándar de $30 a) ¿Cuántos obreros por lo menos tienen sueldos comprendidos en el intervalo [$240, $360]?. b) Determinar el intervalo que contiene al menos el 88.889% de los ingresos c) Si el mínimo sueldo es $210, en qué porcentaje se puede afirmar que los ingresos son superiores a $390?
SOLUCION. a) x $300, s $30, de la relación [300 k (30), resulta
k 2 .
Entonces el, 1
1 22
300 k (30)] [240, 360]
3 4
o 75%(120)=90 obreros por los menos tienen
ingresos en el intervalo [240, 360]. b) Si al menos el 88.889% de los obreros tienen ingresos en el intervalo [300 k (30), 300 k (30)]
entonces,
1
1 2
k
0.8889. De donde resulta k 3 .
Luego, el intervalo es [$210, $390]. c) Fuera del intervalo [$210, $390] está menos del 11.11% de los ingresos. Si el mínimo es $210, entonces, el porcentaje de ingresos mayor que $390 es menos de 11.11%.
EJEMPLO 3.7 El costo inicial de producción, X ; de una muestra de 80 objetos de cierto tipo, tiene una desviación estándar de $30. La media del costo de producción es de $250 para el 60% de la muestra y de $200 para el resto. El costo final de producción Y es dado por la relación: Y 1.2 X 5.
Si el precio de venta de cada objeto de la muestra es proporcional al cuadrado del costo final de producción, ¿cuánto se recaudaría por la venta total?.
SOLUCION. s X $30,
2500.60 2000.40 $230 De Y 1.2 X 5, se tiene, y 1.2x 5 1.2(230) 5 281. También, x
Ing. Est. Jorsi Ericson Balcázar Gallo
46
Métodos Estadísticos
Tema: Estadística Descriptiva
2 sY 2 (1.2) 2 s X (1.2)2(30)2 1296 80
Recaudación total
y
2 i
80(sY 2 y 2 ) 80(1296(281)2) 6,420,560.
i 1
3.3 Indices de asimetría Definición. Se dice que una distribución de frecuencias es simétrica, si los intervalos equidistantes del intervalo central tienen iguales frecuencias. También se dice que una distribución es simétrica si su curva de frecuencias es simétrica con respecto al centro de los datos. Dos distribuciones pueden tener la misma media y la misma desviación estándar, pero pueden diferir en el grado de asimetría. Si la distribución es simétrica, entonces, la media, la mediana y la moda coinciden. En contraposición, si estos 3 promedios no coinciden la distribución tiene que ser asimétrica. Existen varias medidas de la asimetría de la distribución de los datos, una de ellas es el coeficiente o índice de asimetría de Pearson. Definición. El índice de asimetría de Pearson es el número As
x
Mo s
Como en distribuciones asimétricas se verifica : forma de expresar el índice de asimetría es: A S
x Mo 3( x Me) ,
3( x Me) s
entonces, otra
.
Interpretación. Si la distribución de los datos es simétrica, As 0 . Ver la figura 3.1.a, donde se observa, además, que coinciden los tres promedios: x Me Mo . Si As 0 , la distribución es asimétrica. Además, es asimétrica positiva o sesgada a As 0 , la derecha, si (Fig. 3.1 b donde Mo Me x ). Y, es asimétrica negativa o sesgada a la izquierda si As 0 (Fig. 3.1.c donde x Me Mo)
a) Simétrica
b) Asimetría positiva Figura. 3.1
c) Asimetría negativa
Por ejemplo, la distribución de los 45 ingresos quincenales del ejemplo 1.3 tabulados en ocho intervalos tiene asimetría negativa: As
3( x M Mee)
3(60.44 60.75)
s
Ing. Est. Jorsi Ericson Balcázar Gallo
11.079
0.191
47
Métodos Estadísticos
Tema: Estadística Descriptiva
NOTA. (Otros índices de asimetría) El índice de asimetría de Pearson utilizando momentos es definido por: As
nM 3
(n 1)(n 2)s 3
n
donde M 3 ( X i x ) 3 , n número de casos, s la desviación estándar. i 1
Este índice es utilizado por los paquetes de computo estadístico para determinar la asimetría de distribuciones de la forma dato-frecuencia. Para n datos tabulados en k intervalos, un método alternativo es utilizar el índice de asimetría de Fisher definido por: As
M 3 / n s
3
k
donde: M 3
f (m x ) i
3
i
,
s la
desviación estándar
i 1
Si la distribución es simétrica As 0 . Si As 0 , es asimétrica positiva y si As 0 , es asimétrica negativa. Por ejemplo, continuando con el ejemplo 1.3, el índice de asimetría de los 45 ingresos quincenales tabulados en la forma dato-frecuencia dato-frecuenc ia es As 0.375. Y de los mismos datos tabulados en 8 intervalos es: As 0.3. NOTA (Ojivas asimétricas y simétricas). Las ojivas o curvas de frecuencias acumuladas, presentan formas particulares según el tipo de asimetría. Por ejemplo, en la figura 3.2a la curva de frecuencia acumulada A es de una distribución con asimetría extrema negativa. La Ojiva C es de asimetría extrema positiva. La ojiva B es de una distribución simétrica. En la figura 3.2b la diagonal D es la ojiva de una distribución normal. La curva F es la ojiva de una distribución simétrica leptocúrtica, y la E de una platicúrtica. (ver 3.4 curtosis)
Fig. 3.2a Ojivas asimétricas relativas
Fig. 3.2b Ojivas simétricas relativas
Ing. Est. Jorsi Ericson Balcázar Gallo
48
Métodos Estadísticos
Tema: Estadística Descriptiva
3.4 Curtosis La curtosis es la propiedad de una distribución de frecuencias por la cual se compara la dispersión de los datos observados cercanos al valor central con la dispersión de los datos cercanos a ambos extremos de la distribución. La curtosis se mide en comparación a la curva simétrica normal o mesocúrtica (fig. 3.3a)
Fig. 3.3 Curtosis de curvas simétricas Una curva simétrica con curtosis mayor que de la normal es denominada curva leptocúrtica (fig. 3.3c). Una curva simétrica con curtosis menor que de la normal es denominada curva platicúrtica (fig. 3.3b). Existen varias maneras de medir la curtosis de la distribución de los datos.
Curtosis basado en percentiles Esta medida de curtosis es muy poco usada por ser muy inestable. Sin embargo, describe muy bien el concepto. En una curva normal, el cociente del rango intercuartil (percentil 75 menos el percentil 25) entre la diferencia del percentil 90 menos el percentil 10 es aproximadamente igual 0.5. A medida que P75 P25 y P90 P10 sean iguales (valor del cociente casi uno), la distribución será leptocúrtica, y a medida que P75 P25 sea cada vez más pequeño con respecto a P90 P10 (valor del cociente casi cero) la distribución será platicúrtica. La curtosis utilizando percentiles se define por el cociente: K
P75 P25 P90 P10
0.5
Interpretación. Si la distribución es normal , K tiende a 0. Si K tiende a 0.5, es leptocúrtica, y si K tiende a 0.5, es platicúrtica. Por ejemplo, la distribución de los 45 ingresos quincenales del ejemplo 1.3 tabulados en 8 intervalos tiene curtosis K (66.75 53.4) (73.5 45) 0.5 0.03. Sin embargo, no se puede relacionarla con una distribución normal, por que ésta distribución de frecuencias no es simétrica.
Ing. Est. Jorsi Ericson Balcázar Gallo
49
Métodos Estadísticos
Tema: Estadística Descriptiva
NOTA. (Otras medidas de curtosis) La curtosis utilizando momentos es definida por la expresión: K
n(n 1) M 4
3 M 2 M 2 (n 1) (n 1)(n 2)(n 3) s 4
n
donde M j
( X x ) i
j
, n número de casos, s la desviación estándar.
i 1
Esta curtosis es utilizado por los paquetes de computo estadístico para determinar la curtosis de distribuciones de la forma f orma dato-frecuencia . Para n datos tabulados en k intervalos, la curtosis se calcula por: K
M 4 / n s4
3
k
donde: M 4
f (m x) i
i
4
,
s
la desviación estándar.
i 1
Si la distribución es normal , K 0. Si K 0, es leptocúrtica, y si K 0 es platicúrtica. Por ejemplo, continuando con el ejemplo 1.3, la curtosis de los 45 ingresos quincenales tabulados en la forma dato-frecuencia dato-frecuen cia es K 1.021. Y de los mismos datos tabulados en 8 intervalos es K 0.244. Sin embargo, no se puede decir decir que es leptocúrtica, leptocúrtica, por que la distribución de los datos no es simétrica.
Ing. Est. Jorsi Ericson Balcázar Gallo
50