Estadística Estadística General 2013
20
15
10
5
0 11
12
Hernández 1 Mg. Miguel Angel Macetas Hernández
14
16
17
19
Estadística Estadística General 2013
ÍNDICE ................................................................................................. 4 CAPITULO ¿Qué es la Estadística? .................................................................................................
I.
1.1
................................................................................................................................... ................................................................. 4 Introducción ..................................................................
1.2
.......................................................................................... .................. 4 ¿Qué se entiende por estadística? ........................................................................
1.3
¿Por qué hay que estudiar Estadística? ................................................................................ 5
1.4
..................................................................................................................... ....................................................... 7 Tipos de estadística ..............................................................
1.5
Elementos que caracterizan a los problemas estadísticos............................................... 8
1.6
................................................................................................................... ................................ 8 Definiciones básicas ....................................................................................
1.7
................................................................................................. ................... 10 10 Clasificación de las Variables ..............................................................................
A.
Según la Naturaleza de la Variable .................................................................................... 10
B.
.............................................................................................. ................... 11 Según la Escala de Medición ............................................................................
.................................................................................................................. ................ 21 ESCALAS DE MEDICIÓN ...................................................................................................
C.
.................................................................................... ..... 22 Según la Relación Entre Variables ................................................................................
CAPITULO Presentación de Datos ........................................................................................... 24
II.
2.1.
...................................................... 24 Clasificación y cómputo de datos uni. y bivariables:. ......................................................
A.
..................................................................................................... ............................................................... 2 4 Codificación y tabulación ......................................
B.
Presentación tabular de los Datos: cuadros de distribución de frecuencias ........ 24
C.
............................................................................................................. ..... 24 Cuadros estadísticos ........................................................................................................
D.
Partes Principales de un Cuadro Estadístico ................................................................. 25
2.2.
............................................................... ................... 30 30 Cuadros de Frecuencias de Variables Discretas ............................................
A.
DISTRIBUCIÓN DE FRECUENCIAS DE LA VARIABLE CUALITATIVAS:.................. 36
B.
REPRESENTACIÓN GRAFICA DE LA VARIABLE CUALITATIVAS: .......................... 37
D.
REPRESENTACIÓN GRAFICA DE LA CUANTITATIVAS DISCRETAS:......................... 4 3
2.3.
Cuadros de Frecuencias de Variables Continuas.......................................................... 46
E.
DISTRIBUCIÓN DE FRECUENCIAS, DE LA VARIABLE CUANTITATIVA CONTINUA: ......................... 55
F.
REPRESENTACIÓN GRAFICA DE LA CUANTITATIVAS CONTINUA: ................................................. 60
Gráficos Estadísticos .............................................................................................. ........................................................................................................................... .............................. 72 ............................................................................................................. ..................................................... 72 72 Clasificación De Los Gráficos ........................................................ .............................................................................................. ......................................... 87 CAPITULO Medidas de Resumen de Resumen .....................................................
III.
3.1
................................................................ 8 7 Medidas de resumen para variables cualitativas ................................................................
3.2
........................................................ ..... 87 Razón e Índice. Definición. Cálculo e interpretación ...................................................
3.3
........................................................... ........ 99 99 Medidas de resumen para variables cuantitativas. ...................................................
3.3.1 1.
................................................ ..... 99 99 Medidas de Posición Centrales (Tendencia Central) ...........................................
La Media Aritmética ........................................... ................................................................................................................. ........................................................................... ..... 99
Hernández 2 Mg. Miguel Angel Macetas Hernández
Estadística Estadística General 2013
ÍNDICE ................................................................................................. 4 CAPITULO ¿Qué es la Estadística? .................................................................................................
I.
1.1
................................................................................................................................... ................................................................. 4 Introducción ..................................................................
1.2
.......................................................................................... .................. 4 ¿Qué se entiende por estadística? ........................................................................
1.3
¿Por qué hay que estudiar Estadística? ................................................................................ 5
1.4
..................................................................................................................... ....................................................... 7 Tipos de estadística ..............................................................
1.5
Elementos que caracterizan a los problemas estadísticos............................................... 8
1.6
................................................................................................................... ................................ 8 Definiciones básicas ....................................................................................
1.7
................................................................................................. ................... 10 10 Clasificación de las Variables ..............................................................................
A.
Según la Naturaleza de la Variable .................................................................................... 10
B.
.............................................................................................. ................... 11 Según la Escala de Medición ............................................................................
.................................................................................................................. ................ 21 ESCALAS DE MEDICIÓN ...................................................................................................
C.
.................................................................................... ..... 22 Según la Relación Entre Variables ................................................................................
CAPITULO Presentación de Datos ........................................................................................... 24
II.
2.1.
...................................................... 24 Clasificación y cómputo de datos uni. y bivariables:. ......................................................
A.
..................................................................................................... ............................................................... 2 4 Codificación y tabulación ......................................
B.
Presentación tabular de los Datos: cuadros de distribución de frecuencias ........ 24
C.
............................................................................................................. ..... 24 Cuadros estadísticos ........................................................................................................
D.
Partes Principales de un Cuadro Estadístico ................................................................. 25
2.2.
............................................................... ................... 30 30 Cuadros de Frecuencias de Variables Discretas ............................................
A.
DISTRIBUCIÓN DE FRECUENCIAS DE LA VARIABLE CUALITATIVAS:.................. 36
B.
REPRESENTACIÓN GRAFICA DE LA VARIABLE CUALITATIVAS: .......................... 37
D.
REPRESENTACIÓN GRAFICA DE LA CUANTITATIVAS DISCRETAS:......................... 4 3
2.3.
Cuadros de Frecuencias de Variables Continuas.......................................................... 46
E.
DISTRIBUCIÓN DE FRECUENCIAS, DE LA VARIABLE CUANTITATIVA CONTINUA: ......................... 55
F.
REPRESENTACIÓN GRAFICA DE LA CUANTITATIVAS CONTINUA: ................................................. 60
Gráficos Estadísticos .............................................................................................. ........................................................................................................................... .............................. 72 ............................................................................................................. ..................................................... 72 72 Clasificación De Los Gráficos ........................................................ .............................................................................................. ......................................... 87 CAPITULO Medidas de Resumen de Resumen .....................................................
III.
3.1
................................................................ 8 7 Medidas de resumen para variables cualitativas ................................................................
3.2
........................................................ ..... 87 Razón e Índice. Definición. Cálculo e interpretación ...................................................
3.3
........................................................... ........ 99 99 Medidas de resumen para variables cuantitativas. ...................................................
3.3.1 1.
................................................ ..... 99 99 Medidas de Posición Centrales (Tendencia Central) ...........................................
La Media Aritmética ........................................... ................................................................................................................. ........................................................................... ..... 99
Hernández 2 Mg. Miguel Angel Macetas Hernández
Estadística Estadística General 2013 2.
La Mediana (Me) ........................................................... ......................................................................................................................... .............................................................. 101 1 01
3.
Moda (Mo) (Valor Modal o Promedio Típico) ......................................................................... 105
Características de las Medidas de Posición Centrales ................................................................. ................................................................. 107 1 07 4.
Media Geométrica: X G , G ...................................................................................................... ...................................................................................................... 1 14
5.
Media Armónica: X H , H .................................................................. ......................................................................................................... ....................................... 1 18 ............................................................. ...... 121 CAPITULO Estadígrafos de Estadígrafos de Tendencia No central .......................................................
IV.
4.1.
................................................................................ 121 Estadígrafos de Tendencia No central ................................................................................
A.
.................................................................................................................... ......................................................................... ...... 121 Los Cuartiles .................................................
B.
Para elaborar un diagrama de caja y bigotes es necesario saber: ......................... 123
C.
..................................................................................................................................... ....................................... 127 Deciles ..............................................................................................
D.
......................................................................................................... ................. 129 1 29 Percentiles o Centiles ........................................................................................
............................................................................................. ............................ 132 CAPITULO Medidas de Dispersión .................................................................
V.
5.1.
............................................................................................................ ....................................... 1 32 Medidas de dispersión .....................................................................
A. Recorrido o rango (R) ................................................................................................................ 132 B. Recorrido Semi Cuartil (Q) ............................................................................ ........................................................................................................ ............................ 132 C.
Varianza (s2) ..................................................................................................................... ........................................................................................................................... ...... 132
D.
Desviación Desviación Estándar o Típica (s) ......................................................................................... 134
E. Coeficiente de Variación (CV) ....................................................................... .................................................................................................. ............................ 134 VI.
............................................................................. ................. 135 CAPITULO Estadígrafos de Estadígrafos de Deformación ............................................................
Asimetría.- ................................................................................................................................................. ................................................................................................................................................. 1 35
A.
.................................................................... ............................ 1 35 Relación Entre La Media, Mediana y Moda ........................................
B.
......................................................................................................... ... 135 Distribución Simétrica ......................................................................................................
................................................................................................ ................. 136 C. Importancia de la Asimetría.- ................................................................................
D.
Coeficiente de Asimetría. Asimetría. ................................................................................................... 136
..................................................................................................... ....................................... 136 E. Kurtosis o Apuntamiento.Apuntamiento.- .............................................................. VII.
.......................................................................... 142 CAPITULO Regresión y Correlación Correlación Lineal ..........................................................................
........................................................................................................ ... 142 Regresión y Correlación Lineal .....................................................................................................
Hernández 3 Mg. Miguel Angel Macetas Hernández
Estadística General 2013 I.
CAPITULO ¿Qué es la Estadística?
1.1 Introducción La importancia de la estadística en la actualidad, no se pone en discusión. Casi todos los programas profesionales universitarios incluyen en su currículo, al menos un curso de estadística. En muchos países, inclusive en el Perú, la estadística forma parte del currículo de la educación secundaria e inclusive se incluyen algunos tópicos en la educación primaria. La dinámica del mundo moderno, exige que todo ciudadano, para ejercer sus derechos y comprender su entorno, requiera de una alfabetización en estadística.
1.2
¿Qué se entiende por estadística? Al revisar el texto, vemos que esta parte se encuentra desarrollada posteriormente a las razones por las que se debe estudiar estadística, aquí lo hacemos primero, para iniciar entendiendo lo que significa la Estadística. Realice la lectura de este acápite e identifique las ideas principales al respecto. Le sugiero que subraye las ideas principales que encuentre. ¿Está de acuerdo en que la idea central se relaciona con el tratamiento de información numérica?
Lo invito ahora a que enuncie su propia definición sobre la estadística. ¿Le parece a usted que podríamos definir a la estadística como la ciencia que nos proporciona los elementos de juicio necesarios para llegar a tomar decisiones adecuadas?, si está de acuerdo reflexione sobre las razones que le llevan a estarlo; si no lo está también reflexione sobre la definición adecuada y regrese al texto para constatarlo. De las diferentes formas de enunciar lo que significa la estadística, realice ahora un cuadro sinóptico en la que se resuman las ideas claves que se observan en cualquiera de las definiciones encontradas. Para ello lea detenidamente este acápite que se encuentra en el texto básico y reflexione sobre los distintos ejemplos que se han planteado allí. 4 Mg. Miguel Angel Macetas Hernández
Estadística General 2013
1.3 ¿Por qué hay que estudiar Estadística? Si se revisa un catálogo de información de la universidad, se descubrirá que la educación estadística se requiere en muchos Facultades. ¿Por qué pasa esto?. ¿Cuáles son las diferencias en los cursos de Estadística impartidos en una Facultades de la Universidad. La mayor diferencia son los ejemplos utilizados. Básicamente, el contenido del curso es el mismo; Por ejemplo en una Escuela Profesional de Administración interesan cosas como las ganancias, horas de trabajo, y salarios. En un Departamento de Salud interesan los resultados de las pruebas, y en una Facultad de Ingeniería pueden interesar cuántas unidades son producidas por una máquina en especial. Sin embargo, las tres áreas tienen interés en lo que es un valor típico y en la cantidad de variación existente en la información. Es posible que también exista una diferencia en el nivel de matemáticas requerido. Un curso de Estadística en ingeniería generalmente requiere del Cálculo, los cursos de Estadística en escuelas de administración y en la educación, generalmente enseñan un curso orientado a aplicaciones. Entonces, ¿por qué se requiere estudiar Estadística en tantas carreras?.
La primera razón es que en todos lados encontramos información numérica. Si se revisan los periódicos, revistas de información, revistas de negocios, publicaciones de interés general, o revistas de deportes, uno estará bombardeado con información numérica. Presentamos aquí algunos ejemplos:
Ford reporta que en 2011 sus ventas fueron de $146900 millones (de dólares), arriba en un 7,2%; sus ganancias fueron de $4400 millones, con ascenso en un 7,0%, y el efectivo neto circulante fue de S/.7200 millones.
Los egresados de postgrado de la Universidad, contaron con un sueldo promedio inicial de $400 dólares y un 70% de ellos consiguieron trabajo a los tres meses de la graduación.
Para los futbolistas que gustan de jugar en campos deportivos, el alquiler de los campos promediaban S/.500 nuevos soles por semana.
5 Mg. Miguel Angel Macetas Hernández
Estadística General 2013
¿Cómo podemos determinar si las conclusiones presentadas son razonables?, ¿las muestras fueron suficientemente grandes?, ¿cómo se seleccionaron las unidades de la muestra? Para poder ser un consumidor con conocimientos sobre esta información, necesitamos poder leer los cuadros, las gráficas y entender la discusión de la información numérica. El entender los conceptos básicos de la Estadística será de gran ayuda.
La segunda razón para tomar el curso de Estadística es que las técnicas estadísticas se utilizan para tomar decisiones que afectan nuestra vida diaria. Esto quiere decir que afectan a nuestro bienestar personal. He aquí algunos ejemplos:
Las compañías de seguros utilizan análisis estadísticos para establecer las tarifas de los seguros de casa, automóvil, vida y salud. Existen tablas que resumen la probabilidad de que una mujer de 25 años de edad viva el año siguiente, los siguientes cinco años, etc. Las primas del seguro de vida se pueden establecer basándose en estas probabilidades.
La Agencia de Protección al Medio Ambiente está interesada en la calidad del agua en el Lago Ene. Periódicamente toman muestras de agua para establecer el nivel de contaminación y mantener el nivel de calidad.
Los investigadores médicos estudian las tasas de cura de enfermedades, basándose en el uso de diferentes medicamentos y distintas formas de tratamiento. Por ejemplo, ¿cuál es el efecto de tratar cierto tipo de daño a la rodilla con cirugía o con terapia física? Si se toma una aspirina diaria, ¿se reducirá el riesgo de sufrir un ataque cardiaco?
La tercera razón para tomar el curso de Estadística es que el conocimiento de los métodos estadísticos ayudará a entender por qué se toman ciertas decisiones, y le aportarán una mejor comprensión sobre la manera en la que lo afectan. Sin importar el tipo de trabajo que seleccione, encontrará que tiene que enfrentar la toma de decisiones con la ayuda del análisis de datos. Para poder realizar una decisión basada en la información, necesitará: 1. Determinar si la información existente es adecuada o si se requiere información adicional.
6 Mg. Miguel Angel Macetas Hernández
Estadística General 2013
2. Reunir información adicional, si es necesario, de tal forma que no hayan resultados erróneos. 3. Resumir la información de una forma útil e informativa. 4. Analizar la información disponible. 5. Sacar las conclusiones y realizar las deducciones necesarias, al tiempo que se evalúa el riesgo de llegar a una conclusión incorrecta.
1.4 Tipos de estadística Por lo general, el estudio de la estadística se divide en dos categorías
Estadística Descriptiva: cuando se recolección, clasificación resumen, procesamiento y representa un grupo de datos utilizando métodos numéricos y gráficos que resumen y presentan la información contenida en ellos. No pretende ir más allá del conjunto de datos investigados.
Estadística Inferencial: cuando apoyándose en el cálculo de probabilidades y a partir de datos muestrales, efectúa estimaciones, decisiones, predicciones y otras generalizaciones sobre un conjunto mayor de datos.
Figura N° 01
7 Mg. Miguel Angel Macetas Hernández
Estadística General 2013
1.5 Elementos que caracterizan a los problemas estadísticos
La población de interés y el procedimiento científico que se empleó para tomar la muestra de la población.
La muestra y el análisis matemático de su información.
Las inferencias estadísticas que resultan del análisis de la muestra.
La probabilidad de que las inferencias sean correctas.
1.6 Definiciones básicas
Población o Universo (N) Está referido a un colectivo finito o infinito de elementos individuales. Población es un conjunto completo de individuos u objetos que poseen alguna característica común observable. Población es el número de elementos que definen la cobertura de un estudio. La población es el universo de estudio que está integrado por la totalidad de todas las unidades de análisis. Por ejemplo
Alumnos de Ingeniería Civil matriculados en ciclo académico 2012 en la Universidad.
Alumnos de IV ciclo de la Escuela Profesional de Ingeniería Civil de la Universidad.
Ingenieros Civiles Colegiados en el departamento de Cajamarca en el año 2012.
Muestra (n) Es la parte o subconjunto de una población. La muestra está constituida de elementos seleccionados de una manera deliberada, con el objeto de investigar las propiedades de su población. La muestra sólo da información de aquella población de la que ha sido extraída. POBLACIÓN (N)
MUESTRA (n)
Muestreo
µ δ
2
Inferencia
Figura N° 02 8 Mg. Miguel Angel Macetas Hernández
Estadística General 2013
Unidad de Análisis o Unidad de Observación Es el objeto o elemento indivisible que será estudiado en una población sobre los cuales se va a obtener datos. La unidad de análisis no es el fenómeno investigado sino el que genera el fenómeno y proporciona datos concretos. Por ejemplo
El tipo de análisis al que se someterá la información es determinante para elegir la unidad de análisis. Por ejemplo, si el objetivo es dar cuenta de la satisfacción del usuario de un servicio médico, la unidad de análisis natural es el paciente atendido, o la persona que se atiende en ese servicio médico.
La unidad de muestreo corresponde a la entidad básica mediante la cual se accederá a la unidad de análisis. En algunos casos, ambas se corresponden. Por ejemplo:
Si se desea estimar la prevalencia de daño auditivo en relación con niveles de ruido ambiental en una muestra de trabajadores de una fábrica, la unidad de muestreo puede corresponder a la entidad "sujeto", si se dispone de un registro detallado de cada sujeto. La unidad de análisis es por cierto el trabajador de la fábrica.
Dato. Es el valor o respuesta que adquiere variable la en cada unidad de análisis. Dato es el resultado de la observación, entrevista o recopilación en general. Los datos son. materia prima de la Estadística.
Parámetro. Es una medida usada para describir algunas características de una población, y para determinar su valor es necesario utilizar la información de la población completa y por lo tanto, las decisiones se tomaran con certidumbre total. Por ejemplo: Media poblacional (µ), Varianza poblacional (δ2), Proporción poblacional (p).
Estadígrafo. Es una medida usada para describir alguna característica de la muestra y la toma de decisiones contiene un grado de incertidumbre. Por ejemplo:
̅
̂
Media muestral ( ), Varianza muestral ( ), Proporción muestral ( )
9 Mg. Miguel Angel Macetas Hernández
Estadística General 2013
Variable: Es una característica que puede tomar diferentes valores o atributos. Las variables son características observables , susceptibles de adoptar distintos valores (cuantificado ) o ser expresados en varias categorías
Variable Rendimiento académico
Genero
Masculino,
Calidad
de
atención
de
un
Valores o atributo 12, 14, 17, 20 femenino
Pésimo, malo, regular bueno excelente
restaurante
Peso de alumnos
45,6 Kg. 57,8 Kg. 73,6 Kg
Número de hijos
1, 2, 3,
1.7 Clasificación de las Variables Podemos considerar muchos criterios de clasificación como:
A. Según la Naturaleza de la Variable
a) Variables Cualitativas o Estadísticas de Atributos. Cuando expresan una cualidad, característica o atributo, tienen carácter cualitativo sus datos se expresan mediante una palabra es no numérico. Por ejemplo:
Estado civil, los colores, lugar de nacimiento, profesiones, actividad económica, causas de accidentes, etc.
b) Variables Cuantitativas. Cuando el valor de la variable se expresa por una cantidad, es de, carácter numérico. El dato o valor puede resultar de la operación de contar o de medir. Por ejemplo:
Edad número de hijos por familia, ingresos, viviendas por centro poblado, niveles de, desempleo, producción, utilidades por empresas, etc.,
10 Mg. Miguel Angel Macetas Hernández
Estadística General 2013
Las variables cuantitativas pueden ser: discreta y continua.
b.1. Variable Discreta. Cuando el valor de la variable resulta de la operación de contar su valor está representado sólo por números naturales (enteros positivos). Por Ejemplos:
Hijos por familia número de accidentes por día, trabajadores por empresa; población por distritos, habitaciones por vivienda. etc.
b.2. Variable Continúa. Cuando la variable es susceptible de medirse es toda variable cuyo valor se obtiene por medición o comparación con una unidad o patrón de medida. Las variables continuas pueden tener cualquier valor dentro de su rango o recorrido por tanto se expresa por cualquier número real. Por ejemplos:
Ingresos monetarios, producción de maíz, peso, estatura, tiempo de servicios, horas trabajadas, niveles de empleo. etc.
B. Según la Escala de Medición a) La escala nominal o categórica La medición en su nivel más débil existe cuando los números u otros símbolos se usan simplemente para clasificar un objeto, una persona o una característica. Cuando se emplean números u otros símbolos para identificar los grupos a los cuales pertenecen varios objetos, estos números o símbolos constituyen una escala nominal o categórica. Esta escala se conoce como escala clasificatoria. Por ejemplo:
Se resumen en preguntas dicotómicas, o aquellas con dos opciones de respuesta, y de selección múltiple, o aquellas con tres o más opciones de respuesta. Veamos algunos ejemplos:
Dicotómicas
Género:
Femenino
Has comprado el producto X?
Selección múltiple
Masculino SI
NO
En tus próximas compras incluirás el producto X? SI
11 Mg. Miguel Angel Macetas Hernández
NO
No sabe
Estadística General 2013
Propiedades Formales Todas las escalas tienen ciertas propiedades formales, las cuales proporcionan definiciones casi exactas de las características de la escala; definiciones más exactas que las que pueden darse en términos verbales. Estas propiedades pueden ser formuladas de manera más abstracta de lo que hemos hecho aquí, por un conjunto de axiomas que especifican las operaciones de la escala y las relaciones entre los objetos que han sido escalados. En una escala nominal, las operaciones de la escala dividen a una clase dada en un conjunto de subclases mutuamente excluyentes. La única relación implica- da es la de equivalencia; esto es, los miembros de cualquier subclase deben ser equivalentes en la propiedad que está siendo escalada. Esta relación se simboliza por el signo familiar de "igual" (=). La relación de equivalencia es reflexiva, simétrica y transitiva. Considérese un conjunto de objetos
. . Supóngase que el objeto x,
tiene algún atributo verdadero, A (x). Entonces, para cualquier par de atributos en el conjunto
() () ( ) Operaciones Admisibles Ya que en una escala nominal la clasificación puede estar igualmente bien representada por cualquier conjunto de símbolos, se dice que la escala nominal es "única hasta una transformación de uno a uno". Los símbolos que designan las variadas subclases en la escala pueden ser intercambiados si esto se hace de manera cabal y consistentemente. Por ejemplo:
Cuando se emiten nuevas placas para automóviles, el código que previamente pertenecía a una ciudad puede ser intercambiado con el de otra ciudad. La escala nominal podría preservarse si este cambio se ejecutara cabal y consistentemente en la emisión de todas las placas. Ya que los símbolos que designan los variados grupos de una escala nominal pueden ser intercambiados sin alterar la información esencial en la escala, el único tipo de estadísticos descriptivos admisibles son aquellos que pueden ser
12 Mg. Miguel Angel Macetas Hernández
Estadística General 2013
incambiables por tal transformación: la moda, la cuenta de frecuencias, etc. En ciertas condiciones, podemos probar hipótesis considerando la distribución de casos entre las categorías, usando pruebas no paramétricas tales como la ji cuadrada o una prueba basada en la distribución binomial. Estas pruebas son adecuadas para da- tos escalados nominalmente debido a que se enfocan sobre la frecuencia en las categorías, es decir, sobre datos enumerativos. En suma, cuando los datos en una escala nominal, podemos rotular las categorías "1", "2", "3",….., en cualquier orden que el Vamos. En una muestra podemos contar el número de "1", el número de "2", etc. (Estas son cuentas de frecuencia) Podemos calcular el porcentaje de "1" en la muestra, el porcentaje de "2", etc. (Esta es la distribución de frecuencia relativa.) Y podemos registrar qué categoría tiene la frecuencia más grande. (Ésta es la moda.) Pero en general, no podemos "sumar" las categorías "1" y "2" para formar la categoría "3", ya que podríamos violar las suposiciones de un sistema de clasificación nominal. En capítulos posteriores estudiaremos diferentes técnicas estadísticas adecuadas para datos categóricos o escalados nominalmente.
b) La escala ordinal o de rangos Puede suceder que los objetos en una categoría de una escala no sean tan sólo diferentes de los objetos en otras categorías de esa escala, sino que también exista algún tipo de relación entre ellos. Las relaciones típicas entre las clases son: más alto, más preferido, más difícil, más perturbador, más maduro, etc. Tales relaciones se denotan por medio del símbolo >, el cual en general significa "mayor que". En referencia a escalas particulares, > puede ser usado para designar que es preferido a, es más alto que, es más difícil que, etc. Su significado específico depende de la naturaleza de la relación que define la escala. Dado un grupo de clases de equivalencia (esto es, dado una escala nominal), si la relación > se sostiene entre algunos pero no todos los pares de clases, tenemos una escala parcialmente ordenada. Si la relación > se sostiene para todos los pares de clases, de manera que es posible un rango completo ordenado de clases, tenemos una escala ordinal. Por ejemplo:
Grado de Instrucción: Primaria – Secundaria – Superior
Intensidad del dolor: Leve – Moderado – Intenso
13 Mg. Miguel Angel Macetas Hernández
Estadística General 2013
Propiedades Formales Axiomáticamente, la diferencia fundamental entre una escala nominal y una ordinal es que esta última incorpora no sólo la relación de equivalencia (=), sino también la relación "mayor que" (>). Esta última relación es irreflexiva, asimétrica y transitiva. Considérese un conjunto de objetos
. Supóngase que existe alguna
relación en el atributo verdadero entre los objetos de cada categoría, además de la equivalencia dentro de las categorías. Esto es,
() () ( ) ( ) Es decir, la función de clasificación ordena los objetos en el mismo modo en que de hecho están ordenados los atributos.
Operaciones Admisibles Ya que cualquier transformación que preserve el orden no cambia la información contenida en la escala ordinal, se dice que la escala es "única hasta una transformación monotónica". Una transformación monotónica es aquella que preserva el orden de los objetos. Esto es, no importa qué números demos a un par de clases o a los miembros de esas clases, siempre que les sea asignado un número mayor a los miembros de la clase que es "mayor que" o "más preferida". (Naturalmente, se pueden usar números menores para las clases "más preferidas". Así nos referimos generalmente a una ejecución excelente como "primera clase", y a ejecuciones progresivamente inferiores como "segunda clase" y "tercera clase". Siempre que seamos consistentes, no importa si se usan números mayores o menores para denotar "mayor que" o "más preferido".) Por ejemplo:
En el ejército un cabo usa dos bandas en su manga y un sargento usa tres. Estas insignias denotan que el sargento > el cabo, y el símbolo > denota "mayor rango que". Esta relación podría ser igualmente bien expresada si el cabo usara cuatro bandas y el sargento siete.
14 Mg. Miguel Angel Macetas Hernández
Estadística General 2013
Vale decir, una transformación que no cambia el orden de las clases es completamente admisible ya que no implica pérdida alguna de información. Cualesquiera o todos los números que se aplican a las clases en una escala ordinal pueden ser cambiados de cualquier forma que no altere el orden (rango) de los objetos. Puede aplicarse cualquier transformación montónica y aún preservarse las propiedades de la escala, esto es, preservar la relación entre los objetos. El estadístico más, apropiado para describir la tendencia central de las puntuaciones en una escala ordinal es la mediana, ya que en relación con la distribución de puntuaciones, la mediana no es afectada por los cambios en cualesquiera de las puntuaciones que están por arriba o por abajo de ella, siempre que el número de puntuaciones por arriba y por debajo permanezca constante. Con el escalamiento ordinal, las hipótesis pueden ser probadas usando el gran grupo de pruebas estadísticas no paramétricas que en ocasiones se llaman estadísticos de rango o estadísticos de orden.
c) La escala de Intervalo Cuando una escala tiene todas las características de una escala ordinal y cuando además tienen sentido las distancias o diferencias entre cualesquiera dos números de la escala, se ha logrado una medición considerablemente más fuerte que la ordinal. En tal caso, la medición ha sido lograda en el sentido de una escala de intervalo. Esto es, si nuestro mapeo de varias clases de objetos es tan preciso que conocemos cuán grandes son los intervalos (distancias) entre todos los objetos de la escala, y estos intervalos tienen significado sustantivo, entonces hemos logrado una medida de intervalo. Una escala de intervalo está caracterizada por una unidad común y constante de medida que asigna un número a todos los pares de objetos en el orden establecido. En esta clase de medición, la razón de cualesquiera dos intervalos es independiente de la unidad de medida y del punto cero. En la escala de intervalo, el punto cero y la unidad de medida son arbitrarios. Por ejemplo
Medimos la temperatura en una escala de intervalo. De hecho, comúnmente se usan dos diferentes escalas: Celsius y Fahrenheit. Al medir la temperatura, la unidad de medida y el punto cero son arbitrarios; son diferentes en ambas escalas. Sin embargo, las dos escalas contienen la misma cantidad y la misma clase de información. Esto es así debido a que están linealmente relacionadas.
15 Mg. Miguel Angel Macetas Hernández
Estadística General 2013
Es decir, una lectura en una escala puede ser transformada en la lectura equivalente de la otra por medio de una transformación lineal.
Donde
°F = número de grados en la escala Fahrenheit °C = número de grados en la escala Celsius Se puede mostrar que las razones de las diferencias de temperatura (intervalos) son independientes de la unidad de medida y del punto cero. Por ejemplo, el punto de "congelación" ocurre en 0° en la escala Celsius, y el punto de "ebullición" ocurre en los 100°. En la escala Fahrenheit, la "congelación" ocurre en los 32° y la "ebullición" en 212°. Algunas otras lecturas de la misma temperatura en las dos escalas son las siguientes: Celsius
— 18
Fahrenheit
0
0
10
30
100
32
50
86
212
Nótese que la razón de las diferencias entre las lecturas de temperatura en una escala, es igual a la razón entre las diferencias equivalentes en la otra escala. Por ejemplo,
En la escala Celsius la razón de las diferencias entre 30 y 10, y 10 y 0 es (30 — 10) / (10 — 0) = 2. Para las lecturas comparables en la escala Fahrenheit, la razón es (86 — 50) / (50 — 32) = 2. En ambos casos las razones son las mismas; a saber, 2. En otras palabras, en una escala de intervalo, la razón de cualesquiera dos intervalos es independiente de la unidad usada y del punto cero, siendo ambos arbitrarios. Muchos científicos de la conducta aspiran a crear escalas de intervalo, y en pocas ocasiones tienen éxito. Sin embargo, generalmente lo que es tomado como éxito son suposiciones no probadas que el constructor de la escala voluntariamente cree. Una suposición frecuente es que la variable que está siendo escalada está normalmente distribuida entre los individuos a los que se evalúa con base en esta suposición, el constructor de la escala manipula las unidades de la escala hasta que se encuentre la supuesta distribución normal de las puntuaciones de los individuos. Naturalmente, el procedimiento es sólo tan bueno como la intuición del investigador al elegir la distribución que supone.
16 Mg. Miguel Angel Macetas Hernández
Estadística General 2013
Otra suposición que se hace a menudo para crear una escala de intervalo aparente es la suposición de que las respuestas "afirmativas" de las personas en cualquier reactivo son exactamente equivalentes a responder de manera afirmativa en cualquier otro reactivo. Esta suposición se hace para satisfacer el requisito de que una escala de intervalo debe tener una unidad de medida común y constante. En escalas de habilidades o de aptitudes, la suposición de equivalencia consiste en que dar la respuesta correcta a cualquier reactivo es exactamente equivalente (en la cantidad de habilidad mostrada) a dar la respuesta correcta a cualquier otro reactivo.
Propiedades Formales Axiomáticamente, se puede mostrar que las operaciones y relaciones que dan origen a la estructura de una escala de intervalo son tales que las diferencias en la escala son isomórficas a la estructura de la aritmética. Los números pueden ser asociados con las posiciones de los objetos en una escala de intervalo tal que las operaciones de la aritmética pueden ser significativamente ejecutadas con las diferencias entre los números. Al construir una escala de intervalo no sólo se deben especificar equivalencias, como en la escala nominal, y relaciones "mayor que", como en la escala ordinal, sino también se debe ser capaz de especificar la razón entre dos intervalos cualesquiera. Considérese un conjunto de objetos
Supóngase que los atributos
verdaderos de los objetos existen en alguna relación unos con otros, además de sus equivalencias dentro de las categorías. Esto es:
( ) ( )
Entonces, una escala de intervalo es un sistema clasificatorio de los objetos L (x) que tienen las propiedades de una escala ordinal y, además
Nótese que en este caso, la diferencia entre los atributos de los dos objetos es proporcional a la diferencia entre las asignaciones de clasificación:
( ) 17 Mg. Miguel Angel Macetas Hernández
Estadística General 2013
Operaciones Admisibles Cualquier cambio en los números asociados con las posiciones de los objetos medidos en una escala de intervalo debe preservar no sólo el orden de los objetos, sino también las diferencias relativas entre los objetos. Esto es, la escala de intervalo es "única hasta una transformación lineal". Así, como hemos señalado, la información proporcionada por la escala no es afectada si cada número se multiplica por una constante positiva y después se le suma a este producto una constante, esto es
.
(En el ejemplo de la
temperatura, c = 9/5 y b = 32.) Ya hemos notado que en una escala de intervalo el punto cero es arbitrario. Esto es inherente al hecho de que la escala está sujeta a transformaciones que consisten en agregar una constante a los números que constituyen la escala. La escala de intervalo es la primera escala verdaderamente "cuantitativa" que hemos encontrado. Todos los estadísticos paramétricos comunes (medias, desviaciones estándar, correlaciones producto-momento, etc.) son aplicables a los datos en una escala de intervalo. Si de hecho se ha logrado una medida en una escala de intervalo y si se han encontrado adecuadamente todas las suposiciones del modelo estadístico paramétrico (dadas en la sección "El modelo estadístico"), entonces el investigador puede utilizar pruebas estadísticas paramétricas tales como la prueba t o la prueba F. En tal caso, los métodos no paramétricos no aprovechan toda la información contenida en los datos de investigación. Puede notarse que una escala de intervalo es una condición necesaria, pero no suficiente, para usar una prueba estadística paramétrica que incluya la distribución normal.
d) La escala de razón Cuando una escala tiene todas las características de una escala de intervalo y, además, tiene un punto cero verdadero en su origen, se llama escala de razón. En una escala de razón, la razón de cualesquiera dos puntos es independiente de la unidad de medida. Por ejemplo
Medimos la masa o el peso en una escala de razón. La escala de onzas y libras tiene un punto cero verdadero, al igual que la escala de gramos. La razón entre
18 Mg. Miguel Angel Macetas Hernández
Estadística General 2013
cualesquiera dos pesos es independiente de la unidad de medida. Por ejemplo, si de- terminamos los pesos de dos objetos diferentes no sólo en libras sino también en gramos, encontraremos que la razón de los dos pesos en libras es idéntica a la razón de los dos pesos en gramos. Aunque es difícil identificar ejemplos significativos en las ciencias sociales y de la conducta,
los
contraejemplos
abundan.
Consideramos
dos.
Notamos
anteriormente que las calificaciones se miden en una escala ordinal. Considérese a dos estudiantes, uno de los cuales recibe una A y el otro una C; y supóngase que las asignaciones numéricas fueron 4 y 2, respectivamente. Aunque la razón de las dos calificaciones es dos (4/2 = 2), no tiene sentido decir que el estudiante con una A posee el doble de "algo" del estudiante que recibe la C. (El estudiante puede obtener el doble de ciertos puntos, pero no es claro si esto tiene algún significado sustantivo en conocimiento, habilidad o perseverancia.) Finalmente, en el caso de la temperatura, considérese un cambio en la temperatura de 100 a 30 °C. No podemos decir que el incremento representa que el calor se incrementó al triple. Para ver esto, nótese que el cambio en la temperatura es equivalente a un cambio de 500 a 86 °F. Debido a que las razones de las temperaturas en las dos escalas son claramente diferentes, la razón no tiene sentido interpretable alguno.
Propiedades Formales Las operaciones y relaciones que dan origen a los valores numéricos en una escala de razón son tales que la escala es isomórfica a la estructura de la aritmética. Por tanto, las operaciones de la aritmética son permisibles con los valores numéricos asignados a los objetos, así como a los intervalos entre los números, como en el caso de la escala de intervalo. Las escalas de razón, que se encuentran más comúnmente en las ciencias físicas, se logran sólo cuando son operacionalmente posibles de alcanzar todas las siguientes cuatro relaciones: 1. equivalencia; 2. mayor que; 3. razón conocida entre cualesquiera dos intervalos, y 4. razón conocida entre cualesquiera dos valores de la escala.
19 Mg. Miguel Angel Macetas Hernández
Estadística General 2013
Considérese un conjunto de objetos
. Supóngase que el atributo
verdadero de los objetos existe con alguna relación entre cada uno de ellos, además de la equivalencia dentro de las categorías. Esto es
( ) ( ) ( )
Entonces, una escala de razón es un sistema clasificatorio de los objetos L (x) si
() ( )
y la razón de las clasificaciones asignadas es igual a la razón de los atributos verdaderos.
Operaciones Admisibles Los números asociados con los valores de la escala de razón son números "verdaderos" con un cero verdadero: sólo la unidad de medida es arbitraria. Así, la escala de razón es única hasta la multiplicación por una constante positiva. Esto es, las razones entre cualesquiera dos números se preservan cuando los valores de la escala son todos multiplicados por una constante positiva y, además, tal transformación no altera la información contenida en la escala. Cualquier prueba estadística paramétrica puede usarse cuando se han logrado medidas de razón y se encuentran las suposiciones adicionales concernientes a la distribución. Más aún, existen algunos estadísticos que se aplican sólo a datos que descansan en una escala de razón; debido a la fuerza de las suposiciones que sub- yacen a la escala, la mayoría de estas pruebas son pararnétricas.
20 Mg. Miguel Angel Macetas Hernández
Estadística General 2013
ESCALAS DE MEDICIÓN Tipo
Variables Categóricas
Variables numéricas
Naturaleza
CUALITATIVAS
CUANTITATIVAS
Escala
(0) NOMINAL Ningún atributo
(1) ORDINAL Un atributo
Atributos de la escala
Orden Distancia Origen
Orden Distancia Origen
(2) INTERVALO Dos atributos Orden
Distancia
Origen
Posee categorías Posee categorías a las Tiene intervalos iguales y ordenadas, pero no que se asigna un nombre medibles, pero no tiene un Característica permite cuantificar la sin que exista ningún origen real. Puede asumir distancia entre una orden implícito entre ellas. valores negativos. categoría y otra. Ejemplos
Género Masculino
Valor Final
Observaciones
Femenino
Estado Civil
Instrucción
Intensidad
Soltero
Primaria
Leve
Casado
Secundaria
Conviviente
Superior
Temperatura
Hora del día
(3) RAZÓN Tres atributos Orden
Distancia
Origen
Tiene intervalos constantes entre valores; además de un origen real. El cero significa la ausencia de la variable. Peso.
Hijos
-10 C
00 Horas
00.00 Kg
Uno
Moderado
0C
10 Horas
10.24 Kg
Dos
Severo
20 C
20 Horas
20.00 Kg
Tres
Continuas: Provienen de medir Dicotómicas: Tienen solamente dos categorías Ejemplos Se pueden representar con números enteros o fraccionarios de Ordinal Dicotómica: Nuevo - Continuador Vivo – Fallecido Entre dos valores siempre existe un número intermedio Sano – Enfermo Politómicas: Tienen más de dos categorías.
Discretas: Provienen de contar Solamente pueden ser representados con números enteros
21 Mg. Miguel Angel Macetas Hernández
Estadística General 2013
C. Según la Relación Entre Variables a) Variables Dependientes
Son aquellas que se explican por otras variables, son los efectos o resultados respecto a los cuales hay que buscar su motivo, causas o razón de ser, Es la variable que traduce la consecuencia del efecto de una varias razones o causas. b) Variables Independientes
Son las variables explicativas o predicativas, cuya asociación, relación o influencia en la variable dependiente se pretende escribir en la investigación. Las variables independientes son los que traducen o explican las causas o razones de las variaciones en la variable dependiente. Simplificando, en la relación de variables, las causas o antecedentes serían las variables independientes (VI) y la causa o consecuente es la variable dependiente (VD). Ejemplos: En el caso más simple, para la relación dé dos variables.
El presupuesto familiar (VD) depende de los ingresos (VI).
El volumen de ventas (VD) se explica por la inversión en propaganda (V).
El número de hijos por familia (VD) tiene relación con el nivel educativo de los
Estadística General 2013
C. Según la Relación Entre Variables a) Variables Dependientes
Son aquellas que se explican por otras variables, son los efectos o resultados respecto a los cuales hay que buscar su motivo, causas o razón de ser, Es la variable que traduce la consecuencia del efecto de una varias razones o causas. b) Variables Independientes
Son las variables explicativas o predicativas, cuya asociación, relación o influencia en la variable dependiente se pretende escribir en la investigación. Las variables independientes son los que traducen o explican las causas o razones de las variaciones en la variable dependiente. Simplificando, en la relación de variables, las causas o antecedentes serían las variables independientes (VI) y la causa o consecuente es la variable dependiente (VD). Ejemplos: En el caso más simple, para la relación dé dos variables.
El presupuesto familiar (VD) depende de los ingresos (VI).
El volumen de ventas (VD) se explica por la inversión en propaganda (V).
El número de hijos por familia (VD) tiene relación con el nivel educativo de los padres (VI).
c) Variables Intervinientes o interferentes
Son aquellas que coparticipan con la variable independiente condicionando el comportamiento de la variable dependiente. En el caso de la relación entre presupuesto familiar (VD) y los ingresos (VI), algunas variables intervinientes serian la conducta de consumo, la edad de los miembros de la familia, etc.
Elementos de una Variable La identificación y definición de variables es la tarea más delicada de toda investigación y del trabajo estadístico. En consecuencia, para tener éxito en la selección de variables, es recomendable distinguir las siguientes cinco características.
Un nombre o denominación. de la variable. Alguna definición o conceptualización. Un conjunto de categorías. que es definida por el investigador. Las categorías no son únicas.
Procedimientos para categorías las unidades de análisis. Algunas medidas de resumen o indicadores.
22 Mg. Miguel Angel Macetas Hernández
Estadística General 2013
Ejemplo 1: a) Nombre : Estado civil o conyugal. b) Definición: Es la situación de la persona empadronada en relación con las leyes
y costumbres del país. c) Categorías:
01) Sol tero (a). 02) Casado (a). 03) Conviviente. 04) Viudo (a). 05) Divorciado (a). 06) Separado (a). d) Categorización: ¿Cuál es su estado civil o conyugal? e) Medidas de Porcentajes
Resumen – Tasa de nupcialidad que indica la frecuencia de matrimonios, etc.
Ejemplo 2: a) Nombre : Ingresos b) Definición Son los recursos monetarios netos incluyendo todas las Bonificaciones que percibe una persona por su ocupación principal y secundaria durante el período de referencia de la encuesta.
c) Categorías
: Puede proponerse en forma de niveles o simplemente intervalos.
Niveles de ingreso: alto, medio, bajo Intervalos: Por ejemplo 8 intervalos
Menos de 4000; 4001 él 8000; 8001 a 12000; 1 2001 a 1 6000; 16001 a 20000: 20001 a 25000; 25001 a 30000; 30001 y más soles.
d) Categorización: ¿Cuál fue su ingreso total en el último mes? e) Indicadores
: Ingreso promedio. Dispersión de los ingresos. etc.
23 Mg. Miguel Angel Macetas Hernández
Estadística General 2013
CAPITULO Presentación de Datos 2.1. Clasificación y cómputo de datos uni. y bivariables:.
II.
A. Codificación y tabulación
La codificación facilita la tabulación y el conteo. (obtención de una buena información)
La codificación de las respuestas da lugar a categorías o modalidades.
Es recomendable que los cuestionarios tengan las alternativas de respuesta pre codificadas.
Si el cuestionario tiene preguntas abiertas (respuesta libre), estas previamente debe ser clasificadas en categorías.
B. Presentación tabular de los Datos: cuadros de distribución de frecuencias
Es necesario agrupar los datos y presentarlos en cuadros y diagramas sencillos.
Un cuadro de frecuencias, son cuadros que indican la distribución de un conjunto de datos en clases o categorías y muestran el número de elementos y la proporción de cada uno de los valores de la variable.
Un cuadro de frecuencias, permite una buena ayuda para formularse interrogantes acerca de los datos.
Un cuadro de frecuencias, es un punto de partida en la búsqueda de un modelo teórico para analizar la distribución de los datos.
En la cuadro se observa la frecuencia o repetición de cada uno de los valores de la variable.
Las observaciones o recopilaciones de datos denotaremos la variable por X y los datos originales:
.
donde Xi representan la i – ésima observación de
la variable con (i = 1, 2, 3, 4,..., N). Es decir que: X1 = dato de la primera observación X2 = dato de la segunda observación X3 = dato de la tercera observación ………………………………………… …………………………………………. XN = dato de la N – ésima observación
C. Cuadros estadísticos
En una investigación, después que los datos han sido recogidos, revisados y almacenados en una base de datos, se procede a la presentación de los resultados en forma tabular o gráfica y al análisis estadístico de la información.
La facilidad de su construcción y el rápido efecto en la transmisión de los contenidos, han hecho de los cuadros estadísticos los recursos idóneos para la
24 Mg. Miguel Angel Macetas Hernández
Estadística General 2013
presentación de los resultados de las investigaciones en todas las áreas científicas.
―La presentación tabular y el gráfico no son competidores, sino más bien
elementos que se complementan. Los gráficos deben agregarse a los cuadros o distribuciones de frecuencias para llamar la atención y despertar el interés por los datos que se presentan, así como para reforzar las argumentaciones o conclusiones a las que se haya llegado. Como un principio muy conveniente, debe adoptarse el de que en ningún caso puede considerarse que el gráfico sustituye a la presentación tabular. La práctica seguida por algunas personas, de presentar gráficos omitiendo los cuadros que contienen la información básica, debe ser evitada y combatida por inconveniente y por limitar la calidad y la utilidad de las publicaciones y estudios. Sólo en casos de verdadera excepción, como cuando se trata de propaganda o de artículos meramente divulgadores, podría aceptarse la práctica comentada.‖
Objetivo
Un cuadro estadístico tiene como objetivo presentar datos numéricos ordenados, en filas y columnas, de acuerdo a ciertos criterios de clasificación.
Ventajas
Los cuadros permiten presentar en forma resumida y ordenada muchos datos
Es un instrumento que clasifica, resume y comunica información estadística
Facilita el análisis de los datos
Su fácil comprensión, permite que sea utilizado por muchas personas
Todo cuadro estadístico debe explicarse por sí mismo, sin necesidad de texto o figuras anexas, y debe ser sencillo y claro
D. Partes Principales de un Cuadro Estadístico En general, un cuadro estadístico completo, tal como el Cuadro Nº 01, por ejemplo, puede tener ocho partes:
1. Número del cuadro. 4. Cuerpo.
2. Título.
3. Encabezamiento o conceptos.
5. Nota de pie o llamadas. 6. Fuente.
7. Nota de unidad de medida.
8. Elaboración.
25 Mg. Miguel Angel Macetas Hernández
Estadística General 2013 2 CUADRO Nº 01 Es la descripción resumida del contenido del cuadro. La redacción del título debe ser breve, claro y completo, de modo que se puedan deducir sin ambigüedad qué tipo de informa. Debe indicar 1. QUE 2. DONDE 3. COMO 4. CUANDO
Es el código o elemento de identificación que permite ubicar el cuadro en el interior de un documento
1
POBLACI N TOTAL ECON MICAMENTE ACTIVA DE 15 A OS Y M S, DEL DEPARTAMENTO DE Donde
Que
CAJAMARCA: POR NIVEL EDUCATIVO SEGÚN RAMAS DE ACTIVIDAD. CENSO DE POBLACIÓN Donde
Descripción de las filas y columnas del cuadro
3
7
(Distribución porcentual)
Ramas de Actividad
PEA de 15 años y más
TOTAL
100,0
1. Agricultura, Caza, Selvicultura y Pesca 2. Explotación de Minas y Canteras.
Cuando Expresa en qué unidades están las variables
Como
N i v e l d e Educación Sin Nivel*
Primaria
Secundaria
Sup. No Univer.
Superior No Especificado Univer.
5,89
42,11
35,87
5,67
8,66
1,80
100,0
14,97 64,05
15,59
0,70
1,30
3,40
100,0
0,75
41,13
39,59
5,79
12,63
0,11
3. Industrias Manufactureras.
100,0
3,60
43,57
41,60
2,94
6,70
4. Electricidad, Gas y Agua.
100,0
0,00
21,95
48,29
8,29
20,49
1,59 0,98
5. Construcción.
100,0
4,78
64,36
24,99
1,05
3,54
1,28
6. Comercio, Restaurantes y Hoteles. 7. Transportes, Almacenamiento y Comunicaciones. 8. Establecimientos Financieros, Seguros, Bienes Inmuebles y Servicios a las Empresas 9. Servicios Comunales, Sociales y Personales. 10. Actividades No bien especificadas.
100,0
6,95
45,04
39,66
2,06
4,39
1,91
100,0
1,34
45,18
46,87
2,28
3,15
1,18
100,0
0,64
11,60
48,71
9,28
29,25
0,52
100,0
2,10
26,56
43,35
11,46
15,22
1,30
100,0
9,35
44,70
34,99
3,55
4,97
2,43
100,0
1,94
25,75
56,97
6,70
7,94
0,71
11. Buscan trabajo por primera vez.
* Incluye PEA con educación inicial o pre – escolar
Fuente: INE Resultados definitivos de los Censos Nacionales IX de Población y IV de Vivienda Elaborado: Statistic MAH. 5) NOTA DE PIE O LLAMADAS, se usa para aclarar algunos términos o siglas, y también para indicar qué elementos están o no incluidos en algunos de los conceptos del cuadro. 6) FUENTE, es la indicación al pie el cuadro, que sirve para nombrar la publicación, entidad, estudio o fuente de donde se obtuvieron los datos utilizados para construir el cuadro. La identificación de la fuente permite, si fuera el caso, comprobar la información o para obtener información complementaria. Hay dos tipos de fuentes: i) primaria, cuando se obtiene directamente de la unidad de análisis o cuando se recurre a los propios formularios de una encuesta: ii) secundaria, cuando se recurre a documentos boletines o cuadros estadísticos publicados. 7) Nota Unida de Medida se escribe debajo del título, se usa cuando se abrevia la escritura 8) ELABORACIÓN, es una indicación que se coloca debajo de la fuente, y sirve para mencionar el responsable, que utilizando datos originales o de la fuente elaboró el cuadro estadístico final: indica la responsabilidad de la publicación del cuadro. A veces resulta Útil indicar la fecha de elaboración. QUE : Población Total Económicamente Activa De 15 Años Y Más DONDE : Del Departamento Cajamarca COMO : Por Nivel Educativo Según Ramas de Actividad CUANDO : Censo de Población 2009.
26 Mg. Miguel Angel Macetas Hernández
4 Es el contenido numérico del cuadro
Estadística General 2013
CUADRO 04 PACIENTES SEGÚN NÚMERO DE LEUCOCITOS /mm3. HOSPITAL REGIONAL DE CAJAMARCA - CAJAMARCA - 2007. Número de Número de Leucocitos Pacientes (ni ) (miles)1/ 5.0 - 5.9 3 6.0 - 6.9 10 7.0 - 7.9 11 8.0 - 8.9 13 9.0 - 9.9 10 10.0 - 11.0 8 Total a/ 55 - Nota de pie. a/. Muestra aleatoria sistemática. 1/. Datos expresados en miles. - Fuente. H.R.C
Porcentaje de Pacientes ( hi % ) 5.5 18.2 20.0 23.6 18.2 14.5 100.0
E. Características: 1. La cuadro estadística debe ser lo más simple posible. 2. Si se utilizan símbolos, abreviaturas, etc., deben explicarse detalladamente en notas de pie de página. 3. Deben ser incluidas las unidades específicas de medida que corresponden a los datos. 4. Deberán consignarse los totales. 5. Si los datos no son originales debe quedar explícita la fuente de donde se ha tomado. 6. Cuando se utilizan escalas cualitativas hay que tener cuidado si se desea comparar datos de una cuadro con otra, ya que en los criterios de clasificación de la variable puede que el entendimiento nuestro de un concepto no coincida totalmente con el de otro investigador. 7. Una cuadro estadística puede ser completada con las frecuencias acumuladas, frecuencias relativas (porcentajes, promedios o razones), etc.
F. Tipos de cuadros. En su forma más general los cuadros pueden dividirse en simples y compuestas.
a) C u a d r o s S i m p l es . Clasifican un fenómeno según una única variable. Ejemplo 27 Mg. Miguel Angel Macetas Hernández
Estadística General 2013
Cuadro 04.
b) C u a d r o s Co m p u e s t o s . Son las que recogen los datos de dos o más variables, cada una de ellas con sus correspondientes criterios de clasificación. Dentro de los cuadros compuestos las que se utilizan con mayor frecuencia son: Las cuadros dobles y las Maestras.
c) C u a d r o s D o b l e s . Resumen información clasificadas según 2 variables, y estas se denominan: Cuadros de contingencia y cuadros de correlación.
d) Cuadro de Conting encia. Cuando ambas variables son cualitativas o mixtas. Ejemplo. El cuadro siguiente muestra una distribución bidimensional (Cuadro de contingencia)
CUADRO 05 REACCIÓN A LA VACUNACIÓN CONTRA EL SARAMPIÓN Y LA RUBÉOLA EN UNA MUESTRA DE 288 NIÑOS DE CAJAMARCA -1994. Vacunados contra sarampión
Vacunados contra rubéola Reacción Positiva Reacción Negativa
T O T A L
Reacción positiva
76
72
148
Reacción negativa
120
20
140
T O T A L
196
92
288
La interpretación a esta cuadro sería la siguiente: de una muestra de 288 individuos, 76 tuvieron reacciones positivas a las dos vacunaciones, 20 individuos tuvieron reacción negativa a ambas pruebas, 120 individuos tuvieron reacción positiva ante la vacuna contra la rubéola, pero negativamente ante la vacuna contra el sarampión, y 72 niños tuvieron reacción negativa a la vacuna contra la rubéola y positiva en la vacuna contra el sarampión.
CUADRO DE CORRELACIÓN. Cuando ambas variables son cuantitativas. Por ejemplo
28 Mg. Miguel Angel Macetas Hernández
Estadística General 2013
CUADRO 06 MUJERES EN EDAD FÉRTIL SEGÚN GRUPO ETÁREO Y NÚMERO DE HIJOS NACIDOS VIVOS - HOSPITAL REGIONAL DE CAJAMARCA - CAJAMARCA – 2007 GRUPO ETÁREO (Años Cumplidos) 15 20 25 30 35 40 45 T o t
2.
Número de Hijos Nacidos Vivos 5y T O T A L 0 1 2 3 4 +
19 24 29 34 39 44 49 a l
Cuadr o Maestra . En este tipo de cuadros todos los criterios de clasificación de
cada una de las variables son sometidos a una clasificación cruzada. Esto da lugar a una perspectiva mucho más amplia, ya que nos permite obtener datos de una única variable o de cualquier combinación de las variables que entran en juego en la cuadro.
Ejemplo. El cuadro muestra la composición por edad, sexo y trabajo de un grupo de personas con Tuberculosis pulmonar en Cajamarca (Esquema) durante 2007.
CUADRO 07 PERSONAS CON TBC SEGÚN EDAD, CONDICIÓN LABORAL Y SEXO - DISTRITO DE CAJAMARCA - 2007 EDAD
TRABAJADORES NO TRABAJADORES T O T A L Hombr Mujere Hombr Mujere Hombr Mujer Total Total Total es s es s es es
15 – 19 20 – 24 25 – 29 . . . 50 – 54 55 – 59 60 ó + TOTAL 29 Mg. Miguel Angel Macetas Hernández
Estadística General 2013
Nota: Con este tipo de cuadros podemos extraer datos de las personas que padecen Tuberculosis en un determinado intervalo de edad (A), también del total de personas que no trabajan y han contraído la TBC (B), y del total de mujeres, ya sean trabajadoras o no, que tienen tuberculosis (C).
2.2. Cuadros de Frecuencias de Variables Discretas Para este tipo de variables cuyo valor sólo se puede expresar por número enteros positivos, los datos que caen dentro de cada clase. Elementos de un cuadro de Frecuencia
Frecuencias Absolutas o Repetidas (f i o ni).- Es el número de veces que se repite un determinado valor de la variable.
Frecuencia Relativa (hi ).- Es el cociente de:
hi
ni n
Frecuencia absoluta o Repeticiones Número de Observaciones
CUADRO Nº 7.8 NUMERO DE NACIMIENTOS EN EL DEPARTAMENTO DE LAMBAYEQUE, POR PROVINCIAS – 2004 Número de Provincias Porcentaje de Nacimientos Nacimientos Lambayeque
n1 = 325
h1
n1
Chiclayo
n2 =330
h2
n2
Ferreñafe
n3 = 289
h3
Total
n = 944
30 Mg. Miguel Angel Macetas Hernández
n n n3 n
325x100
330x100
289x100
944 944 944
100,00
34,43 35,96 30,61
Estadística General 2013
Ejemplo con variables cualitativas Ejemplo. El restaurante "Hay Que Rico" en la ciudad de Chiclayo, usa un cuestionario para conocer la opinión de sus clientes sobre el servicio, la calidad de los alimentos, los cócteles, los precios y el ambiente del restaurante en el mes de julio del 2005. Cada característica se valora en una escala: notable (O), muy bueno (V), bueno (G), mediano (A) y malo (P). Elabore un cuadro estadístico G O V G A O V G O V A G V O P V O G A O O O G O V V A G O V P V O O G O O V O G A O V O O G V A Aplicación de la función de Excel en la Elaboración de Tablas con variables cualitativas
Figura N° 03 Ingreso de los datos
Paso.- 1 Se ubica en la celda A1 (Calidad) Insertar se selecciona tabla dinámica
Figura N° 04 Selección de la tabla dinámica 31 Mg. Miguel Angel Macetas Hernández
Estadística Estadística General 2013
Paso.- 2 En la ventana de Crear tabla dinamica se elije donde se desea colocar el informe de la tabla dinamica
Figura N° 05 Crear tabla dinamica
Paso.- 3 En la ventana de lista de campos de la tabla dinámica se selecciona la variable Calidad en Etiqueta de la fila y de columnas y en Σ valores
Figura N° 06 Seleccionar campos para agregar al informe Hernández 32 Mg. Miguel Angel Macetas Hernández
Estadística Estadística General 2013
Paso.- 4 Insertamos un gráfico un dinámico de barras
Figura N° 07 Insertar grafico
Paso.- 4 Presentación del gráfico de barras de la variable calidad
Grafico N° 01: Grafico de Barras de la variable calidad
Hernández 33 Mg. Miguel Angel Macetas Hernández
Estadística Estadística General 2013 Ejemplo: En un estudio de mercado para determinar la aceptación de un centro comercial Shopping Plaza por departamentos ubicada en la ciudad de Cajamarca, se eligió una muestra de 35 clientes para conocer sus impresiones. Los resultados son los siguientes: Gasto Ingreso Número Forma de Cliente Razón de visita semanal Mensual de hijos Pago 1 Oferta permanente 66.00 1200 2 Efectivo 2 Guardería 72.50 1500 1 Crédito 3 Tarjeta de crédito 79.10 2100 3 Crédito 4 Oferta permanente 82.70 2000 3 Efectivo 5 Guardería 55.30 1500 1 Efectivo 6 Parking amplio 100.10 2200 2 Crédito 7 Aire acondicionado 35.30 1450 3 Efectivo 8 Tarjeta de crédito 60.40 1310 1 Crédito 9 Aire acondicionado 57.20 1150 2 Efectivo 10 Parking amplio 140.00 2320 0 Crédito 11 Tarjeta de crédito 69.10 1350 2 Efectivo 12 Parking amplio 73.10 1640 1 Crédito 13 Guardería 75.30 1680 3 Crédito 14 Aire acondicionado 30.00 1100 0 Efectivo 15 Parking amplio 95.20 1850 2 Efectivo 16 Guardería 65.30 1410 1 Efectivo 17 Tarjeta de crédito 68.00 1580 3 Crédito 18 Parking amplio 115.30 2110 0 Efectivo 19 Parking amplio 130.20 2180 2 Crédito 20 Aire acondicionado 48.40 1640 3 Crédito 21 Guardería 86.00 1840 2 Crédito 22 Parking amplio 102.20 1950 3 Efectivo 23 Oferta permanente 50.10 1230 2 Efectivo 24 Tarjeta de crédito 101.20 2000 2 Crédito 25 Parking amplio 102.20 2810 3 Crédito 26 Oferta permanente 58.10 1530 4 Efectivo 27 Tarjeta de crédito 90.30 1980 2 Crédito 28 Parking amplio 119.10 2900 4 Crédito 29 Oferta permanente 125.10 2680 3 Efectivo 30 Tarjeta de crédito 70.20 1970 2 Crédito 31 Parking amplio 118.40 2560 3 Crédito 32 Oferta permanente 110.10 2180 4 Crédito 33 Tarjeta de crédito 84.30 1980 3 Efectivo 34 Oferta permanente 77.20 2050 2 Crédito 35 Oferta permanente 104.20 2500 4 Crédito
Hernández 34 Mg. Miguel Angel Macetas Hernández
Estadística General 2013 Se copia (Ctrl + C) y se pega (Ctrl + V) al Minitab las 35 observaciones
Figura N° 08: Pantalla del Minitab ingresado los datos
35 Mg. Miguel Angel Macetas Hernández
Estadística General 2013
A. DISTRIBUCIÓN DE FRECUENCIAS DE LA VARIABLE CUALITATIVAS: Realizamos la tabulación de la variable ―Razón de visita‖ procedemos a ejecutar en el Minitab MINITAB: Tabla de frecuencias
1. Paso 1 .- Estadísticas/Tablas/cuenta de variables individuales
Figura N° 09 Estadísticas/Tablas/cuenta de variables individuales se selecciona la variable 2. Paso 2.- En la ventana cuenta de variables indiv iduales ‗Razón de Visita‘. Mostrar Conteos/Porcentajes/ Conteos acumulados porcentajes
acumulados. Aceptar
Figura N° 10 Ventana cuenta de variables individuales Resultado del procesamiento en Minitab
36 Mg. Miguel Angel Macetas Hernández
Estadística General 2013
Figura N° 11 Cuenta de la variable Razón de visita
B. REPRESENTACIÓN GRAFICA DE LA VARIABLE CUALITATIVAS: Realizamos la tabulación de la variable ―Razón de visita‖ procedemos a ejecutar en el Minitab 1. Grafico Circular .- Se trabaja con los valores de las frecuencias Absolutas (n i) frecuencias relativas (h i) como la variables seleccionada es variable cualitativa (Razón de Visita)
Paso 1 .- Gráfica/Gráfica Circular
Figura N° 12 Gráfico circular en minitab
37 Mg. Miguel Angel Macetas Hernández
Estadística General 2013
Paso 2 .- En la ventana de Grafica circular se selecciona Variables Categórica: Razón de visita
Figura N° 13 Grafica Circular
Paso 3 .- En la ventana de Grafica circular se selecciona E tiquetas… Seleccionar la pestaña Etiqueta de división de la gráfica circular con: Nombre de categoría/ Porcentaje /Dibujar una línea de la etiqueta a la división
Figura N° 14 Etiqueta de división de la gráfica circular
38 Mg. Miguel Angel Macetas Hernández
Estadística General 2013
Gráfica circular de Razón de visita Air e acondicion ado 11.4% Tarjeta de crédito 22.9%
Categoría Air e acondicion ado Guardería Oferta permanente Parking amplio Tarjeta de crédito
Guardería 14.3%
Parking amplio 28.6%
Oferta permanente 22.9%
Gráfico N° 02 Gráfico Circular de Razón de visita 2. Gráfico de Barras.- En el eje horizontal representa los valores o las categorías y en el eje vertical se presentan los valores de las frecuencias Absolutas (n i) frecuencias relativas (h i) como la variables seleccionada es variable cualitativa (Razón de Visita)
Paso 1 .- Gráfica/Gráfica de barras…
Figura N° 15 Gráfico barras en minitab
39 Mg. Miguel Angel Macetas Hernández
Estadística General 2013
Paso 1 .- En la ventana Gráfica de barras Las barras representan: Conteos de valores únicos Barras simples/ Aceptar
Figura N° 16: Gráfica de barras
Paso 2.- En la ventana Gráfica de barras – Conteo de valores únicos, simples se selecciona la variable categórica: ‗Razón de visita‘ y se selecciona Opciones de gráficas…
Figura N° 17: Gráfica de barras – Conteo de valores únicos, simples
40 Mg. Miguel Angel Macetas Hernández
Estadística General 2013
Paso 3.- En la ventana Gráfica de barras – Opciones de gráficas Ordenar grupos de X principal por Y descendente/Aceptar
Figura N° 18: Gráfica de barras – Opciones
Paso 4.- En la ventana Gráfica de barras – Conteo de valores únicos, simples se selecciona Etiquetas En Etiquetas de datos se selecciona Usar etiquetas de valor y /Aceptar/Aceptar
Figura N° 19: Gráfica de barras – Etiquetas
41 Mg. Miguel Angel Macetas Hernández
Estadística General 2013
Gráfica de Razón de visita 10
10
8
8
o e t n o C
8
6 5 4
4
2
0 Parking amplio
Oferta permanente Tarjeta de crédito
Guardería
Aire acondicionado
Razón de visita
Gráfico N° 03 Gráfico de barras Razón de visita C. DISTRIBUCIÓN DE FRECUENCIAS DE LA VARIABLE CUANTITATIVAS DISCRETAS: Realizamos la tabulación de la variable ―Número de hijos‖ procedemos a ejecutar en el Minitab 1. Paso 1 .- Estadísticas/Tablas/cuenta de variables individuales
Figura N° 20 Estadísticas/Tablas/cuenta de variables individuales 42 Mg. Miguel Angel Macetas Hernández
Estadística General 2013
se selecciona la variable 2. Paso 2.- En la ventana cuenta de variables indiv iduales ‗Número de hijos‘. Mostrar Conteos/Porcentajes/ Conteos acumulados porcentajes
acumulados. Aceptar
Figura N° 21 Ventana cuenta de variables individuales
Resultado del procesamiento en Minitab
Figura N° 22 Cuenta de la variable Número de hijos
D. REPRESENTACIÓN GRAFICA DE LA CUANTITATIVAS DISCRETAS: Realizamos la tabulación de la variable ‗Número de hijos‘ procedemos a ejecutar en el Minitab
1. Gráfico de Barras.- Se trabaja con los valores de las frecuencias Absolutas (n i) frecuencias relativas (h i) como la variables seleccionada es variable discreta ―Número de hijos‖
43 Mg. Miguel Angel Macetas Hernández
Estadística General 2013
Paso 1 .- En la ventana Gráfica de barras Las barras representan: Conteos de valores únicos Barras simples/ Aceptar
Figura N° 23: Gráfica de barras
Paso 2.- En la ventana Gráfica de barras – Conteo de valores únicos, simples se selecciona la variable categórica: ‗Número de hijos‘ y se selecciona Opciones de gráficas…
Figura N° 24: Gráfica de barras – Conteo de valores únicos, simples
Paso 3.- En la ventana Gráfica de barras – Opciones de gráficas Ordenar grupos de X principal por Y descendente/Aceptar
44 Mg. Miguel Angel Macetas Hernández
Estadística General 2013
Figura N° 25: Gráfica de barras – Opciones
Paso 4.- En la ventana Gráfica de barras – Conteo de valores únicos, simples se selecciona Etiquetas En Etiquetas de datos se selecciona Usar etiquetas de valor y /Aceptar/Aceptar
Figura N° 26: Gráfica de barras – Etiquetas Salida de Minitab Gráfica de Número de hijos 12
12 11
10 8 o e t n o C
6 5 4
4
3
2 0
2
3
1 Número de hijos
4
0
Gráfico N° 04 Gráfico de barras Número de hijos 45 Mg. Miguel Angel Macetas Hernández
Estadística General 2013
2.3. Cuadros de Frecuencias de Variables Continuas Los sueldos mensuales en dólares de 60 empleados de la empresa Z.S.A., son los siguientes: 440 560
335
587
613
400
424
466
565
393
453 650
407
376
470
560
321
500
528
526
570 430
618
537
409
600
550
432
591
428
440 340
558
460
560
607
382
667
512
492
450 530
501
471
660
470
364
634
580
450
574 509
462
380
518
480
625
507
645
382
Construir un cuadro de Frecuencias se aplica el procedimiento siguiente:
Población: Empleados de la empresa Z.S.A (n = 60) Variable: X = sueldo mensual en dólares. Datos:
Xi = sueldo mensual en dólares Xi (i =1, 2, 3,.....,60)
n =60 trabajadores
Determinamos el máximo y mínimo de X i, el sueldo más alto (X max) y el sueldo mínimo (Xmin). X38 = Xmax = 667
X17 = Xmin = 321
1. Recorrido(R): Xmax – Xmin = 667 – 321 =346 2. Elegimos el número de Intervalos (m). Se puede considerar 5 ó 15 intervalos Si aplicamos: Para calcular el número de clases de un cuadro de frecuencias podemos usar las siguientes expresiones ó fórmulas: a) Raíz cuadrada
√
b) Regla de Sturges m =
1 + 3.322 Log(n)
m
=
1 + 3.322 Log(60)
m
=
7 intervalos
c) Regla de Stockes
46 Mg. Miguel Angel Macetas Hernández
Estadística General 2013
3. Determinar la amplitud de los intervalos (C)
ci
X max X min m
667 321 7
49,4285.......
Se puede redondear a 50
4. Construir los intervalos. Como Ci = 50, el recorrido se divide en 7 intervalos o segmentos, cuyo extremos son:
I1 320
370
I2
I3
420
I4 I5 470 520
I6 570
I7 620
670
Utilizaremos un concepto matemático de intervalo abierto (paréntesis) y de intervalo cerrado (corchete). Donde (L i-1 – Li] significa que está abierto por la izquierda y cerrado por la derecha, es decir que en cada intervalo no está incluida el extremo inferior (Li-1) pero si lo está el extremo superior (L i). Forma de expresar: Intervalo de clase (Li-1 – Li] 320 – 370 370 – 420 420 – 470 470 – 520 520 – 570 570 – 620 620 – 670 Punto medio de cada intervalo, es la MARCA DE CLASE se denota con y i donde 320 370 345 y1 2
y4
470 520 2
495
y7
47 Mg. Miguel Angel Macetas Hernández
620 670 2
645
Estadística General 2013
5. Elementos de una cuadro de frecuencia, en toda cuadro de frecuencia se identifica los siguientes elementos:
a) Frecuencia absoluta (ni): Se denomina frecuencia absoluta del valor xi de la variable X, el número de veces ni que se repite ese valor.
b) Frecuencia relativa (hi): Se denomina frecuencia relativa del valor xi de la variable X la relación por cociente entre el número de veces que aparece el valor xi y el número total de valores de la variable (N). hi
ni n
c) Frecuencia absoluta acumulada (Ni): Se denomina frecuencia absoluta acumulada del valor n i a la suma de las frecuencias absolutas de los valores de la variable X anteriores o iguales a n i . Su valor es N i
n con j = 1......i i
d) Frecuencia relativa acumulada (Hi): Es la frecuencia absoluta acumulada dividida por el número total de valores de la variable. Su valor es H i =
Ni N
.
De todas estas definiciones se extraen las siguientes deducciones:
La suma de las frecuencias absolutas sin acumular es igual al número total de los (
n ,= N) i
La última frecuencia relativa acumulada es el total de elementos (n).
La suma de todos las frecuencias relativas acumular es igual
La última frecuencia relativa acumulada es la unidad
La distribución de frecuencias de una variable suele presentarse ordenadamente mediante la tabla de frecuencias siguiente:
48 Mg. Miguel Angel Macetas Hernández
Estadística General 2013
Marca de clase
Frecuencia Absolutas
Frecuencias Absolutas Acumuladas
Frecuencias Relativas
Frecuencias Relativas Acumuladas
Li]
xi
ni
Ni
hi
Hi
x1
n1
N1=n1
x2
n2
N2 = n1+n2
Intervalos de clases
x3
n3
h1=
N3 =n1+n2+n3
. . .
. . .
. . .
. . .
xk
nK
Nk = n1+...+nK =n
Total
n
ni =n
h2=
h3=
n1
H1=
N
n
2
H2=
N n
3
H3=
N
. . . hk =
N1 N N
2
N N 3 N
. . . nk
Hk =
Nk
N
=1.00
N
hi =1
Los Intervalos pueden ser de la siguiente manera: [Li-1 – Li> [Li-1 – Li]
Lectura de la información debe considerar los Signos y Símbolos siguientes: ( – )
No existe el fenómeno que trata
(0)
La cantidad no alcanza a la mitad de la unidad tomada como base
(···)
Informe no disponible.
49 Mg. Miguel Angel Macetas Hernández
Estadística General 2013
Aplicación de la función de Excel en la Elaboración de Tablas Se ingresa los datos sobre el sueldo mensual en dólares de 60 empleados de la empresa Z.S.A., en una columna desde la celda A1 hasta la celda A61.
Determinamos el máximo y mínimo de X i, el sueldo más alto (Xmax =MAX(A2:A61) = 667 y el sueldo mínimo (X min =MIN(A2:A61). = 321
1. Rango ó Recorrido(R): Xmax – Xmin = 667 – 321 =346 Restamos la Celda A2 menos la Celda A3
2. Elegimos el número de Intervalos (m). Se puede considerar 5 ó 15 intervalos Si aplicamos: Para calcular el número de clases de un cuadro de frecuencias podemos usar las siguientes expresiones ó fórmulas: a) Regla de Sturges m = m
=
1 + 3.322 Log(n) 1 + 3.322 Log(60)= 6.907 =1+3.322*LOG(CONTAR(A2:A61))
Para redondear a un entero superior se utiliza la siguiente función =MULTIPLO.SUPERIOR(D7,1) 50 Mg. Miguel Angel Macetas Hernández
Estadística General 2013
m
=
7 intervalos
3. Determinar la amplitud de los intervalos (C)
ci
X max
X min m
667 321 7
49,4285.......
Se divide el rango y el número de Intervalos =D5/E7. También redondear a un entero superior =MULTIPLO.SUPERIOR(D9,1) Se puede redondear a 50
4. Construir los intervalos. Como Ci = 50, el recorrido se divide en 7 intervalos o segmentos, cuyo extremos son: Utilizaremos un concepto matemático de intervalo abierto (paréntesis) y de intervalo cerrado (corchete). Donde (L i-1 – Li] significa que está abierto por la izquierda y cerrado por la derecha, es decir que en cada intervalo no está incluida el extremo inferior (Li-1) pero si lo está el extremo superior (L i). Forma de expresar:
I1
I2
I3
320 370 420
I4 I5
470
I6
I7
520 570
620
670
En el primer intervalo I1 en el límite inferior la observación mínima se le resta una observación porque es intervalo abierto (321 – 1 = 320), para el límite superior al valor obtenido en el límite inferior se suma la amplitud (se fi ja la amplitud con F4)=E16+$E$9 En el segundo intervalo I 2 en el límite inferior es =F16, para para el límite superior =E17+$E$9
51 Mg. Miguel Angel Macetas Hernández
Estadística General 2013
5. Elementos de una cuadro de frecuencia, en todo cuadro de frecuencia se identifica los siguientes elementos:
a) Frecuencia absoluta (ni): Se denomina frecuencia absoluta del valor xi de la variable X, el número de veces ni que se repite ese valor.
Para calcular la Frecuencia absoluta en Excel se tendrá que activar Archivo Opciones Complementos Ir… Herramienta para análisis Se selecciona el Rango de entrada desde la celda A2 hasta A61 y el Rango de Clase F:16 hasta F22
52 Mg. Miguel Angel Macetas Hernández
Estadística General 2013
Por lo tanto las frecuencias quedan determinadas de la siguiente manera
b) Frecuencia relativa (hi): Se denomina frecuencia relativa del valor xi de la variable X la relación por cociente entre el número de veces que aparece el valor xi y el número total de valores de la variable (N). hi
ni n
Se divide H16/$H$23
c) Frecuencia absoluta acumulada (Ni): Se denomina frecuencia absoluta acumulada del valor n i a la suma de las frecuencias absolutas de los valores de la variable X anteriores o iguales a n i . Su valor es N i ni con j = 1......i d) Frecuencia relativa acumulada (Hi): Es la frecuencia absoluta acumulada dividida por el número total de valores de la variable. Su valor es H i =
53 Mg. Miguel Angel Macetas Hernández
Ni N
.
Estadística General 2013
Figura:
54 Mg. Miguel Angel Macetas Hernández
Estadística General 2013 E. DISTRIBUCIÓN DE FRECUENCIAS, DE LA VARIABLE CUANTITATIVA CONTINUA: Se trabajara con la variable “Gasto semanal en la tienda VENDO” Calculo previos para tabular la variable
Paso 1.- Hallar el rango o amplitud de los datos Rango = Observación mayor – Observación menor
Rango = 140.0 – 30.0 = 110.0 Cálculos del Rango con el Minitab
Figura N° 19: Calculo del Rango
Figura N° 20: Calculo de las observaciones mínimas, máximas y el rango
55 Mg. Miguel Angel Macetas Hernández
Estadística General 2013
Figura N° 21: Calculo del Rango
Pasó 2.- Hallar el número de Intervalos (m) Dos maneras: a) Por la experiencia del investigador, usualmente 5
m
b) Por la fórmula de Sturges m
m =
1 3.322 log
1 + 3.322 log (35) = 6.12939
≅
6 Intervalos
Seleccionamos Calc para calcular número de clases
Figura N° 22: Cálculo de Número de Intervalos
56 Mg. Miguel Angel Macetas Hernández
Estadística General 2013
Paso 3.- Hallar la amplitud de los intervalos (C)
≅
• Redondeo por exceso •Igual # decimales que los datos
Paso 4.- Hallar los intervalos de clase Li-1 = límite inferior de la clase i Li = límite superior de la clase i
Frecuencias Absolutas Acumuladas Ni
Intervalos de clases
Frecuencia Absolutas
[Li-1 Li>
ni
[ Observación menor – L 2 >
n1
N1=n1
[L2, – L 3>
n2
N2 = n1+n2
[L3, – L 4>
n3
N3 =n1+n2+n3
. . .
. . .
. . .
Lk-1, – L k >
nK
Nk = n1+...+nK =n
Total
n
ni =n
Los intervalos son los siguientes:
[Li-1
Li>
[L1 = obs. menor [L2 [L3 [L4 [L5 [L6
L1 = L1 +IC = 48.4>
= 30.0
= 48.4 = 66.8 = 85.2 = 103.6 = 122.0
L2 L3 L4 L5 L7
= 66.8> = 85.2> = 103.6> = 122.0> = 140.4>
Paso 5- Tabulación de los datos (conteo de datos) Gasto mensual [Li-1 Li>
Frecuencia absoluta ni
Frecuencia relativa hi %
Frecuencia acumulada absoluta Ni
Frecuencia acumulada relativa Hi %
[ 30.0 – 48.4> [ 48.4 – 66.8> [ 66.8 – 85.2> [ 85.2 – 103.6> [103.6 – 122.0>
2 8 10 7 5
5.71 22.86 28.57 20.00 14.29
2 10 20 27 32
5.71 28.57 57.14 77.14 91.43
[122.0 – 140.4]
3
8.57
35
100.00
nueva variable denominada Gastos en la columna C8 Paso 6- Tabulación de los datos (conteo de datos) con Minitab. Seleccionamos Datos/ Codificar/ Numérico a numérico…
Nota: Creamos una
57 Mg. Miguel Angel Macetas Hernández
Estadística General 2013
Figura N° 23: Codificar de Numérico a numérico
Pasó 6- En la ventana Código – Numérico a numérico se ingresan los valores de los intervalos mencionando a que intervalo corresponde:
Figura N° 24: En la ventana Código – Numérico a numérico se ingresan los valores
58 Mg. Miguel Angel Macetas Hernández
Estadística General 2013
Pasó 7- Mostrar los intervalos con sus respectivos frecuencias absolutas y relativas. Seleccionamos Estadísticas/Tablas/Cuentas de variables individuales seleccionamos C8: Gastos en la ventana de variables. También Conteos/Porcentajes/Conteos acumulados y porcentaje acumulados.
Figura N° 24: Cuentas de variables individuales
Figura N° 25: Cuentas de variables: Gastos
59 Mg. Miguel Angel Macetas Hernández
Estadística General 2013 F. REPRESENTACIÓN GRAFICA DE LA CUANTITATIVAS CONTINUA: Realizamos la tabulación de la variable ‘Gasto semanal’ procedemos a ejecutar en el Minitab Calculo previos para tabular la variable 1. Histogramas Se utilizan para variables continuas o para variables discretas, con un gran número de datos, y que se han agrupado en clases. Paso 1.- Seleccionamos Gráfica/Histograma…
Figura N° 25: Seleccionar Histogramas
Paso 2.- En la ventana Histograma seleccionamos simple/Aceptar
Figura N° 26: Ventana Histogramas
60 Mg. Miguel Angel Macetas Hernández
Estadística General 2013
Paso 3.- En la ventana Histograma simple en la ventana de Variables gráficas: ‘Gasto semanal’
Figura N° 27: Histograma simple
Paso 4.- Se selecciona Escala… selecciona Tipo de escala Y
Figura N° 28: Histograma – Escala
61 Mg. Miguel Angel Macetas Hernández
Estadística General 2013
Paso 5.- En la ventana Histograma – Escala/tipo de escala Y/Porcentaje
Figura N° 29: Histograma – Escala
Paso 6.- Se ejecuta doble click en el Histograma en el e je de X Histograma de Gasto semanal 25
20
e 15 j a t n e c r o P 10
5
0
30
45
60
75 90 Gasto semanal
105
120
Gráfico N° 03: Histograma de Gasto semanal
62 Mg. Miguel Angel Macetas Hernández
135
Estadística General 2013
Paso 7.-
En la ventana Editar Escala se seccionamiento: Tipo de intervalo/Punto de corte. En Definición de intervalo/posiciones de punto medio/punto de corte: 30:140.4/18.4/Aceptar
Amplitud del intervalo Observación
Observación
Mínima
Máxima
Figura N° 30: Histograma – Escala
Histograma de Gasto semanal 30 25 20 e j a t n e 15 c r o P
10 5 0
30.0
48.4
66.8
85.2 103.6 Gasto semanal
122.0
140.4
Gráfico N° 04: Histograma de Gasto semanal 2. Histogramas Se construye con cada punto medio o marca de clase (Xi) de cada 63 Mg. Miguel Angel Macetas Hernández
Estadística General 2013 intervalo se levanta un segmento de altura igual a la respectiva Frecuencias Absolutas (ni ó hi).
Paso 1.- Se copia la marca de clase y frecuencia relativa
Se agrega una clase: 39.2 – 18.4 =20.8
Se agrega una clase: 131.2 + 18.4 = 149.6
Figura N° 31: Marca de clase y Frecuencia Relativa
Paso 2.- Seleccionamos Gráfica/ Gráfica de dispersión…
Figura N° 31: Gráfica de dispersión
64 Mg. Miguel Angel Macetas Hernández
Frec. Rela h = 0.00
Frec. Rela =
Estadística General 2012
Paso 3.- En la ventana Gráfica de dispersión con línea de conexión
Figura N° 32: Gráfica de dispersión
Paso 4.- En la ventana Gráfica de dispersión con línea de conexión: Se agrega en la Variables Y: ‘Frec. Rela’ y Variables X: Marca de Clase
Figura N° 32: Gráfica de dispersión con línea de conexión
Pasó 5.- En la Gráfica de Frec. Rela vs Marca de Clase Doble Crick en eje de Y en la frecuencia Relativa se muestra la venta Editar escala
65 Mg. Miguel Angel Macetas Hernández
Estadística General 2012 Gráfica de dispersión de Frec. Rela vs. Marca de clase 30 25 20 a l e R 15 . c e r F
10 5 0 20
40
60
80 100 Marca de clase
120
140
160
Gráfico N° 05: Polígono de frecuencia de Gasto semanal
Pasó 6.- En la venta Editar escala en el Rango de escala/Mínimo =0/ Aceptar
Figura N° 32: Editar escala
66 Mg. Miguel Angel Macetas Hernández
Estadística General 2012 Gráfica de dispersión de Frec. Rela vs. Marca de clase 30
25 20 a l e R . c 15 e r F
10 5
0
20
40
60
80 100 Marca de clase
120
140
160
Gráfico N° 05: Polígono de frecuencia de Gasto semanal 3. Polígonos Acumulativos de Frecuencias (Ojiva). Aquellos que se desarrollan mediante la marca de clase que tiene coincidencia con el punto medio de las distintas columnas del histograma. En el momento de la representación de todas las frecuencias que forman parte de una tabla de datos agrupados, se genera el histograma de frecuencias acumuladas que posibilita la diagramación del polígono correspondiente.
Paso 1.- Seleccionamos Gráfica/Histograma…
Figura N° 33: Seleccionar Histogramas
67 Mg. Miguel Angel Macetas Hernández
Estadística General 2012
Paso 2.- En la ventana Histograma seleccionamos simple/Aceptar
Figura N° 34: Ventana Histogramas
Paso 3.- En la ventana Histograma simple en la ventana de Variables gráficas: ‘Gasto semanal’
Figura N° 35: Histograma simple
68 Mg. Miguel Angel Macetas Hernández
Estadística General 2012
Paso 4.- Se selecciona Escala… selecciona Tipo de escala Y
Figura N° 36: Histograma – Escala
Paso 5.- En la ventana Histograma – Escala/tipo de escala Y/Porcentaje
Figura N° 37: Histograma – Escala
Pasó 6.- Doble Click en eje de Gasto mensual donde se presenta la ventana Editar escala
69 Mg. Miguel Angel Macetas Hernández
Estadística General 2012 Histograma de Gasto semanal 100
o 80 d a l u m u 60 c a e j a t n 40 e c r o P
20
0
30
45
60
75 90 Gasto semanal
105
120
Gráfico N° 06: Polígono de frecuencia Acumulada
Pasó 7.- En la ventana de Editar Escala/Tipo intervalo/Punto de corte Posiciones de punto medio/punto de corte: 30:140.4/18.4 Aceptar
Figura N° 38: Ventana de Editar Escala
70 Mg. Miguel Angel Macetas Hernández
135
Estadística General 2012 Histograma de Gasto semanal 100
o 80 d a l u m u 60 c a e j a t n 40 e c r o P
20
0
30.0
48.4
66.8
85.2 103.6 Gasto semanal
122.0
140.4
Gráfico N° 06: Polígono de frecuencia Acumulada
4. Diagrama de Tallos y hojas: Permite obtener simultáneamente una distribución de frecuencias de la variable y su representación gráfica. Para construirlo basta separar en cada dato el último dígito de la derecha (que constituye la hoja) del bloque de cifras restantes (que formará el tallo).
Paso 1.- Seleccionamos Tallo y Hoja.
Figura N° 38: Seleccionar Tallo y Hoja
71 Mg. Miguel Angel Macetas Hernández
Estadística General 2012
Gráficos Estadísticos
Primero definiré lo que es un gráfico o diagrama en estadística. Un diagrama es una especie de esquemático, formado por líneas, figuras, mapas, utilizado para representar, bien datos estadísticos a escala o según una cierta proporción, o bien los elementos de un sistema, las etapas de un proceso y las divisiones o subdivisiones de una clasificación. Entre las funciones que cumplen los diagramas se pueden señalar las siguientes:
Hacen más visibles los datos, sistemas y procesos
Ponen de manifiesto sus variaciones y su evolución histórica o espacial.
Pueden evidenciar las relaciones entre los diversos elementos de un sistema o de un proceso y representar la correlación entre dos o más variables.
Sistematizan y sintetizan los datos, sistemas y procesos. Aclaran y complementan las cuadros y las exposiciones teóricas o cuantitativas. El estudio de su disposición y de las relaciones que muestran pueden sugerir hipótesis nuevas.
Algunos de los diagramas más importantes son el diagrama en árbol, diagrama de áreas o superficies, diagrama de bandas, diagrama de barras, diagrama de bloques, diagrama circular, diagrama circular polar, diagrama de puntos, diagrama de tallo y hoja diagrama, histogramas y gráficos de caja y bigote o boxplots.
Clasificación De Los Gráficos Los gráficos podemos clasificarlos en la siguiente forma: A. Gráficos de coordenadas ortogonales.
Con divisiones equidistantes: Cronodiagrama, historiograma, histograma y polígono acumulativo, gráfico en Z, gráfico en escalera, gráfico de banderola, gráfico mixto (La Banda Flaman), curva de frecuencia, estereograma, gráfico de Gantt, gráfico de barras, etc
Con divisiones semi-equidistantes: Cuadriculado logarítmico y semilogarítmico.
72 Mg. Miguel Angel Macetas Hernández
Estadística General 2012 B. Gráficos de coordenadas seudo-ortogonales. C. Gráficos de coordenadas no ortogonales.
Gráficos de coordenadas polares, gráfico en espiral, gráfico triangular equilátero, etc. D. Gráficos sin coordenadas.
De superficies: Gráficos de sectores, gráficos geométricos diversos.
De volúmenes: Cubo, esfera, etc.
De figuras (pictórico).
Cartograma de señalización y densidad.
73 Mg. Miguel Angel Macetas Hernández
Estadística General 2012 E. GRÁFICOS DE LA DISTRIBUCIÓN DE FRECUENCIAS s a d a n e d r O
Las frecuencias (n i, hi, Ni, Hi) siempre son cantidades no negativas ( 0), por lo tanto el grafico de las frecuencias sean para variables discretas como para variables Abscisas c o n t i n u a s , se construye en el primer cuadrante del plano cartesiano o rectangular. En eje de las abscisas (horizontal) se indican los valores de la variable (sean puntos o intervalos), y en el eje de las ordenadas (vertical) se anota el valor de la respectiva frecuencia.
i.
Frecuencias de variable Discreta La representación gráfica de las (n i ó hi) se hace mediante el Diagrama de Frecuencia. Par el efecto, en el eje horizontal se representan los valores Y i, y en el eje verticales representa los valores de las frecuencias (n i ó hi)
ni
2 0
1 8
s a t u 1 l o 5 s b A a 1 i c 0 n e u c 5 e r F
Frecuenc Frecuen Opinión ia cia de los absoluta Relativa Clientes ni hi % A 6 12,5 G 10 20,8 O 18 37,5 P 2 4,2 V 12 25,0 Total 48 100,0
1 2
1 0 6
2 0
A
G
O
P
V
Opinión de los Clientes
Al considerar las frecuencias absolutas acumuladas o relativas acumuladas, la representación gráfica se hace mediante el GRÁFICO ACUMULATIVO DE FRECUENCIAS. En el eje horizontal se colocan los valores de la Marca de Clase (X i), y en el eje vertical los valores Ni ó H i, a continuación, a partir de cada extremo de los segmentos se traza tramos horizontales formando una escalera como se aprecia en el siguiente grafico Intervalo s de clases (Li-1 L ] 16 – 27 27 – 38 38 – 49 49 – 60 60 – 71 71 – 82 82 – 93 Total i
Marca de clase Xi 21,5 32,5 43,5 54,5 65,5 76,5 87,5
Frecuenci Frecuen as cia Absolutas Absolut Acumula as das ni Ni 3 3 5 8 10 18 3 21 8 29 7 36 4 40 40
45 s 40 a t u 35 l o s s a 30 b d a 25 A l s u a m20 i c u n c 15 e A u c 10 e r 5 F
74 Mg. Miguel Angel Macetas Hernández
0 0
20
40
60
Marca de Clase
80
100
Estadística General 2012 18
18 16 14
a t u l o s 12 b A 10 a i c 8 n e 6 u c e 4 r F 2
En el caso de Gráficos de Barras, en el eje horizontal representa los valores de Yi, y en el eje vertical se presentan los valores de las frecuencias Absolutas (ni ó hi)
12 10 6 2
0 A
Para los
Opinión de los Clientes
Gráficos de Sectores
se convierten los valores de las frecuencias Absolutas (ni ó hi) a grados mediante Circulares
Pastel ,
ó
Frecuen Frecuen Convierten cia cia hi % absoluta Relativa A Grados ni hi %
A
6
12,5
360 x12,5
O
P
V
Opinión de los Clientes
En Grad os 45.0
100
G
10
20,8
360 x20,8
74.9
100
O P V Total
ii.
G
18 2 12 48
37,5 4,2 25,0 100,0
135.0 16.3 91.8
Frecuencias de variable Continua En el caso más general, las variables continuas se agrupan en cuadros de frecuencias con intervalos, por lo tanto se trata de representar gráficamente intervalos en el eje horizontal. La representación gráfica de las frecuencias (absolutas o relativas) se hace mediante el Histogram a de Frecuencias , que está constituido por un conjunto de rectángulos, cuya base es igual a la amplitud de un intervalo y la altura igual a la respectiva frecuencia. Para construir el histograma de frecuencias, se indican en el eje horizontal ni
Intervalo s de clases (Li-1 L i ]
10
s a t u l o s b A a i c n e u c e r F
8 6 4 2 0 0
16
27
38
49
60
Límite inferior
71
82
93
16 – 27 27 – 38 38 – 49 49 – 60 60 – 71 71 – 82 82 – 93 Total
Frecuen cia Absoluta s ni 3 5 10 3 8 7 4 40
Otro gráfico que se usa para representar las frecuencias es el Pol ígo no de Fr ecu enc ias , que se construye como sigue: en cada punto medio o marca de clase (X i ) de cada intervalo se levanta un segmento de altura igual a la respectiva frecuencias Absolutas (n i ó h i), luego une los extremos con una línea poligonal, resultando el Polígo no de Frecu enc ias . Para completar los extremos, se extiende el polígono en media amplitud de cada extremo.
75 Mg. Miguel Angel Macetas Hernández
Estadística General 2012 Intervalo s de clases (Li-1 L i ]
Marca de clase Xi
16 – 27 27 – 38 38 – 49 49 – 60 60 – 71 71 – 82 82 – 93
10.5 21,5 32,5 43,5 54,5 65,5 76,5 87,5 98.5
Total
Frecuen cia Absoluta s ni 0 3 5 10 3 8 7 4 0 40
12 a t u l o s b A a i c n e u c e r F
10 8 6 4 2 0 0
10.5
21.5
32.5
43.5
54.5
65.5
76.5
87.5
98.5
Marca de clase
Por su parte, las frecuencias acumuladas (Absolutas o Relativas) se grafican mediante los . De igual manera, en el eje horizontal Polígo no s Ac um ulativo s de Frecuen cias (Ojiva) se ubican los extremos los intervalos y en el eje vertical lo valores de N i, H i. En el extremo superior de cada intervalo se levanta un segmento de altura igual a la respectiva frecuencia absoluta, luego partiendo del extremo inferior del primer intervalo se une, con segmentos de recta, los extremo de los segmentos verticales, obteniendo una línea poligonal que, a partir de la última frecuencia acumulativa, se extiende paralelamente al eje horizontal, obteniéndose la gráfica del Polígo no A cum ulativ o de Frecu encias Marca de clase
Intervalos de clases
Xi
16 – 27 27 – 38 38 – 49 49 – 60 60 – 71 71 – 82 82 – 93 Total
21,5 32,5 43,5 54,5 65,5 76,5 87,5
Años 1990 1991 1992 1993 1994 1995 1996 1997 2008 1999 2000 2001 2002 2003
Frecuencia Frecuenci s Absolutas a Acumulada Absolutas s ni 3 5 10 3 8 7 4 40
Ni 3 8 18 21 29 36 40
45 40 s a t u l o s s a b d a A l s u a i m c u n c e A u c e r F
Demanda de cobre en China 505 600 850 1000 770 1125 1240 1260 1380 1550 1660 1750 1840 1900
76 Mg. Miguel Angel Macetas Hernández
35 30 25 20 15 10 5 0 0
16
27
38
49
60
71
82
93
Intervalo de Clase Demanda de cobre
Gráfico Nº 3.3: Diagrama de dispersión refinado en C hina (miles de toneladas métricas)
2000 1800 a ) 1600 n Y i h = C e 1400 n t e n i 1200 e e r d b n o e 1000 c p e e d d 800 a e l d b n a 600 i a r m a v e ( 400 D
200 0 0 9 9 1
1 9 9 1
2 9 9 1
3 9 9 1
4 9 9 1
5 9 9 1
6 9 9 1
7 9 9 1
8 9 9 1
9 9 9 1
0 0 0 2
Años (variable independiente = X)
1 0 0 2
2 0 0 2
3 0 0 2
Estadística General 2012
CLASIFICACIÓN DE LAS VARIABLES TAMAÑO ESCALA DE DEL MEDICIÓN RECORRIDO
OBJETIVO DEL GRAFICO MOSTRAR DISTRIBUCIÓN DE ASOCIACIÓN ENTRE FRECUENCIAS VARIABLES (DOS O (UNA VARIABLE) MAS) BASTONES 1
0
1
D
2
3
4
I S C R E T A S
BARRAS SIMPLES
BARRAS AGRUPAS
T 8
O
30
7
25
6
20
5 4
15
3
10
D
2
5
1 0
0
A
1
2
3
1
4
SECTOR CIRCULAR
S
100 90
2
3
4
BARRAS COMPUESTAS
80 70 60 50 40 30 20 10 0
C O N T I N U A S
I N T E R V A L O
HISTOGRAMA
40
1
2
3
4
CORRELACIÓN
32
30 30
28
26 20
24
22 10
20
18
0 16,0
18,0
20,0
22,0
24,0
26,0
28,0
30,0
32,0
16 0
10
20
30
O R A Z O N
POLÍGONO DE FRECUENCIAS
LINEAL
60
60
50
50
40
40
30
30
20
20
10
10
0 1
77 Mg. Miguel Angel Macetas Hernández
2
3
4
5
6
7
8
9 10 11 12
0 1
2
3
4
5
6
7
8
9
Estadística General 2012 F. VENTAJAS Y DESVENTAJAS DE LOS GRÁFICOS
Ventajas de los gráficos. a) Síntesis.- Un cuadro con cifras es difícil de estudiar requiriendo a menudo un penoso trabajo analítico para poder descubrir las informaciones que contiene. Por el contrario, mediante un gráfico el investigador hace aparecer las principales características de una serie estadística.
b) Descubrimiento.- El gráfico permite descubrir hechos esenciales, que pasarían desapercibidos al simple examen de los cuadros numéricos.
c) Control.- Permite descubrir anomalías de cálculo o tipográficas, que no son fáciles de hallar en los cuadros.
d) Comparación.- Si el análisis de los datos de una serie en un cuadro, es una labor delicada, la confrontación de los datos de dos series lo es más todavía. En cambio, los gráficos permiten un conjunto de comparaciones a simple vista.
e) Búsqueda de las regularidades.- Los gráficos permiten hallar fácilmente la regularidad de los movimientos de las series cronológicas. También permite destacar la alternancia o repetición de ciertos fenómenos. El Gráfico es un instrumento de investigación científica.
Desventajas de los gráficos a) Ocultamiento.- El gráfico oculta una cierta cantidad de información. En este
sentido es menos preciso que un cuadro. b) Deformaciones.- Por fallas deliberadas o no en la construcción, puede
introducir importantes deformaciones de los hechos. Un dibujante poco escrupuloso puede exagerar o reducir, mediante un mal uso de las escalas y de los trazos, la importancia de un fenómeno. Tal cosa puede ocurrir en gráficos para fines políticos, económicos o publicitarios.
78 Mg. Miguel Angel Macetas Hernández
Estadística General 2012
Construir Una Pirámide Poblacional Elaborar una pirámide poblacional a partir de datos 1. Abre una nueva hoja de cálculo Excel para introducir los datos. 2. Escribe en la primera fila el título de la tabla de Datos: Perú 2011. 3. Introduce los grupos de edad en la primera columna:
En la cabecera de la columna escribe: Edad
A continuación escribe los grupos de Edad: 0-4, 5-9, ..., 80 y más
Al final de la columna escribe: Total
4. En las siguientes columnas escribe los datos, en el siguiente orden: Hombres, Mujeres.
Nota: Los datos de que aparezcan en la columna izquierda de la pirámide (Hombres) deben ser representados con números negativos. Simplemente inserta el signo - antes de cada valor o crea una nueva columna y multiplica la población masculina por –1. 5. Ya que estas trabajando con grandes poblaciones, debes ajustar la escala de la figura, expresando los datos en miles. Puedes hacer esto dividiendo cada celda de datos por 1.000. 6. También puedes transformar los datos de los distintos grupos de edades en porcentaje respecto a la población total. En una nueva columna divide el valor del grupo de edad entre el total de la población.
Creación del Gráfico 1. Selecciona todos los datos -excepto el título y la fila Total- haciendo clic con el ratón y arrastrando a lo largo de los datos de la tabla (A3:C22). 2. Haz clic en el botón As ist ent e para g ráfic os .
Paso 1. Elige Tip o d e gráfic o: B arras , y selecciona el subtipo Barra agrup ada . Pulsa el botón Siguiente.
Pasó 2. Verás la pirámide. Deja los datos como están y pulsa Siguiente.
Pasó 3. Escribe el títu lo d e t u g ráfi c o (p.e., Perú 2001). Deja los otros cuadros en blanco, y pulsa el botón Siguiente.
Pasó 4. Selecciona el botón E n u n a h o j a n u e v a (llama a esta hoja como desees) y pulsa el botón Finalizar.
3. Ya tienes tu pirámide. Es hora de mejorar su apariencia:
Arreglar las barras . Haz doble clic en una de las barras del gráfico. En el cuadro de diálogo Formato de la serie de datos, selecciona la pestaña O p c i o n e s . Configura 79 Mg. Miguel Angel Macetas Hernández
Estadística General 2012 Superposición a 100 y pulsa A n c h o d e l r an g o a 0 y pulsa el botón OK. No
cambies nada más. Las barras del gráfico deben aparecer juntas, sin agujeros.
Arreglar el eje vertical (desplazar las etiquetas de edades hacia la izquierda). Haz doble click en los datos del eje vertical . En el cuadro de diálogo Formato d e ejes , elige la pestaña Tramas y configura los botones de marca de graduación a Ninguno y el botón de rótulos a Inferior .
Arreglar el eje horizontal (eliminar los valores negativos del eje hombres). Haz doble clic sobre los datos del eje horizontal . En la pestaña Número selecciona y escribe en Tipo: 0;0 . Categ o ría: Pers on alizad a
Aplica cualquier otro formato para mejorar la apariencia de la pirámide: colores de las barras, tamaño y tipo de fuentes y títulos, eliminación de rejilla y fondo...
Edades 0-4 5-9 10-14 15-19 20-24 25-29 30-34 35-39 40-44 45-49 50-54 55-59 60-64 65-69 70-74 75-79 80 - + Totales
Hombres 1266429 1352926 1269705 1154745 1072826 918063 857675 768107 691549 561907 449661 296106 238627 177284 139265 92800 136901 11444576
Mujeres 1203652 1298331 1243519 1145976 1097428 958505 894850 816358 729825 592190 471292 319847 261898 204213 163512 113044 95194 11609634
80 Mg. Miguel Angel Macetas Hernández
Totales 2470081 2651257 2513224 2300721 2170254 1876568 1752525 1584465 1421374 1154097 920953 615953 500525 381497 302777 205844 232095 23054210
Edades Hombres Mujeres 0-4 -5.5 5.2 5-9 -5.9 5.6 10-14 -5.5 5.4 15-19 -5.0 5.0 20-24 -4.7 4.8 25-29 -4.0 4.2 30-34 -3.7 3.9 35-39 -3.3 3.5 40-44 -3.0 3.2 45-49 -2.4 2.6 50-54 -2.0 2.0 55-59 -1.3 1.4 60-64 -1.0 1.1 65-69 -0.8 0.9 70-74 -0.6 0.7 75-79 -0.4 0.5 80 - + -0.6 0.4 Totales -49.6 50.4
Estadística General 2012
Pirámide Poblacional Mujeres
Hombres
80- + 75-79 70-74 65-69 60-64 55-59 50-54 45-49 40-44 35-39 30-34 25-29 20-24 15-19 10-14 5-9 0-4 8.0000
6.0000
4.0000
2.0000
0.0000
2.0000
4.0000
6.0000
8.0000
Fuente: Instituto Nacional de Estadística e Informática 81 Mg. Miguel Angel Macetas Hernández
Estadística General 2012
Ejercicios de variables cualitativas 1. Construye una tabla de distribución de frecuencia, haz una gráfica de barras y un diagrama de pastel para una muestra de compras de refresco según la preferencia
de 50 personas: Coke Classi
Sprite
Coke Classic
Pepsi-Cola
Coke Classic Coke Classic
Pepsi-Cola
Diet Coke
Coke Classic
Diet Coke
Coke Classic Coke Classic
Coke Classic
Diet Coke
Pepsi-Cola
Coke Classic Coke Classic Dr. Pepper
Dr. Pepper
Sprite
Diet Coke
Coke Classic Diet Coke
Pepsi-Cola
Coke Classic
Pepsi-Cola
Pepsi-Cola
Coke Classic Pepsi-Cola
Coke Classic
Coke Classic
Pepsi-Cola
Dr. Pepper
Pepsi-Cola
Coke Classic
Coke Classic
Coke Classic
Coke Classic Sprite
Dr. Pepper
Diet Coke
Diet Coke
Pepsi-Cola
Coke Classic Pepsi-Cola
Sprite
Sprite
Dr. Pepper
Pepsi-Cola
Pepsi-Cola
Estadística General 2012
Ejercicios de variables cualitativas 1. Construye una tabla de distribución de frecuencia, haz una gráfica de barras y un diagrama de pastel para una muestra de compras de refresco según la preferencia
de 50 personas: Coke Classi
Sprite
Coke Classic
Pepsi-Cola
Coke Classic Coke Classic
Pepsi-Cola
Diet Coke
Coke Classic
Diet Coke
Coke Classic Coke Classic
Coke Classic
Diet Coke
Pepsi-Cola
Coke Classic Coke Classic Dr. Pepper
Dr. Pepper
Sprite
Diet Coke
Coke Classic Diet Coke
Pepsi-Cola
Coke Classic
Pepsi-Cola
Pepsi-Cola
Coke Classic Pepsi-Cola
Coke Classic
Coke Classic
Pepsi-Cola
Dr. Pepper
Pepsi-Cola
Coke Classic
Coke Classic
Coke Classic
Coke Classic Sprite
Dr. Pepper
Diet Coke
Diet Coke
Pepsi-Cola
Coke Classic Pepsi-Cola
Sprite
Sprite
Dr. Pepper
Pepsi-Cola
Pepsi-Cola
2. Según Nielsen Media Research, los cinco programas de TV más vistos a las 8:00 P.M. del 14 de octubre de 2012 fueron Congo, The X-Files, Holliday in Your Heart, Ellen Foster y Unhappily Ever After. La lista siguiente es una encuesta entre 50 espectadores. Unhappily Ellen
Congo
X-Files
Congo
Ellen
Ellen
X-Files
Ellen
Holliday X-Files
X-Files
Congo
Holliday Congo
Ellen
Congo
Holliday
X-Files
Ellen
Ellen
X-Files
X-Files
X-Files
Ellen
Holliday
Ellen
Ellen
Holliday Holliday Ellen
Unhapily X-Files
Holliday
X-Files
X-Files
Congo
Holliday
Ellen
Holliday
Ellen
Holliday X-Files
Congo
Congo
Holliday
Ellen
Ellen
Ellen
X-Files
a) ¿Traza una gráfica de barras y un diagrama de pastel? b) ¿De acuerdo con la muestra, qué programa tiene la mayor parte del mercado? 3. Se pidió a los alumnos de primer año del Colegio de Administración en la Universidad que indicaran su campo preferido, y se obtuvieron los siguientes datos. 82 Mg. Miguel Angel Macetas Hernández
Estadística General 2012
Campo
Alumnos
Administración
55
Contabilidad
51
F in a n za s
28
Mer cadotecnia
82
Haz una gráfica de barras y el diagrama de pastel. 4. En el censo de 1960 (Dirección General de Estadística de la Secretaría de Comercio y Fomento Industrial) se encontró que la distribución del material predominante en los muros o paredes de las casas era como se muestra en la tabla:
Número de
Material de los muros
viviendas
Proporciones
Porcentajes
Adobe
3 184
0.499
49.9
Tabique
1 547
0.242
24.2
Madera
558
0.087
8.7
Emba rr o
495
0.078
7.8
Ma mposter ía
171
0.027
2.7
76
0.012
1.2
Bloque de material ligero Otr os
349
0.055
5.5
Total
6 380
1.000
100.0
Traza un diagrama de pastel. 5. A continuación vemos datos de una muestra de 55 miembros del Salón de la Fama de Béisbol, en Cooperstown, Nueva York, para cada posición en el campo. En cada caso se indica la posición principal del jugador: lanzador(P), receptor (H), primera base (1), segunda base (2), tercera base (3), parador en corto (S), jardinero izquierdo (L), jardinero central (C) y jardinero derecho (R). L
P
C
H
2
P
R
1
S
S
1
L
2
P
R
P
P
P
P
R
C
S
L
R
P
C
L
C
83 Mg. Miguel Angel Macetas Hernández
Estadística General 2012 P
P
R
P
2
3
P
H
L
P
1
C
P
P
P
S
1
L
R
R
1
2
H
S
3
H
P
b) Construye una gráfica de pastel y otra de barras. c) ¿Qué posición tiene más miembros en el salón de la fama? d) ¿Qué posición tiene menos miembros? 6. Los empleados de Electrónica Moderna tienen un sistema de horario flexible. Pueden comenzar su jornada de trabajo a las 7:00, 7:30, 8:00, 8:30 o 9:00. Los datos siguientes representan una muestra de las horas de entrada que seleccionaron. 7:00 8:30 9:00 8:00 7:30 7:30 8:30 8:30 7:30
7:00
8:30 8:30 8:00 8:00 7:30 8:30 7:00 9:00 8:30
8:00
a) Haz una gráfica de barras y un diagrama de pastel. b) ¿Qué opinas acerca de las preferencias de los empleados en el sistema de horarios flexible?
7. .Durante los primeros 11 meses de 1997, los coches Honda Accord, Chevy Cavalier, Toyota Camry, Honda Civic y Ford Taurus fueron los coches nuevos más vendidos en USA. Se presentan los datos de 50 compras de automóvil en Cleveland, Ohio. Taur us
Civic
Civic
Camry
Camry
Taur us
Civic
Ca va lier Cavalier Taurus Accord Ca va lier
Taur us
Taurus
Camry
Civic
Ca va lier Cavalier Camry Accord Camry
Ca valier
Camry
Camry Camry
Civic
Accord Cavalier Cavalier Accord Camry Taur u
Ca va lier Taur us Accord
Ta ur us
Civic
Civic
Accord Civic
Accord
Camry Camry Accord
Accord Taurus Accord
Civic Taur us
Camry
Traza un diagrama de pastel y di: ¿Cuál es el coche que más se vende?
84 Mg. Miguel Angel Macetas Hernández
Estadística General 2012
8. Cada una de las 500 empresas Fortune se clasifica como perteneciente a uno de varios giros industriales. A continuación vemos una muestra de 20 empresas con su correspondiente ramo industrial.
Compañía
Ramo
Compañí a
Ramo
IBP
Alimentos
Borden
Alimentos
Intel
Electrónica
McDonnell Douglas
Aeroespacial
Coca-Cola
Bebidas
Norton International
Prod. Químicos
Unión Carbide
Prod. Químicos
Quaker Oats
Alimentos
General Electric Electrónica
Pepsico
Bebidas
Motorola
Electrónica
Maytag
Electrónica
Kellog‘s
Alimentos
Textron
Aeroespacial
Dow Chemical
Prod. Químicos
Sara Lee
Alimentos
Campbell‘s Soup Alimentos
Harris
Electrónica
Ralston Purina
Eaton
Electrónica
Alimentos
Elabora una distribución de frecuencias que muestre la cantidad de empresas en cada ramo industrial y traza una gráfica de barras. 9. Para realizar su Índice de Confianza Comercial, la revista Fortune encuestó a 50 altos ejecutivos financieros preguntándoles sus políticas financieras actuales de presupuesto de capital y publicidad. En Noviembre de 2011, los encuestados describieron sus políticas como sigue: Agresiva 57%, Cautelosa 29%, Indecisa 14%. Traza una gráfica de barras y una de pastel que describan las políticas de dichos ejecutivos. 10. Cuando se les pidió clasificar la destreza que se requiere para obtener una alta calificación en un nuevo juego de computadoras como principiante,
aprendiz,
competidor, maestro o experto, 44 evaluadores respondieron de la manera siguiente: experto, maestro, maestro, competidor, experto,
aprendiz,
maestro,
experto,
maestro,
maestro,
maestro,
maestro, maestro, maestro, experto, maestro,
competidor, maestro, maestro, principiante, experto, competidor, maestro, maestro, experto, experto, maestro, maestro, maestro, competidor, competidor, experto, maestro, experto, experto, experto, competidor, maestro, maestro, experto, 85 Mg. Miguel Angel Macetas Hernández
Estadística General 2012
competidor, maestro, maestro y experto. Construye una tabla que indique las frecuencias correspondientes a estas clasificaciones de destreza que se requiere para obtener una alta calificación. 11. En la siguiente tabla se mue st ra la estructura de la fuerza de trabajo en el Perú, por sectores de actividad para los años 2009, 201 0 y 2011 Actividad
2009
2010
2011
65.4
58.3
54.3
Minero, metalúrgico y p etrolero
1.8
1.2
1.2
Electr icidad
0.2
0.3
0.4
Manuf a ctur er o
9.0
11.8
13.8
Construcción e instalación
1.8
2.7
3.6
Tr anspor te
2.5
2.5
3.2
Comercio
9.4
8.3
9.1
Otr as
9.9
14.9
14.3
Total
100.0%
100.0%
100.0%
5857
8273
11 202
Agr opecua r ia
Base de % (miles de habitantes)
Construye un diagrama de barras y un diagrama de pastel.
86 Mg. Miguel Angel Macetas Hernández
Estadística General 2012
CAPITULO Medidas de Resumen 3.1 Medidas de resumen para variables cualitativas
III.
En trabajos de investigación frecuencia se utilizan variables cualitativas, bien por su naturaleza, o por la escala empleada. Por supuesto, una vez que la información se recogió, es necesario calcular alguna medida de resumen cuyo resultado es un indicador que deberá analizarse en un momento posterior. En este tema te presentamos las medidas de resumen para variables cualitativas que se utilizan con mayor frecuencia en los estudios que realizas en el nivel primario de atención de salud.
3.2 Razón e Índice. Definición. Cálculo e interpretación Por razón puede entenderse: Una razón es la relación por cociente que se establece entre las unidades de análisis que pertenecen a un grupo o categoría (a) y las unidades de análisis que pertenecen a otra categoría (b) de la misma variable. Su expresióngeneral es:
¿Ésa es la definición? No te desanimes, es una medida de fácil comprensión. Te la explicaremos con un ejemplo: Supongamos que de los 600 recién nacidos (RN) de un hospital en cierto período, 300 presentaron los ojos oscuros (OO), en tanto que sólo 100 los tenían claros (OC). Aplicando la expresión general, la razón OO/OC es
La razón ojos oscuros/ojos claros es de 3; o lo que es lo mismo, 3:1. Pero, ¿qué significa este resultado? Expresa que hay tres recién nacidos con ojos oscuros por cada recién nacido de ojos claros en ese hospital y en ese período. Fíjate que el numerador y el denominador son disjuntos, es decir, no se interceptan, no están contenidos uno en el otro. Ello te ayudará a establecer las diferencias con las medidas de resumen que estudiarás a continuación. Si multiplicas el resultado obtenido por 100, entonces el nuevo número se denomina índice, de tal suerte que en el ejemplo anterior el índice sería 300. En otras palabras, 87 Mg. Miguel Angel Macetas Hernández
Estadística General 2012
en el hospital de referencia, en el período estudiado, por cada 100 bebés de ojos claros hay 300 de ojos oscuros.
Proporción y Porcentaje. Definición. Cálculo e interpretación Una proporción.- Es la relación por cociente que se establece entre las unidades de análisis que pertenecen a un grupo o categoría (a) de una variable y el total de las unidades de análisis estudiadas (a + b). Su expresión general es
. Si
se multiplica su resultado por 100, se obtendrá el porcentaje Seguiremos utilizando el ejemplo anterior. ¿Lo recuerdas? Por supuesto que sí. Pues bien, determinemos la proporción de niños con ojos oscuros (300) en la población de recién nacidos (400):
Alternativamente, puedes calcular el porcentaje:
Nota: Usamos la P con fines ilustrativos, pues la proporción carece de simbología. Los resultados anteriores significan que tres de cada cuatro recién nacidos tienen los ojos oscuros; o que el 75 por ciento de los recién nacidos tiene los ojos oscuros (y, obviamente, el 25% los tiene claros). ¿No te resultan familiares estas nuevas medidas, o sea, la proporción y el porcentaje? Ya debes estarte preguntando la diferencia que existe entre éstas y la distribución de frecuencias relativas que ya estudiaste. Nada más claro: no es que sean parecidas, son exactamente las mismas, pero restringidas a variables cualitativas. Observa que el porcentaje te permite analizar el aporte, el peso específico o la importancia relativa de cada categoría respecto al total.
Tasas Siempre que necesites medir el riesgo de que acontezca cierto fenómeno en una población determinada, dispones de un indicador valioso y único: las tasas
88 Mg. Miguel Angel Macetas Hernández
Estadística General 2012
Una tasa.- Es una relación por cociente que expresa el riesgo de que ocurra cierto evento en una población y período determinado s. Está compuesta por tres elementos, a saber
Veamos cuáles son esos elementos:
El numerador contiene al número de veces que ocurrió determinado fenómeno en un área geográfica y en un período determinado.
El denominador indica el número de habitantes de la población en la cual puede ocurrir el fenómeno.
k es un múltiplo de 10 cuyo uso está justificado por el hecho de que habitualmente el resultado del cociente es un número fraccionario, y al multiplicarlo por una potencia de 10 se facilita enormemente la lectura y comprensión del indicador.
Esta es una medida que expresa el riesgo de ocurrencia del evento estudiado en el numerador en la población involucrada, en el tiempo y lugar establecidos. Las tasas que más importancia revisten para nuestro desempeño en el campo de la Salud son las siguientes:
Tasas de importancia Relevante en Salud
Tasas relacionadas con la natalidad
Tasas relacionadas con la mortalidad
Tasas relacionadas con la morbilidad
Una particularidad realmente útil de las tasas es que puedes calcularlas tanto para la totalidad de la población, como para parte de ella (por ejemplo, para el grupo de edad de cinco a nueve años, para los estudiantes, para los residentes del área rural, y así por el estilo); por otra parte, puedes calcular las tasas para todas las causas, o solamente para una de ellas (o un grupo de ellas). De este modo, tendrás calculadas tasas brutas, crudas, generales o globales si se tratara de tasas que involucren a toda la población o al total de causas; al tiempo que habrás calculado tasas específicas si incluían a una parte de la población o a una causa o grupo de ellas. Así las cosas, estarás en plena facultad de hallar tasas brutas de mortalidad, de natalidad, o bien específicas por edad, por sexo, por edad y sexo a la vez, entre 89 Mg. Miguel Angel Macetas Hernández
Estadística General 2012
muchas otras. Teniendo a tu disposición los datos adecuados, podrás hallar una tasa tan específica como desees. Existe en punto cardinal en el manejo de las tasas: la población expuesta al riesgo en cuestión. Como ya sabes, este es el denominador de la ecuación, y de su correcta determinación depende la fidelidad del cálculo. Nunca serán suficientes las medidas que tomes para asegurarte que estás empleando el dato acertado. No creas que es muy difícil saber que estás errado o en lo cierto, el problema radica en que muchas veces se pasa por alto este ―detalle‖ de forma involuntaria.
Probablemente te habrás preguntado: «Bueno, ¿y qué tanto problema con el denominador?» ¡Ah! Es que ahí radica el quid de la cosa. Recuerda que calculas una tasa para medir el riesgo de ocurrencia de un evento o fenómeno en una población, pero no en cualquier población, sino en la población expuesta a ese riesgo. Esto quiere decir que sólo podrás calcular la tasa de mortalidad por cáncer de útero en las mujeres de cierta ciudad, puesto que sería imposible calcularla en los hombres; del mismo modo que no puedes calcular la tasa de morbilidad por cáncer de pulmón de los habitantes de Perú en 2009, utilizando para ello a los habitantes del Perú en el año 2009. ¿Satisfecha tu inquietud? También haz de saber que las poblaciones están sometidas a constantes cambios en lo que a su número atañe, determinados por los nacimientos y defunciones y por los movimientos migratorios (emigración e inmigración), que provocan que no sea la misma a lo largo de todo el año. De ahí que, por convenio, se tome la población existente a mediados del período 11 o población media para el cálculo de las tasas. Por otra parte, debes tener especial cuidado al calcular tasas para poblaciones pequeñas, como la que usualmente manejan los Consultorios, pues suelen volverse inestables, ya que cualquier evento ―mueve― mucho la tasa, y a veces no guarda
relación el resultado obtenido con la magnitud del evento acontecido. Bueno, ya estamos en condiciones de particularizar en las tasas más relevantes en la práctica diaria.
90 Mg. Miguel Angel Macetas Hernández
Estadística General 2012
Tasas relacionadas con la natalidad El estudio de la natalidad está relacionado con el número de nacimientos ocurridos en una población y tiempo determinados, así como la distribución que siguen de acuerdo con ciertas características. Como ves, todo gira en torno a la medición de la misma, y una de las formas de conseguirlo es utilizando las tasas. Ahora nos tropezamos con una contrariedad: la población expuesta al riesgo es muy difícil de definir, ya que tener un hijo no involucra a toda la parte femenina de la población, y va más allá, pues otros factores de índole psicosocial actúan en tal decisión. Por estas razones, verás que se han buscado soluciones alternativas a esta situación.
Tasa bruta de natalidad Comencemos por la tasa bruta de natalidad. La misma expresa cómo se comportan los nacimientos en un área y tiempo determinados. Su cálculo es sencillo:
Por ejemplo, la tasa cruda de natalidad de Perú en 2008 fue: Total de nacidos vivos en Perú durante 2008: 151 08012 Total de habitantes en Perú durante 2008: 11 122 308.
Bien, ya tienes el número calculado. Pero, ¿es suficiente con eso? Claro que no, necesitas saber qué significa, a fin de manejarlo apropiadamente. En primer lugar, debes informar el resultado de la siguiente forma: «La tasa bruta de natalidad de Perú en 2008 fue de 14 nacidos vivos por cada 1000 habitantes», ello significa que durante 2008 en Cajamarca nacieron como promedio 14 niños por cada 1 000 habitantes. Esta tasa tiene el inconveniente de no tomar en cuenta a las personas realmente expuestas al evento, pero por su sencillez y facilidad de comprensión es la medida más generalmente utilizada.
91 Mg. Miguel Angel Macetas Hernández
Estadística General 2012
De ahora en adelante nos limitaremos a enseñarte cómo calcular e interpretar el indicador. Continuemos entonces.
Tasa general de fecundidad Este indicador mide la natalidad, pero tomando en cuenta solamente a la población femenina en edad reproductiva o fértil (15 a 49 años). El hecho de que se restringe el denominador no inyecta especificidad a la tasa, pues continúa siendo una mezcla de diversos grupos de edades con situaciones diversas; amén de que se mueve a la par de la tasa cruda de natalidad. Se calcula de la siguiente forma:
Así, la tasa de Cuba en 2008 fue:
Interpretación: En Perú, durante 2008, nacieron como promedio 49 niños por cada 1000 mujeres en edad fértil (15 a 49 años).
Tasa de fecundidad específica por edad Esta es una tasa específica, que usualmente se calcula para grupos quinquenales comprendidos entre 15 y 49 años.
Interpretación: Durante 2008 en Perú nacieron como promedio 56 niños por cada 1000 mujeres de 15 a 49 años de edad.
Tasas de mortalidad La medición de la mortalidad tiene como fin conocer el número de defunciones ocurridas en cierta población durante un período dado, a la vez que se estudia su distribución relacionándolas con diversas características de dicha población. Entrando en la materia que nos ocupa, te decimos a continuación las tasas que podrás calcular. 92 Mg. Miguel Angel Macetas Hernández
Estadística General 2012
Tasa bruta de mortalidad Esta tasa expresa el riesgo que tienen todos los habitantes de cierta población, en un momento dado, de morir por cualquier causa.
En 2008, en nuestro país esta tasa fue:
Esto significa que en 2008, en Perú fallecieron como promedio 7 personas por cada 1000 habitantes.
Tasa de mortalidad por edad Ahora te presentamos una tasa de mortalidad específica, que solo mide el riesgo de morir que tienen las personas del grupo de edad analizado. Su cálculo se logra restringiendo el denominador a las personas de la edad deseada, e incluyendo en el numerador a los fallecidos en esa edad.
Por ejemplo, en 2008, en Perú, la tasa de mortalidad en personas de 60 años y más fue:
Tasa de mortalidad por sexo
El cálculo de esta tasa es muy similar a la anterior, con la diferencia de que te restringes a un sexo en particular. Expresa el riesgo de morir de las personas de ese sexo en esa población, en el período especificado. Para calcularla, sustituye el numerador por el total de defunciones del sexo analizado, y el denominador por el total de habitantes de ese sexo en el lugar y momento deseados.
En nuestro país, durante 2008 la tasa de mortalidad del sexo femenino fue:
Interpretación: en Perú, en 2008 fallecieron como promedio 6 mujeres por cada 1000 féminas. 93 Mg. Miguel Angel Macetas Hernández
Estadística General 2012
Tasa de mortalidad por causa Análogamente, puedes conocer el riesgo a que están sometidos los habitantes de cierto lugar, en un momento definido, de morir por una causa de muerte dada. Ahora el numerador está formado por las defunciones debidas a la causa en cuestión, mientras que el denominador incluye al total de población.
En Perú, durante 2008 la tasa de mortalidad por enfermedades del corazón fue:
Interpretación: en Perú, en 2008 fallecieron como promedio 193 personas por enfermedades del corazón por cada 100 000 habitantes
Tasa de mortalidad infantil Arribamos a un punto de suma importancia al analizar la situación de salud de una comunidad. Este indicador es una especie de diana hacia la cual se dirigen los ojos de todo aquel que, avezado o no, se tome interés en el estudio de las características de una población. Es un indicador que toma como población expuesta al riesgo a los nacidos vivos en período estudiado, y se calcula de la siguiente forma:
A partir del triunfo revolucionario, este indicador ha mostrado una tendencia descendente, llegando a alcanzar en los dos últimos años cifras inferiores a 8, incluyéndose de esta forma entre los países de más baja tasa a escala mundial. En 2008, la tasa cubana fue :
Ello significa que en 2008, en Cuba fallecieron como promedio 7 niños por cada 1000 nacidos vivos . Este indicador tiene la singularidad de que puede descomponerse en varios indicadores, que miden con más especificidad el comportamiento de la mortalidad en el menor de un año. Estos componentes son los siguientes: 94 Mg. Miguel Angel Macetas Hernández
Estadística General 2012
1. Tasa de mortalidad neonatal precoz Al calcular esta tasa conocerás el riesgo de morir de los bebés con menos de siete días de nacidos. Su cálculo estriba en sustituir el numerador de la TMI por las defunciones ocurridas en recién nacidos de menos de siete días en el período y lugar estudiados. En 2008 tuvimos una TMNP de 2.9 por 1000 NV. De este modo, puedes decir que en Perú, durante 2008, fallecieron como promedio 3 niños de menos de 7 días por cada 1000 nacidos vivos.
2. Tasa de mortalidad neonatal tardía Conforme calculaste el riesgo de muerte de los bebitos menores de siete días, puedes conocer también el de siete en adelante y menores de 28 días, cerrando así el diapasón en la etapa neonatal de la vida. Sólo tienes que sustituir el numerador de la tasa anterior por las defunciones de niños de 7 - 27 días en la población de tu interés, durante el período que necesites. Para nuestro país la TMNT en 2008 fue de 1.4 por cada 1000 nacidos vivos, lo que quiere decir que en 2008, en Perú falleció como promedio 1 niño de 7 a 27 días por cada 1000 nacidos vivos.
3. Tasa de mortalidad posneonatal Ahora determinarás el riesgo de muerte de los niños mayores de 28 días y menores de un año. Con sólo sustituir el numerador de la TMI por las defunciones acaecidas en los bebés de 28 días a 11 meses, 29 días y 23:59 horas, habrás cumplido tu cometido. El que el denominador, de los tres componentes de la mortalidad infantil, sea el mismo le imprime a estas tasas una peculiaridad: se puede obtener la mortalidad infantil mediante la simple suma de sus componentes, o lo que es lo mismo, los componentes de la mortalidad infantil son sumables. En Perú, durante 2008, tuvimos una TMP de 2.8 por 1000 NV. Dicho sea con otras palabras: en 2008, en Perú fallecieron como promedio 3 niños mayores de 28 días y menores de un año por cada 1000 nacidos vivos.
Tasa de mortalidad perinatal Esta es una tasa especial que mide el riesgo de morir en los momentos cercanos al nacimiento. Se calcula de la siguiente forma:
95 Mg. Miguel Angel Macetas Hernández
Estadística General 2012
Donde:
DFT: defunciones fetales tardías (edad materna igual o superior a las 28 semanas, o peso fetal de 1000 gramos o más).
DNP: defunciones neonatales precoces (defunciones en el menor de siete días).
NV: nacidos vivos
Tasa de mortalidad materna Aquí tienes otro de los indicadores más celosamente cuidados por todo el personal de salud, bien sabes de ello. La lógica aspiración de todo país interesado realmente en exhibir indicadores de salud ejemplares, es mantener esta medida en niveles bajos, juntamente con la tasa de mortalidad infantil, entre otros. Su cálculo comprende algo que puede inducir extrañeza: el denominador está formado por los nacidos vivos del lugar y tiempo escogidos. Al analizarlo con detenimiento verás que resulta lo más indicado, ya que brinda una estimación mejor del riesgo puesto que este indicador solamente toma en cuenta las defunciones maternas producidas por complicaciones del embarazo, parto o puerperio (entendido como los 42 días siguientes al parto).
La TMM fue de 47.7 por 100 000 NV en 2008 para nuestro país. Esto quiere decir que por cada 100 000 nacidos vivos, murieron en promedio 48 mujeres por causas directamente relacionadas con el embarazo, parto y puerperio durante 2008 en Perú.
Tasas de morbilidad La morbilidad, entendida como el patrón de enfermedades que sufren los habitantes de alguna región, puede ser estudiada numéricamente mediante las tasas de morbilidad. Ellas son la tasa de incidencia, la tasa de prevalencia y la tasa de letalidad. La tasa de incidencia (TI) mide el riesgo que tiene una persona que habita en un lugar y tiempo determinados, de contraer o adquirir cierta enfermedad, visto esto en función del tiempo. Por su lado, la tasa de prevalencia (TP) mide el riesgo de tener la enfermedad, o sea, de estar enfermo; y la tasa de letalidad (TL) expresa la gravedad de la enfermedad. 96 Mg. Miguel Angel Macetas Hernández
Estadística General 2012
Comparación de tasas En ocasiones, pretendemos comparar los riesgos de morir, de enfermar, etc. entre distintas poblaciones o entre distintas categorías o clases de una variable. Para ello, lo más conveniente es utilizar la tipificación, bien por el método directo o por el indirecto; técnicas que no se expondrán en este curso, pues se abordarán en cursos posteriores. Esta técnica solo sirve para comparar, sus resultados no miden en modo alguno el riesgo de ocurrencia de los eventos estudiados en la población
Resumen En este tema estudiaste que: MEDIDAS RESUMEN VARIABLES CUALITATIVAS 41 1. Las medidas de resumen para datos cualitativos más frecuentemente utilizadas son las razones, las proporciones y las tasas. 2. Cada uno de esos indicadores tiene diferente interpretación. Así, los más refinados son las tasas, pues expresan el riesgo de ocurrencia del evento consignado en su numerador. 3. Debes tener cuidado al calcular las tasas para poblaciones pequeñas, por ejemplo, en el Consultorio Médico de la Familia, porque suelen ser inestables. 4. Las tasas pueden dividirse en generales y específicas. 5. En el ámbito sanitario, las tasas más usadas son las de natalidad, mortalidad y morbilidad.
97 Mg. Miguel Angel Macetas Hernández
Estadística General 2012
Ejercicios Un grupo de investigadores recogió algunos datos relacionados con la población cubana del año 2008, con el objetivo de confeccionar indicadores que reflejaran la situación del país. Debido a un virus informático, se estropeó parte de la información almacenada. A continuación te mostramos los datos que se pudieron recuperar. A partir de los mismos, ¿podrías ayudarnos a completar las partes faltantes? Para ello, calcula e interpreta los indicadores solicitados. Información recogida por los investigadores
Nacidos vivos bajo peso: 10 145
Población total: 11 122 308
Nacidos vivos: 151 080
Defunciones totales: 77 558
Total de hombres: 5 571 882
Total de consultas médicas y estomatológicas: 100 819 793
Fallecidos de 15 a 49 años: 10 057
Total de mujeres: 5 550 426
Fallecidos menores de un año: 1 070
Fallecidos de la provincia Guantánamo: 2 722
Casos diagnosticados por enfermedad meningocócica: 44
Fallecidos mayores de 28 días y menores de 12 meses: 417
Población de Guantánamo: 508 864
Hombres fallecidos por tumores malignos: 9 126
Total de nacidos vivos en Sancti Spíritus: 5 642
Mujeres fallecidas: 34 692
Fallecidos menores de 7 días: 435
Población de 15 a 49 años: 6 117 424
Fallecidos mayores de 7 días y menores de 27 días: 218
Nacidos vivos de la provincia Guantánamo: 7 939
98 Mg. Miguel Angel Macetas Hernández
Estadística General 2012
3.3 Medidas de resumen para variables cuantitativas. 3.3.1 Medidas de Posición Centrales (Tendencia Central) Se calcula una medida de tendencia central cuando se necesita un valor único que resuma una serie de datos; por ejemplo: si se presentara la información de ingresantes a Universidad en el año 2012, se puede decir que la edad mediana de los postulantes fue de 18 años.
1. La Media Aritmética Es la medida de tendencia central con la cual probablemente esté usted más familiarizado es la media aritmética; se conoce también como media o promedio; se representa como x y se conoce como "x barra"; la fórmula para calcularla es:
1.1. Para Datos Sin Agrupar media x
x
i
n
Se lee así: la media es igual a ―la suma de las x‘s dividido por n‖. E j em p l o D a t o s S i n A g r u p a r
En un brote de hepatitis A, 6 personas iniciaron síntomas 24 a 31 días después de la exposición. Calcule el promedio del período de incubación en éste brote; los períodos de incubación para las personas afectadas (Xi) fueron: 29, 31, 24, 29,30 y 25
Pasó Uno Para calcular el numerador sume las observaciones individuales x
= 29+31+24+29+30+25= 168
Paso Dos para calcular el denominador cuente el número de las observaciones: n = 6 Paso Tres Para calcular la media divida el numerador sumatoria de las observaciones) entre el denominador (número de las observaciones).
media x
29 31 24 29 30 25 6
168 6
28 días
Entonces, el promedio del período de incubación del brote es 28 días Aplicación de la función de Excel en la Media Aritmética Para Datos Sin Agrupar Se ingresan los datos de los días de incubación desde la celda A1 hasta la A6 y se la función PROMEDIO(A2:A6)
99 Mg. Miguel Angel Macetas Hernández
Estadística General 2012
1.2. Para Datos Agrupados Marca de Clase
media
x
Frecuencia absoluta
x ini
Total de Observaciones
n
Intervalos
Marca de
de clases
clase
(Li-1
Li ]
a Absolutas
xi ni
xi
ni
16 – 27
21,5
3
64,5
27 – 38
32,5
5
162,5
38 – 49
43,5
10
435
49 – 60
54,5
3
163,5
60 – 71
65,5
8
524
71 – 82
76,5
7
535,5
82 – 93
87,5
4
350
40
2235
Total media x
Frecuenci
64,5 162,5 435 163,5 524 535,5 350 40
Hernández 100 Mg. Miguel Angel Macetas Hernández
2235 55,875 40
Estadística General 2012
Interpretación: El puntaje promedio en el rendimiento de la línea de acción educativa de Lenguaje de una muestra de 40 alumnos es 55,875.
1.3. Propiedades de la Media. Aritmética. Sean: x e y : variable k
: constante
M []
: Operador Media Aritmética.
a) M [k] = k b) M [x + k] = M[x] + k c) M[kx] = kM[x] d) M [x y] = M[x] M [y] e) M[x - μ] = 0 f) f) M ((X –M)2) es mínimo si K = X La media aritmética es un indicador de posición sensible a valores extremos.
2. La Mediana (Me) Otra medida de tendencia central es la mediana; como se verá es especialmente útil cuando los datos están sesgados. Mediana significa a la mitad y la mediana es el valor a la mitad de una serie de datos que han sido colocados colocados en orden. Específicamente, la mediana es el valor que divide una serie de datos en dos mitades con una mitad de las observaciones mayores que ésta y la otra mitad menores a la mediana.
Para Datos Sin Agrupar Ejemplo Al Al tener los siguientes datos de presión arterial sistólicas: 110, 120, 122, 130,
180 Mm. de Hg. En este ejemplo, hay dos observaciones mayores y dos menores que 122, luego entonces, la mediana es 122 Mm. de Hg., el valor valor de la 3ª observación. Al obtener la media (132) ésta sería mayor que 4 de los 5 valores.
Cómo Identificar la Mediana de Datos Individuales Paso Uno
Ordene los datos de menor a mayor o viceversa
Paso Dos
Encuentre el rango medio con la siguiente fórmula
n 1
Hernández 101 Mg. Miguel Angel Macetas Hernández 2
Estadística General 2012
Rango mediano = a. Si el número de observaciones observaciones (n) es impar el rango medio cae en una observación. b. n es par el rango medio cae cae entre dos observaciones. observaciones.
Paso Tres Identifique el valor de la mediana a. Si el rango medio cae cae en una observación observación específica (n = impar) la mediana es igual al valor de ésta observación. b. Si el rango medio cae entre dos observaciones (n = par) la mediana es igual al promedio (media aritmética) del valor de estas observaciones.
Ejemplo con Número Impar de Observaciones: n=5
13, 7, 9, 15, 11
1. Ordenar de mayor mayor a menor: 7, 9, 11, 11, 13, 15 o viceversa: 15, 13, 11, 9, 7. 2. Encontrar el rango mediano
n 1 5 1 3 2 2 Rango mediano = Entonces, el rango medio cae en el valor de la 3ª observación. 3. Identificar el valor de la mediana que es igual al valor valor de la tercera observación observación n = 11
Ejemplo con número par de Observaciones: n = 6:
15, 7, 13, 9, 10, 11
1. Ordenar los datos 7, 9, 10, 11, 13, 15 2. Encontrar el rango medio
n 1 6 1 3,5 2 Rango mediano 2= Entonces, el rango medio cae entre el valor de la 3ª y la 4ª observación.
Hernández 102 Mg. Miguel Angel Macetas Hernández
Estadística General 2012
3. Identificar el valor de la mediana que es igual al promedio de la 3ª y 4ª observación 11 10
Mediana
=2
10,5
En contraste con la media, la mediana no está influenciada por valores extremos. Aplicación de la función de Excel en la Mediana Para Datos Sin Agrupar Se ingresan los datos desde la celda A1 hasta la A6 y se la función MEDIANA(A2:A6)
Para Datos Agrupados Para calcular la mediana (Me) a partir de una tabla de frecuencias debe determinarse las frecuencias absolutas acumuladas N i, que permite conocer hasta que el valor de la variable o intervalo se tienen acumulado el 50% de n;
Se Calcula con la Siguiente Fórmula:
Me
n N j1 L ji c j 2 n j
Donde Hernández 103 Mg. Miguel Angel Macetas Hernández
Estadística General 2012
n
=
número total de datos u observaciones
N j
=
es una Ni inmediata superior a
N j-1
=
es una Ni inmediata inferior a
Lj-1
=
extremo inferior del Intervalo Mediano
IMe
=
es el intervalo que corresponde a N j
n j
=
es el n j que le corresponde al Intervalo Mediano
C j
=
amplitud del intervalo mediano
n
2
Ejemplo Calcular el puntaje de rendimiento mediano en la línea de acción educativa de Lenguaje de una muestra de 40 alumnos de un determinado centro educativo
Paso Uno Aquí n = 40 luego
n 2
40 2
20
se compara con los N i se obtiene que 20,
observando en la tabla este valor no coincide con algún N i, está entre 18 y 21, es decir:
18 < 20 < 21
N j1
n
Intervalos de Frecuencia clases (Li-1
IMe=
L j-1
Absolutas Li ]
2
N j
Frecuencias Absolutas Acumuladas
ni
Ni
I1
16 – 27
n1 = 3
N1 = 3
I2
27 – 38
n2 = 5
N2 = 8
I3
38 – 49
n3 = 10
N3 = 18
N j-1
I4
49 – 60
n4 = 3
N4 = 21
N j
I5
60 – 71
n5 = 8
N5 = 29
I6
71 – 82
n6 = 7
N6 = 36
I7
82 – 93
n7 = 4
N7 = 40
Total
40
Reemplazar los valores obtenidos en la fórmula de Me:
Me
40 18 49 11 2 56,33 3
Me
56,33
Hernández 104 Mg. Miguel Angel Macetas Hernández
n j
Estadística General 2012
Interpretación, significa que 20 alumnos tienen calificación iguales o inferiores a 56,33 puntos, y los 20 alumnos restantes (el otro 50%) tienen una calificación superior a 56,33 puntos
3. Moda (Mo) (Valor Modal o Promedio Típico) La moda es el valor que ocurre más frecuentemente en una serie de datos 1.3.1. Para Datos Sin Agrupar
Ejemplo: a) El conjunto: 0, 0, 1, 1, 1, 1, 2, 2, 2, 3, 4, 6 tiene la Mo = 1 b) El conjunto: 4, 8, 12, 15, 26, 35 no tiene moda c) El conjunto: 1, 3, 5, 5, 5, 7, 7, 9, 9, 9, 11 tiene dos modas, 5 y 9 es una distribución ―Bimodas‖.
Aplicación de la función de Excel en la Moda Para Datos Sin Agrupar Se ingresan los datos desde la celda A2 hasta la A12 y se la función
MODA.VARIOS(A2:A12)
1.3.2. Para Datos Agrupados Cuando los datos se agrupan en una tabla de distribución de frecuencias, el modo es el punto medio o marca de clase que contiene la mayor frecuencia. 105 Mg. Miguel Angel Macetas Hernández
Estadística General 2012
Se Calcula con la Siguiente Formula
d1 d1 d2
Mo L j1 C i
Mo
10 5 42,5833 10 5 10 3
38 11
Donde Lj-1
=
Límite inferior del Intervalo Modal
C j =
Amplitud del intervalo Modal
d1 =
n j – n j –1
d2 =
n j – n j+1
Ejemplo Calcular el puntaje de rendimiento más frecuente en la línea de acción educativa de Lenguaje de una muestra de 40 alumnos de un determinado centro educativo Intervalos de Clases (Li-1
Frecuencia Absolutas
Li ]
ni
I1
16 – 27
n1 = 3
I2
27 – 38
n2 = 5
n j-1
IMo=
I3
38 – 49
n3 = 10
n j
L j-1
I4
49 – 60
n4 = 3
n j+1
I5
60 – 71
n5 = 8
I6
71 – 82
n6 = 7
I7
82 – 93
n7 = 4
Total
40
Reemplazando los valores obtenidos en la formula: Mo
10 5 42,5833 10 5 10 3
38 11
Interpretación La Moda indica que la calificación más frecuente en los 40 alumnos es 42,5833 puntos, o también la mayoría de los alumnos tienen una calificación aproximados a los 42,5833 puntos. 106 Mg. Miguel Angel Macetas Hernández
Estadística General 2012
Características de las Medidas de Posición Centrales Media Aritmética 1.
Es una medida totalmente numérica o sea sólo puede calcularse en datos de
características cuantitativas. 2. En su cálculo se toman en cuenta todos los valores de la variable. 3. Es lógica desde el punto de vista algebraico. 4. La media aritmética es altamente afectada por valores extremos. 5. No puede ser calculada en distribuciones de frecuencia que tengan clases abiertas. 6. La media aritmética es única, o sea, un conjunto de datos numéricos tiene una y solo una media aritmética.
Mediana 1. En su cálculo no se incluyen todos los valores de la variable. 2. La Mediana no es afectada por valores extremos. 3. Puede ser calculada en distribuciones de frecuencia con clases abiertas. 4. No es lógica desde el punto de vista algebraico.
Moda 1. En su cálculo no se incluyen todos los valores de la variable. 2. El valor de la moda puede ser afectado grandemente por el método de designación de los intervalos de clases. 3. No está definida algebraicamente. 4. Puede ser calculada en distribuciones de frecuencia que tengan clases abiertas. 5. No es afectada por valores extremos.
107 Mg. Miguel Angel Macetas Hernández
Estadística General 2012
EJERCICIOS PROPUESTOS 1. Una empresa grande de equipos deportivos está probando el efecto de dos planes publicitarios sobre las ventas de los últimos 4 meses. Dadas las ventas que se ven aquí, ¿cuál programa de publicidad parece producir el crecimiento promedio más alto en ventas mensuales?
Mes
Plan 1
Plan 2
Enero
1657,0
4735,0
Febrero
2008,0
5012,0
Marzo
2267,0
5479,0
Abril
3432,0
5589,0
2. Los estadísticos del programa de Meals on Wheels (comida sobre ruedas), el cual lleva comidas calientes a enfermos confinados en casa, desean evaluar sus servicios. El número de comidas diarias que suministran aparece en la siguiente tabla de frecuencia. Calcular la media, mediana y la moda e intérprete.
Número de comidas por día
Número de días
0-5
3
5 - 10
6
10 - 15
5
15 - 20
8
20 - 25
2
25 - 30
3
3. Bill Karl compró 20 acciones a $ 15 cada una, 50 acciones a $20 cada una,100 acciones a $30 cada una y 75 acciones a $35 cada una. ¿Cuál es el precio promedio por acción?. 4. Dado el siguiente cuadro estadístico con ancho de clase constante igual a 20. Determine la media de los datos.
108 Mg. Miguel Angel Macetas Hernández
Estadística General 2012
Li L s
ni
X i
Ni
X i ni
880 1950 35
1800
13 200) 4
70
5. En el curso de Estadística I; se tiene las notas de los alumnos distribuidas según el siguiente histograma de frecuencias, entonces la nota promedio del curso es: 16 14 s o 12 n m u 10 l A e 8 d o r 6 e m ú 4 N
2 0 4
6
8
10
12
14
Notas
6. En una encuesta sobre los ingresos anuales en miles de soles de un grupo de familias se obtuvo la siguiente información:
Li L s
ni
10 – 30
20
30 – 50 50 – 70 70 - 90
20
Además, x 54 y n2 / n3 1 / 5 , calcular el número de familias con ingreso no menos de 50 mil soles. 7. Dada la siguiente distribución de frecuencias, calcular el valor de ―n‖ sabiendo que la moda es 60 y pertenece al tercer intervalo.
Li L s
ni
16 – 32
6
109 Mg. Miguel Angel Macetas Hernández
Estadística General 2012
32 – 48
n
48 – 64
8
64 – 80
3n
80 - 96
3
8. Dada la siguiente distribución de frecuencias, calcular el valor de ―n‖ sabiendo que
la mediana vale 61 .6 y que pertenece al quinto intervalo.
Li L s
ni
20 – 30
3
30 – 40
1
40 – 50
2
50 – 60
6
60 – 70
n
9. El salario promedio mensual pagado a los trabajadores de una compañía es de 200 dólares. Los salarios promedios mensuales pagados a hombres y mujeres de la compañía son 210 y 150 respectivamente. Determinar el porcentaje de hombres y mujeres que trabajan en la compañía. 10. Las ganancias diarias de los establecimientos de un centro comercial se presentan en una tabla de frecuencias con 6 intervalos de clase y se sabe que: la mínima ganancia es de $6, el rango es 36, el promedio de ganancias diarias es $25.14, el 50% de los establecimientos ganan más de 25.58 dólares diarios, H 2=0.15, N2=120, h3=0.25, H5=0.93, n4=304, n2=2n1. Reconstruir la distribución de todas las frecuencias y hallar la ganancia más frecuente y la ganancia promedio. 11. Una compañía minera tiene 100 trabajadores. Para los nombrados el haber máximo es 450 dólares y el mínimo 60 dólares. Hay un 5% de eventuales (en prueba) que trabajan ad-honorem o perciben compensaciones inferiores a $60. Quince trabajadores nombrados perciben haberes inferiores a $250 y el 85% ganan haberes inferiores a $400. Con esta información, calcule las medidas de tendencia central posibles.
110 Mg. Miguel Angel Macetas Hernández
Estadística General 2012
12. La siguiente distribución muestra la producción diaria de un pozo de petróleo (en barriles) durante n días. Halle la medida de tendencia central más adecuada y explique por qué su uso.
Producción
Porcentaje
Menos de 206
20 %
206 – 214
25%
214 – 222
18%
222 – 230
15%
230 – 238
13%
Más de 238
9%
13. Un grupo de 200 estudiantes con estatura inedia de 60.96 pulg. se divide en dos grupos, un grupo con una estatura media de 63.4 pulg. y el otro con 57.3 pulg. ¿ Cuántos estudiantes hay en cada grupo?. 14. En una clase hay 35 estudiantes varones con una edad media de 17. 5 años y 15 estudiantes mujeres las que en promedio son 12% más Jóvenes. ¿Cuál es la edad media de la clase?. 15. Las temperaturas registradas en una ciudad, en grados Fahrenheit (°F), fueron: 51, 60, 58, 62, 57, 49, 52, 62, 61 y 63. Determinar la Media en grados centígrados (°C) sabiendo que: C=(5/9)(F-32). 16. De una muestra de tamaño tres se sabe: la suma de los cubos de las tres observaciones es 1971, la media aritmética es 7 y la mediana es 6. Calcular el valor de cada una de las observaciones. 17. Cien estudiantes divididos en cuatro grupos A, B, C y D dan un examen y obtienen un promedio general de 72 (calificación centesimal). Los puntajes medios de los grupos A, B, C son 75, 62 , 80, respectivamente. Los registros del grupo D se extraviaron; pero se sabe que en el grupo A están el 40% del total de alumnos, en el grupo B un cuarto del total, en el grupo C habían 15 alumnos más que en el grupo D. Determinar el promedio del grupo D.
111 Mg. Miguel Angel Macetas Hernández
Estadística General 2012
18. En una empresa el sueldo promedio por trabajador es de 360 dólares mensuales, los trabajadores manuales constituyen el 40% del total y reciben el ¼ del monto dela planilla, ¿cuánto recibe en promedio cada trabajador manual?. 19. Los costos de fabricación, en soles, de diez objetos son los siguientes: 9.35, 9.46, 9.20, 9.80, 9.77, 9.00, 9.99, 9.36, 9.50, 9.60, si el precio de venta de cada objeto es 3 veces su costo de fabricación menos 5 soles, calcular la utilidad media por objeto. 20. De las edades de cuatro personas, se sabe que la media es igual a 24 años, la mediana es 23 y la moda es 22. Encuentre las edades de las cuatro personas. 21. Para calcular el suministro de agua que una ciudad requiere mensualmente, se escogen 15 familias de la ciudad, resultando los siguientes consumos en metros cúbicos; 11.2, 21.5, 16.4, 19.7, 14.6, 16.9, 32.2, 18.2, 13.1. 23.8, 18.3, 15.5, 18.8, 22.7, 14.0. Si en la ciudad hay 5,000 familias, ¿cuántos metros cúbicos de agua se requieren mensualmente si el consumo promedio por familia permanece igual?. 22. El sueldo promedio de 200 empleados de una empresa es S/400. Se proponen dos alternativas de aumento: a) S/. 75 a cada uno, b) 15% de su sueldo más 10 soles a cada uno. Si la empresa dispone a lo más de S/. 94,000 para pagar sueldos, ¿cuál alternativa es más conveniente?. 23. Al calcular la media de 125 datos, resultó 42. Un chequeo posterior mostró que en lugar del valor 12.4 se introdujo 124. Corregir la media. 24. De una central telefónica salieron 70 llamadas de menos de 3 minutos promediando 2.3 minutos, 40 llamadas de menos de 10 minutos pero no menos de 3 minutos, promediando 6.4 minutos, y 10 llamadas de al menos 10 minutos promediando 15 minutos. Calcular la duración promedio de todas las llamadas. 25. Cuatro fábricas A, B, C y D, producen un mismo objeto. La fábrica B produce el doble de C, la D 10% menos que la C y la A el 60% menos que la B. Los costos de producción (en dólares) por unidad de estas fábricas son respectivamente: 0.2, 0.3, 0,2, y 0.5. Calcular el precio medio de venta si se quiere ganar el 20% por unidad. 26. El sueldo medio de los obreros de una fábrica es de $286. 112 Mg. Miguel Angel Macetas Hernández
Estadística General 2012
a) ¿Que porcentajes de hombres y mujeres trabajan en la fábrica si sus sueldos medios respectivos son $300 y $260?. b) Si el 60% de los obreros tienen menos de 30 años y percibe el 20% del total de los sueldos, ¿cuánto es el sueldo medio de los obreros de al menos 30 años? 27. En una empresa donde el sueldo medio es de $400 se incrementa un personal igual al 25% del ya existente con un sueldo medio igual al 60% de los antiguos. Si 3 meses más tarde se incrementan cada sueldo en 20%, más 30$, ¿cuánto es el nuevo salario medio?. 28. Al tabular las calificaciones de un examen se obtuvieron las siguientes notas: 07, 08, 09, 10, 11, 12, 13, 14, 15, 16, 17 y las frecuencias del número de alumnos respectivas: 1, 1, 1, 1, 1, 6, 8, 16, 18, 20, 2. ¿Cuánto es la media, la mediana y la moda de las notas?, ¿qué valor escogería como el promedio?. 29. Los sueldos en una empresa varían de $300 a $800 distribuidos en forma simétrica en 5 intervalos de igual amplitud, con el 15%, 20%, y 30% de casos en el primer, segundo y tercer intervalo respectivamente. Calcule los diferentes indicadores de tendencia central.
113 Mg. Miguel Angel Macetas Hernández
Estadística General 2012
4. Media Geométrica: X G , G La media geométrica proporciona una medida precisa de un cambio porcentual promedio en una serie de números.
Se utiliza con más frecuencia para calcular la tasa de crecimiento porcentual promedio de series de datos, a través del tiempo.
Es una medida de tendencia central por lo general menor que la media aritmética salvo en el extraño caso en que todos los incrementos porcentuales sean iguales, entonces las dos medias serán iguales.
Se le define como la raíz enésima del producto de ―n‖ valores. Cuando los datos
son bastantes o cantidades grandes, para facilitar el cálculo se lo debe simplificar pero sin alterar su naturaleza, para lo cual se puede utilizar los logaritmos de base 10.
CÁLCULO DE LA MEDIA GEOMÉTRICA: a) Datos Originales: 1
X G
n n n x1 , x 2 ,... xn Xi i 1
b) Datos agrupados l
X G
n x , x ... x n1 1
n2 2
nm m
m ni n . Xi i 1
Aplicando logaritmos tenemos:
X G
m
1
ni log Xi log Xi n i 1
Entonces:
X G
10 log x
La media geométrica se utiliza los datos tienen crecimiento geométrico: población, montos de capital, producción
1.3.3. Propiedad: X G < X
114 Mg. Miguel Angel Macetas Hernández
Estadística General 2012
Ejemplo La media geométrica es útil en el cálculo de tasas de crecimiento; por ejemplo, si el crecimiento de las ventas en un pequeño negocio son 3%, 4%,8%,9% y 10%, hallar la media de crecimiento.
Respuesta: 6.128% Utilizando logaritmo
Empleando Excel se calcula insertando la función MEDIA.GEOM.
115 Mg. Miguel Angel Macetas Hernández
Estadística General 2012
Calcular la tasa de crecimiento promedio a la que ha variado las ventas de cierto producto con base a la siguiente tabla:
Mes
Enero
Febrero
Marzo
Abril
Mayo
Junio
Ventas
500
550
600
700
800
850
Solución: Es necesario calcular el porcentaje que las ventas de cada mes representan respecto de los obtenidos el mes anterior. Mes
Ventas
Porcentaje del mes anterior
Enero
500
Febrero
550
550/500=1,100
Marzo
600
600/550=1,091
Abril
700
700/600=1,167
Mayo
800
800/700=1,143
Junio
850
850/800=1,063
Calculando la media geométrica se obtiene:
Restando 1 para convertirlo a un incremento mensual promedio da 1,112-1 =0,112, o un incremento promedio de 11,2% para el período de 6 meses. Comprobación: Mes Enero Febrero Marzo Abril Mayo Junio
Ventas 500 550 600 700 800 850
Ventas calculadas con G 500 x 1.112 = 556,000 556 x 1.112 = 618,272 618,272 x 1.112 = 687.518 687,518 x 1,112 = 764.52 764.52 x 1.112 = 850.146
Se puede observar que el valor de 850.146 calculado con la media geométrica es semejante al valor de venta real de 850, por lo tanto el valor calculado para la media geométrica está correcto.
116 Mg. Miguel Angel Macetas Hernández
Estadística General 2012
Para Datos Agrupados en Tablas de Frecuencias Se emplea la siguiente ecuación:
∑
Donde:
ni = frecuencia absoluta de cada dato xi Ejemplo Calcular la media geométrica para las siguientes calificaciones de Estadística: xi
ni
4
5
6
8
8
9
9
10
10
8
Solución: Se llena la siguiente tabla, realizando los cálculos respectivos: xi
ni
log x i
log x i ni
4
5
0.602
3.010
6
8
0.778
6.225
8
9
0.903
8.128
9
10
0.954
9.542
10
8
1.000
8.000
Total
40
Se aplica la siguiente ecuación para obtener la respuesta.
117 Mg. Miguel Angel Macetas Hernández
34.906
Estadística General 2012
5. Media Armónica: X H , H La media armónica se define como el recíproco de la media aritmética de los recíprocos
PROPIEDADES
Es un promedio que se utiliza para el cálculo del costo promedio y todo tipo de variables expresadas en tasas o porcentajes. como por ejemplo: velocidad/distancia, productividad/tiempo, etc
La media armónica no está definida en el caso de la existencia en el conjunto de valores nulos.
Cuando la unidad constante o unidad de evaluación es igual a la unidad del numerador de una razón,
se usa el promedio armónico, y si es igual a la unidad del denominador se usa el promedio aritmético.
CÁLCULO DE LA MEDIA ARMÓNICA: a) Datos Originales: X H
n n
Xi1 i 1
Ejemplo: La velocidad de producción de azúcar de tres máquinas procesadoras son 0,5, 0,3 y 0,4 minutos por kilogramo. Hallar el tiempo promedio de producción después de una jornada de 4800 minutos del proceso
Solución: Como en la razón minutos/kilogramos (min/kg) cada máquina trabaja 4800 min, la razón contante es el tiempo de trabajo (4800 min), es decir la contante es la unidad del numerador, por lo tanto se debe emplear el promedio armónico
118 Mg. Miguel Angel Macetas Hernández
Estadística General 2012
Empleando Excel se calcula insertando la función MEDIA.ARMO
b) Datos Agrupados: Se emplea cualquiera de las siguientes ecuacion X H
n n ni
Xi i 1
Propiedad: X H < X G < X Ejemplo: En la siguiente tabla se presentan los datos sobre el tiempo en horas que se demoran en realizar la misma obra determinados obreros. Calcular el tiempo promedio que se demora en realizar la obra un obrero tipo (un obrero promedio). Tiempo 4 5 6 7 9
119 Mg. Miguel Angel Macetas Hernández
Obreros 4 5 7 2 2
Estadística General 2012
Para Datos Agrupados en Intervalos Se emplea la siguiente ecuación
X H
n
n ni
Xi i 1
Ejemplo: En la siguiente tabla se presentan los datos sobre el tiempo en minutos que se demoran para resolver una prueba de Estadística determinados estudiantes. Calcular el tiempo promedio que se demora en resolver la prueba un estudiante tipo. Tiempo [40-50) [50-60) [60-70) [70-80) [80-90]
Estudiantes 4 8 10 7 11
Solución: Realizando los cálculos respectivos se obtiene: [40-50) [50-60) [60-70) [70-80) [80-90] Total
ni 4 8 10 7 11 40
xi 45 55 65 75 85
Aplicado la ecuación se obtiene:
120 Mg. Miguel Angel Macetas Hernández
ni/xi 0,089 0,145 0,154 0,093 0,129 0,611
Estadística General 2012
IV.
CAPITULO Estadígrafos de Tendencia No central
4.1. Estadígrafos de Tendencia No central La medida de posición no central son valores cuyas posiciones en las series ordenadas de los datos permiten dividir a estos en grupos, cada grupo contiene igual número (porcentaje). A estas medidas se conocen con el nombre genérico de cuantiles . Los cuantiles más importantes son los cuartiles
A. Los Cuartiles Para Datos No Agrupados La posición o ubicación de los cuartiles se encuentra aplicando la siguiente ecuación:
* +
Donde n = Número total de datos K = Número del cuartil
Ejemplo Encuentre los cuartiles dada la siguiente distribución, y represéntelos gráficamente mediante un diagrama de caja y bigotes: 6, 9, 9, 12, 12, 12, 15 y 17
Solución: Para calcular los cuartiles se ordena los datos de menor a mayor 6
9
9
12
12
12
15
17
Aplicando la ecuación para el cuartil uno se obtiene:
[ ] Como la posición del cuartil 1 es 2.5, su valor es el promedio de los datos segundo y tercero
O también la posición 2.5 dice que el cuartil 1 está ubicado al 50% del trayecto comprendido entre el segundo dato, que es 9 y el tercer dato que es 9, es decir, Q1= 9+0.5 (9-9) = 9
Interpretación: Este resultado indica que el 25% de los datos es inferior a 9
121 Mg. Miguel Angel Macetas Hernández
Estadística General 2012
En Excel se calcula insertando la función CUARTIL.INC
Aplicando la ecuación para el cuartil dos se obtiene:
[ ] O también la posición 4.5 dice que el cuartil 2 está ubicado al 50% del trayecto comprendido entre el cuarto dato, que es 12 y el quinto dato que también es 12, es decir, Q2= 12+0,5(12-12) = 12
Interpretación: Este resultado indica que el 50% de los datos es inferior a 12 Aplicando la ecuación para el cuartil tres se obtiene:
[ ] O también la posición 6,5 dice que el cuartil 2 está ubicado al 50% del trayecto comprendido entre el doceavo dato, que es 12 y el quinceavo dato que 15, es decir, Q3= 12+0,5(15-12) Q3= 12+0.5 (3)=12+1,5=13,5
Interpretación: Este resultado indica que el 75% de los datos es inferior a 13,5
122 Mg. Miguel Angel Macetas Hernández
Estadística General 2012
B. Para elaborar un diagrama de caja y bigotes es necesario saber: Un diagrama de caja y bigotes es una representación gráfica que ayuda a visualizar una distribución de datos: caja desde Q 1 a Q3 (50% de los datos), y bigotes el recorrido (distancia desde valor mínimo hasta el valor máximo). Para elaborar un diagrama de caja se procede de la siguiente manera: a) Se marca los valores de la serie de datos sobre el eje horizontal o vertical. b) Se ubica sobre el eje el valor mínimo, primer cuartil, mediana o segundo cuartil, tercer cuartil y el valor máximo. c) Se construye un rectángulo (caja) paralelo al eje, de longitud desde Q1 a Q3 y anchura arbitraria. De acuerdo al ejemplo ilustrativo se tiene: Valor mínimo = 6 Q1 = 9 Q2 = 12 Q3 = 13,5 Valor máximo = 17
123 Mg. Miguel Angel Macetas Hernández
Estadística General 2012
Datos agrupados Los cuartiles son estadígrafos de posición que dividen al total de las observaciones, debidamente ordenados o tabulados, en cuatro partes de igual tamaño. Para calcular los cuartiles se utiliza la siguiente formula jn N J 1 Q j L i 1 C j 4 n j
Donde L j-1 = C j = j = n = N j =
Límite inferior del Intervalo del Cuartil Amplitud del intervalo Cuartill El número de Cuartil j = 1, 2 y 3 Número total de observaciones o datos. Es un inmediato superior a jn 4
N j-1
=
Es una Ni inmediata inferior a
n j =
Es el n j que le corresponde al Intervalo
jn 4
a) Primer Cuartil (Q1) Calcular el puntaje de rendimiento mediano en la línea de acción educativa de Lenguaje de una muestra de 40 alumnos de un determinado centro educativo
Paso Uno Aquí n = 40 y j =1 luego
jn
4
1x 40 4
10
se compara con los N i se obtiene que 10,
observando En la tabla este valor no coincide con algún N i, está entre 8 y 10, es decir: 8 < 10 < 18 Intervalos de clases
(Li-1 I1
IQ1=
L j-1
Li ]
16 – 27
Frecuencia Absolutas
ni
Frecuencias Absolutas Acumuladas
n1 = 3
Ni N1 = 3
I2
27 – 38
n2 = 5
N2 = 8
I3
38 – 49
n3 = 10
N3 = 18
I4
49 – 60
n4 = 3
N4 = 21
I5
60 – 71
n5 = 8
N5 = 29
I6
71 – 82
n6 = 7
N6 = 36
I7
82 – 93
n7 = 4
N7 = 40
Total 124 Mg. Miguel Angel Macetas Hernández
40
N j-1 N j n j
Estadística General 2012
Reemplazando los valores obtenidos en la fórmula: 10 8 40,2 Q1 38 11 10 Interpretación Que el 25% del total de alumnos, es decir 10 de ellos tienen una puntuación inferior o igual a 40,2 puntos, y los 30 restantes, o sea el 75% de trabajadores, tienen un puntaje superior a 40,2 puntos.
b) Segundo Cuartil (Q2) Calcular el puntaje de rendimiento mediano en la línea de acción educativa de Lenguaje de una muestra de 40 alumnos de un determinado centro educativo
Paso Uno Aquí n = 40 y j =2 luego
jn
observando
4
2x 40 4
se compara con los N i se obtiene que 20,
20
En la tabla este valor no coincide con algún N i, está entre 18 y 21, es decir: 18 < 20 < 21
IQ2=
L j-1
Intervalos de clases
Frecuencia Absolutas
Frecuencias Absolutas Acumuladas
(Li-1
ni
Ni
Li ]
I1
16 – 27
n1 = 3
N1 = 3
I2
27 – 38
n2 = 5
N2 = 8
I3
38 – 49
n3 = 10
N3 = 18
N j-1
I4
49 – 60
n4 = 3
N4 = 21
N j
I5
60 – 71
n5 = 8
N5 = 29
I6
71 – 82
n6 = 7
N6 = 36
I7
82 – 93
n7 = 4
N7 = 40
Total
40
Reemplazando los valores obtenidos en la fórmula: 2x40 18 4 Q 49 11 56,33 2 3 125 Mg. Miguel Angel Macetas Hernández
n j
Estadística General 2012
Interpretación Que el 50% del total de alumnos, es decir 20 de ellos tienen una puntuación inferior o igual a 56,33 puntos, y los 20 restantes, o sea el 50% de trabajadores, tienen un puntaje superior a 56,33 puntos.
c) Tercer Cuartil (Q3) Calcular el puntaje de rendimiento mediano en la línea de acción educativa de Lenguaje de una muestra de 40 alumnos de un determinado centro educativo jn 3 x 40 30 Paso Uno 4 4 Aquí n = 40 y j =3 luego se compara con los Ni se obtiene que 30, observando en la tabla este valor no coincide con algún N i, está entre 29 y 36, es decir: 29 < 30 < 36
IQ3=
L j-1
Intervalos de clases
Frecuencia Absolutas
Frecuencias Absolutas Acumuladas
(Li-1
ni
Ni
Li ]
I1
16 – 27
n1 = 3
N1 = 3
I2
27 – 38
n2 = 5
N2 = 8
I3
38 – 49
n3 = 10
N3 = 18
I4
49 – 60
n4 = 3
N4 = 21
I5 I6
60 – 71
n5 = 8
N5 = 29
N j-1
71 – 82
n6 = 7
N6 = 36
N j
82 – 93
n7 = 4
N7 = 40
I7
Total
n j
40
Reemplazando los valores obtenidos en la fórmula: 3x40 29 4 Q 71 11 39,57 3 7 Interpretación Que el 75% del total de alumnos, es decir 30 de ellos tienen una puntuación inferior o igual a 39,57 puntos, y los 10 restantes, o sea el 25% de trabajadores, tienen un puntaje superior a 39,57 puntos. 126 Mg. Miguel Angel Macetas Hernández
Estadística General 2012
C. Deciles Definición Son cada uno de los 9 valores D 1, D2, D3, D4, D5, D6, D7, D8, D9 que dividen a la atribución de los datos 10 partes iguales. El primer decil es igual al décimo percentil (D 1=P1), el segundo decil es igual a veinteavo percentil (D 2=P20), y así sucesivamente.
Para Datos No Agrupados La posición o ubicación de los deciles se encuentra aplicando la siguiente ecuación
* +
Donde n = Número total de datos K = Número del cuartil
Ejemplo Ejemplo: Calcular el quinto decil de la siguiente distribución: 6, 9, 9, 12, 12, 12, 15 y 17
Solución: Para calcular los deciles se ordena los datos de menor a mayor. 6
9
9
12
12
12
15
17
Aplicando la ecuación para el quinto decil se obtiene:
[ ]
O también la posición 4,5 dice que el decil 5 está ubicado al 50% del trayecto comprendido entre el cuarto dato, que es 12 y el quinto dato que también es 12, es decir, D5= 12+0,5(12-12) = 12 En Excel se calcula de la siguiente manera:
127 Mg. Miguel Angel Macetas Hernández
Estadística General 2012
Como D5 es igual a P50 se introduce la función PERCENTIL.INC
Datos Agrupados en Tablas de Frecuencia Se emplea la misma ecuación utilizada en el cálculo de los deciles para datos sin agrupar. Para Datos Agrupados en Intervalos Se emplea la siguiente ecuación:
jn N J 1 10 D j Li 1 C j n j Donde L j-1 = C j = j = n = N j =
Límite inferior del Intervalo de clase del decil Amplitud del intervalo Decil El número de Decil j = 1, 2, 3,…,9 Número total de observaciones o datos. Es un inmediato superior a jn 10
N j-1
=
Es una Ni inmediata inferior a
jn 10
n j =
Es el n j que le corresponde al Intervalo
128 Mg. Miguel Angel Macetas Hernández
Estadística General 2012
D. Percentiles o Centiles Son cada uno de los 99 valores P 1, P2, P3,……..P99 que dividen atribución de los datos en 100 partes iguales.
Datos No Agrupados La posición o ubicación de los percentiles se encuentra aplicando la siguiente ecuación:
* +
Donde: n = número total de datos k = número del percentil
Ejemplo: Calcular los percentiles de orden 20 y 33 del peso de diez personas que pesan (en kg) 80, 78, 65, 73, 65, 67, 72, 68, 70 y 72 Solución: Se ordena los datos de menor a mayor se tiene: 65
65
67
68
70
72
72
73
78
80
1) Cálculo del percentil de orden 20 se obtiene:
[ ]
En Excel se obtiene un valor aproximado insertando la función PERCENTIL.INC
129 Mg. Miguel Angel Macetas Hernández
Estadística General 2012
Cálculo del percentil de orden 33 se obtiene :
[ ] Datos Agrupados en Tablas de Frecuencia Se emplea la misma ecuación utilizada en el cálculo de los percentiles para datos sin agrupar. c) Para Datos Agrupados en Intervalos Se emplea la siguiente ecuación:
jn N J 1 P j Li 1 C j 100 n j
Donde L j-1 =
Límite inferior del Intervalo de clase del Percentil
C j =
Amplitud del intervalo Percentil
j
El número de Percentil j = 1, 2, 3,…,99
=
n =
Número total de observaciones o datos.
N j =
Es un inmediato superior a
jn 100
N j-1
=
Es una Ni inmediata inferior a
jn 100
n j =
Es el n j que le corresponde al Intervalo
130 Mg. Miguel Angel Macetas Hernández
Estadística General 2012
EJERCICIOS 1. Las edades de 50 de los directores ejecutivos de las mejores corporaciones de la nación reportadas aparecen en la siguiente tabla de frecuencias. Calcule e interprete la media, la mediana y la moda. Además, calcule e interprete: Q 1, Q2, D10, D60, P15, P90.
Edades
Frecuencias
50 y menos de 55
8
55 y menos de 60
13
60 y menos de 65
15
65 y menos de 70
10
70 y menos de 75
3
75 y menos de 80
1
2. La siguiente información corresponde al consumo mensual en combustible destinado a calefacción, expresado en miles de $, en una muestra aleatoria de hogares de un barrio de Santiago, durante los meses de invierno: Consumo ($miles) 4 – 6 6 – 8 8 – 10 10 – 12 12 –14
Nº de casos 17 26 14 9 11
a. ¿Qué consumo deja bajo sí al 25% de los consumos más bajos? b. ¿Qué consumo deja sobre sí al 15% de los consumos más altos? 3. La siguiente distribución corresponde a la recaudación de impuestos de 40 contribuyentes. (Recaudación de impuestos en miles de pesos). [L i −1 − L i ]
50- 70 70- 90 90 - 110 110 - 130 130 150
xi
60 80 100 120 140
ni 2 15 8 12 3
a) ¿Cuál es la recaudación correspondiente a cuartil 1? Interprétela. b) ¿Cuál es la recaudación correspondiente al Percentil 65? Interprétela. c) ¿Bajo qué recaudación están el 20% de las recaudaciones menores?
131 Mg. Miguel Angel Macetas Hernández
Estadística General 2012
V.
CAPITULO Medidas de Dispersión
5.1. Medidas de dispersión Las medidas de dispersión permiten calcularla representatividad de una medida de posición, para lo cual será preciso cuantificar la distancia de los diferentes valores de la distribución respecto a dicha medida. A tal distancia es a lo que, en términos estadísticos, denominaremos variabilidad o dispersión de la distribución. Las medidas de dispersión tienen como finalidad estudiar hasta qué punto, para una determinada distribución de frecuencias, las medidas de tendencia central o de posición son representativas como síntesis de toda la información de la distribución. Medir la representatividad de una medida de posición equivale a cuantificar la separación de los valores de la distribución respecto a dicha medida. Entre los estadígrafos de Dispersión de mayor uso se tiene:
A. Recorrido o rango (R) El recorrido do un conjunto de observaciones es simplemente la diferencia entre el mayor y menor valor de la variable. En datos no agrupados:
R = Xmax – Xmin B. Recorrido Semi Cuartil (Q) La desviación cuartil de un conjunto de datos está definido por Q
Q3 Q1 2
Donde Q1 y Q3 son el primer y tercer cuartil de los datos. A veces se usa el "Recorrido Intercuartil Q3 – Q1". El recorrido semi-intercuartil o desviación cuartil, da una idea de la dispersión del 50% de los datos centrales.
C. Varianza (s2) Es el estadígrafo de dispersión más importante. y expresa el grado de dispersión de las observaciones respecto a la media aritmética. Se denota por s 2; V(X); V(Y); 2 ;
etc.
La varianza se define como: "La varianza es la media o promedio del cuadrado de las desviaciones de la variable respecto a su media". 132 Mg. Miguel Angel Macetas Hernández
Estadística General 2012
La expresión de la definición, también se escribe:
x x n 2
s
2
i
x n
2
i
n 1
2
s
x
2 i
ni
i
i
n
n 1
Propiedades de la varianza: Sean: X : variables k : constante V( ): Operador varianza a) V (X) 0 b) V (k) = 0 c) V (x + k) = V(x) d) V (kx) = K2 V(X) Si tenemos una muestra tamaño n la dividimos en r sub muestras determinando en cada una de ellas sus respectivas medias, entonces la media total se determina por la formula siguiente: r
n
S ni ( X 2
X T
1
i 1
n
X t )ni
i 1
n
Intravarianza + Intervarianza [Li-1 – Li) 0,2 – 7,2 7,2 – 14,2 14,2 – 21,2 21,2 – 28,2 28,2 – 35,2 35,2 – 42,2 42,2 – 49,2 Total
s
2
Xi 3,7 10,7 17,7 24,7 31,7 38,7 45,7
32652,4
ni 3 5 8 5 10 4 5 40
10302 40
40 1
133 Mg. Miguel Angel Macetas Hernández
157,1769
xi ni 11,1 53,5 141,6 123,5 317 154,8 228,5 1030
x i2 ni
41,07 572,45 2506,32 3050,45 10048,9 5990,76 10442,45 32652,4
Estadística General 2012
D. Desviación Estándar o Típica (s) La desviación estándar o típica, se define como la raíz cuadrada de la varianza VX s 157,1769 12,5370221
Es uno de los estadígrafos de dispersión de mayor uso, en si cual las unidades de la variable ya no están elevadas al cuadrado. La desviación estándar, al igual que la varianza, es no negativa (s ≥ 0), puesto que es la raíz cuadrada positiva de la
varianza. A mayor dispersión le corresponderá una mayor desviación estándar. NOTA: En general, los estadígrafos de dispersión se usa para comparar dos o más distribuciones o poblaciones. A mayor dispersión o heterogeneidad entre los valores o elementos de una población, le corresponde un valor mayor para el estadígrafo de dispersión.
E. Coeficiente de Variación (CV) Está definido por la expresión: CV
S x
100
El valor se expresa en términos porcentuales. Una regla empírica, cuando el CV < 33% los datos no presentan dispersión en los datos recolectados ó los datos son más homogéneos CV
12,537 100 25,75
48,68746446 %
Datos presentan dispersión 0%
Altamente representativa.
5%
Representativa de su serie.
10%
moderadamente representativa
15%
Bajo grado de representatividad.
CV>30%,
No tiene ningún grado de representatividad
134 Mg. Miguel Angel Macetas Hernández
Estadística General 2012
VI.
CAPITULO Estadígrafos de Deformación
Asimetría.Es el grado de deformación de la curva representativa de una distribución de frecuencias con respecto a la vertical que pasa por la abscisa de la media aritmética; se mide a través del Coeficiente de Asimetría.
A. Relación Entre La Media, Mediana y Moda La distribución de frecuencias de un conjunto de datos puede ser simétrica o asimétrica.
B. Distribución Simétrica Una distribución es simétrica cuando su grafica semeja una de las tres curvas:
Me =
= Mo
Curva hipotética Normal Curva Unimodal Me = X = Mo
Mo
= Me
Mo
Curva hipotética en U Curva Bimodal X = Me
= Me
Curva hipotética Rectangular Curva sin moda X = Me
Distribución Positivamente Asimétrica Es una distribución donde los valores extremos son observaciones mayores. La grafica es semejante a la siguiente curva hipotética.
Curva Positivamente Asimétrica (o Curva con Sesgo Positivo).
Curva Unimodal
Mo < Me <
Mo Me
Distribución Negativa Asimétrica Es una distribución donde los valores extremos son observaciones menores. La grafica presenta una prolongación hacia la izquierda, como la siguiente curva hipotética. Curva Negativa Asimétrica (o Curva con Sesgo Negativo).
135
Mo Me Mg. Miguel Angel Macetas Hernández
Curva Unimodal
Mo > Me >
Estadística General 2012
Relación Emperica Entre Media, Mediana y Moda Cuando la distribución es casi simétrica, se puede utilizar la fórmula de la moda empírica dad por:
Moda = 3(Mediana) – 2(Media) Mo
=
3 Me – 2
C. Importancia de la Asimetría.El conocimiento de la asimetría es importante por el hecho de que la teoría estadística se basa a menudo en el supuesto de una distribución normal. Por lo tanto una medida de asimetría de una distribución es necesario para preservarnos de las consecuencias de esta suposición (La condición necesaria de una distribución normal es que sea simétrica).
D. Coeficiente de Asimetría. Consideramos varias fórmulas para el cálculo de la medida de asimetría:
Coeficiente de Asimetría en base a Momentos. 3
AS
n s 3
Primero y segundo coeficiente de asimetría de PEARSON
A. B.
m xi - x ) ni 1 ( =
AS1
AS 2
X Mo S
3(X Me) S
; Denominado primer coeficiente de Parson.
; Denominado segundo coeficiente de Pearson.
Coeficiente de Asimetría cuartílico o de ARTHUR BOWLEY AS
Q3
2Q 2 Q1 Q 3 Q1
Decisión: As=0, entonces la distribución es simétrica. As<0, entonces la distribución es asimétrica (-) As>0, entonces la distribución es asimétrica (+)
E. Kurtosis o Apuntamiento.Es la mayor o menor altura de la curva representativa de una distribución de frecuencias en el punto o abscisa correspondiente a la media aritmética. 136 Mg. Miguel Angel Macetas Hernández
Estadística General 2012
D. Leptocúrtica
D. Mesocúrtica (Normal ) D. Platicúrtica
KURTOSIS EN FUNCIÓN DE MOMENTOS: 4 m xi - x ) ni M 4 1 ( K = = ; x : media n s 4
2
M 2
Decisión: K=3, Entonces la distribución posee una curva mesocúrtica (Normal). K<3, Entonces la distribución posee una curva platicúrtica. K>3, Entonces la distribución posee una curva leptocúrtica.
KURTOSIS EN FUNCIÓN DE CUARTILES Y PERCENTILES. K
Donde: Los percentil P90 y P10 se calcula con la siguiente fórmula:
rn N J 1 Pr L i 1 C j 100 n j
Q3 Q1 2 P 90 P 10 L j-1=Limite inferior del Intervalo del Percentil C j =Amplitud del intervalo Percentilico r = El número de Percentill r = 1,2,3,…,99 n = Número total de observaciones o datos. N j = Es un inmediato superior a
Decisión: K=0.263, la distribución es mesocúrtica. K<0.263, la distribución es platicúrtica. K>0.263, la distribución es leptocúrtica.
137 Mg. Miguel Angel Macetas Hernández
Estadística General 2012
Ejemplo. Calcular el grado de asimetría y kurtosis de la distribución del nivel de glucosa de los 60 varones adultos evaluados. Los cálculos son organizados en la tabla, de modo que reemplazando datos en fórmula se tiene: Distribución del Nivel de Glucosa de 60 varones adultos (Li-1
Li]
xi
n
Xini
35 45 55 65 75 85 95 105
45 55 65 75 85 95 105 115
40 50 60 70 80 90 100 110
5 7 11 14 8 7 4 4 60
200 350 660 980 640 630 400 440 4300
Total
8
Coeficiente Asimetría =
( x
n 3
( x
i
(X i
=
) 4 ni
1
n *
4
X) 3 n i ( X i X) 4 n i
8000 -158773.1481 5027816.358 17500 -71199.0741 1542646.605 39600 -17467.5926 203788.5802 68600 -64.8148 108.0246914 51200 4629.6296 38580.24691 56700 43134.2593 790794.7531 40000 90981.4815 2577808.642 48400 225314.8148 8637067.901 330000 116555.556 18818611.111
) 3 ni
1
8
Coeficiente Kurtosis =
i
X2ni
=
116555 .56 60 * (19.076 ) 3
= 0.2799,
18818611 .1111 60 * (19.076 ) 4
= 2.3686
Por tanto se puede afirmar que la distribución empírica es: Aprox. Simétrica, puesto que AS = 0.28 0 Platicúrtica, puesto que K = 2.37 < 3. Entonces se puede concluir que dicha distribución difiere ligeramente de la normal. 2.4. Aplicaciones de las medidas en datos univariados
Ejemplo 1. Los siguientes datos constituyen las vidas útiles en horas. de una muestra aleatoria de 60 bombillas de luz de 100 watts. 807 811 620 660 817 732 747 823 844 907 660 753 1050 918 857 867 675 880 878 890 881 872 869 841 847 833 829 827 822 811 766 787 923 792 803 933 947 717 817 753 1056 1076 958 970 776 828 831 781 1088 1082 832 863 852 788 980 889 1030 897 755 891 a) Clasifique convenientemente con Anchos de Clase iguales y trace el Polígono de Frecuencias Absolutas. b) Una vez clasificadas; determine el porcentaje de bombillas cuyas vidas útiles oscilan entre 700 y 1000 horas. c) Encuentre los límites que sub-clasifiquen las bombillas en tres categorías con referencia a su duración. El 15 % más durables en la categoría A El 15 % menos .durables en la categoría C. El resto en la categoría B Solución Cálculos previos para elaborar la tabla Recorrido (R) =1088 – 620 = 468 138 Mg. Miguel Angel Macetas Hernández
Estadística General 2012
Elegimos el número de Intervalos (m) = Tomamos m = 6 intervalos Determinar la amplitud de los intervalos (C)
a) Clasifique convenientemente con Anchos de Clase iguales
CUADRO Nº 01 DISTRIBUCIÓN DE DATOS CONSTITUYEN LAS VIDAS ÚTILES EN HORAS. DE UNA MUESTRA ALEATORIA DE 60 BOMBILLAS DE LUZ DE 100 WATTS. Marca Número Frecuencia Frecuencia Vida útil en horas Frecuencia de de Acumulada Relativa Relativa clase Bombillas Simple Acumulada [Li-1 – Li> xi ni Ni hi Hi [620 – 698> 659 4 4 0,0667 0,0667 [698 – 776> 737 7 11 0,1167 0,1833 [776 – 854> 815 23 34 0,3833 0,5667 [854 – 932> 893 15 49 0,2500 0,8167 [932 – 1010> 971 5 54 0,0833 0,9000 [1010 – 1088> 1049 6 60 0,1000 1,0000 Total 60 1,0000
El Polígono de Frecuencias Absolutas. Para graficar el polígono de frecuencias se realiza algunos cálculos Marca de Número de clase Bombillas xi ni 581 0 659 4 737 7 815 23 893 15 971 5 1049 6 1127 0 60
Vida útil en horas [Li-1
Li>
–
[620 – 698> [698 – 776> [776 – 854> [854 – 932> [932 – 1010> [1010 – 1088>
Total
GRAFICO Nº 01 POLÍGONO DE FRECUENCIA DE LA VIDA ÚTIL EN HORAS DE UNA MUESTRA ALEATORIA DE 60 BOMBILLAS DE LUZ DE 100 WATTS 25
s a l l i b20 m o b15 e d10 o r e m 5 ú N
23 15 5
7 4
0
6
0 581
0 681
781
881
981
1081
Vida promedio en horas de bombillas de luz de 100 watts.
139 Mg. Miguel Angel Macetas Hernández
Estadística General 2012
b) Una vez clasificadas; determine el porcentaje de bombillas cuyas vidas útiles oscilan entre 700 y 1000 horas. Vida útil en horas Número de Frecuencia Frecuencia Bombillas Relativa Relativa [Li-1 – Li> ni hi hi % [620 – 698> 4 0,0667 6,667 [698 – 776> 7 0,1167 11,667 [776 – 854> 23 0,3833 38,333 [854 – 932> 15 0,2500 25,000 [932 – 1010> 5 0,0833 8,333 [1010 – 1088> 6 0,1000 10,000 Total 60 1,0000 100,000 Calculamos el número de observaciones pedido: 698 a 776 11,66667 78 11,6667 698 a 700 x 2 x Para encontrar el valor 698 a 700 = 11,6666667 – 0,2991453 = 11,3675214 932 a 1010 8,3333 78 8,333
932 a 1000 x 68 x Para encontrar el valor 700 y 1000 horas. = 11,368 + 38,333 + 25,000 + 7,265 = 81,966% El 15 % más durables en la categoría A Basta calcular el percentil 15 y el percentil 85
Ejemplo 2. En la siguiente distribución de frecuencias relativas calcular: a) Las desviación cuartillita b) Discutir el sesgo y la kurtosis Tiempo 0 → 3 3 → 6 6 → 9 9 → 12 12 → 15 15 → 18 hi 0,04 0,06 0,40 0,38 0,10 0,02 Solución Tiempo Xi hi Hi xi hi xi2 hi 1,5 0,04 0,04 0,06 0,09 0 → 3 4,5 0,06 0,10 0,27 1,215 3 → 6 7,5 0,40 0,50 3,00 22,5 6 → 9 10,5 0,38 0,88 3,99 41,895 9 → 12 13,5 0,10 0,98 1,35 18,225 12 → 15 16,5 0,02 1,00 0,33 5,445 15 → 18 Total 1 9 89,37 Directamente de la tabla: media aritmética x xi hi 9 Varianza S 2 xi2 hi X 89,37 9 2 8,37 Desviación estándar S = 2,89309523 2
140 Mg. Miguel Angel Macetas Hernández
Estadística General 2012
a) Las desviación cuartillita
b) Discutir el sesgo y la kurtosis ̅ No podemos concluir que la distribución sea simétrica. En efecto, como la media está a la derecha de la moda la distribución es sesgada a la derecha y usando el primer Coeficiente de Pearson tenemos:
̅ Como Sk > 0 la distribución es ligeramente sesgada a la derecha
Como es K>0.263, puede considerarse la distribución que es Leptocúrtica
Ejemplo 3. Al investigar el nivel socioeconómico en los valores: Bajo (B), Medio (M), Alto (A), 20 familias dieron las siguientes respuestas: M, B, B, M, A, B, B, M, M, B, M, B, B, A, M, B, M, A, M, B. Construir la distribución de frecuencias y trazar su gráfica.
Nivel Frecuencia socioeconómico Absoluta Medio 8 Bajo 9 Alto 3 Total 20 10
s a i l i m a F e d o r e m ú N
Frecuencia Relativa 40,0 45,0 15,0 100
9
8
Alto 15%
8 6 3
4 2 0 Medio
Bajo
Alto
Nivel Socioecónomico
141 Mg. Miguel Angel Macetas Hernández
Bajo 45%
Medio 40%
Estadística General 2012 VII.
CAPITULO Regresión y Correlación Lineal Regresión y Correlación Lineal Son dos herramientas para investigar la dependencia de una variable dependiente Y en función de una variable independiente X. Y = f(X) Y = Variable dependiente que se desea explicar o predecir, también se llama regresor o respuesta X = Variable independiente, también se llama variable explicativa, regresor o predictor Regresión lineal - La relación entre X y Y se representa por medio de una línea recta Regresión curvilinea - La relación entre X y Y se representa por medio de una curva.
La ecuación de la recta es la siguiente: Y b 0
b 1 X e .........Con.base.en.la. población Y b0 b1 X e...........Con.base.en.datos.de.la.muestra ´*
Y b0
b1 X ................ Modelo.de.regresión .estimada
El término de error es la diferencia entre los valores reales observados Y i y los valores estimados por la ecuación de la recta. Se trata de que estos sean mínimos, para lo cual se utiliza el método de mínimos cuadrados. Se trata de minimizar la suma de todos los errores o residuos: Las fórmulas resultado de la minimización de lo cuadrados del error se aplicarán en el siguiente ejemplo por claridad. Se tienen los siguientes supuestos: 1. Los errores o residuos se distribuyen normalmente alrededor de la recta de regresión poblacional 2. Las varianzas de los errores son las mismas en todos los valores de X (Homoscedasticidad) en caso contrario se tiene (Heteroscedasticidad) 3. Los errores o residuos son independientes: No se muestra algún patrón definido.
142 Mg. Miguel Angel Macetas Hernández
Estadística General 2012
El coeficiente de Correlación r desarrollado por Carl Pearson es un indicador de la fuerza de la relación entre las variables X y Y, puede asumir valores entre -1 y 1 para correlación negativa y positiva perfecta respectivamente. Por ejemplo si se encuentra que la variable presión tiene una correlación positiva con el rendimiento de una caldera, se deben buscar soluciones al problema mediante acciones asociadas con la variable presión; de lo contrario, sería necesario buscar la solución por otro lado. Se identifican tres medidas de desviación como sigue:
Ejemplo: Se sospecha que el tiempo requerido para hacer un mantenimiento preventivo está relacionado con su número. Calcular el coeficiente de correlación y graficar. Los datos de tiempo tomados para n = 25 servicios se muestran a continuación: (Yi-Y)2
Yest
Error
38.9376
364.1533
10.9199
0.9408
1.099872
0.0576
21.0021
28.3362 15.1022
31.75
7.499472
7.6176
7.3832
37.0443 28.0292
10
35.00
10.502272
3.0976
35.6075
34.1416
8
25.02
0.963072
0.0576
16.1026
28.3362 10.9969
4
16.86
51.612672
17.9776
148.1771
16.7253
2
14.38
91.433472
38.9376
214.7045
10.9199 11.9721
2
9.60
121.260672
38.9376
377.6337
10.9199
9
24.35
-3.558928
0.5776
21.9286
31.2389 47.4563
8
27.50
0.367872
0.0576
2.3495
28.3362
X Servicios
Y Tiempo
(Xi-X)*(Yi-Y)
2
9.95
119.076672
8
24.45
11
143 Mg. Miguel Angel Macetas Hernández
(Xi-X) 2
0.7369 0.0181 1.7422 0.6991
Estadística General 2012
4
17.08
50.679872
17.9776
142.8694
16.7253
0.1258
11
37.00
21.989472
7.6176
63.4763
37.0443
0.0020
12
41.95
48.568672
14.1376
166.8541
39.9470
4.0121
2
11.66
108.406272
38.9376
301.8142
10.9199
0.5477
4
21.65
31.303072
17.9776
54.5057
16.7253 24.2523
4
17.89
47.245472
17.9776
124.1620
16.7253
20
69.00
470.014272
1
10.30
135.625472
52.4176
350.9178
8.0172
5.2111
10
34.93
10.379072
3.0976
34.7770
34.1416
0.6216
15
46.59
118.686672
45.6976
308.2553
48.6551
4.2646
15
44.88
107.127072
45.6976
251.1337
48.6551 14.2512
16
54.12
194.676672
60.2176
629.3676
51.5578
6.5649
17
56.63
241.751472
76.7376
761.6054
54.4605
4.7068
6
22.13
15.462272
5.0176
47.6486
22.5307
0.1606
5
21.15
25.540272
10.4976
62.1385
19.6280
2.3164
206
725.82
2,027.7132
698.5600
6,105.9447
220.0926
X
Y
Sxy
Sxx
Syy = SST
SSE
Y Promedio
Xi-X)*(Yi-Y)
(Xi-X)^2
(Yi-Y)^2
Sxy
Sxx
Syy
1.3564
138.2976 1,597.3771 63.1686 34.0052
X promedio
Si todos los puntos estuvieran completamente sobre la recta l a ecuación lineal sería
y = a + bx. Como la correlación no siempre es perfecta, se calculan a y b de tal forma que se minimice la distancia total entre puntos y la recta. Los cálculos tomando las sumas de cuadrados siguientes se muestran a continuación: Sxy = 2027.71 Sxx = 698.56 Syy = 6105.94 Las ecuaciones para el cálculo manual son las siguientes:
b1
b 1 ˆ
( Xi X )(Yi Y )
( Xi X ) 2
S XY S XX
= 2.902704421
144 Mg. Miguel Angel Macetas Hernández
Estadística General 2012 b0
b 0 ˆ
Y b X ˆ
1
i
Y b X = 5.114515575
i
ˆ
n
Las sumas de cuadrados son: SST
(Y Y )
SSE
(Y Y ) (Y (bo b1* X ))
2
i
6,105.9447
2
ˆ
i
i
i
i
2
220.0926
SSR SST SSE 5,885.8521
El coeficiente de determinación r 2 y el coeficiente de correlación r se calculan a continuación:
r 2
1
SSE SST
( SST SSE ) SST
SSR SST
= 0.9639
El coeficiente de determinación indica el porcentaje de la variación total que es explicada por la regresión. r
r 2
= 0.9816
El coeficiente de correlación proporciona el nivel de ajuste que tienen los puntos a la línea recta indicando el nivel de influencia de una variable en la otra. El factor de correlación r es un número entre –1 (correlación negativa evidente) y +1 (correlación positiva evidente), y r = 0 indicaría correlación nula. El coeficiente de correlación r = 0.98 por lo cual tenemos suficiente evidencia estadística para afirmar que el tiempo de atención está relacionado con el número de servicios atendidos.
145 Mg. Miguel Angel Macetas Hernández