1.1. LA ESTADISTICA
La Estadística es mucho más que sólo números apilados y gráficas bonitas.
Es una ciencia con tanta antigüedad como la escritura, y es por sí misma auxiliar de todas las demás ciencias.
La ausencia de ésta conllevaría a un caos generalizado, dejando a los administradores y ejecutivos sin información vital a la hora de tomar decisiones en tiempos de incertidumbre.
La Estadística que conocemos hoy en día debe gran parte de su realización a los trabajos matemáticos de aquellos hombres que desarrollaron la teoría de las probabilidades, con la cual se adhirió a la Estadística a las ciencias formales.
1.2. DEFINICIÓN DE ESTADÍSTICA La estadística, es la ciencia que trata de la recopilación, organización presentación, análisis e interpretación de datos numéricos con el fin de realizar una toma de decisión más efectiva.
Porque la estadística va tomando más importancia en la investigación científica, en el aspecto académico y en el desarrollo profesional. -
Porque sirve como herramienta de investigación objetiva y veraz,
-
Porque a través de un conjunto de datos obtenidos adecuadamente, permite tomar decisiones adecuadas y oportunas;
1
-
Porque permite apreciar objetivamente las diferencias de algún fenómeno de incertidumbre en el tiempo y en el espacio
1.3. UTILIDAD E IMPORTANCIA -
Las técnicas estadísticas se aplican de manera amplia en mercadotecnia, contabilidad, control de calidad y en otras actividades; estudios de consumidores; análisis de resultados en deportes; administradores de instituciones; en la educación; organismos políticos; médicos; y por otras personas que intervienen en la toma de decisiones.
-
Diagnostico de un problema cualquiera, ejemplos: Diagnostico de las enfermedades, diagnostico del nivel de vida, del nivel socioeconómico, el nivel educativo, etc.
-
Determinar prioridades en los programas de salud, educación, de las empresas privadas, o de otros problemas de las comunidades o personales
-
Establecer y analizar las relaciones entre las variables (causa efecto)
-
Realizar pronósticos a través del tiempo
-
Estimar valores poblacionales, tomando solo una muestra
NOTA: Sin embargo para que el uso de la estadística sea adecuado, es necesario trabajar con muchos datos, porque el uso de pocos datos puede dar lugar a interpretaciones no consistentes.
1.4. DIVISION DE LA ESTADISTICA La Estadística se ha dividido en dos grandes ramas: la Estadística Descriptiva y la Inferencial:
La estadística Descriptiva: consiste sobre todo en la presentación de datos en forma de tablas y gráficas. Esta comprende cualquier actividad relacionada con los datos y está diseñada para resumir o describir un conjunto de datos, sin intentar inferir nada que vaya más allá de los datos, como tales.
La estadística Inferencial: Se deriva de muestras, de observaciones hechas sólo acerca de una parte de un conjunto numeroso de elementos y esto implica que su
2
análisis requiere de generalizaciones que van más allá de los datos. Como consecuencia, la característica más importante del reciente crecimiento de la estadística ha sido un cambio en el énfasis de los métodos que describen a métodos que sirven para hacer generalizaciones. La Estadística Inferencial investiga o analiza una población partiendo de una muestra tomada. Los problemas de la inferencia estadística son: la estimación de parámetros y las pruebas de hipótesis
1.5. HISTORIA DE LA ESTADÍSTICA Los comienzos de la estadística pueden ser hallados en el antiguo Egipto, cuyos faraones lograron recopilar, hacia el año 3050 AC, recogió datos relativos a la población y la riqueza del país con el objetivo de preparar la construcción de las pirámides. En el mismo Egipto, Ramsés II hizo un censo de las tierras con el objeto de verificar un nuevo reparto.
3
En el antiguo Israel la Biblia da referencias, en el libro de los Números, de los datos estadísticos obtenidos en dos recuentos de la población hebrea. El rey David por otra parte, ordenó a Joab, general del ejército hacer un censo de Israel con la finalidad de conocer el número de la población.
Los griegos y los Chinos efectuaron censos periódicamente con fines tributarios, sociales (división de tierras) y militares (cálculo de recursos y hombres disponibles). La investigación histórica revela que se realizaron 69 censos para calcular los impuestos, determinar los derechos de voto y ponderar la potencia guerrera.
Pero fueron los romanos, maestros de la organización política, quienes mejor supieron emplear los recursos de la estadística. Cada cinco años realizaban un censo de la población y sus funcionarios públicos tenían la obligación de anotar nacimientos, defunciones y matrimonios, sin olvidar los recuentos periódicos del ganado y de las riquezas contenidas en las tierras conquistadas. Para
el
nacimiento
de
Cristo
sucedía
uno
de
estos
empadronamientos de la población bajo la autoridad del imperio.
Durante los mil años siguientes a la caída del imperio Romano se realizaron muy pocas operaciones Estadísticas, con la notable excepción de las relaciones de tierras pertenecientes a la Iglesia, compiladas por Pipino el Breve en el 758 y por Carlomagno en el 762 DC. Durante el siglo IX se realizaron en Francia algunos censos parciales de siervos. En Inglaterra, Guillermo el Conquistador recopiló el Domesday Book o libro del Gran Catastro para el año 1086, un documento de la propiedad, extensión y valor de las tierras de Inglaterra. Esa obra fue el primer compendio estadístico de Inglaterra.
4
Durante los siglos XV, XVI, y XVII, hombres como Leonardo de Vinci, Nicolás Copérnico, Galileo, Neper, William Harvey, Sir Francis Bacon y René Descartes, hicieron grandes operaciones al método científico, de tal forma que cuando se crearon los Estados Nacionales y surgió como fuerza el comercio internacional existía ya un método capaz de aplicarse a los datos económicos.
Para el año 1532 empezaron a registrarse en Inglaterra las defunciones debido al temor que Enrique VII tenía por la peste. Más o menos por la misma época, en Francia la ley exigió a los clérigos registrar los bautismos, fallecimientos y matrimonios. Durante un brote de peste que apareció a fines de la década de 1500, el gobierno inglés comenzó a publicar estadísticas semanales de los decesos. Esa costumbre continuó muchos años, y en 1632 estos Bills of Mortality (Cuentas de Mortalidad) contenían los nacimientos y fallecimientos por sexo. En 1662, el capitán John Graunt usó documentos que abarcaban treinta años y efectuó predicciones sobre el número de personas que morirían de varias enfermedades y sobre las proporciones de nacimientos de varones y mujeres que cabría esperar. El trabajo de Graunt, condensado en su obra Natural and Political Observations Made upon the Bills of Mortality (Observaciones Políticas y Naturales Hechas a partir de las Cuentas de Mortalidad), fue un esfuerzo innovador en el análisis estadístico. Por el año 1540 el alemán Sebastián Muster realizó una compilación estadística de los recursos nacionales, comprensiva de datos sobre organización política, instrucciones sociales, comercio y poderío militar. Durante el siglo XVII aportó indicaciones más concretas de métodos de observación y análisis cuantitativo y amplió los campos de la inferencia y la teoría Estadística.
Los eruditos del siglo XVII demostraron especial interés por la Estadística Demográfica como resultado de la especulación sobre si la población aumentaba, decrecía o permanecía estática.
5
En los tiempos modernos tales métodos fueron resucitados por algunos
reyes
que
necesitaban
conocer
las
riquezas
monetarias y el potencial humano de sus respectivos países. El primer empleo de los datos estadísticos para fines ajenos a la política tuvo lugar en 1691 y estuvo a cargo de Gaspar Neumann, un profesor alemán que vivía en Breslau. Este investigador se propuso destruir la antigua creencia popular de que en los años terminados en siete moría más gente que en los restantes, y para lograrlo hurgó pacientemente en los archivos parroquiales de la ciudad. Después de revisar miles de partidas de defunción pudo demostrar que en tales años no fallecían más personas que en los demás. Los procedimientos de Neumann fueron conocidos por el astrónomo inglés Halley, descubridor del cometa que lleva su nombre, quien los aplicó al estudio de la vida humana. Sus cálculos sirvieron de base para las tablas de mortalidad que hoy utilizan todas las compañías de seguros.
Durante el siglo XVII y principios del XVIII, matemáticos como Bernoulli, Francis Maseres, Lagrange y Laplace desarrollaron la teoría de probabilidades. No obstante durante cierto tiempo, la teoría de las probabilidades limitó su aplicación a los juegos de azar y hasta el siglo XVIII no comenzó a aplicarse a los grandes problemas científicos.
Godofredo Achenwall, profesor de la Universidad de Gotinga, acuñó en 1760 la palabra estadística, que extrajo del término italiano statista (estadista). Creía, y con sobrada razón, que los datos de la nueva ciencia serían el aliado más eficaz del gobernante consciente. La raíz remota de la palabra se halla, por otra parte, en el término latino status, que significa estado o situación; Esta etimología aumenta el valor intrínseco de la palabra, por cuanto la estadística revela el sentido cuantitativo de las más variadas situaciones.
6
Jacques Quételect es quien aplica las Estadísticas a las ciencias sociales. Este interpretó la teoría de la probabilidad para su uso en las ciencias sociales y resolver la aplicación del principio de promedios y de la variabilidad a los fenómenos sociales. Quételect fue el primero en realizar la aplicación práctica de todo el método Estadístico, entonces conocido, a las diversas ramas de la ciencia.
Entre 1800 al 1820 se desarrollaron dos conceptos matemáticos fundamentales para la teoría Estadística; la teoría de los errores de observación, aportada por Laplace y Gauss; y la teoría de los mínimos cuadrados desarrollada por Laplace, Gauss y Legendre.
A finales del siglo XIX, Sir Francis Gaston ideó el método conocido por Correlación, que tenía por objeto medir la influencia relativa de los factores sobre las variables. De aquí partió el desarrollo del coeficiente de correlación creado por Karl Pearson y otros cultivadores de la ciencia biométrica como J. Pease Norton, R. H. Hooker y G. Udny Yule, que efectuaron amplios estudios sobre la medida de las relaciones.
Los progresos más recientes en el campo de la Estadística se refieren
al
desarrollo
del
cálculo
de
probabilidades,
particularmente en la rama denominada indeterminismo o relatividad, se ha demostrado que el determinismo fue reconocido en la Física como resultado de las investigaciones atómicas y que este principio se juzga aplicable tanto a las ciencias sociales como a las físicas.
7
ETAPAS DE DESARROLLO DE LA ESTADÍSTICA La historia de la estadística está resumida en tres grandes etapas o fases. 1.- Primera Fase: Los Censos: Desde el momento en que se constituye una autoridad política, la idea de inventariar de una forma más o menos regular la población y las riquezas existentes en el territorio está ligada a la conciencia de soberanía y a los primeros esfuerzos administrativos. 2.- Segunda Fase: De la Descripción de los Conjuntos a la Aritmética Política: Las ideas mercantilistas extrañan una intensificación de este tipo de investigación.
Colbert
multiplica las encuestas sobre artículos
manufacturados, el comercio y la población: los intendentes del Reino envían a París sus memorias. Vauban, más conocido por sus fortificaciones o su Dime Royale, que es la primera propuesta de un impuesto sobre los ingresos, se señala como el verdadero precursor de los sondeos.
La escuela inglesa proporciona un nuevo progreso al superar la fase
puramente descriptiva. Sus tres principales representantes son Graunt, Petty (autor de la famosa Aritmética Política) y Halley. Chaptal, ministro del interior francés, publica en 1801 el primer censo general de población, desarrolla los estudios industriales, de las producciones y los cambios, haciéndose sistemáticos durante las dos terceras partes del siglo XIX. 3.- Tercera Fase: Estadística y Cálculo de Probabilidades: El cálculo de probabilidades se incorpora rápidamente como un instrumento de análisis extremadamente poderoso para el estudio de los fenómenos económicos y sociales y en general para el estudio de fenómenos “cuyas causas son demasiados complejas para conocerlos totalmente y hacer posible su análisis”.
8
CRONOLOGIA DE LA ESTADISTICA
Época Grecia antigua Siglo XVII Siglo XVII
Siglo XIX
Siglo XX
Contribuidor Filósofos
Ideas sobre el análisis no cualitativo
Graunt, Petty
Estudio de la estadística vital
Pascal, Berno
Estudio probabilístico acerca del cambio del juego
D´Moire, Curva normal, regresión aplicada sobre estudios de astronomía Laplace, Gauss Quetelet
Astrónomo que primero aplicó el análisis estadístico a biología humana.
Galton
Estudia la variación genética en humanos (usando regresión y correlación lineal)
Pearsons
Estudio de la selección natural usando correlación, formando primero departamentos académicos de estadística, Journal de Biométrica, ayudados de el análisis de Chi Cuadrada
Gossett (Student) Fisher Wilcoxon
Siglo XX
Estudio de procesos, alerta la comunidad estadística acerca de problemas con pequeñas muestras, presentando la prueba t´student Evolución biológica presentada- presentación de ANOVA , resalta la importancia del diseño experimental. Bioquímico estudió pesticidas, equivalente no parámetrico de dos pruebas.
Kruskal Wallis
Economista que presentó el equivalente no parámetrico de ANOVA
Spearman
Psicólogo que presenta el equivalente no parámetrico del coeficiente de correlación
Kendall
Estadista que presenta otro equivalente no parámetrico del coeficiente de correlación.
Tukey Dunnett
Keuls
9
Contribución
Estadista que presenta el procedimiento de la comparación múltiple. Bioquímico que estudia los pesticidas, presenta un procedimiento de comparación múltiple para grupos control. Agrónomo que presenta una procedimiento de comparación múltiple. Prueba muchas ventajas sobre cálculos a mano y en calculadora, estimula el fondo de la investigación mediante nuevas técnicas
ETAPAS DEL TRABAJO ESTADISTICO EN LA INVESTIGACION CIENTIFICA La estadística se incluye en todas las etapas de investigación, desde el diseño hasta el análisis final de la información. Podemos distinguir tres grandes etapas: a) Diseño: Define de cómo se realizara la investigación, esta etapa es crucial, porque un estudio bien diseñado o con datos incorrectamente recolectados puede no responder a las preguntas de la investigación. Esta etapa incluye la población objetivo, el tamaño de muestra, los mecanismos de selección de la muestra, los tratamientos de los datos. b) Descripción: Esta etapa ayuda a comprender la estructura de los datos para detectar patrones de comportamientos. Una forma de resumir la información es mediante los gráficos y las tablas, otra forma es mediante algunas medidas descriptivas. c) Inferencia: Predicciones y toma de decisiones sobre las características de una población en base a la información recogida en una muestra.
10
CONCEPTOS Y DEFINICIONES PREVIAS 1. POBLACIÓN - es el conjunto total de elementos (individuos, objetos o medidas) que poseen algunas características comunes observables en un lugar (espacio) y en un momento (tiempo) determinado. Cuando se vaya a llevar a cabo alguna investigación debe de tenerse en cuenta algunas características esenciales al seleccionarse la población bajo estudio. Entre éstas tenemos: a. Homogeneidad - que todos los elementos de la población tengan las mismas características según la variables de estudio. Por ejemplo, si se investiga la drogadicción entre jóvenes mujeres adolescentes, entonces hay que definir claramente las edades que comprenden la adolescencia (12 y 21 años). b. Tiempo - se refiere al período de tiempo donde se ubica la población de interés. c. Espacio - se refiere al lugar donde se ubica la población de interés. Un estudio no puede ser muy abarcador y hay que limitarlo a un área o comunidad en específico. d. Tamaño de la población. Es sumamente importante porque ello determina o afecta al tamaño de la muestra, además que la falta de recursos y tiempo también nos limita la extensión de la población que se vaya a investigar. La población puede ser Finita o Infinita. 2. MUESTRA - la muestra es un subconjunto de la población. La muestra para que tenga valor, debe ser representativa, esto significa que la muestra debe contener todos los tipos de elementos de la población (Si en la población hay altos, bajos, gordos y flacos en la muestra también deben contener a todos estos tipos de elementos) y adecuada, es decir debe ser lo suficientemente grande para contener la cantidad necesaria de representación (cálculo del tamaño de la muestra). La muestra puede ser probabilística o no probabilística
11
3. PARAMETRO: Es un valor que se obtiene a partir de los datos de una Población o son los valores que se originas al analizar una población. Un parámetro es un sumario descriptivo de alguna característica de una población (la media aritmética, mediana, desviación estándar). Ejemplo: La tasa de desempleo se ha mantenido en 18%. Es un índice estadístico que va dirigido a describir a la población. Muchos de estos índices se obtienen mediante registros oficiales de agencias del Gobierno.
4. ESTADISTICO O ESTADIGRAFO: Es un valor que se obtiene a partir de los datos de una muestra o son los valores que se originan al analizar una muestra. Debe entenderse que el parámetro y el estadígrafo son conceptos muy similares. Su diferencia radica realmente en que el estadígrafo se calcula sobre una muestra y el parámetro se calcula con relación a una población. 5. DATOS: Notación o son símbolos que describen condiciones, hechos, situaciones o valores. Ejemplo: 18 años, 1.55 cm, Católica, Alto
6. UNIDAD MUESTRAL: Para seleccionar una muestra, primero se define la Unidad de Análisis que puede ser un cliente, un votante, una organización, un libro contable, un periódico, un hospital, un paciente, etc. Esta definición nos permite identificar “Quien va ha ser medido”, “Quien nos va ha dar la información” y por lo tanto precisar claramente el problema a investigar y los objetivos de la investigación.
12
7. VARIABLES: Es una característica observable que poseen los elementos y que puede tomar diferentes valores. Ejemplo: Edad, Talla, Tipo de religión
III. EJERCICIOS En los ejemplos siguientes identifique los elementos indicados en el recuadro:
3.1. Un estudio de 250 pacientes admitidos en un hospital durante el año pasado reveló que, en promedio, los pacientes viven a 22.5 kilómetros del hospital. Población Muestra Unidad de Análisis Variable de estudio
3.2. Un estudio de 300 hogares en un pueblo sureño revelo que 20 por ciento tiene al menos un hijo en edad escolar. Población Muestra Unidad de Análisis Variable de estudio
3.3. Varias veces durante el día un ingeniero de control de calidad, en una fábrica textil, selecciona diferentes muestras de metros cuadrados de telas, las examina y registra el número de imperfecciones que encuentra. Población Muestra Unidad de Análisis Variable de estudio
13
3.4. Un investigador médico examina los efectos de un agente cancerígeno en las ratas. Tres semanas después de inyectado el agente en una rata, el investigador realiza una intervención quirúrgica para extraer y pesar los tumores. Población Muestra Unidad de Análisis Variable de estudio
3.5. Un gerente desea conocer si aquellos trabajadores que reciben 25 días de vacaciones son más productivos durante el año, que los que reciben solo 15 días. El gerente selecciona una muestra de 40 trabajadores y registra su rendimiento laboral. Población Muestra Unidad de Análisis Variable de estudio
3.6. De un establo se seleccionan 1000 vacas y se desea conocer el número promedio de litros de leche que se obtienen por vaca y por día. Población Muestra Unidad de Análisis Variable de estudio
14
En los siguientes ejemplos identifique los parámetros y los estimadores:
3.7. En cierta universidad el decano de un colegio al hacer los preparativos para una presentación de consejeros, necesita conocer el promedio del número de estudiantes por clase. El decano descubre que: En una muestra de 20 grupos, el número promedio de estudiantes por grupo es de 77. En un estudio acerca de toda la universidad, el promedio por grupo resulta en 84.
3.8. Un aforador que está interesado en conocer el promedio de precipitación pluvial durante el mes de septiembre, reporta: El promedio de precipitación pluvial para septiembre de 1998 y septiembre de 1999. El promedio de precipitación pluvial para todos los septiembres, desde el principio de los registros calculados hasta el presente año.
3.9. Un fisiólogo está interesado en el índice de latidos cardiacos por persona, después de ciertas cantidades de ejercicio. Está interesado en lo siguiente: El índice más elevado de latidos cardiacos de 100 personas después de ejercicios vigorosos. El índice de latidos cardiacos promedio de todas las personas, antes de realizar ejercicios.
15
IV. ACTIVIDADES DE AUTO EVALUACIÓN Antes de continuar con los demás temas, es conveniente que te autoevalúes, desarrollando las preguntas en forma individual. Luego coteja tus respuestas con la teoría estudiada y califica de acuerdo a la escala siguiente:
19 – 20 puntos
Excelente
17 – 18,5 puntos
Muy bueno
14 – 16,5 puntos
Bueno
11 – 14,5 puntos
Regular
Menos de 11
Malo
Si tienes un calificativo menor a 14,5 puntos debes estudiar un poco más. Es recomendable que revises las partes que has fallado.
Si tiene un calificativo menor de 11 puntos, es recomendable revisar los temas en estudio, haciendo énfasis en los temas que perciba alguna dificultad.
4.1. Define los siguientes términos: a)
(4 ptos)
Estadística:………………………………………………………………………………… ………………………………………………………………………………..……
b)
Población:………………………………………………………………………………… …………………………………………………………………………………..……
c)
Muestra:.…………………………………………………………………………………… ………………………………………………………………………………..…
d)
Dato:……………………………………………………………………………………… ………………………………………………………………………………..……
16
4.2. La estadística que se ocupa de interpretar los resultados obtenidos con las técnicas descriptivas, para tomar decisiones se denomina….......................................... (1Pto) 4.3. Es la característica medible o descrita mediante un valor o atributo de un elemento en estudio………………………...………………………………………………… (1Pto)
4.4. Un objetivo general de la Estadística es estimar los parámetros de la población, usando muestras estadísticas. a) Verdadero
(2 ptos) b) Falso
Justifique su respuesta.
…………………………………………………………….………………………………… ……………………………………………………….………………………………………
4.5. La estadística descriptiva tiene como objetivo:
(1Pto)
a)
Probar la significación de los resultados
b)
Ser herramienta indispensable en el muestreo
c)
Descubrir las causas que originan el hecho
d)
Lograr conclusiones más allá de las muestras
e)
Efectuar comparaciones sin sacar conclusiones de tipo más general
4.6. Se debe responder verdadero si el enunciado es siempre válido. En caso contrario se deberá sustituir la palabra subrayada por otra, con la cual el enunciado tenga validez: (5 ptos) a)
Parámetro es el resultado al aplicar una medida a las características de las unidades de una población.
b)
El conteo de los empleados de una empresa de acuerdo a su cargo, es un ejemplo de características cuantitativas.
c)
La Estadística Descriptiva, es el “estudio” de una muestra a fin de hacer estimaciones acerca de la población de la cual se tomó la muestra.
d)
Una población infinita tiene un número ilimitado de elementos
e)
Estimador es la medida estadística obtenida con los datos de la población.
17
4.7. En el año 2006, se realizó un muestreo de opinión para determinar si los profesores de Lima prefieren como texto de consulta el libro de Propedéutica de Razonamiento Matemático de la editorial Lumbreras con respecto a otro. Con este fin se entrevistaron a 2000 profesores y entre ellos 1 500 prefirieron dicho texto. Responda lo siguiente: (4 ptos) ¿Cómo estuvo formada la muestra? ¿Cómo estuvo formada la población? ¿Cuál fue la variable de estudio? ¿Cuál fue valor estadístico?
VI. REFERENCIAS BIBLIOGRÁFICAS 6.1. WAYNE W. DANIEL. (2004) BIOESTADISTICA. Base para el análisis de las Ciencias de la Salud. 4ta Edición. Editorial LIMUSA. México D.F.
6.2. ÁVILA ACOSTA, R., (2001). Estadística Elemental. Estudios y Ediciones RA- Lima – Perú. 6.3. BERENSON – LEVINE, (1996). Estadística Básica en Administración. 6ta edición. Edith. PHH S. A. – México.
6.4. FREUND, John y MANNING SMITH, Richard, (1999). Estadística. 6ta edición – Edith. Prentice Hall Hispanoamericana S.A.- México.
6.5. GUILFORD, J.P. y FRUCHTER, Benjamín, (1996). Estadística Aplicada a la Psicología y la Educación. Edit. Mc Graw-Hill – México.
6.6. MILLER, Irwin y FREUND, John E., 1995. Probabilidad y Estadística para Ingenieros – Edit. Prentice Hall Hispanoamericana S.A. – México.
6.7. MOYA, Rufino, (1991). Estadística Descriptiva. Editorial San Marcos- Lima- Perú. 6.8. WEBSTER, A. y otros, (2000). Estadística Aplicada a los Negocios y a la Economía. 3era edición – Edith. McGraw-Hill Companies, Inc. – Santa Fe de Bogotá- Colombia.
Fuentes electrónicas: http://www.eumed.net/cursecon/libreria/drm/index.htm
18
Sesión 2 Variables y Escalas de Medición Recolección de datos CAPACIDADES 1. 2. 3. 4.
Explica qué es una Variable. Identifica y ejemplifica las clases de variables. Reconoce la importancia de la recolección de datos reales en la investigación. Describe en forma clara y precisa las técnicas más importantes a utilizar en el proceso de recolección de datos. 5. Identifica las fuentes de la información. 6. Elabora cuestionarios básicos para recolectar datos.
ACTITUDES 1. Valora la importancia que tiene la clasificación de las Variables Estadísticas; según las diferentes escalas de medición en la investigación científica. 2. Asume una actitud reflexiva para identificar las técnicas e instrumentos de recolección de datos adecuados. 3. Valora la importancia que tienen las técnicas e instrumentos a utilizar en la de recolección de datos como parte fundamental del proceso estadístico. 4. Asume una actitud reflexiva, crítica, creativa y participativa en la realización de las actividades de aprendizaje.
CONTENIDO Variables. Clasificación. Escalas de Medición. Recolección de Datos. Técnicas e Instrumentos.
19
VARIABLES DEFINICION:
Las variables son atributos o observables y cuantificables que poseen los objetos.
características
Cada rasgo o aspecto de una población constituye una variable. La edad de unas personas, su sexo, color de su piel, nacionalidad, su nivel de motivación, niveles de ansiedad, el número de nacimientos, número de matrimonios, frecuencia de suicidios, estatura, peso, niveles de inteligencia, actitudes, entre muchas otras.
Las variables constituyen la unidad básica de toda investigación. Generalmente cuando se investiga un asunto o problema lo primero que se hace es definir y clarificar el problema y lo que realmente se hace en esta fase es establecer la relación de causa y efectos entre dos o más variables. Por ejemplo, supongamos que se vaya a investigar el problema de la ansiedad como una condición que afecta al aprovechamiento académico de los estudiantes en una determinada escuela entre niños de tercer grado. En este caso tenemos dos variables principales: ansiedad y aprovechamiento académico. Niños de tercer grado es otra variable que indica la población bajo estudio. Y si él (la) investigador(a) interesa saber si hay o no diferencias significativas entre niñas y varones sobre el efecto de la ansiedad, entonces añadiría otra variable en su investigación: el sexo.
Las variables pueden adquirir diferentes valores o clasificarse en diferentes categorías según la naturaleza o tipo de estudio que se lleve a cabo. Entre éstas tenemos las siguientes clasificaciones:
20
CLASIFICACIÓN DE LAS VARIABLES CLASIFIC. POR SU RELACION DE DEPENDENCIA O CAUSAL
VARIABLES
TIPOS
INDEPENDIENTES Es la variable que se manipula con la intención de observar cambios en otra variable (var. Dependiente)
La educación de las madres (Analfabeto, Primaria, secundaria, Superior, etc)
DEPENDIENTES Aquella en la que se observa cambios por efectos producidos por algún estimulo (var. Independientes)
La desnutrición (Alta, media, baja) El rendimiento de los hijos (aprobado, desaprobado) Sexo, Nacionalidad, Nombres Marcas de auto, Colores, Grado de Satisfacción, puesto laboral, grado de instrucción, estado Civil,
VAR. CUALITATIVA
POR SU NATURALEZA
Indican una característica o cualidad de un elemento, las operaciones aritméticas, no son significativas.
DISCRETA VAR. CUANTITATIVA Cuando los datos que se estudia son números y es posible operarlas aritméticamente
SEGÚN EL NUMERO DE VARIABLES
21
EJEMPLOS
Solo adoptan ciertos valores y existe espacio entre ellos.
CONTINUA Cuando adopta cualquier valor dentro de un rango especifico.
edad, número de días cantidad hijos longitud, superficie, volumen, peso, tiempo, dinero
UNIDIMENSIONAL Cuando se estudia una sola variable o muchas, pero en forma independiente
La edad, El rendimiento La autoestima, El estado Civil
BIDIMENSIONAL Cuando se estudia dos variables al mismo tiempo, para ver la relación entre ellas MULTIDIMENSIONAL Cuando se estudia más de 2 variables al mismo tiempo.
Horas de estudio y el rendimiento La autoestima y el rendimiento Salario y el tiempo de servicio en años El Sexo, la edad, el salario y el rendimiento
DEPARTAMENTO DE INVESTIGACIÓN ESTADÍSTICA GENERAL
ESCALAS DE MEDICIÓN Es una sucesión de medidas que permite organizar datos en orden jerárquico y mediante un esquema específico para asignar números o símbolos con el objeto de designar características de una variable (Ary, Jacobs, Razavieh, 1984). La taxonomía más conocida sobre las escalas de medición las presenta Stevens (1951) quien las clasifica en nominales, ordinales, de Intervalos y de razón. A continuación veamos los cuatro tipos de escalas de medición.
a. Nominales
Los elementos solo pueden ser clasificados en categorías pero no se da un orden o jerarquía.
b. Ordinales
• Existe un orden o jerarquía entre las categorías. • Posee un atributo de orden (Desnutrición, El nivel de instrucción, Intensidad) • • • •
c. De Intervalo
d. De razón
• • • •
DICOTOMICAS TRICOTOMICAS MULTITOMICAS
Establece la distancia entre una medida y otra. Carece de un cero absoluto. Es posible cuantificar la diferencia entre dos valores. Generalmente tienen unidad de medida.
Existe el 0 absoluto, es la ausencia de la variable medida. Esta escala permite todas las operaciones matemáticas. La multiplicación y la división adquieren significación La diferencia entre dos valores es importante y definido.
ESCALAS NOMINALES Las escalas nominales son aquellas donde se clasifican a los elementos en categorías cualitativamente distintas. Consiste simplemente en agrupar objetos en clases o asignar las personas de acuerdo a alguna cualidad una vez que los objetos o personas posean características comunes que lo hagan pertenecer a una categoría. Se pueden utilizar números en las escalas nominales, pero estas solo como
etiquetas,
nunca
se
utilizarán
para
llevar
a
cabo
los
procedimientos matemáticos de suma, resta, multiplicación y división. Por ejemplo, El DNI, la placa de los automóviles. Su función solamente está dada para efectos de identificación, no podemos hacer alguna estimación de la magnitud de lo que clasificamos.
- 22 -
ESCALAS ORDINALES Escala ordinal = Nominal + Orden Las escalas ordinales son las que clasifican a las personas, eventos u objetos en una posición con relación a cierto atributo, pero sin indicar la distancia que hay entre las posiciones. Cuando se asignan números es sólo para indicar el orden de las posiciones de lo que se está clasificando. Por ejemplo, el cuadro de meritos del curso de Estadística. En este nivel también se definen varias categorías, pero además de mostrar un ordenamiento existe una relación de “mayor o menor que” entre ellas. Las etiquetas, símbolos o números asignados si indican jerarquía, aunque no es posible conocer la magnitud de la diferencia entre cada una de las categorías Con las escalas ordinales tampoco se pueden llevar a cabo las operaciones aritméticas de suma, resta, multiplicación y división. La diferencia que puede haber entre unas personas u objetos en este tipo de escala no necesariamente constituye unidades iguales o absolutas que puedan utilizarse para determinar si el que tiene un segundo lugar posee el doble valor que el que queda en cuarta posición. Por ejemplo, en un evento atlético de una carrera que no haya sido cronometrada, podemos saber quién llegó primero, segundo y tercer lugar, pero no podemos saber con precisión la velocidad entre un corredor y otro. La diferencia que hay entre el primero y el segundo no necesariamente es igual a la que hubo entre el segundo y el tercero.
- 23 -
ESCALA DE INTERVALO Esta escala mide las variables de manera numérica Los números de esta escala permiten establecer distancias entre 2 individuos. Las operaciones aritméticas de suma o resta son perfectamente realizables y significativas, no siendo la multiplicación o división (no tienen significados) El cero es un valor que no indica ausencia de la característica (es decir es relativo) y es colocado en algún lugar de la escala. Ejemplo: la Temperatura, donde el cero no implica la ausencia de temperatura Ejemplo2: La escala de inteligencia posee un punto 0, pero nunca se va a encontrar a un ser humano con cero de inteligencia.
ESCALA DE RAZON O COCIENTE El cero, indica la ausencia de la característica que se está midiendo (cero absoluto) Las operaciones aritméticas de multiplicación y división adquieren significado La diferencia entre 2 valores es significativa y de magnitud definida. Ejemplo1: 0 ingreso de ventas, significa que no se ha producido ninguna venta. Ejemplo2: un artículo que pesa 6 kg., tiene el doble de peso que otro de 3 kg.
- 24 -
CARACTERISTICAS, EJEMPLOS Y LIMITACIONES DE LAS ESCALAS DE MEDICION ESCALA
CARACTERISTICAS Se clasifican las
Nominal
personas, eventos u objetos en categorías
Denominaciones religiosas, partidos políticos, nombres de objetos, pinturas, movimientos literarios.
LIMITACIONES No se pueden precisar diferencias cuantitativas entre las categorías.
Orden de llegada de atletas
Restringida para
en una carrera,
Identificar diferencias
puntuaciones de una
relativas, pero no precisa
prueba, rangos militares,
diferencias en cantidad
nivel de popularidad de
absoluta entre personas
estudiantes en una escuela.
u objetos.
unidades de igual
Temperaturas (Celsius y
Razones no tienen
magnitud. El punto cero
Fahrenheit), fechas del
sentido ya que el punto
de la escala es arbitrario
calendario, escala de
cero es establecido
y no refleja la ausencia
inteligencia.
convencionalmente
Se clasifican u ordenan las Ordinal
USOS/EJEMPLOS
personas, objetos y eventos en determinada posición Escala que posee
Intervalo
del atributo. Ninguna, excepto que su Escala que posee un Razón
punto cero absoluto e intervalos de igual magnitud.
Distancia, peso, estatura, tiempo requerido para realizar una tarea escolar.
uso se supedita mayormente a medir cualidades físicas más que para la medición de aspectos psicológicos.
- 25 -
PRUEBAS ESTADISTICAS ASOCIADAS A CADA UNA DE LAS ESCALAS DE MEDICION Los siguientes cuadros contienen las principales pruebas estadísticas. Estos cuadros solo representan una guía o procedimiento estadístico en particular.
A. PRUEBAS ESTADÍSTICAS DESCRIPTIVAS MÁS FRECUENTES DE ACUERDO A LA ESCALA DE MEDICIÓN DE LA VARIABLE DE ESTUDIO
TIPO DE
ESCALA DE LA
DESCRIPCION
VARIABLE Cualitativa (nominal
Variables
MÉTODO O TÉCNICA ESTADISTICA -
representados por grafico de barras, pastel o
u ordinal)
pictograma
individuales Cuantitativa (Intervalo
Frecuencias, proporciones o porcentajes
o razón)
-
Distribución de frecuencias en clases.
-
Frecuencias acumuladas
-
Medidas de tendencia central, dispersión, posición, curtosis.
Cualitativa con cualitativa Asociación entre variables
Cualitativa con
Tablas de contingencia
-
Gráficos de barras
-
Prueba de Kendall, de Cramer, de Spearman
-
Tablas de clasificación categórica con promedios y desviaciones o error estándar
cuantitativa Cuantitativa con cuantitativa
- 26 -
-
de cada entrada -
Grafico de puntos (dispersión)
-
Coeficiente de correlación de Pearson
-
Recta de regresión
B. PRUEBAS ESTADÍSTICA INFERENCIALES MÁS FRECUENTE DE ACUERDO A LA ESCALA DE MEDICIÓN DE LA VARIABLE EN ESTUDIO.
TIPO DE
ESCALA DE LA
DESCRIPCION
VARIABLE
Variables
Nominales
individuales
METODO O TECNICA ESTADISTICA -
Prueba Z para una proporción poblacional.
-
Prueba X2 para varias proporciones en una sola población.
-
Intervalos de confianza para proporciones
-
Prueba del signo o binomial para la
Ordinales
Muestras grandes
mediana poblacional -
Intervalo de confianza para proporciones
-
Prueba t-student para un promedio
con distribución Asociación entre variables
poblacional.
normal
-
Intervalo de confianza para el promedio
Muestras
-
Prueba del signo o binomial para la
pequeñas sin distribución normal
- 27 -
mediana poblacional. -
Intervalo de confianza para el promedio
C. PRUEBAS ESTADÍSTICAS PARA ESTUDIOS COMPARATIVOS MAS FRECUENTES DE ACUERDO A LAS ESCALAS DE MEDICIÓN DE LA VARIABLE EN ESTUDIO.
TIPO DE ESCALA DE DESCRIPCION LA VARIABLE Independientes Nominal (sin control de factores de confusión) Ordinal
METODO O TECNICA ESTADISTICA -
Independientes Razón
Nominal Dependientes con bloques o igualación de atributos
Ordinal
Razón
-
- 28 -
Prueba de Fisher Prueba X2 Calculo del riesgo relativo Modelos logísticos y logarítmicos lineales Prueba U de Mann Whitney (dos poblaciones) Prueba de Kruskall Wallis (2 o más poblaciones) Modelos logarítmicos lineales Prueba t-student (dos poblaciones) Análisis de varianza para la prueba F (más de 2 poblaciones) seguida de la prueba de medias de Tukey, Dunkan, etc. Prueba de logrank para comparar sobreviva. Regresión múltiple Prueba de McNemar. Método de Mantel Haenzel Prueba de X2 para cada bloque Modelo logísticos y logarítmicos lineales. Prueba de Friedman Prueba de Wilcoxon para rangos señalados Modelos logarítmicos lineales Prueba “t” apareada Análisis de varianza para prueba F con 2 criterios de clasificación con prueba de Tukey Regresión múltiple
RECOLECCION DE DATOS La recolección de datos proporciona la materia prima para el proceso estadístico. La veracidad de los resultados depende de la calidad de los datos que se recolecten. A menudo esta actividad de recolección es la que consume mayor tiempo y costo, por lo que es lógico concluir que es muy importante planearla y ejecutarla adecuadamente. La recolección de datos implica tres actividades: o
Seleccionar o desarrollar un instrumento de medición.
o
Aplicar ese instrumento de medición
o
Codificar las mediciones obtenidas para su análisis.
FUENTES DE INFORMACION Una fuente de información es el lugar, la institución, la persona donde están los datos que se necesitan para la investigación. Los datos pueden reunirse a partir de fuentes de información existentes o pueden obtenerse mediante encuestas y estudios experimentales diseñados para conseguir nuevos datos. Las fuentes de información pueden ser:
Primarias Información que se obtiene directamente de la Unidad de observación
Fuentes de datos internos. aquellas que la empresa puede obtener y explorar por sus propios medios y recursos sin necesidad de acudir a terceros
Fuentes de datos externos Información que están situadas fuera de la empresa cuya información puede obtenerse a través de diferentes medios
- 29 -
Secundarias Información elaborada a base de datos de las fuentes primarias
Reportes Financieros, Reporte de operaciones, planificación, reportes especiales, etc
Informes, Análisis o comparaciones sobre reportes anteriores de la empresa
Informes de Estudio de mercado, estudio de posicionamiento, Reportes del INEI
Análisis o informes basados en los reportes del INEI, Ministerios u otras entidades que genera información estadística
TECNICAS E INSTRUMENTOS DE RECOLECCION DE DATOS ENCUESTA
ENCUESTA
ENTREVISTA
OBSERVACIÓN
ANÁLISIS DOCUMENTAL
Desde el inicio de la investigación se hace necesario decidir sobre el enfoque a utilizar, lo que determina las características de todo el estudio.
Un buen instrumento determina en gran medida la calidad de la información, siendo esta la base para las etapas subsiguientes y para los resultados.
La metodología utilizada en la recolección de datos debe definir el tipo de información requerida (cuantitativa, cualitativa o ambas).
Método: Representa la estrategia o camino a través del cual se establece la relación entre el investigador y el consultado para la recolección de los datos, se citan la observación y la encuesta.
Técnica: conjunto de reglas y procedimientos que permiten al investigador establecer la relación con el objeto o sujeto de la investigación.
Instrumento: mecanismo que usa el investigador para recolectar y registrar la información; formularios, pruebas, test, escalas de opinión, listas de chequeo.
Las principales técnicas de recolección de datos son:
- 30 -
La encuesta
La entrevista
La observación (no experimental y experimental)
El Análisis documentario
1. LA OBSERVACION Es el registro visual de lo que ocurre en una situación real, clasificado y consignando los datos de acuerdo con algún esquema previsto y de acuerdo al problema que se estudia.
VENTAJAS
DESVENTAJAS
Permite obtener datos cuantitativos y
agudeza
cualitativos.
Se
observan
características
También
conductas,
Puede
ser
utilizada
en
los
Demanda
gran
cantidad
de
Tiene sesgos; el humano ve lo que quiere ver.
cualquier
investigación y área del saber.
“ver”
tiempo.
actividades,
características o factores ambientales.
para
fenómenos estudiados.
y
condiciones de los individuos.
Se requiere de mucha habilidad y
Al momento de la interpretación
Es un método que no depende de
pueden distorsionrse los hechos
terceros o de registros; con ello se
e ir más allá de lo que vimos en
eliminan sesgos y ambigüedades.
realidad.
PARA REDUCIR LOS PROBLEMAS SE UTILIZA
Definir claramente los objetivos perseguidos.
Determinar claramente la unidad de observación.
Registrar las condiciones en que se asumirá la observación y las conductas
LOS ERRORES MAS COMUNES EN LA OBSERVACION
Los fenómenos a observar no se dan de la misma manera en todos los sujetos de observación.
Cuando el observador tiene ideas prejuiciadas.
Cuando el instrumento no es válido o es poco exacto o está mal definido.
- 31 -
TIPOS DE OBSERVACION CLASES
TIPOS
CARACTERISTICAS
El
investigador
se
involucra
total
o
parcialmente con la actividad objeto de Observación Participante Según el
investigación.
grupo.
Nivel de
La observación se hace desde el interior del
Pueden
intervenir
las
emociones
del
investigador.
participación
El investigador no se involucra en la actividad objeto de estudio.
Observación NO
Los datos pueden ser más objetivos.
Participante
Al no integrarse al grupo los datos pueden no ser exactos, reales y veraces.
Según la
Observación
forma de
Directa
registrar la conducta
Observación
Cuando el investigador se pone en contacto personalmente con el hecho o fenómeno que se quiere investigar
Indirecta
A través de filmadoras u otro medios audiovisual
El investigador utiliza lineamientos generales parta observar y luego escoge lo que estima
Según la Planificación
Simple o No
relevante a los efectos de la investigación
estructurada
propuesta.
de la
usada
para
estudios
exploratorio
observación Sistemática o Estructurada
- 32 -
Fundamentalmente
El investigador dispone de un instrumento estructurado y estandarizado para medir las variables en estudio (lista de cotejos, etc).
2. LA ENTREVISTA Es la comunicación interpersonal establecida entre el investigador y el sujeto de estudio a fin de obtener respuestas verbales a las interrogantes planteadas sobre el problema propuesto.
VENTAJAS
Es aplicable a toda persona, (incluyendo a con limitaciones física o psicológica).
Permite estudiar aspectos psicológicos o de otra índole donde se desee profundizar en el tema.
Permite obtener información más completa,
A través de ella el investigador puede: Aclarar el propósito del estudio, especificar claramente la información que necesita, aclarar preguntas y permite usar triangulación. Permite captar mejor el fenómeno estudiado ya que permite observar lenguaje no verbal.
TIPO DE ENTREVISTAS 1. ENTREVISTA ESTRUCTURADA
Se elabora un formulario estandarizado.
Idénticas preguntas y en el mismo orden a todos los sujetos.
Los sujetos eligen la respuesta de 2, 3 o pocas más alternativas.
Los comentarios y explicaciones son los mismos para todos. VENTAJAS
Respuestas cortas y precisas.
Información fácil de procesar.
El entrevistador no requiere
DESVENTAJAS
La información puede ser muy superficial.
Limitada
la
gran entrenamiento.
profundizar
Información uniforme.
determinado.
Difícil
en
obtener
confidencial.
- 33 -
posibilidad un
de
aspecto
información
2. ENTREVISTA NO ESTRUCTURADA
Es flexible y abierta, pero regida por los objetivos de la investigación.
Las preguntas, su contenido, orden y formulación es controlado por el investigador, el que puede adaptarlas dependiendo de las situaciones y características de los sujetos en estudio.
El entrevistado también cuenta con libertad para dar sus respuestas.
Se utiliza un instrumento guía que contiene las orientaciones de los temas a tratar.
Muy útil para estudios exploratorios, descriptivos y cualitativos VENTAJAS
DESVENTAJAS
Adaptable y aplicable
Requieren mucho tiempo.
a
de
Muy costosos por el tiempo de las entrevistas.
sujetos en diversas
Limitado para personas con problemas de la
toda
clase
situaciones.
palabra.
Permite
profundizar
en
temas
los
de
Orienta
posibles
hipótesis y variables
Dificultad para tabular datos que han sido recopilados de distinta forma.
interés.
Se requiere crear confianza y comodidad entre el entrevistado y el entrevistador.
Se requiere habilidad técnica para obtener la
cuando se exploran
información y mayor conocimiento respecto
áreas nuevas.
del tema.
Debido a que son entrevistas en profundidad habitualmente se utilizan muestras pequeñas.
CONSIDERACIONES PARA LAS ENTREVISTAS Para evitar el rechazo o atrasos al aplicar entrevistas:
Establecer los contactos necesarios para el buen fin de las entrevistas.
Entrevistador debe estar bien capacitado.
El entrevistador debe establecer una buena comunicación con el entrevistado, uso de vestuario adecuado, lenguaje adecuado, escuchar adecuadamente, no apresurar al entrevistado, etc.
- 34 -
Buen registro de la información a fin de poder interpretarla adecuadamente.
El entrevistador debe:
Dejarle un mensaje positivo al entrevistado.
Jamás dar consejos,
Jamás hacer juicios morales,
Jamás rebatir al entrevistado.
3. LA ENCUESTA
Método que utiliza un formulario impreso, destinado a obtener respuestas sobre el problema en estudio y que el sujeto investigado llena por sí mismo.
La encuesta puede aplicarse a grupos o individuos estando presente el investigador. Incluso puede enviarse por correo a los destinatarios.
Algunos instrumentos utilizado en la encuesta son: EL CUESTIONARIO, TEST – FORMULARIOS - PRUEBAS
VENTAJAS
DESVENTAJAS
Costo relativamente bajo.
Proporciona información sobre un mayor número de personas
puede variar ni profundizarse.
Si el cuestionario se envía por
en un período breve.
correo, es posible que no sean
Fácil para obtener, cuantificar,
devueltos o que no se obtengan
analizar e interpretar datos.
respuestas.
Menores
requerimientos
de
No utilizable en personas que no saben leer ni escribir.
personal capacitado.
Es poco flexible, la información no
Mayor posibilidad de mantener
No permite aclarar dudas.
anonimato de los encuestados.
Resulta
Eliminación de los sesgos que
cuestionarios
introduce el encuestador.
contestados.
Se
deben
muestras.
- 35 -
difícil
obtener
completamente
obtener
grandes
4. ANALISIS DOCUMENTARIO
Este tipo de investigación es la que se realiza apoyándose en fuentes de carácter documental (documentos que se encuentran en los archivos, como cartas, oficios, circulares, expedientes, etc).
Consiste en seleccionar las ideas informativamente relevantes de un documento a fin de expresar su contenido sin ambigüedades para recuperar la información contenida. Esta representación puede ser utilizada para identificar el documento e identificar su contenido o para servir de sustituto del documento.
III. EJERCICIOS 3.1. De los siguientes incisos, ¿cuáles representan variables discretas y cuáles variables continuas? a) El número de acciones vendidas por día en la bolsa de valores. b) Las temperaturas registradas cada media hora en un observatorio. c) El tiempo de vida de baterías de equipos celulares con cámara y MP3. d) El ingreso anual de los profesores universitarios. e) La longitud de 1000 tornillos producidos por una fábrica.
3.2. Establece una correspondencia entre las variables indicadas y la clasificación que se muestra a continuación: VARIABLES
CLASIFICACION A
Cualitativa – Nominal.
B
Dependiente, independiente – Bidimensional.
3 El ingreso familiar en soles
C
Cuantitativa discreta – Unidimensional.
4
Lugar de nacimiento de los estudiantes de la UCV
D
Cualitativa – Ordinal.
5
La raza y la religión del padre de los pobladores de una ciudad
E
Cualitativa, cualitativa – Bidimensional.
6
El Nº de libros que tiene cada una de las universidades del Perú
F
Cuantitativa continua – Razón.
1 El peso y la talla 2
- 36 -
Ciclos de estudios de una carrera profesional
DEPARTAMENTO DE INVESTIGACIÓN ESTADÍSTICA GENERAL
3.3. Indica a qué clase de variable: por su naturaleza y por su escala de medición, pertenece cada uno de los siguientes casos: a) Cantidad de hombres y mujeres en un aula de clase. b) La edad (en años cumplidos) de los estudiantes de la UCV. c) Grado de instrucción de los PPFF de los alumnos de un centro educativo. d) El nivel de autoestima. e) Etapas del desarrollo. f) Coeficiente intelectual.
3.4. Proporciona una definición operacional en cada uno de los siguientes casos: a) Un buen trabajador
b) Un bonito día
c) Un servicio de atención rápido
d) Tiempo de estudio
e) Número de personas en el hogar
f) Un buen estudiante
3.5. Un investigador que está estudiando hábitos de consumo le pregunta a cada vigésima persona que entra en un supermercado acerca del número de veces que va de compras semanalmente a) Si la persona encuestada responde 2, ¿esta respuesta es una muestra, variable, medida estadística, parámetro o dato? ¿La respuesta es un valor cuantitativo o cualitativo?, ¿porqué? b) A la persona encuestada también se le pregunta por su edad, estado civil
e
ingresos y responde: 32, soltero, S/. 1500 respectivamente. Identifique los elementos de cada uno de estos datos.
3.6. Propón las técnicas e instrumentos que se podrían utilizar en la recolección de datos para responder las preguntas que se presentan a continuación y explica la razón de su elección. a)
¿Cuál es la opinión de los estudiantes de la universidad sobre la actual política educativa?
b)
¿Qué opinan los residentes de una urbanización y del Consejo Territorial correspondiente, sobre la seguridad ciudadana en dicha urbanización?
- 37 -
c)
¿Cuáles son los niveles de desempeño del docente y de rendimiento de los alumnos del curso de Estadística General de la UCV?
d)
¿Existe relación entre el nivel de autoestima de los trabajadores de una empresa y su nivel de satisfacción en el trabajo?
e)
¿Cuál es la opinión de los decanos de las facultades sobre las fortalezas y debilidades de la investigación científica en la universidad y sus causas?
f) ¿Cuáles son los tiempos promedio de espera y de atención de los clientes de un banco en las colas que se forman en las ventanillas y la opinión al respecto? g) ¿Cuál es la opinión de los residentes en el distrito de Salaverry sobre la calidad del agua potable y la calidad de atención al cliente? h) ¿Cuál es el pronóstico de las ventas de una empresa para los años 2009 y 2010, teniendo en cuenta las ventas durante los últimos diez años? i) ¿Cuál es el desgaste de los rodamientos de cierto tipo de máquinas y su relación con el tipo de aceite que se utiliza para lubricarlas? j) ¿Cuál es la opinión de las autoridades del sector turismo del departamento de la Libertad sobre cómo incrementar el flujo de turistas nacionales y extranjeros hacia el departamento?
3.7. Un profesor está interesado en analizar la relación entre el rendimiento académico de los estudiantes de un examen con otras variables como edad, género, escuela, tiempo de estudio fuera de clase, tiempo de diversión fuera de clase, otras actividades que realiza fuera de clase, método de estudio, etc. Algunas de las preguntas o ítems del primer cuestionario que elabora como instrumento para recolectar los datos son: 1) Edad
6)
2) Género
¿Cuántas horas a la semana dedica a trabajar, además de estudiar?
3) Escuela a la que pertenece
7)
¿Realiza actividades de diversión?
4) ¿Cuántas
8)
¿Cuántas horas a la semana dedica a
horas a la semana
dedica al estudio, fuera de clases? 5) ¿Además de estudiar, realiza otro
divertirse? 9)
tipo de trabajo?
utiliza? 10)
- 38 -
¿Cuál es el método de estudio que
¿Cuál es tu estrato socio-económico?
ACTIVIDADES DE REFORZAMIENTO 4.1. Propón la técnica e instrumento de recolección de datos que se podrían utilizar para lograr los siguientes objetivos. Objetivos
Técnicas
Instrumentos
Conocer la opinión de los estudiantes universitarios sobre la política económica del gobierno Conocer la opinión de los gerentes de las entidades financieras sobre las últimas “medidas” del gobierno en su sector. Estimar el número promedio de automóviles por hora que pasan por el cruce de dos avenidas y el tiempo promedio entre llegadas Evaluar el cumplimiento de las normas en el otorgamiento de préstamos para vivienda en una entidad financiera Analizar si existe relación entre el nivel de autoestima y el rendimiento académico de los estudiantes de una facultad
4.2. Algunos de los objetivos específicos de una investigación para analizar la satisfacción de los clientes de un restaurante son: (a) Describir el perfil de los clientes, (b) Evaluar la atención del personal, según la opinión de los clientes, (c) Determinar la opinión de los clientes sobre la calidad de la comida, (d) Conocer la opinión de los clientes sobre la infraestructura, (e) Identificar las razones por las que los clientes prefieren el restaurante. Elabora un cuestionario estructurado y codificado, considerando por lo menos dos preguntas para cada objetivo.
39
REFERENCIAS BIBLIOGRÁFICAS
1.
ÁVILA ACOSTA, R., (2001). Estadística Elemental. Estudios y Ediciones RA- Lima – Perú.
2.
BERENSON – LEVINE, (1996). Estadística Básica en Administración. 6ta edición. Edit. PHH S. A. – México.
3.
FREUND, John y MANNING SMITH, Richard, (1999). Estadística. 6ta edición – Edit. Préntice Hall Hispanoamericana S.A.- México.
4.
GUILFORD, J.P. y FRUCHTER, Benjamín, (1996). Estadística Aplicada a la Psicología y la Educación. Edit. Mc Graw-Hill – México.
5.
MILLER, Irwin y FREUND, John E.,1995. Probabilidad y Estadística para Ingenieros – Edit. Préntice Hall Hispanoamericana S.A. – México.
6.
MOYA, Rufino, (1991). Estadística Descriptiva. 1era edición –Editorial San MarcosLima- Perú.
7.
WEBSTER, A. y otros, (2000). Estadística Aplicada a los Negocios y a la Economía. 3era edición – Edit. McGraw-Hill Companies, Inc. – Santa Fe de Bogotá- Colombia.
40
MUESTREO I. DEFINICIONES PRELIMINARES: UNIDAD DE ANÁLISIS: Para seleccionar una muestra, primero se define la Unidad de Análisis que puede ser un cliente, un votante, una organización, un libro contable, un periódico, un hospital, un paciente, etc. Esta definición nos permite identificar “Quien va ha ser medido”, “Quien nos va ha dar la información” y por lo tanto precisar claramente el problema a investigar y los objetivos de la investigación. POBLACION OBJETIVO: Una vez que se ha definido la unidad de análisis se procede a delimitar la población que va a ser estudiada y sobre la cual se pretende generalizar o inferir los resultados. Entonces, una población es el conjunto de todas las unidades de estudio que concuerdan con una serie de especificaciones o características. Para seleccionar la muestra debe delimitarse la población identificando sus características o variables de interés a fin de determinar los parámetros poblacionales. En algunos casos, la delimitación de una población no sólo depende de los objetivos del estudio, sino de otras razones prácticas. Las poblaciones tienen que ser especificadas en contenido, lugar y tiempo.
MUESTRA: La muestra es un subconjunto de elementos que pertenecen a una población de estudio. Para seleccionar una muestra debemos de tener presente el tipo de muestreo a utilizar: muestreo probabilística y el muestreo no probabilístico. Se tiene que definir la variable de interés, para que en función de esta se sepa qué tipo de muestreo utilizar. Luego calcular el tamaño de muestra y finalmente seleccionar las unidades de análisis.
41
MUESTREO Es una TÉCNICA ESTADÍSTICA por la cual se realizan inferencias a la población examinando solo una parte de ella, ésta parte recibe el nombre de
MUESTRA, la cual debe ser
estadísticamente representativa y adecuada. Ventajas:
Desventajas:
Costo reducido
• Presencia del error de muestreo
Mayor rapidez
• Presencia de gran variabilidad de las obs.
Claridad
TÉCNICAS DE MUESTREO: Existen 2 tipos de técnicas de muestreo: A. TECNICAS PROBABILISTICAS:
B. TECNICAS NO PROBABILISTICAS
Muestreo aleatorio
• El muestreo a criterio o juicio.
Muestreo aleatorio estratificado
• El muestreo por cuotas.
Muestreo sistemático
• El muestreo por conveniencia.
Muestreo por conglomerados
• El muestreo intencional
A. TECNICAS PROBABILISTICAS MUESTREO ALEATORIO: Escoge al azar los miembros de la población hasta completar el tamaño muestral previsto. En teoría se enumeran previamente todos los elementos y de acuerdo con una tabla de números aleatorios se van escogiendo. El procedimiento puede darse con o sin reemplazos y esta condición afectará posteriormente el análisis. a. Sin reposición: Cuando un elemento es seleccionado y puede volver a ser seleccionado, se dice que hacemos un muestreo aleatorio con reemplazamiento o con reposición. Generalmente recibe el nombre de muestreo aleatorio simple. (m.a.s.) b. Con reposición: En caso de que el elemento no vuelva a formar parte de la población de manera que no puede volver a ser seleccionado se dice que se ha obtenido la muestra mediante un muestreo aleatorio sin reposición o reemplazamiento. En algunos libros, este método recibe también el nombre de muestreo irrestrictamente aleatorio.
42
MUESTREO SISTEMATICO: En la población (N) se elige el primer elemento al azar. Luego los demás se escogen cada cierto intervalo (k), hasta completar el tamaño muestral (n). El tamaño del intervalo (k) se calcula así: k = N/n
MUESTREO ESTRATIFICADO: Considera que al interior del universo existen estratos (subgrupos internamente homogéneos pero cualitativa y cuantitativamente diferentes entre sí), y que no se cumple la condición de selección aleatoria pues los miembros del grupo mayoritario tienen una mayor probabilidad de ser seleccionados en la muestra.
MUESTREO POR CONGLOMERADO: En el muestreo por conglomerados, la población se divide en unidades o grupos, llamados conglomerados (generalmente son unidades o áreas en los que se ha dividido la población), que deben ser lo más representativas posible de la población, es decir, deben representar la heterogeneidad de la población objeto del estudio y ser entre sí homogéneos.
B. TECNICAS NO PROBABILISTICAS MUESTREO POR CUOTAS: También denominado en ocasiones "accidental". Se asienta generalmente sobre la base de un buen conocimiento de los estratos de la población y/o de los individuos más "representativos" o "adecuados" para los fines de la investigación. Mantiene, por tanto, semejanzas con el muestreo aleatorio estratificado, pero no tiene el carácter de aleatoriedad de aquél.
MUESTREO A JUICIO: Se busca seleccionar a individuos que se juzga de antemano tienen un conocimiento profundo del tema bajo estudio, por lo tanto, se considera que la información aportada por esas personas es vital para la toma de decisiones.
43
MUESTREO OPINÁTICO O INTENCIONAL: El investigador selecciona aquellos casos que le están más disponibles. Los resultados que se obtengan no podrán generalizarse más allá de los individuos que componen la muestra, al igual que las conclusiones.
BOLA DE NIEVE: Se localiza a algunos individuos, los cuales conducen a otros, y estos a otros, y así hasta conseguir una muestra suficiente. Este tipo se emplea muy frecuentemente cuando se hacen estudios con poblaciones "marginales", delincuentes, sectas, determinados tipos de enfermos, etc.
II. DISEÑO DE LA MUESTRA:
Para determinar el tamaño, primeramente hay que identificar la variable a estudiar (Cuantitativa o cualitativa). Luego depende de cuatro factores o elementos que son los siguientes:
44
Se quiere saber cómo se comporta una cierta característica en una Población particular
Hacer un Censo
Sí
La población está bien definida ?
Sí
Es posible observar toda la población?
NO Definir La población
Las observaciones pueden atribuirse a los miembros la población
Variable Cualitativa
Muestreo Representativo para estimar una Proporción
Variable Cuantitativa
Muestreo Representativo para estimar una Media
NO Observar una Muestra
De que naturaleza es el parámetro que se quiere estimar ?
III. TAMAÑO DE LA MUESTRA
3.1. PARA UNA VARIABLE CUANTITATIVA:
a. Un nivel de confianza: Que es adoptado por el investigador, el cual puede ser 90%, 95% o 99% y que origina el valor de Z. b. El error de estimación (E): Que también es fijado por el investigador c. La desviación estándar ó varianza: que son valores que se obtienen por estudios anteriores, por la muestra piloto o por la distribución de la población. d. El Tamaño de la población (N): Que generalmente no se conoce.
45
3.2. PARA UNA VARIABLE CUALITATIVA:
a. Un nivel de confianza: Que es adoptado por el investigador, el cual puede ser 90%, 95% o 99% y que origina el valor de Z. b. El error de estimación (E): Que también es fijado por el investigador c. La proporción poblacional (P): que son valores que se obtienen por estudios anteriores, por la muestra piloto y si no se conoce asumir p=0.5. d. El Tamaño de la población (N): Que generalmente no se conoce.
3.3. FORMULAS PARA DETERMINAR EL TAMAÑO DE MUESTRA:
VARIABLE
(Cuando no se conoce N)
(Cuando se conoce N)
Cuantitativa
(Proporción
(Promedio
Poblacional)
Poblacional)
Z 2 P(1 - P) n0 = E2
POBLACION INFINITA
POBLACION FINITA
Cualitativa
n=
Z 2 P(1 - P) N E 2 ( N - 1) + Z 2 P(1 - P)
n0 =
n=
Z 2S 2 E2
Z 2S 2 N E 2 ( N - 1) + Z 2 S 2
Z = es el valor de la distribución normal estandarizada para un nivel de confianza fijado por el investigador. S = Desviación estándar de la variable fundamental del estudio o de interés para el investigador. Obtenida por estudios anteriores, muestra piloto, criterio de experto o distribución de la variable de interés. P = es la proporción de la población que cumple con la característica de interés. E = % del estimador o en valor absoluto (unidades). Fijada por el investigador. N = Tamaño de la población.
46
3.4. ESTIMACION DE LOS VALORES A APLICAR EN LAS FORMULAS A. Valor de Z: es el valor de la abscisa de la distribución normal estandarizada teniendo en cuenta el nivel de confianza fijado por el investigador, por lo tanto este valor se encuentra en las tablas estadística respectiva. Para hacer el trabajo menos tedioso, presentamos a continuación los diferentes valores de Z VALORES DE LA DISTRIBUCIÓN NORMAL ESTANDARIZADA(Z) Nivel de Valor Z Nivel de confianza significancia (1-) Bilateral Unilateral () 90% = 0.90 10% = 0.10 1.64 1.28 95% = 0.95 5% = 0.05 1.96 1.64 98% = 0.98 2% = 0.02 2.33 2.05 99% = 0.99 1% = 0.01 2.58 2.32 B. Cálculo del Valor de P:(Se calcula este valor cuando la variable es CUALITATIVA) Que son valores que se obtienen por estudios anteriores, por la muestra piloto y si no se conoce asumir p=0.5. C. Cálculo del Valor de la varianza (Si la variable es CUANTITATIVA): este valor es obtenida por estudios anteriores, muestra piloto, criterio de experto o distribución de la variable de interés.
D. Cálculo del error de estimación: Generalmente se asume 2%, 5%, y 8% de error. Este valor es fijado por el investigador. Es la diferencia entre el parámetro (población) y el estimador (Muestra). Es decir, por ejemplo E=| x |. Este error puede ser absoluto o relativo. Si E=±0.35 se denomina error absoluto. Si consideramos un error del 10% de la media, es decir, E=10%( x )= 0.10(3.5)= 0.35 se denomina error relativo.
47
CASOS CASO Nº 01: (Cuando se conoce la varianza) En un estudio realizado en la Minera Barrick se obtuvo que el promedio de horas extras por trabajador es de 3.3 hrs., con una varianza de 4.18 hrs2. Si en el presente año cuenta con 120 trabajadores, los cuales registran sus horas extras en tarjetas de control. Determinar el tamaño de muestra necesario para estimar el promedio de horas extras diarias con un error del 10% del promedio y una confianza del 95%.
CASO Nº 02: (cuando se conoce la varianza) El Director del Departamento de Salud Pública de la Ciudad de Trujillo desea obtener una muestra de los registros de casos de mordidas de perro, reportadas durante el año anterior, para estimar la edad media de las personas mordidas. El Director desea una muestra con una seguridad del 95%, con un error del 5% del promedio. En base a estudios anteriores se conoce que la edad promedio de las personas que son mordidas por perros es de 25 años y la desviación estándar es de 5 años. ¿De que tamaño debe ser la muestra? CASO Nº 03: De una población de 1,043 pequeños establecimientos comerciales con 5 o más empleados, en una área del centro de la ciudad de Trujillo, se requiere ser muestreada para estimar el numero medio de empleados por establecimiento, teniendo información preliminar que la desviación estándar es de 1.3 empleados. ¿Qué tamaño debe ser la muestra, si la estimación se establece una precisión de 0.25 con una confianza del 95%?. Analice los resultados obtenidos.
48
CASO Nº 04: (Cuando no se conoce la varianza-Muestra piloto) La Dirección Regional de Salud DIRESA-Trujillo esta realizando una investigación acerca del comportamiento del peso de niños en la ciudad de Trujillo y ver si presenta un plan de salud para mejorar esta factor latente de bajo de peso. Como no se conoce la varianza se obtiene una muestra piloto de 20 niños cuyos pesos son: 14.8, 14.2, 15.3, 15.4, 15.0, 15.2, 15.3, 14.2, 15.2, 15.5, 15.6, 16.4, 14.8, 15.1, 15.8, 16.1, 14.5, 15.3, 14.9, 15.9. Determinar el tamaño de muestra apropiado con una confianza del 95% y un error tolerable del 1% respecto al promedio.
CASO N° 05: (Cuando existen estudios previos) Por estudios científicos se sabe que el Coeficiente de Inteligencia promedio para jóvenes según la escala de Weshler es de 100 puntos con una desviación estándar de 15 puntos. Determinar el tamaño de muestra para realizar una investigación sobre niveles de inteligencia en la Universidad Privada del Norte, si se admite un error del 2% del promedio y una seguridad del 95%.
CASO N° 06: Se desea determinar una muestra representativa para conocer la opinión en contra de la población acerca de la explotación del Cerro Quilish-Cajamarca. Se aplicó una muestra piloto a 20 de los 10000 cajamarquinos, obteniéndose los siguientes datos. Cuál es el tamaño de muestra con un 95% de confianza y un error del 2%?
49
Grupo
Tamaño de muestra
A favor
9
En contra
8
Indecisos
3
Total
20
CASO N° 07: Se desea estimar la proporción de jóvenes de la ciudad de Trujillo que hacen uso de Internet como mínimo una hora diaria con un 95% de confianza. De estudios anteriores se conoce que P=0.70 y se desea un E = 5%. Suponiendo que N = 1500. Cual debe ser el tamaño de muestra.
CASO Nº 08: El administrador del Restaurante “El Romano” desea saber que proporción de sus ClientesTuristas están inconformes con las atenciones recibidas durante su estadía en Trujillo. ¿De que tamaño debe ser la muestra si se considera E=0.05, nivel de confianza del 95% y no se dispone de alguna otra información?
CASO N° 09:
En una muestra piloto de tamaño 50 estudiantes universitarios, seleccionados de 4,000 estudiantes se encuentra que 30 fuman, que tamaño deberá ser la muestra, para que la precisión de estimación “p” sea del 5%, considere una confianza del 95%.
50
Sesión 4 Organización de los datos: Tablas y Gráficos Estadísticos CAPACIDADES 1. Construye e Interpreta los diferentes tipos distribuciones de frecuencias. 2. Presenta adecuadamente los cuadros estadísticos. 3. Construye e interpreta los gráficos de acuerdo a las normas técnicas del INEI
ACTITUDES 1. Valora la importancia que tiene la distribución de frecuencias y los gráficos como
método de organización y como método para describir el comportamiento de las variables de interés. 2. Valora la importancia que tiene la estructura y la presentación adecuada de los cuadros
y gráficos estadísticos para descubrir patrones de comportamiento en la Investigación científica. 3. Actitud creativa y disposición a trabajar en equipo.
CONTENIDO
Organización de datos: Distribución de Frecuencias. Interpretación. Presentación de Cuadros. Representación grafica de acuerdo a las normas técnicas del INEI
51
CUADROS ESTADISTICOS
I.
CUADRO ESTADISTICO Un cuadro estadístico es un arreglo ordenado de filas y columnas, de datos estadísticos o características relacionadas, con el objeto de presentar adecuadamente información estadística. (Ejemplo: las tablas del BCR, INEI). Deben ser diseñados de tal forma que el lector pueda dirigirse fácilmente al cuadro.
II. FINALIDAD: Es ofrecer información resumida de fácil
lectura, comparación e
interpretación III. VENTAJAS:
Los cuadros permiten presentar en forma resumida y ordenada muchos datos.
Es un instrumento que clasifica, resume y comunica información estadística.
Facilita el análisis de los datos.
IV. PARTES DE CUADRO ESTADISTICO
52
1. Número: Es el código de identificación. El número se anota junto a la palabra tabla o cuadro, ejm.: Tabla Nº 1, Cuadro Nº 1 2. Título: Se refiere a la descripción del contenido del cuadro. Debe indicar la característica principal en estudio, lugar y tiempo que se realizó el trabajo. 3. Encabezamiento:
Es la descripción de las filas y columnas de un cuadro
estadístico. El encabezamiento se ubica en la parte superior del cuerpo del cuadro. 4. Columna Matriz: En esta columna se designa la naturaleza del contenido de cada fila. Se anotan las categorías o las diferentes clases de la escala de clasificación utilizada. 5. Cuerpo del Cuadro: Se ubica la distribución de los datos estadísticos de acuerdo a las indicaciones del encabezamiento y la columna matriz. 6. Notas explicativas: Se refiere a cualquier nota aclaratoria sobre el contenido del cuadro estadístico. 7. Fuente:
Sirve para indicar de donde se obtuvo la información estadística.
Ejemplo:
Cuadro Nº 1
Intervenciones por delitos, registrados por la Policía Nacional, en el País y en el Departamento de La Libertad, según tipo de falta: 2009 TIPO DE FALTA
53
INTERVENCIONES EN DELITOS TOTAL DPTO LA RESTO
PAIS
Contra la vida el cuerpo y la salud Contra la tranquilidad pública 1/ Contra el patrimonio Contra la familia Contra la libertad Contra la seguridad pública Contra el orden económico Delito tributario Contra la fe pública Contra la administración pública Otros TOTAL
23681 1296 109112 6669 8531 7736 4247 15081 1483 314 924 179074
LIBERTAD
2137 1 7793 21 424 17 --6 6 36 10467
PAIS
21544 1295 101319 6648 8107 7719 4247 15081 1451 308 888 168607
Fuente: Policía Nacional del Perú- División de Estadística V.
ERRORES MAS COMUNES
Disposición incorrecta de los datos
Títulos y encabezamientos incompletos e inadecuados
Datos no comparables: establecer comparaciones es una de las partes más importantes del análisis
Cuadro sobrecargado
CLASIFICACION DE LOS CUADROS ESTADISTICOS
54
CUADROS DE DISTRIBUCION DE FRECUENCIAS DEFINICION: Es una forma de organizar u resumir los datos con la finalidad de describir el comportamiento de las variables de interés. Esta organización tabular, consiste en presentar la lista de valores de la variable, clases o categorías junto con el número de veces que se repite cada valor de la variable (frecuencia)
55
Donde:
fi : Frecuencia absoluta simple hi : Frecuencia relativa simple Fi : Frecuencia absoluta acumulada Hi : Frecuencia relativa acumulada
EJEMPLO Simples
Acumuladas
# hijos
fi
hi
Fi
Hi
0 hijos
f1 = 6
6/13 = 46.1%
F1 = f1 = 6
H1 =F1/N = 46.1%
1 hijos
f2 = 4
4/13 = 30.8%
F2 = f1+f2 =10
H2 =F2/N = 76.9%
2 hijos
f3 = 3
3/13 = 23.1%
F3 = f1+f2+f3 =13
H3 =F3/N = 100%
13
100%
Total
f2 : 4 personas tienen 1 hijo h1: El 46.1% de la población tiene 0 hijos (no tiene hijos) F2: 10 personas tiene 1 o menos hijos H2: el 76.9% de la población tiene 1 hijo o menos
56
GRAFICOS ESTADISTICOS •
Un gráfico es la representación de un fenómeno estadístico por medio de figuras geométricas, cuyas dimensiones son proporcionales a la magnitud de los datos representados.
•
Su objeto principal es la representación de los datos de forma gráfica, que permita de un solo golpe de vista darse cuenta del conjunto de elementos representados y de evidenciar sus variaciones y características.
•
El gráfico es un auxiliar del cuadro estadístico, no lo sustituye sino que lo complementa.
•
En estadística los gráficos están en relación a las variables de estudio: cuantitativa o cualitativa
I.
PARTES DE UN GRAFICO ESTADISTICO
LEYENDA:
1. TITULO DEL GRAFICIO: 2. ESCALAS: 3. CUERPO: 4. FUENTE: 5. LEYENDA:
57
II. CLASIFICACION DE LOS GRAFICOS ESTADISTICOS
A. GRAFICO PARA VARIABLES CUALITATIVA O CUANTITATIVA DISCRETA
58
B. GRAFICO PARA VARIABLES CUANTITATIVAS CONTINUAS
III. PRINCIPALES GRAFICOS ESTADISTICOS A) HISTOGRAMA DE FRECUENCIAS Para construir un histograma de frecuencias, se trazan barras por arriba de cada intervalo de clase y a una altura que es igual a la frecuencia de la clase.
59
Ilustración 1: Histograma de Frecuencia 12
f
10 8 6 4 2 0
10
20
30
40
y
f 9 8
B) POLIGONO DE FRECUENCIAS
Para construir un polígono de
7
frecuencias absolutas simples se
6 5
traza una línea poligonal sobre los
4
puntos marcados, teniendo en
3
cuenta la marca de clase y sus
2 1
frecuencias correspondientes.
0 5
15
35
3
4
25
45
y
F 90 80
El polígono de Frecuencias acumuladas se llama OJIVA
70 60 50 40 30 20 10 0 1
60
2
5
6
y
C) GRAFICO DE BARRAS Estos gráficos constituyen una herramienta adecuada para comparar los tamaños relativos de cantidad que se distribuyen en el espacio. Ejemplo:
Número de personas que visitaron, durante un mes, lugares turísticos
de una ciudad. f
LUGAR TURISTICO A B C D TOTAL
Nº DE PERSONAS 40 20 30 15 105
45 40 35 30 25 20 15 10 5 0 A
B
C
D
D) GRAFICO CIRCULAR Sirve para representar la división de un todo en las partes que lo constituyen. El círculo total es dividido en partes por medio del trazado de radios, según los grados del ángulo correspondiente. Ejemplo: La siguiente tabla muestra la situación académica de un grupo de estudiantes al final de un ciclo académico
CONDICION APROBADO DESAPROBADO INHABILITADO RESERVA DE MAT TOTAL
Nº DE ESTUD 35 8 5 2 50
% 70 16 10 4 100
INHABILITADO; 10
RESERVA DE MAT; 4
DESAPROBADO; 16
APROBADO; 70
61
EJEMPLOS
IV.
62
ERRORES MAS COMUNES EN LA CONFECCION DE GRAFICOS
Falta de Titulo o títulos extremadamente extensos.
No usa correctamente las partes de un grafico
Escasez de datos
No uso de la identificación.
Títulos que no responden a las preguntas básicas.
Gráficos muy cargados y/o sumamente complejos de interpretar.
Desproporción notable entre las longitudes de los ejes.
Omisión de los rótulos de los ejes y/o las unidades de medida.
EJERCICIOS 1.
Se presenta os tiempos (en minutos) que demoran 45 estudiantes en un consultorio Psicológico de la universidad Tiempo de
Frecuencia Frecuencia Frec.
Frec.
ocupación
Absoluta
Relativa
(min) 20 – 30
7
30 – 40
16
40 – 50
12
50 – 60
3
60 – 70
5
70 – 80
2
TOTAL
45
Relativa
Absoluta
simple
acumulada acumulada
a) Completa la información del cuadro estadístico b) Hacer la grafica respectiva
2.
Los siguientes datos corresponden al número de hijos de cada una de las 30 familias de una urbanización de Trujillo. 2
4
6
0
3
1
3
5
2
4
1
5
3
0
2
4
3
2
1
0
3
4
5
2
0
2
3
5
4
2
Presentar la información en un cuadro estadístico y grafico estadístico
3.
La siguiente información corresponde a las calificaciones individuales de 50 alumnos en un examen de ingles de la Universidad Cesar Vallejo
63
84
47
74
57
42
35
50
85
81
60
65
53
54
68
85
65
52
35
33
71
74
65
77
45
73
55
91
61
41
40
59
65
60
76
64
69
48
55
78
94
67
47
88
89
77
73
66
98
66
70
a) Presentar la información en un cuadro estadística, utilizando intervalos cerrados b) Grafica un histograma de frecuencia absolutas simples c) Graficar un polígono de frecuencia relativas simples d) Grafica una ojiva porcentual menor que
4.
Las siguientes observaciones expresan el número de veces que 22 consumidores compraron una determinada marca de un producto en los 2 últimos meses Primer mes
0 2 5 0 3 1 8 0 3 1 1
Segundo mes 9 2 4 0 2 9 3 0 1 9 8 a) Construir la distribución de frecuencias relativas y la de frecuencias relativas acumuladas b) Representar ambas distribuciones en un grafico comparativo c) ¿Qué proporción de personas no compraron nunca dicha marca? d) ¿Qué porcentaje de consumidores adquirieron dicha marca menos de 5 veces?
5.
Los siguientes datos corresponden al número
de bibliotecarias o
bibliotecarios en las bibliotecas públicas de las diferentes provincias españolas 4 7 5 2 4 5 6 4 7 3 7 4 3 4 4 3 4 3 2 4
4
1 10 2
5 3 2 2 5 3 3 8 12 3 2 2 5 4 1 5 8 6 6 1 3 15 16 6 7
12
a) Hallar la distribución de frecuencias relativas y representarla mediante un diagrama de barras b) Obtener y representar la distribución de frecuencias relativas acumuladas c) ¿Qué proporción de provincias tiene más de 7 bibliotecarios?
64
6. Los dos cuadros siguientes presentan datos sobre el gasto mensual en calefacción para un apartamento de dos habitaciones Calefacción por gas 25.42 26.22 25.22 23.60 27.77 28.52 21.60 29.49 26.22 25.22 20.19 23.97 26.32 23.38 26.77 31.56 25.42 22.72 27.58 29.96 26.22 23.97 28.17 18.01 22.98
Calefacción por electricidad 33.52 51.01 41.99 33.82 25.93 30.32 32.06 39.86 24.62 31.80 48.58 44.65 31.30 35.04 19.24 40.78 43.39 34.78 25.43 33.82 26.47 34.78 32.02 27.98 32.92 a) Hacer una tabla de distribución de frecuencia b) Comparar ambas distribuciones gráficamente c) ¿Qué conclusiones pueden extraerse?
7. Las siguientes medidas corresponden a las alturas de 50 niños y niñas 1.56
1.59
1.63
1.62
1.65
1.58 1.56 1.59 1.53 1.54
1.61
1.59
1.51
1.62
1.62
1.52 1.54 1.50 1.49 1.56
1.53
1.49
1.57
1.54
1.53
1.63 1.68 1.62 1.47 1.65
1.59
1.58
1.57
1.47
1.64
1.56 1.52 1.59 1.57 1.59
1.55
1.59
1.53
1.56
1.53
1.62 1.62 1.62 1.60 1.54
a) Construir una distribución de frecuencias absolutas y relativas b) Obtener las correspondientes distribuciones de frecuencias acumuladas c) Representar las distribuciones anteriores mediante histogramas d) Dibujar los correspondientes polígonos de frecuencias e) Hallar, a partir del polígono de frecuencias acumuladas, la proporción de observaciones entre 1.59 y 1.62 ambas inclusive f) ¿Qué conclusiones pueden extraerse?
65
8. En la oficina de un diario, el tiempo que se tardan en imprimir la primera plana fue registrado, durante 50 días. A continuación se transcriben los datos, aproximados a décimas de minuto.
a)
20.8
22.8
21.9
22.0
20.7
20.9
25.0
22.2
22.8
20.1
23.3
20.9
22.9
23.5
19.5
23.7
23.6
19.0
25.1
25.0
21.3
21.5
19.9
24.2
24.1
19.8
23.9
22.8
23.9
19.7
21.1
20.9
21.6
22.7
25.3
20.3
23.1
20.7
19.5
23.8
21.8
24.3
22.5
21.2
23.8
23.8
20.7
24.2
24.2
24.1
Presenta los datos en una distribución de frecuencias con amplitud de clase entera, utilizando la fórmula de Sturges.
b)
Calcula e interpreta las frecuencias porcentuales simples y acumuladas.
c)
Determina
¿qué porcentaje de las veces, la primera plana del
periódico puede imprimirse en menos de 24 minutos? d)
Construye un diagrama de tallos y hojas. Interpreta
9. Para realizar un estudio de la cantidad de azúcar vendida por semana en una tienda, se tomó una muestra de 35 semanas del año 2000, obteniéndose los siguientes resultados (en cientos de Kg.) 68
48
66
21
28
30
46
38
69
50
90
38
21
35
92
53
53
21
27
52
55
50
48
35
36
52
45
24
28
31
39
46
61
81
46
a)
Organiza los datos usando el diagrama de tallos y hojas. Interpreta.
b)
Construye una distribución de frecuencias que tenga 7 clases de amplitud entera.
c)
Observando la distribución de frecuencias obtenida, ¿qué puede decir sobre la asimetría?
d)
66
Interpreta las frecuencias simples y porcentuales.
10. Una muestra de tiempos, en minutos, de llamadas telefónicas que recibe una secretaria son:
3 6 2 3 3 1 4 5 2 4 3 1 2 4 4 5 3 1 2 4 1 4 8 1 2 3 4 5 2 7 2 3 5 3 4 4 3 4 3 6 2 1 3 6 4 5 3 2 4 3 2 4 5 3 7 1 3 4 3 4 1 3 7 3 2 1 3 Organiza los datos en una distribución de frecuencias considerando las frecuencias absolutas simples (fi) y los porcentajes simples.
11. Considerando la amplitud de clase entera, construya las clases y sus correspondientes límites reales para la variable pago por consumo telefónico mensual en los siguientes casos: a)
Xmin = S/. 52.5
Xmáx = S/. 385.8,
k = 6 redondeado a
décimos. b)
Xmin = S/. 153.55 Xmáx = S/. 595.75 ,
k=8 redondeado a
centésimos.
12. Cuando se les pidió clasificar la destreza que se requiere para obtener una alta calificación en un nuevo juego de computadora como principiante, aprendiz, competidor, maestro o experto, 45 evaluadores respondieron de la manera siguiente: experto, maestro, maestro, competidor, experto, maestro, maestro, maestro, experto, aprendiz, maestro, maestro, maestro, maestro, experto, maestro, competidor, maestro, maestro, principiante, experto, competidor, maestro, maestro, experto, experto, maestro, maestro, maestro, competidor, competidor, experto, maestro, experto, experto, experto, competidor, maestro, maestro, y experto. Ahora: Construye una tabla que indique las frecuencias correspondientes a estas clasificaciones de la destreza que se requiere para obtener una calificación alta.
67
13. Se han tomado muestras de ventas, en soles, realizadas en una empresa durante los meses de julio y agosto. Los datos son los siguientes: 20.00 425.00 30.00 11.60 158.00 194.65 122.00 15.93 63.00 90.00 120.00 21.00 40.00 5.80 55.00 a)
Mes de julio 40.00 380.00 18.00 43.00 47.50 30.00 434.08 16.00 62.50 37.00 98.50 4.80 235.00 97.50 490.00 147.00 235.50 124.00 30.00 16.15 200.00 60.00 22.50 30.00 45.00 490.00 413.00 90.62 55.00 86.00 188.80 32.50 307.40 92.00 140.00 5.70
34.45 14.00 40.00 32.00 19.50 141.00 12.10 129.20 50.00 50.00 141.00 32.00 33.00 500.00
Mes de agosto 95.00 390.30 49.10 29.19 76.00 4.20 18.50 88.50 35.00 78.00 82.00 356.70 50.00 117.50 50.00 300.00
17.20 88.00 86.00 3.00
93.00 160.00 70.00 48.00 6.20 14.10 12.00 13.00
Construye distribuciones de frecuencias de las ventas (una para cada mes) considerando las clases: 0 á menos de 100.00, 100 á menos de 200.00, etc.
b)
Construye
una distribución de frecuencias para las ventas del mes de julio
utilizando la fórmula de Sturges. Compara con las distribuciones obtenidas en (a), ¿cuál es mejor? Explica.
ACTIVIDAD EN CLASE Recolecta la siguiente información de los alumnos del aula. Edad
Genero Talla
Peso
Estado
Numero de
civil
hermanos
1.
Indicar la clasificación de cada tipo de variable (Cualitativa o Cuantitativa)
2.
Hacer las tablas de frecuencia de Edad, genero, talla, Peso, Estado Civil, # Hermanos
3.
68
Hacer las graficas respectivas de cada variable.
ACTIVIDADES DE AUTO EVALUACIÓN (TABLAS) Antes de continuar con los siguientes temas, es conveniente que te autoevalúes, desarrollando las preguntas en forma individual. Luego coteja tus respuestas con la teoría estudiada y califícate en la escala de 0 – 20:
4.1. Los pesos de los estudiantes de una sección de Estadística de la UCV, redondeados a enteros,
varían entre 52 y 83 kilogramos. Indica los límites
nominales y los límites reales de siete clases en que se podrían agrupar estos pesos.
(3 ptos)
4.2. Los números de análisis de sangre por día que se realizan en un hospital se agrupan en una distribución que tiene las clases 25-39, 40-54, 55-69, 70-84 y 8599. Encuentra: a) las fronteras de clase, b) las marcas de clase, c) la amplitud de clase.
(3 ptos)
4.3. Las marcas de clase de una distribución del número de asaltos registrados diariamente en una delegación de policía son 4, 13, 22, 31 y 40. Encuentra: a) los límites de clase nominales, b) los límites reales.
(2 ptos)
4.4. Para agrupar las ventas que varían entre $10.00 y $60.00, un dependiente utiliza las clasificaciones siguientes: $10.00-19.99, $20.00-35.99, $35.00-49.00 y $50.0059.99. Explica las dificultades que se tendrían al utilizar estas clases. (2 ptos)
4.5. Una compañía de computadoras recibió un pedido urgente del mayor número de computadoras domésticas que pudiera entregar en un período de tiempo de seis meses. Los expedientes de la compañía ofrecen las siguientes entregas diarias: (5 ptos)
69
22
65
65
57
55
50
65
77
73
30
62
54
48
65
79
60
63
45
51
68
79
83
33
41
49
28
55
61
65
75
55
75
39
87
45
50
66
65
59
25
35
53
a) Agrupa estas cifras de entrega diaria en una distribución que tenga las clases 20-29, 30-39, 40-49,.., 80-89. b) ¿Cuáles son los límites reales o fronteras de clase? c) Calcula las frecuencias absolutas acumuladas y porcentuales acumuladas “menos que” y “mayor que”. Interpreta las frecuencias de la segunda y quinta fila.
4.6. En la redacción del diario “El Observador” el tiempo requerido para formar la primera página completa fue registrado durante 50 días. Los datos, redondeados a la décima de minutos más cercana, se dan a continuación:
(5 ptos)
20.8
22.8
21.9
22.0
20.7
20.9
25.0
22.2
22.8
20.1
25.3
20.7
22.5
21.2
23.8
23.3
20.9
22.9
23.5
19.5
23.7
20.3
23.6
19.0
25.1
25.0
19.5
24.1
24.2
21.8
21.3
21.5
23.1
19.9
24.2
24.1
19.8
23.9
22.8
23.9
19.7
24.2
23.8
20.7
23.8
24.3
21.1
20.9
21.6
22.7
a) Utilizando la fórmula de Sturges, construye una distribución de frecuencias absolutas, que incluya
frecuencias simples y
frecuencias porcentuales
acumuladas “menor que” y “mayor que”, utilizando una amplitud de clase de 0.8 minutos. b) Halla los límites reales de clase de la distribución.
70
ACTIVIDADES DE AUTO EVALUACIÓN (GRAFICOS) Antes de continuar con los siguientes temas, es conveniente que te autoevalúes, desarrollando las preguntas en forma individual. Luego coteja tus respuestas con la teoría estudiada:
1.
A continuación se da el consumo semanal de carne de vacuno en una muestra de 80 familias de la comunidad de Namora: Consumo (Kg/Sem.) Nº de familias a)
0 - 1,9 15
2 - 3,9 26
4 - 5,9
6 - 7,9
20
13
8 - 9,9 6
Construye un polígono de frecuencias y describe el comportamiento de la variable.
b) Construye las ojivas “menor que” y “mayor que” en un sólo gráfico
2.
La Asociación Nacional de Vendedores de Muebles de Estados Unidos recabó los datos siguientes de una muestra de 130 vendedores, que representan las ganancias totales por comisiones que obtienen los vendedores anualmente:
Ganancias $5.000 o menos $5.001 - $10.000 $10.001 - $15.000 $15.001 - $20.000 $20.001 - $30.000 $30.001 - $40.000 $40.001 - $50.000 más de $50.000
71
Frecuencias 2 12 11 33 32 20 13 7
a) Construye una ojiva que le ayude a responder las preguntas siguientes: b) ¿Qué % de vendedores gana más de 20,000 dólares? c) Aproximadamente ¿cuánto ganará al año un vendedor de muebles cuyo desempeño fuera de cerca del 25% del máximo esperado?
3. Para una muestra de 155 estudiantes de una Facultad, se obtuvo la siguiente distribución de los estudiantes por género y según tipo de ingreso a la Universidad
GÉNERO TIPO DE INGRESO
A
B
C
Total
MASCULINO
FEMENINO
26
16
42
61.9%
38.1%
100.0%
28.6%
25.0%
27.1%
16.8%
10.3%
27.1%
34
22
56
60.7%
39.3%
100.0%
37.4%
34.4%
36.1%
21.9%
14.2%
36.1%
31
26
57
54.4%
45.6%
100.0%
34.1%
40.6%
36.8%
20.0%
16.8%
36.8%
91
64
155
Total
58.7%
41.3%
100.0%
100.0%
100.0%
100.0%
58.7%
41.3%
100.0%
a) Interpreta cualquier porcentaje de cada uno de los casilleros del cuadro. b) Construye un gráfico de barras simples para la variable género. Comenta. c) Construye un gráfico de barras agrupadas que considere ambas variables. Comenta. d) Construye un gráfico de barras apiladas. Comenta.
72
REFERENCIAS BIBLIOGRÁFICAS 1.
ÁVILA ACOSTA, R., (2001). Estadística Elemental. Estudios y Ediciones RA- Lima – Perú.
2.
BERENSON – LEVINE, (1996). Estadística Básica en Administración. 6ta edición. Edit. PHH S. A. – México.
3.
FREUND, John y MANNING SMITH, Richard, (1999). Estadística. 6ta edición – Edit. Préntice Hall Hispanoamericana S.A.- México.
4.
GUILFORD, J.P. y FRUCHTER, Benjamín, (1996). Estadística Aplicada a la Psicología y la Educación. Edit. Mc Graw-Hill – México.
5.
MILLER, Irwin y FREUND, John E., 1995. Probabilidad y Estadística para Ingenieros – Edit. Préntice Hall Hispanoamericana S.A. – México.
6.
MOYA, Rufino, (1991). Estadística Descriptiva. 1era edición –Editorial San MarcosLima- Perú.
73
Sesión 6 Medidas Estadísticas: Tendencia Central – Posición - Dispersión CAPACIDADES 1. Realiza cálculos básicos utilizando las fórmulas,
tanto para datos simples como para datos agrupados, de las medidas de tendencia central. 2. Interpreta las medidas calculadas, usando como
referencia el contexto y las variables en estudio. 3. Calcula e interpreta cuantiles. 4. Analiza la presencia de valores extremos en un
conjunto de datos.
ACTITUDES 1. Valora la importancia que tienen las medidas de tendencia central y los cuantiles en la
descripción de las poblaciones estadísticas en estudio. 2. Actúa trabajando en equipo con responsabilidad, puntualidad y orden en la ejecución de
las tareas y trabajos asignados, asumiendo una posición reflexiva y crítica hacia los resultados obtenidos.
CONTENIDO Medidas de Tendencia Central. Media Aritmética, Mediana y Moda. Cuantiles. Valores Atípicos y Extremos.
74
MEDIDAS ESTADISTICAS En numerosas ocasiones, en vez de trabajar con todos los datos, es preferible disponer de una o más medidas descriptivas que resumen los datos de forma cuantitativa. Se trata, de resumir en unos cuantos valores la información más importante y útil contenida en un conjunto de datos, haciendo más fácil la comprensión y la comparación de las diversas características de las poblaciones o muestras.
VI. DEFINICIÓN Las medidas estadísticas son medidas de resumen que se calculan a partir de una muestra y que describen ciertos aspectos de una serie o distribución de datos para poder tener un mejor conocimiento de la población VII. FINALIDAD Las medidas estadísticas pretenden "resumir" la información de la "muestra" para poder tener así un mejor conocimiento de la población
VIII. ALGUNAS CONSIDERACIONES PARA UNA MEDIDA ESTADISTICA: 1. Debe definirse de manera objetiva: dos observadores distintos deben llegar al mismo resultado numérico. 2. Usar todas las observaciones y no algunas de ellas solamente, de manera que si varía alguna observación la medida considerada debe reflejar esta variación. 3. Tener un significado concreto: la interpretación debe ser inmediata y sencilla. 4. Ser sencilla de calcular. 5. Prestarse fácilmente al cálculo algebraico: Lo que permitirá demostraciones más elegantes. 6. Ser poco sensible a las fluctuaciones muestrales. Esta condición es imprescindible en la Estadística Matemática y en la Teoría de Sondeos.
75
IX. CLASIFICACION DE LAS MEDIDAS ESTADÍSTICAS
a.
MEDIDAS DE TENDENCIA CENTRAL Son valores que se ubican en la parte central de un conjunto de datos o de una distribución.
Las medidas de centralización responden a la pregunta. ¿Alrededor de qué valor se agrupan los datos?
Estas medidas solo se calculan para variables cuantitativas.
EL conocimiento de estas medidas es de gran utilidad tanto en los niveles de decisión como de ejecución.
Las principales medidas de tendencia central son:
MUESTRA
Media ponderada
X Xp
La Mediana La Moda
me mo
Me Mo
Media aritmética simple
76
POBLACION
p
̅): 1.1. LA MEDIA ARITMÉTICA O PROMEDIO ( o 𝒙 Es el valor representativo de una población o conjunto de datos También se llama Esperanza matemática, valor medio o promedio aritmético Se obtiene sumando todos los valores de los datos observados y se divide entre el número total de ellos. Solo es aplicable para el tratamiento de datos cuantitativos. Existen dos formas de trabajar con los datos: sin agruparlos o agrupándolos en tablas de frecuencias. Formulas de cálculo de la media aritmética:
Datos sin Agrupar
Datos Agrupados * fi
77
POBLACION (N)
MUESTRA (n)
∑ Xi μ= N
∑ Xi 𝑥̅ = n
∑ 𝑋𝑖. 𝑓𝑖 ∑ 𝑋𝑖. 𝑓𝑖 μ= 𝑥̅ = N n
Ejemplo: Suponga que se han registrado 20 observaciones referentes a los ingresos semanales del jefe de hogar de un determinado distrito. De la información muestral obtenida calcule el promedio: 36
55
55
41
25
55
55
55
41
41
57
37
40
31
58
58
45
36
43
43
Solución: Calculamos el promedio muestral:
n xi 36 25 ... 58 43 907 . 0 x i 1 45 . 35 n 20 20
1.2. LA MEDIANA (Me) Valor que divide en dos partes iguales un conjunto de datos ordenados en forma ascendente o descendente En otras palabras es el valor que ocupa del lugar central. La cantidad de datos que queda por debajo y por arriba de la mediana son iguales. Es una medida de tendencia central que divide al total de n observaciones debidamente ordenadas o tabuladas en dos partes de igual tamaño, cada una con el 50% de los datos observados. Formulas de cálculo de la mediana: n es par
n es impar
Datos no agrupados Valor que está en la mitad de la serie ordenada
Datos Agrupados (TABLAS)
78
Promedio de los 2 valores centrales
𝑛 − 𝐹𝑗−1 𝑀𝑒 = 𝐿𝐼 + 𝑐 [ 2 ] 𝐹𝑗 − 𝐹𝑗−1
Para datos no agrupados: Para calcular la mediana, los n datos originales 1)
Se ordenan en forma ascendente o descendente los datos
2)
Se halla el lugar en donde se encuentra la mediana
Se presenta dos casos: a) Para un número par de datos: La mediana será el promedio de los dos valores centrales. Ejemplo: Calcular e interpretar la mediana Xi : 650, 750, 850, 1000, 750, 820, 850, 1200, 1000, 1000 Solución: 1) Ordenando en forma ascendente Xi: 650, 750, 750, 820, 850, 850, 1000, 1000, 1000, 1200 50%
Me
50%
2) Como n = 10 (par) se ubica el lugar en donde se encuentra la Me
𝑀𝑒 =
𝑋𝑛 + 𝑋𝑛+1 2
2
2
=
𝑋5 + 𝑋6 850 + 850 = = 850 2 2
3) Interpretación: El 50% de los trabajadores tienen un ingreso máximo de S/. 850, el otro 50% supera dicho ingreso.
b) Para un número impar de datos: La mediana será el valor que está ocupando la posición central. Ejemplo: Los siguientes datos corresponden a los tiempos de acceso en minutos a 11 Páginas Web cargadas por la tarde en el horario de 14 a 15 horas desde una PC
79
Xi:
2.9, 1.4, 1.2, 3.4, 1.3, 2.5, 1.6, 1.8, 2.3, 1.5, 1.0
Solución: Ordenando los datos en forma ascendente Xi: 1.0, 1.2, 1.3, 1.4, 1.5, 1.6, 1.8, 2.3, 2.5, 2.9, 3.4. Me
50%
50%
𝑀𝑒 = 𝑋𝑛+1 = 𝑋11+1 = 𝑋6 = 1.6 2
2
Interpretación: El 50% de las páginas Web son cargadas en un tiempo de acceso Máximo de 1.6 minutos., el otro 50% supera dicho tiempo.
1.3.- LA MODA (Mo)
Definición: Es el valor que ocurre con más frecuencia
Es especialmente útil para datos de tipos nominal, ordinal y de intervalos
Una distribución puede ser: amodal sino tiene ninguna moda, unimodal si tiene una moda, bimodal si tiene dos modas y multimodal si tiene tres o más modas.
PROPIEDADES DE LA MODA
La moda se puede determinar en todos los tipos de mediciones (nominal, ordinal, de intervalos, y relativa).
80
La moda no es afectada por valores extremos.
DESVENTAJAS DE LA MODA
En muchas series de datos no hay moda porque ningún valor aparece más de una vez.
En algunas series de datos hay más de una moda, en este caso uno podría preguntarse ¿cuál es el valor representativo de la serie de datos?
CÁLCULO
Cálculo de la moda para datos agrupados
𝑀𝑜 = 𝐿𝐼 + 𝑐 [
𝑓𝑗 − 𝑓𝑗−1 (𝑓𝑗 − 𝑓𝑗−1 ) + (𝑓𝑗 − 𝑓𝑗+1 )
𝑀𝑜 = 𝐿𝐼 + 𝑐 [ Donde: ∆𝟏 =
𝑓𝑗 − 𝑓𝑗−1
y
∆𝟐 =
]
∆1 ] ∆1 + ∆2 𝑓𝑗 − 𝑓𝑗−1
USO ADECUADO DE LA MEDIA, MEDIANA Y MODA.De las tres medidas de tendencia central, se observa que:
1°) La media aritmética tiene la ventaja de que toma en cuenta para su calculo, la totalidad de los valores de la variable, aumentando o disminuyendo de acuerdo a ellos, pero a causa de este problema, puede tener la desventaja que es afectada por la existencia de valores muy altos o muy bajos en los extremos. En conclusión cuando el comportamiento de la variable es más o menos simétrico la media aritmética es la más recomendable.
81
2°) La mediana se usa cuando existe mucha dispersión de los datos. 3°) Así también la mediana es la mas ventajosa en usarla cuando en el primer o último grupo o clase no tiene límite definido.
4°) La moda no es muy usual, pero se emplea cuando se quiere conocer el valore que se presenta más frecuentemente.
b. MEDIDAS DE POSICION
2.1. CUARTILES (Qi): Se denotan por Qi, donde k=1,2,3 Son valores que dividen a un conjunto de datos en 4 partes iguales, es decir, cada sector tiene el 25% de los datos. El Q2 coincide con la mediana Para calcular los cuartiles se utilizan las formulas adecuadas ya sea si son datos agrupados o datos no agrupados.
Qi = LI + c [
Formula:
in −Fj−1 4
Fj −Fj−1
]
Ejemplo datos sin agrupar: o
Número Impar de datos
2, 3, 4, 5, 6, 7, 9
Q1 Q2 o
82
Numero par de datos
Q3
1, 2, 3, 4, 5, 6, 7, 9
2.5 Q1
4.5 Q2
6.5 Q3
Ejemplo datos agrupados: fi
FI
[ 50 – 60 )
8
8
[ 60 – 70 )
10
18
[ 70 – 80 )
16
34
[ 80 – 90 )
14
48
[ 90 – 100 )
10
58
[ 100 – 110 )
5
63
Total
63
Cuartil 1 (Q1) Q1 = 60 + 10 [
Cuartil 2 (Q2) Q1 = 70 + 10 [
1∗63 4
= 15.75
15.75 − 8 ] = 67.75 18 − 8 2∗63 4
= 31.5
31.5 − 18 ] = 78.44 34 − 18
2.2. DECILES (Di): Se denotan por Di, donde i=1,2,3,4,5,6,7,8,9 Son valores que dividen a un conjunto de datos en 10 partes iguales, es decir, cada sector tiene el 10% de los datos. D5 coincide con la mediana
Formula:
in −Fj−1 10
Di = LI + c [
Fj −Fj−1
]
2.3. PERCENTILES (Pi): Se denotan por Pi, donde i=1,2,3,4,5,6,7,8,9,10, … , 99 Son valores que dividen a un conjunto de datos en 100 partes iguales, es decir, cada sector tiene el 1% de los datos.
83
in −Fj−1 100
Pi = LI + c [
Formula:
Fj −Fj−1
]
EJEMPLO: Suponga que se han registrado 20 observaciones referentes a los ingresos semanales del jefe de hogar de un determinado distrito. De la información muestral obtenida calcule el cuatil1, decil 8 y percentil 97: 36
55
55
41
25
55
55
55
41
41
57
37
40
31
58
58
45
36
43
43
Solución: Seguimos el siguiente procedimiento: 1. Ordenar la serie en forma ascendente 2. Definir la posición de los cuartiles, deciles y percentiles siguiendo la formula correspondiente. 3. Luego
Cuartil1 Ordenando los datos de forma ascendente: 25 31 36 36 37 40 41 41 41 43 43 45 55 55 55 55 55 57 58 58
Calcularemos la ubicación del cuartil 1 para lo cual definimos la posición del cuartil 1(K=1): QK Wk(n+1) 0.25(20+1) 5.25. De esto decimos que el cuartil 1 esta entre la ubicación 5ºy 6º (pues el valor hallado es 5.25), luego para hallar el valor de la ubicación 5.25 interpolamos: 5.0º
37
5.25º 6.0º
84
40
de esto obtenemos que la ubicación 5.25º 39.75
Po lo tanto Q1: 39.75.
Decil 8: Ordenando los datos de forma ascendente: 25 31 36 36 37 40 41 41 41 43 43 45 55 55 55 55 55 57 58 58 Calcularemos la ubicación del decil 8 para lo cual definimos la posición del decil 8 (D=8): DK Wk(n+1) 0.80(20+1) 16.80. De esto decimos que el decil 8 esta entre la ubicación 15ºy 17º (pues el valor hallado es 5.25), luego para hallar el valor de la ubicación 5.25 interpolamos: 15.0º 55 16.8º
de esto obtenemos que la ubicación 16.80º 55.0
17.0º 55 Po lo tanto D8: 55.0
85
c. MEDIDAS DE DISPERSIÓN
Rango
Coeficiente de Variación
Medidas de Dispersión
Varianza
Desviación estándar
Son indicadores estadísticos que representan cuan dispersas se encuentran los datos de la variable, señalándonos el grado de concentración de los mismos con respecto al promedio de la distribución.
Las medidas de dispersión se usan para: a) Verificar la confiabilidad de los promedios. b) Establecer como base para el control de la variable. Así tenemos:
86
Alta dispersión (medida de dispersión alta) --- baja concentración alrededor del promedio.
DATOS HETEROGENEOS
Baja dispersión (medida de dispersión baja) -- Alta concentración alrededor del promedio.
DATOS HOMOGENEOS
Las medidas de dispersión más usuales son: MUESTRA R
Rango Varianza
S2
Desviación estándar
S
3.1. RANGO:
POBLACION R
2
R = Max - Min
Se denota por R y la medida de variabilidad más fácil de calcular. Es la diferencia que existe entre el valor máximo y el valor mínimo del conjunto de datos. Su uso es muy limitado, pues solo toma en cuenta los valores extremos
Ejemplo: La edad de 10 alumnos en un aula de clase, es según se muestra a continuación. Se pide hallar el rango. 23 Solución.
18
28
18
Rango = 28 - 16
16 =
26
19
20
21
18
12
Luego, existe una dispersión de 12
años.
3.2. VARIANZA (σ2): Mide la variabilidad de un conjunto de datos respecto a un valor central (promedio)
87
Mide la variabilidad pero en unidades elevadas al cuadrado, por lo tanto es ilógica su interpretación. Para calcular la varianza se utilizan las formulas adecuadas ya sea sin son datos agrupados o datos no agrupados.
POBLACION DATOS SIN AGRUPAR
N
2
DATOS AGRUPADOS
x
i
i 1
n
S2
Y . f i
i
N
i 1
n 1
S 2
Y x . f
N
ABREVIADA
2
X i 1
2
i
n
2
i 1
x x
2
N N
2
MUESTRA
2
i 1
i
i
n 1 N
2 i
N
2
2
X i 1
2 i
n 1
2
Donde: Xi
valores de la variable X
Yi
marca de clase de cada variable o grupo
N
tamaño de la población
n
tamaño de la muestra
2 S2
Varianza poblacional Varianza muestral
3.3. DESVIACIÓN ESTANDAR (σ): Mide la variabilidad de un conjunto de datos respecto a su valor central pero en unidades originales.
88
Esta es la medida de variabilidad que tiene una interpretación lógica. Se obtiene al sacar la raíz cuadrada de la varianza. DESVIACION STANDARD:
S S2
2
Ejemplo: En una de las fábricas de Motor Perú, se producen autos de diversas marcas, desde Enero a Agosto de 2007 Meses :
Ene
Feb
Mar
Abr
May
Jun
Jul
Agos
Producción:
100
130
90
120
100
140
110
98
Defina la variable en estudio y halle la varianza y Desviación Standard.
3.4. COEFICIETE DE VARIACIÓN (CV): Es el grado de desviación con relación a la media. Este coeficiente se usa para comparar las medias aritméticas o promedio de diferentes muestras. El C.V. sirve para determinar si un conjunto de datos tiene un comportamiento homogéneo o heterogéneo. Para llegar a determinar la homogeneidad se compara con un valor del 33%. o
Si el CV ≤ 33%
Los datos tiene un comportamiento homogéneo.
o
Si el CV > 33%
Los datos tiene un comportamiento heterogéneo.
Nota.- Cuanto menor es el C.V. mejor será la estimación del promedio y el proyecto será mejor.
C.V .
Donde:
89
*100%
c.v.
S *100 % X
C.V.
=
coeficiente de variación de la población
c.v
=
coeficiente de variación muestral
µ S
= = =
X
=
Desviación estándar poblacional Media aritmética poblacional Desviación estándar muestral Media aritmética muestral
Ejemplo.- Considerar dos proyectos de inversión A y B. Ambos tienen una ganancia promedio igual a $ 500. La Desviación estándar es 63.25 y
516.20 respectivamente.
Halle cuál de los dos proyectos es mejor. Solución: µ
A
B
500 63.25
500 516.20
C.V. Luego el mejor proyecto es:
EJEMPLO: Suponga que se han registrado 20 observaciones referentes a los ingresos semanales del jefe de hogar de un determinado distrito. De la información muestral obtenida calcule el Rango, varianza muestral, desviación estándar y el coeficiente de variación 36
55
55
41
25
55
55
55
41
41
57
37
40
31
58
58
45
36
43
43
Solución: Rango:
R V max V min 58-25 33
Varianza muestral: Para calcular VARIANZA para datos sin agrupar, trabajamos con la formula:
90
n 2 ( xi x ) (36 45.38)2 (25 45.38)2 ... (58 45.38)2 (43 45.38)2 1882.55 2 i 1 99.08 s 20 1 19 n 1
La varianza tiene una interpretación un poco dificultosa de entender, es por eso que nos ayudamos de la desviación estándar cuando queremos interpretar esta medida. Desviación estándar muestral: Para calcular la desviación estándar para datos sin agrupar, trabajamos con la formula:
𝑠 = √𝑠 2 = √99.08 = 9.95
Este valor se puede interpretar como la variabilidad promedio de los datos con respecto con respecto a su valor 𝑋̅
Coeficiente de variación: Para calcular el coeficiente de variación para datos sin agrupar, trabajamos con la formula:
𝐶𝑉 = 𝑠 /𝑋̅ ∗ 100 = (9.95/45.38) ∗ 100 = 21.93% Como, CV 21.93 ≤ 33%, podemos decir que el conjunto de datos tiene un comportamiento homogéneo.
91
EJERCICIOS: A.- CIENCIAS ECONOMICAS Y CONTABLES
1. La empresa A tiene 100 empleados, con su sueldo promedio mensual por empleado de $ 250. La empresa B tiene 200 empleados con un sueldo promedio mensual de $ 240. a. ¿Cuál es el sueldo promedio mensual de las dos empresas en conjunto? b. Si las dos empresas se agrega una tercera con 50 empleados y un sueldo promedio mensual por empleado de $ 300, ¿Cuál es el sueldo promedio para las tres empresas en conjunto?
2. El ingreso medio mensual de los 16,500 obreros de una compañía es de S/. 116.00 y de los 12,900 empleados de esta compañía es de S/. 148.00. Si los obreros reciben una aumento del 20% sobre sus ingresos más una bonificación de S/. 50.00 por condiciones de trabajo y los empleados reciben un aumento del 30% más S/. 60.00 por refrigerio. ¿Cuál es el ingreso promedio de todos los trabajadores de la compañía después del aumento?
3. Un auxiliar de contabilidad está trabajando en una Tienda Comercial, en la cual se han realizado ciertas ventas, que han sido facturadas. Se presenta las facturas identificadas según nro de código. FACTURAS: 123, 140, 300, 126, 127, 128, 129, 130, 141, 142, 120, 131, 132, 111, 133, 135, 134, 139, 142, 146. a. Se le pide ordenar las facturas y luego aplicar los cuartiles Q1, Q2, Q3. b. Calcular el nro. De factura mediana e interpretar correctamente
92
4. Después de ser capacitados un grupo de trabajadores en una Empresa, rindieron un examen de evaluación, donde los resultados oscilan entre: a. (Calcule los cuartiles: Q1, Q2, Q3, interprete correctamente cada estadígrafo). b. Cuál es el promedio de nota después de recibir una capacitación c. Cuál es la nota mediana después de recibir una capacitación
d. Cuál es la nota más frecuente en el grupo de trabajadores. Yi-1 -Yi 0-50 50-100 100-150 150-200
fi 14 18 19 5
Xi
fi
de la Corte Superior, se pide calcular el promedio, moda
1200
16
y la mediana e interpretar correctamente cada estadígrafo.
1400
23
1600
17
1800
41
2000
32
2200
21
5. En la sgte. Tabla se presenta los sueldos de magistrados
6. Establezca, con base estadística, en cuál de las siguientes empresas el salario está repartido de forma más equitativa. Empresa A nº de personas
15 20 30 20 15
93
salario percibido (S/.) 800 1000 1200 1500 7500
Empresa B nº de personas salario percibido (S/.) 10 30 35 24 1
800 1000 1200 1500 7500
Calcular el promedio de salario percibido en el grupo de trabajadores de la Empresa A y de l a Empresa B.
B.- CIENCIAS DE LA SALUD 1. En los siguientes ejercicios calcular el promedio, mediana y moda e interpretar correctamente cada estadígrafo. a. Pesos
de pacientes que fueron
evaluados en análisis de sangre, en un
laboratorio. PESOS 20-25 26-31 32-37 38-43 44-49 TOTAL
fi 5 9 15 10 6
b. Medidas de paredes de áreas de salud de consulta que se encontraron en el Hospital Regional MEDICIONES(cms.) 1.2- 2.6 2.7-4.1 4.2-5.6 5.7-7.1 7.2-8.6 TOTAL
fi 7 23 70 135 27
2. Un farmacéutico realiza ventas de medicinas en FARMACIA INKAFARMA, del reporte de ventas tiene a su disposición el nro de boletas emitidas con respectivos códigos. Se le pide ordenar las facturas y luego encontrar el nro de factura mediana. Se le pide ordenar las facturas y luego aplicar los cuartiles Q1, Q2, Q3. FACTURAS: 123, 140, 300, 126, 127, 128, 129, 130, 141, 142, 120, 131, 132, 111, 133, 135, 134, 139, 142, 146.
94
3. Se presenta el nro. de vacunas que se aplicaron a niños menores de 5 años. según fueron atendidos en diferentes puestos de salud. Calcula el promedio, la mediana y la moda, e interprete correctamente. 2 3 4 5 5 5 5 5 6 6 6 67 7 7 7 7 7 88
4. A aquellos pacientes que sienten mejoría todos los días del Tiempo de reacción
tratamiento se les realiza un estudio sobre el tiempo de reacción del medicamento (en minutos), encontrándose recogido los datos en la siguiente tabla: Calcula el promedio, mediana, moda e interpreta correctamente cada estadígrafo. Identifica la variable en estudio y realiza una grafica adecuada.
Nº de pacientes
0-10
300
10-20
500
20-30
400
30-40
500
40-60
300
5. A continuación se presenta el número de pacientes que son atendidos por dia en el consultorio de un doctor 10
13
4
7
8
11
10
16
18
12
3
6
9
9
4
13
20
7
5
10
17
10
16
14
8
18
Obtener su promedio, moda y mediana
6. Una distribución estadística viene dada por la siguiente tabla:
fi
10, 15)
15, 20)
20, 25)
25, 30)
30, 35)
3
5
7
4
2
Hallar el promedio, moda y mediana
95
C.- INGENIERIA: 1. En una investigación agrícola en el Valle de Chancay se determinó la producción total en (kilogramos), de un cierto cultivo, el cual fue sembrado en 20 parcelas experimentales. Los resultados fueron: Producción en Kg:
40, 35, 38, 40, 41, 37, 41, 38, 20, 25, 33, 27, 25, 28, 44, 22, 29, 36
a. Construya una tabla de Distribución de frecuencias b. Calcular el promedio, mediana y moda
y los cuartiles 1, 2 y 3 e interpretar
correctamente
2. La
distribución
de
establecimientos
industriales, según su producción mensual (en millones de soles), es la siguiente Calcular: a. El promedio de producción b. La producción mediana
PRODUCCION Menos de 5 5 a 10 10 a 25 25 a 50 50 a 100 100 a 250 250 a 500 500 a más
ESTABLECIMIENTOS 39 19 14 12 9 4 2 1
c. La producción más frecuente
3. En cada uno de las sgtes. Tablas determinar las medidas descriptivas que se te pide. Media, Mediana, moda y sus interpretaciones. a. Cantidad en litros de insecticida que se necesita para la fumigación de las plagas según por nro. de terrenos de cultivo
MEDICIONES 1.2- 2.6 2.7-4.1 4.2-5.6 5.7-7.1 7.2-8.6 TOTAL
96
fi 7 23 70 135 27
b. Sueldos en soles que se les paga a los trabadores que realizan siembra y riego en los cultivos de Chavimochic SUELDO fi 240-364
13
365-489
76
490-614
18
615-739
9
740-864
4
TOTAL
4. Se presenta el nro. frutos maduros hallados cada dos semanas en una huerta de cultivos. 2
3
4
5
5
5
5
5
6
6
6
6
7
7
7
7
7
7
8
8
Calcula el promedio de frutos, el fruto mediano. El fruto más frecuente. e interpreta.
5. Se tiene en cuenta el nro. de sembríos de arroz por valles de la costa peruana fue lo sgte:
sembrío 1 2 3 4 5 TOTAL
97
fi 3 7 10 5 10
Calcula: a) El promedio, mediana, moda e interpreta cada estadígrafo. b) Realiza una gráfica correspondiente de acuerdo al tipo de variable.
6. Las temperaturas recogidas en un determinada ciudad durante el mes de Enero se muestran en la siguiente tabla: Temperatura en ºC
19
20
21
22
23
24
Número de días
7
9
6
4
3
2
a. ¿Cuántos días hizo por encima de 21ºC? ¿Cuántos por debajo de 23ºC? b. ¿Cuántos días hizo la temperatura máxima? c. Calcula la media, la moda y la mediana.
7. El siguiente cuadro muestra la distribución de la renta anual (en miles de soles) en que incurren 50 viviendas: 18.85 21.55 24.25 26.95 29.65 32.35 35.05
Marca de Clase N° Viviendas
de
3
2
7
7
11
11
9
a) Halle e intérprete según el enunciado la Media, mediana y moda. b) Estime el porcentaje de viviendas con rentas superiores o iguales a 26 000 soles pero menores que 32 000 soles.
8. Una
compañía
servicios
de
requiere un
los
Prueba
técnico
1
2
especializado. De los expedientes
57
55 54 52 62 55 59
80
40 62 72 46 80 40
Puntaje obtenido por A presentados, se han seleccionado Puntaje 2 candidatos: A y B, los cuales obtenido por B reúnen los requisitos mínimos requeridos.
3
4
5
6
7
Para decidir cual de los 2 se va a contratar, los miembros del Jurado deciden tomar 7 pruebas a cada uno de ellos. a. Halle e interprete la media, mediana y moda de los dos candidatos. b. Estadísticamente ¿Cuál de los candidatos debe ser contratado? Fundamente su respuesta
98
D.- EDUCACION: 1. Se realiza una estadística en dos centros de enseñanza, uno público y otro privado, referente a la nota global del bachillerato de cada uno de los alumnos que van a acudir a los exámenes de selectividad. Las distribuciones de frecuencias son las siguientes: Centro privado Nota global de Frecuencias cada alumno.
Centro público
Nota global de Frecuencias cada alumno. 250
5,5
10
6.5
15
7.5
20
8.5
30
9.5
15
150 100 20
Se pide: a. A la vista de la tabla, te sugiere algún comentario de especial importancia. ¿Cuál es el motivo de que los datos se presente en dos tablas de diferente tipo? b. Estudiar las diferentes medidas de tendencia central (promedios) en las dos distribuciones. En cada distribución ¿cuál te parece más representativo? ¿por qué? c. Indique cual es la nota mediana de cada grupo.
2. En las sgte. Tabla, se presenta la sgte.
NIVEL DE GASTO (€)
Nº DE JÓVENES
Información y se pide calcular la Media
0-5
4
aritmética, mediana y moda.
5-10
11
Tenemos la siguiente información sobre
10-15
16
el gasto semanal en ocio de un grupo de
15-20
22
estudiantes universitarios.
20-25
8
25-30
6
99
3. Hemos pasado una prueba de actitud a 200 aspirantes al ingreso en la Escuela de Psicología. Para cada aspirante hemos anotado el número de preguntas acertadas, y con ellas hemos elaborado la distribución de frecuencias que presentamos en la tabla nro. 1. Dibuje una representación gráfica de las frecuencias absolutas. Calcule el promedio de notas, la mediana de y la moda e intérprete correctamente cada estadígrafo. Tabla nro. 1. Preguntas Acertadas
Frecuencia absoluta
21-25
16
26-30
20
31-35
30
36-40
42
41-45
22
46-50
29
51-55
23
56-60
18
4. Se muestra la frecuencia de la cantidad de bolas metidas en 2 horas por Eduardo y sus amigos. (Li - Ls) fi 10-20 20-30 30-40 40 - 50 50-60
Se pide calcular la mediana, moda y media.
2 3 5 8 12
5. Dada las edades de 20 señoritas del ciclo anual. 15
17
19
20
18
18
19
17
16
17
20
15
20
18
15
15
16
17
15
17
Calcular el promedio, mediana, moda
100
6. Se tiene que: A
2
3
3
5
7
6
7
5
8
4
B
6
7
5
2
9
1
7
6
4
2
C
3
4
7
6
8
9
7
6
3
2
Se pide determinar el promedio, mediana y moda.
7. Dada la distribución de frecuencias de cierto número de alumnos: Edades 20
22
24
26
28
fi
4
6
3
2
5
Determinar el promedio aritmético entre la mediana y la media.
8. La siguiente tabla refleja las calificaciones de 30 alumnos en un examen de Matemáticas: nota
2
4
5
6
7
8
9
10
Nº alumnos
2
5
8
7
2
3
2
1
a. ¿Cuántos alumnos aprobaron? ¿Cuántos alumnos sacaron como máximo un 7?¿Cuántos sacaron como mínimo un 6? b. Calcular la nota media, la moda y la mediana
101
SEGUNDA UNIDAD
102
Sesión 8 y 9 Regresión Lineal Simple Correlación CAPACIDADES 1. Establece el tipo de relación entre variables cuantitativas utilizando diagramas de
dispersión. 2. Calcula e interpreta los coeficientes de la ecuación de regresión lineal simple. 3. Construye relaciones funcionales lineales simples y realiza predicciones 4. Calcula e interpreta el coeficiente de correlación. 5. Calcula e interpreta el coeficiente de determinación para regresión simple..
ACTITUDES 1.
Valora la importancia que tiene el análisis estadístico de asociación de variables en general y específicamente en la investigación científica.
2.
Asume una actitud reflexiva, crítica y creativa al aplicar los métodos y técnicas Estadísticas de regresión y correlación al análisis de relaciones de causa-efecto
CONTENIDO Regresión Lineal Simple. Diagrama de Dispersión. Correlación. Coeficiente de Correlación de Pearson. Coeficiente de Determinación. Interpretaciones.
103
Con frecuencia, las variables que constituyen una distribución bidimensional muestran un cierto grado de dependencia entre ellas. Un ejemplo de esta relación aparece en la relación de peso y altura: aunque no existe una ley causal que relacione ambas variables, en términos estadísticos se aprecia una dependencia entre ellas (cuando aumenta la altura, suele hacerlo también el peso). Esta dependencia se refleja en la nube de puntos que representa a la distribución, de modo que los puntos de esta gráfica aparecen condensados en algunas zonas.
En tales casos, se pretende definir una ecuación de regresión que sirva para relacionar las dos variables de la distribución. La representación gráfica de esta ecuación recibe el nombre de línea de regresión, y puede adoptar diversas formas: lineal, parabólica, cúbica, hiperbólica, exponencial, etc.
Análisis de regresión
Propósito: determinar la ecuación de regresión; se usa para predecir el valor de la variable dependiente (Y) basado en la variable independiente (X).
Procedimiento: seleccionar una muestra de la población y enumerar los datos por pares para cada observación; dibujar un diagrama de dispersión para visualizar la relación; determinar la ecuación de regresión.
La ecuación de regresión: Y’= a + bX, donde: o
Y’ es el valor promedio pronosticado de Y para cualquier valor de X.
o
a es la intercepción en Y, o el valor estimado de Y cuando X = 0
o
b es la pendiente de la recta, o cambio promedio en Y’ por cada cambio de una unidad en X:
104
REGRESIÓN LINEAL Cuando la línea de regresión se asemeja a una recta (regresión lineal), puede ajustarse a esta forma geométrica por medio de un método general conocido como método de los mínimos cuadrados. La recta de ajuste tendrá por ecuación:
𝑌 = 𝛽0 + 𝛽1 𝑋 Vamos a llamar a “X: VARIABLE INDEPENDIENTE o EXPLICATIVA”, y a la otra la llamaremos “Y: VARIABLE DEPENDIENTE o EXPLICADA”. Donde los coeficientes β0 y β1 se calculan teniendo en cuenta que:
La recta debe pasar por el punto (
La separación de los puntos de la gráfica de dispersión con respecto a la recta de
).
regresión debe ser mínima.
CÁLCULO DE LOS COEFICIENTES β0 y β1: 𝑪𝒐𝒗(𝒙,𝒚)
1° Cálculo de β1:
𝜷𝟏 =
2° Cálculo de β0:
̅ − 𝜷𝟏 𝑿 ̅ 𝜷𝟎 = 𝒀
𝑽(𝒙)
Donde: 𝑛
∑ 𝑌 𝑌̅ = 𝑖=1 𝑖: 𝑛
Media Aritmética de Y.
𝑛
∑ 𝑋 𝑋̅ = 𝑖=1 𝑖: 𝑛
105
Media Aritmética de X.
CORRELACIÓN (r) El coeficiente de correlación (r) mide el grado de relación lineal (intensidad) de la relación entre dos variables cuantitativas. El coeficiente r puede tomar valores entre -1.00 y 1.00. Básicamente, esta información se refiere a dos características de la relación lineal: la dirección o sentido y la cercanía o fuerza.
Correlación nula
Correlación perfecta negativa
-1
1
0 Fuerte Negativa
Débil Negativa
Débil Positiva
Correlación perfecta Positiva
Fuerte Positiva
Es importante notar que el uso del coeficiente de correlación sólo tiene sentido si la relación a analizar es del tipo lineal. Si ésta no fuera no lineal, el coeficiente de correlación sólo indicaría la ausencia de una relación lineal más no la ausencia de relación alguna.
El coeficiente de correlación se expresa como:
𝑅=
𝐶𝑜𝑣(𝑥, 𝑦) = 𝜎𝑥 𝜎𝑦
𝑆𝐶𝑥𝑦 √(𝑆𝐶𝑥 )(𝑆𝐶𝑦 )
Donde: 𝑆𝐶𝑥𝑦 = ∑𝑛𝑖=1 𝑋𝑖 𝑌𝑖 − 𝑆𝐶𝑥 = ∑𝑛𝑖=1 𝑋𝑖 2 − 𝑆𝐶𝑦 = ∑𝑛𝑖=1 𝑌𝑖 2 −
106
𝑛 (∑𝑛 𝑖=1 𝑋𝑖 )(∑𝑖=1 𝑌𝑖 )
𝑛
:
Suma Cruzada de X e Y.
2
(∑𝑛 𝑖=1 𝑋𝑖 ) 𝑛
:
Suma de Cuadrados de X.
:
Suma de Cuadrados de Y.
2
(∑𝑛 𝑖=1 𝑌𝑖 ) 𝑛
Correlación negativa perfecta (r=-1)
Correlación Nula
107
Correlación Positiva perfecta (r=1)
Correlación Positiva Fuerte
EL COEFICIENTE DE DETERMINACION “R2” El coeficiente de determinación, r2 - la proporción de la variación total en la variable dependiente Y que está explicada por o se debe a la variación en la variable independiente X. El coeficiente de determinación es el cuadrado del coeficiente de correlación, y toma valores de 0 a 1.
El objetivo principal del análisis de regresión es proyectar el valor de la variable dependiente conociendo o suponiendo valores para la variable independiente. La confiabilidad de las proyecciones está dada por la confiabilidad de la ecuación, la cual se mide a través del coeficiente de determinación y de los errores de los coeficientes de regresión.
Una vez ajustada la recta de regresión a la nube de observaciones es importante disponer de una medida que mida la bondad del ajuste realizado y que permita decidir si el ajuste lineal es suficiente o se deben buscar modelos alternativos.
Como medida de bondad
del ajuste se utiliza el coeficiente de determinación, definido como sigue:
108
𝑅2 % = (𝑅2 ) × 100 Donde: R: Coeficiente de Correlación.
EJERCICIOS Después de haber leído la bibliografía básica propuesta en el punto 2.1, resuelve los siguientes ejercicios: 1.
Para cada uno de los siguientes conjuntos de datos bivariantes graficar sus correspondientes diagramas de dispersión de puntos. ¿Qué tipo de relación funcional, cree usted, se podría ajustar mejor a los datos?, ¿Por qué?
2.
a)
X Y
5 2
10 8 19 7 13 14
14 15
19 15 15 16 10 5
25 20 7 10
b)
X Y
3 16
6 5 14 12
4 18
2 3 11 11
4 20
c)
X Y
6 10
2 1 4 16 14 10
1 16
3 4 1 13 11 15
3 2 14 14
d)
X Y
6 8
14 15 18 11 16 17
10 11
16 14 12 14 13 10
18 17 14 18
1 8
7 5
20 5
4 12
Se realiza un estudio para determinar el efecto de la reducción de las horas de sueño sobre la habilidad para resolver problemas sencillos. La reducción de las horas de sueño es de 8, 12, 16, 20 y 24 horas sin dormir. En el estudio participaron un total de 10 individuos, con dos en cada nivel de reducción. Después de su período específico de reducción de horas de sueño, cada individuo fue sometido a
109
un conjunto de problemas simples de suma, observándose el número de errores. Los resultados fueron: Número de errores (Y)
8, 6
6, 10
8, 14
14, 12
16, 12
Reducción de horas de
8
12
16
20
24
sueño (X) a) Grafica el diagrama de dispersión de puntos. b) Encuentra la recta de mínimos cuadrados apropiada para estos datos. c) En el diagrama de dispersión de puntos, grafica la recta de mínimos cuadrados. d) Interpreta los coeficientes de regresión.
3.
Los gastos semanales de publicidad y las ventas semanales de una empresa, en dólares, para una muestra de diez semanas son: Gastos semanales de
41
54
63
54
48
46
62
61
64
71
publicidad Ventas
1250 1380 1425
1425 1450 1300 1400 1510 1575 1650
semanales
a) Establece la recta de regresión de mínimos cuadrados que permita predecir las ventas semanales en función de los gastos en publicidad. b) Representa gráficamente los puntos y la recta de mínimos cuadrados. Comenta. c) Interpreta la pendiente de la recta de regresión. d) Pronostica las ventas para gastos semanales de publicidad de 50 y 60 dólares. e) ¿Cuáles son los errores de estimación cuando se predice las ventas semanales para gastos semanales de publicidad de 61, 62 y 63 dólares respectivamente?
110
4.
Las calificaciones en un examen de estadística y el número de horas de estudio para el examen, de una muestra de doce estudiantes de una sección, se presentan en el siguiente cuadro. Tiempo de estudio Calificación
3
3
3
4
4
5
5
5
6
6
7
8
9
12
11
12
15
14
16
15
18
16
15
17
a) Halla la recta de regresión de mínimos cuadrados considerando la calificación en el examen como variable dependiente. b) Interpreta la pendiente de la recta de regresión. c) Calcula el error estándar de estimación. ¿Para qué se utiliza esta medida?
5.
En una empresa se tiene interés en pronosticar el tiempo, en minutos, que toma atender a un cliente en caja (Y) y se decide utilizar como variable independiente el monto de las compras en dólares (X). Se tomó una muestra de 18 clientes y se obtuvieron los siguientes resultados: 75.4,
x = 861, x2 = 60323, xy = 5177.3, y =
y2 = 455.86.
a) Halla la recta de regresión que mejor se ajusta a los datos e interpreta la pendiente. b) Grafica la recta de regresión. c) Utiliza el gráfico de la recta de regresión para realizar dos predicciones de la variable dependiente. d) Calcula el error de estimación. e) Calcula e interpreta el coeficiente de correlación
6.
Para los puntajes de ansiedad (X) y de aptitud académica (Y) de diez postulantes a un trabajo se han obtenido los siguientes resultados: x = 847, x2 = 71927, y = 446, y2 = 20058, xy = 37615. a) Halla la recta de regresión de mínimos cuadrados que se ajusta a estos datos. Interpreta la pendiente.
111
b) Interpreta la pendiente de la recta de regresión. c) Grafica la recta de regresión. d) Calcula e interpreta el coeficiente de correlación
7.
Se ha tomado una muestra de 16 ventas de una casa comercial. Para cada venta se han observado el precio de venta (X) y la cantidad vendida (Y) y se han obtenido los siguientes resultados: x = 77.9,
y = 749,
SCx = 75.53, SCy = 7114.44 y
SCxy = - 489.89. a) Halla la recta de regresión de mínimos cuadrados. b) Interpreta la pendiente. c) Pronostica la cantidad vendida para precios de venta de X=3 y x=5. d) Calcula e interpreta el coeficiente de determinación.
8.
Según investigaciones, el porcentaje de desembolso por empresas manufactureras estadounidenses en plantas y equipo que fue destinado al control de polucióín durante el periodo 1975–1987 fue como sigue:* 1975 1980 1981 1984 1987 9.3
4.8
4.3
3.3
4.3
*Fuente: Survey of Current Business.
a) Obtenga un modelo de regresión lineal, donde X: tiempo en años desde 1975. b) Grafique la ecuación de la Recta. c) Use el modelo calculado en (a) para estimar el porcentaje en 1985.
112
3.9.
La siguiente tabla muestra el beneficio neto, en millones de dólares, de la empresa Disney durante los años 1984-1992.
Beneficios estimados al $5 millón más cercano. Fuente: Informes de compañía/The New York Times, Dic. 1992.
a) Estime la ecuación de la recta de mejor ajuste para estos datos. b) Interprete el coeficiente β1. c) Use el modelo calculado para hacer una estimación.
9.
La siguiente tabla muestra la producción de soja, en millones de toneladas, en la región Cerrados de Brasil, como función del área cultivada en millones de hectáreas. Área (Millones de hectáreas) Producción (Millones de toneladas)
10,1 12,1 12,9 16,2 21,0
15
25
30
40
60
*Fuente: Ministerio de Agricultura de Brasil/New York Times.
113
a) Obtenga la ecuación de la recta de regresión lineal. b) Interprete el coeficiente β1. Use el modelo calculado para hacer una estimación.
10.
Para una muestra de 20 operadores de máquinas se tienen registrados, la nota del examen de ingreso (X) y la evaluación de eficiencia laboral (Y). A partir de estos datos se han obtenido los siguientes coeficientes para la recta de regresión de mínimos cuadrados: 0 = 28.64 y 1 = 1.01. a) Escribe la recta de regresión e interpretar 1 . b) Estima el puntaje promedio de evaluación de eficiencia laboral para los operadores que obtuvieron 75 puntos en el examen de ingreso. c) Grafica la recta de regresión.
11.
La siguiente información corresponde a calificaciones obtenidas por 10 estudiantes en un examen de Estadística y su calificación final promedio.
Calificación en examen
14
18 16
12
10
15
17
11
08
12
12
14 15
10
11
12
12
11
10
11
Calificación promedio
a) Grafica el diagrama de dispersión. Comentar b) Halla la recta de regresión de mínimos cuadrados. Interpretar la pendiente. c) Calcula el coeficiente de correlación lineal. Interpreta. d) Calcula el coeficiente de determinación. Interpreta.
114
12.
En un estudio con 15 observaciones mensuales, un analista financiero quiere determinar la relación de la tasa porcentual de rendimiento (Y) de las acciones de una empresa sobre la tasa porcentual de rendimiento (X) de un índice bursátil. Dispone de la siguiente información: x = 33.8, y = 33.5, xy = 79.22, x2 = 80.34, y2 = 79.45
a) Estima la regresión lineal de Y sobre X. Realiza una predicción. b) Calcula el coeficiente de correlación lineal. Interpreta. c) Calcula el coeficiente de determinación. Interpreta.
13.
Un vendedor de bienes desea establecer la relación entre el número de semanas que las casas están en el mercado antes de venderse y el precio que por ellas se pide. La información es la siguiente:
Semana
6.2
6.7
7.5
8.5 11.5
9.5
12.2
9.8
25
82
100
95
110
130
135
Precio (miles)
120
a) Grafica la dispersión de puntos. b) Halla la ecuación de regresión de Y sobre X. Interpreta la pendiente. c) Realiza dos predicciones. d) Calcula e interpreta el coeficiente de determinación. e) Calcula el error estándar de estimación.
115
14.
La siguiente tabla y gráfica muestran el consumo mensual de energía en función del área del domicilio: Área
119,8 125,4 136,6 148,8 158,9 170,9 183,9 207,2 223,0 272,2
(m2) Consumo (kw-hrs)
1180 1170 1260 1490 1570 1710 1800 1840 1960 1950
a) Establezca la recta de regresión de mínimos cuadrados que permita predecir el consumo de energía en función del área del domicilio. b) Represente gráficamente los puntos y la recta de mínimos cuadrados. Comenta al respecto. c) Interprete la pendiente de la recta de regresión. d) Calcule e interprete el Coeficiente de Correlación R. e) Calcule e interprete el Coeficiente de Determinación R2.
15.
En el servicio central de turismo del país se ha observado que el número de plazas hoteleras ocupadas es diferente según sea el precio de la habitación. Sobre el total de plazas ocupadas en un año se tiene: Precio
260
650
1000 1400 2100 2500 2700 3300 4000
(US$./noche) Nº Habitac
4725 2610 1872
943
750
700
700
580
500
Ocupadas a) Representa gráficamente para comprobar que existe cierta dependencia lineal entre las variables. b) Halle la ecuación de la recta de regresión del precio sobre el número de habitaciones. c) ¿Cuántas habitaciones se llenarían a US$1500?
116
16.
El volumen de ahorro y la renta del sector familias en billones de pesos, para el período 77-86 fueron: Año
77
78
79
80
81
82
83
84
85
86
Ahorro
1.9
1.8
2.0
2.1
1.9
2.0
2.2
2.3
2.7
3.0
Renta
20.5
20.8
21.2
21.7
22.1
22.3
22.2
22.6
23.1
23.5
a) Encuentre la recta de regresión considerando el ahorro como variable independiente. b) Encuentre la recta de regresión considerando la renta como variable independiente c) Para el año 87 se supone una renta de 24.1 billones de pesos. ¿Cuál será el ahorro esperado para el año 87?
17.
La tabla presenta datos ficticios para un estudio de adolescentes en riesgo de desarrollar obesidad. N°
de
rápidas
comidas 2
2
5
2
4
3
3
2
72,6
82,6
74,8
67,6 62,1
consumidas
la última semana Peso (Kg.)
50,8 59,4 77,6
a) Trace un diagrama de dispersión del
peso regresionado a partir del número de
comidas rápidas consumidas en la última semana. b) Calcule el coeficiente de correlación R de Pearson para estas dos variables, así como la ecuación de regresión 𝑌 = 𝛽0 + 𝛽1 𝑋.
117
18.
La tabla siguiente contiene la edad (X) y la máxima de la presión sanguínea (Y) de un grupo de 10 mujeres:
Edad Presión
56
42
72
36
63
47
55
49
38
42
14,8
12,6
15,9
11,8
14,9
13,0
15,1
14,2
11,4
14,1
a) Determine la recta de regresión de Y sobre X, justificando la adecuación de un modelo lineal. b) Interprete la pendiente. c) Mida la bondad del modelo. d) Realice las siguientes predicciones, sólo si tienen sentido: Presión sanguínea de una mujer de 51 años. Presión sanguínea de una niña de 10 años. Presión sanguínea de un hombre de 54 años.
19.
El crecimiento de los niños desde la infancia a la adolescencia generalmente sigue un patrón lineal. Se calculó una recta de regresión mediante el método de mínimos cuadrados con datos de alturas de niñas norteamericanas de 4 a 9 años y el resultado fue: β0 = 80 y β1 = 6. La variable dependiente Y es la altura (en cm.) y X es la edad (en años). a) Interprete los valores estimados del intercepto y de la pendiente. b) Cuál será la altura predicha de una niña de 8 años. c) Cuál será la altura predicha de una mujer de 25 años. Comente el resultado.
En 1991 se publicó un trabajo “Diseñando plantas en climas difíciles” en la revista
20.
Field Crops Research, los datos usados en la investigación son: Duración
92
92
96
100
102
102
106 106
121
143
Rendimiento
1,7
2,3
1,9
2,0
1,5
1,7
1,6
1,0
0,3
1,8
Con X = la duración de la cosecha de porotos de soya en días, Y = rendimiento de la cosecha en toneladas por hectárea.
118
a) Estime la recta de regresión mediante el método de mínimos cuadrados. Interprete los estimadores en el contexto de la pregunta b) ¿Existe una relación lineal significativa entre la duración y el rendimiento de la cosecha? c) Estime el rendimiento si la duración de la cosecha fue de 104 días.
21.
Un investigador cree que la inteligencia de los niños, medida a través del coeficiente intelectual (CI en puntos), depende del número de hermanos. Toma una muestra aleatoria de 15 niños y ajusta una regresión lineal simple. Los resultados aparecen en la tabla adjunta. CI
110 115 120 118 110 108 105 104 98 99 99 100 90 93 90
N° Hmos
0
1
1
1
2
2
2
3
3
4
4
5
5
5
a) Encuentre e interprete el coeficiente de correlación R. b) Dé la ecuación de la recta de regresión. Interprete los estimadores en el contexto de la pregunta. ¿Existe una relación lineal significativa entre el número de hermanos y el coeficiente intelectual?
22.
Se desea saber si existe alguna relación entre la ingestión y la absorción de grasas en lactantes desnutridos. Se realizan 20 determinaciones de ingestión y absorción cuyos resultados se muestran en la tabla que sigue: INGESTIÓN Y ABSORCIÓN DE GRASAS EN 20 LACTANTES DESNUTRIDOS Caso N°
119
Ingestión
Absorción
Caso N°
Ingestión
Absorción
1
1,4
0,7
11
2,0
1,4
2
1,6
1,2
12
1,4
1,1
3
2,1
1,6
13
1,9
1,5
4
1,7
1,1
14
1,8
1,3
5
1,8
1,3
15
1,9
1,5
6
6
2,6
2,0
16
1,6
1,4
7
1,5
1,2
17
1,9
1,7
8
2,5
1,5
18
2,1
1,7
9
2,7
2,4
19
1,6
1,3
10
1,8
1,5
20
1,6
1,1
a) Estime β0 y β1 mediante el método de mínimos cuadrados. Interprete los coeficientes de regresión. b) Encuentre e interprete el coeficiente de correlación R. c) ¿Existe una relación lineal significativa entre la ingestión y la absorción de grasas?
23.
La siguiente tabla presenta los datos sobre el número de cambios de aceite al año (X) y el costo de la reparación (Y), en miles de pesos, de una muestra aleatoria de 8 autos de una cierta marca y modelo. N° Cambios de Aceite
3
5
2
3
1
4
6
4
150
150
250
200
350
200
50
125
Costo (miles de pesos) a) Haga un gráfico de dispersión con los datos, verifique el supuesto de linealidad. b) Encuentre la recta de regresión de mínimos cuadrados. c) Interprete los valores estimados del intercepto y de la pendiente. d) Estima cuál será el costo de reparación de un auto que ha tenido 4 cambios de aceite. e) Si cambia X por Y, ¿obtendrá la misma recta de regresión? f)
120
Calcule el residuo para la primera observación (X=3, Y=150).
24.
Para la economía española, disponemos de los datos anuales redondeados sobre consumo final de los hogares a precios corrientes (Y) y renta nacional disponible neta (X), tomados de la Contabilidad Nacional de España base 1995 del INE , para el período 1995-2002, ambos expresados en miles de millones de euros: Año
1995
1996
1997
1998
1999
2000
2001
2002
Y
258,6
273,6
289,7
308,9
331,0
355,0
377,1
400,4
X
381,7
402,2
426,5
454,3
486,5
520,2
553,3
590,3
Considerando que el consumo se puede expresar como función lineal de la renta, determine: a) Los parámetros β0 y β1 de la recta de regresión. b) El coeficiente de determinación de dicha regresión. c) La predicción del valor que tomará el consumo para una renta de 650.000 millones de euros.
25.
Se supone que se puede establecer cierta relación lineal entre las exportaciones de un país y la producción interna de dicho país. En el caso de España, tenemos los datos anuales (expresados en miles de millones de pesetas) para tales variables correspondientes al quinquenio 2002-06 en la siguiente tabla: Año
Producción
Exportaciones
2002
52,654
10,420
2003
53,972
11,841
2004
57,383
14,443
2005
61,829
16,732
2006
65,381
18,760
A partir de tal información, y considerando como válida dicha relación lineal, se pide: a) Si la producción para el año 2007 fue de 2.210.610 millones de pesetas, ¿cual sería la predicción de las exportaciones para este año? ¿Qué grado de precisión tendría dicha predicción?
121
b) ¿Qué tanto por ciento de la varianza de las exportaciones no vienen explicadas por la producción interna, y se debe a otro tipo de variables?
26.
Un estudiante de la Escuela Universitaria de Estudios Empresariales de la Universidad de Sevilla, para poder pagarse sus estudios, debe trabajar como camarero en un bar de copas de su localidad. A este establecimiento, suelen acudir todos los jóvenes de la zona. Este año, con los conocimientos aprendidos, decide por fin estudiar la relación existente entre la cantidad de sal de las galletas saladas y el consumo de bebidas, ya que es costumbre dar al cliente este aperitivo cuando pide una consumición. Se sabe que las galletas no pueden tener una concentración de sal superior a 3,5 gramos por cada 1000 galletas y, por ello, decide ir variando a partir de 1 gramo la concentración de 0,5 en 0,5 gramos cada semana e ir anotando el incremento en caja semanalmente, obteniendo la siguiente tabla: Gramos de sal por
Ingresos
1000 galletas
(pesetas)
1
140,3
1,5
150
2
165
2,5
175
3
200
A partir de tales cifras, se quiere conocer: a) ¿Considera justificado el planteamiento de un modelo lineal para expresar la relación entre las variables? b) Si el propietario desea unos ingresos de 160.000 pesetas, ¿qué cantidad de sal debería aportar por cada 1000 galletas? Si aporta el máximo permitido de sal, ¿cuál sería el ingreso en caja? Explicar cuál de las dos predicciones le merece mayor confianza.
122
¿Cuál sería la variación porcentual de los ingresos cuando la cantidad de sal aumenta en un 1% sobre el último valor de la tabla? Si aumentamos en 1gr. la sal por cada 1000 galletas, ¿cuánto variarán los ingresos?
27.
La factura mensual del gasto telefónico de una pequeña empresa se ha incrementado notablemente en los últimos meses. Los estudios realizados por el administrador de la misma argumentan que el mayor uso de Internet dentro de la misma es la principal causa del mayor gasto en teléfono, lo que ha hecho que se estudie la posibilidad de acogerse a alguno de los múltiples bonos o tarifas especiales que ofrecen las compañías, lo que hasta la fecha todavía no se llevó a cabo. Las últimas cifras mensuales no hacen sino confirmar esta relación: Mes
Enero
Febrero
Marzo
Abril
Mayo
Cuantía de la factura
55
100
118
120
142
200
500
700
800
1000
telefónica (€) Tiempo de conexión (minutos) De acuerdo con la información anterior, responda a las siguientes preguntas: a) Suponiendo la existencia de una relación de tipo lineal entre tiempo de conexión y gasto telefónico, ¿qué porcentaje de las variaciones en la cuantía de la factura telefónica no podrían ser explicadas linealmente por el tiempo de conexión a Internet dentro de la compañía? b) ¿Cuál sería la cuantía de la factura telefónica de la compañía de acuerdo a esta relación lineal si no se conectase a Internet en la empresa? c) ¿Cuál sería el gasto telefónico estimado según esta relación lineal si el tiempo de conexión a Internet fuera de 2000 minutos? ¿Le parece aceptable tal predicción? Justifique su respuesta. Se considera que un incremento del 20% en el tiempo de conexión a Internet respecto al realizado en el mes de mayo conllevaría a que la factura telefónica se
123
elevase de forma extraordinaria. ¿Cuál sería el incremento relativo en la misma si ello se produjese? Justifique su respuesta.
28.
Una juguetería ha examinado la evolución reciente de las ventas de su muñeco “Qco” (Y, en millones de euros) junto con los gastos de publicidad de ese muñeco (X, en millones de euros), obteniéndose los siguientes resultados: Año
2003
2004
2005
2006
2007
2008
2009
Y
126
135
156
156
150
150
180
X
20
25
30
32,5
35
32
34
A partir de esta información, responda a las siguientes cuestiones: a) ¿Se puede afirmar que al aumentar los gastos en publicidad se incrementarán las ventas? Obtenga los parámetros del ajuste lineal que explique las ventas en función de los gastos. Interprete dichos coeficientes e indique la bondad del ajuste realizado. b) Si para este año 2010 aumentásemos los gastos de publicidad en un 1%, ¿en qué porcentaje se espera que variasen las ventas, según el modelo lineal?
29.
Para un conjunto de personas que están siguiendo una dieta de adelgazamiento, se han recogido datos sobre el peso perdido desde el inicio de la misma (variable Y, en Kg.) y el tiempo que llevan siguiendo la dieta (variable X, en semanas), los cuales se muestran en la siguiente tabla: Y
2,4
5,4
5,6
8,4
10,6
13,5
15
15
X
3
5
6
8
11
13
15
16
a) Estime el modelo lineal que explica el peso perdido en función del tiempo que se lleva siguiendo la dieta e interprete los parámetros. b) Para el modelo estimado en el apartado anterior, descomponga la varianza total como suma de la explicada y la no explicada por el mismo y obtenga, a partir de tal descomposición, el coeficiente de determinación.
124
c) Según el modelo considerado, ¿qué peso esperaría perder una persona que siga la dieta durante 2 meses (8 semanas)? ¿Y una persona que esté dispuesta a seguir la dieta durante dos años (108 semanas)? ¿Qué fiabilidad le otorga a cada una de las estimaciones anteriores? 30.
Con el objetivo de estudiar la relación lineal entre el precio de los automóviles y el número de unidades vendidas, se procedió a recoger datos sobre tales magnitudes durante el pasado mes en una determinada región. Los resultados obtenidos fueron los siguientes: Precio
(miles de euros) Cantidad vendida por mes
7,5
9
10,5
12
14
16
18
20,5
23,5
27
450
425
400
350
325
300
290
280
260
200
En función a los datos recabados para esa región y mes: a) Una empresa radicada en la región tiene previsto para el mes próximo aumentar el precio de su modelo más vendido en 500 �. Si suponemos como válida la relación lineal entre las dos variables analizadas para los datos del pasado mes, ¿cómo afectaría este hecho a las ventas de dicho modelo? b) Si el modelo más caro de la tabla anterior se abaratase para el mes próximo un 3%, ¿cómo variarían las ventas de dicho modelo? 31.
En una muestra de familias se han analizado las variables ahorro anual (Y) y renta anual (X), medidas ambas en miles de euros. Los datos obtenidos han sido los siguientes: Ahorro (Y) Renta (X)
125
1,9
1,8
2,0
2,1
1,9
2,0
2,2
2,3,
2,7
3,0
20,5 20,8 21,2
21,7
22,1
22,3
22,2
22,6
23,1
23,5
A partir de tales datos, se pide: a) Obtener el modelo lineal que explica el ahorro de las familias en función de su renta. b) ¿Qué familia aumentaría en un mayor porcentaje su ahorro si su renta se viese incrementada en un 5%, la familia que tiene la menor renta de entre todas o la que posee la mayor renta? c) ¿Cuál será el incremento absoluto del ahorro cuando una familia aumente su renta anual en 500 euros? d) ¿Qué porcentaje de varianza de la variable ahorro queda explicado por la variable renta a través del modelo lineal planteado?
REFERENCIAS BIBLIOGRÁFICAS 1.
ÁVILA ACOSTA, R., (2001). Estadística Elemental. Estudios y Ediciones RA- Lima – Perú.
2.
BERENSON – LEVINE, (1996). Estadística Básica en Administración. 6ta edición. Edit. PHH S. A. – México.
3.
FREUND, John y MANNING SMITH, Richard, (1999). Estadística. 6ta edición – Edit. Préntice Hall Hispanoamericana S.A.- México.
4.
GUILFORD, J.P. y FRUCHTER, Benjamín, (1996). Estadística Aplicada a la Psicología y la Educación. Edit. Mc Graw-Hill – México.
5.
MILLER, Irwin y FREUND, John E.,1995. Probabilidad y Estadística para Ingenieros – Edit. Préntice Hall Hispanoamericana S.A. – México.
6.
MOYA, Rufino, (1991). Estadística Descriptiva. 1era edición –Editorial San MarcosLima- Perú.
7.
WEBSTER, A. y otros, (2000). Estadística Aplicada a los Negocios y a la Economía. 3era edición – Edit. McGraw-Hill Companies,
126
TERCERA UNIDAD
ESTADISTICA INFERENCIAL 127
Sesión 11 Introducción a las Probabilidades: Probabilidades Distribución Normal CAPACIDADES 1.
Realiza cálculos básicos sobre probabilidades de eventos.
2.
Identifica y construye espacios muestrales para experimentos.
3.
Conoce y aplica las propiedades de probabilidad para resolver problemas.
4.
Calcula e interpreta probabilidades de sucesos con distribución normal.
ACTITUDES 1.
Valora la importancia que tiene la probabilidad y la distribución de probabilidad normal y sus propiedades en la Inferencia Estadística Clásica.
2.
Actúa trabajando en equipo con responsabilidad, puntualidad y orden en la ejecución de las tareas y trabajos asignados, asumiendo una posición reflexiva y crítica hacia los resultados obtenidos.
CONTENIDO Nociones de Probabilidad. Espacio Muestral. Probabilidad de un Evento. Propiedades. Distribución Normal.
128
PROBABILIDAD DEFINICIONES PREVIAS: 1) Experimento Aleatorio (E) : es aquel fenómeno cuyos resultado depende del azar y cumple ciertas características: a)
El experimento se puede repetir indefinidamente bajo condiciones idénticas.
b)
Se puede describir el conjunto de todos los resultados posibles, pero no se pueda asegurar o predecir un resultado en particular.
c)
Si se repite un número grande de veces debe aparecer cierta regularidad estadística.
2) Sucesos: un suceso de un Experimento Aleatorio (E) es cada uno de los posibles resultados de dicho experimento que no puede descomponerse en resultados más simples
3) Espacio Muestral (S): Es el conjunto de todos los resultados posibles (sucesos) de un experimento aleatorio.
A los ejemplos previos corresponden los siguientes espacios
muestrales en notación de conjuntos: EJEMPLO: EXPERIMENTO ALEATORIO 1) Observar el lanzamiento de una moneda.
ESPACIO MUESTRAL (S) E= {Cara, Sello}
Suceso 1
Suceso 2
4) Eventos (A, B, etc) Es cualquier subconjunto de resultados de un espacio muestral S. Los siguientes son eventos asociados a los espacios muestrales previos.
129
EXPERIMENTO ALEATORIO
ESPACIO
EVENTOS
MUESTRAL (S) A. Observar el lanzamiento de una moneda.
Cara, Sello
A1: Que salga cara A2: Que salga sello
B. Observar el lanzamiento de un dado.
1,2,3,4,5,6
B1: Que salga par B2: Que salga impar B3; Que salga > 4
C. Medir la duración de un equipo electrónico. D. Contar el número de vehículos que pasan 0,1,2,4,5,…. por un cruce en lapsos de un minutos. E. El lanzamiento de dos dados.
(1,1); (1,2); (1,3); …
E1: Suma de las caras superiores es igual a 7 E2: La suma de las caras superiores es menor que 5
F. Lanzamiento de un dado y una moneda
130
(1,S); (2,S); …(1,C); F1: Salga un 6 y una cara …
DEFINICIÓN
DE
PROBABILIDAD
SEGÚN
LAS
TRES
ESCUELAS
DE
PENSAMIENTO DIFERENTES: LA TEORÍA CLÁSICA, LA TEORÍA DE FRECUENCIA RELATIVA Y LA TEORÍA SUBJETIVA 1.1. LA TEORÍA CLÁSICA.
Dada por Andrei Kolmogorov, 1903 a 1987, probabilista ruso.
Se aplica cuando todos los elementos del espacio muestral (sucesos) tienen la misma probabilidad de ocurrir.
Sea S el espacio muestral asociado a un experimento aleatorio y sean A i S para i 1, 2,.., n eventos. # de resultados favorables
DEFINICIÓN DE PROBABILIDAD
Probabilidad de un evento =
# de resultados posibles
CLÁSICA
Ejemplo 1: Se tiene el siguiente exp. Aleatorio
E: Lanzamiento de dos monedas al aire.
a) ¿Calcule el espacio muestral? b) Sea el evento A: salga solo una cara. Plantee el evento A, utilizando conjunto c) ¿Cuál es la probabilidad de que salga 1 cara? 1.2. LA TEORÍA DE LA FRECUENCIA RELATIVA.
Se debe a Pierre Simón de Laplace, 1749 a 1827.
Supóngase que repetimos n veces un experimento aleatorio, sean A un evento asociado al experimento y al espacio S. Sean n A el número de veces en que ocurren A o sea el número de elementos del conjunto.
Definimos la frecuencia relativa del evento A:
como
0 nA n
o sea
0 ≤ hA ≤
131
1
entonces
0
nA 1 n
hA
nA ; n
0 nA n
Ejemplo 1. Se tiene información acerca de los cargos y el sexo del personal de cierta empresa. Sexo
Abogado
Contador
Ingeniero
Hombres
10
5
6
Mujeres
15
4
7
TOTAL
TOTAL Cuál es la probabilidad de que al seleccionar un trabajador éste sea: a)
Contador y sea hombre
b)
Abogado y mujer
c)
Mujer
d)
Sabiendo que el trabajador es ingeniero. ¿Cuál es la probabilidad de que sea hombre?
e)
Sabiendo que el trabajador sea mujer. ¿Cuál es la probabilidad de que sea abogado?
Ejemplo 2. Localice todos los valores de probabilidad asociados a la siguiente tabla de Carrol que ofrece información sobre la hipertensión y el hábito de fumar. No
Fumadores
Fumadores
fumadores
moderados
empedernidos
20
15
15
10
Hipertensos
No hipertensos
10
30
a. Si se selecciona aleatoriamente uno de estos pacientes, encuentre la probabilidad de que la persona sea: a. fumadora moderada: b. no hipertensa: c. no hipertensa ni fumadora :
132
d. hipertensa y fumadora empedernida: e. Sabiendo que el paciente no fuma. ¿Cuál es la probabilidad de que sea hipertensa? f. Sabiendo que el paciente es hipertenso. ¿Cuál es la probabilidad de que sea fumador empedernido?
1.3. LA TEORÍA SUBJETIVA. Se refiere a la posibilidad de que un evento particular ocurra, que es asignada por un individuo basándose en la información que tenga disponible y en su propia experiencia o presentimientos. Ejemplos de probabilidad subjetiva son las apuestas en eventos atléticos o deportivos o la estimación del futuro de una acción.
AXIOMAS DE LA PROBABILIDAD 1)
0 P A i 1 P(Ai) 0
2)
P(S ) P( Ai) 1
0.5
Sin probabilidad De ocurrir
1
Tan probable como improbable
Certeza de ocurrir
PROPIEDADES DE LAS PROBABILIDADES PROPIEDAD 1:
La probabilidad de un evento imposible es cero. En efecto A A
P A P A Entonces
133
como
A
P A P P A
A excluye a
P 0
PROPIEDAD 2:
COMPLEMENTO DE UN EVENTO Veamos: A
= S por lo tanto P(A
Como A excluye entonces
) = P(S)
P(A) + P( ) = 1
P( )= 1 – P(A) B
PROPIEDAD 3: LEY DE LA ADICION (UNION DE DOS EVENTOS)
PROPIEDAD 4: UNION DE 3 O MAS EVENTOS
P A B C P A P B P C P A B P A C P B C P A B C
134
PROPIEDAD 5: PROBABILIDAD CONDICIONAL Sean A y B dos sucesos en S. Indicaremos con P B A la probabilidad condicional del suceso B, dado que A ha ocurrido, así:
P B A
P A B , P A
0 P A 1
PROPIEDAD 5: EVENTOS INDEPENDIENTES Dos eventos son INDEPENDIENTES si el resultado de uno NO afecta al otro, es decir Cuando
P(A⁄B) = P(A)
o
P(B⁄A) = P(B)
PROPIEDAD 6: PROBABILIDAD DE UNA INTERSECCION De la probabilidad condicional podemos deducir que Si A y B son independientes, entonces P(B/A) = P(B)
P(A ∩ B) = P (A). P (B)
135
P(A ∩ B) = P (A). P (B/A)
EJERCICIOS: 1.
Las probabilidades de que A, B y C resuelvan un cierto problema son 1/2, 3/5 y 2/3 respectivamente. ¿Cuál es la probabilidad de que el problema sea resuelto por lo menos por uno de los tres?
2.
Una tabla de mortalidad muestra que las probabilidades de que A y B vivan 25 años más son 0.9 y 0.8 respectivamente. Calcula la probabilidad que al final de 25 años ambos hayan muerto.
3.
De 300 estudiantes de educación superior, 100 están inscritos en inglés y 80 en Computación. Estas cifras de inscripción incluyen 30
estudiantes inscritos en
ambos cursos. ¿Cuál es la probabilidad que al seleccionar un estudiante al azar, esté inscrito únicamente en inglés o en Computación?
4.
En general, la probabilidad de que algún prospecto realice una compra cuando lo visita un vendedor es 40%. Si un vendedor elige tres prospectos al azar de un archivo y los visita: ¿Cuál es la probabilidad de que?: A) Los tres prospectos realicen la compra? B) El vendedor logre al menos dos ventas? C) El vendedor logre al menos una venta? D) Ningún prospecto realice la compra?
5.
La tabla de contingencias que se muestra a continuación, presenta información sobre las reacciones de los votantes con respecto a un nuevo plan de impuestos sobre la propiedad, de acuerdo con su afiliación partidaria.
136
CUADRO No 1: REACCION DE VOTANTES RESPECTO A UN NUEVO PLAN DE IMPUESTOS SOBRE LA PROPIEDAD SEGUN SU AFILIACIÓN PARTIDARIA. Afiliación
Reacción
Partidaria
A favor
Neutral
Total
Se opone
Fuente: Datos Hipotéticos NUEVO PERÚ 120
20
20
160
PRO PERÚ
50
30
60
140
Otros
50
10
40
100
Total
220
60
120
400
a) Elabora la tabla de probabilidad conjunta. b) Determina e interpreta las probabilidades marginales. c) Si de estas 400 personas, se elige una persona al azar, ¿cuál es la probabilidad que esté a favor del plan de impuestos? d) Si de estas 400 personas, se elige una persona al azar, ¿cuál es la probabilidad que pertenezca a PRO PERÚ?
6.
La probabilidad de que un individuo consuma bebidas alcohólicas y fume es de 15/50, de que consuma bebidas alcohólicas es 25/50, y de que fume es de 20/50. Calcula las siguientes probabilidades: a) Que fume o consuma bebidas alcohólicas. b) Que fume, sabiendo que consume bebidas alcohólicas. c) ¿Son excluyentes los sucesos fumar y consumir bebidas alcohólicas?
7.
CUADRO No 2: DISTRIBUCION PORCENTUAL DE GRUPOS HEMATICOS EN LA POBLACION DEL DISTRITO DE LA ESPERANZA. F/T
A
B
AB
O
Rh +
34%
9%
4%
38%
Rh -
6%
2%
1%
6%
Fuente: Datos Hipotéticos
137
De la información que se presenta en cuadro No 2 Resolver: a) ¿Cuál es la probabilidad de que una persona tenga sangre tipo O? b) ¿Cuál es la probabilidad de que una persona tenga sangre Rh-? c) ¿Cuál es la probabilidad de que en un matrimonio ambos tengan Rhd) ¿Cuál es la probabilidad de que en un matrimonio ambos tengan tipo AB? e) ¿Cuál es la probabilidad de que una persona tenga Rh- si tiene sangre tipo O? f)
8.
¿Cuál es la probabilidad de que una persona tenga sangre tipo B si tiene Rh+?
Los tiempos de reemplazo de los televisores tiene una distribución normal con una media de 8.2 años y una desviación Standard de 1.1 años. Determina la probabilidad que un televisor seleccionado al azar tenga un tiempo de reemplazo de menos de 7 años.
9.
Las duraciones de los embarazos tienen una distribución normal con una media de 268 días y una desviación estándar de 15 días. Si estipulamos que un bebé es prematuro si nace al menos tres semanas antes de lo debido. ¿Qué porcentaje de bebés nacen prematuramente?
10.
Los puntajes de cociente intelectual (IQ) están distribuidos normalmente con una media de 100 y una desviación estándar de 15. MENSA es una organización para personas con cociente intelectual elevado, y sólo acepta personas con un IQ mayor de 131.5. a) Si se escoge aleatoriamente a una persona, determina la probabilidad de que satisfaga el requisito de MENSA. b) En una región representativa con 75 000 habitantes, ¿cuántos son elegibles para MENSA?
138
11.
El Cuerpo de Infantes de la Marina de EEUU requiere que los hombres tengan estaturas entre 1.60 y 1.95 m. Determina el porcentaje de hombres que satisfacen ese requisito de estatura, sabiendo que la Encuesta Nacional de Salud de ese país revela que las estaturas de los estadounidenses de sexo masculino tienen una distribución normal con una media de 1.725 m y una desviación estándar de 0.07 m.
12.
Los niveles de colesterol en el suero de hombres con edades entre 18 y 24 años están distribuidos normalmente con una media de 178.1 y una desviación estándar de 40.7. Todas las cifras están dadas en mg/100 ml, y los datos se basan en la Encuesta Nacional de Salud de EEUU. El nivel de colesterol en el suero se considera demasiado alto si está en el 7% superior, encuentre la cantidad de mg/100 ml para los niveles excesivamente altos.
13.
Se recolectó información sobre el peso del recién nacido y si la madre fumó o no durante el embarazo. Los datos se presentan a continuación: CUADRO No 3: DISTRIBUCION DE LOS RECIEN NACIDOS DE ACUERDO A SU PESO SEGÚN LA CONDICION DE FUMAR DE LA MADRE CONDICIÓN DE FUMADORA
PESO R.N. BAJO NORMAL
TOTAL
SI
30
10
40
NO
20
140
160
TOTAL
50
150
200
FUENTE: DATOS HIPOTETICOS A. ¿Cuál es la probabilidad que el recién nacido tenga bajo peso? B. ¿Cuál es la probabilidad que una gestante fume? C. ¿Cuál es la probabilidad que el niño seleccionado tenga un peso normal?
139
VARIABLES ALEATORIAS Y SUS DISTRIBUCIONES DE PROBABABILIDADES VARIABLE ALEATORIA: Es una función que asigna un valor numérico a cada suceso o resultado de un espacio muestral. Es una variable cuyo valor numérico está determinado por el resultado del experimento aleatorio
Las variables aleatorias se le denota con letras mayúsculas X, Y,Z; y su valores se denotan con letras minúsculas x, y, z
Las Variables aleatorias se clasifican en dos tipos: DISCRETAS y CONTINUAS o
VARIABLE ALEATORIA DISCRETA: Cuando puede tomar un numero finito o infinito, pero enumerable de posibles valores
o
VARIABLE ALEATORIA CONTINUA: Cuando puede tomar un número infinito (no enumerable) de valores
CARACTERISTICAS DE LAS VARIABLES: VA. DISCRETA MEDIA O PROMEDIO
𝑛
𝐸(𝑋) = ∑ 𝑋𝑖 𝑃(𝑋𝑖 )
𝑉(𝑋) = ∑ 𝑖=1
TIPO DE GRAFICOS
140
𝐸(𝑋) = ∫ 𝑋𝑖 𝑓(𝑋𝑖 )𝑑𝑥
𝑖=1 𝑛
VARIANZA
VA. CONTINUA
(𝑋𝑖 − 𝐸(𝑥))2 𝑃(𝑋𝑖 ) 𝑁
(𝑋𝑖 − 𝐸(𝑥))2 𝑓(𝑋𝑖 ) 𝑉(𝑋) = ∫ 𝑁
DISTRIBUCIONES DE PROBABILIDAD Son modelos que describen la forma en que se espera que varíen los resultados o probable valores de una variable aleatoria.
Debido a que estas distribuciones tratan sobre expectativas de que algo suceda, resulta ser modelos muy útiles para hacer inferencias y para tomar decisiones en condiciones donde hay incertidumbre
Las distribuciones de probabilidad son esencialmente modelos gráficos que relacionan los diversos probables valores que puede tomar una variable aleatoria
Tradicionalmente se clasifican en dos grandes familias: o
Distribuciones Parámetricas
o
Distribuciones No Parámetricas
Muchos de los acontecimientos cotidianos, pueden ser asimilados a funciones probabilísticas teóricas, que son de gran ayuda en la toma de decisiones bajo condiciones de incertidumbre. Eminentes estudiosos de la estadística han planteado modelos probabilísticos que han contribuido al desarrollo de la ciencia. Veamos algunos de ellos: DISCRETAS
141
CONTINUAS
Distribución Binomial
Distribución Normal
Distribución Poisson
Distribución Normal Estandar
Distribución Geométrica
Distribución t - Student
Distribución Hipergeometrica
Distribución F - Senedector
PRINCIPALES CARACTERISTICAS DE UNA DISTRIBUCION DE PROBABILIDAD
Una distribución se caracteriza, en general, por medio de tres criterios: a.- El valor central o medida de posición (la media, la mediana o la moda). b.- Una cantidad que expresa el grado de dispersión (la desviación estándar). c.- La forma de la curva, es decir la forma general de la distribución probabilística
142
LA DISTRIBUCIÓN NORMAL O GAUSSIANA La distribución normal, llamada también Curva de Gauss (en recuerdo al científico Karl Gauss (1777 – 1855) que lo descubrió), es la distribución de probabilidad más importancia en la Estadística y por ende del Cálculo de Probabilidades. Esta distribución de probabilidad es importante porque las variables aleatorias continuas (peso, edad, talla, producción, gasto en publicidad, temperatura, ventas, PBI, ganancias, etc.) que son variables que más se evalúan en una investigación científica o investigación de mercados se aproximan a esta distribución de probabilidad. También es importante porque se utiliza como aproximación de las distribuciones discretas tales como: la Binomial, la Poisson, etc. Se puede reconocer por su forma acampanada
143
CARACTERÍSTICAS 1. Tiene como parámetros a y 2. Su función de probabilidad está dada por:
f ( x)
1 e 2
1 X 2
2
, X
3. El área total bajo la curva normal es igual a 1 4. El promedio puede tomar valores entre – y + mientras que > 0, entonces existen infinitas curvas normales. 5. En la distribución normal, la mayoría de las probabilidades se centra en la zona central 6. Cada distribución normal es especificada por su media µ y su desviación estándar σ.
144
X ~ N (µ, σ2)
7.
Esta función de probabilidad es asintótica con respecto al eje X, (a pesar de tener recorrido infinito, la curva nunca toca el eje X); además es unimodal y es simétrica con respecto a la media .
8. El área bajo esta función o curva es 1 ó 100%, de la misma manera se sabe que las áreas comprendidas bajo la curva normal son : 1.
= 68.3%
2. 2 = 95.5% 3. 3 = 99%
-
-3
-2 -1
1
2
3
+
LA DISTRIBUCIÓN NORMAL ESTÁNDAR
145
1 2z f(Z z) N 0, 1 e 2
2
z
1.
Es una distribución Normal a la cual se le ha modificado la escala original; esta modificación se ha logrado restando la media al valor de la variable original y dividiendo este resultado por , la nueva variable se denota por Z y recibe el nombre de variable estandarizada
Z
2.
X
La modificación de la escala ha permitido elaborar una tabla para el cálculo de las probabilidades; si esto no hubiera sido posible, sería necesario construir una tabla para cada valor de y . 1
f ( z) 3. La función de densidad de la variable estandarizada es:
1 2
e
2
z
2
4. El promedio (valor esperado) y la varianza de Z son: E(Z) = 0 , V(Z) = 1
5. Notación: Si X es v.a. continua distribuida normalmente con media y varianza 2, la denotamos por: X N ( , 2).
146
Aplicando esta notación a la variable normal estandarizada Z, escribimos: ZN (0, 1), esto se interpreta como, Z tiene distribución normal con media 0 y varianza 1.
6. La superficie bajo la curva normal Z estandarizada también es igual a 1. Por consiguiente, las probabilidades pueden representarse como áreas bajo la curva normal escandalizada entre dos valores.
7. Debido a que la distribución normal es simétrica muchas de las tablas disponibles contienen solo probabilidades para valores positivos de Z.
USO DE TABLA: Si se conoce el comportamiento de una variable es decir se sabe que tienen una distribución normal, para calcular las diferentes probabilidades se tiene que estandarizar la variable. Una vez estandarizada la variable, recién utilizar la tabla de la distribución normal estandarizada o tabla Z. FORMULAS:
x
P( x a) P(
b.
P( x a) 1 P( x a) 1 P(
c.
a
a.
) P( Z x
a
a
P ( a x b) P ( x b) P ( x a ) P ( Z
)
) 1 P( Z
b
) P( Z
EJERCICIOS: 1. Determinar la probabilidad de cada una de las siguientes expresiones:
147
a
a
)
)
a) P ( Z < 1.25 )
b) P ( Z< -2.28)
c) P (Z < 0 )
d) P ( 0 < Z < 2.5 )
e) P ( -2.38 < Z < 0 )
f) P ( - 2.25 < Z < 2.25 )
g) P (1.55 < Z < 2.35)
h ) P ( Z > 2.43 )
2. En una población normalmente distribuida con media µ = 30 y variancia igual a 25 se pregunta: ¿Qué porcentaje del total de las observaciones estarán entre 20 y 35?
3. Se sabe que el peso medio de la población de un grupo de estudiantes es igual a 60 Kg., y su desviación estándar es igual a 3 kg. ¿Halle la probabilidad de que el peso de un alumno este entre 55 y 65 Kg?
4. El peso de los atletas de pruebas de medio fondo sigue una distribución normal con media 64,3 kilos y desviación típica 2,3 kilos. Hallar un intervalo centrado alrededor de la media que contenga: a) El 68,3% de la población. b) El 95,5% de la población. c) El 99,7% de la población
5. El rendimiento académico de los estudiantes de la UPN, tiene una distribución normal con media igual a 16 y varianza igual a 4. Si se selecciona un estudiante de esta Universidad, encuentre la probabilidad de que: a. El rendimiento sea mayor que 16 b. El rendimiento sea menor que 14 c. El rendimiento este entre 14 y 18 d. El rendimiento este entre 15.5 y 16.5
148
6. Los salarios mensuales de los trabajadores de una empresa tiene un comportamiento normal cuya media es S/. 2100 y una desviación estándar de S/. 450. Cuantos trabajadores tienen salarios: a. Menores de S/. 2150. b. Menos de S/. 2200. c. Mas de S/. 2180. d. Entre 2080 y 2150 soles. 7. El tiempo de duración de los focos de alumbrado eléctrico producidos por una compañía eléctrica tiene una distribución normal con una media de 1000 horas y una desviación estándar de 750 horas. Determinar la probabilidad de que: a. Un foco tomado al azar se queme antes de las 990 horas de funcionamiento b. Un foco se que queme entre 980 y 1120 horas de funcionamiento. c. Un foco dure más de 998 horas
8. NEUMA Perú, es una empresa que produce llantas para automóviles en nuestro país. La vida útil de estas llantas se distribuye aproximadamente como una normal con media y desviación estándar iguales a 32000 y 1000 millas respectivamente. Esta empresa quiere exportar estas llantas por lo que empieza a hacer ciertos cálculos acerca de la calidad de estas llantas, para lo cual se hace las siguientes preguntas: a. Cual es la probabilidad de una llanta producida por esta empresa tenga una vida útil de 31900 millas. b. Cual es la probabilidad de una llanta producida por esta empresa tenga una vida útil desde 31000 y 33000 millas. c. Si la empresa fija una garantía de 30000 millas. ¿Qué porcentaje de esta producción necesitará ser reemplazada?
9. El peso de los estudiantes de la escuela de Ing. Industrial de la UPN, tienen una distribución normal que tiene una media de 60 Kgs. y una desviación estándar de 18 kgs. Calcular la probabilidad de que un estudiante pese entre: a. Entre 58 y 65 Kgs.
149
b. Menos de 71 Kgs. c. Más de 69 Kgs.
10. El tiempo requerido para realizar una pregunta de examen es una variable aleatoria cuya distribución es aproximadamente normal con media 12.9 minutos y una desviación estándar de 2.0 minutos. ¿Cuáles son la probabilidades de que un alumno resuelva una pregunta del examen en: a. Al menos 11.5 minutos. b. Entre 11.0 y 14.8 minutos. c. A lo mas 12 minutos d. Entre 10 y 13 minutos.
ACTIVIDAD DE AUTO EVALUACIÓN: Antes de continuar con los últimos temas, es conveniente que te autoevalúes, desarrollando las preguntas en forma individual. Luego coteja tus respuestas con la teoría estudiada:
1.
Supone que el administrador de un gran condominio de departamentos elabora los estimados subjetivos de probabilidad sobre la cantidad de departamentos que estarán vacíos el próximo mes: Vacantes 0 1 2 3 4 5
150
Probabilidad 0.05 0.15 0.35 0.25 0.10 0.10
Determina la probabilidad de cada uno de los siguientes sucesos:
2.
a)
No hay departamentos vacíos.
b)
Cuando menos hay 4 departamentos vacíos.
c)
Hay 2 o menos departamentos vacíos.
El gerente de una tienda de decoración vende de 0 a 4 jarrones de porcelana cada semana. En base a su experiencia, se asigna probabilidades de vender los jarrones: P(0) = 0.08, P(1) = 0.18, P(2) = 0.32, P(3) = 0.30, P(4) = 0.12. a)
¿Son válidas estas asignaciones de probabilidad? ¿Por qué?
b)
Sea A el evento en el cual se venden 2 o menos en una semana. Determina P(A).
c)
Sea B el evento en el cual se venden 4 o más en una semana. Determina P (B).
3.
CUADRO No 3: DISTRIBUCION DE ALUMNOS DE LA UCV SEGÚN EL NUMERO DE ACTIVIDADES EXTRACURRICULARES QUE PARTICIPA. NUMERO de Actividades NUMERO de ALUMNOS Fuente: Datos Hipotéticos
0 8
1 20
2 12
3 6
4 3
5 1
RESOLVER: a)
Sea A el evento en que un alumno participa al menos en una actividad. Determina P(A).
b)
Sea B el evento en que un alumno participa en 3 o más actividades. Determina P(B).
c)
¿Cuál es la probabilidad de que un alumno participe exactamente en 2 actividades?
151
4.
Durante el invierno en Huancayo, el Sr. Llajaruna tiene problemas para arrancar sus dos automóviles La probabilidad que el primero arranque es 0.80 y la probabilidad que el segundo arranque es 0.40, también hay una probabilidad de 0.30 de que arranquen ambos: a)
Define los eventos que intervienen y emplea notación de probabilidades para mostrar la información anterior.
b)
¿Cuál es la probabilidad que al menos un automóvil arranque?
c)
¿Cuál es la probabilidad de que el Sr. Llajaruna no pueda arrancar uno de los dos automóviles?
5.
Se ha ajustado el proceso de fabricación de un tornillo de precisión de manera que la longitud promedio de los tornillos sea 13 cm. Por supuesto, no todos los tornillos tienen un longitud exacta, debido a fuentes aleatorias de variabilidad que generan una variación de 0.1 cm aprox. Si se sabe que la distribución de las longitudes tiene una forma normal, determina la probabilidad de que un tornillo elegido al azar tenga una longitud entre 13.2 y 13.4 cm.
6.
Se sabe que el tiempo útil de un componente eléctrico tiene una distribución normal con media 2000 horas y desviación estándar 200 horas. a)
Calcula la probabilidad de que un componente elegido al azar dure más de 1950 horas.
b)
¿A qué cantidad de horas corresponde el 10% superior de la duración de los componentes?
7.
El tiempo que se requiere para reparar cierto tipo de transmisión automotriz en un taller mecánico tiene distribución normal con media 45 min. y desviación estándar 8 min. El gerente de servicio planea hacer que se inicie la reparación de la transmisión de los automóviles de los clientes diez minutos después de que se recibe el vehículo, y le dice al cliente que el automóvil estará listo en una hora. A) ¿Cuál es la probabilidad de que el gerente esté equivocado?
152
B) ¿Qué asignación de tiempo de trabajo se requiere para que haya una probabilidad del 75% de que la reparación de las transmisiones se lleve a cabo dentro de ese tiempo?
REFERENCIAS BIBLIOGRÁFICAS:
1.
ÁVILA ACOSTA, R., (2001). Estadística Elemental. Estudios y Ediciones RA- Lima – Perú.
2.
BERENSON – LEVINE, (1996). Estadística Básica en Administración. 6ta edición. Edit. PHH S. A. – México.
3.
KAZMIER, Leonard y DÍAZ MATA, Alfredo, 1991. Estadística aplicada a la Administración y Economía, Segunda Edición – Editorial Mc Graw Hill – México.
153
4.
MILLER, Irwin y FREUND, John E., 1995. Probabilidad y Estadística para Ingenieros – Edit. Prentice Hall Hispanoamericana S.A. – México.
5.
MOYA, Rufino, (1991). Estadística Descriptiva. 1era edición –Editorial San MarcosLima- Perú.
6.
TRIOLA, Mario F., (2000). Estadística Elemental, Séptima Edición – Editorial Addison Wesley Longman – México.
7.
WEBSTER, A. y otros, (2000). Estadística Aplicada a los Negocios y a la Economía. 3era edición – Edit. McGraw-Hill Companies, Inc. – Santa Fe de Bogotá- Colombia.
154
NOCIONES DE ESTADISTICA INFERENCIAL 155
Sesión 12 Nociones de Estadística Inferencial: Prueba de Hipótesis CAPACIDADES 6. Posee nociones sobre el procedimiento para probar hipótesis estadísticas. 7. Plantea hipótesis en sus investigaciones. 8. Realiza pruebas de hipótesis estadísticas paramétricas básicas: para una media, dos
medias, una proporción y dos proporciones poblacionales. 9. Realiza la prueba de hipótesis estadística: Ji cuadrada.
ACTITUDES 1.
Valora la importancia que tiene el método estadístico para la contrastación de hipótesis en la investigación científica.
2.
Asume una actitud analítica al conocer y aplicar a su carrera profesional la docimasia de hipótesis.
CONTENIDO 1.
Nociones de Estadística Inferencial. Prueba de Hipótesis. Prueba de Hipótesis sobre la Media y la Proporción Poblacional. Uso de la Tabla de la Distribución T Student.
2.
Prueba de Hipótesis sobre Comparación de Medias y de Proporciones.
3.
Prueba de Hipótesis sobre Relación entre Variables Cualitativas. Uso de la Tabla de la Distribución Ji Cuadrada.
156
Inferencia Estadistica Muestreo
Distribuc. Muestrales
Estimacion
Prueba de Hipotesis
Puntual
µ
157
Intervalo
p
σ2
Una Poblacion
µ
Dos poblaciones
p
σ2
ESTADISTICA INFERENCIAL La inferencia estadística o estadística inferencial es una parte de la Estadística que comprende los métodos y procedimientos para deducir propiedades (hacer inferencias) de una población, a partir de una pequeña parte de la misma.
El objetivo de la estadística inferencial es obtener la información acerca de una población, partiendo de la información que contiene una muestra.
El proceso que se sigue para
seleccionar una muestra se denomina Muestreo.
Las ventajas que nos brinde el muestreo son: -
Los operativos son menores.
-
Posibilita analizar un mayor número de variables.
-
Permite controlar las variables en estudio.
ESTIMACION ESTADISTICA: Es el conjunto de técnicas que permiten dar un valor aproximado de un parámetro de una población a partir de los datos proporcionados por una muestra.
Por ejemplo, una estimación de la media de una determinada característica de una población de tamaño N podría ser la media de esa misma característica para una muestra de tamaño n
La estimación se divide en tres grandes bloques, cada uno de los cuales tiene distintos métodos que se usan en función de las características y propósitos del estudio:
158
o
Estimación puntual
o
Estimación por intervalos.
o
Estimación bayesiana.
Estimación Puntual: Consiste en la estimación del valor del parámetro mediante un sólo valor, obtenido de una muestra. Por ejemplo, si se pretende estimar la talla media de un determinado grupo de individuos, puede extraerse una muestra y ofrecer como estimación puntual la talla media de los individuos. Estimación por Intervalos Consiste en la obtención de un intervalo dentro del cual estará el valor del parámetro estimado con una cierta probabilidad. Para calcular la estimación por intervalo o Intervalo de confianza (IC), en primer lugar se procede a:
Seleccionar
el nivel
de
confianza (grado de fiabilidad en el intervalo), 1-α y
α nivel de error.
Un nivel de confianza del 95%, implica que 95% de todas las muestras incluye al parámetro y solo un 5% de las muestras producirá un intervalo erróneo.
Cuanto mayor es el nivel de confianza se estima que el valor del parámetro este dentro del intervalo.
ESTIMACIÓN PARA LA MEDIA POBLACIONAL. Sabemos que:
Z
X
Pero también Ζ
X-µ σ n
Como no conocemos el parámetro µ y lo queremos estimar por medio de la media de la muestra, sólo se despejará µ de la formula anterior, quedando lo siguiente
Para muestras mayores a 30
Para muestras menores que 30
159
µ X Ζ 1-α/2
σ n
µ X t (n- 1;1- α/2)
s n
Donde S la desviación estándar de la muestra y t es la distribución de la t de Student con n – 1 grados de libertad y nivel de confianza igual a 1 - /2 .
Para el caso de tamaños de muestra grande se puede utilizar una estimación puntual de la desviación estándar, es decir igualar la desviación estándar de la muestra a la de la población (s= ).
El error de estimación
de µ será la diferencia absoluta entre x y µ, es decir
despejando:
Error de estimación de µ
µ - X 1-/2
n
Ejemplo: 1. Se encuentra que en una dieta la concentración promedio de vitaminas a partir de una muestra de 36 mediciones en sitios diferentes del hospital es de 2.6 gramos por mililitro. Suponga que la desviación estándar de la concentración de vitaminas es 0.3. a) Señale la estimación puntual para µ. b) Encuentre el intervalo de confianza al 95% para la concentración media de vitaminas en las dietas de dicho hospital. c) Halle el error de estimación de µ para la pregunta b. d) Encuentre el intervalo de confianza al 99% para la concentración media de vitaminas en las dietas de dicho hospital. e) Halle el error de estimación de µ para la pregunta d.
Solución: a) La estimación puntual para µ es:
X
b) IC para la media poblacional se calcula:
160
µ, es decir
µ= 2.6 gr/ml
µ X Ζ 1- α/2
σ n
0 .3 µ 2.6 (1,96 ) 36
Estimación de una Proporción Una proporción es una razón de una parte con respecto a un todo y que generalmente pertenecen a un experimento aleatorio de tipo binomial, es decir con solo dos posibles respuestas.
𝑝=
Sabemos que:
# 𝑒𝑙𝑒𝑚𝑒𝑛𝑡𝑜𝑠 𝑞𝑢𝑒 𝑐𝑢𝑚𝑝𝑙𝑒 𝑐𝑖𝑒𝑟𝑡𝑎 𝑐𝑎𝑟𝑎𝑐𝑡𝑒𝑟𝑖𝑠𝑡𝑖𝑐𝑎 𝑇𝑜𝑡𝑎𝑙 𝑑𝑒 𝐸𝑙𝑒𝑚𝑒𝑛𝑡𝑜𝑠 Z
p pq n
Como no conocemos el parámetro π y lo queremos estimar por medio de la proporción de la muestra, sólo se despejará π de la formula anterior, quedando lo siguiente:
pq p Z1 / 2 * n Error de estimación de π
𝜀 = 𝑝 − 𝜋 = 𝑍1−∝⁄2 ∗ √
𝑝𝑞 𝑛
Ejemplo: Un fabricante de reproductores de discos compactos utiliza un conjunto de pruebas amplias para evaluar la función eléctrica de su producto. Todos los reproductores de discos compactos deben pasar todas las pruebas antes de venderse. Una muestra aleatoria de 500 reproductores tiene como resultado 15 que fallan en una
161
o más pruebas. Encuentre un intervalo de confianza de 90% para la proporción de los reproductores de discos compactos de la población que no pasan todas las pruebas.
Para la distribución Normal utilice la siguiente tabla:
Nivel de confianza 90% 95% 99%
162
Z
2
1.645 1.96 2.576
Ejemplo 1: En población cuya distribución se desconoce se obtiene una muestra (m.a.s.) de 2000 valores de la que resulta una media de 225 y una desviación típica de 10. Suponiendo que la varianza muestral coincide con la poblacional, estimar un intervalo para la media de la población con un nivel de confianza del 95%. Tendríamos 1- =0.95 luego =0.05; S=10= (muestra grande n>30); n=2000, para una población normal.
P( x Z 2
n
u x Z 2
n
) 0.95
el resultado sería : µ [224,56 , 225,44] con el 95 % de confianza.
Ejemplo 2: Las ventas diarias de cierta oficina comercial se supone que siguen una distribución normal. Para estimar el volumen medio de ventas por día se realiza una muestra de 10 días escogidos al azar, resultando que la media de las ventas de esos 10 días es S/. 100 con una desviación típica de S/. 4. Dar un intervalo de estimación para el volumen medio de ventas por día con una confianza del 95 %.
Conocemos que según la información que poseemos, estamos ante:
Distribución
normal; n=10 (muestra pequeña); S=4(poblacional desconocida); media muestral=100; Para 1- =0.95, luego =0.05 con lo que t (9 gl ) 2.26 (según tabla T) 2
P( x t 2
S S u x t ) 0.95 n n 2
El resultado sería: µ [S/.96,99 ; S/.103,01] con el 95 % de confianza.
Ejemplo 3: Se quiere obtener un intervalo de confianza para el valor de las ventas medias por hora que se producen en un kiosco. Para ello realizamos una muestra consistente en elegir al azar las ventas que se realizaron durante 1000 horas distintas; muestra cuyos resultados fueron: ventas medias por hora S/. 4000, y varianza de dicha muestra S2/. 4000. Obtener dicho intervalo con un nivel de confianza del 95.5 %.
163
Queremos construir un intervalo para la media con las siguientes características:
Tamaño muestral=n=1000, con muestreo aleatorio simple, la población no es normal ni conocemos su varianza. El resultado de la muestra es x 4000 , S2=4000.
Si bien se trata de un intervalo para la media con varianza desconocida y población no normal, dado que el tamaño muestral es grande podemos suponer normalidad y tomar como varianza poblacional a la muestral así:
P( x z 2
n
u x z 2
n
) 0.95
El resultado sería: µ [S/.399,08 ; S/.4003,92] con el 95 % de confianza.
EJERCICIOS Una media: 1. Una máquina llena un determinado producto en bolsas cuyo peso medio es μ gramos. Suponga que la población de los pesos es normal con desviación estándar 20 gramos. Estime μ mediante un intervalo de confianza del 95%, si una muestra aleatoria de 36 bolsas ha dado una media de 495 gramos 2. Se decide estimar la media μ del nivel de ansiedad de todos los estudiantes preuniversitarios. Se supone que la población de los puntajes de la prueba para medir la ansiedad se distribuye normalmente con desviación están dar igual a 10 puntos. 3. Determinar el intervalo para μ con confianza del 95%, si una muestra aleatoria de tamaño 100 ha dado una media de 70 puntos.
164
4. El tiempo en, minutos que utilizan los clientes en sus distintas operaciones en un banco local es una variable aleatoria cuya distribución se supone normal con una desviación estándar de 3 minutos. Se han registrado los tiempos de las operaciones de 9 clientes del banco resultando una media igual a 9 minutos: a. Hallar el nivel de confianza si la estimación de μ es el intervalo de 7 a 11 minutos. b. Calcular la probabilidad de que la media de los tiempos de todas las muestras de tamaño 9 esté entre 6.5 y 11.5 minutos.
1. Un fabricante afirma que el peso promedio de las latas de fruta en conserva que saca al
mercado es 19 onzas. Para verificar esta afirmación se escogen al azar 20 latas de la fruta y se encuentra que el peso promedio es 18.5 onzas Suponga que la población de los pesos es normal con una desviación estándar de 2 onzas. a. Utilizando un intervalo de confianza del 98% para μ, ¿se puede aceptar la afirmación del fabricante? b. ¿Qué tamaño de muestra se debe escoger para estimar μ si se quiere un error no superior a 0.98 onzas con confianza del 95%?
2. Se quiere hacer una encuesta para estimar el tiempo promedio por semana que los
niños ven televisión. Por estudios anteriores se sabe que la desviación estándar de dicho tiempo es de 3 horas. Con el nivel de confianza del 99%. a. ¿Qué tamaño de muestra se debería elegir si el error de la estimación puntual no es superior a media hora?
3. Un fabricante produce focos cuya duración tiene distribución normal. Si una muestra
aleatoria de 9 focos da las siguientes vidas útiles en horas: 775,
780,
800,
795,
790,
785,
795,
780,
810
a. Estimar la duración media de todos los focos del -fabricante mediante un intervalo de confianza del 95%. b. Si la media poblacional se estima en 790 horas con una confianza del 98%, ¿cuánto es el error máximo de la estimación si se quiere una confianza del 98%?
165
4. El ingreso mensual de cada una de las 500 microempresas de servicios de una ciudad,
es una variable aleatoria con media μ desconocida. Con el fin de simplificar la recaudación de impuestos, la Sunat ha dispuesto que a estas empresas se las grave mensualmente con un 10% de sus ingresos. De una muestra al azar de 50 microempresas se obtuvo un ingreso mensual promedio de $1000 con una desviación están dar de $80. a. Estime el monto medio de los ingresos de las microempresas de la ciudad con un intervalo de confianza del 95% b. Estime el monto promedio de la recaudación a estas microempresas con un intervalo de confianza del 95% c. Si el propósito de la SUNAT es lograr mensualmente una recaudación total de al menos $52,000 a estas microempresas, ¿es factible que se cumplan sus metas?, ¿por qué?
Una proporción: 5. En un estudio socioeconómico se tomó una muestra aleatoria de 100 comerciantes
informales y se encontró entre otros datos los siguientes: un ingreso medio de $600, una desviación estándar de $50 y sólo el 30% tienen ingresos superiores a $800. a. Estimar la proporción de todos los comerciantes con ingresos superiores a $800, mediante un intervalo de confianza del 98%. b. Si la proporción de todos los comerciantes con ingresos superiores a $800 se estima entre 20.06% y 39.94% ¿qué grado de confianza se utilizó?
6. Una muestra aleatoria de 400 menores de 16 años revela que 220 consumen licor.
a. Estimar la proporción de menores de 16 años que consumen licor en toda la población mediante un intervalo de confianza del 99%.
7. Un fabricante estima en 5% la proporción de piezas defectuosos de los 5,000
producidos. Para confirmar tal estimación primero se debe escoger una muestra aleatoria,
166
a. ¿cuántas piezas debe tener la muestra si se quiere tener una confianza del 95% que el error de la estimación no será superior a 0.047? b. Se escoge una muestra aleatoria del tamaño calculado en a), si en ella se encuentran 40 piezas defectuosos, mediante un intervalo de confianza del 95%, ¿se puede inferir que la estimación del fabricante es coherente con la estimación efectuada a partir de la muestra aleatoria?
8. La oficina de planificación familiar de cierta provincia quiere estimar el porcentaje de
familias con más de 4 hijos. a. ¿Qué tamaño de muestra se requiere para asegurar con una confianza del 95% que el error de la estimación de tal porcentaje no sea superior a 0.05? b. Si en una muestra aleatoria de 385 familias se encuentra que 154 de ellas tienen más de 4 hijos. Estime el porcentaje de familias con más de 4 hijos en toda la provincia, mediante un intervalo de confianza del 98%.
9. Para estimar el porcentaje de todos los electores a favor de un candidato, una
encuestadora debe determinar el tamaño" de la muestra aleatoria para escoger de una población de 10,000 electores, ¿qué tan grande debería ser la muestra si se quiere tener una confianza del 95% que el error de estimación no sea superior al4.8%?
10. Se probó una muestra aleatoria de 400 cinescopios de televisor y se encontraron 40
defectuosos. Estime el intervalo que contiene, con un coeficiente de confianza de 0.90, a la verdadera fracción de elementos defectuosos.
167
168
PRUEBA DE HIPOTESIS las hipótesis que formulamos lo serán lógicamente sobre la población. Bien afectando a algún parámetro de ésta, lo que da origen a los contrastes paramétricos o bien a otras características de la mismas que no lo sean estrictamente, lo que origina contrates "no" paramétricos.La solución estadística del problema de contrastación se basará en los datos muestrales y la base estadística (probabilística) de la que arrancará el contraste, de algún estadístico muestral.
CONCEPTOS BÁSICOS a) Hipótesis: Es una respuesta a priori a un problema. Es una conjetura sobre el valor concreto que tiene en realidad b) Hipótesis Estadística: Llamamos hipótesis estadística a una suposición que se hace respecto a un parámetro poblacional. Las hipótesis estadísticas comprenden: a. Hipótesis Alternativa: Es la cuantificación de la hipótesis científica; es la que nos interesa probar. Se denota por Ha. b. Hipótesis Nula: Es la hipótesis que se desea contrastar. Es el supuesto contrario de la hipótesis alternativa. Se denota por Ho. Esta hipótesis se formula con el solo propósito de rechazarla o anularla, motivo por el cual, recibe el nombre de hipótesis nula. c) Estadístico De Prueba: Es un valor, determinado a partir de la información muestral, que se utiliza para aceptar o rechazar la hipótesis nula. d) Nivel de Significación: Después de plantear la hipótesis nula y la alternativa, el siguiente paso es definir el nivel de significación. Este es la probabilidad de rechazar la hipótesis nula cuando en realidad es verdadera.
169
Decisión posible
Ho Verdadera
Ho Falsa
DECISIÓN CORRECTA
ERROR TIPO II
=(1-
β
Aceptar Ho
“Nivel de Confianza” o “Evidencia Estadística” ERROR TIPO I
DECISIÓN CORRECTA
α
(1-
Rechazar Ho
“Poder Estadístico”
Si la hipótesis nula (H0) es cierta y nuestra decisión es no rechazarla, la decisión ha sido correcta.
Si la hipótesis nula (H0) es cierta y nuestra decisión es rechazarla, la decisión provoca un error. Dicho error se denomina error tipo I.
Si la hipótesis nula (H0) es falsa y nuestra decisión es no rechazarla, la decisión provoca un error. Dicho error se denomina error tipo II.
Si la hipótesis nula (H0) es falsa y nuestra decisión es rechazarla, la decisión ha sido correcta.
Pasos a Seguir para Realizar una Prueba de Hipótesis 1º Plantear la hipótesis estadística Ho y Ha. 2º Fijar el nivel de significancia α. 3º Elegir la distribución de probabilidad. Z o t 4º Establecer las regiones de aceptación y rechazo de la hipótesis nula. 5º Encontrar el valor experimental. Reemplazando los valores muestrales obtenidos en la distribución propuesta en el punto número 3. 6º Observar si el valor experimental pertenecen a la RA/RR de Ho y decidir si se acepta o no la hipótesis nula. 7º Concluir.
170
Estadísticos de Prueba: (z o t) Estadísticos de Prueba para la Media de una Población Caso I: Para muestra grande (n≥30) y cuando te dan la varianza poblacional.
𝒛=
̅ − 𝛍𝟎 𝑿 𝝈 𝒅𝒐𝒏𝒅𝒆 𝝈𝑿̅ = 𝝈𝑿̅ √𝒏
𝒕=
Caso II: Para muestra pequeña (n<30):
̅ −𝛍𝟎 𝑿 𝐬 √𝒏
Estadísticos de Prueba para la Proporción de una Población Sea p la proporción muestral y p0 la proporción poblacional.
𝒛=
𝒑 − 𝒑𝟎 √
𝒑 𝟎 𝒒𝟎 𝒏
Estadísticos de Prueba para la Media de Dos Poblaciones Caso I: Muestras Grandes Para muestra grande (n≥30) y cuando te dan las varianzas poblacionales:
𝒛𝒄 =
̅𝟏 − 𝑿 ̅ 𝟐) (𝑿 𝝈𝟐 𝝈𝟐 √ 𝟏+ 𝟐 𝒏𝟏 𝒏𝟐
O con las varianzas muestrales como estimadores de las varianzas poblacionales:
171
𝒛𝒄 =
̅𝟏 − 𝑿 ̅ 𝟐) (𝑿 𝒔𝟐 𝒔𝟐 √ 𝟏+ 𝟐 𝒏𝟏 𝒏𝟐
Caso II: Muestras Pequeñas Para muestras pequeñas (n<30) y varianzas poblacionales desconocidas:
𝒕𝒄 =
̅𝟏 − 𝑿 ̅𝟐 𝑿
𝒏𝟏 𝒏𝟐 (𝒏𝟏 + 𝒏𝟐 − 𝟐) √ → 𝒕𝒏𝟏+𝒏𝟐 −𝟐 𝒏 + 𝒏 𝟏 𝟐 √(𝒏𝟏 − 𝟏)𝑺𝟐𝟏 + (𝒏𝟐 − 𝟏)𝑺𝟐𝟐
Caso III: t-Student Cuando se supone que las varianzas poblacionales son iguales (muestras homogéneas):
𝒕𝒄 =
̅𝟏 − 𝑿 ̅ 𝟐 ) − (𝝁𝟏 − 𝝁𝟐 ) (𝑿 √𝐒𝐩𝟐
𝟏 𝟏 (𝒏 + 𝒏 ) 𝟏 𝟐
→ 𝒕𝒏𝟏 +𝒏𝟐 −𝟐 𝒅𝒐𝒏𝒅𝒆
𝐒𝐩𝟐
(𝒏𝟏 − 𝟏)𝒔𝟐𝟏 + (𝒏𝟐 − 𝟏)𝒔𝟐𝟐 = 𝒏𝟏 + 𝒏𝟐 − 𝟐
Caso IV: t-Student-Welch Cuando se supone que las varianzas poblacionales son diferentes (muestras heterogéneas):
𝑡𝑐 =
(𝑋̅1 −𝑋̅2 ) 𝑠2 𝑠2 √ 1+ 2 𝑛1 𝑛2
→ 𝒕𝒈𝒍
donde
𝑔𝑙 =
2 𝑠2 𝑠2 2 1 [ + ] 𝑛1 𝑛2 2 2 𝑠2 𝑠2 1 2 [ ] [ ] 𝑛1 𝑛2 + 𝑛1 −1 𝑛2 −1
Caso V: Diferencia Pareada Cuando se obtienen dos mediciones repetidas de un mismo artículo o sujeto. En consecuencia se trabajara con la diferencia de este par de datos
172
̅ √𝒏 𝑫 𝑻𝒄 = → 𝒕𝐧−𝟏 𝑺𝑫 Estadísticos de Prueba para Diferencia de Proporciones
𝒛=
𝒑𝟏 − 𝒑𝟐 𝟏 𝟏 √𝒑𝒒 [ + ] 𝒏𝟏 𝒏𝟐
,
𝒄𝒐𝒏 𝒑 =
𝒙𝟏 + 𝒙𝟐 𝒏𝟏 + 𝒏𝟐
𝒚
𝒒 = (𝟏 − 𝒑)
Regiones de Aceptación y Rechazo de la Hipótesis Nula
173
EJERCICIOS 1. Al estudiar si conviene tener o no una sucursal en la ciudad de Trujillo, la gerencia de una gran tienda comercial de Lima, establece el siguiente criterio para tomar una decisión: Abrir la sucursal sólo si el ingreso promedio familiar mensual en dicha ciudad es no menos de $ 500 y no abrirla en caso contrario. Si una muestra aleatoria de 100 ingresos familiares de esa ciudad ha dado una media de $ 480. ¿Cuál es la decisión a tomar al nivel de significancia del5%?, Se sabe que la distribución de los ingresos tiene una desviación estándar poblacional es igual a $ 80. 2. El gerente de ventas de una compañía afirma que sus vendedores venden semanalmente en promedio $ 1500. Al nivel de significación del 1% pruebe la hipótesis del gerente versus la hipótesis del presidente de los vendedores que afirma que el promedio de las ventas semanales es mayor, si una muestra de 36 vendedores ha dado una media igual a $ 1510. se sabe que la varianza semanal es de $ 900.
3. En un estudio de control de calidad de automóviles, se considera un parámetro de evaluación si arranca en menos de 3 minutos. Para lo cual se ha tomado 10 autos de la misma marca para estudiar el tiempo de arranque encontrándose los siguientes resultados (en segundos): 2.84, 2.86, 3.06, 2.94, 2.94, 2.82, 3.02, 3.14 ,3.42, 3.16. Probar si los automóviles cumplen con este parámetro de calidad. Verificar Ho: μ = 3 frente a H1: μ < 3, utilizando α =0.05 ¿A qué conclusión llegaría usted? 4. Según Roper Starch, el 62% de las Mujeres en el grupo de 40 a 49 años de edad ahorra en una cuenta individual para el retiro. Si quisiéramos poner a prueba si este porcentaje es igual para las mujeres de este grupo de edad que viven en Nueva York y seleccionáramos una muestra aleatoria de 300 neoyorquinas con estas condiciones y 195 de ellas ahorra en una cuenta individual, ¿Cuáles serían las hipótesis nula y alternativa? ¿La prueba seria de z o t? ¿Por qué?
174
5. Se ha dicho que no más de 5% de las unidades que salen de una línea de montaje están defectuosas, Formule una hipótesis nula y una alternativa para esta situación. ¿La prueba será de una o dos colas? ¿Por qué?. Si la prueba es de una cola, ¿Sera de cola izquierda o de cola derecha? ¿Por qué? 6. Una encuesta realizada por Bancomer a 35 clientes indicó que un poco más del 74 por ciento tenían un ingreso familiar de más de $200,000 al año. Si esto es cierto, el banco desarrollará un paquete especial de servicios para este grupo. La administración quiere determinar si el porcentaje verdadero es mayor del 60 por ciento antes de desarrollar e introducir este nuevo paquete de servicios. Los resultados mostraron que 74.29 por ciento de los clientes encuestados reportaron ingresos de $200,000 o más al año. 7. Un muestreo aleatorio de 24 artículos en un supermercado presenta una diferencia entre el valor marcado del artículo y el valor real de éste. La media y la desviación estándar de las diferencias entre el precio marcado y el real en los 24 artículos son $37.14 y $6.42 respectivamente. Con un nivel de significancia de 0.05 pruebe que la diferencia media
entre
el
valor
marcado y el real por artículo en ese
supermercado no es mayor de $40.0. 8. Un fabricante de cereales afirma que el peso promedio de cada caja de cereal es de 500 gramos. ¿Los datos que a continuación se le dan apoyan la afirmación del fabricante? Pruebe con = .10. 506, 508, 499, 503, 504, 510, 497, 512, 514, 505, 493, 496, 506, 502, 509, 496
9. Para determinar el rendimiento anual
de
ciertos
valores,
un
grupo
de
inversionistas tomó una muestra de n =10 de esta clase de valores. La media y desviación estándar resultaron: X = 8.71% y S = 2.1%. ¿Existe evidencia para decir que el verdadero rendimiento anual promedio es igual o mayor 8.5%? con =0.10.
175
10. El presidente del PRI en 1988, basado en su experiencia, sostiene que un 95% de los votos para las elecciones presidenciales han sido a favor de su partido. Los partidos de oposición levantaron una muestra de 1100 electores y encontraron que un 87% de ellos votaría por el PRI. El presidente del PRI quiere probar la hipótesis, con un nivel de significación de 0.05, que el 95% de los votos son para su partido.
11. Se afirma que, de todas las familias que salen de Cumana por lo menos el 30 % se mudan a Maracaibo. Si una muestra de 600 mudanzas tomada al azar de los registros de la Alcaldía de Cumana revela que de
los permisos de mudanza
autorizados 153 fueron para Maracaibo, pruebe la hipótesis nula p = 0.30 contra la hipótesis alternativa p < 30 con un nivel de significancia del 1 %. 12. Un fabricante de semiconductores produce controladores que se emplean en el sistema eléctrico de vehículos. El cliente requiere que la proporción
de
controladores defectuosos no sea mayor de 0.05, y que el fabricante demuestre estas características del proceso de fabricación con este nivel de calidad, con un nivel de significancia del 5 %. El fabricante de semiconductores toma una muestra aleatoria de 200 dispositivos y encuentra que 4 de ellos son defectuosos. ¿El fabricante puede demostrar al cliente la calidad exigida? Saque sus conclusiones. 13. Se sabe que el 10 % de los fumadores prefieren la marca de cigarrillo Malboro. Después de una campaña publicitaria del cigarrillo Malboro, se entrevistaron a 200 fumadores para determinar la eficiencia de la campaña publicitaria. El resultado de la muestra realizada detecto un total de 26 personas que
fumaban Malboro.
¿Pueden considerarse que esos datos presentan evidencia suficiente para indicar que hubo un aumento en la aceptación del cigarrillo Malboro. Obtenga las conclusiones del planteamiento desarrollando un contraste de hipótesis con un nivel de significancia del 5 %. 14.
176
15. Probemos la hipótesis de que el porcentaje de microempresas cuyos patrones son hombres captado por la ENAMIN es distinto de 88%.
SEXO DEL PATRON
Valid
Frequency Hombre 1634 Mujer 314 Total 1948
Valid Percent 83.9 16.1 100.0
Percent 83.9 16.1 100.0
Cumulative Percent 83.9 100.0
16. La administración de las tiendas Oxxo cree, sobre la base de una investigación, que el porcentaje de hombres que visitan sus tiendas 9 o más veces al mes (clientes frecuentes) es mayor que el porcentaje de mujeres que hacen lo mismo. La información proporcionada es:
nH 45 nM 71 PH 0.58 PM 0.42 PH PM 0.58 0.42 0.16 17. Un fabricante está por decidir entre continuar con el método actual o usar un nuevo método de montaje de un producto. Cambiará el método actual si, hay prueba que evidencia que el nuevo método usa menos tiempo. A fin de tomar una decisión, se seleccionó una muestra aleatoria de 10 operarios expertos y se registro el tiempo de montajes, en minutos, que utilizó cada operario con ambos métodos. Los datos se resumen en la siguientes tabla:
177
Operador
1
2
3
4
5
6
7
8
9
10
M. Actual
7
8
10
12
13
13
14
14
15
16
M. Nuevo
6
9
7
11
10
11
15
12
13
12
Diferencia
1
-1
3
1
3
2
-1
2
2
4
¿Con los resultados de esta muestra y al 5% de significancia. ¿Cree usted que el fabricante cambiará el método de montaje del producto??
18. El inversionista desea comparar los riesgos asociados con dos diferentes mercados, A y B. El riesgo de un mercado dado se mide por la variación en los cambios diarios de precios. El inversionista piensa que el riesgo asociado con el mercado B es mayor que el del mercado A. Se obtienen muestras aleatorias de 31 cambios de precio diario de A y de 36 para el mercado B. Se obtienen los siguientes resultados. Medidas Estadísticas
Mercado A
Mercado B
Promedio muestral
0.3
0.4
Desviación muestral
0.25
0.45
a) Si se supone que las muestras provienen de dos poblaciones normales e independientes a un nivel de significancia del 5% ¿encuentre apoyo la creencia del inversionista? b) Si la varianza de A es la dada ¿cuál es el máximo valor de la varianza muestral de B con base en que no llevará el rechazo de la hipótesis nula del primer inciso?
19. Yahoo Internet Life patrocinó encuestas en varias áreas metropolitanas para estimar la proporción de adultos que usan internet en el trabajo (USA Today, 7 de Mayo 2007). En los resultados se encontró que 40% de los adultos de Washington, utilizan internet en el trabajo, en tanto que el 32 % de los adultos de San Francisco utilizan internet en el trabajo. Si las muestras son de 240 y 250, respectivamente, ¿los resultados muestrales indican que la proporción de adultos que usan internet en el trabajo en Washington es mayor que la proporción de San Francisco? Con α=0,05.
178
20. Un supervisor de calidad va a comparar las cantidades de artículos defectuosos que procesan dos líneas de producción A y B. El escogió dos muestras aleatorias independientes, una de 50 de A y la otra de 60 de B, observando 8 y 6 artículos defectuosos respectivamente. ¿Existe alguna evidencia que indique que una de las líneas produce una mayor proporción de artículos defectuosos?
En Ciencias de la Salud 1. El doctor Jeffrey M. Barrett de Lakeland, en el estado de Florida, Estados Unidos, reportó los datos correspondientes a 8 casos de prolapso del cordón umbilical Las edades de las madres eran de 25, 28, 17, 26, 27, 22, 25 y 30 años. Se pretende saber si es posible concluir que la media de la población de la que se supone fue extraída la muestra es mayor a 20 años. Sea α=01. 2. Se hizo un estudio de una muestra de 25 expedientes de enfermos crónicos atendidos como pacientes externos. El número medio de consultas por paciente fue de 4.8 y la desviación estándar de la muestra fue de 2. ¿Es posible concluir a partir de estos datos que la media de la población es mayor que cuatro visitas por paciente? Suponga que la probabilidad de cometer un error de tipo I es de .05. ¿Cuáles son los supuestos que se deben cumplir? 3. En una muestra de 49 adolescentes que se prestaron como sujetos para un estudio inmunológico, una variable de interés fue la prueba del' diámetro de reacción de la piel a un antígeno. La media de la muestra y la desviación estándar poblacional fueron eritema de 21 y 11 mm, respectivamente. ¿Es posible concluir a partir de estos datos que la media de la población es menor que 30? Sea α =0.05.
179
4. Nueve animales de laboratorio fueron infectados con cierta bacteria y luego inmunosuprimidos. El número medio de organismos aislados posteriormente de los tejidos de dichos animales fue de 6.5 (datos codificados) con una desviación estándar de 0.6 ¿Es posible concluir a partir de estos datos que la media de la población es mayor que 6? Sea α = 0.05. ¿Qué supuestos se deben cumplir? 5. Se desea saber si es posible concluir que el consumo medio diario de calorías de la población rural de un país en desarrollo es de menos de 2000. Una muestra de 500 individuos produjo un consumo medio de 1985. Se sabe que la
desviación
estándar poblacional es de 210. Sea α = 0.05. 6. Una encuesta de 100 hospitales de tamaño similar reveló un censo medio diario en el servicio de pediatría de 27 con una desviación estándar de 6.5. ¿Proporcionan estos datos suficiente evidencia para indicar que la media de la población es mayor que 25? Sea α =0.05. 7. Una muestra aleatoria de 20 profesores universitarios aparentemente sanos proporcionó los siguientes valores de capacidad respiratoria máxima. ¿Es posible concluir que la media máxima de respiración no es de 110 litros por minuto? 132, 33, 91, 108, 67, 169, 54, 203, 190, 133, 96,30, 187, 21,63, 166,84, 110, 157, 138 Sea α = 0.01. ¿Qué supuestos se deben cumplir? 8. En un estudio diseñado para comparar un nuevo tratamiento para la migraña con el tratamiento estándar, 78 de los 100 individuos que recibieron el tratamiento estándar, respondieron favorablemente; de los 100 individuos que recibieron el nuevo tratamiento, 90 de ellos respondieron satisfactoriamente. ¿Proporcionan estos datos evidencia suficiente que indique que el nuevo tratamiento es más efectivo que el estándar?
180
9. Para analizar la obesidad se obtuvieron los siguientes resultados a partir de una muestra de hombres y otra de mujeres, entre las edades de 20 a 75 años: SEXO
N
Personas con sobrepeso
MASCULINO 150 21 FEMENINO 200 48 ¿Es posible concluir a partir de estos datos que en las poblaciones muestreadas existe diferencia en las proporciones de individuos con sobrepeso?
10. Un investigador de enfermería desea saber si los graduados de los programas de enfermería a nivel bachillerato y los graduados de programas asociados de enfermería difieren en cuanto a las calificaciones medias obtenidas en un estudio de personalidad. Una muestra de 50 graduados de programas asociados (grupo A) y uña maestra de 60 graduados de bachillerato (grupo B) proporcionaron las siguientes medias y desviaciones estándar:
Muestra
Media
S
A
52.5
10.5
B
49.6
11.2
Con base en estos datos, ¿qué puede concluir e! investigador? Sea α = .05. 11. Una prueba diseñada para medir las actitudes de las madres en cuánto al trabajo de parto y el periodo de expulsión se aplicó a dos grupos de madres primerizas. La muestra 1 (asistentes) acudieron a clases de instrucción prenatal impartidas en el departamento de salud. La muestra 2 (ausentes) no asistieron a clases. El tamaño de las muestras, medias y desviaciones estándar de las calificaciones para las pruebas son las siguientes:
181
Muestra
n
Media
1
15
4.75
2
22
3.00
s 1.0 1.5
¿Proporcionan estos datos la evidencia suficiente para indicar que las asistentes, en promedio, tienen calificaciones más que las ausentes? Sea α= .05. 12. Varios investigadores desean saber si es posible concluir que dos poblaciones de niños difieren respecto a la edad promedio en la cual pueden caminar por sí solos. Los investigadores Obtuvieron los siguientes datos (edades en meses). Muestra de la población A: 9.5, 10.5, 9.0,-9:75,10.0, 13.0, 10.0, 13.5, 10.0, 9.5, 10.0, 9.75 Muestra de la población B: 12.5, 9.5, 13.5, 13.75, 12.0, 13.75, 12.5, 9.5, 12.0, 13.5, 12.0, 12.0 13. Babaian y Camps afirman que el antígeno específico prostático (A£P), encontrado en las células, ductales epiteliales de la próstata, es específico para el tejido prostático y es detectable en el suero de hombres con próstata normal y en hombres con enfermedades benignas ó malignas de esta glándula. Los investigadores determinaron los valores de AEP en una muestra de 124 hombres que se sometieron á una biopsia de la próstata. Sesenta y siete hombres tenían concentraciones elevadas de AEP (>4 ng/ml); de estos, a 46 se les diagnosticó cáncer. Diez de los 57 hombres con valores de AEP ≤ 4 ng/ml tenían cáncer. Con base en estos datos, ¿es posible concluir que, en general, los hombres con valores elevados de AEP tienen mayor probabilidad de tener cáncer de próstata? Sea α =0.01. 14. La mayoría de las personas que dejan de filmar, se quejan de que al hacerlo suben de peso. Hall y otros investigadores diseñaron una nueva técnica para prevenir que la gente suba de peso, la cual compararon contra otras condiciones que incluían una condición control de tratamiento estándar ideada para representar la atención estándar del sobrepeso inducido por dejar de fumar. Una de las hipótesis de los investigadores era que las tasas de abstinencia de tabaco serían mayores con la nueva técnica que las registradas en las otras dos condiciones. De 53 individuos asignados a la nueva condición, 11 dejaron de fumar al final de 52
182
semanas; diecinueve de los 54 individuos asignados a la condición de control se abstuvieron hasta el final del mismo periodo. ¿Ofrecen estos datos suficiente evidencia para apoyar, con un nivel de significación de 0.05, la hipótesis de los investigadores? 15. En un estudio para comparar los pesos promedios de niños y niñas de sexto grado en una escuela primaria se usará una muestra aleatoria de 20 niños y otra de 25 niñas. Se sabe que tanto para niños como para niñas los pesos siguen una distribución normal. El promedio de los pesos de todos los niños de sexto grado de esa escuela es de 100 libras y su desviación estándar es de 14.142 libras, mientras que el promedio de los pesos de todas las niñas de sexto grado de esa escuela es de 85 libras y su desviación estándar es de 12.247 libras. ¿El promedio de los pesos de los niños será más grande que el de las niñas?
En Ingeniería 1. Se sabe que la duración en horas, de un foco de 75 watts tiene una distribución aproximadamente normal, con una desviación estándar de 25 horas. Se toma una muestra aleatoria de 20 focos, la cual resulta tener una duración promedio de x = 1014 horas. ¿Se tiene evidencia estadística para decir que la duración promedio de todos los focos de 75 watts es de 51 horas? Pruebe con un nivel de significancia de 0.05.
2. Un ingeniero civil analiza la resistencia a la comprensión del concreto. La resistencia esta distribuida aproximadamente de manera normal, con una varianza = 1000(psi)2. Al tomar una muestra aleatoria de 12 especímenes, se tiene que x = 3250 psi. Pruebe Ho
183
3. Después del mantenimiento y la calibración, una máquina para extrusión produce tubos de aluminio con una media de diámetro exterior de 2.500 pulgadas y una desviación estándar de 0.027 pulgadas. Cuando la máquina funciona durante un gran número de tumos de trabajo. La desviación estándar no se altera, pero la combinación de desechos acumulados y el desgaste mecánico provoca que la media del diámetro "se aleje" de las 2.500 pulgadas deseadas. En una muestra aleatoria reciente de 34 tubos, la media del diámetro fue de 2.509 pulgadas. Con un nivel de significancia de 0.01, ¿La máquina parece requerir de mantenimiento y calibración? Determine e interprete el valor de p para la prueba. 4. Un fabricante de equipos electrónicos encontró que
media del tiempo que
necesitan los novatos para armar su nuevo probador de circuitos es de 3 horas, con una desviación estándar de 0.20 horas. Un consultor desarrolló un nuevo instructivo con el fin de reducir el tiempo que necesita un armador inexperto para montar el dispositivo. En una prueba sobre la eficacia del nuevo instructivo, 15 novatos requirieron una media de 2.90 horas para completar el trabajo. Suponiendo que la población de tiempos tiene una distribución normal, y utilizando un nivel de significancia de 0.05. ¿debemos concluir que el nuevo folleto es eficaz? Determine e interprete el valor de p para la prueba. 5. En un estudio hecho para determinar el tiempo medio necesario para el montaje de cierta pieza de una maquina, 40 trabajadores hicieron un promedio de 42.5 minutos con una desviación típica de 3.8 minutos: ¿Los datos arrojan evidencia para decir que el tiempo promedio de montaje de cierta pieza es mayor de 44 minutos? Utilice = .02.
6. Se encuentra que la concentración promedio de zinc que se saca del agua a partir de un muestra de mediciones de zinc en 36 sitios diferentes es de 2.6 gramos por mililitro. Suponga que la desviación estándar de la población es 0.3. ¿Existe suficiente evidencia estadística para decir que la concentración promedio de zinc es menor de 2.9 gramos por mililitro? Utilice = .05.
184
7. Se encuentra que la concentración promedio de zinc que se saca del agua a partir de un muestra de mediciones de zinc en 36 sitios diferentes es de 2.6 gramos por mililitro. Suponga que la desviación estándar de la población es 0.3. ¿Existe suficiente evidencia estadística para decir que la concentración promedio de zinc es menor de 2.9 gramos por mililitro? Utilice = .02. 8. En un experimento de laboratorio 50 estudiantes de ingeniería midieron por separado el calor especifico del aluminio, obteniendo una media de 0.2210 calorías por grados centígrado y por gramo y una desviación estándar de .0240 ¿Los datos arrojan evidencia suficiente para decir Ho : = .2300? .Utilice un nivel de significancia de 0.05. 9. Una muestra aleatoria simple de 50 artículos originó una media de muestra de 32 y una desviación estándar muestral de 6. Con un nivel de significancia 0.10 Podemos decir que la media de la población es 34?. 10. Una compañía controla su proceso de producción en tal forma, que se pone en bolsitas un promedio de 20 grs. de un producto químico. El proceso se detendrá cuando el promedio no es de 20 grs. Se tomó una -muestra; aleatoria de 16 observaciones y el promedio muestra! resultó ser 19 grs. ¿Debe pararse el proceso y ajustarse? La desviación estándar poblacional es dé 2 grs. Y el nivel de significancia escogido es de 5%. 11. Un fabricante requiere fibra de algodón con una resistencia, media a la tensión de 6,50 onzas y o = 0.25. Investigó un nuevo lote de fibras mediante una muestra de 16 piezas y encontró x = 6,65 onzas. Existe evidencia de que este lote es de resistencia mayor a la requerida? 12. Las cajas de avena llenadas por un proceso automático deben -tener un contenido de 160 gramos en promedio. Si no es así debe detenerse la producción para regular la máquina. Para el control se obtuvo el peso en gramos Xi de 10 cajas seleccionadas al azar de esa producción y resultaron las siguientes sumas: Ʃxi =
185
1580, Ʃxi2 = 249658; al nivel de significancia de 0.01 ¿es razonable detener la producción? 13. Una compañía afirma que la resistencia a la rotura de sus maletas plásticas es de un promedio mayor a las 300 lluras. Se toma una muestra aleatoria de 9 maletines se encuentra que el promedio de resistencia a la-rotura es: 280, 290, 292, 300,305, 295, 290, 310, 305. Verificar la afirmación de la compañía. Suponga que sus resistencias a la rotura están normalmente distribuidas α=0.05
14. La empresa productora de cereales embasados para consumo directo " ENERGÍA" a lanzado al mercado su nuevo producto "CRECIENDO FUERTE el cual tiene como especificaciones un peso promedio neto de 1 kilogramo. Si un agente del gobierno toma una muestra representativa de 8 unidades y los pesos netos fueron los siguientes: 0.995, 0.974, 0.966, 0.9.35, 0.999, 1.06, 1.01 y 0.983 kilogramos. Con una significación del 5% ¿Podría el agente ordenar se multe a la empresa productora? 15. El productor de cierta marca de baterías para .cámara, fotográfica dice que su producción tiene vida media de más de 750. minutos. Se- prueban 20 baterías elegidas al azar y sé suministraron los siguientes resultados: 720, 759, 723, 740, 754, 725, 790, 719, 775, 700, 745, 750, 753, 730, 780, 710, 775, 728, 702, 752 Suponiendo normalidad, con estos datos podríamos contrastar lo que dice el productor, con un nivel de confianza, del 99%?
16. Una muestra aleatoria de 100 propietarios de automóvil en la ciudad de Bogotá indica que los automóviles recorren anualmente en promedio 25 000 kilómetros con una desviación estándar de 4000 kilómetros. ¿Los datos arrojan evidencia suficiente para decir que el verdadero recorrido promedio anual es mayor de 27000
186
kilómetros? ¿Existe suficiente evidencia estadística para decir que la concentración promedio de zinc es menor de 2.9 gramos por mililitro? 17. Una máquina produce piezas metálicas de forma cilíndrica. Se toma una muestra de piezas cuyos diámetros son 1.01, 0.97, 1.03, 1.04, 0.99, 0.98, 0.99, 1.01, 1.03 centímetros. Con un nivel de significancia de .01. ¿Pruebe la hipótesis de que el diámetro promedio de piezas de esta máquina es de 1.009? 18. Una muestra aleatoria de 8 cigarrillos de una marca determinada tiene un contenido promedio de nicotina de 2.6 miligramos y una desviación estándar de 0.9 miligramos. ¿Existe suficiente evidencia estadística para decir que el contenido promedio real de nicotina de esta marca de cigarros en particular es de 2.4 miligramos? Con = .05. 19. Se toma una muestra aleatoria de 12 agujas de tejer en un estudio de la dureza Rockwell de la cabeza de las agujas. Se realizan las mediciones de la dureza para cada una de las 12 piezas, de lo que se obtiene un valor promedio 48.50 con una desviación estándar de 1.5. Suponiendo que las mediciones están normalmente distribuidas, pruebe la hipótesis de que la dureza Rockwell promedio es menor 48.705. Con
= .05.
16. Un contratista ha construido un gran número de casas aproximadamente del mismo tamaño y del mismo precio. El contratista afirma que el valor promedio de estas casas no excede de $35,000 dólares. Un corredor de bienes raíces selecciona aleatoriamente 5 de las casas construidas recientemente por
el
contratista y averigua los precios que resultan ser: $34,500, $37,000, $36,000, $35,000 y $35,500. ¿Contradicen
estas cinco observaciones la afirmación del
contratista acerca del valor promedio de sus casas?. Use
=0.05
20. Según los datos obtenidos en una encuesta del CIS sobre política internacional, realizada en febrero de 2002, el 52% de los 1202 hombres entrevistados, manifestaba prestar “bastante” atención a las noticias sobre cuestiones y acontecimientos sucedidos en otros países, mientras que entre las 1285 mujeres
187
entrevistadas, ese porcentaje era del 50% . ¿Puede decirse, con un nivel de confianza del 95% , que existen diferencias significativas entre las proporciones de hombres y mujeres “bastante” atentos a ese tipo de noticias? ¿Y si contrastamos la hipótesis aplicando un nivel de significación de 0,01? 21. Previo a una elección la senadora X contrata los servicios de la compañía Y para fijar la contienda establecida con los electores. Ella percibe con respecto a este punto que si tiene el 45% de los votos será nominada de cuerdo con su estrategia de campaña. Suponiendo que la compañía contratada selecciona una
muestra aleatoria simple de 1600 electores
registrados.
¿Cuál es
la
probabilidad de que la muestra pueda produc ir una proporción de 45% más dado que la verdadera proporción es del 40%? 22. Sea X1 la duración de un filamento de wolframio en espiral simple, y X2 la duración usando espiral doble.Se toma una muestra de tamaño 200 de ambos tipos de filamentos teniéndose unas duraciones medias de x1 = 1100 horas, y ¯ x2 = 1108 horas. Las varianzas de las duraciones de cada tipo de filamento son σ2(1) = (20 horas)2 y σ2(2) = (23 horas). ¿Hay diferencias significativas entre ambos tipos de filamento? 23. Se quiere elegir entre dos tipos de material textil para construir sistemas de amarre. Para ello se mide la tensión de rotura de varias cintas de prueba utilizando dos tipos de material. Se toman 24 datos usando el material M1, obteniéndose ¯ x1 = 87 (kg/mm2) y ˆ s1 = 2. Se toman además 30 datos usando el material M2, obteniéndose ¯ x2 = 75 y ˆ s2 = 2.3. Se sabe que las tensiones de rotura se distribuyen como una Normal. Se supondrá, además, que las varianzas de ambas poblaciones son iguales. Contrasta, con un nivel de significación del 1%, que el material M1 tiene mayor resistencia media que el M2. 21. Un nuevo programa de cómputo que se ha desarrollado para ayudar a los analistas de sistemas a reducir el tiempo requerido para diseñar, desarrollar e implementar un sistema de información. Para evaluar las ventajas del nuevo
188
programa se selecciona una muestra aleatoria de 24 analistas de sistemas. A cada analista se le proporcionan especificaciones para un sistema hipotético de información, y a los 12 de ellos se les pide producir el sistema usando la tecnología (los programas) actual. A los otros 12 se les capacita primero en el uso del nuevo paquete y, a continuación, se les pide usarlo para producir el sistema de información. Tiempos de terminación y estadísticos del Estudio de Prueba del Programa. Resultados. Diciembre 2008. Tecnología Actual Nuevo Programa de Cómputo 300 276 280 222 344 310 385 338 372 200 360 302 288 317 321 260 376 320 290 312 301 334 283 265 12 12 325 288 40 44 Fuente: Escuela de Informática de UNMSM.
En Ciencias Sociales 1. Una muestra aleatoria de 12 alumnas graduadas de una escuela secretarial mecanografió un promedio de 79.3 palabras por minuto con una desviación estándar de 7.8 palabras por minuto. ¿Se tiene evidencia estadística para decir que el número promedio de palabras mecanografiadas por todas las graduadas de esa escuela es menor de 80 con =0.01.
189
2. Los siguientes datos corresponden a los pesos en Kg de 15 hombres escogidos al azar: 72, 68, 63, 75, 84, 91, 66, 75, 86, 90, 62, 87, 77, 70, 69. Pruebe la Ho 74 con un nivel de significancia de .05.
3. Se obtiene una muestra de 16 estudiantes con una
X 68 y una varianza de
S2 = 9 en un examen de estadística. Hay evidencia suficiente que apoye que la media poblacional de las calificaciones de estadística es mayor de 70 con
=
0.02.
4. Un distribuidor de libros plantea la hipótesis de que las ventas por mes promedian S/.12, 000. Diez meses seleccionados como muestra reportan una media de S/. 11,277 y una desviación estándar de S/. 3,772. Sí se utiliza un valor del 5%. ¿Qué puede concluir acerca de la impresión que tiene el distribuidor sobre las condiciones del negocio? ¿Cuál es el supuesto que se debe cumplir?
5. Una encuesta a 64 empleados profesionales de una institución correccional reveló que el tiempo promedio de empleo en el campo correccional era de 5 años: Se sabe que la desviación estándar de la población es de 4 años. ¿Sirven estos datos de soporte a la hipótesis de que el tiempo promedio de empleo de todos los empleados de este tipo está por debajo de los 6 años? Usar α = 0.05
6. Se considera que el peso promedio de los profesores de un centro educativo se distribuye normalmente con una media de 160 libras y la desviación estándar de 20 libras. En una muestra aleatoria de 55 profesores, la media resulto ser de 150 libras. Probar la hipótesis nula contra la hipótesis alternativa de que el peso promedio de los profesores más recientes del centro educativo es diferente de 160 libras para α = 0.02.
7. La estatura media de 50 estudiantes de un colegio que tomaban parte en las pruebas atléticas fue de 68.2 pulgadas con desviación estándar de 2.5 pulgadas, mientras que 50 estudiantes que no mostraban interés en tal participación tenían una estatura media de 67.5 pulgadas con desviación estándar de 2.8 pulgadas.
190
Ensayar la hipótesis de que los estudiantes que participan en las pruebas atléticas son más altos que los otros. Ensaye la hipótesis al 5%.
8.
Se ha afirmado que por lo menos el 60 % de los alumnos de primero y segundo semestre de un Tecnológico prefieren estudiar a partir de las dos de la madrugada. Si 4 de una muestra de alumnos de primero y segundo semestre de n =14 tomadas al azar, afirman estudiar a partir de las dos de la madrugada, pruebe con un nivel de significancia del 5 % si se debe aceptar la hipótesis nula p≥0.60 contra la hipótesis alternativa p<0.60.
9. Una muestra aleatoria de 10 estudiantes se someten a una prueba de cálculo, y reciben las calificaciones (X). Después se efectúa una sesión de repaso de álgebra y se repite el mismo examen (Y). A un nivel de significancia de 0.05 ¿las calificaciones son mejores en el segundo examen?
Estudiantes
1 2 3 4 5 6 7 8 9 10
191
Examen 1 (X) 80 50 78 90 75 70 62 90 95 68
Examen 2 (Y) 84 56 81 92 76 75 72 87 93 72
10. Una muestra aleatoria de 8 estudiantes se someten a una prueba de estadística, y reciben las calificaciones (X). Después se efectúa una sesión de repaso de Estadística y se repite el mismo examen (Y). A un nivel de significancia de 0.01 ¿las calificaciones son menores en el segundo examen?
Estudiantes 1 2 3 4 5 6 7 8
(X) 90 85 75 78 95 95 60 83
(Y) 82 95 79 81 88 91 50 81
11. Un epidemiólogo desea comparar dos vacunas. Las personas que previamente había recibido dichas vacunas se dividieron en dos grupos. El grupo una recibió una dosis de refuerzo de la vacuna tipo 2. Las respuestas de los anticuerpos se registraron dos semanas después. Las medias, desviaciones estándar y tamaño de las muestras para los dos grupos fueron los siguientes:
Grupo 1 2
Muestra 30 49
Media 4.5 2.5
D. Estándar 2.5 2.0
Ho: µ1 = µ2 Ha: µ1 µ2 El nivel de significancia es de = 0.01
12. Elegimos aleatoriamente 23 alumnos de Psicología y 25 de Pedagogía de la Universidad de Sevilla, con el fin de comparar el rendimiento alcanzado en la asignatura Análisis de Datos. Las medias de ambos grupos son 74 y 79
192
respectivamente, y sabemos que las varianzas valen 2.9 para la población de alumnos de Psicología y 4.2 para la población de alumnos de Pedagogía. ¿Podemos afirmar que existen diferencias entre las medias alcanzadas por ambos grupos? Realiza el proceso completo de decisión estadística tomando un nivel de significación igual a 0.05 (alfa).
13. Se aplica un examen a dos grupos de estudiantes de 144 niños cada uno. El grupo A que está cerca de una fábrica tuvo una puntuación promedio de 88 con una varianza de 27 puntos, el grupo B que está lejos de la fábrica tuvo una puntuación de 90 con una varianza de 24 puntos ¿Hay diferencia significativa en el rendimiento promedio de los dos grupos a un nivel de significancia del 5%?.
14. Como parte de un estudio para evaluar las diferencias en los niveles educativos en 2 centros de capacitación, se aplicó un examen común que personas que asisten a cada centro. Las calificaciones del examen son uno de los factores principales para evaluar diferencias de calidad entre los centros. Resultados de las Calificaciones en el examen en los Centros de adiestramiento. Marzo 2009. Centro de Adiestramiento A
Centro de Adiestramiento B
n1 = 30
n2 = 40
̅̅̅ 𝑋1 = 82,5
̅̅̅ 𝑋2 = 78
𝑆1 = 8
𝑆2 = 10
Fuente: Resumen Estadístico de los Centros de adiestramiento. A la luz de estos resultados: a) ¿Cuál de los centros de adiestramiento brinda un mejor nivel educativo? Use un nivel de significancia del 1%.
193
b) Si los tamaños de muestra reales hubieran sido de 10 y 15 para los centros de adiestramiento A y B, respectivamente, realice la prueba de hipótesis adecuada. c) ¿Los resultados obtenidos en la parte (b) son similares a los de la parte (a)?
REFERENCIAS BIBLIOGRÁFICAS
1.
Daniel Wayne; 1987, Bioestadística – Base para el Análisis de las Ciencias de la Salud, Edit Limusa S.A. – México; (Págs. 155 a 159).
2.
Freund J. y Manning R.; 1989, Estadística 4ta edición, Edit. Prentice Hall Hispamericana S.A. – México ;(Págs. 342 a 363).
3.
Miller I. y Freund J.; 1992, Probabilidad y Estadística para Ingenieros, Edit. Prentice – Hall Hispanoamericana S.A. – México (Págs. 220 a 232).
4.
Mills Richard; 1990, Estadística para Economía y Administración, Edit. Mc Graw Hill – Bogotá, Colombia (Págs. 221 a 247).
5.
Mason, , Robert y col., 2000; Estadística para Administración y Economía, Editorial Alfaomega – México (Págs. 358 a 359)
6.
Moya R. y Saravia G.; 1983, Teoría de Probabilidades e Inferencia Estadística, Edit. San Marcos – Lima – Perú; (Págs. 637 a 662 y 682 a 692).
7.
Ostle Bernard; 1985, Estadística Aplicada, Edit. Limusa – Wiley S.A. – México, (Págs. 131 a 138 y 140 a 142).
194
Sesión 14 Prueba de hipótesis sobre relación entre variables cualitativas: Chi-Cuadrado CAPACIDADES 10. Aplicar la prueba Chi Cuadrada en los trabajos de aplicación de su especialidad 11. Realizar una prueba de hipótesis que compare un conjunto observado de frecuencias
versus una distribución esperada 12. Realizar una prueba de hipótesis para determinar si hay alguna relación de
dependencia o independencia entre dos criterios de clasificación
ACTITUDES 11. Valora el uso de la Chi cuadrada para probar independencia de criterios 12. Valora el uso de la Chi cuadrada como una prueba para ajustar un conjunto de datos a
una distribución estadística
CONTENIDO
195
Uso de la Ji Cuadrado. Prueba de bondad de ajuste. Prueba de independencia.
INTRODUCCION
En numerosas ocasiones, se necesita analizar la relación de dependencia o independencia entre dos variables de tipo cualitativo o categórico.
A estas variables también se les denomina factores, mientras que a las distintas categorías de la variable se les suele denominar niveles.
Existen diferentes pruebas para medir la dependencia entre dos variables cualitativas, entre ellas la prueba ji-cuadrado en sus diferentes versiones.
PRUEBA JI-CUADRADO (X2) La prueba χ² de Pearson es considerada como una prueba no paramétrica que mide la discrepancia entre una distribución observada y otra teórica (bondad de ajuste), indicando en qué medida las diferencias existentes entre ambas se deben al azar en la prueba de hipótesis. También se utiliza para probar la independencia de dos variables entre sí, en una tabla de contingencia. La fórmula que da el estadístico es la siguiente:
Cuanto mayor sea el valor de χ2, menos verosímil es que la hipótesis sea correcta. De la misma forma, cuanto más se aproxima a cero el valor de chi-cuadrado, más ajustadas están ambas distribuciones. Los grados de libertad gl vienen dados por :
196
gl= (r-1)(k-1). Donde r es el número de filas y k el de columnas.
La prueba ji-cuadrado de Pearson (X2) es una de las pruebas más utilizadas.
También podremos encontrarla bajo el nombre de “chi-cuadrado”, siendo su origen la traducción al castellano del término inglés “chi-squared”.
Se aplica principalmente para estudiar la asociación entre dos variables categóricas o cualitativas y para comparar proporciones o porcentajes.
Esta prueba no mide el grado o la fuerza de la asociación entre dos variables categóricas, para ello ya existen medidas como la odds ratio o el riesgo relativo, adecuadas para estos fines.
Su uso no está restringido únicamente para variables dicotómicas. Si alguna de las dos variables es de naturaleza ordinal, se debe aplicar la prueba ji-cuadrado de tendencia lineal como veremos más adelante.
La prueba X2 puede aplicarse con una sola variable para comparar valores observados respecto a esperados, aunque su uso más frecuente es para comparar dos proporciones.
Una de sus limitaciones es que requiere un tamaño muestral suficientemente grande y aunque su cálculo es sencillo, no lo es tanto el entender su procedencia y su interpretación.
Simplemente diremos que los valores que toma el estadístico ji-cuadrado con un grado de libertad corresponden a los obtenidos a una distribución normal estandar
197
elevados al cuadrado, y que por tanto la prueba ji-cuadrado solo tiene una cola tomando únicamente valores positivos.
Ejemplo Supongamos que realizamos un estudio en 45 pacientes en el que deseamos estudiar la relación entre el hábito tabáquico y EPOC diagnosticado mediante espirometría obteniendo los resultados de la Tabla I. Podemos ver que 15 pacientes de 25 (60%) tenían EPOC dentro del grupo de fumadores, mientras que tan solo 5 de 20 (25%) presentaron EPOC en el grupo de no fumadores. Desde un punto de vista clínico las diferencias son importantes, pero ¿lo serán desde un punto de vista estadístico? Fumador EPOC
No
Sí
Total
No
15 (75%)
10 (40%)
25 (55,6%)
Sí
5 (25%)
15 (60%)
20 (44,4%)
Total
20 (100%)
25 (100%) 45 (100%)
Tabla I. Relación entre EPOC y hábito tabáquico. Frecuencias observadas y porcentajes de columna.
Hipótesis Nula (Ho): La proporción de pacientes con EPOC es la misma en el grupo de fumadores que en el de no fumadores. Hipótesis alternativa (Ha): Las proporciones son distintas.
Si la proporción es distinta, tenemos en cuenta las dos posibilidades que existen: que la proporción de pacientes con EPOC sea más alta o más baja en los fumadores, por lo tanto la prueba es bilateral o también denominada de “dos colas”. Entonces tenemos:
198
Ho :
𝑃𝑓𝑢𝑚𝑎𝑑𝑜𝑟𝑒𝑠 = 𝑃𝑛𝑜 𝑓𝑢𝑚𝑎𝑑𝑜𝑟𝑒𝑠
Ha: 𝑃𝑓𝑢𝑚𝑎𝑑𝑜𝑟𝑒𝑠
≠ 𝑃𝑛𝑜 𝑓𝑢𝑚𝑎𝑑𝑜𝑟𝑒𝑠
Si al calcular el valor X2, que es la diferencia entre lo observado y lo esperado, sobrepasamos cierto valor crítico, diremos que las diferencias encontradas son demasiado grandes como para poder ser explicadas por el azar. Si en nuestro estudio tenemos 20 pacientes con EPOC de 45 personas (44%), para que la hipótesis nula fuese cierta, tendríamos que tener la misma proporción de pacientes con EPOC en los fumadores y en los no fumadores. Es decir, de los 25 fumadores, esperamos tener (25*20)/45, que serían 11 fumadores aproximadamente. De este modo obtendríamos las frecuencias esperadas para el resto de las 3 celdas (Tabla II). Una vez conocidas las frecuencias esperadas, sólo nos queda calcular el valor de la expresión X2 que es una simple suma de unas diferencias al cuadrado:
Fumador EPOC
No
Sí
Total
No
11,1 (55,6%)
13,9 (55,6%)
25 (55,6%)
Sí
8,9 (44,4%)
11,1 (44,4%)
20 (44,4%)
Total
20
25
45
X2 = 5.51
Si miramos en las tablas de la distribución ji-cuadrado para un grado de libertad, podemos ver que la significación estadística p<=0,05, se alcanza para aquellos valores de X2 iguales o superiores a 3,84. Como el valor obtenido en nuestro estudio; 5,51 es mayor al valor crítico de 3,84, podemos rechazar la hipótesis nula (H0) y afirmar que las diferencias encontradas difícilmente pueden ser explicadas por el azar, siendo mayor la proporción de pacientes con EPOC en los fumadores (p<0,05).
199
PRUEBA DE INDEPENDENCIA: JI-CUADRADA EJERCICIOS
1. Estamos interesados en estudiar la relación entre cierta enfermedad y la adicción al tabaco. Para tal fin, seleccionamos una muestra de 150 individuos, 100 individuos no fumadores y 50 fumadores. La siguiente tabla muestra las frecuencias de enfermedad en cada grupo: Padecen la
No padecen la
enfermedad
enfermedad
Sí
12
88
No
25
25
Fumadores
Total
Total Emplee un nivel de confianza del 95%.
2. Estamos interesados en estudiar la fiabilidad de cierto componente informático con relación al distribuidor que nos lo suministra. Para realizar esto, tomamos una muestra de 100 componentes de cada uno de los 3 distribuidores que nos sirven el producto comprobando el número de defectuosos en cada lote. La siguiente tabla muestra el número de defectuosos para cada uno de los distribuidores. Distribuidor
200
Componentes
Componentes
defectuosos
correctos
1
16
94
2
24
76
Total
3
9
81
Total Determine si existe relación entre la cantidad de componentes defectuosos y el distribuidor que los suministra, con un α = 0,01.
3. Para estudiar la dependencia entre la práctica de algún deporte y la depresión, se seleccionó una muestra aleatoria simple de 100 jóvenes, con los siguientes resultados: Deportista
Sin depresión
Con depresión
Sí
38
9
No
31
22
Total
Total Determinar si existe independencia entre la actividad del sujeto y su estado de ánimo. Nivel de significación (5%).
4. Un estudio que se realizó con 81 personas referente a la relación entre la cantidad de violencia vista en la televisión y la edad del televidente produjo los siguientes resultados. Nivel de
16-34
35-55
56 a más
Alta
8
12
21
Baja
18
15
7
Violencia
Total
Total ¿Indican los datos que ver violencia en la televisión depende de la edad del televidente, a un nivel de significación del 1%?
5. Supongamos que se quiere estudiar la posible asociación entre el hecho de que una gestante fume durante el embarazo y que el niño presente bajo peso al nacer. Por lo
201
tanto, se trata de ver si la probabilidad de tener bajo peso es diferente en gestantes que fuman comparado con aquellas que no lo hacen. Para responder a esta pregunta se realiza un estudio de seguimiento en 2000 gestantes, a las que se interroga sobre su hábito tabáquico durante la gestación y se determina además el peso del recién nacido. Los resultados se muestran a continuación: Gestante
Bajo Peso en el Recién Nacido Sí
No
Fumadora
43
207
No Fumadora
105
1645
Total
Total Realice la prueba Ji-Cuadrada de independencia para determinar la existencia de relación o no, use un α = 0,10.
6. En un estudio para determinar si existe relación entre el sexo y el propósito de elegir una carrera técnica se entrevistaron a 120 aspirantes a la universidad. Los resultados se observan en la siguiente tabla de contingencia: Género
Aspira a Carrera Técnica Sí
No
Masculino
40
30
Femenino
10
40
Total
Total ¿Existe relación entre las 2 variables presentadas? α = 0,05.
7. En la frontera de una provincia del sur se revisaron cargamentos de frutas de distinta procedencia para evaluar la posibilidad de introducción de mosca de las frutas (Ceratitis Capitata), una plaga de los frutales, en áreas no infestadas. La información de cargamentos con presencia de la plaga se resume en la siguiente tabla: Presencia de la Plaga
202
Región de Procedencia del Cargamento Total Norte
Centro
Selva
Sí
22
32
33
No
67
5
10
Total Con un nivel de significancia del 1%, ¿existe alguna dependencia entre la región de procedencia y la presencia de la plaga?
8. Un grupo de investigadores, al estudiar la relación entre el tipo sanguíneo y la severidad de una afección en la población, reunió los datos de 1500 personas, los cuales se presentan en la tabla de contingencia adjunta. Los investigadores desean saber si estos datos son compatibles con la hipótesis de que el grado de la afección y el tipo sanguíneo son independientes. Tipo de Sangre
Severidad de la Condición
A
B
AB
O
Ausente
543
211
90
476
Moderada
44
22
8
31
Severa
28
9
7
31
Total
Total
Use los resultados adjuntos para entregar una conclusión a los investigadores con un nivel de significación del 5%.
9. Los niños de una escuela primaria fueron clasificados en forma cruzada de acuerdo con el grupo socioeconómico al que pertenecen y la presencia o ausencia de cierto defecto en el lenguaje. Los resultados fueron los siguientes: Grupo Socioeconómico
Defecto del
203
Lenguaje
Alto
Presente
8
Ausente
42
Medio
Medio Bajo
Bajo
24
32
27
121
138
108
Alto
Total
Total
¿Son compatibles estos datos con la hipótesis de que el defecto en el lenguaje está relacionado con el grupo socioeconómico? Nivel de significación del 2,5%.
10. Una muestra de 500 estudiantes ingresantes a una universidad participó en un estudio diseñado para evaluar el grado de conocimientos en matemáticas. La siguiente tabla muestra los estudiantes clasificados según su formación secundaria (escuelas técnicas, bachiller y otras) y el nivel de conocimientos en matemáticas (bueno=aprobó el examen; deficiente=no aprobó el examen): Escuela
Nivel de Conocimientos en
Total
Matemáticas Bueno
Deficiente
Técnicas
20
60
Bachiller
15
150
Otras
25
230
Total
¿Confirman estos datos que la aptitud en matemáticas depende de la orientación de los estudios secundarios? Nivel de significación del 1%.
11. Una medicación nueva para tratar cierta enfermedad de vacunos se comparó con la medicación de mayor uso. Para esto se tomó al azar un grupo de 300 animales que padecían la enfermedad; a la mitad de éstos, tomados al azar, se los trató con la nueva medicación y a los otros 150, con la medicación tradicional. Luego de un tiempo se analizaron nuevamente los animales con el siguiente resultado:
Tratamiento Nuevo
204
Resultado del Tratamiento Empeoró
Sin Efecto
Mejoró
16
30
104
Total
Tradicional
20
42
88
Total ¿Considera que estos medicamentos se comportan de manera similar? Nivel de significación del 10%.
12. A un grupo de 350 adultos que participaron en una escuela de salud, se les preguntó si llevaban o no una dieta. Las respuestas (por género) son las siguientes: Género
¿Sigue una dieta? Sí
No
Masculino
14
159
Femenino
25
152
Total
Total ¿Sugieren estos datos que el estar a dieta depende del sexo? Sea α=0,05
205