reunir a un numeroso equipo de encuestadores, quizá no valdría la pena entrar en contacto con todos los votantes.
CAPITULO 8 Métodos de muestreo y teorema del límite central
2. El costo de estudiar todos los elementos de una población resultaría prohibitivo. Las organizaciones que realizan encuestas de opinión pública y pruebas entre consumidores, normalmente entran en contacto con menos de 2000 de las casi todas las familias en el Perú. Una organización que entrevista a consumidores en panel cobra cerca de s/. 40 000 por enviar muestras por correo y tabular las respuestas con el fin de probar un producto (como un cereal para el desayuno, alimento para perro o algún perfume). La misma prueba del producto con toda las familias del país tendría un costo de aproximadamente s/. 1000 000 000.
Introducción
Este capítulo inicia el estudio del muestreo, herramienta para inferir algo sobre una población. Primero se analizan los métodos para selecciona una muestra de una población. Después se construye una distribución de la media de la muestra para entender la forma como las medias muestrales tienden a acumularse en torno a la media de la población. p oblación. Por último, se demuestra que, para cualquier población, la forma de esta distribución de muestreo tiende a seguir la distribución de probabilidad normal.
3. Es imposible verificar de una manera física todos los elementos de la población. Algunas población. Algunas poblaciones son infinitas. Sería imposible verificar toda el agua de la laguna de Quistococha en lo que se refiere a niveles de bacterias, así que se eligen muestras de diversos lugares. Las poblaciones de peces, aves, serpientes o mosquitos son grandes, y se desplazan, nacen y mueren continuamente. En lugar de intentar contar todos los animales existentes en Alpahuayo Mishana, se hacen aproximaciones mediante diversas técnicas: se cuentan los animales capturados al azar en diversos sitios de la reserva, se revisan las trampas o las redes colocadas por los trabajadores encargados del cuidado de la reserva.
Métodos de Muestreo
Una muestra es una porción o parte de la población en interés. En muchos casos, el muestreo resulta más accesible que el estudio de toda la población.
Razones para muestrear. Cuando se estudian las características de una población, existen diversas razones prácticas para preferir la selección de porciones o muestras de una población para observar y medir. He aquí algunas razones para muestrear: muestrear:
4. Algunas pruebas son de naturaleza destructivas. Si los especialistas en pisco del Perú, se bebieran todo el pisco para evaluar la producción, se acabarían con el producto y no quedaría nada para la venta. En el área de producción industrial: las placas de acero, cables y productos similares deben contar con una resistencia mínima de tensión. Para cerciorarse de que el producto satisface la norma mínima, el departamento de control de calidad elige una muestra de la producción actual. Cada pieza se somete a tensión hasta que se rompe y se registra el punto de ruptura. Es obvio que si se sometieran todos los cables o todas las placas a pruebas de
1. Establecer contacto con toda la población requeriría mucho tiempo. Un candidato a la presidencia del Perú quizá desee determinar las posibilidades que tiene de resultar electo. Una encuesta de muestreo en la que se utiliza la población del país y las encuestas de campo convencionales de una empresa especializada en encuestas tardaría de uno a dos días. Con la misma población y los mismos entrevistadores, y laborando siete días a la semana, se requerirían 200 años para ponerse en contacto con toda la población de edad a votar. Aunque fuera posible -1-
resistencia a la tensión no habría productos disponibles para vender o utilizar.
Junio 1 2 3 4 5 6 7 8 9 10
5. Los resultados de la muestra son adecuados. Aunque se contara con recursos suficientes, es difícil que la precisión de una muestra de 100% toda la población- resulte esencial en la mayoría de los problemas. Por ejemplo, el estado utiliza una muestra de tiendas de comestibles distribuidas en todo el país para determinar el índice mensual de precios de los alimentos. Los precios del pan, frejol, leche y otros productos de primera necesidad se incluyen en el índice. Resulta poco probable que la inclusión de todas las tiendas existentes en todo el país influya significativamente en el índice, pues los precios de la leche, pan y otros productos de primera necesidad no varían más de unos cuantos céntimos de una cadena de tiendas o otra.
Habitaciones en alquiler 0 2 3 2 3 4 2 3 4 7
Junio 11 12 13 14 15 16 17 18 19 20
Habitaciones en alquiler 3 4 4 4 7 0 5 3 6 2
Junio 21 22 23 24 25 26 27 28 29 30
Habitaciones en alquiler 3 2 3 6 0 4 1 1 3 3
Excel seleccionará la muestra aleatoria y arrojará los resultados. En la primera fecha muestreada había cuatro habitaciones alquiladas de las ocho. En la segunda fecha muestreada de junio, se alquilaron siete de las ocho habitaciones. La información aparece en la columna D de la hoja de cálculo de Excel. El sistema Excel lleva a cabo el muestreo con reemplazo. Esto significa que tal vez el mismo día aparezca más de una vez en una muestra.
Muestreo Aleatorio Simple. El tipo de muestreo más común es el muestreo aleatori aleatori o simple. MUESTREO ALEATORIO SIMPLE. Muestra seleccionada de manera que cada elemento o individuo de la población tenga las mismas posibilidades de que que se le incluya.
Au toevalu toevalu ación 8.1 La siguiente lista incluye a los estudiantes que se matricularon en u n curso de introducción a la estadística administrativa. Se elige al azar a tres estudiantes q quienes se formulan varias preguntas relacionadas con el contenido del curso y el método de enseñanza. a) Se escriben a mano los números 00 a 45 en papelitos y se colocan en un recipiente. Los tres números seleccionados son 31, 7 y 25. ¿Qué estudiantes se van a incluir en la muestra? b) Ahora utilice la tabla de dígitos aleatorios, para seleccionar su propia muestra. c) ¿Qué haría si localizara el número 59 en la tabla?
Ejemplo: Ana y Roberto Cárdenas administran “La Pascana”, una pensión donde dan alojamiento y desayuno a los turistas, localizada en la ciudad de Iquitos. Se alquilan 8 habitaciones en esta pensión. A continuación aparece el número de estas ocho habitaciones alquiladas diariamente durante junio del 2009. Utilice Excel para seleccionar una muestra de cinco noches de junio.
-2-
resistencia a la tensión no habría productos disponibles para vender o utilizar.
Junio 1 2 3 4 5 6 7 8 9 10
5. Los resultados de la muestra son adecuados. Aunque se contara con recursos suficientes, es difícil que la precisión de una muestra de 100% toda la población- resulte esencial en la mayoría de los problemas. Por ejemplo, el estado utiliza una muestra de tiendas de comestibles distribuidas en todo el país para determinar el índice mensual de precios de los alimentos. Los precios del pan, frejol, leche y otros productos de primera necesidad se incluyen en el índice. Resulta poco probable que la inclusión de todas las tiendas existentes en todo el país influya significativamente en el índice, pues los precios de la leche, pan y otros productos de primera necesidad no varían más de unos cuantos céntimos de una cadena de tiendas o otra.
Habitaciones en alquiler 0 2 3 2 3 4 2 3 4 7
Junio 11 12 13 14 15 16 17 18 19 20
Habitaciones en alquiler 3 4 4 4 7 0 5 3 6 2
Junio 21 22 23 24 25 26 27 28 29 30
Habitaciones en alquiler 3 2 3 6 0 4 1 1 3 3
Excel seleccionará la muestra aleatoria y arrojará los resultados. En la primera fecha muestreada había cuatro habitaciones alquiladas de las ocho. En la segunda fecha muestreada de junio, se alquilaron siete de las ocho habitaciones. La información aparece en la columna D de la hoja de cálculo de Excel. El sistema Excel lleva a cabo el muestreo con reemplazo. Esto significa que tal vez el mismo día aparezca más de una vez en una muestra.
Muestreo Aleatorio Simple. El tipo de muestreo más común es el muestreo aleatori aleatori o simple. MUESTREO ALEATORIO SIMPLE. Muestra seleccionada de manera que cada elemento o individuo de la población tenga las mismas posibilidades de que que se le incluya.
Au toevalu toevalu ación 8.1 La siguiente lista incluye a los estudiantes que se matricularon en u n curso de introducción a la estadística administrativa. Se elige al azar a tres estudiantes q quienes se formulan varias preguntas relacionadas con el contenido del curso y el método de enseñanza. a) Se escriben a mano los números 00 a 45 en papelitos y se colocan en un recipiente. Los tres números seleccionados son 31, 7 y 25. ¿Qué estudiantes se van a incluir en la muestra? b) Ahora utilice la tabla de dígitos aleatorios, para seleccionar su propia muestra. c) ¿Qué haría si localizara el número 59 en la tabla?
Ejemplo: Ana y Roberto Cárdenas administran “La Pascana”, una pensión donde dan alojamiento y desayuno a los turistas, localizada en la ciudad de Iquitos. Se alquilan 8 habitaciones en esta pensión. A continuación aparece el número de estas ocho habitaciones alquiladas diariamente durante junio del 2009. Utilice Excel para seleccionar una muestra de cinco noches de junio.
-2-
N° 00 01 02 03 04 05 06 07 08 09 10 11 12 13 14 15 16 17 18 19 20 21 22
NOMBRES ANDERSON, RAYMOND ANGER, CHERYL RENNE BALL, CLAIRE JEANETTE BERRY, CHRISTOPHER G. BOBAX, JAMES PATRICK BRIGTH, M. STARR CHONTOS, PAUL JOSEPH DETLEY, BRIAN HANS DUDAS, VIOLA DULBS, RICHARD ZALFA EDINGER, SUSAN KEE FINK, FRANK JAMES FRANCIS, JAMES P. GAGHEN, PAMELA LYNN GOULD, ROBYN KAY GROSENBACHER, SCOOT HEETFIELD, DIANE MARIE KABAT, JAMES DAVID KEMP, LISA ADRIANE KILLION, MICHELLE A. KOPERSKI, MARY ELLEN KOPP, BRIDGETTE ANN LEHMANN, KRISTINA M.
N° 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45
NOMBRES
porque la lista sólo llega a 45. Salto con el siguiente 58 710 710 lo descarto, salto al 63 261 261 lo descarto, 47 797 797 lo descarto, 22 498 498 lo tomo 22 existe en la lista, 49 186 186 lo descarto, 55 406 406 lo descarto, 173 lo tomo 11 existe en la lista. 173 11 Los números elegidos son: 36, 22 y 11. Los alumnos so n los siguiente: Stahl, María Tashery; Lehmann, Kristina M. y Fink, Frank James.
MEDLEY, CHERYL ANN MITCHEL, GREG R. MOLTER, KRISTI MARIE MULCANY, STEPHEN R. NICHOLAS, ROBERT CH. NICKENS, VIRGINIA PENNYWITT, SEAN P. POTEAU, KRIS E. PRICE, MARY LYNETTE PISTAS, JAMES SAGER, ANNE MARIE SMILLIE, HEATHER M. SNYDER, LEISHA KAY STAHL, MARIA TASHERY ST. JOHN, AMY J. STURDEVANT, RICHARD K. SWETYE, LYNN MICHELE WALASINSKI, MICHAEL WALKER, DIANE ELAINE WARNOCK, JENNIFER M. WILLIAMS, WENDY A. YAP, HOCK BAN YODER, ARLAN JAY
c. Si sale el número 59 lo descarto porque no existe la posición en la lista y salto al siguiente número aleatorio.
Muestreo Aleatorio Sistemático. Cuando el muestreo aleatorio simple resulta complicado, en caso de que existieran 2000 datos y solo se requiere tomar 100 datos aleatorios, para calcular es necesario ingresar cada uno de los 2000 datos antes de utilizar la tabla de números aleatorios para seleccionar los 100 datos. Dicho proceso puede tardar mucho tiempo. En su lugar, es posible aplicar el muestreo aleator io sistemá sistemáti co.
MUESTREO MUESTREO ALEATORI ALEATORIO O SISTEM SISTEM TICO. TICO. Se selecciona un punto aleatorio de inicio y posteriormente se elige cada k -ésimo -ésimo miembro de la
población. Primero se calcula k , que es el resultado de dividir el tamaño de la población entre el tamaño de la muestra; al hacerlo evita el proceso de numeración. Si k no es un número entero, hay que redondearlo. En la selección del primer dato emplee el muestreo aleatorio simple. Por ejemplo, seleccionará un número de la tabla de números aleatorios entre 1 y k , en este caso, 20. Suponga que el número aleatorio resultó ser 18. Entonces, a partir del dato 18, se seleccionará cada vigésimo dato (18, 38, 58, etc.) como muestra.
Solución: a. Los estudiantes seleccionados según la lista son: Price, Mary Lynette; Detley, Bryan Hans y Molter, Kristi Marie. b. Utilizando la tabla de números aleatorios procedo lo siguiente: Opto por tomar el segundo grupo de números, de éstos comenzaré con la comuna 6 y fila 5 y me desplazaré hacia la columna siguiente. Entonces los n úmeros son: 36 306 306 36 es una posición que existe en la lista de los estudiantes. Continúo con 92 598 598 92 no existe
Antes de aplicar el muestreo aleatorio sistemático, debe observar con cuidado el orden físico de la población. Cuando el orden físico se relaciona con la característica de la población, no debe aplicar el muestreo sistemático. Por ejemplo, si los datos se archivan en orden creciente, el muestreo aleatorio -3-
sistemático no garantiza una muestra aleatoria. Debe aplicarse otros métodos de muestreo.
Considere una selección de 50 compañías para llevar a cabo un minucioso estudio. Entonces se seleccionará de forma aleatoria 1 (0.02 x 50) empresas del estrato 1; 5 (0.10 x 50), del estrato 2, etc. En este caso, el número de empresas en cada estrato es proporcional a la frecuencia relativa del estrato en la población. El muestreo estratificado ofrece la ventaja de que, en algunos casos, refleja con mayor fidelidad las características de la población que el muestreo aleatorio simple o el muestreo aleatorio sistemático.
Muestreo Aleatorio Estratificado. Cuando una población se divide en grupos a partir de ciertas características, se aplica el muestreo aleatori o estrati fi cado con el fin de garantizar el hecho de que cada grupo se encuentre representado en la muestra. A los grupos también se les denomina estratos. Por ejemplo, los estudiantes se pueden agrupar en estudiantes de tiempo completo o de medio tiempo, por sexo, masculino o femenino, tradicionales o no tradicionales. Una vez definidos los estratos, se aplica el muestreo aleatorio simple en cada grupo o estrato con el fin de formar la muestra.
TABLA 8.1 Número seleccionado para una muestra aleatoria estratificada proporcional Probabilidad Estrato (recuperación capital) 1 30% y más 2 De 20% a 30% 3 De 10% a 20% 4 De 0% a 10% 5 Déficit Total *0.02 de 50 = 1, 0.10 de 50 0 5, etcétera.
MUESTRA ALEATORIA ESTRATIFICADA. Una población se divide en subgrupos, denominados estratos, y se selecciona al azar una muestra de cada estrato.
Por ejemplo, puede estudiar los gastos en publicidad de 352 empresas más grandes del Perú. Suponga que el objetivo del estudio consiste en determinar si las empresas con altos rendimientos sobre el capital (una media de rentabilidad) gastan en publicidad la mayor parte del dinero ganado en ventas que las empresas con un registro de bajo rendimiento o déficit. Para asegurar que la muestra sea una representación imparcial de las 352 empresas, éstas se agrupan de acuerdo con su rendimiento porcentual sobre el capital.
Número de empresas 8 35 189 115 5 352
Frecuencia relativa 0.02 0.10 0.54 0.33 0.01 1.00
Número muestreado 1* 5* 27 16 1 50
Muestreo Por Conglomerados. Este se emplea a menudo para reducir el costo de muestrear una población dispersa en cierta área geográfica. MUESTREO ACUMULADO. Una población se divide en conglomerados a partir de los límites naturales geográficos o de otra clase. A continuación se seleccionan los conglomerados al azar y se toma una muestra de forma aleatoria con elementos de cada grupo.
La tabla 8.1 incluye los estratos y las frecuencias relativas. Si aplicara el muestreo aleatorio simple, observe que las empresas del tercer y cuarto estrato tienen una probabilidad alta de que se les seleccione (0.87), mientras que las empresas de los demás estratos tienen pocas probabilidades de que se les seleccione (0.13). Podría no seleccionar ninguna de las empresas que aparecen en los estratos 1 o 5 sencillamente por azar . No obstante, el muestreo aleatorio estratificado garantizará que por lo menos una empresa de los estratos 1 o 5 aparezcan en la muestra.
Suponga que desea determinar la opinión de los habitantes de algún departamento con referencia a las políticas del estado de protección ambiental. Seleccionar una muestra aleatoria de habitantes y ponerse en contacto con cada persona requeriría mucho tiempo y resultaría muy costoso. Sería mejor aplicar el muestreo por conglomerados y subdividir el departamento en pequeñas unidades: provincias o distritos. Con frecuencia, se les conoce como unidades primarias. -4-
Ejemplo Revise el ejemplo anterior en la página 2, en el que se estudió el número de habitaciones alquiladas en La Pascana, en Iquitos, Perú. La población se refiere al número de habitaciones alquiladas cada uno de los 30 días de junio de 2009. Determine la media poblacional. Utilice Excel u otro software de estadística para seleccionar tres muestras aleatorias de cinco días. Calcule la media de cada muestra y compárela con la media poblacional. ¿Cuál es el error de muestreo en cada caso?
Suponga que dividió el departamento en 12 unidades primarias, seleccionó al azar 4 provincias, 2, 7, 4 y 12, y concentró su atención en estas unidades primarias. Usted puede tomar una muestra aleatoria de los habitantes de cada una de las provincias y entrevistarse con ellos (observe que se trata de una combinación de un muestreo por conglomerados y un muestreo aleatorio simple). Au toevalu ación 8.2 Consulte la autoevaluación 8.1, y la lista de alumnos de la página 3. Suponga que en un muestreo aleatorio sistemático se elegiría a cada noveno estudiante de la clase. Al principio se elige al azar al cuarto estudiante de la lista. Dicho estudiante es el número 03. Recuerde que los números aleatorios comienzan con 00, entonces, ¿qué alumnos se elegirán como miembros de la muestra?
Solución: Durante el mes se alquilaron un total de 94 habitaciones. Así, la media de las unidades alquiladas por noche es de 3.13. Ésta es la media poblacional. Este valor se designa con la letra griega µ.
La primera muestra aleatoria de cinco noches dio como resultado el siguiente número de habitaciones alquiladas: 4, 7, 4, 3 y 1. La media de esta muestra de cinco noches es de 3.8 habitaciones, que se representa como . La barra sobre la recuerda que se trata de una media muestral, y el subíndice 1 indica que se trata de la media de la primera muestra.
Solución: Los números aleatorios son: 03, 12, 21, 30 y 39. Los estudiantes ubicados en las respectivas posiciones son: Berry, Christopher; Francis, James; Kopp, Bridgette; Poteau, Kris y Swetye, Lynn Michelle.
“Error” de Muestreo Las muestras se emplean para determinar características de la población. No obstante, como la muestra forma parte o es una porción representativa de la población, es poco probable que la media de la muestra sea exactamente igual a la media poblacional. Asimismo, es poco probable que la desviación estándar de la muestra sea exactamente igual a la desviación estándar de la población. Por tanto, puede esperar una diferencia entre un estadístico de la muestra y el parámetro de la población correspondiente. Esta diferencia recibe el nombre de error de muestreo.
El error de muestreo para la primera muestra es la diferencia entre la media poblacional (3.13) y la media muestral (3.80). De ahí que el error muestral sea ( - = 3.80 – 3.13 = 0.67). La segunda muestra aleatoria de cinco días de la población de 30 días de junio arrojó el siguiente número de habitaciones alquiladas: 3, 3, 2, 3 y 6. La media de estos cincos valores de 3.4, que se calcula de la siguiente manera:
ERROR DE MUESTREO. Diferencia entre el estadístico de una muestra y el parámetro de la población correspondiente.
El error de muestreo es ( - µ = 3.4 – 3.13 = 0.27). -5-
Tabla 8.2 Ingresos por hora de empleados de producción de Honda Selva del Perú S.A. Empleado Ingreso por hora Empleado Ingreso por hora Abel 7 Juan 7 René 7 Ana 8 Oscar 8 Aldo 9 Otto 8
En la tercera muestra aleatoria, la media fue de 1.8, y el error de muestreo fue de -1.33. Cada una de estas diferencias. 0.67, 0.27 y -1.33, representan el error de muestreo cometido al calcular la media poblacional. A veces estos errores son valores positivos, lo cual indica que la media muestral sobreexcedió la media poblacional; otras veces son valores negativos, lo cual indica que la media muestral resultó inferior a la media poblacional.
1. ¿Cuál es la media de la población? 2. ¿Cuál es la distribución muestral de la media para muestras de tamaño 2? 3. ¿Cuál es la media de la distribución muestral de la media? 4. ¿Qué observaciones es posible hacer sobre la población y la distribución muestral de la media?
Distribución Muestral de la Media
Ahora que aparece la posibilidad de que se presente un error de muestreo cuando se emplean los resultados del muestreo para aproximar un parámetro poblacional, ¿cómo hacer un pronóstico preciso sobre la única base de los resultados del muestreo? ¿Cómo puede la oficina de control de calidad, de una compañía de producción en serie, enviar un cargamento de un determinado producto a partir de una muestra de 10 del mismo? ¿Cómo puede Frecuencia Latina o Panamericana hacer pronósticos precisos sobre la elección presidencial con base de 1200 electores registrados de una población de cerca de 20 millones? Para responder estas preguntas, primero se debe precisar el concepto de distri bución muestr al de la media .
Solución: 1. La media de la poblaron es de s/. 7.71, que se determina de la siguiente manera
2. Para obtener la distribución muestral de la media se seleccionó, sin reemplazos de la población, todas las muestras posibles de tamaño 2 y se calcularon las medias de cada muestra. hay 21 posibles muestras, que se calcularon con la fórmula:
DISTRIBUCION MUESTRAL DE LA MEDIA. Distribución de probabilidad de todas las posibles medias de las muestras de un determinado tamaño muestra de la población.
Ejemplo. Honda Selva del Perú S.A. cuenta con siete empleados de producción (a quienes se les considera la población). En la tabla 8.2 se incluyen los ingresos por hora de cada empleado.
N
Aquí, N = 7 es el número de elementos de la población, y n = 2, el número de elementos de la muestra. En la tabla 8.3 se ilustran las 21 medias muestrales de todas las muestras posibles de tamaño 2 que pueden tomarse de la población. Estas 21 muestras se utilizan para construir una distribución de probabilidad, que es la distribución muestral de la media, la cual se resume en la tabla 8.4. -6-
Tabla 8.4 Distribución muestral de la media para n = 2 Media Número Probabilidad muestral de medias 7.00 3 0.1429 7.50 9 0.4285 8.00 6 0.2857 8.50 3 0.1429 21 1.0000
TABLA 8.3 Medias muestrales de todas las posibles muestras de 2 empleados. Muestra
Empleados
Ingresos por hora
Suma
Media
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21
Abel, René Abel, Oscar Abel, Otto Abel, Juan Abel, Ana Abel, Aldo René, Oscar René, Otto René, Juan René, Ana René, Aldo Oscar, Otto Oscar, Juan Oscar, Ana Oscar, Aldo Otto, Juan Otto, Ana Otto, Aldo Juan, Ana Juan, Aldo Ana, Aldo
7, 7 7, 8 7, 8 7, 7 7, 8 7, 9 7, 8 7, 8 7, 7 7, 8 7, 9 8, 8 8, 7 8, 8 8, 9 8, 7 8, 8 8, 9 7, 8 7, 9 8, 9
14 15 15 14 15 16 15 15 14 15 16 16 15 16 17 15 16 17 15 16 17
7.00 7.50 7.50 7.00 7.50 8.00 7.50 7.50 7.00 7.50 8.00 8.00 7.50 8.00 8.50 7.50 8.00 8.50 7.50 8.00 8.50
3. La media de la distribución muestral de la media se obtiene al sumar las medias muestrales y dividir la suma entre el número de muestras. La media de todas las medias muestrales se representa mediante La µ recuerde que se trata de un valor poblacional, pues tomó en cuenta todas las muestras posibles. El subíndice indica que se trata de la distribución muestral de la media.
4. Consulte la gráfica 8.1, donde aparecen las dos distribuciones poblacionales y la distribución muestral de la media. Caben las siguientes observaciones: a) La media de la distribución muestral de la media(s/.7.71) es igual a la media de la población: µ = b) La dispersión de la distribución muestral es menor que la dispersión de los valores de población. La media de las muestras varía de s/.7.00 a s/.8.50, mientras que los valores de población varían de s/.7.00 a s/.9.00. observe que, conforme se incrementa el tamaño de la muestra, se reduce la dispersión de la distribución muestral de las medias. c) La forma de la distribución muestral de la media y la forma de la distribución de frecuencias de los valores de población son diferentes. La distribución muestral de las medias tiende a adoptar más forma de campana y a aproximarse a la distribución de probabilidad normal.
-7-
f) A continuación s e muestra una gráfica con los valores de la población. ¿Tienen los valores de población una distribución normal (en forma de campana)?
GRAFICA 8.1 Distribución de los valores de población y distribución muestral de las medias
g) ¿Comienza la distribución muestral de la media que se calculó en el inciso c) a indicar una tendencia a adoptar forma de campana?
Au toevalu ación 8.3 Los tiempos de servicio de los ejecutivos que laboran en Química Suiza s on los siguientes:
Solución: a. La fórmula de las combinaciones es la siguiente:
Nombres Señor Gómez Señora García Señor Aguilar Señora Rojas Señor Ruiz
Años 20 22 26 24 28
5
Son posibles 10 muestras de tamaño 2.
b. La lista es la siguiente:
Tabla B: Medias muestrales de las posibles muestras de 2 ejecutivos Media Ejecutivos Servicio Muestral Gómez, García 20, 22 21 Gómez, Aguilar 20, 26 23 Gómez, Rojas 20, 24 22 Gómez, Ruiz 20, 28 24 García, Aguilar 22, 26 24 García, Rojas 22, 24 23 García, Ruiz 22, 28 25 Aguilar, Rojas 26, 24 25 Aguilar, Ruiz 26, 28 27 Rojas, Ruiz 24, 28 26
a) De acuerdo con la fórmula de las combinaciones, ¿cuántas muestras de tamaño 2 son posibles? b) Elabore una lista de todas las muestras posibles de 2 ejecutivos de la población y calcule las medias. c) Organice las medias en una distribución muestral. d) Compare la media poblacional y la media de las medias de las muestras. e) Compare la dispersión en la población con la dispersión de la distribución muestral de la media. -8-
c. La distribución muestral es la siguiente:
f. Según la gráfica mostrada se observa que los valores de la población no tienen una distribución normal. g. Sí
Tabla C: Distribución muestral de la media Media Número Probabilidad 21 1 0.10 22 1 0.10 23 2 0.20 24 2 0.20 25 2 0.20 26 1 0.10 27 1 0.10 10 1.00
Teorema del Límite Central
En el caso de muestras grandes, la forma de la distribución muestral de la media se aproxima a la distribución de la probabilidad normal. La aproximación es más exacta en muestras grandes. Permite razonar sobre la distribución de las medias muestrales sin ninguna información acerca de la forma de la distribución de población de la que se toma la muestra. El teorema de límite central se cumple en el caso de todas las distribuciones.
d.
TEOREMA DEL L MITE CENTRAL. Si todas las muestras de un tamaño en particular se seleccionan de cualquier población, la distribución muestral de la media se aproxima a una distribución normal. Esta aproximación mejora con muestras más grandes.
Calculamos la media poblacional con la fórmula:
Si la población obedece a una distribución normal, entonces, en el caso de cualquier tamaño de muestra, la distribución muestral de las medias también será de naturaleza normal. Si la distribución poblacional es simétrica (pero n o normal), se verá que la forma normal de la distribución muestral de las medias se presenta con muestras tan pequeñas como 10. Por otra parte, si se comienza con una distribución sesgada o con colas gruesas, quizá se requieran muestras de 30 o más para observar la característica de normalidad.
La media poblacional es 24.
Calculamos la media de las medias con la fórmula:
La media de las medias de la muestra es 24.
Ejemplo. Alfredo Ponce dio inicio a su negocio de engranes hace 20 años. El negocio creció a lo largo del tiempo y ahora cuenta con 40 empleados. Piñones Ponce´s E.I.R.L, encara algunas decisiones importantes relacionadas con la atención médica de sus empleados. Antes de tomar una decisión definitiva sobre el programa de atención médica que va a comprar, Alfredo decide formar un comité de 5 empleados. Se pedirá al comité que estudie el teme del cuidado de la salud y haga alguna recomendación sobre el plan que mejor
Por lo tanto, al comparar las dos respuestas observamos que son idénticas .
e. Se observa que la dispersión de la población tiene un rango que va de 20 a 28. Mientras que la dispersión de la distribución muestral va 21 a 27.
-9-
GRAFICA 8.3 Tiempo de servicio en Piñones Ponce´s de los empleados. Alfredo Ponce va formar un comité de 5 empleados, ¿Cómo elegiría el comité?, si los selecciona al azar, ¿Qué puede esperar respecto al tiempo medio de servicio de quienes forman parte del comité? Para comenzar, Alfredo anota el tiempo de servicio de cada uno de los 40 empleados en papelitos y los coloca en una gorra. Después los revuelve y selecciona al azar 5 de ellos. Los tiempos de servicio de estos 5 empleados son: 1, 9, 0, 19 y 14 años. Por tanto el tiempo medio de servicio de estos 5 empleados muestreados es de 8.60 años. ¿Cómo se compara este resultado con la media de la población? Alfredo no conoce la media de la población, así que decide calcular la media del tiempo de servicio de todos sus empleados, la cual es de 4.8 años que se determina de la siguiente manera:
convenga a los empleados. Alfredo cree que el punto de vista de los empleados más recientes en relación con el cuidado de la salud difiere de los empleados con más experiencia. Si Alfredo seleccionara al azar este comité, ¿qué puede esperar en términos del promedio de años que llevan con Piñones Ponce´s los miembros del comité? ¿Cuál es la forma de la distribución de años de experiencia de todos los empleados (la población) en comparación con la forma de la distribución muestral de las medias? Los tiempos de servicio (redondeados al año inmediato) de los 40 empleados que actualmente están en nómina en Piñones Ponce´s son los siguientes: 11 3 7 16
4 4 1 8
18 1 0 9
2 2 2 1
1 2 7 1
2 3 0 2
0 3 4 5
2 19 5 10
2 8 1 2
4 3 14 3
Solución: La gráfica 8.3 muestra la distribución de los años de experiencia de la población de 40 empleados actuales. La distribución de tiempos de servicio tiene un sesgo positivo, pues unos cuantos empleados han laborado en Piñones Ponce`s por un periodo extenso. Seis empleados han laborado en la compañía 10 años o más. Sin embargo, como el negocio creció, el número de empleados se incrementó en los últimos 5 años. De los 40 empleados, 18 han laborado en la compañía 2 años o menos.
La diferencia entre la media de la muestra ( =8.6) y la media de la población ( 4.8) es 3.8 y es el error de muestreo. Esto se debe al azar. Si Alfredo selecciona a estos 5 empleados para formar el comité, el tiempo medio de servicio de éstos seria mayor que el de la media de la población. =
¿Qué sucedería si Alfredo colocara de nuevo los papelitos en la gorra y tomara otra muestra? ¿Esperaría que la media de esta segunda muestra fuera exactamente la misma que la anterior? Suponga que selecciona otra muestra de 5 empleados y los valores son: 7, 4, 4, 1 y 3. La media ahora seria 3.80 años. El resultado de seleccionar 25 muestras de 5 empleados cada una encontramos en la tabla 8.5 y en la gráfica 8.4. En realidad hay 658 008 posibles muestras de 5 tomas de la población de 40 empleados, los cuales se determinan mediante la fórmula:
40
Observe la diferencia de forma de las distribuciones poblacional y muestral de medias. La población de tiempos de servicio de los empleados (gráfica - 10 -
8.3) tiene un sesgo positivo. La población varia de 0 a 19 años, mientras que las medias muestrales varían de 1.6 a 8.6 años. Tabla 8.5 Veinticinco muestras aleatorias de cinco empleados Muestra de Media Identificación Datos de la muestra muestral A 1 9 0 19 14 8.6 B 7 4 4 1 3 3.8 C 8 19 8 2 1 7.6 D 4 18 2 0 11 7.0 E 4 2 4 7 18 7.0 F 1 2 0 3 2 1.6 G 2 3 2 0 2 1.8 H 11 2 9 2 4 5.6 I 9 0 4 2 7 4.4 J 1 1 1 11 1 3.0 K 2 0 0 10 2 2.8 L 0 2 3 2 16 4.6 M 2 3 1 1 1 1.6 N 3 7 3 4 3 4.0 O 1 2 3 1 4 2.2 P 19 0 1 3 8 6.2 Q 5 1 7 14 9 7.2 R 5 4 2 3 4 3.6 S 14 5 2 2 5 5.6 T 2 1 1 4 7 3.0 U 3 7 1 2 1 2.8 V 0 1 5 1 2 1.8 W 0 3 19 4 2 5.6 X 4 2 3 4 0 2.6 Y 1 1 2 3 2 1.8
GRAFICA 8.4 Histograma de tiempos de servicio medios para 25 muestras de 5 empleados La tabla 8.6 contiene los resultados de seleccionar 25 muestras de 20 empleados cada una y el cálculo de las medias muestrales. Estas medias muestrales aparecen en la gráfica 8.5. Al comparar la forma de esta distribución con la población (gráfica 8.3) y con la distribución muestral de medias si la muestra es de n = 5 (gráfica 8.4) se observa dos importantes características: 1. La forma de la distribución muestral de las medias es diferente a la de la población. En la gráfica 8.3, la distribución de empleados tiene un sesgo positivo, conforme selecciona muestras aleatorias de la población, cambia la forma de la distribución. A medida que incrementa el tamaño de la muestra, la distribución muestral de las medias se aproxima a la distribución de probabilidad normal.
- 11 -
Sin embargo, en el ejemplo de Piñones Ponce’s hay menor dispersión en la
distribución de la media muestral que en la distribución de población, lo que indica la diferencia en el rango de la población y en el rango de las medias muestrales. Observe que la media de las medias de las muestras se encuentra cerca de la media de la población, es decir, que , y si la desviación estándar de la población es σ, la desviación estándar de las medias muestrales es σ , en la que es le número de observaciones de cada muestra. Entonces, σ es el err or estándar de la m edia . En realidad, el nombre completo es desviación estándar de la distribución muestral de medias.
√ √
ERROR ESTANDAR DE LA MEDIA
GRAFICA 8.5 Histograma del tiempo medio de 25 muestras de 20 empleados.
√
1. La media de la distribución muestral de las medias será exactamente igual a la media poblacional si selecciona todas las muestras posibles del mismo tamaño de una población dada. Es decir,
2. Hay menos dispersión en la distribución muestral de las medias que en la distribución de la población. En la población, los periodos de servicio varían de 0 a 19 años. Cuando selecciono muestras de tamaño 5, las medias de las muestras variaron de 1.6 a 8.6 años, y cuando selecciono muestras de 20 las medias variaron de 3.5 a 7.10 años.
Aunque no seleccione todas las muestras, es de esperar que la media de la distribución muestral de medias se aproxime a la media poblacional.
También puede comparar la media de las medias de la muestra con la media de la población. La media de las muestras de 25 muestras de los 20 empleados de la tabla 8.6 es de 4.676 años y se calcula de la siguiente manera:
2. Habrá menos dispersión en la distribución muestral de las medias que en la población. Si la desviación estándar de la población es σ, la desviación estándar de la distribución muestral de medias es σ . Note que, cuando se incrementa el tamaño de la muestra, disminuye el error estándar de la media.
√
El teorema del límite central no dice nada sobre la dispersión de la distribución muestral de medias ni sobre la comparación entre la media de la distribución muestral y la media de la población.
Au toevalu ación 8.4 Repase los datos de Piñones Ponce’s de la página 9. Seleccione al azar 10 muestras de 5 empleados cada una. Utilice los métodos descritos en el capítulo y la tabla de números aleatorios para determinar los empleados por incluir en la muestra. Calcule la media de cada muestra y trace una gráfica - 12 -
Es posible calcular la probabilidad de que la media de una muestra se encuentre dentro de cierto margen. La distribución de muestreo seguirá la distribución de probabilidad normal con dos condiciones: 1. Cuando se sabe que las muestras se toman de poblaciones regidas por la distribución normal. En este caso, el tamaño de la muestra no constituye un factor. 2. Cuando se desconoce la forma de la distribución de población o se sabe que no es normal, pero la muestra contiene por lo menos 30 observaciones. En este caso, el teorema del límite central garantiza que la distribución muestral de las medias sigue una distribución normal.
de las medias muestrales en una gráfica similar a la gráfica 8.3. ¿Cuál es la media de las 10 medias muestrales? Solución: Utilizando la tabla de números aleatorios se obtuvo los siguientes posibles resultados, pero pueden variar según la forma de utilizar la tabla:
Número de muestras 1 2 3 4 5 6 7 8 2 2 19 3 4 0 19 1 14 9 2 5 8 8 3 4 2 4 4 1 0 3 2 3 1 2 16 2 1 7 2 19 18 18 Total 37 10 29 35 29 33 43 7.4 2.0 5.8 7.0 5.8 6.6 8.6
8 9 10 4 1 2 2 14 4 14 4 1 1 2 3 16 3 7 37 24 17 7.4 4.8 3.4
Ahora calculamos la media de las medias con la siguiente fórmula:
Por lo tanto, la media de las 10 medias muestrales es 5.88.
Utilizamos la fórmula para determinar un valor de z es, haremos algunos cambios. Para recordar la fórmula es la siguiente:
√
El primer cambio es X por porque lo importante es la distribución de , la media muestral. El segundo cambio es por σ , o sea emplear el error estándar de la media de n observaciones. Por consiguiente, para determinar la probabilidad de una media muestral con rango especificado, primero aplique la fórmula para determinar z correspondiente. Después consulte la tabla de z para localizar la probabilidad.
La gráfica es la siguiente:
CALCULO DEL VALOR z
Uso de la Distribución Muestral
En algunos ejemplos donde una población de la cual existe determinada información. Se toma una muestra de esta población y se quiere saber si el error de muestreo, es decir, la diferencia entre el parámetro de población y la muestra estadística, se debe al azar.
√
Z
Ejemplo. El departamento de control de calidad de Cola, Inc., conserva registros sobre la cantidad de bebida de cola en su botella gigante. La cantidad real de bebida en cada botella es de primordial importancia, pero varía en una mínima cantidad de botella en botella. Cola, Inc., no desea llenar botellas con menos líquidos del debido, pues tendría problemas en lo que se refiere a la confiabilidad de la etiqueta. Por otra parte, no puede colocar líquido de más - 13 -
en las botellas porque regalaría bebida, lo cual reduciría sus utilidades. Los registros indican que la cantidad de bebida de cola tiene una distribución de probabilidad normal. La cantidad media por botella es de 31.2 onzas, y la desviación estándar de la población, de 0.4 onzas. Hoy, a las 8 de la mañana, el técnico de calidad seleccionó al azar 16 botellas de la línea de llenado. La cantidad media de bebida en las botellas es de 31.38 onzas. ¿Es un resultado poco probable? ¿Es probable que el proceso permita colocar demasiada bebida en las botellas? En otras palabras ¿es poco común el error de muestreo de 0.18 onzas?
4) Establecer la regla de decisión Rechazar cuando Z > 1.65
Solución: Se toma los siguientes datos: Tamaño de la muestra ( ) = 16 botellas. La media poblacional ( ) = 31.20 onzas. La desviación estándar poblacional ( ) = 0.4 onzas. La media muestral ( ) = 31.38
0.450
0.05 0
√ →
Z
= 1.80
←
z
Esto concluye que en el proceso se vierte demasiada bebida de cola en la botella. Por lo tanto el técnico de control de calidad debe entrevistarse con el supervisor de producción para sugerir la reducción de la cantidad de bebida en cada botella.
2) Escoger el nivel de significación (error)
Z
1.8
5) Decisión Se rechaza y se acepta , es decir el contenido promedio de las botellas de cola es mayor a 31.20 onzas.
3) Calcular el estadístico.
1.65
Ubicación del estadístico en la distribución normal
Una manera práctica y didáctica para resolver este ejercicio será a través de la prueba de hipótesis. Recordando los pasos para una prueba de hipótesis: 1) Elaborar la hipótesis nula y la alternativa.
Rechaza Ho
Acepta Ho
Au toevalu ación 8.5 Consulte la información relativa a Cola, Inc. Suponga que el técnico de control de calidad seleccionó una muestra de 16 botellas gigantes con un promedio de 31.08 onzas. ¿Qué concluye sobre el proceso de llenado?
El estadístico es: Z = 1.80
Solución: Se toma los siguientes datos:
- 14 -
Tamaño de la muestra ( ) = 16 botellas. La media poblacional ( ) = 31.20 onzas. La desviación estándar poblacional ( ) = 0.4 onzas. La media muestral ( ) = 31.08
Una manera práctica y didáctica para resolver este ejercicio será a través de la prueba de hipótesis. Recordando los pasos para una prueba de hipótesis:
Acepta Ho
0.450 Rechaza Ho
1. Elaborar la hipótesis nula y la alternativa.
0.05
-1.65
Ubicación del estadístico en la distribución normal
2. Escoger el nivel de significación (error)
0
-1.20
5. Decisión
3. Calcular el estadístico.
√
Z
→
Z
= -1.20
El estadístico es: Z = -1.20
4. Establecer la regla de decisión Rechazar
cuando Z < -1.65
0.500
0.3849
0.1151 -1.20
0
Se acepta es decir el contenido promedio de las botellas de cola es de 31.20 onzas. Es decir al 95% de confianza se puede afirmar que el proceso de producción se ajusta a los parámetros establecidos. Se concluye que la probabilidad de que z sea mayor que -1.20 es: - 15 -
03 04 05 06 07 08 09 10 11
ρ = 0.500 + 0.3849 = 0.8849 Existe más de 88% de probabilidad de que la operación de llenado produzca botellas con al menos 31.08 onzas.
630 Dixie Hwy 3510 Dorr St 5055 Glendale Av 3382 Lagrange St 2525 W Laskey Rd 303 Louisiana Av 149 Main St 835 S MacCord Rd 3501 Monroe St
A C C A C C C A A
15 16 17 18 19 20 21 22 23
1419 South Av 1234 W Sylvania Av 4624 Woodville Rd 5155 S Main 106 E Airport Hwy 6725 W Central 4252 Monroe 2036 Woodville Rd 1316 Michigan Av
C C A A C A C C A
a) Los números aleatorios seleccionados son 08, 18, 11, 02, 41 y 54. ¿Qué tiendas se eligieron? b) Utilice la tabla de números aleatorios para seleccionar su propia muestra de establecimientos. c) Una muestra consta de cada séptimo establecimiento. El número 03 es el punto de partida. ¿Qué establecimientos se incluirán en la muestra? d) Suponga que una muestra consta de tres establecimientos de los cuales dos son propiedad corporativa y uno del administrador. Seleccione una muestra adecuada. Solución:
a. Con los números seleccionados se obtuvieron de la lista las siguientes tiendas: 08 303 Louisiana Av. 11 5155 S Main. 18 3501 Monroe St 02 2652 W Central Av Por lo tanto, los nombres de las tiendas que se escogieron para la muestra son: 303 Louisiana Av, 5155 S Main, 3501 Monroe St y 2652 W Central Av. Los dos últimos números no concuerdan con la lista. b. Utilizando la tabla de números aleatorios se obtuvo los siguientes resultados: 10 835 S MacCord Rd. 16 1234 W Sylvania Av. 03 630 Dixie Hwy.
EJERCICIOS RESUELTOS 1. La lista incluye las tiendas de Marcos’s Pizza. Se indica si es propiedad de alguna corporación (C) o del administrador (A). Se seleccionará e inspeccionará una muestra de cuatro establecimientos en relación con la conveniencia para el cliente, la seguridad, la hi giene y otras características. N° 00 01 02
Dirección 2607 Starr Av 309 W Alexis Rd 2652 W Central Av
Tipo C C C
N° 12 13 14
Dirección 2040 Ottawa River Rd 2116 N Reynolds Rd 3678 Rugby Dr
Tipo C C C - 16 -
18 5155 S Main. Por lo tanto, la muestra que se obtuvo de la lista de los establecimientos fueron: 835 S MacCord Rd, 1234 W Sylvania Av, 630 Dixie Hwy y 5155 S Main. Las respuestas pueden variar según la conveniencia de quien lo resuelva. N° 00 01 02 03 04 05 06 07 08 09 10 11 12 13 14 15 16
Distribuidor Dave White Acura Autofair Nissan Autofaur Toyota-Susuki George Ball’s Buick GMC
Yark Automotive Group Bob Schmidt Chevroleet Bowling Green Lincoln Mercury Jeep Eagle Brondes Ford Brown Honda Brown Mazda Charlie`s Dodge Thayer Chevrolet/Toyota Spurgeon Chevrolet Motor Dunn Chevrolet Don Scott Chevrolet-Pontiac Dave White Chevrolet Co. Dick Wilson Pontiac
N° 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34
Distribuidor Doyle Pontiac Buick Franklin Park Lincoln Mercury Geona Motors Great Lakes Ford Nissan Grogan Towne Chrysler Hatfield Motor Sales Kistler Ford, Inc. Lexus of Toledo Mathews Ford Oregon, Inc. Northtowne Chevrolet Quality Ford Sales, Inc. Rouen Chrysler Jeep Eagle Satrun of Toledo Ed Schmidt Pontiac Jeep Southside Lincoln Mercury Valiton Chrysler Vin Divers Whitman Ford
00 2607 Starr Av. (C) Por lo tanto, se obtuvo los siguientes establecimientos: 835 S MacCord Rd. (A), 1234 W Sylvania Av. (C) y 2607 Starr Av. (C) con sus respectivos tipos de comercio. 3. A continuación aparece una lista de los 35 miembros de la Metro Toledo Automóvil. Se desea calcular el ingreso medio de los departamentos de servicio de los distribuidores a) Seleccione una muestra aleatoria de cinco distribuidores. Los números aleatorios son: 05, 20, 59, 21, 31, 28, 49, 38, 66, 08, 29 y 02. ¿Qué distribuidores se van a incluir en la muestra? b) Utilice la tabla de números aleatorios para seleccionar su propia muestra de cinco distribuidores. c) Una muestra constará de cada séptimo distribuidor. El número 04 se selecciona como punto de partida. ¿Qué distribuidores se incluyen en la muestra? Solución:
a. Según los números escogidos de antemano se obtuvo lo siguiente: 05 Bob Schmidt Chevroleet 20 Great Lakes Ford Nissan 59 NO EXISTE EN LA LISTA 21 Grogan Towne Chrysler 31 Southside Lincoln Mercury 28 Rouen Chrysler Jeep Eagle Por lo tanto los demás números no importan cuando ya se obtuvo los cinco números para la muestra solicitada. Los distribuidores son los siguientes: Bob Schmidt Chevroleet, Great Lakes Ford Nissan, Grogan Towne Chrysler, Southside Lincoln Mercury y Rouen Chrysler Jeep Eagle. b. Con la tabla se obtuvo los siguientes números: 20 Great Lakes Ford Nissan
c. Escogiendo cada séptimo establecimiento y con el número 03 como punto de partida se obtuvo lo siguiente: 03 630 Dixie Hwy 10 835 S MacCord Rd 17 4624 Woodville Rd d. Se escogió la muestra adecuada de acuerdo con la pregunta y con la tabla de números aleatorios. Se obtuvo lo siguiente: 10 835 S MacCord Rd. (A) 16 1234 W Sylvania Av. (C) - 17 -
13 Dunn Chevrolet 17 Doyle Pontiac Buick 01 Autofair Nissan 07 Brondes Ford Por lo tanto, los distribuidores fueron: Great Lakes Ford Nissan, Dunn Chevrolet, Doyle Pontiac Buick, Autofair Nissan y Brondes Ford. El resultado puede variar, de acuerdo al investigador. c. Con el número 04 como punto de partida y escogiendo cada séptimo distribuidor se obtuvo la siguiente muestra: 04 Yark Automotive Group 11 Thayer Chevrolet/Toyota 18 Franklin Park Lincoln Mercury 25 Mathews Ford Oregon, Inc 32 Valiton Chrysler
4 5 6
a. Para encontrar la cantidad total de muestras de tamaño se utilizará la siguiente fórmula: = 4 N
Muestra 1 2 3
Valores 12, 12 12, 14 12, 16
Suma 24 26 28
Media 12 13 14
26 28 30
13 14 15
Por lo tanto, se obtuvo una muestra de 6 observaciones. b. Para el cálculo de la media de la distribución muestral de la media se utiliza la fórmula:
Para la media poblacional se utiliza la fórmula:
Por lo tanto se puede observar que tanto la media poblacional como la media de la distribución muestral de la media son iguales: =
5. Una población consta de los siguientes cuatro valores: 12, 12, 14 y 16. a) Enumere todas las muestras de tamaño 2 y calcule la media de cada muestra. b) Calcule la media de la distribución muestral de la media y la media de la población. Compare los dos valores. c) Compare la dispersión en la población con la de las medias de las muestras. Solución:
12, 14 12, 16 14, 16
c. Existe mayor dispersión con los datos de la población en comparación con las medias muestrales. Las medias muestrales varían de 12 a 15, mientras que los valores de la población varían de 12 a 16.
7. Una población consta de los siguientes cinco valores: 12, 12, 14, 15 y 20 a) Enumere todas las muestras de tamaño 3 y calcule la media de cada muestra. b) Calcule la media de la distribución muestral de las medias y la media de la población. Compare los dos valores. c) Compare la dispersión en la población con la de las medias de las muestras. Solución: - 18 -
a. Se calcula la cantidad de muestras de tamaño tres con la siguiente fórmula:
= 5
N
Por lo tanto hay 10 muestras de tamaño 3. A continuación se enumera estas muestras. Muestras 1 2 3 4 5 6 7 8 9 10
Valores 12, 12, 14 12, 12, 15 12, 12, 20 14, 15, 20 12, 14, 15 12, 14, 15 12, 15, 20 12, 15, 20 12, 14, 20 12, 14, 20
Suma 38 39 44 49 41 41 47 47 46 46
9. En un despacho de abogados hay seis socios. En la siguiente tabla se incluye el número de casos que en realidad atendió cada socio en los tribunales durante el mes pasado. Socio Ruud Wu Sass Flores Wilhelms Schueller
Media 12.66 13.00 14.66 16.33 13.66 13.66 15.66 15.66 15.33 15.33
a) ¿Cuántas muestras de 3 son posibles? b) Enumere todas las posibles muestras de 3 y calcule el número medio de casos en cada muestra. c) Compare la media de la distribución muestral de las medias con la de la media poblacional.
b. Se calcula la media de las medias por medio de la fórmula:
Solución:
a. Con la siguiente fórmula se calcula la cantidad de muestras de tamaño 3 que son posibles.
Para la media poblacional se utiliza la fórmula:
=
Número de casos 3 6 3 3 0 1
N
= 6
Por lo tanto hay 20 muestras de tamaño 3. b. A continuación se enumera las muestras de tamaño 3.
Por lo tanto se puede observar que tanto la media poblacional como la media de la distribución muestral de la media son iguales: =
Muestra Ruud, Wu, Sass Ruud, Sass, Flores : :
c. Existe mayor dispersión con los datos de la población en comparación con las medias muestrales. Las medias muestrales varían de 12.66 a 16.33, mientras que los valores de la población varían de 12 a 20. - 19 -
Casos 3, 6, 3 3, 3, 3 : :
Suma 12 9 : :
Media 4.00 3.00 : :
Sass, Flores, Schueller
3, 3, 1
7
2.33
0 7
c. Se calcula la media de las medias por medio de la fórmula:
=
Por lo tanto se puede observar que tanto la media poblacional como la media de la distribución muestral de la media son iguales: =
La población tiene mayor dispersión que las medias muestrales. Las medias de la muestra varían de 1.33 a 4.00. la población varía de 0 a 6. 11. En la tabla de números aleatorios cada dígito de 0 a 9 tenga la misma posibilidad de presentarse. A continuación aparecen los 10 primeros renglones de cinco dígitos de la tabla. Suponga que se trata de 10 muestras aleatorias de cinco variables cada una. Determine la media de cada muestra. Compare la media de la media de la distribución muestral de las medias con la media poblacional. 0 9 5 7 6 1 1 8
2 4 4 7 1 7 3 7
7 8 9 6 5 1 7 4
1 7 2 4 4 4 4 5
9 8
9 0
9 4
Solución:
Para obtener la media de cada muestra se utilizó la formula de la media. Y se calculó la media de cada una de las medias de la muestras. La siguiente tabla muestra el resultado:
Para la media poblacional se utiliza la fórmula:
8 8
Muestra Suma Media 1 11 2.2 2 32 6.2 3 21 4.2 4 24 4.8 5 21 2.2 6 20 4.0 7 23 4.6 8 29 5.8 9 35 7.0 10 27 5.4 15. Una población normal tiene una media de 60 y una desviación estándar de 12. Usted selecciona una muestra aleatoria de 9. Calcule la probabilidad de que la media muestral: a) Sea mayor que 63. b) Sea menor que 56. c) Se encuentre entre 56 y 63.
1 3 1 0 5 7 8 5
Solución:
Tenemos los datos: µ = 60. σ = 12. n = 9.
a. Siendo la media muestral: - 20 -
√ √ =
Z
= = 0.75 La probabilidad es: ρ = 0.5000 – 0.3413 = 0.1587 c. Estando la media entre 56 y 63: ρ = 0.5000 – 0.3413 = 0.1587 ρ = 0.5000 – 0.2734 = 0.2266 La suma de los dos es: 0.3853 La probabilidad es: ρ = 1 – 0.3853 = 0.6147
Por lo tanto Z = 0.2734
p
0,2734
0,5000
0,2266 0
0,75
La probabilidad es: ρ = 0.5000 – 0.2734 = 0.2266
√ √
b. Siendo la media muestral : Z
=
0.2266
= - = -1.0
Por lo tanto Z = 0.3413
0,1587 -1,0
Tenemos los datos: µ = 2 200.
0,5000
0.3413
- 21 -1.0
0
0,75
X una recámara tiene una distribución 17. La renta de un departamento con normal con una media de $2 200 mensuales y una desviación de $250 mensuales. La distribución del costo mensual no se rige por la distribución normal. De hecho, tiene un sesgo positivo. ¿Cuál es la probabilidad se seleccionar una muestra de 50 departamentos de una recámara y hallar que la media es de por lo menos $1 950 mensuales?
Solución: p 0,1587
0,2734
0,3413
0
σ = 250. n = 50.
√ √ =
Z
=
= -7.07
consiste en un solo valor (punto) deducido de un amuestra para estimar el valor de una población. Un enfoque que arroja más información consiste en presentar un intervalo de valores del que se espera que se estime el parámetro poblacional. Dicho intervalos de valores recibe el nombre de intervalo de . confianza
Estimadores puntuales e intervalos de confianza de una media
La probabilidad es: ρ = 1 o prácticamente incierta.
El análisis de los estimadores puntuales y los intervalos de confianza comienza con el estudio del cálculo de la media poblacional. Se debe considerar dos casos:
Se conoce la desviación estándar de la población (σ). Se desconoce la desviación estándar de la población (σ). En este caso de
sustituye la desviación estándar de la muestra ( s) por la desviación estándar de la población (σ).
Existen importantes distinciones en los supuestos entre estos dos casos. Primero se considera el caso en el que σ se conoce.
Desviación estándar de la población conocida (σ). Existen casos en que la población es grande o resulta difícil identificar a todos los miembros de la población, por lo que es necesario confiar en la información de la muestra. En otras palabras, no se conoce el parámetro poblacional , y, por consiguiente, se desea estimar su valor, a partir del estadístico de la muestra. Un estimador puntual es un estadístico único para calcular un parámetro poblacional.
CAPITULO 9 Estimación e intervalos de confianza
ESTIMADOR PUNTUAL. Estadístico calculado a partir de información de la muestra para estimar el parámetro poblacional.
Introducción
En este capítulo se estudian diversos aspectos importantes del muestreo. El primer paso es el estudio del estimador puntual . Un estimador puntual
La media muestral, , constituye un estimador puntual de la media poblacional, ; ρ, una proporción mu estral, es un estimador puntual de π, la - 22 -
Los intervalos calculados de esta manera reciben el nombre de intervalo de confianza de 95% e intervalo de confianza de 99%. ¿Cómo se obtienen los valores de ±1.96 y ±2.58? Los términos 95% y 99% se refieren al porcentaje de intervalos construidos de forma similar que incluirán el parámetro que se está estimando. Por ejemplo, 95% se refiere a 955 de las observaciones ubicadas al centro de la distribución. Por consiguiente, el 5% restante se divide en partes iguales en las dos colas. Observe el diagrama.
proporción poblacional; y s, la desviación estándar muestral, es un estimador puntual de σ, la desviación estándar poblacional. Aunque se espera que un estimador puntual se aproxime al parámetro poblacional, sería conveniente medir cuán próximo se encuentra en realidad. Un intervalo de confianza sirve para este p ropósito. INTERVALO DE CONFIANZA. Conjunto de valores formado a partir de una muestra de datos de forma que exista la posibilidad de que el parámetro poblacional ocurra dentro de dicho conjunto con una probabilidad especifica. La robabilidad es ecífica recibe el nombre de nivel de con ianza.
Por ejemplo, se estima que el ingreso anual medio de los trabajadores de la construcción es de 65 000. Un intervalo para este valor aproximado puede oscilar entre 61 000 y 69 000. Para describir cuánto es posible confiar en que el parámetro poblacional se encuentre en el intervalo se debe generar un enunciado probabilístico. Por ejemplo: se cuenta con 90% se seguridad de que el ingreso anual medio de los trabajadores de la construcción se encuentra entre 61 000 y 69 000.
La información relacionada con la forma de la distribución de medias, es decir, de la distribución muestral , permite localizar un intervalo que tenga una probabilidad específica de contener la media poblacional . En el caso de muestras razonablemente grandes, los resultados del teorema del límite central permiten afirmar lo siguiente: 1. Noventa y cinco por ciento de las medias muestrales seleccionadas de una población se encontrará a ± 1.96 desviaciones estándares de la media poblacional 2. Noventa y nueve por ciento de las medias muestrales se encontrará a ± 2.58 desviaciones estándares de la media poblacional.
Consúltela tabla de la distribución normal para los valores z adecuados. Localice 0.4750 en el cuerpo de la tabla. Lea los valores del renglón y la columna correspondientes. El valor es de 1.96. Por tanto, la probabilidad de hallar un valor z entre 0 y 1.96 es de 0.4750. Asimismo, la probabilidad de encontrar un valor z en el intervalo de -1.96 a 1.96 es de 0.9500. El valor z del nivel de confianza de 90% se determina de forma similar. Éste es de ±1.65. En el caso de un nivel de confianza de 99%, el valor z es de ±2.58.
La desviación estándar que se estudió aquí es la desviación estándar de la distribución muestral de las medias, y recibe el nombre de error estándar .
¿Cómo determinar un intervalo de confianza de 95%? La amplitud del intervalo se determina por medio del nivel de confianza y de la magnitud del
0.025
0.025 -1.96
- 23 -
0
1.96
Escala de Z
error estándar de la media. Ya se ha descrito la forma de encontrar el valor z para un nivel de confianza particular. Se trata, en realidad, de la desviación estándar de la distribución muestral de medias. La fórmula es:
√
donde:
Es posible seleccionar cualquier nivel de confianza entre 0% y 100% y encontrar el valor correspondiente para z . En general, un intervalo de confianza para la media poblacional, cuando se conoce la desviación estándar poblacional, se calcula de la siguiente manera:
INTERVALO DE CONFIANZA PARA LA MEDIA POBLACIONAL CON UNA CONOCIDA
es el símbolo del error estándar de la media; se utiliza la letra griega porque se trata de un valor poblacional, y el subíndice recuerda que se refiere a la distribución muestral de medias. es la desviación estándar poblacional. es el número de observaciones en la muestra.
En esta fórmula z depende del nivel de confianza. Por consiguiente, para un nivel de confianza de 92%, el valor de z en la fórmula es de ±1.75. el valor de z proviene de la tabla de distribución normal. Esta tabla se basa en la mitad de la distribución normal, por lo que 92/200 = 0.4600. El valor más próximo en el cuerpo de la tabla es de 0.4599, y el valor de z correspondiente es de 1.75.
La magnitud del error estándar se ve afectada por dos valores. El primero es la desviación estándar de la población. Mientras mayor sea la desviación estándar de la población, mayor será . Si la población es homogénea, de modo que genere una desviación estándar poblacional pequeña, el error estándar también será pequeño. Sin embargo, la cantidad de observaciones en la muestra también afecta al error estándar. Una muestra grande generará un error estándar pequeño en el estimado, lo que indicará que hay menos variabilidad en las medias muestrales.
√
√
Nivel de Probabilidad media Valor confianza más cercana z 80% 0.3997 1.28 94% 0.4699 1.88 96% 0.4798 2.05 El siguiente ejemplo muestra los detalles para calcular un intervalo de confianza e interpreta el resultado.
Los siguientes cálculos en el caso de un intervalo de confianza de 95% se resumen en la siguiente fórmula:
√ √
Ejemplo. La Asociación Americana de Administración desea informar acerca del ingreso medio de los gerentes de la industria del menudeo. Una muestra aleatoria de 256 gerentes revela una media muestral de $45 420. La desviación estándar de esta muestra es de $2 050. A la asociación le gustaría responder las siguientes preguntas:
De manera similar, un intervalo de confianza de 99% se calcula de la siguiente manera:
1. ¿Cuál es la media de la población? 2. ¿Cuál es un conjunto de valores razonable para la media poblacional?
Como ya se señaló, los valores de ±1.96 y ±2.58 son valores de z correspondientes a 95% medio y 99% de las observaciones, respectivamente. - 24 -
3. ¿Cómo se deben interpretar estos resultados?
diagrama muestra los resultados de seleccionar muestras de la población de gerentes, se calcula la media de cada una y, con la fórmula, se determina un intervalo de confianza de 95% para la media poblacional. Observe que no todos los intervalos incluyen la media poblacional. Los dos puntos extremos de la quinta muestra son inferiores a la media poblacional. Esto se debe al error de muestreo, que constituye el riesgo que se asume cuando se selecciona el nivel de confianza.
Solución: En este caso, una muestra de 256 gerentes es lo bastante grande para suponer que la distribución muestral tenderá a seguir la distribución normal. A continuación se responden las preguntas planteadas en el ejemplo. 1) ¿Cuál es la media de la población? En este caso se ignora. Si se sabe que la media de la muestra es de $45 420. De ahí que la mejor estimación del valor de la población sea el estadístico de la muestra correspondiente. Por consiguiente, la media de la muestra de $45 420 constituye un estimador puntual de la media poblacional desconocida. 2) ¿Cuál es el conjunto de valores razonable para la media poblacional? La asociación decide utilizar un nivel de confianza de 95%. Para determinar el intervalo de confianza correspondiente se aplica la fórmula:
√ √ =
=
Es de costumbre redondear estos puntos extremos a $45 169 y $45 671. Estos puntos extremos reciben el nombre de lími tes de confianza . El grado de confianza o nivel de confianza es de 95%, y el intervalo de confianza abarca de $45 169 a $45 671. Con frecuencia, $251 se conoce como margen de err or .
Au toevalu ación 9.1 Bund-and-Rund es una franquicia de comida rápida, la cual se especializa en hamburguesas de media onza, y sándwiches de pescado y de pollo. También ofrece refrescos y papas a la francesa. El departamento de planeación informa que la distribución de ventas diarias de los restaurantes tiende a seguir la distribución normal. La desviación estándar de la distribución de ventas diarias es de $3 000. Una muestra de 40 mostró que las ventas medias diarias son de $20 000. a) ¿Cuál es la media de la población? b) ¿Cuál es la mejor estimación de la media de la población? ¿Qué nombre recibe este valor? c) Construya un intervalo de confianza de 99% para la media poblacional. d) Interprete el intervalo de confianza.
3) ¿Cómo se deben interpretar estos resultados? Suponga que selecciona varias muestras de 256 gerentes. Para cada muestra, calcula la media y después construye un intervalo de confianza de 95%, como en la sección anterior. Puede esperar que alrededor de 95% de estos intervalos de confianza contengan la media de la población. Cerca de 5% de los intervalos no contendrían el ingreso anual medio poblacional, No obstante, un intervalo de confianza particular contiene el parámetro poblacional o no lo contiene. El siguiente
Solución: a. La media poblacional si no se conoce asume el valor de la media muestral .
b. El mejor valor de Puntual.
es $20 000 y a esto se le conoce como Estimador
c. Se construye el intervalo de confianza de 99%: - 25 -
N.C de 99%
la muestra y utilizarla como estimador, pero quizá no conocería la desviación estándar de la población.
99/200 = 0.495, se busca en la tabla de la distribución normal y = 2.58.
̅ √ √ √
Por fortuna se utiliza la desviación estándar de la muestra para estimar la desviación estándar de la población. Es decir, se utiliza s, la desviación
Se utiliza la fórmula para construir el intervalo de confianza:
→ 20 000 → 20 000
18 776
̅ √
= 20 000 – 1223.80 = 18 776.2 = 18 776 = 20 000 + 1223.80= 21 223.8 = 21 224
La distribución es una distribución de probabilidad continua, con muchas
21 224
características similares a las de la distribución . William Gosset, experto cervecero, estaba interesado en el comportamiento exacto de la distribución del siguiente estadístico:
̅ √
√
t
d. Con un nivel de confianza de 99% las ventas de la franquicia Bundand-Rund estarán entre $18 776 y $21 224.
Desviación estándar de la población σ desconocida. En la mayoría de los casos de muestreo no se conoce la desviación de la población (σ). He aquí un ejemplo en el que se pretende se pretende estimar la media poblacional y es poco probable que se conozca la desviación estándar.
estándar de la muestra, para estimar σ, la desviación estándar de la población.
No obstante, al hacerlo no es posible utilizar la fórmula para calcular . Como se conoce σ, no puede utilizar la distribución . Sin embargo, hay una solución: utilizar la desviación estándar de la media y sustituir la distribución con la distribución .
Aquí, s es un estimador de σ. Le preocupaba la discrepancia entre s y σ cuando s se calculaba a partir de una muestra muy pequeña. La distribución y la distribución normal estándar se muestra en la gráfica 9.1. Observe en particular que la distribución es más plana y que se extiende más que la distribución normal estándar. Esto se debe a que la desviación estándar de la distribución es mayor que la distribución normal estándar.
El decano de la facultad de Administración de la UCP desea estimar la cantidad media de horas de estudiantes de tiempo completos con trabajos remunerativos cada semana. Selecciona una muestra de 30 estudiantes; se pone en contacto con cada estudiante y les pregunta cuántas horas laboraron la semana pasada. De acuerdo con la información de la muestra, puede calcular la media muestral, pero no es probable que conozca o pueda determinar la desviación estándar poblacional (σ) que se requiere para aplicar la fórmula. Puede calcular la desviación estándar de - 26 -
Grafica 9.1 Distribución normal estándar y distribución de Student.
Las siguientes características de la distribución se basan en el supuesto de que la población de interés es una naturaleza normal, o casi normal.
1. Como en el caso de la distribución , es una distribución continua. 2. Como en el caso de la distribución , tiene forma de campana y es simétrica. 3. No existe una distribución , sino una familia de distribuciones . Todas las distribuciones tiene una media de 0, y sus desviaciones estándares difieren de acuerdo con el tamaño de la muestra, . Existe una distribución para un tamaño de muestra de 20, otro para un tamaño de muestra de 22, etc. La desviación estándar para una distribución con 5 observaciones es mayor que para una distribución con 20 0bservaciones. 4. La distribución se extiende más y es más plana por el centro que la distribución normal estándar (véase la gráfica 9.1). Sin embargo, conforme se incrementa el tamaño de la muestra, la distribución se aproxima a la distribución normal estándar, pues los errores que se cometen al utilizar para estimar σ disminuyen con muestras más grandes.
Gráfica 9.2 Valores de
√
INTERVALO DE CONFIANZA PARA LA MEDIA POBLACIONAL CON UNA CONOCIDA
Para crear un intervalo de confianza para la media poblacional con una desviación estándar desconocida:
Como la distribución posee mayor dispersión que ladistribución , el valor de para un nivel de confianza dado tiene una magnitud mayor que el valor correspondiente La gráfica 9.2 muestra los valores de para un nivel de confianza de 95% y de para el mismo nivel de confianza cuando el tamaño de la muestra es de = 5.
para el nivel de confianza de 95%
Para crear un intervalo de confianza para la media poblacional con la distribución , se ajusta la fórmula para calcular el estadístico dela siguiente manera.
1. Suponga que la población muestreada es normal o aproximadamente normal. 2. Estime la desviación de la población estándar σ con la desviación estándar de la muestra ( . 3. Utilice la distribución en lugar de la distribución . La decisión de utilizar o se basa en el hecho de que se conoce σ, la desviación estándar poblacional. Si se conoce la desviación estándar
- 27 -
√
poblacional, entonces se utiliza . Si no se conoce la desviación estándar poblacional, se debe utilizar . La gráfica 9.3 resume el proceso de toma de decisión.
De acuerdo con la información dada, = 0.32, = 0.09 y = 10. Para hallar el valor de , utilice la tabla de Distribución de Student. Se desea el nivel de confianza de 95%, se identifica los grados de libertad ( , en este caso sería igual a , identificados estos números se hallará que el valor de .
Se supone que la población es normal
Para determinar el intervalo de confianza se sustituyen los valores en la fórmula:
¿Se conoce la
√ √ ̅ √ ̅ √
desviación estándar de la población?
Se utiliza la
distribución
=
Se utiliza la
distribución
=
→
= 0.2556 = 0.256
→
= 0.3843 = 0.384
0.256
0.384
Ejemplo. Un fabricante de llantas desea investigar la durabilidad de sus productos. Una muestra de 10 llantas para recorrer 50 000 millas reveló una media muestral de 0.32 pulgadas de cuerda restante con una desviación estándar de 0.09 pulgadas. Construya un intervalo de confianza de 95% para la media poblacional. ¿Sería razonable que el fabricante concluyera que después de 50 000 millas la cantidad media poblacional de cuerda restante es de 0.30 pulgadas?
Los puntos extremos del intervalo de confianza son 0.256 y 0.384. ¿Cómo interpretar este resultado? Resulta razonable concluir que la media poblacional se encuentra en este intervalo. El fabricante puede estar seguro (95% seguro) de que la profundidad media de las cuerdas oscila entre 0.256 y 0.384 pulgadas. Como el valor de 0.30 se encuentra en este intervalo, es posible que la media de la población sea de 0.30 pulgadas.
Solución: Para comenzar, se supone que la distribución de la población es normal. En este caso no hay muchas evidencias, pero tal vez la suposición sea razonable. No se conoce la desviación estándar de la población, pero si se conoce la desviación estándar de la muestra, que es de 0.09 pulgadas. Se aplica la fórmula:
Au toevalu ación 9.2 Dottie Kleman es la Cookie Lady. H ornea y vende galletas en 50 lugares. La señora Kleman está interesada en el ausentismo entre sus trabajadores. La siguiente información se refiere al número de días de ausencia de una muestra de 10 trabajadores durante el último periodo de pago de dos semanas. - 28 -
4
1
2
2
1
2
2
1
0
√
→ 1.8
3
a) Determine la media y la desviación estándar de la muestra. b) ¿Cuál es la media poblacional? ¿Cuál es la mejor estimación de dicho valor? c) Construya un intervalo de confianza de 95% para la media poblacional. d) Explique la razón por la que se utiliza la distribución como parte del intervalo de confianza. e) ¿Es razonable concluir que la trabajadora común no falta ningún día durante un periodo de pago?
̅ √
e. El valor de 0 no se encuentra en el intervalo. Por lo tanto no es razonable concluir que la cantidad media de días de ausencias laborales sea de 0 por empleado.
Intervalo de confianza de una proporción
El material hasta ahora expuesto en este capítulo utiliza la escala nominal de medición de razón. Es decir, se emplean variables como ingresos, pesos, distancias y edades.
=
b. La media poblacional no se conoce. El mejor estimador es la media de la muestra igual a 1.8 días.
PROPORCION. Fracción, razón o porcentaje que indica la parte de la muestra de la población que posee un rasgo de interés particular.
c. Se construye el intervalo de confianza de 95%:
Ejemplo: Una encuesta reciente indicó que 92 de cada 100 entrevistados estaban de acuerdo con el horario de verano para ahorrar energía. La proporción de la muestra es de 92/100, ó 0.92, ó 92%. Si ρ representa la proporción de la muestra, X el número de éxitos, y el número de elementos de la muestra, se determina una proporción muestral de la siguiente manera:
N.C de 95%, se busca en la tabla de la distribución de Student, con = 10 – 1 = 9, y se encuentra que
̅ √ √
Se utiliza la fórmula para construir el intervalo de confianza:
→ 1.8
̅ √
d. Se utiliza porque no se conoce la desviación estándar.
Se calcula la desviación estándar con la fórmula:
2.61
Los puntos extremos del intervalo de confianza están entre 0.99 y 2.61.
Solución: a. Se calcula la media mediante la fórmula:
=
0.99
= 1.8 + 0.812 = 2.6121= 2.61
PROPORCION MUESTRAL
= 1.8 – 0.812 = 0.9879= 0.99 - 29 -
La proporción de la población se define por medio de π. Por consiguiente, π se refiere al porcentaje de éxitos en la población. Para crear un intervalo de confianza para una proporción, es necesario cumplir con los siguientes supuestos:
cualquier fusión. Una muestra aleatoria de 2 000 miembros actuales de BBA revela que 1 600 planean votar por la propuesta. ¿Qué es el estimador de la proporción poblacional? Determine un intervalo de confianza de 95% para la proporción poblacional. Fundamente su decisión en esta información de la muestra: ¿puede concluir que la proporción necesaria de miembros del BBA favorece la fusión? ¿Por qué?
= 0.80.
= 0,475
Se construye el intervalo de confianza con la fórmula:
→ →
Para crear un intervalo de confianza para una proporción de población se aplica la fórmula:
Ejemplo. El sindicato que representa a BBA considera la propuesta de fusión con Teamsters Union. De acuerdo con el reglamento del sindicato de BBA, por lo menos tres cuartas partes de los miembros del sindicato deben aprobar
→ ρ=
=
Se calcula la proporción: ρ =
→ 95% →
Entonces el 80% de los miembros de BBA favorecen la propuesta de fusión.
2. Los valores y deben ser mayores o iguales que 5. Esta condición permite recurrir al teorema del límite central y emplear la distribución normal estándar, es decir, , para completar un intervalo de confianza..
INTERVALO DE CONFIANZA DE LA PROPORCION DE UNA POBLACION
Solución: Tenemos los siguientes datos: = 2 000; = 1 600;
1. Las condiciones binomiales, han quedado satisfechas. En resumen, estas condiciones son: a) Los datos de la muestra son resultados de conteos. b) Sólo hay dos posibles resultados (lo normal es referirse a uno de los resultados como éxito y al otro fracaso) c) La probabilidad de un éxito permanece igual de una prueba a la siguiente. d) Las pruebas son independientes. Esto significa que el resultado de la prueba no influye en el resultado de otra.
̃̃
78%
= 0.782 = 0.818
=
0.78 0.82
82%
Los puntos extremos del intervalo de confianza son 0.78 y 0.82. El punto más bajo es mayor que 75%. Así, es probable que se apruebe la propuesta de fusión, pues el estimador del intervalo incluye valores superiores a 75% de los miembros del sindicato. Au toevalu ación 9.3 - 30 -
Se llevó a cabo una encuesta de mercado para calcular la proporción de amas de casa que reconocen el nombre de la marca de un limpiador a partir de la forma y color del envase. De las 1 400 amas de casa de la muestra, 420 identificaron la marca por su nombre. a) Calcule el valor de la proporción de la población. b) Construya un intervalo de confianza de 995 para la proporción poblacional. c) Interprete sus conclusiones.
Solución: Tenemos los siguientes datos: = 1 400; a. Se calcula la proporción: ρ =
= 420;
→ 99% →
→ ρ= = 0.30.
Este ajuste recibe el nombre de factor de corr ección de una poblaci ón f in ita , el cual es: (FCP)
= 0,495
La tabla 9.2 muestra los efectos de diversos tamaños de muestras. Note que, cuando la muestra es menor que 5% de la población, el efecto del factor de corrección es muy pequeño. La regla usual consiste en que si la razón es menor que 0.05, se ignora el factor de corrección.
Entonces el 30% de amas de casa identificaron la marca por su nombre.
b. Se construye el intervalo de confianza con la fórmula:
̃̃ =
→
= 0.268 0.27
→
= 0.332 0.33
27%
En el caso de una población finita, en la que el número total de objetos o individuos es y el número de objetos o individuos en la muestra es , es necesario ajustar los errores muestrales en las fórmulas de los intervalos de confianza. En otras palabras, para determinar el intervalo de confianza para la media, se ajusta el error estándar de la media en la fórmula. Si está determinado el intervalo de confianza para una proporción, necesita ajustar el error estándar de la proporción en la fórmula.
=
TABLA 9.2 Factor de corrección de una población finita de muestras seleccionadas cuando la población es de 1000 Tamaño de la muestra 10 25 50 100 200 500
33%
c. Los puntos extremos del intervalo de confianza son 0.27 y 0.33. Alrededor del 99% de los intervalos construidos de forma similar incluirán la media poblacional.
Factor de corrección de una población finita - 31 -
Fracción de la población 0.010 0.025 0.050 0.100 0.200 0.500
Factor de corrección 0.9955 0.9879 0.9752 0.9492 0.8949 0.7075
√ √ √ √
Así, si quisiera construir un intervalo de confianza para la media a partir de una población finita sin conocer la desviación estándar de la población, la formula se ajusta de la siguiente manera:
=
√
2.
→
→
→
= 431.65
→
= 468.35
431.65
Ejemplo. Hay 250 familias en Punchana. Una muestra aleatoria de 40 de estas familia revela que la contribución anual media a la iglesia fue de $450, y la desviación estándar, de $75. ¿La media poblacional puede ser de $445 ó $425? 1) ¿Cuál es la media de la población? ¿Cuál es el mejor estimador de la media poblacional? 2) Analice la razón por la que se debe emplear el factor de corrección para una población finita. 3) Construya un intervalo de confianza de 90% para la media de la población. ¿Cuáles son los puntos extremos del intervalo de confianza? 4) Interprete el intervalo de confianza. Solución: 1. No se conoce la media poblacional. El mejor estimador de la media poblacional es la media muestral = 450.
468.35
Los puntos extremos del intervalo de confianza son $431.65 y $468.35.
4. Es probable que la media poblacional sea más de 431 y menos de 468. La media puede ser $445 pero no es probable que sea $425 porque este valor no pertenece al intervalo de confianza; en cambio, $445 se encuentra dentro del intervalo. Au toevalu ación 9.4 El mismo estudio relacionado con las contribuciones para la iglesia de Punchana reveló que 15 de las 40 familias tomadas de la muestra asisten continuamente a la iglesia. Construya un intervalo de confianza de 95% para la población de familias que asisten a la iglesia continuamente. ¿Se debe emplear el factor de corrección para una población finita? ¿Por qué?
Por lo tanto se usa el FCP
Solución: Calculamos la proporción de la muestra
3. Construimos el intervalo de confianza con la fórmula:
=
ρ=
Como no se conoce la desviación estándar de la población se usará la distribución .
; →
→
. - 32 -
→ ρ=
= 0.375.
Se utiliza la fórmula de la proporción porque se trata de una parte de la población y ajustamos en ella la fórmula del FCP:
̃̃
=
→
= 0.237 0.24
→
= 0.513 0.51
24%
donde: es el tamaño de la muestra. es el valor normal estándar correspondiente al nivel de confianza deseado. es la desviación estándar de la población. es el error máximo admisible.
51%
Ejemplo. Un estudiante de administración desea determinar la cantidad media que ganan al mes los miembros del os consejos ciudadanos de las grandes ciudades. El error al calcular la media debe ser inferior a $100, con un nivel de confianza de 95%. El estudiante encontró un informe del Departamento del Trabajo en el que la desviación estándar es de $1 000. ¿Cuál es el tamaño de la muestra que se requiere?
La proporción de fieles que asisten continuamente a la iglesia se encontrarán entre 24% y 51%.
→
→
Por lo tanto se usa el FCP
Elección del tamaño adecuando de una muestra El tamaño adecuado de una muestra depende de tres factores: 1) El nivel de confianza deseado. 2) El margen de error que tolerará el investigador 3) La variabilidad de la población que se estudia.
Solución: Tenemos los siguientes datos: = $100 con N.C 95% = 1.96 = $1 000
La interacción entre estos tres factores y el tamaño de la muestra se expresa con la siguiente fórmula:
√
=
Al despejar en esta ecuación se obtiene el siguiente resultado: TAMA O DE LA MUESTRA PARA ESTIMAR LA MEDIA D ELA POBLACION
Al sustituir los valores en la siguiente fórmula se obtiene lo siguiente:
- 33 -
= 384.16
Redondeamos el valor de al entero superior, por lo tanto = 385. Se requiere una muestra de 385 miembros los consejos para satisfacer las especificaciones.
El procedimiento descrito puede adaptarse para determinar el tamaño de la muestra en el caso de una proporción. De nuevo, es necesario especificar:
1) El nivel de confianza deseado. 2) El margen de error en la proporción de la población. 3) Una aproximación de la proporción de la población. La fórmula para determinar el tamaño de la muestra para una proporción es: TAMA O DE LA MUESTRA PARA LA PROPORCION DE LA POBLACION
Si se cuenta con un estimador disponible de a partir de un estudio piloto, se puede utilizar. Por otra parte, se utiliza 0.50 porque el término jamás puede ser mayor cuando Por ejemplo, si , entonces ; pero cuando .
Ejemplo. En el estudio del ejemplo anterior también se calcula la proporción de ciudades que cuentan con recolectores de basura privados. El estudiante desea que el margen de error se encuentre a 0.10 de la proporción de la población; el nivel de confianza deseado es de 90%, y no se encuentra disponible ningún estimador para la proporción de la población. ¿Cuál es el tamaño de la muestra que se requiere? Solución: Tenemos los siguientes datos: = 0.10 con N.C 90% = 1.65 = 0.50
Se aplica la fórmula para calcular el tamaño de la muestra para la proporción de la población:
= 68.062
Redondeamos el valor de al entero superior, por lo tanto estudiante necesita una muestra aleatoria de 69 ciudades.
= 69. El
Redondeamos el valor de al entero superior, por lo tanto = 385. Se requiere unamuestra de 385 miembros los consejos para satisfacer las especificaciones.
Au toevalu ación 9.5 ¿Ayudaría al secretario académico de la universidad a determinar cuántas boletas tiene que estudiar? El secretario desea calcular el promedio aritmético de las calificaciones de los estudiantes que se graduaron los pasados 10 años. Los promedios oscilan entre 2.0 y 0.4. el promedio se va calcular a 0.05 más o menos de la media poblacional. La desviación estándar se calcula es de 0.279. Utilice el nivel de confianza de 99%. Solución: Tenemos los siguientes datos: = 0.05 con N.C 99% = 2.58 = 0.279
Al sustituir los valores en la siguiente fórmula se obtiene lo siguiente:
=
- 34 -
= 207.245
Redondeamos el valor de al entero superior, por lo tanto secretario académico tendrá que estudiar 208 boletas
Por lo tanto hay la seguridad razonable de que la media de la población se encontrará entre 51% y 59% con un nivel de confianza de 99%.
= 208. El
EJERCICIOS RESUELTOS 1) Se toma una muestra de 49 observaciones de una población normal con una desviación estándar de 10. La media de la muestra es de 55. Determine el intervalo de confianza de 99% para la media poblacional.
3) Se selecciona una muestra de 10 observaciones de una población normal para la cual la desviación estándar poblacional se sabe que es de 5. La media de la muestra es de 20. a) Determine el error estándar de la media. b) Explique por qué se debe utilizar (9.1) para determinar el intervalo de confianza de 95%, aunque la muestra sea inferior a 30. c) Determine el intervalo de confianza de 95% para la media de la población. Solución:
√ √
a. El error estándar se calcula mediante
=
Solución
El nivel de confianza al 99% tenemos → 99% =0.495 → = 2.58 Se utiliza la fórmula para construir el intervalo de confianza:
̅ √ √ √
→ 55
= 55 – 3.69 = 51.31= 51
→ 55
= 55 +3.69 = 58.69 = 59
51%
̅ √
= 1.58
b. Se utiliza la fórmula cuando n de 30 si se conoce la desviación estándar o, cuando se sabe que la distribución es normal. c. Se construye el intervalo de confianza de 95%: N.C de 95% 95/200 = 0.475, se busca en la tabla de la distribución normal y = 1.96. Se utiliza la fórmula para construir el intervalo de confianza:
→ 20 → 20
59%
̅ √
17%
- 35 -
√ –
= 20 – 3.0968 = 19.90 = 16.9 = 20 + 3.0968 = 23.09 = 23.1 23%
√
√
√
Con un nivel de confianza de 95% la media poblacional se encontraría en un intervalo de confianza entre 17% y 23% aproximadamente.
5) Una empresa de investigación llevó a cabo una encuesta para determinar la cantidad media que los fumadores gastan en cigarrillos durante una semana. La empresa encontró que la distribución de cantidades gastadas 7) por semana tendía a seguir la distribución normal con una desviación estándar de $5. Una muestra de 49 fumadores reveló que la media es 20. a) ¿Cuál es el estimador puntual de la media poblacional? Explique. b) Con un nivel de confianza de 95% determine el intervalo de confianza para la media poblacional. Explique lo que significa.
Solución:
a. El mejor estimador puntual vendría a ser la media muestral ( ) que es igual a 20. b. Con los siguientes datos: = 20 Se construye el intervalo de confianza de 95%: N.C de 95% 95/200 = 0.475, se busca en la tabla de la distribución normal y = 1.96. Se utiliza la fórmula para construir el intervalo de confianza:
→ 20
– √ √
√
a. El mejor estimador puntual vendría a ser la media muestral ( ) que es igual a 8.60. b. Con los siguientes datos:
→ 20
21.4%
Con un nivel de confianza de 95% la media poblacional de la cantidad de cigarrillos gastados en una semana se encontraría en un intervalo de confianza entre 18.6% y 21.4% aproximadamente. A Bob le gustaría estimar la cantidad de galones de gasolina vendidos a sus clientes. Suponga que la cantidad de galones vendidos tiende a seguir una distribución normal, con una desviación estándar de 2.30 galones. De acuerdo con sus registros, selecciona una muestra aleatoria de 60 ventas y descubre que la cantidad de galones vendidos es de 8.60. a) ¿Cuál es el estimador puntual de la media poblacional? b) Establezca un intervalo de confianza de 99% para la media poblacional. Interprete el significado. Solución:
σ = 5. n = 49
18.6%
σ = 2.30. n = 60
√
= 8.60 Se construye el intervalo de confianza de 95%: N.C de 99% 99/200 = 0.495, se busca en la tabla de la distribución normal y = 2.58. Se utiliza la fórmula para construir el intervalo de confianza:
= 20 – 1.40 = 18.6
= 20 + 1.40 = 21.4
→ 8.60 - 36 -
– √
√
= 8.6 – 0.766 = 9.37
√ √
→ 8.60
7.83%
d) Construya un intervalo de confianza de 95% para la media de la población. e) ¿Es razonable concluir que la media poblacional es de 21 huevos? ¿Y de 25 huevos?
= 8.6 + 0.766 = 7.83
9.37%
√
Solución:
c. N.C al 95%
9) Utilice la tabla de los valores de t para localizarlo en las siguientes condiciones. a) El tamaño de la muestra es de 12, y el nivel de confianza, de 95%. b) El tamaño de la muestra es de 20, y el nivel de confianza, de 90%. c) El tamaño de la muestra es de 8, y el nivel de confianza, de 99%. Solución:
a. N.C al 95% b. N.C al 90% c. N.C al 99%
a. Se desconoce la media poblacional, pero la mejor estimación es de 20 que vendría a ser la media muestral ( ). b. Utilice la distribución t , ya que no se conoce la desviación estándar. Sin embargo, suponga que la distribución tiene una distribución normal.
Con un nivel de confianza de 99% la media poblacional de los galones vendidos se encontraría en un intervalo de confianza entre 7.83% y 9.37% aproximadamente.
t = 2.093, con grados de libertad gl = 20 – 1 = 19.
d. Se utiliza la fórmula para construir el intervalo de confianza:
√
– √ √ √
t = 2.201, con grados de libertad gl = 12 – 1 = 11. t = 1.729, con grados de libertad gl = 20 – 1 = 19. t = 3.499, con grados de libertad gl = 8 – 1 = 7.
→ 20
= 20 – 0.936 = 19.06
→ 20
= 20 + 0.936 = 20.94
19.1
20.9
√
11) El propietario de una granja desea calcular la cantidad media de huevos que pone cada gallina. Una muestra de 20 gallinas indica que ponen un Los puntos extremos del intervalo de confianza están entre 19.1 y promedio de 20 huevos al mes, con una desviación estándar de 2 huevos al 20.9. mes. a) ¿Cuál es el valor de la media de la población? ¿Cuál es el mejor e. Tanto 21 huevos, como 25 huevos no son razonables porque no se estimador de este valor? encuentran dentro del intervalo de confianza construido. b) Explique por qué necesita utilizar una distribución t . ¿Qué suposiciones necesita hacer? c) ¿Cuál es el valor de t para un intervalo de confianza de 95%? 13) Dos grandes empresas contemplan ofrecer de forma conjunta servicio de guardería para sus empleados. Como parte del estudio de viabilidad del - 37 -
proyecto, desean calcular el costo medio semanal por el cuidado de niños de los empleados. Una muestra de 10 empleados que recurren al servicio de guardería revela las siguientes cantidades gastadas la semana pasada.
15) Un propietario de una estación de gasolina desea determinar la proporción de clientes que utilizan tarjeta de crédito o débito para pagar la gasolina en el aérea de las bombas. Entrevistó a 100 clientes y descubre que 80 pagaron en el área de las bombas. $107 $92 $97 $95 $105 $101 $91 $99 $95 $104 a) Calcule el valor de la proporción de la población. b) Construya un intervalo de confianza de 95% para la proporción Construya un intervalo de confianza de 90% para la media poblacional. poblacional. Interprete el resultado. c) Interprete sus conclusiones. Solución:
Solución:
Calculamos la media y la desviación estándar de la muestra con la calculadora y se obtiene: = 98.6 = 5.54
Construimos el intervalo de confianza. t = 1.833, con grados de libertad gl = 10 – 1 = 9. N.C al 90% Se utiliza la fórmula:
– √ √
→ 98.6 → 98.6
95.4
√
Se calcula la proporción: ρ =
→ ρ=
= 0.80.
Entonces el 80% de los clientes pagaron con tarjeta.
√
= 98.6 – 3.21 = 95.4
→ →
= 98.6 + 3.21 = 101.8
a. Tenemos los siguientes datos: = 100; = 80; → 95% → = 0,475
Se construye el intervalo de confianza con la fórmula:
76%
101.8
√
Los puntos extremos del intervalo de confianza están entre 95.4 y 101.8. es decir que la media poblacional de la cantidad de huevos que pone cada gallina al mes se encuentra entre 95.4 y 101.8.
=
=
= 0.76 = 0.84
84%
Los puntos extremos del intervalo de confianza son 0.76 y 0.84. Hay seguridad razonable de que la proporción de los clientes que pagaron con tarjeta se encuentre entre 76% y 80%.
- 38 -
17) La red Fox Tv considera reemplazar reemplazar uno de sus programas de Los puntos extremos del intervalo de confianza son 0.56 y 0.69. Hay investigación de crímenes que se transmite durante las horas de mayor seguridad razonable de que la proporción de los telespectadores que audiencia, con una nueva comedia orientada a la familia. Antes de tomar verían el programa de comedia se encuentre entre 56% y 69%. una decisión definitiva, los ejecutivos estudian una muestra de 400 telespectadores. Después de ver la comedia, 250 afirmaron que la verían y sugirieron reemplazar el programa de investigación de crímenes. 19) Se seleccionan seleccionan al azar 36 artículos de una población de 300. La media de a) Calcule el valor de la proporción de la población. la muestra es de 35, y la desviación estándar, de 5. Construya un intervalo b) Construya un intervalo de confianza de 99% para la proporción de 95% para la media poblacional. poblacional. c) Interprete los resultados que obtuvo. Solución: Solución: Tenemos los siguientes datos: a. Tenemos los siguientes datos: n = 36 = 400; = 250; → 99% → = 2.58 N = 300 = = 35 = 0.625 Se calcula la proporción: ρ = → ρ = S = = 5
̅
Entonces el 80% de los clientes pagaron con tarjeta.
Se construye el intervalo de confianza con la fórmula:
=
→ →
56%
=
√ √ ; →
=
= 0.563 = 0.56 = 0.689 = 0.69
Como no se conoce la desviación estándar de la población se usará la distribución .
69%
→
= 33.41
→
= 36.59
33.41
- 39 -
√
.
→
=
36.59
√
Los puntos extremos del intervalo de confianza son 33.41 y 36. 59.
Los puntos extremos del intervalo de confianza son 1.68 y 2.0 4.
calcula que una población tiene una desviación estándar de 10. Desea 21) La asistencia asistencia al juego de béisbol de la liga menor de la noche anterior anterior fue 23) Se calcula estimar la media de la población a menos de 2 unidades del error máximo de 400. Una muestra aleatoria de 50 asistentes reveló que la cantidad admisible, con un nivel de confianza de 95%. ¿De qué tamaño debe ser la media de refrescos consumidos por personas fue de 1.86, con una muestra? desviación estándar de 0.50. Construya un intervalo de confianza de 99% para la cantidad media de refrescos refrescos consumidos por persona. Solución:
Solución:
σ = 10 E = = 2 →
Tenemos los siguientes datos: n = 50 N = 400 = = 1.86 S = = 0.50
̅
→
=
= 1.683= 1.68
→
= 2.038 = 2.04
√
→
.
Reemplazamos los valores en la fórmula para hallar el tamaño de la muestra.
= 96.04
Se redondea al entero superior y se obtiene que el tamaño de la muestra debe ser:
=
→
1.68
.
√ √
=
Como no se conoce la desviación estándar de la población se usará la distribución . ; →
Tenemos los datos:
25) El estimador de la proporción poblacional debe estar más o menos 0.05, con un nivel de confianza de 95%. El mejor estimador de la proporción poblacional es 0.15. ¿De qué tamaño debe ser la muestra que se requiere? Solución:
2.04
Tenemos los siguientes datos: ρ = 0.15 E = = 0.05 → →
√
- 40 -
.
Se reemplaza los valores dados en la siguiente fórmula:
95%. Los asesores políticos del presidente calculan que la proporción que apoya su política es de 0.60. a) ¿De qué tamaño debe ser la muestra que se requiere? requiere? b) ¿De qué qu é tamaño debe ser la muestra si no hubiera disponible ningún estimador de la proporción que apoya la política actual?
= 195.92
Se redondea el resultado al entero superior y se obtiene que el tamaño de la muestra muestra es:
Solución:
27) Se planea llevar a cabo una encuesta encuesta para determinar el el tiempo medio que ven televisión los ejecutivos corporativos. Una encuesta piloto indicó que el tiempo medio por semana es de 12 horas, con una desviación estándar de 3 horas. Se desea calcular el tiempo medio que se ve televisión a menos de un cuarto de hora. Se utilizará el nivel de confianza de 95%. ¿A cuántos ejecutivos debe entrevistar?
a. Tenemos los siguientes datos del problema: ρ = 0.60 E = = 0.04
→
Solución:
.
Reemplazamos los valores en la fórmula para hallar el tamaño de la muestra. =
= 576.24
Se redondea el resultado al entero superior y se obtiene que el tamaño de la muestra muestra es: b. Ahora no se tiene disponible el estimador y el resultado es:
.
Tenemos los siguientes datos del problema: σ = 3 horas E = = 0.25 horas → →
→
Se reemplaza los valores dados en la siguiente fórmula:
= 600.25
Se redondea el resultado al entero superior y se obtiene que el tamaño de la muestra muestra es:
= 553.10
Se redondea al entero superior y se obtiene que el tamaño de la . muestra debe ser: Es decir que se debería entrevistar a 554 ejecutivos.
29) Suponga que el presidente del país desea un cálculo de la proporción de la población que apoya su actual política po lítica relacionada con las revisiones del sistema de seguridad social. El presidente quiere que el cálculo encuentre a menos de 0.04 de la proporción real. Suponga un nivel de confianza de - 41 -
¿Qué es la prueba de hipótesis? Es un método que comienza con una afirmación, o suposición, sobre un parámetro de la población, como la media poblacional. PRUEBA DE HIPOTESIS. Procedimiento basado en evidencia de la muestra y la teoría de la hipótesis para determinar si la hipótesis es una afirmación razonable.
Procedimiento de cinco pasos para probar una hipótesis.
Existe un procedimiento de cinco pasos que sistematiza la prueba de una hipótesis; al llegar al paso 5, se está en posibilidad de rechazar o no la hipótesis. Sin embargo, la prueba de hipótesis, no prueba que algo es verdadero. Más bien, proporciona un tipo de prueba más allá de toda duda razonable.
CAPITULO 10 Pruebas de Hipótesis de una muestra Introducción Este capítulo tiene que ver con pruebas de hipótesis estadísticas. Primero hay que definir los términos de hipótesis estadística y prueba de hipótesis estadística. Después se muestran los pasos para llevar a cabo una prueba de hipótesis estadística. A continuación se aplican pruebas de hipótesis para medias y proporciones. En la última parte se describen los posibles errores que se deben al muestreo en las pruebas de hipótesis.
Se establece las hipótesis nula y alternativa
Se selecciona un nivel de significancia
Se identifica el estadístico de la prueba
Se formula una regla de decisiones
Se toma una muestra; se llega a una decisión
No se rechaza H 0
Se rechazaH 0 Y
Se aceptaH 1
Paso 1: Se establece la hipótesis nula ( H 0 ) y la hipótesis alternativa ( H 1 )
El primer paso consiste en establecer la hipótesis por probar, llamada hipótesis nula, que se designa H 0 .
¿Qué es una hipótesis?
Una hipótesis es una declaración relativa de una población. Se utilizan datos para verificar lo razonable del enunciado. A continuación se define la hipótesis.
HIPOTESIS NULA. Enunciado relativo al valor de un parámetro poblacional formulado con el fin de probar evidencia numérica.
HIPOTESIS. Afirmación relativa a un parámetro de la población sujeta a verificación.
- 42 -
La hipótesis alternativa describe lo que se concluirá si se rechaza la hipótesis nula. Se representa (H 1 ), también se conoce como hipótesis de investigación.
ESTAD STICO DE PRUEBA. Valor, determinado a partir de la información de la muestra, para determinar si se rechaza la hipótesis nula.
HIPOTESIS ALTERNATIVA. Afirmación que se acepta si los datos de la muestra ofrecen suficiente evidencia para rec hazar la hipótesis nula.
La prueba de hipótesis para la media (µ), cuando se conoce σ o el tamaño de la muestra es grande, es el estadístico de prueba z que se calcula de la siguiente manera:
Paso 2: Se selecciona un nivel de significancia
Después de establecer la hipótesis nula y alternativa, el siguiente paso consiste en determinar el nivel de significancia.
PRUEBA DE LA MEDIA CUANDO SE CONOCE σ.
Z
√
Paso 4: Se formula la regla de decisión.
NIVEL DE SIGNIFICANCIA. Probabilidad de rechazar la hipótesis nula cuando es verdadera.
conoce como nivel de riesgo.
Una regla de decisión es una afirmación sobre las condiciones específicas en que rechaza la hipótesis nula y aquellas en las que no se rechaza. La región o área de rechazo define la ubicación de todos esos valores que son tan grandes o tan pequeños que la probabilidad de que ocurran en una hipótesis nula verdadera es muy remota.
Al rechazar la hipótesis nula se incurre en un error tipo I. la probabilidad de cometer este tipo de error es α
En la grafica 10.1. se presenta la región de rechazo de una prueba de significancia.
El nivel de significancia se expresa con la letra griega α En ocasiones se le .
.
ERROR TIPO I. Rechazar la hipótesis nula, H 0, cuando es verdadera.
La probabilidad de cometer otro tipo de error, conocido como error tipo II, se expresa con la letra griega β. ERROR TIPO II. Aceptar la hipótesis nula,H 0, cuando es falsa.
Paso 3: Se selecciona el estadístico de prueba. Hay muchos estadísticos de prueba
- 43 -
GRAFICA 10.1. Distribución muestral del estadístico z; prueba de una cola a la derecha; nivel de significancia de 0.05.
representa un caso en el que la región de rechazo se encuentra en la cola izquierda (superior) de la distribución normal.
VALOR CR TICO. Punto de división entre la región en que se recha la hipótesis nula y aquella en la que se a cepta.
Paso 5: Se toma una decisión
Este último paso consiste en calcular el estadístico de la prueba, comparándolo con el valor crítico, y tomar la decisión de rechazar o no la hipótesis nula. Es necesario subrayar de nuevo que existe la posibilidad de que la hipótesis nula se rechace cuando en realidad no se debe rechazar (error tipo I). Asimismo, existe una posibilidad definible de que la hipótesis nula se acepte cuando debiera rechazarse (error tipo II).
GRAFICA 10.2 Distribución muestral para el estadístico z , prueba de cola izquierda, nivel de significancia 0.05. Una manera para determinar la ubicación de la región de rechazo consiste en mirar la dirección en la que señala el signo de desigualdad en la hipótesis alternativa (< o >).
Antes de llevar a cabo una prueba de hipótesis, es importante diferenciar entre una prueba significancia de una cola y una prueba de dos colas. RESUMEN DE LOS PASOS DE LA PRUEBA DE HIPOTESIS. 1. Se establece la hipótesis nula ( H 0) y la hipótesis alternativa ( H 1). 2. Se selecciona el nivel de significancia, es decir, α 3. Se selecciona un estadístico de prueba adecuado. 4. Se formula una regla de decisión con base en los pasos 1, 2 y 3 anteriores. 5. Se toma una decisión en lo que se refiere a la hipótesis nula con base en la información de la muestra. Se interpreta los resultados de la prueba.
En resumen, una prueba es de una cola cuando la hipótesis alternativa, H 1, indica una dirección, como: H 1: µ >k ó H 1: µ
Si no se especifica dirección alguna en la hipótesis alternativa, utilice una prueba de dos colas: H 1: µ ≠k
dónde: k es un valor determinado.
Pruebas para la media de una población: Se conoce la desviación estándar poblacional
Prueba de significancia de una y dos colas
Consulte la gráfica 10.1. Ésta describe una prueba de una cola. La región de rechazo se localiza en la cola derecha (superior) de la curva. La gráfica 10.2
Prueba de dos colas. - 44 -
Un ejemplo mostrará los detalles del procedimiento para probar una hipótesis en cinco pasos. También se desea usar una prueba de dos colas. Ejemplo. En una fábrica de muebles para oficina la producción semanal del escritorio modelo A325 tiene una distribución normal, con una media de 200 y una desviación estándar de 16. Por motivo de expansión en el mercado se introdujeron nuevos métodos de producción y se contrato a más empleados. Se ha mejorado el proceso de fabricación y se desea conocer si este ha mejorado. Se tomó una muestra de 50 semanas y se encontró que el promedio muestral de producción es de 203.5 muebles semanal. ¿La cantidad media de escritorios producidos en la planta es mayor de 200 escritorios semanales con un nivel de significancia de 0.01?
5) Decisión. Se acepta H 0, es decir el promedio semanal de población de muebles de la fábrica no es diferente a 200 escritorios. Cálculo de ρ
Solución: Se elabora la prueba de hipótesis:
ρ = 0.500 – 0.4394 = 0.0606
PRUEBA DE HIPOTESIS 1) Se elabora la hipótesis nula y la hipótesis alternativa H 0: µ = k El promedio semanal de muebles es de 200. H 1: µ > k El promedio semanal de muebles es mayor que 200. 2) El nivel de significancia α= 0.01 3) Se selecciona el estadístico.
√ √ ̃
z
z
=
= 1.5537
0,4394
0,5000
1.55
ρ > α, se acepta H 0 ρ < α, se rechaza H 0 ρ > α 6% 1%
p = 0.06 0
1,55
Conclusión: Se acepta H 0 , es decir la cantidad promedio de escritorios producidos es de 200 lo que indica que no hubo incremento en la cantidad de escritorios producidos.
4) Se formula la regla de decisión. Se rechaza H 0 cuando z > 2.33
- 45 -
2) El nivel de significación
Au toevalu ación 10.1 Heinz, un fabricante de cátsup, utiliza una máquina para vaciar 16 onzas de su salsa en botellas. A partir de su experiencia de varios años con la máquina despachadora, sabe que la cantidad de producto en cada botella tiene una distribución normal con una media de 16 onzas y una desviación estándar de 0.15 onzas. Una muestra de 15 botellas llenadas durante la hora pasada reveló que la cantidad media por botella es de 16.017 onzas. ¿La evidencia sugiere que la cantidad media despachada es diferente de 16 onzas? Utilice un nivel de significancia de 0.05. a) Establezca la hipótesis nula y la hipótesis alternativa. b) ¿Cuál es la posibilidad de cometer un error tipo I? c) Proporcione la fórmula para el estadístico de la prueba. d) Enuncie la regla de decisión. e) Determine el valor del estadístico de prueba. f) ¿Cuál es su decisión respecto de la hipótesis nula? g) Interprete en un enunciado el resultado de la prueba estadística.
c)
3) Se selecciona el estadístico.
√ →
Z
e)
= 0.439
El estadístico es: Z = 0.44
d) 4) Establecer la regla de decisión Rechazar
Solución: Se toma los siguientes datos: Tamaño de la muestra ( ) = 15 botellas. La media poblacional ( ) = 16.00 onzas. La desviación estándar poblacional ( ) = 0.15 onzas. La media muestral ( ) = 16.017 onzas.
Z
cuando Z < -1.96 ó Z > 1.96
Zona de aceptación Zona de rechazo
Zona de rechazo
H 0
H 0
H 0
PRUEBA DE HI POTESI S a) 1) Elaborar la hipótesis nula y la alternativa.
b)
0,025
0,025 -1,96
. El promedio de la cantidad de salsa en cada botella es igual a 16 onzas . El promedio de la cantidad de salsa en cada botella es diferente a 16 onzas.
f)
g) - 46 -
0
0,44
1,96
5) Decisión Se acepta El contenido promedio de salsa cátsup vaciadas en las botellas es de 16 onzas.
Si el valor de ρ < que α entonces se rechaza Si el valor de ρ > que α entonces se acepta
Prueba de una cola. Con el mismo ejemplo de la prueba de dos colas, ahora suponga que se desea saber si hubo incremento en la cantidad de unidades armadas. ¿Puede concluir, debido al mejoramiento de los métodos de producción, que la cantidad media de escritorios armados en las pasadas 50 semanas fue superior a 200? Observe la diferencia al formular el problema: Prueba de dos colas Prueba de una cola
.
.
Si el valor de ρ es muy grande, es probable que sea verdadera. Si el valor de ρ es muy pequeño, es probable que no sea verdadera.
El valor crítico para la prueba de una cola: i. Al restar 0.01 – 0.5000 = 0.4900 ii. Y con el valor, ubicar en la tabla el valor de z correspondiente.
Gráfica 10.3 Regiones de rechazo para las pruebas de una y dos colas; α = 0.01 Valor de ρ en la prueba de hipótesis. Al probar una hipótesis, se compara el estadístico de la prueba con un valor crítico.
Au toevalu ación 10.2 Consulte la autoevaluación 10.1. INTERPRETACIÓN DE LA IMPORTANCIA DE LA EVIDENCIA EN CONTRA DE H 0 a) Suponga que se modifica el penúltimo enunciado para que diga: ¿La Si el valor de ρ es menor que: evidencia sugiere que la cantidad media despachada es mayor que 16 a. 0.10, hay cierta evidencia de que H0no es verdadera. onzas? Establezca la hipótesis nula y la hipótesis b. 0.05, hay evidencia fuerte de que H0no es verdadera. alternativa en estas c. 0.01,condiciones. hay evidencia muy fuerte de que H0no es verdadera. b) ¿Cuál es la reglaextremadamente de decisión en lasfuerte de nuevas condiciones en el d. 0.001, hay evidencia que H0no esdefinidas verdadera. inciso a)? c) Un segunda muestra de 50 contenedores llenos reveló que la media es de 16.040 onzas. ¿Cuál es el valor del estadístico de la prueba para esta muestra? d) ¿cuál es la regla de decisión respecto de la h ipótesis nula? e) Interprete, en un solo enunciado, el resultado de la prueba estadística. f) ¿Cuál es el valor de ρ? ¿Cuál es su decisión respecto de la hipótesis nula con base en el valor de ρ? ¿Es la misma conclusión a la que se llegó en el inciso d)? Solución: Se toma los siguientes datos:
VALOR ρ. Probabilidad de observar un valor muestral tan extremo o más que el valor observado, si la hipótesis nula es verdadera.
- 47 -
Tamaño de la muestra ( ) = 50 botellas. La media poblacional ( ) = 16.00 onzas. La desviación estándar poblacional ( ) = 0.15 onzas. La media muestral ( ) = 16.040 onzas.
d. 5) Decisión Se rechaza
PRUEBA DE HI POTESI S
e.
a.
y se acepta
El contenido promedio de salsa cátsup despachadas en las botellas es superior a 16 onzas.
1) Elaborar la hipótesis nula y la alternativa.
. El promedio de la cantidad de salsa en cada botella es igual a 16 onzas . El promedio de la cantidad de salsa en cada botella es mayor a 16 onzas.
2) El nivel de significación f.
ρ = 0.500 – 0.4394 = 0.0606
3) Se selecciona el estadístico.
√
Z
c. b.
→
Cálculo de ρ
Z
ρ > α, se acepta H 0 ρ < α, se rechaza H 0 ρ < α 3% 5%
=1.886
El estadístico es: Z = 1.89 4) Establecer la regla de decisión Rechazar
0,5000
0,4706
cuando Z > 1.65 p = 0,03
Se rechaza Se acepta H 0
Se rechaza
- 48 -
1,89
, entonces es la misma conclusión establecida en el inciso d).
Prueba de la media poblacional: Desviación estándar
H 0
0,05
0
de la población desconocida
Solución: Calculamos la media muestral con la fórmula:
En la mayoría de los casos, la desviación estándar de la población es desconocida. Por consiguiente, σ debe basarse en estudios previos o . calcularse por medio de la desviación estándar de la muestra s Para determinar el valor del estadístico de la prueba utilice la distribución t con la fórmula anterior modificada de la siguiente manera: PRUEBA DE LA MEDIA; σ DESCONOCIDA.
√
). Con n – 1 grados de libertad (gl
=
= 10.04
Se elabora la prueba de hipótesis:
PRUEBA DE HIPOTESIS 1) Se elabora la hipótesis nula y la hipótesis alternativa H 0: µ = $60 El costo medio de atención de una queja es de $60. H 1: µ < $60 El costo medio de atención de una queja es menor de $60. 2) El nivel de significancia α = 0.01
Ejemplo. El departamento de quejas de una compañía informa que el costo medio para tramitar una queja es de $60. Una comparación industrial mostró que esta cantidad es mayor que en las demás compañías de seguros, así que la compañía tomó medidas para reducir gastos. Para evaluar el efecto de las medidas de reducción de gastos, el supervisor del departamento de queja seleccionó una muestra aleatoria de 26 quejas atendidas el mes pasado. La información de la muestra aparece a continuación. 62 67 51 58
En estas condiciones, el procedimiento estadístico correcto consiste en sustituir la distribución normal estándar con la distribución t .
49 53 54 51 76
Calculamos la desviación estándar de la muestra con la fórmula:
=
t
45 48 48 58 38
40 63 56 59
43 78 63 56
3) Se selecciona el estadístico.
√ √ ̃
t
61 64 69 57
=
t
4) Se formula la regla de decisión. Se rechaza H 0 cuando t > 2.33
¿Es razonable concluir que el costo medio de atención de una queja ahora es menor que $60 con un nivel de significancia de 0.01? - 49 Se acepta
= -1.818 -1.82
PRUEBA DE HI POTESI S 1) Elaborar la hipótesis nula y la alternativa.
. La vida media de una batería de reloj es de 305 días. . La vida media de una batería de reloj es mayor de 305 días.
2) El nivel de significación
5) Decisión. Se acepta H 0, es decir el costo medio de atención de quejas es igual a $60. Se concluye que no se demostró que las medidas de reducción de costos hayan bajado el costo medio por queja a menos d e $60.
3) Se selecciona el estadístico.
√ √
t
→ t
= 2.236
El estadístico es: t= 2.24
Au toevalu ación 10.3 La vida media de una batería de un reloj digital es de 305 días. Las vidas medias de las baterías se rigen por la distribución normal. Hace poco se modificó la batería para que tuviera mayor duración. Una muestra de 20 baterías modificadas exhibió una vida media de 311 días con una desviación estándar de 12 días. ¿La modificación incrementó la vida media de la batería? a) Formule la hipótesis nula y la hipótesis alternativa. b) Muestre la gráfica de la regla de decisión. Utilice el nivel de significancia 0.05. c) Calcule el valor de t . ¿Cuál es su decisión respecto de la hipótesis nula? Resuma sus resultados.
4) Establecer la regla de decisión Rechazar
cuando t >1.73
Se acepta H 0
Se rechaza H 0 0,05
Solución: Se toma los siguientes datos: Tamaño de la muestra ( ) = 20 baterías. La media poblacional ( ) = 305 días. La desviación estándar muestral ( ) = 12 días. La media muestral ( ) = 311 días.
0
1,73
2,24
5) Decisión Se rechaza y se acepta , es decir que la modificación en la no incrementó la vida mediabatería de un reloj a mas de 305 días.
Au toevalu ación 10.4 - 50 -
Se programa una máquina para llenar un frasco pequeño con 9.0 gramos de medicamento. Una muestra de ocho frascos arrojó las siguientes cantidades (en gramos) por botella. 9.2
8.7
8.9
8.6
8.8
8.5
8.7
9.0
¿Puede concluir que el peso medio es inferior a 9.0 gramos si el nivel de significancia es de 0.01? a) Formule la hipótesis nula y la hipótesis alternativa. b) ¿cuántos grados de libertad existen? c) Establezca la regla de decisión. d) Calcule el valor de t . ¿Qué decide respecto de la hipótesis nula? e) Aproxime el valor de ρ.
.0 gramos. La cantidad media para llenar con medicamento los frascos pequeños es de 9.0 gramos .0 gramos. La cantidad media para llenar con medicamento los frascos pequeños es menor de 9.0 gramos
2) El nivel de significación
√
3) Se selecciona el estadístico.
t
√
= -2.494
→ t
El estadístico es: t= -2.5
Solución: Se toma los siguientes datos: Tamaño de la muestra ( ) = 8 frascos. La media poblacional ( ) = 9.0 gramos.
Rechazar
cuando t < - 3.00
Calculamos la media muestral con la fórmula:
Calculamos la desviación estándar de la muestra con la fórmula:
=
4) Establecer la regla de decisión
=
Se rechaza H 0
= 0.227
Se elabora la prueba de hipótesis:
Se acepta H 0
0,01
-3,00 -2,5
PRUEBA DE HI POTESI S
0
5) Decisión Se acepta es decir que la cantidad promedio para llenar con medicamento los frascos pequeños es de 9.0 gramos.
1) Elaborar la hipótesis nula y la alternativa. - 51 -
1) Elaborar la hipótesis nula y la alternativa.
Cálculo de ρ El valor de ρ se aproxima, en este caso se encontrará entre 0.025 y 0.010.
La proporción para que sea electo el alcalde es de 80% de votos. La proporción para que sea electo el alcalde es menor de 80% de votos. 2) El nivel de significación
Pruebas relacionadas con proporciones.
Se deben hacer algunas suposiciones antes de probar una proporción se población. Para probar una hipótesis en cuanto a una proporción poblacional, se elige una muestra aleatoria de lapoblacion.se supone que se satisfacen los supuestos binomiales: 1) los datos de la muestra que se recogen son resultado de conteos; 2) el resultado de un experimento se clasifica en una de dos categorías mutuamente excluyentes – “éxito” o “fracaso” -; 3) la probabilidad de un éxito es la misma para cada prueba; 4) las pruebas son independientes, lo cual significa que el resultado de una prueba no influye en el resultado de las demás. La prueba que realizará en breve es adecuada cuando nπ y n(1 – π ) son de al menos 5. El tamaño de la muestra es n, yp, la proporción poblacional.
3) Se selecciona el estadístico.
√ →
→ z
z
= -2.80
El estadístico es: z -2.80.
PRUEBA DE HIPÓTESIS DE UNA PROPORCIÓN. z
4) Establecer la regla de decisión Rechazar cuando Z < - 1.65
Ejemplo. Suponga que a partir de las elecciones anteriores de un estado, para que sea electo un candidato a alcalde, es necesario que gane por lo menso 80% de los votos. El alcalde vigente está interesado en evaluar sus posibilidades de volver al cargo y hace planes para llevar a cabo una encuesta de 2 000 votantes registrados. Un sondeo reveló que de éstos, 1 550 votarían por él. Aplique el procedimiento para probar hipótesis y evalúe las posibilidades de que el alcalde sea reelegido con un 0.05 de nivel de significancia.
Se rechaza
Se acepta
H 0
H 0
0,05
Solución: Se aplica la prueba de hipótesis: PRUEBA DE HIPOTESIS
-2.80
-1,65
5) Decisión Se rechaza y se acepta menor de 80%. - 52 -
0
es decir que la proporción de votos es
Cálculo de ρ ρ = 0.500 – 0.4394 = 0.0606
La proporción de personas implicadas en accidentes de tránsito es menor que 40%
ρ > α, se aceptaH 0 ρ < α, se rechazaH 0 ρ > α 6% 5%
2) El nivel de significación
3) Se selecciona el estadístico. nπ > 5 → 200 (0.40) = 80 → 80 > 5 n (1 – π ) > 5 → 200 (0.60) = 120 → 120 > 5
→
Au toevalu ación 10.5 Un informe reciente de la Industria de Seguros indicó que 40% de las personas implicadas en accidentes de tránsito menores había tenido por lo menos un accidente los pasados 5 años. Un grupo de asesoría decidió investigar dicha afirmación, pues creía que la cantidad era muy grande. Una muestra de 200 accidentes de tránsito de este años mostró que 74 personas también estuvieron involucradas en otro accidente los pasados cinco años. Utilice el nivel de significancia de 0.01. a) ¿Se puede emplear z como estadístico de la prueba? Interprete. b) Formule la hipótesis nula y la hipótesis alternativa. c) Calcule el valor de z . y plantee su decisión respecto de la hipótesis nula. d) Determine e interprete el valor de ρ.
z
→ z
El estadístico es: z
= -0.866
-0.87
4) Establecer la regla de decisión Rechazar
cuando Z < - 2.33
Se rechaza H 0
Solución: PRUEBA DE HI POTESI S
Se acepta H 0
0,01
1) Elaborar la hipótesis nula y la alternativa.
→
-2,33
-0,87
0
5) Decisión Se acepta es decir que la proporción de personas implicadas en accidentes de tránsito es de 40%.
La proporción de personas implicadas en accidentes de tránsito es de 40% - 53 -
H 1: µ ≠ 50 El promedio de las observaciones es
Cálculo de ρ
ρ = 0.500 – 0.3078 = 0.1922
ρ > α, se acepta H 0 ρ < α, se rechaza H 0 ρ > α 19%
diferente de 50
2. Nivel de significancia: α = 0.05
1%
3. Estadístico:
√ √
Por lo tanto z = -1.2
Se acepta es decir que la proporción de personas que han tenido por lo menos un accidente de tránsito en los pasados 5 años es de 40%.
=
= -1.2
4. Regla de decisión: Se rechaza H 0 cuando > 1.96 ó cuando < -1.96
EJERCICOS RESUELTOS Responda las siguientes preguntas para los ejercicios 1 y 3: a) ¿Es una prueba de una o de dos colas?; b) ¿Cuál es la regla de decisión?; ¿Cuál es el valor del estadístico de la prueba?; d)¿Cuál es su decisión respecto de H 0?; e) ¿Cuál es el valor de p? Interprete este valor. 1)
Se rechaza H 0
Se cuenta con la siguiente información: H 0: µ = 50
Se rechaza H 0
0,025
H 1: µ ≠ 50
0,025 -1,96
La media muestral es de 49, y el tamaño de la mu estra, de 36. La deviación estándar de la población es de 5. Utilice el nivel de significancia de 0.05 Solución:
Se acepta H 0
-1,20
0
1,96
5. Decisión: Se acepta H 0, es decir el promedio de la población es µ = 50 Cálculo de ρ
PRUEBA DE HIPÓTESIS
ρ =
1. Elaboración de la Hipótesis Nula y Alternativa: H 0: µ = 50 El promedio de las observaciones es de 50
2(0.5000 – 0.3849) = 0.230
Con el MINITAB se calcula ρ = 0.23 Sí ρ > α , se acepta H 0 - 54 -
Sí ρ < α , se rechaza H 0 ρ > α 23% 5%
3)
5. Decisión: Se acepta H 0, es decir el promedio de la población es µ = 20
Cálculo de ρ
Interpretación: Una probabilidad de 23% de encontrar un valor de este tamaño con H 0 es verdadera. Una muestra de 36 observaciones se selecciona de una población normal. La media de la muestra es 21, y la desviación estándar de la población, 5. Lleve a cabo la prueba de hipótesis con el nivel de significancia de 0.05.
ρ =
0.5000 – 0.3849 = 0.115
Con el MINITAB se calcula ρ = 0.11 Sí ρ > α , se acepta H 0 Sí ρ < α , se rechaza H 0 ρ > α 11% 5%
Solución:
PRUEBA DE HIPÓTESIS 1. Elaboración de la Hipótesis Nula y Alternativa: H 0: µ = 36 El promedio de las observaciones es igual 36 H 1: µ > 36 El promedio de las observaciones es mayor a 36. 2. Nivel de significancia: α = 0.05
3. Estadístico:
√ √
=
Por lo tanto, z = 1.20 4. Regla de decisión: Se rechaza H 0 cuando < -1.65
0.5000
5)
= 1.20
0.3849 p = 0.1151
El fabricante de llantas radiales con cinturón de acero X-15 para camiones señala que el millaje medio 0que la llanta recorre antes de que se desgaste 1,20 las cuerdas es de 60 000 millas. La desviación estándar del millaje es de 5000 millas. Una empresa de camiones compró 48 llantas y encontró que el millaje medio para sus camiones es de 59 000 millas. ¿La experiencia de esta empresa es diferente de lo que afirma el fabricante en el nivel de significancia de 0.05? Solución:
PRUEBA DE HIPÓTESIS 1. Elaboración de la Hipótesis Nula y Alternativa: - 55 Se rechaza
Interpretación: Una probabilidad de 11% de encontrar un valor de ese tamaño con H 0 es verdadera.
H 0: µ
= 60 000 millas El promedio del millaje que recorren las llantas es igual a 60 000. H 1: µ ≠ 60 000 millas El promedio del millaje que recorren las llantas es diferente a 60 000.
Sí ρ > α, se acepta H 0 Sí ρ < α, se rechaza H 0 ρ > α 9% 5%
2. Nivel de significancia: α = 0.05
3. Estadístico:
√ √
=-
= - 0.69
Interpretación: La experiencia de la empresa de camiones no es diferente de la del fabricante. La probabilidad de encontrar un valor extremo de éste es de 49%.
Por lo tanto, z = -0.69 4. Regla de decisión: Se rechaza H 0 cuando > 1.96 ó cuando < -1.96
Se rechaza H 0
Se acepta H 0
7)
Se rechaza
Una encuesta nacional reciente determinó que los estudiantes de secundaria veían en promedio (media) 6.8 películas en DVD al mes, con una desviación estándar poblacional de 0.5 horas. Una muestra aleatoria de 36 estudiantes universitarios reveló que la cantidad media de película en DVD que vieron el mes pasado fue de 6.2. Con un nivel de significancia de 0.05, ¿puede concluir que los estudiantes universitarios ven menos películas en DVD que los estudiantes de secundaria?
H 0
Solución: 0,025
0,025 -1,96
-0.69
0
PRUEBA DE HIPÓTESIS
1,96
1. Elaboración de la Hipótesis Nula y Alternativa: H 0: µ = 6.8 El promedio de películas que ven los estudiantes universitarios es de 6.8 al mes. H 1: µ < 6.8 El promedio de películas que ven los estudiantes universitarios es menor de 6.8 al mes. 2. Nivel de significancia:
5. Decisión: Se acepta H 0, es decir el promedio del millaje que recorren las llantas es igual a 60 000. Cálculo de ρ
ρ =
2(0.5000 – 0.2549) = 0.490 Con el MINITAB se calcula ρ = 0.49
α = 0.05 - 56 -
3. Estadístico:
√ √
=-
Por lo tanto, z = -7.20
Interpretación: Se rechaza H 0 es decir el número medio de DVD que se observó es menor a 6.8 al mes. Si H 0 es verdadera, hay poca probabilidad de obtener una estadística así de pequeña.
= -7.2
4. Regla de decisión: Se rechaza H 0 cuando > 1.64
9)
Sean las siguientes hipótesis: H 0: µ = 10 H 1: µ > 10 Para una muestra aleatoria de 10 observaciones, la media muestral fue de 12, y la desviación estándar de la muestra, de 3. Utilice el nivel de significancia de 0.05. a) Formule la regla de decisión. b) Calcule el valor del estadístico de prueba. c) ¿Cuál es su decisión respecto de la hipótesis nula? Solución:
Se rechaza H 0
PRUEBA DE HIPÓTESIS 1. Elaboración de la Hipótesis Nula y Alternativa: H 0: µ = 10 El promedio de las observaciones es igual 10 H 1: µ > 10 El promedio de las observaciones es mayor a 10. 2. Nivel de significancia:
Se acepta H 0
0,05 -7,20
-1,65
0
5. Decisión: Se rechaza H 0, es decir el promedio de películas que ven los estudiantes universitarios es menor de 6.8 al mes.
α = 0.05
3. Estadístico:
√ √
Cálculo de ρ
Con el MINITAB se calcula ρ = 0.00 Sí ρ > α, se acepta H 0
Por lo tanto, t = 2.11 4. Regla de decisión: Se rechaza H 0 cuando > 1.833
Sí ρ < α, se rechaza H 0
ρ < α 0% 5%
- 57 -
=
= 2.108
PRUEBA DE HIPÓTESIS 1. Elaboración de la Hipótesis Nula y Alternativa: H 0: µ = 40 El promedio de llamadas por semana realizadas por los vendedores es igual a 40. H 1: µ > 40 El promedio de llamadas por semana realizadas por los vendedores es más de 40. 2. Nivel de significancia: α = 0.05
5. Decisión: Se rechaza H 0, es decir el promedio de las observaciones es mayor a 10.
3. Estadístico:
√ √
Por lo tanto, t = 5.040 4. Regla de decisión: Se rechaza H 0 cuando > 1.703
Cálculo de ρ
Con el MINITAB se calcula ρ Sí ρ < α, se rechaza H 0 Sí ρ < α, se rechaza H 0 ρ < α 3,2% 5%
=
= 5.039
= 0.032
Conclusión: Se rechaza H 0, es decir el promedio de las observaciones es mayor a 10. 11) Un gerente de ventas de una editorial de textos universitarios afirma que los representantes de ventas realizan en promedio 40 llamadas de ventas a la semana a profesores. Varios representantes señalan que el cálculo es muy bajo. Una muestra aleatoria de 28 representantes de ventas revela que la cantidad media de llamadas realizadas la semana pasada fue de 42. La desviación estándar de la muestra es de 2.1 llamadas. Con el nivel de significancia de 0.05, ¿puede concluir que la cantidad media de llamadas semanales por vendedor es más de 40?
Se rechaza
Se acepta
H 0
H 0
0,05 0
1,70
5,04
5. Decisión: Se rechaza H 0, es decir el promedio de llamadas por semana realizadas por los vendedores es más de 40. Cálculo de ρ
Solución:
Con el MINITAB se calcula ρ - 58 -
= 0.00
4. Regla de decisión: Se rechaza H 0 cuando > 1.740
Sí ρ > α, se acepta H 0
Sí ρ < α, se rechaza H 0 ρ
< α 0% 5%
Se rechaza H 0. Se llega a la conclusión que la cantidad de llamadas es superior a 40 por semana. 5. Decisión: Se rechaza H 0, es decir el promedio de duración de una bujía es mayor a 22 100 millas.
13) Un fabricante de bujías afirma que sus productos tienen una duración media superior a 22 100 millas. Suponga que la duración de las bujías se rige por una distribución normal. El dueño de una flotilla compró una buena cantidad de juegos de bujías. Una muestra de 18 juegos reveló que la duración media de las bujías era de 23 400 millas, y la desviación estándar, de 1 500 millas. ¿Existe evidencias que apoyen la afirmación del fabricante en el nivel de significancia 0.05? Solución:
Cálculo de ρ
Con el MINITAB se calcula ρ
= 0.001
Sí ρ > α, se acepta H 0 Sí ρ < α, se rechaza H 0 ρ < α 0,1% 5%
PRUEBA DE HIPÓTESIS
Se rechaza H 0 y se acepta H 1. Se llega a la conclusión que la duración o vida media de las bujías es mayor a 22 100 millas.
1. Elaboración de la Hipótesis Nula y Alternativa: H 0: µ = 22 100 millas El promedio de duración de una bujía es igual a 22 100 millas. H 1: µ > 22 100 millas El promedio de duración de una bujía es 15) Sean las siguientes hipótesis. H 0: µ = 20 mayor a 22 100 millas. H 1: µ < 20 2. Nivel de significancia: Una muestra aleatoria de cinco elementos dio como resultado los α = 0.05 siguientes valores: 18, 15, 12, 19 y 21. ¿Puede concluir que la media poblacional es menor que 20 con un nivel de significancia de 0.01? 3. Estadístico: a) Establezca la regla de decisión. b) Calcule el valor del estadístico de prueba. = = 3.677 c) Calcule el valor de ρ. Por lo tanto, t = 3.68
√ √
Solución: - 59 -
Se toma los siguientes datos: Tamaño de la muestra ( ) = 5 elementos. La media poblacional ( ) = 20 elementos.
Calculamos la media muestral con la fórmula:
5. Decisión Se acepta H 0 , es decir que el promedio de la población es igual a 20 .
Calculamos la desviación estándar de la muestra con la fórmula:
=
=
Cálculo de ρ Con el MINITAB se calcula ρ = 0.065 Sí ρ > α, se acepta H 0 Sí ρ < α, se rechaza H 0
= 3.536
Se elabora la prueba de hipótesis: PRUEBA DE HIPOTESIS 1. Elaborar la hipótesis nula y la alternativa.
. El promedio de la población es igual a 20. . El promedio de la población es menor a 20. 2. El nivel de significación α = 0.01
3. Se selecciona el estadístico.
√
t
=
√
El estadístico es: t = -1.90 4. Establecer la regla de decisión Se rechaza cuando t < - 3.747
= -1.897
ρ > α 6.5% 1%
Se rechaza H 1. No es posible llegar a la conclusión de que la media de la población es menor que 20. 19) Unas pescaderías sostienen que la cantidad media de trucha que se obtiene en un día completo de pesca en los ríos y arroyos es de 4.0. Para su actualización anual, el personal de la pescadería pidió a una muestra de los pescadores que llevaran la cuenta de los pescados que obtenían durante el día. Los números son: 4, 4, 3, 2, 6, 8, 7, 1, 9, 3, 1 y 6. Con el nivel de 0.05, ¿puede concluir que la cantidad media de pescados atrapados es mayor que 4.0? Calcule el valor de p.
Solución:
Se rechaza H 0
Se acepta H 0
- 60 -
Se toma los siguientes datos: Tamaño de la muestra ( ) = 12 truchas. La media poblacional ( ) = 4.0 truchas. Calculamos la media muestral con la fórmula:
5. Decisión Se acepta H 0 , es decir que la cantidad promedio de pescados atrapados durante un día es igual a 4.0.
Calculamos la desviación estándar de la muestra con la fórmula:
( – ) =
=
Cálculo de ρ Con el MINITAB se calcula ρ = 0.266 Sí ρ > α, se acepta H 0 Sí ρ < α, se rechaza H 0
= 2.68
Se elabora la prueba de hipótesis: PRUEBA DE HIPOTESIS 1. Elaborar la hipótesis nula y la alternativa. . La cantidad promedio de pescados atrapados durante un día es igual a 4.0. . La cantidad promedio de pescados atrapados durante un día es mayor a 4.0. 2. El nivel de significación α = 0.05 3. Se selecciona el estadístico.
ρ > α 26.6% 5%
√ √
t
=
Se acepta H 0. La cantidad media de pescados capturados no se ha mostrado muy superior a 4.0. el valor de p es mayor que 0.10.
21) Sean las siguientes hipótesis: Una muestra de 100 observaciones reveló que p = 0.75 ¿Puede rechazar la hipótesis nula en el nivel de significancia de 0.05? a) Formule la regla de decisión. b) Calcule el valor del estadístico de prueba. c) ¿Cuál es su decisión respecto a la hipótesis nula?
= 0.646
El estadístico es: t = 0.65 4. Establecer la regla de decisión Se rechaza cuando t > 1.796
Solución:
Se aplica la prueba de hipótesis: PRUEBA DE HIPOTESIS 1. Elaborar la hipótesis nula y la alternativa. La proporción de las observaciones es de 70%. La proporción de las observaciones es menor de 70%. 2. El nivel de significación
Se rechaza H 0
Se acepta H 0
0,05 0
0,65
1,80
- 61 -
α = 0.05
3. Se selecciona el estadístico.
z
= 1.091
El estadístico es: z 1.09
Conclusión. Se rechaza H 1 y se acepta H 0. En conclusión la proporción de las observaciones es de 70%.
4. Establecer la regla de decisión
23) El Ministerio de Transporte y comunicaciones informó que 52% de los conductores que viajan por autopista de cuota es de género masculino. Una muestra de 300 automóviles que viajaron el día de ayer por la autopista reveló que a 170 los manejaban hombres. Con un nivel de significancia de 0.01, ¿puede concluir que por la autopista de cuota manejaba una proporción mayor de hombres que lo indicado por las estadísticas nacionales?
Rechazar
cuando z > 1.65
Se rechaza Se acepta
Solución:
H 0
Se aplica la prueba de hipótesis: PRUEBA DE HIPOTESIS 1. Elaborar la hipótesis nula y la alternativa. La proporción de conductores varones que viajan por la autopista de cuotas es de 52%. La proporción de conductores varones que viajan por la autopista de cuotas es mayor que 52%. 2. El nivel de significación
H 0 0,05
5. Decisión Se acepta 70%.
0
1,09 1,65
es decir que la proporción de las observaciones es de
Cálculo de ρ ρ = 0.5000 – 0.3621 = 0.1379 ρ > α, se acepta H 0 ρ < α, se rechaza H 0
ρ > α 13.8% 5%
3. Se selecciona el estadístico.
→
- 62 0.5000
0.3621
p = 0.1379
z
5%
= 1.619
1%
El estadístico es: z 1.62.
4. Establecer la regla de decisión Rechazar
cuando Z > 2.33 Conclusión. Se acepta H 0. En conclusión la proporción de los varones que manejan por la autopista de cuotas es no mayor de 52% 25) Una pollería reconocida de la ciudad afirma que 90% de sus pedidos se entregan en 10 minutos desde que se hace el pedido. Una muestra de 100 pedidos mostró que 82 se entregaron en el tiempo prometido. Con un nivel de significancia de 0.10, ¿puede concluir que menos de 90% de los pedidos se entregó en menos de 10 minutos? Solución:
Se rechaza H 0
Se acepta H 0
Se aplica la prueba de hipótesis: PRUEBA DE HIPOTESIS
0,01
0
1,62
1. Elaborar la hipótesis nula y la alternativa. La proporción de los pedidos que se entregaron en 10 minutos es de 90%. La proporción de los pedidos que se entregaron en 10 minutos es menos del 90%.
2,33
5. Decisión Se rechaza y se acepta H 0, es decir la proporción de conductores varones que viajan por la autopista de cuotas es de 52%. Cálculo de ρ ρ = 0.5000 – 0.4474 = 0.0526
2. El nivel de significación ρ > α, se acepta H 0 ρ < α, se rechaza H 0 ρ > α
3. Se selecciona el estadístico. - 63 -
0%
→
1%
= -2.667
z
El estadístico es: z -2.667.
Conclusión. Se acepta H 1. En conclusión menos del 90% de los pedidos fueron entregados en menos de 10 minutos.
4. Establecer la regla de decisión Rechazar
cuando z < -1.28
CAPITULO 11 Pruebas de Hipótesis de dos muestras Introducción
Se rechaza
En este capítulo se amplía la idea de pruebas de hipótesis para dos muestras. Se seleccionan muestras aleatorias de dos poblaciones distintas para determinar si son iguales las medias o las proporciones de la población.
Se acepta H 0
H 0
Pruebas de hipótesis para dos muestras: Muestras independientes
0,10 -2,67
-1,28
0
Suponga que se selecciona una muestra aleatoria de 40 plomeros y otra de 35 electricistas, y que calcula la media de cada muestra. Después determina la diferencia entre las medias muestrales. Esta diferencia entre las medias muestrales es la que llama la atención. Si las poblaciones tienen la misma media, es de esperar que la diferencia entre las dos medias muestrales sea cero. Si hay alguna diferencia entre las medias poblacionales, esperaría determinar una diferencia entre las medias muestrales.
5. Decisión Se rechaza H 0 y se acepta , es decir la proporción de los pedidos que se entregaron en 10 minutos es menos del 90%. Cálculo de ρ ρ = 0.5000 – 0.4962 = 0.0038
ρ > α, se acepta H 0 ρ < α, se rechaza H 0 ρ > α
El obstáculo final es que se necesita saber acerca de la variabilidad de la distribución de las diferencias. O sea, ¿cuál es la desviación estándar de esta distribución de las diferencias? En la teoría estadística se demuestra que - 64 -
cuando se tiene poblaciones independientes, como en este caso, la distribución de las diferencias tiene una varianza (desviación estándar elevada al cuadrado) igual a la suma de dos varianzas individuales. En otras palabras, la varianza de la diferencia en medias muestrales ( - ) es igual a la suma de la varianza para los plomeros y de la varianza para los electricistas.
VARIANZA DE LA DISTRIBUCION DE LAS DIFERENCIAS EN MEDIAS
de víveres. En el procedimiento U-Scan, el cliente registra cada artículo, lo pone en una bolsa y coloca las bolsas en el carrito. Este procedimiento está diseñado para reducir el tiempo que un cliente pasa en la fila de la caja.. el gerente de la tienda desea saber si el tiempo medio de pago con el método tradicional es mayor que con U-Scan, para lo cual reunió la información siguiente sobre la muestra. El tiempo se mide desde el momento en que el cliente ingresa a la fila hasta que sus bolsas están en el carrito. De aquí que el tiempo incluye tanto la espera en la fila como el registro. ¿Cuál es el valor de ρ?
El término parece complejo, pero no es difícil interpretarlo. La parte 2 σ indica que es una varianza, y el subíndice, , que es una distribución de las diferencias de las medias muestrales. Es posible representar esta ecuación en forma más práctica con la raíz cuadrada, de modo que se obtenga la desviación estándar de la distribución o
Tipo de cliente Tradicional U-Scan
PRUEBA DE DOS MEDIAS DE MUESTRAS σ CONOCIDA
Desviación estándar de la población 0.40 minutos 0.30 minutos
Tamaño de la muestra 50 100
Solución:
“error estándar” de las diferencias. Por último, se estandariza la distribución
de las diferencias. El resultado es la ecuación siguiente:
Media muestral 5.50 minutos 5.30 minutos
PRUEBA DE HIPOTESIS 1) Se elabora la hipótesis nula y la hipótesis alternativa H 0: µ1 = µ 2 No hay diferencia entre los tiempos medios de pago para los dos grupos. H 1: µ1 ≠ µ2 Hay diferencia entre los tiempos medios de pago para los dos grupos. 2) El nivel de significancia α = 0.01
Antes de presentar un ejemplo repase las suposiciones necesarias para emplear esta fórmula. 1. Las dos muestras no deben estar relacionadas, es decir, deben ser independientes. 2. Debe conocerse la desviación estándar para las dos poblaciones.
3) Se selecciona el estadístico.
=
Ejemplo. Los clientes de un supermercado tienen una opción al pagar por sus compras. Pueden pagar en una caja registradora normal operada por un cajero, o emplea el nuevo procedimiento: U-Scan. En el procedimiento tradicional, un empleado registra cada artículo, lo pone en una banda transportadora de donde otro empleado lo toma y lo pone en una bolsa, y después en el carrito
4) Se formula la regla de decisión. Se rechaza H 0 cuando z > 2.33 - 65 -
= 3.13
deberse a la casualidad. La conclusión es que el método U-Scan es más rápido. Au toevalu ación 11.1 Un propietario de una empresa observó una diferencia en el total en dólares de las ventas entre los hombres y las mujeres que emplea como agentes de ventas. Una muestra de 40 días reveló que los hombres venden una media de $1 400 por concepto de venta de aparatos por día. Para una muestra de 50 días, las mujeres vendieron una media de $1 500 por concepto de venta de aparatos por día. Suponga que la desviación estándar para los hombres de $200 y para las mujeres $250. Con un nivel de significancia de 0.05, ¿puede el empresario concluir que la cantidad media vendida por día es mayor para las mujeres? a) Formule la hipótesis nula y la hipótesis alternativa. b) ¿Cuál es la regla de decisión? c) ¿Cuál es el valor del estadístico de prueba? d) ¿Cuál es su decisión respecto de la hipótesis nula? e) ¿Cuál es el valor de ρ? f) Interprete el resultado.
5) Decisión. Se rechaza H 0, es decir hay diferencia entre los tiempos medios de pago para los dos grupos. Cálculo de ρ ρ = 0.500 – 0.4990 = 0.0010
ρ > α, se acepta H 0 ρ < α, se rechaza H 0 ρ < α 0% 1%
Solución: PRUEBA DE HI POTESI S a. 1) Se elabora la hipótesis nula y la hipótesis alternativa
0,4990
0
H 0: µ M = µ H No hay diferencia entre la cantidad media vendida por los hombres y mujeres. H 1: µ M > µ H La cantidad media vendidas por las mujeres es mayor que el de los hombres.
p = 0,0010
3,13
2) El nivel de significancia α = 0.05
Conclusión: Se rechaza H 0 , es decir la diferencia de 0.20 minutos entre el tiempo medio de pago con el método tradicional es demasiado grande para
c. 3) Se selecciona el estadístico. - 66 -
=
b.
=2.11
4) Se formula la regla de decisión. Se rechaza H 0 cuando z > 1.65 Conclusión: Se rechaza H 0 es decir, la cantidad media vendida por día es mayor para las mujeres.
Prueba de proporciones de dos muestras En este estudio no se obtiene ninguna medida, sólo se clasifican los individuos u objetos. Después se toma la escala nominal de medición. Para realizar la prueba, suponga que la muestra es lo bastante grande para que la distribución normal sirva como una buena aproximación a la distribución binomial. El estadístico de prueba sigue la distribución normal estándar. El valor de z se calcula a partir de la siguiente fórmula: Se rechaza
Se acepta
H 0
H 0
PRUEBA DE PROPORCIONES DE DOS MUESTRAS
0.05
d.
0
1.65
2.11
Esta fórmula es la misma que la anterior con las proporciones muestrales respectivas en lugar de las medias muestrales, y con en lugar de las dos varianzas. Además:
5) Decisión. Se rechaza H 0 , es decir El total de ventas realizadas por las m ujeres es mayor que el de los hombres. Cálculo de ρ ρ = 0.500 – 0.4826 = 0.0174
ρ > α, se acepta H 0 ρ < α, se rechaza H 0 ρ < α 1,7%
n1 es el número de observaciones en la primera muestra. n2 es el número de observaciones en la segunda muestra. ρ1 es la proporción en la primera muestra que posee la característica. ρ1 es la proporción en la segunda muestra que posee la característica.
5% - 67 -
Se acepta
Se rechaza
z
ρc
es la proporción conjunta que posee la característica en las muestras combinadas. Se denomina estimado conjunto de la proporción poblacional y se calcula a partir de la fórmula siguiente: PROPORCION CONJUNTA
MJ = 19; MM = 62; n J = 100; n M = 200
ρ = ρ Se combina ahora las dos proporciones: ρ1 = ρ J =
1
Donde: X 1 es el número que posee la característica en la primera muestra. X 2 es el número que posee la característica en la segunda muestra.
J
=
ρc =
z
Ejemplo. Una compañía de perfumes desarrolló una fragancia nueva que planea comercializarla con el nombre de Heavenly. Varios estudios de mercado indican que Heavenly tiene buen potencial en el mercado. El departamento de ventas tiene interés en saber si hay alguna diferencia en las proporciones de mujeres jóvenes y mayores que comprarían el perfume si saliera al mercado. Hay dos poblaciones independientes, una de mujeres jóvenes y la otra de mujeres mayores. A cada una de las mujeres muestreadas se le pedirá que huela el perfume e indique si le gusta lo suficiente para comprar un frasco.
4) Se formula la regla de decisión. Se rechaza H 0 cuando z >1.96 ó z < -1.96
Solución: PRUEBA DE HIPOTESIS 1) Se elabora la hipótesis nula y la hipótesis alternativa H 0: π1 = π2 No hay diferencia en la proporción de mujeres jóvenes y mayores que comprarían Heavenly. H 1: π1 ≠ π2 Hay diferencia en la proporción de mujeres jóvenes y mayores que comprarían Heavenly. 2) El nivel de significancia α = 0.05 3) Se selecciona el estadístico. Se hallan primero las proporciones de cada grupo:
Se rechaza H 0
Se acepta H 0
Se rechaza H 0
0,025 -2,21
0,025 -1,96
0
1,96
5) Decisión. Se rechaza H 0. En conclusión, se dice que hay diferencia en la proporción de mujeres jóvenes y mayores que comprarían Heavenly.
Au toevalu ación 11.2 - 68 -
De 150 adultos que probaron un nuevo pastel sabor a durazno, 87 lo calificaron como excelente. De 200 niños muestreados, 123 lo calificaron como excelente. Con un nivel de significancia de 0.10, ¿puede concluir que existe una diferencia significativa en la proporción de adultos y la proporción de niños que calificaron al nuevo sabor como excelente? a) Formule la hipótesis nula y la hipótesis alternativa. b) ¿Cuál es la probabilidad de un error tipo I? c) ¿Se trata de una prueba de una o dos colas? d) ¿Cuál es su regla de decisión? e) ¿Cuál es el valor del estadístico de prueba? f) ¿Cuál es su decisión respecto de la hipótesis nula? g) ¿Cuál es el valor de ρ? Explique lo que significa en términos de este problema
ρ1 = ρ N =
Se combina ahora las dos proporciones:
ρc = e.
z
d. 4. Se formula la regla de decisión. Se rechaza H 0 cuando z > 1.65 ó z < -1.65
Solución: PRUEBA DE HI POTESI S a. 1. Se elabora la hipótesis nula y la hipótesis alternativa H 0: π 1 = π 2 No hay diferencia en la proporción de adultos y niños que calificaron al pastel como excelente. H 1: π 1 ≠ π 2 Hay diferencia en la proporción de adultos y niños que calificaron al pastel como excelente.
Se rechaza H 0
b. 2. El nivel de significancia α = 0.10
H 0
0,05 -1,65
1,65
5. Decisión. Se acepta H 0. En conclusión, se dice que no hay diferencia en la proporción de adultos y niños que calificaron al pastel como excelente.
M A= 87; M N = 123; n A = 150; n N = 200
-0.66
0
f.
Se hallan primero las proporciones de cada grupo:
ρ1 = ρ A =
Se rechaza
0,05
c. 3. Se selecciona el estadístico.
Se acepta H 0
- 69 -
g.
Cálculo del valor de ρ
VARIANZA CONJUNTA
ρ = 1 – 2(0.2454) = 1 – 0.4908 = 0.5092
=
donde:
= es la varianza (desviación estándar elevada al cuadrado) de la primera muestra. = es la varianza de la segunda muestra. El valor de t se calcula a partir de la ecuación siguiente: 0.2454
0.2454
PRUEBA DE MEDIAS DE DOS MUESTRAS σ DESCONOCIDAS
p
p
-0.66
0
0.66
Comparación de medias con desviaciones estándares de la población desconocida (la prueba t conjunta)
En esta sección se describe otro método para comparar medias muestrales de dos poblaciones independientes y determinar si las poblaciones muestreadas pueden tener, de forma razonable, la misma media. La fórmula para calcular el valor del estadístico de prueba t es similar a la fórmula de la prueba de dos medias de muestras σ conocida., pero es necesario un cálculo adicional. Las dos desviaciones estándares de las muestras se agrupan para formar una sola estimación de la desviación estándar desconocida de la población. Se calcula una media ponderada de las dos desviaciones estándares de las dos muestras y se emplea este valor como un estimado de la desviación estándar desconocida de la población. La siguiente fórmula se emplea para agrupar desviaciones estándares de las muestras. Observe que participan dos factores: el número de observaciones en cada muestra y las propias desviaciones estándares de las muestras.
Donde: es la media de la primera muestra. es la media de la segunda muestra. es el número de observaciones en la primera muestra. es el número de observaciones en la primera muestra. es el estimado conjunto de la varianza de la población. El número de grados de libertad de la prueba es el número total de elementos muestreados menos el número de muestras. Como hay dos muestras, hay grados de libertad.
Ejemplo. Owen Lawn Care, Inc., fabrica y ensambla podadoras de césped. Se han propuesto dos procedimientos distintos para el montaje del motor al chasis de la podadora. La pregunta es: ¿existe una diferencia en el tiempo medio para montar los motores al chasis de las podadoras? El primer procedimiento lo desarrolló Herb Welles, un empleado desde hace mucho tiempo de Owens (designado como procedimiento 1), y el otro lo desarrolló William Atkins - 70 -
(designado como procedimiento 2). Para evaluar los dos métodos, se decidió realizar un estudio de tiempos y movimientos. Se midió el tiempo de montaje en una muestra de 5 empleados según el método Welles y 6 con el método de Atkins. Los resultados, en minutos, aparecen a continuación. ¿Hay alguna diferencia en los tiempos medios de montaje? Utilice un nivel de confianza de 0.10. Welles Atkins (minutos) (minutos) 2 3 4 7 9 5 3 8 2 4 3
=
=
= 2.9155
= 8.5
= 2.0976
= 4.4
Se calcula la varianza conjunta con la fórmula:
=
=
= 6.222
Se calcula el estadístico de la prueba
=
Solución:
= - 0.662
4) Se formula la regla de decisión. Se rechaza H 0 cuando t > 1.833 ó t < -1.833
PRUEBA DE HIPOTESIS 1) Se elabora la hipótesis nula y la hipótesis alternativa H 0: µW = µA No hay diferencia entre los tiempos medios de montaje entre Welles y Atkins. H 1: µW ≠ µ A Hay diferencia entre los tiempos medios de montaje entre Welles y Atkins. 2) El nivel de significancia α = 0.10
Se acepta H 0
Se rechaza H 0
3) Se selecciona el estadístico. Primero calculamos las medias de las dos muestras.
Calculamos ahora las desviaciones estándares de las dos muestras.
= =4.00 = = 5.00
Se rechaza H 0
0,05
0,05 -1,83
-0.66 0
1,83
5) Decisión. Se acepta H 0. En conclusión, los tiempos de montaje de cada procedimiento son similares. - 71 -
H 1: µ M ≠ µ V Hay diferencia en el número de sillas defectuosas en los dos turnos.
Cálculo de ρ gl
Nivel de significancia para una prueba de dos colas, α 0.10 0.05 0.02 0.01 0.001 +0.20 0.200 -0.66 1.383 1.833 2.262 2.821 3.250 4.781
2. El nivel de significancia α = 0.05
9 Por lo tanto el valor de ρ es más del 20% ρ
c. 3. Se selecciona el estadístico.
> α
+ 20%
Primero calculamos las medias de las dos muestras.
5%
=
Au toevalu ación 11.3 El gerente de producción de una compañía fabricante de sillas de ruedas desea comparar el número de sillas de ruedas defectuosas producidas en el turno matutino con el turno vespertino. Una muestra de la producción de 6 turnos matutinos y 8 vespertino reveló el número de defectos siguientes. 5 8 7 6 9 7 Matutino 8 10 7 11 9 12 14 9 Vespertino Con un nivel de significancia de 0.05, ¿hay alguna diferencia en el número medio de defectos por turno? a) Formule la hipótesis nula y la hipótesis alternativa. b) ¿Cuál es su regla de decisión? c) ¿Cuál es el valor del estadístico de prueba? d) ¿Cuál es su decisión respecto de la hipótesis nula? e) ¿Cuál es el valor de ρ? f) Interprete el resultado. g) ¿Cuáles son las suposiciones necesarias para esta prueba?
= 7.00 =
Calculamos ahora las desviaciones estándares de las dos muestras. =
=
PRUEBA DE HI POTESI S a. H 0: µ No hay diferencia en el número de sillas defectuosas en M = µ V los dos turnos.
b.
= 5.143
= 3.8333
Se calcula el estadístico de la prueba
4. Se formula la regla de decisión. - 72 -
= 2
= 2.2678
=
=
1. Se elabora la hipótesis nula y la hipótesis alternativa
= 1.4142
Se calcula la varianza conjunta con la fórmula:
=
Solución:
= 10.00
= -
= - 2.837
Se rechaza H 0 cuando t > 2.18 ó t < -2.18
d. 5. Decisión. Se rechaza H 0 , es decir que hay diferencia en el número de sillas defectuosas en los dos turnos.
EJERCICIOS RESUELTOS
Cálculo de ρ
g.
gl 12
Nivel de significancia para una prueba de dos colas, α 0.200 0.10 0.05 0.02 0.01 0.001 1.383 1.833 2.262 2.821 3.250 4.781 - 2.84
Por lo tanto el valor de ρ se encontrará entre 0.02 y 0.01
ρ 1% - 2%
>
α 5%
1. Considere una muestra de 40 observaciones de una población con una desviación estándar de la población de 5. La media muestral es 102. Otra muestra de 50 observaciones de una segunda población tiene una desviación estándar de la población de 6. La media muestral es 99. Realice la prueba de hipótesis siguiente con el nivel de significancia de 0.04. H 0: µ1 = µ2 H 1: µ1 ≠ µ2 a) ¿Se trata de una prueba de una o de dos colas? b) Formule la regla de decisión. c) Calcule el valor del estadístico de prueba. d) ¿Cuál es su decisión respecto de H 0? e) ¿Cuál es el valor de p? : Solución - 73 -
PRUEBA DE HIPOTESIS 1) Se elabora la hipótesis nula y la hipótesis alternativa H 0: µ1 = µ2 No hay diferencia entre las medias de las dos poblaciones. H 1: µ1 ≠ µ2 Hay diferencia entre las medias de las dos poblaciones. 2) El nivel de significancia α = 0.04
Se rechaza H 0, es decir hay diferencia entre las medias de las dos poblaciones Cálculo de ρ ρ = 2(0.5000 – 0.4952) = 0.0096 ρ > α, se acepta H 0 ρ < α, se rechaza H 0 ρ < α 0% 4%
3) Se selecciona el estadístico.
=
= 2.59
4) Se formula la regla de decisión. Se rechaza H 0 cuando z < -2.05 o z > 2.05
p = 0.0048
3.
Se rechaza
Se acepta
Se rechaza H 0
H 0
0,02
5) Decisión.
H 0
0,02 -2,05
0
-2,59
0.4952
0.4952
0
p = 0.0048
2,59
Una compañía desea comparar el aumento de peso en bebés que consumen su producto en comparación con el producto de su competidor. Una muestra de 40 bebés que consumen los productos de esta compañía reveló un aumento de peso medio de 7.6 libras en los primeros tres meses después de nacidos. Para la marca de esta compañía, la desviación estándar de la población de la muestra es 2.3 libras. Una muestra de 55 bebés que consumen la marca del competidor reveló un aumento medio en peso de 8.1 libras. La desviación estándar de la población es 2.9 libras. Con un nivel de significancia de 0.05, ¿es posible concluir que los bebés que consumieron la marca de la compañía ganaron más peso? Calcule el valor de p. Solución:
PRUEBA DE HIPOTESIS 1) Se elabora la hipótesis nula y la hipótesis alternativa
2,05 2,59
- 74 -
µ1 = µ2 Los pesos medios de los bebés que consumieron los productos de la compañía y de su competidor son igual. H 1: µ1 < µ2 El peso medios de los bebés que consumieron la marca de la compañía es menor que el de los que consumieron de la otra. 2) El nivel de significancia α = 0.05 H 0:
Se acepta H 0, es decir los pesos medios de los bebés que consumieron los productos de la compañía y de su competidor son igual. Cálculo de ρ ρ = 0.5000 – 0.3264 = 0.1736 ρ > α, se acepta H 0 ρ < α, se rechaza H 0 ρ < α 17% 5%
3) Se selecciona el estadístico.
=
= - 0.94
p = 0.1736
4) Se formula la regla de decisión. Se rechaza H 0 cuando z < -1.65
-0,94
5.
Se rechaza H 0
Se acepta
0.5000
0.3264
0
Se rechaza H 1. Se concluye que los bebés que consumieron la marca de la compañía no ganaron más peso. Una analista financiero quiere comparar las tasas de recuperación, en porcentaje, para acciones relacionadas con el petróleo con otro tipo de acciones. Ella seleccionó 32 acciones relacionadas con el petróleo y 49 de otro tipo. La tasa de recuperación media de acciones relacionadas con el petróleo es 31.4%, y la desviación estándar de la población, 5.1%. Para las demás acciones, la tasa media que se calculó en 34.9%, y la desviación estándar de la población, en 6.7%. ¿Hay alguna diferencia relevante en las tasas de recuperación de los dos tipos de acciones? Utilice un nivel de significancia de 0.01.
H 0
: Solución
0,05 -1,65
-0,94
0
5) Decisión.
PRUEBA DE HIPOTESIS
1) Se elabora la hipótesis nula y la hipótesis alternativa - 75 -
H 0: µ1 = µ 2 No
hay diferencia entre las tasa de recuperación media de los dos tipos de acciones. H 1: µ1 ≠ µ 2 Hay diferencia entre las tasa de recuperación media de los dos tipos de acciones.
5) Decisión. Se rechaza H 0, es decir hay una diferencia entre las tasa de recuperación media de los dos tipos de acciones.
2) El nivel de significancia α = 0.01
Cálculo de ρ ρ = 2(0.5000 – 0.4961) = 0.0078 ρ > α, se acepta H 0 ρ < α, se rechaza H 0 ρ < α 0% 1%
3) Se selecciona el estadístico.
=
= - 2.662
4) Se formula la regla de decisión. Se rechaza H 0 cuando z < -2.58 o z > 2.58 p = 0.0039
7.
0 Las hipótesis-2,66 nula y alternativa son: H 0: π1 = π2 H 1: π1 > π2
Se rechaza
Se acepta H 0
H 0
-2,66 -2,58
0,005 0
2,58
0.4961
p = 0.0039
2,66
Una muestra de 100 observaciones de la primera población indicó que es 70. Una muestra de 150 observaciones de la segunda población reveló que es 90. Utilice un nivel de significancia de 0.05 para probar la hipótesis. a) Formule la regla de decisión. b) Calcule la proporción conjunta. c) Calcule el valor del estadístico de prueba. d) ¿Cuál es su decisión respecto de la hipótesis nula?
Se rechaza H 0
0,005
0.4961
Solución: - 76 -
PRUEBA DE HIPOTESIS 1) Se elabora la hipótesis nula y la hipótesis alternativa H 0: π1 = π2 No hay diferencia entre la proporción de la primera población y la segunda población. H 1: π1 > π 2 La proporción de la primera población es mayor que la de la segunda población. 2) El nivel de significancia α = 0.05
5) Decisión. Se acepta H 0. En conclusión, se dice que no hay diferencia entre la proporción de la primera población y la segunda población.
3) Se selecciona el estadístico. Se hallan primero las proporciones de cada grupo: X1 = 70; X2 = 90; n1 = 100; n2 = 150
Cálculo de ρ ρ = 0.5000 – 0.4463 = 0.0537 ρ > α, se acepta H 0 ρ < α, se rechaza H 0
ρ = Se combina ahora las dos proporciones: ρ1 =
ρ < α 5.3% 5%
1
9.
ρc =
z
4) Se formula la regla de decisión. Se rechaza H 0 cuando z >1.65
La familia Damon posee un viñedo grande. Los viñedos deben fumigarse al inicio de temporada de cultivo para protegerlos contra diversos insectos y enfermedades. Dos nuevos insecticidas acaban de salir al mercado: Pernod 5 y Action. Para probar su efectividad, se seleccionaron 3 hileras y se fumigaron con Pernod 5, y otras 3 se fumigaron con Action. Cuando las uvas maduraron, se revisaron 400 vides tratados con Pernod 5 para saber si no estaban infectadas. De igual forma, se reviso una muestra de 400 vides fumigadas con Action. Insecticida Pernod 5 Action
Se rechaza Se acepta H
H 0
- 77 -
Número de vides revisados 400 400
Número de vides infectados 24 40
Con un nivel de significancia de 0.05, ¿se puede concluir que existe una diferencia de proporción de vides infectados empleando Pernod 5 en comparación con los fumigados con Action?
Se rechaza H 0 cuando z < -1.96 ó z >1.96
Solución:
PRUEBA DE HIPOTESIS 1) Se elabora la hipótesis nula y la hipótesis alternativa H 0: π1 = π2 No hay diferencia entre la proporción de vides infectados empleando Pernod 5 en comparación con los fumigados con Action. H 1: π1 ≠ π2 Hay diferencia entre la proporción de vides infectados empleando Pernod 5 en comparación con los fumigados con Action. 2) El nivel de significancia α = 0.05 3) Se selecciona el estadístico. Se hallan primero las proporciones de cada grupo: ρ P =
Se rechaza H 0
1,96
Cálculo de ρ ρ = 2(0.5000 – 0.4817) = 0.0366 ρ > α, se acepta H 0 ρ < α, se rechaza H 0
0
5) Decisión. Se rechaza H 0. Es decir, hay diferencia entre la proporción de vides infectados empleando Pernod 5 en comparación con los fumigados con Action.
ρc =
0,025
-2,09 -1,96
ρ = Se combina ahora las dos proporciones:
Se rechaza H 0
0,025
A
Se acepta H 0
ρ < α 3.7% 5%
Conclusión: Se rechaza H 1 y se acepta H 0. Se concluye que la proporción infestada no es la misma entre los dos campos de vides.
4) Se formula la regla de decisión. - 78 -
z 11.
A una muestra de republicanos y demócratas influyentes se les preguntó, como parte de una encuesta, si estaban a favor de disminuir las normas ambientales para que se pudiera quemar carbón con lato contenido de azufre en las plantas eléctricas a base de carbón. Los resultados fueron: Número en la muestra Número a favor
4) Se formula la regla de decisión. Se rechaza H 0 cuando z > 2.05
Republicanos Demócratas 1 000 800 200 168
Con un nivel de significancia 0.02, ¿puede concluir que hay una proporción mayor de demócratas a favor de disminuir las normas? Determine el valor de p. Se rechaza
Solución:
PRUEBA DE HIPOTESIS 1) Se elabora la hipótesis nula y la hipótesis alternativa H 0: πD = πR No hay diferencia entre la proporción de demócratas y republicanos a favor de disminuir las normas. H 1: πD > πR La proporción de demócratas es mayor que la de republicanos a favor de disminuir las normas 2) El nivel de significancia α = 0.02 3) Se selecciona el estadístico.
Se acepta H 0
0,02 0
Cálculo de ρ ρ = 0.5000 – 0.1985 = 0.3015 ρ > α, se acepta H 0 ρ < α, se rechaza H 0
ρ = Se combina ahora las dos proporciones: R
ρc =
2.05
0,52 5) Decisión. Se acepta H 0. En conclusión, se dice que no hay diferencia entre la proporción de demócratas y republicanos a favor de disminuir las normas ambientales
ρ D =
H 0
ρ > α 30% 2%
- 79 -
Conclusión: Se rechaza H 1 y se acepta H 0. Se concluye que no hay diferencia en la proporción de demócratas y republicanos que favorecen los estándares. 13.
=
=
Se calcula el estadístico de la prueba
=
Las hipótesis nula y alternativa: H 0: µ1 = µ2 H 1: µ1 ≠ µ2 Una muestra aleatoria de 10 observaciones de una población reveló una media muestral de 23 y una desviación estándar de 4. Una muestra aleatoria de 8 observaciones de otra población reveló una media muestral de 26 y una desviación estándar de la muestra de 5. Con un nivel de significancia de 0.05, ¿hay alguna diferencia entre las medias poblacionales? a) Formule la regla de decisión. b) Calcule el estimado agrupado de la varianza de la población. c) Calcule el estadístico de prueba. d) Tome una decisión de la hipótesis nula. e) Calcule el valor de p.
= 19.938
= - 1.416
4) Se formula la regla de decisión. Se rechaza H 0 cuando t > 2.12 ó t < -2.12
Se rechaza
Se acepta H 0
Se rechaza H 0
H 0
0,025 0,025 5) Decisión. 0 2.12 Se acepta H . En conclusión, no hay diferencia entre las medias -2.12 -1.42 0 poblacionales
Solución: PRUEBA DE HIPOTESIS 1) Se elabora la hipótesis nula y la hipótesis alternativa H 0: µW = µ A No hay diferencia entre la media de la primera población y la segunda población. H 1: µW ≠ µA Hay diferencia entre la media de la primera población y la segunda población. 2) El nivel de significancia α = 0.05
Cálculo de ρ gl
9
Nivel de significancia para una prueba de dos colas, α
0.200 1.383
1.416
0.10 1.833
0.05 2.262
0.02 2.821
0.01 3.250
0.001 4.781
Por lo tanto el valor de ρ se encuentra entre 0.20 y 0.10, o sea que ρ está entre el 20% y el 10% ρ
3) Se selecciona el estadístico. Se calcula la varianza conjunta con la fórmula:
20-10%
- 80 -
> α 5%
provienen de poblaciones que tiene varianzas iguales, y también se aplica cuando se desean comparar medias poblacionales en forma simultánea. La comparación simultánea de varias medias poblacionales se denomina análisis de la varianza (ANOVA). ¿Cuáles son las características de la distribución F ? 1. Existe una familia de distribuciones F . Un miembro particular de la familia se determina mediante dos parámetros: los grados de libertad en el denominador y los grados de libertad en el denominador. La forma de distribución se ilustra en la siguiente gráfica.
CAPITULO 12
2. La distribución F es continua. Esto significa que se supone un número infinito de valores entre cero y el infinito positivo. 3. La distribución F no puede ser negativa. El valor menor que F puede tomar es 0. 4. tiene sesgo positivo. La cola larga de la distribución es hacia el lado derecho. Cuando el número de grados de libertad aumenta, tanto en el numerador como en el denominador, la distribución se aproxima a ser normal. 5. Es asintótica. Cuando los valores de X aumentan, la curva F se aproxima al eje X pero nunca lo toca.
Análisis de la varianza Introducción
En este capítulo se continúa el análisis de las pruebas de hipótesis y se amplía la idea de pruebas de hipótesis. Se describe una prueba para varianzas y, después, una prueba que compara en forma simultánea varias medias para determinar si provienen de poblaciones iguales.
La distribución F
Comparación de dos varianzas poblacionales
Esta distribución de probabilidad sirve como la distribución del estadístico de prueba para varias situaciones. Con ella se pone a prueba si dos muestras - 81 -
Con la distribución F se pone a prueba la hipótesis de quela varianza de una población normal es igual a la varianza de otra población normal. La distribución F también sirve para probar suposiciones de algunas pruebas estadísticas. Proporciona un medio para realizar una prueba considerando las varianzas de dos poblaciones normales. Las hipótesis nula y alternativa serían de la siguiente manera: H 0 : = ≠ H 1 : Para realizar la prueba, se selecciona una muestra aleatoria de n1 observaciones de una población y una muestra aleatoria de n2 observaciones de la segunda población. El estadístico de prueba se define como sigue:
70 54 64 Solución:
PRUEBA DE HIPOTESIS 1. Se elabora la hipótesis nula y la hipótesis alternativa H 0:
=
No hay diferencia en la variación de los tiempos de manejo por las dos rutas. H 1: ≠ Hay diferencia en la variación de los tiempos de manejo por las dos rutas. 2. El nivel de significancia α = 0.10
ESTAD STICO DE PRUEBA PARA COMPARAR DOS VARIANZAS
56 63 57 65
Los términos y son las varianzas muestrales respectivas. Si la hipótesis nula es verdadera, el estadístico de prueba sigue la distribución F con n1 – 1 y n2 – 1 grados de libertad.
3. Se selecciona el estadístico. Se calcula las varianzas por medio de una calculadora para hacerlo más rápido y se obtiene el siguiente resultado:
Ejemplo. Lammers Limos ofrece servicio de transporte en limusina al aeropuerto metropolitano. El presidente de la compañía considera dos rutas. Una por la carretera 25 y la otra por la autopista I-75. Desea estudiar el tiempo que tardaría en conducir al aeropuerto por cada ruta y luego comparar los resultados. Recopiló los siguientes datos muestrales, reportados en minutos. Mediante el nivel de significancia 0.10, ¿hay alguna diferencia en la variación en los tiempos de manejo para las dos rutas?
4. Se formula la regla de decisión. Se rechaza H 0 cuando F > 3.87
Carretera 25 25 67 56 45
= = 4.23
Autopista I-75 59 60 61 51 - 82 -
Se rechaza H 0
Au toevalu ación 12.1 Steele Electric Products, Inc., ensambla componentes para teléfonos celulares. Durante los últimos 10 días Mark Nagy ha promediado 9 productos rechazados con una desviación estándar de 2 rechazados por día. Debbie pro medió 8.5 productos rechazados con una desviación estándar de 1.5 rechazados durante el mismo periodo. Con un nivel de significancia de 0.05 ¿podría concluir que hay más variación en el número de productos rechazados por día de Mark?
Se acepta H 0
1. Se elabora la hipótesis nula y la hipótesis alternativa
>
0,05
5. Decisión. 1,78 3,18 0 Se acepta H 0 , es decir no hay diferencia en la variación en el número de productos rechazados por día entre los dos empleados.
PRUEBA DE HI POTESI S
H 1:
= 1.78
Se rechaza H 0
Solución:
=
4. Se formula la regla de decisión. Se rechaza H 0 cuando F > 3.18
5. Decisión. Se rechaza H 0. En conclusión, hay diferencia en la variación de los tiempos de manejo por las dos rutas.
H 0:
=
Suposiciones en el análisis de la varianza (ANOVA)
No hay diferencia en la variación en el número de productos rechazados por día entre los dos empleados. Hay más variación en el número de productos rechazados por día de Mark
Otro uso de la distribución F es el análisis de la técnica de la varianza (ANOVA), en la cual se comparan tres o más medias poblacionales para determinar si pueden ser iguales. Para emplear ANOVA, se supone lo siguiente: 1. Las poblaciones siguen la distribución normal. 2. Las poblaciones tienen desviaciones estándar iguales ( 3. Las poblaciones son independientes.
2. El nivel de significancia α = 0.10
3. Se selecciona el estadístico. Se calcula las varianzas por medio de una calculadora para hacerlo más rápido y se obtiene el siguiente resultado: - 83 -
Cuando se cumplen estas condiciones, F se emplea como la distribución del estadístico de prueba.
La prueba ANOVA
¿Cómo funciona la prueba ANOVA? Para explicar, recuerde una de las suposiciones descritas recientemente, fue que las desviaciones estándar de las diversas poblaciones normales tenían que ser las mismas. Se aprovecha este requisito en la prueba ANOVA. La estrategia es estimar la varianza de la población (desviación estándar al cuadrado) de dos formas y después determina la razón de dichos estimados. Si esta razón es aproximadamente 1, entonces por lógica los dos estimados son iguales, y se concluye que las medias poblacionales no son iguales. La distribución F sirve como un árbitro al indicar en qué instancia la razón de las varianzas muestrales es mucho mayor que 1 para haber ocurrido por casualidad. VARIACION TOTAL. Suma de las diferencias elevadas al cuadrado entre cada observación y la media global.
VARIACION DE TRATAMIENTO. Suma de las diferencias elevadas al cuadrado entre la media de cada tratamiento y la media total o global.
EJERCICIOS RESUELTOS 1)
VARIACION ALEATORIA. Suma de las diferencias elevadas al cuadrado entre cada observación y su media de tratamiento.
¿Cuál es el valor de F para una muestra de seis observaciones en el numerador y cuatro en el denominador? Utilice una prueba de dos colas y el nivel de significancia 0.10. Solución:
Ejemplo.
Para realizar este ejercicio necesitamos la tabla de los valores para la distribución F y ubicamos los siguientes resultados.
- 84 -
Para el numerador: n1 = 6 gl = 6 – 1 = 5 Para el denominador:
n2 = 4
En la tabla de distribución F : 5 3
3)
gl = 4 – 1 = 3
=
= 2.04
4. Se formula la regla de decisión. Se rechaza H 0 cuando F > 10.5
9.01
El valor de F es 9.01.
Se dan las siguientes hipótesis: H 0: = H 1: ≠ Es una muestra aleatoria de ocho observaciones de la primera población resultó una desviación estándar de 10. En una muestra aleatoria de seis observaciones de la segunda población resultó una desviación estándar de 7. Con un nivel de significancia de 0.02, ¿hay alguna diferencia en la variación de las dos poblaciones? Solución:
PRUEBA DE HIPOTESIS 1. Se elabora la hipótesis nula y la hipótesis alternativa H 0:
0,01
Se rechaza
Se acepta
H 0
H 0 0,01 0
5)
=
No hay diferencia en las variaciones de las dos poblaciones H 1: ≠ Hay diferencia en las variaciones de las dos poblaciones. 2. El nivel de significancia α = 0.02 3. Se selecciona el estadístico. Se calcula las varianzas por medio de una calculadora para hacerlo más rápido y se obtiene el siguiente resultado:
2,04
10,5
5. Decisión. Se acepta H 0. En conclusión, no hay diferencia en las variaciones de las dos poblaciones. Una empresa realiza un estudio sobre los hábitos de escuchar iPod de hombres y mujeres. Un aparte del estudio incluyó el tiempo de escucha medio. Se descubrió que el tiempo de escucha medio de los hombres era de 35 minutos por día. La desviación estándar de la muestra de los 10 hombres estudiados fue de 10 minutos por día. El tiempo de escucha medio de las 12 mujeres estudiadas fue de 35 minutos, pero la desviación estándar muestral fue de 12 minutos. Con un nivel de significancia de 0.10, ¿puede concluir que hay una diferencia en la variación en los tiempos de escucha para los hombres y mujeres? Solución:
PRUEBA DE HIPOTESIS 1. Se elabora la hipótesis nula y la hipótesis alternativa
- 85 -
H 0: H 1:
=
≠
No hay diferencia en las variaciones de las dos poblaciones Hay diferencia en las variaciones de las dos poblaciones.
2. El nivel de significancia α = 0.10 3. Se selecciona el estadístico. Se calcula las varianzas por medio de una calculadora para hacerlo más rápido y se obtiene el siguiente resultado:
5. Decisión. Se acepta H 0. En conclusión, no hay diferencia en las variaciones de las dos poblaciones. 7)
La siguiente es información muestral. Verifique la hipótesis de que las medias de tratamiento son iguales. Utilice el nivel de significancia 0.05
= = 1.44
Tratamiento 1 8 6 10 9
4. Se formula la regla de decisión. Se rechaza H 0 cuando F > 3.10 a) b) c) d) e)
Tratamiento 2 Tratamiento 3 3 3 2 4 4 5 3 4
Formule la hipótesis nula y alternativa. ¿Cuál es la regla de decisión? Calcule los valores SST, SSE, y SS total. Elabore una tabla ANOVA. Declare su decisión respecto de la hipótesis nula.
Solución:
PRUEBA DE HIPOTESIS 1. Se elabora la hipótesis nula y la hipótesis alternativa H 0: µ1 = µ2 = µ3 H 1: µ1 ≠ µ2 ≠ µ3 2. El nivel de significancia α = 0.05 3. Se selecciona el estadístico.
0,05
Se rechaza H 0
Se acepta H 0
Tto 1 0,05
0
1,44
3,10
- 86 -
Tto 2
Tto 3
Total
Total de la columna N
Media Por lo tanto
( X -
3 2 4 3
3 4 5 4
33 4 8.25
12 4 3
16 4 4
Error
Tto 2 4.33889 9.50489 1.17289 4.33889 19.35556
12.75
9
1.41667
Total 4. Se formula la regla de decisión. Se rechaza H 0 cuando F > 4.26
61 12 5.083
5. Decisión. Se rechaza H 0. En conclusión, hay diferencia en las variaciones de las poblaciones, no todas las medias de tratamientos son iguales
= 5.083
Tto 1 8.50889 0.840889 24.17689 15.34289 48.869559
Total
Tto 3 Total 4.33889 1.17289 0.00689 1.17289 6.69156 74.91668 (SS)
Por lo tanto SS = 74.917
( X -
Total
8 6 10 9
Tto 1 0.0625 5.0625 3.0625 0.5625 8.75
Tto 2 0 1 1 0 2
Tto 3 1 0 1 0 2
CAPITULO 17
Total
Métodos no paramétricos Introducción
12.75(SSE)
Hay pruebas disponibles en las cuales no es necesaria una suposición respecto de la forma de la población. A estas pruebas se les conoce como no paramétricas. Esto significa que no es necesario suponer una población normal. En este capítulo aparece un nuevo estadístico de prueba, el estadístico ji cuadrada, útil para datos medidos con una escala nominal.
Por lo tanto SSE = 12.75
SST = SS – SSE = 74.917 – 12.75 = 62.167 Fuente Variación
Suma cuadrados
Tratamientos
62.167
GL
2
Media Cuadrática
31.0835
F
Prueba de bondad de ajuste:
21.94 - 87 -
Si no hay diferencia significativa en la popularidad de los jugadores, se esperaría que las frecuencias observadas ( f o) fueran iguales, o casi iguales. Es decir se esperaría vender igual número de tarjetas. Por lo tanto, cualquier discrepancia en las frecuencias observada y esperada puede atribuirse al muestreo (casualidad).
frecuencias esperadas iguales La prueba de bondad de ajuste es una de las pruebas estadísticas de uso más común. La primera ilustración de esta prueba supone el caso en que las frecuencias esperadas de las celdas son iguales. Como su nombre lo indica, el propósito de la prueba de bondad de ajuste es comparar una distribución observada con una distribución esperada. ESTADÍSTICO DE PRUEBA JI CUADRADA
Como hay 120 tarjetas en la muestra, se espera que ( f e) sea 20 tarjetas, es decir, la frecuencia esperada, f e, aparecerá en cada una de las seis categorías (tabla 17.2). Estas categorías se denominan celdas. Tabla 17.2 Frecuencias observadas y esperadas de las 120 tarjetas vendidas. Tarjetas vendidas Número vendido Jugador esperado f e f o Ton Seaver 13 20 Nolan Ryan 33 20 Ty Cobb 14 20 George Brett 7 20 Hank Aaron 36 20 Johnny Bench 17 20 Total 120 120
* +
Ejemplo. Una gerente de marketing de un fabricante de tarjetas deportivas planea iniciar la venta de una serie de tarjetas con fotografías y estadísticas de juego de ex jugadores de las Ligas Mayores de Béisbol. Uno de los problemas es la selección de ex jugadores. En una exhibición de tarjetas de béisbol el pasado fin de semana, instaló un puesto y ofreció tarjetas de los siguientes seis jugadores miembros del Salón de la Fama: Tom Seaver, Nolan Ryan, Ty Cobb, George Brett, Hank Aaron y Johnny Bench. Al final del día vendió un total de 120 tarjetas. El número de tarjetas vendidas de cada jugador aparece en la tabla 17.1. ¿La gerente puede concluir que las ventas no son iguales por cada jugador? Tabla 17.1 Número de tarjetas vendidas de cada jugador Jugador Tarjetas vendidas Tom Seaver 13 Nolan Ryan 33 Ty Cobb 14 George Brett 7 Hank Aaron 36 Johnny Bench 17 Total 120
Solución: Se aplica la prueba de hipótesis: PRUEBA DE HIPOTESIS
1) Se elabora la hipótesis nula y la hipótesis alternativa H 0: No hay diferencia significativa entre los conjuntos de frecuencias observadas y frecuencias esperadas. H 1: Hay diferencia significativa entre los conjuntos de frecuencias observadas y frecuencias esperadas. 2) El nivel de significancia α= 0.05 - 88 -
3) Se selecciona el estadístico.
Jugador Ton Seaver Nolan Ryan Ty Cobb George Brett Hank Aaron Johnny Bench Total
f o
(f o – f e) 49 169 36 169 256 9 -
f e
13 33 14 7 36 17 120
20 20 20 20 20 20 120
5) Decisión. Se rechaza H 0, es decir hay diferencia entre los conjuntos de frecuencias observadas y frecuencias esperadas. Se concluye que es improbable que las ventas sean las mismas entre los seis jugadores.
(f o – f e) / f e 2.45 8.45 1.80 8.45 12.80 0.45 34.40
La distribución ji cuadrada, utilizada como el estadístico de prueba tiene las características siguientes:
Se ubica en la tabla el valor de la ji cuadrada con un nivel de significancia de 0.05 y con gl = 6 – 1 = 5.
4) Se formula la regla de decisión. Se rechaza H 0 cuando > 11.04
Se rechaza H 0
Se acepta H 0
0.05 0
11.07
34.40
- 89 -
Los valores de ji cuadrada nunca son negativos- esto se debe a que 2 la diferencia entre f o y f e se eleva al cuadrado, es decir, (f o – f e) . Existe una familia de distribuciones de ji cuadrada. Hay una distribución de ji cuadrada para 1 grado de libertad, otra para 2 grados de libertad, otra para 3 grados de libertad, etc. Los grados de libertad se determinan mediante k – 1, donde k es el número de categorías. Por tanto, la forma de distribución ji cuadrada no depende del tamaño de la muestra, sino del número de categorías. La distribución ji cuadrada tiene sesgo positivo. Sin embargo, a medida que aumenta el número de grados de libertad, la distribución comienza a aproximarse a la distribución normal. La gráfica 17.2 muestra las distribuciones para grados de libertad seleccionados. Observe que, para los 10 grados de libertad, la curva se aproxima a una distribución normal.
d) ¿Cuántos grados de libertas hay? e) ¿Cuál es valor crítico de ji cuadrada con un nivel de significancia de 1%? 2 f) Calcule el estadístico de prueba x . g) ¿Cuál es su regla de decisión respecto de la hipótesis nula? h) Específicamente, ¿qué le indica lo anterior a la directora de recursos humanos?
Solución: b. Los números 12, 9, 11, 10, 9 y 9 me representan las frecuencias observadas (f ) o . c. Existen 6 categorías o celdas que viene a ser los seis días de la semana.
Gráfica 17.2. Distribuciones ji cuadrada para grados de libertad seleccionados
d. Las frecuencias esperadas son 10, calculadas al sumar el total de frecuencias observadas y dividida entre la cantidad de categorías, se decir: 60/6 = 10.
Au toevalu ación 17.1 La directora de recursos humanos de una compañía, está preocupada por el ausentismo entre los trabajadores por hora, por lo que decide tomar una muestra de los registros de la compañía y determinar si el ausentismo está distribuido de manera uniforme en toda la semana de seis días. Las hipótesis son: H 0: El ausentismo está distribuido de manera uniforme en toda la semana de trabajo. H 1: El ausentismo NO está distribuido de manera uniforme en toda la semana de trabajo.
e. Hay 5 grados de libertad, calculados como k-1, es decir 6 – 1 = 5. f.
Se realiza la prueba de hipótesis:
PRUEBA DE HI POTESI S 1. Se elabora la hipótesis nula y la hipótesis alternativa H 0: No hay diferencia significativa entre los conjuntos de frecuencias observadas y frecuencias esperadas. H 1: Hay diferencia significativa entre los conjuntos de frecuencias observadas y frecuencias esperadas.
Los resultados de la muestra son: Número de ausenci as Lunes 12 Martes 9 Miércoles 11
Jueves Viernes Sábado
2) El nivel de significancia α= 0.01
Número de ausenci as 10 9 9
3) Se selecciona el estadístico.
a) ¿Cómo se denominan los números 12, 9, 11, 10, 9 y 9? b) ¿Cuántas categorías (celdas) hay? c) ¿Cuál es la frecuencia esperada para cada día? - 90 -
Días Lunes Martes Miércoles Jueves Viernes Sábado Total
f o 12 9 11 10 9 9 60
f e 10 10 10 10 10 10 60
g.
4)
2 – f (f o ) e 4 1 1 0 1 1 -
2 – f (f o ) e / f e 0.40 0.10 0.10 0.00 0.10 0.10 0.80
Se ubica en la tabla el valor de la ji cuadrada con un nivel de significancia de 0.01 y con gl = 6 – 1 = 5.
Se formula la regla de decisión. Se rechaza H 0 cuando > 15.086
frecuencias esperadas desiguales Las prueba ji cuadrada también es útil si las frecuencias esperadas no son iguales. El siguiente ejemplo ilustra el caso de frecuencias desiguales. Ejemplo. La Asociación Americana de Administradores de Hospitales (AHAA) reporta la siguiente información respecto del número de veces que los adultos mayores son admitidos en un hospital durante un periodo de un año. Cuarenta por ciento no es admitido; 30% es admitido una vez; 20% son admitidos dos veces y el 10% restante es admitido tres o más veces. Una encuesta de 150 residentes de una comunidad dónde la población predominante son los adultos mayores, reveló que 55 residentes no fueron admitidos durante el año pasado, 50 fueron admitidos en un hospital una vez, 32 fueron admitidos dos veces, y el resto fueron admitidos tres o más veces. ¿Es posible concluir que la encuesta es consistente con la información sugerida por la AHAA? Utilice el nivel de significancia 0.05. Solución: Se aplica la prueba de hipótesis: PRUEBA DE HIPOTESIS 1. Se elabora la hipótesis nula y la hipótesis alternativa H 0: No hay una diferencia entre la experiencia local y la nacional respecto de las admisiones en un hospital. H 1: Hay una diferencia entre la experiencia local y la nacional respecto de las admisiones en un hospital. 2. El nivel de significancia α= 0.05
Se rechaza H 0 Se acepta H 0
h.
0.01 15.086 0 0.80 5) Decisión. Se aceptaH 0 , es decir, el ausentismo se distribuye de manera uniforme durante los seis días de la semana. Las diferencias observadas se deben a la variación en el muestreo.
3. Se selecciona el estadístico.
Prueba de bondad de ajuste: - 91 -
Para calcular el estadístico de una manera muy fácil se organiza toda la información en una tabla. Se convertirá los porcentajes en frecuencias esperadas, f e. Esto se obtiene con la multiplicación del total de las frecuencias observadas (150) con el porcentaje de cada observación (40%, 30%, 20% y 10%).
Número de admisiones 0 1 2 3 o más Total
Porcentaje de AHAA del total 40 30 20 10 100
Número de residentes (f o ) 55 50 32 13 150
Número esperado de residentes (f e) 60 45 30 15 150
5. Decisión. Se acepta H 0, es decir, no hay evidencia de una diferencia entre la experiencia local y la nacional respecto de las admisiones en un hospital.
A través de otra tabla organizamos los resultados para el cálculo del estadístico: Admisiones 0 1 2 3 o más Total
f o
55 50 32 13 150
f e
60 45 30 15 150
2 – f (f o ) e
25 25 4 4 -
2 – f (f o ) e / f e
0.4167 0.5556 0.1333 0.2667 1.3723
Limitaciones de ji cuadrada
Si en una celda existe una frecuencia esperada pequeña inusual, ji cuadrada (si se aplica) puede generar una conclusión errónea. Esto sucede debido a que f e aparece en el denominador y. al dividirlo entre un número muy pequeño, hace el cociente muy grande. En general, dos directrices aceptadas respecto de las frecuencias de celdas pequeñas son: 1) Si sólo hay dos celdas, la frecuencia esperada en cada una deberá ser al menos 5. El cálculo de ji cuadrada sería permisible en el siguiente problema para el mínimo.
4. Se formula la regla de decisión. Se rechaza H 0 cuando > 7.815
Persona Alfabetizada Analfabeta
f o
643 7
f e
342 6
2) Para más de dos celdas, no se deberá utilizar ji cuadrada si más de 20% de las celdas f e tiene frecuencias esperadas menores que 5. De - 92 -
acuerdo con esta directriz, lo adecuado es utilizar la prueba de bondad de ajuste en los siguientes datos. Tres de siete celdas, ó 43%, tienen frecuencias esperadas ( f e) menores que 5. Nivel de administración Capataz Supervisor Gerente Gerencia de nivel medio
30 110 86 23
32 113 87 24
Asistente del vicepresidente Vicepresidente Vicepresidente ejecutivo Total
5 5 4 263
2 4 1 263
f o
Cuentas Porcentaje Actuales 60 Atrasadas 30 Irrecuperables 10 100 Total
f e
f o
320 120 60 500
300 150 50 500
2 – f (f o ) e
400 900 100 -
2 – f (f o ) e / f e
1.33 6.00 2.00 9.33
Se ubica en la tabla el valor de la ji cuadrada con un nivel de significancia de 0.05 y con gol = 3 – 1 = 2.
4) Se formula la regla de decisión. Se rechaza H 0 cuando > 5.99
Au toevalu ación 17.2 La Asociación Americana de Contabilidad clasifica las cuentas por cobrar como ¨actuales¨, ¨atrasadas¨ e ¨irrecuperables¨. Las cifras de la industria muestran que 60% de las cuentas por cobrar es actual, 30% está atrasado y 10% es irrecuperable. Un despacho de abogados tiene 500 cuentas por cobrar: 300 son actuales, 120 están atrasadas y 60 son irrecuperables. ¿Concuerda estas cifras con la distribución de la industria? Utilice el nivel de significancia de 0.05.
Se rechaza H 0
Solución: PRUEBA DE HI POTESI S 1)
f e
Se acepta H 0
Se elabora la hipótesis nula y la hipótesis alternativa H 0: La distribución de las observaciones es: 60% son cuentas por cobrar actuales, 30% son, atrasadas y 10% son, irrecuperables. H 1:La distribución de las observaciones no es como describe H 0.
5)
2) El nivel de significancia α= 0.05
0 5.99 9.33 Decisión. Se rechazaH 0 , es decir, los datos de las cuentas por cobrar no reflejan el promedio nacional.
Análisis de tablas de contingencia
3) Se selecciona el estadístico. - 93 -
0.05
El estadístico de ji cuadrada sirve para probar de manera formal si hay una relación entre dos variables con escala nominal. En otras palabras, ¿es independiente una variables de la otra? FRECUENCIA ESPERADA.
No en la ciudad natal Total
15 50
27 60
25 50
80 200
Las frecuencias esperadas se encuentran a través de la fórmula. Se obtiene los siguientes resultados:
f e e
Ejemplo. La Federal Correction Agency investiga: ¿un hombre liberado de una prisión federal tiene una adaptación diferente a la vida civil si regresa a su ciudad natal o si va a vivir a otra parte? En otras palabras, ¿hay una relación entre la adaptación a la vida civil y el lugar de residencia después de salir de prisión? Utilice el nivel se significancia 0.01.
Residencia al salir de prisión
Ciudad natal No natal Total
Solución: Realizamos la prueba de hipótesis.
Sobresaliente fo
27 13 40
fe
Adaptación Buena Regular fo
24 16 40
35 15 50
fe
30 20 50
fo
33 27 60
fe
36 24 60
Insatisfactoria fo
25 25 50
fe
30 20 50
Total fo
fe
120 120 80 80 200 200
Se aplica la fórmula de la ji cuadrada:
PRUEBA DE HIPOTESIS 1) Se elabora la hipótesis nula y la hipótesis alternativa H0: No hay una relación entre la adaptación a la vida civil y el lugar donde vive el individuo después de salir de la prisión. H1: Hay una relación entre la adaptación a la vida civil y el lugar donde vive el individuo después de salir de la prisión.
2) El nivel de significancia α= 0.01
Se ubica en la tabla el valor de la ji cuadrada con un nivel de significancia de 0.01 y con gol = = 4 – 1 1 = 3.
4) Se formula la regla de decisión. Se rechaza H 0 cuando >11.345
3) Se selecciona el estadístico. Residencia al salir de prisión Ciudad natal
13 40
Adaptación a la vida civil Sobresaliente Buena Regular Insatisfactoria Total 27 35 33 25 120 - 94 -
5) Decisión. Se acepta H 0, es decir, no hay evidencia de una relación entre la adaptación a la vida civil y el lugar de residencia del individuo al salir de prisión. Para el programa de recomendaciones de la Federal Correction Agency, la adaptación a la vida civil no se relaciona con el lugar donde viva el ex prisionero.
COMPENDIO DE ESTADÍSTICA INFERENCIAL APLICADA A LOS NEGOCIOS Y LA ECONOMÌA - 95 -
EL trabajo va dedicado a la memoria de mis padres, familiares estudiantes y amigos que nos apoyaron en la culminación de la presente obra
LIC.
VALDEMAR RODRÌGUEZ
SALVADOR
INTRODUCCION El tema que se aborda es de mucha importancia para todo profesional o estudiante ya que le permitirá saber saber y conocer los los aspectos más representativos de la estadística Inferencial que por cierto ayudará a tener
DEDICATORIA - 96 -