Módulo: II
Unidad: II
Semana: 03
ESTADÍSTICA PARA NEGOCIOS II Lic. Segundo A. García Flores
TÍTULO DEL TEMA
PRUEBA DE HIPÓTESIS
TÍTULO DEL TEMA
PRUEBA DE HIPÓTESIS
ORIENTACIONES Lea Lea la lass previ previam amen ente te la lass orie orient ntac acio ione ness gene genera rale less del curso. • Revise los temas afines a este en la Biblioteca Virtual de la UAP • Participe de los foros •
CONTENIDOS TEMÁTICOS
Hipótesis Prueba de hipótesis Nivel de significancia Error
DESARROLLO DE CONTENIDOS - SUBTÍTULOS DEL TEMA
OBJETIVO: •
Determinar la validez de supuestos poblacionales a partir del método de prueba de hipótesis para una, dos o más poblaciones.
6
8-3
¿Qué es una Hipótesis? Hipótesis: Es una suposición acerca del valor de un parámetro de una población con el propósito de discutir su validez. Ejemplo de hipótesis acerca de un parámetro de una población son: 1) El sueldo promedio de un profesional recien egresado de la Universidad asciende a $2,625. 2) El 20% de las amas de casa de Lima utiliza aceite de oliva.
8- 4
¿Qué es una prueba de hipótesis? Prueba de hipótesis: es un procedimiento, basado en la evidencia de la muestra y en la teoría de las probabilidades, usado para determinar si la hipótesis es una afirmación razonable y debería no ser rechazada o si no es razonable debería ser rechazada
Paso 1: Establecer la hipótesis nula y la alternativa
s i s e t ó p i h e d a b e u r P
Paso 2: Seleccionar el nivel de significación
Paso 3: Identificar el estadístico de prueba
Paso 4: Formular una regla de decisión
Paso 5: Tomar una muestra, llegar a una decisión
No rechzar la hipótesis nula
Rechazar la nula y aceptar la alternativa
8-6
Nivel de significación Hipótesis nula (H0): Una afirmación acerca del valor de un parámetro de la población. Hipótesis Alternativa (H1): Una afirmación que es aceptada si la muestra provee la evidencia de que la hipótesis nula es falsa. Nivel de significación: La probabilidad de rechazar la hipótesis nula cuando en realidad es verdadera.
8-7
Error Error tipo I: Rechazar la hipótesis nula cuando en realidad es verdadera Error tipo II: Aceptar la hipótesis nula cuando en realidad es falsa. Estadístico de prueba: Es un valor, determinado a partir de la información de la muestra, usado para decidir si rechazar o no la hipótesis nula. Valor crítico: El punto que divide la región entre el lugar en el que la hipótesis nula es rechazada y y la región donde la hipótesis nula es no rechazada.
Paso a paso … a) Hipótesis Se debe formular el supuesto valor del parámetro de la población antes de empezar el muestreo. La suposición que se desea probar, se denomina hipótesis nula y se representa por H0. Si se rechaza la hipótesis nula, la conclusión que debemos aceptar se llama hipótesis alternativa y se simboliza por H 1.
Ejemplo: Supongamos que se quiere probar la hipótesis de que el promedio de calificación de los alumnos de cierta Universidad es de 8.5, entonces: H0 :
= 8.5 (Establece que la media de la población es igual a 8.5)
La hipótesis alternativa se puede interpretar de tres maneras: H1 : 8.5 (Establece que la media de la población no es igual a 8.5) H1 : 8.5 (Establece que la media de la población es mayor que 8.5) H1 : 8.5 (Establece que la media de la población es menor que 8.5) La prueba de hipótesis tiene como finalidad emitir un juicio sobre la diferencia que existe entre el valor calculado del estadístico muestral y el parámetro supuesto de la población. No consiste en poner en duda el valor calculado del estadístico muestral. Después de formular las hipótesis nula y alternativa, se debe decidir el criterio que se va a aplicar para aceptar o rechazar la primera.
b) Nivel de significancia Supongamos que la media de calificaciones del ejemplo anterior de 8.5, se expresa con un nivel de confianza del 95%, entonces el nivel de significancia será de 0.05, es decir: = 1 0.95 = 0,05 –
Se puede comprender mejor observando la gráfica siguiente:
14
El nivel de significancia está repartido en las zonas de rechazo, 0.025 + 0.025 = 0.05, significa que existe una diferencia significativa entre el estadístico de la muestra y el supuesto parámetro de la población , es decir, que si esto se demuestra, se rechaza la hipótesis nula H0 de que el promedio de la población sea de 8.5 y se acepta la hipótesis alternativa H1. Entonces se concluiría que el promedio de las calificaciones de la población, no es de 8.5, puede ser diferente, mayor o menor de 8.5. El nivel de significancia representa la zona de rechazo de la hipótesis nula y el nivel de confianza de la zona de aceptación.
c) Selección de un nivel de significancia
No hay un nivel de significancia que sea oficial o universal con el cual probar las hipótesis. Pero la elección del criterio mínimo de una probabilidad aceptable, o nivel de significancia, es asimismo el riesgo que se corre de rechazar una hipótesis nula aunque sea verdadera. Cuando más alto sea el nivel de significancia que utilizamos al probar una hipótesis, mayores probabilidades habrá de rechazar una hipótesis nula que sea verdadera.
d) Errores de tipo I y II
Si se rechaza una hipótesis nula que sea verdadera es un error de tipo I, y su probabilidad se representa con . Si se acepta una hipótesis nula que sea falsa se llama error de tipo II, y su probabilidad se representa con . La probabilidad de cometer uno de estos errores se reduce si se aumenta la probabilidad de incurrir en otro tipo de error. A fin de conseguir una baja, habremos de conformarnos con una alta. Para sortear esto en situaciones personales y profesionales, los encargados de tomar decisiones eligen el nivel apropiado de significancia examinando los costos o castigos que conllevan a ambos tipos de error.
d) Errores de tipo I y II Por ejemplo: Supóngase que el cometer un error de tipo I implica el tiempo y el trabajo de reelaborar un lote de sustancias químicas que debería haber sido aceptado. En cambio, el incurrir en un error de tipo II significa correr el riesgo de que se envenene un grupo entero de usuarios de la sustancia. La gerencia de esta compañía preferiría el error de tipo I al de tipo II y, en consecuencia, establecería niveles muy elevados de significancia en sus pruebas para conseguir bajas.
e) Pasos para seleccionar la distribución correcta 1.- Se define el nivel de significancia a usar. 2.- Determinar la distribución adecuada de probabilidad: puede ser la distribución normal o la distribución t. Las reglas para elegir la distribución apropiada al efectuar pruebas de las medias son: a) Si la muestra tomada es mayor de 30 (muestras grandes), debe elegirse la distribución normal (Z). b) Si la muestra tomada es igual o menor que 30 (muestras pequeñas), debe elegirse la distribución t.
PRUEBA DE HIPÓTESIS DE LAS MEDIAS DE MUESTRAS GRANDES Realizaremos algunos ejemplos, en diferentes condiciones cuando se conocen las desviaciones estándar de la población.
a) Prueba de dos extremos para las medias Es cuando el nivel de significancia (zona de rechazo) abarca los dos extremos o colas de la campana de Gauss.
Ejemplo 1 El fabricante de una llanta especial para camiones afirma que la duración media de la parte rodante de agarre es de 60,000 mi. La desviación estándar de los millajes es de 5,000 mi. Una empresa de transportes compró 48 llantas y halló que la duración media para sus vehículos fue de 59,500 mi. ¿Es la experiencia distinta de la expresada por el fabricante al nivel de significación de 0.05? Solución:
= 60000 mi; Datos: n = 48 llantas x = 59500 mi;
= 5000 mi = 0,05
Solución: Las hipótesis se expresan de la siguiente manera: H0 : H1 :
= 60,000 mi 60,000 mi
La duración de las llantas es de 60,000 millas La duración de las llantas es distinta a 60,000 millas
Primero, vamos a calcular el error estándar de la media y para ello emplearemos la expresión del error estándar:
x
n
Sustituyendo valores en ella, se tiene:
x
5,000
5,000
48
6,9282
721,69 mi
En el siguiente paso vamos a obtener el valor de “Z” y para ello vamos a apoyarnos en la gráfica siguiente:
Recurrimos a las tablas de la distribución normal y en ellas localizamos 0.475, que se ubica en un valor de Z = 1.96 En el tercer paso, vamos a determinar los límites superior e inferior de confianza para el intervalo de la media poblacional ya que se trata de una prueba de dos extremos. Para ello aplicaremos la expresión siguiente: Lc
H 0 Z x
Sustituyendo valores en ella, se tiene: Lc = 60,000 1.96 (721.69) Ls = 60,000 + 1,414.51 = 61,414.51 millas. Li = 60,000 1,414.51 = 58,585.49 millas –
Entonces la media de la población fluctúa entre 58,585.49 y 6 1,414.51 millas en un nivel de confianza del 95%.
Regresemos a la gráfica anterior para ubicar los límites de confianza y la media muestral. Con ello analizaremos si se acepta la hipótesis nula además de verificar si es verdadera o falsa.
La media muestral se ubica dentro de la zona de aceptación, por lo que podemos decir que la hipótesis nula es verdadera, pero vamos a verificar está aseveración por medio de la expresión siguiente:
Z
x
x
Z
59,500
60,000
721,69
Entonces la media muestral se ubica en -0.693 cae en la zona de aceptación.
0.693
y se confirma que
Concluimos que la duración media de las llantas es muy cercana a la que afirma el fabricante de 60,000 millas, con un nivel de significancia de 0.05.
b) Prueba de un extremo para las medias
En este caso, el nivel de significancia (zona de rechazo) sólo abarca un extremo o cola de la campana de Gauss.
Ejemplo 2 Una cadena de restaurantes afirma que el tiempo medio de espera de clientes por atender está distribuido normalmente con una media de 3 minutos y una desviación estándar de 1 minuto. Su departamento de aseguramiento de la calidad halló en una muestra de 50 clientes en un cierto establecimiento que el tiempo medio de espera era de 2.75 minutos. Al nivel de significación de 0.05, ¿Es dicho tiempo menor de 3 minutos?
Solución: = 3 minutos. = 1minuto. x = 2.75 minutos.
= 0.05 n = 50 clientes.
Representemos estos datos en la campana de Gauss: Las hipótesis son: Ho : = 3 El tiempo promedio de espera es de 3 minutos. H1 : 3 El tiempo promedio de espera es menor de 3 minutos.
30
Primero calculemos el error estándar de la media: Ahora determinemos el valor de Z, (tenemos una muestra mayor de 30): Como = 0.05 y es una prueba de hipótesis para un extremo, en este caso, el extremo izquierdo, entonces, el nivel de significancia está contenido en este extremo, por lo que el nivel de confianza es 0.5 0.05 = 0.45 . Buscando en las tablas de la distribución normal 0.45, encontramos que: Z= 1.64 El límite izquierdo del intervalo de confianza será: Li = 3 1.64 (0.1414) = 3 0.2319 Li = 2.768 Gráficamente esto se representa así:
1 x
0.1414
50
–
–
–
31
La media muestral 2.75, se localiza en la zona de rechazo, por lo que se puede establecer que se rechaza la hipótesis nula y se acepta la alternativa. Comprobemos con :
Z
x x
Z
2 . 75
3
0.1414
0.25
1.77
0.1414
Como podemos observar 1.77 está localizado más hacia la izquierda del límite de confianza 1.64. Podemos concluir que el tiempo medio de espera de clientes por atender en este establecimiento es menor de 3 minutos.
Ejemplo 3 (se desconoce la desviación estándar) Una cadena grande de tiendas de autoservicio, expide su propia tarjeta de crédito. El gerente de crédito desea averiguar si el saldo insoluto medio mensuales mayor que 400 dólares. El nivel de significación se fija en 0.05. Una revisión aleatoria de 172 saldos insolutos reveló que la media muestral 407 dólares y la desviación estándar de la muestra es 38 dólares. ¿Debería concluir ese funcionario de la media poblacional es mayor que 400 dólares, o es razonable suponer que la diferencia de 7 dólares (obtenida de 407- 400 = 7) se debe al azar? Solución:
= 400 dólares. = 0.05 n = 172 saldos insolutos. x = 407 dólares. s = 38 dólares (desviación estándar estimada).
Las hipótesis son: Ho : = 400 dólares. H1 : 400 dólares. Debido a que la hipótesis alternativa nos indica un sentido a la derecha de la media, debemos aplicar una prueba de una cola. Veamos la gráfica:
34
Si calculamos el error estándar estimados, tenemos que: s ˆ
ˆ
x
n
38
2.897
172
Si leemos en las tablas de la distribución normal 0.45, encontramos que: Z = 1.64 Determinando el límite superior del intervalo de confianza, se tiene: Ls = 400 + 1.64 (2.897) Ls = 404.75 dólares. Gráficamente esto ocurre: 35
Comprobando con: Z
x ˆ
Z =
x
407 - 400 2.897
=
7
= 2.416
2.897
Con esto comprobamos que el valor de la media muestral, cae dentro de la zona de rechazo, por lo que se rechaza la hipótesis nula y se acepta la alternativa. Con esto el gerente de crédito debe concluir que el saldo insoluto medio mensuales es mayor que 400 dólares.
PRUEBAS DE HIPOTESIS DE LAS MEDIAS DE MUESTRAS PEQUEÑAS a) Prueba de dos extremos para medias Mediante el siguiente ejemplo explicaremos el razonamiento a seguir para demostrar una prueba de hipótesis de dos extremos con una muestra menor a 30, en donde aplicaremos la distribución t.
Ejemplo 1 Un especialista en personal que labora en una gran corporación, está reclutando un vasto número de empleados para un trabajo en el extranjero. Durante la realización de pruebas, la gerencia pregunta cómo marchan las cosas y el especialista contesta: “Bien, creo que la puntuación promedio en el test de actitudes será 90”. Cuando la gerencia revisa 20 de los resultados de la prueba, averigua que la puntuación media es 84 y la desviación estándar de esta puntuación es 11. Si la gerencia quiere probar la hipótesis del especialista en personal en el nivel de significancia de 0.10, ¿cuál será el procedimiento a que recurra?
Solución: = 90’’ x
= 84
s = 11
n = 20
= 0.10
Las hipótesis son: Ho: = 90’’ H1 : 90’’ El error estándar estimado de la media será: ˆ
ˆ
x
n
11 20
2.46
En la tabla t de Student se localiza = 0.10 y gl = 20 – 1 = 19 y se encuentra que: t = 1.729 Con estos datos ya podemos determinar los limites superior e inferior del intervalo de confianza, mediante la expresión: Lc
t
ˆ
x
Ls = 90”+ 1.729 (2.46)= 94.25 ” Li = 90” – 1.729 (2.46) = 85.75 ”
Gráficamente esto sucede: Como la media muestral cae en la zona de rechazo, entonces se rechaza la hipótesis nula y se acepta la hipótesis alternativa. Concluimos que la gerencia tiene suficientes evidencias para demostrar que el especialista está equivocado, que la puntuación media no es 90. 40
b) Prueba de un extremo para medias Para este caso, ya sabemos que el nivel de significancia (zona de rechazo) sólo abarca un extremo o cola de la campana de Gauss.
Ejemplo 2 Una persona tomó una muestra aleatoria de 7 casas en un suburbio muy elegante de una gran ciudad y encontró que el valor promedio estimado del mercado era de $560,000, con una desviación estándar de $49,000. Pruebe la hipótesis de que, para todas las casas del área, el valor medio estimado es de $600,000, contra la alternativa de que sea menor que $600,000. Use el nivel de significancia de 0.05. Solución: n = 7 casas = $560,000 x s = = $49,000 ˆ
= $600,000 = 0.05
Las hipótesis son: Ho : = $600,000 H1 : $600,000 Calculando el error estimado de la muestra, se tiene que: ˆ
ˆ
Li
t
x
ˆ
n
49 ,000
$18 ,518.52
7
x
Li = 600,000 1.943 (18,518.52) = $564,018.52 –
En la campana de Gauss:
Sabemos que el nivel de significancia es de 0.05, para una cola, por lo que se supone, que si fuera una prueba para dos colas, cada una tendría 0.05, es decir, el nivel de significancia = 0.10. Por lo tanto 0.10 es el valor que debemos localizar en la tabla correspondiente de la distribución t de Student, con 6 grados de libertad (7 1). –
Encontramos entonces que t = 1.943 Con estos datos, ya podemos determinar el límite inferior del intervalo de confianza en donde se encuentra la verdadera media de la población.
44
Como la media muestral cae la zona de rechazo, entonces se rechaza la hipótesis nula y se acepta la hipótesis alternativa. Comprobando lo anterior, se tiene que: Z =
560,000 - 600,000 18,518.52
=
-40,000 18,518.52
= -2.16
Podemos concluir que el valor medio estimado del valor de todas las casas es menor de $600,000.
PRUEBA DE HIPOTESIS PARA PROPORCIONES
a) Prueba de dos extremos para proporciones. La prueba de hipótesis para proporciones, tiene algunas variantes en la demostración de las hipótesis respecto a la prueba de hipótesis de medias, variantes que se irán explicando conforme se vayan aplicando.
Ejemplo 1 Una compañía que está evaluando la promovibilidad de sus empleados; es decir, está determinando la proporción de aquellos cuya habilidad, preparación y experiencia en la supervisión los clasifica para un ascenso a niveles superiores de la jerarquía. El director de recursos humanos le dice al presidente que el 80%,o sea el 0.8, de los empleados son “promovibles”. El presidente crea un comité especial para valorar la promovibilidad de todo el personal. El comité realiza entrevistas en profundidad con 150 empleados y en su juicio se da cuenta que sólo el 70% de la muestra llena los requisitos de la promoción. El presidente quiere probar, en un nivel de significancia de 0.05, la hipótesis de que 0.8 de los empleados pueden ser promovidos. Solución: p = 0.8 p = 0.7
q = 0.2 q = 0.3
n = 150 = 0.05
Las hipótesis son: Ho : p = 0.8 80% de los empleados son promovibles. H1 : p 0.8 La proporción de empleados promovibles no es 80%. Primero calculamos el error estándar de la proporción, mediante la siguiente expresión: p H 0 q H 0 n Sustituyendo valores: ( 0. 8 )( 0. 2 ) p
150
0.0010666
0.0327
En este caso, la compañía quiere saber si la verdadera proporción es mayor o menor que la supuesta proporción. Por consiguiente, es apropiada una prueba de dos extremos para una proporción. El nivel de significancia corresponde a las dos regiones sombreadas, cada una de las cuales contiene 0.025 del área. La región de aceptación de 0.95 se ilustra como dos áreas de 0.475 cada una. Puesto que la muestra es mayor que 30, podemos recurrir la distribución normal. Basándonos en la tabla de ésta distribución, podemos calcular que el valor correspondiente de Z para 0.475 del área bajo la curva es 1.96 . Por tanto, los limites de la región de aceptación son:
Lc = PH0 Z Lc = 0.8 1.96(0.0327) Ls = 0.8 + 0.06409 Ls = 0.8641 Li = 0.8 – 0.06409 Li = 0.7359 Viéndolo en la campana de Gauss:
La probabilidad de la muestra p = 0.7, se localiza en la zona de rechazo, por lo que se rechaza la hipótesis nula y se acepta la alternativa. Vamos a demostrarlo:
Z
0.7
0.8
0.0327
0 .1 0.0327
3.058 p
Podemos concluir que existe una diferencia significativa entre la supuesta proporción de empleados promovibles comunicada por el director de recursos humanos y la observada en la muestra, la proporción de toda la compañía no es del 80%.
b) Prueba de un extremo para proporciones Ejemplo 2.Un artículo reciente en el periódico Reforma reportó que un empleado está disponible sólo para que uno de tres egresados universitarios con grado. Las principales razones aportadas fueron que existe una sobreabundancia de graduados de universidad y una economía débil. Suponga que una encuesta con 200 graduados recientes de la institución de usted, revela que 80 estudiantes tenían empleo. Al nivel de significancia de 0.02, ¿se puede concluir que una proporción mayor de estudiantes egresados tienen trabajo? p = 0.8; p = 0.7 q = 0.3 = 0.05
q = 0.2; Datos:
n = 150
Las hipótesis son: Ho : p = 0.3333 H1 : p 0.3333 Calcularemos primero el error estándar de la proporción:
p
p Ho qHo n
Sustituyendo valores:
p
(0.3333) (0.6667)
200
p
0.2222
200
p
.0011
p
0.0333
En este caso, se quiere saber si la verdadera proporción es mayor que la supuesta proporción. Por consiguiente, es apropiada una prueba de un extremo para una proporción. El nivel de significancia corresponde a la región derecha de rechazo. La región de aceptación de 0.98 se ilustra como un área de 0.5 y otra de 0.48 como la muestra es mayor de 30, podemos recurrir a la distribución normal. Basándonos en la tabla de de esta distribución el valor correspondiente de Z, para 0.48 del área bajo la curva es 2.05, por tanto, el límite de la región de aceptación es: Ls = 0.3333 + 2.05 (0.0333) Ls = 0.3333 + 0.068265 Ls = 0.4016 Como p = 0.4, y es menor que 0.4016, se localiza en la zona de aceptación, entonces, se acepta la hipótesis nula. Demostrando lo anterior se tiene:
Z Z
0.4
0.3333
0.0333
Z
0.0667
En la campana de Gauss:
0.0333
p
p
p Z
2.003 p
Concluimos que no es mayor la proporción de estudiantes egresados que tienen trabajo.
C) Prueba de hipótesis para proporciones de muestras pequeñas. Si usamos la distribución t para una prueba hipótesis para proporciones en muestras pequeñas, de dos colas, seguimos el mismo procedimiento que se utilizó en la prueba para medias de muestras pequeñas. Lo mismo sucede si se trata de una prueba de un extremo, recordando que, para obtener el valor apropiado de t en un nivel de significancia de 0.05 con 10 grados de libertad, buscaremos en la tabla de la distribución t bajo la columna 0.10, frente al renglón 10 grados de libertad. Esto es verdad porque la columna 0.10 del área bajo la curva contenida en ambos extremos combinados; por ello también representa 0.05 del área bajo la curva contenida en cada uno de los extremos. Por esta razón en lugar de buscar en la columna 0.05, se busca 0.10.