Pruebas de hipótesis Temas: → Pruebas de hipótesis para la media poblacional (µ) → Conceptualización del error tipo I y el error tipo II INTRODUCCIÓN A LAS PRUEBAS DE HIPÓTESIS Hasta ahora hemos estudiado como a partir de una muestra de una población podemos obtener una estimación puntual o bien establecer un intervalo más o menos aproximado para encontrar los parámetros que rigen la ley de probabilidad de una variable aleaoria (v.a.) (en el caso de este curso ̂ ) definida sobre la población. Es lo que denominábamos estimación puntual y estimación por intervalos de confianza respectivamente. Pueden presentarse en la práctica, situaciones en las que exista una teoría preconcebida relativa a la característica de la población sometida a estudio. Tal sería el caso, por ejemplo si pensamos que un tratamiento nuevo puede tener un porcentaje de mejoría mayor que otro estándar, o cuando nos planteamos si los niños de las distintas comunidades colombianas tienen la misma altura. Este tipo de circunstancias son las que nos llevan al en la Estadística Inferencial que se recibe el nombre de Contraste de Hipótesis. Implica, en cualquier investigación, la existencia de dos teorías o hipótesis implícitas, que denominaremos hipótesis nula e hipótesis alternativa, que de alguna manera reflejarán esa idea a priori que tenemos y que pretendemos contrastar con la “realidad”. De la misma manera aparecen, implícitamente, diferentes tipos de errores que podemos cometer durante el procedimiento. No podemos olvidar que, habitualmente, el estudio y las conclusiones que obtengamos para una población cualquiera, se habrán apoyado exclusivamente en el análisis de sólo una parte de ésta. De la probabilidad con la que estemos dispuestos a asumir estos errores, dependería, por ejemplo, el tamaño de la muestra requerida. Desarrollamos en esta sección los contrastes de hipótesis para los parámetros más usuales que venimos estudiando en los capítulos anteriores: medias y proporciones. Los contrastes desarrollados en esta sección se apoyan en que los datos de partida siguen una distribución normal. Los contrastes de significación se realizan: • suponiendo a priori que la ley de distribución de la población es conocida. • Se extrae una muestra aleatoria de dicha población. • Si la distribución de la muestra es “diferente” de la distribución de probabilidad que hemos asignado a priori a la población, concluimos que probablemente sea errónea la suposición inicial. Ejemplo: Supongamos que debemos realizar un estudio sobre la altura media de los habitantes de cierto pueblo de Colombia. Antes de tomar una muestra, lo lógico es hacer la siguiente suposición a priori: Hipótesis de partida: Ho: La altura media no difiere de la del resto del país. (NOTA: En este caso la hipótesis de partida es la hipótesis nula debido a que en esta siempre se encuentra contenida la igualdad) Al obtener una muestra de tamaño n = 8, podríamos encontrarnos ante uno de los siguientes casos: 1. Muestra = {1,50; 1,52; 1,48; 1,55; 1,60; 1,49; 1,55; 1,63} 2. Muestra = {1,65; 1,80; 1,73; 1,52; 1,75; 1,65; 1,75; 1,78} Intuitivamente, en el caso a sería lógico suponer que salvo que la muestra obtenida sobre los habitantes del pueblo sea muy poco representativa, la hipótesis Ho debe ser rechazada. En el caso b tal vez no podamos afirmar con rotundidad que la hipótesis Ho sea cierta, sin embargo no podríamos descartarla y la admitimos por una cuestión de
1
simplicidad. Este ejemplo sirve como introducción de los siguientes conceptos: En una prueba de hipótesis, se decide si cierta hipótesis Ho que denominamos hipótesis nula puede ser rechazada o no a la vista de los datos suministrados por una muestra de la población. Para realizar el contraste es necesario establecer previamente una hipótesis alternativa (Ha) que será admitida cuando la Ho sea rechazada. Normalmente Ha es la negación de Ho. Para verificar cuál de las dos hipótesis es la verdadera debemos realizar los siguientes pasos: 1. Tomar una muestra aleatoria de varias observaciones (n) {X1, X2,..., Xn}. 2. Generar o calcular un "Estadístico de prueba", que servirá para definir la acción a emprender, de aceptar o rechazar la hipótesis nula. 3. Definir el criterio de aceptación o de rechazo. Es decir, el procedimiento de prueba parte los posibles valores del estadístico de prueba en dos subconjuntos o regiones: Una "región de aceptación de Ho " y una región de rechazo de Ho. 4. Tomar la decisión de aceptar o rechazar Ho dependiendo de si el estadístico de prueba queda en la región de aceptación o en la región de rechazo. Hay que comprender que la aceptación de una hipótesis simplemente implica que los datos obtenidos no dan suficiente evidencia para rechazarla. Por otro lado, el rechazo de una hipótesis implica que la evidencia muestral refuta la hipótesis planteada. Puesto de otra manera, el rechazo de una hipótesis significa que existe una pequeña probabilidad de obtener la información muestral observada, cuando realmente dicha hipótesis es verdadera. REGIÓN CRÍTICA o REGIÓN DE RECHAZO (RR). Sea C un subconjunto del espacio muestral. C es la región crítica de un contraste o prueba dada si dicho contraste nos lleva a rechazar la hipótesis nula Ho cuando la muestra cae en C. A la región de rechazo se le acostumbra denominar "región crítica de la prueba". Para establecer las regiones críticas vamos a tomas tres diferentes ejemplos: - Una fábrica vende en promedio 50.000 artículos por año ahora se implementa un nuevo plan de mercadeo para aumentar el nivel de ventas - Todos sabemos que al final del año fiscal que las diferencias entre los activos y pasivos de una empresa en su diferencia es igual a cero. - Suponga que se desea corroborar el nivel de la deuda que tienen las empresas colombianas por efecto del pago atrasado de sus obligaciones fiscales, el gobierno afirma que la deuda es de menos de 1,2 billones de pesos CASO 1 Ho: µ ≤ 50.000 Ha: µ > 50.000
CASO 2 Ho: µ = 0 Ha: µ ≠ 0
2
CASO 3 Ho: µ ≥ 1.2 Ha: µ < 1.2
ERRORES AL TOMAR UNA DECISIÓN. Cuando se toma una decisión estadística sobre una prueba se pueden cometer dos tipos de errores: rechazar una hipótesis que es válida o aceptar una hipótesis que es falsa. ERROR TIPO I (α): Es una decisión errónea en el proceso de dar la conclusión a un problema mediante el procedimiento de una prueba de hipótesis y ocurre cuando se rechaza una hipótesis nula cuando es verdadera. ERROR TIPO II (β): Es una decisión errónea en el proceso de dar la conclusión a un problema mediante el procedimiento de una prueba de hipótesis y ocurre cuando no se rechaza una hipótesis nula dado que es falsa. Los errores de tipo I y II no están relacionados más que del siguiente modo: Cuando α decrece β crece. Por tanto no es posible encontrar tests que hagan tan pequeños como queramos ambos errores simultáneamente. De este modo es siempre necesario privilegiar a una de las hipótesis, de manera que no será rechazada, a menos que su falsedad se haga muy evidente. En los contrastes, la hipótesis privilegiada es H0 que sólo será rechazada cuando la evidencia de su falsedad supere el umbral del 100 ∙ (1 − α) %. H0 cierta H0 falsa o Ha cierta H0 rechazada Error tipo I (α) Decisión correcta (*) H0 no rechazada Decisión correcta Error tipo II (β ) ESTADÍSTICOS DE PRUEBA EN UNA PRUEBA DE HIPÓTESIS: Seguimos con los mismos supuestos dados para los intervalos de confianza obtenidos a partir del teorema central del Límite: - Si la variable presenta distribución normal y σ2 conocida entonces: √
-
2
Si n ≥ 30 entonces y σ desconocida entonces:
√
-
Si n < 30 entonces, σ2 desconocida y distribución poblacional Normal, entonces:
√
3
EJERCICIOS:
1. Una firma de transporte marítimo de Guatemala garantiza a sus clientes que los despachos de frutas de Centro América a New York promedian 9.5 días o menos, con una desviación estándar de 4 días. Un cliente en particular halla de una muestra de 36 despachos y observa que sus tiempos han promediado 10.5 días. Usando un nivel de significancia de 0.02. ¿Debería de rechazar la compañía el argumento de la firma de transporte sobre los embarques que toman 9.5 días o menos? 2. Una máquina despachadora de refrescos se ajusta de tal forma que la cantidad de refresco servido está distribuido normal con media 228 ml. Se verifica la máquina periódicamente, tomando una muestra de 10 refrescos y se calcula su contenido promedio, la cantidad promedia de llenado las lecturas en ml fueron: 226 226 232 227 225 228 225 228 229 230, ¿se debe ajustar la máquina, utilice alfa del 5%? 3. Un proveedor de remaches para aviones afirma que estos tienen una tensión promedio, la cual se distribuye normal, con una media de por lo menos 200 kilogramos / fuerza y una desviación estándar de 30 kilogramos / fuerza. Un fabricante duda de este valor promedio y toma una muestra aleatoria de 25 remaches encontrando una media de 195 kilogramos / fuerza. Plantee las hipótesis del caso, para la tensión media. Determine si el proveedor cumple con su afirmación con un nivel de significancia del 5%. 4. La mayoría de piezas utilizadas en los motores de un avión tienen problemas de desgaste. Una pieza utilizada en un motor de avión tiene una vida media de 1500 horas, la cual se distribuye aproximadamente normal. Con ánimo de aumentar la vida media de esta pieza se ha utilizado un nuevo material. Se tomó una muestra de 15 de las nuevas piezas encontrando una vida media de 1600 horas y una desviación estándar de 100 horas. ¿Ha producido el nuevo material un cambio significativo en la vida media de las piezas? Use α.=0.03. Plantee las hipótesis del caso y luego resuélvalo. 5. La Aeronáutica Civil ha establecido que el número de aviones que despegan y aterrizan en un aeropuerto local no debe sobrepasar de 100 por día. Un inspector tomó una muestra de 100 días de operación aérea encontrando una media de aviones que despegan y aterrizan de 120 por día y una desviación estándar de 40. ¿Prueban estos datos que el aeropuerto no cumple con la norma establecida por la Aeronáutica Civil? Use α.= 0.01 6. Una escuela de comercio local afirma que sus estudiantes graduados consiguen empleos mejor remunerados que el promedio nacional para ese tipo de escuelas. Los salarios del año pasado, pasados a todos los graduados de las escuelas de comercio en su primer empleo, mostraron una media de $10,20 por hora. Una muestra aleatoria de 10 graduados de la mencionada escuela en el último año, mostró los siguientes salarios por hora en su primer empleo: $9.40, $10.30, $11.20, $10.80, $10.40, $9.70, $10.90, $9.80, $10,60, $10.70. Establezca un intervalo de confianza del 90%, para comprobar o refutar esta aseveración, asuma que los salarios históricos de la escuela siguen una distribución aproximadamente normal. 7. El rector de una universidad tiene la impresión de que la edad promedio de los estudiantes que asisten a esa institución ha cambiado durante los últimos años. Para comprobar dicha hipótesis, se lleva a cabo un experimento en el cual se registra la edad de 150 alumnos elegidos al azar entre todos los estudiantes de este centro de educación superior. La edad promedio así registrada es de 23.5 años. Un censo realizado en la universidad unos cuantos años antes reveló que la edad promedio era de 22.4 años, con una desviación estándar de 7.6. Plantee las hipótesis respectivas para confirmar o rechazar la apreciación del rector. Use un nivel de significancia del 2%. 8. Una investigadora cree que la estatura de las mujeres ha cambiado en años recientes ella sabe que hace 10 años en la ciudad donde vive el promedio de estatura de una mujer adulta joven era de 63 pulgadas. La investigadora toma una muestra aleatoria de 8 mujeres jóvenes adultas que residen en dicha ciudad y mide sus estaturas. Así obtiene los siguientes datos: 64, 66, 68, 60, 62, 65, 66, 63. Asuma que la distribución de las estaturas tiene un comportamiento normal en esta población. Tiene razón la investigadora al plantear esta creencia. Use un nivel de significancia del 5% para probarlo o refutarlo.
4
9. El fabricante de cierta gasolina considera que un nuevo aditivo rendirá más millas por galón. La compañía ha realizado un gran número de mediciones de las millas recorridas con gasolina sin el aditivo, bajo condiciones controladas en forma rigurosa. Los resultados presentan una medida de 24.7 millas por galón y una desviación estándar de 4.8. Se realizan pruebas con una muestra de 75 automóviles que utilizan la gasolina con el aditivo. La media de la muestra es igual 26.5 millas por galón. Es mejor el rendimiento del automóvil con el aditivo, plantee las hipótesis respectivas y concluya con un nivel de significancia del 10%.
5