Universidad de San Carlos Facultad de Ingeniería Área de Estadística Análisis Probabilístico, sección A
Módulo Comprobación de hipótesis Introducción
Una hipótesis es un supuesto que se hace respecto a alguna característica de una población. La contrastación de hipótesis es un procedimiento estadístico cuyo objetivo es determinar cuando es razonable concluir, a partir del análisis de una muestra, que la población posee determinada propiedad o parámetro supuesto y cuando no es razonable llegar a esa conclusión. En este módulo se presentan los conceptos fundamentales y los procedimientos estadísticos para probar hipótesis relacionados con los parámetros: media, varianza y proporción de éxitos referidos a una población.
Objetivos Al finalizar el módulo el lector estará en capacidad de:
Formular la hipótesis nula y alternativa de un problema dado. Identificar la aplicación de cada uno de los procedimientos de prueba de hipótesis expuestos. Interpretar el término significancia. Definir el error tipo 1 y el error tipo 2. En situaciones particulares, evaluar la importancia de los riesgos de hacer falsas decisiones. Comprobar con el procedimiento adecuado la hipótesis nula a determinado nivel de significancia. Considerando los errores tipo 1 y tipo 2 calcular el tamaño de muestra para efectuar una prueba de hipótesis.
Hipótesis
Es una teoría tentativa o suposición adoptada previamente para explicar ciertos hechos y guiar una investigación. Es una aseveración o conjetura relacionada con el comportamiento de una o más poblaciones. Es un enunciado que se hace acerca de una característica de la población. Profesora Guisela Gaitán Garavito
2013
Por ejemplo: Suponga que un investigador lleva a cabo un estudio para identificar diferencias entre dos tipos de sellantes para tuberías, un enunciado preliminar lo plantearía de la siguiente forma: hay diferencia entre los dos tipos de sellantes. Para señalar que característica hace la diferencia seleccionará una variable X, el tiempo de secado del sellante, formulando la hipótesis: un sellante A ofrece mayor tiempo de secado que un sellante B. Así la hipótesis hace un supuesto sobre una característica de las poblaciones, el tiempo de secado de los sellantes. Hipótesis nula y alternativa
La hipótesis nula Ho está fundamentada en la teoría o principio supuesto y establece que la diferencia entre el resultado de la muestra y la teoría no es significativa sino debida al azar. En el ejemplo, el investigador tiene como antecedente que el tiempo de secado para un sellante es considerada aceptable si es de a lo más 4 minutos, y desea comprobar que el sellante A tiene un tiempo de secado superior al aceptable. A pesar que planea que el sellante A tiene un mayor tiempo de secado, la hipótesis nula la plantearía como: el tiempo de secado del sellante A es el aceptable y la diferencia que pueda aparecer al estudiar una muestra de este sellante se debe al azar ya que el tiempo de secado es una variable aleatoria. Hipótesis alternativa H1 es una suposición que contradice la hipótesis nula, implica que las variaciones entre el resultado de la muestra y la teoría son significativas es decir que no se debe al azar sino a algún o algunos factores determinantes. En el ejemplo se plantearía que el tiempo de secado es mayor que el aceptable. Cualquiera que sea el planteamiento conceptual de las hipótesis es requisito, para contratarlas estadísticamente, que éstas se establezcan como supuestos sobre los parámetros de una variable. En los planteamientos anteriores, las hipótesis están dadas en función del tiempo de secado de un sellante, sin embargo para comprobar que una de ellas es cierta se deben representar en función de un parámetro que describa la variable tiempo de secado, este puede ser el promedio del tiempo de secado de los sellantes que es una medida que representa a toda la población. Las hipótesis que se refieren a parámetros puede clasificarse en: Hipótesis simples cuando se asigna un valor al parámetro por ejemplo, el tiempo promedio de secado del sellante A es de 5.5 años, el tiempo promedio de secado del sellante B es 4.2 años. Profesora Guisela Gaitán Garavito
2013
Hipótesis compuesta, cuando se asigna un conjunto de valores posibles al parámetro, el tiempo promedio de secado del sellante A es menor que 5 años, el tiempo promedio de secado del sellante B es mayor o igual a 5 años. Para el contraste es necesario que hipótesis la nula se plantee como una hipótesis simple y la alternativa como una hipótesis compuesta. En el ejemplo Ho: = 3.5 y H1: >3.5 Comprobación de hipótesis
Es un procedimiento formal que utiliza los investigadores para probar las teorías propuestas, en éste se supone que los resultados del experimento, o muestreo, están de acuerdo a cierto modelo o teoría y que las variaciones que se presenten entre el parámetro hipotético y el estadístico resultante son debidas al azar. Para llevar a cabo la comprobación de la hipótesis se toma una muestra de los elemento de la población, calculando un estadístico y se determina a partir de él si los resultados son consistentes o imposibles con la hipótesis nula planteada lo que implica la aceptación o el rechazo de la hipótesis. Tomando en cuenta que el resultado de la muestra, valor del estadístico, puede variar por causa al azar o significativa, la prueba consiste en establecer, si Ho es cierta, el conjunto de posibles valores del estadístico y hacer en este conjunto una partición de dos regiones Región Crítica y Región de Aceptación, es decir se identifica una partición de resultados de forma que marque los límites ente lo probable ( variaciones al azar ) y lo imposible (variaciones significativas del comportamiento muestral) del conjunto de resultados del estadístico. Estos límites quedan determinados por el nivel de significancia , que es la probabilidad suficientemente pequeña de que, si la hipótesis nula es verdadera, el estadístico tenga un valor dentro de cierto intervalo marcado como región de rechazo. Prueba de hipótesis para la media de una población normal con varianza conocida
Las pruebas de hipótesis para muestras de poblaciones normales, se basan en el análisis del comportamiento del estadístico media aritmética de la muestra y su distribución muestral. A continuación se presenta el razonamiento de la prueba. Se lleva a cabo una investigación para identificar el precio medio cargado a cierto servicio, se considera que el precio justo es de $10. Planteamiento de la hipótesis
Ya que el problema se refiere al precio promedio del servicio, las hipótesis deben relacionarse con ese parámetro, el precio medio de todos los servicios de ese tipo prestados a los clientes. La hipótesis nula debe planearse congruente con cierta teoría. El precio justo promedio es $10 Profesora Guisela Gaitán Garavito
2013
Ho: = 10 La hipótesis alternativa debe contradecir la hipótesis nula y puede seleccionarse entre: H1 ≠ 10 H1: < 10 H1: >10 Las dos últimas conducen a una prueba unilateral y la primera a una prueba bilateral 1. Selección del estadístico de prueba: al ser una prueba relacionada con el parámetro promedio, el estadístico será el promedio aritmético de la muestra. Hay que recordar que al trabajar con la distribución normal es práctico usar la transformación Z. como la distribución muestral de medias, con varianza conocida puede representarse por la distribución normal, el estadístico de prueba se transformará a Z Z= ( – ) / ( ) 2. Delimitar las áreas de aceptación y rechazo Suponga que se selecciona la hipótesis alternativa H1: >10 con un nivel de significancia de = 5%. Se delimitan las áreas de aceptación y rechazo de acuerdo a un ensayo unilateral a la derecha Observe que si la hipótesis nula es cierta existe una probabilidad de 5% que la media de la muestra sea superior a c y existe una probabilidad del 95% de que el valor de la media sea menor que c. El valor c que separa las dos regiones se llama valor crítico del estadístico
5% Aceptación de Ho
c
Rechazo de Ho
En normal estándar
5% Aceptación de Ho
Rechazo de Ho
Zc= 1.645
El valor de Zc se denomina valor de z crítico y limita también las áreas de aceptación y rechazo en la distribución normal estándar.
Profesora Guisela Gaitán Garavito
2013
El criterio de decisión puede establecerse en esta distribución así: si la transformación Z del estadístico es menor que Zc se acepta la hipótesis nula porque los resultados son consistentes con la teoría que sustenta la Ho, si el valor de Z es mayor que Zc se rechaza la hipótesis nula porque existe diferencia significativa ente el resultado del estadístico y la teoría presentada, la muestra presenta resultados poco probable si la variaciones fueran debidas al azar. 3. Si en el problema se sabe que la desviación estándar poblacional es $6, al tomar una muestra de 64 servicios de ese tipo que revela un precio promedio de $12 la prueba se efectúa de la siguiente forma: Z= (12-10) / 6 √ = 2.66 4. Con el 5% de nivel de significancia Zc es 1.645, el valor del estadístico de prueba, 2.66, es mayor que Zc por lo que está situado en el área de rechazo y se concluye que no hay evidencia para aceptar la hipótesis nula, si ésta fuera cierta, la probabilidad de que el estadístico tenga un valor mayor o igual a 2.66 es 0.003 que es menor que el nivel de significancia fijado. El valor p de la prueba es 0.003. 5. Después de efectuada la prueba se puede concluir que la muestra evidencia que el pecio promedio del servicio es superior al justo de $10 Observaciones. Si al plantear la prueba se hubiera seleccionado cualquiera de las otras opciones de H1 la delimitación de área sería; si H1: < 10
5%
zc Si H1: ≠ 10 2.5%
2.5%
-zc
zc
El razonamiento expuesto anteriormente para probar una hipótesis de medias se puede resumir de la forma siguiente: a. Aclarar qué es lo que se pretende probar con el contraste de la hipótesis. Profesora Guisela Gaitán Garavito
2013
b. Aceptando que se ha hecho un enunciado claro del problema y del objetivo de la prueba expresar la hipótesis nula y alternativa en términos cuantitativos en función de algún parámetro dela población involucrada en el estudio. c. Elegir un nivel de significancia d. Seleccionar el método de prueba tomando en consideración las condiciones en las que se realiza la investigación y los supuestos teóricos que las sustentan. e. Planificar la realización del experimento o procedimiento para la recolección de la información, seleccionando el tamaño de muestra adecuado para el método de prueba seleccionado. f. Realizar el experimento y calcular los estadísticos. g. Efectuar el contraste de la hipótesis. h. Concluir con la información dada por la prueba y de acuerdo al problema planteado. Otros procedimientos de prueba de hipótesis
Existen situaciones donde las condiciones de la población expuestas en la prueba de medias con varianza conocida no son pertinentes, también hay problemas que se relacionan a parámetros diferentes a la media, por lo que es necesario plantear nuevos estadísticos de prueba. La tabla siguiente presenta lo diferentes estadísticos y las condiciones en las que se pueden utilizar para efectuar una prueba de hipótesis. Ho
Estadístico
Condición
Estadístico de prueba
Distribución
H1
Poblaciones con varianza conocida y aplicable en el caso de desconocer y estimarla a partir de S y a poblaciones no normales, siempre que le muestra sea al menos 30 Población normal con varianza desconocida y estimada por S
Z= (- )/ (/√
Normal estándar
, > o ,< o . ≠ o
Área de rechazo Z>Zc Z >Zc Z ≠ Zc
,= o
,= o
, t=( -) /(s/√)
, > o ,< o . ≠ o
,t>tc .t
S
Poblaciones normales
2 = (n-1) s2/2
<o >o ≠ p
,2 <2c ,2 >2c ,2≠ 2c
P
Poblaciones binomiales con n>30
Z=(P-po)/√
T de student con n-1 grados de libertad Chi cuadrado con n-1 grados de libertad Normal estándar
2 = 2
,p = po
Profesora Guisela Gaitán Garavito
,p < po ,p>po ,p≠ po
Z < Zc Z >Zc Z≠Zc
2013
EJEMPLOS PRUEBAS DE HIPOTESIS
Una empresa está interesada en lanzar un nuevo producto al mercado. Tras realizar una campaña publicitaria, se toma la muestra de 1 000 habitantes, de los cuales, 25 no conocían el producto. A un nivel de significación del 1% ¿apoya el estudio las siguientes hipótesis? a. Más del 3% de la población no conoce el nuevo producto. b. Menos del 2% de la población no conoce el nuevo producto Datos:
n = 1000 x = 25
Donde: x = ocurrencias n = observaciones = proporción de la muestra = proporción propuesta Solución: a)
= 0,01
Profesora Guisela Gaitán Garavito
2013
H0 es aceptada, ya que z prueba (-0,93) es menor que z tabla (2,326), por lo que no es cierto que más del 3% de la población no conoce el nuevo producto. b)
= 0,01
Ho es aceptada, ya que zprueba (1,13) es mayor que ztabla -(2,326), por lo que no se puede concluir que menos del 2% de la población no conoce el nuevo producto. Cuando las ventas medias, por establecimiento autorizado, de una marca de relojes caen por debajo de las 170,000 unidades mensuales, se considera razón suficiente para lanzar una campaña publicitaria que active las ventas de esta marca. Para conocer la evolución de las ventas, el departamento de marketing realiza una encuesta a 51 establecimientos autorizados, seleccionados aleatoriamente, que facilitan la cifra de ventas del último mes en relojes de esta marca. A partir de estas cifras se obtienen los siguientes resultados: media = 169.411,8 unidades., desviación estándar = 32.827,5 unidades. Suponiendo que las ventas mensuales por establecimiento se distribuyen normalmente; con un nivel de significación del 5 % y en vista a la situación reflejada en los datos. ¿Se considerará oportuno lanzar una nueva campaña publicitaria? Datos: n = 51 S= 32827.5 Por ser la muestra grande se utiliza la prueba Z con la desviación estándar estimada por la S
Solución:
H0: µ = 170000 H1: µ< 170000 = 0,05 z de talba -1.645
No es posible rechazar Ho, porque zprueba (-0,12) es mayor que ztabla -(1,645). Profesora Guisela Gaitán Garavito
2013
Un gerente de ventas de libros universitarios afirma que en promedio sus representantes de ventas realiza 40 visitas a profesores por semana. Varios de estos representantes piensan que realizan un número de visitas promedio superior a 40. Una muestra tomada al azar durante 8 semanas reveló un promedio de 42 visitas semanales y una desviación estándar de 2 visitas. Utilice un nivel de significancia de 0.5% para aclarar esta cuestión. Datos:
µ = 40 n=8 Nivel de confianza del 99% Nivel de significación 0,5% = 0,005
Solución:
H0: µ= 40 H1: µ> 40 Grados de libertad: n-1 = 8-1 =7 = 0,005
Profesora Guisela Gaitán Garavito
2013
H0 es aceptada, ya que t prueba (2,83) es menor que t tabla (3,499), por lo que no es acertado pensar que están realizando un número de visitas promedio superior a 40.
Riesgos de hacer falsas decisiones
Cuando se toma la decisión de rechazar o no rechazar una hipótesis nula se corre el riesgo de cometer uno de los siguientes errores Error tipo 1: rechazar la hipótesis nula cuando es verdadera, está ligado al planteamiento de la Ho y al nivel de significancia el que representa una probabilidad lo suficientemente pequeña que si la hipótesis nula es verdadera, la muestra presente un estadístico con un valor significativamente diferente de al parámetro planteado en ella, por ocurrir este hecho poco probable, pero posible, la Ho debe ser rechazada, sin embargo la decisión está equivocada. Por ejemplo en la hipótesis para la media de una población normal con varianza conocida, si Ho es = o y la alternativa > o Ho se rechaza si el estadístico es mayor que c, esto es, se rechaza porque un valor de mayor que c es poco probable (% probable) que ocurra si Ho es verdadera, pero no imposible, por lo tanto al rechazarla se puede estar cometiendo el error tipo 1. A es la probabilidad de rechazar una hipótesis nula cuando es verdadera es la probabilidad de cometer el error tipo 1 y es Error tipo 2 aceptar la hipótesis nula cuando es falsa. El error tipo 2 está ligado con el planteamiento de la hipótesis alternativa, pues cuando Ho es falsa, el verdadero valor del parámetro se encuentra contenido en el intervalo que H1 representa. La magnitud del error tipo 2 se representa por y es la probabilidad de que el estadístico muestre un valor consistente con Ho a pesar que es falsa En el ejemplo, suponiendo que Ho es falsa, que la verdadera media es 1 ( 1 > o) entonces si el estadístico tiene un valor menor que c, Ho no se rechaza, por la regla de decisión de la prueba, sin embargo el estadístico es el resultado de la observación aleatoria de la distribución de la población centrada en 1. La probabilidad de que de una población con media 1 presente un valor menor que c es % y representa la probabilidad de cometer el error tipo 2 cuando la media es 1.
Profesora Guisela Gaitán Garavito
2013
Por presentar un valor menor que c, no se rechaza Ho pero es falsa, entonces se está cometiendo el error tipo 2 es la probabilidad, conforme a la regla de decisión de la prueba, de aceptar la hipótesis
nula cuando en realidad es falsa, es la probabilidad de cometer el error tipo 2. Como complemento de se encuentra la potencia de la prueba, que es la probabilidad de rechazar la hipótesis nula cuando es falsa, esto es 1- varía dependiendo del verdadero valor del parámetro, si H1 es una hipótesis compuesta
va a existir para cada posible valor que esté conforme a ese criterio Se acepta Ho Se rechaza Ho
Ho verdadera Decisión correcta Error tipo 1
Ho falsa Error tipo 2 Decisión correcta
Fuente: M. Márques (2005) Cálculo de la probabilidad del error tipo 2 (b) y de la potencia de la prueba http://colposfesz.galeon.com/inferencia/teoria/cap3-13.htm
Por ejemplo Los salarios por hora que se pagan en un sector de la industria tiene una distribución normal con media 13.2 $ y una desviación estándar de 2.5$ Una compañía perteneciente a ese sector empela a 40 trabajadores, si se desea probar la hipótesis de que la compañía paga salarios inferiores a sus empleados, plantee el procedimiento de prueba. Datos n = 40 = 13.2$
= 2.5$
Hipótesis Ho: = 13.2$
H: < 13.2$
Distribución muestral () = 13.2 $
nivel de significancia = 1%
Z= -2,33
() = 2.5 / 40 = 0.3950$
Delimitación del área crítica C = 13.2 – 2.33 (0.3953) = 12.279$ Profesora Guisela Gaitán Garavito
2013
Si Ho es verdadera existe una probabilidad de 99% de que la media de la muestra sea superior a 12.179 y el 1% de probabilidad de que sea inferior a 12.279. Según la regla de decisión, si la media de la muestra es inferir a 12.279 se concluye que hay evidencia para suponer que la compañía paga salarios inferiores, que la (media de la población a la que pertenece la muestra) es menor que 13.2, pero no se tiene la certeza al tomar esta decisión, se puede cometer un error al llegar a esta conclusión por el hecho de que la muestra presenta un resultado poco probable para ser congruente con la teoría planteada en Ho. Se puede cometer el error tipo 1. La probabilidad de cometer ese error es = 1%. Por otra parte si la verdadera media fuera 12.95$ existe la posibilidad de no advertirlo y se acepte que la media es 13.20, la probabilidad de este hecho es la probabilidad de que la media de la muestra sea superior a 12.279 dado que la verdadera media de la población a la que pertenece la muestra es 12.95, es la probabilidad de cometer el error tipo 2 cuando la media es 12.95, el que se identifica momo )=P (z > - 1.697) = 1- 0.044= 0.9554
P ( > 12.279/ = 12.95) = P (Z>
12.95 12.27
13.2
Ahora suponga que la verdadera media es 12$ , también existe la posibilidad de no advertirlo porque la media de la muestra es mayor que 12.279, en este caso P( > 12.279) es P(Z > ) = P( Z > 0.706) = 1- 0.7598 = 0.2401, que es la probabilidad de cometer el error tipo 2 cuando la media verdadera es 12$ El cálculo de la probabilidad del error tipo 2 puede efectuarse para todos los posibles valores de m que se incluyen en el rango que establece la H1: < 13.2$ Algunas observaciones sobre los errores
Los errores tipo 1 y tipo 2 están relacionados, un decremento en la probabilidad de ocurrencia de uno de ellos conduce a un incremento en la probabilidad del otro. Un incremento en el tamaño de la muestra del experimento reduce simultáneamente la probabilidad de ocurrencia de los dos errores
Profesora Guisela Gaitán Garavito
2013
Si la hipótesis nula es falsa, entonces se hace máxima a medida que el valor verdadero del parámetro se aproxima al valor hipotético. Mientras más grande es la distancia entre los valores: hipotético, planteado en la Ho y el verdadero, es más pequeña. El investigador es el responsable de fijar y dándole la importancia que merece cada uno de los errores de acuerdo a la naturaleza del experimento. Elección del tamaño de la muestra
Para controlar la magnitud de los errores tipo 1 y tipo 2 es necesario utilizar en el experimento el tamaño de muestra apropiado. Los procedimientos de cálculo de tamaño de muestra apropiados para realizar pruebas de medias y proporciones se presentan a continuación. a. Hipótesis relacionadas con la media de una población Ho: = o
H1 : > o
Nivel de significancia y una potencia de la prueba, cuando el verdadero valor de difiere del hipotético o en , de (1-)
( ) Z(a) y Z(b) son los valores de la variable normal estándar con y (1-) área acumuladas Por ejemplo Suponga que se desea probar la hipótesis que el peso de un producto es 68 kg con la alternativa de que es mayor a 68 kg; utilizando un nivel de significancia de 5% y conociendo que la desviación estándar de los peso es 5Kg. Entonces el tamaño de muestra requerido para que la prueba tenga una potencia del 90% cuando la verdadera media del peso sea 69 kg es = (68-69)2 = 1
Z(a) = 1.645 Z(b) = 1.28 ,n = (1.645+1.28)2*25/1 = 213.16 El tamaño de muestra adecuado es de 214 productos Profesora Guisela Gaitán Garavito
2013
b. Hipótesis relacionadas con la proporción de éxitos de una población Ho: p = po
H1 : p> po
Nivel de significancia y una potencia de la prueba, cuando el verdadero valor de p difiere del hipotético po en , de (1-), asi p = po+= p1
EJERCICIOS: Entrega miércoles 14/08 con la caratula respectiva. 1. Pruebe la hipótesis de que el contenido promedio de los envases de un lubricante especifico es de 10 litros si los contenidos de una muestra aleatoria de 10 envases son:
10.2 9.7
10.1 10.3
10.1 9.8
9.9 10.4
10.3 9.8
2. Se desarrolla una nueva cura para cierto tipo de cemento que tiene como resultado un coeficiente de compresión de 5000 kg/cm2 y una desviación de 120 2 kg/cm , pruebe la hipótesis que el coeficiente de compresión es menor a 5000 2 kg/cm y encuentre la probabilidad de esta. Con una muestra de n=50 piezas de cemento y un coeficiente de compresión de 4970 kg/cm2. Utilice un nivel de significancia del 2%. 3. Suponga que en el pasado 40% de todos los adultos favorecían la pena capital. ¿Tenemos razón para creer que la proporción de adultos que actualmente favorecen la pena capital ha aumento si en una muestra de 15 adultos 8 están a favor de la pena capital utilice un nivel de significancia de 5%.
Profesora Guisela Gaitán Garavito
2013