ESTADISTICA INFERENCIAL 1. INTR INTROD ODUC UCCI CIÓN ÓN Es evidente que un conocimiento previo por parte del investigador de las características de la realidad de la población mejora o debe mejorar los resultados inferenciales que se pueden obtener de la obtención de una muestra; parece claro que si bien el método de selección aleatoria conlleva los mejores resultados, quizá el adecuar la manera de extraer la muestra a las posibles distintas naturalezas de las poblaciones puede mejorar el rendimiento, aunque sólo fuere a nivel de costos. No es por tanto lo mismo intentar conocer la altura media de los habitantes de un país, que el número de errores en una gran contabilidad, dado que la naturaleza de su universo y por tanto el comportamiento poblacional son distintos. Es por ello, que para distintas "naturalezas" del probl problema ema han han de plante plantears arse e disti distinta ntass soluci solucion ones, es, si bien bien todas, todas, o casi casi todas, todas, pasan pasan por la aleatoriedad; de ahí que se establezcan diversas "técnicas" o "métodos" de muestreo, de los que brevemente enumeramos algunos. El objetivo de la estadística inferencial es obtener la información acerca de una población, partiendo de la información información que contiene una muestra. muestra. El proceso que se sigue para seleccionar seleccionar una muestra se denomina Muestreo. Las ventajas que nos brinde el muestreo son: - Los Los ope opera ratitivo voss son son meno menore res. s. - Posibi Posibilit lita a anal analiza izarr un mayor mayor núm número ero de vari variab ables les.. - Permit Permite e con contro trolar lar las las vari variab ables les en estudi estudio. o.
2. TIPO TIPOS S DE DE MUE MUEST STRE REO O - Muestr Muestreo eo Proba Probabil bilíst ístico ico:: Cuando Cuando el muestr muestreo eo o proces proceso o para para selecc seleccion ionar ar una muestr muestra a es aleatorio. Así definimos una muestra probabilística probabilística a una muestra extraída de una población de tal manera que todo elemento elemento de la población conocida conocida pueda ser incluida en la muestra. muestra. Puede ser a su vez: A. MUES MUESTR TREO EO ALEA ALEATORI TORIO O SIMP SIMPLE LE:: (M.A (M.A.S .S.) .):: Es aque aquell mues muestr treo eo alea aleato tori rio o en el que que la probabilidad de que un elemento resulte seleccionado se mantiene constante a lo largo de todo el proceso de obtención de la misma. La técnica del muestreo puede asimilarse a un modelo de extracción de bolas de una urna con devolución (reemplazamiento) de la bola extraída. Un mismo dato puede, en consecuencia, consecuencia, resultar muestreado más de una vez. Cada elec elecci ción ón no depe depend nder er de las las ante anteri rior ores es y, por por tant tanto, o, los los dato datoss mues muestr tral ales es será serán n estocásticamente estocásticamente independientes. independientes. B. MUESTREO ALEATORIO SISTEMÁTICO. Esta técnica consiste en extraer elementos de la
población mediante una regla sistematizadora que previamente hemos creado (sencillamente cada K elementos). Así; numerada la población, se elige (aleatoriamente) un primer elemento base, partiendo de éste se aplica la regla para conseguir los demás hasta conseguir el tamaño muestral adecuado. Este procedimiento conlleva el riesgo de dar resultados sesgados si en la población se dan periodicidades o rachas. MUESTREO REO ALEA ALEATORIO TORIO ESTRA ESTRATIF TIFICA ICADO: DO: Consis Consiste te en consid considera erarr categ categorí orías as típica típicass C. MUEST diferentes entre sí (estratos) que poseen una gran homogeneidad interna (poca varianza interna) y no obstante son heterogéneos entre sí (mucha varianza entre estratos). La muestra se distribuye (se extrae de) entre los estratos predeterminados según la naturaleza de la población (ejemplo: sexo, lugar geográfico, etc.). Dicha distribución-reparto de la muestra se denomina afijación ; que puede ser de varias formas : - Afijación simple: a cada estrato le corresponde igual número de elementos (extracciones) muestrales. proporcional: La distribución se hace de acuerdo con el peso (tamaño) relativo de - Afijación proporcional: cada estrato. 1
-
Afijación óptima: Se tiene en cuenta la previsible dispersión de los resultados, de modo que se considera la proporción y la desviación típica. D. MUESTREO POR CONGLOMERADOS: La unidad muestral es un grupo de elementos de la población que forman previsiblemente una unidad de comportamiento representativo. Dicha unidad es el conglomerado cuyo comportamiento interno puede ser muy disperso (varianza gran grande de)) pero pero que que pres presum umib ible leme ment nte e pose poseer erá á un comp compor orta tami mien ento to próx próxim imo o a otro otross conglomerados conglomerados (varianza entre conglomerados, conglomerados, pequeña). Los conglomerados conglomerados se estudian en profundidad hasta conseguir el tamaño muestral adecuado. E. OTROS TIPOS DE MUESTREO. Es evidente que los planteados no son las únicas técnicas
de muestreo. Existen otras como las no aleatorias: Cuotas, Intencional, Incidental, bola de nieve, etc. Y otras aleatorias y complicadas como el muestreo por superpoblaciones, superpoblaciones, y que en este curso no podemos desarrollar.
3. ESTI ESTIMAC MACIO ION N DE INT INTER ERV VALO ALO La "estimación por intervalo" consiste en determinar un par de valores a y b, tales que constituidos en intervalo [a ,b] ; y para una probabilidad 1- α prefijada (nivel de confianza) se verifique en relación al parámetro θ a estimar se cumpla: P (ϑ ∈ [ a, b]) = 1 − α ó en otros términos: P ( a ≤ ϑ ≤ b) = 1 − α . Podemos considerar el nivel de confianza (1- α ) que hemos prefijado para la expresión anterior como la probabilidad que existe (antes de tomar la muestra) de que el intervalo a construir a partir de la muestra incluya el verdadero valor del parámetro a estimar. Refleja la "confianza" en la "construcción" del intervalo y de que éste tras concretar la muestra contendrá el valor a estimar. De ahí que en términos numéricos dicho nivel o probabilidad haya de tomar un valor alto (0.9, 0.95, 0.99). Evidentemente Evidentemente el complementario complementario al nivel de confianza; confianza; es decir α, nivel de significación significación supondrá las probabilidades de cometer el error de no dar por incluido el verdadero valor del parámetro a estimar en un intervalo en el que realmente si está. De ahí y dado que se trata de un error posible a cometer, su cuantificación en términos de probabilidad sea muy pequeña (0.1, 0.05, 0.005,..). En relación a lo anterior. anterior. Obviamente, cuanto mayor sea el nivel de confianza prefijado la amplitud del intervalo de estimación será también mayor y por tanto la estimación será menos precisa. La siguiente tabla presenta las diferentes fórmulas que ayudaran a crear los intervalos.
2
Para la distribución Normal utilice la siguiente tabla: Nivel de confianza
α
90% 95% 99%
α/2
0.1 0.05 0.01
0.05 0.025 0.005
Z α
2
1.645 1.96 2.576
Ejemplo Nº 001 En población cuya distribución se desconoce se obtiene una muestra (m.a.s.) de 2000 valores de la que resulta una media de 225 y una desviación típica de 10. Suponiendo que la varianza muestral coincide con la poblacional, estimar un intervalo para la media de la población con un nivel de confianza del 95%. Tendríamos 1-α =0.95 =0.95 luego luego α =0.05; =0.05; S=10= S=10=σ (muest (muestra ra grande grande n>30 n>30); ); n=2000 n=2000,, población normal. P ( x − Z α 2
σ n
≤ u ≤ x + Z α 2
σ n
para para una
) = 0.95
el resultado sería : µ ∈ [224,56 , 225,44] 225,44] con el el 95 % de confianza. 3
Ejemplo Nº 002 Las ventas diarias de cierta oficina comercial se supone que siguen una distribución normal. Para estimar el volumen medio de ventas por día se realiza una muestra de 10 días escogidos al azar, resultando que la media de las ventas de esos 10 días es S/. 100 con una desviación típica de S/. 4. Dar un intervalo de estimación para el volumen medio de ventas por día con una confianza del 95 %. Conocemos que según la información que poseemos, estamos ante: Distribución normal; n=10 (muestra pequeña); S=4(poblacional S=4(poblacion al desconocida); desconocida) ; media muestral=100; muestral=10 0; Para 1-α =0.95, luego α =0.05 con lo que t α 2 (9 gl ) = 2.26 (según tabla T) P ( x − t α 2
S n
≤ u ≤ x + t α
S
2
n
) = 0.95
El resultado sería: µ ∈ [S/.96,99 ; S/.103,01] S/.103,01] con el 95 % de de confianza confianza. Ejemplo Nº 003 Se quiere obtener un intervalo de confianza para el valor de las ventas medias por hora que se producen en un kiosco. Para ello realizamos una muestra consistente en elegir al azar las ventas que se realizaron durante 1000 horas distintas; muestra cuyos resultados fueron: ventas medias por hora S/. 4000, y varianza de dicha muestra S 2/. 4000. Obtener dicho intervalo con un nivel de confianza del 95.5 %. Queremos construir un intervalo para la media con las siguientes características: características: Tamaño amaño muestr muestral= al=n=1 n=1000 000,, con muestr muestreo eo aleato aleatorio rio simple simple,, la poblac població ión n no es normal normal ni conocemos su varianza. El resultado de la muestra es x = 4000 , S2=4000. Si bien se trata de un intervalo para la media con varianza desconocida y población no normal , dado que el tamaño muestral es grande podemos suponer normalidad y tomar como varianza poblacional a la muestral así: P ( x − z α 2
σ n
≤ u ≤ x + z α 2
σ n
) = 0.95
El resultado sería: µ ∈ [S/.399,08 ; S/.4003,92] S/.4003,92] con el el 95 % de confianza.
4. DETERMI DETERMINACI NACION ON DEL DEL TAMAÑ TAMAÑO O DE LA MUESTR MUESTRA A Cuando se necesita información para realizar estudios con datos estadísticos y no se puede contar un censo, porque es muy caro, o porque demora mucho o no se cuenta con el personal adecuado; entonces entonces será necesario obtener obtener una muestra, ahora. Pero viene la pregunta: pregunta: ¿cuál será el número adecuado adecuado mínimo del tamaño de la muestra? En principio existe todo un proceso para para obte obtene nerr una una mues muestr tra a repr repres esen enta tativ tiva a de la pobl poblac ació ión. n. Si el méto método do es alea aleato tori rio o o probabilistico, entonces el número adecuado de los elementos de la muestra, se pueden calcular usando las siguientes fórmulas. 1. CUANDO CUANDO EL ESTUDIO ESTUDIO ES DE DE CARÁCTER CARÁCTER CUALIT CUALITA ATIVO a. Cuando Cuando se supone supone que que N es muy grande grande o cuando cuando el el muestreo muestreo es con con reposició reposición: n: n=
Z α 2 PQ E 2 4
b. Cuando Cuando la poblac población ión es es finita finita (se conoce conoce N) N) o el muestro muestro es sin reposi reposición ción.. n=
NZ α 2 PQ ( N − 1) E 2 + Z α 2 PQ
Donde: P=Proporción P=Proporción de éxito; que se conoce por estudios anteriores o similares. Q=(1-P). Proporción de fracaso. Zα=Valo =Valorr que se obtien obtiene e de la distri distribuc bució ión n norma normal,l, para para un nivel nivel de signif signific icaci ación ón a. Generalmente se toma: Z=1.96 para un nivel de significancia significancia del 5%. Z=2.575 para un nivel de significancia del 1%. E=Error de estimación. Valor que lo determina el investigador. Se sugiere valores en torno al 5%. N= Número de los elementos de la población. Nota: Si no se conoce P, se puede adoptar las siguientes decisiones: i) Toma omar un una mu muestr estra a pi piloto oto y calc calcul ular ar el va valor lor de de P. P. ii) ii) Cons Consid ider erar ar el el valo valorr de P=0 P=0.5 .5,, lo cua cuall dará dará el el núme número ro de de ele eleme ment ntos os de de la mues muestr tra a el mayor posible. 2. CUANDO CUANDO EL ESTUDIO ESTUDIO ES DE DE CARÁCTER CARÁCTER CUANTI CUANTIT TATIVO a) Cuando Cuando no se conoce conoce el tamañ tamaño o N de la poblaci población ón o éste es infin infinito: ito: n=
Z α 2σ 2 E 2
b) Cuando Cuando el tamaño tamaño N de de la pobla población ción es es finito: finito: n=
NZ α 2σ 2 ( N − 1) E 2 + Z α 2σ 2
Ejemplos Nº 004 Se van a realizar un gran y desconocido número de ensayos para calibrar la resistencia media a la rotura rotura de un determi determinado nado azulejo azulejo en una partida partida de 10 000,000 000,000 unidades unidades.. Si deseamos deseamos 2 cometer un error inferior a 10 kg/cm , y por ensayos anteriores conocemos que la varianza en la rotura ha sido de 40 (kg/cm 2)2, ¿Qué número de ensayos hemos de realizar si hemos decidido trabajar con un nivel de confianza del 95%? Si suponemos un gran número de ensayos, suponemos, también, que el tamaño muestral es grande, grande, por lo que que podemos podemos establec establecer er normalid normalidad. ad. Los datos datos serian serian los siguien siguientes: tes: α=95%, 2 2 2 2 2 E =10 kg/cm ,σ =40(kg/cm ) . Utilizando la fórmula siguiente: n = n=
(1.96 2 )(40) 10
Z α 2σ 2 E 2
, tenemos:
= 15.36 ≈ 15 muestras de azulejos.
Ejemplo Nº 005 Para conocer la valoración en forma de porcentaje de aceptación hacia un determinado profesor decidimos encuestar a un determinado número de sus 100 alumnos. Calcular dicho número, si el error que estamos dispuestos a admitir es del más menos 3% y trabajamos con un nivel de confianza del 95%. Tenemos los siguientes datos: 5
N=100, E=3%, α=95%, p=0.5. q=1-p=0.5 Utilizando la fórmula tenemos: n=
NZ α 2 PQ ( N − 1) E 2
+ Z α 2 PQ
=
(100)(1.96) 2 (0.5)(0.5) (100 − 1)(0.03) 2
+ (1.96) 2 (0.5)(0.5)
= 91.51 ≡ 91 alumnos.
Ejemplo Nº 006 Para conocer la valoración en forma de porcentaje de aceptación hacia un determinado profesor decidimos encuestar a un determinado número de sus 100 alumnos. Calcular dicho número, si el error que estamos dispuestos a admitir es del más menos 3% y trabajamos con un nivel de confianza del 95%. El tamaño de la población es pequeño con Ν=100, Ε=3%, α=95%, p=0,5
q=1-p=0.5.
Utilizando la fórmula tenemos: n=
NZ α 2 PQ ( N − 1) E 2
+ Z α 2 PQ
=
(100)(1.96) 2 (0.5)(0.5) (100 − 1)(0.03) 2
+ (1.96) 2 (0.5)(0.5)
= 91.51 ≡ 91 alumnos.
5. CONST CONSTRAS RASTE TE DE HIPÓ HIPÓTE TESI SIS S El problema del contraste de hipótesis consiste básicamente en comprobar cotejar, decidir, en definitiva, sobre la veracidad de una hipótesis prefijada previamente como supuestamente cierta. En términos estadísticos, la o las hipótesis que formulamos lo serán lógicamente sobre la pobl poblac ació ión. n. Bien Bien afec afecta tand ndo o a algú algún n pará paráme metr tro o de ésta ésta,, lo que que da orig origen en a los los cont contra rast stes es paramétricos o bien a otras características de la mismas que no lo sean estrictamente, lo que origina contrates "no" paramétricos. paramétricos. La solución estadística del problema de contrastación se basará en los datos muestrales y la base estadística (probabilística) (probabilística) de la que arrancará el contraste, de algún estadístico muestral. Pasemos a definir los principales conceptos implicados en nuestro problema: Región crítica: Será aquella región del campo de variación del estadístico tal que si contiene al valor evaluado del mismo con los datos muestrales nos llevará a rechazar la hipótesis. La designaremos por R 1 Región de aceptación: Es la región complementaria de la anterior. Si el valor evaluado del estadístico pertenece a ella No rechazamos la hipótesis (las hipótesis nunca se aceptan de forma definitiva, sólo se aceptan provisionalmente, es decir, no se rechazan, a la espera de una nueva información que eventualmente pueda llevarnos a rechazarla en el futuro). La designaremos por R0. Evidentemente los conjuntos de puntos que forman ambas regiones son disjuntos. Una hipótesis estadística (paramétrica): Es una conjetura sobre el valor concreto que tiene en realidad. El establecer una hipótesis sobre un parámetro θ, supone dividir los posibles valores del parámetro en dos grupos disjuntos tales que unos son hipotéticamente ciertos ( θ0) y los otros ( θ1) no lo son. A la hipótesis que se desea contrastar se la denomina " hipótesis nula", siendo, por tanto, el valor o valores θ0 que hipotétic hipotéticamen amente te consider consideramos amos reales, reales, dicha dicha hipótesis hipótesis viene viene expr expres esad ada a como como H0. Altern Alternati ativam vament ente e y conse consecue cuente ntemen mente te se establ establece ece la denom denomin inada ada "hipótesis alternativa " (H1) compuesta ésta por el valor o valores θ1 que en consecuencia de la elección y de la complementariedad de los de la hipótesis nula, son los que, en principio, no consideramos cómo hipotéticamente reales.
6
El hech hecho o de que que las las hipó hipóte tesi sis, s, tant tanto o la nula nula cómo cómo la alte altern rnat ativ iva a pued puedan an reco recoge gerr en sus sus planteamientos uno o varios valores, da lugar a hipótesis de carácter simple, si el número de valores plausibles e hipotéticos es de uno en ambas, o bien a hipótesis compuestas si dicho valor no es único en alguna de ellas. Teniendo en cuenta lo dicho anteriormente, el problema de rechazar o aceptar una hipótesis puede plantearse como un problema de decisión, en el que evidentemente evidentemente existe la posibilidad posibilidad de fracasar o acertar en la elección o decisión a la hora de concluir que la hipótesis, bien nula o bien alternativa, son rechazables o no. El problema de decisión: rechazo/no rechazo, vendría expresado en las siguientes opciones en forma de tabla: Hipótesis/Acción Es cierta Es falsa
No Rechazamos Correcto Error Tipo II
Rechazamos Error Tipo I Correcto
• Si la hipótesis nula (H 0) es cierta y nuestra decisión es no rechazarla, la decisión ha sido • • •
correcta. Si la hipótesis nula (H 0) es cierta y nuestra decisión es rechazarla, la decisión provoca un error. Dicho error se denomina error tipo I. Si la hipótesis nula (H 0) es falsa y nuestra decisión es no rechazarla, la decisión provoca un error. Dicho error se denomina error tipo II. Si la hipótesis nula (H 0) es falsa y nuestra decisión es rechazarla, la decisión ha sido correcta.
Ejemplo: Enunciado 1: La altura del estudiante de la Universidad Nacional de Tumbes es Planteando las Hipótesis tenemos: H0: µ=1.65 H1: µ>1.65, µ<1.65 ó µ ≠ 1.65
1,65 m.
Enunciado 2: El promedio ponderado de los alumnos de la Escuela de contabilidad de la Universidad Nacional de Tumbes es 13.5. Planteando las Hipótesis tenemos: H0: µ=13.5 H1: µ>13.5, µ<13.5 ó µ ≠ 13.5 Enunciado 3: El porcen porcentaj taje e de alumn alumnos os de escuel escuelas as de la Regió Región n que que tienen tienen carie cariess es mayor mayor que que 0.7. 0.7. Planteando las Hipótesis tenemos: H0: p ≥ 0.7 H1: p<0.7
PRUEBA UNILATERALES Y BILATERALES Dependiendo Dependiendo de cómo se formulen H 0 y H1, las pruebas pueden ser: a) Pruebas Unilaterales o de una cola: Que puede ser:
-
Prue Prueba ba de cola cola infe inferi rior or o de lado lado izqui izquier erdo do:: cuyo cuyo caso caso la hipót hipótes esis is en gener general al toma toma la siguiente forma: Ho: θ=θ0, H1: θ<θ0 7
Donde θ es el parámetro de la población estadística sobre la cual se esta haciendo la prueba de hipótesis. Ejemplo: 1) H0: µ=1.65 H1: µ<1.65 2) H0: µ=13.5 H1: µ<13.5
-
Prueba de cola superior o de lado derecho: cuyo caso la hipótesis en general toma la siguiente forma: Ho: θ=θ0, H1: θ>θ0 Donde θ es el parámetro de la población estadística sobre la cual se esta haciendo la prueba de hipótesis. Ejemplo: 1) H0: µ=1.65 H1: µ>1.65 2) H0: µ=13.5 H1: µ>13.5
b) Pruebas de dos colas o bilateral: Que puede ser:
Ho: θ=θ0, H1: θ ≠ θ0
Ejemplo: 1) H0: µ=1.65 H1: µ ≠ 1.65 2) H0: µ=13.5 H1: µ ≠ 13.5
PROCEDIMIENTO PARA UNA PRUEBA DE HIPOTESIS Los pasos a seguir son: 1. Formular la hipótesis nula H 0 y la alternativa H 1, de acuerdo al problema. 2. Escoger un nivel de significación o riesgos α. 3. Elegir la estadística de prueba apropiada, cuya distribución por muestreo sea conocida en el supuesto de que H o es cierta. 4. En base a α y H1, determinar el valor (o los valores) críticos y con ello se establecen las regiones de aceptación o rechazo. 5. Calcular los valores de la prueba estadística a partir de una muestra aleatoria de tamaño n, Ho y reemplazarlos en la estadística de prueba elegida en el paso 3, para hallar el valor experimental. 6. Tomar la decisión de aceptar H o si el valor experimental cae en la región de aceptación y rechazarla si dicho valor cae en la región crítica o de rechazo. 7. Opcional: Si se rechaza H 0, se puede hallar un intervalo de confianza para el parámetro de interés.
8
PRUEBA DE HIPOTESIS SOBRE LA MEDIA POBLACIONAL Caso A: Cuando la varianza poblacional es conocida. Deseamos contrastar la hipótesis de que el parámetro poblacional θ = µ toma un determinado valor µ=0 . Conocemos que la población se distribuye normalmente y conocemos también su varianza , o bien si nos es desconocida, el tamaño muestral es lo suficientemente grande cómo para poder utilizar la muestral cómo poblacional. poblacional. Hemos determinado un nivel de significación para la realización del contraste y vamos a plantearlo en el supuesto de realizar una muestra aleatoria de tamaño n.
Así: conocemos que x ⇒ N u, σ
de lo que deducimos que n
x − u σ n
⇒ N [0,1] de forma que
la hipótesis nula es: H 0: µ=µ0. El estadístico está dado por:
Z =
x − u 0 . σ n
Ejemplo Nº 000 De 100 observaciones de una población normal se obtiene que x = 5 y que S=2.Contrastar S=2.Contrastar con un nivel de significación del 5% la hipótesis de que la media de la población sea 7. Aplicando el procedimiento para probar una hipótesis tenemos: 1. H0: µ0=7 H1: µ0 ≠ 7 2. El nivel de significancia es del 5%. ( α=5%) 3.
Z =
x − u 0 σ n
4. Establec Establecemos emos la la región región de de aceptac aceptación ión y de de rechazo: rechazo:
5. Realizamos Realizamos la prueba estadística:
Z =
5−7 2 100
= −10
6. Dado que Z=-10 y no pertenece a la región de aceptación estamos en condiciones de
rechazar la hipótesis nula, luego aceptar la alternativa : µ0 ≠ 7.
Ejemplo Nº 00z 9
Un empresario está considerando la posibilidad de ampliar su negocio mediante la adquisición de un pequeño bar. El dueño actual del bar afirma que el ingreso diario del establecimiento sigue una distribución normal de media 675 soles y una desviación estándar de 75 soles. Para comprobar si decía la verdad, tomó una muestra de treinta días y ésta reveló un ingreso diario promedio de 625 soles. Utilizando un nivel de significación significación del 10 %. ¿Hay evidencia de que el ingreso diario promedio sea menor del que afirma el presente dueño?. Aplicando el procedimiento para probar una hipótesis tenemos: 1. H0: µ0 ≥ 675 H1: µ0<675 2. El nivel de significancia es del 10%. ( α=10%) 3.
Z =
x − u 0 σ n
4. Establec Establecemos emos la la región región de de aceptac aceptación ión y de de rechazo: rechazo:
5. Realizamos Realizamos la prueba estadística:
Z =
625 − 675 75 30
= −3.65
6. Dado que Z=-3.65 y no pertenece a la región de aceptación estamos en condiciones de
rechazar la hipótesis nula, luego aceptar la alternativa: µ0<7.
Caso B: Cuando no se conoce la varianza poblacional y para una muestra pequeña. Deseamos contrastar la hipótesis de que el parámetro poblacional θ = µ toma un determinado valor µ=0 . Descon Desconoce ocemos mos la varian varianza za de la pobla població ción n y, dado dado que el tamaño tamaño muestr muestral al es pequeño, no podemos utilizar la muestral en su lugar. Hemos determinado un nivel de significación para la realización del contraste y vamos a plantearlo en el supuesto de realizar una muestra aleatoria de tamaño n. x − u Así: conocemos que s n
⇒ t n−1 de forma que la hipótesis nula es: H 0: µ=µ0.
El estadístico está dado por:
t =
x − u0 . s n
Ejemplo 2.
10
Se escoge a 17 individuos al azar y se les mide, resultando que su estatura media es de 1,71 metros con desviación típica de 0,02 .Contrastar la hipótesis de que la estatura media nacional sea de 1.75 metros si utilizamos un nivel del significación del 5%. Se supone normalidad normalidad Aplicando el procedimiento para probar una hipótesis tenemos: 1. H0: µ0=1.75 H1: µ0 ≠ 1.75 2. El nivel de significancia es del 5%. ( α=5%). 3.
t =
x − u 0 s n
4. Establec Establecemos emos la la región región de de aceptac aceptación ión y de de rechazo: rechazo: Utilizamos la tabla T.
Realizamos la prueba estadística: 5. Realizamos
t =
1.71 − 1.75 0.02 17
= −8.25
6. Dado que t=-8.25 y no pertenece a la región de aceptación estamos en condiciones de
rechazar la hipótesis nula, luego aceptar la alternativa: µ0=1.75.
PRUEBA DE HIPOTESIS PARA LA PROPORCIÓN POBLACIONAL: p Se trata de efectuar efectuar una prueba de hipótesis hipótesis acerca acerca de la proporción proporción de elementos elementos con cierto atributo en una población, hipótesis de la forma: H0: p ≤ p0. H0: p ≥ p0. H0: p=p0. H1: p>p0. H1: p
Z =
P − p0 p0 (1 − p0 ) n
Donde P =
x n
(proporción muestral)
Tiene una distribución N(0,1) cuando n ≥ 30. Ejemplo 4. Una empresa de publicidad desea comprobar si un determinado programa de televisión es visto por el 30% de la audiencia potencial .Para ello se escoge al azar una muestra de 200 11
familias resultando que de ellas 50 lo ven asiduamente. Contrastar la hipótesis con un nivel de significación del 5%. Aplicando el procedimiento para probar una hipótesis tenemos: 1. H0: p=0.3 H1: p ≠ 0.30 2. El nivel de significancia es del 5%. ( α=5%). 3.
Z =
P − p0
p0 (1 − p0 ) n
4. Establec Establecemos emos la la región región de de aceptac aceptación ión y de de rechazo: rechazo:
5. Reali Realizam zamos os la prue prueba ba estad estadísti ística ca:: P = Z =
50
= 0.25 200 P − p0 p0 (1 − p0 ) n
=
0.25 − 0.30 0.3(1 − 0.3)
= −1.54
200
6. Dado que Z=-1.54 y pertenece a la región de aceptación estamos en condiciones de
acepta la hipótesis nula, es decir: p =0,3 Ejemplo Un fabricante de refrescos sin burbujas desea sacar al mercado una variedad de su producto que tenga burbujas. Su director comercial opina que al menos el 50 % de los consumidores verá con buenos ojos la innovación. Se realiza un sondeo de mercado y resulta que de 100 consumidores encuestados 40 son favorables a la innovación. a) Contrastar la hipótesis del director comercial frente a la alternativa de que el % de aceptación
es inferior, con un nivel de significación del 1%. b) Si el aceptable la hipótesis de que el % de aceptación del nuevo producto es inferior o igual al
30 % el fabricante decidirá no fabricarlo. Si es aceptable el criterio del director comercial entonces sí fabricarán el refresco con burbujas. Y si ninguna de las 2 hipótesis es aceptable proced procederá erán n a hacer hacer otro otro sondeo sondeo.. Para Para tomar tomar esta esta decisi decisión ón trabaj trabajará arán n con un nivel nivel de significación del 5 %. ¿ Por qué optarán?.
12
Para el punto a) Aplicando el procedimiento para probar una hipótesis tenemos: 1. H0: p ≤ 0.5 H1: p>0.5 2. El nivel de significancia es del 1%. ( α=1%). 3.
Z =
P − p0
p0 (1 − p0 ) n
4. Establec Establecemos emos la la región región de de aceptac aceptación ión y de de rechazo: rechazo:
5. Reali Realizam zamos os la prue prueba ba estad estadísti ística ca:: P = Z =
40
= 0 .4 100 P − p0 p0 (1 − p0 ) n
=
0.4 − 0.5 0.5(1 − 0.5)
= −2
100
6. Dado que Z=-2 y pertenece a la región de aceptación estamos en condiciones de aceptar
la hipótesis nula, es decir: p ≤ 0,5.
Para el punto b) Aplicando el procedimiento para probar una hipótesis tenemos: 1. H0: p ≤ 0.3 H1: p>0.3 2. El nivel de significancia es del 1%. ( α=1%). 3.
Z =
P − p0
p0 (1 − p0 ) n
4. Establec Establecemos emos la la región región de de aceptac aceptación ión y de de rechazo: rechazo:
13
5. Reali Realizam zamos os la prue prueba ba estad estadísti ística ca:: P = Z =
40
= 0 .4 100 P − p0 p0 (1 − p0 )
=
0.4 − 0.3 0.3(1 − 0.3)
n
= 2.18
100
6. Dado que Z=2.18 y pertenece a la región de aceptación estamos en condiciones de
acepta aceptarr la hipót hipótesi esiss nula, nula, es decir: decir: p ≤ 0,3. Por lo tanto tanto se recomi recomien endo do no fabric fabricar ar el refresco.
ESTIMACIÓN DE UNA DIFERENCIA ENTRE DOS MEDIAS DE POBLACIONES NORMALES (Población 1 y 2) Para encontrar el intervalo de la diferencia de la media de dos poblaciones se considera que las muestras tomadas de las poblaciones son independientes .
SI SE CONOCE LAS DESVIACIONES ESTÁNDAR POBLACIONALES ( σ 1 Y σ 2 ). El intervalo de 100(1 − α ) % , resulta ser: σ 12
Límite inferior: ( x1 − x 2 ) − z tabla • Límite superior: ( x1 − x 2 ) + z tabla
n1
•
+
σ 12 n1
σ 22 n2
+
;
σ 22 n2
Donde: n1 : es el tamaño de la muestra tomada de la población 1 n1 : es el tamaño de la muestra tomada de la población 2 x1 : es la media de la muestra tomada de la población 1 x 2 : es la media de la muestra tomada de la población 2 σ 1 : es la desviación estándar de la población 1 σ 2 : es la desviación estándar de la población 2
N es el tamaño de la población z tabla : es el valor z de la tabla N(0,1)
SI NO SE CONOCE LAS DESVIACIONES ESTÁNDAR POBLACIONALES ( σ 1 Y σ 2 ).
14
El intervalo de 100(1 − α ) % , resulta ser: Límite inferior: x1 − x2 − t tabla; gl n
= 1+
n2 −
1
2 * s p *
n1
1
Límite superior: x1 − x 2 + t tabla; gl =n +n −2 * s p * 1
+
n1
2
1
n2
+
;
1 n2
Donde: t tabla ; gl = n − 2 : es el valor “t” de la tabla “t” de Student, con n1
+ n2 − 2 grados de libertad
Donde las varianzas poblacionales, si bien son desconocidas, se considera que son iguales, s c2 representa entonces la varianza común y se calcula: 2 p
s
=
( n1 − 1) ⋅ s12 + ( n2 − 1) ⋅ s 22 n1 + n2
−2
ESTI ESTIMAC MACIÓ IÓN N DE UNA UNA DIFE DIFERE RENC NCIA IA ENTR ENTRE E DOS DOS PROPO PROPORC RCIO IONE NES S POBL POBLACI ACION ONAL ALES ES (Población 1 y 2). (Caso de muestras grandes) El intervalo de 100(1 − α ) % , resulta ser: Límite inferior: ( pˆ 1 − pˆ 2 ) − z tabla
•
Límite superior: ( pˆ 1 − pˆ 2 ) + z tabla •
ˆ • Qˆ P 1 1 n1
+
ˆ • Qˆ P 1 1 n1
ˆ • Qˆ P 2 2
+
n2
;
ˆ • Qˆ P 2 2 n2
Donde: n1 : es el tamaño de la muestra tomada de la población 1 n2 : es el tamaño de la muestra tomada de la población 2 ˆ : es la proporción en la muestra tomada de la población 1; Qˆ P 1 1
= 1 − P ˆ1 ˆ : es la proporción en la muestra tomada de la población 1; Qˆ = 1 − P ˆ P 2 2 2 N es el tamaño de la población z tabla : es el valor z de la tabla N(0,1)
PRUEBA DE HIPÓTESIS PARA UNA DIFERENCIA DE MEDIAS DE POBLACIONES CON DISTRIBUCIÓN NORMAL (Con muestras independientes). Aquí se tiene entonces: X 1 ~ N ( µ 1 ;σ 12
y X 2 ~ N ( µ 2 ; σ 22
En este caso las hipótesis son de la forma:
1.
= µ 2 H a : µ 1 ≠ µ 2 H 0 : µ 1
2.
= µ 2 H a : µ 1 < µ 2 H 0 : µ 1
3.
= µ 2 H a : µ 1 > µ 2 H 0 : µ 1
En forma equivalente se puede plantear las hipótesis:
1.
H 0 : µ 1 − µ 2
=0 H a : µ 1 − µ 2 ≠ 0
2.
H 0 : µ 1 − µ 2
=0 H a : µ 1 − µ 2 < 0
3.
H 0 : µ 1 − µ 2
=0 H a : µ 1 − µ 2 > 0
CASO EN QUE SE CONOCEN LAS VARIANZAS POBLACIONALES ( σ 12 Y σ 22 )
15
El valor calculado es:
x1 − x 2
=
z calc
σ 12 n1
+
σ 22 n2
Los valores críticos son: Hipótesis tipo 1: 3: z tabla
− z tabla y
z tabla , Hipótesis tipo 2:
− z tabla , Hipótesis tipo
CASO EN QUE NO SE CONOCEN LAS VARIANZAS VARIANZAS POBLACIONALES ( σ 12 Y σ 22 ) Si se considera que: σ 12 = σ 22 El valor calculado es:
t calc
x1 − x2
=
1
s p
n1
+
1 n2
Donde: s
2 p
=
( n1 − 1) ⋅ s12 + ( n2 − 1) ⋅ s 22 n1 + n2
−2
s12 y s 22 ; son las varianzas de las muestras sacadas de la población 1 y 2 respectivamente
respectivamente x1 y x 2 ; son las medias de las muestras sacadas de la población 1 y 2 respectivamente Los valores críticos son: Hipótesis tipo 1: − t tabla ; gl =n + n 1
Hipótesis tipo 2:
2
−2
y t tabla; gl
n
= 1+
n2 − 2
− t tabla; gl =n + n −2 1
Hipótesis tipo 3: t tabla ; gl n
= 1+
2
n2 − 2
SI SE CONSIDERA QUE: σ 12 ≠ σ 22 El valor calculado es:
t calc
=
x1 − x 2 s12 n1
+
s 22 n2
Los valores críticos son los mismos anteriores, pero, los grados de libertad están dados por: 2
s12 s 22 + n1 n 2 −2 gl = 2 2 2 2 s 2 1 1 s1 + n + n1 + 1 n1 n 1 2 2 Ejemplo: Dos Dos fabr fabric ican ante tess A y B prod produc ucen en un artí artícu culo lo simi simila larr, cuya cuyass vida vidass útil útiles es tien tienen en desviaciones estándar respectivas de 120 horas y 90 horas. Para comparar el promedio de vida útil útil de estos estos artícu artículos los se extra extrae e una una muestr muestra a aleat aleatori oria a de 60 artícu artículos los de cada cada fabric fabricant ante e encontrándose la duración media de 1.230 horas para la marca A y de 1.190 horas para la marca B. ¿Se puede concluir a un nivel de significación del 5% que los artículos de marca A tienen mayor duración media que los artículos de marca B? Se tiene una prueba de hipótesis para la diferencia de dos medias con varianzas poblacionales conocidas. 16
Datos: n1 = n2 = 60; x1 = 1.230; x 2 = 1.190; σ 12 = 120 2 ; σ 22 = 90 2 z tabla = 1,645 En este problema, si bien es cierto, no se dice que las poblaciones sean normales, se tiene que los tamaños de muestra son grandes, por lo que la estadística de prueba: z calc
=
x1 − x 2 σ 12 n1
+
σ 22 n2
Tiene una distribución aproximadamente aproximadamente normal estándar, por lo que se puede usar lo presentado en el punto 4.1. H 0 : µ 1 − µ 2
El valor calculado es:
z calc
=
x1 − x 2 σ 12 n1
Valor critico: z tabla
=0 H a : µ 1 − µ 2 > 0 1.230 − 1.190 = = 2,07 2 2 120 90 +
+
σ 22 n2
60
60
= 1,645
La región de rechazo es entonces: RR = [1,645; ∞[ Por lo tanto se rechaza Ho, se acepta Ha. Se puede decir que existen evidencias significativas, al nivel de significación del 5%, para decir que la duración media de los artículos de marca A es mayor a los de marca B.
PRUEBA DE HIPÓTESIS PARA UNA DIFERENCIA DE PROPORCIONES (Muestras grandes). En este caso las hipótesis son de la forma:
= P 2 1. H a : P 1 ≠ P 2
= P 2 2. H a : P 1 < P 2
H 0 : P 1
= P 2 3. H a : P 1 > P 2
H 0 : P 1
H 0 : P 1
En forma equivalente se puede plantear las hipótesis:
1.
H 0 : P 1 − P 2
=0 H a : P 1 − P 2 ≠ 0
El valor calculado es:
z calc
=
2.
H 0 : P 1 − P 2
=0 H a : P 1 − P 2 < 0
3.
H 0 : P 1 − P 2
=0 H a : P 1 − P 2 > 0
ˆ − P ˆ P 1 2 ˆ • 1 − P ˆ 1 P n1
(
)
+
n 2 1
ˆ + n • P ˆ n1 • P 1 2 2 ˆ = Donde: P n1 + n2
Los valores críticos son: Hipótesis tipo 1:
− z tabla y
Hipótesis tipo 2:
− z tabla
z tabla
Hipótesis tipo 3: z tabla 17
Ejemplo: Una muestra aleatoria de 300 hombres y otro de 400 mujeres de una determinada población reveló que 120 hombres y 120 mujeres estaban a favor de cierto candidato. ¿Se puede concluir a un nivel de significación del 5% que la proporción de hombres a favor del candidato es mayor que la proporción de mujeres? Aquí se tiene una prueba de hipótesis para diferencias de proporciones con muestras grandes. Si denotamos con 1 a la población de hombres y con 2 a la de mujeres, se tiene: 1° Plantear las hipótesis de interés
= P 2 H a : P 1 > P 2 H 0 : P 1
2° Calcular la estadística de prueba (valor calculado), bajo Ho:
El valor calculado es:
z calc
ˆ − P ˆ P 1 2
=
ˆ • 1 − P ˆ 1 P n1
(
ˆ + n • P ˆ n1 • P 1 2 2 ˆ Donde: P = n1 + n 2
=
)
+
n 2 1
300 • 0,4 + 400 • 0,3 300 + 400
0,4 − 0,3
=
1 + 1 300 400
= 2,76
0,34 • 0,66
= 0,34
3° Construir la regla de decisión y decidir El valor crítico es: z tabla
= 1,645
La región de rechazo (RR) es: RR = [1,645; ∞[ Por lo tanto se rechaza Ho, se acepta Ha Se puede decir entonces que existen evidencias suficientes, a un 5% de significación, para decir que la proporción de hombres a favor del candidato es mayor que el de las mujeres, en esa población
18