ESTADÍSTICA
UNIDAD 3 ESTIMACIÓN Y PRUEBA DE HIPÓTESIS
UNIDAD 3 ESTIMACIÓN Y PRUEBA DE HIPÓTESIS. HIPÓT ESIS. 3.1 MUESTREO ALEATORIO. Claramente, la confiabilidad de las conclusiones obtenidas concernientes a una población dependen de si la muestra se tomó adecuadamente, para que represente a la población lo suficientemente bien. Uno de los problemas importantes de la inferencia estadística es precisamente cómo obtener una muestra. Una manera de hacer esto para poblaciones finitas es asegurar que cada miembro de la población tenga la misma probabilidad de estar en la muestra, lo cual se denomina, muestra aleatoria. aleatoria. Una muestra aleatoria puede lograrse para muestras de poblaciones relativamente pequeñas extrayendo lotes, o de manera equivalente, usando una tabla de números aleatorios, especialmente construida para tales propósitos.
Ejercicio. ¿Cuántas muestras distintas de n podemos tomar de una población finita de tamaño N, cuando
a) b) Hay Hay
y y
muestras distintas. muestras distintas.
3.1.1 ALEATORIO SIMPLE.
Con base en el resultado de que hay
muestras distintas de tamaño n de una
población finita de tamaño N, presentaremos la siguiente definición de una muestra aleatoria (en ocasiones conocida también como muestra aleatoria simple) de una población finita: Una muestra de tamaño n de una población finita de tamaño N es una variable aleatoria si se selecciona de manera tal que cada una de las probabilidad,
de ser seleccionada.
Ejercicio.
muestras posibles tiene la misma
Tome una muestra aleatoria de tamaño de la población consistente en las cantidades de impuestos sobre las ventas cobradas por 247 farmacias de una ciudad en diciembre de 1990 numerando las farmacias como 001,002,003« y 247 (digamos, en el orden en que aparecen en el directorio telefónico) leyendo números aleatorios de tres dígitos de la segunda página de la tabla XI, usando la vigesimasexta, la vigesimaseptima 1
ESQUIVEL REYES GEOVANNI ALEXIS
ESTADÍSTICA
UNIDAD 3 ESTIMACIÓN Y PRUEBA DE HIPÓTESIS
y la vigesimaoctava columnas empezando en el sexto renglón y continuando pagina abajo. Siguiendo estas instrucciones, obtenemos
Donde ignoramos los números mayores que 247; si cualquier número se hubiera repetido, también lo habríamos ignorado. Los doce números que tenemos aquí son los números asignados a las farmacias; las cifras de impuestos sobre las ventas correspondientes constituyen la muestra aleatoria deseada.
3.1.2 SISTEMÁTICO. En algunos casos, la manera más práctica de efectuar un muestreo consiste en seleccionar, digamos, cada vigésimo nombre de una lista, cada decimasegunda casa de un lado de una calle, cada quincuagésima pieza de una línea de ensamble y así sucesivamente. Esto se conoce como muestreo sistemático y se puede integrar un elemento de azar en esta clase de muestreo usando números aleatorios para seleccionar la unidad en la que se debe comenzar. Aunque una muestra sistemática puede no ser una muestra aleatoria de acuerdo con la definición, a menudo es razonable tratar las muestras sistemáticas como si fueran muestras aleatorias; de hecho, en algunos casos las muestras sistemáticas en realidad pueden ser mejores que las muestras aleatorias simples por que las primeras se extienden en forma más regular sobre las poblaciones enteras.
Ejercicio. Si tenemos una población formada por 100 elementos y queremos extraer una muestra de 25 elementos, en primer lugar debemos establecer el intervalo de selección que será igual a . A continuación elegimos el elemento de arranque, tomando aleatoriamente un número entre el 1 y el 4, y a partir de él obtenemos los restantes elementos de la muestra.
2, 6, 10, 14,..., 98
3.1.3 ESTRATIFICADO. Si tenemos información acerca de la constitución de una población (es decir, su composición) y esta es importante para nuestra investigación, podemos mejorar el muestreo aleatorio por medio de la estratificación. Este es un procedimiento procedimiento que consiste en estratificar (o dividir) en un numero de subpoblaciones o estratos que no se traslapen y luego tomar una muestra de cada estrato. Si los artículos seleccionados de cada estrato constituyen muestras aleatorias simples, el procedimiento completo (primero la estratificación y luego el muestreo aleatorio) se conoce como muestreo aleatorio (simple) estratificado.
2
ESQUIVEL REYES GEOVANNI ALEXIS
ESTADÍSTICA
UNIDAD 3 ESTIMACIÓN Y PRUEBA DE HIPÓTESIS
y la vigesimaoctava columnas empezando en el sexto renglón y continuando pagina abajo. Siguiendo estas instrucciones, obtenemos
Donde ignoramos los números mayores que 247; si cualquier número se hubiera repetido, también lo habríamos ignorado. Los doce números que tenemos aquí son los números asignados a las farmacias; las cifras de impuestos sobre las ventas correspondientes constituyen la muestra aleatoria deseada.
3.1.2 SISTEMÁTICO. En algunos casos, la manera más práctica de efectuar un muestreo consiste en seleccionar, digamos, cada vigésimo nombre de una lista, cada decimasegunda casa de un lado de una calle, cada quincuagésima pieza de una línea de ensamble y así sucesivamente. Esto se conoce como muestreo sistemático y se puede integrar un elemento de azar en esta clase de muestreo usando números aleatorios para seleccionar la unidad en la que se debe comenzar. Aunque una muestra sistemática puede no ser una muestra aleatoria de acuerdo con la definición, a menudo es razonable tratar las muestras sistemáticas como si fueran muestras aleatorias; de hecho, en algunos casos las muestras sistemáticas en realidad pueden ser mejores que las muestras aleatorias simples por que las primeras se extienden en forma más regular sobre las poblaciones enteras.
Ejercicio. Si tenemos una población formada por 100 elementos y queremos extraer una muestra de 25 elementos, en primer lugar debemos establecer el intervalo de selección que será igual a . A continuación elegimos el elemento de arranque, tomando aleatoriamente un número entre el 1 y el 4, y a partir de él obtenemos los restantes elementos de la muestra.
2, 6, 10, 14,..., 98
3.1.3 ESTRATIFICADO. Si tenemos información acerca de la constitución de una población (es decir, su composición) y esta es importante para nuestra investigación, podemos mejorar el muestreo aleatorio por medio de la estratificación. Este es un procedimiento procedimiento que consiste en estratificar (o dividir) en un numero de subpoblaciones o estratos que no se traslapen y luego tomar una muestra de cada estrato. Si los artículos seleccionados de cada estrato constituyen muestras aleatorias simples, el procedimiento completo (primero la estratificación y luego el muestreo aleatorio) se conoce como muestreo aleatorio (simple) estratificado.
2
ESQUIVEL REYES GEOVANNI ALEXIS
ESTADÍSTICA
UNIDAD 3 ESTIMACIÓN Y PRUEBA DE HIPÓTESIS
Esencialmente el objetivo de la estratificación es formar estratos de tal forma que haya alguna relación entre estar en un estrato particular y la respuesta que se busca en el estudio estadístico y que en los estratos separados haya tanta homogeneidad como sea posible.
Ejercicio.
Se debe tomar una muestra estratificada de tamaño de una muestra de tamaño que consta de tres estratos de tamaño ¿Si la distribución debe ser proporcional, cuán grande debe ser la muestra tomada de cada estrato? Sustituyendo en la fórmula, obtenemos:
3.1.4 POR CONGLOMERADOS.
Se divide la población en varios grupos de características parecidas entre ellos y luego se analizan completamente algunos de los grupos, descartando los demás. Dentro de cada conglomerado existe una variación importante, pero los distintos conglomerados son parecidos. Requiere una muestra más grande, pero suele simplificar la recogida de muestras. Frecuentemente los conglomerados se aplican a zonas geográficas. Se divide la población total en un número determinado de subdivisiones relativamente pequeñas y se seleccionan al azar algunas de estas subdivisiones o conglomerados para incluirlos en la muestra general. Si los conglomerados son subdivisiones geográficas, geográficas, este muestreo se llama también muestreo por áreas.
Ejercicio. Suponga que el decano de estudiantes de una universidad quiere saber la opinión de la fraternidad hacia la escuela acerca de cierta disposición nueva. Puede tomar una muestra de conglomerados entrevistando algunos o a todos los miembros de varias fraternidades seleccionadas a azar. Aunque las estimaciones basadas en el muestreo por conglomerados por lo general no son tan confiables como las estimaciones que se basan en muestras aleatorias simples del mismo tamaño, a menudo son más confiables por el costo unitario.
3.1.5 EN DOS ETAPAS. Cuando en el muestreo por conglomerados se prosigue en el análisis y dentro de cada conglomerado se vuelven a seleccionar, también de forma f orma aleatoria, nuevos subconglomera-dos, y así sucesivamente hasta seleccionar las unidades últimas, al muestreo se le denominador etapas o polietápico. El más frecuente de los muestreos por etapas es el bietápico, en el que se seleccionan, en primer término y de forma aleatoria, los conglomerados o áreas, y en una segunda etapa, las unidades últimas o 3
ESQUIVEL REYES GEOVANNI ALEXIS
ESTADÍSTICA
UNIDAD 3 ESTIMACIÓN Y PRUEBA DE HIPÓTESIS
más elementales del conjunto poblacional, sin necesidad de tener que seleccionar ningún otro tipo de unidad intermedia.
Ejercicio. Si estadistas del gobierno quieren estudiar la opinión de los profesores de las escuelas primarias estadounidenses estadounidenses hacia ciertos programas federales, podrían estratificar primero el país por estados o algunas otras subdivisiones geográficas. Para tomar medida de cada estrato, podrían usar el muestreo de conglomerados subdividiendo cada estrato en un número determinado de subdivisiones geográficas más pequeñas y finalmente podrían usar un muestreo aleatorio simple o un muestreo sistemático para seleccionar una muestra de profesores de educación primaria de cada conglomerado.
3.2 ESTIMACIÓN PUNTUAL. Un estimador de un parámetro poblacional dado por un numero sencillo se llama estimador puntual del parámetro. Un estimador de un parámetro poblacional dado por dos números entre los cuales se puede considerar que esta el parámetro, se llama estimación por intervalo del parámetro.
3.2.1 PROPIEDADES. Existe una propiedad que comprende conjuntamente las propiedades de insesgamiento y eficiencia. Se trata del error cuadrático medio. Sea un estimador del parámetro . El error cuadrático medio de , denotado , se define como el valor esperado de
Nos referimos al promedio de los cuadrados de las observaciones. Si éste es pequeño, debemos aceptar que hay una tendencia para que los valores ) sean pequeños, y así lo será también la diferencia ), lo que quiere decir que T tiende a producir respuestas numéricas próximas al parámetro . El poder que tenga T para producir valores próximos a depende de dos condiciones básicas. Una es la ³fuerza´ o intensidad con la que tiende a dar esos valores (insesgamiento) y la otra es la ³fuerza´ que tenga para no permitir que se aparte de del camino que lo conduce a (eficiencia). Estas dos condiciones matemáticamente quedan establecidas y precisadas en el teorema siguiente:
TEOR TEOREM A
Si T es un estimador del parámetro ,
4
ESQUIVEL REYES GEOVANNI ALEXIS
ESTADÍSTICA
UNIDAD 3 ESTIMACIÓN Y PRUEBA DE HIPÓTESIS
3.2.1.1 INSESGADO. Se dice que un estimador puntual
es un estimador insesgado de
, si
, para
todo valor posible de . En otras palabras, un estimador insesgado es aquel para el cual la media de la distribución muestral es el parámetro estimado. Si se usa la media muestral para estimar la media poblacional , se sabe que la , por lo tanto la media es un estimador insesgado.
Ejercicio .
La media y varianza , son estimadores insesgados de la media de la población varianza
, ya que
estimadores insesgados. Sin embargo, general ,
.
. Los valores de
y
es un estimador sesgado de
y
se denominan
, ya que, en
3.2.1.2 CONSISTENTE. Una estadística es un estimador coherente de un parámetro de población, si al aumentar el tamaño de la muestra se tiene casi la certeza de que el valor de la estadística se aproxima bastante al valor del parámetro de la población. Si un estimador es coherente se vuelve más confiable si tenemos tamaños de muestras más grandes. Un estimador es suficiente si utiliza una cantidad de la información contenida de la muestra que ningún otro estimador podría extraer información adicional de la muestra sobre el parámetro de la población que se está estimando. Es decir se pretende que al extraer la muestra el estadístico calculado contenga toda la información de esa muestra. Por ejemplo, cuando se calcula la media de la muestra, se necesitan todos los datos. Cuando se calcula la mediana de una muestra sólo se utiliza a un dato o a dos. Esto es solo el dato o los datos del centro son los que van a representar la muestra. Con esto se deduce que si utilizamos a todos los datos de la muestra como es en el caso de la media, la varianza, desviación estándar, etc; se tendrá un estimador suficiente.
Ejercicio. Para una población normal, la distribución muestral de la media y la mediana tienen la misma media; es decir, la media de la población. Sin embargo, la varianza de la distribución muestral de medias es más pequeña que aquella de la distribución muestral de medianas. Por consiguiente, la media provee un estimador más eficiente que la mediana.
5
ESQUIVEL REYES GEOVANNI ALEXIS
ESTADÍSTICA
UNIDAD 3 ESTIMACIÓN Y PRUEBA DE HIPÓTESIS
3.2.1.3 INSESGADO DE VARIACION MINIMA.
Suponga que y son dos estimadores insesgados de . Entonces, aun cuando la distribución de cada estimador esté centrada en el valor verdadero de , las dispersiones de las distribuciones alrededor del valor verdadero pueden ser diferentes.
Entre todos los estimadores de que son insesgados, seleccione al que tenga varianza mínima. El resultante recibe el nombre de estimador insesgado con varianza mínima (MVUE, minimum variance unbiased estimator) de .
En otras palabras, la eficiencia se refiere al tamaño de error estándar de la estadística. Si comparamos dos estadísticas de una muestra del mismo tamaño y tratamos de decidir cuál de ellas es un estimador más eficiente, escogeríamos la estadística que tuviera el menor error estándar, o la menor desviación estándar de la distribución de muestreo. Tiene sentido pensar que un estimador con un error estándar menor tendrá una mayor oportunidad de producir una estimación más cercana al parámetro de población que se está considerando.
Como se puede observar las dos distribuciones tienen un mismo valor en el parámetro sólo que la distribución muestral de medias tiene una menor varianza, por lo que la media se convierte en un estimador eficiente e insesgado.
Ejercicio. Si decimos que una distancia es de 5.28 metros, estamos dando un estimador puntual. Si, por otro estamos dando una estimación por intervalo. La confiabilidad de un estimador es el conocimiento de su error o de su precisión.
6
ESQUIVEL REYES GEOVANNI ALEXIS
ESTADÍSTICA
UNIDAD 3 ESTIMACIÓN Y PRUEBA DE HIPÓTESIS
3.3 ESTIMACIÓN POR INTERVALOS DE CONFIANZA. 3.3.1 DE LA MEDIA CON
CONOCIDA.
Es conocido de nosotros durante este curso, que en base a la distribución muestral de medias que se generó en el tema anterior, la fórmula para el cálculo de probabilidad es la
siguiente: . Como en este caso no conocemos el parámetro y lo queremos estimar por medio de la media de la muestra, sólo se despejará de la formula anterior, quedando lo siguiente:
De esta fórmula se puede observar que tanto el tamaño de la muestra como el valor de z se conocerán. Z se puede obtener de la tabla de la distribución normal a partir del nivel de confianza establecido. Pero en ocasiones se desconoce por lo que en esos casos lo correcto es utilizar otra distribución llamada "t" de student si la población de donde provienen los datos es normal.
Para el caso de tamaños de muestra grande se puede utilizar una estimación puntual de la desviación estándar, es decir igualar la desviación estándar de la muestra a la de la población
Ejercicio. Las medidas de los diámetros de una muestra aleatoria de 200 balineras hechas por cierta maquina durante una semana mostraron una media de 0.824 centímetros y desviación estándar 0.042 centímetros. Encuentre los límites de confianza del a) 95% y b) 99% para el diámetro medio de todas las balineras. Ya que
es grande, podemos suponer que tiene un distribución casi normal.
a) Los limites de confianza del 95% son
× b) Los limites de confianza del 99% son
× 7
ESQUIVEL REYES GEOVANNI ALEXIS
ESTADÍSTICA
UNIDAD 3 ESTIMACIÓN Y PRUEBA DE HIPÓTESIS
3.3.2 DE LA MEDIA CON
DESCONOCIDA.
En este caso usamos la distribución para obtener los niveles de confianza. En general, los límites de confianza para las medias de las poblaciones están dados por:
Ejercicio.
Una muestra de 10 medidas del diámetro de una esfera dio una media centimetros y desviación estándar centimetros. Encuentre los limites de confianza del 95% para el verdadero diámetro. Los limites del 95% están dados por Ya que
.
, encontramos que
Entonces, usando
y
, los limites de confianza del 95% requeridos son
Por consiguiente, podemos tener el 95% de confianza de que las verdaderas medias estarán entre y .
3.3.3 DE LA VARIANZA.
El hecho de que tenga distribución chi cuadrado con grados de libertad, nos permite obtener límites de confianza para o . Por ejemplo, si y son valores de para los cuales 2.5% del área esta en cada cola de la distribución, entonces el 95% del intervalo de confianza es
8
ESQUIVEL REYES GEOVANNI ALEXIS
ESTADÍSTICA
UNIDAD 3 ESTIMACIÓN Y PRUEBA DE HIPÓTESIS
O de manera equivalente
De esto vemos que
puede calcularse en el intervalo
O de manera equivalente
Con el 95% de confianza. De igual manera, se pueden encontrar otros intervalos de confianza. En general es deseable que la amplitud esperada de un intervalo de confianza sea lo más pequeña posible. Para estadísticos con distribuciones muestréales simétricas, tales como la normal y la t, esto se logra usando colas con áreas iguales. Sin embargo, para distribuciones no simétricas, tales como la chi cuadrado, puede ser deseable ajustar las áreas de las colas de manera que se obtenga el menor intervalo.
Ejercicio. Se calculó que la desviación estándar de los tiempos de vida de una muestra de 200 bombillas eléctricas es 100 hrs. Encuentre los límites de confianza del a) 95%, para la desviación estándar de todas esas bombillas eléctricas. En este caso se aplica la teoría de muestreo grande. Por consiguiente los límites de
confianza para la desviación estándar de la población están dados por , donde indica el nivel de confianza. Usamos la desviación muestral estándar para calcular .
Los límites de confianza del 95% son
.
Por consiguiente, podemos tener confianza del 95% de que la desviación estándar de la población estará entre .
3.3.4 DE LA PROPORCIÓN.
Su pongamos que el estadístico S es la proporción de µ¶éxitos¶¶ en un muestra de tamaño obtenida a partir de una población con distribución binomial en la que es la proporción de éxitos (es decir, la probabilidad de éxito). Entonces, los limites de confianza para p están dados por , donde es la proporción de éxitos en la muestra de
9
ESQUIVEL REYES GEOVANNI ALEXIS
ESTADÍSTICA
UNIDAD 3 ESTIMACIÓN Y PRUEBA DE HIPÓTESIS
tamaño . Usando los valores de de la población están dados por
, vemos que los limites de confianza para proporción
En el caso en que el muestreo se haga de una población infinita o si se hace de una población finita y con reemplazo. De manera similar, los límites de confianza son
Si la toma de muestras se hace sin reemplazo de una población de tamaño finito N.
Ejercicio. Una encuesta de 100 votantes, escogidos al azar de todos los votantes en un distrito dado, indico que el 55% está a favor de un candidato en particular. Encuentre los limites de confianza del a) 95%, b) 99%.
a) Los limites de confianza del 95% de la
poblacional son
Donde usamos la proporción muestral de 0.55 para estimar . b) Los limites de confianza del 99% para
son
3.4 ESTIMACIÓN POR INTERVALOS DE CONFIANZA. 3.4.1 DE LA DIFERENCIA DE DOS MEDIDAS CON
CONOCIDAS.
Si son dos estadísticos muestrales cuya distribución muestral es aproximadamente normal, los limites de confianza para las diferencias de los parámetros poblacionales correspondientes a , están dados por
Mientras que los limites de confianza para la suma de los parámetros de la población están dados por
10
ESQUIVEL REYES GEOVANNI ALEXIS
ESTADÍSTICA
UNIDAD 3 ESTIMACIÓN Y PRUEBA DE HIPÓTESIS
Siempre y cuando las muestras sean independientes. De manera similar, los limites de confianza para a diferencia de dos proporciones de poblaciones, donde las poblaciones son infinitas, están dados por
Donde son las dos proporciones muestrales y muestras obtenidas de la población.
son los tamaños de las dos
Ejercicio. En una muestra aleatoria de 400 adultos y 600 adolescentes que veían cierto programa de televisión, 100 adultos y 300 adolescentes dijeron que les gusto. Construya los limites de confianza del 95% para la diferencia en proporciones de todos los adultos y adolescentes que vieron el programa y lo encontraron de su agrado. Los limites de confianza para la diferencia en proporciones de los dos grupos están dados por
Donde los subíndices 1 y 2 se refieren a adolescentes y adultos, respectivamente, y y los complementos. Aquí son respectivamente, la proporción de adolescentes y adultos a los que les gusto el programa. a) Limites de confianza del 95%:
.
Por consiguiente, podemos tener confianza del 95% de que la diferencia verdadera de proporciones este entre 0.19 y 0.31.
3.4.2 DE LA DIFERENCIA DE DOS MEDIDAS CON
Si se tienen dos poblaciones con medias estimador puntual de la diferencia entre
y
y
DESCONOCIDAS.
y varianzas y , respectivamente, un está dado por la estadística .
Por tanto. Para obtener una estimación puntual de se seleccionan dos muestras aleatorias independientes, una de cada población, de tamaño , se calcula la diferencia , de las medias muestrales.
11
ESQUIVEL REYES GEOVANNI ALEXIS
ESTADÍSTICA
UNIDAD 3 ESTIMACIÓN Y PRUEBA DE HIPÓTESIS
Recordando a la distribución muestral de diferencia de medias:
3.4.2.1 CON
IGUALES.
Supongamos ahora que las varianzas son desconocidas pero iguales ( distribución de la diferencia de medias muestrales es ahora
La
Tenemos que eliminar el parámetro , para lo cual utilizaremos los distribuciones muestrales asociadas a las cuasi-varianzas muestrales El nuevo estadígrafo de contraste es de la forma
Los dos estadísticos toman exactamente el mismo valor por lo que pueden utilizarse indistintamente. Usaremos el calculado a partir de la cuasi-varianzas porque son estimadores insesgados de la varianza poblacional. En este caso es necesario que las varianzas sean iguales para poder despejarlas y eliminarlas en el cálculo del estadígrafo de contraste. La comprobación de la igualdad de varianzas se hará posteriormente aunque sea un paso previo a la decisión del tipo de contraste.
Ejercicio. Un artículo publicado dio a conocer los resultados de un análisis del peso de calcio en cemento estándar y en cemento contaminado con plomo. Los niveles bajos de calcio indican que el mecanismo de hidratación del cemento queda bloqueado y esto permite que el agua ataque varias partes de una estructura de cemento. Al tomar diez muestras de cemento estándar, se encontró que el peso promedio de calcio es de 90 con una desviación estándar de 5; los resultados obtenidos con 15 muestras de cemento contaminado con plomo fueron de 87 en promedio con una desviación estándar de 4.
12
ESQUIVEL REYES GEOVANNI ALEXIS
ESTADÍSTICA
UNIDAD 3 ESTIMACIÓN Y PRUEBA DE HIPÓTESIS
Supóngase que el porcentaje de peso de calcio está distribuido de manera normal y que las dos poblaciones normales tienen la misma desviación estándar. a) Encuentre un intervalo de confianza del 95% para la diferencia entre medias de los dos tipos de cemento. El estimador combinado de la desviación estándar es:
3.4.2.2 CON
DIFERENTES.
Para hacer inferencias estadísticas sobre dos poblaciones, se necesita tener una muestra de cada población. Las dos muestras serán dependientes o independientes de acuerdo a la forma de seleccionarlas. Si la selección de los datos de una población no está relacionada con la de los datos de la otra, son muestras independientes. Si las muestras se seleccionan de manera que cada medida en una de ellas pueda asociarse naturalmente con una medida en la otra muestra, se llaman muestras dependientes. Cada dato sale de alguna fuente; una fuente es algo, una persona o un objeto, que produce datos. Si dos medidas se obtienen de la misma fuente, se puede pensar que las medidas están pareadas. En consecuencia dos medidas que se obtienen del mismo conjunto de fuentes son dependientes. Note que si dos muestras son dependientes, entonces necesariamente tienen el mismo tamaño. Si se tienen dos muestral aleatorias dependientes de tamaño n, donde cada elemento de la primera muestra es pareja de un elemento de la segunda, entonces estas dos muestras dan lugar a una de parejas o a unas diferencias, como lo indica la siguiente figura. La
muestra de diferencias se puede pensar como una muestra de la población de diferencias de datos pareados de dos poblaciones. La media de la población de diferencias es igual a la diferencias de las medias poblacionales. En consecuencia se ve que la media de la población de diferencias es igual a la diferencia entre las medias poblacionales. Siguiendo la misma línea de razonamiento, se puede demostrar que, para dos muestras dependientes, la media de sus diferencias muestrales es igual a la diferencia entre sus medias muestrales. Esto es, si
, entonces
Si se tiene una muestra aleatoria de n pares de datos y si las diferencias d se distribuyen normalmente, entonces el estadístico:
13
ESQUIVEL REYES GEOVANNI ALEXIS
ESTADÍSTICA
UNIDAD 3 ESTIMACIÓN Y PRUEBA DE HIPÓTESIS
Tiene una distribución muestral que es una distribución con representa la desviación estándar de la muestra de puntajes diferencia.
, donde
Donde . Límites del intervalo de confianza para muestras dependientes
. Cuando se usa
Ejercicio.
Se hizo un estudio para definirse si los ejercicios aeróbicos reducen el ritmo cardiaco de una persona durante el descanso, y al examinar a diez voluntarios antes y después de seguir un programa de ese tipo durante seis meses, sus pulsaciones, en latidos por minuto, dieron los siguientes registros: Voluntario Antes Después
1
2
3
4
5
6
7
8
9
10
73
77
68
62
72
80
76
64
70
72
68
72
64
60
71
77
74
60
64
68
Use para calcular si los ejercicios aeróbicos reducen el ritmo cardiaco durante el reposo. Calcule el valor de P.
Ensayo de hipótesis:
Para calcular el valor de se interpola entre 0.10 y 0.05, con 9 grados de libertad obteniendo un área de 0.0574, pero como el ensayo es bilateral este sería un valor de por lo tanto el valor de
14
ESQUIVEL REYES GEOVANNI ALEXIS
ESTADÍSTICA
UNIDAD 3 ESTIMACIÓN Y PRUEBA DE HIPÓTESIS
Calcula el intervalo de confianza del ejercicio anterior.
para la diferencia de medias poblacionales del
es y y como contiene a cero, no El intervalo de confianza del podemos concluir que la dieta sea efectiva para cambiar el peso.
3.4.2.3 DE DOS MEDIAS APAREADAS. En este caso se trata de comparar dos métodos o tratamientos, pero se quiere que las unidades experimentales donde se aplican los tratamientos sean las mismas, ó lo más parecidas posibles, para evitar influencia de otros factores en la comparación. Este es un
procedimiento de estimación para la diferencia de dos medias cuando las muestras son dependientes y las varianzas de las dos poblaciones no necesariamente son iguales. Las muestras pareadas involucran un procedimiento en el cual varios pares de observaciones se equiparan de la manera más próxima posible, en términos de características relevantes. Los dos grupos de observaciones son diferentes sólo en un aspecto o "tratamiento". Toda diferencia subsiguiente en los dos grupos se atribuye a dicho tratamiento. Las ventajas de las muestras pareadas son: 1)
Pueden utilizar muestras muy pequeñas.
2)
Se encuentran varianzas más pequeñas.
3)
Menos grados de libertad se pierden en el análisis.
4) Resulta un error de muestreo más pequeño (la variación entre observaciones reduce debido a que corresponden de la forma más próxima posible).
15
ESQUIVEL REYES GEOVANNI ALEXIS
ESTADÍSTICA
UNIDAD 3 ESTIMACIÓN Y PRUEBA DE HIPÓTESIS
Otro método para utilizar muestras pareadas a diferencia de la situación que se describió cuando las muestras son independientes, las condiciones de las dos poblaciones no se signan de forma aleatoria a las unidades experimentales. Más bien, cada unidad experimental homogénea recibe ambas condiciones poblacionales; como resultado, cada unidad experimental tiene un par de observaciones, una para cada población. Sea el valor de tratamiento I y el valor del tratamiento II en el i-ésimo sujeto.
Diferencia de los tratamientos en el i-ésimo sujeto.
Ejercicio. Se asume que se tienen puntajes de la prueba de 10 empleados antes y después de habérseles impartido capacitación laboral adicional. Establezca un intervalo de confianza del 90% para la media de la diferencia en el puntaje antes y después de la capacitación. Los puntajes aparecen en la tabla: Empleado
Puntaje antes de
Puntaje después de
La capacitación del
La capacitación del
empleado
empleado
d i
d i
1
9.0
9.2
-0.2
0.04
2
7.3
8.2
-0.9
0.81
3
6.7
8.5
-1.8
3.24
4
5.3
4.9
0.4
0.16
5
8.7
8.9
-0.2
0.16
6
6.3
5.8
0.5
0.25
7
7.9
8.2
-0.3
0.09
8
7.3
7.8
-0.5
0.25
9
8.0
9.5
-1.5
2.25
10
8.5
8.0
-0.5
0.25
7.4
7.9
-5.0
2
7.38
16
ESQUIVEL REYES GEOVANNI ALEXIS
ESTADÍSTICA
UNIDAD 3 ESTIMACIÓN Y PRUEBA DE HIPÓTESIS
Encontrar estimador puntual insesgado
Estimador puntual insesgado de
Determinar la variable aleatoria función del estimador y del parámetro cuya distribución este definida.
Con
grados de libertad.
Determinar los valores de la variable aleatoria definida en el paso (2) de acuerdo a la probabilidad establecida.
Establecer la desigualdad con los valores de la variable aleatoria definidos en el paso y la expresión definida en el paso.
Encontrar los límites inferiores y superiores dentro de los cuales se encuentra el parámetro Límite superior de confianza:
Límite inferior de confianza
Debido a que se restan los puntajes posteriores al entrenamiento de los puntajes anteriores al entrenamiento, produciendo valores negativos, se puede estar 90% seguro de que la media de los puntajes posteriores al entrenamiento está entre 0.073 y 0.927 más altos.
3.4.3 ESTIMACIÓN POR INTERVALOS DE CONFIANZA DE LA RAZÓN DE DOS VARIANZAS. Supóngase que se tienen dos poblaciones normales e independientes con varianzas desconocidas y , respectivamente. De este par de poblaciones, se tienen disponibles dos muestras aleatorias de tamaños y , respectivamente, sean y
17
ESQUIVEL REYES GEOVANNI ALEXIS
ESTADÍSTICA
UNIDAD 3 ESTIMACIÓN Y PRUEBA DE HIPÓTESIS
las dos varianzas muestrales. Se desea conocer un intervalo de confianza del 100 por ciento para el cociente de las dos varianzas, .
Para construir el intervalo de confianza para el cociente de dos varianzas poblacionales, se coloca la varianza muestral mayor en el numerador del estadístico F.
Ejercicio. Se obtienen al azar dos muestras de tamaños 16 y 10 respectivamente, de dos poblaciones con distribución normal. Si sus varianzas son 24 y 18, respectivamente, encuentre los limites de confianza del a) 98% para el cociente de las varianzas. a) Tenemos
así que:
3.4.4 ESTIMACIÓN POR INTERVALOS DE CONFIANZA DE LA DIFERENCIA DE DOS PROPORCIONES. En la sección anterior se vio el tema de la generación de las distribuciones muestrales, en donde se tenía el valor de los parámetros, se seleccionaban dos muestras y podíamos calcular la probabilidad del comportamiento de los estadísticos. Para este caso en particular se utilizará la distribución muestral de diferencia de proporciones para la estimación de las mismas. Recordando la formula:
Despejando
de esta ecuación:
Aquí se tiene el mismo caso que en la estimación de una proporción, ya que al hacer el despeje nos queda las dos proporciones poblacionales y es precisamente lo que queremos estimar, por lo que se utilizarán las proporciones de la muestra como estimadores puntuales:
18
ESQUIVEL REYES GEOVANNI ALEXIS
ESTADÍSTICA
UNIDAD 3 ESTIMACIÓN Y PRUEBA DE HIPÓTESIS
Ejercicio. Se considera cierto cambio en un proceso de fabricación de partes componentes. Se toman muestras del procedimiento existente y del nuevo para determinar si éste tiene como resultado una mejoría. Si se encuentra que 75 de 1500 artículos del procedimiento actual son defectuosos y 80 de 2000 artículos del procedimiento nuevo también lo son, encuentre un intervalo de confianza de 90% para la diferencia real en la fracción de defectuosos entre el proceso actual y el nuevo.
Sean y las proporciones reales de defectuosos para los procesos actual y nuevo, respectivamente. De aquí, y . Con el uso de la tabla encontramos que para un nivel de confianza del 90% es de 1.645.
Como el intervalo contiene el valor de cero, no hay razón para creer que el nuevo procedimiento producirá una disminución significativa en la proporción de artículos defectuosos comparada con el método existente.
3.5 PRUEBAS DE HIPÓTESIS. Si suponemos que cierta hipótesis es verdadera, pero encontramos que los resultados de una muestra aleatoria difieren marcadamente de los esperados bajo la hipótesis sobre la base del azar de la teoría del muestreo, podremos decir que las diferencias observadas son significativas y nos inclinamos a rechazar la hipótesis (o al menos a no aceptarla debido a la evidencia obtenida). Por ejemplo, si de 20 lanzamientos de una moneda obtenemos 16 caras, podemos inclinarlos a rechazar la hipótesis de que la moneda es balanceada aunque posiblemente estemos equivocados. Los procedimientos que nos permiten aceptar o rechazar hipótesis o determinar si las muestras observadas difieren significativamente de los resultados esperados reciben el nombre de pruebas de hi pótesis, pruebas de significancia o reglas de decisi ón.
19
ESQUIVEL REYES GEOVANNI ALEXIS
ESTADÍSTICA
UNIDAD 3 ESTIMACIÓN Y PRUEBA DE HIPÓTESIS
3.5.1 GENERALIDADES E IMPORTANCIA DE LOS ENSAYOS DE HIPÓTESIS. Es importante recordar que las hipótesis siempre son proposiciones sobre la población o distribución bajo estudio, no proposiciones sobre la muestra. Por lo general, el valor del parámetro de la población especificado en la hipótesis nula se determina en una de tres maneras diferentes: 1. Puede ser resultado de la experiencia pasada o del conocimiento del proceso, entonces el objetivo de la prueba de hipótesis usualmente es determinar si ha cambiado el valor del parámetro. 2. Puede obtenerse a partir de alguna teoría o modelo que se relaciona con el proceso bajo estudio. En este caso, el objetivo de la prueba de hipótesis es verificar la teoría o modelo. 3. Cuando el valor del parámetro proviene de consideraciones externas, tales como las especificaciones de diseño o ingeniería, o de obligaciones contractuales. En esta situación, el objetivo usual de la prueba de hipótesis es probar el cumplimiento de las especificaciones. Los procedimientos de prueba de hipótesis dependen del empleo de la información contenida en la muestra aleatoria de la población de interés. Si esta información es consistente con la hipótesis, se concluye que ésta es verdadera; sin embargo si esta información es inconsistente con la hipótesis, se concluye que esta es falsa. Debe hacerse hincapié en que la verdad o falsedad de una hipótesis en particular nunca puede conocerse con certidumbre, a menos que pueda examinarse a toda la población. Usualmente esto es imposible en muchas situaciones prácticas. Por tanto, es necesario desarrollar un procedimiento de prueba de hipótesis teniendo en cuenta la probabilidad de llegar a una conclusión equivocada.
Ejercicio. Suponga que se tiene interés en la rapidez de combustión de un agente propulsor sólido utilizado en los sistemas de salida de emergencia para la tripulación de aeronaves. El interés se centra sobre la rapidez de combustión promedio. De manera específica, el interés recae en decir si la rapidez de combustión promedio es o no . Esto puede expresarse de manera formal como
La proposición , se conoce como hipótesis nula, mientras que la proposición , recibe el nombre de hipótesis alternativa. Puesto que la hipótesis alternativa especifica valores de que pueden ser mayores o menores que 50 cm/s, también se conoce como hipótesis alternativa bilateral.
20
ESQUIVEL REYES GEOVANNI ALEXIS
ESTADÍSTICA
UNIDAD 3 ESTIMACIÓN Y PRUEBA DE HIPÓTESIS
En algunas situaciones, lo que se desea es formular una hipótesis alternativa unilateral, como en
3.5.2 HIPÓTESIS NULA O HIPÓTESIS ALTERNA. Con el fin de llegar a una decisión es útil hacer suposiciones o conjeturas sobre las poblaciones involucradas. Tales suposiciones, que pueden ser o no ciertas, reciben el pótesis estadísticas y, en general, son planteamientos sobre la distribución nombre de hi de probabilidad de las poblaciones.
Por ejemplo, si vamos a decidir si cierta moneda esta cagada, formulamos la hipótesis de que la moneda es balanceada, es decir, , donde es la probabilidad de obtener caras. De igual manera, si queremos decidir si un procedimiento es mejor que otro formulamos la hipótesis de que no hay diferencia entre los procedimientos (así, cualquier diferencia observada se debe a meras fluctuaciones en el muestreo de la misma pótesis nulas o simplemente hi pótesis, y se denota población). Tales hipótesis se llaman hi como . Cualquier hipótesis que difiera de la hipótesis nula dada se llama hi pótesis alterna. Si la hipótesis nula es , las hipótesis alternas posibles son . Una hipótesis alterna de la hipótesis nula se denota por .
Ejercicio. Un fabricante de aparatos domésticos está considerando la compra de una nueva máquina para prensar partes metálicas. SI es el numero promedia de partes buenas prensadas por hora con su máquina antigua y es el promedio correspondiente para la maquina nueva, el fabricante quiere probar la hipótesis nula contra una alternativa pertinente. ¿Cuál debería ser la alternativa si
a) No quiere comprar la maquina nueva a menos de que sea más productiva que la antigua; b) B) quiere comprar la maquina nueva (que tiene otras características atractivas) a menos de que sea menos productiva que la antigua? Sol. a) El fabricante debería usar la hipótesis alternativa nueva solo si se puede rechazar la hipótesis nula. b) El fabricante debería usar la hipótesis alternativa menos de que se rechace la hipótesis nula.
y comprar la maquina
y comprar la maquina nueva a
21
ESQUIVEL REYES GEOVANNI ALEXIS
ESTADÍSTICA
UNIDAD 3 ESTIMACIÓN Y PRUEBA DE HIPÓTESIS
3.5.3 NIVEL DE SIGNIFICACIÓN Y REGLAS DE DECISIÓN. Al probar una hipótesis dada, la probabilidad máxima con la que queremos tomar el riesgo de un error tipo I se llama nivel de significancia de la prueba. Esta probabilidad se especifica antes de que se hayan tomado muestras, para que los resultados obtenidos no influyan en nuestra decisión. En la práctica, niveles de significancia de 0.05 ó 0.01 son habituales, aunque se pueden usar otros valores. Si por ejemplo, al diseñar una prueba de hipótesis escogemos un nivel de significancia de 0.05 ó 5%, entonces hay una probabilidad de 5 en 100 de que rechacemos la hipótesis cuando deberíamos aceptarla, es decir, siempre que la hipótesis nula sea verdadera, tenemos cerca del 95% de confianza de que tomaremos la decisión correcta, en tales casos decimos que rechazamos la hipótesis con un nivel de significancia de 0.05, lo cual significa que podemos estar equivocados con probabilidad de 0.05. Nuestra elección del estándar mínimo para una probabilidad aceptable, o el nivel de significancia, es también el riesgo que asumimos al rechazar una hipótesis nula cuando es cierta. Mientras más alto sea el nivel de significancia que utilizamos para probar una hipótesis, mayor será la probabilidad de rechazar una hipótesis nula cuando es cierta.
Ejercicio. Una marca de nueces afirma que, como máximo, el 6% de las nueces están vacías. Se eligieron 300 nueces al azar y se detectaron 21 vacías. Con un nivel de significación del 1%, ¿se puede aceptar la afirmación de la marca? Enunciamos las hipótesis nula y alternativa:
Zona de aceptación
Determinamos el intervalo de confianza:
Verificación.
Decisión: Aceptamos la hipótesis nula
.
Con un nivel de significación del 1%. 22
ESQUIVEL REYES GEOVANNI ALEXIS
ESTADÍSTICA
UNIDAD 3 ESTIMACIÓN Y PRUEBA DE HIPÓTESIS
3.5.4 ERRORES DEL TIPO I y II. Si rechazamos una hipótesis cuando da la casualidad que es verdadera, decimos que se ha cometido un error de tipo I. Si, por el contrario, aceptamos una hipótesis cuando esta ha debido rechazarse, decimos que se ha cometido un error de tipo II. En cualquier caso, se ha tomado una mala decisión o se ha hecho un error de juicio. Para que cualquier prueba de hipótesis o las reglas de decisión sean adecuadas, se deben diseñar de manera que reduzcan los errores de la decisión. Esto es sencillo ya que, para un tamaño muestral dado, el intento de disminuir un tipo de error va generalmente acompañado del incremento en el otro tipo de error, En la práctica, un tipo de error puede ser más grave que el otro, de manera que debemos inclinarnos a favor de una limitación del error más grave. La única manera de reducir ambos tipos de error es incrementando el tamaño de la muestra, lo cual puede o no ser posible.
Ejercicio.
Suponga que el miembro de la comisión de planificación en realidad toma la muestra y obtiene minuto. ¿Qué decisión tomaran los miembros de la comisión de planificación y estarán cometiendo un error si en realidad a) b)
minutos minutos?
Ya que cae en el intervalo de 40.5 a 44.4, aceptaran la hipótesis nula de que en promedio los automóviles permanecen en el área de estacionamiento momentáneo durante 42.5 minutos. a) dado que la hipótesis nula es verdadera y se acepta, no estarán cometiendo un error b) Puesto que la hipótesis nula es falsa pero se acepta, estarán cometiendo un error tipo II
23
ESQUIVEL REYES GEOVANNI ALEXIS
ESTADÍSTICA
UNIDAD 3 ESTIMACIÓN Y PRUEBA DE HIPÓTESIS
3.6 PRUEBAS DE HIPÓTESIS. 3.6.1 PARA LA MEDIA. Las suposiciones para esta prueba son mínimas. La población o distribución de interés tiene una media y una varianza , conocida. El estadístico de prueba se basa en la media muestral , por lo que también se supondrá que la población está distribuida de manera normal o que se aplican las condiciones del teorema del límite central. Esto significa que la distribución de es aproximadamente normal con una media y una varianza
Aquí , la media muestral; , la media de la población; , donde es la desviación estándar de la población y es el tamaño muestral. La variable estandarizada está dada por:
Cuando es necesario, la desviación estándar muestral, o , se utiliza para estimar . Para probar la hipótesis nula de que la media de la población es podemos usar el estadístico. Entonces si la hipótesis alterna es , usando la prueba de dos colas, podemos aceptar (o al menos no rechazarla) al nivel de significancia de 0.05 si para una muestra particular de tamaño con media .
Y podemos rechazarla de otra manera. Para otros noveles de significancia podemos cambiar de manera apropiada, para probar en contra de la hipótesis alternativa de que la media de la población es mayor que a, podemos usar la prueba de una cola y aceptar (o al menos no rechazarla) al nivel de 0.05 si
Y rechazarla de otra manera. Para probar en contra de la hipótesis alterna de que la media de la población es menor que a, podemos aceptar al nivel del 0.05 si
24
ESQUIVEL REYES GEOVANNI ALEXIS
ESTADÍSTICA
UNIDAD 3 ESTIMACIÓN Y PRUEBA DE HIPÓTESIS
Ejercicio. Se calculo que el tiempo de vida medio de una muestra de 100 bombillas fluorescentes producidas por una compañía es de 1570 horas con desviación estándar de 120 horas. Si es el tiempo de vida medio de todas las bombillas producidas por la compañía, pruebe la hipótesis horas en contra de una hipótesis alterna horas, usando un nivel de significancia de 0.05.
Encuentre el valor de
en la prueba.
Debemos decidir entre dos hipótesis
Se debe usar una prueba de dos colas ya que más grandes y más pequeños que 1600.
incluye los valores
Para una prueba de dos colas con nivel de significancia de 0.05, tenemos la siguiente regla de decisión:
1) Rechazar la
si el valor de la media muestral esta por fuera del rango
.
2) De otra manera aceptar (o abstenerse a tomar la decisión).
El estadístico bajo consideración es la media muestral
.
La distribución
muestral de tiene media y desviación estándar , donde y son la media y la desviación estándar de la población de todas las bombillas producidas por la compañía.
Bajo la hipótesis , tenemos y , usando la desviación estándar muestral como un estimador de . Dado que se encuentran fuera del rango de , rechazamos la al nivel de significancia de 0.05.
3.6.2 PARA LA PROPORCIÓN.
Aquí
la proporción de µ¶éxitos¶¶ en una muestra;
proporción de éxitos en la población y
es el tamaño muestral;
La variable estandarizada está dada por
, donde
es la donde
25
ESQUIVEL REYES GEOVANNI ALEXIS
ESTADÍSTICA
UNIDAD 3 ESTIMACIÓN Y PRUEBA DE HIPÓTESIS
En el caso convierte en:
, donde es el número verdadero de éxitos en una muestra, se
Se pueden hacer observaciones similares a las hechas atrás sobre pruebas de una y dos colas para medias.
Ejercicio. Tenemos dos grupos, A y B, cada uno de 100 personas que sufren una enfermedad. Se le da un suero al grupo A, pero no al grupo B (grupo de control); para lo demás, ambos grupos se manejan de manera idéntica. Se encontró que en los grupos Ay B, 75 y 65 personas, respectivamente, se recuperaron de la enfermedad. Pruebe la hipótesis de que el suero ayuda a curar la enfermedad usando un nivel de significancia de 0.01.
Sean y , respectivamente, las proporciones de la población curada usando el suero sin usar el suero. Debemos decidir entre estas dos hipótesis.
. Y las diferencias observadas de deben al azar, es decir, el suero
no es efectivo
Bajo la hipótesis
y el suero es efectivo
,
Donde usamos como estimado de grupos muestrales, dados por Entonces:
la proporción promedio de curas en los dos , y donde .
Con base en una prueba de una cola con nivel de significancia e 0.01, podemos rechazar la hipótesis si solo el valor fuera mayor que 2.33. Dado que el valor es solo 1.54, debemos concluir que, con este nivel de significancia, los resultados se deben al azar.
26
ESQUIVEL REYES GEOVANNI ALEXIS
ESTADÍSTICA
UNIDAD 3 ESTIMACIÓN Y PRUEBA DE HIPÓTESIS
3.6.3 PARA LA VARIANZA. Para probar la hipótesis las variables aleatorias
de que una población normal tiene varianza
, consideramos
La cual tiene la distribución chi cuadrado con grados de libertad. Entonces, si una muestra aleatoria de tamaño resulta tener varianza , podemos, sobre la base de la prueba de dos colas, aceptar (o al menos no rechazarla) al nivel de 0.05 si
Y rechazarla de otra manera. Se obtiene un resultado similar para el nivel de 0.01 u otro nivel. Para probar la hipótesis de de que la varianza de la población es mayor que , podemos aun usar la hipótesis nula pero ahora emplearemos la prueba de una cola. Así, podemos rechazar al nivel de 0.05 (y por consiguiente concluir que es correcta) si la varianza de la muestra particular es tal que
Y aceptamos
(o al menos no la rechazamos) de otra manera.
Ejercicio.
Suponga que un fabricante de pernos está produciendo pernos de de diámetro, y que los diámetros de estas piezas se distribuyen normalmente; con propósitos de control de calidad, se obtuvo una muestra de 25 pernos de una línea de producción para estimar la varianza de todos los diámetros, la cual resultó ser . Con un nivel de significancia de 0.05. ¿Se puede concluir que la varianza poblacional es igual o menor ?
Datos:
E
Establecer la hipótesis
27
ESQUIVEL REYES GEOVANNI ALEXIS
ESTADÍSTICA
UNIDAD 3 ESTIMACIÓN Y PRUEBA DE HIPÓTESIS
Establecer la estadística de prueba zona de rechazo.
. Definir el nivel de significancia y la
Nivel de significancia = 0.05
Zona de Rechazo =
Calcular la estadística de prueba.
Como la
esta bajo la hipótesis nula entonces tenemos
Como 21.6 es menor que 36.415 no se rechaza la hipótesis nula con un nivel de significancia de 0.05. Conclusión: Existe evidencia estadística para decir que la varianza poblacional es igual o menor .
3.6.4 PARA LA DIFERENCIA DE MEDIAS.
Sean y las medias muestrales obtenidas en muestras grandes de tamaños y de poblaciones respectivas con media y y desviaciones estándar y . Considere la hipótesis nula de que no hay diferencia entre las medias de las poblaciones, es decir, . Reemplazando vemos que la distribución muestral de diferencias con medias es aproximadamente normal con media y desviación estándar dadas por
Donde podemos, si es necesario, usar las desviaciones estándar observadas estimados de . Usando la variable estandarizada dada por
y
como
28
ESQUIVEL REYES GEOVANNI ALEXIS
ESTADÍSTICA
UNIDAD 3 ESTIMACIÓN Y PRUEBA DE HIPÓTESIS
Podemos probar la hipótesis nula en contra de la hipótesis alterna (o de significancia de la diferencia observada) a un nivel adecuado de significancia.
Ejercicio. Se evaluaron dos cursos de 40 y 50 estudiantes. En el primer curso la nota promedio fue de 74 con desviación estándar de 8, mientras que en el segundo curso la nota promedio fue de 78 con desviación estándar de 7. ¿Existe alguna diferencia en el rendimiento de los dos cursos con nivel de significancia de 0.05. ¿Cuál es el valor de de la prueba?
Supongamos que los dos cursos vienen de dos poblaciones con medias respectivas . Entonces tenemos que decidir entre estas hipótesis:
y la diferencia se debe al azar.
y hay una diferencia significativa entre ambos cursos.
y
Bajo la hipótesis , ambos cursos viene de la misma población. La media y la desviación estándar de la diferencia de medias está dada por
Donde usamos las deviaciones estándar muestrales como estimadores de .Entonces:
y
Para una prueba de dos colas, los resultados son significativos al nivel de 0.05 si esta por afuera del rando a . Entonces concluimos que al nivel de 0.05 hay una diferencia significativa en el desempeño de los dos cursos y que probablemente el segundo curso es mejor.
3.6.5 PARA LA DIFERENCIA DE PROPORCIONES.
Sean y las proporciones muestrales obtenidas en muestras grandes de tamaños y de las poblaciones respectivas con proporciones y . Considere la hipótesis nula de que no hay diferencia entre las proporciones de la población, es decir, , y por lo tanto, de que las muestras se tomaron realmente de la misma población.
29
ESQUIVEL REYES GEOVANNI ALEXIS
ESTADÍSTICA
UNIDAD 3 ESTIMACIÓN Y PRUEBA DE HIPÓTESIS
Usando la variable estandarizada
Podemos probar diferencias observadas a un nivel apropiado de significancia y de allí probar la hipótesis nula.
Ejercicio. Una encuesta hecha a 300 votantes del distrito A y a 200 del distrito B mostro que 56% y 48%, respectivamente, estaban a favor de un candidato dado. Con el nivel de significancia de 0.05 pruebe la hipótesis de que: Hay diferencia entre los distritos.
Sean y las proporciones de todos los votantes de los distritos A y B, respectivamente, que están a favor del candidato.
Bajo la hipótesis
, tenemos
Donde usamos como estimadores de y , tenemos
y
los valores
Si solamente queremos determinar si hay una diferencia entre los distritos, debemos
decidir entre la hipótesis y , lo que involucra una prueba de dos colas. Con base en una prueba de dos colas con nivel de significancia de 0.05, debemos
rechazar , si Z esta fuera del intervalo -1.96 a 1.96. Dado que esta dentro del intervalo, no podemos rechazar con este nivel de significancia, es decir, no hay diferencia significativa entre los dos distritos.
3.6.6 PARA LA RELACIÓN DE VARIANZAS.
En algunos problemas queremos decidir si dos muestras de tamaño y , respectivamente, cuyas varianzas son y , provienen o no de poblaciones normales con la misma varianza, en tales casos, usamos el estadístico.
30
ESQUIVEL REYES GEOVANNI ALEXIS
ESTADÍSTICA
UNIDAD 3 ESTIMACIÓN Y PRUEBA DE HIPÓTESIS
Donde y son las varianzas de dos poblaciones normales de las cuales se tomaron las muestras. Supongamos que denota la hipótesis nula de que no hay diferencia entre las varianzas de las poblaciones, es decir . Entonces, bajo esta hipótesis se convierte en:
Para probar esta hipótesis al nivel de 0.10, por ejemplos, primero debemos observar que tiene la distribución con grados de libertad. Entonces, usando una prueba de dos colas, podemos aceptar al nivel de 0.10 si
Y rechazarla de otra manera. Se pueden formular procedimientos similares usando pruebas de una cola en caso de que queramos probar la hipótesis de que la varianza de una población partículas es, de hecho, mayor que la otra.
Ejercicio. Un instructor tiene dos cursos, A y B en una materia en particular. El curso A tiene 16 estudiantes mientras que el B tiene 25. En el mismo examen, a pesar de que no hubo diferencias significativas en las notas promedio, el curso A tuvo una desviación estándar de 9 mientras que el B tuvo una desviación estándar de 12. ¿Podemos concluir que al nivel de significancia de 0.01, la variabilidad del curso B es mayor que el de A?
Sol. Usemos los subíndices 1 y 2 para los cursos Ay B, respectivamente. Tenemos entonces, de manera que
Debemos decidir entre las hipótesis
, y cualquier variación se debe al azar
, y la variación del curso B es mayor que la del A
Por lo tanto, la decisión de debe basar en una prueba de una cola de la distribución F. para las muestras en cuestión.
31
ESQUIVEL REYES GEOVANNI ALEXIS
ESTADÍSTICA
UNIDAD 3 ESTIMACIÓN Y PRUEBA DE HIPÓTESIS
El número de grados de libertad asociados con el numerador es para el denominador, grados de libertad. Al nivel de 0.01 para 24, 15 grados de libertad tenemos del apéndice , Entonces, dado que , no podemos rechazar al nivel de 0.01.
3.7 AJUSTE DE DISTRIBUCIONES DE FRECUENCIA A DISTRIBUCIONES DE PROBABILIDAD. 3.7.1 AJUSTE A UNA DISTRIBUCIÓN BINOMIAL. La distribución binomial se caracteriza porque su función de probabilidad viene dada por la expresión siguiente:
Donde es el número de éxitos asociado al experimento aleatorio. En una distribución binomial se verifica que: y
La probabilidad de que aparezca al menos un éxito en las n repeticiones es igual a:
y
La probabilidad de que se produzca un éxito como máximo en las se determina como:
repeticiones
En ocasiones, el cálculo de la probabilidad de una distribución binomial del tipo resulta muy complicado. Según demostró el matemático francés Abraham de Moivre (1667-1754), la probabilidad de una distribución binomial puede aproximarse por medio de una distribución normal de tipo que resulta particularmente adecuada cuando: y y
El valor de n es muy elevado. Tanto y son que 5. (Obsérvese que cuanto mayor es a tanto mejor es la aproximación realizada).
y más se aproxima
Para transformar una distribución binomial (de variable discreta) en una normal (de variable continua).
Ejercicio. Supongamos que un importador de juguetes recibe mensualmente 100 cajas de una determinada modelo, y cada una de las cajas contiene 4 juguetes. Durante el primer mes, para poder calcular los costes reales de los juguetes, lleva a cabo un estudio en el que
32
ESQUIVEL REYES GEOVANNI ALEXIS
ESTADÍSTICA
UNIDAD 3 ESTIMACIÓN Y PRUEBA DE HIPÓTESIS
obtiene:
El empresario calcula en primer lugar el º medio de juguetes defectuosos por caja, obteniendo media . Si la distribución de juguetes defectuosos por caja fuera una la media sería , luego despejando, . Para ver si se ajusta o no a la calculamos para esta última la probabilidad de "éxitos" (juguetes defectuosos), y obtenemos:
Y por tanto, en 100 cajas, las "teóricas" apariciones de los valores , que son muy similares a las encontradas en la muestra.
, serían:
A partir de aquí, el empresario puede asumir que la probabilidad de que un juguete sea defectuoso es del , podrá hacer previsiones para las 5000 cajas de que va a constar su próximo pedido.
3.7.2 AJUSTE A UNA DISTRIBUCIÓN DE POISSON. La distribución de Poisson describe el número de sucesos discretos que ocurren en serie, o en una secuencia, y que muestran una independencia de tipo muy particular. Ellos son independientes en cuanto que su ocurrencia en un intervalo de tiempo (de distancia o área) depende sólo del largo del intervalo sobre el cual son contados, pero no depende de donde se ubica el intervalo ni de las ocurrencias en otros intervalos no sobrepuestos. Así los sucesos ocurren aleatoriamente, pero a una tasa temporal media constante. Este tipo de independencia resulta difícil de probar en datos atmosféricos, pero resulta útil en casos en que el grado de dependencia no sea muy fuerte. Los sucesos de tipo Poisson deben ser suficientemente raros para que la probabilidad de ocurrencia de más de uno sea muy pequeña. Otra forma de motivar la ocurrencia de tipo Poisson es como el caso límite de la distribución binomial, con p tendiendo a cero y N tendiendo a infinito. La distribución de Poisson tiene sólo un parámetro, que especifica la tasa promedio de ocurrencia, suele denominarse la intensidad del fenómeno y sus dimensiones son ocurrencias en la unidad de tiempo. La distribución de Poisson es:
Para ajustar la distribución de Poisson a la muestra de datos lo más simple es usar el método de los momentos, es decir se igualan los momentos de la muestra con los momentos de la distribución o población. Recordando que el primer momento es el promedio de la muestra, resulta muy fácil el ajuste en el caso de la distribución de 33
ESQUIVEL REYES GEOVANNI ALEXIS
ESTADÍSTICA
UNIDAD 3 ESTIMACIÓN Y PRUEBA DE HIPÓTESIS
Poisson. Simplemente el promedio, es igual al número de ocurrencias de la v.a. en la unidad de tiempo.
Ejercicio. Con base en las frecuencias observadas en la tabla anterior, pruebe en el nivel de significancia 0.05 si hay algún indicio de que los dígitos de la tabla XI no se puedan considerar como aleatorios.
La probabilidad de cada digito es 0.10
No todas las probabilidades son 0.10
Se rechaza la hipótesis nula si
, donde
Y 16.919 es el valor de para , grados de libertad, de otra manera, se señala que no hay ningún indicio de que los dígitos de la tabla no se puedan considerar como aleatorios. (Aquí por que ninguno de los parametros de la distribución de la probabilidad se debía estimar apartir de los datos de la muestra). Sustituyendo las frecuencias observadas y esperadas de la tabla de la página 373 en la fórmula para , obtenemos
Dado que 7.92 no es mayor que 16.919, no se puede rechazar la hipótesis nula; en otras palabras, no hay indicios de que no se puedan considerar los dígitos de la tabla XI como aleatorios.
3.7.3 AJUSTE A UNA DISTRIBUCIÓN NORMAL. Entre las distribuciones probabilísticas de variable continua, la más ampliamente utilizada es la llamada distribución normal, cuya representación gráfica tiene una forma muy conocida en el ámbito de la estadística y las ciencias naturales: la campana de Gauss. El cálculo de las probabilidades asociadas a una distribución normal por medio de integrales resulta, en general, complejo. Por ello, suele utilizarse una función de distribución de apoyo cuya media es 0 y cuya desviación típica es la unidad. Tal función se denomina distribución normal tipificada, y se expresada como
34
ESQUIVEL REYES GEOVANNI ALEXIS
ESTADÍSTICA
UNIDAD 3 ESTIMACIÓN Y PRUEBA DE HIPÓTESIS
Se llama tipificación a la operación consistente en cambiar de una variable aleatoria X a otra variable Z de distribución tipificada, por medio de la expresión siguiente:
Ejercicio. Pruebe en el nivel de significancia 0.05 si se pueden considerar los datos de la pagina 374 como valores de una variable aleatoria que tiene una distribución binomial.
La variable aleatoria tiene una distribución binomial.
La variable aleatoria no tiene una distribución binomial.
Se rechaza la hipótesis nula si
, donde
Y 9.488 es el valor de para grados de libertad; de otro modo se acepta la hipótesis nula o se reserva la opinión. (Aquí, por que se debían sumar seis parámetros para obtener y por que se tenía que estimar a partir de los datos observados.)
Sustituyendo las frecuencias observadas y esperadas de la tabla anterior en la fórmula para , obtenemos
Puesto que no es mayor que 9.488, no se debe rechazar la hipótesis nula; en otras palabras, no hay ninguna evidencia real de que la variable aleatoria (el número de autobuses que llegan retrasados por semana) no tenga una distribución binomial.
3.8 ESTADÍSTICA NO PARAMÉTRICA. La mayoría de las pruebas de hipótesis y significancia o reglas de decisión, requieren de varias suposiciones acerca de la distribución de la población de la que se toman las muestras. En la práctica surgen situaciones en las cuales tales suposiciones pueden no justificarse o en las que hay duda de que aplican, como en el caso en que una población puede estar altamente sesgada. Debido a esto, los estadísticos han ideado diferentes pruebas y métodos que son independientes de las distribuciones de la población y de sus parámetros asociados. Estas se denominan pruebas no paramétricas. Las pruebas no paramétricas se pueden usar como un método abreviado para reemplazar pruebas más 35
ESQUIVEL REYES GEOVANNI ALEXIS
ESTADÍSTICA
UNIDAD 3 ESTIMACIÓN Y PRUEBA DE HIPÓTESIS
complejas. Son especialmente valiosas al tratar con datos no numéricos, tales como los que surgen cuando los consumidores ordenan cereales u otros productos en orden de preferencia.
3.8.1 PRUEBA DEL SIGNO. Una prueba no paramétrica sencilla para el caso de tales muestras pareadas, es la prueba del signo. Esta prueba consiste en tomar la diferencia entre los números de tornillos defectuosos por día y escribir solamente el signo de la diferencia.
También se puede utilizar la prueba de signo para probar la hipótesis nula para observaciones pareadas. Aquí se reemplaza cada diferencia, , con un signo más o menos dependiendo si la diferencia ajustada, , es positiva o negativa. A lo largo de esta sección suponemos que las poblaciones son simétricas. Sin embargo, aun si las poblaciones son asimétricas se puede llevar a cabo el mismo procedimiento de prueba, pero las hipótesis se refieren a las medianas poblacionales en lugar de las medias.
La probabilidad de obtener un valor muestral menor que la mediana y la probabilidad de obtener un valor muestral mayor que la mediana son
. Si los valores de la población
están distribuidos simétricamente alrededor de la mediana, entonces la mediana y la media son iguales. Solo ocasionalmente nos vemos en una situación que nos permite suponer la simetría de una población. Los procedimientos que siguen por lo regular se describirán en términos de la mediana pero debemos recordar que en ciertas situaciones la mediana y la media son iguales. Aunque la prueba del signo es particularmente útil para las muestras pareadas, también se puede usar para problemas que involucran muestras sencillas.
Ejercicio.
Con relación a la tablas 10-1, pruebe la hipótesis la hipótesis de que no hay diferencia entre maquinas I y II, contra la hipótesis de que hay diferencia al nivel de significancia de 0.05. La figura 10-1 es una grafica de la distribución binomial (y de la aproximación normal a ella) que da las probabilidades de X caras en 12 lanzamientos de una moneda balanceada, donde la probabilidad de X caras es:
De donde
Dado que es la hipótesis de que hay una diferencia entre las maquinas, en contra de la hipótesis de que la maquina I es mejor que la maquina II, usamos una prueba de dos colas. Para el nivel de significancia de 0.05, cada cola tiene la probabilidad asociada
36
ESQUIVEL REYES GEOVANNI ALEXIS
ESTADÍSTICA
UNIDAD 3 ESTIMACIÓN Y PRUEBA DE HIPÓTESIS
Ahora agregamos las probabilidades al lado izquierdo hasta que la
suma supere 0.025. Así: caras
caras
Dado que 0.025 es mayor que 0.01928, pero menor que 0.07299, podemos rechazar la hipótesis si el numero de caras es 2 o menor (o por simetría, si el numero de caras es 10 o mayor). Sin embargo, el numero de caras (los signos + de la secuencia) es 3. Por lo tanto, no podemos rechazar al nivel de 0.05 y debemos concluir que no hay diferencia entre las maquinas a este nivel.
3.8.2 PRUEBA DE WILCOXON. Se puede notar que la prueba de signo utiliza sólo los signos más y menos de las diferencias entre las observaciones y en el caso de una muestra, o los signos más y menos de las diferencias entre los pares de observaciones en el caso de la muestra pareada, pero no toma en consideración la magnitud de estas diferencias. Una prueba que utiliza dirección y magnitud, propuesta en 1945 por Frank Wilcoxon, se llama ahora comúnmente prueba de rango con signo de Wilcoxon.
Esta prueba se aplica en el caso de una distribución continua simétrica. Bajo esta condición se puede probar la hipótesis nula . Primero se resta de cada valor muestral y se descarta todas las diferencias iguales a cero. Se asigna un rango de 1 a la diferencia absoluta más pequeña, un rango de 2 a la siguiente más pequeña, y así sucesivamente. Cuando el valor absoluto de dos o más diferencias es el mismo, se asigna a cada uno el promedio de los rangos que se asignarían si las diferencias se distinguieran. Por ejemplo, si la quinta y sexta diferencia son iguales en valor absoluto, a cada una se le asignaría un rango de 5.5. Si la hipótesis es verdadera, el total de los rangos que corresponden a las diferencias positivas debe ser casi igual al total de los rangos que corresponden a las diferencias negativas. Se representan esos totales como y , respectivamente. Se designa el menor de y con .
Al seleccionar muestras repetidas esperaríamos que variarían y , y por tanto . De esta manera se puede considerar a y , y como valores de las correspondiente variables aleatorias , , y . La hipótesis nula se puede rechazar a favor de la alternativa sólo si w + es pequeña y es grande. Del mismo modo, la alternativa se puede aceptar sólo si es grande y es pequeña. Para una alternativa bilateral se puede rechazar a favor de si o y por tanto w son suficientemente pequeñas. No importa cuál hipótesis alternativa puede ser, rechazar la hipótesis nula cuando el valor de la estadística apropiada , ,o es suficientemente pequeño.
37
ESQUIVEL REYES GEOVANNI ALEXIS
ESTADÍSTICA
UNIDAD 3 ESTIMACIÓN Y PRUEBA DE HIPÓTESIS
Dos Muestras con Observaciones Pareadas.
Para probar la hipótesis nula de que se muestrean dos poblaciones simétricas continuas con para el caso de una muestra pareada, se clasifican las diferencias de las observaciones paradas sin importar el signo y se procede como en el caso de una muestra. Los diversos procedimientos de prueba para los casos de una sola muestra y de una muestra pareada se resumen en la siguiente tabla:
No es difícil mostrar que siempre que y el nivel de significancia no exceda 0.05 para una prueba de una cola ó 0.10 para una prueba de dos colas, todos los valores posibles de , , o w conducirán a la aceptación de la hipótesis nula. Sin embargo, cuando , la tabla A.16 muestra valores críticos aproximados de y para niveles de significancia iguales a 0.01, 0.025 y 0.05 para una prueba de una cola, y valores críticos de para niveles de significancia iguales a 0.02, 0.05 y 0.10 para una prueba de dos colas. La hipótesis nula se rechaza si el valor calculado , es menor o igual que ,o el valor de tabla apropiado. Por ejemplo, cuando la tabla muestra que se requiere un valor de 17 para que la alternativa unilateral sea significativa en el nivel 0.05.
Ejercicio. Los siguientes datos representan el número de horas que un compensador opera antes de requerir una recarga: 1.5, 2.2, 0.9, 1.3, 2.0, 1.6, 1.8, 1.5, 2.0, 1.2 y 1.7. Utilice la prueba de rango con signo para probar la hipótesis en el nivel de significancia de 0.05 que este compensador particular opera con una media de 1.8 horas antes de requerir una recarga.
38
ESQUIVEL REYES GEOVANNI ALEXIS
ESTADÍSTICA
UNIDAD 3 ESTIMACIÓN Y PRUEBA DE HIPÓTESIS
Se procederá a efectuar las diferencias y a poner rango con signo a los datos.
Dato
di = dato - 1.8
Rangos
1.5
-0.3
5.5
2.2
0.4
7
0.9
-0.9
10
1.3
-0.5
8
2.0
0.2
3
1.6
-0.2
3
1.8
0
Se anula
1.5
-0.3
5.5
2.0
0.2
3
1.2
-0.6
9
1.7
-0.1
1
Regla de decisión:
Para una después de descartar la medición que es igual a 1.8, la tabla muestra que la región crítica es
Por lo que
(menor entre
y
).
Decisión y Conclusión:
Como 13 no es menor que 8, no se rechaza H 0 y se concluye con un tiempo promedio de operación no es significativamente diferente de 1.8 horas.
que el
39
ESQUIVEL REYES GEOVANNI ALEXIS