CONOCIMIENTOS PREVIOS
¿Qué diferencia existe entre una estimación puntal e intervalica? ¿ Qué distribución utilizo para construir un IC. Cuando se conoce la varianza poblacional poblacional ? ¿ Cuáles son los pasos para construir una prueba de hipótesis? ¿En un problema determinado como identifico que estoy en IC. o en una prueba de hipótesis?
Caso de estudio: CARTEL PUBLICT P UBLICTARIO ARIO El especialista en Negocios Internacionales esta interesado en verificar la influencia de un cartel publicitario en las ventas de una marca de bebida gaseosa seleccionando al azar una muestra de 7 bodegas en la que se ha registró el número de botellas vendidas en la última semana antes antes de colocar el cartel cartel y dos semanas después de colocar el cartel publicitario. Los resultados se muestran a continuación: Tienda Botellas vendidas antes de colocar el cartel Botellas vendidas después de colocar el cartel
1 43 46
2 48 54
3 44 48
¿Cuál es la unidad de análisis? ¿Las muestras que se observan son dependientes (relacionadas) (relacionadas) o independientes? ¿El especialista en Negocios podrá verificar verificar la influencia del cartel publicitario si existe diferencia diferencia entre las ventas promedio semanales antes y después de colocar el cartel publicitario publicitario a un nivel confianza del 95%?
4 46 44
5 49 56
6 42 47
7 52 59
PROBABILIDAD PROBABILI DAD Y ESTADISTICA ESTADISTICA Sesión N 11 11 °
PRUEBAS PARAMETRICAS: ESTIMACI ESTI MACIÓN ÓN INT INTERV ERVALI ALICA CA Y PRUEBA PRUE BA DE HIPÓTESIS PARA LA DIFERENCIA DE PROMEDIOS POBLACIONALES EN MUESTRA RELACIONADAS
Docente: Dr. Dr. Juan Carlos Oruna Lara
LOGRO DE APRENDIZAJE Al finalizar la sesión, el estudiante será capaz de determinar la estimación intervalica y realizar pruebas de hipótesis para la diferencia de promedios poblacionales con información obtenida de muestras relacionadas.
ESTIMACIONES INTERVÁLICAS PARA LA DIFERENCIA DE DOS PARÁMETROS
I.C. PARA LA DIFERENCIA DE MEDIAS Caso 1. σ 12 y σ 22 conocidas Si se desea estimar la diferencia de dos medias poblacionales con una confianza del 100(1- α)% para muestras independientes de tamaño n1 y n2 Las poblaciones donde provienen las variables pueden presentar o no una distribución normal, pero sus varianzas poblacionales son conocidas En este caso se emplea la distribución Z, concluyéndose que:
1
2
( x1 x 2 ) z 1
2
2 1
2 2
n1
n2
; ( x1 x 2 ) z 1
2
2 1
2 2
n1
n2
APLICACIÓN En una discusión sobre reajuste salarial entre empresarios y el sindicato de los empleados que tienen una distribución normal, se llego a un impase. Los empresarios afirman que el salario de la categoría es de 7.6 salarios mínimos (SM), y los empleados dicen que es de 6.5 SM. Para eliminar dudas, cada uno de los grupos resolvió seleccionar muestras independientes. Los empresarios con una muestra de 90 empleados, observaron un salario medio de 7.0 SM. El sindicato, con 60 empleados obtuvo una media de 7.1 SM. Se sabe además que ambas poblaciones presentan desviación estándar de 2.9 y 2.4 SM, respectivamente. En base a un intervalo de confianza del 95% para las diferencias de los salarios medios sostenido por los empresarios con el salario medio sostenido por el sindicato, responda a la siguiente pregunta ¿Las muestras obtenidas justifican las respectivas afirmaciones de los dos grupos?
I.C. PARA LA DIFERENCIA DE MEDIAS Caso 2 :(σ 12 = σ 22 desconocidas) a. Muestras Independientes y varianzas poblacionales homogéneas: Si se desea estimar la diferencia de dos medias poblacionales con una confianza del 100(1- α)% para muestras independientes de tamaño n 1 y n2 Usando la distribución t – student con n1 + n2 – 2 grados de libertad, se concluye que:
1
2
( x1 x2 ) t (1
2 p
S
2 ),n1 n2 2
2 p
S
1 n1
1 n2
n1 1 S12 n2 1 S22 n1 n2 2
; ( x1 x2 ) t (1
2 ),n1 n2 2
2 p
S
1
1
n1
n2
Aplicación Un inversionista desea comparar los riesgos asociados con dos diferentes mercados, A y B. El riesgo de un mercado dado se mide por la variación en los cambios diarios de precios. El inversionista piensa que el riesgo promedio asociado con el mercado B es mayor que el del mercado A. se obtienen muestras aleatorias de 15 cambios de precios diarios para cada mercado. Se obtienen los siguientes resultados: Mercado A
Mercado B
nA = 15 SA = 0.25
nB = 15 SB = 0.45
¿Estos datos apoyan la creencia del inversionista? Suponga que las varianzas poblacionales se desconocen y son iguales, con un nivel de confianza del 98%
I.C. PARA LA DIFERENCIA DE MEDIAS Caso 3: (σ 12
σ 2
2
desconocidas)
b. Muestras Independientes y varianzas poblacionales heterogéneas: Si se desea estimar la diferencia de dos medias poblacionales con una confianza del 100(1- α)% para muestras independientes de tamaño n 1 y n2 Con una confianza del 100(1- α)% . Usando la distribución t – student con v grados de libertad, se concluye que:
1
2
( x1 x2 ) t (1
2 ),v
S 12
S 22
n1
n2
; ( x1 x2 )
2
S12 S 22 n1 n2 2 2 S12 S 22 n1 n2 n
1
n
1
t (1
2 ), v
S 12
S 22
n1
n2
APLICACION Un analista está investigando la evolución de la liquidez en el sistema bancario y no bancario, contando con la siguiente información mensual, (datos en millones de nuevos soles) del año 2014. 12
X 1540.1
Y 511.7
i 1
i 1
12
12
12
i
X i2
i 1
204754.47
i
Y
2
i
22319.43
i 1
Donde X es la liquidez bancaria e Y la liquidez no bancaria. El analista piensa que la liquidez bancaria promedio del año 2016 es mayor que la liquidez no bancaria. ¿Los datos apoyan la postura del analista? Con un nivel de confianza del 95% y supóngase que las varianzas poblacionales son desconocidas y diferentes.
Intervalo de confianza para la diferencia entre dos proporciones
p1 p2 z 1 2 ˆ
ˆ
p11 p1 ˆ
ˆ
n1
p2 1 p2 ˆ
ˆ
n2
p1 p2 p1 p2 z 1 2 ˆ
p11 p1 ˆ
ˆ
n1
Donde
q1
1 p1
q2
1 p2
ˆ
ˆ
ˆ
ˆ
ˆ
p2 1 p2 ˆ
ˆ
n2
Aplicación El fabricante de cerveza Dorada afirma que s u marca de cerveza es más preferida en Iquitos que Cuzco. Para comprobar esta afirmación un investigador de mercado es cog ió dos muestras aleatorias , una de 500 consumidores de cerveza en Iquitos y otra de 400 consumidores de cerveza en el Cuzco. Si las muestras revelaron que 350 consumidores en Cuzco y 240 consumidores en Iquitos prefieren la cerveza Dorada; utilizando un intervalo de confianza del 95% para la diferencia de dos proporciones de todos los cons umidores de es ta cerveza en las dos ciudades , ¿ s e puede inferi r que el fabricante tiene razón? .
PRUEBA DE HIPOTESIS PARA LA DIFERENCIA DE MEDIAS
PRUEBA DE HIPOTESIS
La prueba de hipótesis es un procedimiento de toma de decisiones , relacionada principalmente con la elección de una acción entre dos conjuntos posibles de valores del parámetro, es decir, en dos hipótesis estadísticas, a las cuales llamaremos: Hipótesis nula H0 Hipótesis alternativa H1
Prueba de hipótesis acerca de dos medias. A. Prueba de hipótesis acerca de dos medias, varianza poblacionales conocidas.
X Z
1
X 2 1 2 2 1
n1
2 2
n2
N 0,1
Ejemplo El gerente de ventas de la empresa C&P analiza dos técnicas de ventas A y B. Escogió dos muestras aleatorias independientes de 50 vendedores. La primera, aplico la técnica A y la segunda la técnica B. Al final de un mes el número de ventas por vendedor ha dado las medias respectivas de 67 y 60. Ambas poblaciones presentan varianzas de 225 y 100, respectivamente. Al nivel de significancia del 5%, ¿presentan los resultados muestrales
suficiente evidencia que indique que la técnica A da mejores resultados que la técnica B?
B. Pruebas de hipótesis acerca de dos medias. B1. Varianzas desconocidas supuestas iguales.
X t
1
X 2 1 2 2 c
s
n1
2 c
s
t n1 n2 2
n2
2 2 n 1 S n 1 S 1 1 2 2 S c2 n1 n2 2
Ejemplo Una firma comercializadora esta interesada en vender arroz embolsado por kilos que tenga el menor porcentaje de granos quebrados. Recibe el informe de dos molineras A y B que afirman tener el mejor arroz embolsado con el más bajo porcentaje de granos quebrados por kilo. Para tomar la decisión estadística se seleccionó una muestra aleatoria de 11 y otra de 10 bolsas de arroz de un kilo de las molineras A y B, respectivamente resultando los siguientes porcentajes de granos quebrados por kilo: A
1.3
4
5
6
2
1
3
3.5
6
2
B
1.2
3
4
2.1
1.3
1.9
2.2
3.1
2.1
2.9
3
Se sabe que las poblaciones independientes de granos quebrados por kilo se distribuyen de manera normal, con un nivel de significancia del 5% ¿se puede concluir que son iguales las medias de los porcentajes de granos quebrados por kilos de las molineras A y B?.
B2. Varianzas desconocidas supuestas distintas. X t
1
X 2 1 2 2 1
s
n1
2 2
s
n2 2
s s n n r s s n n n 1 n 1 2
1
2
2
1
2
2
2
2
1
2
1
1
t r
2
2
2
Ejemplo Un analista compara dos métodos de enseñanza de Matemáticas básica; el método tradicional (T) y el método moderno de enseñanza basado en problemas (M). Una muestra aleatoria de 9 calificaciones finales con el método T y otra muestra aleatoria de 10 calificaciones finales con el método M dieron los siguientes resultados: T
6
14
8
11
10
18
15
20
13
M
12
11
12
10
14
15
10
13
14
12
Se asume que las calificaciones finales son dos poblaciones independientes con distribución normal. Con un nivel de significancia de 0,01, ¿es la calificación promedio del método tradicional igual a la calificación promedio del método moderno?.
Prueba de hipótesis para la diferencias de dos proporciones p1
X 1
p 2
X 2
n1 n2
Prueba de hipótesis para proporciones
Hipótesis:
Unilateral izquierda
Bilateral
Unilateral derecha
H0: p1 – p2 ≥ 0
H0: p1 – p2 = 0
H0: p1 – p2 ≤ 0
H1: p1 – p2 < 0
H1: p1 – p2 ≠ 0
H1: p1 – p2 > 0
Estadístico de prueba:
Z c
Donde:
p
n1 p1 n2 p2 ˆ
n1 n2
ˆ
p1 p2 ˆ
ˆ
1 1 p 1 p n1 n2
~ Z
2 Supuestos: poblaciones normales, muestras independientes ( n1 ≥ 50 y n2 ≥ 50) 4
Ejemplo Un patrocinador de un programa especial de televisión afirma que el programa representa un atractivo mayor para los televidentes hombres que para las mujeres, pero, el personal de producción del programa piensa que es igual el porcentaje de televidentes hombres y mujeres que ven el programa especial. Si una muestra aleatoria de 300 hombres y otra de 400 mujeres reveló que 120 hombres y 120 mujeres estaban viendo el programa especial de televisión. ¿Puede considerarse significativa la diferencia al nivel del 1%?
INTE R VAL O DE CONFIANZA PAR A LA DIFE R E NCIA DE ME DIA S C ON MUE S TR A S R E LA C IONA DA S En muchos casos es necesario comparar los cambios sufridos en dos momentos diferentes en el tiempo a los mismo sujetos de análisis o identificar posibles cambios en variables que están relacionadas de alguna manera, valga decir, una pareja de esposos tienen mucho que en diferentes aspectos en los hábitos de vida y por lo tanto, se puede considerar como poblaciones relacionadas. En éste caso, se requiere utilizar las diferencias de las variables, por lo tanto, es necesario formar parejas de datos y con la nueva variable formada por las diferencias, se calculan los estadísticos Diremos que 2 muestras son pareadas si existe alguna relación entre los elementos de ambas muestras que pudiera establecer dependencia entre los valores obtenidos de la variable de estudio. Por ejemplo, si queremos evaluar los efectos de una dieta sobre el peso corporal en cierta población tomaremos el peso a un conjunto de individuos antes de someterlos a dieta. Tras el periodo de dieta pesamos nuevamente a los integrantes del estudio obteniendo así una segunda medición del peso en cada individuo. Así obtenemos 2 muestras de pesos de la población, pero estas 2 muestras tienen una peculiaridad y es que los individuos que las componen están relacionados, es más son los mismos individuos. En este caso diremos que las muestras están pareadas.
Si se tiene dos muestras aleatorias dependientes de tamaño n, donde cada elemento de la primera muestra es pareja de un elemento de la segunda pareja, entonces estas dos muestras dan lugar a una pareja o a una diferencia .
X11
X11 - X21
X21
X12
X12 - X22
X22
X13
X13 - X23
X23
. . .
. . .
. . .
X1n - X2n
X1n
Mues tra 1
Mues tra de diferencias U
–
U = U = U – U
X2n
Mues tra 2
I.C. PARA LA DIFERENCIA DE MEDIAS: Caso: DATOS PAREADOS Muestras de datos pareados o relacionados:
Se define la variable Aleatoria: d =( 1
- 2 ). Se deben buscar dos valores a y b tal que una confianza del (1- )100%.
d
(a, b) con
Utilizando la distribución t-student con (n-1) grados de libertad y el procedimiento adecuado se concluye que: d
1 2
n
D
Di
i 1
n
n
; D t 1 / 2;n1
n
x i y i
i 1
n
SD2
D t 1 / 2;n 1
s D
n
Di D
x y
: Promedio de las diferencias
2
i 1
n 1
: Varianza de las diferencias.
sD n
Cinco operadores de cierto tipo de máquina son entrenados en APLICACIÓN máquinas de dos marcas diferentes, A y B. los tiempos empleados para realizar una misma tarea fueron medidos, y los resultados se muestran en el cuadro siguiente: OPERADOR
MARCA A (X i)
MARCA B (Yi)
A B C D E
80 72 65 78 85 TOTAL
75 70 60 72 78
Con un nivel de confianza del 99%, ¿Podemos afirmar que la tarea realizada en la máquina A demora más tiempo que en el máquina B?
RETROALIMENTACIÓN:
Observar y analizar el siguiente video https://www.youtube.com/watch?v=P2sKstxqy2E https://www.youtube.com/watch?v=WLUZHm6m BQ8
SITUACIÓN PROBLEMÁTICA Una compañía de aplicaciones de software desarrolla un nuevo paquete de aplicaciones financieras. Como el tiempo de procesamiento en la computadora es un criterio de decisión importante, el investigador desea que el nuevo paquete tenga las mismas características y capacidad y que arroje los mismos resultados que el producto líder. Si el nuevo paquete financiero es efectivo, proporcionará los mismos resultados que el producto líder pero usará menos tiempo de procesamiento en la computadora. Para probar el nuevo paquete de software, se diseña un experimento en el que se usarán ciertos proyectos de aplicación financiera, tanto en el producto líder como en el nuevo paquete. Al usar un conjunto específico de proyectos en ambos paquetes, cada proyecto es su propio control. Por tanto, solo se evalúan las diferencias en los tiempos requeridos para lograr los resultados deseados con la comparación de las diferencias promedio en las dos lecturas de tiempos, en lugar de comparar las diferencias en los tiempos de terminación promedio de las dos muestras independientes. Los resultados de una muestra de 10 proyectos de aplicación financiera usados en el experimento se muestran en la siguiente tabla: Tabla 1. Mediciones repetidas de tiempo en segundos para proyectos de aplicación financiera terminados en paquetes software Usuario del proyecto C.B T.F. dosM.H R.K. de M.O. D.S competitivos S.S. C.T. K.T. S.Z. Tiempo con el producto líder
9.98
9.88
9.84
9.99
9.94
9.84
9.86
10.12
9.90
9.91
Tiempo con el nuevo software
9.88
9.86
9.75
9.80
9.87
9.84
9.87
9.86
9.83
9.86
¿El nuevo software es más rápido o no?. Use un nivel de significación del 5%.
PRUEBA DE HIPOTESIS PARA LA DIFERENCIA DE MEDIAS. MUESTRAS DEPENDIENTES
PRUEBA DE HIPÓTESIS PARA DOS MUESTRAS PAREADAS Suposición básica: Datos de muestras dependientes o pareadas.
t0
d Sd
n
Supóngase que se desea probar: a. H0: μd = 0 H1: μd ≠ 0 Debe de rechazarse H0 si: t0 > tα/2, n-1 óT < - t α/2, n-1 b. H0: μd ≥ 0 H1: μd < 0
Debe de rechazarse H0 si: t0 < - tα, n-1 c. H0: μd ≤ 0 H1: μd > 0
Debe de rechazarse H0 si: t0 > tα, n-1
PRUEBA DE HIPÓTESIS PARA DOS MEDIAS CON MUESTRAS RELACIONADAS O DEPENDIENTES
Cuando las muestras están relacionadas y se quiere probar si luego de aplicar un tratamiento las medias difieren (antes/después) y las desviaciones estándar poblacionales son desconocidas y el tamaño de la muestra es pequeño, el estadístico de prueba está dado por: t
d d sd n
n
t n1 gl dónde:
d
n
d i
i 1
n
n
( xi x2 )
i 1
2
n
S
d
( d i
d )2
i 1
n 1
el cual se distribuye como una t de Student con n-1 grados de libertad.
EJEMPLO MUESTRAS INDEPENDIENTES Usted y sus amigos han decidido probar la validez del anuncio de un restaurante local de pizzas, el cual afirma que entrega el producto a la residencia universitaria con mayor rapidez que la sucursal local de una cadena nacional. Tanto el restaurante local de pizzas como la cadena nacional están ubicados al otro lado de la calle de su campus universitario. Usted define la variable interés como el tiempo de entrega, en minutos, desde el momento en que se ordena la pizza hasta el momento en que se entrega; reúne los datos pidiendo 10 pizzas al restaurante local y 10 pizzas a la cadena nacional en momentos diferentes. Después organiza y presenta sus datos sobre el tiempo de entrega en la siguiente tabla:
Local 16.8 11.7 15.6 16.7 17.5
Cadena 18.1 14.1 21.8 13.9 20.8
22.0 15.2 18.7 15.6 20.8
19.5 17.0 19.5 16.5 24.0
Utilizando un nivel de significancia de 0.05, ¿existe evidencia de que el tiempo medio de entrega del restaurante local de pizzas es menor que el tiempo medio de entrega de la cadena nacional de pizzerías?
EJEMPLO MUESTRAS PAREADAS
En el ejemplo anterior se describió que un restaurante local de pizzas, localizado al otro lado de la calle de su campus universitario, anuncia que entrega productos a la residencia universitaria con mayor rapidez que la sucursal local de una cadena nacional de pizzas. Para determinar si este anuncio es válido, usted y algunos amigos decidieron ordenar 10 pizzas al restaurante local y 10 pizzas a la cadena nacional. De hecho, cada vez que ordenó una pizza del restaurante local, al mismo tiempo, sus amigos ordenaron una pizza de la cadena nacional. Por lo tanto, usted tiene muestras pareadas. En cada una de las 10 ocasiones que ordenó pizzas, cuenta con una medida del restaurante local y una de la cadena nacional. Con un nivel de significancia de 0.05, ¿el tiempo medio de entrega del restaurante local de pizzas es menor que el tiempo medio de entrega de la cadena nacional?
Tiempo
Local
Cadena
1
16.8
22.0
2
11.7
15.2
3
15.6
18.7
4
16.7
15.6
5
17.5
20.8
6
18.1
19.5
7
14.1
17.0
8
21.8
19.5
9
13.9
16.5
10
20.8
24.0
RETROALIMENTACIÓN:
Observar y analizar el siguiente video https://www.youtube.com/watch?v=axi_eSSbFmY https://www.youtube.com/watch?v=WLUZHm6m BQ8
https://www.youtube.com/watch?v=na-9nLq6szc
¿ QUÉ HEMOS APRENDIDO HOY?
CONSTRUIR INTERVALO DE CONFIANZA PARA LA DIFERENCIA DE DOS MEDIAS CON MUESTRAS PAREADAS O RELACIONADAS COMO PROBAR UNA HIPÓTESIS PARA DIFERENCIA DE MEDIAS EN MUESTRAS DEPENDIENTES. DEL CASO SOBRE EL CARTEL PUBLICITARIO REALIZAR EL INTERVALO DE CONFIANZA Y LA PRUEBA DE HIPÓTESIS RESPECTIVA
BIBLIOGRAFÍA BÁSICA: Estimado estudiante, puedes revisar los siguientes textos que se encuentran en tu biblioteca: Nro. CÓDIGO
AUTOR
TÍTULO
AÑO
1
519.2 SCHE
SCHEAFFER Mc. CLAVE
PROBABILIDAD Y ESTADÍSTICA PARA 2005 INGENIERÍA
2
519.5 LEVI/P
LEVINE-KREHBIEL-BERENSON
ESTADÍSTICA ADMINISTRACIÓN.
519.2 HINE
WILLIAM W. HINES DOUGLAS C. MONTGOMERY DAVID M. GOLDSMAN CONNIE M. BORROR
PROBABILIDAD Y ESTADÍSTICA PARA 2011 INGENÍERIA
3
PARA
2006
“Jamás desesperes, aún estando en las mas sombrías aflicciones. Pues de las nubes negras, cae agua limpia y fecundante” Anónimo