PRUEBA PRUEBA DE H I POTES POTESII S:
I.
(Estadísticos de prueba)
DEFINICIONES PRELIMINARES:
¿QU É I P É E S S U N N A H PÓ T E ES I S S? ? Es un respuesta a priori a un problema.
¿QU É I P É E S S U N N A H PÓ T E ES I S S E S ST T A D Í S ST I C C A ? Es un enunc enunc iado ac erca del valor de un parámet parámetro ro poblac ional
¿QU É I P É E S S U N N A P RU E EB A DE H H PÓ T E ES S I S ? ? Es un procedimiento basado en la información muestral y en la teoría de probabilidad, para determ dete rminar inar si una hipóte hipótesis sis estadística est adística debe ser ac eptada epta da o rechazada.
¿QUÉ CLASES CLASES DE HIPÓTESIS EXISTEN? EXISTEN? HIPOTESIS NULA. •
•
•
Se denota por Ho. Es una afirmación o enunciado tentativo que se realiza acerca del valor de un parámetro poblacional. Por lo común es una afirmación acerca del parámetro de población cuando toma un valor específico.
HIPOTESIS ALTERNATIVA. •
•
Se denota por H1. Es una una afirm a firmac ación ión o enunciado c ontraria ontraria a la presentada en la hipótesis hipótesis nula
¿QUÉ ERRORES SE COMETEN EN UNA PRUEBA DE HIPÓTESIS? Error Tipo I: c omet ete e este est e error cuando c uando se rec rec haza la hipótesis nula, c uando es verdadera. • Se com • Se denota por α = P(Rechazar Ho/Ho es verdadera) Error Tipo II: omete este error error c uando uando se acepta ac epta la la hipótesis, hipótesis, cuando es falsa. • Se c omete • Se denota por β = P(Aceptar Ho/Ho es falsa)
Nive Nivell de Significancia ignificanc ia ( ) Para ser muy cuidad cuidadosos osos en no cometer el error tipo tipo 1, debemos deb emos especi espec ificar la probab pro babiilidad de rechazar H0, denotada denotad a por po r . A ésta se le llama llama nivel de significancia. Nivel de Significancia: La probabilidad ( ( más alta de rechazar H0 cuando H0 es cierto se llama nivel de significancia. mantener la prob abilidad abilidad de cometer el error error tipo 1 baja, baja, debemos esco ger un valor pequeñ o de . Comentario: Para mantener
Usando un valor pre-asignado de se construye co nstruye una región de rechazo o región crítica en la curva normal estánda e stándarr o en la curva t que indi indica ca si debemos rechazar H0 . Re gión Crítica Crítica o de de Re chazo: chazo: Una región crítica o de rechazo es una parte de la curva de z o de la curva t donde se rechaza H0 .
La región región puede ser de una una cola o de dos dependiendo de la la hipóte hipótesi siss alterna. alterna.
Ejemplos
Para H 1:
>
valor valor aceptado, acep tado, la región región de rechazo está dada por:
1
(cola derecha, z ó t) Para H 1 :
< valor aceptado, la región de rechazo está dada por:
Para H 1 :
(cola izquierda, z ó t)
valor aceptado, la región de rechazo es de dos colas y está dada por:
(2-colas, z ó t) /2
•
ETAPAS DE UNA PRUEBA DE HIPÓTESIS • • • • • •
II.
/2
Plantear la hipótesis nula y alternativa. Especificar el nivel de significancia (o confianza) que se va a utilizar.(Generalmente la plantea el investigador) Elegir el estadístico de prueba que debe ser especificado en términos de un estimador del parámetro a probar. Establecer el valor o valores críticos para rechazar o aceptar Ho. (Se encuentran en la tabla de probabilidades) Determinar la Región de Ac eptación y de Rechazo, en función a los v alores crític os. Dar conclusión respectiva
FORMULAS DE LOS ESTADISTICOS DE PRUEBA: FORMULAS DE LOS ESTADISTICOS DE PRUEBA
I. PRUEBA DE HIPOTESIS PARA EL PROMEDIO POBLACIONAL:
A. Si la varianza poblacional se c onoce y n es mayor de 30: Estadístico de prueba : Valor crítico : x Z t Z / 2 (distribución normal) Z
n B. Si la varianza poblacional no se conoce y n es menor o igual a 30: Estadístico de prueba : Valor crítico:
t
x s
t t t (
/
2 , n 1)
(distribución t de student)
n II. PRUEBA DE HIPOTESS PARA LA PROPORCION POBLACIONAL
Estadístico de prueba : Z
p P pq
Valor crítico :
Z t Z
/
2
n Esta formula es tanto para muestras grandes c omo para muestras pequeñas. 2
III. PRUEBA DE HIPOT ES IS PARA LA DIFERENCIA DE MEDIAS
A. Si las varianzas poblacionales se conocen y las muestras son de tamaño n 1 >30 y n2 >30 (grandes): Estadístico de prueba : Valor crítico :
Z
( x1 x2 ) ( 1 2 ) 1
n1
Z t Z
2
/2
n2
B. Si las varianzas poblac ionales se desconocen y las muestras son de tamaño n1 ≤30 y n2 ≤30 (pequeñas): Estadístico de prueba : Valor crítico:
t
( x1 x2 ) ( 1 2 ) S c
1
n1
t t t ( / 2,n n
1
1
2 2)
(distribución t de student)
n2
Donde :
2
sc
2 2 (n 1 1)s1 (n 2 1)s 2
n1 n 2 2
, se llama varianza mancomunada
IV. PRUEBA DE HIPOTES IS PARA LA DIFERENCIA DE PROPORCIONES:
A. Si p1 y p2 se determinan a partir de muestras:
Estadístico de prueba : Z
( p1 p2 ) ( P 1 P 2 ) p1q1 n1
p2 q2
Valor crítico :
Z t Z
/
2
n2
Esta formula es tanto para muestras grandes c omo para muestras pequeñas.
PRUEBA DE HIPÓTESIS PARA LA MEDIA 1. Un investigador de mercados y hábitos de comportamiento afirma que el tiempo que los niños de tres a cinco años dedican a ver la televisión cada semana se distribuye normalmente con una media de 22 horas y desviación estándar 6 horas. Frente a este estudio, una empresa de investigación de mercados cree que la media es mayor y para probar su hipótesis toma una muestra de 64 observaciones procedentes de la misma población, obteniendo como resultado una media de 25. Si se utiliza un nivel de significación del 5%. Verifique si la afirmación del investigador es realmente cierta. 2. Un gerente de ventas de libros universitarios afirma que en promedio sus representantes de ventas realiza 40 visitas a profesores por semana. Varios de estos representantes piensan que realizan un número de visitas promedio superior a 40. Una muestra tomada al azar durante 8 semanas reveló un promedio de 42 visitas semanales y una desviación estándar de 2 visitas. Utilice un nivel de confianza del 99% para aclarar esta cuestión. 3
3.
Un laboratorio contrata a un especialista en estadística para controlar el llenado de capsulas de antibióticos cuyo peso neto es de 250 mg. El llenado de estas capsulas es automático y realiza de inmediato un control para verificar el llenado, si este presenta fallas muy notorias regresa para el correspondiente ajuste, elevándose así los costos de producción. Para verificar si el llenado se está realizando satisfactoriamente, se toma al azar n=19, capsulas encontrándose los siguientes resultados: Ῡ=251 mg; s=2mg; ¿Cuál es la solución?.
4.
Una cadena grande de supermercados, expide su propia tarjeta de crédito. El gerente financiero desea averiguar si el saldo deudor medio mensual es mayor que $400. El nivel de significación se fija en 0.05. Una revisión aleatoria de 172 saldos reveló que la media muestral es $407 y la desviación estándar de la muestra es $38. ¿Debería concluir el gerente que la media poblacional es mayor que $400, o es razonable suponer que la diferencia de $7 (de $407 – $400 = $7) se debe al azar?
5. En un estudio de control de calidad de automóviles, se considera un parámetro de evaluación si arranca en menos de 3 minutos. Para lo cual se ha tomado 10 autos de la misma marca para estudiar el tiempo de arranque encontrándose los siguientes resultados (en segundos): 2. 84 , 2.86 , 3.06 , 2.94 , 2.94 , 2.82 , 3.02 , 3.14 , 3.42 , 3.16. Probar si los automóviles cumplen con este parámetro de calidad. Verificar H0: = 3 frente a H1: < 3, utilizando α =0.05 ¿A qué conclusión llegaría usted?. 6. Una muestra aleatoria de 100 docentes universitarios del país, dio los siguientes resultados.
∑Xi = 4,000
∑Xi² = 990, 000
a) La autoridad educativa afirma que el promedio de edad de un docente universitario es de 43 años, promedio que consideramos demasiado alto. b) Realice una prueba de hipótesis, establezca, use alfa = 0.01.
PRUEBA DE HIPÓTESIS PARA LA PROPORCION 1. El jefe de admisión de una universidad afirmo en una reunión con las directivas que el 15% de los estudiantes que ingresan, se retiran antes de haber completado cuatro semestres académicos. En una revisión a los registros de los últimos años, mediante una muestra aleatoria de 300 alumnos, se encontró que 54 de ellos se retiraron. ¿Al nivel del 1% es válida dicha información?. 2. Un fabricante de papel higiénico DELUXE considera que tiene asegurado el 20% del mercado. Para probar esta aseveración, la fábrica de la competencia toma una muestra de 200 clientes potenciales a quienes les pregunta por la marca papel higiénico de su preferencia. De los 200 entrevistados, 60 prefieren el papel DELUXE. ¿Cuáles deberían ser las hipótesis que se deben plantear, para probar si en realidad el fabricante de DELUXE tiene asegurado una mayor proporción del mercado de la que sostiene? Darle solución. 3. Una nueva serie de TV debe demostrar que capta más del 25% de la audiencia después de su periodo inicial de 10 semanas, para decir que tuvo éxito. Suponga que en una muestra de 400 familias 112 estaban viendo la serie. A un nivel de significación de 0,10; ¿puede decirse que la serie tuvo éxito, con base en la información de la muestra?. 4. Se plantea una hipótesis de trabajo de que no más del 5% de las piezas que se fabrican en un proceso de manufactura tienen defectos. Para tal estudio se selecciona una muestra de 100 piezas, encontrándose que 10 están defectuosas. Pruebe la hipótesis anterior al 5% de significación. 4
5. Un gerente de ventas de libros universitarios afirma que en promedio sus representantes de ventas realiza 40 visitas a profesores por semana. Varios de estos representantes piensan que realizan un número de visitas promedio superior a 40. Una muestra tomada al azar durante 8 semanas reveló un promedio de 42 visitas semanales y una desviación estándar de 2 visitas. Utilice un nivel de confianza del 99% para aclarar esta cuestión.
PRUEBA DE HIPOTESIS PARA LA DIFERENCIA DE MEDIAS 1. Un departamento de investigación de mercados en software para usos educativos desea saber si un producto con marca conocida se vende a un precio superior al de una marca desconocida. Se procedió a seleccionar 16 almacenes que distribuyen el producto cuya marca es ampliamente conocida y 12 almacenes que vende el mismo producto pero con marca que apenas entra al mercado. Los resultados fueron en promedio de $30.000 y $26.000, con desviación estándar poblacional de $6200 y $ 4800 respectivamente. ¿Al nivel del 1%, se puede aceptar tal información? determine su estimación. 2.
Scandura y Wells, hicieron un experimento de material introductorio que organiza lo que se va a
aprender, 2 “organizadores previos” en relación con el rendimiento de matemáticas abstractas. Se selecciona 50 estudiantes, 25 de los cuales recibirán un “organizador previo” antes de estudiar un ensayo de 1000 palabras sobre topología de Euler. Al final del periodo experimental, a ambos grupos se les administro una prueba objetiva sobre conceptos topológicos. La variable dependiente X, era el “número de respuestas correctas”. Grupo 01 (organizador previo) Grupo 02 (resumen histórico) n1 = 25 x1 = 7,65 S1= 6,50 Contraste las hipótesis respectivas
n2 = 25 x2 = 6,00 S2= 5,90
3. Ricardo García, gerente de operaciones de UNIBANK, está interesado en saber si existe diferencia significativa entre los tiempos de atención al cliente de los empleados que trabajan en los dos turnos, mañana y tarde. Al respecto, ayer personalmente registró los tiempos que utilizaron los empleados para atender a los clientes en ambos turnos y en forma aleatoria. Los tiempos en minutos que registró fueron los siguientes: Mañana Tarde
2,10 4,00
4,10 4,50
4,70 3,70
3,70 4,00
6,00 4,10
3,90 3,45
Ricardo procesó los datos en un programa estadístico y obtuvo la siguiente información: n Mañana Tarde
6 6
Promedio 4.08 3.958
Desviación Estándar. 1.28 0.358
A la luz de estos resultados, ¿A qué conclusión llegó Ricardo?. Compruebe con 5% de significación. 4.
Una compañía de transportes requiere comprar un gran lote de buses para el transporte urbano con el fin de reemplazar su parque automotor y para tal fin desea comprobar la afirmación hecha por el proveedor de la marca B, en el sentido de que la marca A es menos ahorradora de combustible. Para tal fin la empresa toma una muestra aleatoria de 35 vehículos marca A y encuentra que la misma tiene un promedio en el rendimiento de 18 kilómetros/galón con una desviación estándar de 8 kilómetros/galón, mientras que una muestra de 32 vehículos marca B 5
presenta un promedio de 22 kilómetros/galón con desviación estándar de 3 kilómetros /galón. ¿Qué decisión debe tomar el gerente de la compañía con un nivel de significación del 5%? 5. Samuels (1967) efectuó un experimento para determinar si los dibujos facilitaban o interferían el aprendizaje de palabras en niños pequeños. Se escogió aleatoriamente a 20 niños del 1º grado de primaria para que aprendan palabras ilustradas por sencillos dibujos o para que aprendieran las mismas palabras sin ilustración de ningún tipo. Después de varios ensayos se determinó el dominio de dichas palabras, midiendo el número de respuestas correctas de cada niño. A continuación se muestran las medias y desviaciones típicas de los respectivos aciertos. Grupo 01 (sin ilustración) Grupo 02 (con ilustración)
6.
n1 = 10 x1 = 19,20
n2 = 10 x2 = 11,30
δ1= 7,93 Con α = 0,05; contrastar la respectiva hipótesis.
δ 2= 5,79
Una compañía desea estudiar el efecto que tiene la pausa para el café, sobre la productividad de sus obreros. Selecciona 6 obreros y mide su productividad en un día corriente, y luego mide la productividad de los mismos 6 obreros en un día que se concede la pausa para el café. Las cifras que miden la productividad son las que siguen: Con = 0,05. ¿A qué conclusión llegará la compañía?. TRABAJADOR Sin pausa Con pausa
1 23 28
2 35 38
3 29 29
4 33 37
5 43 42
6 32 30
PRUEBA DE HIPOTESIS PARA LA DIFERENCIA DE PROPORCIONES 1.
Un fabricante de microprocesadores compra los microcircuitos de sus productos a dos proveedores: una muestra de 300 microcircuitos del proveedor A contuvo 50 defectuosos, mientras que una muestra de 400 piezas del proveedor B presentó 70 con fallas. Pruebe la hipótesis nula de que no hay diferencia entre la proporción de circuitos defectuosos de los dos proveedores.
2.
Una empresa de estudios de mercado quiere saber si un producto promocionado a nivel nacional lo adquieren los hombres en mayor proporción que las mujeres. De dos muestras aleatorias independientes de 900 hombres y 800 mujeres se encontró que 270 hombres y 200 mujeres adquieren el producto. ¿Cuál es su decisión al 5% de significación?
3. Un investigador de mercados que trabaja para una agencia de publicidad, trataba de explicar la adquisición de un automóvil. Los resultados de una encuesta mostraron que un 30% (n = 60) de los entrevistados con título universitario poseen automóvil, en comparación con 21% (n = 45) de aquellos que no tienen título universitario. ¿Qué debe concluir el investigador al 1% de significación? 4. Una organización de investigación de mercados realizó 2 encuestas al mismo tiempo. Ambas se relacionaban con la población de personas de 18 años o mayores. A pesar de que las 2 muestras fueron seleccionadas independientemente; una referente a los ingresos buscaba tener información sobre los cambios en los gastos de artículos de consumo como resultado de los cambios en los ingresos. La otra encuesta se refería a las preferencias de marcas y buscaba obtener información sobre las preferencias por las marcas de los diferentes tipos de alimentos. En la encuesta sobre ingresos aplicada a 1,200 personas, 189 se rehusaron a contestar. En la encuesta sobre preferencias de marcas aplicada a 1,500 personas, 81 se rehusaron a contestar. Indican estos resultados que el asunto de la encuesta afecta a la proporción de personas que se rehusaron a contestar. Establezca la regla de decisión adecuada suponiendo que el riesgo de concluir que el asunto de la encuesta tiene un efecto cuándo realmente no existe tal efecto debe ser 0,01. ¿A qué conclusión deberá llegarse? 6
PRUEBA DE HIPÓTESIS PARA UNA VARIANZA
EJEMPLO:
7
8
REGRESIÓN Y CORRELACIÓN ANALISIS DE REGRESIÓN LINEAL SIMPLE:
El análisis de regresión es una técnica estadística que consisten en determinar la relación funcional entre dos variables cuantitativas en estudio. Esta relación funcional entre las variables, es una ecuac ión matemática de la forma Y= A + B X, que rec ibe el nombre también de Func ión de Regresión o Modelo de Regresión. A la variable Y se le denomina variable dependiente, a la variable X independiente y a A,B se les llama parámetros de la ecuación de regresión.. La finalidad del Análisis de Regresión es hacer pronósticos es decir, hacer estimaciones futuros de la variable dependiente. PASOS A SEGUIR : a. Realizar el diagrama de dispersión y ver el comportamiento de la variable. b. Aplicar el método de los Mínimos Cuadrados Ordinarios para estimar los parámetros de la ecuación. Las formulas son las siguientes: n
n
n
n X i Y i X i Y i B
i 1
i 1 n
n
i 1
n X i ( X i ) 2
i 1
2
i 1
A Y B X c.
Para hacer el pronóstico o el valor estimado de Y, reemplazar en la ecuación matemática el respectivo valor de Xo, de la siguiente manera:
Y = A + B (Xo)
9
ANALISIS DE CORRELACION LINEAL SIMPLE: El análisis de correlación es una técnica estadística que mide el grado de asociación o afinidad entre las variables cuantitativas consideradas en un estudio. Se llamará CORRELACION SIMPLE cuando se trat a de analizar la relación entre dos variables. Se llamará CORRELACION LINEAL O RECTILINEA si la función es una recta, y de CORRELACION NO LINEAL cuando la func ión es una c urva o una función de grado superior. El COEFICIENTE DE CORRELACION DE PEARSON, es el estadígrafo que mide el grado de asociación o afinidad entre las variables cuantitativas y se denota por “r” la cual se define como:
n
n
n
i 1
i 1
i 1
n X i Y i X i Y i r
n
n
i 1
i 1
n X i2 ( X i ) 2 Interpretación
-1
-0.7
-0.4
Perfecta Alta Regular NEGATIVA
n
n
i 1
i 1
n Y i 2 ( Y 1 ) 2
0
0.4
0.7
-1
Baja
Baja Regular POSI TIVA
Alta Perfecta
1. LA EMPRESA LUZANDINA de la ciudad de Piura, está haciendo un estudio sobre los consumos de energía (en miles de kilowatts - hora) y el número de habitaciones en una residencia privada multifamiliar. Para este estudio se selecciona una muestra aleatoria de 10 residencias multifamiliares, en la cual se obtuvo los siguientes resultados: Nº de Número de Consumo de energía (miles casa habitaciones de kw) 1 12 9 2 9 7 3 14 10 4 6 5 5 10 8 6 8 6 7 10 8 8 10 10 9 5 4 10 7 7 Total a. Determine la variable dependiente (y) y la variable independiente (x) Y = X = b. Estime la ecuación de regresión lineal e interprete sus coeficientes c. Evalúe el consumo (en miles de kilowatt s- hora), para una casa de 11 habitac iones. d. Determine e interprete el coeficiente de determinación y de correlación. e. Pruebe la contribución de la variable explicativa, establezca su intervalo de confianza use
α =
0.05.
10
2. El gerente de una empresa está haciendo un estudio entre el número de contactos que tienen sus vendedores y sus ventas en miles de dólares. Para esto recurre al departamento de ventas y contabilidad obteniendo la siguiente información:
Nº 1 2 3 4 5 6 7 8 9 10 Total
Número de contactos 14 12 20 16 46 23 48 50 55 50
Ventas (en miles de dólares) 24 14 28 30 80 30 90 85 120 110
a. Determine la variable dependiente (y) y la variable independiente (x) Y = X = b. Estime la ec uación de regresión lineal: Y=A + B X c. Evalúe las ventas estimadas si se c ontacta, o comunica, con 40 c lientes. d. Determine e interprete el coeficiente de determinación y de correlación. e. Pruebe la contribución de la variable explicativa, establezca su intervalo de confianza use
α =
0.05.
3. El departamento de producción de una fábrica desea explorar la relación entre el número de obreros que ensamblan y la cantidad de artículos producidos. Como experimento se asignaron grupos de trabajadores para verificar su producción y los resultados obtenidos fueron los siguientes: Nº 1 2 3 4 5 Total
Número de ensambladores 2 4 1 5 3
Producción en (unidades) 15 25 10 40 30
a. Determine la variable dependiente (y) y la variable independiente (x) Y = X = b. Estime la ec uación de regresión lineal: Y = a + b X c. Para 6 operarios ¿Cuál es la producción esperada? d. Determine e interprete el coeficiente de determinación y de correlación. e. Pruebe la contribución de la variable explicativa, establezca su intervalo de confianza use
α =
0.05.
11
4. El jefe de personal de una empresa cree que existe una relación entre la ausencia al trabajo y la edad del empleado. Con el propósito de estudiar el problema tomó en cuenta la edad de diez trabajadores escogidos al azar y contabilizó los días de ausencia durante el año. Los resultados fueron como se observa en la tabla que sigue:
Nº 1 2 3 4 5 6 7 8 9 10 Total
Edad en años 25 50 35 20 45 50 30 40 62 40
Ausencia en días 20 5 10 20 8 2 15 12 1 8
a. Const ruya el diagrama de dispersión. b. Obtenga la ecuación de la rect a de regresión c. Si un trabajador tiene 38 años, ¿Cuántos días se espera que falte al año? d. Si un trabajador faltó 3 días al año. ¿Qué edad se puede esperar que tenga este trabajador? e. Determine e interprete el coeficiente de determinac ión y de correlación. f. Pruebe la contribución de la variable explicativa, establezca su intervalo de confianza use
α =
0.05.
12