CONOCIMIENTOS PREVIOS
¿Qué diferencia existe entre una estimación puntal e intervalica? ¿ Qué distribución utilizo para construir un IC. Cuando no se conoce la varianza poblacional ? ¿ Cuáles son los pasos para construir una prueba de hipótesis? ¿En un problema determinado como identifico que estoy en IC. o en una prueba de hipótesis?
Caso de estudio:
RENDIMIENTO ACADÉMICO EN LA FACULTAD DE NEGOCIOS INTERNACIONALES EN UPN El la Facultad de Negocios de UPN se desea determinar si existe asociación entre el ciclo de estudios del estudiante y su nivel de nerviosismo frente a una exposición. Este es medido por una prueba estándar de nerviosismo y ansiedad. Se elige aleatoriamente a 400 estudiantes de los tres turnos y se obtienen los siguientes resultados, resultados, considerando un nivel de significación sig nificación del 5%
¿Cuáles son las variables de estudio? ¿El ciclo de estudio es igual o diferente al nivel de nerviosismo y ansiedad? ¿Se podrán relacionar estas dos variables cualitativas cualitativas
PROBABILIDAD PROBABILIDAD Y ESTADISTICA ESTADISTICA Sesión N 12 °
PRUEBAS NO PARAMETRICAS: PRUEBA CHI CUADRADO PARA LA INDEPENDENCIA DE VARIABLES. PRUEBA DE CORRELACIÓN DE ESPEARMAN
Docente: Dr. Dr. Juan Carlos Oruna Lara
LOGRO DE APRENDIZAJE Al finalizar la sesión, el estudiante será capaz de determinar la prueba Chi cuadrado para la independencia de variables y la prueba de correlación de Spearman con información obtenida de muestras relacionadas.
PR UE B A DE NO PAR AME TR ICA En Una prueba no paramétrica es una prueba de hipótesis que no requiere que la distribución de la población se caracterice en función de determinados parámetros. Por ejemplo, numerosas hipótesis se basan en el supuesto de que la población sigue una distribución normal con los parámetros μ y σ. Las pruebas no paramétricas no tienen este supuesto, de modo que son útiles cuando sus datos sean firmemente no normales y resistentes a transformaciones. Sin embargo, las pruebas no paramétricas no están completamente exentas de supuestos sobre los datos. Por ejemplo, las pruebas no paramétricas requieren que los datos sean una muestra aleatoria independiente
Por ejemplo, los datos sobre salarios son altamente asimétricos a la derecha, debido a que muchas personas devengan salarios modestos y pocas personas devengan salarios más cuantiosos. Usted puede utilizar pruebas no paramétricas.
PRUEBAS NO PARAMÉTRICAS Son pruebas no paramétricas cuando: Se trata de variables cualitativas. Se trata de variables cuantitativas, con menos de 30 datos y no provienen de una curva normal. Cuando son seis o menos datos. Algunos indican 11 o 20 datos. •
•
•
ELECCIÓN DE LA PRUEBA NO PARAMETRICA Chi cuadrado 1 muestra
Cuantitativa y cualitativa Binomial independientes
2 muestras
Cuantitativa
U de mann Whitney
Cuantitativa
Wilcoxon
Cualitativa
Mc Nemar
Cuantitativa
Kruskal Wallis
Cuantitativa
Friedman
Cualitativa
Q de Cochran
Relacionadas
independientes Más de 2 muestras Relacionadas
PRUEBA DE INDEPENDENCIA PARA DOS VARIABLES Estamos interesados en determinar si dos cualidades o variables referidas a individuos de una población están relacionadas.
PRUEBA DE INDEPENDENCIA DE DOS VARIABLES:
Las Hipótesis nula y alternativa: H0: Las variables son independientes entre sí H1: Las variables no son independientes entre sí
DEFINICION: o
o
o
Supongamos que de n elementos de una población se han observado dos características X e Y, obteniéndose una muestra aleatoria simple bidimensional (X1,Y1),(X2,Y2),...,(Xn,Yn). Se desea conocer si la base de dichas observaciones al contrastar si las características poblacionales X e Y son independientes o no. Teniendo la siguiente tabla de contingencia: A (i=1,2,…,r) filas ; B(j=1,2,…,k) columnas; n=tamaño de muestra.
Pasos para dar solución a una prueba de independencia: 1
°
Formular las hipótesis: Ho: las variables son independientes. H1: las variables no son independientes.
2
°
3
°
4
°
Estadístico de prueba calculado:
Ji cuadrado calculado:
Regla de decisión: Si el estadístico de prueba calculado es mayor que el valor de ji cuadrado en tabla, entonces rechazamos la hipótesis nula y se concluye que ambas variables son dependientes o están relacionadas.
APLICACIÓN 1. Para estudiar la dependencia entre la práctica de algún deporte y la depresión, se seleccionó una muestra aleatoria de 100 jóvenes, con los siguientes resultados:
Sin depresión Con depresión Deportista No deportista
38
9
31
22
Determinar si existe independencia entre la actividad del sujeto y su estado de ánimo. Con un nivel de significación (5%)
APLICACIÓN 2. Un estudio que se realizó con 81 personas referente a la relación entre la cantidad de violencia vista en la televisión y la edad del televidente produjo los siguientes resultados
Poca violencia Mucha violencia
16-34
34-55
55 o mas
8
12
21
18
15
7
¿Indican los datos que ver violencia en la televisión depende de la edad del televidente, a un nivel de significación del 5%?
Ejemplo El departamento medico de una universidad estudia el nivel de efectividad de tres remedios para la alergia: R1, R2 y R3. Cada remedio se suministro a 60 profesores. Los resultados del experimento se dan en la tabla que sigue:
Efectividad
Remedio para la alergia R1
R2
R3
Sin alivio
10
20
15
Cierto alivio
40
30
20
Alivio total
10
10
25
¿Podemos concluir al nivel de significancia 0,01, que los tres remedios para la alergia son igualmente efectivos?
Ejemplo Una socióloga quiere determinar si hay alguna relación entre el tamaño de la familia y el nivel de educación del padre. Para esto, escogió una muestra de 500 hogares y los clasifico de acuerdo con dos criterios: por el tamaño de la familia y por el nivel de educación. Las frecuencias observadas están registradas en la tabla. ¿se puede concluir al nivel de significancia de 0,05 que el tamaño de la muestra de la familia es independiente del nivel de educación del padre?
Nivel de educación
Número de hijos Menos de 3
De 3 a 5
Mas de 5
Primaria
40
90
70
Secundaria
50
60
60
Superior
60
50
20
¿ QUÉ HEMOS APRENDIDO HOY?
¿CÓMO RESOLVER PROBLEMAS APLICANDO LA DISTRIBUCIÓN CHICUADRADO
Que son valores observados y esperados
ANÁLISIS DE LA VARIANZA PARA UN FACTOR
Definición.Herramienta mediante la cual la variación total presente en un conjunto de datos se distribuye en varios componentes. Asociada con cada uno de estos componentes hay una fuente específica de variación, de modo que en el análisis es posible averiguar la magnitud de las contribuciones de cada una de estas fuentes a la variación total.
La base del ANOVA radica en la partición de las varianzas En el siguiente cuadro observe:
grupo 1 2 La diferencia entre los promedios 3 1 promedio 2 suma 6 2
suma de cuadrados ( S x i) media general suma total de cuadrados
2 2 2
2
grupo 2 6 7 5 6 18 2
4 28
La base del ANOVA radica en la partición de las varianzas En el siguiente cuadro observe:
grupo 1 La similitud de la suma de cuadrados 2 al interior de cada grupo 3 1 promedio 2 suma 6 2
suma de cuadrados ( S x i) media general suma total de cuadrados
2 2 2
2
grupo 2 6 7 5 6 18 2
4 28
La base del ANOVA radica en la partición de las varianzas En el siguiente cuadro observe: El contraste con la magnitud de la suma total de cuadrados promedio suma 2
suma de cuadrados ( S x i) media general suma total de cuadrados
grupo 1 2 3 1 2 6
2 2 2
2
grupo 2 6 7 5 6 18 2
4 28
La base del ANOVA radica en la partición de las varianzas En el siguiente cuadro observe: La diferencia se debe a la diferencia entre los promedios promedio suma 2
suma de cuadrados ( S x i) media general suma total de cuadrados
grupo 1 2 3 1 2 6
2 2 2
2
grupo 2 6 7 5 6 18 2
4 28
DEP VAR:
VALOR
N:
6
MULTIPLE R: 0.926
SQUARED MULTIPLE
R: 0.857
ANALYSIS OF VARIANCE SOURCE
SUM-OF-SQUARES
DF
MEAN-SQUARE
GRUPO
24.000
1
24.000
ERROR
4.000
4
1.000
F-RATIO 24.000
P 0.008
Se observa que la suma total de cuadrados (28) fue dividida en una variabilidad dentro de grupo (2+2=4) y una variabilidad debida a las diferencias entre promedios (28-(2+2)=24).
Suma de cuadrados del error (SCError) y Suma de cuadrados de efectos (SCEfecto)
La suma de cuadrados dentro de grupos también se le llama Varianza del Error. Denota el hecho de que es una fracción de la varianza que no podemos explicar con el diseño elegido. Podemos explicar la fracción de varianza en la SCEfecto.
PRUEBAS DE SIGNIFICANCIA En el análisis de varianza, la realización de pruebas de significancia se basa en una comparación de la varianza debida a la variabilidad ENTRE GRUPOS ( CME fecto) y a la variabilidad DENTRO DE GRUPOS ( CMError ). Bajo la hipótesis nula, aún puede haber pequeñas fluctuaciones en la media de dos grupos, especialmente si las muestras son pequeñas, por lo tanto, de acuerdo con esta hipótesis, la variabilidad en ambas fuentes debería ser más o menos la misma. La prueba de F, evalúa la tasa de las estimaciones de ambas varianzas para determinar si es significativamente mayor que uno.
1. Modelo. El modelo consiste en una representación simbólica de un valor típico tomado de los datos que se están analizando. 2. Supuestos. Se especificarán las suposiciones que fundamentan el modelo. 3. Hipótesis. Se indicarán las hipótesis que pueden probarse de acuerdo al modelo. 4. Cálculos. Cálculos aritméticos apropiados. 5. Tabla de ANOVA. Resumen de los cálculos aritméticos 6. Decisión. Decisión estadística acerca del rechazo o aceptación de la hipótesis nula.
Peso final
m 2 s
Yi Yi
Yi
Yi
Yi Yi Yi Yi Yi Y i Y Yi i
Yi
Yi
Yij Yij
Yij
Yij
Yij Yij Yij Yij Yij Y ij Y Yij ij
Yij Yij
Modelo lineal de explicación de los componentes de varianza.
Yij= m + ai +eij Yij: observación individual m: media general ai: efecto del i ésimo grupo (i=1,2) e: error residual inexplicado
Una representación diagramática del Análisis de varianza Media del grupo A2
A2 A1
m Media general
A3 Desviación individual
Efectos fijos versus efectos aleatorios Efectos fijos
Efectos aleatorios
escogidos específicamente por el experimentador.
En este caso los tratamientos son una muestra al azar de una población mayor de tratamientos posibles.
Para probar hipótesis acerca de los promedios de los grupos. Las conclusiones se aplican sólo a los niveles del factor considerado en el análisis y no a tratamientos similares que no fueron considerados
En esta situación interesa extender las conclusiones a todos los tratamientos posibles, hayan sido considerados explícitamente o no.
Análisis de varianza de un factor (efectos fijos) Datos: observaciones Media Grupo 1 Y11 Y12 .... Y1n + A1 Grupo 2 Y21 Y22 .... Y2n + A2 . . . . . Grupo k Yk1 Yk2 .... Ykn + Ak Modelo Lineal
Yij=
Ai +
i=1,...k; j=1,...n
ij
donde Yij= observaciones = media general Ai = desviaciones del i-ésimo grupo desde la media general ij = error residual inexplicado
Hipótesis= H0: no hay diferencia entre las medias, Ai= 0 H1: existen diferencias entre medias de grupos Notación n
Yi.=S Yij = suma de los observaciones individuales j dentro j=1
de cada grupo, desde j=1 hasta n (el total de cada grupo)
n k
Y..= j=1 i=1 Yij
= gran total, suma de observaciones, primero
dentro de grupos y luego a través de grupos, desde i=1 hasta k (total de grupos)
Calculo de ANOVA simplificado (efectos fijos) Fuente de Variación
grados de libertad k
entre grupos
k-1
dentro de grupos (residual)
N-k
Total
suma de cuadrados
S
i=1
N-1
(Yi.)2
(Y..)2
n
N
Y2.. - (
N
N= nk SCG= suma de cuadrados de grupos SCR= suma de cuadrados residual CMG/CMR= cuadrado medio grupos/cuadrado
SCG k-1 SCR N- k
por diferencia (Y..)2
cuadrado F medio
)
CMG CMR
Suponga que 30 pollitos de un día fueron asignados al azar a tres grupos, en cada uno de ellos se adicionó un antibiótico promotor del crecimiento diferente, A, B, y C. Al termino de la recría los pesos de los pollitos fueron los siguientes (en gramos): ANTIBIOTICO A
B
C
72 70 74 73 73 71 73 71 75 70
78 76 73 75 74 74 75 76 70 75
85 83 80 79 80 82 89 76 79 83
74.6
81.6
Promedio 72.2
Hipótesis nula: no hay diferencias entre los promedios de los grupos, equivalente a: los efectos de los grupos son iguales a cero.
(Y..)2 N
= 173888.53
A
B
C
72 70 74 73 73 71 73 71 75 70
78 76 73 75 74 74 75 76 70 75
85 83 80 79 80 82 89 76 79 83
Yi. 722 Y2i. 52154
746 55692
816 66706
Y.. = 2284 Y2.. = 174552
Suma de cuadrados Totales= Suma de Cuadrados + Suma de Cuadrados de tratamientos del error
El total de la varianza está representado por la suma de cuadrados totales, que se divide o reparte en las causas de variación identificadas en el diseño: variación entre tratamientos o grupos y variación dentro de grupos.
Calculo de ANOVA simplificado (efectos fijos) Fuente de Variación
grados de libertad
entre grupos
2
dentro de grupos (residual)
27
Total
29
suma de cuadrados
cuadrado F medio 238.5 174365.6-173888.53 477.07 6.91 2 477.07 238.5 34.5 por diferencia 186.4 174552 - 173888.53 663.47
N= nk SCG= suma de cuadrados de grupos SCR= suma de cuadrados residual CMG/CMR= cuadrado medio grupos/cuadrado
186.6 27 6.91
BIBLIOGRAFÍA BÁSICA: Estimado estudiante, puedes revisar los siguientes textos que se encuentran en tu biblioteca: Nro. CÓDIGO
AUTOR
TÍTULO
AÑO
1
519.2 SCHE
SCHEAFFER Mc. CLAVE
PROBABILIDAD Y ESTADÍSTICA PARA 2005 INGENIERÍA
2
519.5 LEVI/P
LEVINE-KREHBIEL-BERENSON
ESTADÍSTICA ADMINISTRACIÓN.
519.2 HINE
WILLIAM W. HINES DOUGLAS C. MONTGOMERY DAVID M. GOLDSMAN CONNIE M. BORROR
PROBABILIDAD Y ESTADÍSTICA PARA 2011 INGENÍERIA
3
PARA
2006