UNIVERSIDAD NACIONAL AGRARIA DE LA SELVA FACULT FA CULTAD AD DE CIENCIAS ECONÓMICAS Y ADMINISTRATIV ADMINISTRATIVAS AS DEPARTAMENTO ACADÉMICO DE CIENCIAS ECONÓMICAS
MANUAL DE PRÁCTICAS CHI CUADRADO EN SPSS
LA PRUEBA DE CHI-CUADRADO
LA PRUEBA DE CHI-CUADRADO
PRUEBA DE BONDAD DE AJUSTE
Si:
f ei
5
Agrupar dicha frecuencia con las frecuencias adyacentes, hasta que:
f ei
5
De igual manera se agrupan las frecuencias observadas. Al agrupar las frecuencias esperadas y observadas, el número de categorías ( k ) se reduce.
2
CHI-CUADRADO CALCULADO ( X c ) K
X c 2
f
0k
f ek
2
f ek
k 1
GRADO DE LIBERTAD ( gl )
gl K m 1 K m
N º
Categorías
N º
Parametros estimados en la distribución de probabilidad 2
CHI-CUADRADO CRÍTICA ( X gl ; )
2
X gl ;
EJEMPLO 1 (Distribución Uniforme)
Un distribuidor regional de sistemas de aire acondicionado ha subdividido su región en cuatro territorios. A un posible comprador de una distribuidora se le dice que las instalaciones de equipos se distribuyen de manera aproximamente igual en los cuatro territorios. El prospecto de comprador toma una muestra aleatoria de 40 instalaciones colocadas el año anterior, de los archivos de la compañía, y encuentra que el número de instalaciones en cada uno de los cuatro territorios son los que se enlistan en la fila de frecuencias observadas de la tabla. Pruebe la hipótesis nula de que las instalaciones están distribuidas en forma uniforme en los cuatro territorios, utilizando un nivel de significancia del 5%.
2
Numeric (numérico) para los datos de instalaciones
1 Numeric (numérico) para las categorías “Territorios”
Insertar los nombres para los datos de instalaciones y para el factor (categorias)
Hacer Click en Data View para pegar los datos de ventas y del factor (tratamientos)
3
Seleccionar la lista de datos de instalación y hacer un click en insertar
1
Hacer Click en OK
2
Seleccionar la lista de la variable categorica y hacer un click en insertar Hacer Click en OK
1
3
2 Seleccionar todas las categorías uniformes
CHI-CUADRADO CALCULADO ( X ) 2
c
K
c 2
f k f ek
2
0
f ek
k 1
X c2
4
GRADO DE LIBERTAD ( gl )
gl
4
0
K m
1
3
4 0 2
CHI-CUADRADO CRÍTICA ( X gl ; )
X
2
7 81
1)
2)
HIPOTESIS H0: El número de instalaciones están distribuidas de manera uniforme en los cuatro territorios. Ha: El número de instalaciones no están distribuidas de manera uniforme en los cuatro territorios. NIVEL DE SIGNIFICANCIA ( )
3)
0.05
PUNTOS CRITICOS Se acepta H0
Se acepta Ha
0.95 0.05 2
X 3;0.05
4)
CHI-CUADRADO CALCULADO 2
X c
5)
7.81
4
CONCLUSIONES Como X 2 X 32;0.05 ( 4 7.81 ), entonces se acepta la H 0, es decir, el número de instalaciones están distribuidas de manera uniforme en los cuatro territorios, a un nivel de confianza del 95% c
EJEMPLO 2 (Distribución Poisson)
Suponga que se plantea la hipótesis de que la distribución de descomposturas de maquinaria por hora en una planta de ensamble se ajusta a una distribución poisson. En la tabla se presenta el número de descomposturas observadas durante 40 horas que se incluyeron en la muestra. Pruebe la hipótesis a un nivel de significancia del 1%.
X i f 0i X f 0i m
1
128 40
3.2 descomposturas por hora
x
P X
x /
e
x!
1 2
3
6
6.8
8
8.8
2 1
Numeric (numérico) para las categorías Numeric (numérico) para los datos de ifrecuencia observadas
Insertar los nombres para los datos de frecuencias observadas y para el factor (categorias)
Hacer Click en Data View para pegar los datos de frecuencias observadas y para el factor (categorias)
3
Seleccionar la lista de datos de ifrecuencias observadas y hacer un click en insertar
1
Hacer Click en OK
2
Seleccionar la lista de la variable categorica y hacer un click en insertar
1
2 Seleccionar Values e insertar cada una delas observaciones halladas, teniendo cuidado del orden en que se insertan
Hacer Click en OK
CHI-CUADRADO CALCULADO (
f k f ek
K
c
2
X c
2
0
2
f ek
k 1
2
X c
0.67
GRADO DE LIBERTAD ( gl )
gl
5
1 1
K m
3
5 1 2
CHI-CUADRADO CRÍTICA ( X gl ; )
X
2
11 34
)
1)
2)
HIPOTESIS H0: La distribución de las descomposturas observadas en la maquinaria cada hora se ajusta a una variable con distribución Poisson. Ha: La distribución de las descomposturas observadas en la maquinaria cada hora no se ajusta a una variable con distribución Poisson. NIVEL DE SIGNIFICANCIA ( )
3)
0.01
PUNTOS CRITICOS Se acepta H0
Se acepta Ha
0.99 0.01 2
X 3; 0.01
4)
11.34
CHI-CUADRADO CALCULADO 2
X c
5)
0.67
CONCLUSIONES Como X 2 X 32;0.01 ( 0.67 11.34 ), entonces se acepta la H0 , es decir, La distribución de las descomposturas observadas en la maquinaria cada hora se ajusta a una variable con distribución Poisson, a un nivel de confianza del 99% c
EJEMPLO 3 (Distribución Binomial)
Si un ingeniero de control de calidad toma una muestra de 10 neumáticos que salen de una línea de ensamblaje y él desea verificar sobre la base de los datos que siguen, los números de llantas con defectos observadas en 200 días, si es cierto que el 5% de todos los neumáticos tienen defecto; es decir, si el muestrea una población binomial con n = 10 y p=0.05. Pruebe la hipótesis nula de que el número de defectos de las llantas se ajustan a una distribución binomial, con un nivel de significancia del 5%.
P X x /
n!
x!n x !
x
p q
n x
1 2
3
17.2
2 1
Numeric (numérico) para las categorías Numeric (numérico) para los datos de ifrecuencia observadas
Insertar los nombres para los datos de frecuencias observadas y para el factor (categorias)
Hacer Click en Data View para pegar los datos de frecuencias observadas y para el factor (categorias)
3
Seleccionar la lista de datos de ifrecuencias observadas y hacer un click en insertar
1
Hacer Click en OK
2
Seleccionar la lista de la variable categorica y hacer un click en insertar
1
2 Seleccionar Values e insertar cada una delas observaciones halladas, teniendo cuidado del orden en que se insertan
Hacer Click en OK
CHI-CUADRADO CALCULADO ( K
c 2
f k f ek
2
X c
2
0
f ek
k 1
2
X c
8.29
GRADO DE LIBERTAD ( gl )
gl
3
0
K m
1
2
3 0 2
CHI-CUADRADO CRÍTICA ( X gl ; )
X
2
5 99
)
1)
2)
HIPOTESIS H0: El número de defectos de las llantas se ajustan a una distribuci ón binomial. Ha: El número de defectos de las llantas no se ajustan a una distribución binomial. NIVEL DE SIGNIFICANCIA ( )
3)
0.05
PUNTOS CRITICOS Se acepta H0
Se acepta Ha
0.95 0.05 2
X 2 ;0.05
4)
5.99
CHI-CUADRADO CALCULADO 2
X c
5)
8.29
CONCLUSIONES Como X 2 X 22;0.05 ( 8.29 5.99 ), entonces se acepta la H a , es decir, el número de defectos de las llantas no se ajustan a una distribución binomial, a un nivel de significancia del 5% c
EJEMPLO 4 (Distribución Normal)
Pruebe la hipótesis de que la distribución de frecuencia de las duraciones de baterías (en horas) dadas en la siguiente tabla, se puede aproximar mediante una distribución normal. Utilice un nivel de significancia del 5%
X k f k 136.5 3.4 X 40 f k 0
0
2 X i f 0i
S
X
f k 1
2
f 0 k
f 0k
0
m
k
2
484.75
136.5
40 1
40
2
0.7
z i
X i
P X x / N ; P Z
z / N 0; 1
1 2
3
5
8
10.4
8.7
2 1
Numeric (numérico) para las categorías Numeric (numérico) para los datos de ifrecuencia observadas
Insertar los nombres para los datos de frecuencias observadas y para el factor (categorias)
Hacer Click en Data View para pegar los datos de frecuencias observadas y para el factor (categorias)
3
Seleccionar la lista de datos de ifrecuencias observadas y hacer un click en insertar
1
Hacer Click en OK
2
Seleccionar la lista de la variable categorica y hacer un click en insertar
1
2 Seleccionar Values e insertar cada una delas observaciones halladas, teniendo cuidado del orden en que se insertan
Hacer Click en OK
CHI-CUADRADO CALCULADO ( K
c 2
f k f ek
2
X c
2
0
f ek
k 1
2
X c
2.9
GRADO DE LIBERTAD ( gl )
gl
4
K m
2
1
1
4 2 2
CHI-CUADRADO CRÍTICA ( X gl ; )
X
2
3 84
)
1)
2)
HIPOTESIS H0: La duración de las baterías se ajustan a una distribución normal. Ha: La duración de las baterías no se ajustan a una distribución normal. NIVEL DE SIGNIFICANCIA ( )
3)
0.05
PUNTOS CRITICOS Se acepta H0
Se acepta Ha
0.95 0.05 2
X 1; 0.05
4)
3.84
CHI-CUADRADO CALCULADO 2
X c
5)
2.9
CONCLUSIONES Como X 2 X 22;0.05 ( 2.9 3.84 ), entonces se acepta la H0 , es decir, La duración de las baterías se ajustan a una distribución normal, a un nivel de confianza del 95% c
EJEMPLO 5 (Distribución Exponencial)
Pruebe la hipótesis de que la distribución de frecuencia de llegada de las solicitudes de reparación de maquinaria, las cuales están dadas en la siguiente tabla, se puede aproximar mediante una distribución exponencial. Utilice un nivel de significancia del 5%
X k f k 2,540 X 36.3 70 f k 0
0
m
1
P X x / 1 e
1
1 2
3
2 1
Numeric (numérico) para las categorías Numeric (numérico) para los datos de ifrecuencia observadas
Insertar los nombres para los datos de frecuencias observadas y para el factor (categorias)
Hacer Click en Data View para pegar los datos de frecuencias observadas y para el factor (categorias)
3
Seleccionar la lista de datos de ifrecuencias observadas y hacer un click en insertar
1
Hacer Click en OK
2
Seleccionar la lista de la variable categorica y hacer un click en insertar
1
2 Seleccionar Values e insertar cada una delas observaciones halladas, teniendo cuidado del orden en que se insertan
Hacer Click en OK
CHI-CUADRADO CALCULADO (
f
K
c 2
f ek
0k
2
X c
2
f ek
k 1
2
X c
21.11
GRADO DE LIBERTAD ( gl )
gl
6
1 1
K m
4
6 1 2
CHI-CUADRADO CRÍTICA ( X gl ; )
X
2
9 49
)
1)
2)
HIPOTESIS H0: El orden de llegadas de solicitudes de reparación se ajustan a una distribución Exponencial. Ha: El orden de llegadas de solicitudes de reparación no se ajustan a una distribución Exponencial. NIVEL DE SIGNIFICANCIA ( )
3)
0.05 PUNTOS CRITICOS
Se acepta H0
Se acepta Ha
0.95 0.05 2
X 6 ;0.05
4)
9.29
CHI-CUADRADO CALCULADO 2
X c
5)
21.11
CONCLUSIONES Como X 2 X 22;0.05 ( 21.11 9.29 ), entonces se acepta la Ha , es decir, El orden de llegadas de solicitudes de reparación no se ajustan a una distribución Exponencial, a un nivel de significancia del 5% c
PRUEBA PARA LA INDEPENDENCIA DE DOS VARIABLES (TABLAS DE CONTIGENCIA)
FRECUENCIA ESPERADA ( f e ) f 0 jk
f rK f Rk n 2
CHI-CUADRADO CALCULADO ( X ) c
R
K
X c 2
f
0 rk
f erk
2
f erk
r 1 k 1
GRADO DE LIBERTAD ( gl )
gl K R
R
K 1
1
N º
Categorías de la Variable Categorica 1
N º
Categorías de la Variable Categorica 2
2 CHI-CUADRADO CRÍTICA ( X gl ) ;
2
X gl ;
EJEMPLO 1
El director de una escuela primaria divide a los padres de familia en tres categorías de ingresos, de acuerdo con el rumbo en donde viven y de acuerdo con tres niveles de participación en los programas escolares. Con los datos de la tabla pruebe la hipótesis de que no existe relación entre los ingresos y la participación de los programas escolares, utilizando un nivel de significancia del 5%.
2 1
Numeric (numérico) para los datos de frecuencia observadas Numeric (numérico) para la categoría 1 Numeric (numérico) para la categoría 2
Insertar los nombres para los datos de frecuencias observadas y para los factores (categorías)
Hacer Click en Data View para pegar los datos de frecuencias observadas y para los factores (categorías)
3
Seleccionar la lista de datos de ifrecuencias observadas y hacer un click en insertar
1
Hacer Click en OK
2
Seleccionar la lista de la variable categórica 1 y hacer un click en insertar
1
3 Seleccionar Stadistic…
Seleccionar la lista de la variable categórica 2 y hacer un click en insertar
2
Hacer Click en Continue
2
1 Seleccionar Chi-Square
Hacer Click en OK
2
2
CHI-CUADRADO CALCULADO ( X c ) 2
X c
17.16
GRADO DE LIBERTAD ( gl )
gl
3 13 1
k r
4
3 3
2
CHI-CUADRADO CRÍTICA ( X gl ; )
2 X 4;0.05
9.49
1)
2)
HIPOTESIS H0: El nivel Económico de los padres de familias y la Participación a los Programas son independientes (no existe relación). Ha: El nivel Económico de los padres de familias y la Participación a los Programas son dependientes (existe relación). NIVEL DE SIGNIFICANCIA ( )
3)
0.05 PUNTOS CRITICOS
Se acepta H0
Se acepta Ha
0.95 0.05 2
X 6 ;0.05
4)
9.29
CHI-CUADRADO CALCULADO 2
X c
5)
17.16
CONCLUSIONES Como X 2 X 22;0.05 ( 17.16 9.29 ), entonces se acepta la Ha , es decir, El nivel Económico de los padres de familias y la Participación a los Programas son dependientes , a un nivel de significancia del 5% c
MEDIDAS DE ASOCIACIÓN ENTRE LAS VARIABLES CATEGORICAS
2 1
Numeric (numérico) para los datos de frecuencia observadas Numeric (numérico) para la categoría 1 Numeric (numérico) para la categoría 2
Insertar los nombres para los datos de frecuencias observadas y para los factores (categorías)
Hacer Click en Data View para pegar los datos de frecuencias observadas y para los factores (categorías)
3
Seleccionar la lista de datos de ifrecuencias observadas y hacer un click en insertar
1
Hacer Click en OK
2
Seleccionar la lista de la variable categórica 1 y hacer un click en insertar
1
3 Seleccionar Stadistic…
Seleccionar la lista de la variable categórica 2 y hacer un click en insertar
2
Hacer Click en Continue
3
1 Seleccionar Chi-Square
2 Seleccionar Contigency Coefifent y Phi and Cramer´s V
Hacer Click en OK
2
EL COEFICIENTE DE CONTINGENCIA (
C
)
2
C
0 C
X c
2
n X c
min R 1, K 1 1 min R 1, K 1
donde R representa el número de filas y K el número de columnas.
C ≤ 0.30, significa que el grado de asociación entre las variables no es muy buena.
C > 0.30, indica un buen grado de asociación entre las variables.
EJEMPLO: Utilizando los datos de Prueba de Independencia de dos variables categóricas: 2
X c n
17.16
287
R K
3 3
C
0 C
17.16 287 17.16
0.2375
1 11
0 C 0.7071
El punto medio del intervalo [0, 0.7071] es 0.3536 Como el coeficiente de contingencia es inferior a 0.30 el grado de asociación no es adecuada.
EL COEFICIENTE DE PHI ( )
2
X c n
0 C 1
donde R representa el número de filas y K el número de columnas.
C ≤ 0.30, significa que el grado de asociación entre las variables no es muy buena.
C > 0.30, indica un buen grado de asociación entre las variables.
EJEMPLO: Utilizando los datos de Prueba de Independencia de dos variables categóricas: 2
X c n
17.16
287
R K
3
3
17.16 287
0.2445
0 C 1
El punto medio del intervalo [0, 1] es 0.50 Como el coeficiente de contingencia es inferior a 0.30 el grado de asociación no es adecuada.
EL COEFICIENTE DE CRAMER (
V
)
2
V
X c
nt
0 C 1
donde t es el menor de los números (R-1) y (K-1); R representa el número de filas y K el número de columnas.
C ≤ 0.30, significa que el grado de asociación entre las variables no es muy buena.
C > 0.30, indica un buen grado de asociación entre las variables.