1
TABLA DE CONTENIDO
INTRODUCCION_______________________________________________________________2 OBJETIVOS________________________________________ OBJETIVOS__________________ ____________________________________________ ____________________________3 ______3 MARCO TEORICO______________________________________________________________4 DISTRIBUCION CHI- CUADRADO. ( ²)___________________________________________5 PRUEBAS DE BONDAD DE AJUSTE.___________ AJUSTE._____________________ _____________________ ______________________ ______________5 ___5 Definición. Definición.................. .................................... ..................................... .................................... .................................... ..................................... ................................................... ................................ ....5 Prueba para un ajuste ajuste uniforme...... uniforme........................ .................................... ..................................... ..................................... .................................... ...............................8 .............8 Prueba de ajuste a un patrón especifico................................................................................................10 Prueba de Normalida Normalidad............. d............................... .................................... .................................... .................................... ........................................................11 ......................................11 Utilizando Utilizando la formula formula (1.1) se tiene que:.................................. que:.................................................... .............................................................16 ...........................................16 (20-22.8)2 (142-135.9)2 (310-341.3) 2 (370-341.3) 2 (128-135.9) 2 (40-22.8 ) 2 ............ ....... ..... ..... ..... ..16 2=---------- + ----------- + ------------ + ------------- + ----------- + ----------................. ----------......... ........ ..... ..... ..... ..... ..... .16 22.8
135.9
341.3
341.3
135.9
22.8..................... 22.8............ .................. .................. ......... ..... ..16
Tablas Tablas de Contingenci Contingencia......... a........................... .................................... ..................................... ..................................... .................................... ..................................... ................... ...17 ...17 Atributo B – Ubicación.............. Ubicación........................ ..................... ..................... .................... ..................... ..................... ..................... ..................... .................... ..................... ................................18 .....................18 Atributo B - Ubicación...........................................................................................................................................19
CONCLUSION___________________________________ CONCLUSION______________ _________________________________________ ______________________________20 __________20 BIBLIOGRAFIA_______________________________________________________________21 ANEXOS____________________________________________ ANEXOS____________________ _______________________________________________ __________________________22 ___22 TABLA E – DISTRIBUCI DISTRIBUCION ON NORMAL........ NORMAL.......................... .................................... ..................................... ................................... ................ .............22 TABLA H – DISTRIBUCI DISTRIBUCION ON CHI-CUADR CHI-CUADRADO...... ADO........................ .................................... ......................................................23 ....................................23
2
INTRODUCCION
Siempre que obtengamos muestras de una población, existe la cuestión de la confiabilidad de los resultados obtenido por muestreo con respecto a la población. Necesitamos saber si las diferencias entre los resultados obtenidos por muestreo y los esperados de acuerdo con las leyes de las probabilidades son los suficientemente pequeñas como para que no afecten las inferencias que deseamos obtener de los datos para nuestro uso. En otras palabras, palabras, necesitamos necesitamos saber si los datos obtenidos obtenidos son confiables y no contienen errores que puedan invalidar sus resultados. Una de las medidas de la discrepancia mas útiles es la prueba Chi-cuadrado, la cual viene proporcionada por el estadístico
χ
2
. Si
χ
2
= 0, las frecuencias observadas
y teór teóric icas as coinc coincid iden en comp comple leta tamen mente te;; mient mientra rass que que si exactamente. A valores más grandes de observadas y esperadas.
χ
2
χ
2
>0, >0, no coin coinci cide den n
mayor discrepancia entre las frecuencias
3
OBJETIVOS
1.
Comprender la importancia de comparar los resultados
obtenidos por muestreo, con los resultados esperados teóricamente con las leyes de la probabilidad. 2.
Aprender a aplicar la prueba
χ
2
para diferentes supuestos o
hipótesis de acuerdo a los datos obtenidos. 3.
Aprender el uso de tablas de contingencia para medir la relación
entre diferentes factores que afectan un conjunto de datos.
4
MARCO TEORICO
Las pruebas que requieren de un supuesto respecto a la población, se denominan pruebas parametricas, debido a que tales pruebas dependen de estos postulados y sus parámetros. En la practica, surgen muchas situaciones en las cuales no es posible hacer de forma segura ningún supuesto sobre el valor de un parámetro o sobre la forma de su distribución poblacional. Entonces se deben utilizar otras pruebas que no dependan de un solo tipo de distribución o de valores parametricos específicos. Estas pruebas se denominan no parametricas. Estas pruebas son procedimientos estadísticos que pueden utilizarse para contrastar hipótesis cuando no son posibles los supuestos respecto a los parámetros o a las distribuciones poblacionales. Dentro de estas pruebas se encuentran las de Chi-cuadrado ( χ 2), la del Signo, de Rachas, de Mann-Whitney y otras. Para el calculo del estadístico Chi-cuadrado ( χ 2, es necesario emplear tanto observaciones de muestras como propiedades de ciertos parámetros de la población. Si estos parámetros son desconocidos, hay que estimarlos a partir de la muestra. Él numero de grados de libertad de un estadístico, generalmente denotado por v, se define como el numero N de observaciones independientes en la muestra (o sea el tamaño de la muestra) menos el numero k de parámetros de la población, que debe ser estimado a partir de observaciones muéstrales. En símbolos, v = N- k. En el caso del
χ
2
, el numero de observaciones independientes en la muestra
es N, de donde podemos calcular s. Sin embargo, como debemos estimar σ , k = 1 y v = N-1.
5
DISTRIBUCION CHI- CUADRADO. (
²)
Una de las herramientas no parametricas mas útiles es la prueba chi cuadrado (χ 2). Al igual que la distribución t, la distribución Chi-cuadrado es toda una familia de distribuciones. Existe una distribución Chi-cuadrado para cada grado de libertad. a medida que se incrementa el numero de grados de libertad, la distribución Chi-cuadrado se vuelve menos sesgada.
Las dos aplicaciones más
comunes de Chi-cuadrado son las pruebas de bondad de ajuste y las pruebas de independencia a través de las tablas de contingencia.
PRUEBAS DE BONDAD DE AJUSTE.
Definición.
Medidas sobre que tan cerca se ajustan los datos muestrales observados a una forma de
distribución particular planteada como hipótesis.
Si el ajuste es
razonablemente cercano, puede concluirse que si existe la forma de distribución planteada como hipótesis.
Las tomas de decisiones en los negocios muchas veces requiere que se pruebe alguna hipótesis sobre una distribución poblacional desconocida. Por ejemplo, se puede plantear la hipótesis que la distribución poblacional es uniforme y que todos los valores posibles tienen la misma probabilidad de ocurrir. Las hipótesis que se probarían son:
6
HO: la distribución poblacional es uniforme. HA: la distribución poblacional no es uniforme.
La prueba de bondad de ajuste se utiliza entonces para determinar si la distribución de los valores en la población se ajusta a una forma en particular planteada como hipótesis, en este caso, una manera
distribución uniforme. De la misma
que con todas las pruebas estadísticas de esta naturaleza, los datos
muestrales se toman de la población y estos constituyen la base de los hallazgos.
Si
χ
2
=0, las frecuencias observadas y esperadas coinciden completamente;
mientras que si
χ
>0, no coinciden exactamente. A valores más grandes de
2
χ
,
2
mayor discrepancia existe entre las frecuencias observadas y esperadas. Si existe gran diferencia entre la frecuencia observada en la muestra y lo que se esperaría observar, en tal caso es menos probable que la hipótesis sea verdadera. Es decir, la hipótesis debe rechazarse cuando las observaciones obtenidas en la muestra difieren tanto del patrón que se espera que ocurra la distribución planteada como hipótesis, que no puede ser atribuida a un error de muestreo. En tales casos la hipótesis no es lo suficientemente confiable para una buena toma de decisiones.
Por ejemplo, si se hace rodar un dado bueno, es razonable plantear como hipótesis un patrón de resultados tal que cada resultado (un numero del 1 al 6) ocurra aproximadamente un sexto
de las veces. Sin embargo, si un porcentaje
significativamente grande o significativamente pequeño
de números pares ocurre,
puede concluirse que el dado no esta balanceado adecuadamente y que la hipótesis es falsa.
7
Para contrastar la hipótesis relativa a una distribución poblacional, se debe analizar la diferencia entre las expectativas con base en la distribución planteada como hipótesis y los datos reales que aparecen en la muestra. Esto es precisamente lo que hace la prueba Chi-cuadrado de bondad de ajuste. Determina si las observaciones muestrales se ajustan a las expectativas. La prueba toma la siguiente forma: k (Oi - Ei)² ²= --------------i=1 Ei
(1.1)
en donde Oi
es la frecuencia de los eventos observados en los datos muestrales
Ei
es la frecuencia de los eventos esperados si la hipótesis es correcta es el numero de categorías o clases
k
La prueba tiene K - m - 1 grados de libertad , en donde m es el numero de parámetros a estimar. Vale la pena notar que el numerador de la formula (1.1) mide la diferencia entre las frecuencias de los eventos observados y las frecuencias de los eventos esperados al cuadrado. Cuando estas diferencias son grandes, haciendo que
χ
²
se incremente, debería rechazarse la hipótesis. Dependiendo de los datos disponibles, podemos realizar la prueba de Chi-cuadrado de bondad de ajuste de tres maneras, pruebas para una ajuste uniforme, pruebas de ajuste para un patrón especifico y pruebas de normalidad.
8
Prueba para un ajuste uniforme
Esta prueba de Chi-cuadrado se usa cuando la frecuencia esperada para todas las clases es uniforme, de aquí su nombre. Ilustramos esta prueba con el siguiente ejemplo: Chris Columbus, director de mercadeo de Seven Seas, Inc, tiene la responsabilidad de controlar el nivel de existencia para cuatro tipos de botes vendidos por su firma. En el pasado ha ordenado nuevos botes bajo la premisa de que los cuatro tipos son igualmente populares y la demanda de cada tipo es la misma. Sin embargo, recientemente las existencias se han vuelto más difíciles de controlar, y Chris considera que debería probar su hipótesis respecto a una demanda uniforme. Sus hipótesis son:
HO: La demanda es uniforme para los cuatro tipos de botes HA: La demanda no es uniforme para los cuatro tipos de botes Suponiendo uniformidad en la demanda, la hipótesis nula presume que de una muestra aleatoria de botes, los navegantes de fin de semana comprarían un numero igual de cada tipo. Para probar esta hipótesis, Chris selecciona una muestra de n=48 botes vendidos durante los últimos meses. Si la demanda es uniforme, puede esperar que 48/4=12 botes de cada tipo se vendan. La Tabla 1.1 Muestra esta expectativa junto con la frecuencia real vendida de cada tipo. Se nota que
Σ
(Oi)=Σ (Ei). Chris
debe determinar ahora si los números vendidos realmente en cada una de las categorías K=4 esta lo suficientemente cerca de lo que se esperaría si la demanda fuese uniforme. Aplicando la formula 1.1 tenemos el siguiente resultado: TABLA 1.1
Tipo de Bote Ventas Observadas(Oi) Ventas Esperadas(Ei) Pirate's Revenge 15 12 Jolly Roger 11 12 Bluebeard's Treasure 10 12 Ahab's Quest 12 12 48 48 Utilizando la formula (1.1) tenemos que:
9
χ
(15-12)2 (11-12)2 (10-12)2 (12-12)2 2 = ------------- + ------------ + -------------+ ------------ = 1.17 12 12 12 12 El valor 1.17 se compara con un valor critico de
2
tomando de la tabla H (ver anexo). Debido a que no existen parámetros que tengan que estimarse, m=0 y χ
entonces los grados de libertad según su formula es igual a 4-0-1 = 3 grados de libertad. Si Chris deseara probar al nivel del 5%, se encontraría que
χ
2
0.05,3
> 7.815
Regla de decisión: “No rechazar si χ 2 < 7.815. Rechazar si χ 2>7.815
Gracias a que 1.17< 7.815, la hipótesis nula de que la demanda es uniforme no se rechaza. Las diferencias entre lo que se observo en realidad, O i, y lo que Chris esperaba observar si la demanda fuera la misma para los cuatro tipos de botes, Ei, no son los suficientemente grandes como para refutar la hipótesis nula. Las diferencias no son significativas y pueden atribuirse simplemente a un error de muestreo.
10
Prueba de ajuste a un patrón especifico.
En el ejemplo anterior, Chris asumió que la demanda de los cuatro tipos era la misma. Los valores para la frecuencia esperada eran por ende las mismas. Sin embargo, si los valores de los cuatro tipos de botes deben probarse contra un patrón determinado, en el cual las frecuencias esperadas vienen dadas por un patrón individual para cada categoría, tendríamos que realizar la prueba para un patrón especifico dado. En este caso Ei se determina por Ei = npi, en donde pi es la probabilidad individual de cada categoría y n es el tamaño de la muestra. Si deseamos probar que las ventas reales se ajustan a las probabilidades dadas en la tabla 1.2, teniendo probabilidades de 30%, 20%, 40% y 10% para cada una de las categorías respectivamente, entonces debemos proceder como sigue: TABLA 1.2
Tipo de Bote Pirate's Revenge Jolly Roger Bluebeard's Treasure Ahab's Quest
χ
Ventas Observadas(Oi) Ventas Esperadas(Ei) 15 14.40 11 9.60 10 19.20 12 4.80 48 48
(15-14.4)2 (11-9.6)2 (10-19.2)2 (12-4.8)2 2 = -------------+-------------+-------------+----------- = 15.41 14.4 9.6 19.2 4.8
El valor 15.41 se compara con el valor critico de χ 2 tomado de la tabla H (Ver anexo). De nuevo no existen parámetros que tengan que estimarse, m = 0 y entonces los grados de libertad según su formula es igual a 4-0-1=3 grados de libertad. De la misma manera deseamos probar al nivel del 5%, se encontraría que χ
2
0.05,3
> 7.815
Regla de decisión: “No rechazar si χ 2 < 7.815. Rechazar si χ 2>7.815
11
Dado que 15.41> 7.815, la hipótesis nula de que la demanda se ajusta a un patrón especifico se rechaza. Las diferencias entre lo que se observo en realidad, Oi, y lo que Chris esperaba observar si la demanda fuera la dada según la tabla 1.2 para los cuatro tipos de botes, Ei, son los suficientemente grandes como para refutar la hipótesis nula. Las diferencias son significativas y no pueden atribuirse simplemente a un error de muestreo.
Prueba de Normalidad
Si nos encontramos frente a una cantidad grande de observaciones y deseamos saber si estas se comportan de acuerdo a las reglas de la normalidad, es decir que sus probabilidades pueden ser encontradas por medio de la Tabla del área bajo la campana de Gauss o Curva Normal, entonces podemos utilizar la prueba Chicuadrado para determinar el grado de ajuste con que esta distribución se acerca a la distribución normal. Veamos el siguiente ejemplo: Las especificaciones para la producción de tanques de aire utilizados en inmersión requieren que los tanques se llenen a una presión promedio de 600 psi. Se permite una desviación estándar de 10 psi. Las especificaciones de seguridad permiten una distribución normal en los niveles de llenado. Deseamos determinar si los niveles de llenado se ajustan a una distribución normal, o sea si cumplen con los requisitos establecidos, para hacerlo se miden n = 1,000 tanques y se halla la distribución presentada en la tabla 1.3. Nuestras hipótesis son:
HO: Los niveles de llenados están distribuidos normalmente. HA: Los niveles de llenado no están distribuidos normalmente.
12
TABLA 1.3 PSI
0 y por debajo de 580 580 y por debajo de 590 590 y por debajo de 600 600 y por debajo de 610 610 y por debajo de 620 620 y por encima Total
Frecuencia Real
20 142 310 370 128 30 1,000
Igual que antes, la prueba requiere comparar estas observaciones reales con las que esperaríamos encontrar si prevaleciera la normalidad. Para encontrar las frecuencias esperadas debemos calcular las probabilidades de que los tanques seleccionados aleatoriamente tengan los niveles de contenido en los intervalos presentados en la tabla 1.3.
a) La probabilidad de que un tanque caiga en el primer intervalo P(0%580). El
problema esta representado en la figura 1.3a. Debemos determinar el área sombreada bajo la curva. Así:
X-µ Z=--------σ
-2
580 – 600 Z=------------ = -2 O UN AREA DE 0.4772 10 Entonces P(0
0 (a)
(1)
De la misma manera encontramos las demás probabilidades como sigue:
b) La probabilidad de (580
13
X-µ Z=--------σ
-2 -1
0
590 - 600 Z=------------- = -1 O UN AREA DE 0.3413 10
(b)
Entonces: P(580
Como la media es 600, Z = 0, entonces la probabilidad de P(0
(3)
-1
0
14
d) La probabilidad de P(600
X-µ Z=---------σ
610 – 600 Z=--------------- = 1 O UN AREA DE 0.3413 10
0
1
Entonces como la media de nuevo es 600, Z=0, la probabilidad de P(600
e) La probabilidad de (610
X-µ Z=---------σ
610 – 600 Z=------------ = 1 O UN AREA DE 0.1359 10
0
1
2
Dado que P(620) = P(580) y P(610) = P(590) por que están a la misma distancia de la media z=0. Entonces por simetría podemos usar los mismos valores de z y las mismas probabilidades dados en (2). P(610
15
f) La probabilidad de P(X>620)
X-µ Z=---------σ
620 – 600 Z=------------- = 2 O UN AREA DE 0.4772 10
0
2
Entonces P(0
(6)
Se desea probar la hipótesis al nivel del 5%. Debido a que tanto la media como la desviación estándar son dadas y no tienen que estimarse, m=0. Existen k=6 clases, de manera que los grados de libertad son k-0-1=5. El valor critico de
χ
2
en
χ
2
0.05,5
=11.07
Regla de decisión: “No rechazar si χ 2 < 11.07. Rechazar si χ 2>7.815
Completamos los datos en la tabla 1.4 con los resultados anteriores y calculamos los valores esperados Ei = npi.
16
TABLA 1.4 PSI
Frecuencia
0 y por debajo de 580 580 y por debajo de 590 590 y por debajo de 600 600 y por debajo de 610 610 y por debajo de 620 620 y por encima
Probabilidades Frecuencia esperada
Real
(pi)
(Ei)
20 142 310 370 128 30 1000
0.0228 0.1359 0.3413 0.3413 0.1359 0.0228 1.000
22.8 135.9 341.3 341.3 135.9 22.8 1000
Utilizando la formula (1.1) se tiene que: (20-22.8)2 (142-135.9)2 (310-341.3) 2 (370-341.3) 2 (128-135.9) 2 (40-22.8 ) 2 2
=---------- + ----------- + ------------ + ------------- + ----------- + ---------22.8
2
135.9
341.3
341.3
135.9
22.8
=8.63
De acuerdo a la regla de decisión la hipótesis no debe rechazarse. Las diferencias entre lo esperado y lo que se observo con una media de 600 y una desviación estándar de 10, a un nivel de 5%,
pueden atribuirse a un error de
muestreo por debajo del nivel elegido, ya que el valor de
2
es inferior con respecto
al valor maximo esperado para una muestra distribuida de acuerdo a la distribucion normal.
17
Tablas de Contingencia
Cuando estamos ante una tabla en la que las frecuencias que observamos ocupan una sola fila, entonces decimos que estamos ante una tabla de clasificación de entrada única o tabla 1 x c (Se lee 1 por c).
SUCESO Frecuencia observada Frecuencia esperada
E1 o1 e1
E2 o2 e2
E3 o3 e3
....
EK ok ek
Si queremos investigar el acuerdo que existe entre las frecuencias observadas y las frecuencias esperadas debemos hacerlo calculando el estadístico (1.1)
χ
²=
k Σ
i=1
(Oi - Ei)² --------------Ei
Como antes, el estadístico (1.1) tiene una distribución muestral dada. El numero de grados de libertad, v, de esta distribución Chi-cuadrado viene dado por c>1 y k>1 por: 1.
V = (f-1)(c-1) si las frecuencias esperadas se pueden calcular sin recurrir a
estimaciones muestrales de los parámetros de la población. 2.
V = (f-1)(c-1)-m si las frecuencias esperadas solo se pueden calcular
mediante estimación de m parámetros de la población a partir de estadísticos de la muestra. Una hipótesis común es suponer que las dos clasificaciones son mutuamente independientes.
18
Las tablas de contingencia se pueden usar para generalizarse a mas dimensiones como veremos en el siguiente ejemplo: Naydisita Cabral es la directora de investigación de productos en MercaSid. En su proyecto actual la señorita Cabral debe determinar si existe alguna relación entre la clasificación de efectividad que los consumidores asignan a un nuevo producto y la ubicación (Urbano o Rural) en el cual se utiliza. De los 100 consumidores a los que se le practico la encuesta, 75 vivían en zonas urbanas y 25 en zonas rurales, La tabla 1.4 resume las clasificaciones hechas por cada consumidor en una tabla de contingencia. La tabla tiene f = 3 filas y c = 2 columnas, existen fc = 6 celdas en la tabla. Vale la pena observar que 31 clientes clasificaron el producto por encima del promedio, 20 de ellos estaban en zonas urbanas.
Atributo A - Clasificación Urbano Rural
Por encima del Promedio Promedio Por debajo del Promedio Total
20 40 15 75
11 8 6 25
Total
31 48 21 100
La señorita Cabral desea comparar el atributo B (Ubicación) con el atributo A (Clasificación del producto). Sus hipótesis son: HO: La clasificación y la ubicación son independientes HA: La clasificación y la ubicación no son independientes Si la ubicación no tiene ningún impacto en la clasificación de efectividad, entonces el porcentaje de residentes urbano que clasificaron el producto “ por encima del producto” debería ser igual al porcentaje de residentes rurales que clasificaron el producto “ por encima del promedio ”. Este porcentaje a su vez debería ser igual al de todos los usuarios que calificaron el producto “ por encima del promedio ”.
19
Como muestra la tabla 1.5 el 31% de todos los usuarios clasificaron el producto “ por encima del promedio”. Luego el 31% de los 75 residentes urbanos y el 31 % de los 25 residentes rurales deberían dar esta clasificación si la clasificación y la ubicación son independientes. Estos valores de (75)(0.31) = 23.3 y (25)(0.31) = 7.75 dan la frecuencia esperada para cada celda como podemos observar en la tabla 1.5. Los demás valores se calculan de la misma manera.
TABLA 1.5 Atributo A - Clasificación
Por encima del Promedio Promedio Por debajo del Promedio Total
Atribut Urbano
Oi 20 40 15 75
Rural
Ei 23.3 36.0 15.8
Oi 11 8 6 25
Total
Ei 7.75 12.0 5.25
31 48 21 100
La señorita Cabral hace la prueba de Chi-cuadrado utilizando la formula (1.1) y encuentra que:
χ
2
(20-23.3)2 (11-7.75)2 (40-36)2 (8-12)2 (15-15.8) 2 (6-5.25) 2 = --------- + ----------- + ---------- + -------- +------------ + ----------- = 3.76 23.3 7.75 36 12 15.8 5.25
La prueba tiene
= (f -1)(c -1) = (3-1)(2-1) = 2 grados de libertad. Si la señorita
Cabral fija en 10% el grado de tolerancia entonces
χ
2
0.10,2
= 4.605.
Regla de decisión: “No rechazar la hipótesis nula si χ 2 < 4.605”
Por lo tanto la clasificación y la ubicación son independientes ya que
χ
2
<4.605.
20
CONCLUSION
Después de haber cumplido con los objetivos trazados al inicio de este trabajo, podemos comprender mejor el alcance que tiene la prueba Chi-cuadrado en la comparación de los resultados muestrales obtenidos y los esperados. La prueba por su nombre indica erróneamente una complejidad que no tiene, ya que su desarrollo es bastante sencillo. Esperamos poder hacer uso de esta herramienta estadística para tomar mejores decisiones de negocios.
21
BIBLIOGRAFIA
♦
Spiegel, Murray R., Estadística, Méjico, 1991, 556 págs.
♦
Webster, Allen L., Estadística Aplicada a los Negocios y la Economía, Colombia, 2000, 640 págs.
22
ANEXOS TABLA E – DISTRIBUCION NORMAL
23
TABLA H – DISTRIBUCION CHI-CUADRADO