Universidad de San Carlos. Facultad de ingeniería Estadística 2
Bondad de ajuste
Jorge Mario Vettorazzi Camo. Jorge Santiago Suruy Tocay
200718871 200718805
Introducción. Cuando se realizan investigaciones, con frecuencia es importante obtener información a través de una muestra sobre la forma como se distribuyen los datos de una población. Algunos estudios producen resultados sobre los que no podemos afirmar que se distribuyan de una forma normal, es decir que tiene la forma de campana. En estos casos debemos emplear técnicas como lo es la bondad de ajuste cuando una muestra no se ajuste a una distribución normal.
P
orque aplicamos la Bondad de Ajuste.
En la estadística no para métrica que es una rama de la estadística que estudia las pruebas de la estadística cuya distribución no se ajusta a los criterios para métricos. De los cuales algunos experimentos producen respuestas que no son cuantificables, o en otras palabras mediciones que no pueden ordenarse. Pero la posición de la respuesta en una escala de medición es arbitraria, las pruebas no para métricas no asumen ningún parámetro de distribución de las variables muéstrales. Como aplicamos la bondad de ajuste. ara resolver el problema de las pruebas no para métricas usamos una prueba estadística que recibe el nombre de Pruebas de bondad de ajuste las cuales pueden ser: P
y y y y y
Chi-cuadrada. De Anderson Darling. Binomial De Fisher. Entre otras.
Bondad de ajuste Binomial: Un experimento Binomial consiste en una secuencia de ensayos independientes en los que cada ensayo produce uno de dos resultados posibles éxito o fracaso. Se supone que la probabilidad de éxito, representado por P, es constante de un ensayo a otro, y el numero n de ensayos es fijo al inicio del experimento. Si se presenta una prueba Z con muestras grandes para probar Observe que esta hipótesis nula especifica tanto P (éxito) como P (fracaso), puesto que si , entonces . Si la P (fracaso) se denota con q y 1 p, la hipótesis nula se puede escribir de otro modo como . La prueba z es bilateral cuando la alternativa de interés es . Un experimento multinomial generaliza un experimento Binomial permitiendo que cada ensayo de lugar a uno de K resultados posibles, donde K>2. or ejemplo: Suponga que un almacén acepta tres tipos de tarjetas de crédito. Un experimento multinomial resultaría de observar el tipo de tarjeta de crédito, tipo 1, tipo 2, tipo 3, que utiliza cada uno de los n clientes siguientes que paga con tarjeta de crédito. En general, se hace referencia a los K resultados posibles en un determinado ensayo como categoría, y representa la probabilidad de que un ensayo como categoría . Si el experimento consiste en seleccionar n individuos u objetos de una población y categorizar cada uno, entonces es la probabilidad de la población que cae en la i- ésima categoría. P
La hipótesis nula de interés especifica el valor de cada . Por ejemplo: En el caso que K=3, se podría tener . La hipótesis alternativa expresa que no es verdad, es decir que menos de los tienen un valor diferente del afirmado en cuyo caso por el menos dos deben ser diferentes, puesto que su suma es igual a 1.
El símbolo representa el valor de que se afirma en la hipótesis nula. En el ejemplo antes mencionado, . Antes de llevar a cabo el experimento multinomial, el numero de ensayos que da lugar a la categoría es una variable aleatoria, al igual que el numero de éxitos y el numero de fracasos en un experimento Binomial son variables aleatorias. Esta variable aleatoria se denota con y su valor observado con . Puesto que cada ensayo produce exactamente una de las K categorías, y lo mismo resulta cierto para las . Por ejemplo Un experimento esperado de éxitos y el número esperado de fracasos en un experimento Binomial son np y nq, respectivamente. Cuando es verdad, los números previstos de acierto y errores son , respectivamente. De manera similar, en un experimento multinomial el número esperado de ensayos que dan lugar a la categoría i es . Cuando es verdad, estos valores esperados se convierten en . Es común representar la en un formato tabular que consiste en un renglón de k celdas, una para cada categoría, como se ilustra en la tabla, los valores esperados cuando es verdadera se muestra debajo de los valores observados. Las y las por lo común se denominan cuentas de celdas observadas y son las cuentas de celda esperadas correspondientes bajo . categoría
observada esperada
i=1
n1 np10
i=2
n2 np20
.. ..
i=k
nk NPk0
total de renglón
n n
Las deben estar razonablemente cerca de las correspondientes cuando es verdadera. Por otro lado, varias de las cuentas observadas deben diferí sustancialmente de estas cuentas esperadas cuando los valores reales de las defieren en forma notable de lo que se afirma en la hipótesis nula. El procedimiento de prueba requerida evaluar la discrepancia entre las y las , con que se rechaza cuando la discrepancia es suficientemente grande.
DISTRIBUCION MULTINOMIAL
La distribución multinomial es similar a la distribución binomial, con la diferencia de que en lugar de dos posibles resultados en cada ensayo, puede haber múltiples resultados: : a esas elecciones se presentaron 4 partidos políticos: el POPO obtuvo un 40% de los votos, el JEJE el 30%, el MUMU el 20% y el LALA el 10% restante. ¿Cuál es la probabilidad de que al elegir 5 ciudadanos al azar, 3 hayan votado al POPO, 1 al MUMU y 1 al LALA? Ejemplo de distribución multinomial
La distribución multinomial sigue el siguiente modelo:
Donde: : indica que el suceso X1 aparezca x1 veces (en el ejemplo, que el partido POPO lo hayan votado 3 personas) X1
= x1
: indica el número de veces que se ha repetido el suceso (en el ejemplo, 5 veces)
n
: es factorial de n (en el ejemplo: 5 * 4 * 3 * 2 * 1)
n!
: es la probabilidad del suceso X1 (en el ejemplo, el 40%)
p1
Veamos el ejemplo:
Luego: P = 0,0256
Es decir, que la probabilidad de que las 5 personas elegidas hayan votado de esta manera es tan sólo del 2,56% Nota: 0! es igual a 1, y cualquier número elevado a 0 es también igual a 1 Veamos otro ejemplo: En una fiesta, el 20% de los asistentes son españoles, el 30% franceses, el 40% italiano y el 10% portugueses. En un pequeño grupo se han reunido 4 invitados: ¿cual es la probabilidad de que 2 sean españoles y 2 italianos? Aplicamos el modelo:
Luego P = 0,0384
or lo tanto, la probabilidad de que el grupo esté formado por personas de estos países es tan sólo del 3,84%. P
DISTRIBUCION HIPERGEOMETRICA
Las distribución hipergeométrica es el modelo que se aplica en experimentos del siguiente tipo: En una urna hay bolas de dos colores (blancas y negras), ¿cuál es la probabilidad de que al sacar 2 bolas las dos sean blancas? Son experimentos donde, al igual que en la distribución binomial, en cada ensayo hay tan sólo dos posibles resultados: o sale blanca o no sale. Pero se diferencia de la distribución binomial en que los distintos ensayos son dependientes entre sí: Si en una urna con 5 bolas blancas y 3 negras en un primer ensayo saco una bola blanca, en el segundo ensayo hay una bola blanca menos por lo que las probabilidades son diferentes (hay dependencia entre los distintos ensayos). La distribución hipergeométrica sigue el siguiente modelo:
Donde:
Vamos a tratar de explicarlo: : es el número total de bolas en la urna
N
: es el número total de bolas blancas
N1
: es el número total de bolas negras
N2
: es el número de bolas blancas cuya probabilidad se está calculando
k
: es el número de ensayos que se realiza
n
Veamos un ejemplo: en una urna hay 7 bolas blancas y 5 negras. Se sacan 4 bolas ¿Cuál es la probabilidad de que 3 sean blancas? Entonces: N = 12; N1 = 7; N2 = 5; k = 3; n = 4 Si aplicamos el modelo:
or lo tanto, P (x = 3) = 0,3535. Es decir, la probabilidad de sacar 3 bolas blancas es del 35,3%.
P
ero este modelo no sólo se utiliza con experimentos con bolas, sino que también se aplica con experimentos similares: P
: en una fiesta hay 20 personas: 14 casadas y 6 solteras. Se eligen 3 personas al azar ¿Cuál es la probabilidad de que las 3 sean solteras? Ejemplo
or lo tanto, P (x = 3) = 0,0175. Es decir, la probabilidad de que las 3 personas sean solteras es tan sólo del 1,75%. P
DISTRIBUCION DE POISSON
Las distribución de Poisson parte de la distribución binomial: Cuando en una distribución binomial se realiza el experimento un número "n" muy elevado de veces y la probabilidad de éxito "p" en cada ensayo es reducida, entonces se aplica el modelo de distribución de Poisson:
Se tiene que cumplir que: "p"
< 0,10
"p*n"
< 10
La distribución de Poisson sigue el siguiente modelo:
Vamos a explicarla: El número "e" es 2,71828 = n * p (es decir, el número de veces " n " que se realiza el experimento multiplicado por la probabilidad " p " de éxito en cada ensayo) "l"
"k"
es el número de éxito cuya probabilidad se está calculando
Veamos un ejemplo: La probabilidad de tener un accidente de tráfico es de 0,02 cada vez que se viaja, si se realizan 300 viajes, ¿cual es la probabilidad de tener 3 accidentes? Como la probabilidad " p " es menor que 0,1, y el producto " n * p " es menor que 10, entonces aplicamos el modelo de distribución de Poisson.
Luego, P
(x = 3) = 0,0892
or lo tanto, la probabilidad de tener 3 accidentes de tráfico en 300 viajes es del 8,9%
P
Otro ejemplo: La probabilidad de que un niño nazca pelirrojo es de 0,012. ¿Cuál es la probabilidad de que entre 800 recien nacidos haya 5 pelirrojos?
Luego, P
(x = 5) = 4,602
or lo tanto, la probabilidad de que haya 5 pelirrojos entre 800 recien nacidos es del 4,6%
P
Prueba de Chi-Cuadrado
Una pregunta importante que necesita responderse en cualquier experimento genético es cómo podemos decidir si nuestros datos están de acuerdo con las proporciones Mendelianas que hemos expuesto. Una prueba estadística que resulta muy útil es la prueba de hipótesis de Chi-cuadrado. Fórmula de Chi-cuadrado:
grados de libertad (gl): n-1 donde n es el número de clases. robemos si los siguientes datos se ajustan a la proporción 9:3:3:1
P
Valores Observados
Valores Esperados
315 semillas redondas y amarillas (9/16)(556) = 312.75 redondas y amarillas 108 semillas redondas y verdes (3/16)(556) = 104.25 redondas y verdes 101 semillas arrugadas y amarillas (3/16)(556) = 104.25 arrugadas y amarillas 32 semillas arrugadas y verdes (1/16)(556) = 34.75 arrugadas y verdes 556 Total de semillas 556.00 Total de semillas Aplicando la ecuación:
X2 = 0,47 Número de clases: 4 Gl (grados de libertad): n-1= 4-1= 3 Valor de Chi-cuadrado: 0.47 Si se entra en la Tabla de Chi-cuadrado por tres grados de libertad, se observa que el valor de Chicuadrado encontrado se encuentra con una probabilidad mayor de 0,90. Quiere decir que la probabilidad de encontrar un valor de Chi-cuadrado como el calculado para nuestro experimento es mayor del 90%, que es lo mismo que decir que las diferencias entre los valores observados y calculados se deben al azar con una probabilidad mayor al 90%.
or convención estadística se utiliza el valor de 0.05 de probabilidad como el valor límite o crítico. Si el valor de Chi-cuadrado calculado para un experimento es mayor que el correspondiente al de la probabilidad del 5% se rechaza la hipótesis. En el caso del ejemplo anterior el valor calculado es menor que el valor encontrado en la tabla de Chi-cuadrado por lo que se acepta la hipótesis de que los datos se ajustan a una distribución 9:3:3:1. P
Tabla de Chi-cuadrado probabilidad Grados de Libertad 0.9 0.5 0.1 0.05 0.01 1 2 3
0.02 0.46 2.71 3.84 6.64 0.21 1.39 4.61 5.99 9.21 0.58 2.37 6.25 7.82 11.35
Bibliografía
robabilidad y estadística para ingeniería y ciencias Jay L. Devore Sexta edición. P
http://uvigen.fcien.edu.uy/utem/genmen/06chi2.htm# http://www.aulafacil.com/CursoEstadistica/CursoEstadistica.htm