PRUEBAS BONDAD DE AJUSTE
ANDREA CHACÓN PORRAS ANDREA DIAZ GUZMAN SERGIO ANDRES PARRA
OLMEDO GONZALES HERRERA
UNIVERSIDAD INDUSTRIAL DE SANTANDER SANTANDER FACULTAD DE INGENIERIAS FISICOMECÁNICAS ESCUELA DE ESTUDIOS NDUSTRIALES Y EMPRESARIALES BUCARAMANGA SEPTIEMBRE 2015
PRUEBAS BONDAD DE AJUSTE
INTRODUCCION En los sistemas reales regularmente nos encontramos con variables cuyo comportamiento es aleatorio, y son susceptibles de ser modeladas por variables de entrada de un modelo estocástico, estás variables requieren de un tratamiento estadístico para su generación de manera artificial, el cual se realiza usualmente por medio de un modelo teórico de distribución de probabilidad, es así como las pruebas de bondad de ajuste es una buena herramienta para determinar el comportamiento de un conjunto de datos. En muchas ocasiones cuando se está simulando un sistema, las variable son controlables del modelo son estocásticas, las variables de entradas las cuales tienen un comportamiento aleatorio son muestreadas con el objetivo de tener un conjunto de datos sobre dicha variable aleatoria y encontrar el modelo de distribución de probabilidad que pueda representar las serie de datos productos de la muestra. En otras palabras lo que se desea es probar la hipótesis que un modelo de probabilidad teórico. La prueba de bondad corresponde a los casos en los cuales es imposible establecer la forma de distribución poblacional o cuando los datos se encuentren en escala nominal u ordinal, es decir, que pueden ordenarse por rangos o categorías, se hace indispensable la aplicación de mtodos no paramtricos, de distribución libre! el mtodo no paramtrico más usado es la Prueba Chi o Ji cuadrado, cuadrado , otro mtodo utilizado es Kolmogor-smirnov . "ebe tenerse en cuanta que cuando a una serie de datos se la aplica cualquiera de las pruebas de bondad y se encuentra que ning#n modelo teórico se puede ajustas a la serie de datos, se trabaja entonces con el modelo empírico $que no es modelo estándar conocido%.
PRUEBA DE BONDAD DE AJUSTE DE PRUEBA CHI – CUADRADO El problema de bondad de ajuste consiste en determinar a partir de un conjunto de datos mustrales si estos son consistentes con una distribución de &robabilidad teórica. Esta prueba es realizada en todos aquellos casos, en los cuales el análisis de los datos está basado en el conteo.
PLANTEAMIENTO &artiendo de una muestra de n valores observados x 1 , x 2 ,..., x n de una variable aleatoria X con distribución supuesta F $ x % , se plantea el siguiente contraste de hipótesis' (o ' ) presenta ( '
* $+%
) sigue otra distribución
-onsideremos una variable aleatoria X , y una muestra aleatoria de tamao n de la distribución de dicha variable agrupada en k clases e+haustivas y
mutuamente e+cluyentes.
/ea ni , i = 1, 2,...., k , la frecuencia absoluta de la i 0 sima clase. /upongamos una cierta distribución teórica para X cuyos parámetros poblacionales los estimamos a partir de los datos muestrales.
/i denotamos por pi la p!"#"$%$& #'!($# # %# (%#') i , los valores n pi serán los *#%!)' )'p)#&!' asociados a cada clase i .S$ #%+,- *#%!
)'p)#&! )' .)-! /) 5 &$(# (%#') ') #+p#3 (!- !4#' (!-4$+#' &) .#-)# /) )- 4!' )%%#' &$(!' *#%!)' ')#- .#!)' ! $+#%)' # 5 )&($6-&!') )% -,.)! &) (%#')'7
DEFINICIÓN •
"efinición de χ1 2na medida de la discrepancia e+istente entre las frecuencias observadas y esperadas es suministrada por el estadístico )1, dado por'
k
•
Entre mayor sea el valor de χ1 más fuerte es la evidencia en contra de (o. La distribución χ1 tiene
3 4 p0 grados de libertad.
PRUEBA DE BONDAD DISTRIBUCIONES DISCRETAS 8POISSON9
&asos a seguir
17 Establecer las hipótesis nula y alternativa. "efinir variable inters (o' La población tiene una distribución de &oisson (a' La población no tiene una distribución de &oisson
27 /eleccionar una muestra aleatoria. &ara cada valor de la variable aleatoria de &oisson anotar la frecuencia observada 5i y calcular el n#mero promedio de las ocurrencias
:7 -alcular para cada valor de la variable aleatoria de poisson, la frecuencia esperada
ei de ocurrencias. $6alor esperado%
;7 -alcular el valor del estadístico de prueba
k
"onde' Oi es la frecuencia observada ei es la frecuencia esperada
57 7egla de decisión' Método del valor crítico: 7echazar (o si
<= > <=?@ – p 1
"onde' 8' cantidad de clases &' parámetros a estimar Método del valor p: 7echazar (o si el valorp9 :
PRUEBA DE BONDAD DISTRIBUCION NORMAL
&asos a seguir
. Establecer las hipótesis nula y alternativa. (o' La población tiene una distribución normal (a' La población no tiene una distribución normal 1. /eleccionar una muestra aleatoria. ; $a% -alcular la media muestral y desviación estándar muestral $b% "efinir intervalos de valores de manera que la frecuencia esperada en cada intervalo sea por lo menos <. /e usan intervalos de igual probabilidad. $c% En cada uno de los intervalos definidos anotar la frecuencia observada
O$ en los datos. =. -alcular el n#mero esperado de ocurrencias
e$ en cada uno de los
intervalos de valores definidos en el paso 1b. >ultiplicar el tamao de la muestra por la probabilidad de que una variable aleatoria normal pertenece al intervalo. ?. -alcular el valor del estadístico de prueba
km
χ
2
=∑
( oi − ei )
i =1
"onde'
2
ei
Oi es la frecuencia observada y ei es la frecuencia esperada.
<. 7egla de decisión ' Metodo del valor crítico ' 7echazar (o si
<= > <=?@ – p 1
"onde 3' cantidad de clases
p' parámetros a estimar Metodo del valor p: 7echazar (o si el valorp 9 :
PRUEBA DE BONDAD BINOMIAL
17 Establecer la hipótesis nula y alternativa. "efinir variables de inters (o' la población tiene una distribución binomial. (a' la población @5 tiene una distribución binomial. 27 Establecer la estadística de prueba k
2
X
=∑ i
2
( F o − FE ) FE
:7 "efinir el nivel de significancia y la zona de rechazo ;7 7egla de decisión 57 -alculo el estadístico de prueba x n− x f ( x )= P ( x )= n p ( 1− p )
() x
7 -onclusiones.
PRUEBA DE BONDAD DE AJUSTE DE OLMOGOROV SMIRNOV Es aplicable solamente a variables aleatorias continuas. 0
-omparar
la
gráfica
de la
distribución
empírica
acumulada
con la
correspondiente gráfica de la función de densidad acumulada de la distribución teórica propuesta. 0/i hay un acercamiento entre las gráficas e+iste una probabilidad de que la distribución teórica se ajusta a los datos. El hecho de que utiliza la distribución de probabilidad acumulada la hace un poco más eficiente que la prueba anterior La metodología de la prueba es la siguiente'
. /e colocan los n datos históricos en una tabla de frecuencias con mA n intervalos o utilizando la fórmula de /truges' 8AB=.=log n! donde n es el n#mero de datos de la muestra. . Encuentre la amplitud del intervalo de clase por medio de la siguiente relación
.1 &ara cada intervalo se tendrá la frecuencia observada i $*5i%. /e calcula la media y la varianza de los datos 1. /e encuentra la probabilidad observada $&5i%, dividiendo la frecuencia observada de cada intervalo por el n#mero total de datos. =. /e calcula la probabilidad acumulada observada de cada intervalo $&C5i% del paso 1. ?. /e propone una distribución de probabilidad de acuerdo con la forma de tabla de frecuencia obtenida en . 5 con la gráfica de los datos. <. -on la función acumulada de la distribución propuesta, se calcula la probabilidad esperada acumulada para cada intervalo $&ECi% mediante la integración de la distribución propuesta. D. /e calcula la probabilidad acumulada $&CEi% para cada intervalo de clase. . /e calcula el valor absoluto entre la diferencia de &C5 y &CE para cada intervalo y se selecciona la má+ima diferencia, llamándola >". F. El estimador >" se comporta con un valor límite correspondiente a la $tabla que contiene los valores críticos de 3olmogorov0/mirnov%. -on n datos y a un nivel de confianza de G:. /i el estimador >" es menor o igual al valor límite de la tabla, entonces se acepta ha hipótesis de que la información histórica sigue la distribución propuesta.
EJERCICIOS DE APLICACIÓN
EJERCICIOS DE APLICACIÓN CHI CUADRADO
17 D$'4$"($- p!$''!-. /e propone que el n#mero de defectos en las tarjetas de circuito impreso sigue una distribución &oisson. /e re#ne una muestra aleatoria de DH tarjetas de circuito impreso y se observa el n#mero de defectos. Los resultados obtenidos son los siguientes'
N.)! &)
F)()-($#
&))(4!'
!"')*#
H
=1
<
1
I
= o mas
?
J>uestran estos datos suficiente evidencia para decir que provienen de una distribución &oissonK (aga la prueba de la bondad del ajuste con un H.H<.
Solución:
(o! La forma de la distribución de los defectos es &oisson. (a! La forma de la distribución de los defectos no es &oisson.
A
La media de la distribución &oisson propuesta en este ejemplo es desconocida y debe estimarse a partir de los datos contenidos en la muestra.
C partir de la distribución &oisson con parámetro H.<, pueden calcularse las probabilidades asociadas con el valor de +. Esto es la fórmula de la &oisson es'
-on esta fórmula se calculan las probabilidades, mismas que se multiplican por DH para obtener los valores esperados.
@umero de
&robabilida
*recuencia
*recuencia
defectos
d
esperada
observada
H
H.?1
1F.=1
=1
H.=
1.1?
<
1
H.==
.IF
I
= o mas
H.H?
1.?D
?
&uesto que la frecuencia esperada en la #ltima celda es m enor que <, se combinan las dos #ltimas celdas
@#meros de
*recuencia
*recuencia
defectos
esperada
observada
H
1F.=1
=1
1.1?
<
1 o mas
H.??
=
Los grados de libertad serían =00A, debido a que la media de la distribución &oisson fue estimada a partir de los datos.
7egla de decisión' /i )17 =.F? no se rechaza ( o. /i )17 =.F? se rechaza ( o. -álculos'
Mnterpretacion' -omo el 1.I? no es mayor a =.F?, no se rechaza ( H y se concluye con un
A H.H< que la distribución de defectos en las tarjetas de
circuito impreso es &oisson
27 D$'4$"($!- -!.#%. &ruebe la hipótesis de que la distribución de frecuencia de las duraciones de baterías dadas en la siguiente tabla, se puede apro+imar mediante una distribución normal con media NA =.< y desviación estándar
AH.. 2tilice un :AH.HH<
LIMITES DE
FRECUENCIAS
CLASE
OBSERVADAS
.?<0.I<
1
.I<01.?<
1.?<01.I<
?
1.I<0=.?<
<
=.?<0=.I<
H
=.I<0?.?<
<
?.?<0?.I<
=
/olución'
/e procede a elaborar el histograma, para visualizar los datos'
En el histograma podemos observar que aparentemente tiende a ser normal!Jse probara esta hipótesisK (o' Los datos previenen de una distribución normal. (a' los datos no provienen de una distribución normal. En este ejercicio en particular se cuenta con la media y desviación estándar de la población.
/e procederá a calcular los valores de z para encontrar las probabilidades en la
tabla. 7ecordando que
, se sustituye el valor de + por los límites de clase
comenzando con el límite de .I<.
Limite 7eal
&$+%
.I<
01.1
&$+ .I<% A H.H=<<
1.?<
0.
&$+ 1.?<% A H.HDDFH
1.I<
0H.I
&$+ 1.I<% A H.1?D
=.?<
0H.H
&$+ =.?<% A H.?1H
=.I<
0H.D?
&$+O=.I<% A H.1DHI
?.?<
.=D
&$+O?.?<% A H.HFDI
La razón por la cual se comienza con el límite de .I< y se termina con el límite de ?.?<, es porque la suma de todas las probabilidades debe ser , bajo la curva normal. C continuación se muestra la curva normal con sus respectivas probabilidades, seg#n los limites reales. Las probabilidades que no se muestran en la tabla anterior y están en la curva se calcularon por diferencias.
&$.I<
+
1.?<% A H.HDDF0H.H=<<= A H.H<=1
&$1.?<
+
1.I<% A H.1?D0H.HDDF A H.?I<=
&$1.I< +
=.?<% A H.?10H.1?D A H.1<=?
&$=.?< +
=.
&$=.
=.I<% A H.
&$=.I<
?.?<% A H.1DHI0H.HFDI< A H.?
+
-on estas probabilidades se calcularán los valores esperados, multiplicando cada probabilidad por ?H.
Límites de clase
*recuencia s observadas
&robabilida d
*recuencia esperada
.?<0.I<
1
H.H=<<
H.11
.I<01.?<
H.H<=1<
1.=HD
1.?<01.I<
?
H.?I<
<.IF1
1.I<0=.?<
<
H.1<=?
H.1I=DH
=.?<0=.I<
H
H.1DDF
H.D1?H
=.I<0?.?<
F<
H.?
D.IDDFH
?.?<0?.I<
=
H.HFDI
=.?DDH
Prados de libertad' 300m A ?00H A =
7egla de decisión' /i )17 .F< no se rechaza ( o. /i )17 .F< se rechaza ( o. -álculos'
Mnterpretación' -omo el =.HD no es mayor de .F<, no se rechaza ( H y se concluye con un
A
H.H< que el ajuste de los datos a una distribución normal es bueno.
:7 B$-!.$#%. /i un ingeniero de control de calidad toma una muestra de H neumáticos que salen de una línea de ensamblaje y l desea verificar sobre la base de los datos que siguen, los n#meros de llantas con defectos observadas en 1HH días, si es cierto que el
@ivel de significancia A H.H< 2 2 Rona de rechazo A x / x ≥ 5.99
g,l=k-m-
m A H porque no se necesitó estimar ning#n parámetro -álculos estadísticos de prueba &ara poder calcular las frecuencias esperada tenemos que calcular las probabilidades! utilizaremos la fórmula de la binomial x n− x f ( x )= P ( x )= n p ( 1− p ) x
()
"onde nAH pAH.H<
( ) ( ) =( )
f ( 0 )= P ( 0 )=
10
f ( 1 )= P
10
1
0.05
( 1 −0.05 )
1
(1 −0.05 )
0
1
0.05
10− 0
1
10−1
; la probabilidad de 1 o másA .H0H.H
@#mero de unidades con
@umero de muestras
6alor esperado
defecto
observadas
H
=F
I,F
<=
D=
1 o mas
I
,1
Sotal
1HH
1HH
Cl aplicar la formula se tiene' 2
2
X
=
( 138−119.8) 119.8
2
2
( 53−63.0 ) ( 9−17.2 ) + + =8.26 63
17.2
-omo F.1D es mayor que <.II, se rechaza la hipótesis nula con un nivel de significancia de H.H<. -onclusión /e concluye que el porcentaje verdadero de neumáticos con defecto no es el
EJERCICIOS DE APLICACIÓN OLMOGOROV SMIRNOV
17 D$'4$"($- &) p!"#"$%$& -$!.)7 2n muestreo realizado sobre la demanda de televisores en un almacn del centro de >edellín durante ?H dias tiene el siguiente comportamiento.
. (allamos el rango 7 A ) ma+ G ) min 7 A = G A 1 3 AB =.= log? 1. Encontramos e valor de 3AD.= y se apro+ima a D Luego 3AD =. (allar la amplitud
?. El límite inferior es y al superior se le suma la amplitud y así sucesivamente, como se nota en la tabla de frecuencias <. Luego se completa la tabla de frecuencias. D. /e quiere proponer la hipótesis que los datos en estudio siguen una distribución uniforme de lo cual procedemos de la siguiente manera' a. Mntegramos la función de densidad de la distribución uniforme. La función de densidad de una variable aleatoria uniforme es'
La función de distribución acumulada se encuentra integrando f$+% de la siguiente manera'
-on esta fórmula se encuentra la &5C $probabilidad observada acumulada% para cada intervalo. &ara el primer intervalo &5CA
&ara el segundo intervalo &5CA
; asi sucesivamente. L/A limite superior de cada intervalo
&odemos observar que la má+ima diferencia de la columna l&5C G &ECl es H.H1< La cual al ser comparada con la tabla de los valores críticos de 3olmogorov 4 /mirnov el cual es d $?HQ,<% A H.1
&ara estimar los parámetros a y b utilizamos los mtodos de los momentos en base a los datos históricos. -omo se tienen dos momentos se deben usar los dos primeros de la media y la varianza. Es decir, igualamos la media y la varianza de la población $N y la muestra ) y
s
2
2
σ % a la media de
.
/e sabe que la media para una distribución uniforme NA
a+b 2
=¿
y que la
2
varianza es
2
σ =¿
( b −a ) 2
2
=s . "espejando a y b de las dos e+presiones
anteriores' "e la primera ecuación despejamo b, b A 1 G a
"e la segunda despejamos b,
Chora igualamos las dos ecuaciones'
En resumen las ecuaciones para estimar a y b requieren que se estime la media y las varianzas de la muestra'
27 D$'4$"($- &) p!"#"$%$& )p!-)-($#% 2n muestreo realizado sobre la demanda de caf en el eje cafetero a travs del tiempo, medida por cargas es
. Hallamos el rango R = X max − X min
1. Encontramos el valor de
=. (allar la amplitud.
La "mAH,H=H1HF se compara con d $
-on esta fórmula se puede comprobar que
´ x
AD y se puede demostrar por el
estimador de má+ima verosimilitud de T es la media muestral
´ x Luego T AD 7ecurdese que al integrar la función de densidad e+ponencial.
x ´
, es decir T A
:7 D$'4$"($- &) p!"#"$%$& -!.#%7 2n almacn encuentra que el tiempo de entrega de los pedidos por parte de su proveedor es aleatorio, el proveedor alega que siempre entrega su mercancía en días o menos. La evitar el debate el gerente del almacn hizo un muestreo de las #ltimas entregas y obtuvo la siguiente información' "emuestre a partir de la prueba de bondad so los datos se pueden modelar a partir de una distribución de probabilidad normal. (allamos la media y la varianza mustrales aplicando las fórmulas para datos agrupados utilizados en el ejercicio anterior $inciso 10 distribucion de probabilidad e+ponencial%.
x ´ =84
y /A=
Li H 1 ? D F H 1 ?
Ls = < I = <
>c H,< 1,< ?,< D,< F,< H,< I,< I,<
*o H 1 F 1 1H H =
*5C H 1 H 11 ?1 <1 <<
&5C H H,H? H,F H,=I H,< H,I= H,IF
R
&EC
| POA− PEA|
01,<
H,HHD=
H,HHD=F
0,F
H,H=?=
H,HH=<=HD
0,
D H,1<
H,H<=?11=
0H,<
< H,=
H,HDFI
H,I
H,<
H,?H1D1
H,FD
H,FH<
H,11F
,<=
1 H,I==
H,H??FH1
1,1
? H,IFD1
H,H=F
1 D
I,<
H
1,F
H,III
H,HH1H1D?
WMWLM5P7C*MC' •
-itado el 1F de septiembre de 1H<, disponible en Xhttps'UUcarlosmarquez.files.Yordpress.comU1H1UH1Uprueba0de0bondad0de0
•
ajuste.pdf . -itado el 1F de septiembre de 1H<, disponible en
•
Xhttp'UUYYY.itch.edu.m+UacademicUindustrialUestadisticaUtoc.html . . >artha -ecilia "urán León, &ruebas Wondad de Cjuste.