U4: PRUEBAS DE BONDAD DE AJUSTE Y PRUEBAS NO-PARAMETRICAS
TEMARIO
Unidad 4: Pruebas de bondad de ajuste y pruebas no paramétricas
UNIDAD IV: PRUEBAS DE BONDAD DE AJUSTE Y PRUEBAS NO PARAMETRICAS C0NCEPTUALES 30 PUNTOS Investigación DOCUMENTAL: Portada
% 5 ab
Índice Introducción Desarrollo Conclusión Referencias bibliográficas Presentación PP ( 0 – 100 ) PROCEDIMENTALES
5 10 45 25 10 100
CALIF =
2
*0.3
60 PUNTOS
a) Resolución de Problemario ( 0 - 100 ) CALIF=
ab 2
*0.6
b) Examen ( 0 -100 )
ACTITUDINALES
20 PUNTOS
a) Asistencia ( 0 - 100 ) CALIF = Pts.*0.1
CALIFICACION DE DE LA UNIDAD = CC + CP + CA Fecha de examen: Viernes 30 de Diciembre del 2012
Ing. Fernando Loera Rivera
1
U4: PRUEBAS DE BONDAD DE AJUSTE Y PRUEBAS NO-PARAMETRICAS Unidad 4: Pruebas de bondad de ajuste y pruebas no paramétricas
4.1 Bondad de ajuste Las pruebas de bondad de ajuste tienen varias aplicaciones, por ejemplo, en situaciones en las que queremos determinar si un conjunto de datos se puede considerar como una muestra aleatoria de una población que tiene una distribución dada. Pero, ¿Cómo podemos determinar qué tipo de distribución tiene una variable aleatoria? Empecemos por definir, ¿Qué es una variable aleatoria? Podemos decir que las variables aleatorias son aquellas que tienen un comportamiento probabilístico en la realidad. Por ejemplo, el número de clientes que llegan cada hora a un banco depende del momento del día, del día de la semana y de otros factores: por lo general, la afluencia de clientes será mayor al mediodía que muy temprano por la mañana; la demanda será mayor el viernes que el miércoles; habrá más clientes un día de pago que un día normal, etc. Dadas estas características, las variables aleatorias deben cumplir reglas de distribución de probabilidad como estas:
La suma de las probabilidades asociadas a todos los valores posibles de la variable aleatoria x es uno. La probabilidad de que un posible valor de la variable x se presente siempre es mayor que o igual a cero. El valor esperado de la distribución de la variable aleatoria es la media de la misma, la cual a su vez estima la verdadera media de la población. Si la distribución de probabilidad asociada a una variable aleatoria está definida por más de un parámetro, dichos parámetros pueden obtenerse mediante un estimador no sesgado. Por ejemplo, la varianza de la población 2 puede ser estimada usando la varianza de una muestra que es s 2 . De la misma manera, la desviación estándar de la población, , puede estimarse mediante la desviación estándar de la muestra s .
Tipos de variables aleatorias: Podemos diferenciar las variables aleatorias de acuerdo con el tipo de valores aleatorios que representan. Por ejemplo, si habláramos del número de clientes que solicitan cierto servicio en un periodo de tiempo determinado, podríamos encontrar valores tales como 0,1,2,........,n 0,1,2,........, n , es decir, un comportamiento como el que presentan las distribuciones de probabilidad discretas. Por otro lado, si habláramos del tiempo que tarda en ser atendida una persona, nuestra investigación tal vez arrojaría resultados como 1.54 min, 0.028 horas o 1.37 días, es decir, un comportamiento similar al de las distribuciones de probabilidad continuas. Considerando lo anterior podemos diferenciar entre variables aleatorias discretas y variables aleatorias continuas. i.
Variables aleatorias discretas. Este tipo de variables deben cumplir con estos parámetros: P x 0
pi 1 i 0 b
P a x b pi Pa ...... P b i a
Ing. Fernando Loera Rivera
2
U4: PRUEBAS DE BONDAD DE AJUSTE Y PRUEBAS NO-PARAMETRICAS
Algunas distribuciones discretas de probabilidad son: la uniforme discreta, la de Bernoulli, la hipergeométrica, la de Poisson y la binomial. Distribución de probabilidad de una variable aleatoria discreta Gráfica Gráfic a de distri distri bución bución Binomial, n=5, p=0.5 0.35 0.30 0.25 d a d i l 0.20 i b a b o 0.15 r P
0.10 0.05 0.00 0
1
2
3
4
5
6
X
Podemos asociar a estas distribuciones de probabilidad el comportamiento de una variable aleatoria. Por ejemplo, si nuestro propósito al analizar un muestreo de calidad consiste en decidir si la pieza bajo inspección es buena o no, estamos realizando un experimento con dos posibles resultados: la pieza es buena o la pieza es mala. Este tipo de comportamiento está asociado a una distribución de Bernoulli. Por otro lado, si lo que queremos es modelar el número de usuarios que llamaran a un teléfono de atención a clientes, el tipo de comportamiento puede parecerse a una distribución de Poisson. ii.
Variables aleatorias continuas. Este tipo de variables se representan mediante una ecuación que se conoce como función de densidad de probabilidad. Dada esta condición, cambiamos el uso de la sumatoria por la de una integral para conocer la función acumulada de la variable aleatoria. Por lo tanto, las variables aleatorias continuas deben cumplir los siguientes parámetros:
P x 0 P x a 0
f x 1
b
P a x b P a x b
f x a
Ing. Fernando Loera Rivera
3
U4: PRUEBAS DE BONDAD DE AJUSTE Y PRUEBAS NO-PARAMETRICAS
Entre las distribuciones de probabilidad continuas tenemos: la uniforme continua, la exponencial, la normal, le de Weibull, la Chi-cuadrada y la de Erlang. Gráfica de distribución Normal, Media=5, Desv.Est.=0.5 0.9 0.8 0.7 0.6 d a d 0.5 i s n e 0.4 D
0.3 0.2 0.1 0.0 3.5
4.0
4.5
5.0
5.5
6.0
6.5
X
Algunos procesos pueden ser asociados a estas distribuciones. Por ejemplo, es posible que el tiempo de llegada de cada cliente a un sistema tenga una distribución de probabilidad muy semejante a una exponencial, o que el tiempo que le toma a un operario realizar una serie de tareas se comporte de manera muy similar a la dispersión que presenta una distribución normal. Sin embargo, debemos hacer notar que este tipo de distribuciones tiene sus desventajas, dado que el rango de valores posibles implica que existe la posibilidad de tener tiempos infinitos de llegada de clientes o tiempos de ensamble infinitos, situaciones lejanas a la realidad.
Determinación del tipo de distribución de un conjunto de datos La distribución de probabilidad de los datos históricos puede determinarse mediante las pruebas Chicuadrada, de Kolmogorov-Smirnov y de Anderson-Darling.
4.1.1 Prueba Ji-Cuadrada Las distribuciones Chi-cuadrada, al igual que las distribuciones t de student, son una familia de distribuciones de probabilidad, cada una de ellas identificada por el número de parámetro de grados de libertad . Sus propiedades son:
2 es no negativa en su valor; es cero o de valor positivo.
2 no es simétrica; es sesgada a la derecha.
2 está distribuida para formar una familia de distribuciones, una distribución separada para cada
número diferente de grados de libertad.
Ing. Fernando Loera Rivera
4
U4: PRUEBAS DE BONDAD DE AJUSTE Y PRUEBAS NO-PARAMETRICAS
Diversas distribuciones de Chi-cuadrada: Gráfica de distribución Chicuadrado 0.10
df 10 20
0.08
d 0.06 a d i s n e D
0.04
0.02
0.00 0
10
20
30
40
X
Los valores críticos para Chi-cuadrada se obtienen de tablas. Cada valor crítico es identificado por dos piezas de información: los grados de libertad (gl) y área bajo la curva a la derecha del valor crítico que se busca. Por tanto, 2 gl , se lee: ‖Chi cuadrada de gl, alfa es el símbolo que se emplea para identificar el valor crítico de Chi-cuadrada con gl grados de libertad y con área a la derecha. ”
Ejemplo 1. 2 Asociada con la cola derecha: 2
Encuentre 20, 0.05 Solución: Use la tabla para hallar el valor de 220,0.05 en la intersección de la fila gl=20 y la columna
0.05 , como se muestra enseguida:
gl . . . 20
……..
…….
……..
…….
………
……….
Ing. Fernando Loera Rivera
Área a la derecha 0.05 . . . 31.4
5
U4: PRUEBAS DE BONDAD DE AJUSTE Y PRUEBAS NO-PARAMETRICAS
Gráfica de distri bución Chicuadrado, df=20 0.07 0.06 0.05 d a 0.04 d i s n e D 0.03
0.02 0.01 0.05 0.00
0
31.4 X
Ejemplo 2. 2 Asociada con la cola izquierda: 2
Encuentre 14, 0.90 Solución: Use la tabla para hallar el valor de
214, 0.90
en la intersección de la fila gl=14 y la columna
0.90 , como se muestra enseguida:
gl . . . 14
……..
…….
……..
…….
………
……….
Ing. Fernando Loera Rivera
Área a la derecha 0.90 . . . 7.79
6
U4: PRUEBAS DE BONDAD DE AJUSTE Y PRUEBAS NO-PARAMETRICAS
Gráfica de distri bución Chicuadrado, df=14 0.09 0.08 0.07 0.06 d a 0.05 d i s n e 0.04 D
0.03
0.9
0.02 0.01 0.00
0
7.79 X
La prueba Chi-cuadrada es una prueba de hipótesis a partir de datos, basada en el cálculo de un valor llamado estadístico de prueba, al cual suele comparársele con un valor conocido como valor crítico, mismo que se obtiene, generalmente, de tablas estadísticas. El procedimiento general de la prueba es: 1. Obtener al menos 30 datos de la variable aleatoria a analizar. 2. Calcular la media y varianza de los datos. 3. Crear un histograma de m n intervalos y obtener la frecuencia observada en cada intervalo Oi . 4. Establecer explícitamente la hipótesis nula, proponiendo una distribución de probabilidad que se ajuste a la forma del histograma. 5. Calcular la frecuencia esperada, E i , a partir de la función de probabilidad propuesta. m
Ei Oi
i 1
E i
6. Calcular el estadístico de prueba: c
2
7. Definir el nivel de significancia de la prueba, , y determinar el valor crítico de la prueba, 2, mk 1 ( k es el número de parámetros estimados en la distribución propuesta). 8. Comparar el estadístico de prueba con el valor crítico. Si el estadístico de prueba es menor que el valor crítico, no se puede rechazar la hipótesis nula.
Ing. Fernando Loera Rivera
7
U4: PRUEBAS DE BONDAD DE AJUSTE Y PRUEBAS NO-PARAMETRICAS
Ejemplo 3. Estos son los datos del número de automóviles que entran a una gasolinera cada hora. (Estudio realizado en la 76 gas station de Los Angeles, CA 1998).
1. Se obtienen 50 datos: 14
7
13
16
16
13
14
17
15
16
13
15
10
15
16
14
12
17
14
12
13
20
8
17
19
11
12
17
9
18
20
10
18
15
13
16
24
18
16
18
12
14
20
15
10
13
21
23
15
18
2. Calcular la media y varianza de los datos: n
x
n
2
3.
x x i
i 1
n 1
x
i
i 1
n
14 13 13 20 ......... 18 50
15.04
2 2
2
14 15.04 13 15.04 ........... 18 15.04 50 1
2
13.14
Crear un histograma de m n intervalos y obtener la frecuencia observada en cada intervalo Oi Intervalo
Oi
6-8.5 9-11.5 12-14.5 15-17.5 18-20.5 21-23.5 24-26.5 20-21 22-23 24-25 25-8 Totales
2 3 15 16 9 2 1 4 1 1 0 50
p x
Ing. Fernando Loera Rivera
Ei 50* p x
c
8
U4: PRUEBAS DE BONDAD DE AJUSTE Y PRUEBAS NO-PARAMETRICAS
Histograma de frecuencias de la llegada de automoviles a la gasolinera 12 10 a i c n e u c e r F
8 6 4 2 0 0-7
8-9
10-11 12-13 14-15 16-17 18-19 20-21 22-23 24-25 25-8
Automóviles/h
El histograma de los n 50 datos , considerando m 11intervalos , la media muestral de 15.04 y la varianza muestral de 13.14, permiten establecer la siguiente hipótesis: Determinar la distribución de probabilidad con un nivel de significancia de 5 %
H 0 : Poisson 15
automoviles / h
H a : Otra distribucion
Comenzamos por calcular la probabilidad de cada intervalo a partir de la función de probabilidad de Poisson: p x
x e
x 0,1,2,3,.......
x !
p x
15 x e
15
x !
x 0,1, 2,3,.......
Por ejemplo, para el intervalo 8-9 p x 8,9
158 e
15
8!
159 e
15
9!
0.0519
Enseguida calculamos la frecuencia esperada en cada intervalo, multiplicando la probabilidad p(x) por el total de datos de la muestra: Ei n p x Ei 50 p x
Y luego estimamos el estadístico de prueba:
c
m
Ei Oi
i 1
E i
2
2
0.5185 1 0.5185
2
2.5926 2
Ing. Fernando Loera Rivera
2
.........
0.3100 0 0.3100
2.2215
9
U4: PRUEBAS DE BONDAD DE AJUSTE Y PRUEBAS NO-PARAMETRICAS
A partir de los cálculos realizados anteriormente se obtiene la siguiente tabla:
Intervalo Oi p x Ei 50* p x 0-7 1 0.0104 0.5185 8-9 2 0.0519 2.5926 10-11 4 0.1149 5.7449 12-13 10 0.1785 8.9233 14-15 11 0.2049 10.2436 16-17 10 0.1808 9.0385 18-19 6 0.1264 6.3180 20-21 4 0.0717 3.5837 22-23 1 0.0336 1.6821 24-25 1 0.0133 0.6640 25-8 0 0.0079 0.3100 1 Totales 50 50
c 0.4471 0.1354 0.5300 0.1299 0.0559 0.1023 0.0160 0.0483 0.2766 0.1700 0.3100 2.2215
2 El valor del estadístico de prueba, c 2.2215 , comparado con el valor crítico de tablas, 0.05,11 01 18.307 , indica que no podemos rechazar la hipótesis nula de que la variable aleatoria se comporta de acuerdo con una distribución de Poisson, con una media de 15 automóviles/hora. Valores críticos para la Distribución 2 2
grados de
2 0.10
libertad
1 2 . . 10
2 0.05
2 0.025
2 0.005
2 0.01
2 0.001
2.706 3.841 5.024 6.635 7.879 10.828 4.605 5.991 7.378 9.210 10.597 13.816 . . . . . . . . . . . . 15.987 18.307 20.483 23.209 25.188 29.588
Gráfica de distribución Chicuadrado, df=10 0.10
0.08
d 0.06 a d i s n e D
0.04
0.02 0.05 0.00
0
18.3 X
Ing. Fernando Loera Rivera
10
U4: PRUEBAS DE BONDAD DE AJUSTE Y PRUEBAS NO-PARAMETRICAS
4.2 Prueba de independencia Las dos propiedades más importantes que deben satisfacer los números de un conjunto r i son uniformidad e independencia. Para probar la independencia de los números de un conjunto r i primero es preciso formular las siguientes hipótesis H 0 : los números del conjunto ri son independientes H A : los números del conjunto ri no son independientes
Prueba de corridas arriba y abajo
El procedimiento de esta prueba consiste en determinar una secuencia de números S que solo contiene unos y ceros, de acuerdo con una comparación entre r i y r i1 . Posteriormente se determina el número de corridas observadas C O (una corrida se identifica como la cantidad de unos y ceros consecutivos). Luego se calcula el valor esperado, la varianza del número de corridas y el estadístico Z 0 , mediante las ecuaciones: C O C 2O
Z 0
2n 1 3 16n 29 90
C O C O
Ing. Fernando Loera Rivera
C O
11
U4: PRUEBAS DE BONDAD DE AJUSTE Y PRUEBAS NO-PARAMETRICAS
4.3 Pruebas no paramétricas 4.3.1 Prueba de Kolmogorov Smirnov –
Desarrollada en la década de los treinta del siglo XX, esta prueba permite – al igual que la prueba chicuadrada- determinar la distribución de probabilidad de una serie de datos. Una limitante de la prueba de Kolmogorov-Smirnov estriba en que solamente se puede aplicar al análisis de variables continuas. El procedimiento general de la prueba es: 1. Obtener al menos 30 datos de la variable aleatoria a analizar. 2. Calcular la media y la varianza de los datos. 3. Crear un histograma de m n intervalo, y obtener la frecuencia observada en cada intervalo Oi 4. Calcular la probabilidad observada en cada intervalo POi Oi n , esto es, dividir la frecuencia observada Oi entre el número total de datos n 5. Acumular las probabilidades POi para obtener la probabilidad observada hasta el i ésimo intervalo POAi 6. Establecer explícitamente la hipótesis nula, proponiendo una distribución de probabilidad que se ajuste a la forma del histograma. 7. Calcular la probabilidad esperada acumulada para cada intervalo, PEAi , a partir de la función de probabilidad propuesta. 8. Calcular el estadístico de prueba: C máx PEAi POAi i 1, 2, 3, ....., k , ..., m 9. Definir el nivel de significancia de la prueba , y determinar el valor crítico de la prueba, D , n (consultando la tabla de valores críticos de la prueba de Kolmogorov-Smirnov). 10. Comparar el estadístico de prueba con el valor crítico. Si el estadístico de prueba es menor que el valor critico no se puede rechazar la hipótesis nula.
Ejemplo 4: Un estudio del comportamiento del tiempo entre roturas de cierto filamento, medido en minutos/rotura, se muestra a continuación: 4.33
1.61
2.16
2.88
0.7
0.44
1.59
2.15
8.59
7.36
9.97
7.86
5.49
0.98
4.52
2.12
4.44
0.82
6.96
3.04
2.91
14.39
3.44
9.92
4.38
8.04
2.18
6.19
4.48
9.66
4.34
1.76
2.3
5.24
11.65
10.92
12.16
6.6
0.85
4.82
1.36
3.53
6.58
1.45
8.42
3.69
2.44
0.28
1.9
2.89
Determinar la distribución de probabilidad con un nivel de significancia de 5 por ciento.
Iniciamos el procedimiento calculando la cantidad de intervalos m n 50 7.071 8 Ing. Fernando Loera Rivera
12
U4: PRUEBAS DE BONDAD DE AJUSTE Y PRUEBAS NO-PARAMETRICAS
y el tamaño de cada intervalo es
valor mayor valor menor 14.39 0.44
8
8
1.744 2
Histograma 14 12 10 a i c n e u c e r F
8 6 4 2 0 0-2
2-4
4-6
6-8
8-10
10-12
12-14
14-
Minutos/roturas
El histograma de los n 50 datos con m 8 intervalos, la media muestral de 4.7336 y la varianza muestral de 12.1991 permiten estimar un parámetro de forma de 1.38 y un parámetro de escala de 5.19 y establecer la hipótesis: H 0 : Weibull 1.38, 5.19 minutos / rotura H A : Otra distribución
y la probabilidad observada en cada intervalo POi
Oi n
12 13 9 6 6 2 1 1 , , , , , , , 50 50 50 50 50 50 50 50 50 Oi
para después calcular la probabilidad observada acumulada hasta el intervalo i
POAi
O O i
n
12 25 34 40 46 48 49 50 , , , , , , , 0.24, 0.50,......,1 50 50 50 50 50 50 50 50 50 i
Posteriormente calculamos la probabilidad esperada acumulada de cada intervalo a partir de la función de probabilidad acumulada de Weibull
Ing. Fernando Loera Rivera
13
U4: PRUEBAS DE BONDAD DE AJUSTE Y PRUEBAS NO-PARAMETRICAS
x
F x x
1
e
x
dx
0
F x 1 e F x 1 e
x x 1.38 5.19
Por ejemplo, para el intervalo con el límite superior de 8: PEA8 F 8 1 e
8 1.38 5.19
0.83747
Por último, calculamos el estadístico de prueba c máx POAi PEAi máx 0.24 0.2353 , 0.50 0.5025 ,...., 1 1 0.0375 A partir de los cálculos anteriores se obtiene la siguiente tabla:
Intervalo Oi
POi
POAi
PEAi
POAi PEAi
0.24 0.26 0.18 0.12 0.12 0.04 0.02 0.02 1.00
0.24 0.50 0.68 0.80 0.92 0.96 0.98 1.00
0.23526
0.0047
0.50247
0.0025
0.70523
0.0252
0.83747
0.0375
0.91559
0.0044
0.95839
0.0016
0.98042
0.0004
1.00000
0.0000
c
0.0375
12 13 9 6 6 2 1 1 50
0-2 2-4 4-6 6-8 8-10 10-12 12-14 14- Total
El valor del estadístico de prueba, c 0.0375 , comparado con el valor de tablas crítico, D0.05, 50 0.1923 , indica que no podemos rechazar la hipótesis nula de que la variable aleatoria se comporta de acuerdo con una distribución de Weibull con parámetro de escala 5.19 y parámetro de forma 1.38
Valores críticos de la prueba de Kolmogorov-Smirnov grados de libertad
1 2 . 45 Para valores mayores a 35
D 0.1
D 0.05
D 0.01
0.950 0.776 . 0.182
0.975 0.842 . 0.203
0.995 0.929 . 0.243
1.22
n
Ing. Fernando Loera Rivera
1.36 50
0.1923
1.63
n
14
U4: PRUEBAS DE BONDAD DE AJUSTE Y PRUEBAS NO-PARAMETRICAS
Gráfica de distribución Weibull, Forma=1.38, Escala=5.19, Valor umbral=0 0.16 0.14 0.12 0.10
d a d i s 0.08 n e D
0.06 0.04 0.02 0.05 0.00
0
0.1923
Cálculo de los Parámetros de la Distribución de Weibull El presente artículo presenta, paso a paso, el método de los Mínimos Cuadrados para calcular los parámetros de forma y escala de la distribución de Weibull. Para el cálculo del parámetro de localización se emplea el complemento Solver de Excel. También se presentan dos ecuaciones para calcular el estimador Rango de mediana (ecuaciones 5 y 6), siendo esta última una forma aproximada y la que generalmente se usa en la literatura técnica. Ya que la ecuación (5) es más exacta, ésta es la que se emplea; para ello, y debido a su complejidad, se presenta el código fuente — en el lenguaje VBA (Visual Basic para Aplicaciones) — para crear una función definida por el usuario en Excel. Igualmente se usan las funciones PENDIENTE e INTERSECCIÓN.EJE, de Excel, para calcular la pendiente y el intercepto de la línea de regresión.
1. INTRODUCCIÓN La distribución de Weibull es una distribución continua y triparamétrica, es decir, está completamente definida por tres parámetros y es la más empleada en el campo de la confiabilidad. A pesar de la popularidad de esta distribución, en la revisión bibliográfica efectuada, la mayoría de los artículos y literatura técnica consultados se remiten a una distribución biparamétrica y, más aún, los ejemplos allí desarrollados presentan como datos conocidos los dos parámetros, generándose, así, las siguientes preguntas: ¿Cómo se calculan los parámetros? y ¿por qué se omite el cálculo del tercer parámetro? El tercer parámetro es el parámetro de localización, es decir, el parámetro que localiza la abscisa a partir del cual se inicia la distribución.
Ing. Fernando Loera Rivera
15
U4: PRUEBAS DE BONDAD DE AJUSTE Y PRUEBAS NO-PARAMETRICAS
El objetivo del presente artículo es responder a las dos preguntas anteriores, presentando una de las cinco metodologías — analíticas — existentes para el cálculo de los parámetros y algunos criterios para determinar si es necesario tener en cuenta el tercer parámetro. 1. 2. 3. 4. 5.
Mínimos cuadrados. Gráfico de la función tasa de falla. Máxima similitud. Estimación de momentos. Estimadores lineales.
El método que se presenta es el método de los Mínimos Cuadrados, por tres razones: la primera, es un método simple y expedito de aplicar; la segunda, la gráfica de los datos sirven como una prueba de bondad de ajuste de la distribución y, la tercera, da un indicio sobre si se debe calcular o no el parámetro de localización. Para una metodología gráfica, la cual hace uso del papel especial llamado papel de probabilidad de Weibull, véanse las referencias [5], [6]
2. EXPRESIÓN MATEMÁTICA DE LA DISTRIBUCIÓN La función de densidad de la distribución de Weibull para la variable aleatoria t está dada por la siguiente expresión: 1
f x
t
t exp ,
t
1
Donde t : Variable aleatoria que, para el caso de la confiabilidad, representa el tiempo entre fallas. : Parámetro de forma 0
: Parámetro de escala 0
: Parámetro de localización
El parámetro alfa, como su nombre indica, determina la forma — o perfil — de la distribución, la cual es función del valor de éste. El parámetro beta indica la escala de la distribución, es decir, muestra que tan aguda o plana es la función. El parámetro gamma indica, en el tiempo, el momento a partir del cual se genera la distribución. Una distribución biparamétrica está completamente definida por los parámetros de forma y de escala.
Ing. Fernando Loera Rivera
16
U4: PRUEBAS DE BONDAD DE AJUSTE Y PRUEBAS NO-PARAMETRICAS
La función confiabilidad R (t ) de Weibull se determina por la siguiente expresión:
R t
f s ds e
t
2
s
La función distribución acumulativa F (t ) es el complemento de la función confiabilidad y se define de la siguiente manera:
F t 1 R t 1 e
t
3
De la expresión anterior, se concluye que la función distribución acumulativa se puede interpretar como la probabilidad de falla. La relación entre la función confiabilidad y la función probabilidad de falla se muestra en la figura 1.
Ing. Fernando Loera Rivera
17
U4: PRUEBAS DE BONDAD DE AJUSTE Y PRUEBAS NO-PARAMETRICAS
Determinación de los parámetros por el método de los mínimos cuadrados Para ilustrar el método de los mínimos cuadrados, se desarrollará paso a paso un ejemplo. El método de los mínimos cuadrados permite calcular los parámetros de forma y escala, mediante la transformación doble logarítmica de la función de distribución acumulativa (ecuación 3). El cálculo del parámetro de localización es más complejo, empleándose para ello rutinas de cálculo, como el programa Solver de Excel. La transformación doble logarítmica permite transformar la función de distribución acumulativa en una ecuación lineal de regresión.
3.1 Deducción de la ecuación lineal de regresión
F t 1 R t 1 e 1
e
t
t
4
Función acumulativa de Weibull
1 F t
1 1 F t
e
t
t 1 ln ln e 1 F t
Aplicando logaritmos naturales
1 t Propiedad exponencial de los logaritmos ln 1 F t 1 t ln ln ln Aplicando logaritmos naturales. 1 F t
1 ln ln ln t ln * 1 F t
La expresión (*) representa una ecuación lineal de la forma y x b
**
La cual es una recta de regresión, con: 1 ; 1 F t
y ln ln
x ln t ;
b ln
Ing. Fernando Loera Rivera
***
18
U4: PRUEBAS DE BONDAD DE AJUSTE Y PRUEBAS NO-PARAMETRICAS
De la expresión (**) se concluye que el parámetro de forma, , es la pendiente de la recta de regresión. De la expresión (***) se observa que el parámetro de escala, , está en función del intercepto b de la recta de regresión y del parámetro de forma ; por lo tanto: b ln
b
ln
e
b
4 Definición de algoritmo
3.2 Rango de mediana Para poder trazar la recta de regresión, se debe calcular un estimador para la función de distribución acumulativa F(x). Este estimador, llamado Rango de mediana, es un estimador no paramétrico basado en el orden de las fallas. Este aspecto implica que la muestra de datos se debe organizar de menor a mayor (en forma ascendente). La expresión matemática para este estimador es:
Donde: Wα (i): Rango de mediana para un nivel de confianza (1-α), donde α es el nivel de significancia y toma el
valor de 0.5 para este estimador. i: Orden de la falla.
n: Número total de datos de la muestra. Fα, v1, v2: Valor crítico de la distribución F, evaluada en el nivel de significancia α y con grados de libertad
v1 y v2. Dada la complejidad de la ecuación (5), generalmente el rango de mediana se aproxima mediante la siguiente expresión, exacta dentro de 0.005 [1]:
Donde: RM( xi): Rango de mediana. i: Orden de falla. n: Número total de datos de la muestra. Ing. Fernando Loera Rivera
19
U4: PRUEBAS DE BONDAD DE AJUSTE Y PRUEBAS NO-PARAMETRICAS
Dado que la ecuación (5) es más exacta, en los cálculos se empelará ésta. Para facilitar su empleo, a continuación se presenta el código fuente para crear una función definida por el usuario en Excel. Para crear la función, síganse los siguientes pasos:
Abra Excel. Hágase la combinación de teclas Alt +F11. Esta acción abrirá el editor de Visual Basic. En el menú insertar de VB, selecciónese la opción Módulo. En el panel derecho, cópiese el siguiente código fuente:
Public Function RangoMediana(alfa As Single, n As Long, i As Long) As Double ’***************************************************************************** ’*Esta función calcula el rango de mediana en función de la distribución F. * ’*alfa representa el nivel de significancia con el que se calcula la dist. F.*
*
’*n es el número de puntos de la muestra.
*
’*i es el orden de falla.
’*****************************************************************************
Dim a As Double, f As Double On Error GoTo ManejarError a = i / (n - i + 1) f = Application.WorksheetFunction.FInv(alfa, 2 * (n - i + 1), 2 * i) RangoMediana = a / (f + a) Salir: Exit Function ManejarError: Select Case Err.Number Case 1004 MsgBox ―Los argumentos (n) o (i) no pueden ser cero.‖, vbCritical + vbOKOnly
Case Else
Ing. Fernando Loera Rivera
20
U4: PRUEBAS DE BONDAD DE AJUSTE Y PRUEBAS NO-PARAMETRICAS MsgBox ―Se ha generado el error ‖ & Err.Number & _
Err.Description, vbCritical + vbOKOnly End Select Resume Salir End Function
Hágase clic en guardar del menú Archivo del editor de VB para guardar la función. Hágase clic en Cerrar y volver a Excel del editor de VB. Esta acción cierra el editor de VB. Para usar la función creada, selecciónese Función del menú Insertar de Excel. Se abre la ventana Insertar función. En la ventana Insertar función, en la lista desplegable O seleccionar una categoría, selecciónese la categoría Definidas por el usuario. En el cuadro de lista Seleccionar una función, hágase clic en RangoMediana. Hágase clic en el botón Aceptar. En la ventana Argumentos de función, digítese los valores de los argumentos. Téngase en cuenta que el valor del argumento alfa siempre es 0.5.
3.3 Pasos 1.- A continuación se presenta la secuencia que se debe seguir en la aplicación del método de los Mínimos Cuadrados.1. Asuma (parámetro de localización) igual cero y ordene los datos de menor a mayor. El criterio de ordenación debe ser el tiempo entre fallas. Véase la tabla 1.
Ing. Fernando Loera Rivera
21
U4: PRUEBAS DE BONDAD DE AJUSTE Y PRUEBAS NO-PARAMETRICAS
2. Calcule el rango de mediana para cada observación usando la ecuación (5) ó (6). En nuestro caso se usará la ecuación (5), empleando la función definida por el usuario RangoMediana. Véase la figura 2.
Los argumentos de la función RangoMediana toman los siguientes valores: Alfa=0.5; n=140 (total de puntos de la muestra); i= toma el valor indicado en la columna A. Los valores calculados se muestran en la tabla 2.
Ing. Fernando Loera Rivera
22
U4: PRUEBAS DE BONDAD DE AJUSTE Y PRUEBAS NO-PARAMETRICAS
3. Calcule el logaritmo natural del tiempo entre fallas para cada observación. Véase la figura 3.
Obsérvese que en la función LN(número) de la columna D, el parámetro de localización, el cual se obtiene de la celda L8, vale cero. Esto es importante, ya que la celda que contiene el parámetro de localización será la celda cambiante de Solver, en el caso que sea necesario calcular este parámetro. Los valores de la abscisa x se muestran en la tabla 3.
Ing. Fernando Loera Rivera
23
U4: PRUEBAS DE BONDAD DE AJUSTE Y PRUEBAS NO-PARAMETRICAS
4. Calcule el valor de la ordenada y, es decir, el logaritmo del logaritmo del inverso de uno menos el rango de mediana para cada uno de las observaciones de la muestra. Véase la figura 4.
Obsérvese la anidación de la función logaritmo. El valor del rango de mediana se obtiene de los datos calculados en la columna C. Los valores de la ordenada y se muestran en la tabla 4.
5. Genere un gráfico con los datos de las columna D y E.
Ing. Fernando Loera Rivera
24
U4: PRUEBAS DE BONDAD DE AJUSTE Y PRUEBAS NO-PARAMETRICAS
Al trazar estos puntos, se genera la recta de regresión. Para ello selecciónese Gráfico del menú Insertar de Excel; aparece la ventana Asistente para gráficos. En ésta, escójase la opción XY (Dispersión) en la lista Tipo de gráfico y síganse las instrucciones en pantalla. Véase la figura 5
Para hallar la ecuación de la recta de regresión, empléense las funciones: PENDIENTE (conocido_y; conocido_x) donde: conocido_y son los valores dependientes (valores de la columna E) y conocido_x son los valores independientes (valores de la columna D) para estimar la pendiente de la recta; INTERSECCIÓN.EJE (conocido_y; conocido_x) para estimar el intercepto de la recta. Para determinar el grado de correlación lineal de los puntos, empléense las funciones: PEARSON (matriz1; matriz2) donde matriz1 son los valores dependientes (columna E) y matriz2 son los valores independientes (columna D). Esta función devuelve el coeficiente de correlación r. COEFICIENTE.R2 (conocido_y; conocido_x) devuelve el cuadrado del coeficiente de correlación. Estos valores, en sí, representan una especie de prueba de bondad de ajuste de la recta de regresión. El coeficiente de correlación está indicando que tan fuerte o débil es la relación lineal entre los datos; si este valor es más cercano a uno, hay una fuerte dependencia lineal. Por otro lado, el coeficiente de determinación, r2, está indicando el porcentaje de los puntos que están relacionados linealmente. Aplicando las anteriores funciones de Excel, se obtiene la siguiente recta de regresión: y=0.6995 x-1.9514
(7)
De donde:
Ing. Fernando Loera Rivera
25
U4: PRUEBAS DE BONDAD DE AJUSTE Y PRUEBAS NO-PARAMETRICAS
El coeficiente de correlación, r, indica que hay una excelente relación (dependencia) lineal de los datos, ya que su valor está muy próximo a uno. El coeficiente de determinación, r2, indica que el 94.64% de los datos están relacionados linealmente. En conclusión, estos valores indican que la muestra se comporta conforme a la función de densidad de Weibull. 6. Estime el valor del parámetro de forma y de escala. Dado que el parámetro de forma es la pendiente de la recta de regresión, de la ecuación (7) se obtiene:
De la ecuación (4), numeral 3.1, se obtiene el valor del parámetro de escala:
3.4 Consideraciones sobre el parámetro de localización Las siguientes consideraciones se deben tener en cuanta al momento de analizar un parámetro de localización diferente de cero. Véanse las referencias bibliográficas [1], [6] a) Si al graficar los puntos de la muestra aparece una cola de puntos hacia arriba o hacia abajo, es un indicativo de que el parámetro de localización debe ser calculado. b) Una cola hacia abajo o una reducción súbita de la pendiente son indicativos de que un parámetro de localización positivo está presente. Véase la figura 5. c) Una cola hacia arriba o un incremento súbito de la pendiente son indicativos de que un parámetro de localización negativo está presente. Este punto está de acuerdo con el intervalo de validez de . Véase el numeral 2. Un parámetro de localización negativo se presenta cuando hay unidades con fallas en servicio, o unidades en servicio con defectos que causarán fallas. Ejemplos:
Defectos originados durante el ensamble. Defectos originados durante el transporte. Defectos originados durante la instalación o montaje. Defectos originados durante el almacenamiento.
d) Valores grandes del parámetro de forma (β>10) son otro indicativo de que el parámetro de localización
debe ser calculado. Teniendo en cuanta las consideraciones anteriores, y analizando la figura 5, se procederá a calcular el parámetro de localización. 3.5 Cálculo del parámetro de localización
Ing. Fernando Loera Rivera
26
U4: PRUEBAS DE BONDAD DE AJUSTE Y PRUEBAS NO-PARAMETRICAS
Para el cálculo del parámetro ensayo y error.
se usará el complemento Solver de Excel, ya que debe ser determinado por
Para empezar, se debe definir la celda cambiante que, como se mencionó en el paso 3 del numeral 3.3, debe ser la celda donde se asignó el valor cero. Esta celda debe estar involucrada en una función. Véase la figura 3. El mejor estimador de es el valor de que proporcione el mejor ajuste de la línea de regresión de los datos muéstrales. El coeficiente de determinación, r2, proporciona esta medida [1], ya que éste mide la cantidad de puntos que están relacionados linealmente y, por lo tanto, la celda que contenga este valor será la celda objetivo a maximizar — pues el objetivo es mejorar el ajuste de la recta de regresión — . Para iniciar el cálculo se debe indicar al programa un punto de inicio, o punto semilla, en la celda cambiante. El mejor valor de inicio de es un valor ligeramente inferior al valor más bajo del tiempo entre fallas de la muestra. Para el ejemplo, el punto semilla sería 0.166 (es ligeramente inferior al valor más bajo del tiempo entre fallas de la muestra, el cual corresponde al dato de orden uno — 0.167 — . Véase la tabla 1). Este constituye la restricción en Solver. Véase la figura 6.
Es importante tener en cuenta que la celda objetivo debe contener una formula que relacione directa o indirectamente el valor de la celda cambiante. Para el ejemplo la formula sería COEFICIENTE.R2 (E3:E142, D3:D142). Obsérvese que el rango del segundo argumento involucra la celda cambiante L8. Véase la figura 3. Al hacer clic en el botón Resolver de la ventana Parámetros de Solver, el programa genera la solución 0.161, siendo este el valor del parámetro de localización, y el coeficiente de correlación se maximiza a 0.9886; es decir, al tener en cuenta el parámetro de localización se mejora el ajuste de la recta de regresión. De igual manera, los parámetros de forma y escala, y los valores de las abscisas (Xi) y ordenadas (Yi) se actualizan. Véase la figura 7.
Ing. Fernando Loera Rivera
27
U4: PRUEBAS DE BONDAD DE AJUSTE Y PRUEBAS NO-PARAMETRICAS
Para que los valores se actualicen automáticamente, éstos deben estar relacionados por fórmulas, tal y como se muestra en la figura 8.
Nótese que el valor del parámetro de localización es positivo, corroborando lo dicho en la parte b) del numeral 3.4. La figura 9 muestra el trazo de la nueva recta de regresión, siendo notable la agrupación de los puntos en forma de línea. Comparece esta figura con la figura 5. En la figura 10 se muestra el gráfico de la función de densidad de Weibull para los parámetros calculados. Reemplazándolos en la ecuación (1) se obtiene la siguiente ecuación:
Ing. Fernando Loera Rivera
28
U4: PRUEBAS DE BONDAD DE AJUSTE Y PRUEBAS NO-PARAMETRICAS
CONCLUSIONES
Ing. Fernando Loera Rivera
29
U4: PRUEBAS DE BONDAD DE AJUSTE Y PRUEBAS NO-PARAMETRICAS
1. El método de los mínimos cuadrados facilita el cálculo de los parámetros de la distribución de Weibull cuando se emplean programas informáticos como Excel. 2. El análisis del gráfico de la recta de regresión sirve de criterio para determinar si es necesario calcular el parámetro de localización. 3. El parámetro de localización tiene un gran efecto en la recta de regresión; sin embargo, se debe analizar concienzudamente si un diferente de cero es necesario. 4. El coeficiente de correlación, r , y el coeficiente de determinación, r2, se constituyen en una prueba de bondad de ajuste para la recta de regresión.
REFERENCIAS BIBLIOGRÁFICAS 1. Dodson, Bryan. The Weibull Analysis Handbook. 2da ed. Milwaukee, Wisconsin: ASQ Quality Press, 2006. 2. Abernethy, Robert B. The New Weibull Handbook. 5ta ed. North Palm Beach, Florida. 2006 3. Walpole, Ronald E y Raymond Meyers. Probabilidad y estadística para ingenieros. 3ra ed. México: Interamericana, 1990 4. Céspedes Zapata, Lucas y Santiago Mejía Isaza. Implementación de un Sistema de Indicadores para la gestión de Mantenimiento de una empresa textilera. Medellín, 2005,194p. Trabajo de grado Ingeniería Mecánica. Universidad EAFIT. Departamento de Ingeniería Mecánica. Área de mantenimiento. 5. Tamborero del Pino, José María. NPT 331: Fiabilidad: La distribución de Weibull [En línea] Disponible en: http://www.insht.es/InshtWeb/Contenidos/Documentacion/FichasTecnicas/NTP/Ficheros/301a400/nt p_331.pdf [Consulta: 22 de julio de 2010] 6. Estimation of the Weibull parameters [En línea] Disponible en: http://www.weibull.com/LifeDataWeb/lifedataweb.htm [Consulta. 26 de julio de 2010] 7. Yáñez, Medardo; Perdomo, José L y Gómez de la Vega, Hernando. Ingeniería de Confiabilidad: Pilar fundamental del mantenimiento [En línea] Disponible en: http://confiabilidad.net/articulos/ingenieriade-confiabilidad-pilar-fundamental-del-mantenimiento/#comment-list [Consulta: 28 de julio de 2010] 8. Duarte Holguín, Juan Carlos. Mantenimiento centrado en confiabilidad usando métodos de simulación del ciclo de vida [En línea] Disponible en: http://www.noria.com/sp/rwla/conferencias/mem/Duarte-paper.pdf [Consulta: 28 de julio de 2010] 9. García Palencia, Oliverio. Optimización estadística del mantenimiento industrial [En línea] Disponible en: http://www.aciem.org/bancoconocimiento/O/Optimizacionestadisticadelmantenimientoindustr/Optimi zacionestadisticadelmantenimientoindustr.asp [Consulta: 28 de julio de 2010] 10. Luna, Ana Eugenia. Teoría de la confiabilidad [En línea] Disponible en: http://focuslab.lfp.uba.ar/public/CursoTErrores2k4/Monografias2005/Ana_E_Luna.pdf [Consulta: 22 de julio de 2010]
Ing. Fernando Loera Rivera
30
U4: PRUEBAS DE BONDAD DE AJUSTE Y PRUEBAS NO-PARAMETRICAS
4.3.2 Aplicaciones del paquete computacional Ajuste de datos con Stat::Fit La herramienta Stat::Fit de ProModel se utiliza para analizar y determinar el tipo de distribución de probabilidad de un conjunto de datos. Esta utilería permite comparar los resultados entre varias distribuciones analizadas mediante una calificación. Entre sus procedimientos emplea la prueba Chi-cuadrada, de Kolmogorov-Smirnov y de Anderson-Darling. Además, calcula los parámetros apropiados para cada tipo de distribución, e incluye información estadística adicional como media, moda, valor mínimo, valor máximo y varianza, entre otros. Resolviendo el ejemplo 4 con ProModel, nos da las siguientes estadísticas:
Ing. Fernando Loera Rivera
31
U4: PRUEBAS DE BONDAD DE AJUSTE Y PRUEBAS NO-PARAMETRICAS A continuación le pedimos en base a sus cálculos, nos diga y nos muestre el tipo de distribución que siguen los datos:
Ing. Fernando Loera Rivera
32
U4: PRUEBAS DE BONDAD DE AJUSTE Y PRUEBAS NO-PARAMETRICAS
EJERCICIOS PARA LA UNIDAD 4
Ejercicios:
1. Utilice la prueba Chi-cuadrada para determinar, con un nivel de confianza de 90%, qué tipo de distribución siguen los siguientes datos: 17.392
8.110
4.078
3.151
3.528
2.052
10.369
3.690
10.870
4.793
2.498
0.569
8.281
0.154
5.959
3.384
12.877
13.602
5.244
16.677
5.977
4.313
4.767
2.381
6.443
1.392
1.578
8.115
4.891
6.720
7.728
10.451
5.901
0.818
7.088
2.637
4.714
3.032
1.495
15.733
7.768
2.333
7.822
3.708
6.412
1.290
3.957
5.285
7.094
3.078
1.264
2.630
10.177 2.155
2.945
7.552
11.094
4.772
7.281
14.344
19.867
0.119
2.072
1.486
3.791
4.214
1.611
1.781
1.530
3.280
4.301
0.202
7.489
1.422
1.453
0.022
6.001
9.269
8.477
3.043
0.877
6.966
2.103
1.816
0.433
2.547
0.843
1.182
8.121
2.007
1.395
4.661
7.378
5.300 17.066
12.171
2.717
Ing. Fernando Loera Rivera
2.440
5.924
3.461
33
U4: PRUEBAS DE BONDAD DE AJUSTE Y PRUEBAS NO-PARAMETRICAS
2. A partir de la prueba Chi-cuadrada determine, con un nivel de confianza de 90%, ¿Qué tipo de distribución siguen los datos? 18.799
14.889
20.977
25.106
24.793
26.933
11.266
19.063
24.380
15.653
17.239
13.238
12.612
16.089
16.906
11.528
17.728
18.384
20.539
18.538
18.692
18.519
25.371
19.659
19.255
17.947
27.889
23.463
29.503
17.380
26.646
13.550
22.156
23.609
27.676
19.662
17.905
22.701
18.475
23.030
14.223
16.611
13.914
18.548
19.870
20.112
18.709
28.778
13.030
17.054
9.690
25.791
14.881
17.386
23.031
21.867
23.498
22.383
14.513
15.537
22.776
21.291
16.241
19.036
20.526
22.231
20.555
16.356
27.539
21.949
20.289
23.319
23.448
17.454
16.307
24.445
15.195
13.764
22.845
22.554
28.823
25.775
25.216
20.452
20.008
21.815
19.898
15.781
12.901
23.313
21.777
22.472
20.854
15.892
24.953
18.755
16.640
16.715
18.284
18.187
3. Determine, con un nivel de confianza de 90%, qué tipo de distribución siguen los datos; utilice la prueba Chi-cuadrada 12.656
11.664
11.855
11.399
11.845
Ing. Fernando Loera Rivera
9.766
11.866
10.671
12.157
12.503 34
U4: PRUEBAS DE BONDAD DE AJUSTE Y PRUEBAS NO-PARAMETRICAS
13.317
11.381
11.252
12.146
11.769
11.792
13.577
12.038
11.854
13.830
11.369
13.271
11.985
11.936
13.610
12.363
12.437
11.765
12.683
11.931
11.264
10.902
12.204
11.019
13.940
11.873
10.412
11.665
12.957
11.617
11.346
10.634
12.316
11.836
12.571
11.363
11.654
12.286
11.669
12.212
9.526
11.931
12.247
14.116
10.475
10.441
9.695
13.178
14.374
11.610
10.999
12.548
12.659
11.148
12.809
12.660
11.793
10.452
13.013
12.763
11.650
11.309
12.863
12.347
12.556
14.086
12.273
10.893
12.480
10.771
12.566
11.843
12.299
12.357
12.131
11.728
10.653
14.121
13.598
13.049
10.522
10.883
12.533
12.074
11.991
12.161
10.118
11.743
11.062
11.002
4. Emplee la prueba Chi-cuadrada para determinar, con un nivel de confianza de 95%, qué tipo de distribución siguen los datos. 1.679 0.561 2.771 2.327 0.684 0.904 1.228 2.294 1.337 2.775
1.187 0.494 3.141 0.761 3.192 0.598 0.235 2.087 3.399 0.355
0.234 4.923 1.019 1.876 1.427 0.081 2.060 1.424 1.639 0.046
1.780 0.635 2.516 1.506 0.518 2.756 1.182 1.525 3.591 1.243
1.458 0.504 1.182 2.451 2.198 0.151 0.280 0.754 2.393 0.776
2.628 2.606 2.258 0.831 0.922 1.662 7.860 7.145 0.412 0.585
0.504 0.382 0.161 5.715 1.597 0.223 0.664 0.754 3.258 0.667
0.951 1.380 8.055 0.699 2.660 0.531 2.898 1.962 0.256 0.123
1.383 2.700 0.464 1.450 2.933 1.229 2.815 1.613 1.419 1.202
0.486 0.468 2.312 3.582 4.518 0.347 0.121 0.003 0.156 6.985
5. Determine, con un nivel de confianza de 95%, qué tipo de distribución siguen los datos; emplee la prueba de Kolmogorov-Smirnov
12.561 8.322 4.057 11.963 15.154 15.330 3.186 21.500 3.643 3.775
2.695 12.082 7.422 11.143 15.584 9.049 5.599 19.204 9.579 8.423 7.958 7.103 9.051 11.118 7.160 13.528 27.334 3.178 16.675 1.368
10.335 20.599 6.265 1.784 6.934 16.134 4.449 3.372 1.313 17.583
13.260 2.549 7.508 4.367 10.663 10.257 25.998 12.299 2.005 13.234 0.189 10.165 17.901 15.497 15.334 7.603 10.962 6.936 1.669 11.157
Ing. Fernando Loera Rivera
4.594 1.544 11.475 10.317 5.542 14.624 6.645 31.066 3.140 16.432
2.500 24.930 3.706 8.185 4.688 16.256 3.779 18.993 5.271 12.831 15.696 10.212 5.078 11.555 1.992 21.127 16.877 19.171 2.831 7.844
7.805 14.405 4.688 7.419 8.231 0.891 3.724 10.784 6.620 10.745
35