"Año de la unión nacional frente a la crisis externa"
UNIVERSIDAD NACIONAL MAYOR
DE SAN MARCOS
(Universidad del Perú, DECANA DE AMERICA)
FACULTAD DE INGENIERIA INDUSTRIAL
"GRAFICAS DE CONTROL MULTIVARIADO PARA OBSERVACIONES INDIVIDUALES"
CURSO:
CONTROL DE CALIDAD
PROFESOR:
ING. CEVALLOS AMPUERO, JUAN MANUEL
GRAFICAS DE CONTROL MULTIVARIADO PARA OBSERVACIONES INDIVIDUALES
NOLA D. TRACY, JOHN C. YOUNG
McNeeseStateUniversity, Lake Charles, LA70609-2340
ROBERT L. MASON
Southwest Research Institute, San Antonio, TX78228-0510
Cuando p características del proceso de correlación se están midiendo al mismo tiempo, frecuentemente las observaciones individuales son inicialmente recogidas. Los datos de proceso se controlan y las causas especiales de variación son identificadas con el fin de establecer el control y para obtener una muestra de referencia "limpia", para usar como base en la determinación de los límites de control para futuras observaciones. Un método común de construir graficas de control multivariable se basa en el estadístico T2 de Hotelling. En la actualidad, cuando un proceso está en la etapa de puesta en marcha y sólo las observaciones individuales están disponibles, se utilizarán distribuciones F y chi-cuadrado aproximados para la construcción de los límites de control multivariables necesarias. Estas aproximaciones son conservadoras en esta situación. Este artículo presenta un método exacto, sobre la base de la distribución beta, para la construcción de límites de control multivariable en la etapa de puesta en marcha. Un ejemplo de la industria química ilustra que este procedimiento es una mejora sobre técnicas aproximadas, especialmente cuando el número de subgrupos es pequeño.
INTRODUCCIÓN
La calidad de la salida de un proceso de producción frecuentemente se mide por el nivel de articulación de varias características correlacionadas. Por ejemplo, un proceso químico puede estar en función de la temperatura y la presión, los cuales deben ser supervisados cuidadosamente, de un grado particular de la madera podría depender características de correlación como rigidez y resistencia a la flexión.
Hawkins (1974) se refiere a un proceso en geoquímica de la minería del carbón en la que cada observación se compone de 14 características correlacionadas. En estos tipos de situaciones, gráficos de control univariados independientes para cada característica se utilizan a menudo la detectar cambios inherentes a la variabilidad del proceso. Cuando estas características están mutuamente correlacionadas, algunas veces, los gráficos de control univariado no son tan sensibles como los métodos multivariables que aprovechan la correlación. Mientras Hotelling (19 47) fue uno de los primeros en notar los inconvenientes en la correlación de variables mediante gráficos de control univariados independientes, muchos libros de control de calidad de ese entonces (por ejemplo, Ryan (1989)) contenían ejemplos de procesos multivariables donde el uso de gráficas individuales separadas no detectaba condiciones fuera de control.
Muchos de los conceptos de control de calidad multivariable se deben a Hotelling (1947). Excelentes resúmenes y discusiones de estas técnicas se encuentran en el Alt (1985), Jackson (1980, 1981a, 1981b, 1985, 1991), Ryan (1989), y Montgomery (1991). Los valores trazados en gráficos de control multivariables están generalmente sobre la base estadística de su distribución T2 conocida (Hotelling (1931)). Esta distribución es la contraparte multivariable a la distribución t de Student. La tabla T2 es particularmente apropiada cuando se correlacionan características de interés.
Hay dos fases diferentes en la construcción de gráficos de control (por ejemplo, véase Alt (1982)). La primera fase ofrece una visión retrospectiva, implica comprobar si el proceso estaba en control cuando los datos iniciales individuales o datos de subgrupos se recogieron en el proceso. El subgrupo representa una muestra de observaciones tomadas en un cierto punto del proceso, tal como una muestra tomada durante un período de tiempo especificado. Esta fase es a menudo denominada la fase de puesta en marcha del proceso ya que el propósito es obtener un conjunto de datos (una muestra de referencia) para establecer los límites de control para la supervisión. El objetivo de la primera etapa es establecer el control estadístico (Es decir, un proceso "limpio") y encontrar los límites de control precisos para la etapa dos. La segunda fase consiste en la utilización el gráfico de control para mantener el control, es decir, detectar cualquier desviación del proceso estándar así como graficar futuros subgrupos.
El estadístico multivariable T2 con frecuencia se utiliza como grafica estadística para ambas fases de la construcción de gráficas de control. En la primera fase, de subgrupos con tamaños mayor que uno, y en la segunda fase, donde la preocupación es en el mantenimiento de control de un proceso, los limites de control se determinan utilizando el hecho de que el estadístico T2 sigue una distribución F exacta. En la etapa de puesta en marcha con los datos individuales, sin embargo, los límites de control se calculan utilizando una aproximación basada en la distribución F o chi-cuadrado. El grado de error asociado con la aproximación es desconocido.
El propósito de este trabajo es abordar este problema mediante la presentación de un método exacto para la construcción de un gráfico de control multivariable cuando las observaciones individuales se recogen en la etapa de puesta en marcha etapa. Los resultados se ilustran utilizando un ejemplo de datos reales tomados de la industria química.
ESTABLECIMIENTO DEL CONTROL EN LA ETAPA DE PUESTA EN MARCHA
Considere el caso en el que p características correlacionados están siendo medidas al mismo tiempo y se encuentran en necesidad de control. Se supone que estas características siguen una p- distribución dimensional normal multivariable con un vector de medias µ = (µ1, µ2, ..., µp) y la matriz covarianza , donde µi es la media para la i-ésima característica y es una matriz de p x p que contiene a las varianzas y covarianzas de las características p. La distribución normal multivariable es el análogo de una distribución normal p-dimensional univariado asumido para cada característica. Tenga en cuenta que si un proceso técnicamente no está en control estadístico, como en la situación de puesta en marcha supone aquí, entonces no hay distribución estable para los datos. La asunción de normalidad multivariable es que se hace con el único fin de derivar los límites de control. Después de que el control ha sido establecido, suponemos que los datos siguen una distribución normal razonable. Nuestros resultados dependen de la validez de este supuesto, al igual que la validez de los límites de control habituales para un gráfico de control univariado para individuos requiere el supuesto de normalidad. El supuesto de normalidad multivariable se puede comprobar mediante una apropiada prueba de bondad de ajuste normal multivariable (por ejemplo, véase Gnanadesikan (1977)).
Supongamos que el control del proceso está en el inicio etapa y una muestra de los subgrupos de los datos m del pasado están disponibles para estimar los parámetros de µ y . En algunas situaciones puede que no sea posible tomar subgrupos de tamaño más grande que uno. Esto puede ocurrir ya sea cuando la tasa de producción es demasiado lenta para permitir convenientemente tamaños de subgrupos mayores que uno, o cuando mediciones repetidas difieren sólo a causa de análisis de errores, al igual que en muchos procesos químicos.
Para propósitos de notación, se representa el individuo de la observación i-ésima de las p características de la referente muestra con el vector
El vector medio estimado, cuyos componentes es la media de cada característica, es
Donde
y la matriz de covarianza estimada es
Para construir una gráfica de control multivariable basado en el estadístico T2 de Hotelling, para la observación Xi uno utiliza la formula estadística
La distribución de Qi no es ampliamente conocida, y por lo tanto el control multivariable traza gráficas aproximadas (véase ejemplos en Jackson (1985) o Ryan (1989)) con una distribución chi-cuadrado o una distribución F para obtener los límites del gráfico de control.
Si se supone que las estimaciones de Xm y Sm son la población verdadera de valor µ y , respectivamente, entonces Seber (1984) ha demostrado que la estadística Qi se distribuye como una variable aleatoria chi-cuadrado con p grados de la libertad. En ese caso, el límite de control inferior es
y el límite de control superior es
donde X2 (alfa; p) es 1 – un alfa percentil de la distribución F con p grados de libertad. Si se supone que la observación Xi es independiente tanto de Xm y Sm, entonces la estadística Qi sigue una distribución F con p y m-p grados de libertad (véase el Apéndice para más detalles). En ese caso, el límite inferior de control es
y el límite de control superior es
donde F (a, p, m-p) es el 1-un percentil de la distribución F con p y m-p grados de libertad.
Como ninguno de los supuestos anteriores es válido en la etapa de puesta en marcha descritas aquí, las aproximaciones sugeridas para la distribución de la estadística de gráficos Qi tiene algunos inconvenientes. Por ejemplo, a menos que p sea pequeño, se requiere una muestra grande para encajar la distribución chi-cuadrado (véase Hawkins (1981)). Afortunadamente, estos problemas pueden ser evitados ya que es posible derivar la distribución exacta de Qi. Gnanadesikan y Kettenring (1972), basándose en un resultado de Wilks (1962), han demostrado que el Qi tiene una distribución beta.
Específicamente,
La distribución en (4) es correcta sólo cuando Xi observaciones individuales son recogidos en la fase de puesta en marcha del proceso de (es decir, que se utiliza para calcular los límites de control) son comprobados para ver si entran dentro de los límites de control. En contrario, cuando las futuras observaciones se toman en el "proceso limpio" y se comprueba con los límites de control calculados a partir de los datos de la puesta en marcha, los estadísticos que se forman son independientes de Xm y Sm y siguen una distribución F exacta. Esto se discutirá en más detalle más adelante.
El conocimiento de la distribución correcta de Qi, es necesario para la construcción de los límites de control. El control inferior límite viene dado por
y el límite de control superior está dada por
donde B (alfa; p / 2, (m-p -1) / 2) es el 1-un percentil de la distribución beta con parámetros p / 2 y (m-p -1) / 2. Si las tablas de la distribución beta no están fácilmente disponibles, la relación
entre variables aleatorias con distribuciones beta y F puede ser utilizadas. La aplicación de esta relación da los límites
y
en términos de percentiles de la distribución F.
En muchas situaciones, el LCL se establece en cero. La razón para esto es que cualquier cambio en la media dará lugar a un aumento en el estadístico de Qi, y por lo tanto puede ser la LCL ignorado. Sin embargo, Qi es sensible no sólo a los cambios en el vector medio, sino también a los cambios en la covarianza matriz de los datos. Si la matriz de covarianza fuera a cambiar, podría dar lugar a valores anormalmente pequeños de Qi. Por lo tanto, para detectar los cambios hemos optado por utilizar un LCL distinto de cero. Cabe señalar que los valores grandes de Qi también pueden ser causados por los cambios en la matriz de covarianza y no sólo por los cambios en el vector medio (véase Hawkins (1991)).
Las líneas centrales se muestran normalmente en las gráficas de control univariadas. Esta práctica sería especialmente útil en los gráficos de control multivariables desde los límites superiores y los límites inferiores que no estén espaciadas simétricamente alrededor de la media. Una línea central razonable para este tipo de gráfico multivariable se puede obtener usando la ecuación (6) con alfa = 1 (es decir, utilizando el percentil 50 i-esimo de la distribución F).
EJEMPLO
Tenga en cuenta el conjunto de datos dan en la Tabla 1, que representa datos reales tomados en una fase de puesta en marcha de un proceso industrial químico. La aplicación y los datos se han disfrazado para proteger la información confidencial.
Al igual que muchos procesos químicos, este ejemplo implica la medición simultánea de tres variables: porcentaje de impurezas (X1), temperatura (X 2 ) y la concentración de fuerza (X3) de una sustancia en particular. Las pruebas preliminares no proporcionaron razón para dudar de que los datos sigan una distribución normal multivariable.
En este ejemplo, hay 14 observaciones sobre tres variables, así que m = 14 y p = 3. El vector de la muestra es
y la matriz de covarianza de la muestra es
La matriz de correlación de la muestra Rm se compone de elementos rij que representan el coeficiente de correlación por pares entre Xi y Xj, es decir, el elemento en la fila i y la columna j de Rm está dada por
donde sij es el elemento de la fila i-ésima y la columna j de la matriz de covarianza de la muestra Sm. Para este ejemplo, la matriz de correlación R14 es
Aunque los datos recogidos son de la etapa de puesta en marcha y no representan necesariamente un proceso en control, podemos ver que los elementos fuera de la diagonal de la matriz de correlación en este punto son pares correlacionados. Por lo tanto, un gráfico de control multivariable es apropiado.
Se necesitan límites de control y tablas estadísticas para construir un gráfico de control multivariable. Utilizando la ecuación (1), se dan los valores de la tabla estadística Qi en la Tabla 1. Los límites de control correspondientes utilizados en las ecuaciones (5) y (6) con alfa = 0,01 son
La Figura 1 muestra el gráfico de control multivariable correspondiente. Las observaciones 1 y 5 se encuentran fuera de los límites de control. Estas observaciones fueron examinadas individualmente para determinar una posible causa asignable. Se determinó que el nivel excepcionalmente bajo de impurezas para la observación 1 fue el resultado de un error de muestreo. Por lo tanto, este punto fue retirado de la muestra. Dado que ésta causa asignable podría estar asociada con la observación 5, se retiene la muestra.
En general, la interpretación de un gráfico de control multivariable no simplemente se deduce como una modificación de las tablas univariantes para las variables originales. Se deduce de la definición de Qi en la ecuación (1), que los puntos fuera de los límites de control multivariable son el resultado de uno o más componentes principales que están fuera de control. Una correcta interpretación requiere la consideración de estos componentes principales (véase Jackson (1991)).
Se extrae la observación 1 y se vuelve a calcular los parámetros estimados con , el nuevo vector de medias estimadas:
Así como una nueva matriz de covarianza estimada:
Y una nueva matriz de correlación muestral:
En RI3 las tres variables permanecen correlacionados, pero las correlaciones entre XI y X2 y entre XI y X3 se invierten los signos. Este es un resultado directo de la eliminación de la observación 1, que tenía inusualmente una lectura baja XI, del porcentaje de impurezas.
Los valores recalculados Qi se indican en la última columna de la Tabla 1. Los límites de control correspondientes para esta muestra (ahora de tamaño 13) son relacionados con estos valores Qi, se observa en la Figura 2 que ninguna de las observaciones están fuera de los límites de control. El control estadístico se ha establecido mediante la eliminación de la causa especial de variación, es decir, el punto aberrante causado por un error de muestreo. Ahora tenemos una muestra de referencia que se puede utilizar para calcular los límites de control para la segunda etapa. Es interesante observar que la observación 5, que estaba por debajo del LCL con la muestra completa (m = 14), ahora está dentro del límite control. La dependencia Qi contribuye a esto.
MANTENER EL CONTROL CON LOS VALORES FUTUROS
La segunda fase en la construcción de gráficos de control multivariable consiste en probar para ver si el proceso (restante) permanece en el control como futuros subgrupos como están dibujándose.
En esta etapa el vector promedio y la matriz de covarianza obtenido en la etapa inicial (fase de puesta en marcha) son utilizados para calcular los límites de control, que serán utilizados para probar las futuras observaciones. Así, una futura observación es independiente de y . Nosotros utilizamos Hotelling's statistic.
Donde denota el vector dimensional p de las observaciones futuras de las p características, es el vector promedio dimensional p de las m observaciones en la muestra de referencia "limpio", y es la matriz de covarianza asociada con estas observaciones.
Si el tamaño de la muestra inicial es grande, un enfoque común es asumir la estimación y a partir de la fase de inicio son "standards" y de la misma forma para los parámetros de población real y . El estadístico tendría la siguiente forma.
Y luego seguiría una distribución chi-cuadrado con grados de libertad. Los resultados superior e inferior de los límites de control multivariable son los mismos que en las ecuaciones (2) y (3). Sin embargo estas aproximaciones desde y no son parámetros de población sino son variables aleatorias.
Para realizar la aproximación del chi-cuadrado no es necesario partir de la distribución exacta de sino puede ser obtenida de esta manera
Así, los límites de control exacto son:
Para los datos de la tabla 1 los límites de control serian:
Para el vector futuro de las observaciones
. Si este valor se encuentra dentro de los límites de control, entonces el proceso de esta observación estaría en control.
Ahora bien, usando el método exacto, la UCL para el mantenimiento del control con futuras observaciones es cuatro veces más grande que las UCL obtenidas en el establecimiento del control en la fase inicial. Así, tratando al vector promedio de las muestras iniciales y la matriz de covariancia como si estos fueran independientes de las observaciones, lo cual lleva a una buena UCL conservada cuando haya un pequeño número de subgrupos. En cambio, la aproximación de chi-cuadrada en la ecuación (3) daría UCL=12.84 para ambas situaciones. Esto estaría conservado para los datos inicio pero liberal para los datos futuros.
COMPARACIÓN DE LOS MÉTODOS EXACTOS Y APROXIMADOS
Una simple comparación de las distribuciones exactas y aproximadas sugeridas para el establecimiento del control en la fase inicial de los procesos pueden ser realizados mediante la comparación de valores de los límites de control superior. La tabla 2 da el límite de control superior para un gráfico de control multivariable usando la distribución exacta (beta) y la aproximación (F y chi-cuadrado) con y . Note que para un número pequeño de subgrupos, tal como , con el F aproximado de UCL es 35.72, el chi-cuadrado aproximado de UCL es 16.7, y el UCL exacto es 12.01. Con la aproximación de F es, la aproximación del chi-cuadrado es , y el UCL exacto es 15.83. Esto muestra el error conservativo que resulta a partir del uso de UCL aproximado en la fase de inicio. Cuando el número de variables aumenta, la diferencia entre UCL aproximados llegan a ser más evidentes. Fácilmente pueden hacerse estas comparaciones para cualquier valor de m, p o usando las tablas de distribución F, chi-cuadrado, y beta.
Si los métodos de aproximación discutidos anteriormente para la fase inicial han sido empleados en nuestros datos de ejemplo, los límites de control calculados con el set de datos completos habrían sido diferentes. El uso de la distribución F da un LCL aproximado de0.082 y un UCL aproximado de 29.65. Mientras que el LCL exactamente el mismo, el UCL es más grande que el valor exacto de 8.55.
El uso de la aproximación del chi-cuadrado resulta en un LCL = 0.072 y un UCL=12.84. Nuevamente, ambas aproximaciones nos dan estimados de UCL conservados.
CONCLUSIÓN:
El análisis mediante gráficos de control multivariable puede ser una poderosa herramienta en situaciones de control de procesos que involucran mediciones simultáneas de varias características. Una muestra de referencia representativa es esencial; es importante basar los límites de control construidos en estimaciones precisas de los parámetros. Durante la fase inicial, cuando se usan subgrupos estos consisten en observaciones individuales (es decir, subgrupos de tamaño 1) con las variables de medición, la distribución beta debe ser utilizado para obtener los límites de control para el estadístico de (es decir, el Qi 's).
El uso de esta distribución exacta es mejor que emplear las distribuciones de aproximación de F y chi-cuadrada, especialmente cuando el número de subgrupos es pequeño, una condición apta para ser frecuente en situaciones de puesta en marcha.
Agradecimientos
Los autores desean agradecer a Dr John Cornell, el Dr. Peter Nelson, y los árbitros por sus muchos comentarios y sugerencias que mejoraron en gran medida este trabajo. Dr. Tracy fue apoyado en parte por una subvención del Fondo de Iniciativa de Investigación Shearman.
Apéndice
Teorema (Seber (1984, pp 30-31)): Que , donde , ), y son estadísticamente independientes. y son utilizados para denotar la dimensión normal d y la distribución Wishart.
Usando la notación de este documento, considere un conjunto de observaciones multivariables iniciales Xl, X2, .. . , Xm, y una futura observación Xj, donde cada Xi es un vector de observaciones de p variables. Si
Luego:
Ahora supongamos que , y son independientes, como es el caso cuando y se calculan a partir de los datos iniciales y es una observación futura. Entonces
Si se define el estadístico
Luego
Lo que conduce a: