UNIVERSIDAD UNIVERSIDAD NACIONAL AGRARIA LA MOLINA FACULTAD DE INDUSTRIAS ALIMENTARIAS
FUNDAMENTOS DE LA ESTADÍSTICA CURSO: Control de calidad de los alimentos PROFESORA: Mg. Rocio Moscol ALUMNOS: ●
Limo Escobar, Claudia
●
Pacheco Carrillo, Mateo
●
Pari Choque, Sandra
●
Quispe Orellana, Vanessa
●
Rengifo Gutiérrez, Annie
●
Valencia Romero, Rey
Lima – Perú Perú 2018
I.
OBJETIVO El presente trabajo tiene como objetivo revisar los conceptos y aplicaciones de los fundamentos de estadística, debido a su importante relación y aporte con las actividades relacionadas al control de calidad de alimentos.
II.
REVISIÓN DE LITERATURA Y APLICACIONES
2.1. DISTRIBUCIONES DE FRECUENCIA 2.1.1. DEFINICIONES RELATIVAS A LAS DISTRIBUCIONES DE FRECUENCIAS
DISTRIBUCIÓN DE FRECUENCIA Según Serrano (1993), la distribución de frecuencia es la representación conjunta de los datos en forma de tabla o subgrupo de datos correspondientes a un fenómeno en estudio y su ordenamiento en base al número de observaciones que corresponden a cada dato o a cada grupo de datos, adecuados según cronología, geografía, análisis cuantitativo o cualitativo. Alea (1999), menciona que los conceptos básicos que se deben de tener en cuenta para poder entender la aplicación de las l as distribuciones de frecuencias son los siguientes: Distribución de frecuencias absolutas: Es una tabla que presenta de manera ordenada los distintos valores de una variable y sus correspondientes frecuencias. Su forma más común es la siguiente:
Variable (xi) x1
f i
Fi
hi
Hi
f 1
F1
hi = f 1 / n
h1
x2
f 2
f 1 + f 2
h2 = f 2 / n
h1 + h2
…
…
…
…
…
xn
f n
hn = f n / n
h1+h2+…+hn
∑ f i = n
f 1+ 1+f 2 + … +f n
∑ hi = n
FRECUENCIA ABSOLUTA ( f i) Es el número de veces que se repite cada valor de la variable en el conjunto de todas las observaciones de la misma. En general la frecuencia absoluta del dato xi se representa por f i.i. PROPIEDAD: La suma de todas las frecuencias absolutas es igual al total de observaciones (n).
FRECUENCIA ACUMULADA ( Fi)
Es la suma de las frecuencias absolutas de los valores inferiores o iguales al considerado. Evidentemente los valores de la variable deben de estar ordenados en forma creciente. En general, la frecuencia absoluta acumulada del dato xi se representa por Fi. Evidentemente, la última frecuencia absoluta acumulada coincide con el tamaño de la muestra. Se verifica pues:
∑ =
PROPIEDAD: PROPIEDAD: La última frecuencia acumulada absoluta es igual al total de observaciones.
FRECUENCIA RELATIVA ( hi) Es el cociente entre la frecuencia absoluta y el número total de datos u observaciones. El número total de datos lo representamos por n, y la frecuencia relativa del dato x i se representa por hi. Se verifica, por lo tanto: hi = f i / n
PROPIEDAD: PROPIEDAD: La suma de todas las frecuencias relativas es igual a la unidad.
FRECUENCIA RELATIVA ACUMULADA ( Hi) Es aquella que resulta de dividir cada una de las frecuencias acumuladas entre número total de datos. Se designa con las letras Hi.
PROPIEDAD: PROPIEDAD: La última frecuencia relativa acumulada es la unidad. Distribuciones de frecuencias agrupadas: Son aquellas distribuciones en la que las disposiciones tabulares de los datos estadísticos se encuentran ordenados en clases y con la frecuencia en cada clase; es decir, los datos originales de varios valores adyacentes del conjunto se combinan para formar un intervalo de clase. Los datos se agrupan en clases con el fin de sintetizar, resumir, condensar o hacer que la información obtenida de una investigación sea manejable con mayor facilidad. Componentes de una distribución de frecuencias de clases
CLASE O INTERVALOS DE CLASE Son divisiones o categorías en las cuales se agrupan un conjunto de datos ordenados con características comunes. Cada uno de estos intervalos está delimitado (acotado) por dos valores extremos que llamamos límites inferior y superior de la clase y los denotaremos por Li-1, Li.
̇
PUNTO MEDIO O MARCA DE CLASE ( ) Es la semisuma del límite inferior y superior de una clase, tal como lo indica la siguiente formula:
̇ −2+
AMPLITUD O RANGO El rango (R) o recorrido estadístico es la diferencia entre el valor máximo y el mínimo de un conjunto de datos.
áí
LONGITUD O TAMAÑO DEL INTERVALO Los intervalos de clases pueden ser de tres tipos: Clases de igual tamaño, clases de tamaños desiguales y clases abiertas. El número de intervalos de clase se designa por las letras Ic, y se determinan de la siguiente manera:
1+3.3log() Dónde el tamaño del intervalo de clase (TIC) es igual a:
APLICACIÓN: Una empresa dedicada a la elaboración de harina de granos andinos, desea sacar una nueva línea de productos basada en harina de cañihua (en presentaciones de 1 kg). Para ello realizó un estudio de mercado, en dónde encuestó a 40 personas. Ésta encuesta consistió en promocionar el producto en supermercados y preguntar a aquellas personas interesadas cual consideraría que sería el precio ideal para este tipo de producto. Los datos obtenidos (en soles) fueron:
3.3 4.2 4.5 5.1
3.3 4,3 4.7 5.3
3.7 4.3 4.7 5.3
3.8 4.3 4.7 5.4
3.9 4.3 4.7 5.6
3.9 4.4 4.8 5.8
4.4 3.9 4.8 5.8
4.0 4.5 5.0 6.0
4.1 4.5 5.0 6.1
4.2 4.5 5.1 6.1
Procedimiento: 1. El menor valor es 3.3 y el mayor 6.1, la diferencia es 2.8 y por tanto R = 2.8 2. K= 1 + 3.322 log (40) = 6.3 ≈ 6 números de intervalos 3. Ic = 2.8/6 = 0.467 ≈ 0.5 tamaño de los intervalos
Así pues, la tabla sería: Clases [3.3, 3.8) [3.8, 4.3) [4.3, 4.8) [4.8, 5.3) [5.3, 5.8) [5.8, 6.3)
f i 3 8 14 6 4 5
3 11 25 31 35 40
hi 0.075 0.2 0.35 0.15 0.1 0.125
Hi. 0.075 0.275 0.625 0.775 0.875 1
¿Cuántas personas prefieren que el precio del producto se encuentre entre 3.3 y 3.8 soles? -
3 personas
¿Cuántas personas consideraron un precio superior a 4.8? -
15 personas
¿Qué porcentaje de personas aceptan un precio de como mucho 4.3 soles? -
27.5 %
2.1.2. Representaciones gráficas
Histograma de frecuencia Diagrama de frecuencia Diagrama de barras Polígono de frecuencia
2.1.3. Medidas algebraicas de las distribuciones de frecuencia
Medidas de exactitud
Medidas de precisión
Según el diccionario internacional de metrología (2018), la precisión se define como la proximidad entre las indicaciones o los valores medidos obtenidos en mediciones repetidas de un mismo objeto, o de objetos similares, bajo condiciones especificadas. Las “condiciones especificadas” pueden ser condiciones de repetibilidad, condiciones de
precisión intermedia, o condiciones de reproducibilidad. La precisión se utiliza para definir la repetibilidad de medida, la precisión intermedia y la reproducibilidad. (ISO 5725-1994)
El término precisión denota simplemente repetibilidad, es decir, está asociado a la dispersión de las mediciones reiteradas, las cual es habitual expresarla numéricamente mediante medidas de dispersión tales como la desviación típica, la varianza o el coeficiente de variación bajo las condiciones especificadas (Ruiz et al. 2010)
2.2. DISTRIBUCIONES MÁS COMUNES
Distribución normal
La distribución de probabilidad continua más importante en todo el campo de la estadística es la distribución normal. Su gráfica, denominada curva normal, se representa en la figura 1, la cual describe de manera aproximada muchos fenómenos que ocurren en la naturaleza, la industria y la investigación (Walpole, 2012).
Figura 1: La curva normal Según Sáez (2012), su uso tan extendido se justifica por la frecuencia o normalidad con la que ciertos fenómenos tienden a parecerse en su comportamiento a esta distribución, ya que muchas variables aleatorias continuas presentan una función de densidad cuya gráfica tiene forma de campana. Esto, a su vez, es debido a que hay muchas variables asociadas a fenómenos naturales cuyas características son compatibles con el modelo aleatorio que supone el modelo de la normal: Caracteres morfológicos de individuos (personas, animales, plantas, etc.) de una especie (tallas, pesos, envergaduras, diámetros, perímetros, etc.); errores cometidos al medir ciertas magnitudes, valores estadísticos muestrales como por ejemplo la media. La distribución normal a menudo se denomina distribución gaussiana. Una variable aleatoria continua X que tiene la distribución en forma de campana de la figura 1 se denomina variable aleatoria normal. La ecuación matemática para la distribución de probabilidad de la variable normal depende de los d os parámetros μ y σ, su media y su desviación estándar,
respectivamente. Por ello, se denotan los valores de la densidad de X por n(x; μ, σ). (Walpole et al. 2012). La densidad de la variable aleatoria normal X, con media μ y varianza σ 2, es :
En general, cualquier característica que se obtenga como suma de muchos factores independientes encuentra en la distribución normal un modelo adecuado. Ejemplo de aplicación: Enunciado:
En un proceso industrial el diámetro de un cojinete de bolas es una medida
importante. El comprador establece que las especificaciones en el diámetro sean 3.0 ± 0.01 cm. Esto implica que no se aceptará ninguna parte que no cumpla estas especificaciones. Se sabe que en el proceso el diámetro de un cojinete tiene una distribución normal con media μ = 3.0 y una desviación estándar σ = 0.005. En promedio, ¿cuántos de los cojinetes fabricados
se descartarán? Solución:
La distribución de los diámetros se ilustra en la fi gura 6.16. Los valores que
corresponden a los límites especificados son x1 = 2.99 y x2 = 3.01. Los valores z correspondientes son:
Por lo tanto:
A partir de la tabla P(Z < – 2.0) = 0.0228. Debido a la simetría de la distribución normal, encontramos que:
Como resultado se anticipa que, en promedio, se descartarán 4.56% de los cojinetes fabricados.
Distribución binomial
Según Walpole et al. (2012), con frecuencia un experimento consta de pruebas repetidas, cada una con dos resultados posibles que se pueden denominar éxito o fracaso. La aplicación más evidente tiene que ver con la prueba de artículos a medida que salen de una línea de ensamble, donde cada prueba o experimento puede indicar si un artículo está o no defectuoso. Podemos elegir definir cualquiera de los resultados como éxito. El proceso se conoce como proceso de Bernoulli y cada ensayo se denomina experimento de Bernoulli. En términos estrictos el proceso de Bernoulli se caracteriza por lo siguiente: 1. El experimento consta de ensayos repetidos. 2. Cada ensayo produce un resultado que se puede clasificar como éxito o fracaso. 3. La probabilidad de un éxito, que se denota con p, permanece constante de un ensayo a otro. 4. Los ensayos repetidos son independientes. El número X de éxitos en n experimentos de Bernoulli se denomina variable aleatoria binomial. La distribución de probabilidad de esta variable aleatoria discreta se llama distribución binomial y sus valores se denotarán como b(x; n, p), ya que dependen del número de ensayos y de la probabilidad de éxito en un ensayo dado. Un experimiento de Bernoulli puede tener como resultado un éxito con probabilidad p y un fracaso con probabilidad q = 1 – p. Entonces, la distribución de probabilidad de la variable aleatoria binomial X, el número de éxitos en n ensayos independientes, es:
La distribución binomial tiene aplicaciones en muchos campos científicos. Por ejemplo, un ingeniero industrial está muy interesado en “la proporción de artículos defectuosos” en cierto proceso industrial. A menudo las medidas de control de calidad y los esquemas de muestreo para procesos se basan en la distribución binomial, la cual se aplica en cualquier situación industrial donde el resultado de un proceso es dicotómico y los resultados del proceso son independientes, y además la probabilidad de éxito se mantiene constante de una prueba a otra. (Walpole et al. 2012). Ejemplo de aplicación:
Enunciado:
Una cadena grande de tiendas al detalle le compra cierto tipo de dispositivo
electrónico a un fabricante, el cual le indica que la tasa de dispositivos defectuosos es de 3%. a) El inspector de la cadena elige 20 artículos al azar de un cargamento. ¿Cuál es la probabilidad de que haya al menos un artículo defectuoso entre estos 20? b) Suponga que el detallista recibe 10 cargamentos en un mes y que el inspector prueba aleatoriamente 20 dispositivos por cargamento. ¿Cuál es la probabilidad de que haya exactamente tres cargamentos que contengan al menos un dispositivo defectuoso de entre los 20 seleccionados y probados? Solución:
a) Denote con X el número de dispositivos defectuosos de los 20. Entonces X sigue una distribución b(x; 20, 0.03). Por consiguiente;
b) En este caso cada cargamento puede o no contener al menos un artículo defectuoso. Por lo tanto, el hecho de probar el resultado de cada cargamento puede considerarse como un experimento de Bernoulli con p = 0.4562 del inciso a). Si suponemos la independencia de un cargamento a otro, y si se denotamos con Y el número de cargamentos que contienen al menos un artículo defectuoso, Y sigue otra distribución binomial b(y; 10, 0.4562). Por lo tanto;
Distribución Poisson
Según Zylberberg (2006), el proceso de Poisson es un proceso que consiste en considerar un continuo, en el cual ocurren eventos. Si por ejemplo se considera la cantidad de fallas que una máquina tiene en 3 horas, el continuo es el tiempo, y los eventos son las fallas de la máquina. Otro ejemplo puede ser considerar la cantidad de muertes por determinada enfermedad en un año. Pero el continuo al que nos referimos no tiene necesariamente que ser tiempo. Por ejemplo se puede considerar un rollo de tela de 100 metros de longitud y contar la cantidad de manchas en ese tramo. En ese ejemplo, el continuo es la tela y los eventos las manchas.
Se definen las siguientes variables:
Τ: la longitud de un intervalo del continuo que va a estudiarse.
k: la cantidad de eventos que hay en ese intervalo.
λ: la cantidad esperada de eventos por unidad de tiempo (intensidad).
A partir de los tres principios del proceso de Poisson debería ser evidente que la distribución de Poisson se relaciona con la distribución binomial. Aunque la de Poisson por lo general se aplica en problemas de espacio y tiempo se podría considerar como una forma limitante de la distribución binomial. En el caso de la distribución binomial, si n es bastante grande y p es pequeña, las condiciones comienzan a simular las implicaciones de espacio o tiempo continuos del proceso de Poisson (Walpole et al. 2012). El número X de resultados que ocurren durante un experimento de Poisson se llama variable aleatoria de Poisson y su distribución de probabilidad se llama distribución de Poisson. El número medio de resultados se calc ula a partir de μ = λt, donde t es el “tiempo”, la “distancia”, el “área” o el “volumen” es pecíficos dependen de λ,
de interés. Como las probabilidades
se denota la tasa de ocurrencia de los result ados con p(x; λt).
La distribución de probabilidad de la variable aleatoria de Poisson X, la cual representa el número de resultados que ocurren en un intervalo de tiempo dado o región específicos y se denota con t, es:
Ejemplo de aplicación: Enunciado: El número promedio de camiones-tanque que llega cada día
a cierta ciudad
portuaria es 10. Las instalaciones en el puerto pueden alojar a lo sumo 15 camiones-tanque por día. ¿Cuál es la probabilidad de que en un día determinado lleguen más de 15 camiones y se tenga que rechazar algunos? Solución: Sea X el número
de camiones-tanque que llegan cada día. Entonces, usando la
tabla, se tiene;
Distribución Hipergeométrica
La manera más simple de ver la diferencia entre la distribución binomial y la distribución hipergeométrica consiste en observar la forma en que se realiza el muestreo. Los tipos de aplicaciones de la distribución hipergeométrica son muy similares a los de la distribución binomial. Interesa el cálculo de probabilidades para el número de observaciones que caen en una categoría específica. Sin embargo, la distribución binomial requiere que los ensayos sean independientes. Por consiguiente, si se aplica esta distribución, digamos, tomando muestras de un lote de artículos (barajas, lotes de artículos producidos), el muestreo se debe efectuar reemplazando cada artículo después de observarlo. Por otro lado, la distribución hipergeométrica no requiere independencia y se basa en el muestreo que se realiza sin reemplazo (Walpole et al. 2012). En general, interesa la probabilidad de seleccionar x éxitos de los k artículos considerados éxitos y n – x fracasos de los N – k artículos que se consideran fracasos cuando una muestra aleatoria de tamaño n se selecciona de N artículos. Esto se conoce como un experimento hipergeométrico; es decir, aquel que posee las siguientes dos propiedades: 1. De un lote de N artículos se selecciona una muestra aleatoria de tamaño n sin reemplazo. 2. k de los N artículos se pueden clasificar como éxitos y N – k se clasifican como fracasos. El número X de éxitos de un experimento hipergeométrico se denomina variable aleatoria hipergeométrica. En consecuencia, la distribución de probabilidad de la variable hipergeométrica se conoce como distribución hipergeométrica, y sus valores se denotan con h(x; N, n, k), ya que dependen del número de éxitos k en el conjunto N del que se seleccionan n artículos. (Walpole et al. 2012). La distribución de probabilidad de la variable aleatoria hipergeométrica X, el número de éxitos en una muestra aleatoria de tamaño n que se selecciona de N artículos, en los que k se denomina éxito y N – k fracaso, es;
Ejemplo de aplicación:
Enunciado:
Lotes con 40 componentes cada uno que contengan 3 o más defectuosos se
consideran inaceptables. El procedimiento para obtener muestras del lote consiste en seleccionar 5 componentes al azar y rechazar el lote si se encuentra un componente defectuoso. ¿Cuál es la probabilidad de, que en la muestra, se encuentre exactamente un componente defectuoso, si en todo el lote hay 3 defectuosos? Solución:
Si se utiliza la distribución hipergeométrica con n = 5, N = 40, k = 3 y x = 1, se
estima que la probabilidad de obtener un componente defectuoso es:
De nueva cuenta este plan no es adecuado porque sólo 30% de las veces detecta un lote malo (con 3 componentes defectuosos).
2.3. RELACIÓN ENTRE DOS VARIABLES 2.3.1. Correlación Ramón (2000), menciona que la Correlación es una técnica estadística usada para determinar la relación entre dos o más variables. Por ejemplo, en la industria alimentaria podría usarse para relacionar la cantidad de sustrato en relación al crecimiento de una bacteria determinada para
la
realización
de
una
fermentación
láctica.
2.3.2. Coeficiente de correlación Lahura (2003) señala que el coeficiente de correlación es un estadístico que proporciona información sobre la relación lineal existente entre dos variables cualesquiera. Básicamente, esta información se refiere a dos características de la relación lineal: la dirección o sentido y la cercanía o fuerza. Es importante notar que el uso del coeficiente de correlación sólo tiene sentido si la relación bivariada a analizar es del tipo lineal. Si ésta no fuera no lineal, el coeficiente de correlación sólo indicaría la ausencia de una relación lineal más no la ausencia de relación alguna. La correlación es en esencia una medida normalizada de asociación o covariación lineal entre dos variables. Esta medida o índice de correlación r puede variar entre -1 y +1, ambos extremos indicando correlaciones perfectas, negativas y positivas respectivamente. Un valor de r = 0 indica que no existe relación lineal entre las dos variables. Una correlación positiva indica que ambas variables varían en el mismo sentido, mientras que una correlación negativa significa que ambas variables varían en sentidos opuestos. Lo interesante del índice de correlación es que r es en sí mismo una medida del tamaño del efecto, que suele interpretarse de la siguiente manera (Vinuesa, 2016): • Correlación despreciable: r < |0.1| • Correlación baja: |0.1| < r <= |0.3| • Correlación mediana: |0.3| < r <= |0.5| • Correlación fuerte o alta: r > |0.5|
Figura n. Coeficiente de Correlación Muestral y Grado de Asociación Lineal Fuente: Lahura (2003)
2.3.3. Regresión: lineal y curvilínea 2.3.3.1. Regresión lineal En la guía de métodos estadísticos para la investigación de la UNALM (2017), mencionan que el análisis de regresión lineal simple trata el problema de predecir o estimar una variable, llamada respuesta, a partir de una variable explicativa. A la primera se le conoce también como variable dependiente y se le representa generalmente con la letra Y, mientras que a la segunda se le conoce como variable independiente y se le representa generalmente con la letra X.
a) Modelo estadístico La estructura del modelo de regresión lineal es la siguiente: Y = β0 + β1X + ε
En esta expresión se admite que todos los factores o causas que influyen en la variable respuesta Y pueden dividirse en dos grupos: el primero contiene a una variable explicativa X y el segundo incluye un conjunto amplio de factores no controlados que se engloba bajo el
nombre de perturbación o error aleatorio, ε, que provoca que la dependencia entre las
variables dependiente e independiente no sea perfecta, sino que esté sujeta a incertidumbre.
b) Estimación del modelo Se parte de una muestra de valores de X e Y medidos sobre n individuos: (x1, y1),(x2, y2), ...,(xn,yn), Se desea estimar valores de Y según el modelo ˆ Y = β0 + β1X, donde β0 y β1 son por el
momento desconocidos. Se debe encontrar de entre todas las rectas la que mejor se ajuste a los datos observados. Para un valor xi, el modelo estima un valor en Y igual a ˆ yi = β0 + β1xi y el valor observado en Y es igual a yi, con lo cual el error de estimación en ese caso vendría dado por ei = yi − ˆ yi = yi − (β0 + β1xi). Se toma como estimaciones de β0 y β1,
aquellos valores que hagan mínima la suma de los errores al cuadrado, que viene dada por:
De ahí que al método de estimación se le llame método de mínimos cuadrados. La solución se obtiene por el mecanismo habitual, derivando SSE con respecto a β0 y β1 e igualando a 0.
Los estimadores resultan:
Siendo:
A la recta resultante ˆ Y = ˆ β0 + ˆ β1X se le llama recta de regresión lineal de Y sobre X. Un último parámetro a estimar en el modelo es la varianza de los errores (σ2). A su estimador se
le denomina varianza residual y viene dada por:
c) Análisis de varianza El análisis de varianza permite evaluar si el modelo es o no significativo (si X explica o no a Y)
Hipótesis Ho: β = 0 H1 β ≠ 0
Cuadro de análisis de varianza
Fuentes de variación
GI
SC
Regresión
1
b SP (XY)
Error
n - 2 SC(Y) - b SP (XY)
Total
n - 1 SC (Y)
CM SC(Reg)/gl(Reg)
Fc CM(Reg)/CM(Error)
SC(Error)/gl(Error)
d) Coeficiente de determinación Mide el porcentaje de la variabilidad de la respuesta que es explicado por la variable predictora.
e) Ejemplo Conforme los quesos maduran, ocurren varios procesos químicos que determinan el sabor del producto final. En un estudio de queso cheddar, 10 muestras de queso fueron analizadas en su composición química. Además, una medida subjetiva del sabor fue obtenida combinando los puntajes asignados por varios sujetos que probaron el queso.
Muestra 1
2
3
4
5
6
7
8
9
10
37.3
21
0.7
40.9
18
15.2
16.8
0.7
Sabor
12.3
47.9
AA
4.543
5.759 5.892
5.242
4.477
6.365
5.247
5.298
5.366 5.328
H2S
3.153
7.496 8.726
4.174
2.996
9.588
6.174
5.22
3.664 3.912
AL
0.86
1.81
1.58
1.06
1.74
1.63
1.33
1.31
1.29
1.25
Las variables son:
Sabor: puntaje subjetivo del sabor AA: logaritmo natural de la concentración de ácido acético H2S: logaritmo natural de la concentración de sulfuro de hidrógeno AL: concentración de ácido láctico Para este caso se toma en cuenta la influencia del ácido acético en el sabor. Se pide además determinar la ecuación de regresión lineal estimada y validar este modelo a un nivel de significación del 5%. Determinando la ecuación de regresión lineal:
Yprom=21.08
Xprom=5.3517
∑X2 = 289.34
∑Y2 = 6789.06
∑XY = 1193.91
.91 10 ∗ 21.08 ∗ 5 .3517 22.44 1193 289 .34 10 ∗ 5 .3517 21 .08 22.44 ∗ 5 .3517 99.03 2
El modelo de regresión lineal estimado es: Ŷ
99.03 + 22.44 ∗
El valor -99.03, corresponde al puntaje estimado del sabor de un queso cuando el logaritmo natural de la concentración de ácido acético es cero. El valor 22.44, indica que por cada incremento unitario en el logaritmo natural de la concentración de ácido acético, se estima un incremento en 22.44 puntos. Validación del modelo de regresión estimado a un nivel de significación de 5%.
Hipótesis Ho: El sabor del queso no depende linealmente de la concentración de ácido acético H1: El sabor del queso si depende linealmente de la concentración de ácido acético Cuadro ANVA
Fuentes de
GI
SC
CM
Fc
Regresión
1
1476
1476
13.58
Error
8
869
109
Total
9
2345
variación
El valor de tabla para un nivel de significación de 5% es F
(0.95, 1, 8) =
5.318. Como el valor
calculado es mayor al valor de tabla se rechaza Ho. En conclusión, existe suficiente evidencia estadística para aceptar que el sabor del queso depende de la concentración de ácido acético a través de un modelo lineal. Cálculo del coeficiente de determinación: 2
1476 0.63 2345
Significa que el 63% de la variabilidad del sabor es explicado por la concentración de ácido acético. Cálculo del coeficiente de correlación:
√ 0.63 0.79
Indica que posee una elevada correlación positiva.
2.3.3.2. Regresión curvilínea En muchos casos, es una función de segundo grado la que se ajusta lo suficiente a la situación real dada. La expresión general de un polinomio de 2º grado es: Y=a+bX+cX 2
Donde a, b y c son los parámetros. Al igual que la regresión lineal, se usa el procedimiento de ajuste de mínimos cuadrados.
Para encontrar los valores de a, b y c que hacen mínima la expresión anterior, se debe igualar las derivadas parciales de D con respecto a dichos parámetros a cero y resolver el sistema resultante. Las ecuaciones que forman dicho sistema se conocen como ecuaciones normales de Gauss.
2.4. PRUEBAS ESTADÍSTICAS 2.4.1. Paramétricas 2.4.1.1. Diseños experimentales a) Diseño completamente al azar Es útil cuando todas las unidades experimentales son homogéneas, es decir cuando la variación entre ellas es pequeña y no existe ningún criterio de bloqueo que permita disminuirla.
Croquis experimental Es una muestra de arreglo de la aleatorización de los tratamientos de las unidades experimentales.
Cuadro de datos Suponga que se desea comparar t tratamientos. El i-ésimo tratamiento cuenta con ni repeticiones y de cada unidad experimental se obtiene una observación.
Modelo aditivo lineal
Yij: Es el valor observado en el i-ésimo tratamiento y la j-ésima repetición. µ: Es el efecto de la media general. τi: Es el efecto del i-ésimo tratamiento εij: Es el efecto del error experimental en el i-ésimo
tratamiento y la j-ésima repetición.
Estimación de los efectos Son estimados por el modelo de mínimos cuadrados.
Análisis de varianza En este modelo la variabilidad total se descompone en dos fuentes de variación: la explicada por los tratamientos y la explicada por el error. Por lo tanto, el modelo de descomposición de la varianza será el siguiente: Variabilidad (total) = Variabilidad (tratamientos) + Variabilidad (error)
El Cuadro de análisis de varianza se muestra a continuación:
Fuentes de variación
GI
Suma de Cuadrados
Cuadrados Medios
Tratamientos
t-1
SC(trat)
SC(trat)/(t-1)
Error
n-t
SC(Error)
SC(Error)/(n - t)
Total
n-1
SC(Total)
Fcal CM(trat)/CM(Error)
Ejercicio En una determinada fábrica de galletas se desea saber si las harinas de sus cuatro proveedores producen la misma viscosidad en la masa. Para ello, produce durante un día 16 masas, 4 de cada tipo de harina, y mide su viscosidad. Los resultados obtenidos son:
Repetición
Proveedor
Proveedor
Proveedor
Proveedor
A
B
C
D
1
98
97
99
96
2
91
90
93
92
3
96
95
97
95
4
95
96
99
98
Solución: Paso 1: Se suma los valores de las unidades experimentales. Y = 1527 Paso 2: Se obtiene el cuadrado de todos los valores de las unidades experimentales y luego se suman, a ese valor se le llamará Σ yij2 Σ yij2 = 145845
Paso 3: Se calcula la suma de cuadrados del total con la fórmula: Suma Cuadrados total = Σ y ij2 - (y..)2 / n
Donde n es el total de los datos 145845 – 15272/16 = 111.9375 Paso 4:
Es necesario encontrar la varianza entre los tratamientos. Primero se obtiene la suma de cada uno de los tratamientos (que se llamarán yi. ). Cada suma de tratamientos se eleva al cuadrado, luego el resultado de cada tratamiento se divide entre el número de repeticiones de ese tratamiento, en este caso todos los tratamientos tienen 4 repeticiones, y finalmente se suman los valores, el resultado se denomina Σ yi.2/ni Σ yi.2/ni = 145747.25
Paso 5: Se calcula la suma de cuadrados de los tratamientos con la fórmula: Suma Cuadrados de tratamientos = Σ y i.2/ni - (y..)2 / n = 14.1875
Paso 6: Se calcula los grados de libertad de los tratamientos que serán: t – 1, donde t es el número de tratamientos. Grados de libertad de tratamientos: = 4 – 1 = 3 Paso 7: Se calcula los grados de libertad del total: n – 1 = 16 – 1 = 15 Paso 8: Completar el cuadro.
Fuente
de Grados
de Suma
de Cuadrados
variación
libertad
cuadrados
medios
Tratamientos
3
14.1875
4.73
Error
12
97.75
8.15
Total
15
111.9375
Paso 9:
Fcal
0.58
Se busca en las tablas de la distribución F el valor al 0.05% de significancia. Los grados de libertad de los tratamientos serán los grados de libertad del numerador y los grados de libertad del error serán los grados de libertad de denominador. F 0.05, 3, 12 = 3.49 Paso 10: Si la F calculada es mayor que la F de las tablas, se concluye que sí hay diferencia entre tratamientos, de lo contrario se concluye que no hay diferencias entre tratamientos. Como 3.49 > 0.58, se concluye que no hay diferencias entre tratamientos
b) Diseño de bloques completamente al azar El diseño DBCA agrupa las unidades experimentales en bloques, de tal manera que las unidades experimentales dentro de cada bloque sean lo más homogéneas posible y las unidades experimentales entre bloques distintos sean heterogéneas. Se debe asumir que no existe interacción entre los bloques y los tratamientos de interés. Los bloques deben ser definidos por el investigador antes de llevarse a cabo el experimento, quien debe estar completamente seguro de la existencia de este factor externo. Una vez realizador el experimento y recolectado los datos utilizando DBCA, si los bloques no resultan significativos (no hay diferencia entre los bloques), los datos no deberían ser analizados como un DCA (Menallo, 2010).
Modelo estadístico y análisis de varianza 1. Se definen los tratamientos y los bloques. Se sortean las unidades experimentales según los bloques. Se realiza el
Ejemplo:
experimento y se recopilan los datos. 2. Se suman todos los valores de las unidades experimentales. A ese valor se le llamará “y”. Se obtiene el cuadrado de todos los valores de las unidades experimentales y luego se suman, a ese valor se le llamará Σ yij 2.
3. Se calcula la suma de cuadrados del total con la siguiente fórmula. Suma se cuadrados total: Σ yij 2 – (y)2 / n Donde n es el total de los datos. 4. Es necesario encontrar la varianza Entre los tratamientos. Primero se obtiene la suma de cada uno de los tratamientos (yi). Cada suma de tratamientos se eleva al cuadrado y se suman los cuadrados.
5. Se calcula la suma de cuadrados de los tratamientos con la fórmula: Suma de cuadrados de tratamientos (Σ yi 2) / r – (y)2 / n Donde r es el número de repeticiones. Nótese que el segundo término ya está calculado. 6. También se debe encontrar la varianza entre los bloques. Primero se obtiene la suma de cada uno de los bloques (yj). Cada suma de bloques se eleva al cuadrado y se suman los cuadrados.
7. Se calcula la suma de cuadrados de bloques con la fórmula: Suma cuadrados de bloques (Σ yj 2) / t – (y)2 / n Donde t es el número de tratamientos. Nótese que el segundo término ya está calculado. 8. Se calcula los grados de libertad de los tratamientos que serán T – 1 Donde t es el número de tratamientos.
9. Se calcula los grados de libertad de los bloques que serán r – 1 Donde r es el número de bloques. 10. Se calcula los grados de libertad del total n- 1 11. Los datos hasta ahora calculados se llenan en la tabla de análisis de varianza. GL son los grados de libertad, SC es la suma de cuadrados y CM son los cuadrados medios. 12. Se calcula los grados de libertad del error: Grados de libertad error: (t – 1)(r -1) También se puede calcular GL del error como: GL error = GL Total – GL tratamientos –
GL bloques 13. Se calcula la suma de cuadrados del error, la fórmula es: SC err = Σyij2 - Σy.j2 / t – Σyi.2 / r + y2 / n El primer término se puede tomar de la fórmula de la SC total, el segundo término de la SC trat. Otra forma de calcular la SC error es: SC error = SC tot – SC trat – SC bloq 14. Se calculan los cuadrados medios de los tratamientos con la siguiente fórmula: CM trat = SC trat / GL trat 15. Se calculan los cuadrados medios de los bloques con la siguiente ecuación: CM bloques = SC bloq / GL bloq 16. Se calculan los cuadrados medios del error con la siguiente fórmula: CM error = SC error / GL error 17. Se calcula el valor F de tratamientos con la siguiente fórmula F = CM trat / CM error 18. Se calcula el valor F de bloques con la siguiente fórmula: F = CM bloques / CM error
19. Se busca en las tablas de la distribución F para los tratamientos con el 0.05% de significancia. Los grados de libertad serán los grados de libertad del numerador y los grados de libertad del error serán los grados de libertad de denominador. 20. Si la F calculada es mayor que la F de las tablas, se concluye que sí hay diferencia entre tratamientos, de lo contrario se concluye que no hay diferencias entre tratamientos. 21. Se busca en las tablas de la distribución F para los bloques con el 0.05% de significancia. Los grados de libertad de los bloques serán los grados de libertad del numerador y los grados de libertad del error serán los grados de libertad del denominador. 22. Si la F calculada es mayor que la F de las tablas, se concluye que sí hay diferencia entre bloques (que si influyen), de los contrario se concluye que no hay diferencias entre bloques (o que no influyen). 23. En caso de que si exista diferencia entre tratamientos o bloques al 95% de seguridad, se puede verificar si existe la misma diferencia al 99%.
c) Diseños cuadrado latino El diseño cuadra latino se usa cuando se tienen tres factores a evaluar en una misma unidad experimental, por ejemplo, la ingesta de varios niveles de suplemento alimenticio, aplicado a vacas de diferente edad, en diferentes ambientes. La condición para aplicar el cuadro latino es que los tres factores deben tener el mismo número de tratamientos. Los tratamientos de un factor se manejarán en columnas, otro factor será como hileras y el siguiente factor se sorteará entre columnas e hileras de tal forma que en cada columna quede cada uno de los tratamientos de los que se sortean (Menallo, 2010). Para tres tratamientos: Al sortear los tratamientos A, B y C en un diseño de 3x3 el resultado puede ser el siguiente:
Para cuatro tratamientos: Al sortear los tratamientos A, B, C y D en un diseño de 4x4 el resultado puede ser el siguiente:
Modelo estadístico y análisis de varianza 1. Se definen los tratamientos de las columnas, de las hileras y de los tratamientos. Se sortean las unidades experimentales, se realiza el experimento y se recopilan los datos.
2. Se suman todos los valores de las unidades experimentales. A ese valor se le llamará “y”.
Se obtiene el cuadrado de todos los valores de las unidades experimentales y luego se suman, a ese valor se le llamará Σyij2.
3. Se calcula la suma de cuadrados del total con la fórmula: Suma Cuad total = Σyij2 - (y)2 / n Donde n es el total de los datos. 4. Para encontrar la varianza entre los tratamientos. Primero se obtiene la suma de cada uno de los tratamientos (que se llamarán yi). Cada suma de tratamientos se eleva al cuadrado y se suman los cuadrados. 5. Se calcula la suma de cuadrados de los tratamientos con la fórmula: SC trat = (Σyi2) / t - (y)2 / n
Donde t es el número de tratamientos. 6. Es necesario encontrar la varianza entre las hileras. Primero se obtiene la suma de cada una de las hileras (que se llamarán “y”). Cada suma de tratamientos se eleva
al cuadrado y se suman los cuadrados.
7. Se calcula la suma de cuadrados de las hileras con la fórmula: SC hileras = (Σyi2) / t - (y)2 / n 8. Para encontrar la varianza entre las columnas. Primero se obtiene la suma de cada una de las columnas (y j). Cada suma de columnas se eleva al cuadrado y se suman los cuadrados.
9. Se calculan la suma de cuadrados de bloques con la fórmula: SC bloques = (Σy j2) / t - (y)2 / n 10. Se calcula los grados de libertad de los tratamientos, hileras y columnas, como todos tienen el mismo número de datos, para todo es: t – 1 11. Se calcula los grados de libertad del total n -1 12. Los datos hasta ahora calculados se llenan en la tabla de análisis de varianza.
13. Se calcula los grados de libertad del error:
GL error = GL total – GL tratamientos – GL hileras – GL columnas 14. Se calcula la suma de cuadrados del error SC error = SC total – SC trat – SC hileras – SC columnas 15. Se calculan los cuadrados medios de los tratamientos, hileras, columnas y error con la siguiente fórmula: CM = SC / GL 16. Se calculan los valores F de tratamientos, hileras y columnas con la siguiente fórmula: F =CM / CM error 17. Se busca en las tablas de la distribución F para tratamientos con el 0.05% de significancia. Los grados de libertad de los tratamientos serán los grados de libertad del numerador y los grados de libertad del error serán los grados de libertad del denominador. 18. Si la F calculada es mayor que la F de las tablas, se concluye que sí hay diferencia entre tratamientos, hileras o columnas, de lo contrario se concluye que no hay diferencias entre tratamientos, hileras o columnas.
Como 0.6 < 4.76, se concluye que no hay diferencias entre tratamientos. Como 0.6 < 4.76, concluye que no ha diferencias entre hileras. Como 14 < 4.76, se concluye que sí hay diferencias entre columnas.
d) Experimentos factoriales El término “experimental factorial” o “arreglo factorial” se refiere a la constitución de los
tratamientos que se quieren comparar. El diseño de tratamientos es independiente del diseños experimental que indica la manera en que los tratamientos se aleatorizan a las diferentes unidades experimentales y las formas de
controlar la variabilidad natural de las mismas. Así por ejemplo, si el diseño experimental es bloques al azar, el modelo es: Yij = μ + τi + βj + ǫij
Si se trata de un diseño factorial, los tratamientos se forman combinando los niveles de los factores en estudio, de manera que el efecto del tratamiento Ti se considera a su vez compuesto de los efectos de los factores y sus interacciones (Unam, 2014). Τ i = τkl = αk + γl + ξkl
Haciendo una equivalencia entre los valores de i y los de k y l suponiendo que el factor A tiene K niveles y el factor B tiene L:
Y el modelo resultante es:
Es poco usual tener diseños experimentales muy complicados en los experimentos factoriales, ya que se dificulta el análisis y la interpretación. La necesidad de estudiar conjuntamente varios efectos obedece a la posibilidad de que el efecto de un fcator cambie según los niveles de otros factores, es decir, que los factores interactúen, o exista interacción (Unam, 2014).
También se utilizan los arreglos factoriales cuando se quiere optimizar la respuesta o variable dependiente, es decir, se quiere encontrar la combinación de niveles de los factores que producen un valor óptimo de la variable dependiente (superficie respuesta) (Unam, 2014). Si se investiga un factor por separado, el resultado puede ser diferente al estudio conjunto y es mucho más difícil describir el comportamiento general del proceso o encontrar el óptimo. En un diseño con dos factores: A con α niveles y B con b niveles, en diseño completamente al azar (factorial axb completo, balanceado, efectos fijos)
Sea Yijk la respuesta para la k-ésima unidad experimental el nivel i de A y j de B
Las hipótesis que se prueban son:
INTERACCIÓN Ejemplo de un factorial 2 x 2 sin y con interacción
Conocer la interacción es más útil que conocer los efectos principales. Una interacción significativa frecuentemente oscurece la significancia de los efectos principales. Cuando hay interacción significativa, se deberán examinar los niveles de un factor, digamos A, con los niveles del o de los otros factores fijos, para conclusiones acerca del efecto principal A. Dos factores: A con α niveles y B con b niveles. Se dice que se tienen una factorial a x b, con diseño completamente al azar (bloques, etc). Se tienen ab tratamientos. Se hace uso de la tabla ANOVA para hallar los principales valores de esta prueba estadística.
2.4.1.2. Prueba de comparación de promedios a) Prueba de “t” de student La distribución t de student es muy parecida a la distribución normal, pero se palica cuando no se conoce la desviación estándar poblacional y el estimador utilizado se calcula en la propia muestra (s, s2). Como casi nunca se dispone de o
2
, el uso de la t de Student es muy
frecuente. A medida que la muestra es mayor (n>100), es casi equivalente utilizar la t de Student o la distribución normal. Para un número alto de grados de libertad, se puede aproximar a la N (0,1)(Laguna, 2014).
Como la distribución t de Student tiene en cuenta el tamaño de la muestra, hay una t distinta para cada tamaño muestra, es decir, para número de grados de libertad. Aunque podemos utilizar la t de Student para contrastar la media de una muestra y la media poblacional de la que ha sido extraída, el uso más habitual de esta distribución es el de comparar las medias de una variable cuantitativa continua entre dos grupos independientes (Laguna. 2014). En este tipo de problemas habrá siempre dos variables: -
Una cuantitativa (variable dependiente que se compara)
-
Otra cualitativa dicotómica (variable independiente)
Se trata de comprobar si la variable cuantitativa depende de la variable dicotómica, es decir, se calcula las medias de la variable continua para los dos grupos de la variable cualitativa y se comprueba si existen diferencias significativas o no entre las medias de dos muestras independientes (Laguna, 2014). Supuestos: -
La prueba F del análisis de variancia debe ser significativa.
-
Distribución normal.
-
Homogeneidad en sus varianzas.
Primero se establece el modelo aditivo lineal
Modelo aditivo lineal Yij = μ + Ƭi + ε ij Donde: Yij = Tiempo de eviscerado obtenido con el i-ésimo programa de motivación en el jésimo operario. μ = Efecto de la medida general del tiempo de eviscerado.
Ti= Efecto del inésimo programa. εij = Efecto del error experimental en el i-ésimo programa de motivavión y el j-ésimo
empleado.
Planteamiento de la hipótesis
- BILATERAL
Caso A Hₒ : μi – μj = μₒ H1 : μi – μj ≠ μₒ
- UNILATERAL Caso B Hₒ : μi – μj = μₒ H1 : μi – μj < μₒ
Caso C Hₒ : μi – μj = μₒ H1 : μi – μj > μₒ
Uso de la prueba estadística t de student, mediante la siguiente fórmula:
En el siguiente ejemplo a desarrollar:
El gerente de personal de una compañía de industrias cárnicas quiere capacitar a los operarios que trabajan en operaciones de eviscerado mediante programas de motivación (Alfa, Beta, Gamma, Sigma) que se ofrecen el mercado. Como no se decide por uno de ellos, realiza un experimento que consiste en distribuir aleatoriamente a 20 empleados en los 4 programas de motivación para posteriormente evaluar su tiempo de eviscerado (en minutos). Los resultados de la capacitación fueron los siguientes:
Al analizar los datos del ejemplo mediante pruebas estadísticas se puede afirmar que los errores se distribuyen normalmente, existe homogeneidad de varianzas y existen diferencias significativas entre los tiempos promedios de tiempo de eviscerado.
Planteamiento de la hipótesis
Se planeó comparar los programas de motivación Alfa y Beta. Pruebe si el tiempo medio de eviscerado del método Alfa es superior al método en Beta en más de 3 minutos. De sus conclusiones a un α=0.05 Hₒ: μ1 – μ2 = 3 H1: μ1 – μ2 > 3 α=0.05
Aplicamos la prueba estadística t, con la siguiente fórmula:
Criterio de decisión
Si tc > ttab = t (0.95, 16) = 1.746; se rechaza H ₒ y se acepta H 1.
ttab es hallado en la tabla de t de student.
Conclusión
A un nivel de significancia de 0.05 existe suficiente evidencia para rechazar Hₒ por lo que se acepta H1. Por lo tanto, se puede afirmar que el tiempo medio de evisceración al aplicar el programa del motivación Alfa es mayor al de Beta en más de 3 minutos.
b) Prueba de Duncan c) Prueba de Tukey
2.4.2. No paramétricas
III.
BIBLIOGRAFÍA
●
CENTRO ESPAÑOL DE METROLOGÍA. 2012. Vocabulario Internacional de Metrología Conceptos fundamentales y generales, y términos asociados 3ed. JCGM. España.
●
Departamento académico de estadística e informática de la UNALM. 2017. Guía del curso de métodos estadísticos para la investigación I.
●
INTERNATIONAL STANDARDS ORGANIZATION. 1994. ISO 5725-1:1994 Accuracy (trueness and precision) of measurement methods and results — Part 1: General principles and definitions. En línea. Consultado el 19 Sep 2018. Disponible en: https://www.iso.org/obp/ui/#iso:std:iso:5725:-1:ed-1:v1:en
●
LAGUNA C., 2014. Inferencia paramétrica: relación entre variables cualitativas y cuantitativas. IACS.
●
LAHURA, E. 2003. El coeficiente de correlación y correlaciones espúreas. PUCP. Lima, Perú.
●
LEA,
V.
1999.
Estadística
Aplicada
a
les
Ciències
Econòmiques
Socials. Barcelona: Edicions McGraw-Hill EUB. ●
MENALLO J., 2010. Diseño de bloques al azar y diseño cuadrado latino. IDEC.
i