Instituto Tecnológico de Minatitlán. UNIDAD 5: REGRESIÓN Y CORRELACIÓN.
Materia: Probabilidad y Estadística.
Nombre del maestro: Ing. Martínez Pérez María Otilia.
Nombre del alumno: De la O Silva Eliel.
2º semestre.
Numero de control: 11230837.
Carrera: Ingeniería Electrónica.
Periodo escolar: Ene.-Jun./2012.
Minatitlán, Veracruz a 16 de mayo del 2012.
1
Índice.
Pagina
5.1 Control de calidad.
3
5.2 Diagrama de dispersión
5
5.3 Regresión lineal simple
7
5.4 Correlación
9
5.5 Determinación y análisis de los coeficientes de
7
correlación y de determinación.
5.6 Distribución normal bidimensional
8
5.7 Intervalos de confianza y pruebas para el coeficiente
9
de correlación.
5.8 Errores de medición. 10
Bibliografía.
2
5.1 CONTROL DE CALIDAD.
Definición El control de calidad estadístico se refiere a la utilización de métodos estadísticos en el seguimiento y mantenimiento de la calidad de los productos y servicios Un método, conocido como muestreo de aceptación, se puede utilizar cuando una decisión debe ser tomada para aceptar o rechazar un grupo de piezas o artículos basados en la calidad encontrado en una muestra. Un segundo método, conocido como control estadístico de proceso, utiliza pantallas gráficas conocidas como gráficos de control para determinar si un proceso debe continuar o debe ajustarse para conseguir la calidad deseada.
El Control Estadístico de la Calidad y la mejora de procesos. Comenzando con la aportación del científico llamado Shewhart, sobre reconocer que en todo proceso de producción existe variación, podemos decir que no podían producirse dos partes con las mismas especificaciones, pues era evidente que las diferencias en la materia prima e insumos y los distintos grados de habilidad de los operadores provocaban variabilidad. Shewhart no proponía suprimir las variaciones, sino determinar cuál era el rango tolerable de variación que evite que se originen problemas.
Causas de variación
Existen variaciones en todas las partes producidas en el proceso de manufactura. Hay dos fuentes de variación:
variación aleatoria se debe al azar y no se puede eliminar por completo. variación asignable es no aleatoria y se puede reducir o eliminar. o Nota: la variación puede cambiar y cambiará la forma, dispersión y tendencia central de la distribución de las características medidas del producto. o
Diagramas de diagnóstico Controles o registros que podrían llamarse "herramientas para asegurar la calidad de una fábrica", esta son las siguientes:
Hoja de control (Hoja de recogida de datos) Histograma Análisis paretiano (Diagrama de pareto) Diagrama de Ishikawa: Diagrama de causa y efecto (Espina de Pescado) Estratificación (Análisis por Estratificación) Diagrama de scadter (Diagrama de Dispersión) Gráfica de control
3
Como elaborar un diagrama de Pareto Partiendo de los descubrimientos del celebre economista y sociólogo italiano Vilfredo Pareto El diagrama de Pareto es una comparación ordenada de factores relativos a un problema. Esta comparación nos va a ayudar a identificar y enfocar los pocos factores vitales diferenciándolos de los muchos factores útiles. Esta herramienta es especialmente valiosa en la asignación de prioridades a los problemas de calidad, en el diagnóstico de causas y en la solución de las mismas, el diagrama de Pareto se puede elaborar de la siguiente manera:
1. Cuantificar los factores del problema y sumar los efectos parciales hallando el total. 2. Reordenar los elementos de mayor a menor. 3. Determinar el % acumulado del total para cada elemento de la lista ordenada. 4. Trazar y rotular el eje vertical izquierdo (unidades). 5. Trazar y rotular el eje horizontal (elementos). 6. Trazar y rotular el eje vertical derecho (porcentajes). 7. Dibujar las barras correspondientes a cada elemento. 8. Trazar un gráfico lineal representando el porcentaje acumulado. 9. Analizar el diagrama localizando el "Punto de inflexión" en este último gráfico. Se ha llegado a verificar la regularidad con la que se dan en las distintas actividades y fenómenos sociales y productivos, el hecho de que unos pocos factores son responsables de la mayoría de los sucesos, en tanto que el resto mayoritario de los elementos o factores generan o poseen escasos efectos, es lo que más comúnmente se cataloga como los "pocos vitales y los muchos triviales". Así en procesos tradicionales de producción podemos tener que el 20% de las causas de imperfecciones o fallas originan o son responsables de entre un 70 y 80% de los defectos detectados. Y al revés, un 80% de las restantes causas generan tan sólo entre un 30 y 20% de los defectos. Que importancia tiene ello? Pues bien, permite atacar unas pocas causas generando un importante impacto total.
4
5.2 DIAGRAMA DE DISPERSIÓN.
Definición. Un diagrama de dispersión es un tipo de diagrama matemático que utiliza las coordenadas cartesianas para mostrar los valores de dos variables para un conjunto de datos. Los datos se muestran como un conjunto de puntos, cada uno con el valor de una variable que determina la posición en el eje horizontal y el valor de la otra variable determinado por la posición en el eje vertical.[1] Un diagrama de dispersión se llama también gráfico de dispersión.
Características principales Impacto visual Un Diagrama de Dispersión muestra la posibilidad de la existencia de correlación entre dos variables de un vistazo. Comunicación Simplifica el análisis de situaciones numéricas complejas Guía en la investigación El análisis de datos mediante esta herramienta proporciona mayor información que el simple análisis matemático de correlación, sugiriendo posibilidades y alternativas de estudio, basadas en la necesidad de conjugar datos y procesos en su utilización. Utilidad
Los diagramas de dispersión pueden utilizarse para examinar: * Relaciones causa-efecto * Relaciones entre dos efectos * Posibilidad de utilizar un efecto como sustituto de otro * Relaciones entre dos posibles causas En las distribuciones bidimensionales a cada individuo le corresponden los valores de dos variables, las representamos por el par (x i, yi). Si representamos cada par de valores como las coordenadas de un punto, el conjunto de todos ellos se llama nube de puntos o diagrama de dispersión. Sobre la nube de puntos puede trazarse una recta que se ajuste a ellos lo mejor posible, llamada recta de regresión.
Pasos a seguir para elaborar un diagrama de dispersión. 1. Elaborar una teoría admisible y relevante sobre la supuesta relación entre dos variables.
5
2. Obtener los pares de datos correspondientes a las dos variables. 3. Determinar los valores máximo y mínimo para cada una de las variables. 4. Decidir sobre qué eje se representará a cada una de las variables. 5. Trazar y rotular los ejes horizontal y vertical. 6. Marcar sobre el diagrama los pares de datos. 7. Rotular el gráfico.
Ejemplo
Las notas de 12 alumnos de una clase en Matemáticas y Física son las siguientes: Matemáticas
2
3
4
4
5
6
6
7
7
8
10
10
Física
1
3
2
4
4
4
6
4
6
7
9
10
6
5.3 REGRESIÓN LINEAL SIMPLE
INTRODUCCIÓN
Si sabemos que existe una relación entre una variable denominada dependiente y otras denominadas independientes (como por ejemplo las existentes entre: la experiencia profesional de los trabajadores y sus respectivos sueldos, las estaturas y pesos de personas, la producción agraria y la cantidad de fertilizantes utilizados, etc.), puede darse el problema de que la dependiente asuma múltiples valores para una combinación de valores de las independientes.
ASPECTOS TEÓRICOS La Regresión y la correlación son dos técnicas estadísticas que se pueden utilizar para solucionar problemas comunes en los negocios. Muchos estudios se basan en la creencia de que es posible identificar y cuantificar alguna Relación Funcional entre dos o más variables, donde una variable depende de la otra variable. Se puede decir que Y depende de X, en donde Y y X son dos variables cualquiera en un modelo de Regresión Simple.
"Y es una función de X" Y = f(X) Como Y depende de X, Y es la variable dependiente, y X es la variable independiente.
Conclusión La ecuación de Regresión Lineal estimada para las variables estatura y peso muestran, de acuerdo a la prueba F, relación. Esta relación se ha estimado en un R = 93.7, que indica una fuerte relación positiva. Además si consideramos el coeficiente de determinación R² = 87.9 podemos indicar que el 87.9% de las variaciones que ocurren en el peso se explicarían por las variaciones en la variable estatura.
7
5.4 CORRELACIÓN En probabilidad y estadística, la correlación indica la fuerza y la dirección de una relación lineal y proporcionalidad entre dos variables estadísticas. Se considera que dos variables cuantitativas están correlacionadas cuando los valores de una de ellas varían sistemáticamente con respecto a los valores homónimos de la otra: si tenemos dos variables (A y B) existe correlación si al aumentar los valores de A lo hacen también los de B y viceversa. La correlación entre dos variables no implica, por sí misma, ninguna relación de causalidad.
Fuerza, sentido y forma de la correlación La relación entre dos super variables cuantitativas queda representada mediante la línea de mejor ajuste, trazada a partir de la nube de puntos. Los principales componentes elementales de una línea de ajuste y, por lo tanto, de una correlación, son la fuerza, el sentido y la forma:
La fuerza extrema según el caso, mide el grado en que la línea representa a la nube de puntos: si la nube es estrecha y alargada, se representa por una línea recta, lo que indica que la relación es fuerte; si la nube de puntos tiene una tendencia elíptica o circular, la relación es débil .
El sentido mide la variación de los valores de B con respecto a A: si al crecer los valores de A lo hacen los de B, la relación es positiva; si al crecer los valores de A disminuyen los de B, la relación es negativa.
La forma establece el tipo de línea que define el mejor ajuste: la línea recta, la curva monotónica o la curva no monotónica.
Interpretación geométrica Dados los valores muestrales de dos variables aleatorias
e
, que pueden ser consideradas como vectores en un espacio a n dimensiones, puden construirse los "vectores centrados" como: e
.
El coseno del ángulo alfa entre estos vectores es dada por la fórmula siguiente:
8
Pues
es el coeficiente de correlación muestral de Pearson. El coeficiente de
correlación es el coseno entre ambos vectores centrados:
Si r = 1, el ángulo
Si r = 0, el ángulo
Si r =-1, el ángulo
°, ambos vectores son colineales (paralelos). °, ambos vectores son ortogonales. °, ambos vectores son colineales de dirección
opuesto. Más generalmente:
.
Por supuesto, del punto vista geométrica, no hablamos de correlación lineal : el coeficiente de correlación tiene siempre un sentido, cualquiera que sea su valor entre 1 y 1. Nos informa de modo preciso, no tanto sobre el grado de dependencia entre las variables, que sobre su distancia angular en la hiperesfera a n dimensiones. La Iconografía de las correlaciones es un método de análisis multidimensional que reposa en esta idea. La correlacion lineal se da cuando en una nube de puntos estos se encuentran o se distribuyen alrededor de una recta.
Distribución del coeficiente de correlación El coeficiente de correlación muestral de una muestra es de hecho una varible aleatoria, eso significa que si repetimos un experimento o consideramos diferentes muestras se obtendrán valores diferentes y por tanto el coeficiente de correlación muestral calculado a partir de ellas tendrá valores ligeramente diferentes. Para muestras grandes la variación en dicho coeficiente será menor que para muestras pequeñas. R. A. Fisher fue el primero en determinar la distribución de probabilidad para el coeficiente de correlación. Si las dos variables aleatorias que trata de relacionarse proceden de una distribución gaussiana bivariante entonces el coeficiente de correlación r sigue una distribución de probabilidad dada por:
[1] [2]
9
donde: es la distribución gamma es la función gaussiana hipergeométrica.
Nótese que
, por tanto r es estimador sesgado de
. Puede obtenerse un estimador aproximado no sesgado resolviendo la ecuación:
for Aunque, la solucón:
es subóptima. Se puede obtener un estimador sesgado con mínima varianza para grandes valores de n, con sesgo de orden
buscando el máximo de la expresión:
, i.e. En el caso especial de que
donde
, la distribución original puede ser reescrita como:
es la función beta.
10
5.5 DETERMINACIÓN Y ANÁLISIS DE LOS COEFICIENTES DE CORRELACIÓN Y DE DETERMINACIÓN.
El coeficiente de correlación lineal mide el grado de intensidad de esta posible relación entre las variables. Este coeficiente se aplica cuando la relación que puede existir entre las varables es lineal (es decir, si representaramos en un gáfico los pares de valores de las dos variables la nube de puntos se aproximaría a una recta). No obstante, puede que exista una relación que no sea lineal, sino exponencial, parabólica, etc. En estos casos, el coeficiente de correlación lineal mediría mal la intensidad de la relación las variables, por lo que convendría utilizar otro tipo de coeficiente más apropiado. Para ver, por tanto, si se puede utilizar el coeficiente de correlación lineal, lo mejor es representar los pares de valores en un gráfico y ver que forma describen. El coeficiente de correlación lineal se calcula aplicando la siguiente fórmula: Numerador: se denomina covarianza y se calcula de la siguiente manera: en cada par de valores (x,y) se multiplica la “x” menos su media, por la “y” menos su media. Se suma el resultado obtenido de todos los pares de valores y este resultado se divide por el tamaño de la muestra.
Denominador se calcula el produto de las varianzas de “x” y de “y”, y a este produto se le calcula la raíz cuadrada. Los valores que puede tomar el coeficiente de correlación “r” son: −1 < r < 1
Si “r” > 0, la correlación lineal es positiva (si sube el valor de una variable sube el de la otra). La correlación es tanto más fuerte cuanto más se aproxime a 1. Por ejemplo: altura y peso: los alumnos más altos suelen pesar más.
Si “r” < 0, la correlación lineal es negativa (si sube el valor de una variable disminuye el de la otra). La correlación negativa es tanto más fuerte cuanto más se aproxime a −1. Por ejemplo: peso y velocidad: los alumnos más gordos suelen correr menos.
Si “r” = 0, no existe correlación lineal entre las variables. Aunque podría existir otro tipo de correlación (parabólica, exponencial, etc.) De todos modos, aunque el valor de “r” fuera próximo a 1 o −1, tampoco esto quiere decir obligatoriamente que existe una relación de causa-efecto entre las dos variables, ya que este resultado podría haberse debido al puro azar.
11
5.6 Distribución normal bidimensional. La distribución normal n-dimensional Nn (m,S) es una generalización de la distribución normal univariante. La función de densidad de una variable n-dimensional normal X=(X1, X2, ..., Xn) de parámetros m y S es
para
(i
=
1,2,..,n),
donde
m
es
el
vector
de
medias
con y S es la matriz de varianzas-covarianzas (simétrica y definida positiva)
con y
.
Propiedades:
Para n=1 la función de densidad anterior es la de la distribución normal unidimensional. Si m = 0 y S = I (matriz identidad) entonces la distribución se denomina normal n-dimensional estándar, Nn(0,I) Si Z=(Z1,...,Zn) tiene una distribución normal n-dimensional estándar, A=(aij) es una matriz cuadrada de orden n con determinante no nulo y m=(m1,..,mn)' es una matriz columna nx1 entonces la variable
X=AZ+m
sigue una distribución normal n-dimensional Nn(m,S) donde S = A A'. Si X=(X1,...,Xn) tiene una distribución normal n-dimensional Nn(m,S) y B y C son dos matrices de números reales (B de dimensión pxn y C de dimensión px1) tal que BSB' es una matriz definida positiva entonces la variable
Z=BX+C
12
tiene una distribución normal p-dimensional Np(Bm+C, BSB'). Si X=(X1,...,Xn) tiene una distribución normal n-dimensional Nn(m,S), la variable formada por cualquier subconjunto de k variables de las n, sigue una distribución normal k-dimensional con los parámetros correspondientes. En particular con k=1, tenemos que la distribución marginal de cualquiera de las Xi es una distribución normal unidimensional
.
Sean X1, X2,..,Xn variables aleatorias independientes con distribuciones normales unidimensionales . Entonces, la variable aleatoria X=(X1,...,Xn) tiene una distribución normal n-dimensional Nn(m,S) con
parámetros y . Sea X=(X1,...,Xn) una variable aleatoria con distribución normal n-dimensional Nn(m,S). Sus n variables componentes X1, X2,..,Xn son independientes si, y sólo si, están incorrelacionadas. Sea X=(X1,...,Xn) una variable aleatoria con distribución normal n-dimensional Nn(m,S). Si dividimos sus componentes en dos grupos
,por
ejemplo y y de igual forma particionamos las matrices m y S (con los parámetros correspondientes a cada
grupo), condicionada
y por
entonces la distribución de es
una
normal
p-dimensional
y matriz de varianzas-covarianzas
de
media .
Normal bidimensional: Esta distribución es un caso particular de la distribución normal n-dimensional para n=2 por lo que todos los resultados vistos anteriormente son también válidos. No obstante, mostraremos de forma explícita dichos resultados sin recurrir a la notación matricial. Así bien, la función de densidad de una variable aleatoria (X,Y) normal bidimensional es
13
para y , donde mX y mY son las medias de X e Y respectivamente, sX y sY sus desviaciones típicas y r el coeficiente de correlación lineal entre las dos variables.
Propiedades:
Si mX y mY son cero sX y sY son 1 y r es cero entonces la distribución se denomina normal bidimensional estándar, y su función de densidad es
Si (X,Y) tiene una distribución normal bidimensional y (U,V) es una transformación de ella del tipo U=aX+bY+c y V=dX+eY+f , de manera que la matriz dos).
tiene determinante distinto de cero (rango
Entonces la variable aleatoria (U,V) también sigue una distribución normal
bidimensional
, donde
14
En particular, si (X,Y) tiene una distribución normal bidimensional estandar
y (U,V) es una transformación de ella del tipo anterior (con rg(B)=2) entonces (U,V) sigue una distribución normal bidimensional
Si (X,Y) tiene una distribución normal bidimensional, tanto X como Y siguen distribuciones normales, en concreto X tiene una distribución N(mX,sX) e Y tiene una distribución N(mY,sY). Si X e Y son variables aleatorias independientes con distribuciones normales unidimensionales N(mX,sX) y N(mY,sY). Entonces, la variable aleatoria (X,Y)
tiene distribución normal bidimensional . Sea (X,Y) una variable aleatoria normal bidimensional. Entonces, X e Y son independientes si, y sólo si, están incorrelacionadas. Sea (X,Y) una variable aleatoria normal bidimensional. La distribución de Y condicionada por X=x es normal unidimensional
.
15
Bibliografía http://es.wikipedia.org/wiki/Correlaci%C3%B3n http://www.monografias.com/trabajos27/regresion-simple/regresion-simple.shtml http://www2.eco.uva.es/estadmed/probvar/d_multivar/dnvar7.htm
16