ANÁLISIS DE REGRESIÓN SIMPLE ENTRE PESO Y ESTATURA FACULTAD DE CIENCIAS NATURALES Y MATEMÁTICAS ESTADÍSTICA Y PROBABILIDAD PARA INGENIEROS
Profesor: Ing. Wendy Plata
Estudiantes: LUIS DAVID ANGEL B. (
[email protected]) WILLIAM DAVID OÑA G. (
[email protected])
II TÉRMINO-2015
Contenido
1.
RESUMEN ...................................................................................................................................... 1
1.
SUMMARY .................................................................................................................................... 2
2.
INTRODUCCIÓN ........................................................................................................................... 3
3.
OBJETIVOS .................................................................................................................................... 4 3.1 General .......................................................................................................................................... 4 3.2 Específico ...................................................................................................................................... 4
4.
METODOLOGÍA ........................................................................................................................... 4 4.1 Regresión Lineal............................................................................................................................ 4 4.2 Contraste de hipótesis .................................................................................................................... 5
5.
RESULTADOS ............................................................................................................................... 7
6.
CONCLUSIONES ......................................................................................................................... 10
7.
RECOMENDACIONES ............................................................................................................... 11
8.
REFERENCIAS ............................................................................................................................ 11
1
1. RESUMEN El presente trabajo abarca uno de los temas relacionados con la estadística inferencial, el cual es la regresión lineal simple. Con esta regresión se pretende establecer una relación de dependencia de una variable respecto a otra. La variables fueron tomadas de una población objetivo, la cual es “personas de complexión delgada”, de la cual se tomaron como datos puntuales el peso y estatura. Para establecer la relación de dependencia primero se hizo un análisis de correlación. Una vez obtenidos los resultados de este análisis se procedió a hacer el cálculo de regresión lineal y por último un análisis de varianza la cual nos permite concluir con una prueba de hipótesis. Los cálculos fueron desarrollados de dos diferentes formas. La primera mediante el uso de formulaciones obtenidas en clases y libros, y la segunda mediante el uso de un software estadístico. El uso de este software es para corroborar los resultados obtenidos mediante las formulaciones. Haciendo un análisis de los resultados se obtuvo un coeficiente de correlación de 0.951, el cual nos indica que nuestras variables están fuertemente relacionadas. Para le construcción de la ecuación de regresión, obtuvimos valores de , de -124.63, 112.48 respectivamente. Finalmente realizando la prueba de hipótesis se logró demostrar que el valor de es diferente de cero.
2
1. SUMMARY This project is about a topic related to inferential statistics, which is the simple linear regression. This regression is to establish a relationship of dependency of one variable over another. The variables were taken from a target population, which is "slim people", which weight and height were used as data points. To set the dependency ratio first became a correlation analysis. After obtaining the results of this analysis we proceeded to make the calculation of linear regression and finally an analysis of variance which allows us to conclude with a hypothesis test . Calculations were developed in two different ways. The first using formulations obtained in classes and books, and the second using statistical software. Use of this software is to corroborate the results obtained by the formulations. Making an analysis of the results a correlation coefficient of 0.951, which indicates that our variables are strongly related, was obtained. For you build the regression equation, we obtained values , of -124.63, 112.48 respectively. Finally performing hypothesis testing was possible to demonstrate the value of β_ (1) it is different of zero
3
2. INTRODUCCIÓN El presente trabajo se refiere al tema de la aplicación de regresión lineal, el cual es una parte de la estadística inferencial que se puede definir como un modelo matemático usado para aproximar la relación de dependencia entre una variable dependiente Y , las variables independientes X i y un término aleatorio ε. El interés que nos lleva a hacer este trabajo es aplicar la teoría recibida en clases en algún problema de nuestra vida diaria, para este caso, nuestro problema es determinar si existe algún tipo de relación entre el peso de una persona y su estatura. Para la realización del proyecto se tomó mediciones de peso y estatura a diez personas seleccionadas al azar. La población de la cual se tomaron a estas personas corresponde a las personas de complexión delgada. Para entender el propósito de este trabajo, supongamos que tenemos una variable Y que se explica deterministamente a través de X, pero no conocemos su relación funcional, pero que experimentalmente podemos fijar valores de X a Y. Para ser más específicos supongamos que tenemos la variable PESOS de una persona que se puede explicar a través de la ESTATURA. Esta relación la hemos establecido experimentalmente, pero su relación funcional no es conocida. Para establecer su relación funcional presentaremos principios y su aplicación para una técnica que denominamos “Regresión”, utilizando un modelo que ha sido rotulado como Modelo de Regresión Lineal
Simple, estimaremos los parámetros de este modelo y utilizando la denominada tabla de Análisis de varianza, propondremos Contrastes de Hipótesis basados en la partición de una forma cuadrática denominada Suma Cuadrática Total .
.
4
3. OBJETIVOS 3.1 General Determinar la relación que existe entre el peso y la estatura en las personas.
3.2 Específico Obtener pesos y estaturas de personas de una población definida. Aplicar regresión lineal para encontrar una relación funcional entre peso y estatura.
4. METODOLOGÍA Para el desarrollo del proyecto utilizaremos la técnica estadística denominada Regresión Lineal, para luego aplicar un contraste de hipótesis para validar dicha regresión.
4.1 Regresión Lineal Supongamos que Y puede ser explicada por X en términos de una recta que tiene pendiente β1 e intercepción B0 con el eje Y, de tal manera que Y puede ser definido por la siguiente relación funcional.
+
4.1
Donde es el error aleatorio al efectuar la medida de Y. Dado el modelo condicional se va a trabajar con los siguientes supuestos. 4.2 (/ )= 4.3 () 0 Para estimar los parámetros y utilizaremos el criterio de mínimos cuadrados, que
simplificadas determinan las ecuaciones normales que perm iten obtener una estimación “de punto” de los parámetros del modelo. Estas ecuaciones son:
=
=
∑ ∑
∑ ∑ ∑ = = =
4.4
4.5
Para medir la variabilidad de los valores observados alrededor de la recta que fue definida anteriormente, utilizamos la Suma Cuadrática del Error (SCE) la cual se define como:
5
4.6
∑( ̂ ) =
La Suma Cuadrática Residual tiene (n-2) grados de libertad, ya que se pierden dos grados de libertad al estimar y ; por lo que la media cuadrática del error es:
̂ ( ) ∑ 2 =
4.7
Otra suma cuadrática que debe de ser definida es la Suma Cuadrática de la Regresión, la cual se define como:
4.8
̂ ̅) ∑( =
Luego para saber la calidad del modelo definimos el coeficiente de determinación que se lo define como el cociente de la Suma Cuadrática de Regresión para la Suma Cuadrática Total, esto es
4.9
Donde SCT se define como:
4.10
Estas sumas cuadráticas que hemos definido serán útiles para la elaboración del contraste de hipótesis. Antes de empezar a realizar la regresión lineal sería de gran utilidad hacer una prueba de correlación entre las variables. El valor de correlación me permite saber si existe relación lineal entre las dos variables. El valor de correlación está entre -1 y 1. Para valores de menos uno cuando una variable crece la otra disminuye, cuando es 1 las dos variables aumentan o disminuyen.
∗
4.11
4.2 Contraste de hipótesis Ya hemos han examinado propiedades teóricas de los estimadores para el modelo de regresión. Ahora vamos a emplear esas propiedades para llevar a cabo un análisis de regresión, es decir, se desarrollará una prueba de hipótesis para la cantidad de interés de este modelo, el cual es . Si la respuesta Y se encuentra relacionada linealmente con la variable de predicción X, la pendiente tiene que ser diferente de cero. Existen algunas formas para formular la prueba de hipótesis, las cuales pueden ser consultadas en el libro de CANAVOS,
6
“Probabilidad y Estadística, Aplicaciones y Métodos” [1]. Para este trabajo utilizaremos el
análisis de varianza. Para entrar a contraste de hipótesis primero realicemos el análisis de varianza, la cual se
presenta a continuación. Una vez ya obtenido el modelo es necesario conocer que tan válido es, para eso utilizaremos la tabla de análisis de varianza (TABLA ANOVA). Este modelo consiste en un arreglo rectangular el cual se presenta a continuación. Tabla 1 Tabla de análisis de varianza
Fuente: ZURITA, G. (2010), “Probabilidad y Estadística, Fundamentos y Aplicaciones [2]
La tabla ANOVA contiene algunos resultados obtenidos anteriormente pero además se presentan nuevos. Ahora llevemos el problema de regresión lineal al contexto de estadística inferencial. La aspiración es que dado el modelo + , el valor de la pendiente no sea cero, por lo que el contraste de hipótesis se postula como:
: 0 1: ≠ 0 Con (1-α) 100% de confianza la Hipótesis Nula debe ser rechazada si el estadístico de orden prueba
> (;−,−)
7
5. RESULTADOS A continuación se presenta la muestra obtenida de la población objetivo. Tabla 2 Muestra de estaturas y pesos
X
Y
Estatura(m)
Pesos(kg)
1.57
56.00
1.83
84.00
1.77
72.50
1.72
66.00
1.72
69.00
1.60
55.00
1.78
80.00
1.75
71.50
1.74
70.00
1.69
61.00
Con los datos de la tabla 2 se procede a encontrar la relación funcional entre estatura y peso, en donde la variable independiente va a ser la estatura. Haciendo el análisis de regresión se puede observar que el valor es cerca de uno por lo que se espera que tengan una relación lineal fuerte.
0.95 Sabiendo esto procedemos a encontrar su función de relación. Aplicando las ecuaciones 4.4 y 4.5 encontramos los valores de siguiente función de relación.
y y obtenemos la
124.63 112.48 Ilustración 1 Función de relación entre peso y estatura
100.00 y = 112.48x - 124.63
80.00 ) g k ( s o s e P
60.00 40.00 20.00 0.00 1.55
1.60
1.65
1.70 Estatura (m)
1.75
1.80
1.8
8
Luego con la ecuación 4.6 obtenemos la suma cuadrática del error.
77.189 Sabiendo que la media aritmética de la variable a ser explicada es 68.5 la suma cuadrática de regresión es
723.806 Por lo que la suma cuadrática total es.
800.995 Con esta información el coeficiente de determinación es.
723.806 800.995 0.903 Lo cual nos permite afirmar que la potencia de explicación del modelo es 90.3%, siendo este aceptable. En algunas aplicaciones de la ingeniería el valor mínimo permisible del coeficiente de determinación es 90%. A continuación se presenta la tabla de ANOVA. Tabla 3 Análisis de varianza para la va lidez del modelo
Fuente de variación
Grados de libertad
Sumas cuadráticas
Medias cuadráticas
Estadístico de prueba
Regresión
1
723.806
723.806
75.016
Error
8
77.189
9.648
Total
9
800.995
Corresponde ahora que postulemos el contraste de hipótesis relativo a la pendiente recta que explica el peso de las personas en términos de la edad.
: 0 1: ≠ 0 Puesto que el estadístico de prueba es
75.016>(;−,−) Para valores de α=0,1 y 0,05, obtenemos que
(,;,) 3.46 (,;,) 5.32
de la
9
Ilustración 2 Distribución F de Fisher
En la ilustración numero 1 podemos observar que el valor p es aproximadamente cero, es decir, el valor p es menor a 0.05. Ante esta evidencia estadística, decidimos rechazar la hipótesis nula que postula que la pendiente de la recta de regresión es cero. Para comprobar los resultados obtenidos hacemos uso del software minitab. Haciendo el análisis de correlación obtenemos que Ilustración 3 Correlación obtenida con minitab
Se puede observar que el valor es cerca de uno por lo que se espera que tengan una relación lineal fuerte. También podemos observar que el valor P es cero. Esto nos indica que no existe evidencia estadística para rechazar la hipótesis nula. Es decir que no se puede rechazar la opción de que haya correlación. Esto significa que la correlación se dio porque existe y no por coincidencia. A continuación se presenta el análisis de regresión lineal realizado en minitab
10
Ilustración 4 Regresión lineal realizada en minitab
Como se puede observar en la ilustración 4, la ecuación obtenida en minitab corresponde a la obtenida mediante las formulas. Lo mismo sucede con la tabla ANOVA la cual se presenta a continuación.
Ilustración 5 Tabla ANOVA obtenida en minitab
Los resultados obtenidos en la ilustración 5 son los mismos obtenidos anteriormente. Podemos observar que el valor p es cero, lo cual nos permite no rechazar la hipótesis nula, es decir, hemos corroborado que la pendiente de la regresión no es cero. Hemos logrado obtener buenos resultados y corroborarlos con el uso de minitab. Cabe recalcar que la población a la cual se le tomo el peso y la estatura corresponde a las personas delgadas, es decir, personas sin sobrepeso. El “filtrado” de la población se la realizo para poder obtener una regresión lineal con la menor cantidad de datos aberrantes posibles.
6. CONCLUSIONES
11
Mediante un análisis de correlación se determinó que las variables Peso y Estatura están fuertemente relacionadas con un coeficiente de correlación de 0.951. La relación entre las variables no se dio de coincidencia, esto puedo ser corroborado con el valor p de la prueba. Se logró obtener la relación funcional de las variables Peso y Estatura. Mediante prueba de hipótesis se comprobó que el valor de no es constante, existe relación lineal.
es diferente de cero. La función
7. RECOMENDACIONES El tamaño de la muestra no es lo suficientemente grande como para proveer una estimación muy precisa de la fuerza de relación, por lo que se recomienda utilizar una muestra con cuarenta datos o más. Tener cuidado al interpretar el valor P, ya que con una muestra que contiene pocos puntos de datos, la exactitud del valor P es sensible a errores residuales no normales.
8. REFERENCIAS [1] CANAVOS, C. (1988), “Probabilidad y Estadística, Aplicaciones y Métodos”, (Tercera Edición), Mc Graw Hill, México-México. [2] ZURITA, G. (2010), “Probabilidad y Estadística, Fundamentos y Aplicaciones”, ( Segunda Edición), Ediciones del Instituto de Ciencias Matemáticas ESPOL, Guayaquil-Ecuador.