EJERCICIOS PROPUESTOS
ANÁLISIS DE REGRESIÓN. 1. a. b. c. 2.
a. b. c. d. e. f.
Interprete cada uno de los siguientes coeficientes de correlación y use gráficos de dispersión para representar como se vería cada una de las relaciones entre dos variables (X, Y) cualesquiera: r = -1,0. r = 0,05 . r = 0,85 . Si el coeficiente de correlación para los datos de la tabla es 0,97, responda a las preguntas siguientes, primero sin realizar ningún cálculo y después, comprobar las respuestas haciendo los cálculos necesarios con su calculadora ó el programa SPSS. X 2 3 4 5 6 Y 5 7 8 13 14 Revise los gráficos de dispersión correspondientes y responda cómo cambiaría este coeficiente si: Sumamos 3 a la variable X. Sumamos 3 en ambas variables. Multiplicamos la variable X por 2. Intercambiamos todos los valores de X por los de Y. Cambiamos el último valor de X por el de Y. Sumamos 10 a ambas variables pero sólo en el primer punto observado.
3.
La correlación lineal de X con Y es r=0,60; la correlación de X con W es de r=-0,80 . ¿Con cuál de las variables Y ó W, es mayor el grado de asociación lineal?
4.
Cada una de las frases siguientes contiene un error, explique en cada caso qué es lo que está mal. "Existe una alta correlación entre el sexo de los trabajadores en Talca y su salario". "Se encontró una alta correlación (r=1,09) entre las evaluaciones de los estudiantes a los profesores y los salarios de los académicos". "La correlación entre el tamaño familiar y los metros cuadrados del hogar es r=0,65 metros cuadrados".
a. b. c.
5. a. b. c. d. e.
La correlación entre la estatura del padre y la de su hijo hombre adulto es de 0,52. Esto nos dice que: Padres más altos que la media de estatura tienden a tener hijos que son más altos que la media de estatura. Padres más altos que la media de estatura tienden a tener hijos que son más bajos que la media de estatura Los hijos son, en promedio, más altos que sus padres 52% de todos los hijos son más altos que sus padres Casi no hay relación entre la estatura de padres e hijos.
ANÁLISIS DE REGRESIÓN
PÁGINA 1 DE 25
EJERCICIOS PROPUESTOS
6.
En un curso de introducción a la sociología, un profesor hace dos exámenes. El profesor quiere determinar si las calificaciones de los estudiantes en el segundo examen están correlacionadas con las calificaciones del primero. Para facilitar los cálculos, se elige una muestra de ocho estudiantes. Sus calificaciones aparecen en la siguiente tabla. 2 3 4 5 6 7 8 Estudiante 1 Examen 1 60 75 70 72 54 83 80 65 Examen 2 60 100 80 68 73 97 85 90
a.
Construya un gráfico de dispersión para estos datos, utilizando la calificación del primer examen como la variable X. ¿Parece lineal la relación? Suponga que existe una relación lineal entre las calificaciones de los dos exámenes, calcule el valor r de Pearson.
b.
7.
Con el fin de estudiar la relación que existe entre la concentración de oxígeno (volumen por ciento) de la sangre arterial y de la sangre venosa, se hicieron determinaciones simultáneas en 30 individuos normales, con los siguientes resultados: Individuo Nº 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
a. b. c.
Sangre Arterial (X) Venosa (Y) 18,2 20,5 20,9 18,5 21,9 18,4 17,4 22,3 20,4 18,2 19,3 20,3 18,3 20,3 20,3
11,4 14,0 15,1 12,0 14,6 12,0 11,3 15,3 11,9 12,7 12,7 12,8 12,2 14,8 13,4
Individuo Nº 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30
Sangre Arterial (X) Venosa (Y) 20,6 20,8 18,7 19,6 17,5 18,8 18,8 20,9 20,0 19,4 20,4 20,1 20,1 19,0 18,6
13,5 14,4 13,8 11,7 10,6 13,2 12,5 12,5 13,9 11,9 14,2 13,3 12,6 14,5 11,9
Para estudiar la correlación que pueda existir entre las dos variables, analice el gráfico de dispersión. ¿Cuál es la correlación entre las dos variables? Interprete su valor. Si todos los puntos observados coincidieran en una línea recta: ¿Cuál sería el grado de correlación de ambas concentraciones de oxígeno en tal caso? ¿Qué significación práctica tendría ese hecho? ¿Significaría esto que la concentración de oxígeno en ambos tipos de sangre es la misma? Salidas SPSS: Estadísticos descriptivos
Sangre Arterial
N 30
Mínimo 17,40
Máximo 22,30
Media 19,6167
Desv. típ. 1,22758
Sangre Venosa
30
10,60
15,30
13,0233
1,23419
ANÁLISIS DE REGRESIÓN
PÁGINA 2 DE 25
EJERCICIOS PROPUESTOS
Correlaciones
Sangre Arterial
Correlación de Pearson
Sangre Arterial 1
Sig. (bilateral) N Sangre Venosa
,000 30
Correlación de Pearson
,720**
Sig. (bilateral)
,000
N
Sangre Venosa ,720**
30
30 1 30
**. La correlación es significativa al nivel 0,01 (bilateral).
8.
a. b. c. 9.
El crecimiento de los niños desde la infancia a la adolescencia generalmente sigue un patrón lineal. Se calculó una recta de regresión mediante el método de mínimos cuadrados con datos de alturas de niñas norteamericanas de 4 a 9 años y el resultado fue: Intercepto a=80 y pendiente b=6. La variable dependiente Y es la altura en centímetros y X es la edad en años. Interprete los valores estimados del intercepto y de la pendiente. ¿Cuál será la altura predicha de una niña de 8 años? ¿Cuál será la altura predicha de una mujer de 25 años? Comente el resultado. En 1991 se publicó un trabajo “Diseñando plantas en climas difíciles” en la revista Field Crops Research, los datos usados en la investigación son: 92 92 96 100 102 102 106 106 121 143 Duración Rendimiento 1,7 2,3 1,9 2,0 1,5 1,7 1,6 1,8 1,0 0,3 Con X=La duración de la cosecha de porotos de soya en días, Y=Rendimiento de la cosecha en toneladas por hectárea. Se tiene la siguiente salida de SPSS:
ANÁLISIS DE REGRESIÓN
PÁGINA 3 DE 25
EJERCICIOS PROPUESTOS
Estadísticos descriptivos
DURACION
N 10
Mínimo 92,00
Máximo 143,00
Media 106,0000
Desv. típ. 15,47040
RENDIMIENTO
10
,30
2,30
1,5800
,56332
Correlaciones DURACION
Correlación de Pearson
DURACION 1
RENDIMIENTO -,940**
Sig. (bilateral) RENDIMIENTO
,000
Correlación de Pearson
-,940**
Sig. (bilateral)
1
,000
**. La correlación es significativa al nivel 0,01 (bilateral).
Coeficientesa Coeficientes no estandarizados Modelo 1
(Constante)
B 5,207
Error típ. ,471
t 11,047
Sig. ,000
DURACION
-,034
,004
-7,768
,000
a. Variable dependiente: RENDIMIENTO
2,5
2,0
O T1,5 N E I M I D N E R1,0
0,5
0,0 90
100
110
120
130
140
150
DURACION
ANÁLISIS DE REGRESIÓN
PÁGINA 4 DE 25
EJERCICIOS PROPUESTOS
0,3
0,2
l a 0,1 u d i s e R d 0,0 e z i d r a d n-0,1 a t s n U -0,2
-0,3
-0,4 90
100
110
120
130
140
150
DURACION
a. b. c. d. 10.
Estime la recta de regresión mediante el método de mínimos cuadrados. Interprete los estimadores en el contexto de la pregunta. ¿Existe una relación lineal entre la duración y el rendimiento de la cosecha? Verifique los supuestos. Estime el rendimiento si la duración de la cosecha fue de 104 días. Un Psicólogo ha construido un cuestionario para medir depresión. Para comparar los datos del cuestionario con los datos de los expertos, 12 individuos con "perturbaciones emocionales" completan el cuestionario. Los individuos son además calificados de manera independiente por dos siquiatras expertos, de acuerdo con el grado de depresión determinado por cada uno como resultado de entrevistas detalladas. Los valores mayores indican a una mayor depresión. Individuo
a.
Cuestionario
Siquiatra A
Siquiatra B
1 48 12 9 2 37 11 12 3 30 4 5 4 45 7 8 5 31 10 11 6 24 8 7 7 28 3 4 8 18 1 1 9 35 9 6 10 15 2 2 11 42 6 10 12 22 5 3 Use las salidas de SPSS adjuntas, comente los gráficos de dispersión y conteste: ¿Cuál es la correlación entre los datos de los dos siquiatras?
ANÁLISIS DE REGRESIÓN
PÁGINA 5 DE 25
EJERCICIOS PROPUESTOS
b. c.
¿Cuál es la correlación entre las calificaciones cuestionario y los datos de cada siquiatra? Informe de su análisis al Psicólogo. Gráficos de dispersión para depresión
Cuestionario
Siquiatra A
Siquiatra B
Correlaciones Cuestionario
Correlación de Pearson Sig. (bilateral) N
Siquiatra A
Siquiatra A .697*
.
.012
Siquiatra B .750** .005
12
12
12
Correlación de Pearson
.697*
1
.846**
Sig. (bilateral)
.012
.
.001
12
12
12 1
N Siquiatra B
Cuestionario 1
Correlación de Pearson
.750**
.846**
Sig. (bilateral)
.005
.001
.
12
12
12
N
*. La correlación es significante al nivel 0,05 (bilateral). **. La correlación es significativa al nivel 0,01 (bilateral).
11.
El Centro de Alumnos de la Escuela de Psicología de la Universidad de Talca, manifiestan su preocupación al momento de egresar de los estudios en las posibilidades de las ofertas laborales. Después de varias discusiones, se pidió realizar un estudio estadístico para determinar si las notas con que egresan los alumnos puede explicar el número de ofertas laborales que ellos reciben después de titularse. Para ello, se recopiló la información de 13 alumnos recién titulados, obteniéndose los siguientes datos: Estudiante Nota Ofertas
ANÁLISIS DE REGRESIÓN
1 2 3 4 5 6 7 8 9 10 11 12 13 6,1 5,3 4,6 4,2 6,4 5,7 5,4 4,8 6,5 6,2 4,4 5,0 5,3 4 3 1 0 5 4 2 2 6 4 1 2 3
PÁGINA 6 DE 25
EJERCICIOS PROPUESTOS
a. b. c. d. e. f.
A partir de las salidas de SPSS adjuntas: Obtenga el coeficiente de correlación entre ambas variables. Interprete el resultado. Encuentre la recta de regresión de mínimos cuadrados. Interprete los valores estimados del intercepto y la pendiente de la recta de regresión. Calcule el residuo para la primera observación (x=6,1; y=4). Bosqueje el gráfico de residuos que usted esperaría encontrar si este análisis de regresión lineal cumple el supuesto de linealidad (no es necesario hacer los cálculos). Si un estudiante egresa con una nota 5,9, ¿Cuántas ofertas laborales esperaría recibir? Correlaciones Nota de egreso Nota de egreso
Correlación de Pearson
Ofertas de trabajo .962**
1
Sig. (bilateral)
.000
N Ofertas de trabajo
13
13
Correlación de Pearson
.962**
1
Sig. (bilateral)
.000
N
13
13
**. La correlación es significativa al nivel 0,01 (bilateral).
ANOVAb
Modelo 1
Regresión Residual Total
Suma de cuadrados 33.037
1
Media cuadrática 33.037
2.656
11
.241
35.692
12
gl
F 136.842
Sig. .000 a
a. Variables predictoras: (Constante), Nota b. Variable dependiente: Ofertas
ANÁLISIS DE REGRESIÓN
PÁGINA 7 DE 25
EJERCICIOS PROPUESTOS
Coeficientesa Coeficientes estandarizad os
Coeficientes no estandarizados Modelo 1
(Constante)
B -8.799
Error típ. 1.005
2.166
.185
Nota
Beta .962
t -8.757
Sig. .000
11.698
.000
a. Variable dependiente: Ofertas
12.
Un Investigador cree que la inteligencia de los niños, medida a través del coeficiente intelectual (CI en puntos), depende del número de hermanos. Toma una muestra aleatoria de 15 niños y ajusta una regresión lineal simple. Los resultados aparecen en la salida adjunta: CI 110 115 120 118 110 108 105 104 98 99 98 100 90 93 90 Hermanos 0 1 1 1 2 2 2 3 3 4 4 5 5 5 6 Estadísticos descriptivos
CI
N 15
Mínimo 90,00
Máximo 120,00
Media 103,8667
Desv. típ. 9,59067
HERMANOS
15
,00
6,00
2,9333
1,83095
Correlaciones CI CI
Correlación de Pearson
HERMANOS -,904**
1
Sig. (bilateral) HERMANOS
,000
Correlación de Pearson
-,904**
Sig. (bilateral)
1
,000
**. La correlación es significativa al nivel 0,01 (bilateral).
Coeficientesa Coeficientes no estandarizados Modelo 1
(Constante)
B 117,750
Error típ. 2,132
t 55,227
Sig. ,000
-4,733
,622
-7,604
,000
HERMANOS a. Variable dependiente: CI
ANÁLISIS DE REGRESIÓN
PÁGINA 8 DE 25
EJERCICIOS PROPUESTOS
120
110
I C
100
90 0
1
2
3
4
5
6
4
5
6
HERMANOS
10
5
l a u d i s e R d e z i d 0 r a d n a t s n U -5
-10 0
1
2
3
HERMANOS
a. b. c. d. e. f.
Encuentre e interprete el coeficiente de correlación r. Encuentre e interprete el coeficiente de determinación r2. En este problema, ¿cuál de los dos coeficientes encontrados en (a) y (b) usaría? Dé la ecuación de la recta de regresión. Interprete los estimadores en el contexto de la pregunta. ¿Es significativo el modelo ajustado? Use un nivel de significación del 5%. Verifique los supuestos de regresión.
ANÁLISIS DE REGRESIÓN
PÁGINA 9 DE 25
EJERCICIOS PROPUESTOS
13.
Se desea saber si existe alguna relación entre la ingestión y la absorción de grasas en lactantes desnutridos. Se realizan 20 determinaciones de ingestión y absorción cuyos resultados se muestran en la tabla que sigue: INGESTIÓN Y ABSORCIÓN DE GRASAS EN 20 LACTANTES DESNUTRIDOS: Caso Nº
Ingestión (X) 1,4 1,6 2,1 1,7 1,8 2,6 1,5 2,5 2,7 1,8
1 2 3 4 5 6 7 8 9 10
Absorción (Y) 0,7 1,2 1,6 1,1 1,3 2,0 1,2 1,5 2,4 1,5
Caso Nº 11 12 13 14 15 16 17 18 19 20
Ingestión (X) 2,0 1,4 1,9 1,8 1,9 1,6 1,9 2,1 1,6 1,6
Absorción (Y) 1,4 1,1 1,5 1,3 1,5 1,4 1,7 1,7 1,3 1,1
Estadísticos descriptivos N INGESTION
20
Mínimo 1,4
ABSORCION
20
,7
Máximo 2,7
Media 1,875
Desv. típ. ,3740
2,4
1,425
,3611
Correlaciones
INGESTION
INGESTION 1
Correlación de Pearson
ABSORCION ,866**
Sig. (bilateral) ABSORCION
,000
Correlación de Pearson
,866**
Sig. (bilateral)
,000
1
**. La correlación es significativa al nivel 0,01 (bilateral).
Coeficientesa Coeficientes no estandarizados Modelo 1
(Constante)
B -,143
Error típ. ,217
t -,659
Sig. ,518
INGESTION
,836
,114
7,353
,000
a. Variable dependiente: ABSORCION
ANÁLISIS DE REGRESIÓN
PÁGINA 10 DE 25
EJERCICIOS PROPUESTOS
2,5
2,0
N O I C R O 1,5 S B A
1,0
0,5 1,2
1,4
1,6
1,8
2,0
2,2
2,4
2,2
2,4
2,6
2,8
INGESTION
0,4
0,2
l a u d i s e R0,0 d e z i d r a d n a-0,2 t s n U
-0,4
-0,6 1,2
1,4
1,6
1,8
2,0
2,6
2,8
INGESTION
a. b. c. d.
Estime a y b mediante el método de mínimos cuadrados. Interprete los coeficientes de regresión. ¿Es significativo el modelo ajustado? Use un nivel de significación del 5%. Encuentre e interprete el coeficiente de determinación r2. Verifique los supuestos de la regresión.
ANÁLISIS DE REGRESIÓN
PÁGINA 11 DE 25
EJERCICIOS PROPUESTOS
14.
El Centro de Alumnos de la Escuela de Psicología de la Universidad de Talca, manifiestan su preocupación al momento de egresar de los estudios en las posibilidades de las ofertas laborales. Después de varias discusiones, se pidió realizar un estudio estadístico para determinar si las notas con que egresan los alumnos puede explicar el número de ofertas laborales que ellos reciben después de titularse. Para ello, se recopiló la información de 13 alumnos recién titulados, obteniéndose los siguientes datos: Estudiante 1 2 3 4 5 6 7 8 9 10 11 12 13 Nota 6,1 5,3 4,6 4,2 6,4 5,7 5,4 4,8 6,5 6,2 4,4 5,0 5,3 Ofertas 4 3 1 0 5 4 2 2 6 4 1 2 3
a. b. c. d. e. f. g. h.
A partir de las salidas de SPSS adjuntas: Obtenga el coeficiente de correlación entre ambas variables. Interprete el resultado. Encuentre la recta de regresión de mínimos cuadrados. Interprete los valores estimados del intercepto y la pendiente de la recta de regresión. ¿Es significativo el modelo ajustado? Use un nivel de significación del 5%. Encuentre e interprete el coeficiente de determinación r2. Calcule el residuo para la primera observación (x=6,1; y=4). Bosqueje el gráfico de residuos que usted esperaría encontrar si este análisis de regresión lineal cumple el supuesto de linealidad (no es necesario hacer los cálculos). Si un estudiante egresa con una nota 5,9, ¿Cuántas ofertas laborales esperaría recibir?
Correlaciones
Nota de egreso
Correlación de Pearson
Nota de egreso 1
Sig. (bilateral) N Ofertas de trabajo
.000 13
Correlación de Pearson
.962**
Sig. (bilateral)
.000
N
Ofertas de trabajo .962**
13
13 1 13
**. La correlación es significativa al nivel 0,01 (bilateral).
ANÁLISIS DE REGRESIÓN
PÁGINA 12 DE 25
EJERCICIOS PROPUESTOS
ANOVAb
Modelo 1
Regresión
Suma de cuadrados 33.037
Residual Total
1
Media cuadrática 33.037
2.656
11
.241
35.692
12
gl
F 136.842
Sig. .000 a
a. Variables predictoras: (Constante), Nota b. Variable dependiente: Ofertas
Coeficientesa Coeficientes estandarizad os
Coeficientes no estandarizados Modelo 1
(Constante)
B -8.799
Error típ. 1.005
2.166
.185
Nota
Beta .962
t -8.757
Sig. .000
11.698
.000
a. Variable dependiente: Ofertas
15.
“PÉRDIDA DE LA MEMORIA”. Después de los 50 años de edad, algunas personas comienzan a tener dificultad para recordar fechas, nombres y otros datos. En algunos casos, haciendo un esfuerzo mental es posible recordar esa información, pero en otros el olvido es permanente. En un grupo de 20 sujetos, se les pidió que escribieran en una hoja el nombre de 15 familiares ó de amistades, y luego realizaran el ejercicio de recordar el nombre de las personas que había registrado en el papel. Considerando las siguientes salidas del SPSS: Correlaciones
Edad en años
Correlación de Pearson
Edad en años 1
Sig. (bilateral)
.000
N Cantidad de nombres que recuerda
Cantidad de nombres que recuerda -.988**
Correlación de Pearson
24
24
-.988**
1
Sig. (bilateral)
.000
N
24
24
**. La correlación es significativa al nivel 0,01 (bilateral).
Coeficientesa
Coeficientes no estandarizados Modelo 1
(Constante) Edad en años
B 32.794
Error típ. .850
-.370
.012
Coeficientes estandarizad os Beta -.988
t 38.587
Sig. .000
-30.023
.000
a. Variable dependiente: Cantidad de nombres que recuerda
ANÁLISIS DE REGRESIÓN
PÁGINA 13 DE 25
EJERCICIOS PROPUESTOS
a. b. c. d. e. f. g. h.
Comente el Diagrama de Dispersión en conjunto con el coeficiente de correlación. Determine el modelo de regresión lineal, en que la cantidad de nombres que recuerde el sujeto dependa de su edad. Interprete ambos coeficientes del modelo de regresión lineal obtenidos en (b). Si una persona tiene 61 años de edad, ¿Cuántas palabras estimamos que va a recordar? ¿Es significativo el modelo ajustado? Use un nivel de significación del 5%. Encuentre e interprete el coeficiente de determinación r2. Realice el análisis del supuesto de la linealidad del modelo ajustado. Comente. Si se tuviera una nueva observación de una persona de 80 años de edad que recuerda 9 nombres, ¿qué efecto tendría este nuevo dato sobre la pendiente que se determinó en (b), aumentaría, se mantendría ó disminuiría? Justifique.
ANÁLISIS DE REGRESIÓN
PÁGINA 14 DE 25
EJERCICIOS PROPUESTOS
16.
En un estudio diseñado para analizar los efectos de añadir avena a la dieta estadounidense tradicional, se dividieron aleatoriamente los individuos en dos grupos diferentes. Dos veces al día, el primer grupo sustituyó con avena otros alimentos que contenían carbohidratos. Los miembros del segundo grupo no hicieron cambios en su dieta. Un resultado interesante es el nivel de colesterol en la sangre de cada individuo ocho semanas después de que comenzó el estudio. Las variables explicativas que podrían afectar esta respuesta incluyen el tipo de dieta, el grado de colesterol en la sangre al inicio del estudio, el índice de masa corporal y el sexo. Los coeficientes calculados y los errores estándares del modelo de regresión múltiple que contiene estas cuatro variables explicativas aparecen a continuación: Variable
Dietas Colesterol inicio Índice de masa corporal Sexo a.
b. c. d.
17.
a.
Coeficiente
Error estándar
-11,25 0,85 0,23 -3,02
4,33 0,07 0,65 4,42
t
Valor_p
0,0126 <0,001 0,724 0,498
Si el estudio se llevó a cabo en 50 individuos, lleve a cabo pruebas de hipótesis nula que indiquen que cada uno de los cuatro coeficientes en la ecuación de regresión de población es igual a 0. En el nivel de significancia 0,05 , ¿Cuál de las variables explicativas afecta el nivel de colesterol en la sangre ocho semanas después de que inició el estudio? Si en índice de masa corporal de un individuo se incrementara en 1 kg/m2 y los valores de las demás variables explicativas permanecen constantes, ¿Qué ocurriría con el nivel de colesterol en la sangre? Si en índice de masa corporal de un individuo se incrementara en 10 kg/m2 y los valores de las demás variables explicativas permanecen constantes, ¿Qué ocurriría con el nivel de colesterol en la sangre? La variable indicadora de sexo se codifica de modo que el 1 represente un hombre y 0 una mujer. ¿Quién probablemente tendrá un nivel de colesterol en la sangre más alto ocho semanas después de comenzado el estudio, un hombre ó una mujer? ¿Cuánto más alto sería en promedio? En una investigación de niños con bajo peso al nacer se encontró una relación lineal significativa entre la presión arterial sistólica y las semanas de gestación. También se mide el índice apgar a los 5 minutos para cada niño (el índice del apgar es un indicador del estado general de salud de un niño 5 minutos después del nacimiento, aunque en realidad es una medición ordinal, a menudo se considera continua). Interprete el gráfico de dispersión adjunto que relaciona la presión sistólica y el índice apgar. ¿Aparece alguna relación lineal entre estas dos variables?
ANÁLISIS DE REGRESIÓN
PÁGINA 15 DE 25
EJERCICIOS PROPUESTOS
90
80
70
60
50
40 a c i l ó t 30 s i S n ó 20 i s e r P 10 -2
0
2
4
6
8
10
Apgar
b.
Con la presión arterial sistólica como respuesta, el periodo de gestación y el índice apgar como explicativas ajuste el modelo de mínimos cuadrados, interprete los coeficientes y haga un breve resumen de los significados de los resultados. Resumen del modelob
Modelo 1
R .299a
R cuadrado corregida .071
R cuadrado .089
Error típ. de la estimación 10.993
a. Variables predictoras: (Constante), Apgar, Edad Gestacional b. Variable dependiente: Presión Sistólica
ANOVAb
Modelo 1
Regresión
Suma de cuadrados 1151.364
2
Media cuadrática 575.682
Residual Total
11721.996
97
120.845
12873.360
99
gl
F 4.764
Sig. .011a
a. Variables predictoras: (Constante), Apgar, Edad Gestacional b. Variable dependiente: Presión Sistólica
Coeficientesa
Coeficientes no estandarizados Modelo 1
Coeficientes estandarizad os t
(Constante)
Error típ. 12.663
Edad Gestacional
1.185
.442
.263
2.678
.009
.307
2.063
.488
.461
.104
1.057
.293
-.428
1.403
.774
Sig. .441
Límite inferior -15.329
Límite superior 34.936
B 9.803
Apgar
Beta
Intervalo de confianza para B al 95%
a. Variable dependiente: Presión Sistólica
ANÁLISIS DE REGRESIÓN
PÁGINA 16 DE 25
EJERCICIOS PROPUESTOS
c. d. e.
¿Cuál es la presión arterial sistólica media de la población de niños con bajo peso al nacer cuyo periodo de gestación sea de 31 semanas y cuyo índice apgar de 7? Haga comentarios sobre la magnitud de R cuadrado. ¿Mejora la inclusión del índice apgar de 5 minutos en el modelo que ya contiene el periodo de gestación, su capacidad para predecir la presión arterial sistólica? Interprete el gráfico de residuos en función de los valores ajustados de presión arterial sistólica. ¿Qué le dice este gráfico sobre el ajuste del modelo a los datos observados? Gráfico de residuos vs predichos
Histograma de residuos 16
40
14
30
12
20
10
l 10 a u d i s 0 e R d e z -10 i d r a d n -20 a t s n U -30
8 6
a 4 i c n e u 2 c e r F 0
Desv. típ. = .99 Media = 0.00 N = 100.00 - 2 - - - 0 . 0 . 5 . 0 1 . 5 1 . 0 . 5 0 0 0 0 0 0
1 2 2 3 3 . 0 1 . . . . . 0 5 0 0 0 5 0 0 0 5 0
30
Regresión Residuo tipificado
f.
40
50
60
Unstandardized Predicted Value
En el gráfico de residuos aparece un valor de residuo grande. ¿Qué debemos hacer? a Diagnósticos por caso
Número de caso 16
Residuo tip. 3.586
Presión Sistólica 87
Valor pronosticado 47.58
Residuo bruto 39.42
a. Variable dependiente: Presión Sistólica
ANOVAb
Modelo 1
Regresión
Suma de cuadrados 1113.143
2
Media cuadrática 556.571
Residual Total
10150.514
96
105.735
11263.657
98
gl
F 5.264
Sig. .007 a
t .817
Sig. .416
a. Variables predictoras: (Constante), Apgar, Edad Gestacional b. Variable dependiente: Presión Sistólica
Coeficientesa
Coeficientes no estandarizados Modelo 1
Coeficientes estandarizad os
(Constante)
B 9.683
Error típ. 11.845
Edad Gestacional
1.186
.414
.282
2.867
.005
.436
.432
.099
1.010
.315
Apgar
Beta
a. Variable dependiente: Presión Sistólica
ANÁLISIS DE REGRESIÓN
PÁGINA 17 DE 25
EJERCICIOS PROPUESTOS
g.
Se incluyó la variable sexo (donde 1 representa un hombre y 0 una mujer) en el modelo que contiene sólo a las semanas de gestación. Dados dos niños con idéntico periodo de gestación, un hombre y una mujer, ¿Cuál de ellos tenderá a tener la presión arterial sistólica más alta? ¿Por cuánto en promedio? ANOVAb
Modelo 1
Regresión
Suma de cuadrados 1061.735
2
Media cuadrática 530.867
Residual
11811.625
97
121.769
Total
12873.360
99
gl
F 4.360
Sig. .015a
a. Variables predictoras: (Constante), SEXOIND, Edad Gestacional b. Variable dependiente: Presión Sistólica
Coeficientesa
Coeficientes no estandarizados Modelo 1
B 10.007
(Constante)
Coeficientes estandarizad os
Error típ. 12.723
Beta
t .787
Sig. .433
Edad Gestacional
1.263
.438
.281
2.885
.005
SEXOIND
1.356
2.223
.059
.610
.543
a. Variable dependiente: Presión Sistólica
h.
Construya un gráfico de dispersión de la presión arterial sistólica en función del periodo de gestación. En el gráfico trace por separado dos rectas de regresión correspondientes a hombre y mujeres. ¿Es la diferencia de sexo en la presión arterial sistólica significativamente distinta de 0? 90
80
70
60
50
40 a c i l ó 30 t s i S n ó 20 i s e r P 10 22
24
26
28
30
32
34
36
Edad Gestacional
ANÁLISIS DE REGRESIÓN
PÁGINA 18 DE 25
EJERCICIOS PROPUESTOS
i.
Incluya en el modelo una tercera variable explicativa que constituya la interacción entre el periodo de gestación y el sexo. ¿Tiene el periodo de gestación un efecto distinto en la presión arterial sistólica según el sexo del niño? Coeficientesa Coeficientes estandarizad os
Coeficientes no estandarizados Modelo 1
B 14.981
(Constante) Edad Gestacional
Error típ. 15.242
Beta
t .983
Sig. .328
1.090
.525
.242
2.075
.041
SEXOIND
-15.157
27.743
-.663
-.546
.586
INTERAC
.571
.957
.726
.597
.552
a. Variable dependiente: Presión Sistólica
18.
Prediciendo la Capacidad Mental. ¿Estarán el tamaño y peso de su cerebro relacionados con su capacidad mental? Se mide la escala global de CI basado en Wechsler como variable respuesta. Además se tienen tres variables explicativas, el peso corporal (en libras), la estatura (en pulgadas) y el MRI (resonancia magnética por imágenes). El modelo de regresión lineal múltiple es: CI = β0 + β1(MRI) + β2(Peso) + β3(Estatura) + ξ Se tiene una muestra de 20 mujeres y la salida de análisis con SPPS es: Model Summaryb
Model 1
R .360a
R Square .130
Adjusted R Square -.034
Std. Error of the Estimate 24.08
a. Predictors: (Constant), MRICOUNT, HEIGHT, WEIGHT b. Dependent Variable: IQ
ANOVAb
Model 1
Regression Residual Total
Sum of Squares 1382.376
df 3
Mean Square 460.792
9277.424
16
579.839
10659.800
19
F .795
Sig. .515a
.188
Sig. .853
a. Predictors: (Constant), MRICOUNT, HEIGHT, WEIGHT b. Dependent Variable: IQ
Coefficientsa
Unstandardized Coefficients Model 1
(Constant)
B 35.775
Std. Error 190.361
Standardi zed Coefficien ts Beta
t
WEIGHT
-.131
.432
-.094
-.303
.766
HEIGHT
-.720
2.914
-.070
-.247
.808
1.638E-04
.000
.387
1.479
.159
MRICOUNT
a. Dependent Variable: IQ
ANÁLISIS DE REGRESIÓN
PÁGINA 19 DE 25
EJERCICIOS PROPUESTOS
a. b. c. d.
Escriba la recta de regresión múltiple estimada. Dé el valor del R 2 e interprételo en términos del problema de regresión. Dé un estimador de la desviación estándar poblacional de y/x. Examine los tests t de los coeficientes de regresión. Para cada test formule la hipótesis, valor del test, valor_p, decisión y conclusión.
19.
Prediciendo puntajes en examen final. Se investiga la relación entre los puntajes de un examen final con el puntaje de una prueba parcial y el número de clases que faltó un alumno. Se tienen datos de 25 estudiantes, se adjunta análisis en SPSS. Figura1: Gráfico de dispersión de puntaje en el examen e inasistencia a clases. 100 90 80 70 60 50 40 e r o 30 c S m 20 a x E 10 l a n i 0 F
-1
0
1
2
3
4
5
6
7
8
Number of Missed Classes
a. b. c. d. e. f. g.
Escriba el modelo de regresión lineal múltiple. Escriba la recta de regresión múltiple estimada. Dé el valor del R 2 e interprételo en términos del problema de regresión. Dé un estimador de la desviación estándar poblacional de y/x. Indique a qué hipótesis corresponde el test F. Examine los tests t de los coeficientes de regresión. Para cada test formule la hipótesis, valor del test, valor_p, decisión y conclusión. Qué supuestos se deben cumplir para la utilización de este modelo. Model Summaryb
Model 1
R R Square .857a .734
Adjusted R Square .710
Std. Error of the Estimate 10.2315
a. Predictors: (Constant), MISSED, MIDTERM b. Dependent Variable: FINAL
ANOVAb
Model 1
Regression
Sum of Squares 6352.682
Residual Total
df 2
Mean Square 3176.341
2303.058
22
104.684
8655.740
24
F 30.342
Sig. .000a
a. Predictors: (Constant), MISSED, MIDTERM b. Dependent Variable: FINAL
ANÁLISIS DE REGRESIÓN
PÁGINA 20 DE 25
EJERCICIOS PROPUESTOS
Coefficientsa Standardi zed Coefficien ts
Unstandardized Coefficients Model 1
(Constant)
B 51.949
MIDTERM MISSED
Std. Error 14.179
Beta
t 3.664
Sig. .001
.977
.326
.385
2.994
.007
-4.839
1.051
-.592
-4.604
.000
a. Dependent Variable: FINAL
20.
a. b. c. d. e. f.
En general use un 5% como nivel de significación. El programa de investigación de factores de riesgo de enfermedades cardiovasculares (PIFRECV) de la Universidad de Talca, realizó una encuesta en la ciudad de Talca a 1006 adultos entre 18 y 74 años de edad. Se desea analizar la relación entre el Perímetro de cintura (en centímetros) y la edad (en años), glicemia (en mg/dl), presión arterial sistólica (en mmHg) y tabaquismo (codificado como 1=fuma y 0=no fuma). Usando los resultados de SPSS adjuntos: Escriba la recta de regresión múltiple estimada. ¿Cuál sería el Perímetro de cintura estimado de un sujeto fumador de 19 años, con 120 ml de glicemia y 137 mmHg de presión arterial sistólica? Interprete los coeficientes de regresión ajustados en relación con el problema. A partir de la tabla de ANOVA adjunta calcule e interprete el coeficiente de determinación Indique a qué hipótesis corresponde el test F de la tabla ANOVA. ¿Qué concluye? Analice la significancia de los coeficientes de regresión. Comente el resultado en general. ANOVAb
Modelo 1
Regresión
Suma de cuadrados 33359.248
4
Media cuadrática 8339.812 139.402
gl
Residual
139681.083
1002
Total
173040.331
1006
F 59.826
Sig. .000a
a. Variables predictoras: (Constante), Glicemia, Tabaquismo, Presión arterial sistólica, Edad en años b. Variable dependiente: Perímetro de cintura en cms
Coeficientesa
Coeficientes no estandarizados Modelo 1
(Constante) Edad en años
B 53.997
Error típ. 2.552
Coeficientes estandarizad os Beta
t 21.162
Sig. .000
.083
.031
.089
2.677
.008
1.866
.792
.069
2.357
.019
Presión arterial sistólica
.180
.020
.287
8.793
.000
Glicemia
.106
.015
.210
7.024
.000
Tabaquismo
a. Variable dependiente: Perímetro de cintura en cms
ANÁLISIS DE REGRESIÓN
PÁGINA 21 DE 25
EJERCICIOS PROPUESTOS
21.
Use un 10% como nivel de significación. Sohil et al. (2002) realizaron un estudio cuyo fin era determinar si la función neuropsicológica en las personas infectadas con VIH se correlaciona con la pérdida de volumen cerebral. El desempeño neuropsicológico se evaluó mediante la aplicación de una serie de pruebas del funcionamiento neuropsicológico (NPZ-8), en tanto que el volumen cerebral fue medido como el porcentaje del volumen parenquimatoso del cerebro obtenido mediante una resonancia magnética (PBV). La tabla adjunta muestra mediciones del volumen parenquimatoso del cerebro (PBV, Parenchymal Brain Volumen en inglés), del funcionamiento neuropsicológico (NPZ-8), del estado VIH ( 1: Positivo, 0: Negativo), de si el paciente ha manifestado o no la etapa del complejo demencial del SIDA (ADC, AIDS Demetia Complex en inglés, 1: positivo y 0: negativo) y del estado del sistema inmunitario (CD4, cantidad de linfocitos medido en cientos) de los sujetos que participaron en el estudio. Los bajos valores PBV indican menos volumen cerebral, en tanto que puntuaciones NPZ-8 más bajas indican un mejor funcionamiento neuropsicológico. Un valor ADC positivo indica que se ha diagnosticado el complejo demencial del SIDA. Los conteos CD4 más altos se asocian con un mejor funcionamiento del sistema inmunitario. Sujeto 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
a. b. c. d. e. f.
PBV 0,776 0,792 0,76 0,76 0,804 0,808 0,854 0,803 0,831 0,826 0,786 0,882 0,889 0,817 0,805 0,886 0,833 0,851 0,897 0,901
NPZ-8 12 5 3 5 2 6 8 0 3 0 0 7 3 0 0 0 0 1 0 0
VIH 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 0 0 0 0 0
ADC 1 1 1 1 1 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0
CD4 (x100) 0,16 3,24 2,56 5,63 3,21 1,9 8,5 3,55 4,65 5,19 0,87 1,08 1,9 5,73 10,32 13,11 12 14,89 12,18 13,89
Usando los resultados de SPSS adjuntos: Escriba la ecuación de regresión múltiple estimada. Interprete los coeficientes de regresión ajustados en relación con el problema. Interprete el coeficiente de determinación. Indique a qué hipótesis corresponde el test F de la tabla ANOVA. ¿Qué concluye? Analice la significancia de los coeficientes de regresión. Comente el resultado en general. Verifique los supuestos correspondientes (linealidad, colinealidad, residuos).
ANÁLISIS DE REGRESIÓN
PÁGINA 22 DE 25
EJERCICIOS PROPUESTOS
Resumen del modelob
Modelo 1
R .765a
R cuadrado corregida .475
R cuadrado .585
Error típ. de la estimación .032664
a. Variables predictoras: (Constante), ADC, CD4 (x100), NPZ-8, VIH b. Variable dependiente: PBV
Coeficientes(a) Coeficientes no estandarizados
Modelo 1
(Constante) NPZ-8 VIH CD4 (x100) ADC
B .851 -.006 -.038 .002 -.061
Coeficientes estandarizados
Error típ. .044 .003 .033 .003 .021
Beta -.460 -.372 .172 -.663
t 19.249 -1.888 -1.137 .511 -2.853
Sig. .000 .079 .273 .617 .012
a Variable dependiente: PBV ANOVAb
Modelo 1
4
Media cuadrática .006
Residual
.016
15
.001
Total
.039
19
Regresión
Suma de cuadrados .023
gl
F 5.294
Sig. .007a
a. Variables predictoras: (Constante), ADC, CD4 (x100), NPZ-8, VIH b. Variable dependiente: PBV
ANÁLISIS DE REGRESIÓN
PÁGINA 23 DE 25
EJERCICIOS PROPUESTOS
ANÁLISIS DE REGRESIÓN
PÁGINA 24 DE 25
EJERCICIOS PROPUESTOS
Pruebas de normalidad a
Kolmogorov-Smirnov Residuos
Estadístico .105
gl 20
Shapiro-Wilk Sig. .200*
Estadístico .970
gl 20
Sig. .747
*. Este es un límite inferior de la significación verdadera. a. Corrección de la significación de Lilliefors
ANÁLISIS DE REGRESIÓN
PÁGINA 25 DE 25