9.5 USO DE
9.1 INTRODUCCION
ECUACION DE REGRESION
9.2 MODELO DE REGRESION
9.3 ECUACION DE REGRESION LAMUESTRA
9.4 EVALUACION DE
LA
DE REGRESION
9.1
ECUACION
LA
9.6 MODELO DE CORRELACION 9.7 COEFICIENTE DE CORRELACION
9.8 ALGUNAS PRECAUCIONES 9.9 RESUMEN
INTRODUCCION
analizar los datos en las disciplinas qu conf orma n las ciencias ciencias de la salud, con frecuencia frecuencia es convehien te o bten er algUn algUn conocimiento acerca de la relacion entre dos variables. Por ejemplo, es posible que se tenga interes en analizar la relacion entre presion sangufnea edad, estatura y peso, la concentracion de un medi camen to inyectable y la frecuencia frecuencia cardiaca, el nivel de consumo de algunos nutrientes y la ganancia de peso, peso, l a intensidad de un estfmulo y el el tie mpo de
AI
reaccion, reaccion, el ingreso familiar los gastos gastos medicos. medicos. La natura leza e inten sidad d relaciones entre variables como las anteriores pueden ser examinadas po medio de los analisis de regresion correlacion, que dos tecnicas estadisticas que, aunque estan relacionadas, sirven para propositos diferentes.
-----------------
Regresi6n EI analisis de regresi6n es util para averiguar la forma probable de las relaciones entre las variables, y el objetivo final, cuando se emplea este metodo de analisis, es predecir estimar el valor de un variable que corresponde al valor dado de otra variable. Las ideas de regresi6n fueron expuestas po primera vez po el cientffico ingles Sir Francis Galton (1822-1911) en sus informes de investigacion acerca de la herencia, primero en chfcharos chfcharos y despu es en la estatur a humana. Afir 40
9.2
MODELO 1m REGRESION
401
mo que la estatura de un individuo adulto, sin importar si desciende de padres altos bajos, bajos, tien de a revertirse hacia la estatu ra promedio de la poblacion. Utilizo inicialmente inicialmente la pala bra reversion, y posteriormente regresion, para referirse a este
fenomeno.
Por otra parte, el amilisis de correlacion se refiere la medicion de CQrrelacion la intensidad de la relacion entre variables. Cuando se calculan mediciones de co rrelacion a partir de un co£tiunto de datos, el interes recae en el grado de correlacion entre las variables. Nuevamente, el origen de los conceptos y la terminologfa del amilisis de correlacion se remonta a Galton, el primero en utilizar la palabra corre lacion en 1888. En este capitulo, el amilisi amilisiss se limita a la explorac ion de la relaci6n lineal entre dos variables. variables. En l a siguiente secci6n secci6n se estudian los conceptos y metodos de regre si6n, y en la secci6n 9.6 se presentan las ideas y tecnicas de correlacion. En el si guient e capitulo se estudia el cas donde el in teres se centr en las relaciones que existen entre tres 0 mas variables. Los analisis de regresion y correlaci6n son areas en las las q ue la rapide z y exa titud de la computadora son de gran valor, po 10 qu los datos para los ejercicios de este capitulo se presentan en tal forma que pueden ser procesados mediante computadora. Como siempre, los requerimientos requerimientos de entrada y las caracterfsticas de salida de los programas y paquetes de software que se uti1izan deberan se analiza dos co cui dado.
9.2
MODELO DE REGRESION En el probl ema representativ de regresion, como en la mayorfa de los problemas estadfstica aplicada, los investigadores investigadores di spone de un muestra de observacio de estadfstica nes extrafda de una pob1acion hipotetica 0 real. Co base en los resultados del analisis de los datos de la muestra, se pretende llegar a un decisi6n decisi6n respecto a la poblacion de la que se extrajo la muestra. Por 10 tanto, es importante que los inves tigadores comprendan la naturaleza de las poblaciones en las que est<'in interesa dos. Deben saber 10 suficiente respecto a las poblaciones para que sean capaces de elaborar un modelo mat e matico que la represente, 0 de termi nar si se ajusta razona blem ente a alg{ alg{ln ln model o ya establecido. establecido. Por ejemplo, si un investigador va a ana lizar un co junto de datos mediante los metodos de regresion lineal simple, debe estar seguro de que el modelo de regresi6n lineal simple proporciona un repre sentacion al menos aproximada de la poblacion. N o es de esperarse qu el mode veces se se encu ent ra 10 sea un representaci6 n fie de la situaci6n real, dado que pocas veces esta caracteristica en los los modelo de valor practico. Un modelo elaborado de forma que corresponda precisamente con los los detalles de la situaci6n es po 10 general, muy complicado para proporcionar alguna informaci6n de valor. Por otra parte, los resultados que se obtienen a partir del analisis de datos que ha sido forzados valor. r. Sin embargo, po dentro de un modelo al que no se ajustan ta mpoco t iene n valo fortuna un modelo perfectamen te ajustado no es un requisito para obtener resulta dos utiles. Los investigadores deben ser capaces de distinguir ent re el cas en que el
402
CAPITULO 9
REGRESI ON Y CORRELACION LINEAL SIMPLE
modelo e1egido y los datos son 10 suficientemente compatibles como para poder pro ceder y el caso en que se debera rechazar dicho modelo. Para el mode Supuestos quejundameldan la regresi6n linealsimple variables, s, X Y. A la variable X s 10 de regresion lineal simple son import antes dos variable frecuencia se encuen Ie conoce po 10 general como variable independiente, ya qu con frecuencia tra bajo el con trol del investigador; es decir, decir, los valore de pueden ser seleccionados po el investigador para obtener un mas valores de Y, en correspondencia con los de X. Por consiguiente, a la variable, Y, se Ie Ie conoce co mo variable dependiente, se habla de regresi6n de sobre X. Los siguientes puntos son las suposiciones qu fundamentan el modelo de regresi6n lineal simple. fijos os.. Esto significa 1. Se Se dice que los valores de la variable inde pen die nte X son fij que los valores de X son selecdonados previamente po e1 investigador, de modo que en la recoleccion de datos dichos di chos valores no pu ede n variar variar En este mo delo, algunos autores da a X el nombre de variable no aleatoria, y otros, el variable matematica. Es necesario sefialar en este momento que el enuncia do de este supues to clasifi clasifica ca al modelo co mo modelo de regresi6n clasico. El anali qu e X es un variable sis de regresion tambien puede efectuarse co datos en los que aleatoria. 2. La variable X se se mid e sin error. Dado que ning(i ning(i.n .n procedi mient de medici6n es perfecto, esto significa que la magnitud del error de medicion en X es in significante. 3. Para cada valor de X existe un subpoblacion de valores de Y. Para qu los procedimientos de inferencia estadistica estadistica de estimacion y prueba de hipotesis sean validos estas subpoblaciones deben seguir un distribucion normal. Para presentar los ejemplos y ejercicios que siguen, se supone que los valores de siguen un distribucion distribucion normal. 4. Todas las variancias de las subpoblaciones de
son iguales. iguales.
5. Todas las medias de las subpoblaciones de se encuentran sobre la misma linea recta. A esto se Ie conoce com suposici6n de linealidad. Esta suposicion se expresa simb61icamen simb61icamente te como: Jly1x
(9.2.1)
es la media de la subpoblaci6n de valores para un valor especi se les conoc e como coeficientes de regresion de la poblacion. Geometricamente, representan la ordenada al origen y la pendiente de la recta, respectivamente, la que se supone estan todas las las medias.
donde Jl fico de
1x
6. Los valores son estadisticamente independientes. En otras palabras, al valor extraer la muestra, se sup on que los valores de ohtenidos para de de ninguna manera dependen de los v a l o r ~ s de Yelegidos para otro valor de X.
.2
MODELO DE REGRESION
Estas suposiciones pueden resumirse resumirse mediante la siguiente ecuadon, llamada modelo de regresion:
o;+l3x+e
(9.2.2)
es un valor representativo de una de las subpoblaciones de Y, 0; 13 so como se definen en la ecuacion 9.2.1, se Ie llama termino de error. Si se despeja en la ecuadon 9.2.2, se tiene que donde
(0
3x)
(9.2.3)
J.Iy1x
indica la cantidad con la que se desvfa de la media de la sub se puede apreciar que indica poblacion de los valores de de la cual se extrae. Como consecuencia de la supo sicion de que las subpoblaciones de los valores de siguen un distribucion normal con variancias iguales, las para cada subpoblad on tambien sigue un distribuci6n normal con un variancia igual a la variancia comun de las subpoblaciones de valo res de Y. Las siguientes siglas son de gran utilidad para recordar muchas de las suposi ciones necesarias para la inferencia en el anaIisis de regresion lineal: lineal: LINI [L ineali dad (suposicion 5), Independenda (suposicion 6), 6), Nor mal ida d (su posicion 3), 19uales variancias (suposicion 4)] En la figura 9.2.1 9.2.1 a parece un representacion grafica del modelo de regresi6n. fIX, Y)
9.2.1
Representaci6n del modelo de regresi6n lineal simple.
404
9.3
CAPITULO CAPITULO 9
REGRESION Y COR REU CIO N UNEAL SIMPLE SIMPLE
ECUACION DE REGRESION
DE LA MUESTRA
EI objeto de interes para el investigador, en la regresion lineal simple, es la ecua cion de regresion de la poblacion, que describe la relacion real entre la variable dependiente la variable variable indepe ndiente X. En un esfuerzo para lIegar a un decision respecto a la forma probable de esa relacion, el investigador extrae un muestra a partir de la poblacion de interes y, co los datos resultantes, calcula un ecuacion de regresion que forma la base para lI ga a condusione s respecto a la ecuaci6n desconocida desconocida de regresi6n de la poblacion.
analisis de regresi6n Al no ten er informaci6n extensa respec to a la naturaleza de las variables de interes, un estrategia qu se utiliza con fre cuencia es suponer inicialmente que estan relacionadas relacionadas en forma lineal. El amllisis subsiguiente comprende estos pasos:
Pmos Pm os en
1. Determinar si
las suposici suposiciones ones que fu ndame ntan la relaci6n lineal se cumplen o n en los datos disponibles para el analisis.
2. 0btener
la ecuaci6n de la recta que se ajuste mejor a los datos de la muestra.
3. Evaluar la ecuaci6n para obtener un idea de que ta n fuerte es la relaci6n es la utilidad de la ecuaci6n para predecir estimar.
al
4. Si los los datos parece n ajustarse ajustarse satisfactoriamente satisfactoriamente al mod elo lineal, entonces se utiliza la ecuacion que se obtuvo de los datos de la muestra para predecir
estimar.
Cuando se utiliza la ecuaci6n de regresion para predecir, se predice el valor probable de cuando X tiene un valor dado. Cuando se utiliza la ecuaci6n para estimar, se estima la media de la subpoblaci6n de los valores de que se supone existen para un valor dado de X. Observe que los los datos de la mues tra utilizados para de Y. Cuando obtener la ecuaci6n de regresi6n consisten en valores conocidos de la ecuaci6n se utiliza para predecir estimar los valores de Y, solo se conoceran los val val ores correspon dientes de X. Con el siguiente ejemplo se ilustra el uso de los cuatro pasos pa ra el anaIisi anaIisi de regresion lineal mas sencillo. sencillo. EJEMPLO 9.3.1
Despres et al. (A-I) sefialaron que la topografia del tejido adiposo (TA) esta asocia asocia da con complicaciones metab6licas consideradas como factores de riesgo para en fermeda des cardiovasculares. cardiovasculares. Afirman que es import ante medir la cantidad de tejido adiposo intraabdominal como parte de la evaluacion del riesgo de enfermedades cardiovasculares en un individuo. individuo. La tomografia comp utad (TC), es la unica tecnica disponible co n la que es posibl medir de manera precisa confiable la cantida de tejido adiposo intraa bdominal profundo; sin embargo, embargo, es un tecnica costosa re quiere de irradiaci6n sobre el individuo. Ademas, la tecnologfa no esta disponible para muchos medicos. Despres sus colaboradores desarrollaron ecuaciones para predecir la cantidad de tejido adiposo del abdomen a partir de las mediciones antropometricas simples. Los individuos estudiados eran hombres con edades en
9.3
ECUACION DE REGRESl(JN DE
LA
MUESTRA
40
tre 18 y 42 aflos que no presentaban enfennedades metab6licas que necesitaran trata miento. miento . En la tabla 9.3.1 se muestr an las mediciones tomadas a cada individuo respecto circunferencia circunferencia de la cintur a y la cantidad de tejido tejido adiposo profundo mediante l tomograffa computada. La pregunta es: ~ q u e ~ ta seria predecir y estimar q u e acertado la cantidad de tejido tejido adiposo abdominal a par tir de la medida de circunfe circunferenc rencia ia de la cintura? Esta pregunta es representativa de aquellas que pueden responderse me diante el am'ilisis de regresi6n lineal lineal.. Dado que la cantid ad de tejido adiposo abdomi nal pr ofund o es la variable variable sobre la que se pretende esti mar y predecir, predecir, constituye la variable variable dependi ente. La variable variable medici6n de la cintura es la variable independ ien te, que se utilizani para hac er las predicciones y estimaciones Cireunfereneia TABlA 9.3.1 pl"Ofundo, Y, de 10 hombres
la eintura (em),
Individuo
Individuo
4 5 6
10 11
12 13
14 15
16 17 18 19
20 22 23
24 25
26 27 28 29 30 31
32 33 34 35 36 37 FUENTE:
74.75 72.60 81.80 83.95 74.65 71.85 80.90 83.40 63.50 73.20 71.90 75.00 73.10 79.00 77.00 68.85 75.95 74.15 73.80 75.90 76.85 80.90 79.90 89.20 82.00 92.00 86.60 80.50 86.00 82.50 83.50 88.10 90.80 89.40 102.00 94.50 91.00
25.72 25.89 42.60 42.80 29.84 21.68 29.08 32.98 11.44 32.22 28.32 43.86 38.21 42.48 30.96 55.78 43.78 33.41 43.35 29.31 36.60 40.25 35.43 60.09 45.84 70.40 83.45 84.30 78.89 64.75 72.56 89.31 78.94 83.55 127.00 121.00 107.00
38 39
40 41
42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61
62 63 64 65 66 67 68 69 70 71
72 73 74
103.00 80.00 79.00 83.50 76.00 80.50 86.50 83.00 107.10 94.30 94.50 79.70 79.30 89.80 83.80 85.20 75.50 78.40 78.60 87.80 86.30 85.50 83.70 77.60 84.90 79.80 108.30 119.60 119.90 96.50 105.50 105.00 107.00 107.00 101.00 97.00 100.00
Utilizada co autorizaci6n de Jean-Pierre Despres, Ph.
D.
X,
tejido adiposo abdominal
129.00 74.02 55048
73.13 50.50 50.88 140.00 96.54 118.00 107.00 123.00 65.92 81.29 111.00 90.73 133.00 41.90 41.71 58.16 88.85 155.00 70.77 75.08 57.05 99.73 27.96 123.00 90041
106.00 144.00 121.00 97.13 166.00 87.99 104.00 100.00 123.00
81
108.00 100.00 103.00 104.00 106.00 109.00 103.50
83
llO.OO llO.OO
75 76
77 78
79 80 82 84
85
86 87 88 89 90 91 92 93
94 95 96 97 98 99 100 101
102 103 104 105 106 107 108 109
112.00 108.50 104.00 111.00 108.50 121.00 109.00 97.50 105.50 98.00 94.50 97.00 105.00 106.00 99.00 91.00 102.50 106.00 109.10 115.00 115.00 101.00 100.10 93.30 101.80 107.90 108.50
217.00 140.00 109.00 127.00 112.00 192.00 132.00 126.00 153.00 158.00 183.00 184.00 121.00 159.00 245.00 137.00 165.00 152.00 181.00 80.95 137.00 125.00 241.00 134.00 150.00 198.00 151.00 229.00 253.00 188.00 124.00 62.20 133.00 208.00 208.00
406
CAPiTULO 9
REGRESION Y CQRRELACION LINEAL SIMPLE
Diagrama de dispersion E1 primer paso, generalmente utH en el estudio de la relaci6n entre dos variables, es preparar un diagrama de dispersion de los datos, como se muestra en la figura 9.3. 9.3.1. 1. Los pu nto s se gra fican as ign ando los va10re va10re de la variable independiente a1 eje horizo ntal y los valores valores de la variable dependiente Ya eje vertical. El patr6n qu se obtiene mediante los puntos graficados en el diagrama dispersion , gen eral ment e sugiere la naturale za basica basica y la fuerza de la relacion de do variables. Como se muestra en la figura 9.3.1, or ejemplo, los puntos parecen estar dispersos en tomo un linea recta imaginaria. imaginaria. El di agrama de dispersion tambien muestra, en general, qu los individuos con cintura grande tambien tie ne mas tejido adiposo abdominal. Estos resultados sugieren qu la relaci6n entre las dos variables puede ser representada mediante un linea recta qu cruza el eje cerca cerca del ori gen lingulo de 45 grados grados,, aproxi madamente, con respecto al eje X. Se ve ve como si fuera sencillo trazar, trazar, a pulso, a traves de los puntos, la recta qu describe la relacion entre X y Y. Sin embargo, es muy poco probabl e que las rectas rectas trazadas po dos personas sean exaetamente la misma misma.. Dicho de ot ra manera, cada person qu trace un recta a ojo, 0 a pulso, obtendria un recta ligeramente diferente. Surge entonees la pre'gunta de que recta es la que describe mejor la relaci6n entre las do 260 240 >- 220 ..
1200 -0
c:
.a 180 a.
]!
•
160
-0
-fa 140
'"
••••
120
••
100
••".
Q)
-0
<1!
,«
80 60 ..
40
......
..
".
20
60
65
70
75
60
85
90
95
100
105
110
115.
Circunferencia de la cintura (em),
FIGURA
9.3.1
Diagrama de dispersi6n de los datos de la tabla 9.3.1.
120
125
9.3
ECUACION DE REGRESIO N DE
LA
MUESTRA
07
variables, pero no se puede obtener un respuesta a esa pregunta observando las rectas. De hecho, no es probable que alguna de las rectas rectas trazada s a pulso sobre los puntos sea la qu m ~ j o r describe la relaci6n entre X Y, dado que las rectas a pulso reflejan defectos de visualizacion juicio de la persona qu las traza. traza. Analogamente cuando se juzg a crul de dos rectas describe mejor la relacion, la evaluaci on subjetiva esm expuesta a las mismas deficiencias. Lo qu se necesita para obtener la recta deseada es un metodo que no este expuest o a estas deficiencias. La recta de minimos cuadrados
se utiliza regularmente para obtener la recta deseada se Ie conoce como metodo de minimos cuadrados, a la recta resultante se Ie conoce como recta de am'ilisi siss se explic a la razori po la qu se Ie da es minimos cuadrados. En el si guie nte am'ili nombre a este metodo. De acuerdo c on los conceptos basicos basicos del algebra, la ecuacion general de recta esta dada or la expresion AI metodo que
bx
(9.3.1)
valor sobre el eje vertical, un valor sobre el eje horizontal, es el donde es indica la cantida d con la cual cambia punto donde la recta cruza el eje vertical, es la pendiente de la po cada unidad de cambio en x. La ordenada al origen es a, recta. Para traza un recta con base en la ecuacion 9.3.1, necesitan los valores valores nume ricos de las constantes b. Dadas estas constantes, pueden sustituirse varios valore de en la ecuacion para obtener los val ores correspondientes de y. Despues, es posible graficar los puntas resultantes. Dado que dos pan:jas cualesquiera de esas coordena das determinan un recta, es posible seleccionar dos de ell as para ubicarlas en el sistema de coordenadas unirlas para obtene r la recta recta correspondiente a la ecuacion. CaIculo
la recta
minimos cuadrados
La ecuacion de regresion lineal po mfnimos cuadrados se obtiene a partir de los datos de la muestr a me diant e calculos calculos aritmeticos sencill sencillos os que se pueden realizan manualmente. Ya qu estos calculos consumen tiempo, son laboriosos esmn sujeto a error, la ecuacion de regresion lineal se puede obtener con mejores resultados me diante el uso de programas de computador a. Aunque el investigador tipico no nece sita preocuparse de la aritmetica asociad asociada, a, ell ecto r interesado encontr ara informacion al respecto en las referencias bibliograficas anotadas al final del capitulo. Mediante el programa MINITAB se obtuvo la ecuacion de regresion lineal con los datos de la tabla 9.3.1. Despues de ingre sar los valore de en la columna los valores de la columna 2, se procede como se muestra en la figura 9.3.2. Por ahora, la (mica (mica informacion qu nos interesa de los resultados mostra dos la figura 9.3.2 se relaciona co la ecuacion de regresion. Mas adelante se estu en relacionada. diani otra informacion relacionada. En la figura 9.3.2 es posible observar qu la ecuacion de regresi6n lineal po mfnimos cuadrados describe la relacio entre la circunferencia de la cintura la cantidad de tejido adiposo abdominal; esta ecuaci6n se puede escribir de la si guiente forma: -216
3.46x
(9.3.2)
----_
..........
408
CAPITULO 9
REGRESI ON Y CORRELACION LINEAL SIMPLE
Caja de dialogo:
Comandos de la sesi6n:
S t a t > Regression> Regression Teclear en Response en Predictors. Clic Storage. Verificar Residuals Fits. Clic OK
MTB MTB
Name C3 Regress
SUBC
Fits
SUBC
Constant; Residuals
SUBC
'FITS1'C4 'x';
'RESl1'
'RESI'.
Resultados: Analisis de regresi6n he r e g r e s s i o n e q u a t i o n -216 3.46 x
s ~
Coef -215.98 3.4589
Predictor
Constant
R-sq
33.06
67.0%
Stdev
t-ratio
80
-9.91
0.2347
14.74
R-sq(
0.000 0.000
66.7%
Variance
Analysis
SS
DF
SOURCE
Regression
237549 116982 354531 35453 1
107 10
Error Total
MS
237549 1093
217.28
P 0.000
inusuales
Obs.
Stdev.Fit
155.00 90.41 106.00 87.99 241.00 229.00 253.00
86 65 66
71 97 102 10
denota
12 12 10 10 109 11
observaci6n
82.52 197.70 198.74 154.12 150.66 161. 181.79
3.43 7.23 7.29 4.75 4.58 5.13 6.28
Residual 72.48 -107.29 -92.74 -66.13 90.34 67.62 71.21
St.Resid
2.20R -3.33R -2.88R -2.02R 2.76R 2.07R 2.19R
error residual estandar grande.
Procedimiento MINITAB resultados para obtener la ecuaci6n de regre 9.3.2 si6n po mfnimos cuadrados a partir de los datos de la tabla 9.3.1.
FIGURA
-
-
~
-
-
-
-
-
-
-
-
-
9.3
ECUACION DE REGRESI ON DE
LA
MUESTRA
La ecuaci6n dice que, puesto qu es un valor negativo, la recta cruz a el eje abajo del origen que, puesto qu el valor b, la pendiente, es positivo, la recta se .. extiende desde el extrema izquierdo inferior de la grafica hasta el extrema derecho superior. Tambien, es posible apreciar que po cada unidad qu aumente x, au cantidad igual a 3.46. El simbolo representa el valor calculado mediante la ecuaci6n, en lugar del valor observado de Y. la ecuaci6n 9.3.2, se obtienen la AI sustituir los valores adecuados de coordenadas necesarias necesarias para trazar la recta. recta. Suponga, primer o, qu 70 qu se obtiene menta po un
-216 + 3.46(70)
26
lIO, se obtiene
Si
-216+3.46(110)
164
La recta, junto con los datos originales, se muestra en la figura 9.3.3. 260 40 220 200 180 "0
::>
160
c. ""ffi
'E "0 .0
ro
----_
140
.............
120
:2 Q)
100
"0
.«
80
60 40 20
Cireunfereneia de la eintura (em), FIGURA
9.3.3
Datos originales
recta po minimos cuadrados para el ejemplo 9.3.1. •
CAPITULO 9
41
REGRESIO N Y CORRELACION LINEAL SIMPLE
Criterio de m{nimos m{nimos cuadrados Oespues de obtener 10 qu se llama la me jo recta qu describe las relaciones entre las variables variables,, es necesario identific ar qu criterio puede se el mejor. Antes establecer el criterio, hay que examinar la figura 9.3.3. Es posible apreciar que, po 10 general, la recta de minimos cuadrados no pasa a traves de los puntos observados qu se marcan en el diagrama de dis persion. persion. En otras palabras, la mayor parte de los los pun tos observados se desvian de la_ recta po cantidades que varian. La recta trazada a traves de los puntos tiene el siguiente significado significado puntos obs({rvados a partir La suma de las desviaciones verticales al cuadrado de de la recta de minimos cuadrados es menor que la suma de las desviaciones verticales al cuadrado de los puntos de los datos que forman cualquier otra recta.
En otras palabras, si se eleva al cuadrado la distancia desde cada punto obser vado (y) hasta la recta de minimos cuadrados y se suman esos valores para todos esos puntos, el total que resulta sera menor que-el total calculado en forma seme jante para cualquier otra recta que pueda trazarse a traves de los puntos. Por esta razon, la recta traza da se llama recta de minimos cuadrados.
FJERCICIOS 9.3.1
Grafique las siguientes ecuaciones de regresion sobre papel milimetrico y defina si X y guardan un relacion directa inversa. a)
2x
b)
.05x
c)y=1O-0.75x
9.3.2
Las siguien tes calificaciones corresponden a la evaluacion de las enfermeras (X) y a las eva luaciones de los medicos (Y) sobre la condicion de 10 pacientes al momento de hospitaliza cion en la unidad de traumatologia: X: 18 Y: 23
13 20
18 18
15 16
10 14
12 11
10
a) Construya un diagrama de dispersion para estos datos. b) Grafique las siguientes ecuacione de regresion lineal sobre el diagrama de dispersion, e indique cual recta se ajusta ajusta mejor a los datos. Explique po qu se escogio. .05x
I)
2) 3)
-1
2x Ix
Para cada uno de los siguientes ejercicios, a) dibuje un diagrama de dispersion y b) obteng la ecuacion de regresion y grafiquela sobre el diagrama. 9.3.3
al. (A-2) existe una gran variedad de manifestaci ones cHnic cHnicas as de anemia de celulas falciformes. En un esfuerzo po explicar esta variacion, los investigadores utilizaron un microrre6metro esferic esferic magnetoacustico, desarrollado en su laboratorio para medir algunos pani metros reologicos resulta de suspensiones de celulas en individuos con esta enfermed ad. Cor relacionaron sus resulta dos c on event os cHnico cHnicoss y falla fallass termi nales org anicas en los individuos con anemia de celulas falciformes. La siguiente tabla muestra las calificaciones para cada una de las mediciones
EJERCICIOS
41
reol6gicas, reol6gicas, m6dulo viscosidad (VI C) (X), calificadones de fallas terminales organicas (Y). Las calificaciones de fallas fallas termi nales se hicieron co base en la presencia de nefropatia, necrosis avascular de hueso, ataques de apoplejfa,retinopatia, de hipoxemia en reposo despues de sfndrome toracico agudo, ulcera de miembros inferiores y priapismo con impo tencia.
x .32 .72 .38 .61 .48 .48 .70 .41
9.3.4
Y
0 3 1 4 3 1
.57 .63 .37 .45 .85 .80 .36 .69
2 5 George Phlllips, Jr., Br uce Coffey, Coffey, Roge r Tran-Son-T Tran-Son-Tay, ay, T. R. Kinney. Eugene P. Orringer y R. M. Hochmuth, "Relationship of Clinical Severity to Packed Cell Rheology in Sickle Cell Anemia", Blood, 78, 2735-2739. FUENTE:
1 4
Habib Lutchen (A-3) presentaron un tecnica de diagn6stico qu resulta se muy interesan te para medicos especialistas especialistas en problema s respiratorios. Las siguientes calificacio calificaciones nes fueron produddas po esta tecnica, Hamada AMDN; tambien se presentan las calificaciones (% predicci6n) del volumen espiratorio forzado (VEF) registrado en 22 individuos. Los prime ros siete individuos eran sanos, de octavo al decimoseptimo individuo tenfan asma, y el resto de individuos eran pacientes co fibrosis quistica. Paciente
1 3
10
11
12 13 14 15 16 17 18 19 20
21 22
AMDN
1.36 1.42 1.41 1.44 1.47 1.39 1.47 1.79 1.71 1.44 1.63 1.68
1.75
1.95 1.64 2.22 1.85 2.24 2.51 2.20 2.20 1.97
102 92 111· 94 99 98 99
----_
80 87 100 86 102 81 51 78
52 43
59 30
61 29 86
Robert H. Habib Kenneth R. Lutchen, "Moment Analysis of Multibreath Nitrog en Washout Washout Based on an Alveolar Gas Dilution Number", American Review of Respiratory Disease, 144, 513-519. FUENTE:
..........
CAPITULO 9
41
5
REGRESION Y CORRELACION CORRELACION LINEAL SIMPLE
un articulo de la revistaAmericanJournal o/Clinical Pathology, de Metz et al. (A-4) publica
eritrocitos dism6rficos ro la comparaci6n de tres metodos para determinar el porcentaje de eritrocitos en la orina. Obtuvieron los siguientes resultados al utilizar los metodos A (X) Y (Y) 75 muestras de orina.
20 6 17
11
7
0 0
13 15 18
20 16 9 FUENTE:
19 20 18 5
3 5
39 40 48 47 57 50 60 60 59 2
15 17 13
8 9 13
6
16 18 30 30 29 35 2 40 45 49 50 41
43 42 60 65 70 69
65 66 67 69 74 75 75 76 78 78 77 82 85 85 86
88
55 71
89 90
70
91
71
90 92 93 93
60 59 70 69 70 80 82 90 73 74 80 75 74 83
94
95 95 95 95 97 98 99 100 100 100
81
80 90 97 89 98 97 98 89 95 97 98 85 95 95 96 100 99
91
Utilizada co autorizaci6n de Menno de Metz.
9.3.6 La estatura estatura es, es, con frecue frecuenci ncia, a, utilizada utilizada como como un variable adecuada para predecir el peso entre la gente de la misma edad sexo. Los siguientes datos corresponden a las estaturas pesos de 14 varones con edades e ntre 19 26 afios que participaron en un estudio conducido po Roberts et al. (A-5).
Peso
Estatura
Peso
83.9 99.0 63.8 71.3 65.3 79.6 70.3
185 180 173 168 175 183 184
69.2 56.4 66 .2 88.7 59.7 64.6 78.8
FUENTE:
Estatura
174 164 169 205 161 177 174
Utilizada co autorizaci6n de Susan B. Roberts.
.4
EVALUACION DE LA ECUACION ECUACION DE REGRE SION
41
9.3.7 Ogasawara (A-6) recolect6 las siguientes calificaciones en la escala completa del IQ (coefi ciente intelectual) a partir de 45 pares de hermanos con distrofia muscular progresiva de
Duchenne.
114 68 116 123 107 81
78 77 112 114 104
99 92 80
76
90 91 95 106
113
99
97 80
99
84 89
82 77 81 III 80 98 82 56
100 III 75 94 67
46 106 99
II
98 89
102
FUENTE:
127 113 91 91
96 100 97 82 43 77 109 99 99 100 56 56 67 71 66 78 95 38
113 112 103 93
90
102 104
92
43 100
90
100 103 103 67 67 67
66
63 76
86
64
Utilizada con autorizaci6n de Akihiko
Ogasawara.
EVALUACION
IA ECUACION
DE REGRESION
Despues de obtener la ecuaci6n de regresi6n, es necesario evaluarla para determi si puede utilizar na sl describe adecuadamente la relaci6n ent re las dos variable se convenientemente con fines de predicci6n estimaci6n. 0: f3
Ye lineal, la pendiente de la recta que describe esa relaci6n, ser a positiva, positiva, negativa igual a cero. Si es cera, los datos de la muestra extraida de la poblaci6n, a la larga, praporcionaran ecuaciones de regresi6n lineal qu tienen poco ningiln valor para prap6sitos de predicci6n de estimaci6n. Ademas, aunque se suponga Si
no es rechw:.ada
Si en la poblaci6n la relaci6n entre
41
CAPITULO 9 REGRES ION Y CORRELACION LINEAL SIMPL
que la relaci6n entre X es lineal, es probable qu la relaci6n tenga mejor des cripci6n mediante otro modelo no lineal. Cuando sucede este caso si se ajustan los datos de la muestra al modelo lineal producen resultados compatibles con pendiente cero para la poblaci6n. Asi, al efectuar un prueba en la que la hip6tesis nula, que indica que es igual a cero, no se rechaza, se puede conduir (bajo la suposici6n de que no se comete el error de tipo II al aceptar un hip6tesis nula): 1) puede ser lineal, no es 10 suficientemente estre que aunqu e la relaci6n relaci6n entr e X cha para permitir que X sea de gran valor para estimar predecir a Y, bien, 2) qu la relaci6n entre X no es lineal; es decir, algunos modelos curvilineos se ajustan mejor a los datos. La FIgura 9.4.1 muestra las clases de relaciones entre X Ye poblaci6n qu puede prevenir el rechazo de la hip6tesis nula O.
f3
Considere las siguientes situaciones en una po blaci6n que puede pioducir el rechazo de la hip6tesis nula O. Suponga qu si no se comete un error de tipo I, el rechazo de la hip6tesis nula, 0, puede
Si
0:
es rechazada
• • (a)
••
(b)
Condiciones en un poblaci6n que pueden prevenir eI rechazo de la hip6 tesis tesis nula d e que O. a) La relaci6n entre X Yes lineal, pero tiende tanto a cero que los datos de la muestra probablemente no generaran ecuaciones titiles para predecir cuando no es lineal, el model o curvilineo ofrec un el valor de X esta dado. b) Las reIaci6n entre X ajuste mejor para los datos; los datos de la muestra probablemente no gener aran ecuacion ecuaciones es que sean titiles para predecir cuando el valor de X esta dado. FIGURA 9.4.1
.4
~ - - - - - - -
EVALUACION DE LA ECUACION ECUACION DE REGR ESION
- - - - - - - -
- - - - - - -
- - - - - - - -
41
- - - - - - x
(a)
~ - - - - - - - - - - - -
- - - - - - - - - - - -
- - - - - - - - - x
(b
Las condiciones de la poblaci6n con respecto a X que pueden causar el rechazo de la hip6tesis nula de qu 13 O. a) La relaci6n X Yes lineal de suficiente intensi da parajustificar el uso de la ecuaci6n de regresi6n muestral para predecir estimar para valores dados de X. b) Un modelo lineal ofrece un buen ajuste de datos, pero algunos modelos curvilfneos curvilfneos ofrecerfan un ajuste todavfa mejor. FIGURA 9.4.2
atribuirse a una de las siguientes condiciones en la poblacion: 1) la relacion es lineal de suficiente fuerza para justificar el uso de ecuaciones de regresion muestral con base en los valores dados de X, 2) los datos se para predecir estimar ajustan bien a modelo lineal, pero alglin modelo curvilineo podria proporcio na un ajuste mas adecuado. La figura 9.4.2 ilustra las dos condiciones qu puedan producir el rechazo de Ho: O. De esta forma, se puede aprecia r que es aconsejable probar Ho: 0 antes de utilizar la ecuacion de regresion de la muestra para prediccion estimacion. Esto s puede hacer mediante el analisis de variancia la estadfstica F, bien, mediante la estadfstica t. Ambos metodos se muestran posteriormente, pero antes de esto, es conveniente saber como se investiga la fuerza de la relacion entre Y. ==
Coejiciente de determinacion Un forma de evaluar la eficiencia de la ecua cion de regresion es comparar la dispersion de los puntos tomo a la recta de regresion con la dispersion en torno y, la media de los valores de la muestra de Y.
41
CAPITULO 9
REGRESIO N Y CORRELACION LINEAL SIMPLE
260,
240 220 ::..
.3 "0
c:
'I
200 180
-216
::I
'@
C\.
3.46x
160
"iil
c: 'E "0
140
.c
<1l
"0 IJ) "C
120 100
<1
.«
Y=101.89
•
80 60 40
20
Circunferencia de la cintura (em),
9.4.3 plo 9.3.1.
FIGURA
Diagrama de dispersi6n, recta de regresi6n muestral recta para el ejem
Si se toma el diagrama de dispersion para el ejempl o 9.3. se traza a traves de los puntos un recta qu intercepte con el eje Ye qu sea paralela al eje X, puede obtenerse un impresion visual de las magnitudes relativas de la dispersion de los puntos en torno a esta recta a la recta de regresion. Esto se ha hecho en la figura 9.4.3. Parece obvio, al observar la figura 9.4:3, qu la dispersion de los puntos en torno a la recta de regresion es mucho menor qu la dispersion en torno la recta utH solo con base en esto. y. Sin embargo, no es posible decidir qu la ecu acion es utH La situacion puede no ser siempre ta evidente, de modo qu seria mucho mas conveniente un medida objetiva de algiin tipo. Esta medida es el coeficiente de deter minacion. Antes de definir el coeficiente de determinacion, es necesa rio justificar su uso mediante el examen de la logica en la que se bas a s u calculo. Primero se comienza po considerar el punto correspondiente a cualquier valor observado, para medir la distancia vertical entre dicho punto la recta y. A esto se Ie da el nombre de desviaci6n total se designa po (y; y).
Desviacion total
9.4
EVALUACION EVALUACION DE LA ECUACION DE REGRESION
41
mide la distancia vertical vertical entr e la recta de regre si6n y la recta y, se obtiene ( y), que se conoce como desviaci6n explicada, porque muestra en cuanto disminuye la desviaci6n total si la recta de regresi6n se ajusta a los puntos.
Desviaci6n explicada
Si se
Finalmente, se mide la distancia vertical entre el punto ~ b s e r v a d o y la recta de regresi6n para obtener (Yi y), Hamada desviaci6n inexplicada, porque represen ta la porci6n de la desviaci6n desviaci6n total que no esta "explica da" tomada cuenta po la introducci6n de la recta de regresi6n. Estas tres cantidades se muestran para un valor representativo de la figura 9.4.4. Se aprecia entonces que la desviaci6n desviaci6n total para una particular es igual a la suma de las desviaciones explicada e inexplicada. Esto puede escribirse simb6lica mente como:
Desviaci6n inexplicada
(9.4.1) desviaci6n
desviaci6n
desviaci6n
total
explicada
inexplicada
260 240 220 'I
200 >-
180
E-
160
Desviaei6n total (Yi-Y)
Desviaci6n explicada
"0
c:
a. ii
'E "0
..0
'"
'" '"
-<
(y
3.46x
•
-V
120 100
:2 "0
-216
140
•
Y= 101.89
80 60 40 20
85
90
95
100
105
110
115
120
125
Cireu nferencia de la cintura (em),
Diagrama de dispersi6n para mostrar las desviaciones total, explicada e inexplicada para los valores seleccionados de Y, ejemplo 9.3.1.
FIGURA 9.4.4
41
CAPITULO 9
REGRESION Y CORRELACION CORRELACION LINEAL SIMPLE
Si se miden estas desviaciones desviaciones para cada valor de cada desviacion desviacion se suman todas ellas, ellas, se obtiene
y, se eleva al cuadrado (9.4.2)
suma de cuadrados
suma de cuadrados
suma de cuadrados
total
explicada
inex:plicada
Estas cantidades se pueden considerar como medidas de dispersion 0 variabilidad. c u a d r a d o s La suma total de cuadrados (S total po ejempl0, es StUna t o t a l un medida de la dispersion de los valores observados de Ye torno a su media y; es decir, ese termino es un medida de la variacion total en los valores valores observad os de Y. Ellector puede identificar este termino como el numerador de la formula conocida para la variancia muestral.
c u a d r a d o s e x p / i c a d a La suma de cuadrados explicada mide la can StUna tidad de variabilidad total en los valores observados de que se toman en cuenta media nte la relacion lineal entr e los valores valores observad observados os de Y. A esta cantida d se Ie conoce conoce tam bien como la suma de cuadrados debida la regresi6n lineal (SCR). c u a d r a d o s m e x p l i c a d a La suma de cuadrados inexplicada es una me dida de dispersion de los valores observados obs ervados de en torno a la recta de regresion, conocida conocida tambie n como suma de cuadrados del error suma residual de cuadrados (SC rest"duaYI. Esta cantidad se minimiza cuando se obtiene la recta de mfnimos cuadrados. La relacion entre estas tres sumas de val ores al cuadrado se expresa como
StUna
total
SCR
SCresidual
Los valores numericos para obtener la suma de cuadrados, para este ejemplo, se muestran en la tabla de amilisis de variancia, figura 9.3.2. Asf, se aprecia qu 354531, SCR 237549, SCresidual 116982 Y tot 354531 354531
237549 354531
116982
coeftciente demrnlirurewn Intuitivamente es razonable su poner que, que, si un ecuacion de regresion describe describe correcta mente la relacion relacion entre dos variables, la suma de cuadrados explicada 0 de regresion debe constituir un gran proporcion de la suma total d e cuadrados. Serfa interesante ca1cular, entonces, la mag nitud de dicha proporcion mediante el d.lculo de la razon de la suma de cuadrados explicada respecto a la suma total de cuadrados. Esto es exactamente 10 que se hace al evaluar un ecuacion de regresion regresion con base en los datos de la muestra, al resultado se Ie conoce como coeficiente de determinaci6n r2 de la muestra. En otras palabras, Ctilculo
'2:(y- y)2
r2::=---
'2:(Y;
y)2
SCR SCrotal
" " - - - _ ..
.4
EVALUACION DE
LA
ECUACION DE REGRESION
En el ejemplo, se tiene que, al utiliza r los valores de las las sumas de c uadrados a partir
de la figura 9.3.2,
r2
237549:::: .67 354531
coeficiente de determinacion de la muestra mide la proximidad del ajuste de la ecuacion de regresion d e la mues tra a los valores valores observados de Y. Cuando las cantidades (yj y), las distancias verticales de los los valores observados de Ya partir de la ecuacion, ecuacion, son pequefias, la suma de cuadra dos inexplicada es pequefia. Esto con duce a un suma de cuadrados inexplicada gra nde que, a su vez, vez, conduce a un valor grande de r2. Esto se ilustra en la figura 9.4.5. En la figura 9.4.5(a) se aprecia que todas las observaciones estin proximas a la recta de regresion, es de espera r que r2 sea grande. De hecho, el valor calculado E1
(8 r'
grande como medida mas cercana al ajusle
e) r2
T"
pequeno como medida mas lejana al ajuste
(d
,2-'71
r2 como medi da mas cercana al ajuste de la recta de regresi6n lineal para las observaciones de la muestra.
FIGURA 9.4.5
42
CAPITULO 9
REGRESION Y CORRELACION LINEAL SIMPLE
de r2 para estos datos es .986,10 cual indica que aproximadamente 99 po ciento de la variaci6n total los valores de es explicada po la regresi6n. estin amplia En la figura 9.4.5(b) se ilustra un caso donde los valores de mente dispersos en torno la recta de regresion, po 10 qu se supone que r2 es pequeno. El valor de calculado para los datos es de .403; es decir, menos 50 po ciento de la variacion total en los es explicada po la regresion. El valor maximo qu puede tomar es 1, un resultado qu se obtien cuando toda la variadon en los es explicada or la regresi6n. Cuando r2 1, todas las observaciones caen sobre la recta de regresion. Esta situaci6n se muestra la figu 9.4.5(c). ra El limite inferior de r2 es O. Este resultado se obtiene cuando coindden la
recta de regresi6n la recta trazad a a traves de y. En esta situaci6n, ninguna de las variadones en los es explicada po la regresi6n. La figura 9.4.5(d) ilustra un caso donde se aproxima a cero. Por 10 tanto, cuando r2 es grande, la regresi6n ha explicado un gran proporci6n de la variabilidad total en los valores observ ados de se acepta la ecuad6n de regresi6n. Por otra parte, un pequeno, que indica na falla de la regresi6n para explicar un gran proporci6n de la variaci6n total en los valores observados de Y, tiende arrojar dudas sobre la utili da de la ecuad6n de regresion para efectuar efectuar predi cdones estimadones. Sin embargo, la ecuaci6n se so juicio fmal hasta que haya sido sujeta a un prueba estadistica objetiva. mete mediante la estadisticaF El siguiente ejemp lo ilustra .: f3 un de los metodos para llegar a conclusi6n respecto a la relaci6n entre X Y.
Pruebade
un
EjEMPLO 9.4.1
Consulte los datos de ejempl o 9.3. para averiguar si es posible concluir qu tienen relaci6n lineal en la poblaci6n de donde se extrajo la muestra. Soluc ion: Los Los pasos pasos del procedimiento para la prueba de hip6tesis son com o sigue 1. ~
a t o s .
Los datos se presentan en el ejemplo 9.3.I. 9.3.I.
2. Supuestos. Se sup one que el modelo simple de regresi6n l ineal y las suposiciones qu la sustenta n como se describe en la secci6n 9.2 so aplicables. 3. Hipotesis. H o : ~ H o 0 : ~
HA
: ~ : ; t : O
.05 prueha. La estadfstica 4. Estadistica estadfstica de prueba es R.V., tal como se analiza a continuaci6n. partir de los tres terminos de la suma de cuadrados los grados de liber tad asociados, asociados, es posible constr uir la tabla de anaJi sis de la variancia como se indica en la tabla 9.4.1.
.4
42
EVALUACION EVALUACION DE LA ECUACION DE REGRESION
T a b l a ANOVA p a l ' a
TABlA 9.4.1
l'egresi6n l i n e a l
simple Fuente de variacion
g.l.
SC
R.v,
CM
Regresi6n lineal
SCR
CMR
Residual
SCresiduaJ
CM",sidual
Total
SCrotal
SCR/l
SC",s;dual/(n
CMR/CMresidual 2)
En general, los grados de libertad asociados co la suma de cuadrados debida a la regresio n son iguales al numero de constan tes de la ecuacion de regresion menos 1. En el caso lineal simple, se tiene dos constantes, b; or 10 tanto, los grados de libertad para
la regresion son 2 -
1.
5. Distribucion de Ia estadistica prueba. Es posible mostrar que cuando la hipotesis de no relacion lineal entre y Yes verdadera, cuando las suposiciones en las que se basa la regresion se cum plen, la razon que resulta de dividir el cuadrado medio de la regre si6n entre el cuadrado medio del error sigue un distribuci6n co grados de libertad. 6. RegIa decision. Se rechaza si el valor calculado para R.v. es mayor igual que el valor cntico de F. prueba. Tal como se observa en la la estadistica 7. CaIculo figura 9.3.2, el valor calculado de es 217.28. 8. Decision estadi stica. Se rechaza la hipotesis nula, porque 217.28 (el cual se obtuvo or es mayor qu 8.25, el valor cntico de interpolacion) para 1 y 107 grados de libertad. 9. Concl usion . Se concluye concluye que el el modelo lineal lineal proporci ona buen ajuste para los datos. p. Para esta prueba, puesto que 217.28 13.61, se tiene 10. Valor quep .005. • Estimacion determinacion de coejiciente p o b l a c i o n EI coe ficiente de determinacion de la muestra proporciona un estimacion puntual de p2, el coeficiente de determinacion de la poblaci6n. Este coeficiente p2 tiene la misma fun cion relativa relativa a la poblacio qu tiene r2 co respecto a la muestra. Esto indica que la proporcion de la variaci6n total de la poblacion en es explicada po la regresion de sobre X. Cuando el numero de grados libertad es pequeno, r2 esta sesgado positivamente. Es decir, r2 tiende a ser grande. Un estimador insesgado de p2 10 proporciona
L(Yi
.W /(n-2)
L(Yi
yF /(n
(9.4.3)
422
CAPiTULO 9
REGRESION Y CORRELACION LINEAL SIMPLE
Observe que el numerador de la fracci6n en la ecuaci6n 9.4.3 es el cuadrado medio inexplicado y el denominador es el cuadrado medio total. Estas cantidades estan induidas en la tabla de analisis de la variancia. Para este ejemplo, al utilizar los datos de la figura 9.3.2 se tiene: 1 116982/1 116982/107 07 354531/108
1'2
.66695
Esta cantidad esta etiquetada como R-sq(adj) en la figura 9.3.2 y se reporta como 66.7 po ciento. Se aprecia que este valor es es lige rament menor que 1 1169 116982 82 354531
r2
.67004
Se aprecia que la diferencia en r2 1'2 se debe alfactor (n 1)/(n 2). Cuando gran de, este factor se apro xima a 1 y la la diferencia entre r2 y tiende a cero.
es
f3 Cuando se satisfacen las mediante Ia estadfstica t suposiciones establecidas en la secci6n 9.2, son estimadores puntual es insesga dos de los parimetros correspondientes ex Dado que bajo estas estas suposiciones las subpoblaciones de los valores de siguen un distribuci6n normal, pueden formar se tambien intervalos de confianza para probar hip6tesis sobre ex Cuando las suposiciones de la secci6n 9.2. se cumplen, cada una de las dis tribuciones muestrales de siguen un distribuci6n normal con las siguientes medi das y variancias variancias
Pruebu de
0:
Ila
ex
(9.4.4)
(9.4.6)
(9.4.7) En las las ecuacio nes 9.4.5 y 9.4.
( j ' ~ 1 x
es la variancia inexpl icada para las subpoblaciones
de valores de Y. pueden formar Co el conocimiento de las distribuciones distribuciones muestrales de se los intervalos de confianza y probar las hip6tesis relativas a ex en la forma acostumbrada. En general, las inferencias respecto a ex no so de interes. Por otro lado, un gran parte del interes se centra los procedimientos de inferencia con respecto a La raz6n de esto es el hecho de qu dice mucho acerca de la forma estan linealmente relacionadas, una de la relaci6n entre X y Y. Cuando X positiva indica que, en general, aumenta medida qu X aumenta, y se dice qu existe una relaci6n lineal directa entre X y Y. Un negativa indica que los valores de tienden a disminuir a medida que aumentan los valores de X, y se dice que hay
.4
EVALUACION EVALUACION DE
LA
ECUACION DE REGRESION
y
•• •
•• • x
(a)
(b
(c)
Diagrama de dispersi6n que muestra a) relaci6n lineal directa, b) relaci6n FIGURA 9.4.6 lineal inversa c) relaci6n no lineal entre X Y. Y. Cuando no hay un relacion lineal entre X Y, relaci6n lineal inversa entre es igual a cero. Estas tres situaciones se presentan en la figura 9.4.6.
un
Para probar hipotesis respecto a 13, la estadfstica de prueba
Prueba estadistica
cuando se conoce
c r ~ 1 <
es
z
b 130
EI valor supuesto de 13 no tiene qu donde 13 es el valor supuesto de pero en la practica es ma frecuente que la hipotesis nula de in teres sea
Como regIa
c r ~ 1 x
(9.4.8) ser cero, O.
es desconocida. Cuando este es el caso, la estadfstica de prue
ba es:
b-l3o Sb
(9.4.9)
es un estimacion de cr sigue un distribucion de Student con grados de libertad. Se rechaza la hipotesis nula si la probabilidad de observar un valor an extremo como el valor de la estadistica de prueba , calculado con la ecuacion 9.4.9, y si la hipote sis nula es verdadera y menor que rJ/2 (puesto que se tiene un prueba bilateral). donde
Sb
EJEMPLO 9.4.2
Co base los datos de ejercicio 9.3.1, se desea saber si es posible concluir que la pendiente de la recta de regresion de la poblacion qu describe la relacion entre Ye
cero.
Soluci6n: 1. Datos.
Ver el ejercicio 9.3.1.
2. Supuestos. Se presume que el modelo de regresi on lineal simple y las suposiciones qu 10 fundamentan son aplicables. aplicables.
424
CAPITULO 9
REGRESION Y CORRELACION LINEAL SIMPLE
3. Hipotesis. Ho : ~ = O HA : ~ ; ; O : O : ~ ; ; O : O
a .0
4. Estadistica prueba. La estadistica de prueba se obtiene me diante la ecuacion 9.4.9. 5. Distribucion de Ia estadistica de prueba. Cuando se satisfacen las suposiciones y Ho es verdadera, la estadfstica de prueba sigue 2 grados de libertad. un distribucion de Student con 6. RegIa decision. Se rechaza Ho si el valor calculado de es ma yor 0 igual que 1.2896,0 bien menor 0 igual que -1.2896 obtenido interpolacion. interpolacion. 7.
de Ia estadistica.
figura 9.3.2,
3.4589, Sb
3.4589-0
el resultado .2347 Y
se
en la
14.74
.2347 8. Decision estadistica.
Se rechazaH porque 14.74
1.2896.
9. Conclusion.
Se concluye que la pendiente de recta de regresi6n verdadera no es cero.
10. Valor p. El valor para esta pl)Ueba es menor que .01, pues to que, cuando Ho es verdadera, la probabilidad de obtener un valor de igual 0 mayor qu 2.6230 (por interpolad6n) es .005 y la proba bilidad de obtener un valor de igual 0 me or que -2.6230 es tam bien de .005. Puesto qu 14.74 es mayor que 2.6230, la probabili dad de observar un valor tan grande 0 mayor que 14.74, cuando la hipotesis nula es verdadera, es menor que .005. El doble de este valor es 2(.005) .01. La implicadon practica de resultado es qu se espera obtener mejores predicdones y estimaciones de si se utiliza la ecuadon de regresion de la muestra qu las qu se pueden obtener si se ignora la reladon entre X y Y. El hecho de qu es positiva nos lleva a cree r es positiva y qu la relaci6n entre X y un relaci6n lineal qu . Como se indic6 anteriormente, la ecuaci6n 9.4.9 puede emplearse para probar la hip6tesis hip6tesis nula seg6n la cual puede ser un valor diferente de cero. El valor supuest para se sustituye en la ecuaci6n 9.4.9 en lugar de cero. Todas las las demas cant ida des, igual qu los dlcu1os, son los mismos qu aparecen en el ejemplo. Los grados de libertad y el el meto do para determinar la significaci6n significaci6n tambi en son identicos. Intervalo de conjianza para f3 Un vez qu se ha determinado que es im probable, a la luz de la evidencia de la muestra, que sea cero, cero, al investigador tal
----_
...........
.4
EVALUACION DE
LA
ECUACION ECUACION DE REGRES ION
vez Ie interese obtener un estimaci6n de intervalo de mula general para un intervalo de confianza: estimador
42
Es po sible utilizar la f6r
(factor de confiabilidad) (error estandar de la estimaci6n)
Cuando se obtiene el intervalo de confianza para
el estimador es b, el factor de (dependiendo de si se conoce no 0 ' ~ 1 x ) ' el
confiabilidad es algUn valor de error estandar del estimador es
L{
Cuando 0';1x es desconocida,
donde
O'b
X)2
se estima mediante
CMresidu.1'
En muchas situacione pnkticas ellOO(1 fianza para es
a) po dento del intervalo de con
t(1_CJI2)Sb
(9.4.10)
Para este ejemplo, se elaboro el siguiente intervalo de confianza de 95 po dento para
3.4598
1.2896{.2347) 3.16,3.76
Este intervalo se inte rpre ta en la forma habitual. Desde el punto de vista probabilistico, se dice que al repetir el muestreo, 95 po ciento de los intervalos que se obtienen de esta forma incluyen a La interpretacion practica es qu se tiene 95 po ciento de confianza de qu el unico intervalo que se obtenga incluira a Empleo conjianza para Ho f3 0 Resulta util intervalo observar qu el intervalo de confianza qu se construyo no incluye a cero, de mane ra qu este valor no es un candidato para el parametro que se esm estimando. Se su on entonces qu es improbable qu O. Esto es compatible con los resulta dos de la prueba de la hip6tesis en la que se rechazo la hipotesis nul qu dice qu en el nivel de significadon O. En realidad, siempre puede probarse Ho: puede al construir el intervalo de confianza de 100(1 - a) po ciento para rechazarse no la hip6tesis, dependiendo de si el intervalo incluye incluye no at cero. Si incluye al cero, la hipotesis nuia no se recbaza; si ocurre 10 contrario, el intervalo incluye dicha hipot esis se rechaza. Interpretacion r e s u l t a d o s Debe quedar claro en este punto que, no no significa qu X no esten relacionados. rechazar Ia hipotesis nuia de qu relacionados. No solo es posible qu se haya cometido un error de tipo II, sino que tal vez X
426
CAPITULO 9
REGRESI ON Y CQRRELACION LINEAL SIMPLE
estan relacionados relacionados de alguna forma no lineal. Por otra parte, cuando se rechaza la hip6tesis hip6tesis nula de q ue 0, no puede concluirse que la relaci6n verdadera entre sea lineal. Un vez mas, mas, pilede s er que aun que los datos se ajusten bastante bien al modelo de regresi6n lineal (como 10 demuestra el hecho de que la hip6tesis nula e rechaza), rechaza), algiln modelo no lineal podria proporcionar un ajuste au mejor. En consecuencia, cuando se rechaza la Ho de que 0, 10 mejor que puede decirse es que se obtie nen resultados mas utiles utiles (que se analizan a continuaci6n) al tomar en cuenta la regresi6n de sobre X que cuando esto se ignora. FJERCICIOS 9.4.1 aI9.4.5
9.5
Con base en los datos de los ejercicios 9.3.3 a 9.3.7, lleve a cabo 10 siguiente para cada uno de ellos: a) Calcule el coeficiente de determinaci6n. probar la hip6tesis de que 13 o. b) Prepare una tabla ANOVA y utilice la estadistica Sea ex; =.05. c) Utilice la estadfstica para probar que la hip6tesis nuIa de que 0, con un nivel de significaci6n significaci6n de .05. d) Determi ne el valor de para cada prueba de hip6tesis. e) Obtenga las conclusiones en terminos del problema. confianza de 95 po ciento para 13. £) Construya el intervalo de confianza
USO DE IA ECUACION
DE REGRESION Si los los resultados al eva luar la ecuaci6n de regresi6n de la muest ra indican qu existe un relaci6n entre las dos variables de interes, puede darse un uso practico a dicha ecuaci6n. ecuaci6n. Existen dos man eras de utilizar la ecuaci6n: ecuaci6n: Puede utilizarse para predecir el valor probable de dado un valor especifico de X. Cua ndo se satisface la suposi ci6n de normalidad planteada en la secci6n 9.2, puede obtenerse un intemalo de predicci6n para este valor pronosticado de Y. Puede utilizarse tambie n la ecuaci6n de regresi6n para estimar la media de la subpoblaci6n de los valores de que se supone existen para algiln valor valor particul ar de X. Un vez mas, si se cumpl en las suposicione de que las poblaciones siguen un distribuci6n normal, puede elaborarse un intervalo de confianza para este parametro. El valor pronosticado de la estimaci6n puntual de la media de la subpoblaci6n de seran numericament e iguale para cualquier valor espedfico de X, pero, como se vera, el intervalo de predicci6n sera mas amplio que el interval<;J de confianza. Si se sab'e, se supone , q ue las suposicio suposicio nes de la secci6n 9.2 se cumplen, 8i ( J ~ J x se desconoce, entonces el intervalo de predicci6n de 100(1 a) para Yesta dado por:
Prediccion de Ypara
un
dada
(9.5.1)
.5
usn
DE LA ECUACION DE REGRESION
27
intervalo de donde xp es el valor espedfico de en el qu se pretende obtener prediccion de Y, co 2 g rraa do do s de libertad para utilizar la estadfstica t. Estimacion de la media de
para un
Si
dada
intervalo de confianza de 100(1 - a) po ciento para
IlYlx
c r ~ 1 x
se desconoce, el
esta dado por:
(9.5.2) En este ejemplo se utilizo el programa MINITAB para calcular co un valor esped fico de X el intervalo de confianza de 95 po ciento con un media intervalo de prediccion de 95 po ciento para las mediciones individuales de Y. Suponga que, para este ejemplo, se pretende hacer predicciones estimacio nes respecto al tejido adiposo alrededor de un cintura de 100 cm de circunferen cia. En la caja de dialogo de regresion se hace dic en "Options". Se tedea 100 en la caja de "Prediction interval for new observations". Despues se hace di en "Confi dence limits" en "Prediction limits". Se obtuvieron los siguientes resultados: Ajust e
Aj. desv. desv. est.
129.90
3.69
I.e. 9%
I.p. 95.0%
(122.58, 137.23)
63.93,195.87
El intervalo de confianza (I.C.) de 95 po ciento se interpreta como sigue: Si se extraen de manera repetida muestras de la poblacion de hombres, se aplica analisis de regresion se estima Illx 100 co un intervalo de confianza construido de manera similar, casi 95 or dento de estos intervalos induirfan la cantidad media de tejido adiposo abdominal para la poblacion. Por 10 tanto, se tiene 95 po ciento de confianza qu el intervalo individual contiene la media po blacional qu esta entre 122.58 137.23 cm. La interpretacion del intervalo intervalo de prediccion (I.P.) es similar a la interpret acion de intervalo de confianza. Si se extraen muestras repetidamente, se hace anali sis de regresion se elabor an los intervalos intervalos de prediccion para los hombres qu e tie nen una cintura que mide 100 cm, cerca de 95 po ciento de enos induiran el valor correspondiente de tejido tejido adiposo abdomina de los hombres. Esta es un interpre tacion probabilfst probabilfstica. ica. La inte rpreta cion practica es qu se tiene 95 po ciento de con fianza de que los hombres que tienen un cintura que mide 100 cm tendra un area de tejido adiposo abdominal que esta entre 63.93 195.87 centfmetros cuadrados. La figura 9.5.1 presenta un parte de los resultados generados po el paquete SAS® para el analisis de regresion lineal simple co los datos del ejemplo 9.3.1. Co frecuencia, el co junto de datos disponibles para el Recta de resistencia analisis co la tecnica de regresion lineal contiene na mas observaciones y, ambos, pueden ser mucho mas grandes "inusuales", esto es, los valores de
ma pequenos que las demas observaciones. Como muestran los resultados de la figura 9.3.2, a traves de la computadora se detectaron siete observaciones inusuales en los datos correspondientes a la circunferencia de la cintura tejido adiposo abdominal, anotados en la tabla 9.3.1.
42
CAPiTULO CAPiTULO 9
Th
SAS
REGRES I6N Y CORRELACI6N LINEAL LINEAL SIMPLE
System
Model: MODELl Dependent V ar i ab l e: Analysis
Variance
of
Source
DF
Su Squares
08
237548.51620 116981.98602 354530.50222
Model Error Total
Root MSE De Mean C.V.
33.06493 101.89404 32.45031
Mean
Square
Value
Prob>F
.279
0.0001
237548.51620 1093.28959
R-square Ad R-sq
0.6700 0.6670
Parameter Estimates
Variable
INTERCEP
DF
Parameter
Standard
Estimate
Error
-215.981488 3.458859
21.79627076 0.23465205
HO; Parameter=O -9.909
14.7400
Prob
ITI 0.0001 .0001
9.5.1 Resultados parciales impresos del amilisis po computadora de los datos dados en el ejemplo 9.3.1, mediante el uso del paq uete de software software SAS@.
FIGURA
de minimos cuadrados para ajustar los datos a un linea recta es sensitivo a las observaciones inusuales, y la ubicaci6n de la recta ajustada puede resultar afectada de manera sustancial. sustancial. Se dice que debi do a esta caracteristica de metodo po minimos cuadrados la recta pierde resistencia po la influencia de las observaciones observaciones inusuales. Algunos metod os est{m diseiiados para tratar este proble ma, entre elIos se encuentra el desarrollado por John W Tukey. A la recta que resulta se Ie llama en ocasiones recta de Tukey recta de resistencia. Co base en las medianas, pr eviamen te estudiadas, que son medidas descrip tivas qu po sf mismas son resistentes (insensibles) a los valores extremos, la meto dologia para la recta de resistencia es un herramienta de analisis de datos exploratoria, capaz de investigar que ta rapido se ajusta la linea recta al co junto de datos formado po las coordenadas x, y. Co base en la variable variable independient e, la tecnica comprende la agrupaci6n de las mediciones de la muestra en tres grupos, con tamaiios tamaiios 10 mas posiblemente iguales: las mediciones mas pequeiias, las mas grandes y las intermedias. La recta de resistencia resistencia es la r ecta ajustada en tal forma El metodo
EJERCICIOS
29
Caja de dialogo: Stat>
EDA > Resistant Line
MTB > Name C3 MTB R L i n e C2
'FITS1' ' R E S I 1 ' C4 C1 ' R E S I 1 ' ' F I T S 1 ' ;
SUBC> M a x I t e r a t i o n s
Teclear C2 Response CI en Predictors. Verificar Residuals Fits. Clic OK. Resultados: Ajuste de
la
Slope
recta de resistencia resistencia 3.2869 Level
Half-slope ratio
0.690
FIGURA 9.5.2
Procedimiento de la recta de resistencia del paquete MINITAB y resulta dos para los datos de la tabla 9.3.1.
que hay un numero igual de valores po arriba y po abajo de ella en los gropos de valores mayores y menores. La pendiente que resulta y las estimaciones de las intercepciones de son resistentes a los efectos de sus valores extremos y. Para ilustrar el ajuste ajuste de un recta de resistencia resistencia se utilizan los datos de la tabla 9.3.1 el paque te MINIT MINITAB. AB. El procedim iento y los resultado se muestran en la figura 9.5.2. los resultados de la figura 9.5.2 que la recta de resisten Es posible observar en los cia tiene un pendiente de 3.2869 un intercepci6n para de -203.7868. La raz6n de linealidad entre de fa mitad de la pendiente, igual a .690, es un indicador del y. Un pendiente, Hamada mitad de la pendiente, se ca1cula para cada un de las mitades de los datos de la muestra. muestra. La raz6n de la mit ad de la pendiente derecha, y la mitad de la pendiente izquierda, es igua1 a br/b Si 1a relaci6n entre es un recta, las mitades de l a pend ie nte son igua1 igua1es es,, y po 10 tanto , la raz6 n es igua igua 1. La raz6n de la mitad de 1a pendiente que no esta pr6xima a 1 indica que pierde resistencia de linealidad entre y. La metodologia de la recta de resistencia se analiza co mas detaHe en Hartwig y Dearing (1), Johnstone y Velleman (2), McNeil (3) y Velleman Velleman y Hoagl in (4). (4). EJERCICIOS Para cada ejercicio se debe t omar como referencia el el con unto correpondiente de ejercicios de la secci6n 9.3, y para el valor X indicado en los ejercicios de esta secci6n: a) construya un intervalo de confianza de 95 po ciento para Il)/x' Yb) construya un intervalo de predicci6n de 95 po dento para Y. 9.5.1
Consult e el ejercicio ejercicio 9.3.3 y sea
.75.
9.5.2
Consult e el ejercicio 9.3.4 y sea
9.5.3
Consult e el ejercicio ejercicio 9.3.5 y sea
60.
9.5.4
Consult e el ejercicio 9.3.6 y sea
200.
9.5.5
Consult e el ejercicio 9.3.7 Y sea
100.
==
2.00 (AMDN), 100 (VEF
43
9.
CAPITULO 9
REGRESI ON Y CORRELACION LINEAL SIMPLE
MODEI.O
En el modelo chlsico de regresi6n, qu ha sido sido el modelo fundamental en la expo sici6n sici6n hasta este pun to, sol Y, Hamada variable dependi ente , es aleatoria. aleatoria. La v a r i a ~ ble X se define como un variable fIja (no aleatoria matemat ica) y recibe el nombre de variable variable indep endiente. Tambien es necesario necesario recordar qu en este modelo las observaciones a menudo se obtienen mediante la preseleccio preseleccio los valores de X y los valores valores correspond ientes de Y. determinando los Cuando X y so variables aleatorias, aleatorias, se ti ene 10 qu se conoce com modelo de correlaci6n. Tipicamente, bcUo el modelo de correlacion, se obtienen observaciones observaciones selecci6n de una muestra al azar de las unidades de asocia de 1a muest ra medi ante la selecci6n ci6n (que pueden ser personas, lugares, animales, puntos en el tiempo cualquier otro ele mento sobre el cual se toman las dos medidas) y tomando un medida de una de Y. En este procedimi ento, los los valores valores de no se preseleccionan, sino qu son al azar, azar, segl in la unidad de asociacion asociacion seleccionada en la muestra. Aunque no se puede llevar a cabo con sentido el analisis analisis de correlacion bajo el modelo de clasico de regresion, el analisis de regresion puede llevarse llevarse a cabo ba jo el modelo d e correlacion. La correlacion que compr ende do s variabl variables, es, implica un correlacion entre ambas que los pone sobre un mismo terreno no las distingue refiriendose a un como la variable dependiente y a 1a otra como la variable variable ind e pendiente. De hecho, hecho, en los procedim ientos basico de d.lculo, que so n los los mismos qu para el modelo de regresion, puede ajustarse un recta a los datos, ya sea mini X)2. En otras palabras, puede hacer mizando L(Yi .W, bien minimizado L( se un regresion de X sobre Y, aSI como un regresi6n de sobre X. En general, las rectas en ambos casos seran distintas, y surge un preg unta logica logica:: (cual recta ajustar? Si el objetivo es unicamente obtener una medida de la intensidad de 1a rela cion entre las dos variables, no importa que recta se ajuste, porque, en general, la medida qu se calcula sera la misma en cualquier caso. Sin embargo, si se desea utilizar la ecuacion que describe la relaci6n en tre las dos variables para los proposi tos estudiados en las secciones anteriores, es importante decid ir cual recta ajusta ajustar. r. para La variable la qu se desea estim ar las medias hacer predicciones debe tra tarse como la variable dependiente; es decir, debe realizarse la regresion de esta variable sobre la otra variable. Bajo el modelo de correlacion, se supone Distribucion normul bivuriada que X y Yvarfan conjunta mente en 10 qu se conoce como distribuci6n conjunta. Si la forma de esta distribuci6n con unta sigue un distribuci 6n normal, se conoce como distribuci6n normal bivariada. Es posible hacer inferencias sobre sobre esta pobla cion co base en los resultados de las muestras extrafdas adecuadamente de ella. Si, po otra part e, se sabe que la distribuci6n con unta no es normal, si se desconoce la forma no existe justific acion para suponer que existe existe norm alida d, se invali dan los los proce dimien tos inferenciales aunque bien pueden calcularse calcularse medid as descriptivas.
Supuestas pura carreludon Deben cumplirse las siguientes suposiciones para que sean validas las inferencias acerca de la poblacion, cuand o el muestreo se realiza a partir de un distribuci6n bivariada.
.6
MODELO DE CORRELAC ION
43
1. Para cad a valor de X existe existe un subpoblaci6n de valores de que siguen distribuci6n distribuci6n normal. 2. Para cada valor valor de Y, existe un subpoblaci6n de valores de X que sigue distribuci6n distribuci6n normal. 3. La distribuci6n co junta de X es un distribuci6n normaillamada distribu cion normal bivariada.
4. Todas las las subpoblaciones de los val ores de tien en la misma variancia. 5. Todas las subpoblaciones de los valores de X tienen la misma variancia. variancia. La distribuci6n normal bivariada se se represent a graficamente en la figura 9.6.1. En esta ilustraci6n se observa que si se corta el montfculo en forma paralela a alglin valor de X, el corte revela la distribuci6n normal correspondiente de Y. Asi mismo, un corte paralelo a X en alg(tn valor de revela la subpoblaci6n corresp on diente de X con distribuci6n normal.
f(X, Y)
f(X, Y)
(a
(b
f(X, Y)
(e
Distribuci6n normal bivariada. a) Distribuci6n normal bivariada. b) Corte que muestra un subpoblaci6n con distribuci6n normal de para X dada. c) Corte que muestra un subpoblaci6n subpoblaci6n con distribuci6n nor mal de X, dada Y.
FIGURA 9.6.1
43
9.
CAPITULO 9
REGRES ION Y CORRELACION LINEAL SIMPLE
COEFICIENTE DE CORRElACiON
La distribuci6n normal bivariada qu se analiza en la secci6n 9.6 tiene cinco I1x' 11" parametros: ax' p. Los primer os cuatro son respectivamente las las desviac desviacio io nes estandar l ~ s medias asociadas con las distribuciones individuales. El otro parametro, p, se conoce como coeficiente de correlaci6n de la poblaci6n mide la intensidad de la relaci6n lineal entre X Y. El coeficiente de correlaci6n de l a poblaci6n es la raiz cuadrada de p2, el coefi ciente de determinaci6n de la poblaci6n previamente estudiada, dado que este 1. Si lOrna valores entre 1 inclusive, p puede tomar cualquier cualquier valor entr -1 1, existe un correlacion lineal directa perfect a entre las dos variable variables, s, mien tras que p -1 indica un correlaci6n lineal inversa perfecta. Si p 0, las dos variables no estan correlacionadas en forma lineal. El signo de p siempre tendra el mismo signo qu tenga la pendiente de la recta de regresi6n de la poblacion para Y. El coeficiente de correlaci6n de la muestra, r, describe la relaci6n lineal entr las observaciones de la muestra en dos variables de la misma manera en que p describe la relacion en un poblaci6n. El coeficiente de correlaci6n de la muestra es la raiz cuadrada del coeficiente de la muestra de determinaci6n que se definio antes. Las figuras 9.4.5(d) 9.4.5{c), respectivamente, respectivamente, m uest ran los tipicos tipicos diagramas 0) 1). La figura 9.7.1 muestra el de dispersio donde (r2 +1 (r2 -1 tfpico diagrama de dispersion donde '# 0, 10 Por general, el interes principal es saber si es posible concluir qu esto es, es, q ue X Yestan linealmente correlacionadas. En general, no se conoce p, po 10 qu seextrae una muestra aleatoria simple de la poblacion de interes, se calcula r, la estimacion de p, se prueba Ho: 0 contra la hip6tesis alternativa p 0. El proce dimi ento se ilustra con el siguiente ejemplo.
FIGURA 9.7.1
Diagrama de dispersi6n para
.7
COEFICIENTE COEFIC IENTE DE CORRELACION
EJEMPLO 9.7.1
Estelles et ai. (A-7) estudiaron los los panimetro s fibronoliti fibronoliticos cos durante embarazos nor males, en embarazos con presi6n arterial normal retardo en el crecimiento fetal intrauterino, en pacientes con preeclampsia con sin retardo en el crecimiento fetal intraut erino. La tabla 9.7.1 9.7.1 muestr a los pesos de los los niiios recien nacidos lo niveles del inhibidor tipo 2 del activador de plasmin6geno (PAl-2) en 26 casos estu diados. Se pretende evaluar la intensidad de la relaci6n ent re estas dos variables variables Soluci6n: EI diagrama de dispersi6n la recta de regresi6n po mfnimos cuadra dos se muestra en la figura 9.7.2.
TABlA TABlA 9.7.1 9.7. 1 Pesos al nace na cerr (g) niveles de PAI-2 (ng/ml) de los individuos descritos en el ejemplo 9.7.1 Peso
2150 2050 1000 2300 900 2450 2350 2350 1900 2400 1700 1950 1250 1700 2000 920 1270 1550 1500 1900 2800 3600 3250 3000 3000 3050 FUENTE: Just o Aznar
PAl·2
185 200 125 25 25 78 290 60 65 125 122 75
25 180 170 12 25 25
30 24 200 300 300 200 200 230 M. D., Ph. D. Usada con autorizaci6n.
43
CAPITULO 9
REGRES ION Y CORRELACION LINEAL SIMPLE
300 275 250 225 200 175
150
.s if
125 100
75 50 25
0 Peso al nacer (g)
9.7.2 Peso Pesoss al nacer niveles de inhibido'r tipo 2 del activador del plasminogeno (PAl-2) de los individuos descritos en el ejemplo 9.7.1.
FIGURA
Se supone que los investigadores pretenden obtener un ecuaci6n de regresi6n para efectuar estimaciones predicciones. En ese caso, el coeficiente de correlaci6n de la muestra se obtendra mediante los me dos estudiados bajo el modelo de regresi6n. Ecuaci6n
regresi6n
Suponga qu se quiere predecir los niveles de PAI-2 a partir de los pesos de los nmos recien nacidos. En este caso, caso, los pesos pesos son t ratad os como la variable variable independient e, los niveles de PAI-2 son tratados como la va riable dependiente. La ecuaci6n ecuaci6n de regresi6n los coeficientes de corre laci6n laci6n se obtienen mediant e el paquete MINITAB, tal como se muestra en la figura 9.7.3. Para este ejemplo, ~ . 5 4 5 .7382. E n este cas se sabe qu es positiva porque la pendiente de la recta de regresi6n es positiva. Tambien es posible utilizar el procedimiento de correlaci6n del programa MINITAB para obtener como se muestra en la figura 9.7.4. Se observa ligera diferencia entre el resultado .7382 .7380, aparentemente causada po el error de redondeo en los calculos inter medios. En la figura 9.7.5 se muest ran los resultados resultados producido po el pro cedimiento de correlaci6n del paquete SAS®. Es po sible observar que el procedimiento del paquete SAS® pre sent a las las mediciones descriptivas descriptivas par cada variable variable as! como el valor de para el coeficiente de correlaci6n.
.7
COEFICIENTE DE CORRELACIQN CORRELACIQN
regression
72.1
C2
0.0953
Constant
Coef -72.12 0.09525
s
R-sq
Predictor
65.35
Stdev 39.27 0.01778 54.5%
t-ratio 84 5.36
R-sq(adj)=
0.079 0.000
52.6%
Analysis of Variance DF
SS
MS
Error
24
12259 6 4271
Total
25
12259 6 102510 10251 0 225107
SOURCE
Regression
28.70
0.000
Unusual Obs erva ti ons Ob Obs. s.
Stdev.Fit
C2
2350
obs.
denotes
290.0
151.
with
large
13.6
Residual 138.3
Resid 2.16R
resid.
Resultados producidos po MINITAB para el ejemplo 9.7.1 uso del procedimiento de regresi6n simple. FIGURA 9.7.3
m ~ d i a n t e m el ~ d i a n t e
Datos: C1 C2
Weight PAI-2
Comandos de la sesi6n:
Caja de dialogo: Stat>
Basic Statistics> Correlation
Correlation
MTB
C1 C2.
Teclee Cl
C2 en Variables. elic OK
Resultados: Correlaciones (Pearson) Correlation
C2
0.738
Procedimiento MINITA MINITA FIGURA 9.7.4 uso del comando de correlaci6n.
resultados para
e1
ejemplo 9.7.1 median te el
CAPITULO 9
43
REGRESION Y CORRELACION CORRELACION LINEAL SIMPLE
SAS S y s t e m
Analysis 2 'VAR' V a r i a b l e s :
Correlation
WEIGHT
PAI2
Simple
Variable
Statistics
Mean
2088.076923 126.769231
26 26
WEIGHT
PAI2
Sum
Minimum
Maximum
54290 3296.000000
900.000000 12.000000
3600.000000 300.000000
Pearson
Correlation
Coefficients
S t d . De 735.189876 94.890804
IRI u n d e r
Prob
HO
Rho
0
26
WEIGHT
PAI2
WEIGHT
PAI2
00000
0.73798 0.0001 00000
0.73798 0.0001 FIGURA 9.7.5
los,
Resultados impresos po
SAS®
para el ejemplo 9.7.1
Cuando no se dispone de una computadora para efectuar los cilcu se puede obtener mediante las siguientes f6rmulas:
(9.7.1)
Un
f6rmula alternativa para ca1cular esta dada por: (9.7.2)
Un ventaja de esta f6rmula es qu noes necesario calcular prime ro b. Este Este pro cedimi ento es aconsejable cuando no se ha previsto que se utilizara la ecuaci6n de regresi6n. Es importante recordar que el coeficiente de correlaci6n de la muestra, r, siempre tendril el mismo signa que la pendiente de la mues
tra,
b.
.7
COEFICIENTE DE CORRELACION
31
EJEMPLO 9.7.2 De acuerdo co n los datos del eje mplo 9.7.1, se des ea verificar verificar si el valor de .7380 de la muestra, dene un magnitud suficiente para indicar que en la poblaci6n las dos variables de interes estan correlacionad correlacionadas. as. Solucion: Se efectua efectua la prueba de hip6tesis com o sigue: 1. Datos. Datos. Ver el planteamie nto del ejemplo 9.7.1. 2. Supu estos . Se pien sa que las suposiciones dada en la secci6n 9. son aplicables. 3. Hipotesis: Ho :p=O HA
p:;t: 0
4. Estadistica de prueba. Cuando estadistica de prueba adecuada es:
t = r ~ n - 2
0, es posible mostrar que la
(9.7.3)
l-r2
Ia estadistica de prueba. Cuando Ho es verdade y se cumplen las suposiciones, la estadfstica de prueba sigue un distribuci6n de Student co 2 grados de libertad. 6. RegIa de decision. Si .05, los valores crfticos de en el ejem plo son 2.0639. Si a partir de los datos se calcula un valor de qu sea mayor 0 igual a +2.0639, 0 bien, menor 0 igual a -2.0639, en tonces se rechaza la hip6tesis nula. 7. Calculo Ia estadistica de prueba. EI valor calculado de es
5. Distribucion
t=.7380
~ I = M 4 6
=5.3575
8. Decision estadistica. Dado qu el valor calculado de la estadistica de prueba excede el valor crftic de t, se rechaza la hip6tesis nula. 9. Conc lusi on. Se concluye concluye que, en la poblaci6n, los pesos de los ni nos recien nacidos y los niveles de PAIPAI-2 2 est an linealm ente correla . cionados. 10. Valordep. .01.
Puesto que 5.3595> 2.8039, se tiene paraesta prueba, •
diferente Prueba q u e s e utiliza cuando valor supuesto el ejercicio anterior, es conve c e r a La utilizaci6n de la estadistica t, calculada Po, donde Po niente s610 para probar Ho: O. Si 10 que se quiere es probar Ho: es un valor diferente de cero, se debe utilizar procedimiento distinto. distinto. Fisher Fisher (5) sugiere la transformaci6n de en Zr' como sigue:
1
-In--
2
(9.7.4)
433
CAPiTULO 9
REGRESION Y CORRELACION LINEAL SIMPLE
donde In es ellogaritmo natural. Es posible mostrar que z, sigue un distribuci6n aproximad amente normal, con media zp In{(l p)/(l- p)} un desviac desviaci6n i6n es tan da estimada de:
(9.7.5) Para proba r la hip6tesis nula que indica que p es igual a un valor diferente de cero, la estadistica de prueba es
(9.7.6)
Z=--;====
la cual sigue un distribuci6n aproximadamente normal estandar. Para determinar los valores de zr para un observada, y de zp para un valor supuesto de p, se consulta la tabla J, evitando asf el el uso directo de logaritmos natu rales. Suponga que en este ejemplo se quiere probar
contra la alternativa
con un nivel de significaci6n de .05. AI consultar la tabla J, se tiene que para .74
.95048
para
.80
zp
1.09861
Por 10 tanto, la estadistica estadistica de prueba es .95048 1.09861 ....
--:::==,---
-.71
-1.96, se debe rechazar Ro' Se Dado que -.71 es menor que el valor crftico de concluye queel coeficiente de correlaci6n de la poblaci6n probabl emente es .80. .80. Para los los tama iios de muestras menores que 25, la transformaci6n Z de Fisher debe emplearse con precauci6n. Es posible utilizar un procedimiento alternativo,
.7
COEFICIENTE COEFIC IENTE DE CORRELACION
propuesto po Hotell ing (6), (6), para tamanos de muestra mayores este procedi mient o se utiliza la, siguiente transformacion de r:
z*=z
3z
(9.7.7)
4n
La
iguales a 10. En
desviacion estandar de z* es
(9.7.8) La estadistica estadistica de prueba es
Z*
(9.7.9)
donde 1;; (se pronuncia como zeta espanola)
zp
4n
Los valores criticos para propositos de comparacion se obtienen partir de la distribucion normal estandar. p:;j:; .80 mediante la trans En el ejemplo, para probar Ho: .80 contra formacion de Hotelling y .05, se tiene =:
z*=.95048
1;;*
3(.95048)+.7380 4(26)
1.09861- 3(1.09861) + .80
.915966
1.059227
4(26) Z*
( . 9 1 5 9 6 6 - 1 . 0 5 9 2 2 7 ) ~ 2 6 - 1 =-.72
Puesto qu es menor que -1.96, la hipotesis nula no se rechaza y se llega a la misma conclusion que cuando se utiliza la transformac ion de Fisher. En algunas situaciones, los datos disponibles para el analisis no las suposiciones necesarias para utilizar en form a valida los los procedi mientos estudiados aqui para la prueba de hipotesis respecto al coeficiente de c rrelacion de la poblacion. En tales casos casos es mas con venie nte utilizar la tecnica tecnica de Spearman, qu se estudia en el capitulo 13. correlacion de rango
Alternativas
cumplen co
CAPITULO 9
44
REGRES ION Y CORRELACION LINEAL SIMPLE
confianf.ll;a p a r a Es posible utilizar la transformacion de Fisher para construir intervalos intervalos de confianza de 100(1 a) or ciento para p. Se utiliza la formula general para el intervalo de confianza
Intervalo
estimador
(factor (factor de confiabilidad)(error confiabilidad)(error estandar)
confianza Primero se convierte el estimador T, en zr' se elabora intervalo torno Z Y se reconvierten los Hmites para obtener intervalo de confian za de 100(1 a) po ciento para p. La formula general se convierte en
(9.7.10) Para el presente ejemplo, el intervalo de confianza de 95 po ciento para
zp
esta
dado po
.95048
zr'
1.96(1/ .54179, 1.35916
AI convertir estos limites (por interpolacion en la tabla I), qu son valores de en valores de T, se tiene
.54179 1.35916
.494 .876
Por 10 tanto, se tiene 95 po ciento de confianza de que pesta contenido en el intervalo de confianza de .494 a .876. Debido a los valores limitados de la tabla, estos limites deben considerarse solo como aproximaciones.
EJERCICIOS En cada uno de los siguientes ejercicios: a) Elabore un diagrama de dispersi6n. b) Calcule el coeficiente de correlaci6n de la muestra.
c) Pruebe
Ho:
0 con un nivel de significaci6n de .05 y saque conclusiones.
d) Det ermine el valor de
para la prueba.
e) Construya el intervalo de confianza de 95 po ciento para p. 9.7.1
El prop6sito de un de los estudios de Ruokonen et at. (A-8) fue evaluar la relaci6n entre las saturaciones de oxfgeno venoso femoral, femoral, hepatico venoso venoso mixto, ante durante la infu si6n de medicamentos simpatomimeticos. Estudiaron a 24 individuos, pacientes todos ellos
EJERCICIOS
44
de la unidad de cuidados intensivos (UCI) qu pasaron po cirugia de corazon abierto (12 pacientes), choque septico (8 pacientes) insuficiencia respiratoria aguda (4 pacientes). Un medida de interes fue la correlaci6n entre el cambio en la saturacion de oxfgeno venoso mixto, (Sv ,) Y, la saturacion de oxfgeno venoso hepatico, X, despues de tratamiento vasoactivo. Los siguientes datos corresponden a los porcentajes recolectados:
.4 6.9 -0.1 12.4
2.1 3.3 4.4 4.9 2.1 1.0 12.6 0.8 9.7 9.1 0.5
-2.8
7.5 0.3 2.5 12.4 10.1 -2.7 -3.8 FUE;"'TE:
-3.6
16.0 23.7 15.1 15.1 25.1 13.9 28.7
15.1 9.7 6.8 12.2 14.5 16.0 2.9 8.8 9.4 11.6 7.7 3.4
-8.5
11.6 32.4 18.2 10.2 1.4
Utilizada con autorizaci6n de Jukka Takala, M. D.
9.7.2 EI in teres en las interacciones entre el cerebro, cerebro, el comportami ento la inmunidad motiva ron a Wodarz Wodarz et ai. (A-9) para realizar un investigacion. Los individuos estudiados eran 12 pacientes con trastornos depresivos severos unipolares depresion bipolar (grupo 2) 13 individuos sanos hospitalizados hospitalizados (grupo de control). de interes er la corre lacion entre los valores de cortisol hormona adrenocorticotr6pica (ACTH) (ACTH) de los indivi duos estudiados. Se recolectaron los siguientes datos:
Grupo
Cortisol
ACTH
1
151.75 234.52 193.13 140.71 273.14 284.18 389.02 151.75 275.90 248.31 115.88 212.44 193.13
3.08 2.42 3.96
1 1 1 1 1 1 1 1 FUE;"'TE:
l.98
4.18 3.96 4.18 2.64 4.18 4.62 3.52 5.06 2.64
Utilizada con autorizaci6n del Dr. N. Wodarz.
Grupo
Cortisol
317.29 143.47 82.77 336.60 220.72 469.03 217.96 270.38 422.13 281.42 179.34 195.89
ACTH
2.64 2.86 2.86 3.96 5.06 7.27 4.40 2.64 4.40 4.18 6.61
4.62
442
CAPITULO 9
REGRESION Y CORRELACION LINEAL SIMPLE
9.7.3 Un estudio de Kosten et al. (A-lO) esta asociado co la relaci6n entre indicaciones indicaciones biologicas individuos estudiados eran 52 adictos a los de adicci6n el sindrome de dependencia. Los individuos opiaceos, candidatos para un programa de mantenim iento con metadona. Las medidas qu interesaban a los investigadores er la correlaci6n entre la supresi6n la dependencia de opiaceas la correlaci6n entre la supresi6n de opiikeos la dependencia. La supresi6n de opiaceos se determin6 medi ante la prueba de supresi6n de opiaceos opiaceos con naloxona (PSON). Se obtuvieron los siguientes datos:
PSON
Opiaceo
Cocaina
PSON
Opiaceo
Cocaina
22 13 15
31
23
25
33
11
27 31
23 21
29 21
33
19 11
13
31
11
27
33 33
31
31
17
33
11
31
11
21
33
11
6 9
11
11
31
11
26
33
11
18
29
23
36
33
11
15
31
11
22
11
31
27
10
33 31
10
33
29
27
31
11
29
30
11
27
33
21
7
19
11
33
11
8
33
33
17
33
31
19
31
31
22
11
29
31
24
33 33
29
22
33 33
27
11
32
11
24
33
29
36 29 36
32
17
33 31
32
11
14
33
11
32
33
11
18
33
33
31
22
33
11
20
33
11
26 18
33
11
19
33
11
31
11
17
32
11
33 31
11
24
33
11
11
36
33
11
9
29
9
FUENTE:
14
UtiJizada con autorizaci6n de Therese
9
A.
11
Kosten, Ph. D.
9.7.4 Los Los indiv individu iduos os estud estudiado iado en una investigaci6n investigaci6n r ealizada po Rondal et al. (A-II) eran 21 n i f i o ~ con sfndrome de Down Down con edades entre aflos. E ntre las variables sobre las que recolec 12 aflos. taron datos estan la longitud media de expresi6n (LME) el numero de expresiones de un sola pala bra (EUP) La longitud me dia de expresi6n se calcula calcula al dividir el numero de morlemas entre el numero de expresiones en un muestra dellenguaje. EI numero de expresiones de un sola palabra se calcul6 sobre 100 expresiones. Se obtuvieron los siguientes valores:
EJERCICIOS
LME
.99 1.12 1.18 .2 1.22 .39 1.45 1.53 1.74 1.76 1.77
EU
LME
EU
99 88 84
1.90 2.10 2.15 2.36 2.63 2.71 3.02 3.05 3.06 3.46
51
81
59 51
49 70 52
50 50
FUENTE: U tilizada co
5
44
43 38 51
33 24 21 25
33 16
autorizaci6n de J. A Rondal, Ph. D.
B ry ry a Eng (A-I 2) condujeron un estudio para encontrar tecnicas mas precisas, sencillas menos traumatica para estudiar la madurac i6n relativ de los nervios perifericos en niflos prematuros a termino. Los individuos estudiados eran 83 neonatos premat uros estables neonatos producto de gestaci6n a termino, de tres cuneros en un regi6n metropolitana. Entre las mediciones se obtuvieron la edad gestacional en semanas (edad) la latencia de reflejo H s6lea (ms) po centimetro de longitud de la pierna (MS/CM). Los datos recolecta dos son los los siguientes: Edad
31.0 31.0 34.0 32.0 35.0 33.0 33.0 32.0 32.0 31.0 34.0 33.0 34.0 34.0 36.0 39.0 37.0 39.0 36.0
MS/CM
1.16129 1.28750 1.18710 1.18621 1.07778 .88649 1.01714 1.25610 1.04706 1.33333 .95385 1.11765 .93659 1.15000 .85479 .83902 .87368 .86316 .94634
Edad
MS/CM
38.0 39.0 40.0 41.0 40.0 41.0 40.0 40.0 41.0 42.0 42.0 42.0 41.0 40.0 40.0 40.0 42.0 41.0 31.0
.87368 .81000 .78072 .80941 .84156 .98286 .73171 .81081 .76000 .72821 .83902 .84000 .85263 .86667 .90000 .81026 .83000 .81951 1.83077
Edad
32.0 37.0 32.0 42.0 45.0 34.0 35.0 33.0 38.0 '38.0
34.0 38.0 40.0 37.0 44.0 36.0 40.0 40.0 32.0
MS/CM
1.16667 .75897 .97143 .80909 .59091 1.10000 1.00000 1.04242 .87059 .90000 .94194 .69000 .74737 1.01250 .69091 .85263 .7238 .7238 .75238 1.28750 (Continua)
444
CAPITULO 9
REGRESION Y CORRELACION LINEAL SIMPLE
Edad
MS/CM
Edad
MS/CM
Edad
MS/CM
38.0 39.0 38.0 39.0 39.0 39.0 39.0 39.0 38.0
.95000 .83077 .90000 .89000 .91282 .91000 .81026 .80000 .77073
32.0 32.0 36.0 34.0 34.0 40.0 40.0 31.0 33.0
1.64615 1.48571 .91579 1.32000 1.05455 .82353 0.85263 1.76923 1.10000
32.0 34.0 43.0 40.0 33.0 33.0 38.5 45.0
1.22500 1.37500 .60444 .73043 1.35714 1.17576 .75122 .56000
FUENTE:
Utilizada con autorizaci6n de Gloria D. Eng, M. D.
9.7.6 Un muestra aleatoria simple de 15 ninos aparentem ente sanos con edades entre 6 meses 15 anos produjo los siguientes datos respecto a la edad, X, el volumen del higado po unidad de peso co rpor al (mVk (mVkg) g) Y:
9.
.5 .7
41
2.5 4.1 5.9 6.1 7.0 8.2
41
55 39 50 32 41 42
10.0 10.1 10.9
26 35 25
ll.5
31 31
12.1 14.1 15.0
29 23
ALGllNAS PRECAUCIOl\lES
Los amiLisis de regresion y correlacion son her rami enta s estadisticas estadisticas muy utiles cuan do se utilizan de manera adecuada. Sin embargo, el uso inadecuado solo puede conducir a la obte ncion de resultados sin sentido. sentido. C on el fin de ayudar allector el uso correcto de estas tecnicas, se sugiere 10 siguiente: 1. Antes de reu nir los datos, se deben revisar cuidadosame nte las suposiciones suposiciones que fundamentan los analisis de regresion y correlacion. Aunque es raro encontrar que las suposiciones se cumplan a la perleccion, perleccion, el usuario debe te ner alguna idea de la magnitud de la brecha que existe ent re los datos que son analizados analizados y las suposiciones del modelo propuesto, de modo que pueda decidir si debe elegir otro modelo; proceda con el analisis, pero interprete los resultados con precaucion, bien, utilice con plena confianza el modelo elegido.
9.8 ALGUNAS PRECAUCIONES
la regresion lineal simple el analisis de correlaci6n, las dos variables de interes se miden sobre la misma entidad, Hamada unidad de asociaci6n. Si se tiene interes en la relaci6n entre la estatura el peso, or ejemplo, estas os medidas se hacen sobre el mismo individuo. En general, carece de senti las estatur as de un grupo de indivi hablar de correlaci6n, po ejemplo, entre las duos el peso de otro grupo.
2. En
3. Sin importar
que tan grande es la indicaci6n de una relaci6n relaci6n entre dos varia bles, no debe interpretar se esto como un caso de causa efecto. Si, po ejem plo, se observa un coeficiente significa significativo tivo de correlaci 6n de la m uestr entre Y, puede significar un de varias cosas: las dos variables XcausaY. h. causa X. c. AlgUn terce r factor factor,, sea directa indirectamente, causa tanto a como a Y. d. Ha ocurrido evento improbable se obtenido po casualidad elevado coeficiente coeficiente de correlaci6n correlaci6n de la muest ra a partir de una pobla ci6n en la que, de hecho, estan correlacionadas. es sencillamente disparat ada, situaci6n que puede surgir e. La correlaci6n es no se hacen sobre un unidad comun cuand o las las mediciones de asociaci6n. a.
ecuaci6n de regresi6n de la muestra no debe utilizarse para predear estimar fuera de intervalo de valores de la variable independiente represen tado en la muestra. Esta practica, llamada extrapolaci6n, tiene sus riesgos. La verdadera relaci6n entre dos variables, variables, aun cuando sea lineal dentro de un intervalo de la variable variable indep endi ente , a veces veces s puede describir mejor como un curva fuera del intervalo.
4. La
Extrapolacion
Intervalo muestrado FIGURA 9.8.1
Ejemplo de extrapolacion.
446
CAPiTULO 9
REGRESI ON Y CORRELACION LINEAL SIMPLE
Si, po casualidad, se extrae la muestra precisamente del intervalo donde la relacion es lineal, se tiene unicamente un representacion limitada de la po blacion, po 10 que proyectar los resultados de la muestra mas alla del inte rva falsas. s. La figura 9.S.1 10 representado po ella puede conducir a c ondusio nes falsa muestra algunas trampas de la extrapolacion. 9.9
RESUMEN
En este capitulo se estudian dos dos herramientas importantes de amilisis amilisis estadisti co, aplicacion de estas dos tecnicas.
para
1. Identificar el modelo. EI usuario debe saber cual de los dos modelos es el mas conveniente para dar respuesta a sus preguntas. 2. Revisar las suposiciones. Se ha sefialado repetidamente que la validez de las las condusione depende de que tan bien se ajustan los los datos al modelo elegi do para el analisis. 3. Obtener la ecuaci6n de regresi6n. Se ha visto visto como obt ener la ecuacion de regresion regresion mediante el metodo de mfnimos cuadrados. Aunque los calculos, cuand o se se hacen a mano, son ta largos, largos, complejos y sujetos a error, este n o es ahora el problema como 10 fue en el pasado. Las computad oras electronicas se utilizan ta ampliamente que el investigador la persona dedicada a la estadistica que no tiene acceso a un de ellas es Ia excepci on mas que la regIa. No es necesario hablar en defensa del investigador que dene que realizar un gran cantidad de ca.lculos si dispone de un computadora. 4. Evaluaci6n de la ecuaci6n. Se ha visto que la utilidad de la ecuacion de re gresion par a fine de estimacion y prediccion se determ ina mediante el anaIi anaIisis sis de la variancia, el cual prueba la significacion del cuadrado medio de la regre sion. sion. Se valora la intensi dad de la relacion entre dos variables variables bajo el model no correlacion probando la hipotesis hipotesis nula de que hay correlacion en la po de correlacion blacion. Si esta hipotesis se puede rechazar, es posible conduir, en el nive1 de significacion elegido, que las dos variables estan correlacionadas. 5. Utilizar la ecuaci6n. Un vez que se ha determinado que posiblemente la ecuacion de regresion describe correctamente l a relacion entre las dos varia bles, X y Y, es posible utilizarla para uno de dos propositos: a. Predecir que valor valor puede llegar a tener Y, dado un valor especifico de X, bien, b. Estimar la media de la subpoblacion de los valores Ypara un valor esped fico deX. Este estudio, necesariamente abreviado, de la regresion line al simple y la correla cion puede ha ber dado lugar a mas preguntas de las que se ha contestado. Se Ie puede haber ocurrido allector po ejemplo, que un variable dependiente puede predecirse con mayor precision si se utilizan dos mas variables independientes en lugar de una sola. sola. 0 quiza puede te ner la sensacion de que conocer la intensidad de la relacion entre varias varias variables variables po dria ser mas interesante que si se conoce la relacion entre solo dos de
REGUNTAS Y EJERCICIOS DE REPASO
elIas. La explorac ion de estas posibilidades es el tema de l capitulo siguiente, po 10 qu las las duda al respecto quedaran, al menos, parcialmente resueltas. Para quienes desean ampliar sus conocimientos respecto al anaIisis de regresi6n, existe un gran cantidad de bibliograffa de excelente calidad, entre las que se encuen tran las obras obras de Dielman (7), (7), Hoc king (8), (8), Mendenh all Sincich (9) Neter et at. (10).
PREGUNTAS
FJERCIUOS DE REPASO
1.
son las suposiciones que fundamentan el analisis de regresion lineal simple cuando acerca de la poblacion de la cual se extrajeron los uno de los objetivos es hacer inferencias acerca datos de la muestra?
2.
~ P o r
~ C u a l e s
qu
a la ecuaci6n de regresi6n se Ie da el nombre de ecuaci6n de mfnimos mfnimos cuadrados
3. Expliq Explique ue el sig signif nific icad ad de
en la ecuaci6n de regresi6n de la muestra.
4. Expliq Explique ue el sign signifi ifica cado do de
regresi6n de la muestra. en la ecuaci6n de regresi6n
5. Explique Explique los los siguient siguientes es termino terminos: s: de a) b) Suma de cuadrados explicada. explicada. c) Suma de cuadrados inexplicada. inexplicada. 6. Explique Explique el el significa significado do del del coeficie coeficiente nte de determinacion 7.
el metodo para calcularlo.
tCual es es la funci6 funci6n n del anaI anaIis isis is de variancia en el analisis de regresion?
8. Desc Descri riba ba tre tress form formas as en las qu se puede probar la hipotesis nula de 9. 10.
~ P a r a
O.
cuales dos prop6sitos se puede utilizar la ecuaci6 de regresion?
Wuales son las las supo suposic sicion iones es que inferencia es un objetivo?
el analisis de correlacion simple cuando la
11. (Que se entiende po unidad de asociaci6n en los analisis de regresi6n
correlacion?
12. (Cuales son las las explicacione explicacioness posibl posibles es para un coeficiente de correlacion significativo de la muestra? 13. 13.
Expl Expliq ique ue po que existen riesgos al utilizar un ecuaci6n de regresi6n de la muestra para predecir estimar fuera del intervalo de valores de la variable independiente representada en la muestra.
14. 14. Desc Descri ri un situaci6n del area de su interes donde seria util e l analisis de regresi6n simple. Utilice datos reales ficticios para efectuar un analisis de regresi6n completo. 15. 15.
Desc Descri riba ba un situaci6n del area de su interes do nde seria util un analisis de correlaci6n simple. Utilice datos reales ficticios para llevar a cabo un analisis analisis de correlaci6n completo. En cada uno de los siguientes ejercicios ejercicios lleve a cabo el analisis analisis req ueri do pruebe las hipote sis en los niveles de significacion indicados. Calcule el valor de para cada prueba.
16. 16.
ro in et al. (A-IS) disefiaron un investigacion para evaluar los efectos de l a alteracion con currente del ca1cio NaCl (sal) (sal) de l a dieta sobre la presi6n sangufnea, asf como las respuestas de la presi6n sangufnea las catecolamina s ante el estres. Los individuos estudiad os eran ra tas madres sensibles a la sal espontanemente. Entre los analisis aplicados po los investiga dores estaba la correlaci6n entre l a presi6n sangufnea inicia las concentraciones plasmaticas de epi nef rin a (E). (E). Los siguientes datos corre spond en a estas dos variables. variables. Sea .01.
44
CAPITULO 9
REGRESI6N Y CORRELACI6N LINEAL SIMPLE
plasmatica
PS
163.90 195.15 170.20 171.10 148.60 195.70 151.00 166.20 177.80 165.10 174.70 164.30 152.50 202.30 171.70 FUENTE:
248.00 339.20 193.20 307.20 80.80 550.00 70.00 66.00 120.00 281.60 296.70 217.30 88.00 268.00 265.50
plasmatica
PS
143.20 166.00 160.40 170.90 150.90 159.60 141.60 160.10 166.40 162.00 214.20 179.70 178.10 198.30
179.00 160.40 263.50 184.70 227.50 92.35 139.35 173.80 224.80 183.60 441.60 612.80 401.60 132.00
Utilizada con autorizaci6n de Karie E. Scrogin.
necrosis tumor al (FNT) es un citocina citocina antitumora 17. Wada et al. (A-14) afirman que el factor de necrosis que al principio se consider6 como un posible agente ant icancerigeno sin efectos efectos secundarios. EI FNT, tambien esta considerado como posible mediador en la coagulacion intravascular disemin ada (CID las fallas fallas multiorganicas. multiorganicas. wada sus colegas evaluaron las relaciones entre el FN la patologia de la CID. Los individuos estudiados eran voluntarios voluntarios aparentement sanos, sanos, pade ntes con problemas problemas de CID, pacientes proximos a tener problemas de CID pa dentes sin problemas de CID. Se registraron los siguientes niveles plasmaticos de factor de necrosis tumoral (D/ml) calificaciones de coagulad6n intravasc intravascular ular diseminada en pacientes sin leucemia
em
10
10 10 7 FUENTE:
FNT
.48 .46 .00 .20 .10 .18 .14 .16 .20 .72 1.44 .24
em
5 7 8
9 10 7
FNT
em
.00 .06 .10 .12 .24 .32 .26 .24 .28 .26 .12 .14
Utilizada con autorizaci6n de Hide o Wada, Wada, M.
6 5 4 3 6 3 6 4 4
FNT
.52 .50 .10 .16 .08 .00 .26 .08 .00 .00 .08 .00
em
6 5 3 4
FNT
.24 .14 .12 .00 .00 .00 .14 .00
1
.00 .00
.20
D.
Aplique un am1lisis completo de regresi6n con las calificadones de CID como variable inde pendiente. Sea .01 para todas las pruebas.
REGUNTAS Y E]ERCICIOS DE REPASO
18.
Lipp-Ziffy Kawanis Kawanishi hi (A-I5 (A-I5)) afirman que en ciertas situaciones, la presion diastolica de la arteria puhnonar (PDA), con frecuencia, se utiliza para estimar la presion diast61ica final el ventriculo iz quierdo (PDFVI). (PDFVI). Estos Estos investigadores utilizaron el analisis de regresion para de terminar que punto sobre la forma de onda de PDA tiene un mejor estimacion de P D W l . Despues de correlacionar las mediciones de PDA y PDFVI en tres puntos sobre la forma onda, los los investigadores investigadores encontraro n la relaci6n mas fuerte en .08 segundos despues de inicia (PDA .08). .08). Los investigadores bas aron su anilisis en los los siguientes dato s: do el complejo QRS (PDA DA.08
PDFVI
PDA.08
PDFVI
PDA.08
PDFVI
(mmHg)
(mmHg)
(mmHg)
(mmHg)
(mmHg)
(mmHg)
20
20
15
12
13
27
14
11
33
36
17
18
12
13
16
17
23
23
15
14
14
12
15 13
18
13
32
16
12
10
10
27
16
18
18
18
27
32
17
20
17
11
10
14
14
16
28
13
12
16
12
16
14
15
22 13
28
12
17
12
13
13
17
16
23
31
17
14
12
26 18
32 18
20 24
16
21
14
13
17
20
15
13
14
18
18
13
14
12
13
26
28
11
16
18
20
11
14
2
18
11
22
27
43
16
17
22
25
10
19
36
19
27
28
18
18
25
17
18
22
16
11
17
20
29 14
17
19
42
30 37
25
30
26
29
35
10
12
11
15
10
12
19 14
16 24
24
12
11
30
20
21
11
10
11
15
14
13
16
10
21
13
24
26
11
13
18
23 11
FUENTE: Utilizada Utilizada con autorizaci6n de David T. Kawanishi, C.C.R.N.
M.
15
12
D.,
10
Eileen L. Lipp-Ziff, R. N., M. S. N.,
Aplique un amllisis completo de regresi6n.con estos datos. Sea pruebas.
.05 para todas las
45
CAPiTULO 9 19.
REGRESION Y CORREL ACI6N LINEAL SIMPLE
' Resulta Resulta interesant para cientificos de la salud la contaminaci6n del ecosistema terrestre co mercurio. Las plantas cosechadas, consumidas po los seres humanos, presentan un enlace directo para el transporte de metales t6xicos como el mercurio contaminante de las tierras cultivables al hombre. Panda et ai. (A-16) estudiaron las relaciones entre el mercurio las tierras cultivables ciertos punt os extremos biol6gicos biol6gicos en la cebada. cebada. Las fuentes fuentes de con tami na ci6n con mercurio eran los desechos s6lidos de un planta de cloralcali. Entre los datos anali zados estaban las las siguientes mediciones de concentraci 6n de mercurio en la tierra (mglkg) el porrentaje de celula celulass progenitoras de pol en aberrantes (CPPAb) co base en un amilisis mei6tico. CPPAb(%)
Hg
.12 21.87 34.90 64.00 103.30
.50 .84 5.14 6.74 8.48
Utilizada con autorizaci6n de Kamal K. Panda, Ph. D.
FUENTE:
Aplique un analisis analisis complet de regresi6n con estos datos. Sea a 20.
.05 para todas las pruebas.
Los siguientes datos registrados corresponden al flujo sanguineo pulmonar (FSP) al volu me sangufneo pulmonar (VSP) de 16 ninos ca efermedades congenitas del coraz6n.
VSP
168 280 391 420 303 429 605 522 224 291 233 370 531 516 211 439
(ml/m2)
FSP
(Vmin/m2)
4.31 3.40 6.20 17.30 12.30 13.99 8.73 8.90 5.87 5.00 3.51 4.24 19.41 16.61 7.21 11.60
Encuentre la ecuaci6n de regresi6n qu describa la relaci6n lineal entre las dos variables, F. Sea a calcule r2, pruebe Ho: .05. ca las estadisticas de prueba
REGUNTAS Y EJERCICIOS DE REPASO
21.
451
compararon, mediante dos metodos, 15 muestras de suero humano Con el anticuerpo tubercu !ina. Los logaritmos de los resultados resultados obtenidos mediante los dos metodo s fueron los siguientes: Se
Metodo
(X)
B(Y)
3.31 2.41 2.72 2.41 2.11 2.11 3.01 2.13 2.41 2.10 2.41 2.09 3.00 2.08 2.11
4.09 3.84 3.65 3.20 2.97 3.22 3.96 2.76 1.42 3.38 3.28 2.93 3.54 3.14 2.76
Encuentre la ecuaci6n de regresi6n que describa la relaci6n lineal entre las dos variables, calcule r2, y pruebe Ho: II 0 con las estadfsticas de prueba .05. F. Sea 22. La siguiente siguiente tabla tabla muestra los los valo valores res del consu consumo mo de metilmercurio yi concentraci6n t ' - ' ~ ; . . t l de mercurio en la sangre de 12 individuos expuestos al metilmercurio po consumir peces contaminados.
Consumode mercurio de metil
(Ilg Hgldla)
180 200 230 410 600 550 275 580 105 250 46
650
Mercurio en toda la sangre
(nglg)
90 120 125 290 310 290 170 375 70 105 205 480
Encuentre la ecuaci6n de regresi6n que· describa la relaci6n lineal entre las dos variables, calcule r2, y pruebe Ho: II .05. co las estadisticas de prueba F. Sea
CAPiTULO 9
45
REGRESION Y CORRELACION LINEAL LINEAL SIMPLE
23. Los Los siguientes siguientes datos corr espon den a los los pesos (kg) (kg) y niveles niveles de glucosa en la sangre (mgl1 00 ml) de 16 varones a dultos aparentemente sanos: Peso (X)
Glucosa (Y)
64.0 75.3 73.0 82.1 76.2 95.7 59.4 93.4 82.1 78.9 76.7 82.1 83.9 73.0 64.4 77.6
24.
108 109 104 102 105 121 79 107 101 85 99 100 108 104 102 87
Encuentr e la ecuaci6n de regresi6n lineal simple y pruebe Ho: mediante la ta bla ANOV y la prueba estadistica t. Pruebe Ho: 0 y elabore un intervalo de confianza de 95 or ciento para p. ~ C u a l es el nivel de glucosa pronosticado para un hombre qu pesa 95 kg? Elabore un intervalo de predicci6n de 95 po ciento para este peso. Sea .05 para todas las pruebas. La siguien siguiente te tabla tabla indic indicaa la edades (en alios) y los valores de la presi6n sanguinea sist6lica (PSS) de 20 adultos aparentemente sanos. Edad (X)
20 43 63 26 53 31 58 46 58 70
PSS(Y)
Edad (X)
120 128 141 126 134 128 136 132 140 144
46 53 70 20 63 43 26 19 31 23
PSS(Y)
128 136 146 124 143 130 124 121 126 123
Encuentre la ecuaci6n de regresi6n lineal simple y pruebe la hip6tesis Ho: mediante el uso de la tab la ANOVA y la prueba t. Prue be la hip6tesis Ho: 0 Yconstruya Yconstruya un interva.lo de confianza de 95 po ciento para p. Calcule el intervalo de predicci6n de 95 po ciento para la presion sanguinea sistolica de una persona de 25 alios de edad. Se .05 para t?das las pruebas.
REGUNTAS Y EJERCICIOS DE REPASO
25. 25. Se reunieron los los siguient siguientes es datos datos durante un experimento en el cual se inocul6 a animales de laboratorio con un agente pat6geno Las variables so el tiempo, en horas, despues de la inoculaci6n la temperatura en grados Celsius. Tiempo
24 28 32 36 40
Temperatura·
Tiempo
38.8 39.5 40.3 40.7 41.0
44
Temperatura
48 52 56 60
41.1 41.4 41.6 41.8 41.9
Calcule la ecuaci6n de regresi6n lineal simple y pruebe la hip6tesis Ho: 0 mediante el uso 0 y construya un intervalo de de la tabla ANOVA y la prueba t. Pruebe la hip6tesis Ho: p confianza de 95 po ciento para p. Calcul e el intervalQ de predicci6n de 95 po ciento para la temperatura 50 horas despues de la inoculacion. Sea =.05 para todas las pruebas. Para cada un de los estudios descritos preguntas como sea posible.
los ejercicios del 2 26al 6al 28, responda a tantas
mas imp orta nte: el amllisi amllisi de regresi6n el analisis de correlacion? a) ~ Q u e tecnica es mas ambas tecnicas igual de importantes? b)
~ C u a i
es lavariable independiente?
c)
~ C u a l
es la variable variable dependi ente?
d)
~ C u a l e s
e)
~ S o n ~ S o n
son las hip6tesis nuIa y alternativa adecuadas?
ms probable que la hipotesis nula sea rechazada? Explique po
mas importan te: la predicci6n t) iCuai es el objetivo mas importantes? importantes?
que
la estimaci6n?
~ S o n
po que no.
ambos igual de
es la poblacion muestreada? es la poblac i6n objetivo?
g)
~ C u a l
h)
~ C u a l
i)
~ L a s
variables estin relacionadas relacionadas directa
inversamente?
26. 26. Tsen Tseng g y T (A-17) informaron acerca de un estudio para poner en claro la presencia de hiperinsul inemia cr6nica y su relacion con las variables variables cHnicas y bioqufmicas. bioqufmicas. Los ind ividuos estudiados eran 112 112 pacientes chinos con diabetes mellitus que no dependian de insulina y qu recibian recibian trat amiento de clorpropamida. Entre otros hallazgos, los autores reportaron que los niveles de acido tirico estaban correlacionados con los niveles de i nsulina
Para analizar los los efectos efectos relativo relativo en la masa 6sea premenopausica, Armamento-Villareal et (A-18) estudiaron el impacto de algunas variables sobre la densidad 6sea de la colunma vertebral. Los individuos eran 63 mujeres premenopa usicas con edades en tre 19 y 40 afio afios. s. Entre los hallazgos estaba la correlaci6n entre la cantidad de estr6geno y la DO (r .44, .001) y entre la edad de inicio de la menstruacion y la densidad 6sea de la columna -.30,p = .03). vertebral (r 28. 28. (A-19)) invest igaron las relaciones epidemiolog icas de factores dieteticos para la et al. (A-19 presi6n sangufnea y las las principales enfe rmedades del corazon. Los Los individuos estudiado anos, seleccionad seleccionados os aleatoriament e en 20 eran hombres y mujeres con edades en tre 50 y 54 anos, pafses. Entre los hallazgos estaban la relaci6n entre fndice de masa corporal y la presi6n sangufnea sist6lica
454
REGRESI ON Y CORRELACION LINEAL LINEAL SIMPLE
CAPITUW
Para cada estudio descrito en los ejercicios del 29 a146, haga 10 siguiente: a) Aplique un analisis estadistico de los datos (que induya prueba de hip6tesis y elabo raci6 n de intervalos de confianza) qu pueda producir informaci6n util para los investigadores. b) Elabore gra£icas que puedan ser de utilidad para ilustrar las relaciones entre las variables. c) Donde sea oportuno, utilice las tecnicas aprendidas en los capitulos anteriores, como anaIisis de la variancia, prueba de hip6tesis y estimaci6n de intervalos respecto a las medias y proporciones.
d) Determ ine los valore de
para cada prueba estadistica.
e) Establezca todas las suposiciones necesarias para vali dar el amilisis. la poblaci 6n (0 las poblaciones) sobre laCs) que podrian aplicarse las inferencias f) Describa la con base en el analisis realizado. g) Si fuera posible, consulte las referencias referencias citadas y compare los resultados de los analisis contra los resultados. que presenta el.autor. 29. 29.
oerl oerloo oo
et al. (A-20) realizaron un estudio para evaluar la utilidad de un nueva tecnica A) de laboratorio para utilizarla en el diagnostico de embolia pulmonar. Compararon d e ~ m p e f i o de la nueva tecnica contra la tecnica tradicional (metodo B). Los individuos estudiados eran pacientes con posible diagn6stico cHnico de emboliapulmonar qu fueron internados en la sala de urgencias de un hospital universitario universitario europe o. Las Las siguientes medi ciones ciones correspon den a las dos tecnicas emple adas para 85 pacientes. Los investigadores aplica ro dos analisis: analisis: I) sabre to dos los 85 85 pares de mediciones y 2) sobre los pares de mediciones para los cuales los valores registrados para el metodo B fueron menores que 1000. ( m ~ t o d o
84 86
190 208 218 251 252 256 26 282 294 296 311 34 371. 407 41 422
119 115 108 182 . 294 22 311 250 312 403 296 296 303 33
333 257 42
265 347
703 725 727 745 752 88
920 96 985 994 1050 1110 1170 1190 1250 1280 1330 1340 1400
59
610 3900 4050 785 914 1520 972 . 913 556 1330 1410 48
867 1350 1560 1290 1540 1710
2526 2600 2770 3100 3270 3280 3410 3530 3900 4260 4300 4560 4610 4810 5070 5470
5576 6230 6260
1830 i880
2100 1780 1870 2480 1440 2190 2340 3490 4960
7180 1390 1600 3770 2780 2730 1260 2870 (ContinUa)
REGUNTAS Y EJERCICIOS DE REPASO
45 468 481
412. 38 41
52
667.
540 562 574 646 66 670
48
FUENTE:
720 343 518 801 760
1530 1560 1840 1870 2070 2120 2170 2270 2490 2520
6370 6430 6500 7120 7430 7800 8890 9930
1333 1250 764 1680 1310 1360 1770 2240 1910 2110
2210 2210 2380 5220 2650 4910 4080
3840
Utilizada con autorizaci6n del Dr. Philippe de Moerloose.
investigacion realizada po Huhtaniemi et al. (A-21) (A-21) se se dirig io al estm lio de la calidad de la hormona luteinizante (LH) serica durante la maduracion de la pubertad en jovenes ado lescentes. Los individuos eranjovenes sanos en el umbral de la pubertad (con edad entre 11 aftos 5 meses y 12 aftos). aftos). Los investigadores los est udi aron durante 18 meses. Los siguientes resultados resultados corresponde n a las concentra ciones UII de LH bioactiva (B-LH) LH inmunoactiva individuos. Sol amente se reportaron las observaciones en (I-LH)en muestras de suero de los individuos. las que la proporci6n de B/I fue mayor qu 3.5.
.
I-LH
.104 .041 .124 .808 .403 .27 .49 .66 .82 l.09 l.05
.83 .89 .75
B-LH
.37 .28 .64 2.32 1.28 .9 2.45 2.8 2.
4.5 3.2 3.65 5.25 2.9
I-LH
.97 .49 1.17 1.17 l.46
1.97 .88 1.24 1.54 1.71 1.11 1.35 1.59
B-LH
3.63 2.26 4.55 5.06 4.81 8.18 2.48 4.8 3.12 8.4 6 7.2 7.6
FUENTE: Utilizada con autorizaci6n del Dr. Ilpo Huhtaniemi.
31.
T.
Tsau et al. (A-22) estudiaron la excrecion del factor de crecimiento epider mico urina rio (EGF) (EGF) en niftos niftos normale s y en niftos con insuficiencia renal aguda (IRA (IRA). ). Recole ctaron al a zar mues tras de orina de 24 horas de 25 niftos. Los individuos tenian edades entre un mes y15 arros.
45
CAPiTULO 9
REGRESION Y CORRELACION LINEAL SIMPLE
La excreci6n urinaria de EGF esta expresada como un cociente del EGF urinario entre la concentmci6n de creatina urinaria (EGF/Cr). (EGF/Cr). Los autores co ncluyeron a partir de los los resulta dos de su investigaci6n qu es razonable utilizar pruebas aleatorias de orina para monitorear la excreci6n de EGF. Los siguientes siguientes datos corresponden a las concentraciones urinarias de EGF/Cr en muestras aleatorias, aleatorias, en 24 horas. EGF/CR (xl en Individuo
EGF/CR (x)
EGF/cr (y) en
orina de
muestrasde
24 horas
orina aleatorias
Individuo
de 24 horas
720 271 314
14 15"
35
17
79 118 387 432 97 1309
18 19 20
254 93 303 408 711 209 131 165 15 165 125 232
772 223 494 432 79 155 305 318 174 1318 482 436 527
9'"
10
11 12.
13
40
426 595
en orina
16
21
22 23 24 25
EGF/cr (y) muestras
orina aleatorias
333 84 512 277 443 309 280 189 101 221 228 157
Individuos co IRA. Utilizada co autorizaci6n de Dr. Yong-Kwei Tsau.
FUENTE:
32. Una de las causas que motivaron un estudio efectuado po Usaj y Stare (A-23) fue el interes en el comportamiento de la cinetica cinetica del pH dura nte las condiciones de resistencia de largo y corto plazo entre corredores sanos. sanos. Los nueve individuos que participa ron en el estudio em co rredores maratonistas con edades de 26 5 afios. Los autores informaron que obtuvieron un buena correlaci6n entre la cinetica del pH la resistencia de largo corto plazo. Los siguientes datos corresponden a las mediciones de pH sangu'ineo a la velocidad de largo (V LA) Y corto (Veo) plazo de los individuos participantes. VIA
Ve
5.4 4..75 4.6 4.6 4.55 4.4 4.4 4.2 4.2
5.6 5.1 4.
4.9 4.6 4.9 4.4 4.5
rangodepH
.083 .1 .021 .065 .056 .01 .058 .013 .03
autorizaci6n de Anton FUENTE: U tilizada co Usaj, Ph. ..
REGUNTAS Y EJERCICIOS DE REPASO
.
et al. (A-24) condujeron un estudio para evaluar el desempeno del procedimiento de enfocamiento isoelectrico/inmunosecante/de densitometria biser (EIE/IS/DL) para evaluar la transferrina deficiente en carbohidratos (TDC) derivado de manchas de sangre seca. Lo investigadores evaluaron po pares muestras de suero (S) y manchas de sangre seca (MSS) simultfmeamente para TDC. La evaluaci6n TD sirve como un marcador de abuso de alcohol. para el analisis po EIE/IS/DL El uso de m anchas secas de sangre c omo Fuente Fuente de EIE/IS/DL produ ce un muestreo simplificado simplificado y un buen medio de almacenamiento y transportaci6 de espedmenes. Los siguientes datos corresponden a los valores de EIE/IS/DL en unidades de densitometria (UD) de TD secas de sangre. partir de 25 muestras de suero y de manchas secas
S
MSS
64
23 38 37 53
Num. de especimen
74
75 103 10 22 33 10 31 30 28 16 13
10 11
12 13 FUENTE:
.
57
um de especimen
14 15 16 17 18 20 21 22 23 24 25
14 15 12
MSS 13
10 17 38 9 15 70 61 42 20 58 31
18
20
S
14
31 26 14 10 26 12
Utilizada con autorizaci6n de la Dra. Pamela Bean.
(A-25) midieron las concentraciones plasmaticas de adrenomedulina (AM) en insuficiencia cardiaca congestiva cr6nica debido a varias enfermedades cardiovasculares. La adrenomedulina es un peptido de hipotensi6n que, co base en otros estudios, segtin los los autores, tiene un funci6n implicita de hormona circulante en la regula ci6n del sistema cardiovascul cardiovascular. ar. Otros datos recolectados a partir de los individuos incluyen concentraciones plasmiiticas de hormonas qu se sabe afectan el sistema cardiovascular. Los siguientes datos corresponden a la adrenomedulina (AM) plasmatica (frnol/ml) y los valores de actividad de la renina en el pla sma (ARP (ARP (ngll· s) de 19 pacientes con insuficiencia cardiaca. et al.
pacientes co
Sexo
Num.
de paciente
(1
v,
Edad
m)
(aoos) 70 44 72 62 52 65
AM (fmol/ml)
12.11 7.306 6.906 7.056 9.026 10.864
AR
(ng/I· s)
.480594 .63894 1.219542 .450036 .19446 1.966824 (Continua)
45
CAPITULO 9
REGRESION Y CORRELACION LINEAL SIMPLE
Num.
de paciente
(1
v,
Sexo m)
Edad
12 13 14 15 16 17 18 19
AR
(ngll . s)
(f mol/ ml)
64 71 61 68 63 59 55 57 68 51 69 71 46
10 11
FUENTE:
AM
(aDos) (aDos)
7.324 9.316 17.144 6.954 7.488 10.366 10.334 13 6.66 8.906 8.952 8.034 13.41
.29169 1.775142 9.33408 .31947 1.594572 .963966 . 2.191842 3.97254 .52782 .350028 1.73625 .102786 1.13898
Utilizada con la autorizaci6n del Dr. ohji Kato.
35. En un estudio publica do en Archives Disease in Chilhood, Golden et al. (A-26) probaron la hip6tesis de que la concentraci6n plasmatica de calprotectina (PCal) (protefna neutr6fila citos6lica liberada durante la activaci6n destrucci6n de neutr6filos) es un primer indicador sensible de inflamaci6n asociada co infecci6n bacterial en la fibrosis qufstica (FQ). Los un grupo de control formado po individuos eran niDos co fibrosis qufstica confirm ad niDOS de la misma edad sexo sin la enfermedad. Entre los datos recolectados se encuentran las siguientes mediciones, realizadas en 40 individuos, de calprotectina en plasma (lLg/l) cobre plasmatico (PCuY (ILmol/l). El cobre en plasma es un fndice de respuesta en la fase aguda de la fibrosis qufstica. Los autores reportaron un coeficiente de correlaci6n de .48 entre el cobre la calprotectina (loglO) hallados en el plasma. Num.de
Num.de
individuo
individuo
FQ
PCal
PC
17.46 14.84
3
452 590 1958 2015 417
7 8 10 11
Num.de
2884 1862 10471 25850 5011 5128
27.42.
18.51 15.89 17.99 21.66 19.03 16.41 18.51 22.70
individuo
FQ
PCal
12 13 14
1548 708 8050 9942 791 6227 1473 8697 621 1832
15 16 17 18 19 20 21
PC
15.31 17.00 20.00 25.00 13.10 23.00 16.70 18.11 18.80 17.08
FQ
PCal
PC
22
674 3529 1467 1116 611 1083 1432 4422 3198 544
18.11 17.42 17.42 16.73 18.11 21.56 21.56 22.60 18.91 14.37
24 25 26 27 28 29 30 31
(Continua)
REGUNTAS
EJERCICIOS DE REPASO
Num.de
Num.de
individuo FQ
individuo
3 4 5 6 8 10 11
12 13
14 15
16
PCai
PCu
674 368 321 1592 518 815 684 870 781 727 727 781 674 1173 815 727
16.73 16.73 16.39 14.32 16.39 19.82 17.96 19.82 18.11 18.11 18.11 18.11 16.73 20.53 19.82 18.11
FQ
17
18 19
20 21
22 23 24 25 26
27 28 29 30
31
PCal
PCu
368 674 815 598 684 684 674 368 1148 1077 518 1657 815 368 1077
16.73 16.73 19.82 16.1 13.63 13.63 16.73 16.73 24.15 22.30 9.49 16.10 19.82 16.73 22.30
45
FUENTE: Utilizada Con la autorizaci6n de la Dra. Barbara E. Golden.
36. Gelb et al. (A-2 (A-27) 7) condu jero un estudio en el que investigaron la relacion entr e las limitacio
nes ventilatorias ventilatorias moderada severas a la espiraci6n la presencia grade morfologico de enfise ma calificado calificado con CT, en pacientes externos atendido s consecutivamente consecutivamente po enferme da pulmonar obstructiva cr6nica. Entr e los los datos recolectados es tan las siguientes medicio nes de CT patologia (PAT) pulmonar para la calificacion de enfisema:
Calificaci6n CT ,I
PAT
15
12
70 20 25 25
35 40 45
35 30
25 60 70
50 60 60
90 50
10
10
Calificaci6n CT
PAT
45 45 85
50 40
75 85
15 45
37 75
40 35 45
5.
20
FUENTE: Utilizada con la autoriza ci6n del Dr. Arthur F. Gelb.
CAPITULO 9
46
37.
REGRESI()N
CORRELACI6N LINEAL SIMPLE
objetivo de un estudio realizado ar Witteman et al. (A-28) fue investigar la reactividad dermica con los principales alergenos purificados evaluar la relaci6n c on los niveles niveles sericos de anticuerpos de la inmunoglobulina E (IgE) determinar los factores adicionales que contribuyen a los resultados de la prueba dermica. Los individuos eran pacientes con rinitis alergica, asma alergica con ambas alergias que fueron atendidos en un centro medico europeo. Como parte del estudio, los investigadores recolectaron, a partir de 23 individuos, las mediciones siguientes sobre IgE espedficos (DI/ml) y prueba dermica (ng/ml) (ng/ml) en presen cia de Lol p 5, un alergeno purificado a partir del polen de pasto. Se pretende conocer la naturaleza e intensidad de la relaci6n entr e las dos variables. variables. (Nota: los autores convirtieron las mediciones a un logaritmo natural antes de investigar esta relaci6n). EI
IgE
24.87 12.90 9.87 8.74 6.88 5.90 4.85 3.53 2.25 2.14 1.94 1.29 .94 .91
.55 .30 .14
Prueba dermica
.055 .041034 .050909 .046 .039032 .050909 .042142 .055 4.333333 .55 .050909 .446153 .4 .475 4.461538 4.103448 7.428571 4.461538
.10
.10 .10 .10 .10
49.13043 36.47058 52.85714 47.5
FUENTE.: Utilizada con autorizaci6n de Dr. Jaring S. van de Zee.
38. Garland et al. (A-29) realizaron un serie de experimentos para delinear la compleja farmacocinetica materna-fetal y los efectos de la zidovudina (AZT) en mandriles hembras preftadas (especie Papio), las cuales recibieron atenci6n medica po mas de tres meses, du rante la infusi6n intravenosa continua y un regimen de dosis orales. Entre los datos recolec tados est an las siguientes mediciones respecto a la dosis (mg/kg/h) y las concentraciones (ng/ ml) de AZT estables en el plasma de las mandriles preftadas. preftadas.
PREGUNTAS PREGUNTAS Y EJERCICIOS DE REPASO
Concentraci6n
Concentraci6n
Dosis
Dosis
deAZT
2.5 2.5 2.5
2.0 1.8 0. 0. 0. 1.3
832 672 90 55
2.5 1.9 2.1 1.9 1.9 0.9 1.5 1.4 1.4 1.5 1.8 1.8 FUENTE:
39.
46
996 878 815 805 592 391 710 591 660 694
1.1
1.4 1.1
0.8 0.7 1.0 1.1
0.8 1.0 0.9
66
601
deAZT
771 757 213 394 391 430 440 35 33 181
174 47 42 170 36 32
Utilizada con autorizaci6n de la Dra. Marianne Garland.
proposito de un estudio efectuado po Halligan et al. (A-30) fue evaluar 1a variacion diurna en la presion sangufnea de mujeres normotensas de mujeres co preeclampsia. Los indivi duos tenfan edades, peso duracion promedio de gestaci6n (35 seman as) similares. Los inves tigadores reco1ectaron las las siguientes l ecturas de presion arterial. Como parte de la investigacion estudiaron la relaci6n entre las mediciones medias durante e1 dfa la noche las diferencias diastolicas sist6licas sist6licas diurna nocturnas de 1a presion arterial en cada grupo. E1
C2
C3
C4
Cli
C2
75 68
56
127 113 115
101 104 105
72
57 58
71
51
II
81
130
68
61 56
78
60
71
55
65 78 74 75
51
60
113 120 106 120 121
52
121
61
111
C3
C4
94
78
90
86
85
69
137 139 138 133 127 137
94
80
75
110 101 102
81
60
89
79
107
110
161
99
98
88
96
78
74
109 104 102
80
80
96 85
83
152 134 121 143 137
76
Cli 119 138 117 12
112 126 161 141 132 121 129 131
(ContinUa)
CAPITULO 9
46
Cl
0 0 0
0 0
REGRESION REGRES ION Y CORRELACION LINEAL SIMPLE
C2
C3
C4
68 63 77 73 73 64 64 66 72 83 69 72
50 49 47
109 108 132
51
52 62 54 54 49 60 50 52
122 108 106 127 121
108
C5
Cl
91
99 115 90 97 114 94 88 101 103 104 95
1
C2
C3
C4
C5
79
74 95 67 64
135 139 137 143 127 142 119 129 156 149
120 135 115
91 87
83 94 85 78 80 98 100 89 98
85
70 61
59 102 100 84 91
normotensas, normotensas, con preeclampsia); C2 di
141
148
11
123 124 110 114 163 149 135 139
diastoles diastoles nocturnas;
C4
.
la et at. (A-31) condujeron un estudio para determinar los efectos producidos po efectos del ursod iol ripida perdida de peso en la contracci6n de la vesicula biliar evaluar los efectos e1 ibuprofeno sobre la saturaci6n, nucleaci6n crecimiento, contracci6n. Los individuos estudiados eran paciente s obesos obesos repartidos al azar para recibir urdisol, ibuprof eno placebo. Entre los datos recolectados estan los siguientes datos correspondientes a los indices de saturaci6n de colesterol (ISC) los tiempos de nucleaci6n (TN) en individuos individuos tratados con placebo po 13 dias (6 varones, 7 mujeres) al final de seis semanas.
ISC
TN
1.20 1.42 1.18 .88 1.05 1.00 1.39 1.31 1.17 1.36 1.06 1.30 1.71
4.00 6.00 14.00 21.00 21.00 18.00 6.00 10.00 9.00 14.00 21.00 8.00 2.00
FUENTE:
Utilizada con
autorizaci6n del Dr.
Ja W. Marks.
REGUNTAS Y EJERCICIOS DE REPASO 41.
El objetivo de un estudio realizado po Peacock et al. (A-32) fue investigar si la osteoartritis de la columna vertebral es responsable de que la densidad mineral6sea (DMO) de la colurn na lumbar sea mayor cuando se mide en un plano anteroposterior que cuando se mide en plano lateral. Las radiografias laterales de la columna corresponden a estudios practicados mujeres (con edades entre 34 y 87 alios) atendidas como pacientes externas en un hospital para medir la densidad 6sea y tomar radiografias de la columna lumbar. Entre los datos recolectados estan las siguientes m edici ones respect o a los pIanos anteroposterior (A) late ra (L) de la densidad mineral 6se a (g/cm2 (g/cm2). ). DMOA
DMOL
.879 .824 .974 .909 .872 .930 .912 .758 1.072 .847 1.000 .565 1.036 .811 .901 1.052 .731 .637 .951 .822 .951 1.026 1.022
.577 .622 .643 .664 .559 .663 .710 .592 .702 .655 .518 .354 .839 .572 .612 .663 .376 .488 .747 .610 .710 .694 .580 1.047 .737
FUENTE:
.
Utilizada co
DMOA
DMOL
1.098 .882 .816 1.017 .669 .857 .571 1.134 .705 .775 .968 .963 .933 .704 .624 1.119 .686 .741 .741 1.028 .649 1.166 .954 .666 .706 .526
.534 .570 .558 .675 .590 .666 .474 .711 .492 .348 .579 .665 .626 .194 .429 .707 .508 .484 .787 .469 .796 .548 .545
DMOA
1.091 .746 1.127 1.411 1.411 .751 .786 1.031 .622 .848 .778 .784 .659 .948 .634 .946 1.107 1.583 1.026
DMOL
.836 .433 .732 .766 .397 .515 .574 .506 .657 .537 .419 .429 .485 .544 .550 .458 .975 .550
autorizaci6n de Dr. Cyrus Cooper.
et al. (A-33) se dieron cuenta de que la activaci6n activaci6n cardiaca simpatic a y la inhibici6n de parasimpatico aumenta el ritmo cardiaco durante periodos de presi6n psicol6gica. Como indicadores de actividad adrenergica cardiaca, la epinefrina (E) y la noreprinefina (NE) plasmaticas or 10 general aumentan en respuesta cambios psicol6gicos. E1 ana1isis de la potencia espectral de periodos de variabilidad cardiaca tambien provee estimaciones de la actividad de sistema nervioso aut6nomo cardiaco. Los autores realizaron un estudio para determinar la relaci6n entre la actividad neurohumoral y dos estimaciones espectrales dife rentes de sistema nervioso simpatico cardiaco durante un prueba de aritmetica de desafio psicol6gico y en estado de reposo antes de comenzar la prueba. Los individuos eran volunta rios, varones y mujeres, sanos y sin medicamentar, con edad promedio de 37.8 alios. Ninglin individuo tenia antecedentes de enfermedades cardiacas, respiratorias vasculares. Entre
46
CAPITULO 9
REGRESI ON Y CORRELACION LINEAL SIMPLE
los datos recolectados esta ban las siguientes medicionesde epinefrina, norepinefrina, indi ces de potencia espectral de baja frecuencia (BF) y mu baja frecuencia (MBF), y el cociente de baja frecuencialalta frecuencia (BF/AF). Las medi<;:iones estan dadas en tres periodos: al inicio (I), en la prueba mental aritmetica (MA) y, al cambiar ,del estado inicial al momento en qu se practica la prueba (DELTA).
Num. de paciente
5 5 6 6 7 7 7 8 8 12 12 12 13 13 13 14 14 14 18 18 18 19 19 19 20 20 20 21 21 21 22 22 22 23 23
3.55535 0.05557 3.61092 3.55535 0.10821 3.66356 3.29584 0.59598 3.89182 4.00733 0.29673 4.30407 3.87120
NE
BF/AF
6.28040 0.13960 6.41999 6.24611 -0.05374 6.19236 4.91998 0.53106 5.45104 5.97635 0.11947 0.11947 6.09582 5.35659
0.66706 -0.48115 0.18591 2.48308 -2.03738 0.44569 -0.15473 0.14086 -0.01 387 l.58951 -0.11771 l.47 180 0.47942 0.19379 0.67321 0.13687 1.05965 1.19652 0.88389 l.06 100 l.94489 0.99200 -0.10297 0.88903 0.62446 0.09578 0.72024 1.11825 -0.60117 0.51708 0.78632
* 3.97029 -0.2 0909 3.76120 3.63759 0.31366 3.95124 4.44265 0.35314 0.35314 4.79579 2.94444 3.91202 -0.0 2020 3.89182 3.55535 0.31585 3.87120 4.18965 0.16705 4.35671 3.95124 0.26826
5.85507 0.10851 5.96358 5.62040 0.07333 5.69373 5.88053 0.62824 0.62824 6.50877 5.03044 0.69966 5.73010 5.86363 0.21401 6.07764 6.21860
-l.92114
5.69373 5.76832 -0.05459 5.71373 5.52545 0.16491
-1.13483 -0.02785 0.93349 0.90563 -0.24196 -0.00661
BF
7.71886 -0.99826 6.72059 7.33729 -0.77109 6.56620 7.86663 -0.81345 7.05319 8.18005 -1.1658 7.01421 6.56488 ' 0.03415 6.59903 6.27444 -0.49619 5.77825 6.08877 1.37098 7.45975 ,7.52268 -0.57142 6.95126 6.90677 0.94413 7.85090 8.26341 -1.13100 7.13241 8.74397 -2.38726 6.35671 . 8.66907 -0.89157 7.77751 6,75330 0.18354
Periodo
BF
' 7.74600 DELTA MA
-2.23823
DELTA MA
-l.27196
DELTA MA DELTA MA DELTA MA DELTA MA DELTA MA DELTA MA DELTA MA DELTA MA DELTA MA ·B DELTA MA DELTA
5.50777 6.64353 5.37157 7.99450 -2.86401 5.13049 5.97126
-0.39078
5.58048 5.94960 0.50134 6.45094 5.58500 -l.68911
3.89589 6.12490 -1.07633 5.04857 7.19376 -2.06150 5.13226 7.39854 -0.88309 6.51545 6.89497 -1.12073 5.77424 8.26111 -2.08151 6.17960 7.51529 -1.00414 6.51115 6.93020 -1.18912 (Continua)
46
REGUNTAS Y EJERCICIOSDE REPASO
Num.de paciente
4.21951 3.78419 0.32668
23 24 24 24
4.11087.
1
3.36730 0.54473
3 3 3 4 4 5 5 5 6
8 8
9 9 10 10 10 11
11 11
3.9120 2 2.83321 2.83321 1.15577 3.98898 4.29046 0.14036 4.43082 3.93183 0.80437 4.73620 3.29584 -0.16034 3.13549 3.25810 0.40547 3.66356 3.78419 0.64663 4.3082 4.07754 0.23995 4.31749 4.33073 -3.637599 0.69315
12
3.55535 0.13353
12
..68888
13 13 13 14 14 14
3.33220 1.16761 4.49981 3.25810
12
15 15
* * 5.42935
NE
BF/AF
5.69036 5.59842 -0.17 347 5.42495 6.13123 0.08538 6.21661 5.92158 0.64930 6.57088 . 5.73657
-0.24856
0.47000 6.20658 5.62762 0.67865 6.30628 5.47227 0.27073 5.74300 5.37064 -0.13953 5.23111 5.23111 5.94542 0.05847
-0.67478 1.44970
6.9,3684 6.26453 0.52169
0.77493 0.19077 0.79284 0.98361 1.89472 -0.75686 1.13786 1.81816
.78622 6.75395 0.34637 7.10031 7;92524 -1.58481
-0.26089
-1.08028 5.94705
1.55727 1.70262 -0.26531 1.43731 1.43731 0.18852 -0.16485
6.00389 5.87493
0.02367 -0.096 31 0.97906 0.88274 0.77839 -0.42774 0.35066 2.32137
-0.00563
-0.25309
5.86930 5.84064 -0.01464 5.82600 6.04501 0.12041 6.16542 4.63473 1.05563 5.69036 5.96358
2.06827 2.89058
6.34564
BF
-1.22533
1.66525 1.92977 -0.15464 1.77513 -0.11940
0.85621 0.73681 1.l0456
6.34042 7.02734
Periodo MA DELTA
MA
MB
5.74lO8
6.45268 0.39277 6.84545 6.13708
DELTA
-0.56569
M4
5.57139 6.30664 -1.95636 4.35028 7.02882 -1.43858 5.59024 6.11102
DELTA MA
DEITA
MA
6.76859 -0.29394
DELTA
-0.94910
6.47465 6.49054 -1.12558 5.36496 7.23131 -0.62894 6.60237 5.86126 -0.53530
MA
5.16192 6.84279 -1.84288 4.99991 7.16371
5.32595 6.71736 -0.00873 6.70863 7.22570 -1.33514 5.89056 8.50684 -0.84735 7.65949 6.35464 0.63251 6.98716 7.01270
0.26353 1.36809 2.76361 2.76361
-1.20066 5.81204
-1.14662
-1.58468
DELTA MA
DELTA
MA DElTA MA
DELTA MA
DELTA MA
DELTA MA
DELTA MA
DELTA MA
9.48594 DELTA
5.0l263
5.01263 6.22910 -2.18430 4.04480 6.59769 -0.75357 5.84412 5.76079 -0.55240 5.20839 7.15797 0.13525 7.29322 6.76285 -0.52121 6.24164 7.49426 -3.15046 4.34381 7.05730 -0.08901
(Continua)
46
CAPiTULO 9· REGRESION Y CORRELACION CORRELACION LINEAL SIMPLE
Num.de
NE
padente
"
15 16 16 16 17 17 17 18 18 18 19 19 19 20
4.11087 -0.06782 4.04305
2.39790 1.06784 3.46574 4.21951 0.21131 4.43082 4.14313 -0.11778 4.02535 3.66356 0.20764 3.87120 3.29584 '0.36772 3.66356
20 21 21 21
22 22 22
BF/AF
6.59441 -0.54941 6.04501 6.28040 -0.12766 6.15273 ·6.0 3548 0.11299 ·6.14847
6.35784 -0. 003 47 6.35437 5.73334 0.00000 5.73334 6.06843 -0.10485 5.96358 5.95324 0.68139 6.63463
Periodo
BF
1.61699 -0. 2331 0.34755 0.11437 1.40992 -0. 17490 1.23501 1.23501 0.23183 0.27977 0.51160 1.08183 0.12485 1.20669 6.89483 0.17129 1.0661,2 -0.87315 0.41178 -0.461 37 2.38399 -0.75014 1.63384
7.90126 6.68269 -0.29398 6.38871 6.09671 -0.0594 6.03726 6.39707 -0.38297 6.01410 5.54214
MA
-0.54440
DELTA
4.99774 ·7.35045 -0.58013 6.77032 5.09848
MA
MB
6.96829 6.76872
DELTA
-1.80868
DELTA
4.96004 4.82671 0.69993 5.52665 6.60421
MA
DELTA
-1,92672
4.67749 5.69070
MA
DELTA
-1.49802
4.19268 6.93974 -1.72916
5.21058 6.02972
MA
-0.33378
DELTA
-2.00974
4.76470 7.62877 -0.89992 6.72884
MA
4.01998 7.54359 -1.25555 6.28804
DELTA
MA
Dalto faltante. Utilizada Utilizada con autorizaci6n del Dr.. Richard P. Sloan.
FUENTE:
43. El prop6sito de un estudiodirigido po Chati et al. (A-3 (A-34) 4) fue investigar que funci6n c ump le la falta de acondicionamiento fisico en las anormalida:des metab61icas de musculo esquele tico en paciente s con insuficiencia cardiaca cr6nica (ICC). (ICC). En tre los individuos habia paden tes ambulatorios con ICC (12 varones 2 mujeres) co edades entre 35 74 anos. Entre los datos reco1ect reco1ectado adoss est abanlas siguientes medidones durante e1 ejercicio, ejercicio, del total de esfuer zo realizado (ER) bajo condiciones controladas, consumo maximo de oxigeno (V02)' limites de oxigenaci6n anaer6bica (OA) -ambas medidones expresadas en ml!kglmin- el tiempo total de ejercicios expresado en segundos (TE). TE
ER
7.557 3.973 5.3.11
5.355 6.909 1.382 8.636 FUENTE:
32.800 8.170 16.530 15.500 24.470 7.390 19.000
13.280 6.770 11.200 10.000 11.550 5.240 10.400
933.000 255.000 480.000 420.0QO %0.000 346.000 600.000
UtiIizada UtiIizada con autorizaci6n del Dr. Zukai Chati.
ER
3.930 3.195 2.418 0.864 2.703 1.727 7.773
OA
22.500 17.020 15.040 7.800 12.170 15.110 21.100
TE
18.500 720.000 8.520 375.000 12.250 480.000 4.200 240.000 8.900 513.000 6.300 540.000 12.500 1200.000
REGUNTAS Y EJERCICIOS DE REPASO
. Cz at. (A-35) investigaron ciertos factores pron6sticos en pacientes con linfomas centroblasticos-centrodticos distintos del de Hodgkin. Los individuos et'a:n hombres muje res res con edades entre 20 84 afios al momenta del diagn6stico. Entre los datos recolectados estan las, siguientes medi ci ones res pecto ados factores releVantes, A y B. Los autores infor maronque hay un correlaci6n significativaentre las dos. Be
20.00. 36.0 0 6.97 13.67 36.34 39.66 14.66 '27. 00 2.66 22.00 11.00 20.00 22.66 7.34 29.67 11.66 8.05 22.66
.154 .221 .221 .129 .064 .402 .256 .188 . 138 .078 .142 .086 .170 .198 .092 .227 .159 .223 .065
FUENTE:. Utilizada
22.34 18.00 18.00 22.66 45.34 20.33 16.00 15.66 23.00 27.33 6.27
.147 .132 .085 .577 .134 .246 .175 .105 .145 . .129 .062
48.66 20.00 17.66 14.34 16.33 18.3 26.49 13.33 . 6.00 15.67 32.33· 24.34 22.33 11.33 6.67
.069 .227 .125 .089 .051 .100' .20'2
.077 .206 .153 .549 .147 .769 .130 :0'99
con autorizaci6n de la Ora. Magdalen a Czader y.la Ora. A .
Porwit- MacDonald.
n ~ a A n ~ a
45. La fleroxacina, derivada de la fluoroquinolona para tin amplio espectro antibacterial de poderosa actividad contra diversas variedades gramnegativas y muchas otras grampositivas, es tema de un investigaciol\ dirigidapor Reigner Welker (A-36). Elobje tivo de la investigacion er e s t ~ m a r los valores representativos de la depuraci6n sobre la dispon ibil idad sistemica (D/F) (D/F) el volumen de distribuci6n sobre la disponibilidad sistemica (\I/F) despues de administrar dosis terapeuticas de fleroxacina, identificar los factores que influyen, en que grado, en la disposici6n de la fleroxacina. Los individuos esmdiados eran 172 voluntarios, hombres mujeres, sanos, sin infecclones y dentro de un amplio rango de edades. Entre los datos qu se analizaron estan las siguientes mediciones (en ml/min) de depuraci6n!disponibilidad sistematica (D/F) depuraci6n de treatinina (Dcr). Seg(m los autores de este estudio, las investigaciones previas previas dem uest ran que. que. hay un correlaci6n en tre las dos variables. variables. D/F
Dcr
D/F
137:000 106.000 165.000 127.000
96.000 83.000 100.000 101.000
77.000 57.000 69.000 69.000
Dcr
67.700 51.500 52.400 65.900
D/F.
152.000 100.000 86.000 69.000
Dcr
109.000 82.000 88.000 67.000
D/F
132.000 94.000 90.000 87.000
Dcr
111.000 118,000 111.000 124.000 (ContinUa)
46
CAPITULO 9
REGRESION Y CORRELACION LINEAL SIMPLE
D/{
.Dcr
139.000 102.000
116.000 78.000 84.000
72.000 86.000 85.000 122.000 76.000 57.000 62.000 90.000
D/F
Dc
D/F
I)cr
76.000.
60.900
77.000
93.800
108.000 77.000
68.700 83.200
81.000 77.000 102.000
66.000 53.000
73.800 99.1 00
85.000 89.000
72.800 82.300
26.000 89.000
110.000 99.900
105.000 66.000
80.000
44.000
73.800
67.000 41.000
27.000 96.000
65.800 109.000
73.000 64.000
93.000
102.000
76.800
29.000
26.000
D/F 48.000 26.000 54.000
Dc
10.600 9.2801 12.500
36.000
9.860
71.100 56.000
26.000 39.000
4.740
61.000
27.000 36.000
6.570
79.500 9.120
15.000
8.540 93.700
138.000 127.000
7.020
13.600 7.600 100.000
165.000
88.000
132.000 159.000 148.000
64.000· 92.000 114.000
159.000 115.000 82.000 96.000
125.000 112.000 91.600 83.100
39.100 75.500 86.000 106.000
65.600 102.000 105.000
203.000 198.000 151.000
121.000 143.000 126.000
116.000
59.000
121.000
77.500
67.300
67.000 56.000
99.000 120.000
91.500
87.800 25.700
61.000
101.000
83.800
89.700
96.200 6.830 74.800
113.000 139.000
111.000
124.000 76.000 40.000
88.800 94.000
35.000 38.000
118.000 116.000
97.800 100.000 100.000
108.000 58.600
79.000
23.000 27.000 64.000
84.000
135.000 116.000 148.000 221.000 115.000
79.000
116.000
67.500
91.700
68.500
44.000 59.000
64.000 94.000
87.000 59.000
97.500 45.000
20.600 10.300
47.000
96.000
96.000
53.500
48.900 53.500 41.400
17.000 67.000
25.000 122.000 43.000
163.000 39.000
84.800 73.700
73.000
87.300
24.400 42.300 34.100
7'.94 7'.94 3.960 12.700
162.000
45.000 94.000
74.8001 100.000
29.300
65.000
22.000 55.000
47.000
7.170 6.180
107.000 107.000 78.000
69.000
42 500
74.000
73.700
30.500 38.700 60.900
9.470
87.500
13.700 17.000
25.000 24.000
..
11.800
55.000 39.000
71.000 34.800
70.000 129.000
64.800 119.000
58.000 37.000 32.000 66.000 -49.000
50.300 38.000 32.000 53.500
34.000 42.000
30.000 65.900 34.900
,58.000
55.900
29.000
30.000 47.000
40.100 48.200
25.000 40.000
6.600
40.000
60.700 66.500
34.000
22.600
35.000
14.800
28.000
5.500
87.000·
61.800
20.000
14.400
FUENTE:
48.000
Utilizada co la autorizaci6n del
Dr. Bruno
51.300 46.100 25.000
Reigner.
6 ~ 8 1 0 6 ~ 8 1
. 24.800 7.200 7;900. 8.600.
150.000 135.000 201.000 164.000 130.000
108.000 126.000 0 131.000
108.000
109.000 102.000 110.000 94.000 110.000 101.000 110.000 143.000 115.000 103.000 103.000 169.000 140.000 87.100 134.000 108.000 118.000 109.000
94.400
60.000
87.700
82.900 99.600
94.000 157.000
123.000
REGUNTAS Y EJERCICIOS DE REPASO
46. ,Yasu
(A-37) utilizaron espectroscopfa de resonancia magnetica no invasiva para deter corro plazo de la comisurotomfa mitral transvenosa percutanea (CMTP) sobre la capacidad de ejercicio las respuestas metab6li(:as de los musculos musculos esqueletico durante el ejercicio. Los datos recolectados cQrresponden a 11 pacientes (2 hombres mujeres) co estenosis mitral sintomatica. La edad promedio de los padentes era de 52 anos 11. E ntre los datos recolectados estan las siguientes mediciones co desviaci6n estandar de 11. de los cambios en elJrea de la valvula mit ral (d-AV (d-AVM) M) el consumo maximo de oxfgeno (d Vo,) 3,30 90 dfas despues d e l a CMTP. et
al.
minar los efectos a largo
d.Vo
Dias
Individuo
Pos·CMPT
1 2 3 4 5 6
3
3
8 10
11
1 2 3 4 5 6 7 8 10
11
0.53 0.6 0.4 0.5
90
0.6 0.6 0.4 0.6 0.25 0.3 0.7 0.8 0.7 0.38 0.53
90 90 90 90 90 90 90
*-
90 90
(mlJkgImin)
0.6 4 0.76 0.3 0. 0.3 0.4 0.7 0. 0. 0. 0.65
30 30 30 30 30 30 30 30 30 30 30
90
10 11
d.AVM
0 ~ 3
0.3 0.67 0.75 0.7 0.4 0.55
Dato faltante.
FUENTE:
Utilizada co autorizaci6n de Dr. Takanori Yasu.
0.3 -0.9
1.9 -3.1 -0.5 -2.1 1.
1.1 -7.4 -0.4
3.8 1.6 3,3 2.6 3.6 0.2 4.2 3 0.8 4.2 1.9 5.9 3.3 0.6 2.5 4.
47
CAPITULO 9
REGR ESIO NY CORRELACION CORRELACION LINEAL SIMPLE
En los siguientes e j e r c i c i o ~ · se ntiliza un gran cantidad de datos disponibles en disco para computadortl qu el edi.tor puede proveer
1050individuos con edema cerebral (CEREBRAL). El edema cerebral I.Consuitelos datos de 1050individuos cort cort el consecuente aume nto de la presion intracreartal, frecuentemente esta asociada con le , siories .que resulta de traumatismos en la cabeza y de otras patologfas patologfas que afectan de manera adversa la integridad 'del cerebro. Los Los tratamient os disponibles para el edema cerebral cerebral varia glicerol que se ad mi en eficacia y efectos colaterales indeseable s. Un de los tratamientos es el glicerol nistra en forma oral intravenosa. Resulta interesaIite, para los medicos, la relacion entre la plasma. Suponga que usted es un presion i ntracreanal y las las concentraciones de glicerol en el plasma. consultor en estadfstica que colabora con un equipo de investigadores que analizan las relacio nes entre estas dosvariables. Seteccione Seteccione una mues tra aleatoria simple a part ir de la poblaci6n y aplique el analisis mas conveniente yutil para los investigadores; al terminar el analisis, presente los resultados y conclusiones en forma narrativa e ilustre con graficas graficas apropiadas. Por ultimo, compare los resultados contr a los resultados de otros estudiantes. individuos con hipertens i6n esencial esencial (HIPERTEN). Supo nga qu 2. Consulte los datos de 1050 individuos usted es un consultor en estadfstica que trabaja para un equipo de investigadores investigadores interesados en estudiar el caso de hipertension esenciaL Seleccione un muestra aleatoria simple de la poblacion y aplique el analisis analisis que considere utH para los investigadores. Despues, presente un informe de los hallazgos y conclusiones en forma narrativa e ilustre con graficas adecuadas. Finalmente, compare los resultados contra los resultados producidos po otros estudiantes. Consuite con el maestro respecto al tamano de la muestra que debe seleccionar. 3. Consulte los datos de 1200 pacientes con artritis reumatoide (CALCIO). Un centena de pacientes recibi6 recibi6 el medicamento en cada nivel de dosis. Suponga que usted es un investiga do medico que pretende obtener mayor conoclmiento de la naturaleza de la relacion entre los niveles de dosis de prednisolona el total de calcio corporaL Seleccione un muestra aleatoria simple de tres pacientes de cada grupo po nivel de dosis y realice las siguientes actividades: a) Utilice todas los pares de observaciones para obtene r la ecuaci6n de regresion po mlni mos cuadrados que describa las relaci6n entre el nivelde dosis (variable independiente) y el total de calciq calciq corporal b) Dibuje un diagram a de dispersion y grafique la ecuacion.
c) Calcule el valor de
valor dep. d)
y efectue pruebas con un nivel de significaci6n de .05. Calcule el
Compare los resultados con los resultados de otros estudiantes.
BffiUOGRAFiA Bibliografia de metodologia
1.
Frederick HaJ;'twig con Brian E. Dearing, Exploratory Data Analysis, Sage Publications, Beverly Hills.
2. lain M. Johnstone y Paul F. Velleman. "The Resistant Line an Related Regression Methods", Journal of the American Statistical Association, 80, 1041-1054. . R. McNeil, Interactive Data Analysis: A. Practical Primer, Wiley, New York. . .
F. Velleman y David C. Hoaglin, Applications, Basics, and Computing of Exploratory Data
Analysis, Duxbury, Belmont, CA. A. Fisher, "On the Probable Error of a Coefficieflt of Correlation Deduced from a Smal Sample", Metron, 1,3-21.
BIBLIOGRAFlA
6. . S.
H. Hotelling, Hotelling, "New "New Light on the Correlation Correlation Coeff Coefficie icient nt an Its Transforms",journal Royal Statistical Statistical Society, Series B, 15, 193-232.
471
the
Dielman, Applied Regression Analysis for Business and EConomics, segunda ediei6n, Duxbury, Belmont, CA E.
Ronald
R.
Hocking, Methods and Applications of Linear Models: Regression and the Analysis of
1ib.riance, Wiley, New York.
9. Willi William am Mendenhall Mendenhall y Terry Terry Sincich Sincich Second Course itt Statistics: Regression Analysis, quinta edici6n, Prentice Hall, Upper Saddle River, NJ. 10. John Neter, Michael H. Kutner Kutner,, Christ opher J. Nachtshei m y William William Wasserman, Applied Linear Regression Models, tercera edici6n, Irwin, Chicago. Bibliografia de aplicaciones A·I. Jean- Pier re Despres, Despres, Deni s,Prud'homme , Marie-Christine Pouliot, Angelo Tremblay Tremblay y Claude Bouchard, "Estimation of Deep Abdominal Adipose-Tissue Accumulation from Simple Anthropometric Measurements in Men", American journal of Clinical Nutrition, 54, 471-477.
A·2. Geprge Phillips, Jr., Bruce Coffey, Roger Tran-Son-Tay,
T. R. Kinney, Eugene P. Orringer R. M. Hochmuth, "Relationship of Clinical Severity to Packed Cell Rheology in Sickle Cell Anemia", Blood, 78, 2735-2739.
Analysis is of a Multibreath Nitrogen Washout A·3. Robert H. Habib y Kenneth R. Lutchen, "Mome nt Analys . Based on an Alveolar Gas Dilution Number", American Review of Respiratory Disease, 144, 513 519. A·4. Menno de Metz, Pieter Paul Schiphorst y Roy
I. H. Go, "The Analysis of 'Erythrocyte Morphologic Characteristics in Ur ine Using a Hematologic Flow Flow Cytometer an Microscopic Methods", Americanjournal of Clinical Pathology, 95,257-261. '
A·5. Susan B. Roberts, Melvin B. Heyman, William J. Evans, Paul :Fuss, Rita Tsay y Vernon R.
Young Young,, "Dietary Energy Requirements of Young Young Adult Men, Det ermi ned by Using th e Doubly Labeled Water Method", American journal of Clinical Nutrition, 54, 499-505.
A·6.
Akihiko Ogasawara, "Similarity of IQs of Siblings with Duchenne Progressive Muscular Dystrophy", American journal on Mental Retardation, 93, 548-550.
Amparo Este Estell lles es Juan Gilaber t, Francisco Francisco Espana, Justo Aznar y Manual A· 7. Amparo
G a l b i ~ , "Fibrinolytic Parameters in Normotensive Pregnancy Pregnancy with Intrauter ine fetal Growth Retardation and in Severe Preeclampsia", American journal of ObstetriCs and Gynecology, 165, 138-142.
A·S. A·S.
Esko Esko Ruokon Ruokonen, en, Jukka Takala y Ari Uusaro,. "Effect of Vasoactive Treatment on th Relationshi p Between Mixed Venous Venous an Regional Oxygen Saturation", Critical Care Medici ne,19, 1365-1369.
A·9: N.· Wodarz, R. Rupprecht, J. Kornhuber, B. Schmitz, K. Wild, H. U. Braner y P. Riederer, "Normal Lymphocyte Responsiveness to Leetins but Impaired Sensitivity to in Vitro Glucocorticoids in Major Depression" ,Journal of Affoctive Disorders, 22, 241-248.
Kosten, Leslie Leslie K.Jacobsen y Thomas R. Kosten, "Severity of Precipitated Opiate A·IO. There seA. Kosten, Withdrawa Withdrawall Predicts Predicts D rug Dep endence by DSM-III-RCriteria",Ainericanjournalof Drug and Alcohol Abuse, 15,2.37-250. Rondal, Martine Ghiotto, Serge Bredart y Jean-Frang>is 'Bachelet, "Mean Length of Utterance Children Chil dren with Down Syndrome", American journal on Mental Retardation, 93, 64-66.
A·II. Jean
A.
47
CAPITULO 9
A-12.
REGRESION Y CORRELACION LINEAL SIMPLE
Phillip R. Bryant
Gloria D. Eng; "Normal Values for th
Infants 31-45 Weeks Post Conceptional Age", Archives
Soleus H-Reflex in Newborn Physical Medicine and Rehabilitation,
72,28-30.
A-13.
Karie
Scrogin, Daniel C. Hatton y David A. McCarron, "The Interactive Effects of Dietary Calcium on Cardiovascular Stress Responses", American journal Physiology (Regulatory Integrative Compo Physiol. 30),261, R945-R949. E.
Sodium Chloride an
A-14.
Hideo Wada, Michiaki Ohiwa, Toshihiro Kaneko, Shigehisa Tramaki, Motoaki Tanigawa, Mikio Takagi, Yoshitaka Yoshitaka Mori Shigeru Shirakawa, "Plasma Level of Tumor Necrosis Factor Hematology, 37, 147-151. in Disseminated Intravascular Coagulation", American journal
A-15.
Eileen L. Lipp-Ziff yDavid T. Kawanishi, "A Technique for Improving Accuracy of the Pulmona ry Artery Diastolic Pressure as an Estimate of Left Ventricular End-Diastolic End-Diastolic Pressure" Heart Lung, 20, 107-115.
A-16
Kamal
Panda, Maheswar Lenka Brahma B. Panda, "Monitoring an Assessment Chloralkali Plant. II. Plant-Availability, Tissue Mercury Pollution in th Vicinity of Concentration an Genotoxicity of Mercury from Agricultural Soil Contaminated with Solid Waste Assessed in Batley (Hordeum vulgare L.)", Environmental Pollution, 76, 33-42.
A-17.
C. H. Tseng y T. Y Tai, "Risk "Risk Factors Factors for Hype rinsuli nemia in Chlorpropamide-Treated Chlorpropamide-Treated Diabeti Patients: A Three-Year Three-Year Follow-up",journal of the Formosan Medical Association, 91, 770-774.
A-IS.
R. Armamento-Villareal, D. T. Villareal, L. V. Avioli R. Civitell Civitelli, i, " Estrogen Status an Heredity Are Major Determinants of Premenopausal Bone Mass",]ournal Clinical Investigation, 90, 2464-2471.
A-19.
Y.
K.
Yamori, Y Nara,
S.
Mizushima,M. Mano, M. Sawamura, M. Kihara
Horie, "Inter
national Cooperative Study on the Relationship Between Dietary Factors Factors an Blood Pressu re: A Preliminary Report from th Cardiovascular Diseases an Alimentary Comparison
(CARDIAC) Study. th, 8 (2-3), 77-90. A-20.
he CARDIAC Cooperative Study Research Group", Nutrition and Heal
Sylvie Desmarais, Henri Bounameaux, Guido Reber, Arnaud Perrier, Philippe de Moerloose, Sylvie Georges Dupuy y Jean-Louis Pittet, Pittet, "Contribution of aNew, Rapid, Individual an Quantitative Automated D-Dimer ELISA to Exclude Pulmonary Embolism", Thrombosis and Haemostasis, 75,11-13.
A-21
Anttila, Martti A. Siimes y Le IIpo T. Huhtaniemi, Anne-Maarit Haavisto, Raija Anttila,
Dunkel, "Sensitive Immunoassay an in Vitro Bioassay Demonstrate Constant Bioactive/Immunoreac tive Ratio of Luteinizing Hormone in Healthy Boys During th Pubertal Maturation", Pedia tric Research, 39 1 8 0 ~ 1 8 4 .
A-22.
Yong-Kwei Tsau,Ji-Nan Sheu, Chiung-Hui Chen, Ru-JengTengyHui-Chi Chen, "Decreased Urinary/ Epidermal Growth Factor in Children with Acute Renal Failure: Epidermal Growth Factor/Creatinine Ratio No a Reliable Parameter for Urinary Epidermal Growth Factor Excretion", Pediatric Research, 39,20-24.
A-23.
A.
A-24.
Necessary, ry, Melkon S. Agopian, Karsten Liegmann, Pamela Bean, Mary Susan Sut phin, Patricia Necessa
an Lactate Kinetics in th Assessment of Running Endurance", U saj y V. Starc, "Blood Internationaljournal Sports Medicine, 17,34-40.
Carl Ludvigsen y James B. Peter, "Carbohydrate-Deficient Tqmsferrin Evaluation in Dry Blood Spots" ,Alcoholism: Clinical and Experimental Research, 20 56-60: