TRABA JO #1 #1 E STADI STICA I P r ogram ogr ama a Mat M ate emáti áti cas cas PARTE TEÓRICA.
1. Defina: estadística bidimensional, frecuencia total, frecuencia absoluta bid imensional, frecuencia relativa bidimensional, tabla de doble entrada y sus propiedades. 2. Defina distribuciones marginales de una distribución bidimensional. 3. Defina distribuciones condicionales de una distribución bidimensional. 4. Gráficas de las distribuciones bidimensionales. 4.1 Diagrama de mosaico 4.2 Diagrama de barras. 4.3 Histograma tridimensional. 4.4 Diagrama de dispersión o nube de puntos. 5. Dependencia lineal. 5.1 Defina covarianza y escriba sus propiedades. 5.2 Defina coeficiente de correlación y escriba sus propiedades. 6. Recta de regresión. 6.1 Defina recta de regresión. 6.2 Defina residuo. 6.3 Defina coeficientes de regresión y pendientes de regresión. Escriba sus propiedades.
PARTE PRÁCTICA.
De las hojas de ejercicios anexos realizar realizar los numerales: 4, 6, 9, 18, 20 y 29.
OBSERVACIÓN: formar grupos de 3 alumnos máximo máx imo y entregar un informe a mano el
día 3 de marzo de 2017.
24
Estad´ ıstica
Tema 2: Estad´ıstica Descriptiva Bivariante. Se va a estudiar la situaci´ on en la que los datos representan observaciones, correspondientes a dos variables o caracteres, efectuadas en los individuos de una determinada poblaci´ on. Su estudio conjunto nos va a permitir determinar las relaciones entre ellas. Ambas variables pueden ser cuantitativas, una cualitativa y la otra cuantitativa, o las dos cualitativas. Vamos a denotar por X e Y las variables estad´ısticas objeto de estudio; A1 , A2 , .., Al ser´an las modalidades de la variable X , B1, B2 , ..., Bk las modalidades de la variable Y . El par (xi , yi ) denotar´a, en general, el valor de las variables X e Y sobre el elemento i-´esimo de la poblaci´on. Tablas de doble entrada.
Una primera forma de resumir la informaci´ on contenida en los datos es por medio de tablas de frecuencias. i. Se denomina frecuencia total al n´ umero total de individuos observados o n´ umero total de datos, N.
Definici´ on 1
ii. Se denomina frecuencia absoluta del par (Ai , B j ), al n´ umero de individuos, n ij , de entre los N , que poseen la modalidad Ai de X , y la modalidad B j de Y a la vez. iii. Se denomina frecuencia relativa del par (Ai , B j ), al cociente f ij =
nij . N
on conjunta de las variables estad´ısticas X e Y si Definici´ on 2 Se dice que se ha dado la distribuci´ se dan las modalidades de las variables y las correspondientes frecuencias (absolutas o relativas) con que aparece cada par. La forma de dar estos valores es por medio de tablas en las que aparecen las distintas modalidades de las variables (ordenadas de menor a mayor, si la variable es cuantitativa). En la tabla pueden aparecer frecuencias relativas en lugar de absolutas y en ocasiones, se indican ambas. X\Y A1 A2 .. .
B1 n11 n21 ...
Al
nl1
B2 . . . Bk n12 . . . n1k n22 . . . n2k ... ... ... nl2 . . . nlk N
Si las dos variables X e Y son cualitativas, la tabla correspondiente recibe el nombre de tabla de contingencia.
25
Estad´ ıstica
l
Propiedades 1
1.
k
nij = N
i=1 j =1
l
2.
k
f ij = 1
i=1 j =1
Ejemplo: Distribuci´on de alumnos de 2o de I.T.I. por titulaci´on y sexo: Titulaci´on\Sexo El´ectrico
Hombre Mujer 27 5
Electr´onico Mec´anico Qu´ımico
27
5
285
285
85
22
85
22
285
285
90
23
90
23
285
285
19
14
19
14
285
285
285 1
1
Distribuciones marginales.
A partir de una distribuci´on conjunta de dos variables es posible estudiar la distribuci´ on de cada una de las variables aisladamente ( es decir, independientemente de los valores que tome la otra variable). Los valores de las frecuencias para las variables X e Y se obtienen a partir de la tabla conjunta, anotando en los m´ argenes de la tabla la suma de los valores de cada fila y de cada columna: X\Y A1 A2 .. .
B1 n11 n21 ...
Al
nl1 n.1
B2 . . . Bk n12 . . . n1k n22 . . . n2k .. ... ... . nl2 . . . nlk n.2 . . . n.k
n1. n2. ... nl. N
• Las frecuencias relativas y absolutas, respectivamente, de la modalidad A i de la variable X son: f i. =
k
k
f ij
ni. =
j =1
nij
j =1
• Las frecuencias relativas y absolutas, respectivamente, de la modalidad B j de la variable Y son: f .j =
l
l
i=1
f ij
n.j =
i=1
nij
26
Estad´ ıstica
Observaci´ on 1 Las distribuciones marginales de X e Y son distribuciones univariantes; en este
sentido, puede aplic´ arselas todo lo estudiado en el tema anterior. En particular, si son variables cuantitativas, tendr´ an asociada media, varianza, etc. Ejemplo: Distribuci´on de alumnos de 2o de I.T.I. por titulaci´on y sexo: Titulaci´on\Sexo El´ectrico Electr´onico Mec´anico Qu´ımico
La distribuci´ on marginal de Titulaci´on es: Titulaci´on El´ectrico Electr´ o nico Frecuencia 32 107 32 107 Frecuencia relativa 285 285 Y la de Sexo: Sexo Hombre Frecuencia 221 Frecuencia relativa 221 285
2
Hombre Mujer 27 5
32
27
5
32
285
285
285
85
22
107
85
22
107
285
285
285
90
23
113
90
23
113
285
285
285
19
14
33
19
14
33
285
285
285
221
64
221
64
285
285
285 1
Mec´ anico 113
Qu´ımico 33
113
33
285
285
Mujer 64 64 285
Distribuciones condicionadas.
on condicionada de Y cuando X = Ai ( respectivamente, de Definici´ on 3 Se define la distribuci´ X condicionada a B j ) , que se denota por Y /(X = Ai ) ( respectivamente X/(Y = B j )) como la distribuci´ on de la variable Y (respectivamente X) sobre los elementos de la poblaci´ on que tienen la caracter´ıstica Ai (respectivamente, B j ). on objeto Observaci´ on 2 Un aspecto importante de las distribuciones condicionadas es que la poblaci´ de estudio no es la misma que la de partida. Los valores de las frecuencias para la variables Y /(X = Ai ) y X/(Y = B j ) se obtienen a partir de la tabla conjunta: • Las frecuencias absolutas de la variable Y cuando X = A i son las de la l´ınea correspondiente a Ai . • Las frecuencias relativas de la variable Y cuando X = A i son: f j/i = por f (B j /(X = A i ))). En efecto, f =
nij
= nij/N
fij f i.
(tambi´en se representan
27
Estad´ ıstica
• Las frecuencias absolutas de la variable X cuando Y = B j son las de la columna correspondiente a B j . • Las frecuencias relativas de la variable X cuando Y = B j son: f i/j = por f (Ai /(Y = B j ))).
fij (tambi´en f .j
se representan
Ejemplo: La distribuci´ on condicionada de Titulaci´on a Mujer es: Titulaci´on/(Mujer) Frecuencia Frecuencia relativa
El´ ectrico Electr´ onico Mec´ anico 5 22 23
Qu´ımico 14
5
22
23
14
64
64
64
64
Y la de Sexo a Mec´ anico: Sexo/(Mec´anico) Hombre Frecuencia 90 90 Frecuencia relativa 113
Mujer 23 23 113
Proposici´ on 1 Dadas las distribuciones condicionadas de la variable X a cada modalidad de la
variable Y, y dada la distribuci´ on marginal de Y (respectivamente, de Y a cada modalidad de X, y la marginal de X), queda determinada la distribuci´ on conjunta de (X,Y). En efecto, basta observar que f ij = f i/j f .j = f j/i f i. . Definici´ on 4 Se dice que las variables estad´ısticas X e Y son estad´ısticamente independientes si se
verifica: f i/j = f i. para i = 1, 2, . . . , l, j = 1, 2, . . . , k. Se dice que dos modalidades A i y B j son estad´ısticamente independientes si se verifica: f i/j = f i. La definici´ on anterior significa que la distribuci´on de la variable X no depende de los valores que tome la variable Y, y rec´ıprocamente. Proposici´ on 2 Las siguientes condiciones son equivalentes:
1. Las variables estad´ısticas X e Y son independientes, 2. f ij = f i. f .j , para i = 1, 2, . . . , l, j = 1, 2, . . . , k. 3. f j/i = f .j para i = 1, 2, . . . , l, j = 1, 2, . . . , k. Ejemplo: Variables no independientes: X\Y B1 B2 B3 1 1 A1 0 0 3 3 1 1 A2 0 0 3 3 1 1 A3 0 0 3 3 1 1 1 1 3 3 3
Variables independientes: X/Y B1 B2 B3 1 1 1 1 A1 9 9 9 3 1 1 1 1 A2 9 9 9 3 1 1 1 1 A3 9 9 9 3 1 1 1 1 3 3 3
Estad´ ıstica
3
28
Representaciones gr´ aficas de las distribuciones bidimensionales de frecuencias.
Las distribuciones marginales y condicionadas son distribuciones unidimensionales, como ya se ha indicado y, por tanto, sus representaciones gr´ aficas se ajustar´ an a las vistas en la secci´on de distribuciones unidimensionales de frecuencias. Se van a considerar s´ olo representaciones gr´ aficas de distribuciones bidimensionales: • Diagrama de Mosaico. Sobre el eje Y se representan las modalidades de una de las variables y sobre cada una se levanta un rect´a ngulo con a´rea proporcional a la frecuencia marginal de la modalidad. Cada rect´ angulo se subdivide en subrect´ angulos de base proporcional a la frecuencia condicionada de cada valor de la otra variable a esta modalidad. De esa manera se da tambi´en una imagen gr´ afica de la distribuci´ on conjunta de ambas variables (proporcionada por el ´area de cada subrect´ angulo). En el ejemplo de la distribuci´ on de alumnos por titulaci´ on y sexo:
• Diagramas de barras. Se utiliza para representar la distribuci´ on cuando ambas variables tienen pocas modalidades. Consiste en dibujar para cada par (Ai , B j ) una barra de longitud proporcional a la frecuencia (relativa o absoluta). Las barras se pueden disponer de diversas formas. Damos dos ejemplos:
29
Estad´ ıstica
• Histograma tridimensional. Se utiliza para representar la distribuci´on cuando ambas variables son continuas y agrupadas en intervalos. Consiste en representar las clases de cada variable en un plano y levantar sobre cada rect´ angulo un paralelep´ıpedo de volumen proporcional a la frecuencia relativa o absoluta. Si los rect´angulos base de todas las clases son iguales, los paralelep´ıpedos que se levantan, y que tienen que verificar que su volumen sea proporcional a la frecuencia de la clase, tendr´ an como altura un valor proporcional a las frecuencias (relativas o absolutas). • Diagrama de dispersi´on o nube de puntos. Se utiliza para variables cuantitativas sin agrupar en clases y en las que no existen pares de valores repetidos. Consiste en representar cada par de puntos (xi , y j ) en un plano. Permite obtener tambi´ en una representaci´ o n gr´ afica de las distribuciones marginales de X e Y, si se proyectan los puntos sobre cada eje (se obtiene as´ı el diagrama de puntos para cada variable). En el siguiente gr´afico est´ an representados, para una poblaci´ on de cereales de uso comn en el desayuno, el contenido de carbohidratos y de calor´ıas para 100gr de producto:
4
Dependencia lineal.
Una de las formas de dependencia de m´ as inter´ es entre variables continuas es la dependencia lineal, por varias razones: • En muchos problemas pr´ acticos la relaci´ on entre las variables es lineal. • A´un cuando la relaci´ on no sea lineal, frecuentemente es linealizable, mediante transformaciones. • Si el rango de valores es peque˜ no, la aproximaci´on lineal puede ser v´ alida. Vamos a introducir a continuaci´ on medidas de la relaci´ on lineal entre las variables: 1. Covarianza. on bidimensional, se define la covarianza de (X,Y) y Definici´ on 5 Sea (X, Y ) una distribuci´ se representa por Cov(X,Y) o´ sXY como: l
Cov(X,Y) =
k
i=1 j =1
(xi − ¯ x) (y j − ¯ y) f ij
30
Estad´ ıstica
ormula anterior es v´ alida cuando se tiene la distribuci´ on de frecuencias Observaci´ on 3 La f´ de (X, Y ). Si lo que se tiene son los N pares de datos en la forma (xi , yi ) ∀i = 1, 2, . . . , N la expresi´ on anterior queda de la forma: N
Cov(X,Y) =
(xi − ¯ x)(yi − ¯ y) N i=1
Si los datos est´ an agrupados en frecuencias absolutas, entonces l,k
Cov(X,Y) =
(xi − ¯ x)(y j − ¯ y )nij N i,j =1
Vamos a ver una forma de expresar la covarianza, u´til a la hora de hacer c´ alculos: Usando la expresi´on anterior y desarrollando: 1 N 1 N Cov(X,Y) = (xi − ¯ x) (yi − ¯ y) = (xi yi − xi y¯ − ¯xyi + x¯y¯) = N i=1 N i=1 1 = N
N
1 N 1 N xi yi − ¯ y xi − ¯x yi + N ¯ xy¯ = xi yi − ¯ yx¯ − ¯ xy¯ + x¯y¯ = xi yi − ¯yx¯ N N i=1 i=1 i=1 i=1 i=1
N
N
on sobre la posible relaci´ on Observaci´ on 4 El valor de la covarianza proporciona informaci´ lineal entre dos variables; cuando los datos parecen disponerse entorno a una recta de pendiente positiva, la covarianza es positiva; si parecen disponerse en torno a una recta de pendiente negativa, la covarianza es negativa; si no parece haber relaci´ on lineal, la covarianza es pr´ oxima a cero:
31
Estad´ ıstica
Propiedades 2 Sean X e Y dos variables estad´ısticas.
1. Si X e Y son independientes, entonces Cov(X,Y) = 0. (El rec´ıproco no es en general cierto). En efecto, si X e Y son independientes, para cada i,j se tiene que f ij = f i. f .j y por tanto, l
Cov(X,Y) =
k
l
k
xi yi f ij − ¯ xy¯ =
i=1 j =1
xi yi f i. f .j − ¯ xy¯ =
i=1 j =1
l
k
xi f i.
=
i=1
y j f .j
− ¯xy¯ = 0
j =1
2. Si a,b,c,d ∈ IR, y U = aX + b, V = cY + d, entonces Cov(U,V) = a c Cov(X,Y). 1 N Cov(U,V) = Cov(aX+b,cY+d) = (axi + b − (a¯ x + b)) (cyi + d − (c¯ y + d)) = N i=1
1 N = (axi − a¯ x) (cyi − c¯ y ) = a c Cov(X,Y) N i=1
Ejemplo: Las variables X e Y cuya distribuci´ o n viene dada por la siguiente tabla conjunta, tienen Cov(X,Y) = 0, pero no son independientes, es f´acil observar que Y = X 2 . X\Y -1 0 1
0 0
1
1
0
3
0
1
1
3
3 1
1
1
3 2
3
3
3 1 3
1
2. Coeficiente de correlaci´ on. Uno de los principales inconvenientes de la covarianza es que depende de las unidades de medida de las variables. El coeficiente de correlaci´ on es una medida adimensional.
32
Estad´ ıstica
on lineal entre dos variables X e Y y se Definici´ on 6 Se define el coeficiente de correlaci´ denota por r, como: r = Propiedades 3
Cov(X,Y) . sX s Y
1. Es un coeficiente adimensional.
2. El valor de r no var´ıa si multiplicamos X por a e Y por b con a y b n´ umeros reales del mismo signo. 3. −1 ≤ r ≤ 1. 4. |r| = 1 si, y s´ olo si, exite relaci´ on lineal exacta entre las variables, es decir, si existen a, b ∈ IR tales que yi = axi + b, i = 1, . . . , N . Adem´ as, si a > 0, es r=1 y si a < 0 es r = −1. 4. Si X e Y son estad´ısticamente independientes, entonces r = 0. oximo a ±1 se puede Observaci´ on 5 De las propiedades anteriores se deduce que si r es pr´ sospechar la existencia de relaci´ on lineal entre las variables y que si r es pr´ oximo a 0, se puede sospechar la inexistencia de tal relaci´ on. En cualquier caso, el coeficiente de correlaci´ on es una medida resumen de la estructura de un diagrama de dispersi´ on, y por tanto siempre conviene dibujar el diagrama que es el que contiene toda la informaci´ on.
5
Rectas de regresi´ on.
Una vez que sabemos que dos variables estad´ısticas tienen un cierto grado de relaci´ on lineal, puede interesarnos obtener la ecuaci´ on que mejor expresa esta relaci´on. Dicha recta se denomina recta de ajuste y no es u´nica (depende del criterio de proximidad elegido). Cuando el objetivo es que la recta nos permita explicar el comportamiento de una variable a trav´ es de la otra, el criterio adecuado es el de m´ınimos cuadrados que consite en minimizar la suma de las desviaciones, en sentido ortogonal al eje de la variable predictora, de cada punto a la recta, tomadas al cuadrado para prescindir del signo. Dados (xi , yi ) i = 1, 2, . . . , N , (tal que existen j,k con x j = x k ) veremos dos casos: N
- determinar la recta y = ax + b que haga m´ınima
(yi − ax i − b)2 , (es decir, las distan-
i=1
cias verticales entre el valor observado y el “previsto” por la recta) si se quiere explicar el comportamiento de Y a trav´es de X. (Recta de regresi´ on de Y respecto de X.) N
- determinar la recta x = cy + d que haga m´ınima
(xi − cy i − d)2, (es decir, las distan-
i=1
cias horizontales entre el valor observado y el “previsto” por la recta) si se quiere explicar el comportamiento de X a trav´es de Y. (Recta de regresi´ on de X respecto de Y.) Nos vamos a centrar en la obtenci´ on de la primera; el otro caso es similar. Recta de regresi´ on de Y respecto de X. Definici´ on 7 Llamaremos residuo e i a la diferencia entre el valor observado y el proporcionado
por la recta de regresi´ on: e = y
ax
b
33
Estad´ ıstica
El criterio elegido es, entonces, minimizar la suma de cuadrados de los residuos. Para ello, vamos a llamar y = (y1 , y2 , . . . , yN )t , x = (x1 , . . . , xN )t y 1 = (1, . . . , 1)t , vectores en IRN . El problema de determinar la recta de ajuste se puede plantear de la siguiente forma: Encontrar el vector v en el subespacio vectorial de IRN , S, generado por 1 y x, que haga m´ınima la distancia en norma eucl´ıdea del vector y a S. Gr´aficamente se observa que este vector es la proyecci´on ortogonal de y sobre S, es decir, el u ´nico vector v ∈ S tal que cumple: y − v ⊥ 1.
y − v⊥x y Por tanto, v ser´a la soluci´o n (´ unica) del sistema: (y − v )x = 0 (y − v ) 1 = 0
Poniendo v = ax + b 1 y desarrollando los productos escalares en el sistema anterior se obtiene: N
N
N
N
i=1
xi
i=1 N
i=1
xi
b a
2
xi
i=1 N
=
i=1
yi
xi yi
Dividiendo por N las dos ecuaciones del sistema y resolvi´ endole por medio de eliminaci´ on gaussiana, se obtiene el sistema equivalente:
1 x¯ 0 s2x
b a
=
y¯ sxy
Resolviendo este sistema se obtiene que: a = ssxy x b = y¯ − ssxy x ¯ 2
2
x
on de Y respecto de X, a la recta de ecuaci´ on: Definici´ on 8 Se llama recta de regresi´ y − ¯ y =
sxy (x − ¯x) s2y
unica recta de regresi´ on aunObservaci´ on 6 Se observa que siempre es posible construir una ´ que no exista relaci´ on lineal entre las variables (con tal de que existan i,j con xi = x j ). Utilizando el coeficiente de correlaci´on, tenemos que la expresi´ on de la recta es Y = y¯ + r
sY (X − ¯ x) sX
Observaci´ on 7 Se observa que e¯ = 0: N
ei = N
N
(yi − axi − b) = N
N
yi −a N
N
xi Cov(X,Y) − b = y¯ − x¯ − b = 0. 2 N
34
Estad´ ıstica
y por tanto la varianza residual ´ o varianza de los residuos, tiene la siguiente expresi´ on: N
(yi − axi − b)2
i=1
s2eY/X =
N
Proposici´ on 3 s2eY/X = s 2Y (1 − r 2)
Demostraci´on N ((yi − ¯ y) − (yi − axi − b)2 = = N i=1 i=1 N
S e2Y/X N
(yi − ¯ y )2 Cov(X,Y) = + N s2X i=1
2
Cov(X,Y)
s2X
(xi − ¯x))2
N
=
N
(xi − ¯ x)2 Cov(X,Y) N (xi − ¯x)(yi − ¯y) −2 = N s2X N i=1 i=1
(Cov(X,Y))2 = S y − = s 2Y (1 − r 2). 2 sX
2
A partir del resultado anterior, se obtiene una descomposici´ on de la varianza de Y como s2Y = s 2eY/ X + r 2s2Y La primera parte es la variabilidad debida a los residuos y la segunda la variabilidad de Y explicada por X y se interpreta de la siguiente forma: si la varianza residual es pr´oxima a 0, la recta proporciona valores previstos de Y pr´ oximos a los observados (en ese caso |r| 1 y podr´ıa existir relaci´on lineal); en el caso opuesto, si la varinaza residual es pr´oxima a la varianza de Y, el modelo no ayuda a explicar la variabilidad de Y (se tendr´ıa r 0). Se deduce que el porcentaje de variabilidad de Y explicada por X se puede expresar como r2 100%. Recta de regresi´ on de X respecto de Y. Si de lo que se trata es de encontrar la recta funci´o n de Y que mejor explica X , es decir, la recta de regresi´ on de X sobre Y , entonces llegamos a las ecuaciones: Cov(X,Y) (Y − ¯ y) s2Y sX X = x¯ + r (Y − ¯ y) sY
X = x¯ +
Se define la varianza residual para la recta de X/Y como: N
2
seX/Y
(xi − cyi − d)2 = , N i=1
donde x = cy + d es la recta. Se verifica que: s2eX/Y = s 2X (1 − r2 ) Entonces dadas dos variables estad´ısticas, se pueden construir dos rectas de regresi´ on, seg´ un me interese explicar Y en funci´on de X o bien X en funci´on de Y
35
Estad´ ıstica
1. Se denominan coeficientes de regresi´ on a los valores:
Definici´ on 9
bY /X =
Cov(X,Y) s2X
bX/Y =
Cov(X,Y) s2Y
2. Se denominan pendientes de regresi´ on a los valores de las pendientes de ambas rectas: Cov(X,Y) mY /X = s2X
mX/Y
s2Y = Cov(X,Y)
on de Y respecto de X es de la forma: Y − y¯ = Observaci´ on 8 Obs´ervese que la recta de regresi´ Cov(X,Y) s2X
Cov(X,Y) (X − ¯ x), y por tanto su pendiente (coeficiente de la variable X) es . s 2
X
Cov(X,Y) Sin embargo, la recta de regresi´ on de X respecto de Y es de la forma: X − x ¯ = (Y − y¯), sY y su pendiente (que tambi´en es el coeficiente de la variable X, una vez despejada la variable Y) sY es por tanto . Cov(X,Y) 2
2
Propiedades 4
1. Las dos rectas de regresi´ on se cortan en (¯ x, ¯ y ).
2. Las pendientes de ambas rectas tienen siempre el mismo signo. 3. bY /X = r ssXY
bX/Y = r ssXY
4. bY /X bX/Y = r 2 5. mY /X mX/Y =
s2Y . s2X
6. |mX/Y | ≥ |mY /X | mX/Y mY/X
s2Y /Cov(X,Y)
1
≥ 1, ya que |r| ≤ 1. Cov(X,Y)/sX 6. Los signos de Cov(X,Y), r, bY /X , bX/Y , mY /X y mX/Y coinciden. En efecto,
=
2
=
r2
1
Estad´ıstica
ESTAD´ISTICA 09-10. Hoja 2
1. Sean X e Y variables estad´ısticas con distribuci on ´ conjunta:
X \Y
0
1
2
-1
1 9
b
0
c
0
a
0
1 9
3 9
1
g
1 9
d
e
f
2 9
3 9
a) Completar la tabla y obtener las distribuciones marginales de X e Y. b) Calcular ¯ x y sX . ¿Cu´al ser´a la mediana de Y? c) ¿Son X e Y independientes? d ) Obtener la distribuci´on de frecuencias de X condicionada a Y = 2 y la de Y condicionada a X ≥ 0. e) Obtener la distribuci´on de la variable Z = X + Y . f ) Calcular f r(X < 14 , Y < 0) y f r(XY < 32 ).
2. Dada la siguiente tabla de frecuencias absolutas
X\ Y
y1
y2
x1
n11
n12
n1.
x2
n21
n22
n2.
n,1
n,2
N
11 n22 Demostrar que si las variables X e Y son independientes entonces n n21 n12 = 1.
3. Considera las siguientes distribuciones de frecuencias relativas marginales:
X = x i
1
2
3
4
f i· 0,2 0,3 0,4 0,1
Y = y j f · j
−1
1
0,6 0,4
Suponiendo que las variables X e Y son estad´ısticamente independientes: a) Obt´en la distribuci´on conjunta de frecuencias relativas del vector estad´ıstico bidimensional (X, Y ). b) Calcula la media de la variable Y /X ≥ 3.
2
Estad´ıstica
4. Dada la tabla de frecuencias relativas
X/Y
y1 y2
x1
a
b
x2
b
a
Determinar los valores de a y b que hacen que las variables estad´ısticas X e Y sean independientes. 5. Una jugadora de baloncesto, cuando lanza dos tiros libres, tiene los siguientes porcentajes de resultados: Tiro 2o \ Tiro 1o
Anota
Falla
Anota
49 %
21 %
Falla
A%
9%
a) Determinar el valor de A. b) ¿Cu´al es el porcentaje de aciertos en el lanzamiento del primer tiro? ¿Y en el lanzamiento del segundo? c) ¿Cu´al es el porcentaje de veces que anota alguno de los dos tiros libres? d ) Si fall el primer tiro, ¿cu´al es el porcentaje de veces que anota el segundo? e) ¿Son independientes los resultados en el primer y en el segundo tiro?
6. (**)A los alumnos de qu´ımica de determinada asignatura se les ha preguntado sobre el n u´ mero de horas semanales que dedican a la asignatura (X) y el n u´ mero de convocatorias consumidas (Y), obteni e´ ndose la siguiente informaci´on: Una quinta parte de los alumnos que estudian 6 horas han consumido 2 convocatorias. El n´umero medio de convocatorias consumidas por los alumnos que estudian 4 horas es 1.25. el n u´ mero medio de convocatorias consumidas es 0.975. El 10 % de los alumnos estudian 2 horas a la semana y han consumido una sola convocatoria. El resto de los datos se encuentran resumidos en la siguiente tabla:
Y \X
0
2
4
0
10
1
c
0
1
2
b
7
4
2
a
1
4
d
Obtener a, b, c y d. 7. Los corredores buenos dan m´as pasos por segundo a medida que aumentan la velocidad.He aqu´ı el promedio de pasos por segundo de un grupo de corredores de e´ lite a distintas velocidades. La velocidad se expresa en metros por segundo:
3
Estad´ıstica
Velocidad
4,83
5,14
5,33
5,67
6,08
6,42
6,74
pasos por segundo
3,05
3,12
3,17
3,25
3,36
3,46
3,55
a) Quieres predecir el n´umero de pasos por segundo a partir de la velocidad. Para ello dibuja un diagrama de
dispersi´on. b) Describe la relaci o´ n que observas y calcula el coeficiente de correlaci o´ n. c) Halla la recta de regresi´on del n´umero de pasos por segundo a partir de la velocidad. Traza dicha recta en
el diagrama de dispersio´ n. 8. (**)La variable X toma los valores 0 y 1 con f X (0) = 0,4; la variable Y toma los valores 1 y 2 y se conocen:
f Y /(X =0) (1) = 0,5 y f Y /(X =1) (1) = 0,4. Obtener la tabla de doble entrada para (X,Y) y obtener la recta de regresi´on de Y respecto de X. 9. Sean X e Y dos variables estad´ısticas con distribuci´on conjunta de frecuencias relativas: X\Y
0
1
2
0.1
0.2
4
0.5
0.2
Obtener la recta de regresi o´ n de Y sobre X . 10. Un conjunto de datos bidimensionales (X, Y ) tienen coeficiente de correlaci´on r = 0,8 y las medias de las
¯ = 3 y Y ¯ = 10. distribuciones marginales son X Razonar porqu´e las siguientes ecuaciones no corresponden a la recta de regresi o´ n de Y sobre X
r1 ≡ y = −2x + 16
r2 ≡ y = 1,5x + 1
r3 ≡ y = −3,5x + 20,5
11. Las rectas de regresi´on de dos variables estad´ısticas X e Y son: 2x+y=7 y 2x+3y=13. Calcular las medias, los 2 = 4. coeficientes de regresio´ n, el coeficiente de correlaci o´ n lineal y las varianzas residuales, sabiendo que S Y
12. Las rectas de regresi´on de dos variables estad´ısticas X e Y son: y=4x+4 e y=x+3. Si la varianza de X es igual a 1, obtener las medias marginales de X e Y, el coeficiente de correlaci o´ n lineal y las varianzas residuales para ambas regresiones. 13. Las rectas de regresi´on de dos variables estad´ısticas son y − 2x = 5 e y − x = 1. Obtener la proporci´on de variablidad de Y explicada por X. 14. Un tren de mercanc´ıas realiza el trayecto Valladolid-Sevilla con velocidad aproximadamente constante y sin detenerse en ningu´ n punto intermedio. En su viaje, el tren atraviesa diversas ciudades entre las que est a´ Madrid.
4
Estad´ıstica
El maquinista ha observado que transcurridas seis horas desde la salida, el tren ya ha superado Madrid y se encuentra a 7 Km de esta ciudad, a las siete horas a 50 Km y despu´es de ocho horas a 90 Km. a) Da una estimaci´on de la velocidad a la que circula el tren y de la distancia que recorre desde que sale en
Valladolid hasta que llega a Madrid. b) Predice la distancia recorrida por el tren despu´es de 7 horas de viaje y proporciona un ´ındice que mida la
validez de dicha prediccio´ n. 15. En un estudio para relacionar las variables X= ”n´umero de semanas de gestaci´onc¸on Y=”peso en gramos del beb´e al nacer”, se obtuvieron los siguientes resultados:
n = 5
xi = 197
yi2 = 49193521
yi = 15555
x2i = 7785
xi yi = 617055
Hallar la recta de regresi o´ n de Y sobre X y utilizarla peara predecir el peso de un beb e´ con 40 semanas de gestaci´on. ¿Es bueno el ajuste realizado con esta recta de regresi o´ n?. 16. Dados los datos (x1 , y1 ),(x2 , y2 ),(x3 , y3 ),(x4 , y4 ), las rectas de regresio´ n son: y = 2x + 1
y = 3x − 1
a) ¿Cu´al es la recta de regresi´on de X sobre Y ? b) ¿Cu´anto valen x e y ? c) Obtener el coeficiente de correlaci o´ n lineal.
17. Sean (−1, a), (b, 1), (0, c) y (1, 3) un conjunto de datos de la variable (X, Y ) cuyas rectas de regresi o´ n son:
y +
x 5 = , 2 2
x +
y 1 = . Calcular a, b y c. 5 2
18. Considar el siguiente conjunto de datos bidimensionales: x
1
1
2
3
4
4
5
6
6
y
2.1
2.5
3.1
3.0
3.8
3.2
4.3
3.9
4.4
Dibujando el diagrama de dispersio´ n de los datos, razonar cu a´ l de los siguientes valores puede ser su coeficiente de correlaci´on: a) 0.3
b) -0.9
c) -0.1
d) 0.92
19. Indica razonadamente cu´al es el coeficiente de de correlaci´on: 0.9, 0, -0.57, que corresponde a cada uno de los siguientes conjuntos de datos, a partir del diagrama de dispersi´on de cada conjunto de datos: Datos 1: (-1.2, -2.7), (-1.2,2.7), (-2.3,-1.9), (-2.3, 1.9), (-3,0).
5
Estad´ıstica
Datos 2: (-1.01, -2.3), (-2.09, -2.3), (-3.1, -3.1), (-4.13, -3.6). Datos 3: (-2.2,-1), (-1.03,-4.3), (-0,-3.8), (-0.1,-2.3). 20. ¿El consumo de un veh´ıculo y la velocidad a la que circula son variables ´ıntimamente relacionadas? Para decidir sobre esta cuesti´on se han recogido los siguientes datos (donde la velocidad se mide en K m por hora y el consumo en litros por cada 100 Km recorridos con la velocidad correspondiente):
Velocidad (Km/h) 30
45
55
70
85
9,8 8,4 7,8 8,4 9,8
Litros/100 Km
a) ¿Las variables consumo y velocidad est´an relacionadas linealmente? Justifica tu respuesta empleando un
´ındice o medida adecuada para ello. b) Responde a la cuesti´on planteada al comienzo del problema, razonando tu respuesta. En caso afirmativo,
prop´on un modelo matem´atico (funci´on exponencial, logar´ıtmica, polin´omica, etc.) que permita representar correctamente la relaci o´ n existente entre la velocidad y el consumo. 21. Para una distribuci´on bidimensional de frecuencias se han obtenido las rectas de regresi o´ n 7x − 4y + 22 = 0 y
20x − 11y − 70 = 0. Calcular los valores medios de X e Y . ¿Qu´e informaci´on se puede obtener de estas ecuaciones acerca de las varianzas marginales de X e Y ? Calcular el coeficiente de correlaci´on lineal de las variables X e Y . 22. Para dos variables estad´ısticas X e Y , las rectas de regresi´on son y = 3 − x, x = 9 − 4y . Calcular el coeficiente de correlaci´on lineal, las medias de X e Y , y la relaci´on existente entre las dos varianzas. 23. Un investigador sabe que el cuadrado del coeficiente de correlaci´on de dos variables X e Y es 0,81. Sabiendo que una de las rectas de regresi o´ n pasa por los puntos (4, 5) y (6, 2) ¿podr´ıas determinar r? De ser as´ı, da su valor. Razona la respuesta. 24. Estudiar el caso de rectas de regresio´ n ortogonales. 25. (**)Obtener la distribuci´on conjunta de frecuencias absolutas de (X,Y) sabiendo que son independientes y que X
1
2
3
Y
4
5
ni· 5
5
10
n· j
12
8
26. (**) En una distribuci´on bidimensional (X, Y ) se ha ajustado una regresi´on lineal entre las dos variables. Se sabe que r = 0,8, S X = 4, ¯ y = 2 y la recta de regresio´ n de X sobre Y es y = 4x. Se pide:
6
Estad´ıstica
2 y ¯ x. a) Calcular los valores de S XY , S Y
b) Calcular la recta de regresi´on de Y sobre X. c) Calcular la varianza residual en la regresi´on de X sobre Y.
27. (**)De un conjunto de datos de la variable (X,Y) se conoce: la recta de regresi o´ n de Y respecto de X, y =
10 + 0,45x , r2 = 0,9 y x= 20; obtener la recta de regresi´on de X sobre Y. 28. (**)De un conjunto de datos de la variable (X,Y) se conoce X\ Y
0
1
-1
a
0
0
0,3
0,3
1
0
b
Calcular a y b sabiendo que las rectas de regresi o´ n son: 2y = x + 1
y
4y = 5x + 2. ¿Cu a´ l es la recta de
regresi´on de Y sobre X? 29. (**)En un centro hay 360 alumnos, el 80 % sabe nadar. El 90 % de las chicas saben nadar y 180 chicos saben nadar. Construir la tabla de doble entrada de este experimento y contestar a las preguntas siguientes: a) ¿Qu´e porcentaje de alumnos que saben nadar son chicas? b) ¿Qu´e porcentaje de chicos saben nadar? c) ¿Cu´al es la probabilidad de que un alumno que no sepa nadar sea chico? d ) ¿Saber nadar y el sexo son caracter´ısticas independientes en este grupo de alumnos?
30. (**)La recta de regresi´on de Y sobre X es y=2x-3. ¿La covarianza de (X,Y) es positiva, negativa o nula? Razonar la respuesta. 31. (**)Si el coeficiente de correlaci o´ n lineal de dos variables X e Y es positivo, y ambas variables est a´ n relacionadas linealmente, ¿es cierto que un aumento de la variable X provoca en general un descenso del valor de la variable Y? 32. (**)Disponemos de un conjunto de pares de datos de dos variables (X,Y) independientes. Entonces las rectas de regresio´ n de estas dos variables son: