UNIVERSIDAD CENTRAL DE VENEZUELA FACULTAD DE CIENCIAS ECONÓMICAS Y SOCIALES ESCUELA DE ESTADÍSTICA Y CIENCIAS ACTUARIALES DEPARTAMENTO DE ESTADÍSTICA Y PROBABILIDAD CÁTEDRA DE MÉTODOS ESTADÍSTICOS ASIGNATURA: ESTADÍSTICA I PROFESORAS: SANDRA V. PINTO R. Y MARÍA TERESA SALOMÓN V.
TEMA 1 ANÁLISIS DESCRIPTIVO BIVARIANTE El análisis descriptivo bivariante se refiere al estudio de la distribución conjunta de los datos obtenidos al medir dos variables sobre un conjunto de unidades de observación. Las observaciones de cada variable constituye una dimensión, por lo que también se le conoce como análisis descriptivo bidimensional. Los datos están conformados por pares de observaciones que corresponden a la medición obtenida de cada variable en cada unidad de observación. El análisis se puede realizar sobre combinaciones de variables de diferente tipo: cualitativa-cualitativa, cuantitativa-
cuantitativa, cualitativa-cuantitativa.
La obtención de medidas descriptivas,
depende de la naturaleza de las variables en estudio. La organización de los datos se realiza sobre Tablas de Frecuencias Bidimensionales.
1. DISTRIBUCIONES
DE
FRECUENCIAS BIDIMENSIONALES
Sean X y Y variables cualesquiera medidas sobre n unidades de observación. A cada unidad de observación corresponderá, por tanto, un par valores correspondientes a las mediciones obtenidas de cada variable, esto es: (X i, Yi); i=1,2,....,n.
Tales observaciones pueden ser organizadas en una Tabla
Bidimensional o de Doble Entrada, en la cual se representa la Distribución de Frecuencias conjunta de las clases de ambas variables. var iables.
SP/MTS
1
En las Tablas Bidimensionales las frecuencias internas se denominan
Frecuencias Condicionales, ya que estas corresponden a la frecuencia de una clase de X condicionada a una clase de Y ó a la frecuencia de una clase de Y condicionada a una clase X, según se elija entre X ó Y para el análisis de los datos contenidos en la tabla. En los márgenes de las tablas, se registra la Distribución de Frecuencias unidimensionales de X y Y, las cuales se denominan Frecuencias Marginales. Las Tablas Bidimensionales pueden ser de frecuencias absolutas, frecuencias relativas o frecuencias relativas porcentuales. También suele crearse Tablas Bidimensionales que muestren simultáneamente frecuencias absolutas y porcentuales.
1.1. TABLAS DE FRECUENCIAS ABSOLUTAS BIDIMENSIONALES En estas tablas se representa la Distribución de Frecuencias Absolutas Condicionales y Marginales de las variables X y Y.
Y
y1
y2
...
yk
fi.
x1 x2
f11 f21
f12 f22
f1k f2k
...
...
...
xm f.j
fm1
fm2
... ... ... ...
fmk
f.1
f.2
...
f.k
f1. f2. ... fm. f.. = n
X
...
Frecuencia Absoluta Marginal
Frecuencia Absoluta Condicional
donde:
xi : clases de la variable X; i=1,2,...,m yj : clases de la variable Y; j=1,2,...,k f(xi / yj) frecuencias absolutas condicionales de xi dado yj fij = f(yj / xi) frecuencias absolutas condicionales de yj dado xi
SP/MTS
2
fi. : frecuencias absolutas marginales de X f.j : frecuencias absolutas marginales de Y Además, se cumplen las siguientes relaciones: k
fij
fi
fij
f j
fi
n
f j
n
j 1 m
i 1 m
i 1 k
j 1 m
k
fij
f
n
i 1 j 1
1.2. TABLAS DE FRECUENCIAS RELATIVAS BIDIMENSIONALES En estas tablas se representa la Distribución de Frecuencias Relativas Condicionales y Marginales de las variables X y Y.
Y
y1
y2
...
yk
hi.
x1 x2
h11 h21
h12 h22
h1k h2k
...
...
...
xm h.j
hm1
hm2
... ... ... ...
hmk
h1. h2. ... hm.
h.1
h.2
...
h.k
1
X
...
Frecuencia Relativa Marginal
Frecuencia Relativa Conjunta respecto al total
donde:
xi : clases de la variable X; i=1,2,...,m yj : clases de la variable Y; j=1,2,...,k h ij
SP/MTS
f ij n
frecuencias relativas respecto al total
3
hi h j
f i
frecuencias relativas marginales de X
n f j
frecuencias relativas marginales de Y
n
además, se cumplen las siguientes relaciones: k
h ij
hi
h ij
h j
hi
1
h j
1
j 1 m
i 1 m
i 1 k
j 1 m
k
h ij
1
i 1 j 1
1.3. DISTRIBUCIONES CONDICIONALES Las Frecuencias Relativas Condicionales también pueden calcularse con respecto a la Frecuencias Absolutas Marginales de X (filas) ó de Y (columnas). En tales casos, las frecuencias relativas condicionales se obtienen de la siguiente manera:
h j x i
h i y j
f ij f i f ij f j
frecuencia relativa condicional de Y respecto a X (frecuencia relativa condicional por fila) frecuencia relativa condicional de X respecto a Y (frecuencias relativa condicional por columna)
además, en cada caso se cumplen las siguientes relaciones:
SP/MTS
4
Frecuencias Relativas Condicional por fila m
h /x j
i 1
i
Frecuencias Relativas Condicional por columna k
1
j 1
h /y i
j
1
1.4. TABLAS DE FRECUENCIAS PORCENTUALES BIDIMENSIONALES En estas tablas se representa la Distribución de Frecuencias Porcentuales Condicionales y Marginales de las variables X y Y.
Y
y1
y2
...
yk
hi. %
x1 x2
h11% h21%
h12% h22%
h1k% h2k%
...
...
...
xm h.j %
hm1%
hm2%
... ... ... ...
hmk%
h1. % h2. % ... hm. %
h.1 %
h.2 %
...
h.k %
1
X
...
Frecuencia Relativa Porcentual Mar inal
Frecuencia Porcentual Condicional respecto al total
donde:
xi : clases de la variable X; i=1,2,...,m yj : clases de la variable Y; j=1,2,...,k h ij %
f ij n
* 100
frecuencias relativas porcentuales condicionales respecto al
total hi
%
h j %
f i n
f j n
* 100
frecuencias relativas porcentuales marginales de X
* 100
frecuencias relativas porcentuales marginales de Y
además, se cumplen las siguientes relaciones:
SP/MTS
5
m
k
h ij %
100%
i 1 j 1 m
h i % 100% i 1 k
h j %
100%
j 1
Las Frecuencias
Relativas Porcentuales Condicionales también pueden
calcularse con respecto a las Frecuencias Marginales de X (filas) ó de Y (columnas). En tales casos, las frecuencias relativas porcentuales se obtienen de la
siguiente manera: f ij
h ij % x i
f i f ij
h ij % y j
f j
frecuencias porcentuales condicionales de Y respecto * 100 a X (frecuencias relativas porcentuales por fila) * 100
frecuencias porcentuales condicionales de X respecto a Y (frecuencias relativas porcentuales por columna)
además, en cada caso se cumplen las siguientes relaciones: Frecuencias porcentuales por fila
Frecuencias porcentuales por columna k
m
h ij % / x i
h ij % / y j
100%
2. ANÁLISIS DESCRIPTIVO BIVARIANTE
100%
j 1
i 1
PARA
VARIABLES CUALITATIVAS
El análisis descriptivo bidimensional de variables cualitativas se refiere a la obtención de la Distribución de Frecuencias Bidimensionales y a su interpretación. Esto supone la producción de las tablas de frecuencias absolutas, relativas y porcentuales.
3. ANÁLISIS DESCRIPTIVO BIVARIANTE
PARA
VARIABLES CUANTITATIVAS
El análisis descriptivo bidimensional de variables cuantitativas requiere la obtención de la Distribución de Frecuencias Bidimensionales, de las Medidas Descriptivas y la interpretación de cada uno de estos resultados. Esto supone
SP/MTS
6
la producción de las tablas de frecuencias absolutas, relativas y porcentuales, así como el cálculo de medidas de tendencia central y de dispersión. A continuación se exponen, algunas de las medidas estadísticas empleadas en la descripción bidimensional de variables cuantitativas.
3.1. MEDIAS Y VARIANZAS CONDICIONALES
DE
LAS
MARGINALES
DISTRIBUCIONES
Y
Sean X y Y variables cuantitativas medidas sobre un conjunto de n unidades de observación. Sean x1,x2,...,xm y y1, y2,...yk las clases obtenidas al agrupar en forma puntual las observaciones de X y Y respectivamente. Se puede obtener las medias y varianzas de las distribuciones marginales (unidimensionales) y condicionales (bidimensionales) para enriquecer el análisis descriptivo de los datos.
3.1.1 Medias y Varianzas Marginales Las medias y varianzas marginales se obtienen a partir de la distribución unidimensional de las variables; es decir, los cálculos se realizan empleando las frecuencias marginales.
Medias Marginales
Varianzas Marginales m
xi
m
x i * f i X
m
i 1
x i * f i
m
f i
i 1
S
2 x
x
2
* f i
m
i 1
xi
m
2
* f i
2
* f j
n
i 1
f i
n
x
i 1
i 1 k
k
y j * f j Y
j 1
k
k
f j
j 1
y j * f j n
y j S
2 y
y
j 1
j 1
2
* f j
k
k
f j
j 1
y j
y n
j 1
3.1.2 Medias y Varianzas Condicionales Las medias y varianzas condicionales se obtienen a partir de la distribución bidimensional por lo que en los cálculos se emplean las frecuencias condicionales. SP/MTS
7
Medias Condicionales m
X y
i 1
j
x * f i
ij
m
m i 1
f
Varianzas Condicionales
x * h y i
i
2
S y
j
x
i 1
x
i
j
j
Y x
j 1 i
m
ij
i 1
x
i
2
X y
j
*h y i
j
j
k
y * f j
* f
f
j
k
2
X y
k
ij
j 1
f
y * h x j
j
j 1
2
S x
i
y
y
Y x
j
i
2 i
* f
j 1
f
i
k
ij
y
j
Y x
2 i
* h x j
i
3.2. COVARIANZA: SXY La covarianza es una medida de la dispersión conjunta de dos variables. Permite conocer si entre dos variables existe o no relacional lineal. La covarianza, Sxy, indica el sentido de la relación; esto es, si la relación lineal entre las variables es directa o inversa. El cálculo de la covarianza, se realiza de la siguiente manera:
Para datos no agrupados
Para datos agrupados en forma puntual m
n
xi S xy
x yi
y
S
x
i
x y
j
m
xy
i 1
k
i 1 j 1
n
k
i 1 j 1
y * f ij
f ij
Si la covarianza es positiva la relación lineal entre las variables es directa, es decir ambas variables crecen o decrecen simultáneamente. Si es negativa, la relación lineal entre las variables es inversa, es decir cuando una variable crece, la otra decrece. Si es cero, indica que no existe relación lineal entre las variables.
3.3. COEFICIENTE DE CORRELACIÓN PRODUCTO-MOMENTO DE PEARSON El coeficiente de correlación de Pearson,
rxy, es una medida del sentido y la
intensidad de la relación lineal entre dos variables. Se obtiene mediante la siguiente relación: rxy
SP/MTS
S xy S xS y
,
-1
rxy
1
8
i
Es decir, el coeficiente de correlación lineal de Pearson se obtiene a través del cociente entre la covarianza(Sxy) y el producto de las desviaciones típicas de X(Sx) y Y(Sy) respectivamente. El coeficiente de correlación de Pearson se interpreta de la siguiente manera:
-1 , existe perfecta relación lineal inversa entre X y Y
rsy =
0, no existe relación lineal entre X y Y
+1, existe perfecta relación lineal directa entre X y Y Cuanto más próximo a los extremos se encuentre
rsy más fuerte es la relación
lineal entre las variables. Cuanto más próximo a cero, más débil es la relación.
SP/MTS
9