ESTADÍSTICA I TEMA: DISTRIBUCIONES BIDIMENSIONALES PROFESOR: Econ. NATALY LILLIAN DELGADO AGUILAR
DISTRIBUCIONES BIDIMENSIONALES 1.1. INTRODUCCIÓN •
•
•
Estudiaremos dos características de un mismo elemento de la población (altura y peso, dos asignaturas, longitud y latitud, etc.). De forma general, si se estudian sobre una misma población y se miden por las mismas unidades estadísticas una variable X y una variable Y, se obtienen series estadísticas de las variables X e Y. Considerando simultáneamente las dos series, se suele decir que estamos ante una variable estadística estadística bidimensional.
1.2. CLASIFICACIÓN SEGÚN LA NATURALEZA DE LAS VARIABLES a. Los dos caracteres cualitativos. Por Por ejemplo, nivel educacional y religión b. Uno cualitativo cualitativo,, otro cuantitativ cuantitativo. o. Estos pueden pueden ser: - Uno cualitativo, cualitativo, otro cuantitativo discreto. discreto. Por ejemplo, nivel educacional educacional y número de hijos de las personas. - Uno cualitativo cualitativo,, otro cuantitativ cuantitativo o continuo. continuo. Por ejemplo, edad y estado estado civil de las personas. personas. c. Los dos cuantitativos. Estos pueden ser: - Los dos cuantitativ cuantitativos os discretos. discretos. Por ejemplo, ejemplo, número número de horas extras extras trabajadas trabajadas y número de accidentes accidentes de trabajo. - Uno discreto y el otro otro continuo. continuo. Por ejemplo, número de horas horas extras trabajados y edad de la persona. persona. - Los dos continu continuos. os. Por ejemplo ejemplo,, estatura estatura y peso de las personas. personas.
1.3. TABLAS ESTADÍSTICAS BIDIMENSIONALES Consideremos un conjunto de n observaciones descritos simultáneamente, según dos variables o características x e y. Designaremos por: x1, x2, … xk, los k valores de la variable x; y1, y2, … yl, los k valores de la variable y. Sea nij el número de observaciones que presentan al valor x i de la variable x y el valor y j de la variable y. La suma de las frecuencias absolutas nij es igual al total de las observaciones:
= n = =
1.4. TABLA DE DISTRIBUCIÓN DE FRECUENCIA BIDIMENSIONAL ABSOLUTA Es la tabla que describe a las n observaciones, es una tabla de doble entrada, donde figuran en las filas las modalidades o valores de la característica x, y en las columnas los valores de la característica y (tabla de k filas y de l columnas). Se supondrá que todas las frecuencias absolutas de una misma fila (o de una misma columna) no se anulan simultáneamente. Si ocurriese, bastará no considerar la modalidad o valor correspondiente de x (o de y) o bien agruparla con otra modalidad.
Valores de y =
y2
…
y j
…
yl
x1 x2
n11 n21
n12 n22
nij n2j
n1* n2*
…
…
…
…
xi
ni1
ni2
nil
ni*
…
…
…
…
…
xk
nk1
nk2
nkj
… … … … … …
n1l n2l
…
… … … … … …
n*1
n*2
…
n*j
…
n*l
Valores de x
=
= =n
y1
= ∗
…
nij …
nkl
nk*
=n = = =
n**
Donde: se designa por un punto el total según el índice i o el índice j. Es decir; ni* es la suma total de las frecuencias absolutas nij según el índice j, esto es
ni* =
=
n*j es la suma total de las frecuencias absolutas n ij según el índice i, o sea,
i*
Veamos alg o más s encillo •
Variables estadísticas bidimensionales.
En numerosas ocasiones interesa estudiar simultáneamente dos (o más) caracteres de una población. En el caso de dos (o más) variables estudiadas conjuntamente se habla de variable bidimensional (multidimensional ); si se trata de dos caracteres cualitativos, de par de atributos. Si de una cierta población se estudian dos caracteres simultáneamente se obtienen dos series de datos. Individuos
A
B
C
.......
Carácter X
x1
x2
x3
........
Carácter Y
y1
y2
y3
..........
Ejemplo 1: La lista de pares de datos correspondientes a cada individuo de la población (repetidos o no), es lo que llamamos variable estadística bidimensional. A cada uno de los trabajadores de una fábrica se les talla y pesa. Se trata de dos variables cuantitativas.
xi ( tallas en m ) yi ( peso en kg )
1,70 75
1,69 70
1,68 66
1,70 67
........ .........
Ejemplo 2: Entre los empleados de una empresa se ha realizado una encuesta sobre el consumo del tabaco, que ha arrojado los siguientes resultados: A cada uno de los trabajadores de una fábrica se les talla y pesa. Se trata de dos variables cuantitativas. Hábito Sexo Varones Mujeres Totales de columnas
Fumadores
No fumadores
Totales de filas
49 43 92
64 37 101
113 80 Total general 193
1.4. TABLA DE DISTRIBUCIÓN DE FRECUENCIA BIDIMENSIONAL n** (igual a n) es la suma total de las frecuencias absolutas nij según los índices i y j, así como también la suma total de los totales ni* según j o de los totales n*j según i, esto es.
** =
= =
=
= ∗ = = ∗
La frecuencia absoluta ni* es el número de observaciones que presentan el valor x i de la característica x, independiente de los valores de la característica y. Análogamente, n*j es el número de observaciones que corresponden al valor yi de la característica e independiente de los valores de la variable x. Nota 1.4.1. Si la variable x (y/o la variable y) es contínua x i (y/o y j) representará la marca de clase número i (o j), de tal manera que se reducirá el caso contínuo al caso discreto como al estudiar las variables estadísticas de una dimensión. Nota 1.4.2. Si las variables x e y son cualitativas la tabla de distribución bidimensional se llama Tabla de Contingencia.
1.4.1 Frecuencias relativas Se llama frecuencia relativa o simplemente frecuencia de la pareja de valores xi e y j (o bien frecuencia total) a la proporción de observaciones que presentan simultáneamente los valores xi e y j . Es decir,
hij =
DISTRIBUCIÓN DE FRECUENCIAS RELATIVAS BIDIMENSIONALES Valores de y
= ℎ=h
i*
y2
…
y j
…
yl
x1
h11
h12
…
hij
…
h1l
h1*
x2
h21
h22
…
h2j
…
h2l
h2*
…
…
…
…
…
…
…
…
xi
hi1
hi2
…
hij
…
hil
hi*
…
…
…
…
…
…
…
…
xk
hk1
hk2
…
hkj
…
hkl
hk*
h*1
h*2
…
h*j
…
h*l h**=
Valores de x
La tabla de distribución de frecuencias relativas es la siguiente:
=
y1
=
= ∗
=1 = =
1.4.1 Frecuencias relativas La suma de las frecuencias relativas de todos los pares de valores posibles es igual. Es decir, = = =1 Las sumas parciales se designan igualmente por un punto (*) en lugar del índice, que hace la función de la sumatoria.
= ℎ = ∗ = ℎ = ∗ = ℎ ∗ = = ℎ ∗ = 1 hi* = h*j =
En algunas situaciones de acuerdo a objetivos específicos, podrá definirse las frecuencias con relación al total de cada o de cada fila. Es decir tendrá:
y , i = 1, 2, …, k; j = 1, 2, …, l ∗ ∗
1.4.2. Distribuciones marginales DISTRIBUCIÓN MARGINAL DE X Consideremos la columna marginal (columna de los totales horizontales) de la tabla de doble entrada. Las frecuencias absolutas ni* definen lo que se llama distribución marginal de la variable x. Es una distribución de una sola característica.
= ∗ hi* = = ∗ = n = n = ℎ ∗ = 1 ni* =
La frecuencia relativa marginal del valor o modalidad xi e igual a hi* , es decir,
Como ya hemos visto, la suma de las frecuencias absolutas marginales es n: **
Y También la suma de las frecuencias relativas marginales, como hemos visto es igual a la unidad:
1.4.2. Distribuciones marginales: Tablas A. DISTRIBUCIÓN MARGINAL DE X Valores Frec de x Absol. ni*
B. DISTRIBUCIÓN MARGINAL DE Y
Frec Rel. hi*
Valores de y
Frec Absol. n*j
Frec Rel. h*j
x1
n1*
n1*
y1
n*1
h*1
x2
n2*
n2*
y2
n*2
h*2
…
…
…
…
…
…
xi
n1*
ni*
yi
n*j
h*j
…
…
…
…
…
…
xk
nk*
nk*
yk
n*l
h*l
Total
n**
1
Total
n**
1
DISTRIBUCIÓN MARGINAL DE Y Análogamente, la distribución marginal de la característica y está definida por las frecuencias absolutas marginales n*j . La frecuencia marginal relativa del valor o modalidad y j es:
h*j =
∗
Caso 1: Un grupo de estudiantes de la facultad de Ingeniería de la UCCI están a punto de iniciar sus prácticas pre profesionales en diferentes regiones de nuestro país (costa, sierra, selva). Se ha encuestado a un grupo de ellos para conocer su género y la región elegida para llevar a cabo dichas prácticas. Los datos se muestran a continuación:
GÉNERO M F M M F M F F
REGIÓN Sierra Selva Sierra Costa Selva Selva Costa Selva
GÉNERO F M M M F M M M
REGIÓN Selva Sierra Sierra Costa Costa Selva Selva Sierra
GÉNERO F M F F M M F M
REGIÓN Selva Selva Selva Selva Costa Sierra Selva Sierra
Organiza los datos en una tabla de contingencia. Luego elabore la distribución de frecuencias marginales y construya su gráfico de barras agrupadas.
Solución: Caso 1
Primero.- Construimos la tabla considerando la variable “Género” en las filas y “Región” en las columnas:
Segundo.- Completamos cada celda de la tabla con el número de veces que aparece cada dato bivariado. Para ello contamos la cantidad de estudiantes de género masculino que viajarán a la costa, que viajarán a la sierra y a la selva. Hacemos lo propio con las estudiantes de género femenino. Luego sumamos para calcular los totales de fila y columna.
Tercero.- Elaboramos las tablas de frecuencias marginales:
Cuarto.- Se elabora el gráfico de barras agrupadas. Distribución de estudiantes, por género, según región de práctica pre profesional 8 7
8 7 6 5 4
4
3 2
3 2
0
1 0
Costa
Sierra Masculino
Selva Femenino
Caso 2: Las notas en Lengua y en Idioma de los 30 alumnos de una clase en la última evaluación han sido: Lengua: 3, 7, 8, 7, 5, 2, 5, 9, 5, 4, 3, 5, 3, 6, 3, 8, 5, 7, 7, 6, 2, 4, 9, 4, 9 , 7, 6, 7, 1, 7 Idioma: 2, 6, 10, 6, 4, 2, 5, 9, 5, 5, 2, 4, 1, 5, 1, 10, 4, 7, 8, 4, 2, 5, 9, 5, 9, 8, 5, 7,0,7
Nueva tabla en la que se ha añadido una fila y una columna más con los totales: X Y 0 1 2 3 4 5 6 7 8 9 10 Distribuciones marginales de X
0
1
2
3
2
2 2
4
5
6
7
8
9
10
1
3 1
3 2
1 2 4 0 3 7 3 3 2 3 2
2 2 3 2 3 2
0
1
2
4
4
5
2
7
2
3
Distribuciones marginales de Y Total
0
30
Distribuciones marginales Se denomina distribución marginal de una variable bidimensional a la distribución que se obtiene al estudiar independientemente cada variable. Si tomamos la primera columna y la última columna en la tabla anterior, obtenemos la distribución de frecuencias marginales de la variable estadística Y. Y n j
0 1
1 2
2 4
3 0
4 3
5 7
6 3
7 3
8 2
9 3
10 2
Si tomamos la primera fila y la última, obtenemos la distribución de frecuencias de X:
x
0
1
2
3
4
5
6
7
8
9
10
n´ j
0
1
2
4
4
5
2
7
2
3
0
EJEMPLO 1: Suponga que la población masculina de 7 ciudades se ha clasificado en casados y solteros, obteniéndose la siguiente tabla. Ciudades y A
B
C
D
E
F
G
Casados
133
164
155
106
153
123
146
Solteros
36
57
40
37
55
39
36
Condición x
Hallar: a. La tabla de distribución de frecuencias relativas. b. La distribución marginal de x y de y. c. El porcentaje de casados y e porcentaje de solteros. d. La tabla de distribución de frecuencia acumulada absoluta.
Solución 1: La tabla de distribución conjunta de frecuencias relativas de las variables x e y, se construye usando la relación hij = nij / n, con n= 1280 = Σσnij: ciudades y A Condición x Casados 133 Solteros 36 Suma Verticales 169
B
C
D
E
F
G
164 57 221
155 40 195
106 37 143
153 55 208
123 39 162
146 36 182
Suma horizontales 980 300 1280
1. TABLA DE DISTRIBUCIÓN DE FRECUENCIAS RELATIVAS ciudades y Condición x Casados Solteros Total
A
B
C
D
E
0.104 0.028 0.132
0.128 0.045 0.173
0.121 0.031 0.152
0.083 0.029 0.112
0.120 0.043 0.163
F
G
0.096 0.114 0.030 0.028 0.127 0.142
Total 0.766 0.234 1.000
b. Las distribuciones marginales de las frecuencias absolutas para x, se obtiene por:
7= = 133+164+155+106+153+123+146 =980 = 7= = 36+57+40+37+55+39+36 =300
n1* = n2*
Para y:
= = 133+36 = 169 = = = 164+57 = 221 = = = 146+36=182
n*1 = n*2 …
n*7
Las frecuencias marginales están calculadas en la tabla de la pregunta (a). Entonces, se tiene las tablas siguientes: A. DISTRIBUCIÓN MARGINAL DE X
B. DISTRIBUCIÓN MARGINAL DE Y
Condición X
n i*
hi*
Ciudades y
n*j
h*j
Casado
980
0.766
A
169
0.132
Soltero
300
0.234
B
221
0.173
Total
1280
1.000
C
195
0.152
D
143
0.112
E
208
0.163
F
162
0.126
G
182
0.142
Total
1280
1.000
c. El porcentaje de casados es 76.6% El porcentaje de solteros es 23.4%
b. Las frecuencias absolutas acumuladas bidimensionales están definidas por,
N ij =
= =
Entonces,
= = = = = = =
N11 = N12 N21 N22
= = = 1 = n = 133; = = =(1 + n ) = n + n = 133 + 164 = 297; = = = 1 = n + n = 133 + 36 = 169; = = = 1 (n + n )= = 1 + = 2 11
r2
11
r1
11
12
21
r2
N22 = n11 + n21 + n12 + n22 = 133 + 36 + 164 + 57 = 390 Así sucesivamente:
N27 =
= 7= = 1280
La tabla de distribución acumulada absoluta es la siguiente:
y
A
B
C
D
E
F
G
Casado
133
164
155
106
153
123
146
Soltero
169
221
195
143
208
162
182
x
1.5. REPRESENTACIÓN GRÁFICA Si las variables X e Y son cualitativas, se pueden hacer varias representaciones gráficas, dependiendo de qué se quiere representar. Por ejemplo, si queremos representar: Por ejemplo, si queremos representar: la distribución de uno de ellos respecto del otro o la distribución total de cada uno de ellos, se pueden usar las ya conocidas barras proporcionales. En cambio si queremos representar: la distribución de las frecuencias absolutas o relativas, se pueden usar paralelepípedos de alturas proporcionales a n ij (o h ij) perpendiculares al plano XY, con centro en el puno (xi , y j), siguiendo los mismos criterios para el caso unidimensional. Ejemplo 2: En una muestra de 20 pacientes se obtuvo los resultados de recuperación y muerte de cierta enfermedad que se muestran en la tabla siguiente:
y
Recuperados
Muertos
Total
Casado
10
2
12
Soltero
1
7
8
Total
11
9
20
x
La representación gráfica de la distribución de frecuencias absolutas se muestra:
10 9 8 7 6 5 4 3 2
Muertos
1 0 X
Recuperados Tratados No tratados
2. RECONSTRUCCIÓN DE TABLAS Complete la siguiente tabla de frecuencias.
Intervalos
[ [ [ [ [ 41 [ -
29 > > > > > >
f i
hi
Fi
Hi
0,10 0,30
14
0,47
7 0,90 30
Solución: Primero.- Para completar los intervalos necesitamos la amplitud, la cual se obtiene de la siguiente manera:
Intervalos
[ [ 29 [
-
f i
0,10
>
0,30
[ - 41 > [ 41 > [
-
hi
29 > >
Fi
14
Hi
(41 – 29) / 3 = 4 (amplitud) 0,47
7 0,90
>
30 n = 30
Segundo.- Al multiplicar el número de datos (n) por la frecuencia relativa se obtiene la frecuencia absoluta. Además, completamos las frecuencias absolutas y relativas que faltan (sumando frecuencias). Intervalos
f i
hi
Fi
[ 25 [ 29 -
29 > 33 >
2 3
0,10
2 5
[ 33 -
37 >
9
0,30
14
[ 37 - 41 > [ 41 - 45 >
7 6
[
3
45 -
49 >
0,47
21
0,90 0,10
n = 30
30 x 0.30 =9
Hi
0,90 + 0,10 = 1,00
30
1,00
Tercero.- Al tener las frecuencias absolutas es más fácil completar toda la tabla. Intervalos
f i
hi
Fi
Hi
[ 25 -
29 >
2
0,07
2
0,07
[ 29 -
33 >
3
0,10
5
0,17
[ 33 -
37 >
9
0,30
14
0,47
[ 37 -
41 >
7
0,23
21
0,70
[ 41
-
45 >
6
0,20
27
0,90
45 -
49 >
3
0,10
30
1,00
n = 30
1
[