CAPÍTULO 4
MEDIDAS DE LOCALIZACIÓN Y CENTRALIDAD La elaboración de tablas de distribución d istribución de frecuencias hace parte, como se dicho en el capítulo anterior, del proceso de reducción de los datos estadísticos. La máxima expresión del resumen de todos los datos observados, relativos a una variable, se obtiene al elegir un único valor representativo o típico de la distribución. Cuando los datos observados corresponden todos a una población de estudio, este valor representativo o típico, que es fijo para cada población, recibe el nombre de parámetro. Sin embargo, lo más usual es trabajar con datos de una o varias muestras dicho valor representativo, que al referirse a una muestra recibe el nombre de estadístico o estadígrafo. Lo habitual es que el valor de un estadístico varíe de una u otra muestra acercándose más menos al valor del parámetro. Justamente es la estadística inferencial o inductiva la que establece las condiciones bajo las cuales el estadístico representa al parámetro que pretende estimar. En realidad, los resúmenes numéricos o estadísticos, surgen de la necesidad de modelar la variación estadística en diferentes sentidos: localización, dispersión, forma (asimetría y curtosis) curtosis) y concentración. Para ello se suele considerar diferentes tipos de estadísticas o estadígrafos que concretan cada una de estos conceptos en términos de una medición estadística. En este capítulo centraremos la discusión en las medidas de localización y trataremos de responder a cuestiones como qué son, cuáles son, cómo se definen, qué propiedades, pr opiedades, ventajas e inconvenientes las caracterizan y en qué tipos de problemas o situaciones se aplican. Las medidas de localización , también conocidas como medidas de posición, son un conjunto de estadígrafos con los que se busca identificar un valor que resuma, represente o caracterice una posición o tendencia particular de un conjunto de datos. Algunos ejemplos de medidas de localización son: el máximo de los datos, el mínimo de los 77
CURSO BÁSICO DE ESTADÍSTICA DESCRIPTIVA
datos, la media aritmética, los cuantiles y la moda. El caso particular y más relevante de las medidas de localización lo constituyen las medidas de tendencia central que buscan identificar un valor intermedio, más característico o de posición central de los datos. De los ejemplos nombrados antes sólo la media aritmética y la moda son medidas de tendencia central. Los procedimientos de cálculo y las características de estas medidas varían de acuerdo al tipo de variables que se quiera resumir y a la cantidad de información que se trabaje. En lo que sigue, primero se hará una descripción de las medidas de tendencia central más conocidas, luego se comentarán otras medidas de localización como los cuartiles y finalmente se presentará una serie de ejemplos, para ilustrar el cálculo y la elección apropiada de los diferentes estadísticos de localización. MEDIA ARITMÉTIC A RITMÉTICA A La media aritmética denotada por X , es quizás la medida de tendencia central más utilizada, conocida y sencilla de calcular. Además, es una medida de gran estabilidad en el muestreo y sus fórmulas admiten tratamientos algebraicos. Su principal desventaja es la de ser muy sensible a cambios que se hagan en alguno de sus valores, como por ejemplo cuando los valores extremos son valores demasiado grandes o pequeños. La media aritmética es el número obtenido al dividir la suma de todos los valores de la variable entre el número total de observaciones, y se puede definir de manera general, a través de la siguiente expresión: k
∑ x i ni X =
i
=
1 k
∑ ni i
=
1
En realidad esta expresión usualmente se utiliza cuando se trabaja con datos agrupados en donde los ni representan las frecuencias absolutas y los xi representan los diferentes valores que asumen los datos, o bien 78
CURSO BÁSICO DE ESTADÍSTICA DESCRIPTIVA
datos, la media aritmética, los cuantiles y la moda. El caso particular y más relevante de las medidas de localización lo constituyen las medidas de tendencia central que buscan identificar un valor intermedio, más característico o de posición central de los datos. De los ejemplos nombrados antes sólo la media aritmética y la moda son medidas de tendencia central. Los procedimientos de cálculo y las características de estas medidas varían de acuerdo al tipo de variables que se quiera resumir y a la cantidad de información que se trabaje. En lo que sigue, primero se hará una descripción de las medidas de tendencia central más conocidas, luego se comentarán otras medidas de localización como los cuartiles y finalmente se presentará una serie de ejemplos, para ilustrar el cálculo y la elección apropiada de los diferentes estadísticos de localización. MEDIA ARITMÉTIC A RITMÉTICA A La media aritmética denotada por X , es quizás la medida de tendencia central más utilizada, conocida y sencilla de calcular. Además, es una medida de gran estabilidad en el muestreo y sus fórmulas admiten tratamientos algebraicos. Su principal desventaja es la de ser muy sensible a cambios que se hagan en alguno de sus valores, como por ejemplo cuando los valores extremos son valores demasiado grandes o pequeños. La media aritmética es el número obtenido al dividir la suma de todos los valores de la variable entre el número total de observaciones, y se puede definir de manera general, a través de la siguiente expresión: k
∑ x i ni X =
i
=
1 k
∑ ni i
=
1
En realidad esta expresión usualmente se utiliza cuando se trabaja con datos agrupados en donde los ni representan las frecuencias absolutas y los xi representan los diferentes valores que asumen los datos, o bien 78
MEDIDAS DE LOCALIZACIÓN Y CENTRALIDAD
corresponden a las marcas de clase mi de tablas de variable continua. Entonces, el número de marcas de clase o de valores diferentes es k y el k total de datos es ∑ ni . Cuando no se trabaja con datos agrupados se i =1
entiende que ni = 1 para toda i, que
k
∑ ni
= n el total de datos y la media
i =1
aritmética simplemente se denota como: n
∑ x i X =
i
=
1
n
En cuanto a las propiedades que caracterizan a la media aritmética tenemos: • Si los datos xi se transforman en datos de la forma yi = a + b x ,i entonces se tiene que Y = a + b X • La suma de las desviaciones desviaciones de los valores de una variable x , n
respecto a su media aritmética es cero. Es decir,
∑ ( x i − x ) = 0 i
=
1
• La de las desviaciones al cuadrado es mínima en X , es decir, X es el valor que minimiza la función n
F(u) = ∑ ( xi i
=
− u)
2
1
Respecto a sus ventajas se pueden citar las siguientes: • Es quizás, la medida más fácil de entender, la más más usada y viene viene expresada en las mismas unidades que la variable. • Es un un número número comprendido comprendido entre entre el menor y el mayor mayor de los valores valores a los que se aplica. • En su cálculo intervienen todos los valores de la distribución de datos.
79
CURSO BÁSICO DE ESTADÍSTICA DESCRIPTIVA
• Representa, en en términos términos físicos, el centro de gravedad de toda la distribución de datos. • Es única, ya que X sin agrupar agrupar se puede puede ver como una función de Rn en R y de manera similar para X agrupada. • Es muy estable en el muestreo de datos. • Es altamente sensible sensible a cualquier cualquier cambio en los datos de la distribución. • Es adaptable cuando se trata de hacer cálculos matemáticos posteriores con ésta, como en el caso del promedio ponderado o del promedio de promedios. En cuanto a sus inconvenientes se tiene que: • Se ve ve afectada afectada por los valores extremadamente grandes o pequeños de la distribución de los datos. Por ello, la inclusión de valores atípicos en la distribución que se esté estudiando, puede dar una media aritmética que no sea realmente un representante típico del grupo. • Cuando una distribución de datos es marcadamente asimétrica, casos donde la media aritmética, la mediana y la moda difieren en forma apreciable, debe considerarse la posibilidad de que pueda no ser el único valor representativo de los datos. • Cuando la distribución distribución de datos tiene tiene forma de U, la media aritmética corresponde a los valores menos comunes de los datos y por tanto, puede dar una idea irreal de la distribución. MEDIA ARITMÉTICA PONDERADA (W) La media aritmética ponderada, denotada como W, es una variación de la media aritmética que se emplea en distribuciones de tipo univariado, en las que se introducen unos coeficientes de ponderación, denominados w ,i que son valores positivos que representan el número de veces que un valor de la variable es más importante que otro.
80
MEDIDAS DE LOCALIZACIÓN Y CENTRALIDAD k
∑ x i wi W =
1
=
i
k
∑ i
=
w
i
1
En general la media aritmética ponderada goza de las mismas propiedades, ventajas e inconvenientes de la media aritmética, ya que se puede equiparar con una media aritmética agrupada. MEDIA GEOMÉTRICA (G) Para una distribución de frecuencias definida en términos de k parejas (xi, ni), la media geométrica, que denotaremos como G, se define como la raíz N-ésima del producto de los N valores de la distribución. n
n
1
2
G = N x 1 x
n
n
3
k
2 x 3 ... x k
Y si se utilizan datos sin agrupar se reduce simplemente a G = n x x x ... x 1 2 3
n
El empleo más frecuente de la media geométrica es el de promediar variables tales como porcentajes, tasas, números índices. etc., es decir, en los casos en los que se supone que la variable presenta variaciones acumulativas. En cuanto a las ventajas e inconvenientes de la media geométrica se destaca lo siguiente: • En su cálculo intervienen todos los los valores de la distribución. • Su valor está está comprendido comprendido entre el menor y el mayor mayor de los datos. • Ante la presencia de valores valores extremos extremos tienen tienen menor menor influencia influencia que en el caso de la media aritmética. • Es única, única, ya que se puede puede ver como una una función función de Rn en R • Su cálculo es más complicado que el de la media aritmética.
81
CURSO BÁSICO DE ESTADÍSTICA DESCRIPTIVA
• No cambia cuando se reordenan los valores de la variable y cumple la propiedad de homogeneidad. • Cuando la variable toma al menos un valor xi = 0 entonces G se anula, y si la variable toma valores negativos se pueden presentar una gama de casos particulares en los que tampoco queda determinada debido al problema de las raíces de índice par para números negativos. MEDIA ARMÓNICA (H) Hay ocasiones en que los valores de una variable vienen expresados en términos de otra que es inversamente proporcional o recíproca de la primera como en el caso de la velocidad y el tiempo o de la demanda de un bien y su precio de mercado. En estos casos se necesita un promedio que tenga en cuenta la reciprocidad. La media armónica, que se denotará como H, satisface estos requerimientos y se define así: N
H =
k
∑ i
1 x
=1
n
i
i
Para datos sin agrupar la media armónica simplemente será: n
H =
n
∑ i
1 x
=1
i
En cuanto a las ventajas e inconvenientes de la media armónica se mencionan las siguientes: • Es única y en su cálculo intervienen todos los valores de la distribución. • Su valor siempre estará comprendida entre el menor y el mayor de los valores de la variable. • Su cálculo no tiene sentido cuando algún valor de la variable toma el valor cero. 82
MEDIDAS DE LOCALIZACIÓN Y CENTRALIDAD
• Su uso no es recomendable en distribuciones de variables con valores pequeños. MEDIANA (Me) Dada una distribución de frecuencias con los valores ordenados de menor a mayor, se llama mediana y se representa por Me, al valor de la variable, que deja a su izquierda el mismo número de frecuencias que a su derecha, o en términos más sencillos, la mediana es el valor que divide al conjunto en dos partes iguales, de tal forma que el número de valores mayor o igual a la mediana es igual al número de valores menores o igual a ésta. Para el cálculo de la mediana se contemplan tres casos. En primer lugar, la determinación del valor de la mediana para variables discretas no agrupadas de un conjunto de N datos se puede realizar así: primero se ordenan los datos en una tabla de frecuencias y se calcula N/2, luego se construye la columna de las frecuencias acumuladas (Ni) y entonces se observa cual es la primera Ni que supera o iguala a N/2 distinguiéndose dos casos: • Si existe un valor xi tal que N i-1 < N/2 < N ,i la mediana es Me = xi. • Si existe un valor xi tal que N i = N/2 , la mediana es Me = (xi + xi+1)/2. En segundo lugar, cuando no se tiene a la mano una distribución de frecuencias o no se desea elaborarla, debido por ejemplo, a que hay muy pocos datos, el cálculo de la mediana se puede realizar así: se ordenan los datos de menor a mayor o viceversa y dependiendo del número de observaciones se darán dos casos: • Si el número de datos es impar, la mediana es igual al dato central, es decir al dato número (n+1)/2. • Si el número de datos es par, la mediana es igual al promedio aritmético de los datos centrales o a cualquier valor comprendido entre ellos.
83
CURSO BÁSICO DE ESTADÍSTICA DESCRIPTIVA
Finalmente, cuando se tiene una variable continua agrupada en una tabla de frecuencias, la mediana se puede calcular teniendo en cuenta dos casos: • Caso 1: cuando N j • Caso 2: cuando N j
−1
−1
=
<
n
2
n
2
se tiene Me = y j-1 se tiene Me = y j-1 +
n − N 2 j − 1 C n j
Donde n es el número de observaciones, C es la amplitud de la clase, y j-1 es el extremo inferior de la clase a la cual pertenece la mediana, n j es la frecuencia absoluta de la clase a la que pertenece la mediana y N j 1 es −
la frecuencia acumulada correspondiente a la clase anterior a la que contiene la mediana. Una propiedad interesante de la mediana es que la suma de los valores absolutos de las desviaciones tiene su valor mínimo, cuando se consideran las desviaciones con respecto a la mediana, es decir, el valor que minimiza la función G es la mediana donde n
G(u) =
∑ x i
=
i
−u
1
En cuanto a las ventajas e inconvenientes se mencionan los siguientes: • Es la medida más representativa en el caso de variables que sólo admitan la escala ordinal. • Es fácil de calcular cuando se tienen pocos datos. • En su cálculo sólo influyen los valores centrales y es insensible a los valores extremos o atípicos, lo cual también se puede ver como una desventaja si no hay valores atípicos. • En su determinación no intervienen todos los valores de la variable, por lo que no aprovecha toda la información de los datos.
84
MEDIDAS DE LOCALIZACIÓN Y CENTRALIDAD
• Tiene menor estabilidad en el muestreo que la media aritmética, pero es más estable que otras medidas. • La mediana no se adapta a cálculos posteriores aritméticos, en la medida en que si obtenemos las medianas de diferentes grupos, no podemos obtener una mediana de los grupos reunidos. MODA (Mo) La moda, que se denotará como Mo, es el valor de la variable que más veces se repite. Cuando se tienen distribuciones de frecuencias agrupadas en intervalos y se identifica en la columna de frecuencias el valor de la distribución al que corresponde la mayor frecuencia, el respectivo intervalo se lo llamará clase modal. En cuanto al cálculo de la moda, la determinación de la moda no tiene mayor problema si hay pocos datos y/o no están agrupados. Sin embargo, la situación es un poco más complicada si los datos vienen agrupados. En este caso, cuando los intervalos son de distinta amplitud, se define el intervalo modal, y se denota por (Li-1 , Li], como aquel que posee mayor densidad de frecuencia, donde hi = ni/c ,i y ni es la frecuencia absoluta y ci la amplitud del intervalo i. Bajo esta notación se tiene que la moda es dada por: Mo = L
i
−1
+
h
i +1
h
i −1
+h
i
c
i
+1
En el caso de intervalos de igual longitud las densidades de las frecuencias se cambian por las respectivas frecuencias absolutas. En el caso de esta medida de tendencia central, a veces aparecen distribuciones de variables con más de una moda −llamadas bimodales, trimodales, etcétera− o incluso con una moda absoluta y otras relativas. En cuanto a ventajas y desventajas de la moda se mencionan las siguientes:
85
CURSO BÁSICO DE ESTADÍSTICA DESCRIPTIVA
• Su determinación es muy sencilla, cuando los datos no están agrupados y es de fácil interpretación. • Es la única medida de posición central que puede obtenerse en las variables de tipo cualitativo de escala nominal. • En su determinación no intervienen todos los valores de la distribución de datos. ERROR MEDIO CUADRÁTICO (Emc) Esta medida, que se denota como Emc, se usa raramente como medida de tendencia central. Por ejemplo, se utiliza cuando se quiere dar un estimativo del error cometido en una medición en donde hay valores negativos y positivos y se quiere prescindir de si estos errores fueron por exceso o por defecto. Para datos agrupados se define como: Emc =
k
1 N
∑ ( x i − x ) 2 ni i
=
1
Para datos sin agrupar se define como: Emc =
n
1 n
2 ∑ ( x i − x ) i
=
1
En cuanto a ventajas e inconvenientes cabe señalar los siguientes: • Es demasiado sensible a la oscilación de valores extremos. • Es invariante ante una reordenación de los datos. • Satisface la propiedad de homogeneidad En el ejemplo 14 de la próxima sección, se comentan más detalles acerca de esta medida, y de la forma como se define. CUANTILES Los cuantiles se pueden ver como una familia general de estadísticos de localización, ya que son aquellos valores de la variable, que ordenados de menor a mayor, dividen a la distribución de datos en partes, de tal 86
MEDIDAS DE LOCALIZACIÓN Y CENTRALIDAD
manera que cada una de ellas contiene el mismo número de frecuencias. Los cuantiles más conocidos son los Cuartiles (Qi), los Deciles (Di) y los Percentiles (Pi). En lo que sigue se dedicará más atención a los cuartiles, pues, como se reporta en el capítulo anterior, es con base en ellos que se construye e interpreta el Gráfico de caja.
Cuartiles (Qi) Con base en estos estadísticos se identifican valores de la variable que dividen la distribución de datos, previamente ordenada de menor a mayor, en cuatro partes, cada una de las cuales engloba el 25% de las mismas. Se denotan de la siguiente forma: Q1 es el primer cuartil que deja a su izquierda el 25 % de los datos; Q 2 es el segundo cuartil que deja a su izquierda el 50% de los datos (este cuartil es la misma mediana), y Q3 es el tercer cuartil que deja a su izquierda el 75% de los datos. En cuanto al cálculo de los cuartiles es curioso y confuso, ver que hay diferentes criterios para determinar los cuartiles. Behar y Grima (2004) comentan e ilustran cuatro métodos de los que se dará cuenta en este apartado: el de Tukey, el de Moore y McCabe, el de Minitab y el de Excel. Se comienza comentado el método de Tukey. Método de Tukey 2
2 Q1= 3
Para un número impar de datos 4 6 8 Q1= 4 Me = 6 Q3 = 8 Método de Tukey Para un número par de datos 4 -6 Me = 5
10
8 Q3 = 7
Tabla 11. Ejemplo del método de Tukey para calcular los cuartiles
En la Tabla 11 se distinguen dos casos. Cuando hay un número impar de datos (en el ejemplo hay cinco datos) los cuartiles Q1 y Q3 coinciden con los valores de los datos ubicados en la posición segunda y cuarta 87
CURSO BÁSICO DE ESTADÍSTICA DESCRIPTIVA
respectivamente, mientras que cuando hay un número par de datos, Tukey propone calcular el promedio de los datos primero y segundo para Q1 y de los datos tercero y cuarto para Q3.
2
2
Método de Moore y McCabe Para un número impar de datos 4 6 8 Q1 = 3 Me = 6 Q3 = 9 Método de Moore y McCabe Para un número par de datos es igual a Tukey 4 -6 Q1 = 3 Me = 5 Q3 = 7
10
8
Tabla 12. Ejemplo del método de Moore y McCabe para calcular los cuartiles
Cuando hay un número impar de datos, Moore y McCabe prefieren, como se puede ver en la Tabla 12, calcular el promedio de los datos primero y segundo para Q1 , y de los datos cuarto y quinto para Q3. Para el caso de un número par de datos, el método de Moore y McCabe coincide con el de Tukey.
2
Método de Minitab Usa “posicionadores” 0,25( n+1) y 0,75( n+1) Para número par de datos usa como interpoladores Q1 = x1 + 0,25(x2-x1) y Q3 = x3 + 0,75(x4-x3) Para número impar de datos usa como interpoladores Q1 = x1 + 0,5(x2-x1) y Q3 = x3 + 0,5(x5-x4) 4 -6 Q1 = 2,5 Me = 5 Q3 = 7,5
2
4 Q1 = 3
6 Me = 6
8
8 10
Q3 = 9
Tabla 13. Ejemplo del método de Minitab para calcular los cuartiles
En cuanto a los programas para computadora, como Minitab y Excel, los algoritmos que se emplean utilizan la idea de posicionadores. En
88
MEDIDAS DE LOCALIZACIÓN Y CENTRALIDAD
particular, Minitab utiliza las expresiones 0,25(n+1) y 0,75(n+1) para identificar las posiciones de Q1 y Q3 respectivamente. En la Tabla 13, cuando n = 4 se tiene que 0,25 (n+1) = 1,25, lo que indica que el valor de Q1 estará entre los dato x1 y x2 , de manera que Q1 = x1 + 0,75(x2-x1) = 2,5. En cambio en Excel, como se ve en la Tabla 14, cuando n = 4 el posicionador da 0,25(n-1) + 1 = 1,75, lo que indica también que el valor de Q1 estará entre los dato x1 y x2 , pero en este caso Q1 = x1 + 0,75(x2-x1) = 3,5. Método de Excel Posicionadores: 0,25( n-1) +1 y 0,75( n-1) +1 Para número par de datos usa como interpoladores Q1 = x1 + 0,75(x2-x1) y Q3 = x3 +0,25(x4-x3) Para número impar de datos el posicionador da una posición exacta. 2 4 -6 8 Q1 = 3,5 Me =5 Q3 = 6,5 2
4 Q1 = 4
6 Me = 6
8
10 Q3 = 8
Tabla 14. Ejemplo del método de Excel para calcular los cuartiles
En la Tabla 15 se presenta un resumen de los valores obtenidos cuando se aplica cada método. Método Tukey Moore McCabe Minitab Excel
Datos: 2, 4, 6, 8 Q1 Q3 3 7 3 7 2,5 7,5 3,5 6,5
Datos: 2, 4, 6, 8, 10 Q1 Q3 4 8 3 9 3 9 4 8
Tabla 15. Resumen de los cuatro métodos utilizados para calcular los cuartiles
Entonces la pregunta que surge es ¿cuál es el método más correcto? Para Behar y Grima esto no importa demasiado en la práctica, ya que cuando se está interesado en conocer el valor de los cuartiles el conjunto 89
CURSO BÁSICO DE ESTADÍSTICA DESCRIPTIVA
de datos es grande, lo que implica que las diferencias entre los diferentes métodos serán muy pequeñas.
Deciles (Di) y Percentiles (Pi) Los deciles son los valores de la variable que dividen a la distribución de datos en partes iguales, cada una de las cuales engloba el 10 % de los datos; en total habrá 9 deciles. Los percentiles son los valores que dividen a la distribución de datos en 100 partes iguales, cada una de las cuales engloba el 1% de las observaciones; en total habrá 99 percentiles. RELACIONES ENTRE MEDIDAS DE TENDENCIA CENTRAL Es interesante identificar algunas relaciones que existen entre diferentes medidas de tendencia central. Por ejemplo, si la distribución de datos es bastante simétrica, los valores de la media aritmética, la mediana y la moda, tenderán a ser iguales. Cuando X > Me > Mo , la distribución de los datos tendrá una asimetría positiva, mientras que si X < Me < Mo la distribución de datos tendrá una asimetría negativa. Además, entre media aritmética, mediana y moda, la relación ( X − Mo) ≅ 3( X − Me), se puede verificar de manera empírica, cuando se tiene una distribución de datos convexa y moderadamente asimétrica, ya que la mediana cae entre la media aritmética y la moda, quedando aproximadamente dos veces más lejos de esta última que de la primera. Finalmente, en cualquier distribución de datos, en la que los elementos difieren en tamaño, las siguientes medidas diferirán también en valor en el orden siguiente: Mc > X > G > H . RELACIONES CON LA GEOMETRÍA También es interesante e ilustrativo considerar algunas relaciones entre medidas de tendencia central que se pueden interpretar en términos geométricos y de razonamiento proporcional. En particular Flores (1995) da cuenta, entre otros aspectos, de la interpretación que tiene la 90
MEDIDAS DE LOCALIZACIÓN Y CENTRALIDAD
media geométrica entre dos valores a y b, dada por ab , que es el número x que satisface la proporción a x = x b. Si se tiene un rectángulo de lados a y b , entonces la media geométrica será la longitud del lado del cuadrado con igual área que el rectángulo.
ab
a
b
Figura 31. Representación de la media geométrica de a y b como la altura de un
triángulo rectángulo inscrito en un semicírculo de diámetro a+ b
En la Figura 31 se presenta otra representación de la media geométrica, donde la magnitud de la altura que se levanta sobre la hipotenusa de un triángulo rectángulo es ab ; hecho que se demuestra al observar que dicha altura divide al triángulo en otros dos semejantes a él. Otra interpretación geométrica de la media aritmética, la media geométrica, la media armónica y la media cuadrática se exhibe en la Figura 32. En ésta se presenta un trapecio con bases a y b, la media aritmética corresponde a la paralela con la base media del trapecio, la media geométrica ab corresponde a la longitud de la paralela que divide al trapecio en dos trapecios semejantes, la media armónica corresponde a la paralela que pasa por el punto de intersección de las diagonales y la media cuadrática corresponde a la paralela que divide al trapecio en dos áreas iguales.
91
CURSO BÁSICO DE ESTADÍSTICA DESCRIPTIVA
Figura 32. Interpretación geométrica de la media aritmética, la media geométrica, la media armónica y la media cuadrática
Obsérvese que al final de la sección anterior se mencionó la serie de desigualdades Mc > X > G > H, que es una generalización de los casos particulares de las desigualdades que se acabaron de comentar: 2 ab a
+
b
<
ab
<
a
+
b
2
<
a2
+
b2
2
EJEMPLOS Para cerrar esta sección se presenta una recopilación de ejemplos con los que se pretende ilustrar buenos y malos usos de este tipo de estadísticas.
Ejemplo 1. Estimación del peso de un objeto Nueve estudiantes pesaron un objeto pequeño con un mismo instrumento en una clase de ciencias. Los pesos registrados por cada estudiante (en gramos) se muestran a continuación: 6.2 6.0 6.0 15.3 6.1 6.3 6.2 6.15 6.2
92
MEDIDAS DE LOCALIZACIÓN Y CENTRALIDAD
Los estudiantes quieren determinar con la mayor precisión posible el peso real del objeto. ¿Cuál de los siguientes métodos recomiendas usar? a. Usar el número más común, que es 6.2 b. Usar 6.15, puesto que es el peso más preciso c. Sumar los nueve números y dividir la suma por nueve d. Desechar el valor 15.3, sumar los otros ocho números y dividir por ocho. Discusión. Las opciones de respuesta a este ejemplo pretenden ilustrar acerca del concepto de media como mejor estimador de una cantidad desconocida, en presencia de errores de medida. En general la mejor estimación de un valor desconocido, en situaciones como la que se presenta viene dada por la media aritmética. No obstante, su adecuación a un caso particular debe ser valorada. El ejemplo propuesto introduce un valor atípico (15.3) que es recomendable descartar antes de proceder al cálculo de la media aritmética, ya que un valor atípico suele afectar de manera notable el valor del promedio aritmético y por ello puede generar un sesgo en la estimación. Por lo tanto, este ejemplo pretende discriminar entre el simple conocimiento algorítmico de la fórmula de cálculo, y la comprensión relacional del concepto. Entonces la respuesta más correcta es la opción (d).
Ejemplo 2. Promedio de niños por familia El comité escolar de una pequeña ciudad quiso determinar el número promedio de niños por familia en su ciudad. Dividieron el número total de niños de la ciudad por 50, que es el número total de familias. ¿Cuál de las siguientes frases debe ser cierta si el número promedio de niños por familia es 2.2? a. La mitad de las familias de la ciudad tienen más de 2 niños. b. En la ciudad hay más familias con 3 niños que con 2 niños. c. Hay un total de 110 niños en la ciudad. 93
CURSO BÁSICO DE ESTADÍSTICA DESCRIPTIVA
d. Hay 2.2 niños por adulto en la ciudad. e. El número más común de niños en una familia es 2. Discusión. En este ejemplo, la pregunta propuesta al final del enunciado, sugiere que el valor de la media de la variable “número de niños por familia” es de 2,2 en un pueblo. Además y dado que también se conoce el número total de familias, en el ejemplo se presentan una serie de afirmaciones sobre los estadísticos de la distribución asociada a dicha variable, cuya forma no se especifica. No obstante, por la experiencia, se sabe que la variable analizada es asimétrica y está acotada inferiormente por cero. En el ejemplo se aborda el conocimiento de la relación entre las tres medidas de tendencia central más conocidas (media, mediana y moda) en distribuciones simétricas y asimétricas. Es conocido que en distribuciones simétricas los valores de estas medidas coinciden, sin embargo, esto no necesariamente debe ser así para distribuciones asimétricas. Se considera que la opción (c), es la correcta.
Ejemplo 3. Media de vida en países de habla hispana En la Tabla 16 se presentan los promedios de vida de diecinueve países de habla hispana. ¿Cuál es la media de vida en países de habla hispana? País
Promedios
País
Promedios
Cuba Chile Costa Rica Argentina Uruguay Venezuela México Perú Bolivia Colombia
78 77 77 75 75 75 74 71 65 76
Ecuador El Salvador España Guatemala Nicaragua Panamá Paraguay Puerto Rico Dominicana (Rep.)
71 62 65 63 76 69 72 77 100
Tabla 16. Media de vida en diecinueve países de habla hispana
94
MEDIDAS DE LOCALIZACIÓN Y CENTRALIDAD
Discusión. Un analista de datos con poca experiencia puede pensar que el problema simplemente se reduce a sumar de todos los datos de las medias de vida y dividir por diecinueve, que es el total de países, es decir, a calcular la media aritmética de los datos dados, este cálculo arroja una media de las medias de vida de 73,58. Sin embargo, una mirada más detallada a los datos sugiere que en República Dominicana, la media de vida es mucho mayor que en los demás países. De hecho, un gráfico de caja de los datos presentados en la Tabla 16 es:
El gráfico caja pone en evidencia lo atípico del dato correspondiente a República Dominicana. En situaciones como ésta, algunos analistas de datos pueden sugerir la exclusión del valor atípico, lo cual arrojaría una media de 72,11, o bien la consideración del cálculo de la mediana que nos conduce al valor 75, que sería una estimación incluso mayor que el 73,58 obtenido cuando ya está incluido el valor atípico. Así pues, encontrar un representante de la media de vida, no es nada claro. Quizás sea entonces conveniente buscar otro tipo de información para tener un criterio más objetivo, en la elección del valor representante en cuestión. Al respecto en la Tabla 17 se presentan las poblaciones de estos países en el año 2000. Como puede verse hay países con poblaciones muy pequeñas y otros con poblaciones muy grandes. Así, otra alternativa con base en esta información es considerar el cálculo de una media ponderada. Se puede tomar como ponderación
95
CURSO BÁSICO DE ESTADÍSTICA DESCRIPTIVA
para cada país, el total de su población dividido por el total de todas las poblaciones, es decir, por 328.958 millones de habitantes. País
Habitantes
País
Habitantes
Cuba Chile Costa Rica Argentina Uruguay Venezuela México Perú Bolivia Colombia
10.603 14.625 3.303 35.671 3.221 22.777 81.250 24.367 7.774 37.068
Ecuador El Salvador España Guatemala Nicaragua Panamá Paraguay Puerto Rico Rep. Dominicana Total
11.937 5.221 39.730 9.197 3.871 2.563 5.088 3.522 7.170 328.958
Tabla 17. Población en millones de habitantes en países
de habla hispana en el año 2000
Al considerar la ponderación sugerida para el cálculo de la media ponderada, se le da más importancia a países como México, Colombia, España y Argentina, que tienen las poblaciones más grandes que a los demás países. Desde esta perspectiva la media ponderada arroja un resultado de 73,13 si se tiene en cuenta los diecinueve países, o de 72,53 cuando se excluye a República Dominicana y sólo se considera la ponderación de cada país como el total de su población dividida por 321.778, total de la población si excluye República Dominicana. Por otra parte, si en lugar de calcular la media ponderada, se calcula la mediana, con base en los datos de la Tabla 18, el resultado es 74. En definitiva y a manera de conclusión, no se puede afirmar que alguno de los métodos sugeridos sea mejor que otro. Quizás lo más importante del ejemplo es notar, la variedad de criterios que se pueden argumentar detrás de la elección de un buen representante, como la inclusión o exclusión de un valor atípico o la ponderación de los datos.
96
MEDIDAS DE LOCALIZACIÓN Y CENTRALIDAD
País
El Salvador Guatemala Bolivia España Panamá Perú Ecuador Paraguay México Argentina Uruguay Venezuela Colombia Nicaragua Chile Costa Rica Puerto Rico Cuba Rep. Dominicana
Media de vida 62 63 65 65 69 71 71 72 74 75 75 75 76 76 77 77 77 78 100
Población
5.221 9.197 7.774 39.730 2.563 24.367 11.937 5.088 81.250 35.671 3.221 22.777 37.068 3.871 14.625 3.303 3.522 10.603 7.170
Población acumulada 5.221 14.418 22.192 61.922 64.485 88.852 100.789 105.877 187.127 222.798 226.019 248.796 285.864 289.735 304.360 307.663 311.185 321.788 328.958
Tabla 18. Distribución acumulada de las medias de vida cuando se
construye las frecuencias con base en las poblaciones de cada país
Ejemplo 4. “Promedios” de bateo en el béisbol Los datos de la Tabla 19 muestran el desempeño al bate de jugadores venezolanos de béisbol que juegan en la liga Nacional y en las grandes ligas del béisbol norteamericano: a. ¿Cuál es el “promedio” de bateo del jugador Alfonso E? b. ¿Cuántos hits sencillos tiene que lograr Blanco H. para tener el mismo “promedio” de bateo que Escobar A? c. ¿Es posible que Torrealba Y. con diferencia de 3 turnos al bate logre conseguir el mismo “promedio” de bateo de Pérez T? ¿Cómo? d. Si Ordoñez M. lograra en su próximo partido conectar 3 hits en 4 turnos al bate, ¿cómo cambiaría su “promedio”? 97
CURSO BÁSICO DE ESTADÍSTICA DESCRIPTIVA
Jugador
Liga
B
S
D
T
J
BB
AVG
Blanco H.
Americana
118
11
7
0
3
10
0.194
Escobar A.
Americana
124
18
7
1
1
12
0.241
Torrealba Y.
Americana
49
4
2
0
1
5
0.159
Alfonso E.
Nacional
157
29
7
0
1
17
Pérez T.
Nacional
52
4
3
1
1
3
0.183
Gonzales A.
Nacional
162
16
10
0
3
20
0,204
Ordoñez M.
Americana
188
34
7
2
8
25
0,313
Olmedo R.
Nacional
1
0
0
0
0
0
0,000
Convenciones utilizadas: B: Número total de turnos al bate S: Número de hits sencillos. D: Número de hits dobles. T: Número de hits triples. J: Número de cuadrangulares. AVG: Promedio de bateo. BB: Número de concesiones de base por bola. Tabla 19. Desempeño al bate de jugadores de béisbol de Venezuela en las ligas Nacional y Americana
Discusión. Para calcular el “promedio” de bateo de un jugador de béisbol no se saca simplemente la media aritmética del número de hits (sencillos, dobles y triples) y de cuadrangulares. En realidad más que un “promedio” lo que se saca es un proporción (o porcentaje) de bateo. La forma en que se calcula ese “promedio” es un ejemplo de cómo dos razones a b y c d se combinan para formar una nueva razón ( a + c ) ( b + d ) que se halla entre las dos razones anteriores. Es decir: Si
a b
<
c d
,
entonces
a b
<
a
+
c
b
+
d
<
c d
.
Además, se puede dar una interpretación geométrica a esta desigualdad: la pendiente ( a + c ) (b + d ) es una intermedia entre las pendientes a b y c d (ver Figura 33). 98
MEDIDAS DE LOCALIZACIÓN Y CENTRALIDAD
c d
a+c
a b b+ d
Figura 33. Interpretación geométrica de la desigualdad
a
<
b
a
+
c
b
+
d
<
c d
También es interesante señalar que si a y b son respectivamente mucho mayores que c y d , entonces a b y ( a + c ) (b + d ) estarán muy cerca. La pendiente de la hipotenusa del triángulo con catetos a y b es muy similar a la pendiente de la hipotenusa del triángulo de catetos a + c y b + d (ver Figura 34). Este hecho se podrá evidenciar cuando se considere, más adelante, la solución al literal (d). c d
a+c
a
b b+ d
Figura 34. Comparación de las pendientes
a b
y
a
+
c
b
+
d
cuando a y b
son respectivamente mucho mayores que c y d
99
CURSO BÁSICO DE ESTADÍSTICA DESCRIPTIVA
Para responder entonces al literal (a) del ejemplo, se tiene entonces que el promedio de bateo es la suma el número de hits sencillos, dobles, triples y cuadrangulares, dividido entre el número de turnos al bate menos el número de bases por bola. Es decir: AVG
29
=
+
7 + 0 +1
157
− 17
=
37
=
140
0, 264
Entonces el “promedio” de bateo del jugador Alfonso E. es de 0,264. En cuanto al literal (b), en este caso hay un valor desconocido, que se encuentra al hallar el valor de la incógnita. 0, 241
=
S
+
7
118
+
0+3
− 10
Al despejar la incógnita, y redondeando el resultado, se obtiene S = 16. Por lo tanto, para tener el mismo promedio de bateo de Escobar A., Blanco H. debe lograr aproximadamente 16 hits sencillos. En cuanto al literal (c), se presentan varias posibilidades ya que se pueden lograr hits sencillos, dobles, triples o cuadrangulares. Para empezar se considera el caso de hits sencillos. En este caso se plantea: 0,183
=
S
+
49
2 + 0 +1 +
3−5
Al despejar y redondeando el resultado, se obtiene que S = 6, por lo que es imposible con sólo hits sencillos que Torrealba Y. en 3 turnos al bate logre conseguir el mismo “promedio” de bateo de Pérez T. De manera similar, si el asunto se plantea en términos de hits dobles o triples, entonces las ecuaciones a resolver respectivamente, son: 0,183
=
4 + D 49
+
+
0 +1
3−5
y
0,183
=
4 + 2 + T + 1 49
+
3−5
Al despejar y redondeando los resultados, se obtiene que D = 4 y T = 2 por lo que tampoco es posible con sólo hits dobles que Torrealba Y. en 3 turnos al bate logre conseguir el mismo “promedio” de bateo de Pérez
100
MEDIDAS DE LOCALIZACIÓN Y CENTRALIDAD
T., pero si lo podrá superar si conecta dos triples. Igualmente, se puede verificar que si conecta tres cuadrangulares logra superar el “promedio” de Pérez T. Finalmente, para responder al literal (d), veamos las diferencias en los siguientes cálculos 0,313
=
34
7
+
2+8
188
−
25
+
y
0,323
=
34
+
7
+
192
2+8+3 −
25
El primero es su “promedio” antes del último partido y el segundo el “promedio” después de éste. Observe que la variación es muy leve.
Ejemplo 5. Notas en el colegio En el Colegio Distrital Luis Carlos Galán, al finalizar el año escolar la profesora de español se dispone a realizar el parcial final, Camilo le pide a la profesora sus notas y ella le muestra el siguiente reporte: Actividad Talleres Cuaderno Tareas Parcial 1 % 30% 10% 10% 15% NOTA 3,4 2,5 3,0 2,1
Parcial 2 Parcial F 15% 20% 3,0
a. ¿Qué nota mínima debe sacar en el parcial final para aprobar la materia? b. Si la profesora decide no realizar el Parcial Final y cambiar el porcentaje de los Parciales 1 y 2 cada uno al 25%. ¿Con qué nota finaliza el año? c. Si aprueba español con 3,2. ¿Qué nota sacó en el Parcial Final? Discusión. Para resolver este tipo de problemas el “estudiante ingenuo” suele calcular la media aritmética, sin tener en cuenta la ponderación de las notas. Incluso puede llegar al extremo de pensar que si el promedio que tiene acumulado es de 2,8 (resultado de la media aritmética, sin
101
CURSO BÁSICO DE ESTADÍSTICA DESCRIPTIVA
hacer ponderaciones), lo que necesita para pasar es un 3,2. Es claro que lo que se requiere aquí es utilizar una media ponderada. Cuando las ponderaciones vienen dadas en términos de porcentajes, se debe verificar que éstas sumen exactamente el 100%. Además, en este caso la media ponderada se puede utilizar para determinar en cuanto lleva el 80%, al plantear el siguiente cálculo x
=
30 % × 3, 4 + 10 % × 2,5 + 10 % × 3, 0 + 15 % × 2,3 + 15 % × 3, 0 80 %
=
2,95
Entonces, Camilo lleva la nota en 2,95, y para mirar que nota debe sacar para por lo menos aprobar la materia debe plantear la siguiente ecuación x
=
2 ,95 × 80 %
+ x ×
100 %
20 %
=
3,0
Al resolver, se tiene entonces x = 3,2. Observe que aunque el estudiante ingenuo obtuvo el mismo resultado, lo hizo con un procedimiento errado. En realidad el hecho de que se llegue a la misma respuesta es una simple coincidencia. Cuando se cambian las ponderaciones de los parciales 1 y 2, cada uno al 25%, y no hay parcial final, el estudiante saca x
=
30 % × 3, 4 + 10 % × 2,5 + 10 % × 3,0 + 25 % × 2 ,3 + 25 % × 3, 0 100 %
=
2,59
Finalmente, si el estudiante obtiene un 3,2 como nota definitiva, la nota que sacó en el parcial final se obtiene al resolver x
=
30 % × 3, 4 + 10 % × 2 ,5 + 10 % × 3, 0 + 15 % × 2,3 + 15 % × 3,0 + 20 % × x 100 %
Al despejar se llega a x = 3,025. 102
=
3, 2
MEDIDAS DE LOCALIZACIÓN Y CENTRALIDAD
Ejemplo 6. Sueldos en una empresa En una empresa de odontología los sueldos correspondientes a los cargos son los siguientes: Gerente General $ 18000,000 1 Director de DPTO $ 4’000,000 5 Jefe Inmediato $ 3’000,000 5 Analista $ 1’500,000 10 Auxiliares $ 800,000 10 Servicios Generales $ 550,000 2
El analista de nómina dice que el promedio de salario de la empresa es de $1’846,875 ¿Cómo calculó el analista de nómina el promedio de salario de la empresa? Discusión. Como ya ha sido enfatizado, la media aritmética se puede afectar ante la presencia de valores atípicos.
Lo atípico del salario del gerente comparado con los demás salarios se evidencia en el gráfico de caja anterior. En efecto, si se calcula la media aritmética de estos datos, incluyendo el salario del gerente, se obtiene un valor de $2´315.150, que no corresponde con el valor calculado por el analista de nómina. Tampoco puede ser la mediana pues, fácilmente se puede determinar que esta es de $1´500.000. En realidad, para obtener el valor de $1’846,875 lo que hizo el analista fue descartar el salario del gerente y calcular una media aritmética en la que el número de datos es 32, la cantidad de empleados sin contar el gerente. 103
CURSO BÁSICO DE ESTADÍSTICA DESCRIPTIVA
Ejemplo 7. ¿Conviene apostar? Se propone un juego de dados donde el jugador participante debe lanzar tres dados de seis caras al mismo tiempo. Las reglas del juego son: • si al lanzar los dados saca en uno de ellos un 6 gana $1.000, • si el al lanzar los dados saca en dos ellos un 6 gana $2.000, • si al lanzar los dados saca en los tres dados un 6 gana $3.000 y • si no obtiene 6 en ningún dado, entonces pierde $1.500. ¿Estaría dispuesto a jugar este juego? Discusión. Este es un problema clásico de juegos de azar que involucra nociones básicas de probabilidad. El concepto más relevante que se debe contemplar es el de valor esperado. Aunque no se entrará en muchos detalles acerca de la asignación de probabilidades a los cuatro eventos en cuestión (sale un 6, salen dos 6, salen tres 6 y no sale 6) si se pretende establecer una conexión entre el cálculo del valor esperado de la variable aleatoria, implícitamente definida, y el cálculo de la media ponderada, asociada a la variable aleatoria implicada en el juego. Por otra parte, para la asignación de probabilidades se puede asumir un enfoque frecuencial empírico o a posteriori, o un enfoque clásico a priori. En primer lugar, se hará explicita la definición de la variable aleatoria involucrada en el juego, luego se presentarán los dos tipos de asignación de probabilidades mencionados y finalmente se hará el cálculo del valor esperado que, como veremos, es un caso especial de cálculo de una media ponderada. En general, una variable aleatoria es una asignación de valores numéricos a eventos de un espacio de probabilidades. Para este juego la asignación de valores que tiene sentido es la que se establece a través de las reglas del juego (las cuatro viñetas presentadas en el enunciado). En cuanto a la asignación de probabilidades primero se comenta la asignación clásica que se basa en un recuento de todos los casos posibles de resultados del lanzamiento de los tres dados (216 en total), y 104
MEDIDAS DE LOCALIZACIÓN Y CENTRALIDAD
de todos los casos favorables asociados a cada evento (1 caso para “salen tres 6”, 15 casos para “salen dos 6”, 75 casos para “sale un 6”, y 125 casos para “no sale 6”). En la tabla que sigue se resume toda la información: Evento Sale un 6 Salen dos 6 Salen tres 6 $1.000 $2.000 $3.000 Valor de x Número de casos 75 15 1 Probabilidad 75/216 15/216 1/216
No sale 6 −$1.500 125 125/216
El valor esperado asociado al juego, de acuerdo con la asignación de probabilidades presentada, se define como la suma de los productos de los valores de la variable aleatoria por sus respectivas probabilidades, es decir como: 1000
×
75 216
+
2000
×
15 216
+
3000
×
1 216
− 1500 ×
125 216
≅ − 368
Observe que el cálculo realizado coincide con el cálculo de una media ponderada donde las ponderaciones de los valores son 75, 15, 1 y 125. En cuanto a la interpretación del resultado se debe tener en cuenta dos asuntos: el primero tiene que ver con el signo y el segundo con el número de veces que se estaría dispuesto a jugar. En cuanto al signo del valor esperado, si al calcularlo el valor que da es mayor que cero, es favorable jugar; si es igual que cero, el juego es equilibrado; y si no es mayor que cero, no es favorable jugar. Sin embargo, también se debe tener en cuenta el segundo asunto: el valor esperado es un resultado que tiene sentido interpretar sólo cuando se realiza un número grande de juegos. La verdad es que cuando sólo se va a realizar un juego no es recomendable considerarlo como una regla de decisión. Quizás, la discusión del segundo enfoque de asignación de probabilidades ayude a precisar esta cuestión. Otra manera de asignar probabilidades a eventos es con base en recopilar un historial de cuantas veces suceden los eventos en cuestión cuando se repite el lanzamiento de los tres dados, un número grande de
105
CURSO BÁSICO DE ESTADÍSTICA DESCRIPTIVA
veces, por ejemplo 100 veces, 500 veces o 1000 veces; entre más veces se pueda repetir, la asignación de probabilidad se hará más estable y según la teoría estadística, deberá converger a la asignación clásica de probabilidades. Para realizar el lanzamiento de los tres dados se utilizaron métodos de simulación basados en la generación de números aleatorios y para ello se usó una hoja electrónica de Excel. Una salida de este tipo de simulación se presenta en la siguiente tabla. Pierde 1500 Gana 1000 Gana 2000 Gana 3000
S1(100) 58 29 11 2
P1 S2(500) P2 S3(1000) P3 P. Teórica 0,580 302 0,604 590 0,590 0,5787 0,290 154 0,308 328 0,328 0,3472 0,110 41 0,082 77 0,077 0,0694 0,020 3 0,006 5 0,005 0,0046
La tabla anterior contiene en la columnas S1(100), S2(500) y S3(1000) el número de veces que se perdió o ganó al jugar 100, 500 y 1000 veces respectivamente. Además, en las columnas P1, P2 y P3 se presenta la asignación de probabilidades a posteriori, es decir, la basada en los resultados de una simulación. Por otra parte, en la tabla que sigue se presenta el balance de los juegos con 100, 500 y 1000 simulaciones, la media ponderada correspondiente a cada caso y la ganancia en teoría. S1(100) S2(500) S3(1000) Ganancia total -30000 -208000 -388000 Media ponderada -300 -416 -388 Ganancia en teoría -36800 -184000 -368000
Ejemplo 8. Salario de un obrero Un obrero eventual que trabajó ciertos meses cada año, cobró la misma cantidad de dinero cada año. Si el salario mensual fue de $80.000 en 1989, de $95.000 en 1990 y de $120.000 en 1991. ¿Cuál es el salario medio al mes del obrero?
106
MEDIDAS DE LOCALIZACIÓN Y CENTRALIDAD
Discusión. De nuevo tenemos un problema cuya solución le puede parecer al “estudiante ingenuo”, como una simple aplicación de la media aritmética, donde ($80.000 + $95.000 + $120.000)/3 = $98.333. Sin embargo, la solución anterior es incorrecta. Detrás de una solución correcta al problema se esconde la aplicación de la media armónica. A continuación se explicarán los detalles del razonamiento que llevan a esto. Para empezar suponga que C es la cantidad cobrada cada año. Entonces, el número de meses trabajados en el primer año es C/80.000, en el segundo C/95.000y en el C/120.000. Como C designa la cantidad cobrada cada año, el número total de meses trabajados será la suma de los relativos a cada año, es decir: C
80 . 000
+
C 95 .000
+
C 120 .000
Por lo tanto el salario mensual será: S
=
C
80 .000
+
3C C 95 .000
+
=
C
1 80 .000
120 .000
+
3 1 95 .000
+
1 120 .000
Entonces el salario promedio, al resolver la expresión anterior, será de $95.664,34. La forma final de la expresión anterior también explica por sí misma que se trata del cálculo de una media armónica.
Ejemplo 9. Velocidad de remado Una persona rema río arriba a una velocidad de 25 km/h y de regreso a 40Km/h. ¿cuál es la velocidad promedio de todo el recorrido? Discusión. Algunos remadores estiman que si manejan la primera mitad de un recorrido con una velocidad de 25 km/h, y la segunda mitad de la distancia a 40 km/h., la velocidad media, o promedio de todo el viaje será de (25 +40)/2 = 32,5 km/h. Ellos se sorprenden al observar que si se viaja todo el trayecto a una velocidad constante de 32,5 km/h, llegan más tarde de lo pensado. El tiempo que se requiere 107
CURSO BÁSICO DE ESTADÍSTICA DESCRIPTIVA
para cada una de los viajes, río arriba y río abajo, no es el mismo, y la velocidad menor se tiene que sopesar más que la velocidad mayor. Algunas veces los estudiantes tienen dificultad para resolver problemas, como el que se enuncia, porque no pueden calcular el tiempo total, ya que no se da la distancia. En realidad lo que aquí es igual son las distancias de ida y regreso y lo que cambian son los tiempos. Por ejemplo, si la velocidad v1 es dos veces mayor que la otra velocidad v2 , para distancias iguales el conductor pasará el doble del tiempo viajando a la velocidad menor. La velocidad media deberá estar más cerca de la velocidad menor en una razón de 1 a 2. En general, el tiempo de viaje a una velocidad será inversamente proporcional a la misma. En otras palabras, al promediar velocidades sobre distancias iguales, la importancia que debemos dar a cada velocidad es precisamente el inverso de cada velocidad. Ahora se mostrarán los detalles del razonamiento. En primer lugar se debe tener claro la definición de la velocidad como el cociente de la distancia sobre el tiempo, esto es: v = d/t. Entonces se tiene que la velocidad cuando la persona rema río arriba es v1 = d/t1 y cuando regresa es v2 = d/t2. Así pues, al despejar los tiempos en cada una de estas expresiones se tiene que t1 = d1/v1 y t2 = d2/v2 y entonces el tiempo total de viaje será t1 + t2 y la distancia total d1 + d2 , además se sabe que d1 = d2 = d , Por lo tanto, la velocidad media será: v
=
2 d t 1
+ t 2
=
2 d d
d
1
v
+
1
2 d
=
d
2
v
v 2
+
1
d v
2
=
2 1 v
1
+
1 v
2
Se concluye entonces que para hallar la velocidad media en cuestión, basta con calcular la media armónica de las velocidades de cada recorrido. En suma, se tiene como respuesta que la velocidad media es v
=
2 1 v
1
+
1 v
2
=
2 1 25
+
108
1 40
≅
33 ,11
MEDIDAS DE LOCALIZACIÓN Y CENTRALIDAD
Ejemplo 10. Tiempo para realizar una obra de construcción José puede hacer una obra en cuatro días, Juan en seis días y Andrés en doce días. ¿En cuánto tiempo pueden hacer la obra los tres juntos? Discusión. Este es otro ejemplo, en el que se puede aplicar la media armónica. Se presenta el siguiente razonamiento para convencerse de ello. Sea x el número de días que tardarían en hacer toda la obra trabajando los tres juntos. Si en días los tres juntos hacen toda la obra, en 1 día harán 1/x de la obra. José, trabajando solo, hace la obra en 4 días; luego, en un día hace 1/4 de la obra. Juan, trabajando solo, hace la obra en 6 días; luego, en un día hace 1/6 de la obra. Andrés, trabajando solo, hace la obra en 12 días; luego, en un día hace 1/12 de la obra. Luego los tres juntos harán en un día (1/4 + 1/6 + 1/12) de la obra; pero como en un día los tres hacen 1/x de la obra, tenemos: 1
4
+
1 6
1
+
=
12
1 x
Resolviendo la expresión se debe llegar a x = 2. Se Obtiene entonces que el tiempo que se gastan los tres obreros en hacer la obra juntos es de 2 días. Nótese que utilizando la formula de la media armónica se llega a la siguiente respuesta v
=
3 1 4
+
1 6
+
1
=
6
12
Lo que quiere decir que un solo obrero trabajando a una velocidad equivalente a la media de los tres obreros se gastaría 6 días. Así pues, si trabajan los tres al tiempo, lo que gastarán será 6/3 = 2 días.
Ejemplo 11. Crecimiento de un depósito de ahorro A continuación se muestra el crecimiento de un depósito de ahorro de $1000 durante cinco años, de acuerdo a las tasas de interés de 7, 8, 10, 12 y 18 por ciento para los años 1, 2, 3, 4 y 5 respectivamente. 109
CURSO BÁSICO DE ESTADÍSTICA DESCRIPTIVA
Año 1 2 3 4 5
Porcentaje de la tasa de interés 7 8 10 12 18
Factor de Ahorros al final crecimiento del año ($) 1.07 1070.00 1.08 1155.60 1.10 1271.16 1.12 1423.69 1.18 1679.95
a. ¿Cuál es el factor de crecimiento promedio? b. ¿A qué tasa de interés corresponde el factor de crecimiento? Discusión. Con este ejemplo, se pasa a contemplar un caso en donde tiene sentido la aplicación de la media geométrica. Suponga que primero se calcula la media aritmética de las tasas de interés, es decir (7 + 8 + 10 +12 +18)/5 = 11. Entonces es el factor medio de crecimiento de los ahorros sería 1,11. Pero si el ahorro creciera de esta forma los cinco años, no se llegaría al mismo resultado final, como se puede ver en la tabla que sigue. Año 1 2 3 4 5
Porcentaje de la tasa de interés 7 8 10 12 18
Factor de Ahorros al final crecimiento del año ($) 1.11 1110,00 1.11 1232,10 1.11 1367,63 1.11 1518,07 1.11 1685,06
Por lo tanto la media aritmética no es un buen indicador de la tasa media de crecimiento de los ahorros. Además, note que el factor de crecimiento promedio correcto debe ser ligeramente menor a 1.11. Si los ahorros crecen a una tasa constante i , para que al final del quinto año tenga el mismo efecto que las tasas del ejemplo, se debe verificar que: 110
MEDIDAS DE LOCALIZACIÓN Y CENTRALIDAD
1.000(1+i)(1+i)(1+i)(1+i)(1+i) = 1.000(1+0,07)(1+0,08)(1+0,1)(1+0,12)(1+0,18)
De donde se tiene que: (1 + i )
= 5
1,07 ⋅ 1, 08 ⋅ 1,10 ⋅ 1,12 ⋅ 1,18
=
1,10932819
De manera que si se hubiera tenido este factor de crecimiento de la tasa de ahorro (nótese que lo que se calculó fue la media geométrica), hubiera conducido a un ahorro final exactamente igual a la que se obtuvo. Es decir, que la tasa media de crecimiento del ahorro ha sido de 10,932819%.
Ejemplo12. Salarios en una compañía de telefonía celular Los salarios mensuales pagados en una compañía de telefonía celular, son los siguientes: $342.000 $390.000 $392.000 $440.000 $442.000 $490.000 $492.000 $540.000 $542.000 $590.000 $592.000 $642.000
30 Obreros 3 Técnicos, 1 Asistente 35 Obreros 1 Técnico, 1 Asistente 2 Interventores, 2 Ingenieros 5 Técnicos, 40 Obreros 20 Obreros 3 Asistente, 2 Interventores, 3 Ingenieros 4 Interventores, 2 Directores 2 Asistentes, 2 Ingenieros 2 Interventores, 10 Obreros 1 Director, 2 Asistentes
a. ¿Cuál es el salario que mejor representa el sueldo de los empleados de la empresa de telefonía celular? b. Organiza los datos en una tabla de datos agrupados, utilizando seis intervalos de clase y determina para estos datos agrupados, la media aritmética, la mediana y la moda.
111
CURSO BÁSICO DE ESTADÍSTICA DESCRIPTIVA
c. ¿Cuáles son los salarios medios que mejor representan los salarios de los empleados si se discriminan por tipo de empleo en la empresa? d. Determina cual es el salario máximo que tiene el 25% del grupo de empleados con salarios más bajos, y el salario mínimo que tiene el 25% del grupo de empleados con salarios más altos. Discusión. En este tipo de problemas sobre salarios de una empresa donde se pide seleccionar una medida de tendencia central que sea más representativa, generalmente conviene utilizar un diagrama de caja para revisar si hay valores atípicos e identificar la ubicación de la mediana y la media aritmética.
En el gráfico se identifica que no hay valores extremos o atípicos; que la media aritmética, que aparece indicada con un signo más, es menor que la mediana con un valor aproximado es de $450.000; y que la mediana, que aparece representada un poco más arriba como la línea negra repisada, prácticamente coincide con el valor del tercer cuartil con un valor aproximado de $490.000. En realidad se puede verificar a partir de la tabla de frecuencias, que se presenta más abajo, que la media aritmética es $456.879 y que la mediana es $490.000, coincidiendo esta última con el valor de la moda. El hecho de que la mediana coincida con la moda hace tentador proponer el valor de $490.000 como el mejor representante del salario 112
MEDIDAS DE LOCALIZACIÓN Y CENTRALIDAD
medio. Sin embargo la media aritmética, cuyo valor es un poco más bajo, está reflejando el hecho de que haya dos salarios más bajos que la moda, uno de $342.000 y otro de $392.000, que tienen las siguientes frecuencias más altas. Entonces, ¿qué medida de tendencia central es más representativa? Quizás, la mejor respuesta es que las tres, ya que cada una de ellas refleja diferentes aspectos de la distribución de los datos. Salario Frecuencia 342.000 30 390.000 4 392.000 35 440.000 2 442.000 4 490.000 45 492.000 20 540.000 8 542.000 6 590.000 4 592.000 12 642.000 3
Frecuencia acumulada 30 34 69 71 75 120 140 148 154 158 170 173
La tabla de frecuencias que se presentó antes resume de manera suficiente la organización de los datos. En este caso, quizás no es procedente agrupar los datos. No obstante, se realizará la agrupación de con el objeto de ilustrar la construcción de la tabla y para comparar la precisión de los resultados de las estimaciones de las medidas de tendencia central con las que se obtuvieron de manera no agrupada. La determinación de los intervalos de clase no tiene mayor dificultad, dado que la diferencia entre el valor máximo y mínimo de los datos, que es 300.000, es divisible por seis. Entonces el intervalo de clase será de longitud 50.000 y la tabla de frecuencias, incluidas las marcas de clase y la frecuencia acumulada, es la siguiente.
113
CURSO BÁSICO DE ESTADÍSTICA DESCRIPTIVA
Intervalos Marca de clase Frecuencia Frec. Acumulada De $342.000 hasta $392.000 367.000 34 34 De $392.000 hasta $442.000 417.000 37 71 De $442.000 hasta $492.000 467.000 49 120 De $492.000 hasta $542.000 517.000 28 148 De $542.000 hasta $592.000 567.000 10 158 De $592.000 hasta $642.000 617.000 15 173
Se puede calcular la media aritmética sin tener en cuenta los miles de pesos y luego multiplicar por mil. La expresión a calcular es: 367
×
34
+
417
×
37
+
467
×
49
+
517
×
28
+
567
× 10 +
617
× 15
173
Al realizar la operación, luego multiplicar por mil y redondear las cifras decimales después de la coma, se obtiene $463.532. Entonces hay una pérdida de precisión al calcular la media de manera agrupada que causa una sobrestimación de un poco más de $6.000. Para calcular la mediana agrupada, primero se identifica el intervalo en se ubica la mediana que corresponde al primer intervalo que supere en su frecuencia acumulada al 50% de los datos, en este ejemplo corresponde al intervalo que va de $442.000 a $492.000. Entonces la mediana se obtiene al calcular la expresión: 173 − 71 2 Me = 442.000 + 50.000 49
El resultado redondeando es $457.816 y la pérdida de precisión al agrupar es de ($490.000 − $457.816) = $32.184, considerablemente mayor que en el caso de la media aritmética. En cuanto al cálculo de la moda agrupada, primero se identifica el intervalo modal, que corresponde al que va de $442.000 a $492.000. Como en este caso los intervalos son de igual longitud, no es necesario determinar densidades de frecuencia y la expresión para la moda se reduce a 114
MEDIDAS DE LOCALIZACIÓN Y CENTRALIDAD n Mo = L
i
−1
+ C
n
i
−1
i
+1
+n
i
+1
Donde Li-1 , es el extremo inferior del intervalo modal, ni la frecuencia absoluta del intervalo modal y C la amplitud del intervalo. Entonces: Mo = 442.000 + 50.000
28 37 + 28
Al calcular la expresión y redondear se obtiene $463.538. Entonces hay una pérdida de precisión de ($490.000-$463.538) = $26.432, que aunque es menor que para el caso de la mediana también es mucho mayor si se compara con el caso de la media aritmética. Obr. 30
Tec.
Asi.
Ing.
Int.
Dir.
$ 342.000 $ 390.000 3 1 $ 392.000 35 $ 440.000 1 1 $ 442.000 2 2 $ 490.000 40 5 $ 492.000 20 $ 540.000 3 3 2 $ 542.000 4 2 $ 590.000 2 2 $ 592.000 10 2 $ 642.000 2 1 Total 135 9 9 7 10 3 Media $439.556 $451.111 $546.000 $526.286 $531.600 $575.333 Mediana $490.000 $490.000 $540.000 $540.000 $542.000 $542.000 Moda $490.000 $490.000 $540.000 $540.000 $542.000 $542.000
La tabla anterior presenta la forma como se distribuyen las frecuencias de los salarios si se discriminan por tipo de empleo. Se observa la misma estabilidad de las estimaciones de las medianas y las modas, en el sentido de que conducen a los mismos valores de acuerdo al tipo de empleo e incluso no evidencian diferencias entre los cargos de obreros y técnicos, entre asistentes e ingenieros, y entre interventores y directores. 115
CURSO BÁSICO DE ESTADÍSTICA DESCRIPTIVA
En cambio, las estimaciones de la media aritmética permiten establecer diferencias en los salarios de acuerdo a los cargos, pero no es consistente con el orden que generan la mediana y la moda respecto a los salarios. Para finalizar con el ejemplo se hará referencia a la determinación del salario máximo que tiene el 25% del grupo de empleados con salarios más bajos, y del salario mínimo que tiene el 25% del grupo de empleados con salarios más altos. Al respecto, lo que se requiere es el cálculo de los cuartiles Q1 y Q3 que se pueden estimar visualmente en el gráfico de caja presentado al comienzo de la discusión. También es relativamente fácil determinar estos valores con base en la tabla de frecuencias de los salarios sin agrupar. El primer cuartil se debe ubicar entre los datos 43 y 44, ya que 173/4 = 43,25, este valor es $392.000. El tercer cuartil, se debe ubicar entre los datos, 129 y 130, ya que 173*3/4 = 129,75, y este valor corresponde a $492.000. No debe sorprender el hecho de que la diferencia entre el valor de la mediana (o la moda) y el del tercer cuartil apenas sea de $2.000, ya que hay una gran cantidad de salarios, como precisamente lo indica la moda, de $490.000.
Ejemplo13. ¿Cuál es la edad ideal para casarse? Se realizó una encuesta para indagar sobre la edad en la que a las mujeres les gustaría casarse. Para ello se les preguntó a 113 mujeres, que fueron a un supermercado de Bogotá a realizar alguna compra durante el mes pasado, cuál era su opinión al respecto. Las respuestas obtenidas se organizaron en un gráfico de puntos que se presenta más adelante. Para facilitar el estudio de los datos obtenidos en la encuesta, primero se pide que se agrupen los datos que se presentan en el gráfico de puntos, en cinco grupos de edades y con base en ésta que se responda a las siguientes preguntas: a. ¿Entre que valores oscila la edad más común para casarse? b. ¿Cuáles son los dos intervalos de edad que en opinión de las mujeres son apropiados para casarse? 116
MEDIDAS DE LOCALIZACIÓN Y CENTRALIDAD
c. ¿Cuál es el intervalo en el que para las mujeres no es muy común casarse?
Discusión. Aunque la edad se supone que es una variable continua, en este ejemplo, la información se presenta de manera discreta, es decir, no hay valores intermedios entre dos edades enteras consecutivas como 23 y 24. En estos casos se sugiere presentar los intervalos de clase con valores extremos que también formen parte del intervalo. Además, como hay un total de 20 valores diferentes, la agrupación es fácil de definir: simplemente debe incluir 20/5 = 4 valores en cada intervalo. La tabla resultante con los valores de las respectivas frecuencias es: Intervalos de edades Frecuencia De 20 a 23 años 8 De 24 a 27 años 25 De 28 a 31 años 42 De 32 a 35 años 22 De 36 a 39 años 16
Por supuesto, esta información también se puede resumir en un gráfico de puntos “agrupado”. 117
CURSO BÁSICO DE ESTADÍSTICA DESCRIPTIVA
Una breve mirada a la tabla, o al gráfico, permite identificar que la edad más común para casarse es de los 28 a los 31 años. También se puede observar que de los 24 a los 27 años y de los 28 a los 31 años es la edad más común en que las mujeres les gustaría casarse, es decir de los 24 a los 31 años. Finalmente, se tiene que la edad menos común para casarse es de los 20 a los 23 años.
Ejemplo 14. Mediciones con un planímetro Un planímetro es un instrumento para medir áreas de superficies planas. Con este instrumento se tomó una muestra de cinco mediciones a las áreas de un lote de baldosas que se utilizarán en una construcción para realizar un control de calidad. La tabla siguiente muestra este conjunto de mediciones. Baldosa Área (cm2) 1 402 2 398 3 405 4 406 5 400
a. Determine el error medio cuadrático. 118
MEDIDAS DE LOCALIZACIÓN Y CENTRALIDAD
b. De acuerdo al resultado anterior, y suponiendo que la muestra tomada es representativa de un lote aceptable de producción, ¿sería “extraño” o poco usual encontrar una baldosa que midiera 412 cm2? Discusión. Antes de abordar el ejemplo propuesto es bueno tener en cuenta algunas observaciones acerca de lo que se debe entender como error de medición y sobre la definición misma del error medio cuadrático, ya que existe una medida de resumen estadístico llamada media cuadrática muy relacionada con el error medio cuadrático. En primer lugar, las consideraciones estadísticas juegan un papel en relación con las mediciones físicas, ya que en general cualquier tipo de medición incluye un error. Por esta razón, es importante tener algunas nociones básicas de cómo se podría trabajar estadísticamente con errores de medición. En realidad ya desde los tiempos de Gauss y Laplace se tiene una propuesta sobre teoría de errores, que se basa de manera esencial en el supuesto de un comportamiento normal de la distribución de los errores de medición. El error de medición , también conocido como error de observación, se debe a la naturaleza de las mediciones físicas, a la persona que efectúa la medición, a los instrumentos que se usan en la medición y al sistema medido, ya que se ven afectados por pequeñas perturbaciones no predecibles. El error de medición se puede reducir de tamaño, con el uso de mejores métodos e instrumentos, pero nunca se puede anular por completo. En algunas ocasiones hay que tener en cuenta cuando se trabaja con errores de medición, que si se usa un instrumento de medición como un voltímetro que esté mal calibrado, cada medición se verá afectada de la misma forma. En estos casos el error correspondiente tiene un componente de error constante o sistemático . Cuando se utiliza la teoría de la probabilidad, este tipo de error no es el que verdaderamente interesa. Lo que realmente importa son los errores estadísticos de mediciones que son provocados por un gran número de pequeñas perturbaciones que afectan las mediciones y cuyo efecto no se puede
119
CURSO BÁSICO DE ESTADÍSTICA DESCRIPTIVA
predecir. Sin embargo, si se puede tener alguna comprensión acerca de su efecto a luz de lo que llamaremos supuesto de normalidad . La idea anterior se puede precisar más de la siguiente manera: supóngase que Emc , es el error cuadrático medio y que x es la media de las mediciones, entonces se espera que alrededor de 2/3 (67%) de los valores de las mediciones se localizará entre x − Emc y x + Emc y que 19/20 (95%) de los valores se localizará entre x − 2Emc y x + 2Emc en una muestra suficientemente grande. En segundo lugar, en cuanto a la definición del error cuadrático medio hay que señalar que la definición dada coincide con la de la desviación estándar S , que se comenta con más detalle en la próxima sección sobre medidas de dispersión. Por ahora sólo se explicitará que ( Emc) 2
=
Así, el término
1
n
∑ ( x i − x ) 2
n i =1
1
n
2
∑ x i
n i =1
=
1
n
2 ∑ x i
n i =1
− 2 x
1 n
n
∑ x i
i =1
+
1
n
n
2 ∑ x
=
i =1
1
n
2
∑ x i
n i =1
− x
2
es el cuadrado de la llamada media cuadrática,
es decir, de la expresión
1 n
n
2
∑ x i
. Entonces se tiene es que el cuadrado
i =1
del error medio cuadrático es el cuadrado de la media cuadrática menos un “factor de corrección” dado por el cuadrado de la media de la muestra. En otras palabras, la media cuadrática es una forma de error medio cuadrático que no contempla el efecto de la media de las mediciones. Hechas las aclaraciones anteriores, se aborda la solución del ejemplo. Primero se obtiene que x = 402, 2 cm2 y con este valor se encuentran los errores respecto a la media como se muestra en la tabla. Baldosa Área (cm2) 1 402 2 398 3 405 4 406 5 400 Suma 2011
| x j - x |
( x j - x )
0,2 4,2 2,8 3,8 2,2 13,2
0,04 17,64 7,84 14,44 4,84 44,80
120
2
MEDIDAS DE LOCALIZACIÓN Y CENTRALIDAD
Luego Emc =
44,80
= 2,99. Entonces, suponiendo que hay normalidad
5
en las mediciones realizadas con este instrumento, se puede esperar que entre (402,2 – 2*2,99) cm2 y (402,2 + 2*2,99) cm2 se encuentre el 95% de las mediciones, es decir entre 396,22 cm2 y 408,18 cm2. Con base en esta información se puede afirmar que una medición que arroje un valor de 412 cm2 es poco probable de encontrar, pues estaría a una distancia de más de 3 veces el valor del error medio cuadrático. EJERCICIOS 1. Demostrar la fórmula de la mediana para datos agrupados de variable continua. 2. Demostrar la fórmula de la moda para datos agrupados de variable continua, suponiendo que los intervalos de clase son de igual longitud. 3. Proponga fórmulas apropiadas para calcular los cuartiles en datos agrupados. 4. La Universidad Nacional tiene organizadas las carreras por edificios, por ejemplo el edificio de medicina se encuentra a 27.5 m de la entrada principal, el de arte a 29.9 m y el de psicología a 28.7m. En la siguiente tabla se registra el tiempo que gastan 4 estudiantes en desplazarse de la entrada a sus respectivos edificios Estudiante Tiempo (minutos) Distancia(edificio) 1 5 27.5 m 2 8 29.9 m 3 8 28.7 m 4 6 26 m
¿Cuál es el tiempo promedio que gastan las estudiantes en llegar a su respectivo edificio? 121
CURSO BÁSICO DE ESTADÍSTICA DESCRIPTIVA
5. Verificar los diferentes cálculos de medias, medias ponderadas y medianas que aparecen reportados en el Ejemplo 3. 6. Explique por qué para obtener la velocidad promedio de un objeto que viaja con dos velocidades diferentes durante tiempos iguales, la media aritmética de las velocidades es apropiada. 7. El sábado pasado, Cristian un empleado de un kiosco de bebidas sirvió en total 50 bebidas durante la mañana de ese día. Vendió 5 bebidas de $250, 15 de $270, otras 15 de $300 y otras 15 de $350. ¿A cómo vendió en promedio cada bebida ese día? 8. En Miss Universo las cinco finalistas candidatas a la corona obtuvieron los siguientes puntajes: Tipo de traje Colombia Venezuela México R. Dominicana Rusia Baño 9,40 9,20 9,00 8,90 8,85 Gala 9,83 9,40 8,90 8,88 9,00 Típico 9,48 9,60 9,20 9,80 8,50
a. Si se escogiera a la reina teniendo en cuenta el mayor puntaje obtenido. ¿Cuál sería la Reina? b. ¿Quiénes serían la Virreina, 1ª Princesa, 2ª Princesa y 3ª Princesa? 9. Considere el siguiente juego con tres dados de seis caras: si la suma de los tres dados es 18 gana $3000, si la suma de los tres dados es 12 gana $2.000, si la suma de los tres dados es 6 gana $1.000, y si la suma es diferente de 6,12 y 18 pierde $500. a. ¿Es conveniente jugar este juego? Justifique su respuesta en términos de una ponderación apropiada a los valores de ganancia y pérdida. b. Construya una simulación en Excel y compare resultados teóricos y de la simulación para 100, 500 y 1.000 juegos.
122
MEDIDAS DE LOCALIZACIÓN Y CENTRALIDAD
10. Un estudiante de Administración de Empresas está cursando el quinto semestre, el promedio de notas de los semestres anteriores ha sido el siguiente: Semestre I II III IV Nota promedio 3,8 3,7 3,9 4,0
Las notas obtenidas en el quinto semestre son las siguientes: Materia Créditos Nota Mercadotecnia 3 3,8 Macroeconomía 5 4,5 Matemática Financiera 4 4,2 Presupuestos 3 4,0 Inglés 2 3,5
a. ¿Cuál es el promedio que obtuvo el estudiante en el quinto semestre? b. ¿Qué promedio lleva el estudiante hasta el momento? c. ¿Qué promedio debe tener en VI semestre para que su promedio general sea 4,0? d. ¿Es posible que el promedio total hasta VI semestre sea mayor 4,5? 11. Los siguientes datos corresponden al crecimiento de un parque Automotor en la ciudad de Bogotá durante 5 años: Años Número de Matriculas Factor de Crecimiento 2001 1200 1,20 2002 1440 1,25 2003 1800 1,30 2004 2340 1,20 2005 2808 1,25
¿Cuál es la tasa promedio de crecimiento del parque automotor en la ciudad?
123
CURSO BÁSICO DE ESTADÍSTICA DESCRIPTIVA
12. Una profesora quiere cambiar la colocación de sus alumnos en clase, con la esperanza de que ello incremente el número de preguntas que hacen. En primer lugar, decide ver cuántas preguntas hacen los estudiantes con la colocación actual. El registro de número de preguntas hechas por sus ocho estudiantes durante la clase se muestra a continuación. Iniciales del alumno A.A. R.F. A.G. J.G. C.K. N.K. J.L. A.W. Nº de preguntas 0 5 2 22 3 2 1 3
La profesora quiere representar o resumir con un número la cantidad de preguntas hechas por estudiante. ¿Cuál de los siguientes procedimientos le recomendarías? Explica porqué. a. Usar el número más común, que es el 2. b. Sumar los 8 números y dividir por 8. c. Descartar el 22, sumar los otros 7 números y dividir por 7. d. Descartar el 0, sumar los otros 7 números y dividir por 7 e. Otro método ¿Cuál? 13. En los últimos cinco años los suscriptores a telefonía celular han aumentado notoriamente de tal manera que el 1º de enero del año 1999 había 12.000 suscriptores y al 31 de diciembre del 2004 había 4.600.000 suscriptores. La siguiente tabla muestra los detalles: Año 1999 2000 2001 2002 2003 2004
Crecimiento de población de suscriptores Suscriptores al Tasa de Suscriptores al Factor de inicio del año Crecimiento final del año Crecimiento 12.000 36.000 36.000 120.000 120.000 400.000 400.000 900.000 900.000 2.000.000 2.000.000 4.600.000
¿Cuál es la tasa promedio de crecimiento anual y cuál es el factor promedio de crecimiento? 124
MEDIDAS DE LOCALIZACIÓN Y CENTRALIDAD
14. Se sabe que dos obreros A y B gastan, respectivamente, 50 y 40 minutos en remontar un par de zapatos. ¿Cuál es el tiempo promedio requerido para montar un par de zapatos? 15. Un avión recorre 3000 km. Los 1000 primeros a 700 km/h, los 1000 siguientes a 800 km/h, y los 1000 restantes a 900 km/h. ¿Cuál ha sido la velocidad media? 16. En el circuito de Indianápolis 5 competidores presentaron las siguientes estadísticas en las 5 primeras y 5 últimas vueltas: Vuelta Nº Montoya Schumacher Barichelo Raikonem Alonso
Cinco primeras Vueltas Velocidad 288 km/h 300 km/h 320 km/h 290 km/h 322 km/h
Cinco últimas vueltas Velocidad 312 km/h 310 km/h 290 km/h 280 km/h 300 km/h
a. ¿Qué competidor tuvo el mejor promedio de velocidad teniendo en cuenta el principio (5 primeras vueltas) y final (5 últimas vueltas) de la carrera? b. ¿Cuál fue el promedio de las cinco primeras vueltas? c. ¿Cuál fue el promedio de las cinco últimas vueltas? 17. Una población que tenía 10.000 habitantes en el año cero (2000), creció el primer año a una tasa del 5%, el segundo año creció a una tasa del 20% y el tercer año al 50%. ¿A qué tasa promedio ha crecido la población en esos tres años? 18. Los datos que se presentan en la tabla corresponden al ingreso percápita, de países de América del sur. El ingreso percápita es un indicador económico que hace referencia a todas las entradas económicas que recibe un país (en este caso en millones de dólares) dividido por el total de su población. Este indicador se considera como el ingreso medio percápita de los habitantes de cada país. 125
CURSO BÁSICO DE ESTADÍSTICA DESCRIPTIVA
País Argentina Bolivia Brasil Chile Colombia Ecuador Paraguay Perú Uruguay Venezuela Guayana Surinam
1995 9.728 2.205 6.460 8.507 5.861 3.003 4.312 4.180 8.541 5.706 7.504 2.304
1998 8.030 1.010 4.630 4.990 2.470 1.520 1.760 2.440 6.070 3.530 7.200 5.432
a. ¿Cuál es el promedio del ingreso percápita en millones de dólares de América del sur en el año de 1995? b. ¿Cuál es el promedio del ingreso percápita en millones de dólares de América del sur en el año de 1998? c. ¿En qué año América del sur tuvo mayor ingreso percápita? d. ¿Cuál es el promedio de ingreso percápita en millones de dólares en los dos años? 19. La cajera de una tienda va anotando los precios y las cantidades de los productos que ha adquirido un cliente. En el ticket de compra aparece esta relación: Producto Azúcar Aceite girasol Leche semi descremada Zumo Latas de refrescos Botella de vino
N° unidades
Precio por unidad
4 10 10 6 12 2
156 115 64 75 50 139
¿Cuál será el precio superado por la mitad del precio de los productos?
126
MEDIDAS DE LOCALIZACIÓN Y CENTRALIDAD
20. Las tiendas High Fidelity etiquetan su mercancía 35% arriba del costo de su última adición al inventario. Hasta hace 4 meses, la grabadora de marca Mp3-Dynamic 400S costaba $300.000. Durante los últimos 4 meses High Fidelity recibió 4 embarques mensuales de esta grabadora con los siguientes costos unitarios: $275.000, $250.000, $240.000 y $225.000. ¿A qué tasa promedio mensual ha disminuido el precio de venta de High Fidelity en estos 4 meses? 21. Los datos contenidos en la siguiente tabla muestran el desempeño de 28 equipos de la Liga Nacional de fútbol Americano en 1976. Equipos
Juegos ganados
Equipos
Juegos ganados
Washington Minnesota New England Oakland Pittsburgh Baltimore Los Ángeles Dallas Atlanta Buffalo Chicago Cincinnati Cleveland
10 11 11 13 10 11 10 11 4 1 7 10 9
Denver Detroit Green Bay Houston Kansas City Miami New Orleans New York Giants New York Jets Philadephia San Francisco Tampa Bay
30 6 5 5 5 6 4 6 6 17 8 0
¿Cuál es el número que usted escogería para representar el desempeño de los equipos de fútbol? ¿Por qué? 22. En un zoocriadero destinado a la cría de chigüiros para exportación se ha descuidado la alimentación de los animales y se ha presentado un desarrollo inesperado en estos. Se han clasificado los animales en 10 grupos, teniendo en cuenta sus pesos en kilogramos. La siguiente tabla muestra la cantidad de animales en cada categoría de pesos:
127
CURSO BÁSICO DE ESTADÍSTICA DESCRIPTIVA
Intervalos de pesos Número de animales 35.00 - 40.00 20 40.10 - 45.00 25 45.10 - 50.00 30 50.10 - 55.00 10 55.10 - 60.00 15 60.10 - 65.00 20 65.10 - 70.00 25 70.10 - 75.00 35 75.10 - 80.00 10 80.10 - 85.00 10
Calcule la media para estos datos agrupados y estime el valor de la mediana para estos datos agrupados. 23. Las siguientes fueron la causas de mortalidad de 100.000 jóvenes de Medellín, Bogotá, Cali y Barranquilla de 1989 a 1999: 10.000 4.500 13.500 7.500 7.890 5.400 3.500 4.300 5.900 19.900 110 10.000 2.500 5.000
mueren por tener cáncer y se suicidaron mueren por tener enfermedades transmisibles y se suicidaron mueren por suicidio mueren por enfermedades transmisibles mueren en accidentes de tránsito mueren en accidentes de tránsito por causa de paro cardiaco mueren por homicidios por tener enfermedades transmisibles mueren por tumores malignos mueren a causa de asma mueren por homicidio mueren por bronquitis mueren accidentes de tránsito mueren por enfermedad cerebro-vasculares de tumor maligno mueren debido a enfermedad del sistema urinario
Identifique cuál es la causa más frecuente de mortalidad de los jóvenes de estas ciudades en las categorías relativas a: homicidios, accidente de transporte terrestre, enfermedad transmisible, tumores malignos (cáncer, leucemia, tejido linfático, etc.), enfermedad del aparato respiratorio, enfermedad cerebro vascular, agresiones auto infligidas (suicidios) y enfermedad del sistema urinario. 128
MEDIDAS DE LOCALIZACIÓN Y CENTRALIDAD
24. En el Colegio Cooperativo la maestra pidió a sus alumnos que con ayuda de sus padres midieran el largo de la terraza. Los miembros de la familia de David miden la longitud de la terraza en metros y encuentran los resultados que aparecen a continuación: 15.25, 12.32, 16.15, 15.25 y 11.28. ¿Cuál es el error medio cuadrático de estas mediciones? 25. En el almacén Tornillo Loco llegó un pedido de 25 tornillos de 3 centímetros de largo. Cuando el dueño del almacén revisó su mercancía encontró 5 tornillos con las siguientes medidas: Tornillo Medida (mm) 1 5 2 4 3 6 4 8 5 6
¿Cuál es el error medio cometido, prescindiendo de si este ha sido por exceso o por defecto? 26. Demuestre que cuando se trabaja con datos agrupados, los cuantiles se pueden calcular aplicando la fórmula i ⋅ N C ( s ) i
= L
i
−1
+
s
−
f
F i
−
1
⋅a
i
para i = 1, 2, …, s-1
i
Donde i representa el i-ésimo cuantil, Li-1 , f i y ai designa el límite inferior, la frecuencia absoluta y la amplitud del intervalo, respectivamente, de la clase a la que pertenece el cuantil y Fi-1 la frecuencia acumulada absoluta de la clase anterior a ella.
129