Capítulo
MEDIDAS DE TENDENCIA CENTRAL
9 7
Una medida de tendencia central, es un resumen estadístico que muestra el centro de una distribución; es decir, por lo general, busca el centro de esa distribución. Existen diferentes tipos de resúmenes estadísticos muestrales, llamados estadísticos o estadísticas que establecen esta tendencia, tales como: media aritmética, mediana, moda o modo, media armónica, media geométrica, etc. en este curso revisaremos las tres primeras ya que son las más frecuentemente utilizadas. Antes de iniciarte en el estudio de cada una de ellas, es importante aclarar previamente, que la estimación de estos estadísticos puede hacerse para series simples y para datos agrupados, por lo que para cada uno encontrarás dos fórmulas para su cálculo, situación que deberás tener presente para que no te confundas. MEDIA ARITMÉTICA Es la expresión más utilizada para quienes hablan de un grupo de cosas o fenómenos. Así frecuentemente escuchamos decir acerca del promedio de peso en un conjunto de animales, el promedio de edad en un grupo de personas, el tiempo promedio utilizado para realizar un procedimiento clínico, el promedio de bacterias presentes en un centímetro cúbico, etc. Para estimar el valor promedio de un conjunto de datos, la primera consideración que deberás hacer es: ¿Se tiene una variable cuantitativa? De no ser así, no se debe calcular la media aritmética. La segunda pregunta ¿Se trata de una serie de datos simples? o ¿Son datos que están agrupados? Bien, una serie simple es un conjunto de datos, de donde, algunos de ellos pueden tener el mismo valor; por ejemplo, revisemos la siguiente serie que contiene los datos del número de hijos reportados por 23 parejas: 1, 3, 5, 5, 4, 4, 3, 1, 3, 2, 5, 2, 2, 1, 6, 3, 2, 5, 4, 3, 0, 1, 4 Como puedes observar, están incluidos números que se repiten y sólo interesa que se encuentren conformando la serie.
118 Capítulo 9 Medidas de Tendencia Central
Los datos agrupados como su nombre lo indica, están organizados en clases preestablecidas y su tabulación se establece en términos de frecuencias por clase. Agrupemos los datos anteriores en cuatro clases: clase 01 23 45 67
frecuencia 5 9 8 1
Pero, ¿Cuándo agrupar los datos? o ¿Cuándo manejar series simples?, estará en función básicamente del volumen de datos que se procesarán si son pocos datos, será más fácil y rápido manejarlos como series simples, pero si son muchos será menos complicado si los agrupamos. Veamos ahora cómo calcular la media aritmética para series simples: consideramos que se estudia un grupo de 36 escolares de 11 a 13 años de edad, en los cuales se desea medir el número promedio de dientes permanentes con experiencia de caries. Los datos que se obtienen son los siguientes:
niño 01 02 03 04 05 06 07 08 09 10 11 12 13 14 15 16 17 18
CPO-D 6 3 4 0 2 3 4 1 1 6 0 4 5 6 3 4 2 4
niño 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36
CPO-D 9 6 4 5 1 0 5 3 4 5 7 1 3 4 1 0 3 7
El primer paso consiste en calcular la media aritmética, para este fin se utiliza la siguiente fórmula:
Fundamentos de Estadística para Odontología
119 n
X
X i 1
i
n
De donde: Media aritmética
X n
X i 1
i
Sumatoria de todos los datos
n Total de datos, número de observaciones realizadas o tamaño de muestra Sustituyendo en la fórmula se tiene: n
X
X i 1
n
i
6 3 4 0 7 126 3.5 36 36
Por lo tanto, este dato se interpretará de la siguiente forma: existen aproximadamente en promedio cuatro dientes con evidencia de caries en los escolares que conforman la muestra del estudio. ¿Por qué se aproxima 3.5 a 4?, es muy sencillo, recordarás que cuando estudiaste variables se mencionaba que algunas son discontinuas, esto es, no se pueden fraccionar. No podrías interpretar este dato como: existen en promedio 3.5 dientes con alguna experiencia de caries, no se pueden presentar medios órganos dentarios, por esa razón se aproximó a 4. Ahora veamos el cálculo de la media aritmética para datos agrupados, y para ello aprovecharemos el cuadro anterior y estableceremos cinco clases de la siguiente manera: clase 01 23 45 6 7 89
frecuencia 9 8 12 6 1
Una vez que tienes las frecuencias por clase, para calcular la media aritmética se aplica la siguiente fórmula: n
X
donde: X fi
Media aritmética Frecuencia de clase
fm i 1
i
n
i
120 Capítulo 9 Medidas de Tendencia Central Punto medio o centro de clase o marca de clase Total de datos, número de observaciones realizadas o tamaño de muestra
mi n
Para calcular la media aritmética te recomiendo que construyas un cuadro como el siguiente: clase
frecuencia (fi)
01 23 45 67 89 Total
9 8 12 6 1 36
punto medio de la clase (mi) 0.5 2.5 4.5 6.5 8.5
( fi ) ( m i ) 4.5 20.0 54.0 39.0 8.5 126.0
Ahora bien, si observas, con la última columna se obtiene la sumatoria de la frecuencia de clase por el punto medio, dato necesario en el numerador de la fórmula anterior, por lo que ya puedes hacer las sustituciones: X
126 3.5 4 36
La interpretación de la media aritmética calculada, es igual a la que se describió para la media aritmética calculada para series simples. Finalmente enunciaremos las desventajas y las ventajas de la media aritmética: VENTAJAS 1. 2.
Es el tipo de valor que más frecuentemente se usa y el que más fácilmente se comprende. El mecanismo de su cálculo es relativamente sencillo, requiriéndose solamente los valores totales y el número de elementos.
DESVENTAJAS 1.
2.
La media tiene la desventaja de que su valor puede ser distorsionado por valores extremos muy grandes o muy pequeños y por lo tanto no aparecer como un valor típico (aproximado a la realidad). Por ello es menos estable que la mediana. Cuando se observe asimetría o distribución sesgada, no es un valor confiable.
Fundamentos de Estadística para Odontología
121
En una distribución cada valor juega una parte muy importante en la determinación de la media aritmética y un cambio en cualquiera de ellos, implica un cambio en la media aritmética. Finalmente debemos mencionar que la media aritmética es un estadístico de elección primaria, sin embargo, cuando al observar los valores que se tienen hay alguno muy diferente a otros, debe preferirse la mediana. MEDIANA La mediana de un conjunto de datos es el valor del punto medio de la distribución ordenada, la cual deja por debajo y por encima de la distribución el mismo número de términos. Es decir, es el valor central que deja el 50% de los valores igual o debajo de él y la otra mitad o sea el 50% igual o por encima del él. Como ya se mencionó en el capítulo anterior, la mediana es también llamada percentil 50. Cuando buscamos la mediana nos interesa buscar este punto medio y por lo tanto si el número de observaciones hechas es impar, el valor obtenido por la mediana es exactamente el observado en el centro de la distribución, pero si el número de observaciones es par, en este caso el valor intermedio corresponde a los dos valores de la parte media. Para encontrar la posición de la mediana, se puede averiguar el número de datos, se le suma uno y se divide entre dos.
Posición de la mediana
n 1 2
Bien, desarrollemos un ejemplo, ¿te parece?. Consideremos que se quiere medir cual es la tendencia de 21 obreros en la frecuencia, en meses que dejan transcurrir, para acudir a examen odontológico, los datos obtenidos son: 3, 2, 7, 4, 9, 15, 15, 14, 13, 12, 4, 5, 7, 9, 7, 11, 8, 9, 6, 5, 10 Para calcular la mediana en series simples, el primer paso consiste en ordenar los datos de menor a mayor, dada la serie de datos del ejemplo que estamos desarrollando, quedaría de la siguiente forma: 2, 3, 4, 4, 5, 5, 6, 7, 7, 7, 8, 9, 9, 9, 10, 11, 12, 13, 14, 15, 15 Sustituyendo en la fórmula anterior se encuentra la posición de la mediana en esta serie.
Posición de la mediana
21 1 11 2
122 Capítulo 9 Medidas de Tendencia Central Esta cifra lo que nos representa es que el dato 11 (décimo primer dato) es la posición de la mediana, por lo tanto, observando la serie de datos de la serie ya ordenada, puedes ver que el valor del dato número 11 representado por el 8, este es el valor de la mediana y se interpreta de la siguiente manera: 50% de los obreros en estudio acuden a consulta odontológica con una frecuencia de cada ocho meses. Parece que no existe problema para el cálculo de la mediana es muy sencillo, sin embargo, cuando la serie es par, el cálculo del valor del dato central difiere un poco. Para mayor comprensión desarrollaremos el mismo ejemplo, considerando solamente 20 datos, esto es, eliminaremos el último dato de la serie anterior, la cual quedará de la siguiente manera: 2, 3, 4, 4, 5, 5, 6, 7, 7, 7, 8, 9, 9, 9, 10, 11, 12, 13, 14, 15 Ahora se calcula cuál es el dato central aplicando la misma fórmula:
Posición de la mediana
n 1 20 1 10.5 2 2
En este caso el valor que se encuentra en esta posición es el valor intermedio entre los datos 10 y 11, lo que se hace en este caso es buscar el valor del dato 10 y el valor del dato 11, se suman y el resultado se divide entre 2. Para nuestro ejemplo tenemos que el valor de los datos 10 y 11 son 7 y 8, cuya suma es igual a 15 que dividida entre dos es igual a 7.5 y este es el valor de la mediana. Su interpretación será: 50% de los obreros en estudio acuden a consulta odontológica con una frecuencia de cada siete meses y medio. Cuando se desea buscar la mediana en datos agrupados deberás tener en cuenta que la posición esta dada por n / 2 y no por (n + 1) / 2. Ahora veamos cómo puedes calcular la mediana para datos agrupados a través del siguiente ejemplo: se quiere conocer cuál es el comportamiento central en una distribución normal del índice CPO que mide la experiencia de caries en dientes permanentes, en un grupo de 176 escolares de 7 a 12 años de edad, encontrándose la siguiente información.
Fundamentos de Estadística para Odontología
123
clase
fronteras
frecuencia
Frecuencia acumulada
02 35 6– 8* 9 11 12 14 15 17 TOTAL
0.5 2.5 2.5 5.5 5.5 8.5 8.5 11.5 11.5 14.5 14.5 17.5
25 36 49 28 21 17 176
25 61 110
138 159
* Clase que contiene a la mediana
176
n Fa 2 Md Li (i) f De donde: Md n Li Fa f i
mediana. es el tamaño de la muestra o número de observaciones realizadas. es la frontera inferior de la clase que contiene a la mediana. es la frecuencia acumulada de la clase anterior a la que contiene la mediana. es la frecuencia absoluta de la clase que contiene a la mediana. es la amplitud de clase.
Ahora desarrollaremos paso a paso para buscar los valores y sustituir en la fórmula. Primero, ¿cómo se determina cuál es la clase que contiene a la mediana?. Se considera el número total de datos, que para el ejemplo que estamos desarrollando es de 176 datos. Para establecer en cuál intervalo está la mediana, 176 se divide entre 2 lo que da como resultado 88, este dato se encuentra en el tercer intervalo ya que la frecuencia acumulada de esta clase es 110, que incluye el 88. Ahora ya puedes determinar el valor de Li, éste representa la frontera inferior del intervalo de la clase que contiene a la mediana. En el ejemplo la frontera inferior del intervalo que contiene a la mediana es 5.5 y la frontera superior es 8.5, por lo tanto, el valor que estamos buscando para sustituir en la fórmula es 5.5. (Li = 5.5). El tamaño de la muestra n, es el número total de datos que en este caso se obtendrá de sumar las frecuencias, esto es 176 datos. El siguiente dato que debes calcular es la frecuencia acumulada del intervalo anterior al que contiene la mediana que es 61.
124 Capítulo 9 Medidas de Tendencia Central La frecuencia del intervalo que contiene la mediana se obtiene de manera directa, observando cuál es la frecuencia que indica el intervalo, en este caso 49 (f = 49). Por último, se establece el tamaño del intervalo que contiene a la mediana, considerando que es de 6 - 8, el tamaño es de 3, porque en este intervalo quedan incluidos los valores de 6,7 y 8 (i = 3), el cual también se puede obtener restando la frontera superior menos la frontera inferior. Ahora ya podrás sustituir estos valores en la fórmula:
176 61 2 Md 5.5 (3) 5.5 1.65 7.15 49 Por lo tanto, el valor de la mediana es de 7.15 y se interpreta de la siguiente manera: en el grupo de escolares de 7 a 12 años en estudio, 50% tienen una tendencia a presentar aproximadamente 7 órganos dentarios permanentes con alguna experiencia de caries. La mediana es un estadístico que no se utiliza tan frecuentemente como la media aritmética, ya que para calcularla requiere del ordenamiento de una serie de datos. A diferencia de la media aritmética, la mediana no puede ser tratada algebraicamente; sin embargo, en progresiones aritméticas, geométricas y armónicas, la media aritmética y la mediana son similares. Finalmente, la suma de las desviaciones estándar con respecto a la mediana es la menor si se prescinde del signo y en series poco simétricas es el estadístico de selección ya que su valor es ideal. VENTAJAS 1. No se ve afectada por valores extremos 2. Se usa en series abiertas y aquellas en las cuales uno de los valores se aleja demasiado del promedio. DESVENTAJAS 1. En datos agrupados, su cálculo es un poco menos sencillo que para la media aritmética. 2. Su cálculo exige ordenar la serie de datos y por lo tanto es más laborioso. 3. El error estándar es mayor que en la media aritmética.
Fundamentos de Estadística para Odontología
125
MODA O MODO La moda es el valor que ocurre con mayor frecuencia, esto es, si se dice que la moda del número de hijos por familia es de 4, esto representa que existe una mayor cantidad de familias con cuatro hijos que con cualquier otro tamaño. La moda es mucho más fácil de obtener cuando se trata de datos discretos que de datos continuos. Así mismo, puede ocurrir que en una serie determinada, existan dos o más modas (distribuciones bimodales, trimodales, etc.), o bien que no exista moda. La moda o modo a pesar de que no es confiable para análisis estadístico es utilizado sobre todo en los casos que se quiere determinar cierta tendencia de datos cualitativos, por ejemplo: estado de higiene bucal, calidad de cepillado dental, tipo y magnitud de la inflamación gingival, etc. El procedimiento de estimación de este valor es sumamente sencillo, bastará que observes cuál es el dato que se repite el mayor número de veces, para establecer que ésa es la moda o modo. Por ejemplo: se estudia el estado de higiene bucal en 19 mujeres gestantes y los datos se obtienen son los siguientes: gestante
higiene bucal
gestante
higiene bucal
01
buena
11
buena
02
buena
12
regular
03
deficiente
13
buena
04
regular
14
buena
05
deficiente
15
regular
06
buena
16
deficiente
07
buena
17
deficiente
08
regular
18
deficiente
09
buena
19
buena
10
regular
Con esta información establezcamos la moda. Como se mencionó anteriormente, bastará con observar cuál es el dato que se repite un mayor número de veces. En nuestro ejemplo, la condición de buena higiene bucal se repite nueve veces, la higiene regular cinco veces y la deficiente cinco veces, por lo tanto, la moda de las condiciones de higiene bucal que predomina en este grupo de mujeres gestantes es buena. Muy sencillo, ¿verdad?. En series agrupadas, el cálculo de la moda en distribuciones de frecuencia se dificulta un poco, ya que si varias personas efectúan la distribución de
126 Capítulo 9 Medidas de Tendencia Central frecuencia de cada una de ellas, puede hacer una distribución de frecuencia diferente y por lo tanto el valor modal varía. Es por esta razón que te sugiero que cuando desees encontrar el valor modal de una frecuencia, utilices la siguiente fórmula:
M o Li
1 (i) 1 2
De donde: Mo Li
1 2 i
moda es la frontera inferior de la clase modal o clase con la frecuencia más alta frecuencia más alta menos la frecuencia anterior frecuencia más alta menos la frecuencia posterior es la amplitud de clase.
Muy bien, desarrollemos un ejemplo para que aprendas a calcularla: Se lleva a cabo un estudio comunitario, en el cual se aplica una encuesta para conocer el nivel de ingresos de la población, y así ajustar el costo de la consulta estomatológica a la realidad económica de la comunidad. Los resultados de dicha encuesta se presentan en el siguiente cuadro: Cuadro 9.1 Distribución de ingresos mensuales por familia barrio San. Pablo, Xochimilco, 1999. clase * 000 199 200 399 400 599 600 799 800 999 * En pesos
fronteras -0.5 199.5 199.5 399.5 399.5 599.5 599.5 799.5 799.5 999.5
frecuencia ** 34 65 68 25 32
** Número de Familias
Primero debemos determinar a la clase modal. Esto es, a la clase que tenga la frecuencia más alta, para este ejemplo es el intervalo de 400-599, ya que su frecuencia es de 68. Ahora se deben estimar los valores de: Li
1 2
es la frontera inferior de la clase modal o clase con la frecuencia más alta, para este ejemplo es 399.5 frecuencia más alta menos la frecuencia anterior, esto es, 68 menos 65 igual a 3. frecuencia más alta menos la frecuencia posterior, esto es, 68 menos 25 igual a 43.
Fundamentos de Estadística para Odontología
i
127
es la amplitud de clase, que para este ejemplo es 200.
Ahora sustituyamos en la fórmula descrita anteriormente:
Mo 399.5
3 (200) 399.5 13.04 412.54 3 43
Por lo tanto, la moda en cuanto a ingreso mensual familiar para esta comunidad es de 412.54 pesos. VENTAJAS 1. Es el más descriptivo de la serie. 2. Es independiente de los valores extremos. 3. Cuando el número de datos es pequeño, es fácil de obtener sin cálculos. DESVENTAJAS 1. Su valor es sólo aproximado y poco confiable. 2. Puede no existir en una serie. 3. Se pueden tener algunas dificultades para su cálculo en datos agrupados. Cuadro Resumen Media Aritmética para series simples
n
X Media aritmética para datos agrupados
Moda para datos agrupados
i 1
i
n n
X
Mediana para datos agrupados
X
fm i 1
i
i
n
n Fa 2 Md Li (i) f
M o Li
1 (i) 1 2