tema
60
MATEMÁTICAS Parámetros estadísticos. Cálculo, significado y propiedades. p ropiedades.
3 1 2 5 8 3 1 4 2
tema 60
matemáticas
1.
PARÁMETROS ESTADÍSTIC ESTADÍSTICO OS
1.1.
CONCEPTOS GENERALES
1.2.
PARÁMETROS ESTADÍSTICO S
2. 2.1.
CÁLCULO,, SIGNIFICADO Y PROPIEDADES CÁLCULO MEDIDAS DE CENTRALIZACIÓ N 2.1.1. Media aritmética de una variabl e 2.1.2. Media geométrica 2.1.3. Media armónica 2.1.4. Relación entre las distintas medias 2.1.5. Mediana 2.1.6. Moda 2.1.7. Percentiles 2.1.8. Relación entre media, mediana y mod a
2.2.
MEDIDAS DE DISPERSIÓ N 2.2.1. Recorrido 2.2.2. Desviaciones 2.2.3. Varianza y desviación típica
2.3.
MOMENTOS
2.4.
MEDIDAS DE ASIMETRÍA Y CURTOSI S
3
tema 60
matemáticas
INTRODUCCIÓN
Vamos a recordar, en primer lugar, unas deniciones básicas e imprescindibles para el de sarrollo posterior del tema. Se llama Estadística a la ciencia que tiene por objeto el tratamiento y análisis de la infor infor mación obtenida en una serie de observaciones. Los objetivos de la Estadística son:
a) Indicar los métodos de recogida y agrupamiento de datos. b) El análisis de dichos datos, para obtener conclusiones o leyes aplicables en la práctica. El campo de aplicación de la Estadística se ha ido ensanchando con el tiempo, y actualmen te está presente en todas las ramas de la ciencia y de la técnica.
5
tema 60 matemáticas
1
PARÁMETROS ESTADÍSTICOS En un estudio estadístico, además de los grácos y tablas que permiten visualizar y resumir los datos observados, es preciso utilizar valores numéricos o medidas que describan de forma objetiva los datos recogidos. Estas medidas son los pará metros estadísticos. Vamos a recordar, en primer lugar, unas deniciones básicas e imprescindibles para el desarrollo posterior del tema.
1.1.
CONCEPTOS GENERALES
Población Llamaremos
población a todo conjunto homogéneo de objetos de cualquier
naturaleza natural eza que que tienen una unas s caracterí característi sticas cas comunes. L a poblaci ación ón debe debe estar definida defini da con precisi precisión ón para queda dado do un objeto objeto no haya dudas sobre si pertenece o no a ella. No siempre es posible analizar cada elemento de una población (por razones económicas, de falta de tiempo, personal disponible…) por lo que, en estos casos, casos, se estudi estudia una una parte de la pobl poblaci ación. ón.
Muestra Recibe el nombre de muestra todo subconjunto de una población. Ejemplos de población pueden ser los habitantes de Madrid censados en 2007 o las piezas fabricadas por una máquina en un mes. Una muestra de la primera población la forman los habitantes de Madrid menores de 30 años, y una muestra de la segunda, los tornillos fabricados en una semana por l a máquina citada. La ope ración de tomar una muestra se llama muestreo.
Carácter Llamamos carácter a carácter a una cualidad de los elementos de una población que sea observable, que posea varias modalidades (o valores) y tal que cada elemento de la población presente una y sólo una modalidad. El sexo es un carácter que presenta dos modalidades: varón y hembra. La esta tura es un carácter cuyas modalidades son las distintas tallas. Los caracteres de los elementos de la población se dividen en cualitativos o atributos y cuantitativos o variables.
− Un carácter se llama cualitativo o atributo cuando sus distintas modalidades no son medibles numéricamente (por ejemplo: el sexo, estado civil, ...).
− Se llama cuantitativo o variable si sus distintas modalidades son medibles numéricamente (por ejemplo, la talla, el peso, ...)
6
tema 60
matemáticas
Datos u observaciones Los resultados que se obtienen tras la observación de atributos y variables se denominan datos u observaciones. En el caso de las variables se les suele llamar valores.
Distinguimos dos tipos de variables:
Variable discreta Una variable estadística se dice discreta cuando sus posibles valores son nitos o numerables. Son variables estadísticas discretas: el número de hijos de una
familia, el número de tornillos fabricados por una máquina en una hora, ...
Variable continua Una variable estadística se dice continua si sus valores posibles son s on un número innito, o bien, si entre dos valores de la variable, ésta puede tomar todos los intermedios. son v ariables estadísticas continuas: la talla, la edad de una perso-
na, la medida del diámetro de una pieza, etc. Por extensión de la noción de variable estadística continua, una magnitud que pueda tomar un gran número de valores, aunque sean aislados, se considera como continua. Por ejemplo, el salario mensual de una persona. Los valores que toma una variable estadística se presentan en tablas estadísticas para facilitar su manejo y mediante grácos para visualizar mejor el conjunto de la muestra.
1.2.
PARÁMETR ARÁMETROS OS ESTADÍSTICOS Las tablas estadísticas y la representación gráca nos dan una idea cualitativa de conjunto de una distribución de frecuencias que no es suciente, por ejemplo, para comparar dos distribuciones. Con el n de obtener un resumen cuantitativo se sustituye el conjunto de valores parám ámetr tros os estadí stadísti sticos cos o medidas descriptivas de los por números llamados par
datos, que son unos números que nos permitirán, con objetividad y precisión, tener una visión más completa del fenómeno estudiado, comparar distintas distribuciones de frecuencias y valorar con números sus distintas características. Los parámetros estadísticos se clasican en diversos tipos:
Medidas de posición o centralización.
Medidas de dispersión.
Medidas de asimetría y curtosis.
7
tema 60 matemáticas
2
2.1.
CÁLCULO, SIGNIFICADO Y PROPIEDADES
MEDIDAS DE CENTRALIZACIÓN Las medidas de posición o centralización son valores que están medidos en las mismas unidades que las observaciones y que nos indican en torno a qué posición se distribuyen las observaciones de que disponemos, es decir, cómo se agrupan los datos observados. En la medida en que dichos valores nos orienten sobre la posición de una parte cualquiera previamente determinada de la distribución o sobre el lugar central de la misma, se clasican en medidas de posición no central (cuartiles, deciles y percentiles) y medidas de posición central (medias, mediana y moda). Es obvio que todas ellas han de vericar que su valor esté comprendido entre el menor y el mayor valor de los datos disponibles.
2.1.1. X
Media aritmética de una variable Media aritmética de una variable discreta Parece bastante natural pensar como modelo de la posición central de una distri bución, en aquel valor que actuase como su centro de gravedad en el sentido de compensar las desviaciones con respecto de él de los valores de la variable, en un sentido o en otro.
− Datos simples: se llama media aritmética de una serie de valores xi, x2, ..., xn de una variable estadística X , a la suma de ellos dividida por el número total de valores. Se designa por x y viene dada por:
x =
x1 + + x n N
=
N
∑ x
1 N
i
i =1
correspon − Datos agrupados : si los valores x1, ..., xk están afectados por sus correspondientes frecuencias f 1, ..., f k , la media aritmética se dene:
x = x1 ⋅ f1 + + xk ⋅ f k
=
k
i
i =1
k
∑ x f = ∑ x n i
1 N
i i
i =1
donde xi serán valores de la variable.
Propiedades de la media La suma de las desviaciones de cada valor respecto de la media, ponderadas por su correspondiente frecuencia absoluta, es igual a cero.
Demostración: Sean xi, x2, ..., xk los valores de la variable y n1, n2, ..., nk sus frecuencias absoabsolutas.
8
tema 60
matemáticas
En efecto, llamando desviaciones a los valores xi – x queda:
k
ya que
k
k
∑ ( x − x)n = ∑ x n − ∑ xn = x − x = 0
1 N
i
1 N
i
i =1
i i
i =1
1 N
i
i =1
∑n = i
N
Cálculo abreviado de la media
− Cambio de origen: cuando los datos son muy numerosos o contienen deci males, se puede abreviar el cálculo utili zando un promedio aproximado, que llamaremos origen de trabajo y que puede ser cualquier valor del centro de la muestra. Si llamamos a este valor x0, y a los datos xi les restamos x0, obtendremos una nueva variable « y», que tomará los valores siguientes:
y1 = x1 – x0 y2 = x2 – x0 . . .
como x =
y =
∑ x n
1 ⋅ N
1 ⋅ N
yk = xk – x0
k
i i
haciendo el cambio yi = xi – x0, se obtiene:
=
1 ⋅ N
i =1
k
∑
yi ni
i =1
=
1 N
k
∑
1 xi ni N i =1 k
( xi
− x0) ⋅ ni =
i =1
k
∑
k
−
∑
x0ni =
i =1
k
∑ x n − ∑ x n = x − x 1 N
i i
i =1
0 i
0
i =1
y despejando: x = y + x0 que permite calcular x a partir de y y de x0.
− Cambio de escala o unidad : a veces, es conveniente multiplicar todos los valores xi por una misma cantidad 1/c, obteniendo otros valores que llama remos ui, tal que:
1 u1 = x1 c
1 u2 = x2 uk c
= 1 x k c
Se dice entonces que hemos cambiado cambiado de unidad. La media de esta nueva variable es:
u=
1 ⋅ N
k
∑ i =1
1 xi ni c
=
1 1 ⋅ ⋅ c N
k
∑ x n = c x i i
i =1
de donde x = c u
9
tema 60 matemáticas
− Cambio de origen y de unidad : si hacemos primero el cambio de origen yi = xi – x0 y luego el cambio de unidad
ui
= 1 yi , queda ui = 1 y i = c
c
xi − x 0 c
Ahora bien,
u=
=
1 ⋅ N
X
k
xi − x 0 ni 0 i =1
∑ xn = ∑
1 1 ⋅ c N
O sea, u =
k
1 ⋅ N
i i
i =1
k
∑
xi ni x
i =1
−
1 ⋅ N
k
∑
x0ni =
i =1
=
1 1 ⋅ c N
k
∑ (x − x )n = i
0
i
i =1
1 (x − x 0 ). c
1 ( x − x 0 ), y despejando: c x = u c + x 0
Media aritmética de una variable continua La media aritmética de una variable continua es la media de las marcas de clase ponderadas por las correspondientes frecuencias relativas. Si llamamos xi a las marcas de clase, será:
x =
1 ⋅ N
k
k
∑ x n = ∑ x f i i
i =1
i
i
i =1
Suponiendo que todas la clases tienen una amplitud constante c, se demuestra que haciendo el cambio:
ui
=
xi − x 0 c
los ui resultan números enteros pequeños. En este caso x0 es una de las marcas de clase del centro de la muestra. Es evidente que ahora se puede proceder como hemos explicado en el apartado anterior para el cálculo abreviado de la media. En la tabla estadística de variable continua se añadirán dos nuevas columnas para facilitar el cálculo, una con la variable ui, y otra con los productos ni · ui. Para la media aritmética, podemos encontrar las siguientes ventajas e inconve nientes como medida de posición central:
Ventajas:
10
Está perfectamente determinada de forma objetiva, y es única.
Tiene un signicado interpretativo muy claro.
Es sencilla de calcular.
Se utilizan para el cálculo todos los valores de que se dispone en la distribu ción.
tema 60
matemáticas
Inconvenientes: Los valores extremos muy dispares inuyen de manera notable en su valor a causa de lo cual puede perder valor representativo. No obstante, a pesar del inconveniente que acabamos de mencionar, podemos decir que es, sin lugar a dudas, la medida de posición central más utilizada. Cuando es conocido que los valores de la variable no tienen todos la misma im portancia con respecto al tratamiento que deben dárseles, suele ser bastante útil utilizar una variante de la media aritmética que vamos a ver a continuación. X
Media ponderada Para calcularla se le asocia a cada valor de la variable xi un peso wi que mide su grado de importancia en la distribución. Dichos pesos wi son valores positivos y representan el número de veces que sus correspondientes valores xi son más reprerepresentativos que un valor que tuviese peso asociado a la unidad. Se dene la media aritmética ponderada de una distribución de valores x1, x2, ..., xk , de pesos o importancias relativas w1, w2, ... , wk a: k
w ⋅ x ∑ x = ∑ w i
p
i
i =1
k
i
i =1
En general, y esto es importante, los pesos wi pueden ser números reales positivos cualesquiera. 2.1.2.
Media geométrica En muchas situaciones los valores de la distribución no son de naturaleza propia mente aditiva como puede suceder por ejemplo en el caso de que fueran puntos, bonos, salarios, etc. En estos casos la media aritmética deja de ser fácilmente interpretable y, por tanto, pierde gran parte de su interés. Así, por ejemplo, si tene mos una serie de índices de precios durante un período de años, un índice medio anual de precios debe ser aquel que, manteniéndose constante durante todos esos años, produzca la misma degradación nal de los precios en el último año con respecto del año inicial, que los índices originales. En estas circunstancias la medida de posición central más utilizada es la que se conoce con el nombre de media geométrica.
Datos simples Si las frecuencias no están agrupadas y xi > 0, se llama media geométrica de N valores x1, x2 ... x N a la raíz N -ésima -ésima de su producto.
G
= N x1 ⋅ x2 ⋅ ⋅ x N
(1)
11
tema 60 matemáticas
Datos agrupados: Sean los valores de la variable o las marcas de clase x1, ..., xk y sus frecuencias absolutas n1, ..., nk respectivamente. Se dene la media geométrica como:
G
= N x1n ⋅ x2n ⋅ ⋅ xk n 1
2
k
con n1 + n2 + ... + nk = N
(2)
Su cálculo se hace posible mediante logaritmos. Aplicándolos en (1) queda:
log G
=
1 [log x1 + log x2 + + log x n ] N
y en (2), log G
=
1 [n1 ⋅ log x1 + n2 ⋅ log x2 + + nk ⋅ log x k ] N
La media geométrica no es muy utilizada por su complicación de cálculo, aun que reduce la inuencia de los valores extremos. Entre las ventajas de la media geométrica podemos citar:
− Está denida de forma objetiva y es única. − Considera en su cálculo todos los valores de la distribución. − Los valores extremos tienen menos inuencia que en la media aritmética. Inconvenientes:
− Cálculo un poco complicado. − Lógicamente sólo debe aplicarse cuando los valores de la distribución sean todos positivos ya que si alguno fuese cero, se anularía la media geométrica, y si hubiere valores negativos, obtendríamos valores imaginarios. El empleo más habitual de la media geométrica es para datos de tipo multipli cativo como números índices, porcentajes, tasas, etc. 2.1.3.
Media armónica
Datos simples La media armónica de una serie de N valores valores x1, ..., x N es el recíproco de la media de los recíprocos de los valores. Es decir:
H =
N 1 1 + ++ 1 x1 x2 x N
=
N N
∑ x 1 i =1
i
Datos agrupados La media armónica de k valores valores x1, ..., xk con frecuencias absolutas n1, ..., nk se dene como:
H =
N n1 n2 + + + nk x 1 x 2 x k
=
N k
∑
1 x i i =1
; con n1 + + nk
Entre las ventajas de la media armónica podemos citar:
12
=N
y xi
≠ 0, ∀i
tema 60
matemáticas
− Está denida de forma objetiva y es única. − En su cálculo intervienen todos los datos de la distribución. − Su cálculo es sencillo. Inconvenientes: No debe usarse cuando los valores de la variable sean cercanos a cero ya que sus inversos pueden crecer en demasía, haciendo despreciable frente a ellos la infor infor mación que aportasen otros valores mayores. Obviamente, por otro lado, cuando exista algún valor nulo de la variable, no podemos tampoco calcular la media armónica. 2.1.4.
Relación entre las distintas medias Proposición Para una serie de valores x1, x2, ..., x N de una variable estadística X, la media aritmética, geométrica y armónica (siempre que existan) verican que:
H≤G≤x Demostración: Veamos primero que H ≤ G para el caso particular de dos valores x1 y x2:
H≤G
↔
2 1 x1
+
1
≤
↔
x1x2
↔
2 x1x2
≤
≤ ( x1 + x2 ) 2 ↔
4 x1x2
≤ x 2 + 2x1x2 + x 2 ↔
x1 + x2
≤
x1x2
x1x 2 ( x1 + x 2 )
↔
x2
↔
4 x12 x 22
≤ x1x2 ( x1 + x2 )2 ↔
↔
0 ≤ x1
− 2 x1x2 + x 2 ↔
2
2 x1x2
2
4 x1x 2
0 ≤ ( x1 − x2 )
1
2
2
Que es una desigualdad que se verica por lo que H ≤ G Veamos ahora que G ≤ x :
G≤x
↔
x1x2
≤ x1 + x2 ↔ 2
4 x1x2
≤ ( x1 + x2 ) 2 ↔
0 ≤ ( x1 − x2 )
2
Desigualdad análoga a la anterior y que se verica por lo que G ≤ x Y por tanto:
H≤G≤x Por inducción, la proposición se demuestra 2.1.5.
∀ N
Mediana La mediana M es el valor de la variable que divide a la serie estadística ordenada, en dos partes iguales, habiendo tantos valores por encima como por debajo de ella.
13
tema 60 matemáticas
Si los datos no están agrupados y están numerados de 1 a N , es el valor que ocupa el lugar
N + + si N es es im impar 2 es par, la mediana no queda denida y s e toma la media de los l os valores Cuando N es que ocupan el lugar
N N y + 2 2 Como la mediana deja a un lado y a otro un número de datos iguales, las frecuen cias a uno y otro lado también son iguales. Si tenemos representado el polígono de frecuencias relativas acumuladas, bastará con trazar la recta paralela al eje X de de ordenada
1 y determinar la abcisa del punto 2
en que lo corta.
1 2
Puede suceder que la recta y = tenga un segmento de puntos comunes, entonces se toma como mediana el punto medio del segmento.
Si los datos están agrupados en intervalos, construiremos el polígono de frecuen -
1 2
cias relativas acumuladas y buscamos la intersección de la recta y = .
14
tema 60
matemáticas
Como se ve en la gura 0 M = = 0 N + + NM = = 0 N + + AB. Por ser los triángulos ABE y ACD semejantes:
y, por tanto, 0 M
D C E B = AC AB
⇒ AB =
EB ⋅ AC D C
= 0N + AB = 0N +
EB ⋅ AC D C
= 0N + E M − B M ⋅ AC D C
Luego 0 M es es fácil de calcular, pues ON es es la abscisa del extremo inferior del in -
1 2
tervalo que contiene a M , EM = = , BM = = AN es es la frecuencia relativa acumulada del intervalo anterior, DC es la frecuencia relativa del intervalo en que está la es la amplitud del intervalo mediano. En símbolos: mediana y AC es
M
= ai −1 +
1 − 2
i −1
∑ f
j
j =1
f i
ei
con ei = ai - ai-1 Si multiplicamos y dividimos por N (número (número total de datos) la fracción, queda:
M
= ai −1 +
N − 2
i −1
∑n
j
j =1
ni
ei
Veamos qué le sucede al valor de la mediana si tenemos que llevar a cabo un cam cam- bio de origen y escala. Si realizamos el cambio ui
=
xi − x 0 y llamamos M (u) a la mediana de la nueva c
distribución transformada, entonces se verica que M = = c M (u) + x0 como puede demostrarse sin dicultad.
15
tema 60 matemáticas
Entre las ventajas de la mediana como medida de posición central podemos destacar las siguientes:
Es sencilla de calcular. No inuyen en ella más que los datos centrales de la distribución, por lo que se puede calcular aún cuando no se conozcan los valores extremos de la distribudistribu ción, siempre claro está, que tengamos suciente información respecto de sus frecuencias. Es de fácil interpretación al ser siempre un valor propio de la variable.
Inconvenientes No puede expresarse mediante una fórmula matemática sencilla a efectos de rearea lizar con ella grandes desarrollos algebraicos. 2.1.6.
Moda Se llama moda ( M 0) de una distribución de frecuencias al valor (o valores) de la variable al que corresponde mayor frecuencia. Una distribución de frecuencias puede tener una o varias modas, si tiene una se llama unimodal, si tiene dos, bimodal, etc. El cálculo de la moda resulta sencillo en los casos de datos simples y datos agru pados. Ahora bien, cuando los datos están agrupados en intervalos, igual que su cedía con la media o con la mediana, no obtendremos el valor exacto de la moda, sino una aproximación que vendrá en función de las hipótesis que realicemos sobre las observaciones de cada intervalo considerado. En el caso que nos ocupa dichas hipótesis suelen ser las siguientes:
Hay una moda en cada intervalo cuya densidad de frecuencia no es superada por ningún otro.
Dentro de dichos intervalos, la moda es aquel punto que equilibra las densida des de frecuencia de los intervalos adyacentes, suponiendo que los valores se repartan en el interior de los mismos de una manera uniforme.
Sea, pues, [ai-1, ai) un intervalo cuya densidad de frecuencia no es superada por ningún otro. Dicho intervalo recibe el nombre de intervalo modal o clase modal. Recordemos por otro lado que la densidad de fre frecuencia cuencia hi de un intervalo i-ésimo es el cociente entre la frecuencia absoluta asociada ni y su amplitud amplitu d ei:
hi
16
= ni ei
tema 60
matemáticas
En la representación gráca, el equilibrio debe darse en el sentido de ser:
a hi −2
=
b hi
y como la moda M 0 será: M 0 = ai –1 + b, tenemos: –1
b=
a ⋅ hi hi −2
= ei − b ⋅ hi ⇔ bhi −2 = ei hi − bhi hi − 2
Luego
b=
hi hi −2 + hi
⋅ ei
y, por tanto:
M 0 = ai −1 +
hi hi − 2 + hi
⋅ ei
Si las amplitudes de los intervalos fuesen constantes, la expresión de la moda sería:
M 0
= ai −1 +
hi ni −2 + ni
⋅ ei
Entre los inconvenientes de la moda podemos mencionar los siguientes:
No tiene una expresión matemática sencilla para el cálculo algebraico.
No intervienen en su determinación todos los valores de la distribución. distribución.
Los cambios en la distribución que se produzcan ajenos al valor modal no son detectados.
17
tema 60 matemáticas
Ventajas:
Cálculo sencillo.
Fácil interpretación.
Por otro lado la obtención de las modas de una distribución tiene una importancia propia derivada del hecho de que sirve para detectar posibles fusiones (mixturas) de distintas poblaciones unidimensionales en la masa de datos. A veces la moda nos avisa de la necesidad de dividir dicha masa de datos en partes distintas para que el fenómeno que estamos tratando se estudie mejor mejor.. Al igual que hemos hecho ya anteriormente con otras medidas, la moda, si se efectúa un cambio de escala y traslación, toma la forma:
M 0 = c M 0(u) + x0 2.1.7.
Percentiles Se dene como percentil de orden r, y lo representamos por Pr , al valor de la variable tal que las frecuencias absolutas de los valores iguales o menores que él representan el % de la frecuencia total N . Los percentiles más importantes son los P25, P50, P75, que se denominan cuartiles. El P25 y P75 son respectivamente el cuartil inferior y superior. El P50 es la mediana. Los valores P10, P20, ..., P90 se llaman deciles. Su cálculo es análogo al de la mediana y, en general, se aplica la expresión:
Pr 2.1.8.
= ai −1 +
r ⋅ N − 100
i −1
∑n
j
j =1
ni
⋅ ei
Relación entre media, mediana y moda En el caso de distribuciones unimodales lo más frecuente es que la mediana esté comprendida entre la moda y la media. Cuando está más cerca de la media que de la moda, la distribución se dice:
desviada a la derecha o más raramente:
desviada a la izquierda Si la distribución es simétrica y unimodal, las tres características coinciden. Se ha comprobado empíricamente que para distribuciones moderadamente asimé tricas, se verica:
x – M 0 ≤ 3 x – M que se conoce con el nombre de desigualdad de Pearson.
18
tema 60
matemáticas
2.2.
MEDIDAS DE DISPERSIÓN Tienen por objeto dar una idea de la mayor o menor concentración de los valores de una distribución alrededor de los valores centrales.
2.2.1.
Recorrido Se llama recorrido a la diferencia entre el mayor y el menor de los valores de la variable. El recorrido, por su sencillez de cálculo, se utiliza en el control de fabricación industrial más que la desviación típica, aunque es muy sensible a los valores erróerró neos.
Recorrido intercuartílico es la diferencia entre los valores P75 y P25, es decir, entre el cuartil superior s uperior e inferior. 2.2.2.
Desviaciones Consideremos un valor central C y y un valor de la variable xi. Al valor xi – C se se llama desviación de xi respecto de C . Al valor xi – C , desviación absoluta.
X
Desviación media Denimos desviación media d de de una distribución de frecuencias con respecto a un valor central C , para datos no agrupados como:
=
D
1 ⋅ N
N
∑ x − C i
i =1
Con datos agrupados:
=
D
1 ⋅ N
N
∑ x − C ⋅ n i
i
i =1
Las desviaciones medias más utilizadas son respecto a la media y a la mediana, que se obtienen sustituyendo C por por x y por M , respectivamente. 2.2.3. X
Varianza y desviación típica Varianza Varianza de una distribución de frecuencias es la media aritmética de los cuadra dos de las desviaciones respecto a la media. Es el índice de dispersión más usado y se designa por σ 2. Para datos no agrupados queda: 2
σ
=
1 ⋅ N
k
∑ ( x − x ) i
2
i =1
19
tema 60 matemáticas
y para datos agrupados ( xi marcas de clase):
=
2
σ
1 ⋅ N
k
∑ ( x − x) ⋅ n 2
i
i
i =1
siendo x la media aritmética de la distribución de valores x1, ..., xk y de las frefre cuencias n1, ..., nk .
A la raíz cuadrada positiva de la varianza se llama desviación típica:
σ
1 ⋅ N
=
k
∑ ( x − x) ⋅ n 2
i
i
i =1
Cálculo abreviado de la varianza y de la desviación típica Para datos agrupados: 2
σ
= = =
1 ⋅ N
k
k
∑ ( x − x) ⋅ n = ∑ ( x + x − 2xx )n = 2
i
1 ⋅ N
i
i =1
k
1 N
∑
1 N
k
i =1
1 n x + x N 2
2 i i
k
∑
i
i
i =1
1 ni − 2x ⋅ N
i =1
2
2 i
k
k
∑ n x = ∑ n x + x − 2xx = i i
i =1
1 N
2 i i
2
i =1
∑ n x − x 2 i i
i =1
luego: 2
σ
=
1 N
k
∑ n x − x
2
2 i i
i =1
Los cálculos se disponen en una tabla de la siguiente forma: xi
ni
n x i i
2 n x i i
x1
n1
n1 x1
n1 x21
·
·
·
·
·
·
·
·
·
·
·
·
xi
ni
n x i i
2 n x i i
·
·
·
·
·
·
·
·
·
·
·
·
xk
nk
nk xk
nk xk 2
= Σni N =
Σn x i i
2 Σn x i i
Si la variable es continua, está agrupada en clas es y a la vista de los datos puede convenir hacer un cambio de origen o de escala.
20
tema 60
matemáticas
En el caso general se hace xi = ui c + x0, x = u c + x0, entonces:
xi – x = (uic + x0) – (u c + x0) = c(ui – u) σ
2
=
1 ⋅ N
∑ (x − x) n = N 1 ⋅ ∑ c (u − u) n = c N 1 ⋅ ∑ (u − u) n = 2
i
2
i
2
i
2
i
2
i
i
2 2
c σ u
donde σ u2 es la varianza de la variable u. Finalmente σ 2 = c2 · σ 2u Los cálculos se disponen en una tabla como sigue: Se aplica primero σ u2
=
1 ⋅ N
∑ nu − u , 2
2 i i
y luego σ 2 = c2 σ u2
Intervalos
Marcas de clase
Frecuencias absolutas ni
x i – x 0 ui = ———– c
ui
uin2i
[a0, a1)
x1
n1
u1
u1n1
u1n21
[ai–1, ai)
xi
ni
ui
uini
uin2i
[ak–1, ak )
xk
nk
uk
uk nk
uk nk 2
Σn1
Σu1
Σu1n1
Σu1n21
Propiedades de la desviación típica 1. La desviación típica no tiene un sentido muy concreto en sí misma y tiene signicado sólo para comparar dos distribuciones. Dividiendo las desviaciones típicas de ambas se puede saber cuántas veces una distribución es más dispersa que la otra.
2. La desviación típica es más sensible que la media a los valores erróneos, puesto que intervienen intervienen al cuadrado. cuadrado. Su cálculo puede resultar pesado, pesado, por lo que a veces se preere el recorrido. res 3. La desviación típica es la menor de todas las desviaciones cuadráticas res pecto a un promedio. Sea x un promedio cualquiera. Bastará demostrar que:
xi – x)2 < Σ ( x xi – x)2 Σ( x xi – x)2 sea mínimo. Calculemos el valor de x para que I = = Σ( x
∑ ( x − x) = 0; −2∑ x + 2∑ x = 0; ∑ x = ∑ x = Nx
dl = −2 dx
i
i
i
de donde:
dl ∑ x = x , y com = 2∑ 1= 2N > 0 como x = 2
i
dx 2
N
el valor mínimo corresponde a las desviaciones respecto a x.
4. Puede comprobarse que si se realiza un cambio de escala y traslación: = σ =
c σ (u)
21
tema 60 matemáticas
5. Para distribuciones simétricas o moderadamente asimétricas, se cumple, aproximadamente, que:
− Entre x – σ y x
+
σ
están, aproximadamente, el 68% de las ob-
servaciones.
observa + 2 σ están, aproximadamente, el 95% de las observa-
– 3 3 σ y x − Entre x –
observa + 3 σ están, aproximadamente, el 98% de las observa-
y x − Entre x – 2 σ y
ciones.
ciones. Dichas aproximaciones son de mucha utilidad para visualizar mentalmente la dispersión.
2.3.
X
MOMENTOS Momentos centrales y respecto al origen
Para datos no agrupados, se llama momento de orden r respecto al valor la cantidad:
mr
=
1 ⋅ N
C a a
N
∑ ( x − C )
r
i
i =1
Para datos agrupados, se dene por:
mr
=
1 ⋅ N
N
∑ ( x − C ) ⋅ n r
i
i
i =1
Según los valores de C , se denen varias clases de momentos. Haciendo C = = 0 se obtienen los llamados momentos respecto al origen, quedando para datos no agrupados:
mr
=
1 ⋅ N
N
∑ x
r i
i =1
y para datos agrupados:
mr
=
1 N
k
∑ x ⋅ n r i
i
i =1
Haciendo C = = x se obtienen los momentos centrales o respecto a la media . Para datos no agrupados:
mr
= µr =
1 ⋅ N
N
∑ ( x − x )
r
i
i =1
y para datos agrupados: µr
22
=
1 ⋅ N
k
∑ ( x − x) ⋅ n i
i =1
r
i
tema 60
matemáticas
Los primeros momentos no centrales son:
m0 = 1
m1 = x
m2 = σ 2 + x2
Y los primeros centrales o respecto a la media: µ0 =
X
µ1 =
1
µ2 = σ 2
0
Relaciones entre momentos centrales y no centrales
Teniendo en cuenta que m1 = x µr
=
1 N
k
k
∑ ( x − x) n =∑ f (x − m ) r
i
i
i =1
i
i
1
r
i =1
Desarrollando por el binomio de Newton queda: µr
= =
r r r r − 2 2 r ⋅ f i x i r − xi r −1m1 + xi m1 − + ) − 1)r m1r 1 r 0 1 i =1 k
∑ k
∑ f x
r i i
i =1
r k − m1 1 i =1
∑ f x
r −1 i i
+ + (−1)
r
r r r m1 ⋅
k
∑ f = i
i =1
r r r r = mr − mm 1 r −1 + + (− 1) m r r 1
Para r = = 2, 3 y 4 da: µ2 =
m2 – m12 (teorema de König) µ3
= m3 − 3m2m1 + 2m13
µ4
= m4 − 4m3m1 + 6m12m2 − 3m14
que dan los momentos centrales en función de los no centrales.
Como mr
=
1 ⋅ N
k
∑
r i i
x n
i =1
=
k
∑
r
fi [(xi − m1) + m1]
i =1
desarrollando queda:
mr
=
r r ⋅ fi (xi − m1)r + ( x1 − m1)r −1m1 + + m1r = 1 r i =1 k
∑
r r = µr + m1µr −1 + + m1r r r 2.4.
MEDIDAS DE ASIMETRÍA Y CURTOSIS Hemos visto hasta ahora las medidas de centralización o posición y las medidas de dispersión y, por tanto, tenemos una idea de la «forma» que tiene la distribución objeto de nuestro estudio. Ahora bien, es necesario denir otra serie de medidas
23
tema 60 matemáticas
que permitan cuanticar la forma de la distribución en dos sentidos: la mayor o menor simetría y la concentración más o menos acusada de los valores centrales de la distribución en torno a las medidas de posición central que ya conocemos. X
El índice de simetría de Pearson Recordemos que en distribuciones unimodales y moderadamente acampanadas la mediana estaba siempre entre la moda y la media aritmética y si no era simétrica, se vericaba que M 0 ≤ M ≤ x o bien x ≤ M ≤ M 0. Pearson dene su índice de simetría:
f 1 = Según esto:
24
x − M0 σ
tema 60
matemáticas
Hay otros que son incluso más generales como el de Fisher que vale:
g1 =
1 ⋅ N
k
∑ ( x − x) ⋅ n 3
i
i
i =1
3
σ
Análogamente a como ocurría con el de Pearson: Si g1 = 0, distribución simétrica Si g1 > 0, asimetría a la derecha Si g1 < 0, asimetría a la izquierda X
Coeficiente de curtosis Tiene el valor:
g 2 =
1 ⋅ N
k
∑ ( x − x) ⋅ n − 3 4
i
i
i =1
4
σ
Si g2 = 0, tenemos una distribución mesocúrtica o asimilable a la distribución normal de Gauss.
Si g2 > 0, tenemos una distribución leptocúrtica, más puntiaguda que la distribu ción normal de Gauss.
25
tema 60 matemáticas
Y si g2 < 0, la distribución se llama platicúrtica y es mas aplanada que la distribudistribu ción normal de Gauss.
26
tema 60
matemáticas
BIBLIOGRAFÍA CALOT, G.: Curso básico de estadística descriptiva. Ed. Paraninfo. FIDALGO RODRÍGUEZ, M.: Parámetros Estadísticos. Autor Editor. G. BARBANCHO, A.: Estadística Elemental Moderna. Editorial Ariel. GLASS, G.; STANLEY, G.: Métodos estadísticos aplicados a las Ciencias Sociales. Prentice Hall. RIOS, S.: Métodos estadísticos. Ed. del Castillo.
27
tema 60
matemáticas
RESUMEN Parámetros estadísticos. Cálculo,, significado y propiedades. Cálculo
1. 1
PARÁMETROS ESTADÍSTICOS En un estudio estadístico es preciso utilizar valores numéricos o medidas que describan de forma objetiva los datos recogidos. Estas medidas son los parámetros estadísticos.
1.1.
CONCEPTOS GENERALES Se denen los conceptos más importantes como población, muestra, carácter y tipos de caracteres, variables estadísticas discretas y continuas.
1.2.
PARÁMETROS ESTADÍSTICOS Con el n de obtener un resumen cuantitativo se sustituye el conjunto de valores por números llamados parámetros estadísticos o medidas descriptivas de los datos, que se clasican en diversos tipos:
2. 2
2.1.
Medidas de posición o centralización.
Medidas de dispersión.
Medidas de asimetría y curtosis.
CÁLCULO,, SIGNIFICADO CÁLCULO SIGNIFIC ADO Y PROPIEDADES
MEDIDAS DE CENTRALIZACIÓN Las medidas de posición o centralización son valores que están medidos en las mismas unidades que las observaciones y que nos indican cómo se agrupan los datos observados. Se clasican en medidas de posición no central (cuartiles, deciles y percentiles) y medimedidas de posición central (medias, mediana y moda).
2.1.1.
Media aritmética de una variable Se estudian los casos discreto y continuo y sus propiedades. Debido a que en ocasiones presenta ciertos inconvenientes se dene la media ponderada en función del grado de importancia de los datos registrados. Su empleo más habitual es en distribuciones de na turaleza aditiva.
2.1.2.
Media geométrica Se dene en este punto el concepto media geométrica que se emplea en distribuciones de tipo multiplicativo como números índices, porcentajes, tasas, etc.
29
tema 60 matemáticas
2.1.3.
Media armónica Se dene este tipo de media que se aplica por ejemplo para jar el precio justo de una transacción.
2.1.4.
Relación entre las distintas medias Se establece en este punto que: H≤G≤x
2.1.5.
Mediana Se dene el concepto de mediana y cómo se calcula en los casos discreto y continuo.
2.1.6.
Moda Se dene el concepto de moda y cómo se calcula en los casos discreto y continuo.
2.1.7.
Percentiles
2.1.8.
Relación entre media, mediana y moda
2.2.
MEDIDAS DE DISPERSIÓN Tienen por objeto dar una idea de la mayor o menor concentración de los valores de una distribución alrededor de los valores centrales. Se denen:
2.2.1.
Recorrido
2.2.2.
Desviaciones Se dene el concepto de desviación y el de desviación media. media.
2.2.3.
Varianza y desviación típica Se denen ambos conceptos y cómo se calculan en los casos discreto y continuo. Además se estudian sus propiedades.
2.3.
MOMENTOS La media y la varianza son un caso particular de unos parámetros llamados momentos. Se distinguen entre momentos centrales y momentos respecto al origen.
2.4.
MEDIDAS DE ASIMETRÍA Y CURTOSIS Se denen una serie de medidas que permiten cuanticar la forma de la distribución en dos sentidos: la mayor o menor simetría y la concentración más o menos acusada de los valores centrales de la distribución en torno a las medidas de posición central.
30