MEDIDAS DE POSICIÓN (HAMLET MATA MATA - LA UGMA ± VENEZUELA) www.mipagina.cantv.net/hamletmatamata El análisis estadístico de una serie de de datos se elabora mediante el cálculo de diferentes parámetros y / o estadísticos. Después que los datos han sido reunidos y tabulados, tabulados, se inicia el análisis con el fin de de calcular un número único, que represente o resuma todos los datos. Por lo general, las frecuencias de los intervalos centrales centra les de una serie de datos son mayores que el resto, ese número se le denomina medida de posición. de posición. Las medidas de posición forman parte del conjunto de medidas descriptivas numéricas, entre las que se encuentran los parámetros y los estadígrafos. Una medida de posición posición es un número que se escoge como orientación para hacer mención a un grupo de datos . Uno de los problemas fundamentales que presenta un análisis estadística, es el de buscar el valor más representativo de una serie de valores. El primer paso que hay que realizar para que se entienda una larga serie de valores u observaciones, es el de resumir los datos en una distribución de frecuencia; esto no es suficiente para fines practico, puesto que a menudo es necesario una sola medida descriptiva, y en especial cuando se requiere comparar dos o más serie estadísticas. Es necesario continuar el proceso de reducción hasta sustituir todos los valores observados por uno solo que sea representativo, de tal forma que permita una interpretación global del fenómeno en estudio; para que ese valor sea representativo debe reflejar la tendencia de los datos individuales de la serie de valores. Un valor o dato de de la serie con estas características recibe el nombre de promedio, media o medida de posición, esto es debido a su ubicación en la zona central de la distribución. Las medidas de posición son de gran importancia en el resumen estadístico, ya que representan un gran número de valores individuales por uno solo. El valor más representativo de un conjunto de datos por lo general no es el valor más pequeño ni el más grande, es un número cuyo valor se encuentra en un punto intermedio de de la serie de datos. Por lo tanto un promedio es con frecuencia un valor referido que representará la medida de posición de la serie de valores. valores. Las medidas de posición se emplean con frecuencia como mecanismo para resumir un gran número de datos o cantidades con la finalidad de obtener un valor que sea representativo de la serie. Las Principales Medidas de Posición son : a) La Media Aritmética, b) La Mediana, c) La Moda, Moda, d) Los cuartiles, cuartiles, e) Los Deciles y f) Los Percentiles.
CARACTERÍSTICAS DE LAS MEDIDAS DE POSICIÓN 1. ± Deben ser definidas rigurosamente y no ser susceptibles de diversas diversas interpretaciones. 2. ± Deben depender de todas las observaciones de la serie, de lo contrario no seria una característica de la distribución. 3. ± No deben deben tener un carácter matemático demasiado abstracto. 4. ± Deben ser susceptibles de cálculo algebraico, algebraico, rápido y fácil.
SUMATORIA En esta unidad y en las siguientes se utilizaran sumas de muchos términos, por lo cual es necesario introducir una notación denominada sumatoria, para facilitar las sumas. La notación sumatoria implica el uso del símbolo§, que no es otra cosa que la letra sigma mayúscula del alfabeto griego y que corresponde a la letra S de nuestro alfabeto. Siempre que se utilice el signo § se leerá ³suma de o sumatoria de ³. Según, Leithold Leithold sumatoria se define define así:
n
. ( m 1). . F ( m 2). ..... F ( n 1). . F ( n ),.donde..m. y.n.. son..enteros. y.m e n. § F ! F (m). F i
i !m
La ecuación de definición consiste de la suma de ( n-m + 1) términos, tér minos, donde el primer término tér mino se obtiene sustituyendo i por m en Fi, el segundo se obtiene remplazando r emplazando i por (m+1) en F i, y así sucesivamente, hasta alcanzar el último término al sustituir i por n en Fi. En la ecuación de sumatoria la letra m se le denomina límite inferior de la sumatoria y n se le llama límite superior de la sumatoria. El símbolo i se le denomina índice índice de la sumatoria. Ejemplos: 4
§ X ! X X i
1
2
notaciones colocadas arriba y abajo del del signo X 3 X 4 . Observe que las notaciones
sumatoria
i !1
indican que solo deben ser sumados sucesivamente las primeras cuatro observaciones. También puede darse el siguiente caso: 7
§ X ! X X i
3
4
X 5 X 6 X 7 . Se puede observar que las notaciones colocadas arriba y abajo del signo
i !3
sumatoria indican que solo deben ser sumados sucesivamente sucesiva mente desde la tercera hasta la séptima sépti ma observación. observación. Generalmente, con el objeto de simplificar más aun las formulas que permiten utilizar el símbolo sigma, se pueden suprimir los subíndices, quedando el símbolo de sumatoria expresado de la siguiente manera: § X. Esto se puede hacer cuando no hay ambigüedad al referirse r eferirse a los diferentes valores que toma t oma la la variable X.
PROPIEDADES DE LA SUMATORIA 1. ± La sumatoria de la suma de dos dos o más término tér minos, s, es igual a La suma de las sumatorias separadas de los términos. 2. n
n
n
n
§ X Y Z ! § X § Y § Z . i
i
i
i
i !1
i
i !1
i !1
i
i !1
3. ± L a sumatoria de de la diferencia diferencia de dos o más términos, es igual a la diferencia de las sumatorias separadas de los términos. 4. n
§
i
n
i ! §
Y i
i !1
i !1
n i
§ i
!1
Y i
n
§ i
i
.
!1
3 ± La sumatoria de una constante multiplicada por una variable, es igual a la constante multiplicada por la sumatoria de la variable. 4 n
§ K i !1
n
i
! K §
i
... donde .. K .. es .. una .. constante
.. cualquira
.
i !1
4. ± La sumatoria de una constante constante es igual igual a la la constante multiplicada multiplicada por el el número número de casos que indique indique el límite superior superior de la sumatoria. n
§
! n ., donde.. ..es..una..constante..cualquiera.
i !1
Cuando se trabaja con el término sumatoria es bueno recomendar lo siguiente: n
2
n n n «n » .,.. ... . { { X X y X Y X § § § i i i § Y i . Ejemplos: ¬§ i ¼ i !1 i !1 i !1 i !1 - i !1 ½ 2 i
1.- Resolver las siguientes sumatorias, sumatorias, tomando en cuenta cuenta que: X i2 ! _ X 1 ! 1,.. X 2 ! 1,..X 3 ! 2a 3
2
«3 » a)...§ X ,...b)..¬§ X i ¼ , c) i !1 - i !1 ½ a)
2 i
3
§ ( X
2 i
1) 2
i! 2
3
§ X i2 ! (1) 2 (1) 2 (2) 2 ! 1 1 4 ! 6. i !1
2
«3 » b) ¬§ X i ¼ ! ?(1) (1) ( 2)A2 ! ? 1 1 2A2 ! (2) 2 ! 4. - i !1 ½ c)
3
2
2
§ ( X i2 1) 2 ! ?(1) 2 1A ?(2) 2 1A
! ( 2) 2 (5) 2 ! 4 25 ! 29 .
i! 2
2. ± Exprese las siguientes operaciones utilizando la notación sumatoria: a) X 1+ X2 + X3 +X4.
X 52
b)n2 X 62 X 72 ...... X
. 4
Estos problemas se resuelven así: a )......§ X i . i !1
b)
n
§ X i2 . i !5
MEDIA ARITMÉTICA La media aritmética ( X ) o simplemente simplemente la media es el parámetro de posición de más importancia en las aplicaciones estadísticas. Se trata del del valor medio de todos los valores que toma la la variable estadística de una serie de datos. Por lo tanto, la medida posicional más utilizada utilizada en los estudios estadísticos estadístic os viene a ser la media. Por Por su fácil cálculo e interpretación, es es la medida de posición posición más conocida y más más utilizada en los cálculos estadísticos. La media es el valor más representativo de la serie de valores, es el punto de equilibrio, es el centro de gravedad de la serie de datos. La media aritmética por lo general general se le designa con X . La media media aritmética de una serie de N valores de de una una variable variable X1, X 2, X3; X4,.........Xn, es es el el cociente de dividir la sumatoria de todos los valores que toma la variable Xi, entre el número total de ellos. La formula n
se puede expresar así: X !
§X i !1
N
i
.
Desviaciones o desvíos.-
Son diferencias algebraicas entre cada valor de la serie o cada punto medio y la media aritmética de dicha serie, o un valor cualquiera tomado arbitrariamente. Los desvíos o desviación se designan con la letra di. Dado una una serie de valores valores X1, X 2, X3, .......X n , se llama desvío a la la diferencia diferencia entre un valor cualqui cualquiera era X i de la serie y un valor indicado k de esa misma serie. Si el valor indicado k de la serie corresponde precisamente a la media aritmética aritmética de esos esos valores dados, se dice entonces que los desvíos son con respecto a la media aritmética. En símbolo: d i ! ( X i X ).
PROPIEDADES DE LA MEDIA ARITMÉTICA 1. ± La suma de las desviaciones con respecto a la media aritmética es igual a cero.
§ d i ! 0.
2. ± La suma de las desviaciones al cuadrado de los diversos valores con respecto a la media aritmética es menor que la suma de las desviaciones al cuadrado de los diversos valores con respecto a cualquier 2 2 punto K, que no sea la media aritmética. arit mética. § X i X § X i K .
3. ± La media aritmética total o conjunta de dos o más serie de datos, se puede calcular en función de las medias aritméticas parciales y del número número de datos de cada una de ellas, mediante la siguiente fór mula: n1 X 1 n 2 X 2 n3 X 3 ........ n k X k
§ X 1 § X 2 § X 3 ....... § X k ,
Donde: n1 n2 n3 n k N ! n1 n2 n3 ...... nk , en esta n1, n2, n3 y nk es el número de datos de cada serie. Además, X 1 ..,. X 2., .,.. X 3 .,., y.. X k .,.. son las medias de cada una de las series. X t !
N
!
5 ± La media del producto de una constante por una variable, es igual al producto de la constante por la media de la variable. X!
§ KX
i
!
N
§X
K
N
i
! K X.
6 ± La media de la suma de una constante más una variable, es igual a la media de la variable más la 7 constante. X X i K !
§ X i K ! § X i § K ! X K . ., de la misma forma for ma se cumple
propiedad para la resta.
n
n
n
esta
CARACTERÍSTICAS PRINCIPALES DE LA MEDIA ARITMÉTICA 1. ± El valor de la media depende de cada una de las medidas que forman la serie de datos, y se halla afectada excesivamente por los valores valores extremos de la serie s erie de datos. 2. ± La media se calcula calcula con facilidad y es única para para cada caso y permite permite representar mediante un solo valor la posición de la serie de valores. 3. ± La media es una medida de posición que se calcula con todos los datos de la serie de valores y es susceptible de operaciones algebraicas.
CÁLCULO DE LA MEDIA PARA DATOS NO AGRUPADOS Para calcular la media de datos no agrupados en clases se aplica aplica la siguiente fórmula: X!
§X
i
N Ejemplo:
. En donde N es el número total tota l de datos y X i son los valores de la variable.
1. ± Calcule la media aritmética de los siguientes valores: X i ! _5,.7,.8,.9.,11.,.14a
§X
5 7 8 9 11 14 54 tant o la media es 9. ! ! 9. Por lo tanto N 6 6 CÁLCULO DE DE LA MEDIA PARA DATOS AGRUPADOS X!
i
!
Cuando se construye una distribución de frecuencia, los datos se agrupan en clases definidas por unos límites. Cuando se trabaja con la distribución de de frecuencia se parte del supuesto supuesto de que todos los datos comprendidos en un intervalo de clase se distribuyen uniformemente a lo largo de este, entonces se puede tomar la marca de clase o punto medio ( X ) del intervalo como adecuada representación de los valores que conforman el mencionado intervalo. El punto mediose designa designa con la letra letra X . Para calcular la media en estas condiciones condiciones se pueden pueden utilizar tres métodos: métodos: El método método directo o largo y dos métodos abreviados.
MÉTODO DIRECTO Este método se le conoce también como método largo; el mismo resulta demasiado engorroso cuando las magnitudes de los los puntos medios medios o de de las frecuencias frecuencias de clase son muy muy grandes, grandes, debido debido a que los cálculos son demasiados extensos. Los pasos a seguir para calcular la media con c on este método son los siguientes: 1. ± Se agrupan los datos en clases y se llevan a una una columna, se calculan los los puntos medios medios de cada clase y se colocan en sus respectivas columnas, se determinan las frecuencias de cada clase y se ubican en sus respectivas columnas. 2. ± Se multiplican los puntos medios de cada clase por sus respectivas frecuencias, luego se obtiene la ) así: sumatoria de las frecuencias (f i ) multiplicadas multiplica das por el punto punto medio ( X § f i X i . 3. ± Luego se calcula calcula la media aritmética aplicando la formula: f X f X § § ! ... Donde.. N es igual al número total de datos. Ejemplo: X ! § f ! N N i
i
i
i
1.-Calcule la media de la siguiente distribución de frecuencia frecuencia correspondiente al peso en Kg de un grupo de obreros. Realice los cálculos respectivos para comple completar tar el siguiente cuadro. cuadr o. CLASES
f i
75-------79 80-------84 85-------89 90-------94 95 ------99
20 40 60 100 140 § f i ! N =360
CLASES
X
75-------79 80-------84 85-------89 90-------94 95 ------99 TOTAL
77 82 87 92 97
f i X
f i
§
20 40 60 100 140 f i ! N =360
1540 3280 5220 9200 13580
§ f X ! 32820 i
i
Aplicando la formula se tiene: § f i X i ! 32820 ! 91.17. X ! 360 N
MÉTODOS ABREVIADOS Los métodos abreviados para calcular la media son preferibles en la mayoría de los casos, especialmente cuando el número de clases de las distribuciones distribuciones de frecuencias son grandes. Es un método fácil fácil de aplicar. Existe un método abreviado que se utiliza para cualquier tipo de distribución de frecuencia sin importar si tiene o no intervalos constantes de clase y hay otro que se utiliza solamente cuando en la distribución el intervalo de clase es constante, en esta cátedra se analizará el primero. ) Si se selecciona un punto punto medio medio ( X de la distribución distribuci ón de frecuencia frecue ncia que sea diferente diferent e de la media aritmética de esa, entonces la suma algebraica de las las desviaciones ( d i ) con respecto al valor seleccionado será diferente de cero. Si la suma algebraica de las desviaciones es dividida por el número de datos totales
(N) de la serie y el el cociente resultante es sumado al valor seleccionado, el resultado final será igual al de la media aritmética de la serie. Este método permite ahorrar una considerable cantidad de tiempo cuando en una serie de valores el conjunto de datos es grande. La media seleccionada arbitrariamente o media desviac ión de cada cada valor de la imaginaria se le designará con la letra A y los desvíos d i vendrán a ser la desviación serie con respecto a la media imaginaria A. La fórmula para este caso será: X ! A
§ f ( X A) ...o.... X ! A § f d
La fracción
i
i
i
i
N N § f i d i se le denomina factor de corrección, A es lala media arbitraria o supuesta. N
El factor factor de corrección, será positivo positivo o negativo según que A sea menor o mayor que la la media aritmética de la serie de valores.
PASOS PARA APLICAR EL MÉTODO ABREVIADO 1. ± Se organizan los datos de de la la serie en clases con sus respectivas frecuencias ( fi), los mismos se colocan en columnas con sus respectivos puntos medios ( X i ). 1. ± Se escoge un punto punto medio cualquiera de la distribución, distribución, el cual será una media imaginaria imaginaria que se le denominara denominara A, esta deberá deberá ser lo más central central posible posible para que que los cálculos se hagan más más fácil, se calculan los di de los los puntos medios de de la distribución distribución con respecto a esa media imaginaria, imaginaria, aplicando A) , los mismo se colocan en su columna respectiva. la formula: d i ! ( X i 3 ± Sé efectúan los productos f i d i de cada clase clase y al final se calcula la sumatoria de estos productos productos aplicando la formula: § f i d i .
f d 4 ± Finalmente se calcula la media aplicando la formula: X ! A § i i . N 1.-Dada 1.-Dada la siguiente distribución de frecuencia, correspondiente al peso en Kg de un grupo de obreros, calcule la media aritmética, aplicando el método abreviado.Realice los cálculos respectivos para completar el siguiente cuadro. En este caso se tomará como c omo media arbitraria el punto medio, A =87.0.
CLASES 75------79 80------84 85------89 90------94 95------99
X i 77 82 87 92 97
CLASES
f i
75------79 80------84 85------89 90------94 95------99 TOTAL
20 40 60 100 140 N = 360
f i 20 40 60 100 140 N = 360
A) ! di ( X i 87 ± 77 = - 10 87 ± 82 = - 5 87 ± 87 = 0 87 ± 92 = 5 87 ± 97 = 10
f i d i - 200 - 200 0 500 1400 § f i d i ! 1500
f d 1500 Ahora se aplica la formula así: X ! A § i i ! 87 ! 91.17. Como se puede observar la media 360 N obtenida es idéntica a la obtenida por el método largo. El estudiante puede realizar este problema utilizando
cualquier punto medio de la distribución, se le deja deja como practica para que se ejercite con este método, método, siempre obtendrá el mismo resultado utilizando cualquiera media imaginaria diferente a la utilizada en la resolución de este problema. 2 ± Calcule la media aritmética de la siguiente siguiente distribución aplicando el método método abreviado. Realice los cálculos respectivos para completar el siguiente cuadro. CLASES
f i
50------54 55-----59 60-----64 65-----69 70-----74 75-----79 80-----84 85-----89 90-----94 Totales
5 10 20 40 100 38 22 9 6 N = 250
Para calcular la media en este caso sé escogió como media media imaginaria A = 72, 72, por ser este el punto punto medio más céntrico de la serie, se pudo haber tomado otro punto medio diferente de este y el resultado hubiese sido el mismo. Ahora se aplica la formula: CLASES
X i
f i
50------54 55-----59 60-----64 65-----69 70-----74 75-----79 80-----84 85-----89 90-----94
52 57 62 67 72 77 82 87 92
5 10 20 40 100 38 22 9 6 N = 250
TOTALES
A) ! di ( X i 72 ± 52 = - 20 72 ± 57 = -15 72 ± 62 = -10 72 ± 67 = -5 72 ± 72 = 0 72 ± 77 = 5 72 ± 82 = 10 72 ± 87 = 15 72 ± 92 = 20
f i d i - 100 - 150 - 200 - 200 0 190 220 135 120 § f i d i ! 15 .
§ f d ! 72
15 cálculo de la media ! 72 0.06 ! 72.06 . El estudiante hará como ejercicio el cálculo 250 N con los restantes puntos medios de la la distribución de de frecuencia.
X ! A
i
i
LA MEDIANA La mediana (Md) es una medida de posición posici ón que divide a la serie seri e de valores valor es en dos partes iguales, igua les, un cincuenta cincue nta por ciento que es mayor o igual a esta y otro cincuenta por ciento cient o que es menor o igual que ella. Es por lo tanto, tant o, un parámetro que está en el medio del ordenamiento ordena miento o arreglo de los datos organizados organiz ados, entonces, la mediana divide la distribución distribución en una una forma tal que a cada lado de la la misma queda un número número igual de datos. Para encontrar la mediana en una serie de datos no agrupados, lo primero primero que se hace es ordenar los datos en una forma creciente o decreciente decreciente y luego se ubica la posición que esta esta ocupa en esa serie de datos; para ello hay que determinar si la serie de datos es par o impar. Si el número número N de datos es impar, impar, entonces la N 1 posición de la mediana se determina por la formula: p Md ! , luego el número que se obtiene indica el 2 lugar o posición que ocupa ocupa la mediana en la serie s erie de valores, luego la mediana mediana será el número que ocupe el lugar de lo posición encontrada. Para obtener la posición de la mediana en una serie de datos no agrupados,
en donde el número N de datos es par, se aplica la formula P Md !
N
El resultado obtenido, es la 2 posición que ocupara la la mediana, pero en este caso se ubica la posición posición de la mediana por por ambos extremos de la serie de valores y los dos valores que se obtengan se le saca la media y esta será la mediana buscada, por lo tanto la mediana, en este caso, es un número que no se encuentra dentro de la serie de datos dados. Ejemplos: 1 ± Sean los siguientes datos, 5, 12, 7, 8, 10, 10, 6, y 9, 9, los años de de servicios de un grupo de trabajadores. Determine la mediana. Lo primero primero que se hace es ordenar los datos datos en forma creciente o decreciente; luego N 1 se aplica la formula P , para ubicar la posición de la mediana. mediana. Los datos ordenados ordenados quedaran Md ! 2 7 1 así: 5, 6, 7, 7, 8, 9, 10, 12. La posición p Md ! la mediana ocupa la posición 4 en la ! 4. Esto indica que la 2 serie de valores y por lo tanto tant o esa posición corresponde corr esponde a los números 8 y 9 que en este caso ocupan ocupa n la posición por la la izquierda y por la la derecha, por lo tanto la Md viene a ser la semisuma de ambas posiciones posiciones ¨8 9 ¸ ! 8.5 ¹ en este caso 8.5 es la mediana mediana buscad, y esto es así, así, ya ya que el número 8.5 divide la serie © ª 2 º de valores en dos partes iguales, una mitad mitad que es mayor que la la mediana y otra mitad que es menor que esta. Cuando los los valores de los datos brutos de un conjunto conjunto de datos se agrupan en una distribución distribución de frecuencia de clase, cada valor pierde su identidad, por tal motivo la mediana obtenida de una distribución de frecuencia de datos puede no ser la misma que la mediana obtenida de los datos sin arreglar en clases, pero el resultado será una aproximación. aproximación. Cuando se obtiene la mediana para datos agrupados se utiliza el método de interpolación. interpolación. La interpolación parte del supuesto supuesto de que los datos datos de cada intervalo de la distribución distribución están igualmente distribuidos. distr ibuidos.
PASOS PARA DETERMINAR DETERMINAR LA MEDIANA EN EN DATOS AGRUPADOS AGRUPADOS 1. ± Se elabora la tabla de frecuencia de datos con sus diferentes intervalos de clases, se ubican las frecuencias fi y se calculan las frecuencias acumuladas acu muladas Fa de esa distribución. 2. ± Se determina la ubicación ubicación o posición de la mediana en el el intervalo de la distribución distribución de frecuencia, mediante la fórmula P Md !
N
. El resultado obtenido determinará la clase donde se encuentra ubicada ubicada la 2 mediana, lo cual cual se conseguirá en la clase donde donde la la frecuencia acumulada Fa
« N Faa » ¬ ¼ sea igual o superior a este resultado. r esultado. Luego se aplica la formula: Md ! Li ¬ 2 ¼ Ic, en esta f ¬ ¼ -¬ ½¼ fórmula Md es la mediana, Li es el límite real inferior inferior de la clase donde donde se encuentra ubicada la mediana, mediana, anterior a la clase donde se encuentra encuentra la mediana, fm es el valor Faa es el valor de la frecuencia acumulada anterior de la frecuencia fi de la clase donde se encuentra la mediana, Ic es el valor o longitud del intervalo de clase y N es el número total de datos de la distribución en estudio. 1.- Dada la siguiente distribución distribución de frecuencia referida a las horas horas extras laboradas por un grupo de obreros. Calcule la mediana. Realice los cálculos respectivos respect ivos para completar el siguiente cuadro.
N° de horas Extras CLASES 55------59 60------64 65------69 70------74 75------79 80------84 85------89
Obreros fi 6 20 18 50 17 16 5 N = 132
Cuadro con las frecuencias acumuladas: N° de horas Extras CLASES 55------59 60------64 65------69 70------74 75------79 80------84 85------89
Obreros fi 6 20 18 50 17 16 5 N = 132
Obreros fa 6 26 44 94 111 127 132
« N aa » ¬ ¼ Ahora se aplica la formula: Md ! Li ¬ 2 ¼ Ic f ¬ ¼ ¬¼½ N 132 N = 132, 70----74, ----74, por por lo tanto el limite real ! ! 66, luego la mediana se encuentra en la clase 70 2 2 inferior de esa clase es 69.5 = Li. La frecuencia fi de esa esa clase es 50 = fm , Faa = 44 y el la formula se tiene: t iene: Ic = 5. Aplicando la « 66 44 » 5 ! 69.5 ¨ 22 ¸.5 ! 69.5 2.2 ! 71.70. d ! 69.5 ¬ © ¹ - 50 ¼½ ª 50 º Luego la la mediana de esa distribución distribución es 71.70. 71.70. Esto quiere decir que un 50 % de de los obreros obreros trabajaron horas extras por debajo de 71.70 horas y el otro 50 % traba trabajaron jaron horas extras por encima de 71.70 horas.
CARACTERÍSTICAS DE LA MEDIANA * La mediana no es afectada por los valores extremos de una una serie de valores, puesto que la misma no es calculada con todos los valores de la serie. * La mediana no está definida algebraicamente, ya que para su cálculo no intervienen todos los valores de la serie. * La mediana en algunos casos no se puede calcular exactamente y esto ocurre cuando en una serie de valores para datos no agrupados el número de datos es par, en este caso la mediana se calcula aproximadamente. * La mediana se puede calcular en aquellas distribuciones de frecuencia de clases abierta, siempre y cuando los elementos centrales puedan ser determinados.
* La suma de los valores absolutos de las desviaciones de los datos individuales con respecto a la mediana siempre es mínima.
LA MODA La moda es la medida de posición que indica la magnitud del valor que se presenta con más frecuencia en una serie de datos; es pues, el valor de la variable que más se repite repit e en un un conjunto de dat datos. os. De las medias de posición la moda es la que se determina con mayor facilidad, ya que se puede obtener por una simple observación de los datos en estudio, puesto que la moda es el dato que se observa con mayor frecuencia. La moda se designa con las letras Mo. En las representaciones gráficas la moda es el punto más alto de la gráfica. La obtención de la moda para datos agrupados no es un valor exacto, ya que varía con las diferentes formas de agrupar una una distribución de frecuencia. En algunas distribuciones distribuciones de frecuencias frecuencias o serie de datos no agrupados o agrupados agrupados se presentan dos o más modas, en estos casa casa se habla habla de serie serie de datos bimodales o multimodales, multimodales, según sea el caso. Estos tipos de distribuciones o series de valores valor es se deben a la falta de homogeneidad homogeneida d de los datos. Cuando una una serie de valores es simétrica, la media, la mediana y el modo coinciden, y si la asimetría de la serie es moderada, la mediana estará situada entre la media y el modo con una separación de un tercio entre ambas. Tomando en cuenta esta relación, cuando se tengan dos de esta medidas se puede determinar la tercera; sin embargo es conveniente utilizar esta relación para calcular solamente la moda ya que para calcular la media y la mediana existen formulas matemáticas que dan resultados más exactos; la fórmula matemática para calcular calcular la moda por medio de de la relación antes mencionada es: Mo ! X 3 X Md . Para calcular la moda en datos agrupados existen varios métodos; cada uno de los métodos puede dar un valor diferente de la moda: En este curso se dará un método el cual se puede considerar uno de los más precisos en el cálculo de esta. esta. Es un método método matemático que consiste en la interpolación mediante la siguiente fórmula: ¨
( 1 ¸ ¹¹. Ic , en donde Mo es la moda, Li es el limite real de la clase que presenta el ( ( 2 º ª 1
M o ! Li ©©
mayor número de frecuencia; la clase que presenta el mayor número de frecuencias fi se le denomina clase modal y a las frecuencias de esa clases se les denomina frecuencia modal fm, ( 1 es la diferencia diferencia entre la frecuencia de la clase modal ( fm) y la frecuencia de la clase anterior a la modal, la cual cual se designa con fa , entonces, ( 1 ! ( fm fa ) ; ( 2 es la diferencia entre la frecuencia de la clase modal fm (fm) y la frecuencia de la clase siguiente siguiente a la modal, esta se designa designa con fs , entonces, ( 2 ! ( fm fs ). 1. ± Dada la siguiente distribución distribución de frecuencia correspondiente al peso en Kg de un grupo de trabajadores de una empresa, calcule la moda. CLASES 30-----39 40-----49 50-----59 60-----69 70-----79 80-----89 90-----99 TOTAL
f i i
2 2 7 11 12 16 2
La clase modal es 80----89, entonces Li = 79.5 y su fm = 16, fa = 12 y fs = 2, Ic ! 10 , entonces: (1 ! f m f a p (1 ! 16 12 ! 4;..( 2 ! f m f s ! 16 2 ! 14 Aplicando la formula se tiene: ¨ ( 1 ¸ 40 ¨ 4 ¸ ¹¹ p Mo ! 79.5 © Mo ! L i ©© ! 79.5 2.22 ! 81.71. ¹.10 ! 79.5 4 14 18 ( ( ª º 2 º ª 1 Este resultado de la moda se interpreta así: La mayoría de los trabajadores tiene un peso aproximadamente aproximadament e de 81.71 g .
CARACTERÍSTICAS DE LA MODA * El valor de la moda puede ser afectado grandemente por el método de elaboración de los intervalos de clases. * El valor de la moda no se encuentra afectado afecta do por la magnitud de los valores extremos extre mos de una serie seri e de valores, como sucede en la media aritmética. * La moda se puede obtener en una forma aproximada muy fácilmente, puesto que la obtención exacta es algo complicado. * La moda tiene poca poca utilidad en una distribución de frecuencia frecuencia que no posea suficientes datos y que no ofrezcan una marcada tendencia central. * No es susceptible susc eptible de operaciones operaciones algebraicas posteriores. * La moda se utiliza cuando se trabaja con escalas nominales aunque aunque se puede utilizar con las otras escalas. escalas. * La moda es útil cuando se está interesado en tener una idea aproximada de la mayor mayor concentración de una serie de datos.
OTRAS MEDIDAS POSICIÓNALES Cuando se estudio la mediana se pudo detectar detectar que esta divide la serie de valores en dos partes iguales, una generalización generali zación de esta medida da origen origen a unas nuevas medida medidass de posición posición denominadas: denominadas : posición surgen por la necesidad necesidad de requerir requerir de Cuartiles; Deciles y Percentiles. Estas nuevas medidas de posición otras medidas que expresen expresen diferentes situaciones de orden, aparte de las señaladas por la mediana. mediana. Por lo tanto es interesante ubicar ubicar otras medidas que fraccionen fraccionen una serie de datos en diferentes diferentes partes. Es bueno destacar que los cuarteles, los Deciles y los Percentiles son unas variantes de la mediana: De la misma forma los percentiles abarcan tanto ta nto a los cuarteles como c omo a los Deciles. Deciles.
LOS CUARTILES.- Son medidas posiciónales que dividen la distribución de frecuencia en cuatro partes iguales. Se designa por por el símbolo Qa en la que a corresponde a los valores 1, 2 y 3., que que viene a ser el el número de Qa que posee una distribución distribución de frecuencia de clase. El Q1 divide la distribución de frecuencia en dos partes, una corresponde a 25 % que está por debajo de Q 1 y el otro 75 % por encima de Q1. El Q2 divide la distribución distri bución de frecuencia frecue ncia en dos partes iguales, un 50 % que está por debajo debajo de los valores de Q2 y otro 50 % que está por por encima del valor de Q 2. El Q2 es igual igual a la mediana. CÁLCULO DE LOS CUARTILES.CUARTILES .- Para datos no agrupados no tiene ninguna utilidad práctica calcular los cuartiles. Para el cálculo de los cuartiles cuartiles en datos dat os agrupados en una distribución distribución de frecuencia existe un método por por análisis gráfico y otro por por determinación numérica, numérica, por fines fines prácticos en esta cátedra se utilizara el último método. método. Para calcular los cuartiles por por el método numérico numérico se s e procede de la la siguiente manera:
1 ± Se localiza la posición del del cuartil solicitado aplicando aplicando la formula formula de posición: posición: P Qa !
aN
, en donde a 4 viene a ser el número del cuartil solicitado, N corresponde corresponde al número total de datos de de la distribución y 4 corresponde al número de cuartiles que presenta una distribución de frecuencia. 2 ± Luego se aplica la fórmula para determinar un cuartil determinado, así:
« aN » aa ¼ ¬ 4 . . En esta fórmula, Qa = El cuartil solicitado, en esta a corresponde al número Qa ! Li ¬ ¼ Ic f ¬ ¼ -¬ ½¼ del cuartil solicitado; Li = Limite real inferior de la clase donde se encuentra ubicado el cuartil; Faa = Frecuencia acumulada anterior a la clase donde se encuentra el cuartil; fm = Frecuencia fi que posee el a N intervalo de clase donde se encuentra el cuartil; = Posición que que ocupa ocupa el cuartil en la P Qa ! 4 distribución de frecuencia, este resultado obtenido determinará la clase donde se encuentra ubicado el cuartil, el mismo se encontrará en la clase donde la frecuencia acumulada Fa sea igual o superior a este resultado. DECILES. ± Son medidas de posición que dividen la distribución de frecuencia en diez partes iguales y estas van desde el número uno hasta el número nueve. Los deciles se les designa con las letras Da, siendo a, el número de los diferentes deciles, que que en este caso son nueve. El D2 es el punto debajo del cual se encuentran ubicados el 20 % de los valores de la la distribución o también el punto por por sobre el cual se encuentra el 80 % de de los valores de de la serie de de datos. La mediana mediana es igual al D5, puesto que este decil divide la distribución en dos partes iguale tal como lo hace la mediana, de la misma forma el decil cinco es igual al cuartil dos. CÁLCULO DE LOS DECILES ± El cálculo de los deciles es similar al cálculo de los cuartiles, solo que en estos varía la posición, posici ón, la misma se calcula con la formula: aN
, en esta a corresponde al número del decil que que se desea calcular, N equivale equivale al número de datos datos 10 de la la distribución y 10 corresponde a las diez partes en la que que se divide divide la serie de valores valores de la distribución. « aN » ¬ 10 aa ¼ La fórmula para su cálculo es: Da ! Li ¬ . . En este este caso se aplica la formula formula de la misma ¼ Ic f ¬ ¼ ¬¼½ manera que se hizo para calcular los cuartiles, cuartiles, solo que en esta fórmula varia la posición de ubicación ubicación de la clase donde se encuentra ubicado el decil. P Da !
LOS PERCENTILES ± Son medidas posicióneles que dividen la distribución de frecuencia en 100 partes iguales. Con estos se puede calcular cualquier porcentaje de datos de la distribución de frecuencia. Los percentiles son las medidas más utilizadas para propósitos de ubicación de valor de una serie de datos ubicados en una distribución de frecuencia. El número de percentiles percentiles de una distribución distribución de frecuencia es de 99. El percentil percentil 50 es igual a la la mediana, al decil 5 y al cuartil 2, 2, es decir: Md ! Q2 ! D5 ! P 50 . ! 50% por encima y 50 % por debajo de los datos de la distribución. El cálculo de los percentiles percentiles es similar al cálculo de de los los cuartiles y los los deciles con una variante en la la posición de ubicación de estos, que viene expresada por la siguiente fórmula:
« aN » aa ¼ ¬ aN . Con esta posición se aplica la formula: for mula: P a ! Li ¬ 100 . . P Pa ! ¼ Ic 100 f ¬ ¼ ¼½ -¬
1. ± Dada la siguiente distribución correspondiente al salario semanal en dólares de un grupo de obreros de una empresa petrolera trasnacional. Calcule: a) Q1, b) Q2, c) Compare Compare los resultados resultados con la mediana mediana D3, d) D5, e) P 25, f) P 50, g) P 7
SALARIO EN $ 200-----299 200----299 300-----399 300----399 400-----499 500-----599 500----599 600-----699 600----699 700-----799 700----799 Totales = N
f i
Fa
85 90 120 70 62 36 463
85 175 295 365 427 463
1 x463 463 ! ! 115 .75. P Q1 = 115.75. 4 4 Con ese valor de la posición encontrado se busca en las frecuencias acumuladas acumuladas para ver ver cual de de esas contiene ese valor. Observando las frecuencias acumuladas se puede detectar detectar que la posición 115.75 se encuentra en la clase 300 300------399 ------399,, por lo tanto el Li = 299.5, fm = 90, y la Faa = 85 y Ic = 100, aplicando la formula se tiene:
a) Para calcular Q1, se determina determina primero la posición así: P Q1 !
Q1
3075 «115.75 85 » . 100 299 . 5 ! 299.5 ¬ ! ! 299.5 34.17 ! 333.67. ¼½ 90 90 -
Este valor de Q1 indica que el 25 % de los los obreros en estudio, estudio, devengan devengan un salario semanal por por debajo de 333.67 $ y el 75 % resta restante nte gana un sala salario rio por por encima de 333.67 $. $. 2 x 463 b) Para calcular Q2=Md se determina primero la posición de este así. P Q 2 ! ! 231 .5 , ahora se 4 ubica esta posición posición en las frecuencias acumulados acumulados para determinar la posición posición de Q 2, se puede puede observar en la distribución que esta posición de Q 2 esta ubicada ubicada en la clase 400 400----499, ----499, entonces, Li = 399.5, fm = 120, Faa = 175 y Ic = 100, 100, aplicando la la formula se tiene: 5650 « 231.5 175 » .100 ! 399.5 p 399.5 47.08 ! 446.58. ¼ 120 - 120 ½
Q2 ! 399.5 ¬
Este resultado de Q2 establece que el 50 % de de los obreros de este este estudio, devengan un salario semanal por debajo de 446.58 $ y el otro 50 % devenga un sueldo por encima de 446.58 $. Calc Calcule ule la mediana y compárela con este resultado. 3 x 463 c) Para determinar D3 = P 30 hay primero que calcular la posición de este así: P D3 ! ! 138.9 , ahora 10 se ubica esta posición en las frecuencias acumuladas para determinar la posición de D 3, en la tabla de la distribución de de frecuencia se observa que D 3 se encuentra encuent ra en la clase clas e 300----399, luego, Li = 299.5, fm = 90, Faa = 85 y Ic = 100, 100, aplicando la la formula se tiene:
«138.9 85 » .100 ! 299.5 59.89 ! 359.39 . Esto indica que un 30 % de de los obreros ganan un - 90 ¼½ salarioo semanal por debajo de 359.39 $ y el 70 % restant salari restantee devenga un sueldo por encima de 359.39 $. d) Calcular, D5 = Q2 = P50, además P25 = Q1, la comprobación comprobación de de estos resultados se le deja como como practica al estudiante. 70 x 463 g) Para calcular P70 lo primero que se hace es determinar la posición, P P 70 ! ! 324 .10 . Ahora 100' se ubica este resultado en la columna de frecuencias acumuladas para encontrar encontrar la posición de P 70 en la distribución de frecuencia. Como se puede observar en la tabla de distribución de frecuencia, P 70 se D3 ! 299.5 ¬
encuentra encuentr a ubicado en la clase clas e 500-------599, entonces, entonces , Li = 499.5, fm = 70, Faa = 295 y aplicando la formula se tiene:
Ic = 100,
« 324.10 295 ».100 ! 499 .5 2910 ! 499.5 41.57 ! 541 .07. P 70 ! 499.5 ¬ ¼½ 70 70 Esto indica que el 70 % de los obreros devengan devenga n un sueldo semanal sema nal que está por debajo debajo de 541.07 541.07 $ y que el 30 % de los rest restant antes es obreros, ganan un salar salario io por encima de 541.07 $.
PORCENTAJES DE VALORES QUE ESTÁN POR DEBAJO O POR ENCIMA DE UN VALOR DETERMINADO Muchas veces necesitamos conocer el porcentaje de valores que están por debajo o por encima de un valor determinado; lo que representa un tipo de problema contrario al estudiado estudiado anteriormente, esto es, dado un cierto valor en el eje de abscisa (X) del plano cartesiano, determinar en la la ordenada (Y) el tanto por ciento de valores inferiores y superiores al valor dado. Operación que se resuelve utilizando la siguiente fórmula matemática:
« f ( P Li » 100 p ! ¬ faa i ¼ N , donde: I c ½ p ! porcentaje que se quiere buscar. P ! Valor dado en el eje de las X (valor que se ubica en las clases). faa ! Frecuencia acumulada de la clase anterior a la clase donde se encuentra ubicado P. clas e donde se encuentra ubicada P. f i ! Frecuencia de la clase Li ! Limite inferior de la clase donde se encuentra ubicada P. I c ! Intervalo de clase. N = Número total de datos o total de frecuencias. los datos de la distribución distribución de frecuencia anterior, Determine que porcentaje de EJEMPLO: Utilizando los obreros ganan un salario semanal semana l inferior a 450 $.
Solución: Datos: p ! ? P ! 450 aa ! 175 f aa Li ! 400 I c ! 100 N = 463 Ahora se aplica la formula:
« f ( P Li » 100 Sustituyendo valores se s e tiene: p ! ¬ faa i ¼ N , Sustituyendo I c ½ 120(450 400 » 100 « p ! ¬175 ¼½ 463 p p ! 50.75 100 De acuerdo con el resultado se puede afirmar que el 50.75 % de los obreros devengan un salario inferior a 450 $ y el 49.25 % de los obreros ganan un salario superior a 450 $.
MEDIDAS DE DISPERSIÓN Las medidas de posición central son los valores que de una una manera condensada representan una serie de datos, pero realmente no son suficientes para para caracterizar una distribución distribución de frecuencia. frecuencia. Para describir una una distribución de frecuencia o serie de datos es necesario, por lo menos otra medida que indique la dispersión o variabilidad de los datos, es decir, su alejamiento de las medidas de posición central. Estas medidas de posición central no tienen ningún valor si no se conoce como se acercan o se alejan esos valores con respecto al promedio, en otras palabras es conocer como se dispersan o varían esos valores con respecto al promedio de una distribución de frecuencia.
La dispersión o variabilidad se entiende como el hecho de que los valores de una serie difieran uno de otro, es decir, como se están dispersando o distribuyendo en la distribución. De acuerdo con esto es necesario encontrar una medida que indique hasta que punto los valores de una variable están dispersos en relación con el valor típico. Las medidas de variabilidad son números que expresan la forma en que los valores de una serie de datos cambian alrededor de una medida de posición central la cual por lo general es la media aritmética. La dispersión dispersión puede puede ser mayor mayor o menor, tomando en cuenta esas diferencias. La variabilidad variabilidad es la la esencia esencia de la estadística, puesto que las variables y atributos se caracterizan siempre por diferencias de valores entre observaciones individuales. Casi siempre en una distribución de frecuencia el promedio obtenido difiere de los datos de la serie; por esto es importante determinar el grado de variación o dispersión de los datos de una serie de valores con respecto al promedio. Las medidas de dispersión se clasifican en dos grandes grupos: a).- Las Medidas de Dispersión Absolutas y las Relativas; Relativas; las Relativas, vienen expresadas en las mismas mismas medidas que se identifican la serie de datos, las mismas son: 1).- El Recorrido, 2) La Desviación cuartilica, 3) La Desviación Desviación Semicuartilica, Semicuartilica, 4) La desviación desviación Media, 5) La Desviación Típica Típica o Estándar 6) La varianza. Las Medidas de Dispersión relativa. Son relaciones entre medidas de dispersión absolutas y medidas de tendencia central multiplicadas multiplicadas por 100, por por lo tanto vienen vienen expresadas en porcentaje, su función es la de encontrar entre varias distribuciones la dispersión existente entre ellas. La medida de dispersión relativa de mayor importancia es el Coeficiente de Variación. Se llama V ariación datos, el grado en que los valores de una una distribución o serie ariación o Dispersión de los datos, numérica tiende a acercarse o alejarse alrededor de de un promedio. Cuando la dispersión es baja indica indica que la serie de valores es relativamente homogénea homogénea mientras que una variabilidad alta indica una serie de valores heterogénea. Cuando los los valores observados de una serie están están muy concentrados alrededor alrededor del promedio, se dice que ese promedio es o será muy representativo; pero si están muy dispersos con relación al promedio, es decir muy esparcidos con respecto al promedio, entonces ese promedio es poco representativo de la serie o distribución, puesto que no representan adecuadamente los datos individuales de esa distribución. Es importante obtener obtener una medida que que indique hasta qué punto punto las observaciones observaciones de una una serie de valores valores están variando en relación con el valor típico de la serie.
RANGO O RECORR RECORRIDO(R) IDO(R) -. Es la primera medida de dispersión, no esta relacionada con ningún promedio en particular, ya que que este se relaciona con los datos datos mismos, puesto que su cálculo se determina determina restándole restándol e al dato mayor de una serie seri e el dato menor de la misma, más una unidad de medida (UM). El rango es el número número de variables diferentes diferentes que posee una serie de valores. Su formula formula se calcula así: Rango(R) = Dato mayor (X M)Dato Menor (Xm) + Una unidad de medida (1UM): R = XM Xm + 1 UM. UM. El rango es es la medida de dispersión dispersión más sencilla e inexacta dentro dentro de las medidas medidas de dispersión absoluta. Esta medida tiene bastante uso en el control de calidad de los productos manufacturados.
DESVIACIÓN ÍNTERCUARTILICA (DC). - La desviación íntercuartilica es la diferencia que existe entre el cuartil tres(Q 3) y el cuartil uno(Q 1 ) de una una distribución de frecuencia y se expresa expresa así: DC = Q 3 Q1. DESVIACIÓN SEMI-ÍNTERCUARTILICA (DSC). - La desviación semi-íntercuartilica es la diferencia entre el Q3 y el Q1 dividido entre dos: DSC !
Q3
Q1 . 2
Si los valores de la DC o DSC son pequeños pequeños indica una alta concentración de los datos de la distribución en los valores centrales de la serie de datos. Estas medidas se utilizan para comparar los grados de variación de los valores centrales en diferentes distribuciones de frecuencias. Los mismos no son afectados por los valores extremos, no se adaptan a la manipulación manipulación algebraica, algebraica, por por tal motivo son de poco utilidad. utilidad.
DESVIACIÓN MEDIA.- La desviación media de un conjunto de N observaciones x 1, x 2, x3,.............x n, es el promedio promedio de los los valores absolutos absolutos de las desviaciones desviaciones (di) con respecto a la media aritmética o la mediana. Si se denomina como como DM a la desviación desviación media, entonces su fórmula fórmula matemática será la siguiente: N
DM !
§ i
N
X i X
!1
N
!
§ i
d i
!1
N
Esta fórmula es para datos no agrupados . Se toma el valor absoluto en la ecuación, debido a que la primera propiedad de la media aritmética establece que los desvíos (d ) i) de una serie con respecto a la media aritmética siempre son iguales a cero c ero,, es decir: d i = 0. Cuando los datos están en una distribución de clases o agrupados agrupados se aplica la siguiente fórmula:
!
§ i !1
i
i
!
§
i
di
i !1
es el punto medio de cada clase y f i es la frecuencia En esta fórmula X frecuencia de cada clase. La Desviación Media a pesar de de que para su cálculo se toman todas las observaciones observaciones de la la serie, por el motivo de no no tomar en cuenta los signos de las desviaciones (d i), es de difícil manejo algebraico. Su utilización en estadística es muy muy reducida o casi nula, nula, su importancia es meramente meramente histórica, ya que de de esta esta fórmula es la que da origen a la desviación típica o estándar.
DESVIACIÓN TÍPICA O ESTÁNDAR Es la medida de dispersión más utilizada en las investigaciones por ser la más estable de todas, ya que para su cálculo se utilizan todos los desvíos con respecto a la media aritmética de las observaciones, y además, se toman en cuenta los signos de esos desvíos. Se le designa con la letra castellana S cuando se trabaja con una muestra y con la letra griega minúscula W (Sigma) cuando se trabaja con una población. Es importante destacar que cuando se hace referencia a la población él número de datos se expresa con N y cuando se refiere a la muestra él número de datos se expresa con n. La desviación típica se s e define como: ³ La
raíz cuadrada positiva del promedio aritmético de los cuadrados de los desvíos de las observaciones con respecto respecto a su media media aritmética´. La desviación desviaci ón típica es una forma refinada de la desviación media´. Características de la Desviación Desviación Típica: * La desviación desvia ción típica se calcula con cada uno de los valores de una serie de datos.
* La desviación típica se calcula con respecto a la media aritmética de las observaciones de una serie de datos, y mide la variación alrededor de la media. * La desviación típica es susceptible de de operaciones operaciones algebraicas, puesto puesto que que para su calculo se utilizan utilizan los signos positivos y negativos de los desvíos de todas las observaciones de una serie de valores, por lo tanto ta nto es una medida completamente matemática. * Es una medida de bastante precisión, que se encarga de de medir el el promedio de la dispersión de de las observaciones de una muestra estadística. Las influencias de las fluctuaciones del azar, al momento de seleccionar la muestra la afectan muy poco. Le da gran significación a la media aritmética de la serie de valores. * Es siempre una cantidad positiva.
INTERPRETACIÓN DE LA DESVIACIÓN TÍPICA La desviación típica como medida absoluta de dispersión, es la que mejor nos proporciona la variación de los datos con respecto a la media aritmética, su valor se encuentra en relación directa con la dispersión de los datos, a mayor dispersión dispers ión de ellos, mayor desviación desviaci ón típica, típic a, y a menor dispersión, dispers ión, menor desviación desviaci ón típica. Su mayor utilidad se presenta en una distribución normal, ya que en dicha distribución en el intervalo determinado por X s W se encuentra el 68. 27% de los datos de la serie; en el intervalo determinado por la X s 2W se encuentra el 95,45% de los datos y entre la X s 3W se encuentra la casi totalidad de los datos, es decir, el 99,73% de los datos; además, existe una regla general de gran utilidad para la comprobación de los cálculos que dice: ³una oscilación igual a seis veces la W , centrada en la media comprende aproximadamente el 99% de los datos´. Ver gráfica.
68,27%
95,45%
99,73% 2,14%
13,59%
34,14%
34,14%
13, 59 59 %
2,1 4% 4%
Media
A la zona limitada por la X s W conoce bajo el nombre nombre de zona normal, ya que se considera considera a los datos que caen dentro de esa zona, datos normales en relación con el grupo estudiado; los datos que estén por encima o por debajo de dicho intervalo se consideran consideran supranormales e infranormales.
Una regla empír i a indi a que en cualquier di tr i uci n norma l las probab ilidades delimitadas entre 1 desviaci n tí p pica, 2 desviaciones tí p picas y 3 desviaciones tí p picas son el 68%, 95% y 99% respec tivamente. er las graf icas s iguient es.
Cál l e l Desvi i Tí i .- La desviaci tí ica para ca lcular la se procede de dos formas : A).- Para datos no agrupados en c l ases, ases, B). - Para da tos agrupados en cl ases. ases.
A). - Para atos n o Agrupados.- Las formulas para determinar la desviaci n tí p pica de una son:
!
2. .d i2
§ ( X
i
X
n
!
( X i
!
2 X )
§ d
i
n
S y de una W
3 . .S !
( § X i ) 2 § X n N § X i2 ( § X i ) 2 ! n 1 n ( n 1) 2 i
Es importante recordar que cuando se trabaja con la formula para datos no agrupados y se trata de una muestra se utilizará como denominador n1, para corregir el sesgo, pero si en la muestra n u 50 ,entonces se utilizará n, simplemente.
Para caular la desviacián tipica de una poblacián para datos no agrupados, se utilizan las siguientes siguie ntes formulas:
§ ( X i X ) 2
4 . .W !
5 . .W !
N
§ X i2 N
§ d i2
!
N
2
¨ X ¸ ©© § i ¹¹ ! ª N º
§ X i2 X 2 N
Método para calcular la Desviación Típica en datos no agrupados: * Se calcula la media aritmética. * Se calculan los los desvíos (d ) media aritmética. i) de la serie de valores X i, con respecto a la media * Se elevan al cuadrado cuadrado cada una una de las desviaciones (d i)2 , y se determina la sumatoria de esos. De la misma forma se elevan al cuadrado cada uno de los Xi y se calcula la la sumatoria de estos; de igual manera se calcula la sumatoria de los X i y se elevan al cuadrado. cuadrado. Despues de hacer todos todos estos cálculos se elabora un cuadro estadístico con estos cálculos. * Finalmente se aplica la formula de la desviación desviación típica para datos no agrupados de la muestra muestra o de la población, según el caso. Ej.1 ± Los sigui siguientes entes valores corresponden a la edad de ñiños de una muestra tomada de una pob población: lación: Xi = ¯3, 4, 5, 6, 7 ¿. Determine la desviación típica. X !
§ X i n
!
25 !5 5
§
Xi
(X i X ) ! d i
3 4 5 6 7
3±5 4±5 5±5 6±5 7±5
i
! 25
§
d i2 4 1 0 1 4
=-2 =-1 = 0 = 1 = 2 d
i
! 0
§
d i ! 10
Este problema se resolverá utilizando la media aritmética y
1 . . S !
§
d i2
n 1
!
10 ! 4
sin utilizar la media, media, para ello se
2 . 5 ! 1 . 58
2
n§ X i2 § X i 5(135 625 50 3. .S ! ! ! ! 1.58 5(4) 20 n(n 1) utilizarán las formulas 1 y 3. Interpretación.- El resultado obtenido con las formulas 1 y 3 indican que en promedio, las edades de los ñiños de esa muestra se desvian o varian con respecto a la media aritméticaen una cantidad igual a 1.58 años. Si este este problema se resuelve ahora, considerando los datos como como si fueran fueran de una población y se aplica la entonces se tiene: formula 4 y 5, entonces
4 . .W !
§
d i2 ! N
10 ! 5
2 ! 1 . 41 .
2
X i2 ¨ § X i ¸ 135 625 § ¹ ! 5. .W ! ©© ! 27 25 ! 2 ! 1.41. 5 5 N ª N º¹
!
60 . 83 56 . 25 !
4 . 58 ! 2 . 14
En la solución del del problema con las formula 4 y 5 de la población población se observa que la W de la población es menor que la S de la muestra, esto es debido a que la S de la muestra utilizó n-1 , para corregir el error producto del sesgo, y la W de la población no lo utilizó. 2 ± Los años de sevicio de 6 obreros obreros son 5, 5, 5, 8, 7, 9, y 11, los mismos corresponde corresponde a una muestra muestra tomada de una empresa. empresa. Cálcule la desviación típica (S y W ). ). Se calcula la media
X !
5 5 7 8 9 11 45 ! ! 7.5 6 6
( i ) ! di 5 ± 7.5 = - 2.5 5 ± 7.5 = - 2.5 7 ± 7.5 = - 0.5 8 ± 7.5 = 0.5 9 ± 7.5 = 1.5 11 ± 7.5 = 3.5 di ! 0
i
5 5 7 8 9 11 § X i i = 45
§
§
d i2 6.25 6.25 0.25 0.25 2.25 12.25 d i ! 27.50
2 i
§
25 25 49 64 81 121 X i2 ! 365
Con esto datos se aplican aplican las formulas 1, 4 y 5 para calcular la muestra, se deja la formula formula 3 para que sea aplicada por el el participante, el el resultado será igual al de de la formula formula 1. Calculos: Calculos:
§ d
2 i
1 . .S !
27 . 5 ! 6 1
!
n 1
27 . 5 ! 5
5 . 5 ! 2 . 35 .
considerado los datos como c omo de una poblacián). Ahora se calculará calculará la W para la población ( considerado
§
d i2 ! N
4 . .W !
5. .W !
§
X i2
N
27 . 5 ! 6
§
4 . 58 ! 2 . 14 .
2
2 ¨ X i ¸¹ 365 ¨ 45 ¸ 365 ¨ 2025 ¸ © © ! ! © © ¹ ¹ ! 4.58 ! 2.14. N ¹ 6 ª 6 º 6 ª 36 º ª º
Interpretación.- El resultado obtenido al aplicar la formula 1, 2, 3 , 4 y 5 indica que en promedio, los años de servicios de los trabajadores de la empresa se desvian o dispersan con respecto a su media aritmética en una cantidad igual a 2. 35 año según la muestra y de 2.14 años en la poblacion. B) ± Para datos Agrupados en Clases.- Para calcular la desviación típica en datos agrupado existen varios criterios en relacion a la corrección del sesgo que se produce al tomar una muestra, en este estudio se considerará la formula que corrige el sesgo de aquellas muestras en estudio; sin embargo, cuando n sea mayor que 50, no es necesario tal corrección. . Existen muchas formulas matemáticas para calcular la desvición típica, queda a juicio del estudiante utilizar utilizar la formula que él considere considere más fácil, siempre y cuando su aplicación sea valedera. B).- Formulas Para Para calcular la muestra y la población población de una desviación típica con datos agrupados en clases:
§ ( X X ) f 2
1. .S !
2 . . S !
i
i
n 1
§ X
2 i
f i
!
§ d f 2 i
n 1
f 2 X § i i
n
1
i
3 . .S !
§ f ( X i
Xa) 2
i
§
?
f i ( X i X a ) A
2
n
n 1
f K § 2
!p
§ f K i
2 i
i
n 1
i
n
Para calcular la S de la formula 1 es es necesario calcular calcular el punto medio medio de cada una de de las las clases de la distribución, distribución, calcular la media aritmética y luego calcular los desvíos de los puntos puntos medios con respecto a la media aritmética. En la formula 2 no es necesario necesar io calcular la media. En la formula 3, X a es un valor arbitrario arbitrario que que se toma toma de los Xi de la distribución, es recomrndable rec omrndable que se escoja el Xi lo más central central posible para así facilitar los calculos posteriores. posteriores. El término K i , en esta formula, viene a ser un desvío arbitrario con respecto a una mdia arbitraria X a .Entonces, K i ! (X X a ) . Este método para calcular S en datos agrupados, agrupados, se fundamenta fundamenta en la propiedad propiedad de la desviación típica que establece: ³si a cada una de los valores de una serie de datos se le suma una constante, la desviación típica no se altera en sus resultados´.
4 . .W !
§ f i ( X i X ) 2
5 . .W !
§ f X
6 . .W !
7 . .W !
N
i
N
§
§
2 i
!
§ f i d i2 N
X 2
f i X i2 ¨ ©© N ª
f i ( X i N
§ f i X i ¸¹ N º¹
¨ Xa) © © ª 2
§
2
¸ f X
N
i
i
2
¹ ! ¹ º
§ f
Método para calcular la Desviación Típica en datos Agrupados:
* Se calcula la
2 i K i
§ f i K i
N
N
2
de cada una de las clases que integran la distribución de frecuencia, se determinan los * Se calcula el X i con respecto a la X , luego se elevan al cuadrado los d i y se multiplican por fi desvíos d i de los X fi, y i
§ f d
se calcula la
i
* Se calcula la
2 i
.
deter mina la § f X , luego se determina i
2 i
A2. § f i X i
?
* Se elabora un cuadro estadístico y se s e llevan a este todas los datos calculados. * Se aplica la formula necesaria para calcular la desviación des viación típica. corresponden a las horas horas extras trabajadas por los obreros de la empresa Ejemplos: 3 ± Los siguientes datos corresponden RINACA, en un mes (se resolverá considerando los datos como de una S y W). CLASES
f i
X i
f i X
40 ² 44 45 ² 49 50 ² 54 55 ² 59 60 ² 64 65 ² 69 70 ² 74
1 6 21 75 23 7 2
42 47 52 57 62 67 72
42 282 1092 4275 1426 469 144
135
di =
§ f =7730 § iXi
X i X
- 15.26 - 10.26 - 5.26 - 0.26 4.74 9.74 14.74 d i ! 1.82
f i d i2
§
f i X i
2
232.87 631.60 581.02 5.07 516.75 664.07 434.54 f i d i2 =3065.92
1764 13254 56784 243675 88412 31423 10368
§ f
2 iX i
=445680
Para resolver el problema problema lo primero que se debe hacer es calcular la media aritmética así:
X !
§ f X i n
!
7730 ! 57.26 135
, para determinar los otro parámetros necesarios (es recomendable que el Ahora se calculan los diferentes X i estudiante realice todos los los cálculos) para resolver el el problema problema planteado, en el el cuadro de arriba se colocaron los cálculos realizados que son necesarios para resolver el el mismo; este este se resolverá aplicando las formulas 1, 2, y 3 de la S , considerando los datos datos como los de una muestra, muestra, ya que esta claro que estos estos pertenecen a una población determinada, luego se calculará la W de la distribución aplicando:
1 . S !
2 . .S !
§ f i d i2 n 1
§
!
3065 .92 ! 135 1
f i X i2
§
n 1
f i X i
n
3065 .92 ! 22 . 88 ! 4 .78 134
2
445680 !
7730 2
135 135 1
!
3065 . 93 ! 134
22 . 88 ! 4 . 78 .
Para aplicar la fórmula fórmula 3 se toma una una media arbitraria X a que en este caso la más céntrica es es 57, luego luego se calculan los desvíos desvíos de los puntos medios con respecto a la X a así:
X ) se elabora un cuadro cuadro estadístico para resumir los datos y finalmente se procede a buscar la ( X i a desviación K i =
X i
f i 1 6 21 75 23 7 2 § f i ! 135
42 47 52 57 62 67 72
2 i
§
3 . .W !
( X i X a ) =Ki - 15 - 10 - 5 0 5 10 15
f i K
§
f i K i
f i . Ki - 15 - 60 - 105 0 115 70 30 § f i K i ! 35
2
N
N
3075 !
f i (k i)2 225 600 525 0 575 700 450 § f i K i2 ! 3075
35 2 135
135
!
1225 135 ! 3075 9.07 ! 3065 .93 ! 22.71 ! 4.76. 135 135 135
3075
!
obtenidos con las formulas formulas 1, 2, y 3, indican que el promedio promedio de las horas Interpretación.- Los resultados obtenidos extras laboradas por los trabajadores se desvían desvían o varían con respecto a su media media aritmética en una cantidad igual a 4.78 y 4.76 respectivamente. La misma interpretación se obtiene con los resultados obtenidos con las formulas 4, 5 y 6.
4 . .W !
5 . .W !
6. .W !
La
§ f i d i2 N
§ f i X i2 N
!
3065 . 92 ! 135
X 2 !
§ f i X i2 ¨ § f i X i ¸ N
22 .71 ! 4 . 76
445680 3278 . 62 ! 135
2
22 ,71 ! 4 .76 .
2
¹ ! 445680 ¨© 7730 ¸¹ ! 4.76. © © N ¹ 135 ª 135 º ª º
aplicaci aplicación ón de la fórmula 7 se deja para para que el participante la aplique y resuelva resuelv a el mismo problema, el cual tendrá resultados idénticos a los anteriores.
1 ± Los siguientes datos corresponden corresponden al número de de panes panes consumidos por un grupo de de familia de una urbanización de la ciudad, durante una semana sema na determinada. Para resolver el el problema problema se calcula la estudiante debe realizar los cálculos):
media y se procede a llenar el cuadro estadístico .siguiente(el
Clases 30²32 33²35 36²38 39²41 42²44 45²47 48²50 §
f i 10 18 60 100 80 14 6 288
f X 11520 § X ! ! ! 40.0. i
i
288
n
X i
Clases 30²32 33²35 36²38 39²41 42²44 45²47 48²50 §
f i 10 18 60 100 80 14 6 288
6 . .W !
§ f X i
f i X i 310 612 2220 4000 3440 644 294 11520
31 34 37 40 43 46 49
2 1
N
¨ ©© ª
§ f X ¸¹ i
N
i
¹ º
2
f i X i2 9610 20808 821400 8214 1600000 16000 147920 29624 14404 464508
X d i ! X i
-9 -6 -3 0 3 6 9
f i d i2 810 648 540 0 720 504 486 3708
2
!
464508 ¨ 11520 ¸ © ¹ ! 288 ª 288 º
! 1612 .88 1600 ! 12 .88 ! 3.59 .
1. .S !
§ f i d i2 n 1
!
3708 3708 ! ! 12 .92 ! 3.59 . 288 1 287
Interpretación.- Los resultados obtenido con las formulas 1 y 6 indican que en promedio, el consumo de Interpretación. pan de trigo del grupo de familias de esa urbanización se dispersa con respecto a su media aritmética en una cantidad igual a 3.59. La aplicación de las formulas 2, 3, 3, 4, 5 y 7 quedan como ejercicios de práctica para el participante, participante, los resultados tienen que ser idénticos a los obtenidos con las formulas 1 y 6. Es muy importante que observe obs erve el resultado obtenido con la formula 1 para él cálculo de S y el obtenido con la formula 6 para calcular la W ,
ambos resultados son idénticos, lo que indica que cuando la muestra es grande tanto la fórmula para calcular S como la utilizada para calcular la población produce al final el mismo resultado r esultado.. Es importante importante señalar que expertos en la materia consideran consideran que que cuando las muestras muestras son superiores superiores a 50 datos el error de sesgo ya no se produce o es insignificante y en consecuencia no es necesario utilizar la formula que se encarga de corregir el mismo, por tal razón es conveniente utilizar n y no, n-1.
VARIANZA ± Es otra de las variaciones absolutas y la misma se define como el cuadrado de la desviación típica; viene expresada con las mismas letras de la desviación típica pero elevadas al cuadrado, así S 2 y W2. Las formulas para calcular la varianza son las mismas utilizadas por la desviación típica, exceptuando las respectivas raíces, las cuales desaparecen al estar elevados el primer miembro al cuadrado. La varianza general de la población se expresa de la forma siguiente:
1 . .W
2
!
2 . .W 2 !
§ ( X
Q )2 .., para . datos . no . agrupados N i
§ f i ( X i Q ) 2 ..,. par a .datos .a grupad os os N
.
.
La varianza general de la muestra se expresa así:
3 . . S 2 !
4 . . S
2
§ ( X i
X ) 2
n 1
f ( X § ! i
i
n 1
..,. par a .datos .no .a grupad os os .
X )
..,. para .datos .agrupados .
La mayor utilidad de la varianza se presenta en la estadística inferencial.
Propiedades de la Desviación Típica: constante k es cero. Si se parte parte de que la la media aritmética de una una constante 1 ± La desviación típica de una constante es igual a la constante, esto es así, debida a que al ser todos los datos iguales no habrá dispersión en la serie de datos con respecto a la media aritmética, por lo tanto W(k) = 0. variables se le suma o se le resta una una constante K , la 2 ± Si a cada uno de los valores de una serie de variables desviación típica no se altera. Esta se apoya en la propiedad de la media aritmética que estab esta blece ³si a cada valor de la serie se le suma una constante, la media media de la nueva serie es igual igual a la media de la serie original más la constante´, igual sucede con la resta, la nueva media vendrá disminuida en el valor de dicha constante. W
( X i s K )
3 ± Si
!
W
( X i )
a cada uno de los términos términos de la serie de valores valores se le multiplica multiplica por una una constante K , la desviación típica de la serie quedará multiplicada por K , y la nueva desviación típica será igual a la constante K tomada en valor absoluto por la desviación típica original. Esta propiedad se apoya en la propiedad del producto de la media aritmética
W ( X . K ) i
! . K .. W
( X i )
.
2 Para distribuciones distribuciones normales siempre s iempre se cumple que: 68.27 % de los datos se encuentran en el intervalo intervalo ( X s W). 95.45 % de los datos se encuentran en el intervalo ( X s 2W). 99.73 % de los datos se encuentran en el intervalo ( X s 3W). Estos valores se cumplen con bastante aproximación, para distribuciones que son Normales y para las que son ligeramente asimétricas.
5 ± Para dos series de valores, de tamaño n1 y n2, con variaciones S 21 y S 22, respectivamente, la varianza combinada S2T de ambas series será
n1S 12 n2 S 22 S ! n1 n2 2 T
DISPERSIÓN RELATIVA. Las medidas de variabilidad, estudiadas hasta ahora, solo permitían medir las dispersiones absolutas de los términos de la muestra. Las medidas, tomadas en esas condiciones, serán de utilidad, solo cuando se trata de analizar una sola muestra; pero, cuando hay que establecer comparaciones entre distintas muestras, será necesario expresar tales medidas en valores relativos, que pueden ser proporciones proporciones o porcentajes . Las medidas de dispersión relativas permiten comparar grupos de series distintas en cuanto a su variación, independientemente de las unidades en que se midan las diferentes características en consideración. Generalmente las medidas de dispersión relativas se expresan en porcentajes, facilitando así el estudio con medidas procedentes de otras series de valores La dispersión relativa viene a ser igual a la dispersión absoluta dividida entre el promedio. Existen varias medidas de dispersión relativa, pero, pero, la más usada es el coeficiente de variación de Pearson, este es un índice de variabilidad sin dimensiones, lo que permite la comparación entre diferentes
C V V !
W
X
x100 .
distribuciones de frecuencias, medidas en diferentes unidades. El coeficiente de variación de Pearson Pearson se designa con las letras C V V. La fórmula matemática es: V pierde utilidad, cuando la \ es muy cercana a cero. El C V cero. Una serie de valores será más dispersa que otra otra V sea mayor. respecto a su \ mientras que su C V mercado de tres productos, varía de acuerdo al siguiente cuadro. Determine el C V de 5 ± La venta en el mercado cada uno y diga cuál de ellos presenta mayor variación y cuál la menor.
Producto 1 2 3
X
45 450 4500
S 5 40 350
Unidades Bs. Bs. Bs.
CV 11.11 % 8.87 % 7.78 %
V de cada producto y luego sé determina cuál presenta mayor o Para resolver resolver el problema se calcula el el C V menor variación
CV = Sx100/ X CV1 = 5x100/45 = 11.11 %. CV2 = 40x100/450 = 8.87 %. CV3 = 350x100/4500 = 7.78 %. Se puede observar que la menor dispersión la presenta el producto 3, por lo tanto, de los 3 productos el que menos varia es ese; por por otro lado el de mayor mayor dispersión dispers ión o variabilidad varia bilidad es el producto product o 1.
TEORÍA DE LOS MOMENTOS .- Los momentos son indicadores matemáticos de diversos valores. Los diversos valores, están es función del parámetro estadístico o valor que se tome, para ser fijado como punto de referencia. Sean X 1, X 2, X 3, .......... X X n, los valores que toma la variable X i; se define entonces, momento mi de orden r con respecto al promedio aritmético ( X ) de los valores de la variable X i elevados a la potencia r ; siendo r cualquier valor comprendido entre,1 , 2, 3,...., n. Matemáticamente:
§ (X X) ! § d m ! r
i
i
n
r i
n
Los momentos se pueden definir también como las potencias de los desvíos d i con respecto a un determinado valor, que puede ser la media aritmética, el origen cero o una media arbitraria. En estadística son importantes los momentos 1, 2, 3 y 4 con respecto a la media aritmética y el momento 1 con respecto al origen que viene a ser igual a la media aritmética
Formulas para determinar los momentos con respecto a la media aritmética A) ± Para datos no agrupados
1. .m1
( X !§
2. .m2
( X i _ X )2 § d i2 § ! ! ! S 2
3. .m3
( X i X ) 3 § d i3 § ! !
X ) 1
i
n
d !§
1 i
n
n
4 . .m 4 !
n
n
n
§ ( X i X ) 4
§ d i4
n
!
n
!0
B) ± Para
datos agrupados
1 . .m 1 !
2 . .m 2 !
.3 . .m 3 !
.4 . .m 4
§
f i ( X i X ) 1 ! n
§ f ( X i
i
X ) 2
!
n
§ f i ( X i X ) 3 n
f i d i1 ! 0 n
§ f d i
n
2 i
! S 2
f i d i3 § ! n
X ) f ( X !§ i
§
4
i
n
f d !§ i
4 i
n
Descripción de los Momentos: 1. - El primer momento con respecto a la X es siempre igual a cero, este momento es similar a la primera propiedad de la X . 2. ± El segundo momento con respecto resp ecto a la X es siempre igual a la varianza. 3.- El tercer momento momento con respecto a la media media aritmética se utiliza para para determinar el el coeficiente coeficiente de asimetría SK m. 4. ± utiliza para determinar el ± E l cuarto momento con respecto a la media aritmética es un valor que se utiliza coeficiente de kurtosis, de una serie de valores.
Formula de los momentos con respecto al origen cero:
5 . .m1 ! 6 . .m 1 !
§ ( X i 0 )1 n
!
§ f i ( X i 0) 1 n
§ X i n !
! X .,.en .datos .no .a grupad os os .
§ f i X i n
! X .. par a ,.datos .a grupad os os
Procedimiento para Calcular los mi de una serie de datos: 1 ± Se calcula la media aritmética. de la serie de valores con respecto a la media aritmética. 2 ± Se determinan los mi de los Xi y de los X i 3 ± Se determinan las §di con respecto X para los datos no agrupados y la §f i di para los datos agrupados según el caso. 4 ± Se elabora un cuadro estadístico con los datos calculados. 5 ± Se aplican las formulas para calcular los momentos según el caso.
1.- Sean los siguientes datos los años de servicio de un grupo de de trabajadores. Determine el m1, m2, m3 y m4 con respecto a la media aritmética. Solución.- Lo primero que se hace es calcular la X y luego se procede a calcular los d 1, d2, d3 y d4 con respecto a la X después se aplica la fórmula para calcular los momentos de datos no agrupados.
(Xi- X ) = d1 (5 ± 8) = -3 (6 ± 8) = -2 (7 ± 8) = -1 (9 ± 8) = 1 (13 ± 8) = 5 §d = 0
Xi 5 6 7 9 13 §Xi =40
X !
m1 !
§ X i
!
n
§ ( X
i
n
X ) 1
§
!
d i1 n
m2
m4
( X i X ) 4 § d i4 § ! ! n
(Xi- X )3 = d3 -27 -8 -1 1 125 §d3 =90
(Xi- X )4 = d4 81 16 1 1 625 §d4 = 724
40 !8 5
( X i X ) 2 § § ! ! n
(Xi- X )2 = d2 9 4 1 1 25 2 §d = 40
d i2
n
n
!
0 ! 0. 5
40 ! !8 5
!
m3
( X X ) !§ i
n
3
d !§
3 i
n
!
90 ! 18 . 5
724 ! 144.8. 5
2 ± La siguiente distribución de frecuencia corresponde al consumo de de azúcar trimestral de un grupo grupo de familias. Determine el m1, m2 , m3 y el m4 con respecto a la media aritmética. arit mética. CLASES 5 ²7 8 ²10 11 ²13 14 ²16 17 ²19 20 ²22 23 ²25 §
f i 5 10 15 30 15 10 5 90
X y que se hace es elaborar un cuadro cuadro estadístico, luego se calcula la la Solución .- Lo primero que posteriormente se determinan determinan los desvíos d1, d2, d 3 y d4 con respecto a la media y finalmente con los datos obtenidos en el el cuadro se aplica la fórmula fórmula para obtener los momentos en datos agrupados. agrupados.
CLASES
f i
X i
f i X i f i .
di
f i .di
f i .d2
f i .d3
f i .d4
5 ²7 8 ²10 11 ²13 14 ²16 17 ²19 20 ²22 23 ²25 §
X !
§ f X ! 1350 i
X ) f ( X f d !§ !§ 1
m1
6 9 12 15 18 21 24
i
i
1 i
i
n
n
m2
X ) f ( X § !
m3
X ) f ( X § !
m4
f i ( X i X ) 4 § !
i
2
i
i
n
n
!
f d !§
2 i
i
n
i
30 90 180 450 270 210 120 1350
-9 -6 -3 0 3 6 9 0
-45 -60 -45 0 45 60 45 0
405 360 135 0 135 360 405 1800
-3645 -2160 -405 0 405 2160 3645 0
32805 12960 1215 0 1215 12960 32805 93960
! 15 .0 .
90
n
5 10 15 30 15 10 5 90
n
3
f d !§ i
3 i
n
f i d i4 § ! n
0 ! 0. 90 !
!
!
1800 ! 20 . 90 0 !0 90 93960 ! 1044 . 90
4.- La siguiente distribución de frecuencia corresponde al consumo de azúcar de un grupo de familias. Determine el m1 con respecto al origen.
CLASES 5²7 8²10 11²13 14²16 17²19 20²22 23²25 §
fi 5 10 15 30 10 15 5 90
X i
0 ! X X i i
6
6-0 = 6
Cuadro resumen
CLASES 5²7
f i 5
f i X i 30
8²10 11²13 14²16 17²19 20²22 23²25 §
0) f ( X f X § § ! ! 1
m1
i
i
n
i
n
i
! X !
10 15 30 15 10 5 90
9 12 15 18 21 24
9-0 = 9 12-0 =12 15-0 = 15 18-0 = 18 21-0 = 21 24-0 = 24
90 1 80 450 270 210 120 1350
1350 ! 15.0. 90
El momento m1 con respecto al origen cero (0), siempre es igual a la media aritmética.
Medidas de Asimetría y Kurtosis Kurtosis Simetría.- Según el Diccionario de la Real Academia Española es la ³Regularidad en la disposición disposición de las partes o puntos de un cuerpo o figura, de modo que posea un centro, un eje o un plano de referencia ´. Es por lo tanto la armonía de posición de las partes o puntos similares uno respecto de otros y con referencia a puntos, líneas líneas o planos determinados. Se puede generalizar generalizar diciendo que es una proporción de las partes entre sí y con el todo. En estadística se dice que una distribución de datos es simétrica si se le puede doblar a lo largo de un eje vertical de una manera tal que coincidan los dos lados de la distribución . Las distribuciones que no tienen simetría con respecto al eje vertical se les llama sesgada o asimétrica . Una distribución sesgada a la derecha tiene una cola prolongada del lado derecho de la distribución y una cola más corta del lado izquierdo de la misma; esta asimetría se le denomina positiva, cuando la cola de la distribución del lado izquierdo es más larga que la del del lado derecho, entonces entonces la asimetría es negativa. En una distribución simétrica la media, la mediana y la moda son iguales. La simetría se mide por medio del coeficiente de asimetría. Una distribución simétrica tiene un coeficiente de asimetría igual a cero. Cuando una distribución de frecuencia es asimétrica, la media, la mediana y la moda se alejan una de otra, es decir, las tres medidas de posición son diferente; mientras más se separe la media de la moda, mayor es la asimetría. Si la distribución de frecuencia es asimétricamente negativa, la cola de la curva de distribución se encuentra hacia los valores más más pequeños de la escala de las X y si la distribución distribución es asimétricamente positiva la cola de la distribución se ubica hacia los valores más grandes de la escala de las X. Karl Pearson un estudioso de la estadística designo el coeficiente de asimetría con las letras SK y determinó la fórmula para su cálculo, al cual se le denominó primer coeficiente de asimetría de Pearson
SK 1 !
( X M o ) S
Esta fórmula se puede transformar transfor mar por medio de la relación:
Mo ! X 3 X Md p Mo X ! 3 X Md p X Mo ! 3 X Md . ahora se sustituye 3( X - Md) en el primer coeficiente X Mo ! 3 X Md , si ah primer coeficiente de asimetría de de Pearson Pearson, se tiene otro coeficiente de asimetría utilizando la mediana que se le denomina segundo coeficiente de asimetría de Pearson, este es más preciso que el primero
S K 2 !
3 ( X Md ) S
Arthur Bowley otro estudioso de la la estadística determinó que el el coeficiente de asimetría asimetría se podía calcular por medio de los cuartiles y utilizó el coeficiente de asimetría por medio de cuartiles (sk q), y la formula es
S K q !
Q1
Q3
Q3
2Q 2
Q1
En donde, Q 1, Q 2 y Q3 son los cuartiles cuartiles 1, 2 y 3 respectivamente. El valor valor de SK q varía entre 1 y 1; según Bowley una distribución distribución de frecuencia con un un coeficiente de asimetría igual igual a 0.1, se considera como ligeramente asimétrica y con un valor mayor 0.3 se le considera considera marcadamente asimétrica. El coeficiente de asimetría se puede calcular también en función de los momentos, siendo el momento m3 el parámetro utilizado para tal efecto. El coeficiente de asimetría según los momentos se designa con las letras SK m y sé calcula mediante la formula
SK m !
m3
S
3
En esta fórmula m3 es el el momento momento tres con respecto a la media media aritmética y S3 es la desviación típica elevada a la potencia tres. Este coeficiente es el más confiable de de todos los antes descritos, asi asi que para cualquier cálculo se debería utilizar este, ya que es un parámetro que utiliza todos los datos de la serie de valores. Si en una serie de valores la X " Md " Mo, entonces la distribución de frecuencia presenta una curva asimétrica positiva; si la X =Md = Mo = 0 , la curva de la distribución es simétrica y si la distribución presenta una curva en la que el Mo " Md " X , entonces se dice que la curva de la distribución asimétrica negativa. Sí la curva de una distribución de frecuencia es sesgada, la media tratara de ubicarse hacia el extremo o lado opuesto, de la serie de valores, valores, donde se concentran concentran los datos. Es bueno hacer hacer referencia que en una asimetría positiva la X " Md y en una asimetría negativa la X Md. Si en una distribución de frecuencia, los intervalos de las clases que la conforman presentan frecuencias balanceadas en cada uno de ellos y no presentan ninguna aglomeración especial en los extremos y, además, presenta una concentración de los datos en el centro de la distribución, entonces se dice que la distribución de frecuencia es simétrica. Cuando la curva de una distribución distribución de datos es simétrica el SK = 0, esta es una de las las características de la curva Normal o Campana de Gauss. Si la mayoría de los datos de una serie de valores están ubicados en el centro de la distribución y, además existe una dispersión medianamente hacia los extremos mayores o menores de las variables, entonces se afirma que la curva de la distribución es Ligeramente Asimétrica. Ejemplo
CLASES 1 f 1 3²5 6²8 9²11 12²14 15²17
5 10 25 40 20
CLASES 2 3²5 6²8 9²11 12²14 15²17
f 2 8 12 20 40 25
18²20 21²23 TOTAL
12 8 120
18²20 21²23 TOTAL
10 5 120
En este ejemplo la distribución 1 es ligeramente asimétrica positiva y la distribución 2 es ligeramente asimétrica negativa. La mayoría de las distribuciones de casos reales por lo general son ligeramente asimétricas. Una distribución de datos es marcadamente asimétrica si la mayoría de los datos de la misma se encuentran ubicados en los extremos extremos mayores ma yores o menores de las variables que conforman confor man la distribución. distr ibución. Si la mayoría de los de los datos de una serie de valores se encuentra situados en el extremo de las clases menores de la distribución, distribución, entonces la curva de la distribución distribución de frecuencia frecuencia presenta una asimetría positiva, siendo en este caso el SK " 0; y si por el contrario esa mayoría se encuentra encuent ra en los extremos extremos de las las clases clas es mayores de las variables, entonces la serie de valores valores presenta una curva con una una asimetría negativa, luego el Coeficiente de asimetría será mayor que cero, es decir, SK "0 Ejemplos:
CLASES 3 3²5 6²8 9²11 12²14 15²17 18²20 21²23 TOTAL
f 3 15 25 40 60 15 10 5 170
CLASES 4 3²5 6²8 9²11 12²14 15²17 18²20 21²23 TOTAL
f 4 5 10 15 60 40 25 15 170
En la distribución distribución 3 los datos presentan una curva marcada marcadamente mente asimétrica positiva y el caso 4 la la curva de la distribución es marcadamente asimétrica negativa. Existen distribuciones de frecuencias que presentan curvas fuertemente marcadamente asimétricas y otras que las curvas son ligeramente asimétricas. Considerar la asimetría de una curva de frecuencia marcadamente marcadamente o ligeramente ligeramente asimétrica, asimétrica, es un asunto de de criterio del investigador, puesto que que no no existen existen reglas rígidas establecidas que determinen las líneas divisorias o parámetros entre ligeramente o marcadamente asimétrica; Sin embargo cuando la mayoría de los datos de una distribución de frecuencia se ubican en los extremos mayores o menores de las variables se puede afirmar con certeza que la curva de la distribución es marcadamente asimétrica. Algunos investigadores como Arthur Bowley determinaron que si se aplica el SK q y ese coeficiente de asimetría obtenido es menor que 0.3 (sin considera el signo) se puede afirmar que la curva de la distribución es ligeramente asimétrica, en caso contrario la curva de la distribución sería marcadamente asimétrica. Otros investigadores utilizan el coeficiente de asimetría según los momentos (SK m) para tales efectos, pero no existe criterio en cual ha de ser el coeficiente especifico que marque él límite entre ligera y marcadamente. Sin embargo, en este estudio se considerará que un coeficiente de asimetría según los momentos comprendido entre 0.30 e S K m e 0.30, sería un buen límite para considerar una curva de distribución como ligeramente asimétrica, de lo contrario sería marcadamente asimétrica. El SK m es el coeficiente de asimetría de mayor precisión y confiabilidad, puesto que este, utiliza para su cálculo todos los valores de la serie de datos.
Es bueno afirmar que cuando el coeficiente de asimetría de una curva de distribución es marcadamente asimétrico no se puede utilizar la media aritmética como medida de tendencia central, puesto que esta es afectada altamente por los valores extremos de una serie de datos, en su lugar es recomendable utilizar la mediana como medida de posición.
KURTOSIS8 (CURTOSIS).- Es el grado de apuntamiento o altura de la curva de una distribución de frecuencia. La finalidad de la Kurtosis es determinar si la distribución de los términos de una serie de valores responde responde a una una curva normal o no. Se utiliza para para observar observar el promedio o posición de de la distribución, distribución, así como la media, la mediana y la moda, se puede en esta observar la asimetría, el grado de concentración de los datos, en fin, para observar en forma general el comportamiento de una serie de datos en una distribución de frecuencia. Por medio de la Kurtosis se determinará si la distribución de frecuencia es demasiado puntiaguda, normal o muy achatada. El grado de apuntamiento o altura de una curva de distribución se determina por medio del coeficiente de Kurtosis, el cual se calcula utilizando el momento cuatro de una serie de valores con respecto a su media aritmética. La Kurtosis se designa con la letra K 4 y la fórmula de cálculo es: K 4
!
m4 S 4
En esta fórmula m4 es el momento momento cuatro con respecto a la media aritmética y S4 es la desviación típica elevada a la cuarta potencia, K 4 es el coeficiente de Kurtosis. Tomando en cuenta la Kurtosis el k 4 de una curva de distribución puede ser: Mesocurtica, Platicurtica Mesocurtica, Platicurtica y Leptocurtica.
Mesocurticas.- Es aquella curva de una distribución de frecuencia que no es ni muy alta ni muy achatada, es la llamada curva normal . La curva curva Mesocurtica tiene un coeficiente coeficiente de Kurtosis igual a tres, es decir, decir, K 4 = 3. Leptocurtica.- Es aquella curva de la distribución que presenta un apuntamiento o altura relativamente más alta que la curva Mesocurtica, en esta los datos se encuentran más concentrados alrededor del máximo valor. El coeficiente de Kurtosis para curva Leptocurtica es es mayor de tres, es decir, K 4 " 3. Platicurtica.- Es la curva de una distribución de frecuencia que presenta un achatamiento más pronunciado que la Mesocurtica, encontrándose encontrándose los datos más dispersos alrededor del máximo máximo valor de la distribución. distribución. En esta curva el coeficiente c oeficiente de Kurtosis es menor de tres, es decir, K 4 3. En la gráfica 1 de Kurtosis se pueden observar los tres tipos de Kurtosis antes descritos, siendo la primera curva Platicurtica (azul), la segunda Mesocurtica (roja) y la última es Leptocurtica(amarilla):
GRAFICO I
KURTOSIS
1° PLATIKURTICA 2° MESOKURTICA 3° LEPTOKURTICA
Problemas Relaciona Relacionados dos con la asimetría asimetría y la (Kurtosis) curtosis curtosis 1 ± En la siguiente siguiente distribución distribución de frecuencia, determine determine el el coeficiente de asimetría utilizando los métodos métodos de Pearson, de Bowley y el de los momentos, momentos, interprete los resultados y haga un análisis de los diferentes resultados y diga diga cuál es el resultado resultado más recomendado en este caso; encuentre la Kurtosis e interprete los resultados. CLASES 10²12 13²15 16²18 19²21 22²24 25²27 28---30 §
f i 1 5 15 40 15 10 9 95
Solución.- Para resolver el problema lo primero que hay que hacer es calcular la X y determinar los desvíos di con respecto a la media, luego se elabora un cuadro estadístico con el resumen de los cálculos necesarios para determinar la asimetría y la curtosis. Además, se tendrá que que calcular la mediana, la moda, el Q1 el Q3, y después de realizar todos esos cálculos se procede a buscar la asimetría y la curtosis con las
formulas respectivas. En el siguiente cuadro se encuentran resumidos la mayoría de los cálculos necesarios, el resto se calcularan aparte. CLASES
f i
X i
f i X i
di
f i.i.di
f i.d2
f i.d3
f i.d4
10²12 13²15 16²18 19²21 22²24 25²27 28---30 §
1 5 15 40 15 10 9 95
11 14 17 20 23 26 29
11 70 255 800 345 260 261 2002
-10.07 -7.07 -4.07 -1.07 1.93 4.93 7.93
-10.07 -35.35 -61.05 -42.80 28.95 49.30 71.37 0.38
101.40 249.92 248.47 45.80 55.87 243.05 565.96 1510.40
-1021.15 -1766.97 -1011.29 -49.00 107.84 1198.23 4488.10 1945.76
10282.95 12492.45 4115.94 52.43 208.12 5907.28 35590.60 68649.77
Se recomienda recomienda al participante que debe realizar los cálculos de los los parámetros que solo aparecen sus resultados X = 21.07, Mo = 20.0, Q 1 = 18.71, Q 2 = Md = 20.49, Q3 = 23.55, S = 4.41, S 2 = 19.46, S 3 = 85.82, S4 = 378,82. S K 1 !
X Mo 21 .07 20.0 1.07 ! ! ! 0.27 S 3.99 3.99
El resultado indica que la curva de distribución es ligeramente asimétrica positiva. S K 2 !
3( X Md ) 3( 21.07 20.49) 1.74 ! ! ! 0.44 S 3.99 3.99
El resultado indica que la curva de la distribución es marcadamente asimétrica positiva. S K q !
Q1 Q2 Q3
2Q2
Q1
!
18.71 23.55 2(20.49) 1.28 ! ! o.26. 23.55 18.71 4.84
El resultado indica que la curva es ligeramente asimétrica positiva.
m3
f i d i3 § ! n
!
1945.76 ! 20.48 95
Para calcular el coeficiente de asimetría según los SK m se cálcula primero el m3 así:
SK m !
m3 3
S
!
20.48 ! 0.32 63 .40
El coeficiente SK m indica que la curva de la distribución es marcadamente asimétrica positiva. Si se observan los diferentes coeficientes de asimetría se puede notar que el SK 2 y el SK m son marcadamente asimétricos y los otros son ligeramente ligeramente asimétricos, esto es así por cuanto él valor obtenido obtenido con el el SK 2 y el SK m son más precisos que los otros, lo que indica que se debe preferir el resultado de estos últimos por razones obvias. obvias. Siempre el SK m será más preciso que cualquier otro otro coeficiente de asimetría, ¿Por qué qué Los resultados obtenidos con los diferentes coeficientes de asimetría indican que esta es positiva, es decir, con un sesgo hacia la cola de la derecha.
Para calcular el K 4 se calcula el m4 así: m4
f i d i4 § ! n
!
68649.77 ! 722.63 95
Ahora se procede a calcular el K 4 aplicando la formula K 4
!
m4 722 . 63 ! ! 2 . 86 . 4 252 . 8 S
El resultado indica que el apuntamiento de la curva es achatado, esto se observa en el grafico 2 la primera curva (de color verde) , , es decir, la curva es platicurtica. Observe la gráfica 1 donde se puede ver la curva rojo) y se puede observar la kurtosis y la simetría. La asimetría positiva se puede observar normal (de color rojo) en la parte derecha de la gráfica.
GRAFICO 2 KURTOSIS Y ASIMETRÍA
60 50 40
30 20 10 0
1d ASIMETRÍA + CURVA NORMAL
11
14
17
20
23
26
29
1 1
5
15 15
40
15 15
9
10 1
5
50
5
2.- En la siguiente distribución de frecuencia determine determine el SK 1, SK 2, SK q y el skm, interprete los resultados y diga cuál es el más recomendado; r ecomendado; encuentre la curtosis e interprete el resultado.
CLASES
f i
10²12
9
13²15
10
16²18
15
19²21
40
22²24
15
25²27
5
28²30
1
§
95
Solución.- Para resolver este problema se debe calcular la X y los desvíos di con respecto a esta, también es necesario calcular la Md, el Mo, el Q 1, el Q3, la S, el m3, el m4, elaborar un cuadro estadístico y finalmente aplicar las formulas respectivas. En el siguiente cuadro se resumen los cálculos para talesefectos. Se recomienda al estudiante realizar todos los cálculos cá lculos pertinentes. pertinentes. CLASES
f i
X i
f i X i
di
f i.di
f i.d2
10²12
9
11
99
-7.93
-71.37
565.96
-4488.10 35590.60
13²15
10
14
140
-4.93
-49.30
243.05
-1198.23
5907.28
16²18
15
17
255
-1.93
-28.95
55.87
-107.84
208.12
19²21
40
20
800
1.07
42.80
45.80
49.00
52.43
22²24
15
23
345
4.07
61.05
248.47
1011.29
4115.94
25²27
5
26
130
7.07
35.35
249.92
1766.97 12492.45
28²30
1
29
29
10.07
10.07
101.40
1021.15 10282.95
§
95
-0.35
1510.47
-1945.76 68649.77
1798
f i . d
Los resultados obtenidos de los diferentes cálculos son s on:: X = 18.93, 18.93, Mo = 20.0, 20.0, Q1 = 16.45, Q2 = Md = 19.91. 19.91. S = 3.99, S 3 = 63.40, S 4 = 252.80, m3 = 20.48, m4 = 722.63 Ahora se procederá procederá a calcular los diferentes coeficientes de de asimetría así:
3
f i.d4
S K 1 !
X Mo 18 . 93 20 .0 1 .07 ! ! ! 0 . 27 S 3 .99 3 .99
3( X Md ) 3(18 . 93 19 . 51) 1 . 74 ! ! ! 0 . 44 . S 3,99 3 .99
SK 2 !
SK m !
S K q !
m3
S 3 Q1
!
20 .48
63 .40
! 0. 32
Q 3 2Q 2 16 .45 21 .29 2 (19 .51) 1 .28 ! ! ! 0 .26 21 .29 16 .45 4 .84 Q 3 Q1
Si observa observa puede ver que que este problema es casi casi idéntico al anterior, solo las frecuencias fueron cambiadas cambiadas de la parte alta de las variables hacia la parte baja baja de las mismas, por tal razón todos sus cálculos son idénticos en valor absoluto al anterior, lo que indica que ahora la asimetrías obtenidas es negativas, es decir, con sesgo hacia la izquierda; si observa la gráfica 3 de asimetría y Kurtosis podrá notar las variaciones que hay en ambas curvas. La Kurtosis es idéntica a la anterior y la simetría tiene un sesgo a la izquierda, es decir, asimetría negativa. Para calcular la Kurtosis se procede así:
K 4 !
m4 4
S
!
722.63 ! 2.86. 252.80
La curva de la distribución es platikurtica. La interpretación es idéntica a la del problema anterior. Se puede ver que la curva más alta es la normal normal (roja) o Mesocurtica y la más achatada es la curva de la distribución en estudio, y en este caso es platikurtica.
GRAFICO
KURTOSIS Y ASIMETRÍA
60 50 40
30 20 10 0
1i ASIMETRIA CURA NORMAL
11
14
17
20
23
26
29
9
10
40
5
15 15
5
1
15 15
1 1
50
5
3.- Dada la siguiente siguiente distribución de de frecuencia determine determine el SK 1, SK 2, SK q, SK m e interprete los resultados y diga cuál de esos coeficientes es el más recomendado para este caso; calcule el K 4 e intérprete su resultado r esultado.. CLASES
f i
10²14
5
15²19
10
20²24
25
25²29
60
30²34
25
35²39
10
40²44
5
§
140
Solución.- Para resolver el problema primeramente se debe calcular la
, los desvíos di con respecto a la X , la Md, el Mo, Mo, el Q1, el Q2, la S, el m3, el m4. Para trabajar mejor se debe elaborar un cuadro estadístico con todos los cálculos necesarios para resolver el problema. Se recomienda al estudiante realizar todos los cálculos. X
Los siguientes son los diferentes cálculos necesarios para resolver el problema. Se recomienda al participante efectuar los diferentes cálculos de todos los parámetros utilizados. X
= 27.00, Mo = 27.00, Q 1 = 23.50, Q2 = Md = 27.00.
Q3 = 30.50, S = 6.27, S 3 = 246.24, S 4 = 1543.37, m3 = 0, m4 = 5267.86.
S K 1 ! S K
2
!
S K
q
!
S K m !
CLASES
f i
X i
f i X i
di
f i.di
f i.d2
f i.d3
f i.d4
10²14
5
12
60
-15
-75
1125
-16875
2531255 25312
15²19
10
17
170
-10
-100-
1000
-10000
1000000 10000
20²24
25
22
550
-5
-125
625
-3125
156255 1562
25²29
60
27
1620
0
0
0
0
0
30²34
25
32
800
5
125
625
3125
15625
35²39
10
37
370
10
100
1000
10000
1000000 10000
40²44
5
42
210
15
75
1125
16875 16875
2531255 25312
§
140
0
5500
0
736500
3780
X Mo 27 .0 27 .0 0 .0 ! ! ! 0 .0 S 6.27 6.27 3 ( X Md ) 3 ( 27 . 0 27 . 0 0 .0 ! ! ! 0 .0 S 6 . 27 6 . 27 Q1
Q
Q3
3
2Q 2
Q1
!
23 . 5 30 . 5 54 . 0 0 .0 . ! 0 .0 ! 30 . 5 23 . 5 7
m3 0 .0 ! ! 0 .0 3 246 . 24 S
El resultado obtenido con los diferentes coeficientes de asimetría indica que la curva de la distribución es simétrica. Se puede observar que cuando una curva de distribución es simétrica, con todos los métodos se logra el mismo resultado, cualquiera cualquiera de ellos es valedero, pero si se tuviese que escoger uno uno en especial el más recomendado seria el SK m , ya que para para su cálculo toma toma en cuenta todos los datos de la la serie de valores. Para él cálculo de la Kurtosis se s e procede así:
K 4
!
m 4 5267 .86 ! ! 3 .41 . S 4 1543 .37
El resultado indica que la curva de la distribución de frecuencia es leptocurtica (Roja), es decir, la gran mayoría de los datos se encuentran ubicados alrededor de las medidas de tendencia central, además, la curva de la serie de valores es más alta que que la curva normal normal (Azul). Observe que que la gráfica de la curva leptokurtica, es más alta que la otra curva la normal. De la misma forma se puede observar que ambas curvas son simétricas, es decir, parten del mismo punto y no presentan sesgo en todo su recorrido y esto es así debido a que su coeficiente de asimetría asi metría es igual a cero. Lo único que varía varía entre ellas es la Kurtosis.
CURVA
LEPTOKURTICA
70 60
50
40
30 20 10 0
12
17
1 CURVA NORMAL
22
27
32
37
42
2 CURVA LEPTOKURTICA
2 ± Dada la siguiente distribución distribución de frecuencia determine el el SK 1, el SK 2, el SK q, el SK m, haga un análisis cada uno de estos y diga cual es es el más recomendado, tomando en cuenta cuenta la precisión de cada uno. uno. Determine, además, el el K 4 e interprete el resultado. Se desea tomar tomar una medida medida de posición central, ¿cuál seria la más adecuada
CLASES
f i
40²44
2
45²49
7
50²54
23
55²59
75
60²64
21
65²69
6
70²74
1
§
135
el problema se debe calcular primero la X luego se determinan los desvíos con Solución.- Para resolver el respecto a la X , se calcula calcula la Md, el Mo., el Q1, el Q3, la S, el m3 y el m4. Para facilitar el estudio es conveniente elaborar un cuadro estadístico con todos los parámetros necesarios. En el siguiente cuadro se resumen gran parte los los parámetros necesarios para resolver el el problema. problema.
CLASES
f i
X i
f i X i
di
f i.di
f i.d2
f i.d3
f i.d4
40²44
2
42
84
-14.74
-29.84
434.54
-6405.05
94410.42
45²49
7
47
329
-9.74
-68.18
664.07
-6468.07
62999.03
50²54
23
52
1196
-4.74
-109.02
516.75
-2449.42
11610.24
55²59
75
57
4275
0.26
19.50
5.07
1.32
0.34
60²64
21
62
1302
5.26
110.46
581.02
3056.16
16075.42
65²69
6
67
402
10.26
61.56
631. 60 631.60
6480.27
66487.60
70²74
1
72
72
15.26
15.26
232.87
3553.56
54227.32
§
135
-0.26
3065.92
-2231.23
305810.37
7660
Se recomienda al participante realizar los cálculos de los parámetros aquí utilizados: X
= 56.74, Md = 56.87, Mo = 56.95,
S4 = 515.77, a )........ SK 1 !
Q1 = 54.62, Q3 = 59.12, S = 4.76, S 3 = 108.23,
m3 =-16.53, m4 = 2265.26. X M o
S
!
56.74 56 .95 0.21 ! ! 0.04. 4 .76 4.76
Este coeficiente indica que la curva de la distribución es ligeramente asimétrica positiva. Con este este resultado se observa que la curva de la serie s erie de valores es casi simétrica. si métrica.
b )....... SK 2 !
3 ( X Md ) 3( 56 . 74 56 .8 ) 3( 0 .16 ) ! ! ! 0 .10 . 4 . 76 4 .76 S
Se puede observar que este resultado es un poco mayor que el obtenido con SK1; la curva de acuerdo con este, es ligeramente asimétrica asi métrica positiva.
c )..... S K q !
Q1
Q3
Q3
2Q 2
Q1
!
54 .62 59 . 12 2 ( 56 . 87 ) 0 .0 ! ! 0 .0 . 59 . 12 54 . 62 4 .5
Con este coeficiente se observa que la curva es simétrica ya que su coeficiente de asimetría es igual a cero. Se puede concluir que este coeficiente no es lo suficiente preciso, puesto que esa curva de distribución no es simétrica, como se puede observar en la distribución de la serie de valores.
d ).....SK m
m3 S
3
16.53
108.23
0.15
Este resultado indica que la curva de la distr i buc buci n es ligeramente asi t r ri ca negativa, va, este es bastant e parecido a l obtenido con el K 2, los cua les se acercan bas tante a la rea lidad, por lo tanto, e l resu ltado más recomendado para tomar una decisi n ser ia el K m, por cuant o en el cálculo del mismo int ervienen t odos los va lores de la ser ie de datos. e pudo detectar que en el orden de pr ior idades referent e a l coef iciente de de asimetr ía los más indicados ser ian el K m, luego el K 2 y el menos recomendado ser ia el K q por no adaptarse a la rea lidad. Para calcular el K 4 se procede de la siguiente manera: m4 4
!
S
4
2265.26 !
!
4.39.
515.95
De acuerdo con es te resultado la curva de la d istr i buc buci n es Lep es Lept ocur ocur ti ca, por ser mayor que e l coef iciente tica, de Kur tosis de la curva norma l. Este resultado indica que la mayor ía de los da tos se encuen tran ubicados alrededor de la moda y por lo tanto la curva en cues ti n presenta un apuntamiento bastant e alto. La med ida de pos ici n cent ra ral más adecuada es l a med ia ar it ect ada ada it mética puest o que en es t e caso no es a f ec por val ores ores ext remos remos por ser l a curva de d i s st r ri uci n li geramen gerament e asimét r ri ca negativa como se puede observar en l a si gu guient e gra fica. Observe l a grá fica de ASIMETRÍ A Y K ur ur t osi s. s. t os
80 70 60 50
40 30
Curva
eptocur tic tica
Curva
ormal
20
10 0 37
42
47
52
57
62
67
72
77
3.- Los años de serv icio de un grupo de traba jadores son 9, x, 10, 8, 6 y 7. 7. E l pr imer moment o con respect o al or igen de esa ser ie de va lores es de 7.5 y e l m2 con respec to a la X es de 2.92. Determine el K 2 y e l K m; de esos va lores. e desea tomar una medida de pos ici n central, ¿ cuá l es la más indicada para el caso?. Explique brevement e.
Solución.- Lo primero que se debe hacer es calcular el valor de x, para ello se procede así: La X es igual al primer momento con respecto al origen, entonces, X ! 7.5. El número de datos n = 6, m2 = S2 = 2.92, ahora se aplica la formula de la media así:
X !
§ X i n
p n X ! § X i @ § X i ! 9 X 10 8 6 7 ! 40 X p § X i . ! 40 X .
n X ! § X i p .6 x7.5 ! 40 X @ X ! 45 40 p X ! 5.
Ahora se calcula la Md de la la siguiente serie de valores, los cuales se han ordenado: 5, 6, 7, 8, 9 y 10, 10, la mediana en este caso será: Md 78 nú mero par). Con estos datos se puede calcular calcula r el SK 2.2. ! 7.5. ( Esto es así, por ser n un número Md ! 2 SK 2 !
3( X Md ) 3( 7 .5 7 .5 ) 0 ! ! !0 6 6 n
De acuerdo con el SK 2 la curva de de la serie de valores valores es simétrica y esto es así, debido a que la X = Md = 7.5. La medida de tendencia central más más recomendada seria la la med ia ia debido a que este promedio para su cálculo utiliza todos los valores de la serie de datos. Para calculr el SK m se calcula S y los desvíos con respecto a la media de la serie s erie de valores. S2 = 2.92. S 3 = 4.99.
S !
SK m !
2 .92 ! 1 .70 .
m3 3
S
!
3
CLASES
di
d
5
-2.5
-15.62
6
-1.5
-3.38
7
-0.5
-0.12
8
0.5
0.12
9
1.5
3.38
10
2.5
15.62
§
0
0
0 ! 0. 4.99
Cuando la curva de una serie de valores es simétrica siempre el coeficiente de asimetría será igual a cero usando cualquiera cualquiera de los coeficientes de asimetría. Cuando la curva de una serie de valores se le calcula el SK m, el resultado obtenido es el más adecuado a decuado y preciso de los coeficientes en cuestión.
La
medida de tendencia central más recomendada en este caso es la media aritmética a pesar de que esta es igual a la mediana, pero la X es más confiable por utilizar esta todos los datos de la serie para su cálculo
3.- Los pesos en Kg, de una familia son 4, 35, 39, 40, 42, 48 y 58. Para realizar una investigación se requiere tomar una una medida de posición. posición. ¿Cuál es la la más adecuada . Explique brevemente.
Solución. ± Para tomar la decisión es necesario calcular el SK m . Para calcular el SK m se determina la X de los valores y los desvíos di con respecto a esta, se determina la S, la S3,el d i, el d 2 y el d 3 de los datos y la sumatoria de estos, luego se calcula el m3 y se procede a determinar el SK m, se elabora un cuadro estadístico con el resumen de los datos requeridos; y se aplica la formula respectiva para este caso. cas o. El siguiente cuadro resume los datos datos necesarios para los cálculos
X !
§ X i
S !
§ d
m3 !
n 2 i
n d 3
SK m !
n
!
!
!
3
di
d
d
4
-34
1156
-39304
35
-3
9
-27
39
1
1
1
40
2
4
8
42
4
16
64
48
10
100
1000
58
20
400
8000
§Xi = 266
§di = 0
§d2 = 1686
§d3 = -30258
266 ! 38 . 7 1686 ! 240 .86 ! 15.52., S 3 ! 3738 . 7
30258
7
4322 .57
3738
2
Xi
! 4322 .57 .
! 1.16.
De acuerdo con el resultado, la curva de la distribución es marcadamente asimétrica negativa, lo que indica que existen valores extremos, por lo tanto la media aritmética no se puede utilizar como medida de posición central por ser esta afectada por los valores extremos, en su lugar se utilizará la mediana como medida de posición central, por por no ser esta, afectada por los valores extremos.
Los coeficientes SK 1, SK S K 2 y sk s k q, se le dejan al participante para que los calcule e interprete los resultados dando su opinión al respecto. 7. ± Los siguientes datos datos 90, 70, 70, X, X, 60, y 80 corresponden corresponden al peso en kg. De un grupo de de profesores. profesores. El coeficiente de variación de esa serie de datos es de 19,285 %, el m4 con respecto a la media aritmética es de 109.492 y el K 4 es de 1,840. Se requiere hacer una investigación y para ello es necesario tomar una medida de posición. posición. ¿ Cuál es es la medida de posición más adecuada . Solución. ± Lo primero que se debe hacer es calcular el valor de X, y para ello se procede así: CV = 19,285 %, m4 = 109492, K 4 = 1,840, n = 5, ahora se aplica la formula de la media así: X !
K 4
§ X
i
n
!
p nX ! § X i @ § X i ! 90 70 X 60 80 p § X i ! 300 X .
m4 m4 109492 4 p ! @ S 4 ! ! 59506 .52 p S 4 ! 59506 .52. S 4 1,840 K 4 S
S 2 ! S 4 p S 2 ! 59506 ,52 ! 243,94., S ! S 2 p S ! 243,52 ! 15.62. p S ! 15.62.
Calculado S se procede a calcular la media así:
X !
. .100 1516 S . x.100 15.62 x ! ! ! 81.0 @ X ! 81.0. 19,282 19,282 V
nX ! 5x81.0 ! 405 @
§
Xi
! 300 X.
300+X = 405 X = 405 ± 300 X = 105.
Después de calculado X sé procederá a calcular los desvíos di con respecto a la media aritmética y finalmente se calcula el el SK m Se procederá ahora a elaborar un cuadro estadístico para facilitar los cálculos.
d !§
3 i
3960 ! 792. 5 n Se procede ahora a calcular el m3, siendo S 3 = 3811,40
m3
!
Ahora Aho ra se s e calculara el SK m
SK m !
m3 3
S
!
792 ! 0.21. 3811 .40
El siguiente cuadro resume los cálculos a utilizar. Xi
(Xi- X ) = d i
d
60
-21
-9261
70
-11
-1331
80
-1
-1
90
9
729
104
24
13824
§Xi = 405
§d = 0
§d = 3960
i
3
i
De acuerdo con el resultado la curva de la serie de datos es ligeramente asimétrica positiva, por lo tanto la medida de posición más recomendada para el estudio es la media aritmética. Se le recomienda al participante calcular el SK 2, el mismo debe ser muy parecido al SK m. 8. ± La media aritmética de dos números es igual a 60 y su desviación típica es igual a 20. Determine esos números.
Solución: Datos: X1 = ; X2 = ;
X = 60; S = 20; n = 2
De la formula de la media para datos no agrupados se tiene
X !
§ X
i
n
!
X 1 X 2 X X 2 ..,. 60 ! 1 p 120 ! X 1 X 2 ....(1). 2 2
La formula de la S para datos simples es
S!
(X X ) 2 (X X ) 2 § (X i X ) 2 1 2 ! n n
Remplazando por los valores conocidos se tiene
(X 60) 2 (X 60) 2 1 2 20 ! p 2
20 !
2 120X 3600 X 2 120X 3600 1 1 2 2 2
X
Se elevan al cuadrado ambos miembros miembros de la ecuación y se elimina denominador
2 ¸ 2 2 X 120X 3600 X 120X 3600 ¹ 1 1 2 2 ¹ p 2 ¹¹
¨ © © 20 ! ©© ª
º
2 120 X 3600 X 2 120 X 3600 1 2 2 400 ! 1 2 X
800 ! X 2 120 X 3600 X 2 120X 3600 1 1 2 2
800 ! X 2 120X X 2 120X 7200...( 2) 1 1 2 2 Despejando en (1), X 1 = 120X2 , y reemplazando reempla zando en (2) se tiene
800 ! 120 X 2 120 120 X X 2 120 X 7200 2 2 2 2
800 ! 14400 240X X 2 14400 120X 120X 7200 X 2 2 2 2 2 2 800 ! 240X 2X 2 7200 2 2 2X 2 240 X 7200 800 ! 0 2 2 2X 2 240 X 6400 ! 0;..Dividiendo..entre..2..toda ..la..ecuacion ..se..tiene : 2 2 X 2 120 X 3200 ! 0;.. plicando.. producto..notable..se..tiene : 2 2 (X 80)( X 40) ! 0 2 2
X 1 80. X 2 40! 0.. . X 1 80! 0.. y.. X 2 40! 0@ X 1 ! 80.... y.... X 2 ! 40. Los números buscados son 40 y 80.
BIB LIOGRAFÍA
Núñez(1992): ): Benavente del Prado, Arturo Núñez(1992
Estadística Básica par Planificación. Planificación. Editorial Interamericana.
6ª. Edición. México. C uarta Edición. México. Berenso, Mark.(1.992): Estadística Básica en A dministración. Editorial. Harla. Cuarta Best,J. W. (1987): Como Investigar en Educación. Editorial Morata. Madrid ± España. Budnick Frank S. (1992): Matemáticas Aplicadas para Administración, Economía y Ciencias Sociales. Tercera Edición. Editorial McGaw-Hill McGaw-Hill Interamericana de México, S.A de C. V. México. Caballero, Wilfredo (1975): Introducción a la Estadística. Editorial ICA. Costa Rica. Cadoche, L. S.; G. Stegmayer, J. P. Burioni y M. De Bernardez (1998). (1998). Material del Seminario de Encuestas en Educación, impartido vía internet por parte de la Universidad Nacional del Litoral, en Santa Fe, y de la Universidad Tecnológica Nacional, Regional Santa Sa nta Fe, en la República de Argentina. Castañeda J., J.(1991): J.(1991): Métodos de Investigación 2. Editorial McGraw-Hill. México. Carono, R., Minujin, A. y Vera, G.(1982): Manual de técnicas de evaluación y ajuste de información Estadísticas. Fondo de cultura económica. México. Chao, L.(1993): Estadística para la Ciencia A dministrativa. Hill. 4ta Edición. ministrativa. Editorial McGraw ± Hill. Colombia. CHOU, YA-LUN (1972): Análisis Estadístico. Editorial Editorial Interamericana. México. México. DANIEL WAYNE, W. y Otros (1993): Estadística con con Aplicación a las Ciencias Sociales Sociales y a la México, S.A. de C. V. México. Educación Editorial McGraw-Hill Interamericana de México, De Oteyza de O., E; Emma Lam O., Carlos Hernández G. y Ángel M. Carrillo H. (1998). emas Selectos de Matemáticas. Prentice Hall. México. Enciclopedia Microsoft Encarta 2003 (2003 ): Censo- Cuestionario- Encuesta. Estadística. Editorial Microsoft corporation. USA. ERKIN KREYSZIA (1978): Introducción a la Estadística Matemática. Editorial Limusa, S.A. México. FREUD J: E. y Otros (1990): Estadística para la Administración con Enfoque Moderno.Editorial, S.A. México. Gomes Rondón, Francisco (1985): Estadística Metodologica : Ediciones Fragor. Caracas. González, Nijad H. (1986): Métodos estadísticos en Educación. Editorial Bourgeón, ourgeón, Caracas. Cara cas. Guilford, J. Y Fruchter, B. (1984): Estadística aplicada a la Psicología y la Educación.Editorial McGrawHill Latinoamericana, S. A., Bogotá. Hamdan González, Nijad (1986): Métodos Estadísticos en Educación. Editorial Bourgeón C.A. Caracas ± Venezuela. KEVIN, RICHARD I. (1988): Estadística para Administradores . Editorial Hispanoamericana. México. LARSON HAROLD, J. (1985): Introducción a la eoría de Probabilidades e inferencia inf erencia Estadística. Estadísti ca. Editorial Limusa. México. LEHMANN, CHARLES H. (1995): Á LG EBRA. Editorial limusa, S.A. DE C. V. Grupo Noriega Editores. México. LEITHOLD, LOUIS (1992): El Cálculo con Geometría Analítica. Editorial HARLA. México. LINCON L., CHAO (1996): Estadística para Ciencias edición. Editorial McGawCi encias Administrativas. Cuarta edición. Hill. Usa. Lenin, R.y Kubin, D.(1992): Estadística para Administradores. ores. Editorial Hispanoamérica. VI edición. México. LOPEZ CASUSO, R. (1984): Introducción Introducción al Cálculo de Probabilidades e Inferencia Infere ncia Estadística. Editorial Instituto de Investigaciones Económicas, UCAB. Caracas- Venezuela. Mason, Robert (1.992): Estadística para la A dministración y Economía. Ediciones Alfaomega S.A.N. México. MENDENNAF, MENDENN AF, W. y OTROS (1981): Estadística para Administradores y Economía . Editorial Iberoamericana. México. Mode, Elmer B. (1988): Elementos Element os de Probabilidades y Estadística Estadísti ca Editorial Reverte Mejicana. México. Murria, R.(1993): Estadística. Edición Interamericana.2da Edición. México. PARZEN, E. (1986): T eoría eoría Moderna de Probabilidades y sus Aplicaciones Editorial Limusa: México PUGACHEV, V. S. (1973): Introducción a la T eoría eoría de Probabilidades Editorial Mir. Moscú. Rivas González, Ernesto(1980 Er nesto(1980): ): Estadística General . Ediciones de la Biblioteca UC V. Caracas ± V ± Venezuela. Soto Negrin, Armando (1982): Iniciación a la estadística. Editorial José Marti. Caracas ± V ± Venezuela.
Stephen P., Shao (1986): Estadística para Economistas y Administradores de Empresa. Editorial Herreros Hermanos, Sucs., S.A., México. Stevenson, William(1991): Estadística para la A dministración y Económica. Editorial Harla. México. Universidad Nacional Experimental ³Simón Rodríguez´ (1983 ( 1983): ): Estadística 1. Ediciones UNESR, Caracas. WALPOLE, R. y Myers, R. (1987): (1987): Probabilidad y Estadística para Ingenieros. EditorialInteramericana. México. Webster, Allen L. (1996): Estadística Aplicada a la Empresa y la Economía. Editorial Irwin. Segunda edición. Barcelona ± España. Weimer, Richard C. (1996) Estadística. Compañía Editorial Editorial Continental, SA de CV. México. Wonnacott, T. H. y Wonnacott, Wonnacott, R: J. (1989): Fundamentos de Estadística para Administración y Economía. Editorial LIMUSA. México.
Direcciones de Internet que puede consultar http://www.mipagina.cantv.net/hamletmatamata http://www.google.com http://www.infecepi.unizar.es http://www.lt.bioestadistica.uma.es http://www.uaq.mx/matematicas/estadisticas/xu3.html http://www.members-americas.tripod.com http://www.altavista.com http://www.ine.es http://www.msip.lce.org http://www.bnv.co.cr/sesion/nota.aspg http://www.altavista.com http://www.altavista.com.. http://www.auyantepuy.com http://www.ine.es.. http://www.ine.es http://www.udec.cl.. http://www.udec.cl http://www.es.lycos.com http://www.rincondelvago.com http://www.monografias.com http://www.festadistica.fguam.es/indicadores/ipri.html http://www.uaq.mx/matematicas/estadistica/xu3.html http://www.ine.go.bo/iwd0801.html#E http://www.itlp/pública.edu.mx/tutoriales/economia2/portada.htm http://www.itlp.edu.mx http://www.ecla.evespanovestadistica/sna93nn/snann7es.html http://w3mor.itesm.mx/~cmendoza/maest/estoo.html http://www.mty.itesm.mx/data/materiales/estadistica/ALFREDO.html http://www.uaq.mx/matematicas/estadistica/xtra.html#funcion http://www.unl.edu.ar/fave/sei/encuestas/index.html