ESTADISTICA. INTRODUCCIÓN INTRODUC CIÓN La estadística o los métodos estadísticos, como se denomina a veces, están jugando un papel importante en casi todas las facetas del comportamiento humano. Ocupada inicialmente en asuntos de Estado, y de ahí su nombre, la influencia de la Estadística se ha extendido ahora a la agricultura, biología, negocios, comunicaciones, economía, y otros muchos campos de la ciencia y la ingeniería. El prop propós ósit itoo de esta esta mate materi ria, a, es pres presen enta tarr los los prin princi cipi pios os bá bási sico coss de la Estadística que serán de utilidad para todo tipo de calculo sea este empresarial o personal. Cada capítulo viene con definicion definiciones es claras, claras, junto con problemas problemas resueltos resueltos y suplementarios que en muchos casos se utilizan datos obtenidos en situaciones estadísticas reales. Los problemas resueltos sirven para ilustrar y ampliar la teoría, proporcionan la oportunidad de repetir los principios básicos, vital para un aprendizaje eficaz. OBJETIVOS GENERALES:
1.- Hacer que la estadística sea más fácil de aprender, iniciar con lo que los estudiantes ya conocen a partir de su experiencia personal 2.- Cubrir todos los temas estadísticos para poder resolver cualquier caso ya sea en la vida empresarial, profesional o personal. 3.- Utilizar una notación matemática comprensiva para los estudiantes. 4.- Se tratará en lo máximo de utilizar ejemplos del mundo real y actualizado para así saber sobre la situación de nuestro medio y del país en general.
1
La estadística esta ligada por los métodos científicos que permiten la toma, toma, organi organizac zación ión,, recopi recopilac lación ión,, presen presentac tación ión y anális análisis is de datos, datos, tanto para para la deducción deducción de conclusiones conclusiones como para tomar tomar decisiones decisiones razonables de acuerdo al análisis. El objeto fundamental de la estadística es presentar un fenómeno a través de un conjunto de datos llamados estadísticas, así se habla de la estadística de empleos, de salarios, de accidentes, etc.
Poblac Pobl ació iónn o Univ Univer erso so:: Es la reco recole lecc cció iónn comp comple leta ta de toda todass las las obse ob serv rvac acio ione nes: s: indi indivi vidu duos os,, ob obje jeto toss o medi medida dass de inte interé réss para para el investigador. Muestra: Es una parte representativa de la población que se selecciona para para ser ser estu estudi diad adaa ya que que la po pobl blac ació iónn es dema demasi siad adoo gran grande de y analizarla es muy costoso o demanda mucho tiempo. Cuando se lo quiere analizar a todo un grupo, población o universo se se utiliza el SISTEMA O MÉTODO DE CENSO y cuando se analizan las características de un grupo menor o reducido se llama MUESTRA.
2
La estadística esta ligada por los métodos científicos que permiten la toma, toma, organi organizac zación ión,, recopi recopilac lación ión,, presen presentac tación ión y anális análisis is de datos, datos, tanto para para la deducción deducción de conclusiones conclusiones como para tomar tomar decisiones decisiones razonables de acuerdo al análisis. El objeto fundamental de la estadística es presentar un fenómeno a través de un conjunto de datos llamados estadísticas, así se habla de la estadística de empleos, de salarios, de accidentes, etc.
Poblac Pobl ació iónn o Univ Univer erso so:: Es la reco recole lecc cció iónn comp comple leta ta de toda todass las las obse ob serv rvac acio ione nes: s: indi indivi vidu duos os,, ob obje jeto toss o medi medida dass de inte interé réss para para el investigador. Muestra: Es una parte representativa de la población que se selecciona para para ser ser estu estudi diad adaa ya que que la po pobl blac ació iónn es dema demasi siad adoo gran grande de y analizarla es muy costoso o demanda mucho tiempo. Cuando se lo quiere analizar a todo un grupo, población o universo se se utiliza el SISTEMA O MÉTODO DE CENSO y cuando se analizan las características de un grupo menor o reducido se llama MUESTRA.
2
Es una caracte característi rística ca de la población población que que se analiza analiza en un estudio estadístico. Puede ser: CUALITATIVA O ATRIBUTO si se mide de manera no numérica, por ejemplo: el sexo de los estudiantes, la raza, el color de cabello, etc. a) CUAN CUANTI TITA TATI TIVA VA O NUME NUMERI RICA CA:: Si las observ observac acio ione ness puede puedenn expr expres esar arse se numé numéri rica came ment nte, e, po porr ejem ejempl plo: o: los los ingr ingres esos os salariales, las notas de los estudiantes. e studiantes. Además las variables cuantitativas pueden ser discretas y continuas: continuas: VARIABLES DISCRETAS: Son aquellas que no permiten valores
intermedios, ejemplo: número de hijos, número de edificios Son aque aquellllas as que que pued pueden en toma tomarr VARIABLES CONTINUAS: Son teór teóric icam amen ente te cual cualqu quie ierr valo valorr entr entree do doss valo valore res, s, ejem ejempl plo: o: temperatura, estatura, peso, etc. Una variable no es más que un símbolo que representa cada caso de un conjunto observado y que esta representado generalmente por las últimas letras del abecedario X, Y, Z.
a.- Centímetros de lluvia en una ciudad durante varios meses b.- Velocidad de un coche Km./h c.c.- Núme Número ro de bille illete tess de vei veinte nte en cir circula culaci cióón en EE.U EE.UU. U. en cada cada mome moment nto. o. d.- Volumen de negocio diario en la Bolsa de Tokio
El redondeo de datos no es más que la aproximación de un valor numéri numérico co con exacti exactitud tudes es de miles, miles, millone millones, s, decimale decimales, s, etc. Y en estadística se utiliza el siguiente mecanismo para redondear datos para una determinada exactitud presentándose tres casos: 3
1) Cuando el número o cantidad a redondearse es más que 5, se redondea al entero o cantidad que le antecede más próximo; ejemplo 73.8 =74
2)
70.277 =70,28
Si la cantidad a redondearse es menos a 5, se elimina la cantidad; ejemplo: 73.4 = 73
68.2 = 68
3) Cuando la cantidad a redondearse es 5, se redondea al par más próximo; ejemplo: 72.5 = 72
83.5 = 84
Nota: Por ser también el sistema que utilizan las computadoras en la entrega de datos: USAR COMA PARA SEPARAR CENTENAS Y PUNTOS PARA SEPARAR CIFRAS DECIMALES. EJERCICIOS
a.b.c.d.e.f.-
3,256 centenas 5,781 decenas 0.0045 milésimas 46.7385 centésimas 125.9995 dos cifras decimales 3,502,378 millones
a.-
72.48 x 5.16
72.48 X 5.16 43488
4
7248 36440 373,9968 b.- 72.48 / 5.16
72.48 |5.16 2088 14.04
c.- 0.36 x 781.4 = 281.304
a.- 4U + 6V – 2W = 4(-2) + 6 (½) – 2 (3) = -8 + 3 – 6 = b.-
xyz uvw
=
(−4)(9)(1 / 6) − 6 = = (−2)(1 / 2)(3) − 3
Si a cada valor de una variable X le corresponde uno o más valores de otra variable Y, decimos que Y esta en función de X Y = f (X) A la variable X se le conoce como variable independiente y a la variable Y como variable dependiente; ejemplo: P = f (T) P = Población T = Tiempo La dependencia o relación de una función se expresa en una tabla de valores pero puede también ser expresado en forma de una ecuación; ejemplo: 2
2X – 3 = Y
3X – 5X + 4 = Y
5
La presentación de la información en gráficos y dibujos es un verdadero arte, que no solo sirve para representar datos si no también para expresar ideas que se desee destacar. La representación gráfica debe tener presente lo siguiente: 1.- Recuérdese que en álgebra se considera un plano coordenado con cuatro cuadrantes que forman una cuadrilla. Obsérvese en la ilustración siguiente que tanto los valores X como los Y son positivos en el cuadrante I. Puesto que la mayoría de los datos de administración o negocios son positivos, es el que se usa con más frecuencia. +Y +3 Cuadrante II X Negativa Y Positiva
Cuadrante I X Positiva Y Positiva
+2 +1
-X
+X -3
-2
Cuadrante III X Negativa Y Negativa
-1
+1
-1 -2
+2
+3 Cuadrante IV X Positiva Y Negativa
-3
-Y
2.- Elegir escala más adecuada. 3.- Hacer constar, en un gráfico de pastel: Título, gráfico y leyenda. 4.- El ancho de las barras debe ser uniforme, en un gráfico de barras. 6
Los gráficos que tienen mayor funcionalidad en el campo estadístico son: a) Pictogramas, Pictógrafos o Diagramas de Figuras. b) Gráficos de barras c) Histogramas d) Polígono de frecuencia e) Gráficos circulares.
a.- Hallar Y tal que X = -3, -2, -1, 0, 1, 2, 3, 4 y 5 y poner los resultados en una tabla. Y = 10 – 4(-3) Y = 10 – 4(-2) Y = 10 – 4(-1) Y = 10 +12 Y = 10 +8 Y = 10 +4 Y = 22 Y = 18 Y = 14 -3 22 -2 18 Y = 10 – 4(2) -1 14 Y = 10 – 4(1) Y = 10 – 4(0) Y = 10 – 8 0 10 Y = 10 -4 Y = 10 + 0 Y = 2 1 6 Y = 10 Y = 6 2 2 Y = 10 – 4(3) 3 -2 Y = 10 – 4(4) Y = 10 – 4(5) 4 -6 Y = 10 -16 Y = 10 - 20 Y = 10 -12 5 -10 Y = -10 Y = - 6 Y = -2 b.- Hallar Y tal que X = -2.4, -1.6, -0.8, 1.8, 2.7, 3.5 y 4.6. Y = 10 – 4(-2.4) Y = 10 – 4(-1.6) Y = 10 – 4(-0.8) Y = 10 + 9.6 Y = 10 +6.4 Y = 10 + 3.2 Y = 13.2 Y = 19.6 Y = 16.4 Y = 10 – 4(3.5) Y = 10 – 14 Y = 10 – 4(2.7) Y = 10 – 4(1.8) Y = - 4 Y = 10 – 10.8 Y = 10 -7.2 Y = 2.8 Y = - 0.8 Y = 10 – 4(4.6) Y = 10 – 18.4 Y = - 8.4 c.- Expresar X explícitamente como función de Y
7
- 2.4 - 1.6 - 0.8 1.8 2.7 3.5 4.6
19.6 16.4 13.2 2.8 - 0.8 -4 - 8.4
X=
1 (10 - Y) 4
4X = 10 – Y
10 − Y 4
(a) W = 3(1)x(4)-4(-2)2+2(1)(-2) W= 12 – 16 – 4 (b) W = 3(-5)(0) – 4(-2)2+2(-5)(-2) W = 0 – 16 + 20 :
a) (3, 2); (2, 3); (-4, 4); (4, -4); (-3,-2); (-2, -3); (-4.5, 3); (-1.2, 2.4); (0,-3); (1.8, 0) 5
-4; 4
4
-4,5; 3
2; 3
3
3; 2
2
1
1,8; 0
0 -5
-4
-3
-2
-1
0
1
2
3
4
5
-1
-3; -2
-2
-1,2; -2,4 -2; -3
-3
0; -3 4; -4
-4
-5
a.- Y= 10 – 4x Y = 10 – 4(-3) Y = 10 +12 Y = 22
Y = 10 – 4(-2) Y = 10 +8 Y = 18
Y = 10 – 4(0) Y = 10 + 0 Y = 10 Y = 10 – 4(3)
Y = 10 – 4(1) Y = 10 -4 Y = 6
Y = 10 -12
Y = 10 – 4(4) Y = 10 -16 Y = - 6
Y = 10 – 4(-1) Y = 10 +4 Y = 14 Y = 10 – 4(2) Y = 10 – 8 Y = 2 Y = 10 – 4(5) Y = 10 - 20 Y = -10
Y = -2
8
-3 -2 -1 0 1 2 3 4 5
22 18 14 10 6 2 -2 -6 -10
25
-3; 22 20
-2; 18 -1; 14
15
0; 10
10
1; 6
5
2; 2 0 -4
-3
-2
-1
0
1
2
3
3; -2
-5
4
5
6
4; -6 5; -10
-10
-15
a.- PICTOGRAMAS, PICTOGRAFOS O DIAGRAMAS DE FIGURAS.Son símbolos que se utilizan para representar datos estadísticos de tal forma que llame la atención a toda clase de público que lo vea, para realizar esta clase de gráficos se necesita que ponga en juego su originalidad, creatividad o ingeniosidad. Ejemplo: Si se trata de vivienda se puede diseñar gráficos de casas, si es de maíz, trigo se podrá utilizar gráficos de sacos, quintales, etc. b.- GRAFICO DE BARRAS.b.1. GRAFICOS DE BARRAS VERTICLAES.Son un conjunto de rectángulos que se encuentran ubicados en el primer cuadrante de un sistema de coordenadas y cuyas áreas son proporcionales a los datos de un fenómeno. Para su construcción se procede de la siguiente manera: * En el eje de las abscisas o eje de las “X” los datos de la variable vendría a ser la base de los rectángulos. * En el eje de las ordenadas o eje de las “Y” se localizan las frecuencias. Ejercicio: Represente en un gráfico de barras verticales la producción de trigo de los años 1992 a 1999. 9
PRODUCCION DE TRIGO AÑOS (X) 1992 1993 1994 1995 1996 1997 1998 1999
TON. DE TRIGO (Y) 8000 8200 8500 7000 7500 9500 10000 4000
PRODUCCION 12000 10000 8000 6000
TON. DE TRIGO
4000 2000 0 . T O N T R I
G O
1 199 2
2 1993
3 1994
4
5
1995 AÑOS1996
6
7
1997
1998
8 1999
b.2. GRAFICOS DE BARRAS HORIZONTALES.Estos gráficos tienen la particularidad de que en el eje de las abscisas o eje de las “X” se colocan las frecuencias y en el eje de las ordenadas o eje de las “Y” los datos de la variable que vendrían a ser la base de los rectángulos. JAPON EEUU CANADA
2,7 5,5 7,4
NUEVA ZELANDA GRECIA PORTUGAL
12 20,7 23,2
TURQUIA
37,8
10
INCREMENTOS PORCENTUALES EN PRECIOS AL CONSUMIDOR
TURQUIA
37,8 23,2
GRECIA
20,7 12
P A I
S E S
” CANADA Y
7,4 5,5
“
2,7
JAPON 0
10
20
30
40
INCREMENTO “X”
b.3. GRAFICOS DE BARRAS COMPUESTAS.Esta clase de gráfico se utiliza cuando tenemos dos o más series de datos y queremos realizar una comparación entre dichos valores. EJERCICIO: Una cadena de tiendas de descuento está organizada en tres grupos para ventas y compras. Cada grupo está dirigido por el gerente general. El cambio de ventas totales para los años 1987, 1988, 1989, y el cambio para cada grupo en relación con el total se han de presentar en una gráfica de barras compuestas.
Las ventas de cada grupo son: VENTAS (EN MILLONES DE DÓLARES) ROPA MEDICINAS Y ARTICULOS AUTOMOVILES
Y
$2 10 4
$3 8 8
$4 8 18
ARTICULOS
Para elaborar una gráfica de barras compuestas, primero se grafican las ventas de ropa por $ 2 millones (dólares) del año 1987
11
VENTAS EN MILLONES DE DOLARES 25 20
O L U 15 C I T 10 R A
Automoviles Medicinas Ropa
5 0
1987
1988
1989
AÑOS
Las ventas para los tres años se presentan en el diagrama anterior. Obsérvese que para cada año, primero se marcaron las ventas de ropa en la parte inferior de la barra, en la parte superior de las ventas de ropa se marcaron las ventas de medicina y artículos domésticos, y el último componente o sección que se marcó fue el de las ventas de automóviles y artículos deportivos. La interpretación de la gráfica de barras seccionada es: * Las ventas totales aumentaron durante los tres años. * Las ventas de ropa permanecieron relativamente constantes durante el periodo de tres años. * Las ventas de medicina y artículos domésticos disminuyeron como un componente del total. * Las ventas de automóviles y artículos deportivos aumentaron con rapidez como un componente del total. c.- HISTOGRAMAS.- También utilizan barras para la representación de la información estadística, estos nos dan una apreciación visual de la distribución de frecuencias. Es la representación gráfica de una distribución de frecuencias de variables cuantitativas y continúas. Para construir un histograma empleamos el primer cuadrante de un sistema de coordenadas, en el eje de las “X” las marcas de clase o puntos medios y en el eje de las “Y” la frecuencia respectiva, las barras se dibujan sin dejar espacio entre ellas. EJEMPLO.- El siguiente cuadro contiene las calificaciones de matemáticas de cuarto curso de un colegio de la ciudad de Azogues. Construya un histograma.
12
CALIFICACIONE S 6–8 9 – 11 12 – 14 15 – 17 18 - 20
f
X
12 10 18 14 6
7 10 13 18 19
Ojo (Las barras van unidas y no separadas como están en la representación) CALIFICACIONES- HISTOGRAMA 20 18 16 14 12 10 8 6 F R E C U E N C I
4A
S
2 0 1
2
7
10
3 13
4 18
5 19
PUNTOS MEDIOS (Marca de clase)
d.- POLIGONO DE FRECUENCIA.- Es un gráfico lineal cerrado que se obtiene por la intersección de la variable con la frecuencia, en el eje de las abscisas o eje de las “X” se ubican los puntos medios y en el eje de las ordenadas o eje de las “Y” las frecuencias respectivas. EJEMPLO: Para este ejemplo el trazo o elaboración de un polígono de frecuencias se ilustra utilizando de nuevo las rentas mensuales de condominios. Se necesitan los puntos medios de clase que se ubican en el eje X, y las frecuencias de clase, que están eje el eje Y. (Recuerde que un punto medio de clase es un valor que se obtiene sumando el límite inferior más el superior dividido para dos). Limites Establecidos Marca de Frecuencias clase (X) $ 600 – 799 699,5 3 800 – 899 899,5 7 1000 – 1199 1099,5 11 1200 – 1399 1299,5 22 1400 – 1599 1499,5 40 1600 – 1799 1699,5 24 1800 – 1999 1899,5 9 2000 – 2199 2099,5 4
13
TOTAL
120
Obsérvese que en la figura que para completar el polígono de frecuencia, se agregaron puntos medios de 499,5 y 2299,5 a los dos extremos, y el polígono se “ancló” al eje horizontal a la frecuencia cero. Estos dos valores se obtuvieron restando el intervalo de clase de 200 al punto medio mayor (2099,5), al anclar los dos extremos del polígono de frecuencias al eje X, el área total bajo el polígono es ahora al total de las frecuencias
d.- GRAFICOS CIRCULARES O DE SECTORES (PASTEL).Este tipo de gráficos es adecuado para aquellos casos en que deseen que los datos estadísticos lleguen a todo tipo de personas, incluso aquellos que no tienen una formación científica. Este gráfico consiste en repartir los 360 grados de la circunferencia en forma proporcional a las frecuencias de cada una de las variables. EJEMPLO: En la biblioteca de la Municipalidad de Azogues, entre los libros que existen hay 100 de Estadística, 200 de Matemática, 220 de Historia, 500 de Economía y 380 de inglés, elaborar un gráfico circular. Desarrollo: Primeramente determinamos cuantos grados de los 360 corresponden a cada materia. LIBROS FRECUENCIA ANGULO Estadística 100 25,71 grados Matemática 200 51,43 Historia 220 56,57 Economía 500 128,57 Inglés 380 97,71 ------------ --------------- ------------Total 1400 360
Estadística
Matemática
200 * 360 = 51,43 1400 14
100 * 360 = 25,71 1400
220 * 360 = 56,57 1400
Historia
LIBROS DE BIBLIOTECA
Estadística Matemática Historia Economía
ESTADISTICA 25,71
INGLES 97,71
Inglés
MATEMATICA 51,43
HISTORIA 56,57 ECONOMIA 128,57
EJEMPLOS:
1840 1860 1880 1900 1920 1940 1960 1980
3,72 6,20 8,59 10,90 11,46 9,22 4,19 2,33
a.- Gráfico de trazos
15
1,70 4,33 8,80 18,17 30,97 43,75 65,70 103,76
GRAFICO DE TRAZOS 120 100 80 60 40 20 0 1800
Trabajadores Agrícolas (millones)
Trabajadores no agrícolas (millones)
1850
1900
1950
2000
b.- Gráfico de barras GRÁFICO DE BARRAS
120,00 100,00 s e 80,00 n o l l i 60,00 M
TRABAJADORES AGRICOLAS (MILLONES) TRABAJADORES NO AGRICOLAS (MILLONES)
40,00 20,00 0,00 1840
1860
1880
1900
1920
1940
Año
c.- Gráfico de barras componentes
16
1960
1980
GRAFICOSDE BARRASEN COMPONENTES 120,00
100,00
80,00 N O L 60,00 L I M
TRABAJADORESNO AGRICOLAS (MILLONES) TRABAJADORES AGRICOLAS (MILLONES)
40,00
20,00
0,00 1
2
3
4
5
6
7
8
AÑOS
EJERCICIOS PROPUESTOS:
a) Número de estudiantes matriculados en una Universidad en varios años: b) Número de sacos de trigo producido por hectárea en un campo en varios años. c) Número N de miembros en una familia. d) Estado civil de una persona e) Tiempo de vuelo T de un misil. f) Número de pétalos de una flor.
a) b) c) d)
a)
148.475 unidades 0.000098501 millonésimas 2184.73 décimas 43.87500 centésimas
(u − x) 2 + y
=
17
b) c)
= 3x (4y + 3z) – 2y (6x-5y) – 25= u 2 − 2uv + w
z = x 2
− y 2 ,
Y 2
-3
-3
-2
-1
0
-2
-1
0
-3
0
1
2
1
3
6
3
2
4
3
5
4
9
d) Y = 2 x 2 + x − 10 -3 ) Y = x 3
0
-2
-1
0
1
2
3
-1
− 4 x 2 + 12 x − 6 1
2
18
3
AÑO
Trabajadores Trabajadores % Trab. % Trab. No agrícolas no agrícolas Agrícolas Agrícolas
1840 1860 1880 1890 1920 1940 1960 1980 TOTAL
3,72 6,2 8,59 10,9 11,46 9,22 4,19 2,33 56,61
1960 32.4 10.2 3.6
Estado Civil soltero Casado Viudo Divorciado TOTAL
1,7 4,33 8,8 18,17 30,97 43,75 65,7 103,76 277,18
1965 35.5 13.0 5.7
1970 37.1 14.7 7.4
Varones Mujeres (% total) (% total) 25,1 18,4 66,7 64,3 2,4 12,4 5,8 7,9 100 100
Océano
Área
19
1975 33.8 15.7 9.7
1980 30.6 14.6 10.2
Varones grados
Hembras grados
Grados
Pacífico Atlántico Indico Antártico Ártico Total
(millones de millas cuadradas) 63.8 31.5 28.4 7.6 4.8 136.1
a) b) c)
d) e)
20
Es la obtención de datos de un fenómeno, el mismo que se desea analizarlo estadísticamente, ejemplo; edades de los estudiantes matriculados en el primer año de la “Universidad Técnica José Peralta”. Estos datos no pueden estar ordenados. Es la colocación de los datos numéricos del fenómeno en relación a un orden ascendente o descendente. A la diferencia entre el mayor y el menor de los datos se le denomina rango o recorrido. Ejemplo: Si la altura mayor de 100 estudiantes es 1,74 metros y la menor es 1.60 metros, su rango será igual a 0.14 centímetros. Es una técnica que nos permite ordenar los datos en una tabla si estos se dividen en clases, debiéndose registrar el número de observaciones en cada clase. Ejemplo:
60 – 62 63 – 65 66 – 68 69 – 71 72 – 74
5 18 42 27 8
El símbolo que define una clase se conoce con el nombre de intervalo de clase, ejemplo 63 – 65 son los límites de la segunda clase de la distribución. El número menor de la clase es 63 y se lo llama LIMITE INFERIOR DE CLASE, y al 65 se le denomina LIMITE SUPERIOR. Los términos clase o intervalo de clase se utiliza indistintamente. Un intervalo de clase que al menos teóricamente no tiene límite superior o inferior se conoce como intervalo de clase
21
abierto. Ejemplo: Al referirse a la población los mayores de 65 años es un intervalo de clase abierto. Se denomina así a los valores que teóricamente incluyen valores o cantidades representadas por sus medidas exactas y que corresponden a 5 décimas menos del limite de clase inferior cuando son enteros, y cuando se trata de decimales hay que restar el número que le corresponde; y, 5 décimas más al del limite de clase superior; se aplica la misma teoría para el limite inferior, denominándoseles a cada uno de ellos como LIMITE REAL INFERIOR Y LIMITE REAL SUPERIOR respectivamente. Una manera de determinar el intervalo de clase (C) es restando el limite real superior del limite real inferior. Es la diferencia entre los limites reales de clase y en la mayoría de las distribuciones, el intervalo de clase es igual en todas las clases. Es el punto medio o media aritmética entre los limites superior o inferior de clase de cada grupo. Ejemplo: X =
60 – 62 63 – 65 66 – 68 69 – 71 72 – 74
5 18 42 27 8
60 + 62 122 ; 2 2
61 64 X = 61 67 70 73
1.- Determinar el rango o recorrido de las observaciones: R = X máxima - X mínima. 2.- Dividir el rango en un número conveniente de intervalos de clase del mismo tamaño y de no ser posible utilizar intervalos de clase de diferente tamaño o intervalos de clase abiertos. El número de 22
intervalos no deberá ser ni menor que 5 ni mayor que 20 dependiendo de los datos. Los intervalos de clase se rigen también de forma que las marcas de clase o puntos medios coincidan con los datos observados realmente para de esta manera evitar el error de agrupamiento de datos. 3.- Número de clases: Se la representa por “C” o “k”. En una tabla de frecuencias es algo arbitrario. Se puede seguir una regla simple para aproximar el número de clases a utilizar, c o k, es: 2C ≥ nT > n
2K ≥ n
o
En donde: n = Es el número de observaciones C o K = Es un número entero positivo, que representa el número de clases a utilizar. El número de clases es la menor potencia a la cual se eleva la base 2, de manera que el resultado sea igual o mayor que le número de observaciones. PARA NÚMEROS ENTEROS RANGO + 1 C = # declases
PARA NÚMEROS DECIMALES
C =
RANGO + 0.001
# declase
Nota: Para números decimales hay que tomar en cuenta que si se esta trabajando como por ejemplo 3.94 y 1.00; entonces el valor de 1 se convierte en 0.001 ya que el ejercicio esta en centésima, por lo tanto tiene que tener un número más, como en este caso es 0.001 4.- Rango del intervalo que es igual a
C =
RANGO + 1
# DE CLASES
Ejemplo:
Puntuación de 80 estudiantes en el primer ciclo de administración: 68 73 61
84 79 65
75 88 75
82 73 87
68 60 74
90 93 62
23
62 71 95
88 59 78
76 85 63
93 75 72
66 96 79 65 86
78 78 62 80 67
82 89 67 73 73
75 61 97 57 81
94 75 78 88 72
77 95 85 78 63
69 60 76 62 76
74 79 65 76 75
68 83 71 53 85
60 71 75 74 77
1) Ordenar los datos sea en forma ascendente o en forma descendente; en este ejemplo aplicamos en forma ascendente del menor al mayor.
53 62 68 73 75 78 82 88
57 62 68 73 75 78 83 89
59 63 68 73 75 78 84 90
60 63 69 74 76 78 85 93
60 65 71 74 76 79 85 93
60 65 71 74 76 79 85 94
61 65 71 75 76 79 86 95
61 66 72 75 77 80 87 95
62 67 72 75 77 81 88 96
62 67 73 75 78 82 88 97
Rango o recorrido: X max = 97 X min = 53 R = X max – X min 97 – 53 = 44 3) a) Número de clases tomado en este ejemplo de 9 “Decisión personal”, tratar de que salgan datos exactos y no con decimales, en el mejor de los casos, y en el caso de que salgan con decimales aplicar el redondeo de datos: 2 K ≥ n o b) 2 C ≥ nT > n
2 K ≥ n
2 7 > 80
128 > 80
O sea se puede trabaja con 9 o con 7 para este ejercicio. 4) a) C =
Rango + 1
# deClases
CALIFICACIONES 53 - 57 58 - 62 63 - 67 68 - 72 73 - 77 78 - 82 83 - 87 88 - 92 93 - 97 TOTAL
44 + 1 45 +1 = = 5 ; b) C = Rango # deClases 9 9 fi 2 10 8 9 20 12 6 6 7 80
Xr 55 60 65 70 75 80 85 90 95
44 + 1 45 = =6 7 7
Consisten en una serie de barras tipo rectángulo que tienen sus bases sobre los ejes horizontal con centros en las marcas de clase o medias aritméticas y longitud igual al tamaño del intervalo de clase.
Las alturas de los rectángulos son proporcionales a las frecuencias de clase, generalmente y en caso de 24
que las frecuencias sean numéricamente grandes se acostumbra a utilizar escala. POLIGONO DE HISTOGRAMA O BARRAS AÑOS 1950 1951 1952 1953 1954 1955 1956 1957 1958 1959 1960
SACOS DE TRIGO 200 185 225 250 240 195 210 225 250 230 235
Es un gráfico de línea trazada sobre las marcas de clase y se lo obtiene uniendo los puntos medios de los techos de los rectángulos del histograma. POLIGONO DE PICTOGRAMA O PUNTOS SACOS MAIZ
AÑOS
1950 1951 1952 1953 1954 1955 1956 1957 1958 1959 1960
DE
75 90 100 85 80 100 110 105 95 110 100
Se llama frecuencia relativa de una clase al valor de la frecuencia de clase (frecuencia absoluta) dividido para el total de las observaciones, y expresado generalmente en porcentajes.
53 - 57 58 - 62
2 10
55 60
0.025 0.125
25
2.5 12.5
2 12
80 78
63 - 67 68 - 72 73 - 77 78 - 82 83 - 87 88 - 92 93 - 97
8 9 20 12 6 6 7
65 70 75 80 85 90 95
0.1 0.1125 0.25 0.15 0.075 0.075 0.0875
10 11.25 25 15 7.5 7.5 8.75
20 29 49 61 67 73 80
68 60 51 31 19 13 7
X = 53 - 57 = 110 / 2 = 55 Fre. = 2 / 80 = 0.025
Frecuencia Frecuencia
Relativa absoluta
Fre % = 0.025 * 100 = 2.5
Frecuencia porcentual
O
Fi Ac = Frecuencia acumulada o menos = 2 +10 = 12 Fi Ac = Frecuencia acumulada o más = 80 - 2 = 78
Si las frecuencias de la tabla o gráfico de frecuencias se sustituyen por las correspondientes frecuencias relativas, la tabla se llama “DISTRIBUCIÓN DE FRECUENCIAS RELATIVAS O DISTRIBUCIÓN PORCENTUAL DE FRECUENCIAS RELATIVAS.” La frecuencia total de todos los valores menores que el límite real superior de clase de un intervalo se conoce como FRECUENCIA ACUMULADA HASTA ESE INTERVALO INCLUSIVE, DENOMINADO TAMBIÉN FRECUENCIA ACUMULADA O MENOS. En algunos casos es preferible considerar una distribución de frecuencias acumuladas de todos los valores mayores o iguales al límite real inferior de clase, denominándose a este tipo de “DISTRIBUCIÓN ACUMULADA O MÁS”. Los gráficos de dichas distribuciones de frecuencias acumuladas se denominan ojivas. Son las frecuencias acumuladas divididas para el total de observaciones, para que se conviertan en frecuencia relativa porcentual acumulada, se multiplica por 100. Los criterios para distribuciones relativas 26
acumuladas más o menos son los expresados para distribuciones acumuladas. LOS GRÁFICOS DE DICHAS DISTRIBUCIONES DE FRECUENCIAS ABSOLUTAS O RELATIVAS SE LES DENOMINAN OJIVAS. Y 80
Ojiva “O Menos”
70 60 50 40 30 20 10 Ojiva “O Más” 55 60 65 70 75 80 85 90
95
X
Una ojiva o un polígono de frecuencias se forma por el conjunto de puntos obtenidos por la unión de una distribución de frecuencias (marca de clase), mientras el intervalo entre las marcas de clase sea menor a la unión del conjunto de puntos nos dará una curva, por lo que todo polígono es necesario suavizarlo (curva a mano alzada). Las curvas de frecuencias presentan características que las distinguen:
27
determinadas
formas,
a)
b)
c)
d)
e)
f)
g)
h)
CURVA SIMÉTRICA: O bien formada se caracteriza porque las observaciones equidistan del máximo central. b y c) CURVA DE FRECUENCIAS MODERADAMENTE ASIMÉTRICAS: O sesgada hacia la derecha sesgo positivo, o hacia la izquierda llamada sesgo negativo. d y e ) CURVAS EN FORMA DE J. O DE J INVERTIDA: Con máximos a los extremos corresponden generalmente a curvas de frecuencias acumuladas. f) CURVA DE FRECUENCIAS EN FORMA DE U: Con el máximo en sus extremos (curva parabólica). g) CURVA DE FRECUENCIA BIMODAL: Porque tiene 2 máximos. h) CURVA DE FRECUENCIA MULTIMODAL: Aquella que tiene más de tres puntos máximos. a)
EJERCICIOS PROPUESTOS:
28
Tabla 2
300-399 400-499 500-599 600-699 700-799 800-899 900-999 1000-1099 1100-1199
a) b) c) d) e) f) g) h)
14 46 58 76 68 62 48 22 6
El límite superior de la quinta clase = El límite inferior de de la octava clase =1000 Marca de la sexta clase = Las fronteras de clase de la última clase La anchura de intervalos de clase = Frecuencia cuarta clase Frecuencia relativa sexta clase = Porcentajes de tubos de la vida media no pasa de 600 horas Porcentaje de tubos cuya vida media es mayor o igual a 900 horas = Porcentaje de tubos cuya vida media es de al menos 500 horas, pero menor que 1000 horas =
Vida de media (horas)
Número de tubos
300-399 400-499 500-599 600-699 700-799 800-899 900-999 1000-1099 1100-1199 TOTAL
14 46 58 76 68 62 48 22 6 400
a) Un histograma b) Un polígono de frecuencias
a) Una distribución de frecuencias relativas. 29
Vida de media (horas)
Número de tubos
300-399 400-499 500-599 600-699 700-799 800-899 900-999 1000-1099 1100-1199 TOTAL
14 46 58 76 68 62 48 22 6 400
x
Frecuencia relativa
b) Un histograma de frecuencias relativas
c) d) e) f) g) h)
Polígono de frecuencias relativas Una distribución de frecuencias acumuladas Una distribución acumulada en porcentajes Una ojiva Una ojiva de porcentajes Frecuencias del modo o más y o menos
5.-
a) Anchura de intervalo de clase o limite real superior menos limite real inferior b) Fronteras de clase o limites reales superiores o inferiores
1,738 1,735 1,736
1,729 1,731 1,350
1,743 1,726 1,724
1,740 1,737 1,733 30
1,736 1,728 1,742
1,741 1,737 1,736
1,739 1,728 1,733 1,738 1,735 1,736 1,735
1,735 1,738 1,730 1,739 1,727 1,744 1,735
1,745 1,725 1,732 1,727 1,734 1,732 1,729
1,736 1,733 1,730 1,735 1,732 1,737 1,734
1,742 1,734 1,739 1,735 1,736 1,731 1,730
1,740 1,732 1,734 1,732 1,741 1,746 1,740
a) Un histograma b) Un polígono de frecuencia. c) Un histograma de frecuencias relativas d) Un polígono de frecuencias e) Una ojiva f) Una ojiva de frecuencia acumulada.
Menos de 2500 2500 – 4999 5000 – 9999 10000 – 19999 20000 – 39999 40000 – 99999 100000 – 249999 250000 – 499999 500000 – o más
EXPLOTACIONES (%) 25,9 13,2 13,0 11,7 11,0 14,4 8,5 1,8 0,6
a) Cuál es la anchura del segundo intervalo de clase ¿y del séptimo?
b) ¿Cuántos tamaños diferentes de intervalos de clase hay? c) ¿Cuántos intervalos de clase abiertos hay? d) ¿Cómo habría que escribir el primer intervalo de clase para que su anchura sea igual a la del segundo e) ¿Cuál es la marca de clase del segundo intervalo de clase? ¿y del séptimo? f) ¿Cuáles son las fronteras de clase del cuarto intervalo de clase? g) ¿Qué porcentaje de las plantaciones tuvo ventas de $20.00 a más? ¿y por debajo de $ 10.000? h) ¿Qué porcentaje logró ventas de al menos $ 10.000 pero mayores que $ 40.000?
31
i) ¿Qué porcentaje tuvo entre $15.000 y $ 25.000? ¿Qué hipótesis se han hecho en ese cálculo? j) ¿Por qué los porcentajes de la tabla no sumas 100%?
300-399 400-499 500-599 600-699 700-799 800-899 900-999 1000-1099 1100-1199 a) b) c) d)
14 46 58 76 68 62 48 22 6
Un histograma Un polígono de frecuencia. Una ojiva Una ojiva de frecuencia acumulada.
10 19 29 43 58 61 85
13 22 30 47 58 62 86
0 25 11 12
DATOS 1 0 4 14
DATOS 15 23 32 52 58 63
ORDENADOS 17 24 35 55 60 72
DESORDENADOS 12 15 29 28 5 9 17 13
32
19 25 37 56 60 76
14 26 10 16
19 27 42 56 60 78
25 1 17 4 14
8 3 39 9 12
5 4 25 10 2
2 5 18 20 18
33
0 7 15 25 14
Generalmente una muestra o fenómeno a estudiarse contiene gran cantidad de datos los mismos que requieren ser presentados en cuadros llamados de distribuciones, cuya característica es presentar en forma resumida la situación de la muestra o fenómeno y de los que es necesario todavía reducirlos a medidas que representen la situación promedio de dicha muestra o fenómeno. A este procedimiento se lo conoce con el nombre de reducción de datos expresados en valores o parámetros de formas diferentes llamadas medias y que son: MEDIDAS DE CENTRALIZACIÓN: Las medidas de tendencia central son las más conocidas y utilizadas en nuestras vidas diarias. Estas nos proporcionan un valor alrededor del cual se distribuyen las observaciones. Las medidas de centralización mas utilizadas son: media aritmética, media geométrica, media armónica, mediana, moda o valor modal, cuartilas, decílas y centilas. A continuación describiremos la simbología o notación a utilizarse para las fórmulas de las medidas de centralización: = Representa la media aritmética de una muestra µ = = Representa la media aritmética de una población ∑ = Sumatoria de un conjunto de valores ∑ Xj= X1 + X2 + X3 + ......Xn f = Frecuencia de clase X = Marca de clase A = Media supuesta dj = Desviación de la marca de clase con respecto a una media cualquiera (x-A). n = Indica el número de elementos de la muestra N = Indica el número de elementos de la población X =
34
Un promedio es un valor que es típico o representativo de un conjunto de datos y generalmente están situados en el centro del conjunto de datos ordenados. A estos promedios se los denomina como medidas de centralización. Es posible que usted este familiarizado con la media aritmética pues se trata del valor que halla al promediar algo. Por ejemplo si usted desea saber el número promedios de horas al día que ha trabajado durante los últimos 15 días, basta sumar las horas que ha trabajado cada día y dividir para 15. Al realizar esto usted estará calculando la media aritmética. Como la media aritmética no es más que el promedio de un conjunto de observaciones su fórmula queda definida: X =
∑ X
Para datos originales
n
En caso de existir una distribución de frecuencias o datos agrupados su fórmula se expresa de la siguiente manera: X =
∑ fX
Para datos agrupados
n
Es aquella expresión de la media aritmética en la que se emplea la frecuencia de los datos para expresarla de forma comprimida. La fórmula a utilizarse es la siguiente: X W
=
∑ (WX ) ∑W
Ejemplo: Calcular la media de la siguiente serie de calificaciones de exámenes en la asignatura de estadística: 6, 8, 3, los mismos que tienen un valor del 30%, 60% y del 10% respectivamente, de la nota final.
35
X W
=∑
(WX )
∑W
X W
=
6(30) + 8(60) + 3(10) 690 = = 6,9 30 + 60 + 10 100
Este ejercicio se puede interpretar como una media aritmética en la que el valor 6 aparece 30 veces; es decir, la frecuencia absoluta correspondiente al valor 6 es de 30. La que corresponde al valor 8 es de 60 y la frecuencia absoluta del valor 3 es de 10
1.- Es una medida de tendencia central que depende de todos los valores de la serie y se encuentra afectada por el recorrido demasiado amplio de los valores extremos, con respecto a la media. 2.- De la fórmula de la media aritmética puede despejar cualquiera de sus elementos: 3.- Podemos calcular la de un conjunto de promedios. APLICACIONES DE LA MEDIA ARITMETICA: 1.- Obtener un promedio que tenga representatividad en la serie 2.- Comparar 2 o más series 3.- Obtener otros tipos de medidas, como por ejemplo: medidas de dispersión, de correlación y para verificar hipótesis. Ejemplo 1 Media aritmética para datos originales: 8, 3, 5, 10, 12 X =
∑ X n
X =
3 + 5 + 8 + 10 + 12 5
X =
38 5
X = 7,6
dj = X − X
∑
dj = 0
dj= (3 – 7,6) + (5 – 7,6) + (8 – 7,6) + (10 – 7,6) + (12 – 7,6) = 0
36
X = 7,6
Ahora con una media supuesta, preferentemente uno de los valores de las observaciones del mismo ejemplo: A= 3
∑ ∑
dj = (3 – 3) + (5 – 3) + (8 – 3) + (10 – 3) + (12 – 3) dj = 0+2+5+7+9 = 23
X = A +
∑ dj
X = 3 +
n
23 5
X = 3 + 4,6
X
7,6
=
PARA DATOS AGRUPADOS Ejemplo 2 Altura en Frecuencias pulgadas (f) 60 – 62 5 63 – 65 18 66 – 68 42 69 – 71 27 72 – 74 8 ---------- -----------TOTAL 100 Altura en Frecuencias pulgadas (f) 60 – 62 63 – 65 66 – 68 69 – 71 72 – 74 ----------
5 18 42 27 8 ------------
TOTAL
100
Marca de clase ( x )
=
Marca de clase (X) 61 64 67 70 73
( 60 + 62) 2
fX 305 1152 2814 1890 584 -------6745
= 61
fX = 5 X 61 = 305
= 61 − 67 = −6 fdj = 5( − 6) = −30 dj
64 − 67 = −3 18( − 3) = −54
37
A=67 dj (X-A) -6 -3 0 3 6
fdj - 30 - 54 0 81 48 -------45
Primer Primeraa fórmula fórmula (Método (Método de compila compilació ción) n) aritmética: X =
para para calcular calcular la media media
∑ fX = 6745 = 67,45 100
n
Segunda fórmula (Método largo) para calcular la media aritmética: De la marca de clase (tomamos el valor central en caso de que sean impares; mientras que cuando son pares se toma cualquiera de los valores centrales, en este caso es A = 67) A = 67 X = A +
∑ fdj = 67 + 45 = 67,45 100
n
Tercera fórmula (Método Clave) para calcular la media aritmética: U = Unidades de intervalo C = Intervalo diferencia de limites reales de clase Altura en Frecuencias pulgadas (f) 60 – 62 63 – 65 66 – 68 69 – 71 72 – 74 --------TOTAL
5 18 42 27 8 ----------100
Marca de clase (X) 61 64 67 70 73
A=67 U dj dj/C (X-A) (X-A)/C -6 -2 -3 -1 0 0 3 1 6 2
fU - 10 - 18 0 27 16 -----15
U= LIMITE REAL SUPERIOR (se suma 5 décimas al limite superior, dependiendo si se esta trabajando con decimales, caso contrario si se esta esta trab trabaj ajan ando do con con deci decima male less hay hay que que suma sumarr de acue acuerd rdoo a los los decimales que tengamos); y se resta del LIMITE REAL INFERIOR (se realiza de la misma manera de lo que se explico anteriormente con el limite real superior, pero en este caso se resta). U = 62,5 – 59,5 = 3
38
C = (X-A)/U
X = A +
(61-67)/3 = - 2 (64-67)/3 = - 1
∑ fU xU xU n
15 X 3 67 + 100
67 ,45
2
CONCEPTO: Es el valor que queda ubicado justo en el medio de un conj conjun unto to de dato datos, s, cuan cuando do está estánn orde ordena nado doss ya sea sea en sent sentid idoo ascendente o descendente. FORMULAS DE LA MEDIANA: 1) Para datos datos originales originales puede puede presentarse presentarse 2 casos: casos: a) Que las n observaci observaciones ones sea impar impar siendo el valor valor de la mediana mediana el valo valorr cent centra rall de las las ob obse serv rvac acio ione ness una una vez vez orde ordena nada da la muestra Ejemplo: Dadas las siguientes observaciones: 3, 10, 12, 1, 7. Se ordena: 1, 3, 7, 10, 12. El valor central central es = 7, Md = 7 MEDIANA
b) Si el número ero de observ ervaciones es par entonces habrá 2 observaciones centrales y la mediana será la media aritmética de esas 2 observaciones centrales. Ejemplo: 3, 8, 12, 10, 7, 1 Se ordena: ordena: 1, 3, 7, 8, 10, 12.
El valor central es 7 + 8 / 2 = 7,5 Mediana.
2) La fórmula fórmula de la mediana mediana para para datos datos agrupados: agrupados: Para el cálculo de la mediana es necesario utilizar una columna para las frecuencias acumuladas, y en la clase en donde se incluyen el 50% de las observaciones se deberá dete determ rmin inar ar po porr inte interp rpol olac ació iónn el valo valorr de la medi median anaa siendo su fórmula.
39
n − 2 Md = Lri +
∑ fai c
fm
Md = Mediana Lri = Limite real inferior de la clase mediana n = Número total de observaciones ∑ fai = Sumatoria de las frecuencias acumuladas inferiores a la mediana f m = Frecuencia de la clase mediana c = Intervalo de clase, pero de la clase mediana. PROPIEDADES DE LA MEDIANA: 1.- Es una medida de tendencia central que ocupa el lugar central de la serie. 2.- Es un valor central y para su cálculo no es necesario conocer todos los elementos de la serie 3.- Los valores de la variable, grandes o pequeños no influyen en el cálculo de la mediana. APLICACIONES DE LA MEDIANA: 1.- Se emplea para determinar el valor central de la serie 2.- Se emplea para dividir el área del polígono de frecuencia en dos partes iguales. Ejemplo: Altura en Frecuencias X fa pulgadas (f) frecuencias acumuladas 60 – 62 5 61 5 63 – 65 18 64 23 69 – 71 72 – 74 --------TOTAL
27 8 ----------100
70 73
92 10 0
40
n − 2 Md = Li +
∑ fi c
fm
100 − 3 2 x3 67,42 65,5 + 42
Lri = Limite real inferior de la clase mediana = 65,5 n = Número total de observaciones = 100 ∑ fai = Sumatoria de las frecuencias acumuladas inferiores a la mediana = 23 fm = Frecuencia de la clase mediana = 42 C = Intervalo de clase pero de la clase mediana = 3
DEFINICIÓN: Es el dato que más veces se repite. Esta última medida de tendencia central es la más sencilla de las 3 medidas y para su determinación, no necesita cálculo alguno, basta observar en la columna de las frecuencias el dato que tiene mayor frecuencia, o que más se repite. 2.2; 5.7; 9.99; -10; -10; -11; -12; 18. En este caso el número que más veces se repite es el número -10, por lo tanto éste es la moda. Por lo general las distribuciones son uní modales, es decir sólo tienen una moda, sin embargo es posible que una distribución tenga varias modas como por ejemplo si tenemos la serie: 5, 6, 6, 6, 7, 8, 8, 9, 8. Es bimodal, ya que la moda fuera el (6 y 8) La moda se utiliza para distribuciones de frecuencias con gran concentración de datos en la región, cercana al centro de la distribución, esta medida de centralización carece de significación para distribuciones de pocos datos, la fórmula para datos centralizados es: ∆1 c ∆1 + ∆2
Mo = Lri +
Mo = Moda o modo Lri = Limite real inferior de la clase modal 41
∆1 = Incremento 1 = Diferencia la frecuencias de la clase modal y la
frecuencia de inmediata inferior. ∆ 2 = Incremento 2 = Diferencia entre la frecuencia de la clase modal y la frecuencia de la clase inmediata superior. C = Intervalo de la clase modal. PROPIEDADES DE LA MODA: 1.- Es el valor que más se repite en una serie. 2.- La moda no se altera por valores muy grandes que existan en la serie. 3.- La moda no tiene ninguna significación en una serie de pocos elementos y que no se repite ninguno de ellos. 4.- Cuando calculamos la moda en una serie de intervalos de clase, como lo realizamos anteriormente, solo se obtienen un valor aproximado. APLICACIONES DE LA MODA: 1.- Es una medida muy fácil de calcular, pero solo se obtiene un valor aproximado. 2.- En algunas distribuciones puede no existir, pero en otras aplicaciones puede haber dos, tres modas, etc. En dichos casos la distribución se denomina bimodal, trimodal y multimodal respectivamente. 3.- Se la emplea para identificar el salario más común, la calificación que más se repite, pero en otros casos se tiene muy poca aplicabilidad. Altura en pulgadas 60 - 62 63 – 65 66 – 68 69 – 71 72 – 74 ----------TOTAL
Frecuencia Marca de clase (f) (X) 5 61 18 64 42* 67 27 70 8 73 ---------100
∆1 = 42 − 18 = 24 ∆ 2 = 42 − 27 = 15
42
∆1 c ∆1 + ∆ 2
Mo = Li +
24 X 3 24 + 15
65,5 +
67,34
CARACTERISTICAS DE LA MEDIA, LA MEDIANA Y LA MODA.= a. INTRODUCCION.En las partes anteriores hemos aprendido que la media es una medida de tendencia central en la que la suma de las desviaciones respecto a ella es cero; que la mediana es la medida de tendencia central que divide el área de un histograma o el área bajo la curva de distribución en dos partes iguales, de manera que el número de observaciones por debajo de la mediana es igual al número de observaciones por encima de ella y, por último, que la moda es el valor que se presenta con mayor frecuencia. En esta parte nos referimos al uso de estas medidas de tendencia central, a algunas de sus características y las relaciones más importantes que hay entre ellas. b.- TRATAMIENTO ALGEBRAICO.De las tres medidas de tendencia central, la media es la única que se presta a tratamientos algebraicos. Así, de la expresión de la media X =
∑ X , se desprenden las siguientes relaciones: ∑ X = N X ; n
N =
∑ X . X
Utilizando desarrollos algebraicos se demuestran varias propiedades de la media, algunas de las cuales se utilizan para calcular el valor de la media por el llamado método corto o método clave, que es de gran importancia cuando no se dispone de una calculadora electrónica. La mediana, al igual que la moda, no se presta para tratamientos algebraicos como la media aritmética. c.- EFECTO DE LOS VALORES EXTREMOS.De las tres medidas tendencia central, la media aritmética es muy sensible a los valores extremos, en tanto que la mediana y la moda no son afectadas por los valores de los extremos. 43
EJEMPLO: En la serie 3, 5, 7, 7, 8 la media es
3+5+7 +7+8 = 6 ; si cambiamos el valor extremo 8 5
por 18, se tiene la serie 3, 5, 7, 7, 18, cuya media es
3 + 5 + 7 + 7 + 18 = 8 , es decir, la media 5
varia de 6 a 8. La mediana, por ser insensible a los valores extremos, no varió al cambiar 8 por 18 y es 7 en ambas series. La moda en ambas series es 7 por ser el valor más frecuente.
Debido a la gran sensibilidad de la media aritmética a los valores extremos, muchas veces resulta que su valor produce efectos engañosos. Por ejemplo, si se está estudiando el ingreso diario de un grupo de personas y, se tienen los valores $320, 400, 400, 450, 500, 550, 2000, y 2900, a esta serie le corresponde: Media = $ 880 Mediana = $ 450 Moda = $ 400
Observe que sólo dos personas tiene ingresos altos y las siete restantes tienen salarios de $ 550 o menos, o sea que en este caso la media resultó atípica (no típica). La mediana de $ 450 y la moda de $ 400 resultan más representativas para esta distribución. El conocimiento de las tres medidas de tendencia central da una buena apreciación de la distribución de los valores. Pero si se debe hacer una apreciación con una sola de las medidas, es mejor usar la mediana que corresponde al valor del medio. d.- EFECTO DE LA ASIMETRÍA.-
En una distribución simétrica las tres medidas de la tendencia central son idénticas, y si la distribución se torna asimétrica no se produce cambio en la moda; la mediana y la media se corren en la dirección de la asimetría. La asimetría es positiva hacia la derecha y negativa hacia la izquierda. En la asimetría positiva la mediana aumenta por el mayor número de frecuencias hacia la derecha y la media aumenta más, ya que hay un incremento en la frecuencia y en el valor de las observaciones. En las asimetrías negativas ocurre lo contrario; la mediana disminuye y la media se reduce más que la mediana. En el siguiente ejemplo se muestra el polígono de frecuencias de la distribución de frecuencias agrupadas que se da en el cuadro. El polígono se construyo utilizando las ordenadas correspondientes a las marcas de cada clase y en él se muestra la posición de la media, la 44
mediana y la moda. Para la moda se consideró la marca de la clase de mayor frecuencia; en realidad esta manera de calcular la moda es una forma aproximada y para su exacta ubicación en la clase modal existen métodos de interpolación en los que intervienen las frecuencias de las clases vecinas a la clase modal. INTERVALO DE CLASE f 16, 5 – 19,5 1 19,5 – 22,5 5 22,5 – 25, 5 9 25,5 – 28,5 6 28,5 – 31,5 5 31,5 – 34,5 4 34,5 – 37,5 2 ---------------------------TOTAL 32 Media (X) = 26,7
10
Mediana (Me) = 26
9
Moda (Mo) = 24
8 7
s a 6 i c e 5 u c 4 e r f
Serie1
3 2 1 0 1
2
18
Marca de clase
3 21
4
5
6
7
8
24 27 Mo Me X
30
33
36
9
e.- ¿Qué MEDIDA DE TENDENCIA CENTRAL ESCOGER?
La medida de tendencia central que debe utilizarse depende de la información que se tenga y del objetivo que se persigue. Si la distribución es casi simétrica, pueden utilizarse indistintamente las tres medidas, que resultan aproximadamente iguales.
45
Si los datos no están ordenados, puede resultar más fácil el cálculo de la media aritmética que el de la mediana; la moda se encuentra por simple búsqueda del valor más frecuente. Si los datos son irregulares y hay algunas en los valores de la clase de la mediana, esta medida de tendencia central no es buena, ya que su ubicación puede resultar falsa. Si se desea calcular totales, la única medida utilizable es la media aritmética. Así, si basados en una experiencia deseamos conocer en una empresa el posible gasto de energía eléctrica para un periodo futuro, la única medida que puede usarse es la media. Si desea ubicarse las condiciones de una persona en una clase, la mediana resulta la medida más indicada, ya que por comparación pone en evidencia si la persona está por sobre la mitad o por debajo de ella. Se lo define como media geométrica al estadígrafo de centralización que es igual a la raíz enésima del producto de las Xj observaciones. Esta medida de centralización se caracteriza por dar mayor importancia a los valores menores o por estar influenciada por dichos valores en una distribución, es una que trata de reducir la importancia de los valores con relación a los valores menores. La media geométrica no es aplicable para el caso en el que uno o unos de los valores de una muestra sean igual a cero. FORMULAS PARA DATOS ORIGINALES:
Para facilitar la utilización de la formula de la media geométrica es conveniente convertir a la misma en operaciones con logaritmos de manera que las fórmulas anteriores expresadas en logaritmos se describan a continuación:
log G
=
∑ log X
PARA DATOS ORIGINALES
n
46
log G =
∑ f log X n
PARA DATOS AGRUPADOS
Ejemplo: Altura en pulgadas
Frecuencia (f)
Marca de clase (X)
Log X
f logX
60 - 62 63 - 65 66 - 68 69 - 71 72 - 74 ------------------
5 18 42 27 8
61 64 67 70 73
1.79 1.81 1.83 1.85 1.86
8.93 32.51 76.69 49.82 14.91 -----------------
La media geométrica es útil en el cálculo de tasa de crecimiento.
Se lo define como el estadígrafo que es igual al reciproco de la media aritmética del reciproco de los números a semejanza de la media geométrica, es una medida que esta influenciada por los valores pequeños de la distribución e igual que la medida geométrica cuando uno de los valores de la variable es igual a cero, la media armónica deja de ser representativa, esta medida es utilizada especialmente para la determinación de velocidades medias, así como también en el consumo o gasto del presupuesto familiar. H= media armónica. H =
n
∑ X 1
Datos simples
47
H =
n f
∑ X
Datos agrupados.
Ejemplo:
60 - 62 63 - 65 66 - 68 69 - 71 72 - 74
5 18 42 27 8
61 64 67 70 73
0.082 0.28 0.63 0.39 0.11
100
H =
1.48536
= 67.32
6.- CUANTILAS: CUARTILES, DECÍLES Y PERCENTILES O (centiles):
La fórmula general para hallar su ubicación es: L p
=
( n −1) *
p 100
En donde: = Es el sitio, lugar o
la posición del percentil buscado en una serie ordenada. n = Es el número de observaciones p = es el percentil buscado. L p
CUARTILES, PARA DATOS ORIGINALES:
Es la serie que dividen en cuatro partes, sus fórmulas son: 25 100
L25
= ( n + 1) *
L50
= ( n + 1) *
L75
= ( n + 1) *
50 100
75 100
=
PosQ1
=Me=
PosQ2
=
PosQ3
DECILES, PARA DATOS ORIGINALES:
48
= =
n +1
4
n +1
=
2
3(n + 1) 4
Es la serie que divide en 10 partes iguales, sus fórmulas son: L1
= ( n + 1) *
1 10
=
PosD1
=
( n + 1) 10
L3
= ( n + 1) *
3 10
=
PosD3
=
3( n + 1) 10
L5
= ( n + 1) *
L9
= ( n + 1) *
5
=Me=
10
9 10
=
PosD5
PosD9
=
=
( n + 1) 2
9( n + 1) 10
PERCENTILES O CENTILES, PARA DATOS ORIGINALES:
Es la serie que divide en 100 partes iguales, sus fórmulas son: ( n + 1)
L10
= ( n + 1) *
10 100
=
PosP 10
=
L30
= ( n + 1) *
30 100
=
PosP 30
=
3( n + 1) 10
L50
= ( n + 1) *
=Me=
PosP 50
=
( n + 1) 2
L90
= ( n + 1) *
=
PosP 90
=
50 100
90 100
10
9( n + 1) 10
Ejemplo: Ordenar los siguientes datos que corresponden a una serie simple y calcular los cuartìles uno, dos y tres, los deciles uno, tres y nueve:; y, los percentiles diez, cincuenta y noventa. La edad de los trabajadores es: 33, 26, 66, 45,28, 59, 33, 36, 26, 45, 62, 45. n=12 Primeramente ordenamos los números: X= Posició n
26 26 28 33 33 36 45 45 45 59 62 66 1 2 3 4 5 6 7 8 9 10 11 12
Calcular los cuartìles: uno, dos y tres:
49
Cuartil 1: Q1
=
n +1
4
=
12 + 1 4
=
3,25
Observamos que la respuesta es 3,25; o sea esta entre la 3 y la 4 posición. Esta a 0,25 de la distancia entre ellos. Como el tercer valor es 28, y el cuarto es 33, obtenemos restando el valor de 33 – 28 = 5. Para obtener el valor lo que realizamos es una multiplicación entre la diferencia que salio (5) y la distancia entre la tercera y la cuarta posición que es (0,25); entonces, (5)*(0,25) = 1,25. Para determinar el cuartil 1 lo que tenemos que hacer es sumar la tercera posición que es (28) más 1,25 que salio de la multiplicación entonces el cuartil 1 es igual a: Q1
= 28 + 1,25 = 29,25
Cuartil 2: Q2
=
n +1
2
=
12 + 1 4
=
6,5
O sea 45 – 36 = 9; luego 9*(0,50) = 4,5. Luego se suma la posición 6 que es igual a 36 + 4,5 = 40,5 Cuartil 3: Q3
=
3 * (n + 1) 4
=
3 * (12 + 1) 4
= 9,75
O sea 59 – 45 = 14; luego 14*(0,75) = 10,50 Luego se suma la posición 9 que es igual a 45 + 10,50 = 55,5 Calcular los deciles: uno, tres y nueve: Decil 1: D1
=
n +1
10
=
12 + 1 10
=
13 10
= 1,3
O sea 26, aquí se da un caso que entre 1 y 2 son las mismas cantidades por lo tanto el decil 1 es igual a 26. Decil 3:
50
D3
=
3(n + 1) 10
=
3(12 + 1) 10
=
39 10
=
3,9
O sea 33 – 28 = 5; luego 5 * (0,90) = 4,5 Luego se suma la posición 3 que es igual a 28 + 4,5 = 32,5 Decil 9: D9
=
9(n + 1) 10
=
9(12 + 1) 10
=
117 10
= 11,70
O sea entre las posiciones 12 y 11 que es 66 – 62 = 4; luego 4 * (0,70) = 2,80. Luego se suma el valor de la posición 11 que es igual 62 + 2,80 = 64,8 Calcular los centiles o percentiles: diez, cincuenta y noventa Centil o percentil 10: P 10
=
10(n + 1) 100
=
1(12 + 1) 10
=
13 100
= 1,3
Igual que en el decil entre la posición 1 y la 2 es la misma cantidad por lo tanto el centil es igual a 26. Centil o percentil 50: P 10
=
50(n + 1) 100
=
1(12 + 1) 2
=
13 2
=
6,5
O sea entre la posición 6 y 7, 45 – 36 = 9; luego 9 * (0,50) = 4,5. Luego se suma el valor de la posición 6 que es 36 + 4,5 = 40,5 Centil o percentil 90: P 90
=
90(n + 1) 100
=
9(12 + 1) 10
=
117 10
=
11,70
O sea entre la posición 11 y 12, 66 – 62 = 4; luego 4 * (0,70) = 2,8 Luego se suma el valor de la posición 11 que es 62 + 2,8 = 64,80
51
CUARTILES, DECILES Y PERCENTILES PARA DATOS AGRUPADOS CON FRECUENCIAS:
Se calculan de la misma manera que la mediana, solo que se cambia la fórmula de posición, por la que corresponda. Se encuentra la posición del cuartil, decil o percentil que se desee calcular con las fórmulas utilizadas para una serie estadística. Se calcula el valor del cuaritl, decil o percentil con las siguientes fórmulas. CUARTILES N Q1 = Li
+ 4
DECILES
− fa f
N
CENTIL − fa
10 .C D1 = Li + f
.C
10 N − fa P 10 = Li + 100 .C f
2 N − fa Q2 = Li + 4 .C
2 N − fa D2 = Li + 10 .C f
20 N − fa P 20 = Li + 100 .C f
3 N − fa Q3 = Li + 4 .C
3 N − fa D3 = Li + 10 .C f
30 N − fa P 30 = Li + 100 .C f
4 N − fa D4 = Li + 10 .C f
40 N − fa P 40 = Li + 100 .C f
5 N − fa D5 = Li + 10 .C f
50 N − fa P 50 = Li + 100 .C f
6 N − fa D6 = Li + 10 .C f
60 N − fa P 60 = Li + 100 .C f
7 N − fa D7 = Li + 10 .C
70 N − fa P 70 = Li + 100 .C
8 N − fa D8 = Li + 10 .C f
80 N − fa P 80 = Li + 100 .C f
9 N − fa D9 = Li + 10 .C
90 N − fa P 90 = Li + 100 .C
f
f
f
f
f
f
Calcular el decil SIETE de la siguiente tabla estadística: X 101 - 300
f fai 12 12
52
301 - 500 501 - 700 701 - 900 901 - 1100 1101 - 1300 1301 - 1500 TOTAL
17 6 10 12 8 6 71
29 35 45 57 65 71
Primeramente calculo la posición 7 que es igual: D7
=
7( n + 1)
=
10
7( 71 + 1) 10
=
504 10
=
50,4
Se encuentra la clase que contiene la posición del decil siete, la misma que corresponde al intervalo 901 – 1100 7 N − fa 10 D7 = Li + .C f
=
7(71) − 45 4,7 10 900,5 + * 200 = 900,5 + * 200 12 12
900,5 + 78 = 978,5
Calificaciones. 85 76 93 82 96 432
53
Números 6 7 8 9 10 total
F 6 7 8 9 10 40
4.- EN LABORATORIO, TEORÍA Y PROBLEMAS DE FÍSICA UN ESTUDIANTE HA SACADO 71, 79,89 PUNTOS RESPECTIVAMENTE a) CON PESOS 2, 4,5 ASIGNADOS RESPECTIVAMENTE A ESAS PRUEBAS ¿CUAL ES SU PUNTUACIÓN MEDIA? b) ÍDEM CON LOS TRES PESOS IGUALES: DATOS: 71, 78, 89
CARGA MÁXIMA (toneladas cortas) 9,3 - 9,7 9,8 - 10,2 10,3 - 10,7 10,8 - 11,2 11,3 - 11,7 11,8 - 12,2 12,3 - 12,7 12,8 - 13,2 TOTAL X
El método largo b) El método de compilación a)
462 480 498 516 534 552 570 588 606 624 Total
98 75 56 42 30 21 15 11 6 2 356
54
NÚMERO CABLES 2 5 12 17 14 6 3 1 60
DE
DIÁMETRO 0,7247 - 0,7249 0,7250 - 0,7252 0,7253 - 0,7255 0,7256 - 0,7258 0,7259 - 0,7261 0,7262 - 0,7264 0,7265 - 0,7267 0,7268 - 0,7270 0,7271 - 0,7273 0,7274 - 0,7276 0,7277 - 0,7279 0,7280 - 0,7282 TOTAL
Clase
f
x
10 – 15 3 12.5 15 – 20 7 17.5 20 – 25 16 22.5 25 – 30 12 27.5 30 – 35 9 32.5 35 – 40 5 37.5 40 – 45 2 42.5 5 4
55
F 2 6 8 15 42 68 49 25 18 12 4 1 250
(xA)
fd j
76, 82, 85, 93, 96
CARGA MÁXIMA (toneladas cortas) 9,3 - 9,7 9,8 - 10,2 10,3 - 10,7 10,8 - 11,2 11,3 - 11,7 11,8 - 12,2 12,3 - 12,7 12,8 - 13,2 TOTAL
F
F. a
2 5 12 17 14 6 3 1 60
2 7 19 36 50 56 59 60
56
Las notas de un estudiante han sido
85, 76, 93, 82 y 96.
0.44 – 0.46 – 0.49 – 0.50 – 0.52 – 0.53 – 0.53 – 0.55
9.3 9.7 9.8 10.2 10.3 10.7 10.8 11.2 11.3 11.7 11.8 12.2 12.3 12.7 12.8 13.2
2 5 12 17 14 6 3 1 60
20.-HALLAR EL DIÁMETRO MODAL DE LOS REMACHES DE LA TABLA f
0.7247 - 0.7249 0.7250 - 0.7252 0.7253 - 0.7255 0.7256 - 0.7258 0.7259 - 0.7261 0.7262 - 0.7264 0.7265 - 0.7267 0.7268 - 07270 0.7271 - 0.7273 0.7274 - 0.7276 0.7277 - 0.7279
2 6 8 15 42 68 49 25 18 12 1 250
57
x
X
CARGA MÁXIMA (toneladas cortas) 9,3 - 9,7 9,8 - 10,2 10,3 - 10,7 10,8 - 11,2 11,3 - 11,7 11,8 - 12,2 12,3 - 12,7 12,8 - 13,2 TOTAL
60 63
F
X
2 5 12 17 14 6 3 1 60
9,5 10 10,5 11 11,5 12 12,5 13
65 5 65 18 58
Log x
f. log x
66 69 72
68 42 71 27 74 8 100
59
Luego de determinar las medidas de tendencia central (punto medio) de un conjunto de observaciones es importante tener una idea de cuán dispersas se encuentran dichos datos. Las medidas descriptivas que permitan especificar esta característica se denominan medidas de dispersión o medidas de variabilidad. Una pequeña medida de dispersión indica que los datos se
encuentran muy agrupados. Una medida de dispersión grande indica que los datos están ampliamente extendidos.
MEDIDAS DE DISPERSION.- La amplitud de variación o intervalo se basa en la localización de los valores más grande y más pequeño de un conjunto de datos. La desviación media, la varianza y la desviación estándar se basan en las desviaciones respecto de la media. AMPLITUD (O INTERVALO) DE VARIACION.La medida de dispersión más sencilla es la amplitud de variación. Se trata de la diferencia entre el valor más grande y el más pequeño de un conjunto de datos. Nos indica el recorrido de los datos observados de la variable que se investiga. Expresada como ecuación:
Ejemplo: Determine la amplitud de variación del número de computadoras producidas en las plantas industriales de Quito y Guayaquil. Interprete los dos intervalos. La amplitud de variación en la producción diaria de computadoras en la planta de Quito es 4, se obtiene de la diferencia entre la producción diaria mayor, que es 52, y la menor, que es 48. La amplitud de variación de la producción diaria en la planta de Guayaquil es 20 computadoras, ya que 20 = 60 – 40. Por tanto, puede concluirse que: 1.- Hay menos dispersión en la producción diaria en la planta de Quito que en la de Guayaquil, porque la amplitud de variación de 4 computadoras es menor que la de 20 computadoras, y 2.- La producción en la planta de Quito se acumula más cerca de la media de 50, que la producción en la planta de Guayaquil (porque el intervalo de variación de 4 es menor que uno de 20). De esta forma, la producción media en la planta de Quito (50 computadoras) es un promedio más representativo que la media de 50 computadoras para la planta de Guayaquil.
60
AMPLITUD DE VARIACION CON FRECUENCIAS: Recuérdese que la amplitud (o intervalo de variación) se define como la diferencia entre el valor más grande y el más pequeño de una población. Para calcular la amplitud de variación a partir de datos agrupados en una distribución de frecuencias, se resta el límite inferior de la clase más baja, del límite superior de la clase más alta 1) Supóngase que se agrupó una muestra de 47 sueldos por hora (en dólares) en la siguiente distribución de frecuencias.
Sueldo por hora (en dólares) Frecuencias 5 hasta 10 6 10 hasta 15 12 15 hasta 20 19 20 hasta 25 7 25 hasta 30 3 La amplitud de variación es de 25, que se obtiene 30 – 5 AT = X max – X min
AT = 30 – 5
AT = 25
DESVIACION MEDIA: Es el promedio aritmético de los valores absolutos de las desviaciones con respecto a la media aritmética. En términos de una formula queda: DM
=
∑ X − X
Donde:
n
Es el valor de cada desviación Es la media aritmética de los valores X n Es el número de observaciones en la muestra. ll Indica el valora absoluto. En otras palabras, cuando no se toman en cuenta los signos algebraicos de las desviaciones respecto de la media. X
¿Por qué no se consideran los signos de las desviaciones respecto de la media? Si no se hiciera así, las desviaciones positivas y negativas se compensarían, y la desviación media siempre sería igual a cero. Tal 61
medida (cero) sería un valor estadístico inútil. Como se consideran desviaciones absolutas, la desviación media suele denominarse también desviación media absoluta, simbolizada por DMA. Generalmente se abreviará como DM. Ejemplo: El número de pacientes atendidos en la sala de urgencias del Hospital Regional, para una muestra de 5 días el año pasado fue: 103, 97, 101, 106 y 103. Determine e interprete la desviación media. La desviación media es el promedio según el cual las observaciones individuales se desvían respecto de la media aritmética. Para obtener la desviación media de un conjunto de datos, se comienza evaluando la media aritmética. La media del número de pacientes es 102, valor obtenido de (103 + 97 + 101 + 106 + 103) /5. Después se determina la magnitud en que cada observación se desvía respecto de la media. Luego se suman esas diferencias, omitiendo sus signos, y se divide la suma entre el número de observaciones. El resultado es el valor medio en que las observaciones se desvían con respecto al promedio. Un valor pequeño en la desviación indica que la media es representativa de los datos, en tanto que un valor grande en la desviación indica dispersión en los datos. A continuación se muestran los detalles de los cálculos utilizando la formula. Número de casos
( X − X
Desviación absoluta
103 97 101 106 103 TOTAL
(103 – 102) = 1 (97 – 102) = - 5 (101 – 102) = -1 (106 – 102) = 4 (103 – 102) = 1
1 5 1 4 1
DM
X − X ∑ =
DM
n
=
12 = 2,4 5
La desviación media es 2,4 pacientes por día. El número de esta varia, en promedio, en 2,4 pacientes por día respecto de la media de 102 enfermos diarios.
La desviación media tiene dos ventajas. Primero, utiliza en su cálculo todos los valores en la muestra. Segundo, es fácil de comprender, pues representa el promedio en que los valores se desvían con respeto a la media. Sin embargo, su principal desventaja es el uso de valores absolutos, ya que generalmente es difícil trabajar con ellos. En consecuencia, la desviación media no se usa con la misma frecuencia que las otras medidas de dispersión, como es el caso de la desviación estándar. 2.1.- DESVIACION MEDIA DE UNA SERIE ESTADISTICA DE FRECUENCIAS. 62
La desviación media de una serie estadística de frecuencia se la obtiene con la siguiente fórmula:
f X − X ∑ DM = n
que es la misma
anterior, solamente se introduce un nuevo elemento que es la frecuencia. EJEMPLO: El peso en Kg., registrado para un grupo de señoritas es: X 51 50 49 48 47 46 45 44
f 1 2 3 5 3 2 2 1
Hallar la desviación media: Obtenemos la media aritmética
a)
X =
∑ fx n
b) Se resta la media de cada valor c) Se multiplican la frecuencia por las desviaciones absolutas. d) Se divide la suma de los productos entre el número de valores.
X
f
f*X
X − X
f * X − X
51
1
51
3,37
3,37
63
50
2
100
2,37
4,74
49
3
147
1,37
4,11
48
5
240
0,37
1,85
47
3
141
1,89
46
2
92
45
2
90
44
1
44
− 0,63 − 1,63 − 2,63 − 3,63
-------- ----TOTAL X =
----905
19
3,26 5,26 3,63 --------28,11
∑ fX = 905 = 47,63 Kg 19
n
f X − X 28,11 ∑ DM = = = 1,48 Kg n
19
1,48 Kg. Es el valor con el cual cada valor de la variable difiere con respecto a la media aritmética.
2.2.- DESVIACION MEDIA DE UNA SERIE ESTADISTICA DE INTERVALOS.La fórmula que nos permite hacer los cálculos correspondientes a la desviación media de una serie estadística de intervalos es: DM =
∑ f X − X n
En donde: DM = Desviación media
∑ f X − X
= Sumatoria del producto de las frecuencias por las desviaciones. n = Número de casos. EJEMPLO:
64
Mediante la aplicación de un cuestionario se recogieron los siguientes datos, que tienen relación con la edad de un grupo de personas. X f 16 – 19 4 20 – 23 3 24 – 27 2 28 – 31 8 32 – 35 12 36 – 39 20 40 – 43 10 44 – 47 5 48 – 51 0 52 – 55 1 --------- -------TOTAL 65 Hallar la desviación media: Para trabajar seguimos los siguientes pasos: Ls + Li
a)
Obtenemos los puntos medios
b)
Se determina la media aritmética. X = ∑
2
fX
n
Se encuentra las desviaciones X − X d) Se determina el producto de las frecuencias por las desviaciones f * X − X e) Se suma aritméticamente el producto de las desviaciones por las frecuencias y se divide para el número de casos. c)
X
f
X
f*X
X − X
f* X − X
65
16 - 19
4
17,5
70
69,68
402
− 17,42 − 13,42 − 9,42 − 5,42 − 1,42
20 – 23
3
21,5
64,5
24 – 27
2
25,5
51
28 – 31
8
29,5
236
32 – 35
12
33,5
36 – 39
20
37,5
750
2,58
51,60
40 – 43
10
41,5
415
6,58
65,80
44 – 47
5
45,5
227,5
10,58
52,90
48 – 51
0
49,5
0
14,58
0
52 – 55
1
53,5
53,5
18,58
18,58
---------- -------TOTAL X =
-------2269,5
65
40,26 18,84 43,36 17,04
--------378,06
∑ fX = 2269,5 = 34,92 Kg 65
n
f X − X 378,06 ∑ DM = = = 5,82años n
65
5,82 años es el valor que indica con cuanto se separan las edades de cada una de las personas con respecto a la media.
VARIANZA Y DESVIACIÓN ESTÁNDAR: VARIANZA: La media aritmética de las desviaciones cuadráticas con respecto a la media Cabe indicar que la varianza es no negativa, y es cero solamente si todas las observaciones son iguales DESVIACION ESTANDAR: La raíz cuadrada positiva de la varianza. VARIANZA POBLACIONAL: Las fórmulas para la varianza poblacional y la varianza muestral son un poco diferentes. Primero se considerará la varianza poblacional (Recuérdese que una población es la totalidad de las observaciones o datos que se estudian). La varianza poblacional de
66
datos no agrupados, es decir, los datos que no están tabulados en una distribución de frecuencias, se obtienen por medio de la fórmula. VARIANZA POBLACIONAL DATOS ORIGINALES
σ
2
=∑
( X − U ) N
Donde: Es el símbolo de la varianza de una población ( σ es la letra griega sigma minúscula). Se expresa comúnmente como “sigma al cuadrado” σ
2
X U N
Es el valor de una observación en la población Es a media aritmética de la población Es el número total de observaciones en la población.
Ejemplo: Las edades de los pacientes del pabellón de aislados en el Hospital XYZ, son 38, 26, 13, 41 y 22 años. ¿Cuál es la varianza de esa población?. EDAD (X)
X-U
( X − U ) 2
38 26 13 41 22 ----------140
10 -2 - 15 13 -6 -------
100 4 225 169 36 ----------
0∗
534
U =
σ
2
∑ X ; 140 N
= 28
5
( X − U ) =∑ N
2
=
534 5
= 106,8
•
Igual que la amplitud de variación y la desviación media, la varianza se utiliza para comparar la dispersión en dos o más conjuntos de observaciones. Por ejemplo, se calculó que 106,8 es la varianza de las edades de los pacientes del pabellón. Si tal medida para las edades de todos los enfermos de cáncer en el hospital es 342,9, puede decirse que: 1) hay menos dispersión en la distribución de las edades de los hospitalizados en aislamiento, que en la de los pacientes de cáncer (porque 106,8 es menor que 342,9); 2) las edades de los pacientes aislados se acumulan más cerca de la media de 28 años, que las de los enfermos de cáncer. De modo que, la edad media para aquéllos es un promedio más representativo en comparación con la media para todos los pacientes que padecen enfermedades cancerosas.
DESVIACION ESTÁNDAR POBLACIONAL:
67
La interpretación de la amplitud de variación y la desviación media es fácil. La primera, es la diferencia entre los valores más alto y más bajo, de un conjunto de datos. La segunda es el promedio de las desviaciones respecto a la media. Sin embargo, resulta difícil interpretar la varianza para un solo conjunto de observaciones. La varianza de 106,8 para las edades de los pacientes en aislamiento, no está en términos de “años”, sino en “años al cuadrado”. Al obtener la raíz cuadrada de la varianza poblacional, se transforma a un valor que tiene la misma unidad de medición que se utiliza en los datos originales. La raíz cuadrada de 106,8 “años al cuadrado”, es 10,3 años. A esta magnitud: raíz cuadrada de la varianza poblacional, se denomina desviación estándar poblacional. Una fórmula para datos no agrupados es: DESVIACION ESTANDAR POBLACIONAL PARA DATOS ORIGINALES
σ
=
∑ ( X − U )
2
N
Tenemos dos fórmulas de la Varianza y estas son: VARIANZA MUESTRAL FÓRMULA DE LA DESVIACIÓN PARA DATOS 2 ( X − X ) ∑ 2 ORIGINALES S
=
n −1
VARIANZA MUESTRAL FÓRMULA DIRECTA PARA DATOS ORIGINALESS 2 ( ) X ∑ 2 2
S
=
∑ X
−
n
n −1
EJERCICIOS: 1) Las edades de los pacientes del pabellón de aislados en el Hospital TWX, SON 38, 26, 13, 41, 22. ¿Cuál es la varianza de esa población y la desviación estándar? U =
∑ X ; 38 + 26 + 13 + 41 + 22 ; 140 ;28 N
5
5
68
Varianza poblacional Edad (X) 38 26 13 41 22 ----------5
( X − U )
( X − U )
10 -2 - 15 13 -6 ---------0
100 4 225 169 36 ---------534
2
σ
2
( X − U ) =∑
2
;
N
534 ;106,80 5
Desviación estándar σ
=
∑ ( X − U ) N
2
; 106,80 ;10,33
2) Los salarios por hora en una muestra de operarios de medio tiempo en la empresa FRUIT PACKERS, son (en dólares); 2, 10, 6, 8, 9. ¿Cuál es la varianza muestral? a) Varianza muestral X =
∑ X ; 2 + 10 + 6 + 8 + 9 ;7 5
n
Salarios por hora (X)
( X − X ( X − X ) 2
2 10 6 8 9 -----------------------75
2
S
2
S
=
=
∑ X
2
−
-5 3 -1 1 2 -------0
25 9 1 1 4 ---------40
( ∑ X ) 2
S
( X − X ) =∑
S 2
= $10 al cuadrado
2
2
n −1
;
40 5 −1
;
Formula directa: Salario por hora (X)
( X ) 2
2 10 6 8 9 ---------------------35
4 100 36 64 81 -----285
n
n −1
285 −
( 35) 2
5 −1
5
;$10 al cuadrado 2
b) La desviación estándar es: S = S ; 10 ;3,16 DDólar EJEMPLO: Los salarios por hora en una muestra de operarios de medio tiempo en la empresa Fruit, son (en dólares): $ 2, 10, 6, 8, 9. ¿Cuál es la varianza muestral?
69
La varianza muestral se calcula utilizando dos métodos. A la izquierda se presenta el método de la desviación, utilizando la fórmula S 2
( X − X ) =∑
el que se aplica la fórmula 2 ∑ X −
( ∑ X )
2
n −1
2
n
S = n−1 X =
∑ X ; 35 = 7 n
5
EMPLEANDO LAS DESVIACIONES AL CUADRADO CON RESPECTO A LA MEDIA Salario Por hora (X) 2 10 6 8 9 --------35
( X − X ( X − X ) 2 -5 3 1 1 2 --------0
S
( X − X ) =∑
S 2
=
2
25 9 1 1 4 --------40
2
n −1
40 ;10 (Dólares al cuadrado) 5 −1−
USANDO LA FORMULA DIRECTA Salario por hora X 2 (X) 2 4 10 10 0 6 36 8 64 9 81 ------------------------------- --------35 28 5
70
2
. A la derecha se indica el método directo, en
2
S =
∑ X
2
−
( ∑ X )
2
28 5−
n
( 3 5) 2
2
S =
n−1
5−1
5
;
40 5−1
= 10
(Dólares al cuadrado)
DESVIACION ESTANDAR MUESTRAL: Este concepto se utiliza como un estim estimad ador or de la desv desvia iaci ción ón está estánd ndar ar po pobl blac acio iona nal.l. Segú Segúnn se indi indicó có antes, esta última es la raíz cuadrada de la varianza de la población. En form formaa seme semeja jant nte, e, la desv desvia iaci ción ón está estánd ndar ar mues muestr tral al es la raíz raíz cuadrada de la varianza muestral. La desviación muestral para datos no agrupados se obtiene fácilmente como sigue: DESVIACION MUESTRAL ESTANDAR ESTAN DAR FORM FORMULA ULA
S =
∑ X
2
−
( ∑ X ) 2
n −1
DIRECTA
n
; o S = S 2
EJEMPLO: La varianza muestral en el ejemplo anterior de los salarios por hora resultó ser igual a 10. ¿Cuál es la desviación estándar de la muestra? La desviación estándar muestral es $ 3,16 (dólares), que se obtiene de 10 . Observe de nuevo que la varianza muestral está en términos de dólares al cuadrado, pero al obtener la raíz cuadrada de 10 resulta $ 3,16 en dólares simples, y por tanto está en las mismas unidades monetarias que los datos originales.
OTROS METODOS DE LA VARIANZA VARIANZA PARA DATOS ORIGINALES.ORIGINALES.-
PRIMER METODO 2
S
( X − X ) =∑
2
n
EJEMPLOS: Calculamos primero la media aritmética 10, 12, 2, 9, 15, 6, 7, 8, 12, 9 X =
∑ X = 10 + 12 + 2 + 9 + 15 + 6 + 7 + 8 + 12 + 9 = 90 = 9 n
10
10
71
Luego aplicamos la fórmula de la varianza por el método: S 2
2
S
( X − X ) =∑
2
n
=
(10 − 9) 2 + (12 − 9) 2 + ( 2 − 9) 2 + ( 9 − 9 ) 2 + (15 − 9 ) 2 + ( 6 − 9 ) 2 + ( 7 − 9 ) 2 + ( 8 − 9 ) 2 + (12 − 9 ) 2 + ( 9 − 9 ) 2 10
= 11,8 SEGUNDO METODO S 2
10, 12, 2, 9, 15, 6, 7, 8, 12, 9 X =
2
S
∑ X = 10 + 12 + 2 + 9 + 15 + 6 + 7 + 8 + 12 + 9 = 90 = 9 10
n
X =∑ n
2
− X
10
2
10 2 + 12 2 + 2 2 + 9 2 + 15 2 + 6 2 + 7 2 + 8 2 + 12 2 + 9 2 S = − 92 10 2
S 2
=
928 − 81 = 11,8 10
LA VARIANZA PARA DATOS AGRUPADOS.AGRUPADOS.-
PRIMER METODO: Hallar la varianza de la siguiente tabla de frecuencias: Intervalo
f
27 – 29 30 – 32 33 – 35 36 – 38 39 – 41 42 – 44
1 10 10 14 33 14 7
X Marca de clase 28 31 34 37 40 43
fX
X − X
f X − X
( X − X ) 2
f ( X − X )
28 310 476 122 1 560 301
9 6 3 0 3 6
9 60 42 0 42 42
81 36 9 0 9 36
81 3 60 1 26 0 1 26 2 52
72
2
45 – 47 3 ----------- --TOTAL 82 X =
S 2
46 ---------
∑ fX = 3034 = 37
9
27 ------222
81
243 -------1188
82
n
=∑
138 ----3034
(
f X − X
)2
n
=
1188 = 14.49 82
PROCEDIMIENTOS ABREVIADOS PARA EL CÁLCULO DE LA VARIANZA. El procedimiento de la varianza puede simplificarse mediante procedimientos que son una generalización de los ya presentados en relación al cálculo de la media aritmética.
VARIANZA CON DATOS AGRUPADOS CON FRECUENCIAS:
PRIMER METODO DE COMPILACIÓN: S 2
f ( X − X ) =∑
2
n
EJEMPLO: Altura En pulgadas 60 – 62 63 – 65 66 – 68 69 – 71 72 – 74 ----------TOTAL X =
Frecuencia Marca de Clase (f) (X) 5 61 18 64 42 67 27 70 8 73 ----------
∑ fX n
100
( X − X ( X − X ) 2
fX 305 1152 2814 1890 582 -------6745
6745 = 67,45 100
( X − X ) = 61 − 67,45 = −6,45 64 − 67,45 = −3,45
73
- 6,45 - 3,45 - 0,45 2,55 5,55
41,60 11,90 0,20 6,50 30,80
(
f X − X
)2
208 214,2 8,4 175,5 246,4 ----------852,5
S 2
=∑
(
f X − X
)2
852,5 = 8,52 100
n
SEGUNDO METODO: S 2
2
= X − X
Altura En pulgadas 60 – 62 63 – 65 66 – 68 69 – 71 72 – 74 ----------TOTAL S 2
2
S
Frecuencia Marca de Clase (f) (X) 5 61 18 64 42 67 27 70 8 73 ---------100
2
= X − X
∑
2
fX
2
n
fX
X 2
fX 2
305 1152 2814 1890 582 -------6745
3721 4096 4489 4900 5329
18605 73728 188538 132300 42632 ----------455803
2
fX − ∑ n
2
455803 100
2
6745 − = 8,53 100
TERCER METODO: LARGO (MEDIA SUPUESTA “A”): 2
S 2
= dj − dj
S 2
=∑
f dj n
2
2
2
f dj − ∑ n
dj
Altura En Frecuencia Marca de Clase fX pulgadas (f) (X)
= X − A Dj=(X-A) A=67
( X = A) 2 F(X-A) f ( X = A) 2 dj
60 – 62 63 – 65 66 – 68 69 – 71 72 – 74 ----------TOTAL
5 18 42 27 8 ---------100
61 64 67 70 73
305 1152 2814 1890 584 ----6745
-6 -3 0 3 6
74
2
dj
36 9 0 9 36
- 30 - 54 0 81 48 -----45
2
180 162 0 243 288 -------873
S 2
S 2 S 2
2
= dj − dj
2
2
2
f dj =∑ − ∑ n n 2 873 45 = − 100 100 f dj
dj S 2
= X − A
= 8,53
CUARTO METODO: CLAVE S 2
= (U 2 − U 2 )C 2
S 2
∑ fU 2 = n
2
2 ∑ fU * C 2 − n
Altura En Frecuencia Marca Clase pulgadas (f) (X) 60 – 62 5 61 63 – 65 18 64 66 – 68 42 67 69 – 71 27 70 72 – 74 8 73 ----------- ---------TOTAL
100
U =
fX 305 1152 2814 1890 584 ------
( X − A) C
=
−6 3
2
S
C = 68,5 − 65,5 = 3
fU
fU 2
-6 -3 0 3 6
-2 -1 0 1 2
4 1 0 1 4
- 10 - 18 0 27 16 ----15
20 18 0 27 32 -------
= −1
∑ fU 2 ∑ fU 2 − C 2 = n n S 2
C
U 2
6745
97 15 2 2 = − ( 3) 100 100
;
U
C = 68,5 − 65,5 = 3
S 2
C
(X-A)
( X − A) = 61 − 67 = −6 U =
dj ( X − A)
= 8,52
75
97
La varianza S 2 , que estudiamos en la parte anterior como medida del grado de variabilidad de las distribuciones, tiene el inconveniente de expresar la dispersión de una variable en unidades distintas a la que mide la variable; así, si estudiamos la dispersión de la altura de las personas respecto a la media de su grupo, el valor X − X mide la desviación en centímetros, en tanto que la varianza S 2 mide la dispersión en centímetros cuadrados. Al extraer la raíz cuadrada regresamos a la unidad de medida de las variables, de lo cual nos resulta la desviación típica o estándar (s). La desviación típica o estándar es la raíz cuadrada de la varianza. Desviación típica o estándar = Desviación estándar = s =
DESVIACION ESTANDAR
Varianza
S 2
=
S=
∑ ( X − X )
2
n
Utilizando las fórmulas modificadas que se demostraron en el estudio de la varianza, S =
∑
S =
∑ fX
2
X − ∑ n
X 2
n
n
2
2
fX − ∑ n
76
1.- Hallar la desviación estándar de la serie 10, 12, 2, 9, 15, 6, 7, 8, 12, 9. En el ejemplo se calcula la varianza por dos métodos y se tiene: X =
∑ X = 10 + 12 + 2 + 9 + 15 + 6 + 7 + 8 + 12 + 9 = 90 = 9 10
n
10
Calculamos la varianza por el método: S 2
=
∑ ( X − X ) n
(10 − 9) 2 + (12 − 9 ) 2 + ( 2 − 9 ) 2 + ( 9 − 9 ) 2 + (15 − 9 ) 2 + ( 6 − 9 ) 2 + ( 7 − 9 ) 2 + ( 8 − 9 ) 2 + (12 − 9 ) 2 + ( 9 − 9 ) 2
S
=
S 2
= 11,8
2
2
10
La desviación estándar es: S =
S 2
S = 11,81 = 3,44
2.- Averiguar la desviación estándar de las distribuciones agrupadas del siguiente ejercicio: Intervalo
f
27 – 29 30 – 32 33 – 35 36 – 38 39 – 41 42 – 44 45 – 47 -----------
1 10 14 33 14 7 3 ---
TOTAL
82
X Marca de clase 28 31 34 37 40 43 46 --------
fX
X − X
f X − X
( X − X ) 2
f ( X − X )
28 310 476 1221 560 301 138 -----
9 6 3 0 3 6 9
9 60 42 0 42 42 27 -------
81 36 9 0 9 36 81
81 360 126 0 126 252 243 --------
3034
222
77
1188
2
X 2
fX 2
784 961 1156 1369 1600 1849 2116
784 9610 16184 45177 22400 12943 6348 -----113446
X =
S 2
∑ fX = 3034 = 37 82
n
=∑
(
f X − X n
)2
=
La desviación es: S =
∑ fX n
2
1188 = 14.49 82
2
fX − ∑ n
2
113446 3034 − = 3,81 82 82
INTERPRETACION Y USOS DE LA DESVIACION ESTANDAR. TEOREMA DE CHEBYSHEV.La desviación estándar se emplea como una medida para comparar la dispersión en dos o más conjuntos de observaciones. Por ejemplo si tenemos para una distribución una desviación estándar de 7,51 y para otra 10,47 y los valores medios son aproximadamente iguales, esto nos indicaría que en la primera distribución los datos no se dispersan tanto como en el segundo caso porque 7,51< 10,47 por tanto el valor medio para la primera distribución es una medida más confiable que la correspondiente a la segunda distribución. La desviación estándar no proporciona una imagen completa de la información en este sentido tiene una función importante en la toma de decisiones críticas con respecto a la composición de una cartera de inversiones. La desviación estándar es útil para describir un conjunto de datos midiendo el grado de dispersión de las observaciones individuales alrededor de su media. Existen dos aplicaciones adicionales para la desviación estándar. 1. Teorema de Chebyshev. 2. La regla empírica.
78
Se ha dicho que una desviación estándar pequeña para un conjunto de datos indica que éstos se encuentran localizados cerca de la media. Por el contrario, una desviación estándar de gran valor revela que las observaciones están lejos de la media. El matemático ruso Chebyshev (1821 – 1894) desarrolló un teorema que permite determinar la proporción mínima de los valores que se encuentran dentro de un número específico de desviaciones estándares con respecto de la media. Por ejemplo con base en el teorema de Chebyshev, al menos 3 de 4 valores, es decir el 75% deben encontrarse entre la media más dos desviaciones estándares y la media menos dos de tales desviaciones ( X ± 2S ) . Esta relación se aplica sin que importe la forma de la distribución. Además, al menos 8 de cada 9 valores, es decir el 88,9% estarán entre la ( X ± 3S y al menos 24 de 25 valores, es decir 96% se encontrarán entre ( X ± 5S . TEOREMA DE CHEBYSHEV: Establece que para un conjunto cualquiera de observaciones (muestra o población), la proporción mínima de los valores que se encuentran dentro de k desviaciones estándares desde 1 la media es al menos 1 − k 2 , donde K es una constante mayor que 1 EJEMPLO: Una muestra de las cantidades que los empleados de Duprein invierten quincenalmente en el plan de participación de utilidades, la media aritmética fue de $ 51,54 dólares y se obtuvo una desviación estándar de $ 7,51 dólares. Al menos, ¿qué porcentaje de las contribuciones se encuentran entre más 3,5 desviaciones estándar, y menos 3,5 desviaciones estándar, respecto de la media? Aproximadamente 92%, valor que se obtiene como sigue:
1−
1 k 2
= 1−
1 1 1 = − = 0,92 12,25 ( 3,5) 2
REGLA EMPÍRICA.El teorema de Chebyshev se refiere a cualquier conjunto de valores; esto es, la distribución de los valores puede tomar cualquier forma. Sin embargo, en una distribución simétrica en forma de campana, como la de la figura siguiente, se obtiene mayor precisión al explicar la dispersión con respecto a la media. Estas relaciones entre la desviación
79
estándar y la media constituyen la llamada regla empírica, que algunas veces se conoce como regla normal.
-3S 70
-2S
-1S
Media
80
90
100
1S
2S
110
120
3S 130
68% 95% 99,7%
Grafica simétrica de campana, que muestra las relaciones entre la desviación estándar y la media.
“En una distribución de frecuencias simétrica, con forma de campaña, aproximadamente 68% de las observaciones estarán entre más una y menos una desviación estándar desde la media; aproximadamente 95% de las observaciones se encontrarán entre más dos y menos dos desviaciones estándares desde la media; prácticamente todas las observaciones 99,7% se hallarán entre más tres y menos tres desviaciones estándar, a partir del valor medio.” Se ha observado que si una distribución es simétrica con forma de campana, prácticamente todas las observaciones se encuentran entre la media más y menos tres desviaciones estándares. De esta forma si la X = 100 y S =10, prácticamente todas las observaciones se hallan entre 100 +3(10) y 100 – 3(10), o sea 70 y 130. Por lo tanto, la amplitud de variación es 60, que se obtiene por 130 – 70 Recíprocamente, si se sabe que esta última es 60, podemos aproximar la desviación estándar dividiendo entre 6 la amplitud de variación. Para 80
este ejemplo, la desviación estándar vale: amplitud de variación para 6 = 10. EJEMPLO: Una muestra de las cantidades mensuales de dinero que destina a sus alimentos un ciudadano de la tercera edad – que vive solo – sigue aproximadamente una distribución de frecuencias simétrica, del tipo de campana. La media muestral es de $ 150 (dólares), y la desviación estándar es $ 20. Utilizando la regla empírica indique: 1.- Aproximadamente, ¿entre qué cantidades está 68% de los gastos mensuales en alimentos? 2.- Aproximadamente, ¿entre qué cantidades se halla 95% de los gastos mensuales por alimentos? 3.- Aproximadamente, ¿entre qué montos están todos los gastos mensuales? 1.- Aproximadamente 68% está entre $ 130 y $ 170, que se obtiene por: X = ±1S = 150 ± 1(20)
150 + 20 = 170
150 − 20 = 130
2.- aproximadamente 95% está entre $ 110 y $ 190, que se obtiene por: X = ±2 S = 150 ± 2( 20)
150 + 2(20) = 150 + 40 = 190
150 − 2(20) = 150 − 40 = 110
3.- Casi todos los casos 99,7% están entre $ 90 y $ 210, lo que se obtiene mediante: X = ±3S = 150 ± 3( 20)
150 + 3(20) = 150 + 60 = 2100
150 − 3(20) = 150 − 60 = 90
1.- De acuerdo con el teorema de Chebyshev, ¿al menos qué porcentaje de cualquier conjunto de observaciones se encontrará a no más de 1,8 desviaciones estándar desde la media?
1−
1 k 2
= 1−
1 (1,8) 2
1−
1 = 0,69% 69% 3,24
2.- El ingreso medio de un grupo de observaciones muestrales es $ 500, la desviación estándar es $ 40. De acuerdo con el teorema de Chebyshev, ¿al menos que porcentaje de los ingresos se encontrará entre $ 400 y $ 600? a) Aproximadamente en 68% X ± 1S ;
500 + 40 = 540
X − 1S ;
500 − 40 = 460
b) Aproximadamente en 95% X ± 2 S ;
500 + 2(40) = 500 + 80 = 580
X − 1S ;
500 − 2(40) = 500 − 80 = 420
c) Aproximadamente en 99,7%
81
X ± 2 S ;
500 + 3(40) = 500 + 120 = 620
X − 1S ;
500 − 3(40) = 500 − 120 = 380
La respuesta esta entre un total del 95%.
DISPERSION RELATIVA.-
Resulta imposible una comparación directa de dos o más medidas de dispersión (por ejemplo, la desviación estándar de una distribución de ingresos anuales y la desviación estándar de una distribución de inasistencias, ambas del mismo grupo de empleados). ¿Se puede decir que la desviación estándar, $ 1200 (dólares), de la distribución del ingreso es mayor que la desviación estándar de 4,5 días de la distribución de faltas de asistencia? Obviamente no es así porque no podemos comparar directamente dólares y días de inasistencia al trabajo. A fin de realizar una comparación significativa de la distribución de ingresos y las faltas, se necesita convertir cada una de esas medidas a un valor relativo, es decir, aun porcentaje. Kart Pearson (1857 – 1936), contribuyo de manera importante a la ciencia estadística, y desarrolló una medida relativa denominada COEFIENTE DE VARIACION (CV). Es una medida muy útil cuando: 1.- Los datos están en unidades diferentes (como dólares y días de inasistencia) 2.- Los datos están en las mismas unidades, pero los valores medios están muy distantes (como sucede con los ingresos de ejecutivos superiores, y los ingresos de empleados no calificados) COEFICIENTE DE VARIACION: Es la razón (cociente) de la desviación estándar y la media aritmética, expresada como un porcentaje. En términos de una fórmula para una muestra queda: CV =
S X
(100) Al
multiplicar por 100 se convierte la expresión decimal a %
EJEMPLO: Un estudio sobre el monto de bonos pagados y los años de servicio de varios empleados, dio como resultado los siguientes datos estadísticos: la media de los bonos pagados fue $ 200 (dólares), y la desviación estándar fue $ 40. La media del número de años de servicio fue 20 años,
82
y la desviación estándar, 2 años. Compare las dispersiones relativas de las dos distribuciones empleando el coeficiente de variación. Las distribuciones están en unidades diferentes (dólares y años de servicio). Por tanto se convierten en coeficientes de variación. PARA LOS BONOS CV =
S
(100) X 40 CV = (100) 200 CV = 20%
PARA LOS AÑOS DE SERVICIO CV =
S X
(100)
2 (100) 20 CV = 10% CV =
Al interpretar se puede ver que existe mayor dispersión relativa con respecto a la media en la distribución de los bonos pagaos en comparación con la distribución de los años de servicio (ya que 20% es mayor que 10%). EJEMPLOS: 1.- Se va a comparar la variación en los ingresos anuales de varios ejecutivos con la variación en los ingresos de trabajadores no calificados. En una muestra de ejecutivos, la media = $ 500.000 (dólares) y S= $ 50.000. Para Una muestra de empleados no calificados la media es = $ 32.000 y S= $ 3200. Uno se ve tentado a afirmar que hay mayor dispersión en los ingresos anuales de los ejecutivos porque $ 50000 es mayor que $ 3200. Sin embargo, las medias son tan distantes que se necesitan convertir los valores estadísticos a coeficientes de variación para poder efectuar una comparación significativa de las variaciones en los ingresos anuales. PARA LOS EJECUTIVOS: CV = CV =
S
(100)
X 50000
500000 CV = 10%
(100)
PARA LOS TRABAJADORES NO CALIFICADOS:
83
CV =
S
(100) X 3200 CV = (100) 32000 CV = 10%
No existe diferencia en la dispersión relativa de los dos grupos.
ASIMETRIA.Se conoce como sesgo el grado de asimetría de una distribución es decir cuando se aparta de la simetría. Si la curva de frecuencias (polígono de frecuencias suavizado) de una distribución tiene a la derecha una cola más larga que a la izquierda, se dice sesgada ala derecha, o de sesgo positivo. En caso contrario, sesgada a la izquierda, o de sesgo negativo. Recuérdese que si una distribución de frecuencias es simétrica, no tiene sesgo – es decir, su asimetría es nula. Si una o más observaciones son sumamente grandes, la media de la distribución se vuelve mayor que la mediana o la moda. En tales casos se dice que la distribución tiene asimetría positiva o sesgo positivo. Por lo contrario, si hay una o más observaciones muy pequeñas, la media es la menor de las tres medidas de tendencia central, y se dice que la distribución tiene asimetría negativa o sesgo negativo. Lo anterior se ilustra en el siguiente gráfico: SIMETRICA F R E C U E N C I A
SESGO POSITIVO
Y Diámetros exteriores
Y S = 0,09
X
Edades
F R E C U E N C I A
S = 4,0
1,000 Media Mediana
36 Mo Y
SESGO NEGATIVO
84
38 39 Md X
F R E C U E N C I A
Tiempo de servicio S = 3.0
X 10 X
11 Md
13 Mo
POLIGONOS DE FRECUENCIA QUE ILUSTRAN LA ASIMETRIA
COEFIENTE DE ASIMETRIA DE PEARSON: Kart Pearson desarrolló también una medida, para evaluar el grado de orientación al sesgo, denominada coeficiente de asimetría. Para distribuciones sesgadas, la media tiende a estar del mismo lado de la moda que la cola larga. Luego una medida de asimetría viene dada por la diferencia: media – moda, que puede hacerse adimensional dividiéndola por una medida de dispersión, tal como la desviación típica, lo que lleva a la definición del primer y segundo coeficientes de sesgo de Pearson. Sesgo =
Media
− Moda
desviación típica
=
X − Mo S
Para evitar el uso de la moda, podemos recurrir a la fórmula empírica y definir: COEFIENTE DE ASIMETRIA (DE PEARSON)
CA =
3( Media − Mediana) s
CA =
X − Mo s
COEFIENTE DE ASIMETRIA DE SOFTWARE: La fórmula permite entender mejor la asimetría. El segundo miembro de la fórmula contiene la diferencia de cada valor respecto de la media, dividida entre la desviación estándar. Esto es la porción ( X − X / s de la fórmula. A esto se le lama estandarización. Hay que observar que el resultado de esto es indicar la diferencia entre cada valor y la media, en unidades de la desviación estándar. Si esta 85
diferencia es positiva, el valor de que se trata es mayor que la media; si es negativa, es menor que la media. Cunado se elevan al cubo estos valores, se conserva la información relativa al sentido de la diferencia. Debe recordarse que en la expresión de la desviación estándar como resultado que todos los valores sean positivos. Si el conjunto de valores que se considera es simétrico, al elevar al cubo los valores estandarizados y sumarlos se obtendrá un resultado cercano a cero. Si hay varios valores grandes, claramente alejados de los otros, la suma de las diferencias al cubo será un valor positivo grande. Varios valores mucho más pequeños darán como resultado una suma de cubos negativa. X − X 3 CA = ( n − 1)( n − 2) ∑ s n
COEFICIENTE DE ASIMETRIA (SOFTWARE)
EJEMPLO: A continuación se da la ganancia por acción, en el año 2000, de una muestra de 15 empresas productoras de software. Las ganancias se ordenaron de menor a mayor, y son cantidades en dólares. $0,09 0,13 0,41 0,51 1,12 1,20 1,49 3,18 3,50 6,36 7,83 8,92 10,13 12,99 16,40
Calcule la media, la mediana y la desviación estándar. Encuentre el coeficiente de asimetría usando la estimación de Pearson y los métodos usados por los paquetes de software. ¿Qué se concluye respecto a la forma de la distribución? MEDIA ARITMETICA X =
∑ X n
0,09 + 0,13 + 0,41 + 0,51 + 1,12 + 1,20 + 1,49 + 3,18 + 3,50 + 6,36 + 7,83 + 8,92 + 10,13 + 12,99 + 16,40 15 74,26 X = X = 4,95 15 X =
LA MEDIANA: Es el valor central de los 15 números y es MD= 3,18 LA DESVIACION ESTANDAR:
86
X 0,09 0,13 0,41 0,51 1,12 1,20 1,49 3,18 3,50 6,36 7,83 8,92 10,13 12,99 16,40 ----------74,26
X 2
0,0081 0,0169 0,1681 0,2601 1,2544 1,44 2,2201 10,1124 12,25 40,4496 61,3089 79,5664 102,6169 168,7401 268,96 ------------
∑ X
S =
2
−
( ∑ X ) 2 n
n −1
749,3720 −
S =
( 74,26) 2 15
15 − 1
S = 5,22
COEFICIENTE DE ASIMETRIA PEARSON: CA =
3( MEDIA − MEDIANA) s
749,3720 CA =
3( 4,95 − 3,18) 5,22
CC = 1,017
Esto indica que en los datos de las ganancias por acción hay una mediana asimétrica positiva. Usando el método de software se obtiene un resultado simular, pero no exactamente igual CALCULO DEL COEFIENTE DE ASIMETRIA SOFTWARE. Ganancia por acción 0,09 0,13 0,41 0,51 1,12 1,20 1,49 3,18 3,50 6,36 7,83 8,92 10,13 12,99 16,40 --------------
X − X s
3
X − X s
-0,9310 -0,8070 -0,9234 -0,7873 -0,8697 -0,6579 -0,8506 -0,6154 -0,7337 -0,3950 -0,7184 -0,3708 -0,6628 -0,2912 -0,3391 -0,0390 -0,2778 -0,0214 0,2701 0,0197 0,5517 0,1679 0,7605 0,4399 0,9923 0,9772 1,5402 3,6539 2,1935 10,5537 ------------- ------------------11,8274
X − X S 3 0,09 − 4,95 = −0,8070 5 , 22 3
X − X ∑ n = 11,8274 COEFICIENTE DE AISMETRIA POR SOFTWARE
( X − X ) CA = ( n − 1)( n − 2 ) ∑ s n
CA =
87
15 [11,8274] (15 − 1)(15 − 2 )
3
C
= 0,975
Se concluye que los valores de las ganancias por acción son un poco asimétricos positivamente.
AMPLITUD DE VARIACION 1) HALLAR EL RANGO DE LAS ALTURAS DE LOS ESTUDIANTES DE LA SIGUIENTE TABLA: ALTURA Número de estudiantes 60 – 62 5 63 – 65 8 66 – 68 42 69 – 71 27 72 – 74 8 TOTAL
2) HALLAR EL RANGO DE LAS CARGAS MÁXIMAS DE: Carga Máxima 9,3 - 9, 7 9,8 – 10,2 10,3 – 10,7 10,8 – 11,2 11,3 – 11,7 11,8 – 12,2 12,3 – 12,7 12,8 – 13,2 TOTAL
Número de cables 2 5 12 17 14 6 3 1
a) Edades (años) Varones (miles) Mujeres (miles) 18 – 19 121 481 20 – 24 2441 4184 25 – 29 5930 6952 30 – 34 6587 7193 35 – 44 11788 11893 45 – 54 9049 9022 55 – 64 8749 8171 65 – 74 5786 4654 75 y más 2581 1524
88
8) LOS PESOS DE UN GRUPO DE CAJAS QUE SE VAN A ENVIAR A IRLANDA SON (EN DÓLARES): 95, 103, 105,110, 104, 104, 112, 90 a) b) c)
¿CUÁL ES LA AMPLITUD DE VARIACIÓN DE LOS PESOS? CALCULE LA MEDIA ARITMÉTICA DE LOS VALORES DETERMINE LA DESVIACIÓN MEDIA DE LOS PESOS.
9) DE LOS SIGUIENTES EJERCICIOS CALCULAR A) LA VARIACIÓN DE AMPLITUD (AT); B) LA MEDIA ARITMÉTICA; C) LA DESVIACIÓN MEDIA; D) INTERPRETAR LA AMPLITUD DE VARIACIÓN Y LA DESVIACIÓN MEDIA. 10) CONSIDERE LOS 5 VALORES SIGUIENTES COMO UNA POBLACIÓN: 8, 3, 7, 3, 4. CALCULAR: a) DETERMINAR LA MEDIA DE LA POBLACIÓN b) EVALUÉ LA VARIANZA POBLACIONAL. 11) CONSIDERE LOS SEIS VALORES SIGUIENTES COMO UNA POBLACIÓN: 13, 3, 8, 10, 8 Y 6. a) CALCULAR LA MEDIA DE LA POBLACIÓN b) HALLE EL VALOR DE LA VARIANZA.
89
12) LOS CINCO VALORES SIGUIENTES SON UNA MUESTRA 11, 6, 10, 6, 10 a) CALCULAR LA MEDIA DE LA POBLACIÓN b) HALLE EL VALOR DE LA VARIANZA. 13) EL EJERCICIO SE REFIERE A LA EMPRESA DAVES, QUE SE DEDICA A INSTALAR MECANISMOS AUTOMÁTICOS PARA ABRIR PUERTAS DE GARAJE. CON BASE EN UNA MUESTRA, LOS SIGUIENTES SON LOS TIEMPOS, EN MINUTOS, REQUERIDOS PARA INSTALAR 10 PUERTAS: 28, 32, 24, 46, 44, 40, 54, 38, 32 Y 28 a) CALCULAR LA MEDIA DE LA POBLACIÓN b) HALLE EL VALOR DE LA VARIANZA. 14) EN UNA MUESTRA DE ESTUDIANTES DE LA FACULTAD DE ADMINISTRACIÓN DE EMPRESAS DE LA UNIVERSIDAD XYZ, LA MEDIA DE LOS PROMEDIOS DE CALIFICACIONES ES 3,10, CON UNA DESVIACIÓN ESTÁNDAR DE 0,25. ¿CALCULE EL COEFICIENTE DE VARIACIÓN? 15) LA EMPRESA TVZ ESTUDIA EL PESO DE EQUIPAJE PARA CADA PASAJERO. EN UN GRUPO GRANDE DE VIAJEROS EN VUELOS NACIONALES, LA MEDIA ES 47 LIBRAS, CON UNA OBSERVACIÓN ESTÁNDAR DE 10 LIBRAS. EN UN GRUPO GRANDE DE PASAJEROS DE VUELOS INTERNACIONALES, LA MEDIA ES 78 LIBRAS Y LA DESVIACIÓN ESTÁNDAR ES DE 15 LIBRAS. CALCULE LA DISPERSIÓN RELATIVA DE CADA GRUPO. COMENTE A CERCA DE LA DIFERENCIA EN DICHA DISPERSIÓN RELATIVA. 16) A CONTINUACIÓN SE PRESENTAN LOS SUELDOS INICIALES EN MILES DE DÓLARES EN UNA MUESTRA DE CONTADORES QUE TERMINARON SUS ESTUDIOS Y EMPEZARON A TRABAJAR COMO CONTADORES PÚBLICOS EL AÑO PASADO. DE LA SIGUIENTE TABLA: 36, 26, 33, 28, 31 CALCULAR LO SIGUIENTE 90
a) LOS VALORES DE LA MEDIA, MEDIANA Y DESVIACIÓN ESTÁNDAR b) DETERMINE EL COEFICIENTE DE ASIMETRÍA USANDO EL MÉTODO DE PEARSON c) DETERMINE EL COEFICIENTE DE ASIMETRÍA USANDO EL MÉTODO DE SOFTWARE 17) A CONTINUACIÓN SE DAN LOS SALARIOS, EN MILES DE DÓLARES, PARA UNA MUESTRA DE 15 EJECUTIVOS DE LA INDUSTRIA ELECTRÓNICA. 516, 548, 566, 534, 586, 529, 546, 523, 538, 523, 551, 552, 486, 558, 574 CALCULAR LO SIGUIENTE a) LOS VALORES DE LA MEDIA, MEDIANA Y DESVIACIÓN ESTÁNDAR b) DETERMINE EL COEFICIENTE DE ASIMETRÍA USANDO EL MÉTODO DE PEARSON c) DETERMINE EL COEFICIENTE DE ASIMETRÍA USANDO EL MÉTODO DE SOFTWARE 18) A CONTINUACIÓN SE INDICAN LAS COMISIONES (EN MILES DE DÓLARES) OBTENIDOS EL AÑO PASADO POR LOS REPRESENTANTES DE VENTAS DE LA EMPRESA FRUIT, LOS DATOS SON LOS SIGUIENTES: 3,9
5,7
7,3
38, 6
43, 2
87, 7
10, 6
13, 0
13, 6
15, 1
15, 8
17, 1
17, 4
17, 6
22,3
CALCULAR LO SIGUIENTE a) LOS VALORES DE LA MEDIA, MEDIANA Y DESVIACIÓN ESTÁNDAR b) DETERMINE EL COEFICIENTE DE ASIMETRÍA USANDO EL MÉTODO DE PEARSON
91
c) DETERMINE EL COEFICIENTE DE ASIMETRÍA USANDO EL MÉTODO DE SOFTWARE
Para haber cierta relación entre el número de llamadas y la cantidad de unidades vendidas. Esto es, el agente que realizó el mayor número de llamadas vendió más copiadoras. Sin embargo, la relación no es “perfecta” o exacta Por ejemplo Nube Hizo menos llamadas que Pedro, pero ella vendió más unidades.
92
En vez de hablar en lo general, como se ha hecho hasta ahora, se desarrollarán algunas medidas estadísticas para presentar en forma más precisa la relación entre las dos variables: llamadas de ventas y copiadoras vendidas. A este conjunto de técnicas estadísticas se le denomina análisis de correlación. ANALISIS DE CORRELACION: Conjunto de técnicas estadísticas empleado para medir la intensidad de la asociación entre dos variables. El principal objetivo del análisis de correlación consiste en determinar qué tan intensa es la relación entre dos variables. Normalmente, el primer paso es mostrar los datos en un diagrama de dispersión. DIAGRAMA DE DISPERSION: Gráfica que representa la relación entre dos variables. EJEMPLO: La empresa XEROX, vende copiadoras a negociaciones grandes, medianas y pequeñas en Ecuador y Perú. La señorita Mónica Tello fue promovida recientemente al puesto de gerente nacional de ventas. A la próxima junta de ventas asistirán los representantes de todo el país. A ella le gustaría hacerles notar la importancia de hacer llamadas extra cada día, Decide reunir alguna información acerca de la relación entre el número de llamadas y el número de productos vendidos. Seleccionó al azar una muestra de 10 representantes y determinó el número de llamadas que hicieron el último mes, y el de copiadoras que vendieron. La información muestral se tiene en la tabla siguiente:
93
¿Qué observaciones puede hacer usted acerca de la relación entre el número de llamadas y la cantidad de copiadoras vendidas? Trace un diagrama de dispersión para representar esta información. SOLUCION AL PROBLEMA: La señorita Tello sospecha que existe una relación entre el número de llamadas hechas en un mes, y la cantidad de copiadoras que se vendieron. Nube vendió el mayor número de unidades el mes anterior, y era una de las tres representantes que hizo 30 o más llamadas. Por otra parte, Rocío y Karina correspondieron al menor número de copiadoras vendidas entre los representantes en la muestra. La deducción es que el número de copiadoras vendidas tiene relación con la cantidad de llamadas realizadas. A medida que aumenta el número de llamadas telefónicas crece la cantidad de unidades vendidas. El número de llamadas de venta se denomina variable independiente, y la cantidad d copiadoras vendidas, variable dependiente. VARIABLE DEPENDIENTE: La variable que se predice o calcula VARIABLE INDEPENDIENTE: Una variable que proporciona las bases para el cálculo. Es la variable de predicción (suposición). Con los datos anteriores graficar el diagrama de dispersión. COPIADORAS VENDIDAS (Y) s a 80 d i d 60 n e v s 40 e d 20 a d i 0 n U 0
5
10
15
20
25
Llamadas teléfonicas
94
30
35
40
45
El diagrama de dispersión indica gráficamente que los representantes de ventas que hacen más llamadas telefónicas, tienden a vender más copiadoras. Es razonable que la señorita Tello, la gerente nacional de ventas de la empresa mencionada, diga sus representantes que cuanto mayor sea el número de llamadas a clientes que hagan, más copiadoras podrán esperar vender. Obsérvese que aunque parece existir una relación positiva entre las dos variables, no todos los puntos quedan en una misma línea recta. Del mismo ejemplo, primeramente calculamos la media aritmética de X y la media aritmética de Y, que resultan los valores X =
∑ X n
=
220 = 22 10
Y =
∑ Y n
=
450 = 45 10
Estas dos rectas pasan por el centro de los datos y dividen al diagrama de dispersión en cuatro cuadrantes. Puede considerarse que origen el origen se desplaza de (0,0) a (22,45). Si la relación entre las dos variables es positiva, entonces el número de copiadoras vendidas es mayor que la media, el número de llamadas a clientes también será mayor que la media COEFICIENTE DE CORRELACIÓN: Originado por el investigador Kart Pearson, el coeficiente de correlación describe la intensidad de la relación entre dos conjuntos de variables de nivel de intervalo (o variables de nivel de relación o razón). Se le denota por la letra “r”. Puede tomar cualquier valor de -1 a +1, inclusive. Un coeficiente de correlación de -1 o de +1 indica una correlación perfecta. Por ejemplo, un coeficiente de correlación para el ejemplo anterior calculado como +1, señalaría que el número de llamadas era un pronóstico perfecto de la cantidad de copiadoras vendidas. Esto es, el número de telefonemas y el de productos vendidos están perfectamente relacionados en un sentido lineal positivo. Un valor -1 indicaría que las llamadas a clientes y el número de copiadoras vendidas están perfectamente relacionadas en un sentido lineal negativo. La forma como quedaría el diagrama de 95
dispersión si la relación entre ambos conjuntos de datos fuera lineal y perfecta Correlación negativa perfecta
Correlación positiva perfecta Y
Y La línea tiene Pendiente negativa
r = +1
.
. .
.
.
.
.
.
.
.
r = -1
La línea tiene . Pendiente positiva
. .
. .
X
X
Diagramas de dispersión que ilustra una correlación negativa perfecta y una correlación positiva perfecta
Si no existe en absoluto alguna relación entre los dos conjuntos de variables, la “r” de Pearson será cero. Un coeficiente de correlación “r” cercano a cero (por ejemplo 0,08) indica que la relación es muy débil. Se llega a la misma conclusión si r = -0,08. Coeficientes de – 0,91 y +0,91 tienen igual fuerza; ambos indican una correlación muy intensa entre los dos conjuntos de variables. De modo que la fuerza de la correlación no depende de la dirección (ya sea – o +). En el siguiente gráfico se muestran diagramas de dispersión para r = 0; una r débil r = -0,23 y una r fuerte r = + 0,87.
96
Correlación negativa y débil (X y Y tienen cierta relación lineal) Correlación cero S r=0 A L X y Y no tienen relación lineal. A R I O A N U A L
………………. ………………. ………………. ………………. ………………. ………………. ………………. Número de hijos
C a n t i d a d v e n d i d a
. .. . . . .. … . . . . . . . .. .. . . . . .. .. . . . . . … …. …. … . . .. . .. . … .. .. .. .. . . . . .. . .. .. . . . . . . ... Precio
Correlación positiva y fuerte (X y Y tienen una relación lineal intensa G P A U n i v e r s i t a r i o
..... .. . . . . . .. . . . . . . . .. ...... …… …GPA Bachillerato
El siguiente cuadro resume la intensidad y la dirección del coeficiente de correlación:
97
COEFICIENTE DE CORRELACION: Medida de la intensidad de la relación lineal entre dos variables. Tienen dos fórmulas: 1.
COEFICIENTE DE CORRELACION
r =
∑ ( X − X (Y − Y ( n − 1) * S X * S Y
FORMA CONCEPTUAL. 2. COEFICIENTE DE CORRELACION FORMA DIRECTA r =
Donde:
∑ XY ) − ( ∑ X )( ∑ Y ) [n( ∑ X ) − ( ∑ X ) ] * [n( ∑ Y ) − ( ∑ Y ) ] n( 2
2
2
2
n = Es el número de pares de observaciones ∑ X =Es la suma de los valores de la variable X ∑ Y = Es la suma de los valores de la variable Y ( ∑ X 2 ) = Es la suma de los cuadrados de los valores de la variable X ( ∑ X ) 2 = Es el cuadrado de la suma de los valores de la variable X ( ∑ Y 2 ) = Es la suma de los cuadrados de los valores de la variable Y ( ∑ Y ) 2 = Es el cuadrado de la suma de los valores de la variable Y ∑ XY = Suma de los productos de X y Y. 98
Para la primera fórmula tenemos que calcular primeramente la desviación estándar tanto de X como de Y
∑ X
=
S X
2
−
( ∑ X ) 2 n
n −1
∑ Y − 2
S Y =
( ∑ Y )
TOTAL X =
∑ X
Y =
∑ Y
n
;
X
S =
22100
10 10 − 1
S
=
9,19
( 450 ) 2
−
10
−
−1
10
20 40 20 30 10 10 20 20 20 30
Y 30 60 40 60 30 40 40 50 30 70
X2 400 1600 400 900 100 100 400 400 400 900
Y2 900 3600 1600 3600 900 1600 1600 2500 900 4900
XY 600 2400 800 1800 300 400 800 1000 600 2100
220
450
5600
22100
10800
n
n
S =
2
n−1
Trabajadores Juan Pedro Luis Jorge Rocio Karina José Antonio Oswaldo Nube
5600
;
( 220 ) 2
( X − X )(Y − Y ) ( X − X )(Y − Y ) -2,0000 18,0000 -2,0000 8,0000 -12,0000 -12,0000 -2,0000 -2,0000 -2,0000 8,0000
-15 15 -5 15 -15 -5 -5 5 -15 25
30 270 10 120 180 60 10 -10 30 200 900
22 45
n=
10
r =
r =
∑ ( X − X (Y − Y ( n − 1) * S X * S Y
r =
90 0
(10 − 1) * ( 9,19 ) * (14,34 )
∑ XY − ( ∑ X ( ∑ Y [n( ∑ X ) − ( ∑ X ) ] * [n( ∑ Y ) − ( ∑ Y ) ] n( 2
2
2
99
2
; r = 0,76
( ∑ 1 0 8 0 )0− ( ∑ 2 2 0) ( ∑ 4 5 0)
10 r
=
[
r = 0,76
( ∑ 5 6 0 0) − ( ∑ 2 2 0) 2 ] * [1 0( ∑ 2 2 1 0 )0− ( ∑ 4 5 0) 2 ]
10
¿Cómo se interpreta un coeficiente de correlación igual a 0,76? Primero es positivito, de manera que se ve que hay una relación directa entre el número de llamadas a clientes y la cantidad de copiadoras vendidas. El valor de 0,76 está bastante cercano a +1, por lo que se concluye que la relación es fuerte. Dicho de otra manera, un aumento de 25% en las llamadas posiblemente llevaría a un aumento de 25% en las ventas. COEFICIENTE DE DETERMINACIÓN: En el ejemplo anterior respecto a la relación entre el número de llamadas telefónicas y la cantidad de productos vendidos, el coeficiente de correlación r = 0,76, se interpretó como “fuerte”. Sin embargo, los términos como débil, moderado y fuerte no tienen significado preciso. Una media que tiene una acepción (significado), más fácil de interpretar es el coeficiente de determinación. Se calcula elevando al cuadrado el coeficiente de correlación. Para el ejemplo, dicho coeficiente de determinación, r , vale 0,58, que proviene de r = ( 0,76) 2 . Esta es una proporción o porcentaje, puede decirse que 58% de la variación en el número de copiadoras vendidas se explica por la variación en el número de llamadas a los clientes. 2
DEFINICION: La porción de la variación total en la variable dependiente Y, que se explica por la variación en la variable independiente X. 2
r = r 2 * 100 ; r = ( 0,76 ) *100
r = 58%
ANALISIS DE REGRESIÓN: 100
En la tabla anterior se presenta el número de llamadas telefónicas y cantidad de unidades vendidas para una muestra de 10 representantes de ventas de la empresa XEROX. El diagrama muestra esta información en un diagrama de dispersión. Ahora se desarrolla una ecuación lineal que exprese la relación entre el número de llamadas a clientes y la cantidad de unidades vendidas. La ecuación de la línea recta empleada para calcular Y, con base en X, se conoce como ecuación de regresión. DEFINICION: Es una ecuación que define la relación lineal entre dos variables. La forma general de la ecuación de regresión lineal es: Y *
= a + bX
Donde: Y * =
Se lee Y prima, es el valor pronosticado de la variable Y para un valor seleccionado de X. a = Es la ordenada de la intersección con el eje Y, es decir, el valor estimado de cuando X = 0. Dicho de otra forma, corresponde al valor estimado de Y, donde la recta de regresión cruza el eje Y, cuando X=0 b = Es la pendiente de la recta, o el cambio promedio en Y * por unidad de cambio (incremento o decremento) en la variable independiente X. X = Es cualquier valor seleccionado de la variable independiente. Debe observarse que la ecuación de regresión lineal para la muestra de vendedores es sólo una estimación de la relación entre las dos variables en la población. De modo que la regresión estimada, o simplemente coeficiente de regresión queda con las siguientes fórmulas. 1.- PENDIENTE DE LA
b=
101
n(
∑ XY ) − ( ∑ X ) * ( ∑ Y ) n( ∑ X ) − ( ∑ X ) 2
2
LINEA DE REGRESION 2.- PUNTO DONDE SE INTERCEPTA CON EL
a
= ∑ −b∑
EJE Y
Y
n
X
n
Donde: X = Es un valor de la variable independiente Y = Es un valor de la variable dependiente n = Es el número de elementos en la muestra. EJEMPLO: Volviendo al ejemplo anterior de la compañía XEROX, la gerente de ventas recopiló información respecto al número de llamadas telefónicas hechas y la cantidad de copiadoras vendidas, para una muestra aleatoria de 10 representantes de ventas. Como parte de su presentación en la próxima junta de ventas, a la señorita Tello, gerente de esa área, le gustaría ofrecer información especifica referente a la relación entre el número de llamadas y la cantidad de productos vendidos. ¿Cuál es el número esperado de copiadoras vendidas por un representante que realiza 20 llamadas a sus clientes? Trabajadores Juan Pedro Luís Jorge Rocío Karina José Antonio Oswaldo Nube TOTAL X =
∑ X n
X
20 40 20 30 10 10 20 20 20 30
Y 30 60 40 60 30 40 40 50 30 70
X2 400 1600 400 900 100 100 400 400 400 900
Y2 900 3600 1600 3600 900 1600 1600 2500 900 4900
XY 600 2400 800 1800 300 400 800 1000 600 2100
220
450
5600
22100
10800
22
b=
n(
∑ XY ) − ( ∑ X ) * ( ∑ Y ) n( ∑ X ) − ( ∑ X ) 2
2
102
b=
Y =
∑ Y n
45 a
n=
10
1 0( ∑ 1 0 8 0) 0− ( ∑ 2 2 0) * ( ∑ 4 5 0) 1 0( ∑ 5 6 0)0− ( ∑ 2 2 0)
2
= ∑ −b ∑ Y
X
n4 5 0 n 22 0 ∑ ∑ − 1,1 8 4 2 a= 10
b = 1,1 8 4
10
a = 1 8,9 4 7 6
Por lo tanto, la ecuación de regresión es Y * = 18,9476 + 1,1842 X . De modo que si un vendedor hace 20 llamadas telefónicas, puede esperarse que venda 42,6316 copiadoras, valor que se obtiene de Y = 18,9476 + 1,1842(20) = 42,6316 . *
El valor de b = 1,1842 significa que para cada llamada adicional que realizan los representantes de ventas pueden esperar aumentar en casi 1,2 el número de copiadoras vendida. Para decirlo de otra forma, cinco llamadas extra en un mes resultarán en casi seis copiadoras vendidas adicionalmente. El valor de a = 18,9476 es el punto donde la ecuación cruz el eje Y. Una traducción literal es que si no se hacen llamadas, esto es, X = 0, Se venderán 18,9476 copiadoras. Obsérvese que X = 0 se encuentra fuera del intervalo de valores incluidos en la muestra y, por tanto, no debe emplearse para calcular el número de productos vendidos. Las llamadas a clientes fueron de 10 a 40, así que los cálculos se den hacer dentro de esa gama de valores. TRAZO DE LA LINEA DE REGRESION: La ecuación Y * = 18,9476 + 1,1842 X , se puede graficar en el diagrama de dispersión. El primer representante de ventas en la muestra, quien hizo 20 llamadas telefónicas, y así sucesivamente con cada uno de los agentes de ventas multiplicando por la cantidad que le corresponda; luego esto se grafica en el diagrama de dispersión con los valores de X y los valores de Y y de Y * Trabajadores
X
Y ``
103
Juan Pedro Luís Jorge Roció Karina José Antonio Oswaldo Nube
20 40 20 30 10 10 20 20 20 30
TOTAL
220
Y *
a= b=
42,6316 66,3156 42,6316 54,4736 30,7896 30,7896 42,6316 42,6316 42,6316 54,4736 0
= 18,9476 + 1,1842 X 18,9476 1,1842
Tal recta tiene características interesantes. Según se análizo, no existe otra línea recta que pase por los datos y tenga una suma de desviaciones al cuadrado que sea menor. Además, esta recta pasará por los puntos representados por las medias respectivas de los valores X y Y, esto es X = 22 y Y = 45 EL ERROR ESTANDAR DE ESTIMACION: Obsérvese en el gráfico de dispersión anterior que no todos los puntos quedan con exactitud en la recta de regresión. Si todos hubieran quedado en la línea y si el número de observaciones hubiera sido suficientemente grande, no existiría error en el cálculo del número de unidades vendidas. Dicho de otra forma, si todos los puntos estuvieran 104
en la recta de regresión, las unidades vendidas podrían pronosticarse con una precisión del 100%. Entonces no habría error al pronostica la variable Y con base en la variable X. Obtener una predicción perfecta en los aspectos de economía y administración es prácticamente imposible. Por ejemplo, los ingresos anuales provenientes de ventas de gasolina (Y) con base en los registros de automóviles (x) hasta cierta fecha, sin duda podrían aproximarse con gran exactitud, pero el pronóstico no sería preciso con redondeo a unidades monetarias enteras, o tal vez hasta el millar de unidades monetarias. Entonces, lo que se necesita es una medida que indique qué tan preciso es el pronóstico de Y con base en X o, por el contrario, cuán inexacta podría ser la predicción. A esta medida se le denomina ERROR ESTÁNDAR DE ESTIMACION, el cual se representa por S y , x *
DEFINICION: Medida de la dispersión de los valores observados, con respecto a la línea de regresión. FORMULA DEL ERROR ESTANDAR DE ESTIMACIÓN: PRIMER MÉTODO
∑ (Y − Y )
* 2
S y , x
=
n−2
Si la suma de los cuadrados de las desviaciones es pequeña, esto significa que la línea de regresión es representativa de los datos. Si los cuadrados de las desviaciones son grandes, entonces la recta de regresión puede no representar a los datos.
Ventas reales
Ventas calculadas
Desviación
Desviación al cuadrado
``
Trabajadores
Y
Y
(Y − Y ) *
105
(Y − Y ) *
2
Juan Pedro Luís Jorge Rocío Karina José Antonio Oswaldo Nube
30 60 40 60 30 40 40 50 30 70
TOTAL
450
42,6316 66,3156 42,6316 54,4736 30,7896 30,7896 42,6316 42,6316 42,6316 54,4736
Y *
= 18,9476 + 1,1842 X
a= b=
18,9476 1,1842
La fórmula
∑ (Y − Y )
* 2
S y , x
=
n−2
∑ (Y − Y )
* 2
S y , x
=
S y , x =
-12,6316 -6,3156 -2,6316 5,5264 -0,7896 9,2104 -2,6316 7,3684 -12,6316 15,5264
159,557 39,887 6,925 30,541 0,623 84,831 6,925 54,293 159,557 241,069
0
784,211
∑( 784 ,211) 10 − 2
;
S y , x = 9,90
para el error estándar de estimación sirve
n−2
para mostrar la semejanza que existe, en concepto y cálculo, entre la desviación estándar y el error estándar de estimación ( ∑ X ) 2 2 S X
=
∑ X
−
n −1
n
;
FORMULA DEL ERROR ESTANDAR DE ESTIMACIÓN: SEGUNDO MÉTODO S y , x
=
∑ Y
2
− a( ∑ Y ) − b( ∑ XY ) n−2
Trabajadores Número de Número de llamadas copiadoras X Y 20 Juan 30 40 Pedro 60 20 Luís 40
X
2
400 1600 400
106
Y 2
(X*Y)
900 3600 1600
600 2400 800
Jorge Rocío Karina José Antonio Oswaldo Nube
30 10 10 20 20 20 30
60 30 40 40 50 30 70
TOTAL
220
450
Y * a= b=
=
18,9476
+
900 100 100 400 400 400 900
S y , x S y , x =
1800 300 400 800 1000 600 2100 10800
1,1842 X 18,9476 1,1842
3600 900 1600 1600 2500 900 4900
=
∑Y
2
− a( ∑ Y ) − b( ∑ XY ) n−2
∑ 2 2 1 0 0− 1 8,9 4 7 6(∑ 4 50) − 1,1 8 4 2( ∑ 1 0 8 0 0) 10− 2
S y , x
=
9,90
INTERVALOS DE CONFIANZA Y DE PREDICCIÓN: El error estándar de estimación también se utiliza para establecer intervalos de confianza cuando el tamaño de la muestra es grande y la dispersión con respecto a la línea de regresión se aproxima ala distribución normal. En el ejemplo relacionado con el número de llamadas telefónicas y la cantidad de copiadoras vendidas, el tamaño de la muestra es pequeño; por tanto, se necesita un factor de corrección que considere el tamaño de la muestra. Además, al alejarse del valor medio de la variable independiente, los cálculos están sujetos a mayor variación, y esto también se debe corregir. 1.- El primero, denominado INTERVALO DE CONFIANZA, presenta el valor medio de Y para un valor dado de X. 2.- El segundo tipo se conoce como INTERVALO DE PREDICCIÓN e informa acerca de la gama de valores de Y para un valor particular de X. 1.- INTERVALO DE
107
Y * ±t * ( S y , x ) *
CONFIANZA
1 n
( X − X ) 2 (∑ X ) 2 2
+
∑ X
−
n
Donde: `=Es el valor pronosticado para cualquier valor X seleccionado X = Es cualquier valor seleccionado ∑ X X = Es la media de las X, evaluada mediante n n = Es el número de observaciones S , = Es el error estándar de estimación t = Es un valor tomado para n – 2 grados de libertad del apéndice del libro. *
Y
y x
Ejemplo: Con los datos del ejemplo anterior de llamadas telefónicas y venta de copiadoras calcular el intervalo de confianza. Cuando se hacen 25 llamadas y el valor de t = 2,306 Y * = a + bX ; Y * = 18,9476 + 1,1842 X En este caso multiplicamos por 25 que son las llamadas telefónicas y nos queda: Y * = a + bX
; Y * = 18,9476 + 1,1842 X ; Y * = 18,9476 + 1,1842(25)
;
Y *
= 48,5526
t = 2,306 S , = 9,901 n = 10 X = 25 son las llamadas telefónicas que se dan para calcular los intervalos. X = 22; media aritmética que se calculo al inicio del problema. ∑ X 2 = 5600 ∑ X = 220 y x
Y * ±t * ( S y, x ) *
1 n
+
( X − X ) 2 2 X ) ( ∑ 2
∑ X
−
n
108
48,5526 ± 2,306 * ( 9,901) *
1 10
+
(25 − 22) 2 (∑ 220) 2
∑ 5600 −
10
48,5526 + 7,6356 = 56,19 48,5526 – 7,6356 = 40,92 Por tanto, el intervalo de confianza de 95% para todos los representantes de ventas que realizan 25 llamadas telefónicas va desde 40,9170 hasta 56,1882. Para interpretarlo se redondean los valores. Si un vendedor hace 25 telefonemas, puede esperar vender 48,6 copiadoras. Es probable que sus ventas varíen de 40,9 a 56,2 de tales máquinas. 2.- INTERVALO DE PREDICCION
Y * ±t * ( S y , x ) * 1 +
1 n
+
( X − X ) 2 2 ( X ) ∑ 2
∑ X
−
n
Donde: `=Es el valor pronosticado para cualquier valor X seleccionado X = Es cualquier valor seleccionado ∑ X X = Es la media de las X, evaluada mediante n n = Es el número de observaciones S , = Es el error estándar de estimación t = Es un valor tomado para n – 2 grados de libertad del apéndice del libro. *
Y
y x
Ejemplo: Con los datos del ejemplo anterior de llamadas telefónicas y venta de copiadoras calcular el intervalo de predicción. Cuando se hacen 25 llamadas y el valor de t = 2,306 Y * = a + bX ; Y * = 18,9476 + 1,1842 X En este caso multiplicamos por 25 que son las llamadas telefónicas y nos queda: Y * = a + bX
; Y * = 18,9476 + 1,1842 X ; Y * = 18,9476 + 1,1842(25)
109
;
Y *
= 48,5526
t = 2,306 S , = 9,901 n = 10 X = 25 son las llamadas telefónicas que se dan para calcular los intervalos. X = 22; media aritmética que se calculo al inicio del problema. ∑ X 2 = 5600 ∑ X = 220 y x
Y * ±t * ( S y, x ) * 1 +
1 n
+
( X − X ) 2 2 ( ) X ∑ 2
∑ X
−
1 48,5526 ± 2,306 * ( 9,901) * 1 + + 10
n
(25 − 22) 2 (∑ 220) 2
∑ 5600 −
10
48,5526 + 24,0746 = 72,6272 48,5526 – 24,0746 = 24,4780 El intervalo va desde 24,478 hasta 72,627 copiadoras. Se concluye que el número de productos vendidos se encontrará entre aproximadamente 24 y 73 para un representante de ventas en particular. Este intervalo es muy grande. Es mucho mayor que el intervalo de confianza para todos los vendedores que hicieron 25 llamadas. Sin embargo, es lógico que exista mayor variación en el estimado de ventas para un individuo que para un grupo. ALGO MÁS ACERCA DEL COEFICIENTE DE DETERMINACION: La fórmula
r =
∑ XY ) − ( ∑ X )( ∑ Y ) [n( ∑ X ) − ( ∑ X ) ] * [n( ∑ Y ) − ( ∑ Y ) ] n( 2
2
2
2
Es una expresión conveniente para calcular el coeficiente de correlación. El coeficiente de determinación se obtuvo elevando al cuadrado el coeficiente de correlación. FORMULA: 110
COEFICIENTE DE DETERMINACION
r 2
=
Variación total − Variación no exp licada Variación total
(Y − Y ) − ∑ ( Y − Y ") =∑ ∑ (Y − Y ) 2
2
r
2
2
Para examinar más de cerca el concepto básico del coeficiente de determinación, supóngase que interesa la relación entre los años de permanencia en el trabajo (X), y la producción semanal (Y). Los datos muestrales son los siguientes Emplead Años de servicio Producción X*Y X^2 o (X) (Y) Jorge 14 6 84 196 Oswaldo 7 5 35 49 José 3 3 9 9 Antonio 15 9 135 225 Karina 11 7 77 121
TOTAL
50
30
Primeramente calculamos b=
a=
n*
∑ XY − ∑ X * ∑ Y n * (∑ X ) − (∑ X ) 2
2
∑ Y − b ∑ X n
n
; a=
; b=
340 600
Y * = a + bX
, con las fórmulas siguientes:
5 * ( 340) − ( 50) * ( 30) ; b = 0,4 5 * ( 600) − ( 50) 2
( 50) 30 − 0,4 5 5
;
a=2
Entonces nos queda: Y * = a + bX
Y * = 2 + 0,4 X
Calculamos para cada valor de X que tenemos en la tabla anterior y nos queda.
111
Y * = a + bX
Y * = 2 + 0,4 X ; Y * = 2 + 0,4(14) =
Y * = 7,6
Y * = a + bX
Y * = 2 + 0,4 X ; Y * = 2 + 0,4(`7) =
Y * = 4,8
Y * = a + bX
Y * = 2 + 0,4 X ; Y * = 2 + 0,4(3) =
Y * = 3,2
Y * = a + bX
Y * = 2 + 0,4 X ; Y * = 2 + 0,4(15) =
Y * = 8
Y * = a + bX
Y * = 2 + 0,4 X ; Y * = 2 + 0,4(11) =
Y * = 6,4
Emplead Años de servicio Producción X*Y X^2 o (X) (Y) Jorge 14 6 84 196 Oswaldo 7 5 35 49 José 3 3 9 9 Antonio 15 9 135 225 Karina 11 7 77 121
TOTAL
50
30
*
Y
7,6 4,8 3,2 8 6,4
340 600
Luego graficamos en el diagrama de dispersión: Comparación de años de servicio con la producción semanal 10 n ó i l a c n c a 5 u d m e o r s 0 P
Serie1 Serie2 0
5
10
15
20
Años de se rvicio
Emplead Años de servicio Producción Y * Y − Y * (Y − Y * ) 2 o (X) (Y) Jorge 14 6 7,6 -1,6 2,56 Oswaldo 7 5 4,8 0,2 0,04 José 3 3 3,2 - 0,2 0,04 Antonio 15 9 8 1 1 Karina 11 7 6,4 0,6 0,36
TOTAL
50 Nota *)
30
0
4
(Y − Y * ) SIEMPRE DEBE SER CERO (0)
Supóngase que ahora se conoce solo Y; entonces debemos calcular la Y media aritmética de Y Y = ∑n ; Y = 305 Y = 6 112
Emplead Producción Media aritmética o (Y) De Y Jorge 6 6 Oswaldo 5 6 José 3 6 Antonio 9 6 Karina 7 6
TOTAL
Y − Y
(Y − Y ) 2
0 -1 -3 3 1
0 1 9 9 1
30
Nota *)
20
(Y − Y ) SIEMPRE DEBE SER CERO (0)
Entonces se aplica la fórmula del coeficiente de determinación que es igual a: 2 − − ∑ ( Y − Y ") 2 Y Y ( ) ∑ 2 r = ∑ (Y − Y ) 2
2
; r
=
20 − 4 20
;
2
r
=
16 Variación exp licada 20 Variación no exp licada
2
r
= 0,80
El 80% de la variación en la producción semanal (Y), esta determinado o explicado por su relación lineal con los años de permanencia en el trabajo (X). EJERCICIOS PROPUESTOS:
X 4 5 3 6 10 28
Y 4 6 5 7 7 29
a)
X
Y 113
5 3 6 3 4 4 6 8 39
13 15 7 12 13 11 9 5 85
3)
. Compañía Papa John's International Applied Innovation Integracare Wall Data Davidson Associates chico's Fas Checkmate Electronics Royal Grip M-wave Serving-N-Slide Dais Cobra Golf
Ventas (mil.US$) $89.2
Ganancias (mil. US$) $4.9
$18.6
$4.4
$18.2 $71.7 $58.6
$1.3 $8.0 $6.6
$46.8 $17.5
$4.1 $2.6
$11.9 $19.6 $51.2 $28.6 $69.2 501.1
$1.7 $3.5 $8.2 $6.0 $12.8 64.1
LAS VENTAS SERÁN LA VARIABLE INDEPENDIENTE Y LAS GANANCIAS LA VARIABLE DEPENDIENTE.
114
Fondos AARP Hig Quality Bond Babson Bond L Compass Capital Fixed Income Galaxi Bond Rentail Keystone Custodian B-1 MFS Bond A Nichols Income T. Raive Price Short-term Thompson Income B
Activos (mil dolares) (X) $622.2 $160.4 $275.7
Rendimiento (%) (Y) 10.8 11.3 11.4
$433.2 $437.9 $494.5 $158.3 $681.0 $241.3 33089.1
9.1 9.2 11.6 9.5 8.2 6.8 87.9
115
Nº de Consumo(Miles/Kwh) habitaciones 12 9 9 7 14 10 6 5 10 8 8 6 10 8 10 10 5 4 7 7 91 74
6.- DEL EJERCICIO CALCULAR: a- DETERMINE EL ERROR ESTÁNDAR DE ESTIMACIÓN b- SUPÓNGASE QUE SE SELECCIONA UNA MUESTRA GRANDE (EN VEZ DE ÚNICAMENTE 10 SE SEÑALO 13) ¿ENTRE QUE PAR DE VALORES ESTARÍA APROXIMADAMENTE EL 95% DE LAS PREDICCIONES REFERENTES A LAS VENTAS?
# de contactos
Ventas miles de ($)
x 14 12 20
y 24 14 28 116
16 46 23 48 50 55 50 334
30 80 30 90 85 120 110 611
7.- DEL EJERCICIO DETERMINAR: EL ERROR ESTÁNDAR DE ESTIMACIÓN. # Ciudad Policía delitos x y Quito 15 17 Guayaquil 17 13 Cuenca 25 5 Manta 27 7 Portoviejo 17 7 Azogues 12 21 Ambato 11 19 Riobamba 22 6 n=8 146 95
8.- DEL EJERCICIO DETERMINAR: a. DETERMINE EL INTERVALO DE CONFIANZA 95 PARA EL VALOR MEDIO PRONOSTICADO CUANDO X = 7 Y EL VALOR CONSTANTE ES DE 2,365 b. ESTABLEZCA EL INTERVALO DE PREDICCIÓN 0.95 PARA UN VALOR INDIVIDUAL PRONOSTICADO CUANDO X = 7 Y EL VALOR CONSTANTE T = 2,365 X 4 5 3 6 10 28
Y 4 6 5 7 7 29
117
9.- DEL EJERCICIO DETERMINAR
# Ciudad Policía delitos x y Quito 15 17 Guayaquil 17 13 Cuenca 25 5 Manta 27 7 Portoviejo 17 7 Azogues 12 21 Ambato 11 19 Riobamba 22 6 n=8 146 95
10.- DEL EJERCICIO DETERMINAR: # de habitaciones 12 9 14 6 10 8 10 10 5 7 91
consumo (miles de kwh) 9 7 10 5 8 6 8 10 4 7 74
a) HALLE EL INTERVALO DE CONFIANZA 0.95, EN MILES DE KILOWATTS-HORA, PARA LA MEDIA DE TODAS LAS CASAS CON SEIS HABITACIONES Y T = 2,306 b) DETERMINE EL INTERVALO DE PREDICCIÓN 0.95, EN MILES DE KILOWATTS-HORA, PARA LA MEDIA DE TODAS LAS CASAS CON SEIS HABITACIONES EN PARTICULAR.
118