ESTADÍSTICA I CLAVE MC 03
ÍNDICE
PROPÓSITO GENERAL
7
PRESENTACIÓN
8
MAPA CONCEPTUAL
9
OBJETIVO GENERAL DEL CURSO
10
UNID UN IDAD AD 1 INT INTRO RODU DUCC CCII N
11
MAPA CONCEPTUAL INTRODUCCIÓN
12 13
1.1 COVERTIR TANTO PORCIENTO A DECIMALES Y VICEVERSA ACTIVIDADES ACTIVIDADES DE APRENDIZAJE APRENDIZAJE 1.2 NOTACIÓN CIENTÍFICA ACTIVIDADES ACTIVIDADES DE APRENDIZAJE APRENDIZAJE AUTOEVALUACIÓN AUTOEVALUACIÓN
14 15 15 18 20
UNIDAD 2 FUNDAMENTOS FUNDAMENTOS DE ESTAD ESTAD STICA
21
MAPA CONCEPTUAL INTRODUCCIÓN
22 23
2.1 DEFINICIÓN Y OBJETO DE LA ESTADÍSTICA ACTIVIDADES ACTIVIDADES DE APRENDIZAJE APRENDIZAJE 2.2 ESTADÍSTICA DESCRIPTIVA Y ESTADÍSTICA INFERENCIAL ACTIVIDADES ACTIVIDADES DE APRENDIZAJE APRENDIZAJE 2.3 VARIABLES DISCRETAS Y CONTINUAS ACTIVIDADES ACTIVIDADES DE APRENDIZAJE APRENDIZAJE 2.4 FUENTE DE DATOS ACTIVIDADES ACTIVIDADES DE APRENDIZAJE APRENDIZAJE 2.5 LA ESTADÍSTICA EN LA INVESTIGACIÓN ACTIVIDADES ACTIVIDADES DE APRENDIZAJE APRENDIZAJE AUTOEVALUACIÓN AUTOEVALUACIÓN
24 28 28 29 29 32 32 33 33 34 35
UNIDAD UNID AD 3 REC RECOP OPILA ILACI CI N DE DE LA LA INFO INFORM RMAC ACII N: TE TEOR OR A DE DEL L MUESTREO
37
MAPA CONCEPTUAL INTRODUCCIÓN
38 39
3.1 POBLACIÓN Y MUESTRA ACTIVIDADES ACTIVIDADES DE APRENDIZAJE APRENDIZAJE 3.2 ESTIMADORES Y PARÁMETROS ACTIVIDADES ACTIVIDADES DE APRENDIZAJE APRENDIZAJE 3.3 MUESTREO PROBABILÍSTICO Y NO PROBABILÍSTICO ACTIVIDADES ACTIVIDADES DE APRENDIZAJE APRENDIZAJE 3.4 MUESTREO ALEATORIO SIMPLE ACTIVIDADES ACTIVIDADES DE APRENDIZAJE APRENDIZAJE 3.5 MUESTREO ESTRATIFICADO ACTIVIDADES ACTIVIDADES DE APRENDIZAJE APRENDIZAJE 3.6 MUESTREO POR CONGLOMERADOS ACTIVIDADES ACTIVIDADES DE APRENDIZAJE APRENDIZAJE 3.7 OTROS DISEÑOS Y PROCEDIMIENTOS DE MUESTREO, JUICIO Y CONVENIENCIA ACTIVIDADES ACTIVIDADES DE APRENDIZAJE APRENDIZAJE 3.8 ERROR DE MUESTREO Y DE LA MUESTRA ACTIVIDADES ACTIVIDADES DE APRENDIZAJE APRENDIZAJE AUTOEVALUACIÓN AUTOEVALUACIÓN
40 42 42 43 44 46 46 51 51 52 52 54
UNIDA UNI DAD D 4 ORGA ORGANIZ NIZACI ACI N DE DA DATO TOS S
59
MAPA CONCEPTUAL INTRODUCCIÓN
60 61
4.1 ANÁLISIS EXPLORATORIO DE DATOS: DIAGRAMA DE TALLOS Y HOJAS ACTIVIDADES ACTIVIDADES DE APRENDIZAJE APRENDIZAJE 4.2 ESCALAS DE MEDICIÓN,: NOMINAL, ORDINAL, DE INTERVALO Y DE RAZÓN ACTIVIDADES ACTIVIDADES DE APRENDIZAJE APRENDIZAJE 4.3 TABLAS DE FRECUENCIA PARA VARIABLES DISCRETAS Y CONTINUAS ACTIVIDADES ACTIVIDADES DE APRENDIZAJE APRENDIZAJE 4.4 INTERVALO DE CLASE Y LÍMITES DE CLASE ACTIVIDADES ACTIVIDADES DE APRENDIZAJE APRENDIZAJE 4.5 ANCHURA DE INTERVALO DE CLASE ACTIVIDADES ACTIVIDADES DE APRENDIZAJE APRENDIZAJE 4.6 MARCA DE CLASE ACTIVIDADES ACTIVIDADES DE APRENDIZAJE APRENDIZAJE 4.7 DISTRIBUCIÓN DE FRECUENCIA RELATIVA Y ACUMULADA PARA VARIABLES DISCRETAS Y CONTINUAS ACTIVIDADES ACTIVIDADES DE APRENDIZAJE APRENDIZAJE AUTOEVALUACIÓN AUTOEVALUACIÓN
54 55 55 56 57
62 64 64 67 68 73 73 75 76 79 79 80 81 85 86
UNIDA UNI DAD D 5 PR PRES ESENT ENTAC ACII N DE DE DA DATOS TOS:: GR GR FICAS FICAS Y CURV CURVAS AS
87
MAPA CONCEPTUAL INTRODUCCIÓN
88 89
5.1 GRÁFICA PARA DATOS CUALITATVOS: GRÁFICA DE BARRAS Y DE PASTEL ACTIVIDADES ACTIVIDADES DE APRENDIZAJE APRENDIZAJE 5.2 GRÁFICA PARA DATOS CUANTITATIVOS: HISTOGRAMAS, POLÍGONOS DE FRECUENCIA Y OJIVAS ACTIVIDADES ACTIVIDADES DE APRENDIZAJE APRENDIZAJE 5.3 GRÁFICAS DE LINES DE SERIES DE TIEMPO ACTIVIDADES ACTIVIDADES DE APRENDIZAJE APRENDIZAJE 5.4 DIAGRAMAS DE CAJA ACTIVIDADES ACTIVIDADES DE APRENDIZAJE APRENDIZAJE AUTOEVALUACIÓN AUTOEVALUACIÓN
94 100 101 102 103 105 106
UNIDAD UNIDA D 6 MEDIDAS MEDIDAS DE POSICI POSICI N DE TENDE TENDENCIA NCIA CENTRAL CENTRAL
109
MAPA CONCEPTUAL INTRODUCCIÓN
110 111
6.1 MEDIA ARITMÉTICA O PROMEDIO PARA DATOS AGRUPADOS Y NO AGRUPADOS ACTIVIDADES ACTIVIDADES DE APRENDIZAJE APRENDIZAJE 6.2 MEDIANA PARA DATOS AGRUPADOS Y NO AGRUPADOS ACTIVIDADES ACTIVIDADES DE APRENDIZAJE APRENDIZAJE 6.3 LA MODA ACTIVIDADES ACTIVIDADES DE APRENDIZAJE APRENDIZAJE 6.4 LA MEDIA GEOMÉTRICA ACTIVIDADES ACTIVIDADES DE APRENDIZAJE APRENDIZAJE 6.5 PROMEDIO MÓVIL ACTIVIDADES ACTIVIDADES DE APRENDIZAJE APRENDIZAJE 6.6 MEDIA ARMÓNICA ACTIVIDADES ACTIVIDADES DE APRENDIZAJE APRENDIZAJE 6.7 DECILES, CUARTILES Y PERCENTILES ACTIVIDADES ACTIVIDADES DE APRENDIZAJE APRENDIZAJE AUTOEVALUACIÓN AUTOEVALUACIÓN
112 118 118 122 122 124 124 126 126 132 132 132 133 141 142
UNIDAD UNIDA D 7 MEDIDA MEDIDAS S DE VARIA VARIABILID BILIDAD AD DE DE DISPER DISPERSI SI N
144
MAPA CONCEPTUAL INTRODUCCIÓN
145 146
7.1 RANGO ACTIVIDADES ACTIVIDADES DE APRENDIZAJE APRENDIZAJE 7.2 DESVIACIÓN MEDIA ABSOLUTA ACTIVIDADES ACTIVIDADES DE APRENDIZAJE APRENDIZAJE 7.3 VARIANZA PARA DATOS AGRUPADOS Y NO AGRUPADOS
147 147 148 150 150
90 94
ACTIVIDADES DE APRENDIZAJE 7.4 DESVIACIÓN ESTÁNDAR ACTIVIDADES DE APRENDIZAJE 7.5 COEFICIENTE DE VARIACIÓN ACTIVIDADES DE APRENDIZAJE 7.6 MEDIDAS DE FORMA: ASIMETRÍA Y CURTOSIS ACTIVIDADES DE APRENDIZAJE AUTOEVALUACIÓN
152 152 154 154 155 155 159 160
UNIDAD 8 PROBABILIDAD
162
MAPA CONCEPTUAL INTRODUCCIÓN
163 164
8.1 PROBABILIDAD CLÁSICA, FRECUENCIAL Y SUBJETIVA ACTIVIDADES DE APRENDIZAJE 8.2 EXPERIMENTOS, EVENTOS Y ESPACIOS MUESTRALES ACTIVIDADES DE APRENDIZAJE 8.3 REGLAS DE CONTEO: COMBINACIONES Y PERMUTACIONES ACTIVIDADES DE APRENDIZAJE 8.4 REGLAS DE LA PROBABILIDAD ACTIVIDADES DE APRENDIZAJE 8.5 EVENTOS DEPENDIENTES, INDEPENDIENTES Y CONDICIONALES ACTIVIDADES DE APRENDIZAJE 8.6 TEOREMA DE BAYES ACTIVIDADES DE APRENDIZAJE 8.7 DIAGRAMA DE ÁRBOL ACTIVIDADES DE APRENDIZAJE 8.8 ESPERANZA MATEMÁTICA ACTIVIDADES DE APRENDIZAJE AUTOEVALUACIÓN
165 166 166 171 171 174 175 179 179 181 182 184 184 185 185 187 188
UNIDAD 9 VARIABLES ALEATORIAS DISCRETAS Y SU DISTRIBUCIÓN DE PROBABILIDAD
191
MAPA CONCEPTUAL INTRODUCCIÓN
192 193
9.1 PROBABILIDAD CLÁSICA, FRECUNCIAL Y SUBJETIVA ACTIVIDADES DE APRENDIZAJE 9.2 DISTRIBUCIÓN DE PROBABILIDAD DE UNA VARIABLE ALEATORIA DISCRETA ACTIVIDADES DE APRENDIZAJE 9.3 DISTRIBUCIÓN BERNOULLI ACTIVIDADES DE APRENDIZAJE 9.4 DISTRIBUCIÓN BINOMINAL Y MULTINOMINAL ACTIVIDADES DE APRENDIZAJE 9.5 DISTRIBUCIÓN DE POSSION
194 197 198 200 200 201 201 204 204
ACTIVIDADES DE APRENDIZAJE 9.6 DISTRIBUCIÓN GEOMÉTRICA ACTIVIDADES DE APRENDIZAJE 9.7 DISTRIBUCIÓN HIPERGEOMÉTRICA ACTIVIDADES DE APRENDIZAJE AUTOEVALUACIÓN
205 206 209 209 211 212
GLOSARIO
214
ANEXO
234
BIBLIOGRAFÍA
240
7
PROPÓSITO GENERAL Fungir como una guía teórica y didáctica para el estudiante orientándolo en las bases y conceptos generales de la estadística, así como brindar un contenido que le ayude mediante claros ejemplos a reforzar los conocimientos básicos y a desarrollar su capacidad de análisis matemático.
8
PRESENTACIÓN La aplicación de las matemáticas es constante, es universal; no es posible llevar a cabo un desarrollo social en ausencia de ésta ciencia. El uso y manejo correcto de los números, son en la actualidad responsabilidad y obligación social, su uso es global; sin embargo, muchas ramas se has desprendido de las matemáticas permitiendo el perfeccionamiento de ciertas áreas y una mejor calidad en procesos de diferentes clases. Tal es el caso de la estadística, definida como una rama de las matemáticas, que se refiere a la recolección, estudio e interpretación de los datos obtenidos en un estudio. Es aplicable a una amplia variedad de disciplinas, desde la física hasta las ciencias sociales ciencias de la salud como la Psicología y la Medicina, y usada de manera muy importante en la toma de decisiones en áreas de negocios e instituciones gubernamentales. Aún cuando el perfil profesional del estudiante puede o no ser completamente afín al empleo de la estadística como herramienta profesional; sin embargo, debido a la complejidad de la vida socialmente hablando, es de gran utilidad llevar a cabo por lo menos un estudio básico de estadística, pues ésta siempre será de gran ayuda para la correcta toma de decisiones.
9
MAPA CONCEPTUAL ESTADÍSTICA I
ESTADISTICA I
1. SDGSDFGASDA DFSDGFSDFGDF
4. PRESENTACIÓN DE DATOS, GRAFICAS Y CURVAS
2. FUNDAMENTOS DE ESTADÍSTICA
3. RECOPILACION DE INFORMACIÓN: TEORÍA DEL MUESTREO
5. MEDIDAS DE POSICIÓN DE TENDENCIA CENTRAL
6. MEDIDAS DE VARIABILIDAD O DE DISPERSIÓN
7. PROBABILIDAD
8. VARIABLES ALEATORIAS DISCRETAS Y SU DISTRIBUCIÓN DE PROBABILIDAD
10
GENERAL DEL CURSO El estudiante explicará los fundamentos de la estadística y sus aplicaciones en la investigación; aplicará las técnicas de muestreo de manera pertinente a la situación que le requiera realizarlo; aplicará funciones de la estadística para la organización y presentación de datos cuantitativos; aplicará las medidas de tendencia central y variabilidad en problemas específicos de su profesión; estudiante comprenderá las reglas básicas de la probabilidad.
11
UNIDAD 1 INTRODUCCIÓN
El estudiante reafirmará conceptos básicos de matemáticas.
Temario: 1. INTRODUCCIÓN 1.1 CONVERTIR TANTO PORCIENTO A DECIMALES Y VICEVERSA 1.2 NOTACIÓN CIENTÍFICA
12
MAPA CONCEPTUAL INTRODUCCIÓN
1. INTRODUCCIÓN
1.1CONVERTIR TANTO PORCIENTO A DECIMALES Y VICEVERSA
1.2 NOTACION CIENTIFICA
13
INTRODUCCIÓN En esta unidad se repasarán las matemáticas básicas, con la finalidad de no generar problemas una vez iniciado el curso. Se trabajará en el tanto por ciento y la notación científica.
14
1. INTRODUCCIÓN 1.1
CONVERTIR TANTO POR CIENTO A DECIMALES Y VICEVERSA
El estudiante aplicará de forma adecuada el tanto por ciento. Se debe recordar siempre que un por ciento significa un centésimo. Lo dice la palabra misma: por ciento es por cien , se está comparando con cien: si 15% de la populación son ancianos, significa que 15 personas de cada cien son ancianos. 1% es un centésimo o 0.01 4% es cuatro centésimos o 0.04 12% es doce centésimos o 0.12 89% es 89 centésimos o 0.89 100% es cien centésimos o 1 145% es 145 centésimos o 1.45
Convertir un número decimal en tanto por ciento Y viceversa, si tiene un número decimal, sólo observa cuántos centésimos tiene. Por eso se debe entender que la primera cifra decimal después del punto significa los décimos, y la segunda cifra después del punto significa las centésimos. 0.08 tiene 8 centésimos o 8% 0.2 no tiene dos cifras decimales; entonces pongamos un cero al lugar de la segunda cifra decimal: 0.2 es igual a 0.20. entonces tiene 20 centésimos o 20%. 1.1 - también pongamos un cero y es 1.10. Es más de uno; tiene más de 100 centésimos; 1.10 tiene 110 centésimos; y es 110%. 0.495 tiene tres cifras decimales. Cuando se convierte a tanto por ciento, el porcentaje tendrá un punto decimal. 0.495 tiene 49 centésimos; y un medio centésimo además. Por eso 0.495 es 49 1/2 % o normalmente escribimos 49.5% 0.3829 es 38.29% 1.078 es 107.8%
15
ACTIVIDAD DE APRENDIZAJE El estudiante realizará los siguientes ejercicios.
Instrucciones: Convertir los decimales en tanto por ciento y viceversa, como se indica
1a.
=0.8779
2a. 77.40%= 3a.
1b.
=0.1058
2b. 65.34%= =0.765
3b.
1c.
=0.7605
2c. 67.71%= =0.9492
3c. 7.99%=
4a. 63.31%=
4b. 50.74%=
4c. 54.29%=
5a. 54.98%=
5b. 47.45%=
5c. 65%=
6a. 40.56%=
6b.
=0.3129
6c.
=0.0601
1.2 NOTACIÓN CIENTÍFICA
El estudiante comprenderá la notación científica. La notación científica (o notación índice estándar) es un modo conciso de representar un número utilizando potencias de base diez. Los números se escriben como un producto: a · 10 k, (siendo a un número mayor o igual que 1 y menor que 10, y k un número entero). Esta notación se utiliza para poder expresar fácilmente números muy grandes. La notación científica utiliza un sistema llamado coma flotante, o de punto flotante en países de habla inglesa y en algunos hispanohablantes.
16
Escritura
100 = 1 101 = 10 102 = 100 103 = 1 000 104 = 10 000 105 = 100 000 106 = 1 000 000 109 = 1 000 000 000 1010 = 10 000 000 000 1020 = 100 000 000 000 000 000 000 1030 = 1 000 000 000 000 000 000 000 000 000 000
10 elevado a una potencia entera negativa –n es igual a 1/10 n o, equivalentemente 0, (n –1 ceros) 1: 10 –1 = 1/10 = 0,1 10 –3 = 1/1000 = 0,001 10 –9 = 1/1 000 000 000 = 0,000 000 001
Por tanto, un número como: 156 234 000 000 000 000 000 000 000 000 puede ser escrito como 1,56234·10 29, y un número pequeño como 0,000 000 000 023 4 puede ser escrito como 2,34·10 –11.
Usos Por ejemplo, la distancia a los confines observables del universo es ~4,6·1026m y la masa de un protón es ~1,67·10-27 kilogramos. La mayoría de las calculadoras y muchos programas de computadora presentan resultados muy grandes y muy pequeños en notación científica; los números 10 generalmente se omiten y se utiliza la letra E para el exponente; por ejemplo: 1,56234 E29. Nótese que esto no está relacionado con la base del logaritmo natural también denotado comúnmente con la letra e . La notación científica es altamente útil para anotar cantidades físicas, pues pueden ser medidas solamente dentro de ciertos límites de error y al anotar sólo los dígitos significativos se da toda la información requerida sin malgastar espacio. Para expresar un número en notación científica debe expresarse en forma tal que contenga un dígito (el más significativo) en el lugar de las unidades, todos los demás dígitos irán entonces después del separador decimal multiplicado por el exponente de 10 respectivo. Ej. 238294360000 = 2,3829436E11 y 0,000312459 = 3,12459E-4.
17
Operaciones matemáticas con notación científica Suma y resta Siempre que las potencias de 10 sean las mismas, se debe sumar las mantisas, dejando la potencia de 10 con el mismo grado (en caso de que no tengan el mismo exponente, debe convertirse la mantisa multiplicándola o dividiéndola por 10 tantas veces como sea necesario para obtener el mismo exponente): Ejemplo: 2 · 10 4 + 3 ·104 = 5 · 104 Para sumar y restar dos números (o más) debemos tener el mismo exponente en las potencias de base diez. Tomamos como factor común el mayor y movemos la coma flotante, en los menores, tantos espacios como sea necesario, elevando los correspondientes exponentes hasta que todos sean iguales. Ejemplo: 2 · 104 + 3 ·105 - 6 ·103 (tomamos el exponente 5 como referencia) 0,2 · 105 + 3 · 105 - 0,06 ·105 3,14 ·105
Multiplicación Se multiplican los coeficientes y se suman a la vez los exponentes: Ejemplo: (4·105)·(2·107) = 8·1012
División Se dividen las mantisas y se restan los exponentes (numerador_denominador): Ejemplo: (4·1012)/(2·10 5) =2·107 Además se pueden pasar los dos números al mismo exponente y luego nada más multiplicar
Potenciación Se potencia la mantisa y se multiplican los exponentes: Ejemplo: (3·106)2 = 9·1012
Radicación Se debe extraer la raíz de la mantisa y dividir el exponente por el índice de la raíz: Ejemplos:
18
ACTIVIDADES DE APRENDIZAJE El estudiante realizará los siguientes ejercicios: 1.
Sitúa en la escala de potencias de 10:
a) 7,2.105 b) 3,67.104
c) 0,23.102
d) 8,92.10-3
e) 3,34.10-1
2.
Expresa en notación científica e indica el orden de magnitud de las siguientes cantidades: *Nota: El orden de magnitud se calcula a partir del valor absoluto del número
a)
300 000 000
d) -18 400 000 000
b) 0,000 000 1
c) 0,000 000 62
e) -7894,34
f) 456,987
g) 0, 000 000 000 93
3.
h) -5,5
Expresa en notación decimal
a) 4. 10 3
b) -6,3456. 10-6
c) 5,112. 10 -3
d) 1,43. 10-5
4.
Realiza la operación: (0. 00000000000000000000000663 . 30,000,000,000) : 0.00000009116 *Nota: Es incomodo trabajar con esas cantidades, pasa primero a notación científica
5.
Efectúa los productos y cocientes siguientes usando las propiedades de las potencias:
9.10 5.10 1,5.10 -3
a.
6.
-4
8
1,6.10 5.10 4.10 -2
b.
5
-6
7,2.10 1,2.10 3.10 -6
c.
-6
-1
Efectúa las siguientes operaciones con cantidades expresadas en notación científica. Expresa el resultado también en notación científica: a) 3,74.10-10 . 1,8.1018
b) 5,4.108.6,8.10 12
c) 1,2.102 +1,8.10 3
d) 2,5.10-3-7,3.10-5
19
e) 5,6.10-2(4,2.102 + 3,3.103) 7.
Efectúa las siguientes operaciones con cantidades expresadas en notación científica. Expresa el resultado también en notación científica: -1
-2
a) 3.10 – 5.10 + 3.10
8.
f) 9,8.10-3 + 3,2.102
7 3,2.10 .0,7 b) 14 5 (2.10 )(6.10 )
-3
Efectúa las siguientes operaciones con cantidades expresadas en notación científica. Expresa el resultado también en notación científica: 5
-4
a) (3.10 )(8.10 )
b)
5.10
5
3.10 3
2.10 3
7
c) 6,12.10-5 + 7,29.10-10
20
INSTRUCCIONES: Lea detenidamente y anote dentro del paréntesis “v” si el enunciado es verdadero y “f” si es falso. (Recuerde que la forma de evaluar esta sección es aciertos menos errores). 1.
Se debe recordar siempre que un por ciento significa una décima parte
( )
2.
3 · 105 + 6 ·105 = 9 · 105
( )
3.
0.0320 = 32%
( )
4.
La notación científica (o notación índice estándar) es un modo conciso de representar un número utilizando potencias de base diez.
( )
5.
Los números se escriben como un producto: a · 10 k. En las operaciones de multiplicación con notación científica, se multiplican los coeficientes y se restan a la vez los exponentes
( )
21
UNIDAD 2 FUNDAMENTOS DE ESTADÍSTICA
El estudiante se introducirá en los aspectos fundamentales, tanto de conceptos básicos y de operatividad de la estadística, así como su aplicación y relación con su formación profesional.
Temario: 1.
FUNDAMENTOS DE ESTADÍSTICA 2.1 2.2 2.3 2.4 2.5
DEFINICIÓN Y OBJETO DE LA ESTADÍSTICA ESTADÍSTICA DESCRIPTIVA Y ESTADÍSTICA INFERENCIAL VARIABLES DISCRETAS Y CONTINUAS FUENTE DE DATOS LA ESTADÍSTICA EN LA INVESTIGACIÓN
22
MAPA CONCEPTUAL
FUNDAMENTOS DE ESTADISTICA
2. FUNDAMENTOS DE ESTADISTICA
2.1 DEFINICIÓN Y OBJETO DE LA ESTADÍSTICA
2.2 ESTADÍSTICA DESCRIPTIVA Y ESTADÍSTICA INFERENCIAL
2.4 FUENTE DE DATOS
2.3 VARIABLES DISCRETAS Y CONTINUAS
2.5 LA ESTADÍSTICA EN LA INVESTIGACIÓN
23
INTRODUCCIÓN En esta unidad se verán métodos para recopilar información, los tipos de parámetros, tipos de muestreo y como calcular el tamaño de la muestra así como el error de muestreo.
24
2. FUNDAMENTOS DE LA ESTADÍSTICA 2.1 DEFINICIÓN Y OBJETO DE LA ESTADÍSTICA
El estudiante reconocerá el concepto y el objeto de la estadística.
Historia de la Estadística Los comienzos de la estadística pueden ser hallados en el antiguo Egipto, cuyos faraones lograron recopilar, hacia el año 3050 antes de Cristo, prolijos datos relativos a la población y la riqueza del país. De acuerdo al historiador griego Heródoto, dicho registro de riqueza y población se hizo con el objetivo de preparar la construcción de las pirámides. En el mismo Egipto, Ramsés II hizo un censo de las tierras con el objeto de verificar un nuevo reparto. En el antiguo Israel la Biblia da referencias, en el libro de los Números, de los datos estadísticos obtenidos en dos recuentos de la población hebrea. El rey David por otra parte, ordenó a Joab, general del ejército hacer un censo de Israel con la finalidad de conocer el número de la población. También los chinos efectuaron censos hace más de cuarenta siglos. Los griegos efectuaron censos periódicamente con fines tributarios, sociales (división de tierras) y militares (cálculo de recursos y hombres disponibles). La investigación histórica revela que se realizaron 69 censos para calcular los impuestos, determinar los derechos de voto y ponderar la potencia guerrera. Pero fueron los romanos, maestros de la organización política, quienes mejor supieron emplear los recursos de la estadística. Cada cinco años realizaban un censo de la población y sus funcionarios públicos tenían la obligación de anotar nacimientos, defunciones y matrimonios, sin olvidar los recuentos periódicos del ganado y de las riquezas contenidas en las tierras conquistadas. Para el nacimiento de Cristo sucedía uno de estos empadronamientos de la población bajo la autoridad del imperio. Durante los mil años siguientes a la caída del imperio Romano se realizaron muy pocas operaciones Estadísticas, con la notable excepción de las relaciones de tierras pertenecientes a la Iglesia, compiladas por Pipino el Breve en el 758 y por Carlomagno en el 762 DC. Durante el siglo IX se realizaron en Francia algunos censos parciales de siervos. En Inglaterra, Guillermo el Conquistador recopiló el Domesday Book o libro del Gran Catastro para el año 1086, un documento de la propiedad, extensión y valor de las tierras de Inglaterra. Esa obra fue el primer compendio estadístico de Inglaterra.
25
Aunque Carlomagno, en Francia; y Guillermo el Conquistador, en Inglaterra, trataron de revivir la técnica romana, los métodos estadísticos permanecieron casi olvidados durante la Edad Media. Durante los siglos XV, XVI, y XVII, hombres como Leonardo de Vinci, Nicolás Copérnico, Galileo, Neper, William Harvey, Sir Francis Bacon y René Descartes, hicieron grandes operaciones al método científico, de tal forma que cuando se crearon los Estados Nacionales y surgió como fuerza el comercio internacional existía ya un método capaz de aplicarse a los datos económicos. Para el año 1532 empezaron a registrarse en Inglaterra las defunciones debido al temor que Enrique VII tenía por la peste. Más o menos por la misma época, en Francia la ley exigió a los clérigos registrar los bautismos, fallecimientos y matrimonios. Durante un brote de peste que apareció a fines de la década de 1500, el gobierno inglés comenzó a publicar estadísticas semanales de los decesos. Esa costumbre continuó muchos años, y en 1632 estos Bills of Mortality (Cuentas de Mortalidad) contenían los nacimientos y fallecimientos por sexo. En 1662, el capitán John Graunt usó documentos que abarcaban treinta años y efectuó predicciones sobre el número de personas que morirían de varias enfermedades y sobre las proporciones de nacimientos de varones y mujeres que cabría esperar. El trabajo de Graunt, condensado en su obra Natural and Political Observations...Made upon the Bills of Mortality (Observaciones Políticas y Naturales ... Hechas a partir de las Cuentas de Mortalidad), fue un esfuerzo innovador en el análisis estadístico. Por el año 1540 el alemán Sebastián Muster realizó una compilación estadística de los recursos nacionales, comprensiva de datos sobre organización política, instrucciones sociales, comercio y poderío militar. Durante el siglo XVII aportó indicaciones más concretas de métodos de observación y análisis cuantitativo y amplió los campos de la inferencia y la teoría Estadística. Los eruditos del siglo XVII demostraron especial interés por la Estadística Demográfica como resultado de la especulación sobre si la población aumentaba, decrecía o permanecía estática. En los tiempos modernos tales métodos fueron resucitados por algunos reyes que necesitaban conocer las riquezas monetarias y el potencial humano de sus respectivos países. El primer empleo de los datos estadísticos para fines ajenos a la política tuvo lugar en 1691 y estuvo a cargo de Gaspar Neumann, un profesor alemán que vivía en Breslau. Este investigador se propuso destruir la antigua creencia popular de que en los años terminados en siete moría más gente que en los restantes, y para lograrlo hurgó pacientemente en los archivos parroquiales de la ciudad. Después de revisar miles de partidas de defunción pudo demostrar que en tales años no fallecían más personas que en los demás. Los procedimientos de Neumann fueron conocidos por el astrónomo inglés Halley, descubridor del cometa que lleva su nombre, quien los aplicó al estudio de la vida humana. Sus cálculos sirvieron de base para las tablas de mortalidad que hoy utilizan todas las compañías de seguros.
26
Durante el siglo XVII y principios del XVIII, matemáticos como Bernoulli, Francis Maseres, Lagrange y Laplace desarrollaron la teoría de probabilidades. No obstante durante cierto tiempo, la teoría de las probabilidades limitó su aplicación a los juegos de azar y hasta el siglo XVIII no comenzó a aplicarse a los grandes problemas científicos. Godofredo Achenwall, profesor de la Universidad de Gotinga, acuñó en 1760 la palabra estadística, que extrajo del término italiano statista (estadista). Creía, y con sobrada razón, que los datos de la nueva ciencia serían el aliado más eficaz del gobernante consciente. La raíz remota de la palabra se halla, por otra parte, en el término latino status, que significa estado o situación; Esta etimología aumenta el valor intrínseco de la palabra, por cuanto la estadística revela el sentido cuantitativo de las más variadas situaciones. Jacques Quételect es quien aplica las Estadísticas a las ciencias sociales. Este interpretó la teoría de la probabilidad para su uso en las ciencias sociales y resolver la aplicación del principio de promedios y de la variabilidad a los fenómenos sociales. Quételect fue el primero en realizar la aplicación práctica de todo el método Estadístico, entonces conocido, a las diversas ramas de la ciencia. Entretanto, en el período del 1800 al 1820 se desarrollaron dos conceptos matemáticos fundamentales para la teoría Estadística; la teoría de los errores de observación, aportada por Laplace y Gauss; y la teoría de los mínimos cuadrados desarrollada por Laplace, Gauss y Legendre. A finales del siglo XIX, Sir Francis Gaston ideó el método conocido por Correlación, que tenía por objeto medir la influencia relativa de los factores sobre las variables. De aquí partió el desarrollo del coeficiente de correlación creado por Karl Pearson y otros cultivadores de la ciencia biométrica como J. Pease Norton, R. H. Hooker y G. Udny Yule, que efectuaron amplios estudios sobre la medida de las relaciones. Los progresos más recientes en el campo de la Estadística se refieren al ulterior desarrollo del cálculo de probabilidades, particularmente en la rama denominada indeterminismo o relatividad, se ha demostrado que el determinismo fue reconocido en la Física como resultado de las investigaciones atómicas y que este principio se juzga aplicable tanto a las ciencias sociales como a las físicas.
Etapas de Desarrollo de la Estadística La historia de la estadística está resumida en tres grandes etapas o fases. 1.- Primera Fase: Los Censos. Desde el momento en que se constituye una autoridad política, la idea de inventariar de una forma más o menos regular la población y las riquezas existentes en el territorio está ligada a la conciencia de soberanía y a los primeros esfuerzos administrativos. Manual 2.- Segunda Fase: De la Descripción de los Conjuntos a la Aritmética Política. Las ideas mercantilistas extrañan una intensificación de este tipo de investigación. Colbert multiplica las encuestas sobre artículos manufacturados, el comercio y la población: los
27
intendentes del Reino envían a París sus memorias. Vauban, más conocido por sus fortificaciones o su Dime Royale, que es la primera propuesta de un impuesto sobre los ingresos, se señala como el verdadero precursor de los sondeos. Más tarde, Bufón se preocupa de esos problemas antes de dedicarse a la historia natural. La escuela inglesa proporciona un nuevo progreso al superar la fase puramente descriptiva. Sus tres principales representantes son Graunt, Petty y Halley. El penúltimo es autor de la famosa Aritmética Política. Chaptal, ministro del interior francés, publica en 1801 el primer censo general de población, desarrolla los estudios industriales, de las producciones y los cambios, haciéndose sistemáticos durante las dos terceras partes del siglo XIX. 3.- Tercera Fase: Estadística y Cálculo de Probabilidades. El cálculo de probabilidades se incorpora rápidamente como un instrumento de análisis extremadamente poderoso para el estudio de los fenómenos económicos y sociales y en general para el estudio de fenómenos “cuyas causas son demasiados complejas para conocerlos totalmente y hacer posible su análisis”.
Definición de Estadística La Estadística es la ciencia cuyo objetivo es reunir una información cuantitativa concerniente a individuos, grupos, series de hechos, etc. y deducir de ello gracias al análisis de estos datos unos significados precisos o unas previsiones para el futuro. La estadística, en general, es la ciencia que trata de la recopilación, organización presentación, análisis e interpretación de datos numéricos con el fin de realizar una toma de decisión más efectiva. Otros autores tienen definiciones de la Estadística semejantes a las anteriores, y algunos otros no tan semejantes. Para Chacón esta se define como “la ciencia que tiene por objeto el estudio cuantitativo de los colectivos”; otros la definen como la expresión cuantitativa del conocimiento dispuesta en forma adecuada para el escrutinio y análisis. La más aceptada, sin embargo, es la de Minguez, que define la Estadíst ica como “La ciencia que tiene por objeto aplicar las leyes de la cantidad a los hechos sociales para medir su intensidad, deducir las leyes que los rigen y hacer su predicción próxima”.
Los estudiantes confunden comúnmente los demás términos asociados con las Estadísticas, una confusión que es conveniente aclarar debido a que esta palabra tiene tres significados: la palabra estadística, en primer término se usa para referirse a la información estadística; también se utiliza para referirse al conjunto de técnicas y métodos que se utilizan para analizar la información estadística; y el término estadístico, en singular y en masculino, se refiere a una medida derivada de una muestra.
28
Utilidad e Importancia Los métodos estadísticos tradicionalmente se utilizan para propósitos descriptivos, para organizar y resumir datos numéricos. La estadística descriptiva, por ejemplo trata de la tabulación de datos, su presentación en forma gráfica o ilustrativa y el cálculo de medidas descriptivas. Ahora bien, las técnicas estadísticas se aplican de manera amplia en mercadotecnia, contabilidad, control de calidad y en otras actividades; estudios de consumidores; análisis de resultados en deportes; administradores de instituciones; en la educación; organismos políticos; médicos; y por otras personas que intervienen en la toma de decisiones.
ACTIVIDAD DE APRENDIZAJE
El estudiante investigará de acuerdo a la bibliografía sugerida, porqué es importante la estadística dentro de su carrera y elaborará un mapa conceptual con la información obtenida. Se entregará de manera impresa la siguiente sesión.
2.2 ESTADÍSTICA DESCRIPTIVA Y ESTADÍSTICA INFERENCIAL
El estudiante reconocerá y diferenciará la estadística descriptiva y la estadística inferencial La Estadística para su mejor estudio se ha dividido en dos grandes ramas: la Estadística Descriptiva y la Inferencial.
Estadística Descriptiva: consiste sobre todo en la presentación de datos en forma de tablas y gráficas. Esta comprende cualquier actividad relacionada con los datos y está diseñada para resumir o describir los mismos sin factores pertinentes adicionales; esto es, sin intentar inferir nada que vaya más allá de los datos, como tales.
Estadística Inferencial: se deriva de muestras, de observaciones hechas sólo acerca de una parte de un conjunto numeroso de elementos y esto implica que su análisis requiere de generalizaciones que van más allá de los datos. Como consecuencia, la característica más importante del reciente crecimiento de la
29
estadística ha sido un cambio en el énfasis de los métodos que describen a métodos que sirven para hacer generalizaciones. La Estadística Inferencial investiga o analiza una población partiendo de una muestra tomada.
ACTIVIDAD DE APRENDIZAJE
El estudiante realizará un análisis de mínimo una cuartilla, mencionando ejemplos de estadística descriptiva y estadística inferencial. Se entregará impreso la siguiente sesión.
2.3 VARIABLES DISCRETAS Y CONTINUAS
El estudiante comprenderá y explicará las variables discretas y continuas. En líneas anteriores se ha señalado que el objeto de estudio de la Estadística son las poblaciones y que estas están formadas por entes o elementos. El número total de los mismos determina el tamaño de la población. Para estudiar una población, lo primero que debe hacerse es observarla de alguna de las formas que ya se ha señalado en las líneas anteriores. Pero observar una población es equivalente a observar sus elementos. Ahora bien, esos elementos poseen una serie de características que son las que realmente se observan. Por ejemplo, el conjunto de todas las empresas industriales radicadas en España constituyen una población. Los elementos de esa población son las empresas. Pero una empresa no se observa en abstracto. Lo que realmente tiene interés son las distintas características de esas empresas, como, por ejemplo, el número de empleados, el volumen de ventas, los costes salariales, los gastos en publicidad, los beneficios de las mismas, la naturaleza de los productos que fabrican, etc. A todas estas características de los elementos de una población se les conoce de forma genérica como caracteres. Estos últimos, según su naturaleza, pueden ser de tipo cuantitativo o cualitativo. Para el ejemplo anterior, serían caracteres cuantitativos “el número de empleados”, “el volumen de ventas”, “los costes salariales”, “los gastos en publicidad”, “los beneficios de las mismas”, etc., mientras que sería cualitativo “la naturaleza de los productos que fabrican”. Hay que señalar que, en general, cual quier
carácter de tipo cuantitativo se puede ofrecer en términos cualitativos. Así, si el número de empleados lo agrupamos en intervalos se podría hablar de empresas pequeñas, medinas y grandes, siendo ahora el carácter “tamaño de la empresa” de naturaleza cualitativa. De manera similar se podría proceder con los demás. Pero en estadística es más habitual hablar de variables que de caracteres cuantitativos y de atributos en lugar de caracteres cualitativos. Las variables son susceptibles de medirse en términos
30
cuantitativos y a cada una de esas posibles mediciones o realizaciones se les conoce como valores, datos u observaciones. A su vez, en función del número posible de valores que tome una variable, a las mismas se las puede clasificar en discretas y continuas. Serán discretas cuando el número de valores sea finito o infinito numerable, mientras que una variable será continua cuando el número de sus valores sea infinito no numerable. En los casos en los que las variables toman infinitos valores, la práctica habitual es agruparlos en intervalos, como se muestra en las Tabla 1, para variable continua, y en la Tabla 2 para discreta.
Variable discreta , aquella que entre dos valores próximos puede tomar a lo sumo un número finito de valores. Ejemplos: el número de miembros de una familia, el de obreros de una fábrica, el de alumnos de la universidad, etc. Variable continúa la que puede tomar los infinitos valores de un intervalo. En muchas ocasiones la diferencia es más teórica que práctica, ya que los aparatos de medida dificultan que puedan existir todos los valores del intervalo. Ejemplos, peso, estatura, distancias, etc. La variable se denota por las mayúsculas de letras finales del alfabeto castellano. A su vez cada una de estas variables puede tomar distintos valores, colocando un subíndice, que indica orden. X = (X1, X2, ......
Xn)
31
Los atributos no pueden medirse como ocurre con las variables. Lo único que puede hacerse con ellos es describirlos mediante palabras y clasificarlos en categorías no numéricas que sean mutuamente excluyentes. A cada una de estas categorías se le denomina modalidades. Un ejemplo es el que se recoge en la Tabla 3.
32
En algunos casos, las modalidades de un atributo pueden ser objeto de ordenación, como se recoge en la tabla 4.
ACTIVIDADES DE APRENDIZAJE
El estudiante realizará un análisis de mínimo una cuartilla, mencionando ejemplos de variables discretas, y variables continuas. Se entregará impreso la siguiente sesión.
2.4 FUENTE DE DATOS
El estudiante identificará las fuentes de datos en la estadística. En los apartados anteriores se ha señalado que el objetivo de la Estadística es el estudio de los fenómenos de masas. Pero ello requiere el manejo de una información numérica amplia. La cuestión inmediata que surge es saber a dónde se puede recurrir para encontrar esa información necesaria y sin la cual el análisis estadístico no se puede realizar. En definitiva, se trata es de conocer las fuentes que suministran información de carácter estadístico. Estas fuentes son susceptibles de clasificarse según distintos criterios. Atendiendo al agente que elabore esa información, la misma puede agruparse en endógena y exógena. La primera sería la que elabora el propio investigador. En este caso, la operación estadística conducente a recabar los datos necesarios para la realización del análisis estadístico se supone que la lleva a cabo el propio investigador. Será él quien se encargue de observar los distintos caracteres, cuantitativos o cualitativos, relevantes de los elementos de una población. El resultado
33
será una base de datos, obtenida mediante una muestra, o cualquiera de los otros procedimientos indicados con anterioridad, que permitirá el correspondiente análisis estadístico. Esta situación se da cuando no existe fuente alternativa exógena capaz de facilitar esa información. Pero ¿qué se entiende por fuente exógena? En general, la podemos definir como aquella cuyo objeto principal es la obtención de información estadística pero que no actúa como usuaria. Las fuentes exógenas son múltiples y a su vez se las puede clasificar en dos categorías distintas. Por un lado están las fuentes oficiales o públicas y, por otro, las privadas. De todas ellas las que generan mayor volumen de información son las primeras, es decir, las oficiales o públicas. Estas últimas se pueden clasificar, a su vez, según el ámbito espacial en que desarrollan sus competencias en materia estadística.
ACTIVIDAD DE APRENDIZAJE
Basándose en la bibliografía sugerida, realizar un cuadro sinóptico en el que se expongan las diferentes fuentes de datos. Se entregará de manera impresa la siguiente sesión.
2.5 LA ESTADÍSTICA EN LA INVESTIGACIÓN
El estudiante conocerá y ejemplificará la estadística en la investigación.
Método Estadístico El conjunto de los métodos que se utilizan para medir las características de la información, para resumir los valores individuales, y para analizar los datos a fin de extraerles el máximo de información, es lo que se llama métodos estadísticos. Los métodos de análisis para la información cuantitativa se pueden dividir en los siguientes seis pasos: 1. Definición del problema. 2. Recopilación de la información existente. 3. Obtención de información original. 4. Clasificación. 5. Presentación.
34
6. Análisis.
Errores Estadísticos Comunes Al momento de recopilar los datos que serán procesados se es susceptible de cometer errores así como durante los cómputos de los mismos. No obstante, hay otros errores que no tienen nada que ver con la digitación y que no son tan fácilmente identificables. Algunos de estos errores son: Sesgo: Es imposible ser completamente objetivo o no tener ideas preconcebidas antes de comenzar a estudiar un problema, y existen muchas maneras en que una perspectiva o estado mental pueda influir en la recopilación y en el análisis de la información. En estos casos se dice que hay un sesgo cuando el individuo da mayor peso a los datos que apoyan su opinión que a aquellos que la contradicen. Un caso extremo de sesgo sería la situación donde primero se toma una decisión y después se utiliza el análisis estadístico para justificar la decisión ya tomada. Datos no comparables: el establecer comparaciones es una de las partes más importantes del análisis estadístico, pero es extremadamente importante que tales comparaciones se hagan entre datos que sean comparables. Proyección descuidada de tendencias: la proyección simplista de tendencias pasadas hacia el futuro es uno de los errores que más ha desacreditado el uso del análisis estadístico. Muestreo Incorrecto: en la mayoría de los estudios sucede que el volumen de información disponible es tan inmenso que se hace necesario estudiar muestras, para derivar conclusiones acerca de la población a que pertenece la muestra. Si la muestra se selecciona correctamente, tendrá básicamente las mismas propiedades que la población de la cual fue extraída; pero si el muestreo se realiza incorrectamente, entonces puede suceder que los resultados no signifiquen nada.
ACTIVIDADES DE APRENDIZAJE
Basándose en la bibliografía sugerida, realizar un resumen con un contenido mínimo de dos cuartillas en el que explique la importancia de la estadística en la labor de investigación. Se entregará de manera impresa la siguiente sesión.
35
1.
2.
INSTRUCCIONES: LEA DETENIDAMENTE Y ANOTE DENTRO DEL PARÉNTESIS “V” SI EL ENUNCIADO ES VERDADERO Y “F” SI EN FALSO. (RECUERDE QUE LA FORMA DE EVALUAR ESTA SECCIÓN ES ACIERTOS MENOS ERRORES). 1.
Una fuente exógena es aquella cuyo objeto principal es la obtención de información estadística pero que no actúa como usuaria.
(
)
2.
La Estadística descriptiva se deriva de muestras, de observaciones hechas sólo acerca de una parte de un conjunto numeroso de elementos y esto implica que su análisis requiere de generalizaciones que van más allá de los datos; investiga o analiza una población partiendo de una muestra tomada.
(
)
3.
Las variables serán discretas cuando el número de valores sea finito o infinito numerable, mientras que una variable será continua cuando el número de sus valores sea infinito no numerable.
(
)
INSTRUCCIONES: LEA DETENIDAMENTE Y CONTESTE EN LOS ESPACIOS EN BLANCO LA RESPUESTA CORRECTA. 1.
Las _____________________________________ se aplican de manera amplia en mercadotecnia, contabilidad, control de calidad y en otras actividades; estudios de consumidores; análisis de resultados en deportes; administradores de instituciones; en la educación; organismos políticos; médicos; y por otras personas que intervienen en la toma de decisiones.
2.
El conjunto de los métodos que se utilizan para medir las características característic as de la información, para resumir los valores individuales, y para analizar los datos a fin de extraerles el máximo de información, es lo que se llama _____________ ____________________ _____________ ___________. _____.
3.
La estadística ____________________________ comprende cualquier actividad relacionada con los datos y está diseñada para resumir o describir los mismos sin factores pertinentes adicionales; esto es, sin intentar inferir nada que vaya más allá de los datos, como tales.
36
4.
En estos casos se dice que hay un ___________ cuando el individuo da mayor peso a los datos que apoyan su opinión que a aquellos que la contradicen. Un caso extremo de _____________ sería la situación donde primero se toma una decisión y después se utiliza el análisis estadístico para justificar la decisión ya tomada.
5.
La ____________________________ en general, es la ciencia que trata de la recopilación, organización presentación, análisis e interpretación de datos numéricos con el fin de realizar una toma de decisión más efectiva.
37
UNIDAD 3 RECOPILACIÓN DE INFORMACIÓN: TEORÍA DEL MUESTREO
El estudiante distinguirá y ejecutará el tipo y procedimiento para la selección de su muestra de tal forma que resulte ser significativa y representativa de toda su población.
Temario: 3.
RECOPILACIÓN DE INFORMACIÓN: TEORÍA DEL MUESTREO 3.1 3.2 3.3 3.4 3.5 3.6 3.7 3.8
POBLACIÓN Y MUESTRA ESTIMADORES Y PARÁMETROS MUESTREO PROBABILÍSTICO Y NO PROBABILÍSTICO MUESTREO ALEATORIO SIMPLE MUESTREO ESTRATIFICADO MUESTREO POR CONGLOMERADOS OTROS DISEÑOS Y PROCEDIMIENTOS DE MUESTREO. JUICIO Y CONVENIENCIA ERROR DE MUESTREO Y DE LA MUESTRA
38
MAPA CONCEPTUAL RECOPILACIÓN DE INFORMACIÓN: TEORÍA DEL MUESTREO 3. RECOPILACIÓN DE INFORMACIÓN: TEORÍA DEL MUESTREO
3.1 POBLACIÓN Y MUESTRA
3.3 MUESTREO PROBABILÍSTICO Y NO PROBABILÍSTICO
3.2 ESTIMADORES Y PARÁMETROS
3.4 MUESTREO ALEATORIO ALEATORIO SIMPLE SIMPLE
3.5 MUESTREO ESTRATIFICADO
3.6 MUESTREO POR CONGLOMERADOS
3.7 OTROS DISEÑOS Y PROCEDIMIENTOS DE MUESTREO. JUICIO Y CONVENIENCIA
3.8 ERROR DE MUESTREO Y DE LA MUESTRA
39
INTRODUCCIÓN En esta unidad se verán métodos para recopilar información, los tipos de parámetros, tipos de muestreo y como calcular el tamaño de la muestra así como el error de muestreo.
40
3. RECOPILACIÓN DE INFORMACIÓN Y TEORÍA DEL MUESTREO 3.1 POBLACIÓN Y MUESTRA
El estudiante reconocerá y explicará los conceptos de población y muestra. Población: El concepto de población en estadística va más allá de lo que comúnmente se conoce como tal. Una población se precisa como un conjunto finito o infinito de personas u objetos que presentan características comunes. "Una población es un conjunto de todos los elementos que estamos estudiando, acerca de los cuales intentamos sacar conclusiones". Levin & Rubin (1996). "Una población es un conjunto de elementos que presentan una característica común". Cadenas (1974). Una población en estadística es el conjunto de todas las observaciones en las que estamos interesados. Se llama tamaño de la población al número de individuos que la componen, siendo cada posible observación un individuo; así pues, las poblaciones pueden ser finitas e infinitas. Cada observación en una población es un valor de una variable aleatoria X con una función de probabilidad o densidad determinada f(x) Normalmente, se denomina a las poblaciones con el nombre de la distribución de la variable; es decir, hablaremos de poblaciones normales, binomiales, etc. Para estudiar una población existen dos posibilidades. Una de ellas consiste en estudiar todos sus elementos y sacar conclusiones; la otra consiste en estudiar sólo una parte de ellos, una muestra, elegidos de tal forma que nos digan algo sobre la totalidad de las observaciones de la población. El mejor método ser el primero, cuando es posible, lo cual sólo ocurre en las poblaciones finitas y razonablemente pequeñas; en el caso de poblaciones muy grandes o infinitas será muy difícil o imposible realizar un estudio total. En este caso necesitaremos tomar una muestra y nos surgirá el problema de cómo hacer para que la muestra nos diga algo sobre el conjunto de la población. Es a menudo imposible o poco práctico observar la totalidad de los individuos, sobre todos si estos son muchos. En lugar de examinar el grupo entero llamado población o universo, se examina una pequeña parte del grupo llamada muestra.
41
Muestra: "Se llama muestra a una parte de la población a estudiar que sirve para representarla". Murria R. Spiegel (1991). "Una muestra es una colección de algunos elementos de la población, pero no de todos". Levin & Rubin (1996). "Una muestra debe ser definida en base de la población determinada, y las conclusiones que se obtengan de dicha muestra solo podrán referirse a la población en referencia", Cadenas (1974). La condición más obvia que se le puede pedir a una muestra es que sea representativa de la población. Está claro que si no conocemos la población no podemos saber si la muestra es representativa o no. La única forma de tener cierta garantía de que esto ocurra es tomar nuestra muestra de forma que cada individuo de la población y cada subgrupo posible de la población tengan igual probabilidad de ser elegidos. A este tipo de muestras se les llama muestras aleatorias o muestras al azar. Una muestra aleatoria de tamaño n es un conjunto de n individuos tomado de tal manera que cada subconjunto de tamaño n de la población tenga la misma probabilidad de ser elegido como muestra; es decir, si la población tiene tamaño N, cada una de las combinaciones posibles de n elementos debe ser equiprobable. El estudio de muestras es más sencillo que el estudio de la población completa; cuesta menos y lleva menos tiempo. Por último se aprobado que el examen de una población entera todavía permite la aceptación de elementos defectuosos, por tanto, en algunos casos, el muestreo puede elevar el nivel de calidad. Una muestra representativa contiene las características relevantes de la población en las mismas proporciones que están incluidas en tal población. Los expertos en estadística recogen datos de una muestra. Utilizan esta información para hacer referencias sobre la población que está representada por la muestra. En consecuencia muestra y población son conceptos relativos. Una población es un todo y una muestra es una fracción o segmento de ese todo.
42
Los sistemas de muestreo se basan normalmente en la asignación de un número a cada uno de los individuos de la población y la posterior obtención de una muestra de n números aleatorios que se obtendrá por sorteo utilizando bolas numeradas, ordenadores, etc.
ACTIVIDADES DE APRENDIZAJE
Basándose en la bibliografía sugerida, realizar un análisis en una cuartilla, en el que se explique la diferencia entre la muestra, y la población. Se entregará impreso la siguiente sesión.
3.2 ESTIMADORES Y PARÁMETROS
El estudiante comprenderá y distinguirá los estimadores y lo parámetros. Los dos problemas fundamentales que estudia la inferencia estadística son el “Problema de la estimación” y el “Problema del contraste de hipótesis”. Cuando se
conoce la forma funcional de la función de distribución que sigue la variable aleatoria objeto de estudio y sólo tenemos que estimar los parámetros que la determinan, estamos en un problema de inferencia estadística paramétrica; por el contrario, cuando
43
no se conoce la forma funcional de la distribución que sigue la variable aleatoria objeto de estudio, estamos ante un problema de inferencia estadística no paramétrica. Nosotros nos vamos a limitar a problemas de inferencia estadística paramétrica, donde la variable aleatoria objeto de estudio sigue una distribución normal, y sólo se estimarán los parámetros que la determinan, la media y la desviación típica. Estadístico: Son los datos o medidas que se obtienen sobre una muestra y por lo tanto una estimación de los parámetros. Parámetro: Son las medidas o datos que se obtienen de la población. Se llama parámetros poblacionales a cantidades que se obtienen a partir de las observaciones de la variable y sus probabilidades y que determinan perfectamente la distribución de esta, así como las características de la población, por ejemplo: La media, μ, la varianza σ 2, la proporción de determinados sucesos, P. Los Parámetros poblacionales son números reales, constantes y únicos.
Parámetros muestrales Los Parámetros muestrales son resúmenes de la información de la muestra que nos "determinan" la estructura de la muestra. Los Parámetros muestrales no son constantes sino variables aleatorias pues sus valores dependen de la estructura de la muestra que no es siempre la misma como consecuencia del muestreo aleatorio. A estas variables se les suele llamar estadísticos. Los estadísticos se transforman en dos tipos: estadísticos de centralidad y estadísticos de dispersión.
ACTIVIDADES DE APRENDIZAJE
Basándose en la bibliografía sugerida, realizar un mapa conceptual en el que se explique la diferencia entre los estimadores y los parámetros. Se entregará impreso la siguiente sesión.
44
3.3
MUESTREO PROBABILÍSTICO Y NO PROBABILÍSTICO
El estudiante reconocerá y distinguirá los conceptos de muestreo probabilístico y no probabilístico
MUESTREO En ocasiones en que no es posible o conveniente realizar un censo (analizar a todos los elementos de una población), se selecciona una muestra, entendiendo por tal una parte representativa de la población. El muestreo es por lo tanto una herramienta de la investigación científica, cuya función básica es determinar que parte de una población debe examinarse, con la finalidad de hacer inferencias sobre dicha población. La muestra debe lograr una representación adecuada de la población, en la que se reproduzca de la mejor manera los rasgos esenciales de dicha población que son importantes para la investigación. Para que una muestra sea representativa, y por lo tanto útil, debe de reflejar las similitudes y diferencias encontradas en la población, es decir ejemplificar las características de ésta. Los errores más comunes que se pueden cometer son: 1.- Hacer conclusiones muy generales a partir de la observación de sólo una parte de la Población, se denomina error de muestreo. 2.- Hacer conclusiones hacia una Población mucho más grandes de la que originalmente se tomo la muestra. Error de Inferencia. En la estadística se usa la palabra población para referirse no sólo a personas si no a todos los elementos que han sido escogidos para su estudio y el término muestra se usa para describir una porción escogida de la población.
45
TIPOS DE MUESTREO Existen diferentes criterios de clasificación de los diferentes tipos de muestreo, aunque en general pueden dividirse en dos grandes grupos: métodos de muestreo probabilísticos y métodos de muestreo no probabilísticos.
I. Muestreo probabilístico Los métodos de muestreo probabilísticos son aquellos que se basan en el principio de equiprobabilidad. Es decir, aquellos en los que todos los individuos tienen la misma probabilidad de ser elegidos para formar parte de una muestra y, consiguientemente, todas las posibles muestras de tamaño n tienen la misma probabilidad de ser seleccionadas. Sólo estos métodos de muestreo probabilísticos nos aseguran la representatividad de la muestra extraída y son, por tanto, los más recomendables.
II. Métodos de muestreo no probabilísticos A veces, para estudios exploratorios, el muestreo probabilístico resulta excesivamente costoso y se acude a métodos no probabilísticos, aun siendo conscientes de que no sirven para realizar generalizaciones (estimaciones inferenciales sobre la población), pues no se tiene certeza de que la muestra extraída sea representativa, ya que no todos los sujetos de la población tienen la misma probabilidad de ser elegidos. En general se seleccionan a los sujetos siguiendo determinados criterios procurando, en la medida de lo posible, que la muestra sea representativa. En algunas circunstancias los métodos estadísticos y epidemiológicos permiten resolver los problemas de representatividad aun en situaciones de muestreo no probabilístico, por ejemplo los estudios de caso-control, donde los casos no son seleccionados aleatoriamente de la población. Entre los métodos de muestreo no probabilísticos más utilizados en investigación encontramos: 1.- Muestreo por cuotas: También denominado en ocasiones "accidental". Se asienta generalmente sobre la base de un buen conocimiento de los estratos de la población y/o de los individuos más "representativos" o "adecuados" para los fines de la investigación. Mantiene, por tanto, semejanzas con el muestreo aleatorio estratificado, pero no tiene el carácter de aleatoriedad de aquél. En este tipo de muestreo se fijan unas "cuotas" que consisten en un número de individuos que reúnen unas determinadas condiciones, por ejemplo: 20 individuos de 25 a 40 años, de sexo femenino y residentes en Gijón. Una vez determinada la cuota se eligen los primeros que se encuentren que cumplan esas características. Este método se utiliza mucho en las encuestas de opinión.
46
2.- Muestreo intencional o de conveniencia: Este tipo de muestreo se caracteriza por un esfuerzo deliberado de obtener muestras "representativas" mediante la inclusión en la muestra de grupos supuestamente típicos. Es muy frecuente su utilización en sondeos preelectorales de zonas que en anteriores votaciones han marcado tendencias de voto. También puede ser que el investigador seleccione directa e intencionadamente los individuos de la población. El caso más frecuente de este procedimiento el utilizar como muestra los individuos a los que se tiene fácil acceso (los profesores de universidad emplean con mucha frecuencia a sus propios alumnos). 3.- Bola de nieve: Se localiza a algunos individuos, los cuales conducen a otros, y estos a otros, y así hasta conseguir una muestra suficiente. Este tipo se emplea muy frecuentemente cuando se hacen estudios con poblaciones "marginales", delincuentes, sectas, determinados tipos de enfermos, etc. 4.- Muestreo Discrecional · A criterio del investigador los elementos son elegidos sobre lo que él cree que pueden aportar al estudio.
ACTIVIDADES DE APRENDIZAJE
Basándose en la bibliografía sugerida, realizar un análisis en una cuartilla en el que se explique la diferencia entre el muestreo probabilístico y el no probabilístico. Se entregará de manera impresa la siguiente sesión.
3.4
MUESTREO ALEATORIO SIMPLE
El estudiante reconocerá y utilizará el muestreo aleatorio simple. Todos los individuos tienen la misma probabilidad de ser seleccionados. La selección de la muestra puede realizarse a través de cualquier mecanismo probabilístico en el que todos los elementos tengan las mismas opciones de salir. Por ejemplo uno de estos mecanismos es utilizar una tabla de números aleatorios, o también con un ordenador generar números aleatorios, comprendidos entre cero y uno, y multiplicarlos por el tamaño de la población, este es el que vamos a utilizar.
47
El procedimiento empleado es el siguiente: 1) se asigna un número a cada individuo de la población y 2) a través de algún medio mecánico (bolas dentro de una bolsa, tablas de números aleatorios, números aleatorios generados con una calculadora u ordenador, etc.) se eligen tantos sujetos como sea necesario para completar el tamaño de muestra requerido. Este procedimiento, atractivo por su simpleza, tiene poca o nula utilidad práctica cuando la población que estamos manejando es muy grande.
Muestreo aleatorio sistemático : Este procedimiento exige, como el anterior, numerar todos los elementos de la población, pero en lugar de extraer n números aleatorios sólo se extrae uno. Se parte de ese número aleatorio i, que es un número elegido al azar, y los elementos que integran la muestra son los que ocupa los lugares i, i+k, i+2k, i+3k,..., i+(n-1) k, es decir se toman los individuos de k en k, siendo k el resultado de dividir el tamaño de la población entre el tamaño de la muestra: k= N/n. El número i que empleamos como punto de partida será un número al azar entre 1 y k. El riesgo este tipo de muestreo está en los casos en que se dan periodicidades en la población ya que al elegir a los miembros de la muestra con una periodicidad constante (k) podemos introducir una homogeneidad que no se da en la población. Imaginemos que estamos seleccionando una muestra sobre listas de 10 individuos en los que los 5 primeros son varones y los 5 últimos mujeres, si empleamos un muestreo aleatorio sistemático con k=10 siempre seleccionaríamos o sólo hombres o sólo mujeres, no podría haber una representación de los dos sexos.
TAMAÑO DE MUESTRA A la hora de determinar el tamaño que debe alcanzar una muestra, hay que tomar en cuenta varios factores: el tipo de muestreo, el parámetro a estimar, el error muestral admisible, la varianza poblacional y el nivel de confianza. Por ello, antes de presentar algunos casos sencillos de cálculo de tamaño de muestra delimitaremos estos factores. Para calcular el tamaño de una muestra se necesitan los siguientes factores: 1. El porcentaje de confianza con el cual se quiere generalizar los datos de muestra hacia la población total. 2. El porcentaje de error que se pretende aceptar al momento de hacer la generalización.
48
3. El nivel de variabilidad que se calcula para comprobar la hipótesis.
La confianza o el porcentaje de confianza es el porcentaje de seguridad que existe para generalizar los resultados obtenidos. Esto quiere decir que un porcentaje del 100% equivale a decir que no existe ninguna duda para generalizar tales resultados, pero también implica estudiar a la totalidad de los casos de la población. Para evitar un costo muy alto, para el estudio, o debido a que en ocasiones llega a ser prácticamente imposible el estudio de todos los casos, entonces se busca un porcentaje de confianza menor. Comúnmente en las investigaciones sociales se busca un 95%. El error o porcentaje de error equivale a elegir una probabilidad de aceptar una hipótesis que sea falsa como si fuera verdadera, o a la inversa: rechazar la hipótesis verdadera por considerarla falsa. Al igual que en el caso de confianza, si se quiere eliminar el riesgo de error y considerando como 0% entonces, la muestra es del mimo tamaño que la población, por lo que conviene correr con cierto riesgo de equivocarse. Comúnmente se acepta entre 4% y 6% como error, tomando en cuenta de que no son complementarios la confianza y el error. NOTA. Para verificar los niveles de confianza será necesario utilizar la siguiente tabla:
NIVEL DE CONFIANZA Z
99.7 %
3.0 0
99 % 2.5 8
98 % 2.3 3
96 % 2.0 5
95.45 % 2.00
95 % 1.9 6
90% 1.64 5
80 % 1.2 8
68.27 % 1.00
50% 0.67 45
Para estimar el tamaño de muestra necesario para realizar una investigación se debe de aplicar la siguiente fórmula:
Donde: n= Tamaño de la muestra, z= Nivel de confianza, 2,58 para el 99% p= Variabilidad positiva q= 1- p Variabilidad negativa B o e = Precisión o error admitido .
49
Ejemplo: Supóngase que por estudios anteriores, se tiene conocimiento de que la proporción de deportistas entre los estudiantes de una universidad es del 0.65. Se pregunta ¿Qué tamaño deberá tomarse la muestra si se quiere que el error no exceda un 15% y un grado de confianza del 99%? SOLUCIÓN: Tomemos en cuenta que se sabe que la proporciones de estudiantes que practica un deporte en esa universidad es del 0.65, se puede utilizar este valor como una estimación de la proporción verdadera, en cuyo caso nos valdremos de la fórmula anterior para calcular el tamaño de la muestra. n= Tamaño de la muestra, z= 99% = 2.58 p= 0.65 q= 1- 0.65= 0.35 B o e = 0.15
sustituyendo, tendremos: n = (2.58) 2 (0.65) (0.35) = (6.6564)(0.2275) = 1.14331 = 67.3036 Esto quiere decir que la muestra será de 67. (0.15) 2
0.0225
0.0225
En el caso de que sí se conozca el tamaño de la población, cuando la variable crítica es dicotómica o binomial, para la estimación de proporciones poblacionales o universos considerados finitos, entonces el tamaño de la muestra se determinará con la siguiente fórmula:
n = ( z )2 N ( p ) ( q ) . ésta fórmula se usa para N > 30 2 2 (e) N + [ ( z ) ( p) (q ) ]
n = ( z )2 N ( p ) ( q ) . ésta fórmula se usa para N < 30 ( e )2 ( N – 1 ) + [ ( z )2 ( p ) ( q ) ]
50
Donde: n= Tamaño de la muestra, z= Nivel de confianza, 2,58 para el 99% p= Variabilidad positiva q= 1- p Variabilidad negativa B o e = Precisión o error admitido N 0 Tamaño de la población Ejemplo: Supóngase que por estudios anteriores, se tiene conocimiento de que la proporción de deportistas entre los estudiantes de una universidad es del 0.65. Se pregunta ¿Qué tamaño deberá tomarse la muestra si se quiere que el error no exceda un 15% y un grado de confianza del 99%? Se sabe que la población estudiantil es de 8,000. SOLUCIÓN: Tomemos en cuenta que se sabe que la proporciones de estudiantes que practica un deporte en esa universidad es del 0.65, se puede utilizar este valor como una estimación de la proporción verdadera, en cuyo caso nos valdremos de la fórmula anterior para calcular el tamaño de la muestra. Recordemos que nuestra población es de 8,000 estudiantes, por lo tanto utilizaremos nuestra segunda fórmula: n= Tamaño de la muestra, z= 99% = 2.58 p= 0.65 q= 1- 0.65= 0.35 B o e = 0.15 N= 8,000 n = ( z )2 N ( p ) ( q )
. ésta fórmula se usa para N > 30
Sustituyendo: ( e )2
N + [ ( z )2 ( p ) ( q ) ]
n = ( z )2 N ( p ) ( q ) 1 2 , 1 1 4 . 6 4 8= 66.7421 ( e )2 N + [ ( z ) 2 180+1.514331
= (2.58)2 (8000 ) (0.65) (0.35) (p)(q) ]
=
(0.15) 2 (8,000) + [ ( 2.58 ) 2 (0.65 ) (0.35 ) ]
Esto quiere decir que nuestra muestra sería de 67 estudiantes.
51
ACTIVIDADES DE APRENDIZAJE
Resolver los siguientes ejercicios (¿¿¿???), para determinar el tamaño de la muestra. La resolución de los ejercicios será entregada de manera impresa la siguiente sesión.
3.5
MUESTREO ESTRATIFICADO
El estudiante reconocerá y ejemplificará el muestreo estratificado. Muestreo aleatorio estratificado: Trata de obviar las dificultades que presentan los anteriores ya que simplifican los procesos y suelen reducir el error muestral para un tamaño dado de la muestra. Consiste en considerar categorías típicas diferentes entre sí (estratos) que poseen gran homogeneidad respecto a alguna característica (se puede estratificar, por ejemplo, según la profesión, el municipio de residencia, el sexo, el estado civil, etc.). Lo que se pretende con este tipo de muestreo es asegurarse de que todos los estratos de interés estarán representados adecuadamente en la muestra. Cada estrato funciona independientemente, pudiendo aplicarse dentro de ellos el muestreo aleatorio simple o el estratificado para elegir los elementos concretos que formarán parte de la muestra. En ocasiones las dificultades que plantean son demasiado grandes, pues exige un conocimiento detallado de la población. (Tamaño geográfico, sexos, edades,...). La distribución de la muestra en función de los diferentes estratos se denomina afijación, y puede ser de diferentes tipos: Afijación Simple: A cada estrato le corresponde igual número de elementos muéstrales. Afijación Proporcional: La distribución se hace de acuerdo con el peso (tamaño) de la población en cada estrato. Afijación Óptima: Se tiene en cuenta la previsible dispersión de los resultados, de modo que se considera la proporción y la desviación típica. Tiene poca aplicación ya que no se suele conocer la desviación.
52
ACTIVIDADES DE APRENDIZAJE
Basándose en la bibliografía sugerida, realizar un análisis en una cuartilla en el que por medio de ejemplos se explique qué es el muestreo estratificado. Se entregará de manera impresa la siguiente sesión.
3.6
MUESTREO POR CONGLOMERADOS
El estudiante conocerá y ejemplificará el muestreo por conglomerados. Muestreo aleatorio por conglomerados: Los métodos presentados hasta ahora están pensados para seleccionar directamente los elementos de la población, es decir, que las unidades muéstrales son los elementos de la población. En el muestreo por conglomerados la unidad muestral es un grupo de elementos de la población que forman una unidad, a la que llamamos conglomerado. Las unidades hospitalarias, los departamentos universitarios, una caja de determinado producto, etc., son conglomerados naturales. En otras ocasiones se pueden utilizar conglomerados no naturales como, por ejemplo, las urnas electorales. Cuando los conglomerados son áreas geográficas suele hablarse de "muestreo por áreas". El muestreo por conglomerados consiste en seleccionar aleatoriamente un cierto número de conglomerados (el necesario para alcanzar el tamaño muestral establecido) y en investigar después todos los elementos pertenecientes a los conglomerados elegidos.
53
54
ACTIVIDADES DE APRENDIZAJE
Basándose en el estudio de la bibliografía sugerida, realizar un análisis en una cuartilla en el que se explique por medio de ejemplos en qué consiste el muestreo por conglomerados.
3.7 OTROS DISEÑOS Y PROCEDIMIENTOS DE MUESTREO. JUICIO Y CONVENIENCIA
El estudiante describirá el muestreo de juicio y conveniencia. Muestreo de juicio Una muestra es llamada muestra de juicio cuando sus elementos son seleccionados mediante juicio personal. La persona que selecciona los elementos de la muestra, usualmente es un experto en la medida dada. Una muestra de juicio es llamada una muestra probabilística, puesto que este método está basado en los puntos de vista subjetivos de una persona y la teoría de la probabilidad no puede ser empleada para medir el error de muestreo, Las principales ventajas de una muestra de juicio son la facilidad de obtenerla y que el costo usualmente es bajo.
Muestreo por conveniencia Una muestra aleatoria simple es seleccionada de tal manera que cada muestra posible del mismo tamaño tiene igual probabilidad de ser seleccionada de la población. Para obtener una muestra aleatoria simple, cada elemento en la población tenga la misma probabilidad de ser seleccionado, el plan de muestreo puede no conducir a una muestra aleatoria simple. Por conveniencia, este método pude ser reemplazado por una tabla de números aleatorios. Cuando una población es infinita, es obvio que la tarea de numerar cada elemento de la población es infinita, es obvio que la tarea de numerar cada elemento de la población es imposible. Por lo tanto, ciertas modificaciones del muestreo aleatorio simple son necesarias. Los tipos más comunes de muestreo aleatorio modificado son sistemáticos, estratificados y de conglomerados.
55
ACTIVIDADES DE APRENDIZAJE
Basándose en el estudio de la bibliografía sugerida, realizar un análisis en el que se explique por medio de ejemplos en qué consiste el muestreo por juicio y conveniencia.
3.8
ERROR DE MUESTREO Y DE LA MUESTRA
El estudiante describirá el error de muestreo y de la muestra. Al momento de recopilar los datos que serán procesados se es susceptible de cometer errores así como durante los cómputos de los mismos. No obstante, hay otros errores que no tienen nada que ver con la digitación y que no son tan fácilmente identificables. Algunos de estos errores son:
Sesgo: Es imposible ser completamente objetivo o no tener ideas preconcebidas antes de comenzar a estudiar un problema, y existen muchas maneras en que una perspectiva o estado mental pueda influir en la recopilación y en el análisis de la información. En estos casos se dice que hay un sesgo cuando el individuo da mayor peso a los datos que apoyan su opinión que a aquellos que la contradicen. Un caso extremo de sesgo sería la situación donde primero se toma una decisión y después se utiliza el análisis estadístico para justificar la decisión ya tomada.
Datos no comparables: el establecer comparaciones es una de las partes más importantes del análisis estadístico, pero es extremadamente importante que tales comparaciones se hagan entre datos que sean comparables.
Proyección descuidada de tendencias: la proyección simplista de tendencias pasadas hacia el futuro es uno de los errores que más ha desacreditado el uso del análisis estadístico.
Muestreo Incorrecto: en la mayoría de los estudios sucede que el volumen de información disponible es tan inmenso que se hace necesario estudiar muestras, para derivar conclusiones acerca de la población a que pertenece la muestra. Si la muestra se selecciona correctamente, tendrá básicamente las
56
mismas propiedades que la población de la cual fue extraída; pero si el muestreo se realiza incorrectamente, entonces puede suceder que los resultados no signifiquen nada
ACTIVIDADES DE APRENDIZAJE
Basándose en el estudio de la bibliografía sugerida, realizar un análisis por medio de ejemplos en el que se exponga qué son los errores de muestreo y de la muestra. Se entregará de manera impresa la siguiente sesión.
57
INSTRUCCIONES: Lea detenidamente los siguientes conceptos respuesta a la que corresponda dicho concepto 1)
y subraye la
Total de observaciones, concebibles en un fenómeno determinado. A) Muestreo B) Población C) Muestreo aleatorio simple D) Muestreo aleatorio estratificado
2) Ciencia cuyo objetivo es reunir información cuantitativa concerniente a individuos o grupos, series de hechos, etc. Y deducir de ello gracias al análisis de estos datos unos significados. A) Estadística B) Estadística Inferencial C) Estadística Descriptiva D) Método estadístico
INSTRUCCIONES: Lea detenidamente respuesta.
y conteste en los espacios en blanco la
1. El _________________________________ tiene los siguientes pasos: definición de problema, recopilación de la información, obtención de la información, clasificación, presentación y análisis de información. 2. Se dice que hay un ______________ cuando el individuo da mayor peso a los datos que apoyan su opinión que a aquellos que la contradicen. 3. Los _____________________________________ son resúmenes de información de la muestra que nos "determinan" la estructura de la muestra.
la
58
INSTRUCCIONES: Lea detenidamente
y anote dentro del paréntesis “v” si el enunciado es verdadero y “f” si en falso. (recuerde que la forma de evaluar esta
sección es aciertos menos errores). 1.
La estadística se divide en estadística descriptiva e inferencial.
( )
2.
La estadística es la ciencia que tiene por objeto aplicar las leyes de la cantidad a los hechos sociales para medir su intensidad, deducir las leyes que los rigen y hacer su predicción próxima, apoyándose en el uso de gráficos.
( )
3.
Es la fórmula para calcular el tamaño de la muestra cuando se conoce la población
( )
4.
La muestra es una parte o proporción del total de las observaciones.
( )
5.
La estadística inferencial comprende cualquier actividad relacionada con los datos y está diseñada para resumir los mismos sin factores pertinentes adicionales.
( )
6.
Una muestra es llamada muestra de juicio cuando sus elementos son seleccionados mediante juicio personal.
( )
59
UNIDAD 4
ORGANIZACIÓN DE DATOS
El estudiante comprenderá analizará y ejecutará el tipo de procedimientos para la organización y distribución de datos.
Temario: 4.
ORGANIZACIÓN DE DATOS 4.1 4.2 4.3 4.4 4.5 4.6 4.7
ANÁLISIS EXPLORATORIO DE DATOS: DIAGRAMA DE TALLOS Y HOJAS ESCALAS DE MEDICIÓN: NOMINAL, ORDINAL, DE INTERVALO Y DE RAZÓN TABLAS DE FRECUENCIA PARA VARIABLES DISCRETAS Y CONTINUAS INTERVALO DE CLASE Y LÍMITES DE CLASE ANCHURA DE INTERVALO DE CLASE MARCA DE CLASE DISTRIBUCIÓN DE FRECUENCIA RELATIVA Y ACUMULADA PARA VARIABLES DISTRETAS Y CONTINUAS
60
MAPA CONCEPTUAL ORGANIZACIÓN DE DATOS 4. ORGANIZACIÓN DE DATOS
4.1 ANÁLISIS EXPLORATORIO DE DATOS: DIAGRAMA DE TALLOS Y HOJAS
4.2 ESCALAS DE MEDICIÓN: NOMINAL, ORDINAL, DE INTERVALO Y DE RAZÓN
4.3 TABLAS DE FRECUENCIA PARA VARIABLES DISCRETAS Y CONTINUAS
4.4 INTERVALO DE CLASE Y LÍMITES DE CLASE
4.5 ANCHURA DE INTERVALO DE CLASE
4.7 DISTRIBUCIÓN DE FRECUENCIA RELATIVA Y ACUMULADA PARA VARIABLES DISTRETAS Y CONTINUAS
4.6 MARCA DE CLASE
61
INTRODUCCIÓN En esta cuarta etapa, se pretende mostrar la forma adecuada de organizar los datos que ha arrojado una investigación, para ello será necesario diseñar diagramas de tallo y hoja, conocer las diferentes escalas de medición, realizar tablas de distribución de frecuencia y elaborar gráficos.
62
4. ORGANIZACIÓN DE DATOS 4.1 ANÁLISIS EXPLORATORIO DE DATOS: DIAGRAMA DE TALLOS Y HOJAS
El estudiante conocerá el diagrama de tallo y hojas, y lo usará para ordenar los datos de una investigación. Una técnica de recuento y ordenación de datos la constituye los diagramas de Tallos y Hojas. Un diagrama donde cada valor de datos es dividido en una "hoja" (normalmente el último dígito) y un "tallo" (los otros dígitos). Por ejemplo "31" sería dividido en "3" (tallo/ decena) y "1" (hoja/ unidad). Los valores del "tallo" se escriben hacia abajo (vertical) y los valores "hoja" van a la derecha (horizontal) del los valores tallo. El "tallo" es usado para agrupar los puntajes y cada "hoja" indica los puntajes individuales dentro de cada grupo. EJEMPLO: Supongamos la siguiente distribución de frecuencias 36 25 37 24 39 20 36 45 31 31 39 24 29 23 41 40 33 24 34 40 que representan la edad de un colectivo de N = 20 personas y que vamos a representar mediante un diagrama de Tallos y Hojas. Comenzamos seleccionando los tallos que en nuestro caso son las cifras de decenas, es decir 3, 2, 4, que reordenadas son 2, 3 y 4. A continuación efectuamos un recuento y vamos «añadiendo» cada hoja a su tallo
Por último reordenamos las hojas y hemos terminado el diagrama
63
Los expertos dirán que dicha representación es un histograma y, en efecto, así es. Los diagramas de Tallos y Hojas además de ser fáciles de elaborar, presentan más información que los histogramas, como veremos más adelante. Existe también el diagrama de doble tallo o tronco y hojas. En esta gráfica duplicamos el número de posiciones del tronco dividiendo por la mitad el intervalo que cubre a cada decena. Con los mismos datos estableceremos el diagrama doble tallo y hoja: Tallo 2 2 3 3 4 4
Hojas 0 3 4 4 4 5 9 1 1 3 4 6 6 7 9 9 0 0 1 5
Podemos comparar, mediante estos diagramas, dos distribuciones. Supongamos una segunda distribución 35 38 32 28 30 29 27 19 48 40 39 24 24 34 26 41 29 48 28 22 De ella podemos elaborar sus diagramas de Tallos y Hojas y compararla con la anterior.
64
ACTIVIDADES DE APRENDIZAJE
El estudiante elaborará diversos ejercicios (semejantes al que se presenta) de diagrama de tallo y hoja, en base a la bibliografía sugerida. La siguiente base de datos representa el tiempo (en minutos) que tarda la realización de un determinado examen clínico. Construya un diagrama de tallo y hojas. 1 47 21 38 55
4.2
43 40 7 48 27
16 14 28 36 6
28 36 49 22 23
27 23 31 29 42
25 32 22 12 21
26 15 24 32 58
25 31 26 11 23
22 19 41 34 35
26 25 45 42 13
ESCALAS DE MEDICIÓN: NOMINAL, ORDINAL, DE INTERVALO Y DE RAZÓN
El estudiante reconocerá y distinguirá las escalas de medición. Para realizar un correcto análisis de los datos es fundamental conocer de antemano el tipo de medida de la variable, ya que para cada una de ellas se utiliza diferentes estadísticos. La clasificación más convencional de las escalas de medida las divide en cuatro grupos denominados Nominal , Ordinal , Intervalo y Razón .
1. NOMINAL Son variables numéricas cuyos valores representan una categoría o identifican un grupo de pertenencia. Este tipo de variables sólo nos permite establecer relaciones de igualdad/desigualdad entre los elementos de la variable. La asignación de los valores se realiza en forma aleatoria por lo que NO cuenta con un orden lógico. Un ejemplo de este tipo de variables es el Género ya que nosotros podemos asignarle un valor a los (A) hombres y otro diferente a las mujeres (B) y por más machistas o feministas que seamos no podríamos establecer que uno es mayor que el otro. O Bien se clasificará a una muestra de personas de acuerdo a la religión que profesan: (1) Cristianos, (2) Judíos, (3) Musulmanes, (4) Otros y (5) Sin creencia alguna.
65
A
B
2. ORDINAL Son variables numéricas cuyos valores representan una categoría o identifican un grupo de pertenencia contando con un orden lógico. Este tipo de variables nos permite establecer relaciones de igualdad/desigualdad y a su vez, podemos identificar si una categoría es mayor o menor que otra. Un ejemplo de variable ordinal es el nivel de educación, ya que se puede establecer que una persona con título de Postgrado tiene un nivel de educación superior al de una persona con título de bachiller. En las variables ordinales no se puede determinar la distancia entre sus categorías, ya que no es cuantificable o medible.
3. INTERVALO Son variables numéricas cuyos valores representan magnitudes y la distancia entre los números de su escala es igual. Con este tipo de variables podemos realizar comparaciones de igualdad/desigualdad, establecer un orden dentro de sus valores y medir la distancia existente entre cada valor de la escala. Las variables de intervalo carecen de un cero absoluto, por lo que operaciones como la multiplicación y la división no son realizables. Un ejemplo de este tipo de variables es la temperatura, ya que podemos decir que la distancia entre 10 y 12 grados es la misma que la existente entre 15 y 17 grados. Lo que no podemos establecer es que una temperatura de 10 grados equivale a la mitad de una temperatura de 20 grados.
66
4. RAZÓN Las variables de razón poseen las mismas características de las variables de intervalo, con la diferencia que cuentan con un cero absoluto; es decir, el valor cero (0) representa la ausencia total de medida, por lo que se puede realizar cualquier operación Aritmética (Suma, Resta, Multiplicación y División) y Lógica (Comparación y ordenamiento). Este tipo de variables permiten el nivel más alto de medición. Las variables altura, peso, distancia o el salario, son algunos ejemplos de este tipo de escala de medida. Debido a la similitud existente entre las escalas de intervalo y de razón, SPSS las ha reunido en un nuevo tipo de medida exclusivo del programa, al cual denomina Escala . Las variables de escala son para SPSS todas aquellas variables cuyos valores representan magnitudes, ya sea que cuenten con un cero (0) absoluto o no. Teniendo esto en cuenta discutiremos a continuación los diferentes procedimientos estadísticos que se pueden utilizar de acuerdo al tipo de medida de cada variable.
No todos los procedimientos estadísticos son realmente útiles para la totalidad de los niveles de medida. Cada uno de los tipos de medida posee ciertas características, las cuales debemos tener en cuenta en el momento de realizar un análisis descriptivo. En la tabla encontrarás algunos de los procedimientos que resultan ventajosos en los análisis descriptivos de los diferentes niveles de medida. Es necesario aclarar que esta tabla es sólo una muestra de las medidas que se pueden emplear; en algunos textos de estadística aparecen tablas más amplias y detalladas de los procedimientos.
67
TABLAS DE FRECUENCIA PARA VARIABLES DISCRETAS Y CONTINUAS
ACTIVIDADES DE APRENDIZAJE.
Reúnase en un equipo de 3 – 4 estudiantes y realicen lo siguiente:
De manera individual mencione para cada uno de los siguientes casos, que tipos de variables se están usando:
68
a) Número de músculos de los animales vertebrados. b) Intención de voto. c) Velocidad que, en un instante dado, llevan las motocicletas que circulan por las carreteras y calles de una gran ciudad española. d) Talla de pantalones de los alumnos de tu centro. e) Tipos de zumos que prefieren los adolescentes. f) Temperatura mínima en tu ciudad cada día del año. g) Las marcas de los coches que circulan en España. h) Deporte practicado por los chicos y chicas de tu centro. i) La duración de cada pila eléctrica producida por una empresa durante un semestre.
4.3
TABLAS DE CONTINUAS
FRECUENCIA
PARA
VARIABLES
DISCRETAS
Y
El estudiante conocerá y usará las tablas de frecuencia para variables discretas y continuas. El principal objetivo de la estadística descriptiva es sintetizar conjuntos de datos mediante tablas o gráficos resumen, con el fin de poder identificar el comportamiento característico de un fenómeno y facilitar su análisis exhaustivo. Frecuencia Es el número de veces que se repite, es decir que aparece, el mismo dato estadístico en un conjunto de observaciones de una investigación determinada; la frecuencia se designa como: fi
Distribución de frecuencia : Es una disposición tabular de datos estadísticos ordenados ascendente o descendentemente con la frecuencia (fi) de cada dato. Ejemplo: Los datos representan los años de servicio de 60 empleados de la empresa Mcperro. 10 9 3 5 4 5 6 7 8 9 10 8 4 8 6 3 8 10 7 10 8 3 5 7 8 6 10 9 7 8 5 3 8 7 8 10 8 10 8 7 7 9 8 7 6 5 7 8 8 9 8 10 7 6 7 8 6 7 6 10
69
Procedimiento: Ordenar los datos de menor a mayor, elaborar cuadro de distribución de frecuencia. Ordena de mayor a menor, usaremos diagrama de tallo y hoja. DIAGRAMA TALLO Y HOJA 3 4 5 6 7 8 9 10 Años de Serv.
4 2 5 7 12 16 5 9
0 0 0 0 0 0 0
1
3333 44 55555 6666666 777777777777 8888888888888888 99999 0000000010
Frecuencia
Cualquier investigación que se emprenda puede conducir a la acumulación de valores cuantitativos y cuasi-cualitativos correspondientes a las diversas medidas efectuadas. Esta posibilidad, convierte a la estadística en una herramienta vital para el tratamiento de volúmenes de datos mediante tablas resúmenes conocidas como "Tablas de Frecuencia ". Cuando los datos son agrupados, la interpretación resulta ser más sencilla.
Tablas de Frecuencia: Tablas estadísticas que agrupan diversos valores de una variable, simplificando los datos. Anteriormente hemos señalado que la estadística, no se encarga del estudio de un hecho aislado, sino que tienen por objeto de los colectivos. Pues bien cuando se realiza una investigación se obtiene una masa de datos que deben ser organizados para disponerlos en un orden, arreglo o secuencia lógica, con el fin de facilitar el análisis de los mismos esta colección de datos numéricos obtenidos de la observación, que se clasifican y ordenan según un determinado criterio, se denominan "series estadísticas", también conocidas como "distribución estadística". Clasificación de las series estadísticas: 1.
Series temporales o cronológicas ; estas se definen como una masa o conjunto de datos producto de la observación de un fenómeno individual o colectivo, cuantificable en sucesivos instantes o periodos de tiempo. Ejemplo:
70
Producción nacional de madera en Rola en m³ Rollizos (periodo 1993 – 1998) Años Producción (m³ rollizos) 1993 1.161.061,454 1994 981.668,626 1995 1.087.926,142 1996 1.440.306,250 1997 1.618.075,000 1998 1.027.177,876 Fuente: MARN – D.G.S Recurso Forestal. 1999 CVG – PROFORCA Es importante resaltar que cuando se trata de series temporales o cronológicas, se debe especificar el instante o el periodo de tiempo a los que se refiere los caracteres en estudio. Cuando nos referimos a instantes de tiempo, por el hecho de que la observación se hace en un momento específico de tiempo. Ejemplo: Plantaciones forestales ejecutadas a nivel nacional, al 31 de diciembre de cada año entre 1997 – 2001. 2.
Series atemporales ; cuando las observaciones de un fenómeno se hacen referidas al mismo instante o intervalo de tiempo, nos encontramos ente una serie atemporal. Aquí el tiempo no va incluido a cada observación, puesto que es el mismo tiempo para todas ellas. Este tipo de observación proporciona una "visión instantánea" de los fenómenos o caracteres de los componentes del colectivo en estudio. Ejemplo: Las notas de las participantes en la materia de estadística I en el periodo académico que terminó en septiembre del 2001. 3. Series de frecuencia ; cuando realizamos un estudio de cada uno de los elementos que componen la población o muestra bajo análisis, observamos que en general, hay un número de veces en que aparece repetido un mismo valor de una variable, o bien repeticiones de la misma modalidad de un atributo. Este número de repeticiones de un resultado, recibe el nombre de frecuencia absoluta o simplemente frecuencia.
71
El procedimiento mediante el cual se realiza el conteo, para así determinar el número de veces que cada dato se repite, recibe el nombre de tabulación.
Ejemplo: Consideremos las edades de 20 niños, pertenecientes al Preescolar Blanca de Pérez, ubicado en la urbanización Monseñor Padilla 5
6
5
4
3
6
3
4
5
4
3
4
6
5
3
4
3
6
4
6
Tabulando los datos tenemos Niños distribuidos por edades: Edad (variable) 3 4 5 6 Total =
Nº de niños (Frecuencia) 5 6 4 5 20
Al agrupar los resultados de las observaciones en término de las veces que éstos se repiten, da lugar a las llamadas "series de frecuencias" o distribuciones de frecuencias; las cuales se dividen a su vez en series de frecuencia cualitativas y cuantitativas, según que los caracteres de estudio se refieran a atributos o variables respectivamente. 4. Series de frecuencia acumulativa : son comúnmente llamadas series de frecuencia de atributos o caracteres cualitativos y las formas de representar un atributo recibe el nombre de modalidades. Cuando se observan y se obtienen los elementos que deseamos estudiar con respecto a un carácter de tipo cualitativo y se procede a agruparlos según las distintas modalidades que toma el atributo, "frecuencia cualitativa".
72
Ejemplo: Agrupamos los resultados obtenidos al observar los 35 estudiantes de la materia estadística I, respecto a su estado civil. Estudiantes de la materia Estadísticas I, clasificados por su estado civil. Estado civil Solteros Casados Viudos Divorciados
Nº de Estudiantes (frecuencia) 18 12 1 4
5. Series de frecuencias cualitativas : es el resultado del agrupamiento de los valores que se repiten (frecuencia) al ser observada una variable. Ejemplo: Tomamos nuevamente los 35 estudiantes de la materia estadística I, respecto a su edad. Edad (en años) 19 20 25 28 32 42 Total =
Nº de estudiantes (frecuencia) 12 2 8 6 4 3 35
6. Series especiales o geográficas : es aquella que está formada por los valores que toman una variable en función del espacio geográfico.
Los cuadros estadísticos están compuestos por las siguientes partes: 1. Título 2. Encabezado 3. Concepto o columnas 4. Cuerpo
73
5. Nota de encabezado 6. Nota de pie 7. Fuente de datos
ACTIVIDADES DE APRENDIZAJE
El estudiante realizará ejercicios para distinguir las variables discretas y continuas de la bibliografía recomendada.
El gobierno desea averiguar si el número medio de hijos por familia ha descendido respecto de la década anterior. Para ello ha encuestado a 50 familias respecto al número de hijos, y ha obtenido los siguientes datos: 2 4 2 3 1 2 4 2 3 0 2 2 2 3 2 6 2 3 2 2 3 2 3 3 4 3 3 4 5 2 0 3 2 1 2 3 2 2 3 1 4 2 3 2 4 3 3 2 2 1 Se pide: a) ¿Cuál es la población objeto de estudio? b) ¿Qué variable estamos estudiando? c) ¿Qué tipo de variable es? d) Construir la tabla de frecuencias e) ¿Cuál es el número de familias que tiene como máximo 2 hijos?
4.4 INTERVALO DE CLASE Y LÍMITES DE CLASE
El estudiante conocerá y aplicará el rango de clase y límites de clase.
RANGO El rango de clase, conocido también como amplitud de clase o recorrido de clase, es el límite dentro de los cuales están comprendidos los valores de la serie de datos, en
74
otras palabras, es el número de diferentes valores que toma la variable en un estudio de investigación dada. Es la diferencia entre el valor máximo de una variable y el valor mínimo que ésta toma en una investigación cualquiera. El rango de una distribución de frecuencia se designa con la letra R. UM normalmente es igual a 1, y se obtiene al obtener la diferencia entre 2 o más datos consecutivos de la serie de valores, sin embargo puede ser menor a la unidad. EJEMPLO OBSERVACIONES UNIDAD DE MEDIDA
A 6, 9 , 11, 12, 19, 20, 26, 27, 32, 33, 39 1
B 0.5, 0.6, 0.10, 0.11, 0.19, 0.21, 0.22 0.1
C 6, 9, 21, 33, 39, 48 3
Para calcular el rango se utiliza la siguiente fórmula:
R= XM - Xm + UM Dónde: R= Rango XM =Dato mayor Xm = Dato menor UM= Unidad de Medida, que por lo general es la unidad. Con los siguientes datos, que corresponden a los años de servicio de 60 empleados de la empresa “X”, calcule el rango de la distribución de la frecuencia:
3 4 8 5 7 8
5 8 3 3 9 10
4 6 5 8 8 7
R= XM - Xm + UM
5 3 7 7 7 6
6 8 8 8 6 7
7 10 6 10 5 8
8 7 10 8 7 6
9 10 9 10 8 7
10 9 7 8 8 6
8 10 8 7 9 10
SUSTITUYENDO
R= 10 – 3 + 1 = 8, ENTONCES EL RANGO ES IGUAL A 8.
ANCHURA O INTERVALO DE CLASE Son las divisiones o categorías en las cuales se agrupa un conjunto de datos ordenados con características comunes. En otras palabras, son fraccionamientos del rango o recorrido de la serie de valores para reunir los datos que presentan valores
75
comprendidos entre los dos límites (límite Superior de la Clase y Límite Inferior de la Clase).
LÍMITE O FORNTERA DE CLASE Las clases de una distribución de frecuencia indican las cotas o fronteras de cada clase en la distribución, las clases están formadas por dos números denominados límites aparentes (LA), ejemplo 32 – 37 ; el primero de estos dos (32) se llama límite inferior aparente (LIA) y el segundo (37) se le denomina límite superior aparente (LSA).
LÍMITES REALES Los límites reales o verdaderos de una clase son aquéllos que se obtienen restándole media unidad de medida al límite aparente inferior de una clase y sumándole media unidad de medida al límite superior aparente de las diferentes clases, es decir, son valores no observables de la variable en estudio, puesto que no lo registra la unidad utilizada. Y se denominarán límite inferior real (LIR) y límite superior real (LSR). En el ejemplo anterior, los límites reales aparentes quedarían: CLASE 32-37
LIA 32
LSA 37
LIR 31.5
LSR 37.5
ACTIVIDADES DE APRENDIZAJE
El estudiante realizará ejercicios para calcular el rango, identificar los limites aparentes superior e inferior, así como calcular los límites superior real y límite inferior real de la bibliografía recomendada Calcule con los siguientes datos el rango y los limites de clase real y aparente. CLASE 5 – 7 8 – 10 11 – 13 14 – 16 17 – 19 20 – 22
fi 5 10 15 18 11 5
LIA
LSA
LIR
LSR
76
4.5 ANCHURA DE INTERVALO DE CLASE
El estudiante conocerá y calculará la anchura de intervalo de clase.
TIPOS DE INTERVALOS DE CLASE CLASE DE IGUAL TAMAÑO Este tipo de clase es el más utilizado en los cálculos estadísticos; cuando todas las clases son del mismo tamaño, los cálculos relacionados con la distribución de frecuencia son simplificados grandemente. En términos generales, este tipo de distribución es el que se utiliza comúnmente en casi todas las investigaciones. Ejemplo: CLASE 5 – 7 8 – 10 11 – 13 14 – 16 17 – 19 20 – 22 Totales
fi 5 10 15 18 11 5 64
CLASE DESIGUAL DE TAMAÑO Los intervalos de clase son desiguales no son frecuentes en el análisis estadístico, la utilización de los mismos se debe evitar; sin embargo, en algunas investigaciones es indispensable su utilización; tal es el caso de las investigaciones que tienen como propósito particular analizar valores que varían en un amplio recorrido de la variable. Cuando se utiliza este tipo de clase de los intervalos de clase deberían ser incrementados de una forma ordenada, de ser posible. Este tipo de clases se utiliza algunas veces para reportar datos relacionados con valuaciones de activos o ingresos personales. Ejemplo: CLASE 100 – 499 500 – 999 1000 – 4999 5000 – 9999 10000 – 24999 25000 - 50000
AMPLITUD 399 499 3999 4999 14999 25000
77
CLASE ABIERTA Son aquellas en la que uno de sus dos los límites de clase no está definido numéricamente. Este tipo de clase se utiliza cuando las distribuciones poseen algunos datos u observaciones que son mucho mayores o mucho más pequeños que los demás y se quiere condensar en uno solo. En lo posible se debe tratar de evitar este tipo de clase ya que en estas condiciones no es posible definir el punto medio de la distribución, por lo cual se hace difícil la representación gráfica y en realizar otros cálculos con los datos que se presentan en los cuadros estadísticos. Sin embargo, existen investigaciones en donde la aplicación de las clases abiertas es conveniente, por cuanto, la existencia de valores de la serie de datos son mucho menores o mucho mayores que el resto de la serie. Ejemplo: CLASE
fi
Menos de 150,000 150,000 – 239,000 340,000 – 429,000 430,000 – 519,000 520,000 – 609,000 610,000 – 699,000 700,000 – 789,000 790,000 – y más TOTALES
67 36 10 8 7 8 7 7 135
? 194,500 384,500 474,500 564,500 654,500 744,500 ?
LA AMPLITUD DE CLASE, LONGITUD O ANCHO DE UNA CLASE Es el número de valores o variables que concurren a una clase determinada. La amplitud de clase se designa con las letras Ic . Existen diversos criterios para determinar la amplitud de clases, ante esa diversidad de criterios, se ha considerado que lo más importante es dar un ancho de longitud de clase a todos los intervalos de tal manera que respondan a la naturaleza de los datos y al objetivo que se persigue y esto se logra con la práctica. Existe una fórmula para determinar Ic y se expresa así:
Ic = R NC Donde: Ic = Amplitud de clase R= Rango NC = Número de clases
_
78
Con la fórmula anterior se puede determinar Ic, conociendo el rango y el número de clases. Cuando se tenga duda en determinar la amplitud de clase de una serie de valores, es de gran utilidad utilizar el método sugerido por Hebert, A. Sturges el cual establece que: Ic = ____R_____________ 1 + 3.322 (log N) Donde: Ic = Amplitud de clase R= Rango N = Número total de datos
Nota: Normalmente el resultado final es un número fraccionario, el cual no es adecuado para la práctica, sin embargo, se puede aplicar la técnica de redondeo para convertirlo en un número entero. Nosotros utilizaremos el método de Sturges para determinar el Ic de una distribución de frecuencia de clase siempre y cuando el mismo sea aplicable. Ejemplo: Sean los siguientes datos horas extras laboradas por obreros en un mes. Calcule el rango y el intervalo de clase 22 32 54 56 45
39 33 56 33 43
37 26 57 58 40
28 60 58 40 28
23 39 39 36 60
39 33 40 25 41
24 40 34 42 37
38 27 45 33 42
31 34 53 45 31
35 22 52 55 45
36 30 52 29 30
28 31 28 52 28
23 37 36 38 40
27 33 37 28 37
38 41 40 38 28
40 39 26 38 44
22 58 34 32 40
23 59 25 42 39
36 56 23 53 57
27 41 32 58 60
=100 DATOS R = XM – Xm + UM R = 60 – 22 + 1 R = 38+1 R = 39
Por lo tanto, el ancho de la clase será de 5.
Ic =
R . 1 + 3.322 (log n) Ic = 39 1+3.322 (log 100) Ic = 39 . 1+3.322(2) Ic = 39 1+6.644 Ic = 39 . 7.644 Ic = 5.102040816
.
.
79
ACTIVIDADES DE APRENDIZAJE
El estudiante realizará ejercicios para calcular el intervalo de clase de la bibliografía recomendada Calcule con los siguientes datos el rango y el intervalo de clase. 1
43
16
28
27
25
26
25
22
26
47
40
14
36
23
32
15
31
19
25
21
7
28
49
31
22
24
26
41
45
38
48
36
22
29
12
32
11
34
42
55
27
6
23
42
21
58
23
35
13
4.6 MARCA DE CLASE
El estudiante conocerá y calculará la marca de clase de una serie de datos.
Marca de clase: Es el punto medio de una clase y se obtiene sumando los límites inferiores (LIA) y superiores de una clase (LSA) y dividiendo el resultado entre dos. La marca de clase la denotaremos como MC MC = LIA + LSA 2 Donde: M C – Marca de clase LIA – Límite inferior aparente LSA – Límite superior aparente
80
Ejemplo: De la siguientes tabla de obtenga la marca de clase CLASE
fi
5 – 7 8 – 10
5 10
11 – 13
15
14 – 16
18
17 – 19
11
20 – 22
5
Totales
64
(LIA + LSA )/2 (5 + 7 )/2 (8 + 10 )/2 (11 + 13 )/2 (14 + 16 )/2 (17 + 19 )/2 (20 + 22 )/2
MC 6 9 12 13 18 21
ACTIVIDADES DE APRENDIZAJE
El estudiante realizará ejercicios para calcular la marca de clase de la bibliografía recomendada Calcule con los siguientes datos la marca de clase. CLASE 5 – 7 8 – 10 11 – 13 14 – 16 17 – 19 20 – 22
fi 5 10 15 18 11 5
MC
81
4.7 DISTRIBUCIÓN DE FRECUENCIA RELATIVA Y ACUMULADA PARA VARIABLES DISTRETAS Y CONTINUAS
El estudiante conocerá y aplicará la frecuencia relativa y acumulada para variables discretas y continuas. Como vimos anteriormente, la frecuencia es el número de veces que se presenta cada valor de la variable.
Frecuencia absoluta (fa o fi): Llamaremos así al número de repeticiones que presenta una observación. Se representa por n i.
F1 + F2 + F3 + …………….……FK = N Frecuencia relativa (fr): Es la frecuencia absoluta dividida por el número total de datos, se suele expresar en tanto por uno, siendo su valor -iésimo
f i
ni n
La suma de todas las frecuencias relativas, siempre debe ser igual a la unida o 100%. Frecuencia absoluta acumulada (faa) : es la suma de los distintos valores de la frecuencia absoluta tomando como referencia un individuo dado. La última frecuencia absoluta acumulada es igual al nº de casos: N1 = n1 N2 = n1+ n2 Nn = n1 + n2 + . . . . . . + nn-1 + nn=n
Frecuencia relativa acumulada (far) , es el resultado de la suma de los distintos valores de la frecuencia relativa, el total de estos valores nos dará como resultado la unidad o el 100% H1 = F1/n H2 = F2/n ----------------------------Hk = Fk/n
82
DISTRIBUCIÓN DE FRECUENCIAS PARA VALORES NO AGRUPADOS
Ejemplo: En la tabla adjunta se da la distribución de los 500 hogares de un barrio según el número de sus miembros.
83
DISTRIBUCIÓN DE FRECUENCIAS PARA VALORES NO AGRUPADOS
Ejemplo 2. La distribución del presupuesto semanal en alimentación de un conjunto de 265 familias expresado en euros es el que figura en la tabla siguiente:
84
En este caso se trata de una variable continua con sus valores agrupados en intervalos cuya amplitud es variable. Este tipo de intervalos permite tratar de forma distinta a los valores de la variable, según donde se localice la mayor parte de las observaciones. En este sentido la amplitud de los intervalos es inversa a la frecuencia de los mismos. Esta forma de proceder evita que la mayor parte de las observaciones se concentre en un solo intervalo o en unos pocos.
Frecuencia acumulada menor que (faa < que). Son aquellas frecuencias acumuladas que se forman con el fa o fi de los valores más pequeños de las variables de cada clase hacia los valores mayores de la misma. Para graficar los polígonos de frecuencias acumuladas (ojiva) fa que). Son aquellas frecuencias acumuladas que se forman con el fa o fi de los valores mayores de las variables de cada clase hacia los valores menores de la misma. Para graficar los polígonos de frecuencias acumuladas (ojiva) fa >que, se utilizan como variables independientes los límites inferiores de cada clase y como ordenada los diferentes valores de la fa >que en el plano cartesiano. Ejemplo: CLASE
fi
5 – 7 8 – 10 11 – 13 14 – 16 17 – 19 20 – 22 Totales
5 10 15 18 11 5 64
(faa < que) 5 15 30 48 59 64
(faa > que) 64 59 49 34 16 5
85
Existe una variación de la Frecuencia acumulada mayor y menor que utilizarse la frecuencia relativa.
y puede
Ejemplo: CLASE
fi
fr
far
5 – 7 8 – 10 11 – 13 14 – 16 17 – 19 20 – 22 Totales
5 10 15 18 11 5 64
7.81%
7.81%
(faa < que) 5
15.63% 23.44% 28.13% 17.18% 7.81%
23.44% 46.88% 75.01% 92.19% 100%
15 30 48 59 64
(faa > que) 64 59 49 34 16 5
(far < que)
(far > que)
7.81%
100% 92.19% 76.56% 53.12% 24.99% 7.81%
23.44% 46.88% 75.01% 92.19% 100%
100%
ACTIVIDADES DE APRENDIZAJE
El estudiante realizará ejercicios para calcular la frecuencia acumulada, frecuencia relativa, frecuencia acumulada relativa, frecuencia acumulada < que, frecuencia acumulada > que, frecuencia acumulada relativa < que y frecuencia acumulada relativa > que de la bibliografía propuesta. Calcule con los siguientes datos las frecuencias vistas en este capítulo: En una investigación fueron consultados 350 matrimonios relativamente jóvenes sobre la edad de la esposa, se confecciona la siguiente tabla CLASE
fi
15 – 19 20 – 24 25 – 29 30 – 34 35 – 39 40 44 45 – 49
23 28 76 54 60 42 67
fr
far
(faa < que)
(faa > que)
(far < que)
(far > que)
86
1.
2.
INSTRUCCIONES: Lea detenidamente y anote dentro del paréntesis “v” si el enunciado es verdadero y “f” si en falso. (recuerde que la forma de evaluar esta sección es aciertos menos errores). 1.
El rango es la diferencia entre el valor máximo de una variable y el valor mínimo que esta toma en una investigación cualquiera.
( )
2.
La frecuencia relativa es la suma sucesiva de cada una de las clases de fr.
( )
3.
El límite de clase es la división o categoría en la cual se agrupa un conjunto de datos ordenados con características comunes.
( )
INSTRUCCIONES: Lea detenidamente los siguientes conceptos y subraye la respuesta a la que corresponda dicho concepto 1) Número de veces que se repite el mismo dato estadístico en un conjunto de observaciones de una investigación determinada. A) Frecuencia B) Frecuencia Relativa C) Frecuencia Absoluta D) Frecuencia Acumulada
3.
INSTRUCCIONES: Lea detenidamente y conteste en los espacios en blanco la respuesta correcta. 1. La ______________________________es el punto medio de una clase y se determina LIA + LSA / 2. 2. La __________________________________ se obtiene de las sumas sucesivas de la frecuencia de cada una de las clases. 3. Para obtener el __________________________ real se le suma 0.5 ____________________________ aparente de la clase.
al
87
UNIDAD 5 PRESENTACIÓN DE DATOS: GRÁFICAS Y CURVAS
El estudiante determinará la gráfica que mejor represente sus datos organizados.
Temario: 5.
PRESENTACIÓN DE DATOS: GRÁFICAS Y CURVAS 5.1 5.2 5.3 5.4
GRÁFICA PARA DATOS CUALITATIVOS: GRÁFICA DE BARRAS Y DE PASTEL GRÁFICA PARA DATOS CUANTITATIVOS: HISTOGRAMAS, POLÍGONOS DE FRECUENCIA Y OJIVAS GRÁFICAS DE LÍNEAS DE SERIES DE TIEMPO DIAGRAMAS DE CAJA
88
MAPA CONCEPTUAL
PRESENTACIÓN DE DATOS: GRÁFICAS Y CURVAS
5. PRESENTACIÓN DE DATOS: GRÁFICAS Y CURVAS
5.1 GRÁFICA PARA DATOS CUALITATIVOS: GRÁFICA DE BARRAS Y DE
5.2 GRÁFICA PARA DATOS CUANTITATIVOS: HISTOGRAMAS, POLÍGONOS DE FRECUENCIA Y OJIVAS
5.3 GRÁFICAS DE LÍNEAS DE SERIES DE TIEMPO
5.4 DIAGRAMAS DE CAJA
89
INTRODUCCIÓN En esta unidad podremos apreciar los principales medios a través de los cuales podremos llevar una dirección efectiva dentro de una organización
90
5. PRESENTACIÓN DE DATOS: GRÁFICAS Y CURVAS 5.1 GRÁFICA PARA DATOS CUALITATIVOS: GRÁFICA DE BARRAS Y DE PASTEL
El estudiante diferenciará y aplicará las gráficas para datos cualitativos (barras y pastel)
GRAFICA DE BARRAS El tipo de representación gráfica depende en gran medida de la naturaleza del carácter de los elementos de la población con el que se esté trabajando. Así, si se trata de una variable se recurrirá al diagrama de barras en el caso de que sea discreta y sus valores no estén agrupados. Este diagrama se realiza haciendo uso de un sistema cartesiano en el que sobre el eje de abscisas se ponen los valores de la variable y sobre el de ordenadas las frecuencias, tanto absolutas ( ni ) como relativas ( fi ). Un ejemplo de este tipo de gráfico es el que se da en la Figura 1, donde se han representado los datos. Ejemplo 1. Hay que señalar que la anchura de las barras será, en cualquier caso, una cuestión de estética, pues la misma no hace alusión, en ningún caso, ni al valor de la variable ni la frecuencia del mismo. Dicho de otra forma, la superficie de la misma es independiente de la magnitud que se representa. En este sentido tan válido es el diagrama dado en la Figura 1 como el de la Figura 2. Tanto en la Figura 1 como en la Figura 2 se ha representado las frecuencias absolutas. Pero estas figuras no habrían cambiado para nada si en su lugar si se hubiera trabajado con las frecuencias relativas. La única diferencia es que el eje de ordenadas tomaría como valor máximo la unidad, pero la proporción entre las barras no cambia de un gráfico a otro.
91
92
Otro ejemplo de su representación, en forma horizontal:
GRAFICA CIRCULAR O DE PASTEL, TARTA O PAY La gráfica de pastel (también llamado gráfico de sectores es una gráfica que consiste en representar por medio de una circunferencia los datos de una investigación. Por lo que se dividen los sectores en variables de estudio. Esta gráfica se dividirá en tantos sectores como variables tenga la investigación en estudio; la magnitud de cada sector se encontrará en relación directa con la magnitud de la variable a representar con 360°. En general los datos que se representan por medio de esta diagrama son parte componentes de un total. Para su elaboración se procede de la siguiente forma: se considera la circunferencia como representación total de la investigación de estudio, por tal motivo, se dividirá la superficie en las secciones que tenga la investigación, las superficies serán proporcionales a la magnitud que corresponda a cada una de ellas.
93
EJEMPLO:
En general, son muy variados los estilos para las gráficas circulas, de pay, de pastel o de tarta. EJEMPLOS:
94
ACTIVIDADES DE APRENDIZAJE
El estudiante realizará ejercicios para elaborara gráficas de pastel y de barras, de la bibliografía recomendada. Elabore una gráfica de pay y una de barras con los siguientes datos obtenidos en una investigación fueron consultados 350 matrimonios acerca de los lugares que prefieren visitar con sus hijos en verano y, se confeccionó la siguiente tabla: Clase Museos Parque de diversiones Parque acuático Playa Zoológico Teatro Acuario Cine Otros TOTALES
Fi 8
Far
°
45 50 63 47 12 18 33 24 350
360°
5.2 GRÁFICA PARA DATOS CUANTITATIVOS: HISTOGRAMAS, POLÍGONOS DE FRECUENCIA Y OJIVAS
El estudiante reconocerá y representará gráficamente los datos cuantitativos en histogramas, polígonos de frecuencia y ojivas. Cuando la naturaleza de la variable sea continua, entonces la representación gráfica más adecuada es el histograma o también conocido como histograma de frecuencias. Este tipo de gráficos podría utilizarse también en los casos de variables discretas con valores agrupados, aunque no resulta aconsejable hacer uso de los histogramas para variables discretas por los problemas que conlleva asimilar una variable discreta a otra de tipo continuo. Un histograma se realiza también haciendo uso de un sistema cartesiano, donde sobre el eje de abscisas se llevan los valores de la variable. Pero ahora ya no se trata de
95
valores puntuales, sino de intervalos, y sobre éstos se levantan rectángulos, que tienen por base la amplitud del intervalo y por altura su frecuencia. El área de esos rectángulos deberá ser siempre proporcional a la frecuencia, de manera que cuando la amplitud de los intervalos no sea constante, entonces la altura de los rectángulos no será la frecuencia sino lo que se conoce como densidad de frecuencia. Ejemplo: Clase
Fi
Fa
20 – 24
8
8
25 – 29
15
23
30 – 34
16
39
35 – 39
21
60
40 – 44
16
76
45 – 49
4
80
50 – 54
6
86
55 – 59
11
97
60 – 64
3
100
POLIGONO DE FRECUENCIA Es un diagrama de líneas que representa los puntos medios y las respectivas frecuencias de clase. En una representación gráfica cerrada de una distribución de frecuencia. Es otra forma de graficar valores de una distribución de frecuencia de clase. No existe ninguna razón estadística para seleccionar los polígonos de frecuencia en vez de los histogramas, o viceversa, los histogramas, simplemente representan una manera de graficar y los polígonos de frecuencia otra; la diferencia radica en que una barra vertical rectangular representa una clase y su frecuencia en el histograma y un punto cumple la misma función en el polígono de frecuencia.
96
Características de los polígonos de frecuencias
No muestran frecuencias acumuladas.
Se prefiere para el tratamiento de datos cuantitativos.
El punto con mayor altura representa la mayor frecuencia.
Suelen utilizarse para representar tablas tipo B.
El área bajo la curva representa el 100% de los datos. El polígono de frecuencia está diseñado para mantener la misma área de las columnas. Analicemos una porción de nuestro gráfico para probar esta afirmación:
Observe que cada línea corta una porción de la columna, pero a su vez, agrega una porción adicional. Ambas porciones son iguales (triangulo rectángulos iguales), manteniendo el área global en el gráfico. Ejemplo: Las temperaturas en un día de otoño de una ciudad han sufrido las siguientes variaciones:
Hora
Temperatura
6
7º
9
12°
12
14°
15
11°
18
12°
21
10°
24
8°
OJIVA La ojiva es una gráfica asociada a la distribución de frecuencias, es decir que en ella se permite ver cuántas observaciones se encuentran por encima o debajo de ciertos valores, en lugar de solo exhibir los números asignados a cada intervalo. La ojiva apropiada para información que presente frecuencias mayores que el dato que se está comparando tendrá una pendiente negativa (hacia abajo y a la derecha) y en cambio la que se asigna a valores menores, tendrá una pendiente positiva. Una gráfica
97
similar al polígono de frecuencias es la ojiva, pero ésta se obtiene de aplicar parcialmente la misma técnica a una distribución acumulativa y de igual manera que éstas, existen las ojivas mayor que y las ojivas menor que. Existen dos diferencias fundamentales entre las ojivas y los polígonos de frecuencias (y por esto la aplicación de la técnica es parcial): Un extremo de la ojiva no se “amarra” al eje horizontal, para la ojiva mayor que sucede con el extremo izquierdo; para la ojiva menor que, con el derecho. En el eje horizontal en lugar de colocar las marcas de clase se colocan las fronteras de clase. Para el caso de la ojiva mayor que es la frontera menor; para la ojiva menor que, la mayor. Las siguientes son ejemplos de ojivas, a la izquierda la mayor que, a la derecha la menor que, utilizando los datos que se usaron para ejemplificar el histograma: La ojiva mayor que (izquierda) se le denomina de esta manera porque viendo el punto que está sobre la frontera de clase “4:00″ se ven las visitas que se realizaron en una
hora mayor que las 4:00 horas (en cuestiones temporales se diría: después de las 4:00 horas). De forma análoga, en la ojiva menor que la frecuencia que se representa en cada frontera de clase son el número de observaciones menores que la frontera señalada (en caso de tiempos sería el número de observaciones antes de la hora que señala la frontera). Si se utiliza una distribución porcentual acumulativa entonces se obtiene una ojiva (mayor que o menor que según sea el caso) cuyo eje vertical tiene una escala que va del 0% al 100%. El siguiente ejemplo es la misma ojiva menor que, que se acaba de usar, pero con una distribución porcentual: Las siguientes son ejemplos de ojivas, a la izquierda la mayor que , a la derecha la menor que , utilizando los datos que se usaron para ejemplificar el histograma:
La ojiva mayor que (izquierda) se le denomina de esta manera porque viendo el punto que está sobre la frontera de clase "4:00" se ven las visitas que se realizaron en una hora mayor que las 4:00 horas (en cuestiones temporales se diría: después de las 4:00
98
horas ). ). De forma análoga, en la ojiva menor que la frecuencia que se representa en cada frontera de clase son el número de observaciones menores que la frontera señalada (en caso de tiempos sería el número de observaciones antes de la hora que señala la frontera). Si se utiliza una distribución porcentual acumulativa entonces se obtiene una ojiva (mayor que o menor que según sea el caso) cuyo eje vertical tiene una escala que va del 0% al 100%. El siguiente ejemplo es la misma ojiva menor que , que se acaba de usar, pero con una distribución porcentual:
OTROS GRÁFICOS Pictograma: Se suele utilizar para expresar un atributo. Se suelen utilizar iconos que se identifiquen con la variable (ejemplo los habitantes de una ciudad) y su tamaño suele guardar relación con la frecuencia
99
Cartograma se representa mediante un diagrama convencional insertado en un mapa geográfico de una zona. Por ejemplo en un mapa de la Sudamérica representando el analfabetismo.
100
ACTIVIDADES DE APRENDIZAJE
El estudiante realizará ejercicios para elaborara gráficas de frecuencia, histogramas y ojivas, de la bibliografía recomendada. En una investigación fueron consultados 350 matrimonios relativamente jóvenes sobre la edad de la esposa, se confecciona la siguiente tabla, elabore la gráfica polígono de frecuencia, histogramas, pictogramas y ojivas. CLASE
fi
15 – 19 20 - 24 25 - 29 30 - 34 35 - 39 40 44 45 - 49
23 28 76 54 60 42 67
fr
far
(faa < que)
(faa > que)
(far < que)
(far > que)
101
5.3 GRÁFICAS DE LÍNEAS DE SERIES DE TIEMPO
El estudiante reconocerá y representará gráficamente las líneas de series de tiempo. Toda institución, ya sea la familia, la empresa o el gobierno, necesita realizar planes para el futuro si desea sobrevivir o progresar. La planificación racional exige prever los sucesos del futuro que probablemente vayan a ocurrir. La previsión se suele basar en lo ocurrido en el pasado. La técnica estadística utilizada para hacer inferencias sobre el futuro teniendo en cuenta lo ocurrido en el pasado es el ANÁLISIS DE SERIES TEMPORALES. SERIES TEMPORALES: Tratamos de hacer predicciones sobre esa magnitud, teniendo en cuenta sus características históricas o del pasado. Se define una serie temporal (también denominada histórica, cronológica o de tiempo) como un conjunto de datos, correspondientes a un fenómeno económico, ordenados en el tiempo. Ejemplos: • Nº de accidentes laborales graves en las empresas de más de 500 empleados de
Sevilla, durante los últimos 5 años. • Ventas de nuestra empresa en los últimos 10 años. • Cantidad de lluvia caída al día durante el último trimestre.
Los datos siguientes corresponden al número de contratos nuevos realizados por las empresas de menos de 10 empleados, durante el período 1996-2000.
102
ACTIVIDADES DE APRENDIZAJE
El estudiante realizará ejercicios para elaborara gráficas de series de tiempo, de la bibliografía sugerida. Elabore el siguiente ejercicio: Supongamos que tenemos el número de kg de carne de vaca consumidos por trimestre durante los últimos años en unos grandes almacenes.
Elabore la gráfica de series de tiempo.
103
5.4 DIAGRAMAS DE CAJA
El estudiante reconocerá y utilizará los diagramas de caja. Utilizando un diagrama de tallo y hojas, podemos comparar, mediante estos diagramas, dos distribuciones. Supongamos una segunda distribución 35 38 32 28 30 29 27 19 48 40 39 24 24 34 26 41 29 48 28 22 De ella podemos elaborar sus diagramas de Tallos y Hojas y compararla con la anterior.
Teniendo en cuenta que con las representaciones anteriores los datos están ordenados, podemos aprovechar estas disposiciones para representar los diagramas de Cajas y Bigotes (boxplots o box and whiskers).
Cuartiles
Estos diagramas se basan en los siguientes parámetros de la distribución: valor mínimo, los cuartiles Q 1, Q 2 y Q 3 y el valor máximo. Para la primera distribución
Cuartil Primero (Q1). Es el valor mayor que el 25% de los valores de la distribución. Para la misma, como N = 20 resulta que N/4 = 5; la media aritmética de dicho valor y el siguientes es (24 + 25) / 2 = 24,5 que es el primer cuartil.
Su diagrama de Cajas y Bigotes es
Análogamente se calculan los restantes cuartiles.
El bigote de la izquierda representa al colectivo de edades
El Segundo Cuartil Q2 es, evidentemente, la mediana de la distribución
104
(Xmín, Q1); la primera parte de la caja a (Q1, Q2), la El Tercer Cuartil es segunda (Q2, Q3) y el bigote de la derecha viene dado por el valor que (Q3, Xmáx). sobrepasa al 75% de los valores de la distribución. En nuestro caso, como 3N / 4 = 15, resulta (39 + 39) / 2 = 39 Podemos obtener abundante información de una distribución a partir de dichas representaciones. Veamos alguna. La parte izquierda de la caja es mayor que la de la derecha; ello quiere decir que las edades comprendidas entre el 25% y el 50% de la población están más dispersas que entre el 50% y el 75%.
El bigote de la izquierda (Xmím, Q1) es más corto que el de la derecha; por ello el 25% de los más jóvenes están más concentrados que el 25% de los mayores. El rango intercuartílico = Q3 - Q1 = 14,5; es decir, el 50% de la población está comprendido en 14,5 años. Seguro que tú podrás obtener más información (¡Utiliza la mediana!). Por último, comparamos, mediante los diagramas de Cajas y Bigotes, las dos distribuciones tratadas.
105
A partir de dicha comparación puede obtenerse bastante información de ambas distribuciones
ACTIVIDADES DE APRENDIZAJE
El estudiante realizará ejercicios para elaborara diagramas de caja, de la bibliografía sugerida.
106
1.
2.
INSTRUCCIONES: Lea detenidamente y anote dentro del paréntesis “v” si el enunciado es verdadero y “f” si en falso. (recuerde que la forma de evaluar esta sección es aciertos menos errores). 1.
El diagrama de cajas y bigotes se basa en los siguientes parámetros de la distribución: valor mínimo, los cuartiles Q 1, Q 2 y Q 3 y el valor máximo.
(
)
2.
El polígono de frecuencia es un diagrama de líneas que representa los puntos medios y las respectivas frecuencias de clase. En una representación gráfica cerrada de una distribución de frecuencia.
(
)
3.
Cuando la naturaleza de la variable sea discreta, entonces la representación gráfica más adecuada es el histograma o también conocido como histograma de frecuencias.
(
)
4.
La ojiva es una gráfica asociada a la distribución de frecuencias, es decir que en ella se permite ver cuántas observaciones se encuentran por encima o debajo de ciertos valores, en lugar de solo exhibir los números asignados a cada intervalo.
(
)
INSTRUCCIONES: Lea detenidamente los siguientes conceptos y subraye la respuesta a la que corresponda dicho concepto 1. Diagrama en forma de columna, conjunto de rectángulos paralelos en el que la base representa la clase de la distribución y en su altura la magnitud que alcanza la frecuencia correspondiente. A) B) C) D)
Gráfica de barras Polígono de frecuencia Histograma Ojiva
107
3.
INSTRUCCIONES: Lea detenidamente y conteste en los espacios en blanco la respuesta correcta. 1. La gráfica de ____________________________ consiste en representar por medio de una circunferencia o círculo las magnitudes que expresan los datos de un estudio determinado. 2. El _________________________es un diagrama de líneas que representa los puntos medios y las respectivas frecuencias de una distribución de frecuencia de clase. 3. La gráfica ___________________ se elabora con los valores de las frecuencias acumuladas (menor que y mayor que) y los límites de las clases de una distribución de frecuencia. La línea puede ser ascendente o descendente. 4. Se define una ________________________________________ como un conjunto de datos, correspondientes a un fenómeno económico, ordenados en el tiempo.
INSTRUCCIONES: Observe detenidamente los siguientes gráficos y escriba el tipo de gráfico que corresponda, según sea el caso.
108
109
UNIDAD 6 MEDIDAS DE POSICIÓN DE TENDENCIA CENTRAL
El estudiante distinguirá y ejecutará el tipo de procedimiento de análisis que mejor se adecue para la interpretación de sus datos.
Temario: 6.
MEDIDAS DE POSICIÓN DE TENDENCIA CENTRAL 6.1 6.2 6.3 6.4 6.5 6.6 6.7
MEDIA ARITMÉTICA O PROMEDIO PARA DATOS AGRUPADOS Y NO AGRUPADOS MEDIANA PARA DATOS AGRUPADOS Y NO AGRUPADOS LA MODA LA MEDIA GEOMÉTRICA PROMEDIO MÓVIL MEDIA ARMÓNICA DECILES, CUARTILES Y PERCENTILES
110
MAPA CONCEPTUAL MEDIDAS DE POSICIÓN DE TENDENCIA CENTRAL
6. MEDIDAS DE POSICIÓN DE TENDENCIA CENTRAL
6.1 MEDIA ARITMÉTICA O PROMEDIO PARA DATOS AGRUPADOS Y NO AGRUPADOS
6.2 MEDIANA PARA DATOS AGRUPADOS Y NO AGRUPADOS
6.3 LA MODA
6.4 LA MEDIA GEOMÉTRICA
6.5 PROMEDIO MÓVIL
6.6 MEDIA ARMÓNICA
6.7 DECILES, CUARTILES Y PERCENTILES
111
INTRODUCCIÓN En esta unidad se describirán las medidas de tendencia central o los valores típicos de un conjunto de observaciones presentadas.
112
6.
MEDIDAS DE POSICIÓN DE TENDENCIA CENTRAL 6.1
MEDIA ARITMÉTICA O PROMEDIO PARA DATOS AGRUPADOS Y NO AGRUPADOS
El estudiante aplicará la media aritmética o ponderada para datos agrupados y no agrupados. Al describir grupos de observaciones, con frecuencia se desea describir el grupo con un solo número. Para tal fin, desde luego, no se usará el valor más elevado ni el valor más pequeño como único representante, ya que solo representan los extremos más bien que valores típicos. Entonces sería más adecuado buscar un valor central. Las medidas que describen un valor típico en un grupo de observaciones suelen llamarse medidas de tendencia central. Es importante tener en cuenta que estas medidas se aplican a grupos más bien que a individuos. Un promedio es una característica de grupo, no individual. Las medidas de tendencia central corresponden a valores que generalmente se ubican en la parte central de un conjunto de datos. Entre las medidas de tendencia central tenemos:
Media Mediana Moda Cuartiles Deciles Percentiles
La medida de tendencia central más ampliamente usada es la media aritmética, usualmente abreviada como media. La media aritmética de un conjunto de n valores es el resultado de la suma de todos ellos dividido entre n.
La media para datos no agrupados Para datos crudos, es decir datos no agrupados, la media es la suma de todos los valores dividida entre el número total de valores. Para encontrar la media de una muestra se usa la siguiente fórmula:
113
Donde: es la media de la muestra
= = N=
es la suma de todos los valores de la muestra es el número de elementos de la muestra
Ejemplo: El contenido de cinco botellas de perfume seleccionadas de forma aleatoria de la línea de producción es en ml: 85.4, 85.3, 84.9, 85.4, y 84.0. ¿Cuál es la media aritmética de estas observaciones? 85.4 + 85.3 + 84.9 + 85.4 + 84.0 =
5
= 85.0
La media para datos agrupados Frecuentemente los datos estás agrupados y presentados en forma de distribución de frecuencias. Si esto sucede es normalmente imposible recuperar los datos crudos originales. Por consiguiente si queremos calcular la media u otro estadístico es necesario estimarlo en base a la distribución de frecuencias. La media aritmética de una muestra de datos organizados en una distribución de frecuencias se calcula de la siguiente manera:
Donde: =
simboliza la media de la muestra
Xi =
es la marca de clase
ni =
es la frecuencia de clase
= n
es la suma de los productos de f por X es la suma de las frecuencias de clase
114
Ejemplo: Calcular la media aritmética de la siguiente distribución de frecuencia del número de meses de duración de una muestra de 40 baterías para coche. Como vemos es la distribución de frecuencia que elaboramos en la sección anterior. CLASE Frecuencia duración de las baterías (meses) Número de baterías 15 – 19
2
20 – 24
1
25 – 29
4
30 – 34
15
35 – 39
10
40 – 44
5
45 – 49
3
Damos como un hecho que ya sabemos elaborar una distribución de frecuencias, si se quiere ver como se elaboró vaya a la sección de ese tema en este mismo sitio. Primeramente, de la distribución de frecuencias que ya tenemos, utilizaremos la marca de clase y la frecuencia de clase, para después calcular el producto fX y proceder finalmente a calcular la sumatoria fX y aplicar la fórmula. LI LS X o MC fi o ni
(x.fi)
15 19
17
2
34
20 24
22
1
22
25 29
27
4
108
30 34
32
15
480
35 39
37
10
370
40 44
42
5
210
45 49
47
3
141
n =40
= 1365
1365 =
40
=
34.12
115
116
117
118
ACTIVIDADES DE APRENDIZAJE
El estudiante realizará ejercicios para calcular la media para datos agrupados y no agrupados, de la bibliografía sugerida. Elabore los siguiente ejercicio: a) Con los siguientes datos, calcule la media para datos agrupados. Clase 10-20 20-40 40-50 50-70 70-80 80-100
Fi 15 30 45 60 75 90
b) Con los siguientes datos calcule la media para datos no agrupados. 1 47
6.2
43 40
16 14
28 36
27 23
25 32
26 15
25 31
22 19
26 25
MEDIANA PARA DATOS AGRUPADOS Y NO AGRUPADOS
El estudiante resolverá problemas respecto a la media para datos agrupados y no agrupados.
La mediana datos no agrupados Cuando una serie de datos contiene uno o dos valores muy grandes o muy pequeños, la media aritmética no es representativa. El valor central en tales problemas puede ser mejor descrito usando una medida de tendencia central llamada mediana. La mediana (Me) es el punto medio de los valores de una serie de datos después de haber sido ordenados de acuerdo a su magnitud. Hay tantos valores antes que la mediana como posteriores en el arreglo de datos.
119
Ejemplo: El contenido de cinco botellas de perfume seleccionadas de forma aleatoria de la línea de producción son (en ml): 85.4, 85.3, 84.9, 85.4, y 84.0. ¿Cuál es la mediana de las observaciones muestreadas? 85.4 85.4 85.3 Me 84.9 84.0 Ejemplo: Una muestra de los honorarios de paramédicos cargados por la clínica Baltimore reveló estas cantidades: $35, $29, $30, $25, $32, $35. ¿Cuál es la mediana? 25 29 30 Me 32 35 35 Cuando los datos se encuentran ya acoplados en una tabla de frecuencia, se podrá realizar el procedimiento anterior, o bien el siguiente:
Tabla de frecuencia
120
Donde: Me = Mediana ni = Son las frecuencias de los datos Sustituyendo: Me = 3+4+9+10+7+2 = 35 = 17.5 2 2
La mediana para datos agrupados Cuando los datos se encuentran agrupados en una distribución de frecuencia no conocemos los datos originales, por lo tanto es necesario estimar la mediana mediante los siguientes pasos: 1. Calcular el valor n / 2 2. Localizar el intervalo de clase donde se encuentra la mediana (intervalo mediano). Esto se hace encontrando el primer intervalo de clase donde la frecuencia acumulada es igual o mayor que n / 2. 3. Aplicando la siguiente fórmula con los valores del intervalo mediano:
Donde: Me = Mediana L i - 1 = Límite inferior de la clase de la mediana ni = Frecuencia de la clase de la mediana N = Total de datos o frecuencias N i - 1 = Frecuencia acumulada anterior a la mediana a = Intervalo de clase de la clase de la mediana
121
PROPIEDADES DE LA MEDIANA
122
ACTIVIDADES DE APRENDIZAJE
El estudiante realizará ejercicios para calcular la mediana para datos agrupados y no agrupados, de la bibliografía sugerida. Elabore los siguientes ejercicios: a) Con los siguientes datos, calcule la mediana para datos agrupados. Clase 1 – 12 13 – 24 25 – 36 37 – 48 49 - 60
fi 5 14 19 9 3
b) Con los siguientes datos calcule la mediana para datos no agrupados. 1 47
43 40
16 14
28 36
27 23
25 32
26 15
25 31
22 19
26 25
6.3 LA MODA
El estudiante solucionará problemas de moda para datos agrupados y no agrupados.
La moda para datos no agrupados La moda (Mo) es la medida de tendencia central especialmente útil para describir mediciones de tipo ordinal y nominal. La moda. Es el valor de la observación que aparece más frecuentemente. Ejemplo: El contenido de cinco botellas de perfume seleccionadas de forma aleatoria de la línea de producción son (en ml): 85.4, 85.3, 84.9, 85.4, y 84.0. ¿Cuál es la moda de las observaciones muestreadas? Mo = 85.4 La moda para datos agrupados
123
Para datos agrupados en una distribución de frecuencia, la moda puede ser estimada por la marca de clase del intervalo que contenga la frecuencia de clase más grande. Si hay dos intervalos contiguos con frecuencia máxima la moda será la media aritmética de las dos marcas de clase. Si hay dos o más intervalos no contiguos con frecuencia de clase máxima habrá dos o más modas que serás las marcas de clase de dichos intervalos.
124
ACTIVIDADES DE APRENDIZAJE
El estudiante realizará ejercicios para calcular la moda para datos agrupados y no agrupados, de la bibliografía sugerida. Elabore los siguientes ejercicios: c) Con los siguientes datos, calcule la moda para datos agrupados. Clase 1 – 12 13 – 24 25 – 36 37 – 48 49 - 60
fi 5 14 19 9 3
d) Con los siguientes datos calcule la moda para datos no agrupados. 1 48
43 40
16 14
28 36
27 23
25 32
26 15
25 31
22 19
26 25
6.4 LA MEDIA GEOMÉTRICA
El estudiante aplicará la media geométrica en los casos presentados. Sea una distribución de frecuencias (x i , n i ). La media geométrica, que denotaremos por G. se define como la raíz N-ésima del producto de los N valores de la distribución.
Si los datos están agrupados en intervalos, la expresión de la media geométrica, es la misma, pero utilizando la marca de clase (Xi). El empleo más frecuente de la media geométrica es el de promediar variables tales como porcentajes, tasas, números índices. etc., es decir, en los casos en los que se supone que la variable presenta variaciones acumulativas.
125
Ventajas e inconvenientes:
En su cálculo intervienen todos los valores de la distribución.
Los valores extremos tienen menor influencia que en la media aritmética.
Es única.
Su cálculo es más complicado que el de la media aritmética.
Además, cuando la variable toma al menos un x i = 0 entonces G se anula, y si la variable toma valores negativos se pueden presentar una gama de casos particulares en los que tampoco queda determinada debido al problema de las raíces de índice par de números negativos.
Ejemplo Las tasas de crecimiento de la economía de un país durante diez años son las que aparecen en la tabla siguiente:
Se trata de un promedio que, para su cálculo, al igual que la media aritmética, hace uso de toda la información de la variable. Sin embargo es menos sensible a los valores extremos de lo que lo es la media aritmética. Frente a estas ventajas o virtudes, este nuevo promedio tiene algunas limitaciones. Entre ellas destacaremos: a) es menos intuitivo que la media aritmética; b) su cálculo no es tan inmediato;
126
c) en ocasiones no queda determinada.
Si algún valor de la variable es nulo, entonces G se anula. Si la variable toma valores negativos este promedio da problemas. La media geométrica se utiliza especialmente para promediar porcentajes, tasas, números índices, etc., y siempre que la variable presente variaciones acumulativas.
ACTIVIDADES DE APRENDIZAJE
El estudiante realizará ejercicios para calcular la media geométrica, de la bibliografía sugerida.
6.5
PROMEDIO MÓVIL
El estudiante aplicará el promedio móvil. Consiste en obtener un valor futuro de la variable de estudio a partir de una serie histórica de los valores de la variable. El procedimiento consiste en obtener una media aritmética eligiendo de antemano el tamaño de la muestra e incorporando al promedio obtenido el valor de la variable siguiente hasta completar toda la serie histórica. Para pronostica el valor futuro se procede a obtener el error cuadrático medio y éste valor obtenido se le incorpora al último promedio obtenido y así sucesivamente. Con este método lo que se hace es “suavizar” la serie promediando los valores de la misma para periodos de tiempo fijos pero que se desplazan a lo largo de todo el horizonte de la serie. El resultado de este proceso mecánico es la eliminación de los movimientos a corto y medio plazo así como las irregularidades debidas a factores no controlables ni predecibles. Es decir, a la serie se le quitan tres de sus componentes y se le deja solo la cuarta, la tendencia. La idea que subyace detrás de este método es que la media de cualquier conjunto de valores sirve para eliminar la dispersión o variabilidad de la serie motivada por factores coyunturales o esporádicos. Este método de suavizado consiste, como se ha indicado, en promediar la serie. Estos promedios serán las medias aritméticas de un conjunto k de valores consecutivos, con el requisito de que k sea inferior al total de observaciones. El procedimiento específico sería el siguiente. Supóngase que k es un entero impar. Entonces las sucesivas medias se obtendrían de forma siguiente:
127
A la media *
t y se le llama centrada porque al ser impar el número de sumandos con el que se ha obtenido, la media resultante se le hace corresponder con la observación del momento t , que es el valor central de la suma. Según esta expresión de cálculo, la primera media que se puede calcular es la correspondiente al grupo de valores cuya observación central se corresponde al instante:
Siendo en este caso la primera observación y 0, Una vez obtenida esa media, la siguiente se calcula para los k valores que tienen por observación central la del periodo t+1, y así sucesivamente. Esta forma de obtener medias eliminando la primera observación del grupo y añadiendo la siguiente es lo que le da el adjetivo de “móvil” a las mismas. Par fijar un poco las ideas supongamos que k=5 . En tal caso, las sucesivas medias móviles vendrían dadas por:
Ahora bien, si k fuera par, entonces la media de esos k valores no se correspondería con ninguno de los observados de la serie original, sino con el punto medio de los dos centrales. Pero ese instante no es observable ( t = (k - 1 )/2), no sería un entero), por lo que las medias calculadas de esta forma habría que promediarlas de dos en dos y de
128
forma sucesiva para que el resultado si fuera una serie de valores (medias) centrados, es decir, que se correspondan con valores para periodos o instantes de tiempo observados. Esta serie no centrada se obtendría mediante la expresión:
Otra cuestión importante a la hora de calcular las medias móviles es determinar cuántas observaciones deben tomarse en cada caso. Si k es muy grande entonces el proceso de suavizado puede llegar a ser tan fuerte que se pierda más información de la deseada. Piense en la situación extrema de que k fuera igual al total de observaciones. En ese caso solo habría una media, por lo que el suavizamiento de la serie sería máximo, tanto que no habría ni tendencia ni componente alguna. Por esta razón k no debe ser demasiado grande, pues se podría incurrir en un suavizado excesivo. En general, cuanto mayor es k , menor será el número de términos de la serie suavizada resultante (se pierden observaciones al principio y al final de la serie). En conclusión, si se toma un grupo de observaciones muy alto se incurre en el peligro de perder información por dos vías: a) la serie se suaviza más de lo necesario, ocultando ciertos movimientos tendenciales; b) el número de términos de la nueva serie se reduce considerablemente, y perder datos nunca es bueno. Por el contrario, si k es muy pequeño entonces no se conseguirán eliminar todas las perturbaciones ajenas a la tendencia. De forma similar a como se razonó antes, si k=1, entonces la serie original y la suavizada coinciden, con lo cual no se ha conseguido nada. En algunos casos, ese valor de k es fácil de determinar. Así ocurre cuando la serie muestra un patrón de comportamiento que se repite de manera sistemática cada k periodos de tiempo. Tal sería el caso de la estacionalidad. Si se trabaja con datos mensuales y la serie está sometida a un esquema de estacionalidad que se repite todos los años, entonces la forma de suavizar esa serie y eliminar la componente estacional sería tomar una media móvil de doce meses ( k = 12 ). A la serie resultante se le habrían eliminado dos componentes: la estacionalidad y las variaciones
129
accidentales. Pero al ser k par, la serie resultante no estaría centrada, por lo que habría que volver a tomar medias móviles con k = 2 . Una vez que de la serie original se han eliminado esas dos componentes cabría preguntarse cómo proceder con las variaciones cíclicas. En este caso la elección de k es más difícil, pues los ciclos no son movimientos de la serie que se repitan con una periodicidad fija, como ocurre con la estacionalidad. En estos casos, si esa periodicidad no puede determinarse de forma clara y sin que perjudique notoriamente a los resultados, la mejor forma de proceder es trabajar con lo que ha dado en denominarse componente ciclo-tendencia. En el esquema presentado hasta el momento, para la obtención de la tendencia mediante medias móviles, se ha trabajado con el supuesto de que los datos tenían una periodicidad inferior al año (semestres, cuatrimestres, trimestres, meses, etc.) lo que implicaba aceptar la posibilidad de que esa serie presentara estacionalidad. Ahora bien, si los datos fueran anuales entonces la estacionalidad quedaría descartada, pues las únicas componentes de la serie serían la tendencia, los ciclos y las variaciones accidentales. Esta nueva situación nos lleva a que sea poco verosímil que la serie presente un esquema repetitivo a lo largo del tiempo tan estable como presentaban las variaciones estacionales. Ante estas circunstancias se hace difícil saber cuál debiera ser el número adecuado de observaciones que debieran tomarse para calcular las medias móviles. La forma de salir de esta situación incómoda es obtener medias móviles de tres o cinco datos (número impar y pequeño) para de esa forma eliminar la componente accidental. Una vez que se ha procedido de esta forma, la serie suavizada resultante contiene una mezcla de ciclo-tendencia. Si la componente cíclica fuera regular con periodos definidos y fijos, entonces la tendencia se obtendría aplicando una media móvil con un k igual a la longitud del ciclo. Pero es poco probable que los ciclos tengan ese comportamiento tan sistemático, por lo que quizás la mejor solución sea, como se indicó en el párrafo anterior, no manipular más los datos y trabajar con esa mixtura de componentes ciclo-tendencia. Este método de obtención de la tendencia presenta, frente a su sencillez, algunos inconvenientes que deben ser señalados. Al igual que en el método gráfico, también aquí se introduce un cierto grado de subjetividad, pues la elección del número de observaciones a promediar queda a la elección del analista y, salvo que sea muy claro cuál debe ser ese número (caso de la estacionalidad), esa decisión no siempre es la acertada, por lo que los valores de la componente tendencia variaran según quién los calcule. Por otro lado, esta forma de obtener la tendencia no permite alcanzar el objetivo de la predicción en el análisis de las series temporales, pues la tendencia obtenida mediante medias móviles no permite que se proyecte hacia el futuro. Ejemplo. Obténgase la tendencia de la serie que se muestra en la siguiente Tabla mediante medias móviles. En este caso, dado que los datos son mensuales y la serie muestra una clara componente estacional que se repite todos los años, el periodo de la media móvil debe
130
ser de doce datos (doce meses). Pero al ser par el valor de k se deben tomar medias móviles en dos ocasiones. Primero con k=12 y después con k = 2, para de esta forma obtener una serie centrada, que será la tendencia, pues, como puede observarse, la serie original, para el conjunto de años considerado, no muestra componente cíclica clara. Los resultados de estas operaciones son los que aparecen en las dos Tablas posteriores. Adicionalmente, en la Figura, se ha vuelto a representar la serie original y la suavizada que recoge la tendencia. Esta última tiene menos observaciones que la primera. En este caso se ha perdido doce datos, seis al inicio y seis al final. La forma en la que se han obtenido esos datos es la siguiente:
131
132
ACTIVIDADES DE APRENDIZAJE
El estudiante resolverá problemas del promedio móvil, de la bibliografía sugerida.
6.6
MEDIA ARMÓNICA
El estudiante aplicará la media armónica en diversas situaciones. La media armónica, que representaremos por H, se define como sigue:
Obsérvese que la inversa de la media armónica es la media aritmética de los inversos de los valores de la variable. No es aconsejable en distribuciones de variables con valores pequeños. Se suele utilizar para promediar variables tales como productividades, velocidades, tiempos, rendimientos, cambios, etc. Ventajas e inconvenientes:
En su cálculo intervienen todos los valores de la distribución.
Su cálculo no tiene sentido cuando algún valor de la variable toma valor cero.
Es única.
ACTIVIDADES DE APRENDIZAJE
El estudiante resolverá problemas de media armónica, de la bibliografía sugerida.
133
6.7 DECILES, CUARTILES Y PERCENTILES
El estudiante interpretará los deciles, cuartiles y percentiles.
CUARTILES Los cuartiles son los tres valores que dividen al conjunto de datos ordenados en cuatro partes porcentualmente iguales. Hay tres cuartiles denotados usualmente Q1, Q2, Q3. El segundo cuartil es precisamente la mediana. El primer cuartil, es el valor en el cual o por debajo del cual queda un cuarto (25%) de todos los valores de la sucesión (ordenada); el tercer cuartil, es el valor en el cual o por debajo del cual quedan las tres cuartas partes (75%) de los datos. No son cuatro como pensamos al inicio, son tres cuartiles los que dividirán en cuatro partes la curva normal, y se denotan por Q1, Q2 y Q3:
Datos Agrupados
Como los cuartiles adquieren su mayor importancia cuando contamos un número grande de datos y tenemos en cuenta que en estos casos generalmente los datos son resumidos en una tabla de frecuencia. La fórmula para el cálculo de los cuartiles cuando se trata de datos agrupados es la siguiente:
134
k = 1,2,3 Donde:
Lk = Límite real inferior de la clase del cuartil k n = Número de datos Fk = Frecuencia acumulada de la clase que antecede a la clase del cuartil k . fk = Frecuencia de la clase del cuartil k c = Longitud del intervalo de la clase del cuartil k Si se desea calcular cada cuartil individualmente, mediante otra fórmula se tiene lo siguiente:
El primer cuartil Q1, es el menor valor que es mayor que una cuarta parte de los datos; es decir, aquel valor de la variable que supera 25% de las observaciones y es superado por el 75% de las observaciones. Fórmula de Q1, para series de Datos agrupados:
Donde:
L1 = límite inferior de la clase que lo contiene P = valor que representa la posición de la medida f1 = la frecuencia de la clase que contiene la medida solicitada. Fa-1 = frecuencia acumulada anterior a la que contiene la medida solicitada. Ic = intervalo de clase
El segundo cuartil Q2, (coincide, es idéntico o similar a la mediana, Q2 = Md), es el menor valor que es mayor que la mitad de los datos, es decir el 50% de las observaciones son mayores que la mediana y el 50% son menores. Fórmula de Q2, para series de Datos agrupados:
Donde:
L1 = límite inferior de la clase que lo contiene P = valor que representa la posición de la medida f1 = la frecuencia de la clase que contiene la medida solicitada. Fa-1 = frecuencia acumulada anterior a la que contiene la medida solicitada. Ic = intervalo de clase
135
El tercer cuartil Q3, es el menor valor que es mayor que tres cuartas partes de los datos, es decir aquel valor de la variable que supera al 75% y es superado por el 25% de las observaciones. Fórmula de Q3, para series de Datos agrupados:
Donde:
L1 = límite inferior de la clase que lo contiene P = valor que representa la posición de la medida f1 = la frecuencia de la clase que contiene la medida solicitada. Fa-1 = frecuencia acumulada anterior a la que contiene la medida solicitada. Ic = intervalo de clase. Otra manera de verlo es partir de que todas las medidas no son sino casos particulares del percentil, ya que el primer cuartil es el 25% percentil y el tercer cuartil 75% percentil. Para Datos No Agrupados Si se tienen una serie de valores X1, X2, X3... Xn, se localiza mediante las siguientes fórmulas:
El primer cuartil:
Cuando n es par: Cuando n es impar:
Para el tercer cuartil
Cuando n es par: Cuando n es impar:
DECILES Los deciles son ciertos números que dividen la sucesión de datos ordenados en diez partes porcentualmente iguales. Son los nueve valores que dividen al conjunto de
136
datos ordenados en diez partes iguales, son también un caso particular de los percentiles. Los deciles se denotan D1, D2,..., D9, que se leen primer decil, segundo decil, etc. Los deciles, al igual que los cuartiles, son ampliamente utilizados para fijar el aprovechamiento académico. Ya sabemos que para dividir la curva normal en diez partes debemos de tener nueve Deciles.
Datos Agrupados Para datos agrupados los deciles se calculan mediante la fórmula.
k = 1,2,3,... 9 Donde:
Lk = Límite real inferior de la clase del decil k n = Número de datos Fk = Frecuencia acumulada de la clase que antecede a la clase del decil k . fk = Frecuencia de la clase del decil k c = Longitud del intervalo de la clase del decil k Otra fórmula para calcular los deciles:
El cuarto decil, es aquel valor de la variable que supera al 40%, de las observaciones y es superado por el 60% de las observaciones.
137
El quinto decil corresponde a la mediana.
El noveno decil supera al 90% y es superado por el 10% restante.
Donde (para todos):
L1 = límite inferior de la clase que lo contiene P = valor que representa la posición de la medida f1 = la frecuencia de la clase que contiene la medida solicitada. Fa-1 = frecuencia acumulada anterior a la que contiene la medida solicitada. Ic = intervalo de clase. Fórmulas Datos No Agrupados Si se tienen una serie de valores X1, X2, X3 ... Xn, se localiza mediante las siguientes fórmulas:
Cuando n es par:
Cuando n es impar: Siendo A el número del decil.
CENTILES O PERCENTILES Los percentiles son, tal vez, las medidas más utilizadas para propósitos de ubicación o clasificación de las personas cuando atienden características tales como peso, estatura, etc. Los percentiles son ciertos números que dividen la sucesión de datos ordenados en cien partes porcentualmente iguales. Estos son los 99 valores que dividen en cien partes iguales el conjunto de datos ordenados. Los percentiles (P1, P2,... P99), leídos primer percentil,..., percentil 99.
138
EJEMPLO GRÁFICA PERCENTIL
139
Datos Agrupados Cuando los datos están agrupados en una tabla de frecuencias, se calculan mediante la fórmula:
k = 1,2,3,... 99 Donde:
Lk = Límite real inferior de la clase del decil k n = Número de datos Fk = Frecuencia acumulada de la clase que antecede a la clase del decil k . fk = Frecuencia de la clase del decil k c = Longitud del intervalo de la clase del decil k Otra forma para calcular los percentiles es:
Primer percentil, que supera al uno por ciento de los valores y es superado por el noventa y nueve por ciento restante.
El 60 percentil, es aquel valor de la variable que supera al 60% de las observaciones y es superado por el 40% de las observaciones.
El percentil 99 supera 99% de los datos y es superado a su vez por el 1% restante.
Fórmulas Datos No Agrupados Si se tienen una serie de valores X1, X2, X3 ... Xn, se localiza mediante las siguientes fórmulas:
140
Para los percentiles, cuando n es par:
Cuando n es impar: Siendo A, el número del percentil. Es fácil ver que el primer cuartil coincide con el percentil 25; el segundo cuartil con el percentil 50 y el tercer cuartil con el percentil 75.
EJEMPLO Determinación del primer cuartil, el séptimo decil y el 30 percentil, de la siguiente tabla: Salarios No. De (I. De Clases) Empleados (f1) 200-299 85 300-299 90 400-499 120 500-599 70 600-699 62 700-800 36 Como son datos agrupados, se utiliza la fórmula
Siendo, La posición del primer cuartil.
La posición del 7 decil.
La posición del percentil 30. Entonces,
fa 85 175 295 365 427 463
141
El primer cuartil: 115.5 – 85 = 30.75
Li = 300, Ic = 100 , fi = 90
El 7 decil:
Posición: 324.1 – 295 = 29.1
Li = 500, fi = 70 El percentil 30 Posición:
138.9 – 85 = 53.9 fi = 90
Estos resultados nos indican que el 25% de los empleados ganan salarios por debajo de $ 334; que bajo 541.57 gana el 57%de los empleados y sobre $359.88, gana el 70% de los empleados.
ACTIVIDADES DE APRENDIZAJE
El estudiante resolverá problemas de cuartiles, deciles y percentiles, de la bibliografía sugerida.
142
INSTRUCCIONES: Lea detenidamente y anote dentro del paréntesis “v” si el enunciado es verdadero y “f” si en falso. (Recuerde que la forma de evaluar esta sección es aciertos menos errores). 1.
La moda de los siguientes datos: 10, 9, 7, 5, 8, 7, 6, 7, 5, 8. Es 7
(
)
2.
La media de 9,3,8,9,8,9,18 es 9.
(
)
3.
La desviación media de los siguientes datos 2,3,6,8 y 11; es de 2.8
(
)
4.
Los deciles son ciertos números que dividen la sucesión de datos ordenados en cien partes porcentualmente iguales.
(
)
5.
La media de 175, 136, 165, 178 y 159 es de 162.6
(
)
INSTRUCCIONES: Lea detenidamente los siguientes conceptos respuesta a la que corresponda dicho concepto
y subraye la
Calcule la mediana de asistencia a 13 clases de psicología si asistieron : 40, 32, 37, 30, 40, 24, 40, 38, 35, 40, 28, 32 y 37 personas. 1)
A) 37 B) 37.5 C) 38 D) 40 = ∑ fi * x n
2)
A) B) C) D)
Esta fórmula corresponde a:
Media datos agrupados Mediana datos agrupados Media datos no agrupados Mediana datos no agrupados Es el dato que aparece con mayor frecuencia, es una colección de datos.
3)
A) B) C) D)
Moda Media Mediana Desviación media
143
9 golfistas registraron los siguientes hoyos 4 3 4 5 4 3 3 4 3; la media es:
4)
A) B) C) D)
3 3.5 3.6 4
A 18 clases de una academia de baile de asistieron: 26, 25, 28, 23, 25, 24, 24, 21, 23, 26, 28, 26, 24, 32, 25, 27, 24 y 27 personas; la moda es: 5)
A) B) C) D) 6)
A) B) C) D)
24 25 25.4 26 = Li + N/2 - ∑fa F Mediana
C . Esta fórmula corresponde a:
Media datos agrupados Mediana datos agrupados Media datos no agrupados Mediana datos no agrupados
INSTRUCCIONES: Lea detenidamente respuesta correcta.
y conteste en los espacios en blanco la
1. El ___________________________es un valor representativo de un conjunto de datos; se obtiene de la sumatoria de todos los datos, dividiéndose entre el total de los mismos. 2. El _________________________________________ consiste en obtener un valor futuro de la variable de estudio a partir de una serie histórica de los valores de la variable. El procedimiento consiste en obtener una media aritmética eligiendo de antemano el tamaño de la muestra e incorporando al promedio obtenido el valor de la variable siguiente hasta completar toda la serie histórica. 3. La curva sesgada a la __________________________________ tiene las medidas de tendencia central en el siguiente orden: moda, mediana y media. 5. La curva sesgada a la __________________________________ tiene las medidas de tendencia central en el siguiente orden: media, mediana y moda. 6. Consiste en ordenar los datos en forma creciente o decreciente y el valor medio se denomina ______________________.
144
UNIDAD 7 MEDIDAS DE VARIABILIDAD DE DISPERSION
El estudiante distinguirá y aplicará los diferentes tipos de medidas de dispersión, así como sus ventajas y desventajas de cada uno de ellos.
Temario: 7. MEDIDAS DE VARIABILIDAD O DE DISPERSIÓN 7.1 RANGO 7.2 DESVIACIÓN MEDIA ABSOLUTA 7.3 VARIANZA PARA DATOS AGRUPADOS Y NO AGRUPADOS 7.4 DESVIACIÓN ESTÁNDAR 7.5 COEFICIENTE DE VARIACIÓN 7.6 MEDIDAS DE FORMA: ASIMETRÍA Y CURTOSIS
145
MAPA CONCEPTUAL MEDIDAS DE VARIABILIDAD DE DISPERSION
7. MEDIDAS DE VARIABILIDAD DE DISPERSION
7.1 RANGO
7.4 DESVIACIÓN ESTÁNDAR
7.2 DESVIACIÓN MEDIA ABSOLUTA
7.3 VARIANZA PARA DATOS AGRUPADOS Y NO AGRUPADOS
7.5 COEFICIENTE DE VARIACIÓN
7.6 MEDIDAS DE FORMA: ASIMETRÍA Y CURTOSIS
146
INTRODUCCIÓN En esta unidad se tratarán las medidas de dispersión para datos agrupados y no agrupados.
147
7. MEDIDAS DE VARIABILIDAD O DE DISPERSIÓN 7.1. RANGO
El estudiante aplicará el rango como una medida de dispersión. Se denomina rango o rango estadístico al intervalo de menor tamaño que contiene a los datos; es calculable mediante la resta del valor mínimo al valor máximo; por ello, comparte unidades con los datos. Permite obtener una idea grosera de la dispersión estadística de los datos. Por ejemplo, para una serie de datos de carácter cuantitativo como es la estatura tal y como:
x 1 = 185,x 2 = 165,x 3 = 170,x 4 = 182,x 5 = 155 es posible ordenar los datos como sigue:
x (1) = 155,x (2) = 165,x (3) = 170,x (4) = 182,x (5) = 185 donde la notación x (i) indica que se trata del elemento i -ésimo de la serie de datos. De este modo, el rango sería la diferencia entre el valor máximo ( k ) y el mínimo; o, lo que es lo mismo:
W = x (k ) − x (1) En nuestro ejemplo, con cinco valores, nos da que W = 185-155 = 30.
ACTIVIDADES DE APRENDIZAJE
El estudiante resolverá problemas de rango, de la bibliografía sugerida.
148
7.2
DESVIACIÓN MEDIA ABSOLUTA
El estudiante aplicará la desviación media en datos agrupados y no agrupados. La desviación media mide la cantidad promedio que varían los datos respecto a su media. La definición es: Desviación media. Es la media aritmética de los valores absolutos de las desviaciones de los datos respecto a su media.
Desviación media datos no agrupados
Ejemplo: El contenido de cinco botellas de perfume seleccionadas de forma aleatoria de la línea de producción son (en ml): 85.4, 85.3, 84.9, 85.4, y 84.0. ¿Cuál es la desviación media de las observaciones muestreadas? XX |X - | 85.4
+ 0.4
0.4
85.4
+ 0.4
0.4
85.3
+ 0.3
0.3
84.9 - 0.1
0.1
84.0 - 1.0
1.0
2.2 = 2.2 = 0.44
=
149
5
Desviación media para datos agrupados En el caso de que los datos se encuentren agrupados en una distribución de frecuencia la fórmula es:
Ejemplo: xi
fi
xi · fi
|x - x|
| x - x | · fi
[10, 15)
12.5
3
37.5
9.286
27.858
[15, 20)
17.5
5
87.5
4.286
21.43
[20, 25)
22.5
7
157.5
0.714
4.998
[25, 30)
27.5
4
110
5.714
22.856
[30, 35)
32.5
2
65
10.174
21.428
21
457.5
98.57
Ventajas y Desventajas de la desviación media La desviación media tiene dos ventajas. Utiliza para su cómputo todos los elementos de la serie de datos y es fácil de entender. Sin embargo, es difícil trabajar con valores absolutos y por ello la desviación media no es usada frecuentemente. Cuando la suma de las desviaciones parciales absolutas es igual a cero, la desviación media no es una medida de variabilidad aceptable. Por ejemplo, tenemos dos series de datos: A = { 0, 50, 50, 100 } B = { 49, 50, 51 }
150
Claramente observamos que la serie B tiene una dispersión mayor que la serie A, sin embargo en ambos casos la desviación media es cero.
ACTIVIDADES DE APRENDIZAJE El estudiante resolverá problemas de desviación media para datos agrupados y no agrupados, de la bibliografía sugerida.
7.3 VARIANZA PARA DATOS AGRUPADOS Y NO AGRUPADOS
El estudiante aplicará la varianza en datos agrupados y no agrupados. Varianza. Es la media aritmética de las desviaciones cuadradas de los datos respecto a la media de una distribución estadística La varianza se representa por
VARIANZA PARA DATOS NO AGRUPADOS
Ejercicio: Calcular la varianza de la distribución9, 3, 8, 8, 9, 8, 9,18
VARIANZA PARA DATOS AGRUPADOS
151
Para simplificar el cálculo de la varianza vamos o utilizar las siguientes expresiones que son equivalentes a las anteriores
Calcule la Varianza de los siguientes datos agrupados:
xi
f i
x i · f i
x i 2 · f i
[10, 20)
15
1
15
225
[20, 30)
25
8
200
5000
[30,40)
35
10
350
12 250
[40, 50)
45
9
405
18 225
[50, 60
55
8
440
24 200
[60,70)
65
4
260
16 900
[70, 80)
75
2
150
11 250
42
1 820
88 050
Propiedades de la varianza
152
1. La varianza será siempre un valor positivo o cero, en el caso de que las puntuaciones sean iguales 2. Si a todos los valores de la variable se les suma un número la varianza no varía 3. Si todos los valores de la variable se multiplican por un número la varianza queda multiplicada por el cuadrado de dicho número 4. Si tenemos varias distribuciones con la misma media y conocemos sus respectivas varianzas se puede calcular la varianza total 1. Observaciones sobre la varianza 2. La varianza, al igual que la media, es un índice muy sensible a las puntuaciones extremas 3. En los casos que no se pueda hallar la media tampoco será posible hallar la varianza 4. La varianza no viene expresada en las mismas unidades que los datos, ya que las desviaciones están elevadas al cuadrado
ACTIVIDADES DE APRENDIZAJE
El estudiante resolverá problemas de varianza para datos agrupados y no agrupados, de la bibliografía sugerida.
7.4 DESVIACIÓN ESTÁNDAR
El estudiante aplicará la desviación estándar, datos agrupados y no agrupados La desviación típica o desviación estándar es la raíz cuadrada de la varianza. Es decir, la raíz cuadrada de la media de los cuadrados de las puntuaciones de desviación La desviación típica se representa por σ
153
Desviación estándar o típica para datos agrupados
Para simplificar el cálculo vamos o utilizar las siguientes expresiones que son equivalentes a las anteriores
Ejercicios de desviación típica. Calcular la desviación típica de la distribución: 9, 3, 8, 8, 9, 8, 9,18.
Desviación típica para datos agrupados
154
Calcular la desviación típica de la distribución de la tabla ::
xi
f i
x i · f i
x i 2 · f i
[10, 20)
15
1
15
225
[20, 30)
25
8
200
5000
[30,40)
35
10
350
12 250
[40, 50)
45
9
405
18 225
[50, 60)
55
8
440
24 200
[60,70)
65
4
260
16 900
[70, 80)
75
2
150
11 250
42
1 820
88 050
ACTIVIDADES DE APRENDIZAJE
El estudiante resolverá problemas de desviación típica o estándar para datos agrupados y no agrupados, de la bibliografía sugerida.
7.5 COEFICIENTE DE VARIACIÓN
El estudiante aplicará el coeficiente de variación El coeficiente de variación es la relación entre la desviación típica de una muestra y su media
155
El coeficiente de variación se suele expresar en porcentajes.
El coeficiente de variación permite comparar las dispersiones de dos distribuciones distintas, siempre que sus medias sean positivas. Se calcula para cada una de las distribuciones y los valores que se obtienen se comparan entre sí. La mayor dispersión corresponderá al valor del coeficiente de variación mayor Ejercicio Una distribución tiene x = 1 40 y σ = 28.28 y otra x = 150 y σ = 25. ¿Cuál de las dos presenta mayor dispersión?
La primera distribución presenta mayor dispersión
ACTIVIDADES DE APRENDIZAJE
El estudiante resolverá problemas de coeficiente de variación, de la bibliografía sugerida.
7.6 MEDIDAS DE FORMA: ASIMETRÍA Y CURTOSIS
El estudiante comparará las medidas de asimetría y curtosis. Las medidas de la asimetría, al igual que la curtosis, van a ser medidas de la forma de la distribución, es frecuente que los valores de una distribución tiendan a ser similares a ambos lados de las medidas de centralización. La simetría es importante para saber si los valores de la variable se concentran en una determinada zona del recorrido de la variable.
156
As<0
As=0
Asimetría Negativa a Simétrica la Izquierda
As>0 Asimetría Positiva a la Derecha.
Para medir la asimetría se puede realizar atendiendo básicamente a dos criterios: Comparando la Media y la Moda. Comparando los valores de la variable con la media.
Comparando la Media y la Moda:
Si la diferencia es positiva, diremos que hay asimetría positiva o a la derecha, en el caso de que sea negativa diremos que hay asimetría negativa o a la izquierda. No obstante, esta medida es poco operativa al no ser una medida relativa, ya que está influida por la unidad en que se mida la variable, por lo que se define el coeficiente de Asimetría como:
Esta medida es muy fácil de calcular, pero menos precisa que el coeficiente de asimetría de Pearson. El coeficiente de asimetría de Pearson, se basa en la comparación con la media de todos los valores de la variable, así que es una medida que se basará en las diferencias , como vimos en el caso de la dispersión si medimos la media de esas desviaciones sería nulas, si las elevamos al cuadrado, serían siempre positivas por lo que tampoco servirían, por lo tanto precisamos elevar esas diferencias al cubo.
157
Para evitar el problema de la unidad, y hacer que sea una medida escalar y por lo tanto relativa, dividimos por el cubo de su desviación típica. Con lo que resulta la siguiente expresión:
Curtosis El Coeficiente de Curtosis analiza el grado de concentración que presentan los valores alrededor de la zona central de la distribución. Se definen 3 tipos de distribuciones según su grado de curtosis:
Distribución mesocúrtica: presenta un grado de concentración medio alrededor de los valores centrales de la variable (el mismo que presenta una distribución normal). g 2 = 0 (distribución mesocúrtica) .
Distribución leptocúrtica : presenta un elevado grado de concentración alrededor de los valores centrales de la variable. g2 > 0(distribución leptocúrtica )
158
Distribución platicúrtica: presenta un reducido grado de concentración alrededor de los valores centrales de la variable. g2 < 0 (distribución platicúrtica)
El Coeficiente de Curtosis viene definido por la siguiente fórmula:
Donde: n = total de datos xi = Cada uno de los datos xm = Media Los resultados pueden ser los siguientes: g 2 = 0 (distribución mesocúrtica) . g2 > 0(distribución leptocúrtica ). g2 < 0 (distribución platicúrtica) .
Ejemplo: Vamos a calcular el Coefiente de Curtosis de la serie de datos referidos a la estatura de un grupo de alumnos, recordemos que la media de esta muestra es 1,253 Variable (Valor)
Frecuencias absolutas Simple Acumulada
Frecuencias relativas Simple Acumulada
fi
fa
fr
far
1,20
1
1
3,3%
3,3%
1,21 1,22
4 4
5 9
13,3% 13,3%
16,6% 30,0%
1,23
2
11
6,6%
36,6%
1,24 1,25 1,26 1,27 1,28 1,29 1,30
1 2 3 3 4 3 3
12 14 17 20 24 27 30
3,3% 6,6% 10,0% 10,0% 13,3% 10,0% 10,0%
40,0% 46,6% 56,6% 66,6% 80,0% 90,0% 100,0%
159
S ((xi - xm)^4)*ni x 0,00004967
S ((xi - xm)^2)*ni x 0,03046667
Luego: (1/30) * 0,00004967 g2 --------------------------------------- - 3 = -1,39 = ---((1/30) * (0,03046667))^2 Por lo tanto, el Coeficiente de Curtosis de esta muestra es -1,39, lo que quiere decir que se trata de una distribución platicúrtica, es decir, con una reducida concentración alrededor de los valores centrales de la distribución, aunque tampoco en este caso esta deviación de la simetría está suficientemente alejada del 0 para ser considerada significativa (se encuentra entre -2 y 2).
ACTIVIDADES DE APRENDIZAJE
El estudiante resolverá problemas de medidas de forma, de la bibliografía sugerida.
160
INSTRUCCIONES: LEA DETENIDAMENTE LOS SIGUIENTES CONCEPTOS SUBRAYE LA RESPUESTA A LA QUE CORRESPONDA DICHO CONCEPTO 1)
De los siguientes datos: 9, 7, 11, 10, 13 y 7. El resultado de 9.5 corresponde a:
A) B) C) D)
Media Varianza Desviación media Desviación estándar
Y
Analiza el grado de concentración que presentan los valores alrededor de la zona central de la distribución. 2)
A) B) C) D)
Varianza datos no agrupados Varianza datos agrupados Coeficiente de variación Coeficiente de curtosis
INSTRUCCIONES: LEA DETENIDAMENTE Y CONTESTE EN LOS ESPACIOS EN BLANCO LA RESPUESTA. 1. Al grado en que los datos numéricos tienden a extenderse alrededor de un valor medio, se le llama________________________ 2. La ___________________________se obtiene de la fórmula: 3. La _________________ es la media aritmética de las desviaciones cuadradas de los datos respecto a la media de una distribución estadística 4. El___________________________________ es la relación entre la desviación típica de una muestra y su media
161
INSTRUCCIONES : Lea detenidamente
y anote dentro del paréntesis “v” si el enunciado es verdadero y “f” si en falso. (recuerde que la forma de evaluar esta
sección es aciertos menos errores). 1.
La varianza es la característica de una muestra o población que cuantifica ( ) su dispersión o variabilidad.
2.
Se utiliza para calcular la desviación estándar de datos agrupados: ( )
3.
Se denomina rango estadístico al intervalo de menor tamaño que contiene ( ) a los datos; es calculable mediante la resta del valor mínimo al valor máximo; por ello, comparte unidades con los datos
4.
La distribución mesocúrtica presenta un reducido grado de concentración ( ) alrededor de los valores centrales de la variable.
5.
La desviación media mide la cantidad promedio que varían los datos ( ) respecto a su media
6.
El rango intercuartílico divide a los valores muestrales, una vez ( ) ordenados, en cuatro partes homogéneas en cuanto a número de observaciones
INSTRUCCIONES : Observe las siguientes gráficas, y mencione el tipo de asimetría que cada una tiene.
.
162
UNIDAD 8 PROBABILIDAD
El estudiante diferenciará los tipos de eventos asociados con los experimentos aleatorios. Además calculará y evaluará el valor numérico de su probabilidad.
Temario: 8.
PROBABILIDAD 8.1 8.2 8.3 8.4 8.5 8.6 8.7 8.8
PROBABILIDAD CLÁSICA, FRECUENCIAL Y SUBJETIVA EXPERIMENTOS, EVENTOS Y ESPACIOS MUESTRALES REGLAS DE CONTEO: COMBINACIONES Y PERMUTACIONES REGLAS DE LA PROBABILIDAD EVENTOS DEPENDIENTES, INDEPENDIENTES Y CONDICIONALES TEOREMA DE BAYES DIAGRAMA DE ÁRBOL ESPERANZA MATEMÁTICA
163
MAPA CONCEPTUAL PROBABILIDAD 8. PROBABILIDAD
8.1 PROBABILIDAD CLÁSICA, FRECUENCIAL Y SUBJETIVA
8.2 EXPERIMENTOS , EVENTOS Y ESPACIOS MUESTRALES
8.4 REGLAS DE LA PROBABILIDAD
8.5 EVENTOS DEPENDIENTES, INDEPENDIENTES Y CONDICIONALES
8.7 DIAGRAMA DE ÁRBOL
8.3 REGLAS DE CONTEO: COMBINACIONES Y PERMUTACIONES
8.6 TEOREMA DE BAYES
8.8 ESPERANZA MATEMÁTICA
164
INTRODUCCIÓN En esta unidad, se conocerán las reglas de la probabilidad que deben observarse; se incluyen postulados básicos, relación entre las probabilidades y el teorema de Bayes. Se presentan también combinaciones, permutaciones y la esperanza matemática.
165
8. PROBABILIDAD 8.1 PROBABILIDAD CLÁSICA, FRECUENCIAL Y SUBJETIVA
El estudiante diferenciará la probabilidad clásica, frecuencial y subjetiva. El concepto de probabilidad nace con el deseo del hombre de conocer con certeza los eventos futuros. Es por ello que el estudio de probabilidades surge como una herramienta utilizada por los nobles para ganar en los juegos y pasatiempos de la época. El desarrollo de estas herramientas fue asignado a los matemáticos de la corte. Con el tiempo estas técnicas matemáticas se perfeccionaron y encontraron otros usos muy diferentes para la que fueron creadas. Actualmente se continúo con el estudio de nuevas metodológicas que permitan maximizar el uso de la computación en el estudio de las probabilidades disminuyendo, de este modo, los márgenes de error en los cálculos A través de la historia se han desarrollado tres enfoques conceptuales diferentes para definir la probabilidad y determinar los valores de probabilidad: El enfoque clásico : Dice que si hay x posibles resultados favorables a la ocurrencia
de un evento A y z posibles resultados desfavorables a la ocurrencia de A, y todos los resultados son igualmente posibles y mutuamente excluyente (no pueden ocurrir los dos al mismo tiempo), entonces la probabilidad de que ocurra A es:
P(A) = __ x __ (x+z ) El enfoque clásico de la probabilidad se basa en la suposición de que cada resultado sea igualmente posible. Este enfoque es llamado enfoque a priori porque permite, (en caso de que pueda aplicarse) calcular el valor de probabilidad antes de observar cualquier evento de muestra.
Ejemplo: Si tenemos en una caja 15 piedras verdes y 9 piedras rojas. La probabilidad de sacar una piedra roja en un intento es: P(A) = ____9____= 0.375 o 37.5% 9+15 El enfoque de frecuencia relativa : También llamado Enfoque Empírico, determina la
probabilidad sobre la base de la proporción de veces que ocurre un evento favorable en un numero de observaciones. En este enfoque no ese utiliza la suposición previa de
166
aleatoriedad. Porque la determinación de los valores de probabilidad se basa en la observación y recopilación de datos.
Ejemplo: Se ha observado que 9 de cada 50 vehículos que pasan por una esquina no tienen cinturón de seguridad. Si un vigilante de transito se para en esa misma esquina un ida cualquiera ¿Cuál será la probabilidad de que detenga un vehículo sin cinturón de seguridad? P(A) = ___9___ = 0.18 o 18% 50 Tanto el enfoque clásico como el enfoque empírico conducen a valores objetivos de probabilidad, en el sentido de que los valores de probabilidad indican al largo plazo la tasa relativa de ocurrencia del evento. El enfoque subjetivo : Dice que la probabilidad de ocurrencia de un evento es el grado
de creencia por parte de un individuo de que un evento ocurra, basado en toda la evidencia a su disposición. Bajo esta premisa se puede decir que este enfoque es adecuado cuando solo hay una oportunidad de ocurrencia del evento. Es decir, que el evento ocurrirá o no ocurrirá esa sola vez. El valor de probabilidad bajo este enfoque es un juicio personal.
ACTIVIDADES DE APRENDIZAJE
Basándose en la bibliografía sugerida, realizar un mapa conceptual en el que se explique la probabilidad clásica, frecuencial, y subjetiva. Se entregará de manera impresa la siguiente sesión.
8.2 EXPERIMENTOS, EVENTOS Y ESPACIOS MUESTRALES
El estudiante y explicará el concepto de experimento, espacio muestral y evento. Cada vez que realizamos un cálculo matemático para resolver un problema físico, estamos aplicando un modelo matemático a un fenómeno de la realidad. Como sabemos un fenómeno es algo observable y que en la mayoría de los casos es, además, cuantificable. Podemos decir que la estadística tiene por objeto el estudio y comportamiento de fenómenos. Estos fenómenos son a su vez el resultado de una
167
experimentación, por lo que podemos hablar indistintamente de fenómenos y experimentos aleatorios. De forma específica se dice que un experimento aleatorio es aquel que puede concretarse en al menos dos resultados posibles, con incertidumbre en cuanto a cuál de ellos tendrá lugar. Los experimentos se pueden clasificar en deterministas y aleatorios. Los primeros son aquellos que repetidos en idénticas condiciones nos llevan siempre al mismo resultado. Por el contrario, para el segundo tipo de experimentos nos encontramos que, incluso aunque las condiciones del experimento no cambien, el resultado del experimento es impredecible antes de realizarlo. (Antes de lanzar una moneda al aire no sabremos si saldrá cara o cruz. También son experimentos aleatorios la cotización de las acciones de una empresa, sus beneficios, sus ventas, su periodo de actividad, etc.). En general diremos que las características de un experimento aleatorio son las siguientes: a) el experimento se puede repetir u observar de forma indefinida en circunstancias prácticamente muy similares. b) Aunque no podemos predecir el resultado particular del experimento, si que podemos conocer el conjunto de todos los posibles resultados. c) Si el experimento se repite pocas veces, los resultados parecen mostrar un comportamiento caótico, mientras que si se repite un número infinito de veces empieza a detectarse una regularidad en el comportamiento de los resultados. Hemos señalado antes que una de las características del experimento aleatorio es que, aunque los resultados individuales no son predecibles con anterioridad, en cambio sí que podemos saber cuál es el conjunto de todos sus posibles resultados. Pues bien, a ese conjunto de posibles resultados le llamaremos espacio muestral y lo representaremos en adelante por la letra E. Así pues, E será un conjunto formado por los resultados del experimento. Estos resultados elementales de un experimento tienen la característica de que no son descomponibles. A partir de ellos surge el concepto de suceso o evento. Un suceso o evento será un conjunto de resultados elementales del experimento. Antes de continuar con el concepto de suceso o evento conviene señalar que un espacio muestral puede ser finito ( si está formado por un conjunto finitos de resultados) o infinito. Dentro los espacios infinitos se puede diferenciar entre los infinitos numerables e infinitos no numerables. Tanto a los espacios finitos como a los infinitos numerables se les suele conocer como espacios discretos, mientras a que los infinitos no numerable se conoce también como continuos.
168
Habiéndose definido previamente el concepto de suceso, a continuación vamos a dar una tipología de los mismos dentro de la cual se distingue: suceso elemental, suceso compuesto (consta de dos o más sucesos elementales), suceso seguro o universal (coincide con el espacio muestral) y suceso imposible (no contiene ningún elemento del espacio muestral E y por tanto no ocurrirá nunca y lo denotaremos por ). Ejemplo 1. En el experimento que consiste en lanzar un dado de seis caras vamos a concretar los conceptos de suceso elemental, suceso compuesto o evento, suceso seguro, suceso imposible, espacio muestral y naturaleza del mismo. En este experimento si admitimos que cada una de las caras se identifican por los enteros que van del 1 al 6, de forma que a la cara uno se la identifica por el valor 1, a la dos por el valor 2, y así sucesivamente, entonces los sucesos elementales de este experimento, que representaremos por ei, serán los enteros e1 =1, e2 =2, e3 =3, e4 =4, e5 =5, e6 =6. A partir de éstos se pueden definir otros eventos. Así, el evento A = “número par” se define como A = {2, 4, 6}, el evento B = “número primo” viene dado por B = {1, 2, 3, 5}, etc. A su vez el suceso seguro en este experimento es E = “que salga alguna cara” y está formado por E = {1, 2, 3, 4, 5, 6}. Sobre un experimento aleatorio
se puede definir más de un suceso imposible, aunque todos ellos satisfacen la definición dada con anterioridad. Así en este ejemplo sería sucesos imposibles los = “obtener la cara dos y medio”, etc. siguientes: = “que sal la cara siete”, Finalmente el espacio muestral asociado a este experimento vendría dado por E = {1, 2, 3, 4, 5, 6}, es decir, el conjunto de todos los resultados posibles del mismo. En este caso se trata de un espacio finito y, por lo tanto, discreto. Ejemplo 2. Sea el experimento que consiste en contar el número de mujeres en una muestra de 12 parlamentarios seleccionados al azar. En este caso el espacio muestral correspondiente a este experimento viene dado por E = {0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12}, que también es finito y discreto. Para este experimento también se puede definir distintos tipos de eventos como: A = “que el número de mujeres sea mayoría”; b = “que el número de mujeres sea al menos tres”; etc.
169
Ejemplo 3. Sea el experimento que consiste en contar el número de personas que llega a la caja de un supermercado durante un mes. El espacio muestral de este experimento viene dado por E = {0, 1, 2, 3, 4, 5, ........}. En este caso estamos ante un espacio infinito numerable y, en consecuencia, también discreto. Ejemplo 4. Sea el experimento que consiste en anotar el instante en que se recibe una llamada telefónica a lo largo de un día. Si se admite que esa llamada puede ocurrir en cualquier instante de ese intervalo de 24 horas, entonces el espacio muestral será E = {el intervalo de tiempo correspondiente a las 24 horas}, que origina un espacio infinito no numerable, es decir, continuo.
OPERACIONES DE LOS SUCESOS O EVENTOS Una vez que se ha dado el concepto de suceso o evento, a continuación se van a definir las operaciones más habituales que pueden realizarse con los mismos. a) Suceso contenido en otro. Se dice que A está contenido en B y lo indicaremos por A B si todos los elementos de A pertenecen a B . Ejemplo 5. A partir del experimento definido en el Ejemplo 2, vamos a definir los sucesos A = “que haya 8 ó 9 mujeres” y B = “que haya mayoría de mujeres”. En este
caso se dice que A
B .
b) Igualdad de sucesos. Se dice que A y B son dos sucesos iguales si se cumple B y B Ì A. simultáneamente que A Ejemplo 6. Con el mismo experimento del Ejemplo 2 se puede definir los sucesos A = “mayoría de mujeres” y B = “al menos siete mujeres”. Aquí se cumple que A B y B A, por lo que A = B. c) Unión de sucesos. Dados dos sucesos A y B , se define la unión de ambos como otro suceso, que indicaremos por A B , que está formado por los elementos pertenecientes a A, o a B o a los dos a la vez. Ejemplo 7. Con el mismo experimento del Ejemplo 2 se puede definir los sucesos A = “al menos siete mujeres” y B = “más de cinco mujeres pero menos de diez”. En este
caso: A = {7, 8, 9, 10, 11, 12} B = {6, 7, 8, 9}
170
Por lo que
A
B = {7, 8, 9, 10, 11, 12}
{6, 7, 8, 9}={6, 7, 8, 9, 10, 11, 12}
d) Intersección de sucesos. Dados dos sucesos A y B , se define la intersección de B , compuesto por resultados ambos como otro suceso, que representamos por A comunes a A y B simultáneamente. Ejemplo 8. Con el mismo experimento del Ejemplo 2 se pueden definir los sucesos A = “al menos siete mujeres” y B = “más de cinco mujeres pero menos de diez”. En este
caso: A = {7, 8, 9, 10, 11, 12} B = {6, 7, 8, 9} Por lo que
A
B = {7, 8, 9, 10, 11, 12}
{6, 7, 8, 9} = { 7, 8, 9}
e) Sucesos disjuntos, incompatibles o mutuamente excluyentes. Dados dos sucesos A y B , se dicen que ambos son incompatibles, disjuntos o mutuamente excluyentes si la B= . presencia de uno impide la del otro. En tal caso ocurre que A Ejemplo 9. Con el mismo experimento del Ejemplo 2 se pueden definir los sucesos A = “al menos siete mujeres” y B = “no más de cinco mujeres”. En este caso:
A = {7, 8, 9, 10, 11, 12} B = {0, 1, 2, 3, 4, 5} Por lo que
A
B = {7, 8, 9, 10, 11, 12}
{0, 1, 2, 3, 4, 5} =
f) Complementario o contrario. Dado un suceso A, se define el complementario de A como otro suceso que ocurre cuando no ocurre A y que representaremos por A. Ejemplo 10. Con el mismo experimento del Ejemplo 2 se puede definir el sucesos A = “al menos siete mujeres”.
El complementario de este suceso es:
A= { 0, 1, 2, 3, 4, 5, 6}
171
ACTIVIDADES DE APRENDIZAJE
En base a la bibliografía sugerida realizar un análisis de por lo menos una cuartilla de contenido, en el que se explique la diferencia existente entre espacio muestral, evento, y eventos. Se entregará de manera impresa la siguiente sesión Realice diversas operaciones de los sucesos o eventos, de la bibliografía sugerida.
8.3 REGLAS DE CONTEO: COMBINACIONES Y PERMUTACIONES
El estudiante diferenciará la combinaciones y permutaciones..
Análisis Combinatorio El análisis combinatorio es la rama de las matemáticas que estudia los diversos arreglos o selecciones que podemos formar con los elementos de un conjunto dado, los cuales nos permite resolver muchos problemas prácticos, y nos va servir para resolver y comprender problemas sobre probabilidades.
Técnicas fundamentales del Análisis Combinatorio En la mayoría de los problemas de análisis combinatorio se observa que una operación o actividad aparece en forma repetitiva y es necesario conocer las formas o maneras que se puede realizar dicha operación. Para dichos casos es útil conocer determinadas técnicas o estrategias de conteo que facilitarán el cálculo señalado. Estas técnicas son: la técnica de la multiplicación, la técnica de la permutación y la técnica de la combinación.
La Técnica de la Multiplicación Según La técnica de la multiplicación, si hay m formas de hacer una cosa y hay n formas de hacer otra cosa, hay m x n formas da hacer ambas cosas En términos de fórmula Número total de arreglos = m x n Esto puede ser extendido a más de dos eventos. Para tres eventos, m, n, y o:
172
Número total de arreglos = m x n x o Ejemplo: Un vendedor de autos quiere presentar a sus clientes todas las diferentes opciones con que cuenta: auto convertible, auto de 2 puertas y auto de 4 puertas, cualquiera de ellos con rines deportivos o estándar. ¿Cuántos diferentes arreglos de autos y rines puede ofrecer el vendedor? Para solucionar el problema podemos emplear la técnica de la multiplicación, (donde m es número de modelos y n es el número de tipos de rin). Número total de arreglos = 3 x 2 No fue difícil de listar y contar todos los posibles arreglos de modelos de autos y rines en este ejemplo. Suponga, sin embargo, que el vendedor tiene para ofrecer ocho modelos de auto y seis tipos de rines. Sería tedioso hacer un dibujo con todas las posibilidades. Aplicando la técnica de la multiplicación fácilmente realizamos el cálculo: Número total de arreglos = m x n = 8 x 6 = 48
La Técnica de la Permutación Es un conjunto de números o elementos (n) tomados de r en r a la vez y cuyos arreglos responden a un orden determinado. Nos interesa el orden en que estos se hacen. Como vimos anteriormente la técnica de la multiplicación es aplicada para encontrar el número posible de arreglos para dos o más grupos. La técnica de la permutación es aplicada para encontrar el número posible de arreglos donde hay solo u grupo de objetos. Como ilustración analizaremos el siguiente problema: Tres componentes electrónicos - un transistor, un capacitor, y un diodo - serán ensamblados en una tablilla de una televisión. Los componentes pueden ser ensamblados en cualquier orden. ¿De cuantas diferentes maneras pueden ser ensamblados los tres componentes? Las diferentes maneras de ensamblar los componentes son llamadas permutaciones, y son las siguientes: TDC TCD
DTC DCT
CDT CTD
Permutación: Todos los arreglos de r objetos seleccionados de n objetos posibles
173
La fórmula empleada para contar el número total de diferentes permutaciones es: P nr = n Pr =
Donde: nPr es el número de permutaciones posible n es el número total de objetos r es el número de objetos utilizados en un mismo momento (1 en 1, 2 en 2, 3 en 3, etc.)
nPr=
n! (n – r )!
=
3! ( 3 – 3 )!
=
3x2 1
=6
Ejemplo: Suponga que hay ocho tipos de computadora pero solo tres espacios disponibles para exhibirlas en la tienda de computadoras. ¿De cuantas maneras diferentes pueden ser arregladas las 8 máquinas en los tres espacios disponibles?
nPr=
n! (n – r )!
=
8! ( 8 – 3 )!
=
8! 5!
= 336
En el análisis anterior los arreglos no presentan repeticiones, es decir, no hay dos espacios disponibles con el mismo tipo de computadora. Si en los arreglos se permite la repetición, la fórmula de permutaciones es la siguiente: n Pr = nr Para ilustrar el punto, queremos saber ¿cuántas series de 2 letras se pueden formar con las letras A, B, C, si se permite la repetición? Las permutaciones son las siguientes: AA, AB, AC, BA, CA, BB, BC, CB, CC Usando la fórmula:
n Pr = nr = 3P2 = 32 = 9 La Técnica de la Combinación En una permutación, el orden de los objetos de cada posible resultado es diferente. Si el orden de los objetos no es importante, cada uno de estos resultados se denomina combinación. Por ejemplo, si se quiere formar un equipo de trabajo formado por 2 personas seleccionadas de un grupo de tres (A, B y C). Si en el equipo hay dos
174
funciones diferentes, entonces si importa el orden, los resultados serán permutaciones. Por el contrario si en el equipo no hay funciones definidas, entonces no importa el orden y los resultados serán combinaciones. Los resultados en ambos casos son los siguientes: Permutaciones: AB, AC, BA, CA, BC, CB Combinaciones: AB, AC, BC Combinaciones : Es el número de formas de seleccionar r objetos de un grupo de n objetos sin importar el orden. La fórmula de combinaciones es:
r n = n C r =
Ejemplo: En una compañía se quiere establecer un código de colores para identificar cada una de las 42 partes de un producto. Se quiere marcar con 3 colores de un total de 7 cada una de las partes, de tal suerte que cada una tenga una combinación de 3 colores diferentes. ¿Será adecuado este código de colores para identificar las 42 partes del producto? Usando la fórmula de combinaciones:
nCr=
n! r! (n – r )!
=
7! 3! ( 7 – 3 )!
=
7! 3! 4!
= 35
El tomar tres colores de 7 posibles no es suficiente para identificar las 42 partes del producto.
ACTIVIDADES DE APRENDIZAJE
Realice diversas operaciones de combinación y permutación, de la bibliografía sugerida.
175
8.4 REGLAS DE LA PROBABILIDAD
El estudiante concoerá y comprenderá las reglas de la probabilidad. Probabilidad axiomática. Para dar esta definición es preciso, previamente, definir el concepto de s-álgebra de Boole. Un s-álgebra de Boole, que representaremos por A=P(E), es una familia de sucesos no vacía, la cual contiene necesariamente los sucesos y E y que, además, es cerrada para las operaciones de complementación y de unión de infinitos subconjuntos numerables de E, sien E el espacio muestral del experimento. En base a este concepto, la probabilidad axiomática se define como una función de conjunto, que llamaremos P, cuyo dominio es el sálgebra de Boole y cuyo recorrido es el intervalo cerrado [0,1] si además satisface los tres axiomas siguientes (axiomas de Kolmogorov):
A continuación vamos enunciar una serie de teoremas sobre probabilidad, de gran utilidad, que se deducen de los axiomas anteriores. 1. Para cualquier suceso AÎA se verifica que la probabilidad de su complementario
Para demostrar este teorema partimos de que:
176
Por otro lado según los axiomas segundo y tercero se tiene que:
por lo que:
2. La probabilidad del suceso imposible es nula.
Si en el teorema 1 se hace que
por lo que
3. La probabilidad P es monótona no decreciente, es decir, para cualesquiera sucesos A, , tales que . , entonces Para demostrar este teorema se parte de que
Pero según los axiomas primero y tercero resulta que
4. Para cualquier suceso La primera desigualdad de este teorema es el primero de los axiomas. En cuanto a la segunda se tiene que , por lo que, según el teorema anterior, resulta que:
5. Regla de la suma. Para cualesquiera sucesos A ,
.
se verifica que
177
Para demostrar este teorema vamos a expresar los sucesos de los siguientes sucesos disjuntos:
y A como la unión
A su vez, la probabilidad probabilidad de los mismos, según el tercero de los axiomas, viene dada por:
De la segunda probabilidad se deduce que
Si ahora se sustituye este resultado en P
se llega a que
Ejemplo 12. Sean A y B dos sucesos tales que : P
=
178
Ejemplo: La probabilidad de que las acciones de una empresa financiera coticen al alza es 0,8, mientras que esa probabilidad para una empresa del sector nuevas tecnologías es 0,4. A su vez, la probabilidad de que las dos coticen al alza es 0,3. Obtenga las siguientes probabilidades: a) que coticen al alza al menos una de las dos empresas; b) que ninguna de las dos cotice al alza; c) que solo cotice una al alza. Para dar solución a este ejercicio vamos a proceder en primer lugar a definir los siguientes sucesos: A = la empresa empresa del sector sector financiero financiero cotiza cotiza al alza. B = la empresa del sector nuevas tecnologías cotiza al alza. C = al menos una empresa cotiza al alza. D = ninguna de las dos empresas cotiza al alza. E = solo una empresa cotiza al alza. ,3. a) A partir del enunciado sabemos que P(A) = 0,8; P(B) = 0,4 y P(A B) = 0,3. Con ello tenemos que:
P(C)= P(AB) = P(A) + P(B) – P(A B) = 0,8 + 0,4 – 0,3 = 0,9 c) El suceso D se puede expresar como:
Este resultado nos lleva a que:
d) El suceso E se puede expresar como
Pero como se trata de la unión de dos sucesos disjuntos, entonces la probabilidad del suceso E es:
179
Ahora bien
A su vez:
Todo ello nos permite escribir:
ACTIVIDADES DE APRENDIZAJE
Ejemplifique las reglas de la probabilidad, tome de referencia la bibliografía sugerida.
8.5 EVENTOS DEPENDIENTES, INDEPENDIENTES Y CONDICIONALES
El estudiante concoerá y diferenciará eventos dependientes, independientes y condicionales..
Eventos Independientes Dos o más eventos son independientes cuando la ocurrencia o no-ocurrencia de un evento no tiene efecto sobre la probabilidad de ocurrencia del otro evento (o eventos). Un caso típico de eventos independiente es el muestreo con reposición, es decir, una vez tomada la muestra se regresa de nuevo a la población donde se obtuvo.
180
Dos eventos, A y B , son independientes si la ocurrencia de uno no tiene que ver con la ocurrencia de otro. Por definición, A es independiente de B si y sólo si:
Esto implica que:
Independientes es diferente a mutuamente exclusivos.
Ejemplo : Lanzar al aire dos veces una moneda son eventos independientes por que el resultado del primer evento no afecta sobre las probabilidades efectivas de que ocurra cara o sello, en el segundo lanzamiento.
Eventos dependientes Dos o más eventos serán dependientes cuando la ocurrencia o no-ocurrencia de uno de ellos afecta la probabilidad de ocurrencia del otro (o otros). Cuando tenemos este caso, empleamos entonces, el concepto de probabilidad condicional para denominar la probabilidad del evento relacionado. La expresión P(A|B) indica la probabilidad de ocurrencia del evento A sí el evento B ya ocurrió.
Se debe tener claro que A|B no es una fracción. P(A|B) = P(A y B)/P(B) o P(B|A) = P(A y B)/P(A)
Probabilidad Condicional Si A y B son dos eventos en S , la probabilidad de que ocurra A dado que ocurrió el evento B es la probabilidad condicional de A dado B , y se denota
.
181
La probabilidad condicional por definición es: , dado P (B ) > 0 Ejemplo:
Para un dado, si sé que cayó impar, cuál es la probabilidad de 3?
Similarmente:
De donde:
Esta expresión se conoce como el Teorema de Bayes , que en su forma más general es:
El denominador se le conoce como el teorema de la probabilidad total. Teorema 4: Si B 1,B 2,...,B k representan una partición (exclusivos, exhaustivos y mayores a cero) de S , y A es un evento respecto a S , entonces la probabilidad de A la podemos escribir como:
ACTIVIDADES DE APRENDIZAJE
Desarrolle ejercicios de eventos dependientes, independientes y condicionales, de la bibliografía sugerida.
182
8.6 TEOREMA DE BAYES
El estudiante concoerá y aplicará el teorema de Bayes. El Teorema de BAYES se apoya en el proceso inverso en el Teorema de la Probabilidad Total. Teorema de la probabilidad total: a partir de las probabilidades del suceso A (probabilidad de que llueva o de que haga buen tiempo) deducimos la probabilidad del suceso B (que ocurra un accidente). Teorema de Bayes: a partir de que ha ocurrido el suceso B (ha ocurrido un accidente) deducimos las probabilidades del suceso A (¿estaba lloviendo o hacía buen tiempo?).
La fórmula del Teorema de Bayes es:
Tratar de explicar estar fórmula con palabras es un galimatías, así que vamos a intentar explicarla con un ejemplo. De todos modos, antes de entrar en el ejercicio, recordar que este teorema también exige que el suceso A forme un sistema completo. Primer ejemplo. El parte meteorológico ha anunciado tres posibilidades para el fin de semana: a) Que llueva: probabilidad del 50%. b) Que nieve: probabilidad del 30% c) Que haya niebla: probabilidad del 20%. Según estos posibles estados meteorológicos, la posibilidad de que ocurra un accidente es la siguiente: a) Si llueve: probabilidad de accidente del 20%. b) Si nieva: probabilidad de accidente del 10% c) Si hay niebla: probabilidad de accidente del 5%.
183
Resulta que efectivamente ocurre un accidente y como no estábamos en la ciudad no sabemos que tiempo hizo (llovió, nevó o hubo niebla). El teorema de Bayes nos permite calcular estas probabilidades: Las probabilidades que manejamos antes de conocer que ha ocurrido un accidente se denominan "probabilidades a priori" (lluvia con el 50%, nieve con el 30% y niebla con el 20%). Una vez que incorporamos la información de que ha ocurrido un accidente, las probabilidades del suceso A cambian: son probabilidades condicionadas P (A/B), que se denominan "probabilidades a posteriori". Vamos a aplicar la fórmula:
a) Probabilidad de que estuviera lloviendo:
La probabilidad de que efectivamente estuviera lloviendo el día del accidente (probabilidad a posteriori) es del 71,4%. b) Probabilidad de que estuviera nevando:
La probabilidad de que estuviera nevando es del 21,4%. c) Probabilidad de que hubiera niebla:
La probabilidad de que hubiera niebla es del 7,1%
184
ACTIVIDADES DE APRENDIZAJE
Elabore ejercicios del teorema de Bayes, de la bibliografía sugerida.
8.7 DIAGRAMA DE ÁRBOL
El estudiante aplicará el diagrama de árbol. Un diagrama de árbol es una representación gráfica que ilustra las formas en las que se llevan a cabo las agrupaciones de elementos. Ejemplo: Una persona tiene 4 camisas de color azul, negro, verde y beige; así mismo tiene 5 pantalones azul marino, negro, gris, beige y café. ¿de cuántas formas diferentes puede vestirse esta persona? Si llamamos C 1,C 2,C 3 y C 4 a las diferentes camisetas y P 1,P 2,P 3,P 4 y P 5 a los distintos pantalones, obtendríamos el diagrama de árbol que se muestra en la figura 1. Si contamos los resultados, comprobamos que obtenemos los 20 que indicaba el principio de la multiplicación.
185
En los diagramas de árbol se emplea una nomenclatura propia, que describimos a continuación:
Árbol: es el diagrama completo. Raíz: es el punto en el cual se origina el árbol. En la figura, la raíz sería el punto desde donde parten las cuatro flechas que llegan hasta las cuatro opciones de camiseta. Ramas: son las distintas bifurcaciones. En la figura se corresponden con las flechas del gráfico. Nodos o nudos: son los puntos desde los que surgen nuevas bifurcaciones. En la figura, los nodos serían los puntos en los que tenemos las 4 opciones de camiseta: C 1,C 2,C 3 y C 4. Hojas: son los puntos finales, desde los cuales no surgen nuevas bifurcaciones. En la figura, las hojas son los puntos correspondientes a las 5 opciones de pantalón (todos los nombrados como P 1,P 2,P 3,P 4 y P 5, 20 puntos en total). Nivel: es el número de ramas que separa a un nodo u hoja de la raíz. La raíz corresponde al nivel 0 y, en la figura, las opciones de camiseta estarán en el nivel 1 y las de pantalón en el nivel 2. Camino: es cualquier recorrido por las ramas del árbol, desde la raíz hasta alguna de sus hojas. En la figura tenemos 20 caminos diferentes.
ACTIVIDADES DE APRENDIZAJE
Elabore ejercicios del diagrama de árbol, de la bibliografía sugerida.
8.8 ESPERANZA MATEMÁTICA
El estudiante concocerá y resolverá problemas de esperanza matemática. En estadística la esperanza matemática (o simplemente esperanza) o valor esperado de una variable aleatoria es la suma del producto de la probabilidad de cada suceso por el valor de dicho suceso. Por ejemplo, en un juego de azar el valor esperado es el beneficio medio.
186
Si todos los sucesos son de igual probabilidad la esperanza es la media aritmética. La esperanza matemática de una función g(X) está dada por
[4.3] donde f(X) es, respectivamente, la función de probabilidad o la función densidad de probabilidad y g(X) es cualquier función de valores reales que está definida para todos los valores posibles de X.
Ejemplo. La probabilidad de que una casa de cierto tipo quede destruida por un incendio en cualquier período de doce meses es de 0.005. Una compañía de seguros ofrece al propietario una póliza de seguros contra incendio por $20,000.00 (dólares) a un año con una prima de $150.00 dólares. ¿Cuál es la ganancia esperada de la compañía? Solución: Sea S = {se incendie, no se incendie}, el espacio muestral, La variable aleatoria asociada es X = {0,1}, donde 0 significa que se incendie y 1 que no se incendie (estos valores son arbitrarios). g(X) representa la ganancia de la compañía por cada casa asegurada (sin tomar en cuenta gastos). La situación se explica mejor en una tabla. Evento
X
g(X)
f(X)
Se incendie
0
-$19,850.00
0.005
No se incendie
1
+$150.00
0.995
En caso de que la compañía asegure 20,000 casas, su ganancia esperada sería de $1,000,000.00 (sin tomar en cuenta gastos). La esperanza matemática de una función g(X) está definida por:
187
PROPIEDADES DE LA ESPERANZA MATEMÁTICA Proposición: E[a g(X) +b h(X)] = a E[g(X)]+b E[h(X)]; a, b constantes. [4.4] Demostración:
Nota si X es discreta, la demostración se hace en la misma forma, usando sumatorias en vez de integrales. Proposición: E[c 1 X + c 2 ] = c 1 E [X] + c 2 [4.5] Demostración:
ACTIVIDADES DE APRENDIZAJE
Elabore ejercicios de esperanza matemática, de la bibliografía sugerida.
188
INSTRUCCIONES: Lea detenidamente y anote dentro del paréntesis “v” si el enunciado es verdadero y “f” si en falso. (recuerde que la forma de evaluar esta sección es aciertos menos errores). 1.
La probabilidad 0, significa que algo nunca va a suceder.
(
)
2.
El experimento aleatorio es el que puede dar lugar a más de un resultado, por lo que, no se puede predecir uno de ellos en una prueba particular.
(
)
3.
La combinación es todo arreglo de elementos donde nos interesa el lugar o posición donde son colocados lo elementos.
(
)
4.
Con las cifras 1,2,3,4,5 y 6. Se pueden hacer 120 números con 3 cifras que sean diferentes?
(
)
5.
El diagrama de árbol es la representación gráfica útil para identificar los puntos muestrales de un experimento con varias etapas.
(
)
INSTRUCCIONES: Lea detenidamente los siguientes conceptos respuesta a la que corresponda dicho concepto
y subraye la
1.
Son el conjunto de posibles resultados de un experimento aleatorio.
a) b) c) d)
Espacio muestral Evento simple Evento imposible Experimento determinístico
2. Es todo aquel resultado o grupo de resultados que pueden dar origen a un experimento aleatorio a) b) c) d)
Experimento aleatorio Evento dependiente Evento excluyente Evento
3. Son aquellos eventos que no pueden ocurrir simultáneamente al realizar una sola vez un experimento. a) b)
Compuesto Imposible
189
c) d)
Dependiente Mutuamente excluyente
4. Una moneda de $ 5.00 pesos se lanza al aire 8 veces, ¿Cuál es la probabilidad de que por lo menos aparezcan 6 soles? a) b) c) d)
14.45% 25% 50% 75%
5. Es el producto de todos los números consecutivos decrecientes que comienzan en 1 hasta n, entonces. a) b) c) d)
Combinación Permutación Variación Factorial
6. ¿Cuál es la probabilidad de sacar 2 ases consecutivos en 2 cartas tomadas al azar de un juego ordinario de una baraja de 40 cartas, si no se sustituye la primera carta antes de sacar la segunda carta? a) b) c) d)
.0777% .777% 7.77% 77.7%
7. Se denomina así al conjunto de todos los resultados posibles de un experimento. a) b) c) d)
Muestra Estadística Probabilidad Espacio muestral
INSTRUCCIONES: Lea detenidamente respuesta correcta.
y conteste en los espacios en blanco la
1. La _______________________ es la posibilidad de que algo pase. Se expresa como fracción o decimales que están entre 1 y 0. 2. El experimento _______________________ es en el que es posible predecir el resultado final de ese proceso, aun sin haberlo realizado. 3. Los eventos _______________ son aquellos sucesos constituidos por todos los eventos simples de un espacio muestral
190
4. La ______________________ es la combinación lineal de un conjunto de variables formadas en la técnica multivariante mediante la derivación de los pesos empíricos aplicados a un conjunto de variables especificadas por el investigador. 5. El ___________________________de una variable aleatoria discreta, se puede considerar como su promedio ponderado sobre todos los resultados posibles siendo las ponderaciones la probabilidad relacionada con cada uno de los resultados. 6. nPr = n
7. nCr = n
!
es la fórmula para las ________________. i. (n-r)! !
es la fórmula para las _____________________________ i. r! (n-r)!
191
UNIDAD 9 VARIABLES ALEATORIAS DISCRETAS Y SU DISTRIBUCIÓN DE PROBABILIDAD
El estudiante identificará los tipos de variables aleatorias relacionadas con experimentos aleatorios discretos y con base a sus valores probabilísticos, podrá describir su comportamiento. Calculará las probabilidades asociadas a eventos de datos provenientes de variables aleatorias: Bernoulli, Binomial, Multinomial, de Poisson, Geométrica, Hipergeométrica y analizará los tipos de variables aleatorias.
Temario: 9.
VARIABLES ALEATORIAS PROBABILIDAD 9.1 9.2 9.3 9.4 9.5 9.6 9.7
DISCRETAS
Y
SU
DISTRIBUCIÓN
DE
PROBABILIDAD CLÁSICA, FRECUENCIAL Y SUBJETIVA DISTRIBUCIÓN DE PROBABILIDAD DE UNA VARIABLE ALEATORIA DISCRETA DISTRIBUCIÓN BERNOULLI DISTRIBUCIÓN BINOMIAL Y MULTINOMIAL DISTRIBUCIÓN DE POISSON DISTRIBUCIÓN GEOMÉTRICA DISTRIBUCIÓN HIPERGEOMÉTRICA
192
MAPA CONCEPTUAL VARIABLES ALEATORIAS DISCRETAS Y SU DISTRIBUCIÓN DE PROBABILIDAD 9. VARIABLES ALEATORIAS DISCRETAS Y SU DISTRIBUCION DE PROBABILIDAD
9.1PROBABILIDA D CLÁSICA, FRECUENCIAL Y SUBJETIVA
9.4 DISTRIBUCIÓN BINOMIAL Y MULTINOMIAL
9.6 DISTRIBUCIÓN GEOMÉTRICA
9.2 DISTRIBUCIÓN DE PROBABILIDA D DE UNA VARIABLE ALEATORIA DISCRETA
9.3 DISTRIBUCIÓN
9.5 DISTRIBUCIÓN DE POISSON
9.7 DISTRIBUCIÓN HIPERGEOMÉTRICA
193
INTRODUCCIÓN En el estudio de variables, casi siempre se le da interés a las probabilidades con que toman los diversos valores dentro de su amplitud, específicamente en las distribuciones de probabilidad. A la presentación de las variables aleatorias y las distribuciones de la probabilidad, seguirá el análisis de algunas distribuciones.
194
9. VARIABLES ALEATORIAS DISCRETAS Y SU DISTRIBUCIÓN DE PROBABILIDAD 9.1 PROBABILIDAD CLÁSICA, FRECUENCIAL Y SUBJETIVA
El estudiante concocerá y diferenciará la probabilidad clásica, frecuencial y subjetiva. El concepto de probabilidad es muy antiguo y a lo largo de la historia se ha definido de distintas formas, aunque todas ellas mantienen en común las características básicas del concepto. En general cuando hablemos de probabilidad lo haremos siempre en referencia a la probabilidad de un suceso y la entenderemos como una medida cuantificada de la verosimilitud de ocurrencia de un suceso frente a los demás sucesos del experimento. Pero qué duda cabe que esta definición no es del todo buena, pues se utiliza el término verosimilitud para definir la probabilidad, cuando el mismo es un sinónimo de lo que se quiere definir. También podría hablarse del grado de incertidumbre en la ocurrencia de los resultados de un experimento. En cualquier caso la probabilidad de un suceso es una medida cuantificable que toma valores entre cero y uno a diferencia del concepto de posibilidad que es una medida cualitativa. Una vez que se ha dado el concepto de probabilidad en sentido amplio debemos señalar que a lo largo de la historia podemos encontrar tres formas distintas de definir o interpretar la probabilidad. Cada uno de ellas responde a un tipo de experimento distinto. En concreto, supongamos que queremos calcular la probabilidad de los siguientes sucesos:
Obtener un seis al lanzar un dado honesto. Obtener un seis al lanzar un dado cargado. Que la tasa de crecimiento del VAB de España sea superior al 4%.
Para obtener esas probabilidades hay que recurrir a enfoque o definiciones distintas. En realidad esos enfoques sirven para establecer reglas de asignación de probabilidades a los sucesos más que para definir la probabilidad.
Probabilidad clásica o a priori (Regla de Laplace) Si el experimento que estamos realizando da lugar a un espacio muestral E que es finito y cuyos resultados son conocidos de antemano y equiprobables o simétricos, entonces, la probabilidad del suceso A perteneciente a E se define como el cociente de los resultados favorables a A respecto del total de resultados posibles.
195
A esta expresión se le conoce como regla de Laplace. Este concepto de probabilidad está íntimamente ligado a los juegos de azar. Esta definición satisface tres propiedades: 1) No negatividad,
.
2) Certeza, 3) Aditividad. Si A y B son dos sucesos del espacio E y ambos son mutuamente excluyentes, entonces la probabilidad de
Antes de finalizar con este concepto de probabilidad hay que señalar la razón de su denominación. Así el adjetivo “clásica” hace alusión a que fue la forma en la que los primeros estadísticos abordar on este concepto. A su vez el término “a priori” se refiere
a que la probabilidad de cualquiera de los sucesos de este tipo de experimentos es conocida incluso antes que los mismos tengan lugar. De hecho no es necesario realizar el experimento para conocer las probabilidades de sus resultados.
Probabilidad frecuencial o a posteriori . En este caso la probabilidad de un suceso A se define como el límite de una frecuencia relativa, cuando el experimento se realiza un número infinito de veces. Formalmente diremos que:
Esta definición de probabilidad cumple también las tres propiedades enunciadas en el caso anterior. Con este concepto de probabilidad lo que se pretende es dar respuesta a experimentos en los que no se cumplen los requisitos señalados antes, en especial el de equiprobabilidad o simetría de los resultados. Esta circunstancia conlleva que la probabilidad de cada resultado no sea conocido de antemano, siendo necesaria la realización del experimento para la cuantificación de la misma.
196
Con esta definición se puede determinar la probabilidad de: las caras de un dado cuando el mismo está cargado; pieza defectuosa en la producción de una empresa; accidente de tráfico; factura impagada; cliente moroso; que el cliente de un establecimiento comercial sea menor de 25 años; que los ingresos de una persona sea superior a la media; etc. La probabilidad definida bajo este enfoque también satisface las tres propiedades dadas anteriormente.
Ejemplo. Los 1000 empleados de una empresa, según la edad y el sexo de los mismos, vienen dados en la siguiente tabla de doble entrada.
Obtenga la probabilidad de que elegido un empleado al azar el mismo sea: a) Hombre b) Mujer c) Menor de 30 años d) De 30 o más años e) Mujer menor de 30 años f) Hombre de 30 y más años Antes de calcular esas probabilidades vamos a definir simbólicamente cada uno de esos sucesos: A = el empleado seleccionado es hombre B = el empleado seleccionado es mujer C = el empleado seleccionado es menor de 30 años D = el empleado seleccionado tiene 30 o más años
197
Definidos los sucesos de esta forma, las probabilidades pedidas son: a) P(A) = (700/1000) = 0,7 b) P(B) = (300/1000) = 0,3 c) P(C) = (350/1000) = 0,35 d) P(D) = (650/1000) = 0,65 e) P(B C) = (100/1000) = 0,10 f) P(A D) = (450/1000) = 0,45
Probabilidad subjetiva. Hay determinados experimentos aleatorios que no son susceptibles de realizarse y sus resultados no son equiprobables. Imaginemos que se quiere determinar la probabilidad: de que la economía de España crezca en el próximo año un 3%; que las acciones de una empresa se revaloricen en un 10% en un mes; que una empresa presente suspensión de pagos; que un nuevo producto sea bien acogido en el mercado; que ocurra un accidente nuclear; etc. En estas circunstancias, donde los experimentos solo se pueden realizar una vez o ninguna o que se puedan repetir pero en condiciones distintas, no son aplicables ninguna de las dos definiciones dadas anteriormente, por lo que no es posible asignar probabilidades mediante un procedimiento objetivo, debiendo recurrir a procedimientos de tipo subjetivo, a opiniones de expertos. En estos casos la probabilidad expresa un grado de creencia o confianza individual en relación con la ocurrencia o no de un determinado suceso. Se trata de un juicio personal sobre el resultado de un experimento aleatorio. Además debemos admitir la posibilidad de que distintos sujetos asignen probabilidades diferentes al mismo suceso. No obstante esta definición de probabilidad también satisface las tres propiedades vistas antes.
ACTIVIDADES DE APRENDIZAJE
Elabore algunos ejemplos de las probabilidades vistas aquí.
198
9.2 DISTRIBUCIÓN DE PROBABILIDAD DE UNA VARIABLE ALEATORIA DISCRETA
El estudiante diferenciará la distribución de probabilidad de una variable aleatoria discreta. Recordemos inicialmente que existen las variables aleatorias, siendo aquellas que se asocian a la ocurrencia de un fenómeno aleatorio. Cuando una de estas variables aleatorias toma diversos valores, la probabilidad asociada a cada uno de tales valores puede ser organizada como una distribución de probabilidad, la cual es la distribución de las probabilidades asociadas a cada uno de los valores de la variable aleatoria. Las distribuciones de probabilidad pueden representarse a través de una tabla, una gráfica o una fórmula, en cuyo caso tal regla de correspondencia se le denomina función de probabilidad. Consideraremos primero las distribuciones de probabilidad para variables discretas. Por ejemplo: Consideremos a la variable aleatoria X como la cantidad de águilas observadas cuando se lanzan dos volados. El espacio muestral es el conjunto { AA, AS , SA, SS } y se puede ver que la variable X puede tomar como valores 0, 1 y 2. Calculando las probabilidades tenemos:
P (de no observar águilas) P (de observar una águila) P (de observar dos águilas)
= P (SS )
= P (SA È AS ) = P (AA)
= P (X =0) = ¼ = P (X =1) = 2/4 = P (X =2) = ¼
Si ahora se organizan estos resultados con el siguiente formato
X
P (X =x )
0
¼
1
2
2
¼
/4
se podrá explicar por qué se usa el nombre "distribución de probabilidad". E, incluso, con esta información se puede construir una gráfica de barras o un histograma como el que sigue:
199
Las propiedades de las distribuciones de variables discretas son dos, y que posteriormente, al hablar de las distribuciones de variables continuas, se repetirán de manera muy similar: 1. 0 £ P (X =x ) £ 1. 2. SP (X =x ) = 1, o que es lo mismo: la suma de todas las probabilidades de los eventos posibles de una variable aleatoria es igual a la unidad. Hay que hacer notar que estas propiedades se enuncian suponiendo que conocemos el valor de la probabilidad, pero en la realidad esto no ocurre, es decir que no sabemos la probabilidad y lo que se hace es trabajar con estimaciones. Precisamente esto nos lleva a modelos teóricos que estiman los resultados, los principales son los que a continuación se presentan. Modelos de distribuciones de probabilidad de variables discretas
Uniforme. Es la distribución donde todos los eventos elementales tienen la misma probabilidad. Por ejemplo: tirar un dado, donde la función P (X =x )=1/6 para valores de x =1,2,3,4,5,6. Binomial. Es la que maneja la distribución de la probabilidad de obtener cierta cantidad de éxitos al realizar una cantidad de experimentos con probabilidad de éxito constante y con ensayos independientes. Geométrica. Es la distribución de la probabilidad de realizar cierto número de experimentos antes de obtener un éxito. Hipergeométrica. Es similar a la binomial, pero con un tamaño de muestra grande en relación al tamaño de la población. La función de Excel que proporciona sus valores es DISTR.HIPERGEOM De Poisson. Es la distribución de la probabilidad de que ocurra un evento raro en un periodo de tiempo, un espacio o un lugar. La función de Excel que da los valores de la distribución es POISSON
200
ACTIVIDADES DE APRENDIZAJE
Elabore ejercicios, de probabilidad de una variable aleatoria discreta de la bibliografía sugerida.
9.3 DISTRIBUCIÓN BERNOULLI
El estudiante aplicará la distribución de Bernoulli. La distribución de Bernoulli es el modelo que sigue un experimento que se realiza una sola vez y que puede tener dos soluciones: acierto o fracaso: Cuando es acierto la variable toma el valor 1 Cuando es fracaso la variable toma el valor 0 Ejemplo: Probabilidad de salir cara al lanzar una moneda al aire (sale cara o no sale); p probabilidad de ser admitido en una universidad (o te admiten o no te admiten); p probabilidad de acertar una quiniela (o aciertas o no aciertas) Al haber únicamente dos soluciones se trata de sucesos complementarios: A la probabilidad de éxito se le denomina "p" A la probabilidad de fracaso se le denomina "q" Verificándose que: p+q=1 Veamos los ejemplos antes mencionados : Ejemplo 1: Probabilidad de salir cara al lanzar una moneda al aire: Probabilidad de que salga cara: p = 0,5 Probabilidad de que no salga cara: q = 0,5 p + q = 0,5 + 0,5 = 1 Ejemplo 2: Probabilidad de ser admitido en la universidad: Probabilidad de ser admitido: p = 0,25 Probabilidad de no ser admitido: q = 0,75 p + q = 0,25 + 0,75 = 1
201
Ejemplo 3: Probabilidad de acertar una quiniela: Probabilidad de acertar: p = 0,00001 Probabilidad de no acertar: q = 0,99999 p + q = 0,00001 + 0,99999 = 1
ACTIVIDADES DE APRENDIZAJE Elabore ejercicios de la distribución de Bernoulli, de la bibliografía sugerida.
9.4
DISTRIBUCIÓN BINOMIAL Y MULTINOMIAL
El estudiante aplicará la distribución binomial y multinomial. La distribución binomial parte de la distribución de Bernoulli: La distribución de Bernoulli se aplica cuando se realiza una sola vez un experimento que tiene únicamente dos posibles resultados (éxito o fracaso), por lo que la variable sólo puede tomar dos valores: el 1 y el 0 La distribución binomial se aplica cuando se realizan un número "n" de veces el experimento de Bernoulli, siendo cada ensayo independiente del anterior. La variable puede tomar valores entre: 0: si todos los experimentos han sido fracaso n: si todos los experimentos han sido éxitos Ejemplo: se tira una moneda 10 veces: ¿cuántas caras salen? Si no ha salido ninguna la variable toma el valor 0; si han salido dos caras la variable toma el valor 2; si todas han sido cara la variable toma el valor 10 La distribución de probabilidad de este tipo de distribución sigue el siguiente modelo:
202
Ejemplo 1: ¿Cuál es la probabilidad de obtener 6 caras al lanzar una moneda 10 veces? " k " es el número de aciertos. En este ejemplo " k " igual a 6 (en cada acierto decíamos que la variable toma el valor 1: como son 6 aciertos, entonces k = 6) " n" es el número de ensayos. En nuestro ejemplo son 10 " p " es la probabilidad de éxito, es decir, que salga "cara" al lanzar la moneda. Por lo tanto p = 0,5 La fórmula quedaría:
Luego, P (x = 6) = 0,205 Es decir, se tiene una probabilidad del 20,5% de obtener 6 caras al lanzar 10 veces una moneda. Ejemplo 2:¿Cuál es la probabilidad de obtener cuatro veces el número 3 al lanzar un dado 8 veces? " k " (número de aciertos) toma el valor 4 " n" toma el valor 8 " p " (probabilidad de que salga un 3 al tirar el dado) es 1 / 6 (= 0,1666) La fórmula queda:
Luego, P (x = 4) = 0,026 Es decir, se tiene una probabilidad del 2,6% de obtener cuatro veces el número 3 al tirar un dado 8 veces.
203
La distribución multinomial es una generalización de la distribución binomial. En este caso, en un experimento interesa estudiar no la ocurrencia de un único suceso o la de su contrario, sino la de varios sucesos (tres o más). La distribución multinomial, M(n,p1,...,pn) proporciona probabilidades de obtener, en m repeticiones independientes de un experimento, x1 veces el suceso A1, x2 veces el suceso A2,..., xn veces el suceso An, donde dichos sucesos forman una partición del espacio muestral, es decir, donde
tal que
, por tanto, se cumple
para
y
.
Así, considerando que Xi es el número de veces que se presenta el suceso Ai en las m repeticiones tenemos que la variable n-dimensional (X1, X2, ..., Xn) sigue una distribución multinomial de parámetros n, p1, ..., pn y su función de probabilidad es
para
con
.
Hay que tener en cuenta que si (X1, X2, ..., Xn) es una variable multidimensional entonces existe una relación lineal entre sus componentes ya que X1+ X2+ ...+ Xn = m, por lo que, una de las variables, por ejemplo Xn, se puede poner como combinación lineal del resto, Xn=m-X1- X2- ...- Xn-1. Por tanto, el fenómeno que describe la variable (X1, X2, ..., Xn) queda igualmente descrito por una variable de una dimensión menor, (X1, X2, ..., Xn-1), sin que esta pérdida de dimensión suponga una pérdida de información. Por ejemplo, una variable multinomial de dimensión dos (X1, X2), M(n,p1,p2), se puede describir considerando una cualquiera de sus componentes que tiene una distribución binomial, por lo que en realidad esta variable es unidimensional y no bidimensional. Además, cada una de las n variables, Xi, que forman una multinomial M(n,p1,...,pn) siguen distribuciones binomiales B(m,pi), es decir, las distribuciones marginales de una multinomial son binomiales, por tanto, la esperanza y la varianza de cada una de estas variables es, E[Xi]=m·pi y Var(Xi)=mpi(1-pi). Además la covarianza entre dos cualesquiera de sus componentes es,
.
Estos momentos de las variables componentes de una multinomial se pueden agrupar en forma de matriz dando lugar a las denominadas matriz de esperanzas y matriz de varianzas-covarianzas , que recogen las características teóricas principales de la distribución multinomial (medias, varianzas y covarianzas)
204
Ejemplo: El entrenador de un equipo de baloncesto opina que los jugadores A, B y C tienen similares aptitudes para ser titulares del equipo en la posición de base. Así, determina que juegen el mismo número de minutos cada partido. Se sabe que el 40% de las canastas son de C, mientras que A y B consiguen un 30% de encestes. Calcular la probabilidad de que en un partido con 9 encestes de dos puntos, A consiguiera dos, B tres y C cuatro. Sea la variable tridimensional que recoge el número de encestes de A, de B y de C, respectivamente. Dicha variable es una multinomial con n=9, p1=0.3, p2=0.3 y p3=0.4. Así,
ACTIVIDADES DE APRENDIZAJE
Elabore ejercicios con la distribución binomial y multinomial de la bibliografía sugerida.
9.5
DISTRIBUCIÓN DE POISSON
El estudiante aplicará la distribución de Poisson. La distribución de Poisson sigue el siguiente modelo:
Vamos a explicarla: El número "e" es 2,71828
205
" l " = n * p (es decir, el número de veces " n " que se realiza el experimento multiplicado por la probabilidad " p " de éxito en cada ensayo) " k " es el número de éxito cuya probabilidad se está calculando Veamos un ejemplo: La probabilidad de tener un accidente de tráfico es de 0,02 cada vez que se viaja, si se realizan 300 viajes, ¿cual es la probabilidad de tener 3 accidentes? Como la probabilidad " p " es menor que 0,1, y el producto " n * p " es menor que 10, entonces aplicamos el modelo de distribución de Poisson.
Luego, P (x = 3) = 0,0892 Por lo tanto, la probabilidad de tener 3 accidentes de tráfico en 300 viajes es del 8,9% Otro ejemplo: La probabilidad de que un niño nazca pelirrojo es de 0,012. ¿Cuál es la probabilidad de que entre 800 recién nacidos haya 5 pelirrojos?
Luego, P (x = 5) = 4,602 Por lo tanto, la probabilidad de que haya 5 pelirrojos entre 800 recién nacidos es del 4,6%.
ACTIVIDADES DE APRENDIZAJE Elabore ejercicios con la distribución de Poisson de la bibliografía sugerida.
206
9.6 DISTRIBUCIÓN GEOMÉTRICA
El estudiante aplicará la distribución geométrica. La distribución geométrica es un modelo adecuado para aquellos procesos en los que se repiten pruebas hasta la consecución del éxito a resultado deseado y tiene interesantes aplicaciones en los muestreos realizados de esta manera. También implica la existencia de una dicotomía de posibles resultados y la independencia de las pruebas entre sí. Proceso experimental del que se puede hacer derivar Esta distribución se puede hacer derivar de un proceso experimental puro o de Bernoulli en el que tengamos las siguientes características El proceso consta de un número no definido de pruebas o experimentos separados o separables. El proceso concluirá cuando se obtenga por primera vez el resultado deseado (éxito). Cada prueba puede dar dos resultados mutuamente excluyentes : A y no A La probabilidad de obtener un resultado A en cada prueba es p y la de obtener un resultado no A es q siendo (p + q = 1). Las probabilidades p y q son constantes en todas las pruebas ,por tanto , las pruebas ,son independientes (si se trata de un proceso de "extracción" éste se llevará a , cabo con devolución del individuo extraído) . (Derivación de la distribución). Si en estas circunstancias aleatorizamos de forma que tomemos como variable aleatoria X = el número de pruebas necesarias para obtener por primera vez un éxito o resultado A , esta variable se distribuirá con una distribución geométrica de parámetro p.
Obtención de la función de cuantía
207
De lo dicho anteriormente, tendremos que la variable X es el número de pruebas necesarias para la consecución del primer éxito. De esta forma la variables aleatoria toma valores enteros a partir del uno; í 1,2,………ý
La función de cuantía P(x) hará corresponder a cada valor de X la probabilidad de obtener el primer éxito precisamente en la X-sima prueba. Esto es, P(X) será la probabilidad del suceso obtener X-1 resultados "no A" y un éxito o resultado A en la prueba número X teniendo en cuenta que todas las pruebas son independientes y que conocemos sus probabilidades tendremos:
dado que se trata de sucesos independientes y conocemos las probabilidades
luego la función de cuantía quedaría
Algunos autores consideran la aleatorización como "número de pruebas anteriores al primer éxito". De esta manera el conseguir el éxito a la primera sería X=0 . En la siguiente representación gráfica de la función de cuantía de la geométrica puede apreciarse este tipo de aleatorización, sin embargo nosotros preferimos, por razones ACTIVIDADES DE APRENDIZAJE, utilizar la aleatorización antes comentada
208
Función de distribución En base a la función de cuantía se puede expresar la función de distribución de la siguiente manera.
desarrollando la expresión
tendríamos
de La Función Generatriz de Momentos (F.G.M.) quedaría:
por lo que queda establecida que la F.G.M. tiene la expresión
En base a la FGM podemos obtener la media y varianza:
Así Haciendo t =0 tendríamos que La varianza sería
Haciendo t =0 tendríamos que
donde
209
De esta manera Luego La moda es el valor de la variable que tiene asociada mayor probabilidad el valor de su función de cuantía es el mayor. Es fácil comprobar (véase simplemente la representación gráfica anterior) que distribución geométrica es siempre 1.
.Por lo tanto la media de la
En cuanto a la mediana Me será aquel valor de la variable en el cual la función de distribución toma el valor 0,5. Así
por lo que :
ACTIVIDADES DE APRENDIZAJE Elabore ejercicios con la distribución geométrica de la bibliografía sugerida.
9.7
DISTRIBUCIÓN HIPERGEOMÉTRICA
El estudiante aplicará la distribución Hipergeométrica. La distribución hipergeométrica multivariante H(N,m,p1,...,pn) es una generalización de la distribución hipergeómetrica. Proporciona probabilidades de extraer x1 bolas del color 1, x2 bolas del color 2,...y xn bolas del color n de una urna en la que hay N1,...Nn bolas de colores diferentes (N=N1+···+Nn).
210
Realizamos m extracciones sin reposición , y consideramos las variables, Xi, i i n número de bolas extraídas de color ( = 1, 2, ..., ). La variable n-dimensional (X1, X2, ..., Xn) sigue una distribución hipergeométrica multivariante de parámetros N, m, p1, ..., pn, donde , es decir, la proporción de bolas de color i-ésimo (i= 1, 2,..,n) en la primera extracción. NOTA: Si las extracciones se hiciesen con reposición entonces se trataría de una distribución multinomial. La función de probabilidad de la distribución hipergeométrica multivariante es
para
con
y (i = 1, 2,..., n).
Además, igual que en la distribución anterior, hay que tener en cuenta que existe una relación lineal entre las variables componentes, X1+ X2+ ...+ Xn = m, por lo que, una de las variables, por ejemplo Xn, se puede poner como combinación lineal del resto, Xn=m-X1- X2- ...- Xn-1. Por tanto, el fenómeno que describe la variable (X1, X2, ..., Xn) queda igualmente descrito por una variable de una dimensión menor, (X1, X2, ..., Xn1), sin que esta pérdida de dimensión suponga una pérdida de información. Análogamente, una variable hipergeométrica multivariante de dimensión dos (X1, X2), H(N,m,p1,p2), se puede describir considerando una cualquiera de sus componentes que tiene una distribución hipergeométrica, por lo que en realidad esta variable es unidimensional y no bidimensional. Además, cada una de las n variables, Xi, que forman una hipergeométrica H(N,m,p1,...,pn) siguen distribuciones hipergeométricas univariantes H(N,m,pi), es decir, las distribuciones marginales de una hipergeométrica multivariante son hipergeométricas, por tanto, la esperanza y la varianza de cada una de estas variables es, E[Xi]=m·pi y Var(Xi)=mpi(1-pi)(N-m)/(N-1). Además la covarianza entre dos cualesquiera de sus componentes es,
211
. Estos momentos de las variables componentes de una hipergeométrica multivariante se pueden agrupar en forma de matriz dando lugar a las denominadas matriz de esperanzas y matriz de varianzas-covarianzas, que recogen las características teóricas principales de la distribución hipergeométrica multivariante (medias, varianzas y covarianzas)
donde
Ejemplo: En un equipo de baloncesto con 12 jugadores, han hecho una comisión de 4 representantes. En la plantilla hay 3 pivotes, 3 base y 6 aleros. ¿Cuál es la probabilidad de que haya 2 bases y 2 pivotes?
Tenemos una variable tridimensional que recoge el número de pivotes, bases y aleros, respectivamente, que forman parte de la comisión. Dicha variable es una hipergeométrica multivariante con N=12, n=4, N1=3, N2=3 y N3=6. Así,
ACTIVIDADES DE APRENDIZAJE
Elabore ejercicios con la distribución hipergeométrica de la bibliografía sugerida.
212
INSTRUCCIONES: Lea detenidamente y anote dentro del paréntesis “v” si el enunciado es verdadero y “f” si en falso. (recuerde que la forma de evaluar esta sección es aciertos menos errores).
1.
Una variable aleatoria es una función que asocia un número real a ( ) cada elemento de un espacio muestral
2.
La distribución binomial, en un experimento interesa estudiar no la ( ) ocurrencia de un único suceso o la de su contrario, sino la de varios sucesos (tres o más).
3.
En la distribución uniforme todos los eventos elementales tienen la ( ) misma probabilidad.
4.
Una probabilidad sencilla quiere decir que sólo un evento puede ( ) llevarse a cabo; se le conoce como probabilidad incondicional
5.
En este caso la probabilidad de un suceso A se define como el límite ( ) de una frecuencia relativa, cuando el experimento se realiza un número infinito de veces. Esto corresponde a la probabilidad clásica.
6.
La distribución hipergeométrica es una distribución de probabilidad ( ) discreta con tres parámetros discretos N, d y n.
INSTRUCCIONES: Lea detenidamente los siguientes conceptos respuesta a la que corresponda dicho concepto
y subraye la
1. Es una distribución discreta, que expresa la probabilidad de que un número de eventos ocurran en un periodo de tiempo determinado, suponiendo que son independientes y que se conoce su tasa promedio. a) b) c) d)
Distribución binomial Distribución multinomial Distribución de Poisson Distribución geométrica
213
INSTRUCCIONES: Lea detenidamente respuesta correcta.
y conteste en los espacios en blanco la
1. En estadística y probabilidad, la distribución ______________________ es una distribución de probabilidad discreta que expresa la probabilidad de que un número de eventos ocurra en un periodo de tiempo determinado, suponiendo que son independientes y que se conoce su tasa promedio. 2. La __________________________ es aquella cuyo resultado varía según la muestra de una distribución de probabilidad. 3. Los ________________________ de las probabilidades son los fundamentos básicos de las reglas del cálculo de las posibilidades de eventos. 4. Se denomina ___________________________________ a aquel en el cual se encuentran todos los elementos contenidos en el conjunto universal que no se encuentra en otro conjunto dado. 5. Esta distribución es un caso especial de la binomial, ya que se desea que ocurra un éxito por primera y única vez en el último ensayo que se realiza el experimento. En aleatoria de la probabilidad y la estadística la __________________________________ es una de dos distribuciones de probabilidad discretas. 6. La ____________________ de un suceso es una medida cuantificable que toma valores entre cero y uno a diferencia del concepto de posibilidad que es una medida cualitativa. 7. Los experimentos solo se pueden realizar una vez o ninguna o que se puedan repetir pero en condiciones distintas, no son aplicables ninguna de las dos definiciones dadas anteriormente, por lo que no es posible asignar probabilidades mediante un procedimiento objetivo, debiendo recurrir a procedimientos de tipo __________________ a opiniones de expertos.
214
AJUSTE DE BONFERRONI: Técnica estadística que ajusta el nivel de significación en relación al número de pruebas estadísticas realizadas simultáneamente sobre un conjunto de datos. El nivel de significación para cada prueba se calcula dividiendo el error global de tipo I entre el número de pruebas a realizar. El ajuste de Bonferroni se considera conservador. AMPLITUD O RANGO: La diferencia entre el valor máximo y mínimo de los valores de una variable. En la amplitud de una variable se encuentran comprendidos el 100% de los valores muestrales ANACOVA o ANCOVA: Análisis de la covarianza. Es una técnica estadística que combina ANOVA (pues compara medias entre grupos) y análisis de regresión (ajusta las comparaciones de las medias entres los grupos por variables continuas o covariables) ANOVA: Análisis de la varianza. Es una técnica estadística que sirve para decidir/determinar si las diferencias que existen entre las medias de tres o más grupos (niveles de clasificación) son estadísticamente significativas. Las técnicas de ANOVA se basan en la partición de la varianza para establecer si la varianza explicada por los grupos formados es suficientemente mayor que la varianza residual o no explicada ÁREA BAJO LA CURVA entre dos puntos : Si la curva viene dada por una función de densidad teórica, representa la probabilidad de que la variable aleatoria tome un valor dentro del intervalo determinado por esos dos puntos BONFERRONI: Ver ajuste de bonferroni CARACTERÍSTICAS : Propiedades de las unidades o elementos que componen las muestras. Se miden mediante variables. Se asume que los individuos presentan diferentes características. CARTOGRAMAS. S on gráficos en los que se puede agrupar para una misma clase diferentes frecuencias, por lo que se hace apropiado su uso cuando se desea analizar diferentes resultados obtenidos, con diferentes frecuencias pero con una misma clase.
215
CAUSALIDAD: Relación entre causa y efecto. Generalmente identificadas como variables. No hay que confundir causalidad con correlación. La correlación mide la similitud estructural numérica entre dos variables. Normalmente la existencia de correlación es condición necesaria para la causalidad. COEFICIENTE DE CORRELACIÓN: Estadístico que cuantifica la correlación. Sus valores están comprendidos entre -1 y 1 COEFICIENTE DE DETERMINACIÓN: Es el cuadrado del coeficiente de correlación. Expresado en tanto por ciento mide el grado de información compartida entre dos variables continuas COEFICIENTES DE REGRESIÓN: En un modelo de regresión lineal son los valores de a y b que determinan la expresión de la recta de regresión y=a + b·x COEFICIENTE DE VARIACIÓN: Es una medida de dispersión relativa. No tiene unidades y se calcula dividiendo la cuasi-desviación típica entre la media muestral. Se suele expresar en tanto por ciento COMBINACIONES : selecciones diferentes de artículos tales que las secuencias alternativas posibles entre los componentes de cualquier selección se consideran inmateriales. CONTRASTE BILATERAL: Contraste de hipótesis en la que la hipótesis alternativa da opción a igualdad o superioridad CONTRASTE DE HIPÓTESIS: Es el proceso estadístico que se sigue para la toma de decisiones a partir de la información de la muestra. Comparando el valor del estadístico experimental con el valor teórico rechazamos o no la hipótesis nula. CONTRASTE UNILATERAL: Contraste de hipótesis en la que la hipótesis alternativa da opción a solo igualdad o a solo superioridad CORRELACIÓN: Expresa la concordancia entre dos variables según el sentido de la relación de estas en términos de aumento ó disminución COVARIABLES: Variables continuas independientes que junto a una o más variables grupo de tratamiento sirven para explicar una variable respuesta continua. Supongamos que pretendemos explicar las diferencias existentes en el nivel de cortisol en sangre por grupo de tratamiento A/B, teniendo en cuenta el peso. La variable peso es una covariable
216
COVARIANZA: Representa la media del producto de las desviaciones de dos variables en relación a su media. CUARTILES: Existen tres cuartiles: Q!, Q2 y Q3. Estos números dividen a los valores muestrales , una vez ordenados, en cuatro partes homogéneas en cuanto a número de observaciones. Así Q1 determina el valor que hace que haya un 25% de valores muestrales por debajo de éste, y un 75% por encima de éste. Q2 es la mediana CUASIVARIANZA: Característica de una muestra o población que cuantifica su dispersión o variabilidad. La cuasivarianza se obtiene multiplicando la varianza por n / (n-1). La cuasivarianza muestral es un estimador centrado (no sesgado) de la varianza poblacional. DATOS ALEATORIOS: E s la obtención de datos realizada a partir de una población a los cuales no se les ha dado ninguna prioridad . DATO ESTADÍSTICO: Los datos que se considera participan en el estudio estadístico se conoce como datos estadísticos, más concretamente, se consideran como los valores que se pueden obtenerse de la observación para formar la muestra. DATOS CENSURADOS: En análisis de supervivencia son datos donde no se conoce el tiempo total hasta la aparición del fracaso/éxito bien porque el individuo se retiró del estudio bien porque se acabó el estudio (datos con censura administrativa) Existen datos censurados por la izquierda y por la derecha. DATOS PAREADOS: Datos de poblaciones dependientes, donde los datos de las variables van emparejados por individuos, en contraposición con los datos independientes DECILES: Corresponden a los percentiles 10%, 20%, 30%, 40%, 50%, 60%, 70%, 80% , 90% y 100% DESCRIPTIVA: Parte de la estadística que resume la información de la muestra. La información recogida y resumida en los estadísticos se usa para la estimación de parámetros poblacionales DESVIACIÓN ESTANDAR (TÍPICA): Característica de una muestra o población que cuantifica su dispersión o variabilidad. Tiene las mismas unidades que la variable. la desviación típica es invariante con respecto al origen de la distribución. Su cuadrado es la varianza
217
DIAGRAMA DE PUNTOS (scatter plot): ES un gráfico bidimensional o tridimensional que muestra la variación de los valores muestrales de dos o tres variables. DIAGRAMAS DE BARRAS: Representación gráfica para las variables discretas Se utiliza para representar datos cualitativos y cuantitativos, con datos de tipo discreto. En el eje x se representan los datos ordenados en clases mientras que en el eje y se pueden representar frecuencias absolutas o relativas. DIAGRAMA DE ÁRBOL: Figura para definir el espacio muestral de experimentos aleatorios de pasos múltiples. DIAGRAMAS DE VENN: Figuras gráficas que en forma simbólica describen espacios muestrales y eventos aleatorios DIAGRAMA DE SECTORES Este tipo de diagramas puede ser de dos tipo, se puede considerar una figura geométrica en la que la información se distribuye dentro de la figura como puede ser una dona o un anillo en el que cada porción dentro de la figura representa la información porcentual del total de datos. La segunda opción es la utilización de pasteles en los que una porción del pastel determinada por sectores individuales la información para ese sector especifico. DIFERENCIAS ESTADISTICAMENTE SIGNIFICATIVAS: Las diferencias entre lo observado y lo supuesto en la hipótesis nula no puede ser explicado por el azar DIFERENCIAS RELEVANTES: Diferencia esperada o definida a priori con un valor conceptual intrínseco. No confundir diferencias estadísticamente significativas que establece si una diferencia, cualquiera que sea su valor DIMENSIÓN: Si estudiamos una única variable la dimensión es uno, si estudiamos la información de dos variables en forma conjunta la dimensión es dos,... DISPERSIÓN : Ver estadísticos de dispersión DISTRIBUCIÓN DE DATOS: En la realización de un experimento, corresponde a la recogida de los datos experimentales para cada individuo y cada variable DISTRIBUCIONES DE FRECUENCIAS Se le conoce con este nombre al conjunto de clases que aparecen con su frecuencia correspondiente, generalmente mediante una tabla estadística.
218
DISTRIBUCIÓN NORMAL O DE GAUSS: Es una distribución teórica de probabilidad que se usa tanto en la estadística aplicada como en la teórica. Aparece en la práctica con mucha frecuencia como consecuencia del importante resultado que establece el teorema central del límite. Tiene una forma en forma de campana, y viene caracterizada por únicamente dos valores: la media y la varianza. DISTRIBUCIÓN T STUDENT: Distribución teórica de probabilidad. Se usa para la comparación de dos medias en poblaciones independientes y normales ECUACIÓN DE LA REGRESIÓN: Ver recta de regresión ERROR ALFA: Es el error que se comete cuando se rechaza una hipótesis nula cuando ésta verdadera. Error de tipo I ERROR ALFA GLOBAL: Es el error alfa que se comete por hacer múltiples comparaciones. ERROR BETA: Es el error que se comete cuando no se rechaza una hipótesis nula siendo ésta falsa. Error de tipo II ERROR DE PRIMERA ESPECIE: Ver error alfa ERROR DE SEGUNDA ESPECIE: Ver error beta ERROR DE TIPO I: Ver error alfa ERROR DE TIPO II: Ve error beta ERROR ESTANDAR DE LA MEDIA: Es el cociente entre la cuasivarianza muestral y la raíz cuadrada del tamaño muestral ERROR ESTANDAR DE LOS RESIDUOS: Estadístico de dispersión de los valores de los residuos después de la regresión. ERROR FALSO NEGATIVO: Ver error beta ERROR FALSO POSITIVO: Ver error alfa
219
ESCALA: La distribución de datos puede recogerse en distintas escalas: nominal, dicotómica, discreta o continua ESPECIFICIDAD DE UN TEST DIAGNÓSTICO: Representa la probabilidad de que un individuo este sano habiendo dado negativo en el test diagnóstico ESTADÍSTICA INFERENCIAL O INDUCTIVA. Sirve extrapolar los resultados obtenidos en el análisis de los datos y a partir de ello predecir acerca de la población, con un margen de confianza conocido. Se apoya fuertemente mediante el cálculo de probabilidades. ESTADÍSTICA DESCRIPTIVA O DEDUCTIVA. Se construye a partir de los datos y la inferencia sobre la población no se puede realizar, al menos con una confianza determinada, la representación de la información obtenida de los datos se representa mediante el uso de unos cuantos parámetros, tablas y algunas graficas planteadas de tal forma que den importancia los mismos datos a través de parámetros que caractericen la distribución. ESTADÍGRAFO es el término utilizado para designar a la persona dedicada a las tareas propias de la estadística, aunque en ocasiones también es frecuente que se utilice para designar a la variable que define una distribución estadística, de esta forma es común escuchar el término estadígrafo de prueba. EXPERIMENTO ALEATORIO. Experimento en el que existen diferencias de una muestra a otra, cuyas muestras pese a ser de una misma población son diferentes. ESTADÍSTICO DE CONTRASTE EXPERIMENTAL Se utiliza para realizar las pruebas o contrastes de hipótesis. Depende de la muestra. Su valor hay que compararlo con el valor crítico dado en las tablas de distribución teóricas ESTADÍSTICOS Son funciones de la muestra. Su valor variará según la muestra, pero nos permite hacer estimaciones de parámetro poblacionales o construir estadísticos experimentales para tomar decisiones. Este término que se utiliza para designar al profesional que se dedica al análisis de la información estadística, al que en ocasiones también se le conoce como estadígrafo. ESTADÍSTICOS DE CENTRALIZACIÓN: Son estadísticos que nos resumen la información de la muestra dándonos información acerca del valor donde parece concentrarse la distribución de datos
220
ESTADÍSTICOS DE DISPERSIÓN: Son estadísticos que nos resumen la información de la muestra dándonos información acerca de la magnitud del alejamiento de la distribución de datos en relación a un valor central o de concentración de los datos ESTADÍSTICOS DE FORMA: Son aquellos que nos hablan de la forma de la distribución de datos en cuanto a su simetría y su apuntamiento ESTADO DE LA NATURALEZA: La naturaleza funciona según una determinada hipótesis que desconocemos. La técnicas estadísticas nos cuantifican el error que cometemos cuando tomamos decisiones en la predicción de cuál es la hipótesis con la que la naturaleza trabaja. Estos errores son los del tipo I y II ESTIMACIÓN: Técnicas estadísticas que a partir de la información de la estadística descriptiva pretenden conocer cómo es la población en global. Existen técnicas de estimación puntuales y por intervalos de confianza ESTIMADO: Valor experimental que se toma como candidato al valor poblacional desconocido ESTIMADOR: Función de la muestra que sirve para dar valores candidatos a los valores desconocidos poblacionales. ESPACIO MUESTRAL: lista de todos los resultado básicos de un experimento aleatorio. EVENTO ALEATORIO: cualquier subconjunto del espacio muestral. EVENTO COMPUESTO: cualquier combinación de dos o más resultados básicos. EVENTO SIMPLE: cualquiera de los resultados básicos de un evento aleatorio. EVENTOS COLECTIVAMENTE EXHAUSTIVOS: eventos aleatorios diferentes que conjuntamente contiene todos los resultados básicos en el espacio muestral. EVENTOS COMPATIBLES: eventos aleatorios diferentes que tiene al menos algunos resultados básico en común.
221
EVENTOS COMPLEMENTARIOS: dos eventos aleatorios tales que precisamente todos los resultados básicos que no están contenidos en uno están contenidos en el otro. EVENTOS DEPENDIENTES: dos eventos aleatorios tales que la probabilidad de un evento es afectada porque ocurra el otro evento; en consecuencia, p(A) no es igual a p (AôB). EVENTOS INDEPENDIENTES: dos eventos aleatorios tales que la probabilidad de un evento no es afectada por el acontecimiento del otro evento; por lo tanto, p (A) = p (AôB). EVENTOS MUTUAMENTE EXCLUSIVOS: eventos aleatorios diferentes que no tienen resultados básicos en común. EXPERIMENTO ALEATORIO: cualquier actividad que resulte en uno, y sólo uno, de varios resultados bien definidos pero que no permite decir por anticipado cuál de éstos prevalecerá en cualquier ejemplo particular. FACTOR: Variable que se incluye en un modelo con el propósito de explicar la variación en la variable respuesta. Ver variable independiente o explicativa FACTOR DE CLASIFICACIÓN: Es una variable que se usa para clasificar los datos experimentales en grupos. Los factores de clasificación son variables nominales. Cada factor de clasificación se compone de niveles. Así la variable "Fumador" codificada como "nunca", "ex fumador", "fumador actual" es un factor de clasificación con tres niveles FACTORIAL: producto de una serie de números enteros positivos que desciende de un número dado, n, hasta 1. FRECUENCIA ABSOLUTA f(x ) i se determina como el número de veces que se repite un dato x i. Las frecuencias absolutas representan el recuento de los valores de una variable discreta de forma que su suma nos da el tamaño muestral. FRECUENCIA ABSOLUTA ACUMULADA Fi Para un determinado valor se considera como la frecuencia de cada dato x i mas la suma de los valores anteriores a dicha suma.
222
FRECUENCIA RELATIVA HI es el cociente f i /N , donde N es el número total de datos. Las relativas son las absolutas divididas por el tamaño muestral .Las frecuencias relativas sumarán 1 ó 100 según se expresen en tanto por uno o en tanto por ciento FRECUENCIA RELATIVA ACUMULADA Hi es el cociente F i /N FUNCIÓN: Función matemática. Expresión que liga dos o más variables de forma determinística FUNCIÓN ACUMULADA DE SUPERVIVENCIA: Función estadística que presenta la proporción de individuos que mueren entre dos tiempos dados. FUNCIÓN DE DENSIDAD DE SUPERVIVENCIA: Nos da el momento crítico de mayor tasa de fallos o muertes en términos absolutos, por ello no da una medida del riesgo en un momento dado FUNCIÓN DE RIESGO DE SUPERVIVENCIA: Nos da una media de la predisposición al fallo en función del tiempo FUNCIÓN TEÓRICA DE PROBABILIDAD: Idealización matemática que nos permite calcular probabilidades de que una variable tome un valor (caso discreto) o rango de valores (caso continuo) FUNCIÓN TEÓRICA DE PROBABILIDAD DE SUPERVIVENCIA: Probabilidad de que un individuo sobreviva un tiempo mayor que t GAUSSIANA: Ver distribución normal GRADO DE CONFIANZA: Ver nivel de confianza GRADOS DE LIBERTAD: El número de datos que se pueden variar para que a un total fijo podamos reconstruir dicho total. Así la media tiene n-1 grado de libertad, pues si conocemos el valor de esta podemos variar n-1 datos ya que restante vendrá fijado. En una tabla 4x3 , si nos dan las frecuencias marginales podremos variar las frecuencias de (4-1)x(3-1)=3x2=6 celdas, quedando forzosamente determinadas las frecuencias de las celdas restantes. Así, los grados de libertad serían en este caso de 6 HETEROCEDASTICIDAD: Hipótesis de no igualdad de varianzas poblacionales en distintos grupos
223
HIPÓTESIS: Cualquier teoría que formule posibles líneas de trabajo experimental. Ver hipótesis nula y alternativa HIPOTESIS ALTERNATIVA: Aquella que queremos probar. Representa la hipótesis renovadora HIPOTESIS NULA: Aquella que queremos rechazar. Representa a la situación actual HISTOGRAMAS: Es un gráfico en forma de barras de una variable continua que se ha discretizado en intervalos, de forma que la altura de las barras en cada intervalo indica la frecuencia relativa en éste. . Los histogramas de frecuencias son gráficas que representan un conjunto de datos que se emplean para representar datos de una variable cuantitativa. En el eje horizontal o de las abscisas se representan los valores tomados por la variable, en el caso de que los valores considerados sean continuos la forma de representar los valores es mediante intervalos de un mismo tamaño llamados clases. En el eje vertical se representan los valores de las frecuencias de los datos. Las barras que se levantan sobre la horizontal y hasta una altura que representa la frecuencia. Un punto importante en el manejo de la información bajo el uso de histogramas es el hecho de poder comparar, bajo un proceso en control, que a medida que se crecen las clase tiene aproximadamente la forma de una campana centrada, es la de una de las distribuciones más importantes conocidas como frecuencia normal o gaussiana. HOMOCEDASTICIDAD: Hipótesis de igualdad de varianzas poblacionales en distintos grupos IMPRECISION : Error que se comete en la predicción INDEPENDENCIA: Son datos que no están ligados entre si INFERENCIA: Término utilizado para indicar la predicción hecha acerca de una población. INTERVALO DE PROBABILIDAD: Proporción de casos entre dos valores definidos de la muestra INTERVALOS CONFIDENCIALES: Intervalos de confianza. Intervalos fiduciales. Incluyen una cota mínima y máxima del verdadero parámetro poblacional con un determinado nivel de confianza
224
JACKNIFE: Método estadístico de estimación por intervalos de confianza basado en la simulación con reeemplazamineto, propuesto por TuKey JUEGO DE SUMA CERO : En la teoría de juegos, juego en el que lo que unos ganan es a costa de lo que otros exactamente pierden LEY DE LA ADICIÓN: ley de la teoría de probabilidades que se usa para calcular la probabilidad para que ocurra la unión de dos o más eventos; según la ley general, para cualesquiera dos eventos p(A o B) = p(A) + p(B) - p(A y B); según la ley especial para dos eventos mutuamente exclusivos, p(A o B) = p(A) + p (B). LEY DE LA MULTIPLICACIÓN: ley de teoría de probabilidades que se usa para calcular la probabilidad para una intersección de dos o más eventos; según la ley general para cualesquier dos eventos, p(A y B) = p(A) · p(BôA) y también p(A y B) y también p(A y B) = p(B) · p(AïB); según la ley especial para eventos independientes, p(A y B) = p(A) · p(B). LEY DE LOS GRANDES NÚMEROS: ley que enuncia lo siguiente: la probabilidad de una desviación significativa de un valor de probabilidad empíricamente determinado, a partir de uno teóricamente determinado, es menor cuanto mayor sea el número de repeticiones del experimento aleatorio en cuestión. LIMITES CONFIDENCIALES: Extremos de los intervalos confidenciales MAXIMO: Es un valor muestral de forma que por encima de este no hay valores muestrales MARCA DE CLASE: Es el punto medio de una clase y se determina por la semisuma del LIA + LSA Marca de clase = LIA + LSA 2
MEDIANA: Corresponde al percentil 50%. Es decir, la mediana hace que haya un 50% de valores muestrales inferiores a ella y un 50% de valores muestrales superiores a ella. MEDIA: Es una medida de centralización para una variable continua. Se obtiene sumado todos los valores muestrales y dividiendo por el tamaño muestral
225
MÍNIMO: Es un valor muestral de forma que por debajo de este no hay valores muestrales MODA: Es el valor que más se repite en una variable nominal MODELO: Intento matemático / estadístico para explicar una variable respuesta por medio de una o más variables explicativas o factores MUESTRAS: Subgrupos de observaciones de la población de estudio. Es un subconjunto de datos tomados de la población, cuya finalidad es la de realizar inferencias acerca de la población a partir del comportamiento de sus elementos. Es claro que si la muestra es un subconjunto de la población entonces la muestra tendrá un número menor de elementos. La naturaleza de la muestra radica en la optimización de los recursos, por ejemplo, si deseamos hacer un estudio acerca de las lecturas que a los estudiantes de Michoacán les gusta leer, el estudio implicaría considerar a los estudiantes de lugares remotos, resultando difícil desde el punto de vista económico, sin embargo la estadística plantea métodos mediante los cuales con una elección adecuada del tamaño de muestra podemos predecir a partir de una muestra las preferencias que tienen los estudiantes acerca del tipo de lectura. NIVEL DE CONFIANZA: Se define como 1 menos el nivel de significación. Se suele expresar en tanto por ciento NIVEL DE SIGNIFICACIÓN: La probabilidad de rechazar una hipótesis nula verdadera; es decir, la probabilidad de cometer un error de tipo I NIVELES DE CLASIFICACIÓN: Los distintos posibles valores que pueden aparecer en una variable explicativa nominal u ordinal NORMAL: Ver distribución de probabilidad normal NÚMEROS: Ver valores numéricos OBSERVACION: Sinónimo de caso registro e individuo ODDS: Nombre ingles para designar la medida del efecto relacionada, en una tabla de frecuencias 2 por 2, con la razón de los productos cruzados. ORDEN DE UNA MATRIZ: Es el numero que designa, en una matriz cuadrada, el numero de filas o columnas
226
ORTOGONAL: Se dice de las variables y en general de las funciones que son independientes. P (p- valor): El nivel de significación observado en el test. Cuanto más pequeño sea, mayor será la evidencia para rechazar l a hipótesis nula PARÁMETROS: Son valores desconocidos de características de una distribución teórica. El objetivo de la estadística es estimarlos bien dando un valor concreto, bien dado un intervalo confidencial PEARSON ( r de Pearson) .Ver coeficiente de correlación PERCENTILES: Un percentil 90% corresponde a un valor que divide a la muestra en dos, de forma que hay un 90% de valores muestrales inferiores a éste, y un 10% de valores muestrales superiores a éste. Los percentiles 25%, 50%, 75% son el primer, segundo y tercer cuartil respectivamente PERMUTACIONES: arreglos ordenados distinguibles de artículos, todos los cuales se han sacado de un grupo dado de artículos. PICTOGRAMA: El pictograma consiste en la utilización de símbolos utilizados para representar un conjunto de datos, en el caso de la representación de datos individuales a través de barras hemos utilizado los pictogramas, sin embargo en áreas especificas convendría analizar el conjunto de datos. PIRÁMIDE DE POBLACIÓN: Este gráfico se construye utilizando pirámides para construir la representación de los datos bajo cierta clase, la diferencia de información considerada entre cada clase será dada por el tamaño de la pirámide. En ocasiones la frecuencia de cada clase se coloca en el extremo superior de cada clase, sin embargo también, al igual que en las anteriores puede resultar útil colocar información, como el porcentaje de información en la punta de cada pirámide. POBLACIONES: Conjunto de individuos de interés. Normalmente no se dispone de información de toda la población y se recurre a muestras. Es conjunto de elementos que tiene características comunes, al menos una. Por ejemplo, una población es el grupo de estudiantes de un país. En el caso particular de la estadística la población constituye el objeto de estudio, es decir, la población es el conjunto de individuos o entes que constituyen el objeto de estudio sobre el que se desea predecir un comportamiento a partir del estudio. POLÍGONO DE FRECUENCIA: Representaciones gráficas alternativas al histograma de frecuencias. Estos se construyen a partir de los puntos medios de cada clase. La
227
utilización de los puntos medios o marcas de clase son llevados al escenario gráfico mediante la utilización de los polígonos de frecuencias. Se construye uniendo los puntos medios de cada clase localizados en las tapas superiores de los rectángulos utilizados en los histogramas de las gráficas. Su utilidad se hace necesaria cuando desean destacarse las variables de tendencia central, como son media, modas y medianas.
PORCENTAJES: Proporciones expresadas en tanto por ciento POTENCIA DE LA PRUEBA: (1-beta). Es decir la probabilidad de rechazar una hipótesis nula siendo ésta falsa. Se suele expresar en tanto por ciento PREVALECIA: Cociente entre el número de individuos que poseen una característica (p. ej. enfermedad) entre el total de la población PROBABILIDAD: Asignación de un número entre cero y uno a cada resultado experimental. PROBABILIDAD CONDICIONAL: medida en que ocurre un evento en particular, dado que otro evento ya ha ocurrido o es seguro que ocurra. PROBABILIDAD CONJUNTA: medida de la verosimilitud del acontecimiento simultáneo de dos o más eventos. PROBABILIDAD INCONDICIONAL: medida de la verosimilitud de que ocurra un evento particular, sin considerar si ocurre otro evento. PROBABILIDAD OBJETIVA: medida numérica de casualidad que estima la verosimilitud de un acontecimiento específico (evento A) de un experimento aleatorio repetible (según el método clásico, es igual al número de resultados básicos igualmente probables favorables al acontecimiento del evento A dividido entre el número de resultados básicos igualmente probables posibles; según el método empírico, es igual al número de veces que ocurrió el evento A en el pasado durante un gran número de experimentos, dividido entre el número máximo de veces que el evento a pudo haber ocurrido durante estos experimentos.) PROBABILIDAD POSTERIOR: probabilidad previa modificada con base en información nueva .
228
PROMEDIO: Es la cantidad que se obtiene al sumar el conjunto de datos que intervienen en la muestra entre el total de datos, este también es conocido como media aritmética o simplemente media y se calcula como: x
x
i
n
PROPORCION: Número de individuos que verifican una condición entre el total del tamaño muestral. Se puede expresar en tanto por uno o en tanto por cien PRUEBA CHI CUADRADO: Se utiliza para analizar tablas de contingencia y comparación de proporciones en datos independientes PRUEBA DE F: Prueba estadística que sirve para comparar varianzas. El estadístico F experimental es el estadístico de contraste en el ANOVA y otras pruebas de comparación de varianzas PRUEBA DE FISHER: Es la prueba estadística de elección cuando la prueba de chi.cuadrado no puede ser empleada por tamaño muestral insuficiente. PRUEBA DE LOS SIGNOS: Prueba estadística que sirve para comparar dos variables en términos de diferencias positiva o negativa, y no en términos de magnitud PRUEBA DE MCNEMAR: Prueba estadística que sirve para comparar proporciones en datos pareados PRUEBA NO PARAMÉTRICA: Técnica estadística que no presupone ninguna distribución de probabilidad teórica de la distribución de nuestros datos. PRUEBA PARAMETRICA: En contraposición de la técnicas no paramétricas, las técnicas paramétricas si presuponen una distribución teórica de probabilidad subyacente para la distribución de los datos. Son más potentes que las no paramétricas. PRUEBA T DE STUDENT : Se utiliza para la comparación de dos medias de poblaciones independientes y normales PUNTO DE INFLEXIÓN : Representan los puntos de una función matemática donde la curva pasa de ser cóncava a convexa o recíprocamente
229
RANGO: Diferencia entre el valor máximo y mínimo de un muestra o población. Solo es válido en variables continuas. Es una mala traducción de inglés "range". Amplitud RANGO INTERCUARTILICO: La diferencia entre el percentil 75% y el percentil 25% RAZÓN DE VEROSIMILITUDES: Combina resultados de varios tests diagnósticos dando una probabilidad de enfermedad en base a ese conjunto de resultados en forma global RECTA DE REGRESIÓN: Es el modelo que sirve para explicar una variable respuesta continua en términos de un único factor o variable explicativa RECORRIDO DE UNA DISTRIBUCIÓN: Ver rango. REGRESION: Técnica estadística que relaciona una variable dependiente (y) con la información suministrada por otra variable independiente (x).ambas variables deben ser continuas. Si asumimos relación lineal, utilizaremos la regresión lineal simple. Entre las restricciones de la RLS se incluyen: Los residuos deben ser normales Las observaciones independientes. La dispersión de los residuos debe mantenerse a lo largo de la recta de regresión REGRESIÓN LINEAL MÚLTIPLE: El modelo de regresión lineal múltiple sirve para explicar una variable respuesta continua en términos de varios factores o variables explicativas continuas REGRESIÓN POLINÓMICA: ES un tipo especial de regresión múltiple donde aparecen como variables independientes un única variable y potencias de ésta (al cuadrado, al cubo.) RELACIÓN LINEAL: Ver recta de regresión RESIDUOS: Residuales. Distribución de valores muestrales calculados como la diferencia entre el valor de la variables respuesta (y) y el estimado del modelo de regresión ( ^y). La distribución de residuos es importante como indicador del cumplimiento de las condiciones de aplicación de las técnicas de correlación, así como de la bondad del ajuste. SECTORES CIRCULARES: Forma de representación en forma de tarta de variables discretas nominales
230
SENSIBILIDAD DE UN TEST DIAGNÓSTICO: Representa la probabilidad de que un individuo esté enfermo habiendo dado positivo en el test diagnóstico SESGO: La diferencia entre el valor del parámetro y su valor esperado. También se utiliza en contraposición de aleatorio, así una muestra sesgada es no aleatoria SIMETRIA: Es una medida que refleja si los valores muestrales se extienden o no de igual forma a ambos lados de la media. SPEARMAN (rho de Spearman): Coeficiente de correlación ordinal análogo al coeficiente r de Pearson de correlación lineal SUMATORIO: Estadístico descriptivo que suma los valores numéricos de los datos muestrales de distribuciones continuas TABLAS DE CONTINGENCIA: Tablas de 2 o más variables, donde en cada celda se contabilizan los individuos que pertenecen a cada combinación de los posibles niveles de estas variables TABLAS DE FRECUENCIAS: Ver tablas de contingencia TABLA DEL ANOVA: Es una forma de presentar la variabilidad observada en una variable respuesta en términos aditivos según las distintas fuentes de variación: modelo y residual TAMAÑO MUESTRAL: Número de individuos u observaciones que componen la muestra TECNICAS DE CORRELACION: Ver coeficiente de correlación TECNICAS DE REGRESION: Ver recta de regresión y regresión lineal múltiple TECNICAS NO PARAMETRICAS: Son técnicas estadísticas que no presuponen ningún modelo probabilístico teórico. Son menos potentes que las técnicas paramétricas, aunque tienen la ventaja que se pueden aplicar más fácilmente TEOREMA DEL LIMITE CENTRAL: Resultado básico en la estadística que afirma que la distribución de las medias muestrales será normal para un n suficientemente grande con independencia de la distribución de datos de partida
231
TRANSFORMACIONES: Cambios de escala con el propósito de conseguir linealidad, normalidad en los datos UNIDAD: Concepto primario relacionado con los componentes elementales de la muestras estadísticas. Sinónimo, pero no esencialmente idéntico, de caso , observación , registro o individuo UNIVERSO: Conjunto infinito de elementos o unidades generado por un modelo teórico. Conjunto real de todos los elementos que comparten unas condiciones de admisión en el conjunto VALORES NUMÉRICOS: Resultados de las variables para cada individuo en la muestra de estudio. Su naturaleza puede ser nominal, dicotómica, ordinal o continua VALORES NUMÉRICOS: Resultados de las variables para cada individuo en la muestra de estudio. Su naturaleza puede ser nominal, dicotómica, ordinal o continua VALOR PREDICTIVO POSITIVO DE UN TEST DIAGNOSTICO : La probabilidad de que un individuo esté enfermo si el test diagnóstico da positivo VALOR PREDICTIVO NEGATIVO DE UN TEST DIAGNOSTICO: La probabilidad de que un individuo esté enfermo si el test diagnóstico da negativo VARIABLE: Objeto matemático que puede tomar diferentes valores. Generalmente asociado a propiedades o características de las unidades de la muestra. Lo contrario de variable es constante. VARIABLE ALEATORIA: Variable cuyo resultado varía según la muestra según una distribución de probabilidad VARIABLES ALEATORIAS CONTINUAS. Permiten una infinidad de valores al azar dentro de un intervalo, considerándose variables continuas precisamente por la posibilidad de poder tomar cualquier valor dentro de una infinidad de valores. VARIABLES ALEATORIAS DISCRETAS. Las variables cuya naturaleza toma un número finito de valores enteros, tales como: los estudiantes de la escuela de medicina de una universidad, los alumnos reprobados en la materia de matemáticas, el número de peces en un estanque, el número de cursos que un estudiante debe cursar para graduarse, etcétera. El conjunto de valores que podría de tomar una variable aleatoria discreta puede ser finita o infinita numerable.
232
VARIABLE CONTINUA: Aquella que puede tomar una infinidad de valores, de forma que dados dos valores cualesquiera, también pueda tomar cualquier valor entre dichos valores VARIABLES CUALITATIVAS. Son aquellas variables que como su nombre lo indica están relacionadas con sus características exteriores. VARIABLES CUANTITATIVAS. Estas variables son caracterizadas por alguna información numérica que se le puede asociar a los individuos de la una población. Esta caracterización puede ser clasificada en discreta y continua. Variables nominales. Son aquellas variables que son descritas por algunas características de sus integrantes. VARIABLES CUANTITATIVAS DISCRETAS. Son aquellas cuyo valor está determinado por valores enteros. VARIABLES CUANTITATIVAS CONTINUAS. Son aquellas cuyo valor está determinado por valores reales, generalmente esas variables pueden tomar toda una gama de valores dentro de la recta real. VARIABLES CUASICUANTITATIVA. Son variables nominales que a pesar de ello se pueden ordenar entre ellas, ejemplo de ellas los pueden representar los valores que pueden tomar los corredores en una competencia, en la forma en que llegan a la meta, primer lugar, segundo lugar, etc. VARIABLE DEPENDIENTE: Ver variable respuesta VARIABLE DISCRETA: Variable que toma un número finito o infinito de valores, de forma que no cubre todos los posibles valores numéricos entre dos dados, en contraposición de las continuas VARIABLE EXPLICATIVA: Ver variable independiente VARIABLE INDEPENDIENTES O EXPLICATIVAS: Variables que no sirven para construir un modelo que explique el comportamiento de una o más variables respuesta VARIABLE RESPUESTA O DEPENDIENTE: Variable objeto del estudio y que sus resultados se pretenden explicar por medio de las variables llamadas explicativas o independientes
233
VARIABLES: Describen características en las observaciones realizadas VARIANZA: Característica de una muestra o población que cuantifica su dispersión o variabilidad. La varianza tiene unidades al cuadrado de la variable. Su raíz cuadrada positiva es la desviación típica. La varianza muestral es un estimador sesgado de la varianza poblacional X2 Chi- cuadrado: Ver prueba de Chi cuadrado WILCOXON: Prueba estadística no paramétrica para la comparación de dos muestras (dos tratamientos). Las distribuciones de datos no necesitan seguir la distribución normal . Es por tanto una prueba menos restrictiva que la prueba t-Student.
234
ANEXOS TABLA PARA NIVEL DE CONFIANZA EN CÁLCULO DE TAMAÑO DE UNA MUESTRA NIVEL DE CONFIAN ZA Z
99.7 %
99 %
98 %
96 %
95.45 %
95 %
90%
80 %
68.27 %
50%
3.0 0
2.5 8
2.3 3
2.0 5
2.00
1.9 6
1.64 5
1.2 8
1.00
0.67 45
235
236
237
238
239
240
Allen, W. (2002) Estadística aplicada a los negocios y la economía (3ª ed) México: México: McGraw-Hill. Anderson – Sweenley – Williams (1998) Estadística para administración y economía. México: Math Learning Daniels, W. (1981) Estadística con Aplicaciones a las Ciencias Sociales y a la Educación. México: McGraw Hill Douglas, L., Mason, R. y Williams, M. (2004) Estadística para la Administración y la Economía (3ª ed.). México: McGraw-Hill Ferris J. (2002) Estadística para Ciencias sociales. México: Mc Graw Hill Freund, J. E. y Gary A. (1994). Estadística elemental . México: Prentice-Hall Hispanoamericana, SA (8ª edición.) Fuenlabrada, S. (2004) Probabilidad y estadística . México: Mc Graw Hill. México García, P., A. (Textos Universitarios.) Elementos de Método Estadístico . México: Universidad Nacional Autónoma de México John E. Freud – Irwin Miller – Marylees Miller. (2002) Estadística matemática con aplicación . México: Prentice Hall John E. Freud – Simon A. Gary (2003). Estadística elemental . (8° edición) México: Prentice Hall Johnson, R.(1999) Estadística Elemental. México: Trillas