Me ayudo mucho estos ejercicios.Descripción completa
Descripción completa
UNIDAD II ESTIMACION- ESTADISTICA INFERENCIALDescripción completa
estadistica
Descripción: El objetivo general del libro Estadística Inferencial, es que al término del curso el alumno sea capaz de inferir las características de una población con base en la información contenida en una mu...
PROBLEMARIO
Descripción: Estadistica inferencial
estadsitica
Antonio Vargas Sabadlas
E STADISTICA DESCRlPTIVA E lNFERENCIAL
COLECCIÓN
CIENCIAYTECNICA.
estadística descriptiva e inferencial
Thi s
One
BJ5Y-2AY-0R82
Antonio Vargas Sabadlas Catedrático de Matemáticas de I.B. Profesor Asociado de la Universidad de Castilla-La Mancha
ESTADÍSTICA descriptiva E INFERENCIAL
Universidad de Castilla-La Mancha
1995
VARGAS SABADÍAS. Antonio Estadística descriptiva e inferencial / Antonio Vargas Sabadlas. — [Cuenca] : Servicio de Publicaciones de la Universidad de Castilla-La Mancha. 1995. 576 p. ; 22 cm. — (Ciencia y técnica ; 8) I.S.B.N.: 84-88255-87-X 1. Estadística matemática. I. Universidad de Castilla-La Mancha ed. II. Título. 519.2
A María Antigua, Antonio, Alberto y Aurelio. por el regalo de un tiempo que les pertenecía y la ilusión y el aliento que siempre encontré.
PROLOGO
La investigación, como proceso de resolución de problemas científicos, debe aspirar en todo momento a la objetividad y a la universalidad. El investigador se encuentra en numerosas ocasiones ante situaciones de incertidumbre, dependiendo del azar los resultados de sus experimentos, lo que supone la necesidad de recurrir a los métodos estadísticos. Ante un experimento aleatorio, siempre hay una primera fase de observación y recopilación de datos, cuya finalidad es la de darles una interpretación adecuada. En este primer proceso, interviene la Estadística Descriptiva, cuyo objetivo es el de resumir o describir numéricamente un conjunto de datos con el fin de facilitar esa interpretación. Sin embargo, no es suficiente la obtención de unas características que permitan sintetizar los resultados de la experimentación y el buen uso de la práctica operacional. La imposibilidad, por distintas razones, de hacer un estudio de todos los indivi duos de la población, obliga a seleccionar de modo conveniente un número relativa mente pequeño de datos, desde cuyo conocimiento se pretende extraer conclusiones acerca de la población completa. Interviene entonces la Estadística Inferencial, que permite realizar inferencias acerca de las características de los individuos de la población a partir de las caracte rísticas de una muestra de la misma. Los métodos propios de la Estadística Inferencial. haciendo la selección de las muestras, creando estrategias y controles para hacer mínimo el error, son las técnicas que usa una buena parte de la investigación de las Ciencias de la Naturaleza, de la Sociología, Psicología, Medicina, Ciencias de la Educación,... El contraste de hipótesis es una herramienta poderosa para realizar inferencias a partir de la información proporcionada por una muestra, supuesta una hipótesis de nulidad inicial, que es rechazada únicamente cuando su veracidad implica unos resultados «suficientemente improbables». El concepto de probabilidad proporciona una medida de lo que se entiende por un suceso «suficientemente improbable», aportando la razón para utilizar la Estadística Descriptiva como soporte en el que se apoya la Estadística Inferencial.
10 Las consideraciones que acabo de hacer, mi propia experiencia docente con estudiantes y la colaboración en trabajos con algunos compañeros que se sirven de estas técnicas en sus tareas investigadoras, han orientado el diseño de este libro, que no pretende ser un tratado teórico-matemático ni tampoco un simple formulario. La intención de conseguir el punto medio, de equilibrio entre ambos extremos, pero capaz de trasmitir un conocimiento profundo del proceso estadístico, es, tal vez, la razón última de este texto. Se distinguen, en él, tres partes fundamentales: la primera, sobre «Estadística Descriptiva», comprende los seis primeros capítulos y estudia las características fundamentales de localización, dispersión y forma de una distribución estadística de uno y de dos caracteres, abordando también los problemas de regresión y correlación. Los diversos tipos de gráficos estadísticos son descritos, situándolos en función de los tipos de caracteres y de sus modalidades, como un complemento que facilita el análisis exploratorio de los datos. La segunda parte, «Nociones sobre Cálculo de Probabilidades», es abordada en los capítulos séptimo y octavo, y contiene aquellos conceptos básicos de probabilidad y variable aleatoria, y el estudio de las distribuciones discretas y continuas necesarias para enlazar de un modo coherente, sin grandes brusquedades, con la «Estadística Inferencial», que constituye la parte tercera y fundamental del libro, a la que se dedican otros seis capítulos. En todo momento, he procurado dar un enfoque didáctico a los temas tratados, introduciendo la mayor parte de los conceptos a través de ejemplos sencillos de la vida diaria. Para evitar que el discurso del razonamiento se aparte de la idea central, en ocasio nes he pasado algún proceso de demostración al final del capítulo en forma de apéndice. La estrategia del contraste de hipótesis es analizada en sus diversas acepciones: ésta es la herramienta fundamental de que dispone el investigador para inferir los resultados de sus experiencias a la población, confiriéndoles un carácter de universa lidad y generalidad. El análisis de la varianza, los contrastes de bondad de ajuste, independencia y homogeneidad de la varianza. así como algunos de los contrastes no paramétricos, de uso cada día más frecuente, son también tratados y valorados con detalle. El problema de regresión y correlación ha requerido dos capítulos. En el capítulo decimocuarto, se complementa el contenido del sexto desde el punto de vista inferencial. Son muchos los trabajos de investigación que descuidan este aspecto, lo que les resta generalidad. La potencia del contraste, que da solidez y rigor a las conclusiones, se aborda desde su acepción conceptual y se resuelve de modo sencillo mediante la tabla estadística de Welkowitz. aportando la relación entre ambos métodos. Toledo, febrero de 1995.
DISTRIBUCIONES Y GRÁFICAS 1.1. Concepto y términos 1.2. Población, muestra e individuo 1.3. Caracteres y modalidades 1 .4. Variable estadística 1.5. Distribución de frecuencias 1.5.1. Frecuencia absoluta y relativa 1.5.2. Propiedades de las frecuencias 1.5.3. Frecuencias acumuladas 1.6. Parámetros y estadísticos 1.7. Tablas estadísticas 1.7.1. Tabla de una variable estadística discreta 1.7.2. Agrupación en clases 1.7.3. Tabla de una variable estadística continua 1.8. Representaciones gráficas 1.8.1. Representaciones de caracteres cualitativos 1.8.2. Representaciones de caracteres cuantitativos 1.8.2.1. Diagramas diferenciales 1.8.2.2. Diagramas integrales para variable discreta 1.8.2.3. Diagramas integrales para variable continua 1.9. Simetría y sesgo 1.10. Modalidad 1.11. Apuntamiento
CARACTERÍSTICAS DE POSICIÓN 2.1. Características de una distribución de frecuencias 2.2. Características de tendencia central 2.3. Media aritmética 2.3.1. Definición en el caso discreto 2.3.2. Propiedades de la media aritmética 2.3.3. Definición en el caso continuo 2.3.4. Ventajas e inconvenientes de la media aritmética 2.4. Otros valores medios 2.4.1. Media geométrica 2.4.2. Media cuadrática 2.4.3. Media armónica 2.4.4. Relación entre las distintas medias 2.5. Percentiles. Mediana 2.5.1. Definiciones 2.5.2. Cálculo de la mediana 2.5.2.1. Comportamiento de la mediana 2.5.3. Problema inverso 2.6. Cuartiles, quintiles y deciles 2.7. Moda 2.7.1. Definición 2.7.2. Cálculo de la moda 2.8. Ejercicios propuestos
CARACTERÍSTICAS DE DISPERSIÓN Y FORMA 3.1. Dispersión o variabilidad 3.2. Medidas de dispersión absolutas 3.2.1. Recorrido 3.2.2. Desviaciones cuartílicas 3.2.2.1. Recorrido intercuartflico 3.2.2.2. Recorrido semiintercuartílico 3.2.3. Diferencias y desviaciones 3.2.4. Varianza y desviación típica 3.2.4.1. Definiciones 3.2.4.2. Propiedades de la varianza 3.2.4.3. Propiedades de la desviación típica 3.3. Medidas de dispersión relativas 3.3.1. Coeficiente de apertura 3.3.2. Recorrido relativo
89 89 90 90 90 91 91 92 93 94 94 96 97 98 98
13 3.3.3. Coeficiente de variación de Pearson 3.3.4. Coeficiente de variación media 3.4. Momentos 3.4.1. Momentos centrales 3.4.2. Momentos respecto al origen 3.4.3. Cálculo de momentos 3.5. Análisis de la forma 3.5.1. Coeficiente de asimetría de Fisher 3.5.2. Coeficiente de asimetría de Pearson 3.5.3. Coeficiente de asimetría de Bowley 3.5.4. Coeficiente absoluto de asimetría 3.5.5. Medidas de apuntamiento o curtosis 3.6. Medidas de concentración 3.7. Variable tipificada 3.8. Puntuaciones derivadas 3.8.1. Puntuaciones T 3.8.2. Puntuaciones SAT 3.9. Correcciones de agrupamiento de Sheppard 3.10. Ejercicios propuestos Apéndice al capítulo 3: Demostración de las propiedades 4. ANÁLISIS EXPLORATORIO DE DATOS 4.1. Estadística exploratoria 4.2. Principios fundamentales 4.3. índices de localización resistentes 4.3.1. Promedios de cuartiles 4.3.2. Trimedia 4.3.3. Medias recortadas 4.4. índices de dispersión 4.4.1. Rango intercuartílico pseudo-tipificado 4.4.2. Indice de variación cuartílica 4.5. índices de forma 4.5.1. índice de simetría de Yule 4.5.2. Indice de simetría de Kelly 4.5.3. índice de curtosis 4.6. Diagrama de tronco y hojas 4.7. Cuartos y octavos 4.8. Datos anómalos 4.9. Gráfico en caja y extensión 4.10. Promedios de simetría 4. 1 1 . Transformaciones de datos
4.11.1. Transformaciones de potencias 4.11.2. Método de la pendiente para determinar la potencia 4.11.3. Transformaciones de raíz cuadrada 4.12. Ejercicios propuestos
137 138 140 141
DISTRIBUCIONES BIVARIANTES 5.1. Análisis de dos caracteres 5.2. Distribución conjunta 5.2.1. Propiedades de las frecuencias 5.3. Tablas estadísticas 5.4. Distribuciones marginales 5.4.1. Distribución marginal según el carácter X 5.4.1.1. Propiedades 5.4.2. Distribución marginal según el carácter Y 5.4.2.1. Propiedades 5.5 Distribuciones condicionadas 5.5.1. Propiedades 5.6. Medidas de posición y de dispersión 5.7. Dependencia e independencia funcional 5.7.1. Independencia 5.7.2. Dependencia 5.8. Momentos 5.8.1. Momentos centrales o respecto de las medias 5.8.2. Momentos respecto al origen 5.8.3. Primeros momentos 5.8.4. Propiedades 5.8.5. Covarianza 5.8.5.1. Propiedades de la covarianza 5.9. Poblaciones pequeñas 5.10. Representaciones gráficas 5.11. Los dos caracteres son cualitativos 5.11.1. Los dos caracteres presentan más de dos modalidades 5.11.2. Uno de los caracteres es dicotómico 5.12. Un carácter es cualitativo y el otro cuantitativo 5.13. Los dos caracteres son cuantitativos 5.13.1. Las dos variables son discretas 5.13.2. X es una variable continua e Y discreta 5.13.3. Las dos variables son continuas 5. 13. 3.1. Representación mediante puntos 5.1 3.3.2. Estereograma 5.14. Diagrama de dispersión
5.15. Ejercicios propuestos Apéndice al capítulo 4: Demostración de las propiedades de las frecuen cias condicionadas y de los momentos
175
REGRESIÓN Y CORRELACIÓN 6.1. Dependencia aleatoria y funcional 6.2. Regresión y correlación 6.3. Métodos de ajuste 6.3.1. Ajuste por el método de mínimos cuadrados 6.4. Regresión lineal 6.4.1. Recta de regresión de Y sobre X 6.4.2. Recta de regresión de X sobre Y 6.4.3. Coeficientes de regresión y covarianza 6.4.4. Predicciones 6.5. Correlación 6.5.1. Coeficiente de correlación general de Pearson 6.5.1.1. Propiedades del coeficiente de correlación gene ral de Pearson 6.5.2. Coeficiente de correlación lineal de Pearson 6.5.2.1. Interpretación del coeficiente de correlación linea1. 6.5.2.2. Cálculo del coeficiente de correlación lineal 6.5.3. Variables incorreladas 6.5.4. Correlación y causalidad 6.6. Otros coeficientes de correlación 6.6.1. Coeficiente de correlación de Spearman 6.6.2. Coeficiente de correlación biserial puntual 6.6.3. Coeficiente O 6.6.4. Correlación tetracórica o de atributos 6.7. Regresión y series de tiempo 6.8. Regresión parabólica 6.9. Regresión exponencial y geométrica 6.10. Ejercicios propuestos Apéndice al capítulo 6: Demostración de las propiedades del coeficien te de correlación lineal de Pearson
PROBABILIDAD Y VARIABLE ALEATORIA 7.1. Experimentos aleatorios 7.2. Operaciones con sucesos 7.2.1. Propiedades de la unión e intersección de sucesos
219 219 220 221
16 7.2.2. Otras operaciones y relaciones entre sucesos 7.2.3. a-álgebra de sucesos 7.3. Frecuencia de un suceso 7.4. Definición de Probabilidad 7.4.1. Propiedades de la probabilidad 7.4.2. Asignación de probabilidades 7.5. Ejercicios resueltos 7.6. Probabilidad condicionada 7.6.1. Sucesos dependientes e independientes 7.7. Teoremas de la probabilidad total y de Bayes 7.8. Variable estadística y variable aleatoria 7.9. Concepto de variable aleatoria 7.9.1. Variable aleatoria discreta y continua 7.10. Distribuciones discretas 7.11. Distribuciones continuas 7.12. Esperanza matemática 7.12.1. Esperanza de una función de una variable aleatoria 7.12.2. Propiedades de la esperanza matemática 7.13. Varianza y desviación típica 7.13.1. Propiedades de la varianza 7.14. Teorema de Tchebycheff 7.15. Cambio de variable 7.15.1. Cambio de variables aleatorias discretas 7.15.2. Cambio de variables aleatorias continuas 7.16. Momentos 7.16.1. Momentos respecto al origen 7.16.2. Momentos centrales 7.17. Función generadora de momentos 7.18. Ejercicios propuestos 8. MODELOS DE DISTRIBUCIONES 8.1. Distribuciones probabilísticas 8.2. Distribuciones discretas 8.2.1. Distribución uniforme 8.2.2. Distribución binomial 8.2.2.1. Ajuste de una distribución de frecuencias por una binomial 8.2.3. Distribución de Poisson 8.3. Distribución normal general 8.3.1 Propiedades 8.3.2. Representación gráfica de la normal general
17 8.4. Distribución normal tipificada 8.4.1. Propiedades de la normal tipificada 8.4.2. Representación gráfica de la normal tipificada 8.4.3. Función de distribución 8.4.4. Áreas bajo la curva normal 8.5. Aproximación de la binomial 8.6. Ejercicios Propuestos Apéndice al capítulo 8: Demostración de las propiedades de la distri bución normal
277 277 277 278 279 284 287 290
TERCERA PARTE: ESTADÍSTICA INFERENCIAL INFERENCIA ESTADÍSTICA 9.1. Fundamento teórico 9.2. Objetivos 9.3. Población y muestra 9.4. Muestreo aleatorio 9.5. Muestreo aleatorio simple 9.6. Estadístico 9.7. Distribución de los estimadores 9.8. Error típico 9.9. Propiedades de los estimadores 9.10. Distribución de la media muestral 9.11. Grados de libertad de un estadístico 9.12. Estimación puntual 9.12.1. Estimadores para una distribución normal 9.12.2. Estimadores para una población binomial 9.12.3. Estimadores para una distribución de Poisson 9.12.4. Estimadores de la diferencia de medias 9.12.5. Estimaciones del cociente de varianzas 9.12.6. Estimadores de la diferencia de datos apareados 9.12.7. Estimación de la diferencia de proporciones 9.13. Estimación por intervalos 9.14. Planteamiento general de un intervalo de confianza 9.14.1. Intervalo de confianza para la media de una distribución normal de varianza conocida 9.14.2. Intervalo de confianza para la media de una distribución normal de varianza desconocida 9.15. Relación entre la estimación puntual y por intervalo 9.16. Selección del tamaño de la muestra 9.17. Intervalo de confianza para la varianza
-18 9.18. Intervalo para la razón de varianzas 9.19. Ejercicios propuestos
324 326
10. CONTRASTES DE HIPÓTESIS 10.1. Consideraciones previas 10.2. Contraste de hipótesis sobre la media de una distribución 10.2.1. La desviación típica es conocida 10.2.2. La desviación típica no es conocida 10.3. Contraste de hipótesis unilateral 10.4. Relación entre contrastes e intervalos de confianza 10.5. Potencia de un contraste de hipótesis 10.5.1. Idea de potencia 10.5.2. Variables que intervienen para fijar la potencia 10.5.3. Cálculo de la potencia 10.5.4. Factor de equilibrio 10.5.5. Cálculo práctico de la potencia 10.5.6. Curva de potencia 10.5.7. Selección del tamaño de la muestra 10.6. Ejercicios propuestos
11. DIFERENCIAS DE MEDIAS Y PORCENTAJES 11.1. Método de trabajo 11.2. Inferencias sobre diferencias de medias 1 1 .3. Muestras independientes 11.3.1. Contraste de diferencias con muestras grandes 11.3.1.1. Análisis de los resultados 11.3.1.2. Intervalo de confianza 11.3.1.3. Potencia del contraste 11.3.1.4. Gráfico de caja y extensión múltiple 11.3.2. Contraste de diferencia de medias con pequeñas muestras 1 1 .3.2. 1 . Contraste de diferencia de medias cuando las va rianzas poblacionales son conocidas 11.3.2.2. Potencia del contraste 11. 3. 2. 3. Contraste de homogeneidad de varianzas para muestras independientes 11. 3. 2.4. Contraste de diferencia de medias procedentes de poblaciones homogéneas 1 1.3.3. Contraste de diferencia de medias procedentes de poblacio nes no homogéneas 11.4. Diferencia de medias para muestras dependientes 11.4.1. Contraste de hipótesis
11.4.2. Intervalo de confianza 11.5. Inferencias sobre proporciones y porcentajes 11.5.1. Intervalo de confianza 11.5.2. Potencia del contraste 11.5.3. Determinación del tamaño de la muestra 11.6. Contraste de la diferencia de proporciones 11.7. Ejercicios propuestos
379 379 381 381 382 383 385
12. AJUSTE, INDEPENDENCIA Y HOMOGENEIDAD 12.1. Contrastes con frecuencias 12.2. Test de bondad de ajuste 12.2.1. Restricciones en el uso de la x2 12.2.2. Pruebas de normalidad 12.2.2.1. Prueba de normalidad basada en la x2 12.2.2.2. Prueba de normalidad basada en los residuales ... 12.3. Pruebas de independencia 12.3.1. Corrección de Yates 12.4. Pruebas de homogeneidad 12.5. Prueba de igualdad de proporciones 12.6. Coeficientes de contingencia 12.6.1. Coeficiente de Cramer 1 2.7. Ejercicios propuestos
13. ANÁLISIS DE LA VARIANZA 13.1. Técnica del análisis de la varianza 13.2. Tipos de diseño 13.3. Análisis de varianza unidireccional 13.3.1. Modelo matemático 13.3.2. Variaciones intragrupo e intergrupos 13.3.3. Contraste de la F de Fisher-Snedecor 13.3.4. Cálculos y tabla resumen 13.3.5. Comparaciones múltiples 13.3.5.1. Prueba LSD ó t protegida 13.3.5.2. Prueba de Scheffe 13.3.5.3. Prueba de Duncan 13.3.5.4. Prueba de Tukey 13.3.6. Intensidad de la relación 13.4. Diseño factorial 13.4.1. Modelo matemático
13.4.2. Establecimiento de las hipótesis 13.4.3. Descomposición de las variaciones 13.4.4. Medias cuadráticas y contrastes 13.4.5. Cálculos y tabla resumen 13.4.6. Pruebas de comparaciones múltiples 13.4.7. Prueba de los efectos principales simples 13.4.8. Interpretación de los resultados 13.5. Ejercicios propuestos 14. INFERENCIAS SOBRE REGRESIÓN LINEAL Y CORRELACIÓN 14.1. Fases en la construcción del modelo de regresión 14.2. El modelo de regresión lineal 14.3. Elección del modelo de regresión lineal 14.4. Estimadores de los parámetros de regresión 14.4.1. Comprobación de hipótesis 14.4.2. Contraste sobre el coeficiente de regresión mediante análi sis de la varianza 14.4.3. Inferencias mediante la t de Student 14.4.4. Inferencias acerca de a 14.5. Intervalos para la respuesta media y para una sola respuesta 14.5.1. Intervalo para la respuesta media 14.5.2. Intervalo de predicción para una respuesta 14.6. Contraste sobre la linealidad del modelo de regresión 14.7. Estimación del coeficiente de correlación de Pearson 14.7.1. Contraste basado en la t de Student 14. 7. 1.1. Potencia del contraste 14.7. 1.2. Determinación del tamaño de la muestra 14.7.2. Coeficientes de determinación y de no alineación 14.7.3. Contraste del coeficiente de correlación basado en el análi sis de la varianza 14.8. Contraste de la diferencia de coeficientes de correlación 14.9. Ejercicios propuestos 15. CONTRASTES NO PARAMÉTRICOS Y DE DISTRIBUCIÓN LIBRE 15.1. Consideraciones previas 15.2. Ventajas e inconvenientes de las pruebas no paramétricas 15.3. Pruebas basadas en rangos 15.3.1. Prueba de la suma de rangos 15.3.2. Prueba de Kruskal-Wallis 15.3.3. Prueba de Wilcoxon para dos muestras dependientes
APÉNDICE B: Teoría combinatoria Combinatoria B.1. Variaciones ordinarias B. 1.1. Formación de las variaciones ordinarias B.1.2. Número de variaciones ordinarias B.2. Variaciones con repetición B.3. Permutaciones B.4. Permutaciones con repetición B.5. Combinaciones B.6. Combinaciones con repetición
529 531 531 531 532 533 534 534 535 536
APÉNDICE C: Otros modelos de distribución Otros modelos de distribución C.1. Función (gamma) C.1.1. Distribución (gamma) C.1.2. Distribución exponencial C. 1 .3. Distribución X2 C.2. Distribución t de Student C.3. Distribución F de Fisher-Snedecor
537 537 539 539 540 540 542 543
RESPUESTA A LOS EJERCICIOS
545
BIBLIOGRAFÍA
561
ÍNDICE ALFABÉTICO
567
INTRODUCCION
1.1. Sumas indicadas La Matemática, en su afán por definir los conceptos con precisión y expresar los razonamientos con claridad, emplea un lenguaje simbólico, que resulta difícil de enten der si no se conoce bien el significado de los símbolos y signos de que se sirve. Uno de los símbolos, que aparecerá profusamente a lo largo de las páginas de este libro, es el símbolo de la suma indicada o «sumatorio», que representamos con la letra griega Z (sigma mayúscula), y que emplearemos para expresar la suma de diversos conjuntos de números.
Ejemplo 1. 1 Supongamos que un dependiente de unos grandes almacenes ha ido registrando los ingresos por las ventas realizadas a lo largo del día, y que tiene almacenados los datos en una variable con índice: A =22600, A =15500, A =8250, A4=25200, A5=32400, Ai representa el valor 22600 de los ingresos por la primera venta, A, representa el valor 13500 de los ingresos por la segunda venta,
La variable con índice A define así el conjunto de los ingresos por ventas que ha realizado el dependiente. Para expresar la suma de todos los ingresos, se procede de acuerdo con el criterio que establece la siguiente definición:
24
Definición 1.1: Dado el conjunto de números reales {A ,A„. ..,An} representado por la variable con índice A , la expresión (1)
¿x indica la suma de todos sus elementos: A1+A,+...+An
y se debe leer como «la suma de» todos los valores que toma la variable A . empezan do por el primero, A, (A, cuando i=l ) y terminando por el último, An (A, cuando i=n): El índice inferior (i=l ) especifica que la suma empieza en A , y el índice superior (i=n), colocado sobre la Z. señala el último de los sumandos. La letra i, que hemos empleado para designar un índice genérico, es una variable «muda», que puede reemplazarse por otra letra que no haya sido utilizada. Así: n
n
n
lA, = lA,= lAk i=l
i=l
k=1
La suma de todos los ingresos por ventas del dependiente de los grandes almace nes se expresa como:
ÍA que, una vez desarrollado, resulta: 5
Xa = A, + A, + A, + A, + A, = 22600+ 15500 + 8250 + 25200 + 32400= 103950 M
Una generalización de la definición 1.1 es la siguiente: Definición 1.2: Consideremos el conjunto de los números reales { ArA„. ...A }. y sean p y q dos números naturales, siendo p
p,
(2)
indica la suma A +A ,+...+A Esta nueva fórmula permite especificar sumas parciales de cualquier subconjunto de un conjunto dado, sin más que señalar cuáles son el primero y el último de los sumandos. Volviendo al ejemplo 1. 1 , la expresión
Xa
25 representa la suma de los ingresos por los artículos vendidos en segundo, tercero y cuarto lugar: 4
X A. = 1 5500 + 8250 + 25200 = 48950 La especificación del primero y del último de los índices es importante. Sin embar go, en muchas ocasiones no se especifican. Cuando suceda esto, debe entenderse que la suma se extiende a todos los elementos del conjunto que define la variable A. Propiedades 1.
'Z(X + Y)=^X + ^Y
[3]
Esta propiedad nos dice que, si cada sumando de una suma indicada se descom pone en dos, el valor de ésta es el mismo que se obtiene de sumar los resultados de las dos sumas parciales. Ejemplo 1.2 Supongamos que el dependiente de los grandes almacenes del ejemplo I.1 cobra por separado el importe neto del producto y el impuesto (IVA) que lo grava. Los ingresos anteriores vendrían ahora desglosados en la forma: Valor del artículo (X) IVA(Y) Precio de venta (A)
0179 2421 2600
siendo
13839 1661 15500
7366
884 8250
22500 2700 25200
A=X+Y i i i
La suma de los valores de los artículos libres de impuesto es: tx=20179+13839+7366+22500+28929=92813 y la suma de los impuestos (IVA) de los artículos: X^ = 2421 + 1661 + 884 + 2700 + 3471 = 1 1 137 Comprobamos que efectivamente es 5
5
.5
X*,+X^ =92813+ 11 137= 103950 = XA
28929 3471 32400
26
(4)
X(x-y) = lx-ly
II.
Esta propiedad nos indica que, para hallar el precio neto, es igual sumar los pre cios de venta de los artículos por un lado y los impuestos por otro y restar, que sumar las diferencias entre el precio de venta y el IVA de cada uno de los artículos: 5
5
Xa, -X*;. =103950-11137=92813
X (A, -Y,)= 20179 + 13839 + 7366 + 22500+ 28929 = 92813 III. Si k es una constante (5)
lkA, = klA,
Así, por ejemplo, si todos los precios se multiplican por 2, el precio total será también el doble. Esta propiedad se conoce como «distributiva», y es la que permite sacar factor común: J
^7 = 7 + 7 + 7 + 7 + 7 = 5x7 = 35 Como caso particular, tenemos N
(7)
V. Si k es una constante N
N
X(Ai-k) = X,Ai-Nk
(8)
27
La expresión (8) surge de aplicar (4) y luego (6): N
N
N
n
Nos interesa ahora resaltar dos reglas que no cumple la suma indicada:
1)
YXY*(YX)(1Y)
es decir, no se obtiene el mismo resultado si se multiplica primero cada valor de X por cada valor de Y, sumando a continuación los productos, que si se suman, por un lado las X, y, por otro las Y, multiplicando a continuación las dos sumas. Tampoco es igual la suma de los cuadrados de los valores de X y el cuadrado de su suma. 2)
1X2*(1X)2
Ejemplo I.3 Si tenemos los valores X =2, X,=6, X =7 e Y=3, Y,=5, Y,=4, será: £aT = 2x3 + 6x5 + 7x4 = 6 + 30 + 28 = 64 (X*)(5^) = (2 + 6 + 7)x(3 + 5 + 4)=15xl2=180 lo que demuestra la desigualdad 1 ). Asimismo mientras que
1.2. Sumas dobles Son también numerosas las ocasiones en que nos encontramos con variables con dos índices. Vamos a servirnos de un ejemplo sencillo para que el lector no habituado a tratar con matrices descubra la necesidad y el modo de trabajar. Ejemplo I.4 Supongamos que un almacenista tiene cuatro tipos de artículos clasificados por el año de antigüedad (según los tres últimos años). Una tabla de doble entrada (4 filas por 3 columnas) le permite representar fácilmente sus datos, que serán guardados en una variable con dos índices:
28
Artículos
1 2 3 4
Años de antigüedad 1 2 3 >
>>>
A representa el precio del artículo 1 con 1 año de antigüedad, Ai2 representa el precio del artículo 1 con 2 años de antigüedad,... Si sustituimos los símbolos de las variables (las A ) por los valores que represen tan, quedará la matriz numérica:
1 2 3 4
1 50 25 16 12
2 60 30 10 8
3 35 10 14 24
que, realmente, es un cuadro de números ordenados por filas y por columnas. Los elementos de la primera fila son los precios del artículo 1 según el año de antigüedad: 50, 60, 35; los elementos de la primera columna son los precios de cada artículo con un año de antigüedad,... Cuando el número de filas(m) y de columnas(n) es grande, una manera de repre sentar la suma de todos los elementos de la matriz es mediante la expresión: (9) que, en el ejemplo I.4, es
M ¡=1
Por tratarse de sumas de números que cumplen las propiedades asociativa y conmutativa, el resultado es el mismo cualquiera que sea el orden que sigamos para sumar. Se puede proceder comenzando por sumar, en primer lugar, los elementos de cada columna, y después hallar la suma de sus resultados, o bien comenzar por la suma de las filas, para después sumar sus totales. Si sumamos primero las columnas, resulta:
= (A/, + A« + A,.i) + fA2i + A22 + AuJ + M.i/ + A» + A.it) + (A4/ + A42 + A4.l) = = (50 + 60 + 35) + (25 + 30 + 10) + ( 16 + 10 + 14) + (12 + 8 + 24) = 145 + 65 + 40 + 44 = 294 Hemos comprobado, por tanto, que el resultado es el mismo cualquiera que sea el orden que sigamos para sumar, lo que podemos expresar mediante la fórmula: rn
n
m
f n
Xa, XX\o =X ,.i ¡.i ,.i
\
( m
\
-i ,»1Xa„ )
(10)
Propiedades de la suma doble I. Si k es constante,
II* A« = * IS Ao
(11)
Esta propiedad resulta evidente, ya que la constante se puede sacar factor común en las sumas simples, según hemos visto en (5). También resultan fáciles de compro bar las siguientes: II.
IE(a,±B,)-IXA|±XXBi rn
III.
XXk - nink = Nk. si mn= N. nr
IV
(12)
n
(13)
n
X X I = mn = N, si mn = N.
(14)
,.1 i.i
V. Cuando cada uno de los términos a es un producto de dos factores de la forma b.c, donde cada factor depende de uno de los índices, la suma doble se puede expresar como producto de sumas simples: ( m
En ocasiones, interesa obtener sumas parciales de una suma doble, como puede ser, en el ejemplo 1.4, la suma de los precios de todos los artículos con un año de antigüedad (que se corresponde con la suma de los elementos de la primera columna de la tabla): 4
5X¡ = An +A^1 +AH +A4l = 103 1=1
o la suma de los precios de los artículos 1 y 2 (suma de las dos primeras columnas): 4
PRIMERA PARTE
ESTADÍSTICA DESCRIPTIVA
CAPITULO 1 DISTRIBUCIONES Y GRÁFICAS
1.1. Concepto y términos Podemos definir la Estadística Descriptiva como un método para describir numéri camente conjuntos numerosos. Por tratarse de un método de descripción numérica, la Estadística Descriptiva utiliza el número como medio para describir un conjunto, que debe ser numeroso, ya que las permanencias estadísticas no se dan en los casos raros. No es posible, por tanto, sacar conclusiones concretas y precisas de los datos estadísticos. La Estadística Descriptiva se inicia con los trabajos que realiza John Graunt sobre la natalidad y mortalidad en Londres en el período que va de 1604 a 1661 . Debido a su origen, los términos que se utilizan son propios del ámbito de la Demografía. Conviene hacer una distinción entre lo que llamamos Estadística Descriptiva Di recta, que pretende describir las características relevantes de un conjunto de datos, y la Estadística Inferencial, que utiliza técnicas especiales para conocer los elementos de un conjunto a partir de los datos de un subconjunto del mismo. Francis Galton y Karl Pearson, en los últimos años del siglo XIX y en los primeros del siglo XX. sientan las bases de la Estadística Inferencial, cuyas técnicas se aplican hoy a casi todos los dominios de la investigación científica, como son la Medicina, Biología, Economía, Ciencias de la Educación, Psicología, Química,... La inferencia estadística intenta tomar decisiones basadas en la aceptación o el rechazo de ciertas relaciones que se toman como hipótesis. Esta toma de decisiones va acompañada de un margen de error, cuya probabilidad está determinada.
1 .2. Población, muestra e individuo Llamamos población o universo al conjunto de los elementos que van a ser obser
34
vados en la realización de un experimento. Cada uno de los elementos que componen la población es llamado individuo o unidad estadística. Los individuos no tienen por qué ser personas, sino que pueden ser objetos cualesquiera. Estos objetos pueden ser simples, como lámparas, automóviles, niños,... o colectivos, como familias de personas, equipos de fútbol.... Atendiendo al número de elementos que la componen, una población puede ser finita o infinita. Aún en el caso de una población finita, el número de individuos que la forman puede ser suficientemente grande como para que no puedan ser observados todos ellos. En otras ocasiones, no es posible la observación de todos los individuos de la población debido al coste que ello supone. En estas situaciones, se trabaja con un subconjunto de elementos de la población al que denominamos muestra. El número de elementos de la muestra es su tamaño.
1.3. Caracteres y modalidades Se llama carácter de un individuo a cada una de las facetas bajo las cuales éste puede ser analizado. El carácter es, por tanto, una propiedad que permite clasificar a los individuos de la población. Así, por ejemplo, los estudiantes de una universidad pueden ser analizados, entre otros, según los siguientes caracteres: sexo, edad, cociente intelectual, calificaciones en una determinada asignatura, estatura, peso,... Un mismo carácter puede presentar distintas situaciones, a las que llamaremos modalidades de dicho carácter. Así, el carácter sexo presenta dos modalidades: sexo masculino y sexo femenino. Aquellos caracteres que sólo admiten dos modalidades, como el sexo, se llaman dicotómicos. A) Propiedad fundamental: Las diversas modalidades de un mismo carácter deben ser incompatibles y exhaustivas es decir, cada uno de los individuos de la población debe tener una y sólo una de las modalidades del carácter. Para un mismo carácter, el número de modalidades que pueden ser analizadas es variable. Así, el estado matrimonial de una persona puede considerarse bajo dos modalidades: casado o soltero; tres modalidades: casado, soltero, viudo; cuatro mo dalidades: casado, soltero, viudo, divorciado; cinco modalidades: casado, soltero, viudo, divorciado, separado;...
35 B) Tipos de caracteres: Es conveniente distinguir entre dos tipos de caracteres: cualitativos y cuanti tativos. Un carácter se dice cuantitativo cuando sus diversas modalidades pueden ser medidas o numeradas. La talla, el peso, la edad, el diámetro de una pieza circular,... son caracteres cuantitativos. Un carácter se dice cualitativo cuando sus distintas modalidades no son medibles ni contables, sino que su variación se pone de manifiesto mediante cualidades que presentan formas alternativas, como puede ser el estado matrimonial, el sexo,...
1 .4. Variable estadística En el caso de un carácter cuantitativo, a cada modalidad del mismo se le asocia un número. Esta correspondencia define lo que llamamos variable estadística, de modo que los diferentes valores de las distintas modalidades son los posibles valores de dicha variable estadística. Cuando los valores posibles de la variable estadística son aislados, se dice que la variable estadística es discreta. Constituyen una variable estadística discreta el núme ro de miembros que pueden convivir en una misma familia, el número de goles que consiguen los equipos de fútbol de la primera división en una jornada.... Si los valores posibles de la variable estadística son infinitos o es posible encon trar individuos que los posean con una diferencia tan pequeña como se desee, se dice que la variable estadística es continua. El diámetro de una pieza circular, la capacidad de una bombona de gas butano, la talla de los quintos de un reemplazo,... son ejemplos de variable estadística continua. La distinción entre variable estadística discreta y continua es arbitraria. Suele considerarse como continua una variable capaz de tomar gran número de valores, aunque sean valores aislados, como pueden ser los salarios mensuales de los obreros de una gran empresa.
1 .5. Distribución de frecuencias La Estadística Exploratoria recomienda comenzar por el análisis de la estructura de los datos. Se clasifican éstos de acuerdo con la modalidad del carácter a que pertene ce cada uno de los individuos y se ordenan, anotando sus resultados en una tabla. La ordenación de los datos en la tabla, acompañados de las frecuencias corres pondientes, es lo que se llama distribución de frecuencias.
36
A continuación definimos el concepto de frecuencia y sus clases, y exponemos el diseño general de una tabla estadística.
1.5.1. Frecuencia absoluta v relativa Se llama frecuencia absoluta, n , de la modalidad C al número de individuos que presentan dicha modalidad. Se \lamafrecuencia relativa, f , de la modalidad Cal cociente de dividir su frecuen cia absoluta, n¡, por el número total de individuos de la población, N: n (1) A veces, la frecuencia relativa se da como porcentaje (frecuencia relativa referida a 100 individuos), que se obtiene de multiplicar por 100 la frecuencia relativa: (2)
P, = 100/
1.5.2. Propiedades de las frecuencias Como las modalidades Cr C, Ck del carácter C son incompatibles y exhausti vas, se verifica: 1. La suma de las frecuencias absolutas es igual al número de individuos de la población:
X«, = N
(3)
2. La suma de las frecuencias relativas es igual a 1: ,4,
I/-1 i
k
.
k
i
En efecto: ,-i N
N ,=l
N
1.5.3. Frecuencias acumuladas Consideremos una población de N individuos, cuyo carácter C es cuantitativo. Llamamos frecuencia absoluta acumulada en el valor x¡ a la suma de las frecuencias absolutas de los valores menores o iguales a x^ y la representaremos por N :
37
(5)
Para obtener las frecuencias absolutas acumuladas, es conveniente ordenar los valores de la variable x . Llamamos frecuencia relativa acumulada en x. al cociente de dividir la frecuencia absoluta acumulada por el número de observaciones; la representamos por F : i
h,- N
N
tí '
1 .6. Parámetros y estadísticos A partir de los datos estadísticos contenidos en la distribución de frecuencias se obtienen unos valores numéricos, que se utilizan como resúmenes cuantitativos de la misma, y que se denominan estadísticos o estadígrafos de la distribución. La media aritmética, que después definiremos, es un estadístico. Hay dos tipos de estadísticos: descriptivos e inferenciales. Los estadísticos descriptivos son valores numéricos obtenidos a partir de los datos de una distribución de frecuencias y que señalan una característica de la misma. Los estadísticos inferenciales son también valores numéricos obtenidos a partir de los datos de una distribución estadística, pero que se utilizan para proporcionar información acerca de la población a que pertenece la muestra cuyos datos forman la distribución. Muchos de los estadísticos descriptivos son también utilizados como estadísticos inferenciales. Por ahora sólo trataremos estadísticos descriptivos. El valor correspon diente a un estadístico inferencial en la población se llama parámetro. La media arit mética poblacional es un parámetro. Los valores de los parámetros son. de ordinario, desconocidos, ya que las pobla ciones suelen ser demasiado amplias para poder tener un conocimiento directo de todos sus elementos. Por ello, los parámetros se estiman a partir de los datos de las muestras, usando técnicas propias de la Estadística Inferencial.
1.7. Tablas estadísticas Hecho el recuento de los individuos que pertenecen a cada modalidad del carácter analizado, se recogen los datos ordenados en una tabla.
38 Los paquetes informáticos disponen de módulos orientados al diseño de tablas de frecuencias, con opciones para dirigir la salida de resultados a la pantalla del ordena dor, a la impresora o a un «plotter». Supongamos una distribución de N individuos descrita según un carácter C que presenta k modalidades CrC, C. La forma general de la tabla es: Modalidades F. Absolutas F. Relativas Porcentajes
c, c.
n, n,
f, f.
lOOxf, lOOxf,
c
n
f
lOOxf
1
q Total
i
\ N
t; i
lOOxf^ 100%
Ejemplo 1.1 La tabla siguiente corresponde a la distribución de 50 personas atendiendo al color de los ojos: Modalidades F. Absolutas F. Relativas Porcentajes Azules Verdes Castaños Negros Total
16 12 14 8 50
032 0'24 0'28 0'16
roo
32% 24% 28% 16% 100%
1.7.1. Tabla de una variable estadística discreta Cuando el carácter estudiado es cuantitativo, si la variable estadística es discreta, las modalidades del carácter son los posibles valores x, de éstas.
39 La tabla estadística correspondiente a una variable discreta se construye ordenan do de menor a mayor los distintos valores de la variable y anotando en columnas sucesivas las frecuencias absolutas, las frecuencias relativas y los porcentajes: Valor de la variable F. Absoluta
"\
F. Relativa
Porcentajes
f
lOOxf lOOxf,
lOOxf
\ Total
N
1
100xfk 100%
La tabla estadística se completa añadiendo los valores de las frecuencias acumu ladas, que se suelen situar sobre las líneas con el fin de facilitar su comprensión y los cálculos posteriores. Ejemplo 1.2 Elegida al azar una muestra de 50 familias de una ciudad española, se contabiliza ron 7 familias sin hijos, 13 familias con un solo hijo, 15 con 2 hijos, 8 con 3 hijos y 7 familias con 4 ó más hijos. La tabla, completada con las frecuencias acumuladas, es: P%
1
14
0,14 7
0,14 0,26
13 20
26 0.40
0,30
15
30 0,70
35
16
0,16
43 4 ó más
0,86 0.14
Total
50
14 1,00
50 1,00
100%
40
1.7.2. Agrupación en clases Para facilitar el estudio de los posibles valores de una variable estadística conti nua, éstos se agrupan en clases o intervalos de clase, que constituyen las modalida des del carácter. Generalmente se toman los intervalos solapados de forma que cubran todos los posibles valores de la variable; son intervalos semiabiertos (cerrados por la izquierda y abiertos por la derecha). Representaremos la i-ésima clase por te,,,e,)
(7)
donde e,, es el extremo inferior del intervalo y e es el extremo superior, que no forma parte del mismo. La amplitud de clase es la distancia entre sus extremos. La amplitud de la clase i-ésima es, por tanto: a.=e-e , (8) t
i
i-i
v
f
Las clases pueden tener una amplitud constante o variable, aunque es aconsejable elegir los intervalos con amplitud constante. Así, las estaturas de una muestra de estudiantes pueden agruparse en clases de la siguiente forma: de 1,55 m. a menos de 1,65 m. de 1,65 m. a menos de 1,75 m. de 1,75 m. a menos de 1,85 m. más de 1,85 m. La amplitud de las tres primeras clases es de 10 cm., mientras que la amplitud de la última clase es indeterminada. Se dice que esta clase es abierta. Los extremos de clase son 1,55; 1,65; 1,75;... Los intervalos de clase son [l'55,r65), [l'65,r75),... La última clase no tiene extremo superior. La elección del número de clases depende del recorrido y de la amplitud de cada uno de los intervalos. Se define el recorrido o rango de una variable estadística como la diferencia entre los valores mayor y menor de la variable. Si lo representamos por R. es: R = máx(x^ - mui(x)
(9)
Se puede fijar el número de intervalos y deducir la amplitud de éstos o bien fijar la amplitud y calcular el número de intervalos. Si son todos los intervalos de amplitud constante a=a, el número n de intervalos de clase, la amplitud y el recorrido verifican la relación: n = R/a
(10)
Se suele actuar de acuerdo con los siguientes criterios: 1) El número total de intervalos de clase debe estar comprendido entre 5 y 15. Si se elige un número menor, pueden darse inexactitudes, y un número mayor de 15 compli
41
ca excesivamente el proceso. Si se tienen N observaciones, Sturges propone tomar como número k de intervalos el valor k=l+[3'3-logN]
(11)
2) Siempre que sea posible, se debe procurar que todos los intervalos tengan la misma amplitud. Cuando se elige previamente la amplitud de clase, se toma, como valor de la misma, la raíz cuadrada del número de observaciones N: (12) N Se llama centro o marca de clase al punto medio de cada intervalo de clase. La marca de la i-ésima clase es: (13) C'~ *'.., 2+ ''. Es conveniente disponer, al hacer los cálculos, de la distancia entre dos marcas de clase consecutivas. La distancia entre las marcas de la clase i y de la clase i+1 viene dada por: ¿-r e¡ + el'¡ e"+e' e±LJ» (14) a,-cM ci- 2 ' 2 ~ 2 Cuando los datos están agrupados en clases, se considera que todos los indivi duos pertenecientes a una clase tienen el valor que señala la marca de clase. Por este motivo, la utilización de intervalos de clase, si bien supone una mayor comodidad en los cálculos, también conlleva una pérdida de información, sobre todo si la distribu ción de los datos en el intervalo no es homogénea. Ejemplo 1.3 Se ha realizado un test para evaluar la capacidad de abstracción de un grupo de treinta alumnos de primer curso de Bachillerato, obteniéndose los resultados que figuran en el siguiente recuadro: 22 40 45 36 38 24 32 41 50 41 29 44 33 38 28 29 45 34 26 28 28 32 47 5041 36 31 24 30 36 Para construir la tabla de frecuencias, como el recorrido es 50-22=28, se pueden elegir seis o siete clases. Si se opta por seis clases, los datos estarán agrupados de la siguiente forma: Intervalos Frecuencias [22,27) [2732) [3237) [37,42) [42,47) [47,52)
4 6 7 6 3 4
42
Es frecuente también el uso de intervalos que no están solapados, como pueden ser las puntuaciones facilitadas por el siguiente ejemplo: Ejemplo 1.4 Las calificaciones obtenidas por los alumnos de un colegio han sido reflejadas en la siguiente tabla: Intervalos
Frecuencias
1-10 11-20 21-30 3140 41-50 51-60 61-70 71-80 Total
30 15 63 84 50 46 32 14 364
Es evidente que no están recogidas calificaciones no enteras, como puede ser una puntuación de 50' 5 puntos, y, sin embargo, en alguna situación podría ser interesante disponer de datos como éste. Por ello, es conveniente elegir nuevos intervalos que contengan estos posibles valores, manteniendo las frecuencias. En este ejemplo, basta con tomar como extremos a los puntos medios entre los extremos superior e inferior de cada dos intervalos contiguos, modificando también los intervalos de modo que todos ellos tengan la misma amplitud. La tabla de frecuencias para el ejemplo 1 .4. quedaría así: Intervalos
Frecuencias
0'5-10'5 10'5-20'5 20'5-30'5 30'540'5 40'5-50'5 W5-fti'5 60'5-70'5 70'5-80,5 Total
30 15 63 84 50 46 32 14 364
43
1.7.3. Tabla de una variable estadística continua
Si la variable estadística es continua, bien por su propia naturaleza, bien porque así sea considerada, las modalidades del carácter son las diferentes clases elegidas, que vienen determinadas por sus extremos. Para facilitar la lectura y comprensión de los datos, las frecuencias acumuladas se suelen situar sobre las líneas. Las modalidades extremas a veces son imprecisas, lo cual no es problemático, ya que las frecuencias correspondientes representan generalmente una fracción muy pequeña de individuos. Ejemplo 1.5 Una oficina de reclutamiento del ejército ha medido la estatura de 100 jóvenes de reemplazo, obteniendo los siguientes resultados (en centímetros): 183 169 163 177 187 195
El recorrido es 195-156=39 cm. que. dividido entre 6. da un resultado próximo a 7. Tomamos, por tanto, un número de 7 intervalos, cada uno con una amplitud de 6 centímetros. Si completamos la tabla con las marcas de clase, frecuencias absolutas, frecuen cias relativas, frecuencias acumuladas y porcentajes, queda: KriroiiK
Maros
Frcab.
Fre. ab. ac
Fre.reL
154-160 160-166 166-172 172-178 178-184 184-190 190-1% Total
157 163 169 175 181 187 193
5 13 22 21 21 13 5 100
5 18 40 61 82 95 100
005 0'13 0'22 0'21 0'21 0'13 0'05
roo
FrereLac 0'05 018 0'40 0'61 0'82 0'95
roo
Rirartajes 5% 18% 40% 61% 82% 95% 100% 100%
44 1 .8. Representaciones gráficas La forma tabular de presentar la distribución de un carácter suele ir acompañada de una gráfica. Un despliegue gráfico proporciona una impresión que ayuda a clarifi car la variabilidad y simetría de la distribución que figura en la tabla de frecuencias. Los programas informáticos permiten el uso de una amplia gama de gráficos esta dísticos, cada uno de ellos con múltiples opciones especiales, que ayudan a determi nar la estructura de los datos, a encontrar relaciones entre ellos e incluso a comprobar ciertas hipótesis, de forma que hoy se están utilizando para hacer inferencias. Los gráficos estadísticos, que constituyen una de las herramientas fundamentales de que se sirve la Estadística Exploratoria, están siendo utilizados también en la Esta dística Inferencial o Confirmatoria. Hay diferentes tipos de gráficos que dependen, en general, de la naturaleza del carácter estudiado: /. Carácter cualitativo: En este caso, se suelen utilizar figuras geométricas, como rectángulos o círculos: a esta categoría pertenecen los diagramas de rectángulos o barras y de sectores. También se usan figuras no geométricas, como los pictogramas. En las Ciencias de la Educación, es muy frecuente el uso de los perfiles ortogonal v radial. II. Carácter cuantitativo: Cuando el carácter es cuantitativo, hay diversos tipos de representaciones, dependiendo además del hecho de que se estudie una o más de una variable. Los tipos fundamentalmente son dos: 1) Diagrama diferencial: A esta categoría pertenecen el diagrama de barras o rectángulos, en el caso discreto, y el histograma. en el caso continuo. A estos gráfi cos se les asocia el polígono de frecuencias simples, que es usado en ambas situacio nes, y la cuna de frecuencias en el caso continuo. 2) Diagrama integral: Dentro de esta categoría se encuentra el diagrama de frecuencias acumuladas y el polígono de frecuencias acumuladas en el caso discre to, y la cuna acumulativa de frecuencias u ojiva, en el caso continuo. El análisis exploratorio de datos ha incorporado nuevos tipos de gráficos orienta dos, unos a la detección de asimetrías, lagunas y anomalías, y otros con carácter confirmatorio, que serán analizados en el capítulo que dedicamos al estudio de los métodos exploratorios.
1.8.1. Representaciones de caracteres cualitativos I. Diagrama de rectángulos El diagrama de rectángulos se construye sobre un sistema de ejes cartesianos, situando en uno de los ejes las distintas modalidades del carácter y en el otro los valores de las frecuencias.
45 Para elegir la unidad de medida, se considera la frecuencia mayor y se toma como máximo un valor próximo superior a ella. Así, si el mayor valor de la frecuencia fuese 9, se tomaría 1 0 como valor máximo sobre el eje correspondiente. Sobre cada modalidad se levantan barras o rectángulos de la misma base, que, por tratarse de datos discontinuos, no suelen estar solapados, y de altura proporcional a la frecuencia de la modalidad (se toma habitualmente la altura igual a la frecuencia). Según se sitúen las modalidades del carácter sobre el eje de abscisas o de ordena das, se tendrán diagramas de rectángulos verticales u horizontales. Ejemplo 1.6 La tabla siguiente contiene los datos de la distribución de 150 personas de 25 a 45 años de edad, según su estado civil. Estado
Soltero
Casado
Fr. absoluta
20
78
Viudo Divorciado Religioso No declarado 15
26
7
4
Se consideran las modalidades de soltero, casado, viudo, divorciado o separado, religioso y no declarado. Las figuras 1.1 y 1.2 contienen los diagramas de rectángulos vertical y horizontal correspondientes.
Figura 1.1. Diagrama vertical.
Figura 1 .2. Diagrama horizontal.
II. Diagrama de sectores El diagrama de sectores de una distribución se construye trazando una circunfe rencia de radio arbitrario y dividiendo su círculo en sectores. Cada sector circular se asocia con cada una de las modalidades del carácter, de modo que el ángulo central de cada sector sea proporcional a la frecuencia de la correspondiente modalidad.
46
Figura 1.3. Diagrama de .sectores.
A veces, al diagrama de sectores se le da una profundidad, lo que le confiere un aspecto de «pastel circular», «gráfico en ruedas» o «queso en porciones», apelativos con los que también se le denomina. Los diagramas de sectores se utilizan principal mente en Demografía y en Geografía Económica. III. Pictograma En este tipo de gráfico, cada modalidad del carácter se representa por una figura no geométrica, como puede ser un automóvil, un edificio, una herramienta de traba jo,... de tamaño proporcional a su frecuencia. Para evitar confusiones, según se tomen las frecuencias proporcionales a la longi tud, a la superficie o al volumen de la figura, debe tenerse en cuenta que. si la razón de las longitudes es de 1/r. la razón de las superficies es de 1/r y la de los volúmenes de 1/r". Un procedimiento alternativo consiste en tomar un dibujo como modelo y repetirlo un número de veces proporcional a la frecuencia de la modalidad correspon diente. Ejemplo 1.7 Consideremos la producción de determinado modelo de automóvil de una empresa en sus diversas factorías en cuatro ciudades A. B. C y D: Ciudad
A
B
t
D
N° de automóviles
500
KXX)
2000
3500
47
Representación alternativa: A: B: C l>.
IV. Perfiles Los perfiles pueden adoptar forma radial, cuando las modalidades del carácter se representan sobre radios que parten de un mismo punto, u ortogonal, cuando se representan sobre unos ejes cartesianos. La utilidad del perfil en el campo educativo se justifica por el hecho de captar, de una vez. diversos rasgos o características del alumno. Según los rasgos que se pretenden ilustrar, hay una gran variedad; hay perfiles sobre intereses, aptitudes, rendimiento,... Los perfiles sobre rendimiento académico reciben el nombre de nosogramas. Los perfiles, realmente no son gráficos que correspondan a distribuciones de un carácter. Sin embargo, los hemos incluido aquí, porque cabe la interpretación de las calificaciones como valor de la frecuencia de cada asignatura. A) Perfil ortogonal Dado un sistema de ejes cartesianos, sobre el eje de abscisas se sitúan las diver sas modalidades del carácter, como pueden ser las diversas asignaturas que cursa un alumno: Matemáticas. Física, Química. Dibujo y Biología. Sobre cada asignatura se marcan con un punto los valores correspondientes a cada calificación. Uniendo los distintos puntos, se obtiene una línea quebrada, que constituye el perfil ortogonal. Se suele completar la representación trazando alguna paralela al eje de abscisas para resaltar un determinado aspecto.
Ejemplo 1.8 La siguiente tabla contiene las calificaciones de un alumno, cuyo perfil ortogonal se muestra en la figura 1 .4.
4S
Asignaturas
Calificaciones
Matemáticas Física Química Dibujo Biología
6 5 8 7 9
/
Figura 1 .4. Perfil ortogonal.
B) Perfil radial Para construir el perfil radial, se fija un punto del plano como origen. A partir de dicho punto se trazan tantos radios como asignaturas, formando ángulos de la misma amplitud. Sobre cada radio se toman segmentos proporciona les a las calificaciones respectivas. La unión de los pun tos extremos de los segmentos determina un polígono, que constituye el perfil radial. La figura 1 .5 muestra el perfil radial correspondiente al ejemplo 1 .8. Figura 1.5. Perfil radial.
VI. Cartograma Se llama cartograma a la representación so bre un mapa de las diversas modalidades del carácter, que se corresponden con determina das zonas geográficas. Se trata de un método de representación por superficies, que asigna a cada zona un área pro porcional a la superficie representada. Cada zona geográfica se diferencia de otra por la intensidad luminosa, que viene marcada por el efecto del color o del tipo de sombreado, que le confiere una tonalidad específica. Para que dos zonas geográficas se conside Figura 1 .6. Cartograma. ren equivalentes deben tener la misma dimen sión y la misma tonalidad. No es conveniente utilizar más de 10 tonalidades diferentes en un cartograma; de lo contrario se pierde claridad y no resulta fácilmente legible.
49
1.8.2. Representaciones de caracteres cuantitativos 1 .8.2. 1 . Diagramas diferenciales I. Diagrama de barras o rectángulos Cuando la variable estadística es discreta y toma pocos valores, el gráfico adecua do es el diagrama de barras o rectángulos, que ya se trató en el caso de variables cualitativas, con la diferencia de que ahora sobre el eje de abscisas se sitúan los valores de la variable.
..',
Figura 1.7. Diagrama de barras para el ejemplo 1.2.
Si se utilizan barras, una vez colocados los valores de la variable en el eje de abscisas, se levantan sobre ellos unos segmentos (barras) de altura igual a la frecuen cia correspondiente. Según se tome la frecuencia absoluta o relativa, la suma de las longitudes de todos los segmentos será N ó 1. II. Histograma Cuando la variable estadística es continua, el diagrama diferencial que se utiliza es el histograma, cuya representación está fundamentada en la proporcionalidad de las áreas de rectángulos a las frecuencias de cada modalidad. Para construir el histograma, se levanta sobre cada intervalo de clase un rectángu lo de área proporcional a la frecuencia correspondiente a dicho intervalo. Si se trata de intervalos de la misma amplitud, las alturas de cada uno de ellos se toman iguales a las frecuencias correspondientes. Cuando las amplitudes son diferentes, las alturas de cada rectángulo deben de ser iguales a las frecuencias absolutas divididas por la amplitud correspondiente:
50 n¡
/>
(15)
Se conoce este valor como densidad de frecuencia del intervalo [e¡ rei). El área del rectángulo correspondiente a la clase i-ésima es, por lo tanto:
(16) 5, = — a,- = «, a,
y la suma de las áreas de todos los rectángulos es:
(17)
S = ¿i,= /V Si se toman frecuencias relativas, la suma de las áreas es igual a 1. Ejemplo 1.9 Un grupo de 200 alumnos han sido calificados de 0 a 100 por un profesor, que facilita los resultados agrupados en intervalos de diferente amplitud, según muestra la siguiente tabla: Calificac.
Núm. alumnos
0-20 20-30 30-40 40-50 50-60 60-70 70-80 80-100
22 26 31 38 30 15 12 16
20
10 40 50 60 70 80
100
Figura 1.8. Histograma correspondiente al ejemplo 1.9.
Las amplitudes de los intervalos de clase son diferentes: la primera y la última miden 20 unidades y el resto 10. Tomamos la altura de cada rectángulo igual a la densidad de frecuencia: Rectángulo Io: base =20, altura =11 T:
"
=10,
"
= 2'6
3o:
"
=10.
"
=3'1
8*
= 20,
El área total es: S = 20x1' 1+10x2,6+...+20x0'8 = 200
= 0'8
51 III. Polígono de frecuencias simples El polígono de frecuencias simples (o polígono de frecuencias) es el método grá fico más utilizado para la representación de la distribución de un carácter, lo que se debe a su fácil interpretación y a la sencillez de su realización. Vamos a distinguir dos situaciones, según se trate de una variable discreta o continua. A) Variable discreta En este caso, se trazan unos ejes cartesianos; sobre el eje de abscisas se sitúan los valores de la variable estadística X, y sobre el eje de ordenadas se llevan los valores de las frecuencias tal como se hizo para construir el diagrama de barras. En lugar de trazar la barras completas, ahora se señalan los puntos superiores de las mis mas; uniéndolos mediante seg mentos rectilíneos, se consigue el polígono de frecuencias. Para que la gráfica no quede colgada, se supone que hay dos valores más de la variable con fre cuencia cero, uno anterior al pri mero de sus extremos y otro pos terior al último. De esta forma, se prolonga el polígono en dos seg Figura 1.9. Calificaciones en Física y Matemáticas. mentos hasta que sus extremos toquen el eje de abscisas. Para hacer comparaciones, a veces sobre un mismo gráfico se representan los polígonos de frecuencias correspondientes a dos o más distribuciones. Ejemplo 1.10 La siguiente tabla contiene las frecuencias de las calificaciones, en Matemáticas y Física, de un grupo de 40 alumnos de COU: Calificaciones
2
3
4
5
6
7
8
9
Matemáticas
3
4
6
9
10
4
3
1
Física
4
5
9
6
6
6
2
2
La gráfica 1 .9. muestra los polígonos de frecuencias de ambas distribuciones.
52 B) Variable continua Si la variable es continua, para construir el polígono de frecuencias, se admite que la media de los valores correspondientes a cada intervalo se sitúa en el punto medio del mismo, es decir, se hace coincidir la media de las puntuaciones de cada clase con la marca de clase. Los valores de las frecuencias se sitúan en los puntos medios de las bases supe riores de cada uno de los rectángulos del histograma. El polígono de frecuencias es la poligonal que se obtiene de la unión de estos puntos mediante segmentos rectilíneos. Como en el caso discreto, se supone que existen dos interva los de clase de frecuencia cero, uno delante del primer intervalo y el otro detrás del último, lo que hace posible prolongar el polígo no hasta tocar al eje de abscisas. La figura 1.10. muestra el polí 20 30 40 50 60 70 80 100 gono de frecuencias correspon Figura 1.10. Polígono de frecuencias para el ejemplo 1.9. diente a la distribución del ejem plo 1 .9 superpuesto al histograma. IV. Curva de frecuencias El histograma de una distribución, cuando se toman frecuencias relativas, es tal que la suma de las áreas de todos los rectángulos es igual a uno. Por ello, todos los valores de la distribución están bajo la gráfica del polígono de frecuencias simples. Se puede expresar, por tanto, la población como el área bajo esta gráfica, que está formada por segmentos rectilíneos. Los datos de una distribu ción habitualmente forman parte de una muestra extraída de una población grande, cuyo conoci miento es el objetivo final. El polígono de frecuencias simples, cuando aumenta el tama ño de la muestra y se hacen más Figura 1.11. Curva de frecuencias para el ejemplo 1.9.
53 pequeñas las amplitudes de los intervalos de clase, se aproxima a una curva de una distribución teórica, llamada «curva de frecuencias». La curva de frecuencias es una especie de polígono de frecuencias simples suavi zado, que proporciona una representación aproximada de la distribución de la pobla ción correspondiente. 1.8.2.2. Diagramas integrales para variable discreta I. Diagrama de frecuencias acumuladas Cuando la variable estadística es discreta, para construir el diagrama de frecuen cias acumuladas, se dibujan unos ejes cartesianos. En el eje de abscisas se sitúan los valores de la variable, y sobre ellos se toman segmentos perpendiculares de longitud igual a la frecuencia acumulada. El diagrama de frecuencias acumuladas se consigue trazan do segmentos de paralelas al eje de abscisas a partir del extremo superior de cada segmento per pendicular hasta tocar al siguien , te situado a su derecha. Esta gráfica se completa con dos semirrectas horizontales, una con origen en la base de la primera barra dirigida hacia la iz quierda, y la otra con origen en la parte superior de la última ba Figura 1.12. Diagrama de frecuencias acumuladas. rra y dirigida hacia la derecha. También se pueden tomar porcentajes acumulados, en cuyo caso los valores so bre el eje de ordenadas estarán comprendidos entre 0 y 100, siendo 100 la longitud de la última barra. La línea quebrada (en escalera) así obtenida es la gráfica de una función del conjunto de los números reales, R, en el intervalo cerrado [0,1], que a cada número real x le hace corresponder la proporción de individuos cuya modalidad del carácter es menor o igual a x: F:9í-»[0,l] Esta curva es conocida también como curva de distribución, y la función F como función de distribución. La figura 1.12 recoge el diagrama de frecuencias acumuladas del ejemplo 1.2.
54 II. Polígono de frecuencias acumuladas Para trazar el polígono de frecuencias acumuladas, se procede como en el caso del diagrama de frecuencias acumuladas, dibujando, en primer lugar, el diagrama de barras crecientes (la altura de la última barra es 1 ó 100, según se tomen frecuencias relativas acumuladas o porcentajes acumulados). Uniendo los extremos supe riores del diagrama de barras cre cientes mediante segmentos rectilíneos, se obtiene una línea quebrada creciente, que corres ponde al polígono de frecuencias acumuladas. La figura 1.13. muestra el po lígono de frecuencias acumula das para la distribución de las calificaciones en Matemáticas del ejemplo 1.10. Figura 1.13. Polígono de firecuencias acumuladas.
1.8.2.3. Diagramas integrales para variable continua I. Curva acumulativa de frecuencias u ojiva Cuando la variable estadística es continua, una vez fijados los intervalos de clase sobre el eje de abscisas, se llevan sobre el eje de ordenadas las frecuencias relativas acumuladas o los porcentajes acumulados. Al trazar el polígono de frecuencias para variable continua, se tomaban los valores de las frecuencias sobre el punto medio de la base superior de los rectángulos del histograma. En cambio, para trazar la curva acumulativa de frecuencias relativas, se toman sobre la ordenada correspondiente al límite superior de cada intervalo de clase, pues to que a cada extremo superior de los intervalos de clase se le asocia el tanto por ciento de individuos de la población que quedan por debajo de dicho límite. Trazando segmentos de paralelas al eje de abscisas a partir de cada punto hasta llegar a la ordenada correspondiente al siguiente extremo de clase, y completando la gráfica con dos semirrectas horizontales de modo análogo a como se procedió con variables discretas, se obtendría el polígono de frecuencias acumuladas. Sin embargo, en el caso continuo, no se suele utilizar el polígono de frecuencias acumuladas, sino que se aproxima éste por una curva que se adapta a los puntos obtenidos, sin que necesariamente tenga que tocar a todos.
55 Esta curva tiene forma de arco apuntado, por lo que también recibe el nombre de ojiva. Fijado un valor xo de la variable, es decir sobre el eje de abscisas, la ordenada correspondiente en la ojiva señala el porcentaje de individuos de la población cuyo carácter es menor o igual a x0. Por ello, la ojiva puede ser utilizada para el cálculo gráfico de los centiles, según veremos. Ejemplo 1.11 Veamos cómo se procede para trazar la curva acumulativa de frecuencias para la distribución de los pesos (en kgs.) de 100 jóvenes dada por la siguiente tabla: Clase
Frec.
F.r.
F.na.
Porc.
Porc. ac.
21-30 3140 41-50 51-60 61-70 71-80 81-90 91-100
2 8 14 35 17 15 7 2
0-02 0"08 0'14 0'35 0'17 0'15 0-07 0'02
0-02 010 0'24 0'59 0'76 0'91 0'98
2% 8% 14% 34% 17% 15% 7% 2%
2'.í 10% 24% 59% 76% 91% 98% 100%
roo
Vamos a utilizar la columna de porcentajes acumulados. Como los intervalos de clase no están solapados, hay que tomar nuevos extremos de clase, que se sitúan sobre el eje de abscisas: 20'5, 35'5, 40'5,... El extremo superior del primer intervalo es 30'5. A partir de dicho punto se toman verticalmente 2 unidades (valor que corresponde al porcentaje del 2% de alumnos que pesan menos de 30'5 kgs.), dibujando el primer punto. Sobre el extremo superior del segundo intervalo, 40'5, se toman verticalmente 10 unidades (valor que corresponde al 1 0% de alum nos con peso menor de 40'5), y se dibuja el segundo punto. Procediendo de este modo, se trazan los 8 puntos correspon dientes a los 8 intervalos de cla se. Una vez dibujados, se adap ta a ellos una línea curva, que no tiene por qué tocar a todos Figura 1.14. Ojiva correspondiente al ejemplo 1.11.
IOS puntos.
56 La línea que resulta es la curva acumulativa de frecuencias que buscábamos.
1 .9. Simetría y sesgo En múltiples ocasiones, interesa conocer el aspecto general de una distribución de frecuencias, como puede ser la presencia de simetría o sesgo hacia alguno de los extremos de su curva de frecuencias. Una distribución es simétrica cuando su curva de frecuencias puede ser dividida en dos mitades por una recta perpendicular al eje de abscisas, siendo cada una de ellas la imagen de la otra en un espejo.
Figura 1.15. Cuna simétrica.
Figura 1.16. Curva sesgada liacia la derecha.
Las distribuciones simétricas gozan de la propiedad de que las observaciones que equidistan del valor central tienen la misma frecuencia. Así ocurre con la distribución de la gráfica de la figura 1.15. Cuando los datos de una distribución tienden a agruparse en una parte de la gráfica, con una rama extendiéndose hacia la otra parte (cola), se dice que es asimétrica y que está sesgada en la dirección de dicha «cola». Así ocurre con la distribución correspondiente a la gráfica de la figura 1.16, que tiene un sesgo hacia la derecha.
1.10. Modalidad
Figura 1.17. Curva con dos modas.
La modalidad de una distribución esta dística hace referencia al número de «pi cos» que se distinguen en ella. Las distribuciones de las figuras 1.15 y 1.16 son unimodales, ya que presentan un solo pico. En cambio, la gráfica de la figura 1.17 corresponde a una distribución bimodal.
57 Las distribuciones que poseen más de dos modas reciben el nombre de
multimodales.
1.11. Apuntamiento Tiene también interés conocer el grado de apuntamiento o curtosis de la curva de frecuencias de una distribución. Las gráficas de la figura 1.18 corresponden a dos distribuciones simétricas y unimodales, pero la segunda presenta un mayor apuntamiento, lo que significa que las diferencias entre las frecuencias de los valores centrales y extremos son mayores en ésta:
Figura 1.18. Curvas con distinto apuntamiento.
Las medidas del grado de apuntamiento de una curva así como de su asimetría serán objeto de estudio en el capítulo 3.
1.12. Ejercicios propuestos 1.1. Las edades de los visitantes de un museo un día determinado de la semana han sido: 27 23 37 31 38 23 36 25 22 34 27 28 35 26 34 33 23 32 29 31 30 3 1 33 24 32 27 34 39 30 29 32 28 29 25 24 37 23 35 24 33 31 30 31 22 35 37 24 24 23 36 22 29 37 33 3421 22 28 36 29 1 ) Construir la tabla de frecuencias absolutas, completándola con las frecuencias acumuladas y porcentajes. 2) Representar la distribución mediante el diagrama integral adecuado. 1.2. Los pesos (en Kgs.) de los niños recién nacidos en una clínica maternal durante el último año han sido: 2'5-2'75
2'75-3
3- 3'25
27
36
85
3-25-3'5 3'5-3'75 144
98
3'75-4
4-4'25
4'25-4'S
56
32
32
58 1 ) Construir la tabla de frecuencias. 2) Hacer la representación gráfica más adecua da. 1 .3. Durante el mes de junio se han registrado las siguientes temperaturas máximas cada día: 26 30 3028 28 27 2627 28 27 2628 28 3024 25 2833313127 303130 29 343130 3029 1) Construir la tabla de frecuencias. 2) Hacer una representación gráfica de la distribución. 1 .4. Las calificaciones de un alumno de primero de B.U.P. han sido: 7; 6; 8'5; 9; 6; 6; 5,5; 4'5; 8 y 7'5 en las asignaturas de Matemáticas, Lengua. Ciencias de la Natura leza, Inglés, Francés, Historia. Formación Religiosa, Educación Física, Dibujo y Músi ca, respectivamente. Dibujar sus perfiles ortogonal y radial. 1.5. Los obreros de una gran industria han sido clasificados por categorías labora les, dándose los siguientes resultados: Especialistas Oficiales de 2a Oficiales de Ia
1250 975 510
Técnicos de grado medio Técnicos superiores Altos cargos
35 12 8
1 ) Representar los datos mediante un diagrama de barras y otro de sectores. 2) Construir el polígono de frecuencias simples y el polígono de frecuencias acumuladas. 1.6. El número de viajeros (en miles de personas) durante los 6 primeros meses del año por carretera y ferrocarril ha sido el siguiente: Mes
Enero
Febrero
Marzo
Abril
Mayo
Junio
Carretera Tren
210 170
195 180
320 230
180 260
310 280
390 410
1 ) Dibujar los polígonos de frecuencias de las dos distribuciones. 1.7. Los resultados de un test de visión espacial realizado a un grupo de alumnos fueron: 59 72 7 1 68 67 78 57 57 75 61 69 39 80 46 57 94 59 76 54 64 62 61 61 48 48 86 65 65 63 60 64 41 66 68 67 68 27 68 64 76 72 67
59 1) Construir la tabla de frecuencias y dibujar el polígono de frecuencias acumula das. 1.8. La producción de trigo y cebada en una cooperativa agrícola durante los 10 últimos años ha sido: Trigo (fanegas)
487
546
434
465
503
3X8
405
298
600
446
Cebada (fanegas)
458
730
895
978
802
630
754
790
878
910
Construir la tabla de frecuencias y los polígonos de frecuencias de las dos distri buciones. 1.9. Un saltador de pértiga ha realizado, durante los 10 últimos días, las siguientes marcas: 4'86
501
5'42
5'82
5' 12
5'01
6'00
5-92
5'90
5'95
1) Construir la tabla de frecuencias. 2) Dibujar el diagrama de barras y el de fre cuencias acumuladas. 1.10. La distribución del empleo de los españoles por sectores económicos el primer trimestre de 1991 era: Agricultura Construcción Industria Servicios Otros
14'6% 8'5% 23'7% 43'3% 9'9%
Representar la distribución mediante un diagrama de sectores. 1.11. Suponiendo que la siguiente tabla muestra la producción de trigo, cebada, maíz, girasol, uva y aceituna en las cinco provincias de Castilla-La Mancha:
Albacete Ciudad Real Cuenca Guadalajara Toledo
Trigo
Cebada
Maíz
Girasol
uva
Aceituna
2500 3480 1250 2460 4250
3260 2560 2450 1470 3270
3245 2360 3200 4200 1580
4135 3270 5270 5270 1890
3280 5680 2450 1480 4250
1275 1360 980 1380 4270
Construir un cartograma que refleje los datos de la tabla.
60
1.12. Las puntuaciones obtenidas por un grupo de universitarios en unas pruebas de aptitud para aprender inglés han sido las siguientes: 35 48 63 24 46 58 46 32 26 83 84 96 32 94 28 46 53 62 75 76 44 3 1 59 83 45 22 29 91 60 61 5442 56 31 64 5648 59 91 87 78 7644 58 26 28 40 81 70 70 63 64 37 45 1 ) Construir la tabla de frecuencias y hacer una representación gráfica adecuada de los datos. 1.13. La siguiente tabla contiene los resultados de las calificaciones de un test de aptitudes realizado entre los obreros de una fábrica: Puntuación (X)
1) Construir la tabla de frecuencias, completándola con las marcas de clase, las distancias entre marcas de clase, las amplitudes de clase, las frecuencias absolutas y relativas acumuladas y los porcentajes. 2) Dibujar el gráfico más adecuado a esta distribución. 1.14. Dada la distribución definida por la siguiente tabla: X1
3
4
9
15
20
a
3
3
8
6
2
Dibujar: 1) el diagrama de barras vertical; 2) el diagrama de frecuencias acumula das. 1.15. Las puntuaciones obtenidas en una oposición al cuerpo de auxiliares de la administración civil del Estado figuran en la siguiente tabla agrupadas en intervalos: Puntuaciones
Hasta 50
50-70
70-100
100-150
150-200
n
15
30
56
85
46
200-300 300400 másde400
30
22
12
Dibujar el histograma, el polígono de frecuencias, la curva de frecuencias y la curva acumulativa de frecuencias. 1.16. Representar, mediante un pictograma, la evolución del paro por sectores en el primero y segundo trimestres de un año, si los datos (en miles de personas) fueron:
61
Sector
Primer trimestre
Segundo trimestre
Agricultura Industria Construcción Servicios
438 457 406 589
241 350 683 170
1.17. Las temperaturas máximas y mínimas durante los 15 primeros días de julio, en una ciudad, han sido: Máximas
37 30 33 28 35 36 36 32 34 30 28 30 36 34 32
Mínimas
16 14 18 15 20 21 19 17 18 16 16 20 20 21 19
1 ) Dibujar los polígonos de frecuencias de las dos distribuciones. 2) ¿Qué conclu siones se pueden sacar de comparar los dos gráficos? 1.18. La siguiente tabla recoge la vida media (en horas) de 500 lámparas: Vida media V lámparas
1) Construir el histograma correspondiente. 2) Dibujar la curva acumulativa de frecuencias. 1.19. Dibujar la curva de frecuencias y la curva acumulativa de frecuencias para el ejercicio 1.17.
CAPITULO 2 CARACTERÍSTICAS DE POSICIÓN
2.1. Características de una distribución de frecuencias Después de agrupar los datos en distribuciones de frecuencias, éstas se describen por medio de un conjunto de valores, mediante los cuales se pretende sintetizar toda la información. Entre estos valores, están: 1 ) las medidas de tendencia central, también llamadas promedios o medidas de posición, ya que señalan la localización o posición de los valores alrededor de los cuales fluctúan los demás. 2) las medidas de dispersión, que expresan el grado de desviación de los datos respecto de las medidas de tendencia central. 3) las medidas de simetría (o asimetría) de la distribución de los datos respecto del punto de máxima concentración. 4) las medidas de apuntamiento, que señalan el grado de concentración respecto de la tendencia central. En este segundo capítulo se estudian las medidas de tendencia central, las restan tes medidas serán analizadas en el siguiente. La media aritmética y la mediana, como medidas más usuales, son tratadas con detalle. También se aborda el cálculo de percentiles y el problema inverso: dado un valor de la variable, averiguar el rango del percentil correspondiente. Las medias geométrica, armónica y cuadrática, y la moda son tratadas evaluando su operatividad y sus deficiencias. Las medidas de centralización resistentes, que juegan un papel importante en los métodos exploratorios, son tratadas en el capítulo 4.
64
2.2. Características de tendencia central Las tablas de frecuencias y los gráficos que acompañan a los datos de una distri bución estadística no cabe la menor duda de que son métodos interesantes para presentar un resumen de la misma, que puede resultar incluso vistoso y elegante. Sin embargo, hemos definido, al principio, la Estadística Descriptiva como un método de «descripción numérica». Nuestro interés se centra ahora en encontrar esos valores numéricos o medidas que, por sí solos, describan la localización de datos de una distribución. Nos serviremos de un ejemplo1 sencillo que pone de manifiesto cómo estas medi das nacen espontáneamente. En una clase de Matemáticas, surge la necesidad de medir la longitud del encerado, y, al no disponer de una unidad de medida, el profesor propone que cada alumno anote en un papel la medida que estime a simple vista. Se recogen las anotaciones y se disponen en una tabla: Longitud estimada
N° de alumnos
2'00
5 6 7 12 11 6 4 5 1 3
rio 2'20 2'30 2'40 2'50 2'60 270 2'80 2'90
Se trata ahora de decidir, ante estos datos, qué valor se debe tomar como medida de la longitud de la pizarra. Un alumno sugiere como medida 2'30 m., argumentando que éste es el valor que más se da (la moda). Al profesor no le parece mal la elección, pero la encuentra poco democrática, ya que sólo se tiene en cuenta la opinión de una quinta parte de la clase. Otro alumno insinúa que se tome 2'35 m.; lo argumenta diciendo que la mitad de la clase ha dado una medida menor o igual que 2'30, y la otra mitad, una medida mayor o igual que 2'40 (la mediana). Tampoco el profesor queda satisfecho del todo porque no se valora en su justa medida la opinión de cada uno de los alumnos. Así surge la idea de sopesar cada
1 El ejemplo está tomado de un trabajo del Profesor Pascual Ibarra, publicado en 1968 con el título de «Democracia y Estadística».
65 medida de acuerdo con el número de alumnos que la ha anotado en su papel (media aritmética). Continuando el razonamiento, se pueden ir descubriendo otras medidas de localización. Iremos definiéndolas, a lo largo del capítulo, valorando sus ventajas y sus inconvenientes. Como resumen, podemos decir que las medidas de tendencia central son valores numéricos que describen la localización de una distribución de datos, o bien, los valores alrededor de los cuales se sitúan los demás. Estas medidas, para proporcionar un valor más preciso de la distribución, deben ir acompañadas de otras características de dispersión, que serán objeto de estudio en el capítulo 3.
2.3. Media aritmética El valor de tendencia central de mayor interés es la media aritmética (o simple mente media), que representaremos por j. Aunque se trata de un mismo concepto, debido a las peculiaridades de su cálculo, vamos a tratar por separado el caso discreto del caso continuo, distinguiendo también según estén dados los datos: agrupados (frecuencias absolutas distintas de la uni dad) o sin agrupar (frecuencias absolutas iguales al).
2.3.1. Definición en el caso discreto 1) Media aritmética para datos agrupados: Sea X una variable estadística discre ta que toma los valores x ,x ,...,x con frecuencias absolutas a.ja.,...jL, respectivamen te. Se define la media aritmética como el valor: A, x,'h
(1)
tV N A n. También es: x = ¿¿xJ, ~ xif, + x2Í2+---+xJk , va que -77 ~ f,Ejemplo 2.1 Supongamos que un grupo de 20 alumnos obtiene las siguientes calificaciones en la asignatura de Matemáticas: Calificaciones
2
4
5
6
8
10
Número de alumnos
3
6
5
3
12
66
La calificación media de los 20 alumnos en esta asignatura es: 2x3+4x6+5x5+6x3+8x1+10x2 x =.
101 = 5,05
20
20
2) Media aritmética para datos no agrupados: En el caso particular de que cada uno de los k valores de la variable estadística aparezca una sola vez (n =n2=...=nk=1), como caso particular del anterior, la expresión de la media aritmética adopta la forma:
(2)
Las edades de tres niños son de 5, 7 y 9 años. La edad media de los tres es 7 + 8+9
x = -¿- = 8 2.3.2. Propiedades de la media aritmética 1. La suma de las desviaciones de todos los valores a la media es cero. k
(3)
En efecto: 2j(x¡-x)n¡ = 2-,x, n, - ¿,xn¡ = Nx - Nx = 0 La media, por tanto, compensa la suma de las desviaciones positivas y negativas. Por ello, afirmamos que la media proporciona la localización de la distribución. 2. Si a todos los valores x de una distribución se les suma (resta) un mismo número c, la media de la nueva distribución, y.=x±c, es igual a la media de las x más (menos) c. En efecto, sea y=x± c. Entonces la media de la nueva variable será: A.
Xy,"l
A.
Y,(x¡±c)n,
jrk
k
~ = x+c
67
3. Si todos los valores x de una distribución se multiplican (dividen) por un mismo número d, distinto de cero, la media queda multiplicada (dividida) por d. En efecto, sea y¡ = dx,; la media de y será: k
y Consecuencia inmediata de las propiedades 2 y 3 es la siguiente: 4. Si definimos una variable Z a partir de la variable X mediante un cambio de origen c y un cambio de escala d, siendo d distinto de cero, la media de la nueva variable x-c se obtiene a partir de la variable X por medio del mismc cambio de origen y escala: x-c
Despejando x, se obtiene: .x = c + dz
(4)
Esta última fórmula permite hallar la media de X a partir de la media de Z, cuyos cálculos resultan más sencillos si se eligen adecuadamente el nuevo origen y la escala. Ejemplo 2.2 Se trata de calcular el diámetro medio de 1 00 émbolos obtenidos en una cadena de producción en serie, cuyas medidas (en milímetros) están recogidas en la siguiente tabla: Diámetro N° de émbolos
153,7
153,8
153,9
154,0
154,1
1542
154,3
10
15
19
21
14
13
8
Tomando como origen el valor c=154 y como escala d=0,l vamos a construir la tabla con los nuevos datos:
68
x. - c
n,
x¡
x,-c
l n d
153,7 153.8 153,9 154.0 154.1 154JZ 154.3
10 15
-03 -02
-3 -2
-30 -30
19 21
-0.1 0
-1 0
-19 0
14 13 8
0.1 02 03
1 2 3
14 26 24 -15
100
Total
La media de la variable Z es 1 ^
-15
luego la media de X será: x = 154 + 0,1 (-0,1 5) =154 -0,0 15 = 153.985 2.3.3. Definición en el caso continuo Si la variable estadística es continua, se conviene en tomar como media aritmética la de una variable discreta cuyos valores son las marcas de clase c de cada uno de los intervalos y cuyas frecuencias absolutas n son las de cada clase. Según advertimos en el capítulo anterior, cuando se agrupan los valores en clases, se pierde precisión. En efecto, al calcular la media, sólo se va a tener en cuenta el número de valores que caen dentro de un intervalo de clase y no la forma en que están repartidos en su interior. Ejemplo 2.3
Se ha medido la estatura de 80 jóvenes de 1 6 años seleccionados al azar de entre los colegios de una ciudad de 100000 habitantes, dando los siguientes resultados (en centímetros): 174 185 189 173 186
190 189 168 177 160
183 169 161 182 187
180 172 165 178 164
168 163 175 161 174 166 170 175 171 188
194 173 167 174 158
182 170 186 182 186
168 184 178 181 169
171 190 178 162 165
171 166 173 177 159
188 162 173 180 187
191 191 181 185 156
167 174 176 160 159
167 179 172 161 176
185 189 180 195 191
69 Vamos a calcular la media, en primer lugar, agrupando todos los valores en clases. El recorrido es R= 195- 156=39, que, aumentándolo en 1, resulta 40. Se pueden elegir 7 clases de amplitud 6. Aunque hoy es menos importante simplificar los cálculos, ya que disponemos de excelentes calculadoras y paquetes informáticos que los evalúan directamente, vamos a efectuar un cambio de origen y de escala, reflejando los datos en la tabla para observar los distintos pasos. Tomaremos como origen el valor de una de las marcas situadas hacia el centro, por ejemplo, c=175, y, como unidad de escala, la distancia entre dos marcas de clase consecutivas, d=6. Calcularemos también la media para valores sin agrupar con el fin de corroborar cómo efectivamente hay un pequeño sesgo con respecto al valor real de la media, debido a la suposición tácita de que los datos se distribuyen de una manera homogé nea en sus correspondientes intervalos de clase. c¡ - c
.volr. .yo.0'1625 Haciendo uso de (4), la media de la variable X es: x = c + d~z = 175 + 6x0'1625 = 175 + 0'975 = 175' 975 Si efectuamos la media de todos los valores sin agruparlos en clases, obtenemos la media real: _ 14032 X,= =175'4 ' 80 La media obtenida agrupando los datos difiere en 0'575 de la media real.
70
2.3.4. Ventajas e inconvenientes de la media aritmética Las ventajas fundamentales que proporciona el uso de la media aritmética como medida de localización son: A) La media aritmética contiene toda la información de los datos de la distribución, lo que le confiere, como promedio, un carácter muy representativo. B ) La media aritmética siempre puede ser determinada, es fácil de calcular y admite todas las operaciones aritméticas. C) La media aritmética es el estadístico más útil para análisis posteriores. El inconveniente que presenta es su gran sensibilidad al cambio de valores extre mos por un lado, que no se compensen por valores extremos en el lado contrario. Tratemos de aclararlo con un ejemplo sencillo: Ejemplo 2.4 En la siguiente tabla, se han modificado los datos del ejemplo 2. 1 , de modo que los dos alumnos que tenían una calificación de 10 en Matemáticas, tienen ahora un 1. Calificaciones
2
4
5
6
8
1
V de alumnos
3
6
5
3
1
2
La media aritmética de la nueva distribución es -
2x3 + 4x6 + 5x5 + 6x3 + 8x1 + 1x2 83 = 4,15 20 20 Su valor disminuye en 0'90, lo que supone más del 17% del valor anterior. Por ello, se cuestiona el uso de la media aritmética como valor descriptivo de la localización de un conjunto de datos, si éste se encuentra muy influido por un valor extremo.
2.4. Otros valores medios Valores medios de uso menos frecuente que la media aritmética son la media geométrica, la media cuadrática y la media armónica. 2.4.1. Media geométrica A) Definición Dada la variable estadística X, que toma los k valores xrx2„.„xk con frecuencias absolutas nrn, nk, siendo n,+n,+...+nk=N1 se define la media geométrica como:
71
(5)
xc = *IxVxV...xV En el caso particular de que las frecuencias absolutas de los k valores de la variable estadística sean todas iguales a 1 (n,=n,=...=n1 = l), queda la expresión: xc
yjxix2...
«»
B) Cálculo Para efectuar el cálculo de la media geométrica, se toman logaritmos en los dos miembros: iogío = log Vx7'...*í* = iogU;'...*í")'/,v = -logU'. ..*!')= l
Esta última relación nos dice que «el logaritmo de la media geométrica es igual a la media aritmética de los logaritmos2». Para calcular la media geométrica, basta con tomar antilogaritmos en la igualdad anterior: t X'iJogx, xG = antilog — N Por tratarse de un caso particular, se procede de igual modo para calcular la media geométrica cuando los datos no se dan agrupados: log*,,; =l0g \¡x ,x2...xí =\Og(x ,x2... xk)
Para el ejemplo 2. 1 , la media geométrica de las calificaciones será: 3x0,301 + 6x0,602 + 5x0,6989 + 3x0,7781 + 1x0,903 + 2x1 xc = antilog 20 : antilogO.6623921 = 4,596 2 Por cumplir esta propiedad, la media geométrica es llamada por algunos autores «media logarítmica»,
72
Ejemplo 2.5 La siguiente tabla contiene las calificaciones de un alumno de COU en sus diver sas asignaturas:
Asignaturas
L
M
Q
B
F
D
Calificaciones
7
8
7
6
5
9
La media geométrica de sus calificaciones es: 0'84 + 0'90 + 0'84 + 0'77 + 0'69 + 0'95 = o 5'02 = antilog —— = antilogO'83 = 6 76 6
xa = antilog
B) Ventajas e inconvenientes La media geométrica es muy útil en el caso de algunas magnitudes, ya que: a) es menos sensible que la media aritmética al cambio de valores extremos. b) está determinada siempre que los valores de la variable sean positivos, y se comporta bien ante las operaciones algebraicas. c) es representativa, ya que en su cálculo intervienen todos los datos de la distri bución. Sin embargo, si un valor de la variable es cero, la media geométrica vale cero, lo cual cuestiona su representatividad. La media geométrica se utiliza siempre que la variable presenta variaciones que se van acumulando, como sucede en las relaciones de cambio, tasas y porcentajes.
2.4.2. Media cuadrática A) Definición Dada la variable estadística X, que toma los k valores x^x,,...^ con frecuencias absolutas n.fL,...JL, siendo n,+n,+...+nk=N, se define la media cuadrática como:
]x]n, + x\ri2+.
. + xink (7)
Xq =
\
N 605
Su valor para el ejemplo 2.1 es: Xa = J
= J30,25 = 5,5
73
En el caso particular de que las frecuencias absolutas de los k valores de la variable estadística sean todas iguales a 1 (n,=n,=...=nk=l), resulta la expresión:
\x2, + xi+. . + xí
(81
XQ =
\
k
B) Ventajas e inconvenientes a) la media cuadrática es representativa de todos los datos de la distribución. b) soporta bien las operaciones aritméticas. Tiene el inconveniente de las unidades en que se expresa: no son unidades sim ples. La media cuadrática se usa en aplicaciones físicas y en la determinación de las características de dispersión.
2.4.3. Media armónica A) Definición Dada la variable estadística X, que toma los k valores x,,x2,...,xk con frecuencias absolutas n^n,,...,nk, siendo n,+n2+...+nk=N, se define la media armónica como: N
N
Xa ni
n2
Xl
x2
— + — +. .+—
Su valor para el ejemplo 2.1 es: x ., =
Xk
(9) 1~ i.l x,
20 = 4.145 4,825
En el caso particular de que las frecuencias absolutas de los k valores de la variable estadística sean todas iguales a 1 (n,=n2=...=n|=l), se obtiene la expresión:
x.
k ' — 1 — 1 + +. Xl
x2
k 1 - * 1 Xk
¡.1 x¡
(10)
74
B) Ventajas e inconvenientes a) es representativa de todos los datos de la distribución. b) admite bien las operaciones algebraicas. Presenta un inconveniente cuando la variable toma algún valor igual a cero, en cuyo caso, la media armónica carece de sentido. También es poco precisa cuando los valores son pequeños. Es la más adecuada para hallar promedios de las variaciones con respecto al tiem po, como la velocidad de un móvil o el rendimiento de un capital.
2.4.4. Relación entre las distintas medias Las cuatro medias, que acabamos de definir, están relacionadas entre sí por la cadena de desigualdades: r A < xc,
(11)
Ejemplo 2.6 Las estaturas de 10 jugadores de un equipo de baloncesto son: 1,90; 1,93; 1,96; 1 ,98: 1 ,98; 1 ,99; 2,01 ; 2,03; 2.04 y 2,08. Vamos a calcular las diferentes medias: 1 ) Media armónica: 10
-=X
10
r-jMTs-1.9887
1,90+'"+2.08 2) Media geométrica: / / \ogxc, = —(\ogl.90+... + ]og2,08)=— (0.2787+.. .+0.3180) = 0.2987 Luego
xc, = antilogO.2987 = 1.9892
3) Media aritmética: / '" 1 ~x-iblr-T¡9-9-h"
75 4) Media cuadrática: 3,61 + 3,7249+. ..+4,3264
w
39,6264
.i^r.'.9906
Comprobamos que se cumple la relación (11): 1 '9887 < 1 '9892 < 1'99 < 1 '9906
2.5. Percentiles. Mediana Supongamos que el profesor de Matemáticas comunica a uno de sus alumnos que ha obtenido una calificación de 6 en el examen de nuestro ejemplo 2.1. El alumno puede estar interesado en obtener una información adicional que le permita comparar su calificación con las restantes calificaciones de la clase. Si el examen ha sido muy fácil para la mayoría de los alumnos, su calificación de 6 puede representar un rendimiento bajo. En cambio, si el examen resultó difícil para la mayoría de sus compañeros, su calificación de 6 puede ser de las mejores. Se trata, por tanto, de transformar la puntuación original (llamada directa) en una nueva puntuación (transformada), que muestre de modo inmediato la situación de un estudiante en comparación con los restantes compañeros de clase. Entre los diferentes valores transformados, están los percentiles (también llama dos centiles), los cuartiles, los quintiles y los deciles. Se utiliza la expresión «cuantil» para designar al colectivo formado por los percentiles, deciles, cuartiles y quintiles.
2.5. 1 . Definiciones A) Percentil Sea a un número entero, siendo l
76