ORGANIZACIÓN, CLASIFICACIÓN E INTERPRETACIÓN DE LOS DATOS COMO GUÍA PARA EL INGENIERO INDUSTRIAL
Departamento de Ingeniería Industrial Vicerrectorado “Luis Caballero Mejías” UNEXPO - Caracas - Venezuela Profesora Raquel Centeno Silva
INDICE INDICE DE FIGURAS
3
INDICE DE TABLAS
6
PRÓLOGO
7
I.
CONCEPTOS BÁSICOS SOBRE ESTADÍSTICA
8
A)
IDEAS SOBRE LA IMPORTANCIA, APLICACIÓN Y ORIGEN DE LA ESTADÍSTICA.
9
B)
CLASIFICACIÓN DE LA ESTADÍSTICA
I).II).C)
16
ESTADÍSTICA DESCRIPTIVA
16
ESTADÍSTICA INFERENCIAL
16
TÉRMINOS COMUNES EMPLEADOS EN ESTADÍSTICA
17
UNIVERSO
17
II).-
POBLACIÓN
17
III).-
MUESTRA
19
IV).-
VARIABLES Y SU CLASIFICACIÓN
20
UNIDAD ESTADÍSTICA
23
D)
MEDIDAS Y MEDICIONES
24
E)
RECOLECCIÓN DE DATOS
31
I).-
V).-
I).II).III).-
INVESTIGACIÓN ESTADÍSTICA
31
OBSERVACIÓN DE LA POBLACIÓN
32
FUENTES DE DATOS ESTADÍSTICOS
35
F)
RESUMEN
37
G)
EJERCICIOS PROPUESTOS
37
II.
DISTRIBUCIONES DE FRECUENCIA
40
A)
SERIES ESTADÍSTICAS
41
I).-
SERIES TEMPORALES
41
SERIES ATEMPORALES
41
II).B)
DISTRIBUCIONES DE FRECUENCIA
42
C)
REPRESENTACIÓN GRÁFICA DE LAS DISTRIBUCIONES DE FRECUENCIA
57
1
D)
ANÁLISIS DE LAS DISTRIBUCIONES DE FRECUENCIA
65
E)
RESUMEN
73
F)
EJERCICIOS PROPUESTOS
74
III.
FORMAS TABULARES DE PRESENTAR INFORMACIÓN
79
A)
DESCRIPCIÓN DE LAS TABLAS ESTADÍSTICAS
81
B)
CLASIFICACIÓN DE LAS TABLAS ESTADÍSTICAS
84
I).-
TABLAS DE REFERENCIA
84
TABLAS ANALÍTICAS O DE RESUMEN
85
III).-
TABLAS EN UN SOLO SENTIDO
86
IV).-
TABLAS DE CLASIFICACIÓN CRUZADA
88
TABLAS DE MÚLTIPLES CLASIFICACIONES
89
II).-
V).C)
CONSIDERACIONES PARA OBTENER INFORMACIÓN DE LAS TABLAS ESTADÍSTICAS
90
D)
RESUMEN
91
E)
EJERCICIOS PROPUESTOS
91
IV. A) I).-
FORMAS GRÁFICAS DE PRESENTAR INFORMACIÓN
94
TIPOS DE GRÁFICAS
97
DIAGRAMAS LINEALES
97
II).-
DIAGRAMAS DE BARRAS
103
III).-
GRÁFICOS CIRCULARES
110
III).-
PICTOGRAMAS
112
IV).-
CARTOGRAMAS
114
B)
RESUMEN
115
C)
EJERCICIOS PROPUESTOS
116
AGRADECIMIENTOS
117
V.
118
REFERENCIAS BIBLIOGRÁFICAS
2
INDICE DE FIGURAS FIGURA N° 1 MAPA CONCEPTUAL DE LA ESTADÍSTICA
15
FIGURA N° 2 MODELO BÁSICO PARA LA ESTADÍSTICA INFERENCIAL
17
FIGURA N° 3 POBLACIONES A PARTIR DE UN UNIVERSO
18
FIGURA N° 4 SELECCIÓN DE UNA MUESTRA A PARTIR DE UN UNIVERSO
19
FIGURA N° 5 SELECCIÓN DE UNA MUESTRA A PARTIR DE UNA POBLACIÓN
19
FIGURA N° 6 TIPOLOGÍA DE LAS VARIABLES EN ESTADÍSTICA
23
FIGURA N° 7 NIVELES DE MEDICIÓN
26
FIGURA N° 8 BOSQUEJO DE UNA TABLA DE CONTEO
43
FIGURA N° 9 REPRESENTACIÓN DE UNA TABLA DE CONTEO LLENA
44
FIGURA N° 10 EJEMPLO DE UNA TABLA DE FRECUENCIAS
44
FIGURA N° 11 REPRESENTACIÓN GRÁFICA DE LAS FUNCIONES DE FRECUENCIA Y DISTRIBUCIÓN
46
FIGURA N° 12 PROBLEMAS CON LOS LÍMITES DE CLASE
47
FIGURA N° 13 COMPARACIÓN DE LOS MÉTODOS EMPÍRICOS
52
FIGURA N° 14 ORGANIZADOR GRÁFICO PARA FACILITAR LA CONSTRUCCIÓN DE DISTRIBUCIONES AGRUPADAS DE FRECUENCIAS
55
FIGURA N° 15 RESOLUCIÓN DE UN EJEMPLO DE CONSTRUCCIÓN DE DISTRIBUCIONES DE FRECUENCIAS AGRUPADAS EMPLEANDO EL ORGANIZADOR GRÁFICO
56
FIGURA N° 16 SENSIBILIDAD DE UN HISTOGRAMA AL NÚMERO DE CLASES
60 3
FIGURA N° 17 COMPARACIÓN DE LA FORMA DE LOS HISTOGRAMAS DEL EJEMPLO 60 FIGURA N° 18 HISTOGRAMA DEL NIVEL DE CO EN EL AIRE CON FRECUENCIAS AGRUPADAS EN SEIS CLASES
61
FIGURA N° 19 DIAGRAMA DE TALLO Y HOJAS PARA LA CONCENTRACIÓN DE CO EN AIRE
62
FIGURA N° 20 POLÍGONO Y OJIVAS PARA LA CONCENTRACIÓN DE CO EN AIRE
63
FIGURA N° 21 ILUSTRACIÓN DEL RANGO PERCENTIL ACOTADO ENTRE DOS VALORES 67 FIGURA N° 22 DIAGRAMA DE PARETO PARA EL CONSULTORIO ODONTOLÓGICO
73
FIGURA N° 23 ESQUEMA DE LAS PARTES FUNCIONALES DE UNA TABLA ESTADÍSTICA 82 FIGURA N° 24 ESQUEMA DE TABLAS CLASIFICADAS EN UN SOLO SENTIDO
87
FIGURA N° 25 CARACTERÍSTICAS DE UNA TABLA DE CLASIFICACIÓN CRUZADA
88
FIGURA N° 26 ESQUEMA DE UNA TABLA DE CLASIFICACIÓN CRUZADA MÚLTIPLE
89
FIGURA N° 27 ELEMENTOS QUE COMPONEN UN GRÁFICO
95
FIGURA N° 28 BOSQUEJO DE LA CONSTRUCCIÓN DE UN DIAGRAMA LINEAL
98
FIGURA N° 29 VENTAS DE LAS COMPAÑÍA TVB
99
FIGURA N° 30 INFLUENCIA DE LOS EJES EN LOS DIAGRAMAS DE LÍNEA
100
FIGURA N° 31 EVOLUCIÓN DE LAS VENTAS DE LA EMPRESA TVB SEGÚN EL SEGMENTO DE MERCADO
102
4
FIGURA N° 32 VENTAS TOTALES Y POR SEGMENTO DE MERCADO DE LA EMPRESA TVB, PERÍODO (1992-2002)
103
FIGURA N° 33 COMPRA DE MATERIA PRIMA PARA RECICLAR POR LA EMPRESA TVB 106 FIGURA N° 34 CAMBIOS PORCENTUALES DEL AÑO 2001 RELATIVO AL AÑO 2000 DE LA PRODUCCIÓN DE LA EMPRESA TVB, SEGÚN EL TIPO DE PRODUCTO
107
FIGURA N° 35 NÚMERO DE ÓRDENES DE PEDIDO RECIBIDAS, ENTREGADAS E INSATISFECHAS, EMPRESA TVB AÑO 1997
108
FIGURA N° 36 NÚMERO DE ÓRDENES PRODUCIDAS POR LA EMPRESA TVB EN EL AÑO 1997
109
FIGURA N° 37 COSTO DE PRODUCCIÓN UNITARIA DE CONDENSADORES TIPO “A”, EMPRESA TVB (AÑO 1997)
109
FIGURA N° 38 CONSTRUCCIÓN DE UN DIAGRAMA DE PASTEL
111
FIGURA N° 39 DISTRIBUCIÓN DE LOS INGRESOS POR VENTAS SEGÚN PRODUCTO DE LA EMPRESA TVB, AÑO 2001
112
FIGURA N° 40 COMPARACIÓN DE LA DISTRIBUCIÓN DE LOS INGRESOS POR VENTAS SEGÚN PRODUCTO DE LA EMPRESA TVB, AÑOS SELECCIONADOS
112
FIGURA N° 41 PICTOGRAMA DEL COSTO DE PRODUCCIÓN UNITARIA DE CONDENSADORES TIPO “A”
113
EMPRESA TVB (AÑO 1997)
113
FIGURA N° 42 DENSIDAD POBLACIONAL EN VENEZUELA POR ENTIDAD FEDERAL
115
5
INDICE DE TABLAS TABLA N° 1 PPM DE CO EN AIRE
56
TABLA N° 2 LISTADO DE IDENTIFICACIÓN DE LAS CLASES NOMINALES
57
TABLA N° 3 FRECUENCIAS EN LA MEDICIÓN DE LA CONTAMINACIÓN DEL AIRE
57
TABLA N° 4 TABLA DE FRECUENCIAS Y PORCENTAJE ACUMULADO DE LA CONCENTRACIÓN DE CO EN AIRE
69
TABLA N° 5 FRECUENCIA DE RESPUESTAS “NO ACEPTABLE”
71
TABLA N° 6 DISTRIBUCIÓN DE FRECUENCIAS ORDENADAS PARA ANÁLISIS DE PARETO
72
6
PRÓLOGO En la actualidad una de las habilidades más importante que debe caracterizar al profesional de la ingeniería industrial es la búsqueda de la optimización de respuestas asertivas en el proceso de toma de decisiones, la cual debe ir acompasada por una excelente presentación de reportes de carácter técnico basados en información cuantitativa. Este proceso de consolidación de respuestas es sólo posible en la medida que el profesional se desarrolle vasta y profundamente en la estadística. No obstante, mi experiencia docente apunta en sentido contrario a la afirmación señalada, de hecho, es curioso observar en los estudiantes una actitud apática y pasiva, y a menudo de rechazo, la cual se manifiesta en el alto porcentaje de retirados y repitientes, elemento acrecentado por la dificultad de asistencia regular que evidencian la mayoría de los alumnos. Asimismo, el desconocimiento por parte de los estudiantes de la importancia y aplicación de las técnicas estadísticas, especialmente las relativas a la organización, clasificación e interpretación de la información, en conjunto con el vacío detectado en la bibliografía recomendada en los cursos de estadística para ingenieros, han brindado la oportunidad al autor de presentar en un instrumento exhaustivo, en forma de texto, que permita al estudiante la identificación con la herramienta estadística como factor coadyuvante en la comprensión, instrumentación e interpretación de los fenómenos que atienen a los procesos relacionados con el campo de la ingeniería industrial. El texto se realizó con el propósito de concretar una herramienta autodidáctica que promueva la responsabilidad del estudiante en gestionar sus propios aprendizajes, construyéndolos, compartiéndolos y valorándolos. Este enfoque se considera nuevo en cuanto a la concepción del aprendizaje, ya que se encuentra influenciada por las tendencias cognoscitiva y constructivista, lo que le permite al lector ejecutar un aprendizaje auto dirigido al mismo tiempo utilizar el material como una herramienta de apoyo auxiliar a las actividades de aula.
7
I. CONCEPTOS BÁSICOS SOBRE ESTADÍSTICA Todo aquel que da los primeros pasos en cualquier campo del conocimiento debe procurar identificar el léxico, origen, aplicaciones y conceptos básicos del área, para poder comunicarse de manera efectiva y tener una idea clara de lo que le espera. Para los ingenieros industriales el campo de la estadística es prioritario, porque está vinculado a la mayoría de sus actividades profesionales, tal como descubrirá al leer este capítulo. La estadística es una ciencia de abolengo, desde su nacimiento ha estado vinculado al Estado y, consecuentemente, al poder. El marco referencial estadístico es una habilidad fundamental de pensamiento que convierte a quién lo posee en un mejor ciudadano y en un profesional más efectivo. Mediante el estudio de este capítulo se pretende que Usted sea capaz de:
1. Definir que es estadística reconociendo su importancia y aplicabilidad para el ingeniero. 2. Explicar que se quiere decir con estadística descriptiva y estadística inferencial. 3. Distinguir entre universo y población, identificando muestras de estos grupos a través de situaciones planteadas. 4. Identificar la unidad estadística reconociendo las diferencias cuando está referida al universo, la población o la muestra. 5. Definir una o más variables explicativas de una unidad estadística dada distinguiendo entre variables cualitativas y variables cuantitativas. 6. Distinguir entre una variable discreta y una variable continua. 7. Definir los términos mutuamente excluyente y colectivamente exhaustivo. 8. Expresar el concepto de medida describiendo sus alcances y haciendo énfasis en las diferencias entre las escalas de medición: nominal, ordinal, de intervalo y de razón y sus limitaciones operacionales basadas en el análisis de las medidas de diferentes variables. 9. Expresar el concepto de dato estadístico, explicándolo brevemente. 10. Distinguir entre las fuentes primarias y fuentes secundarias de recolección de datos. 11. Seleccionar el método más conveniente para recolectar los datos en una situación dada.
8
a) I DEAS SOBRE E STADÍSTICA .
LA
I MPORTANCIA , A PLICACIÓN
Y
O RIGEN
DE
LA
Herbert George Wells, historiador y escritor inglés, comentó hace un siglo que “El pensamiento estadístico será un día tan necesario para el ciudadano eficiente como la capacidad de leer y escribir”. En la actualidad y después de reflexionar acerca de los resultados de la revolución industrial y de los desafíos que representa la competitividad y la globalización a las organizaciones, se diría que el pensamiento estadístico es necesario tanto para ser un buen ciudadano como para tomar decisiones acertadas en cualquier ámbito organizacional. Las aplicaciones estadísticas son necesarias en cualquier actividad que pueda desarrollar una persona, es más, la experiencia docente del autor permite concluir que el pensamiento estadístico es primordial en el desempeño profesional de los ingenieros industriales, considerando que la toma de decisiones es su actividad principal. De hecho, el conocimiento cabal de la estadística y la probabilidad es un poderoso auxilio para que los ingenieros diseñen nuevos productos y sistemas, optimicen los existentes y para que evalúen, desarrollen y mejoren los procesos de producción. La estadística ha elaborado ciertas técnicas ajustadas a las peculiaridades de los distintos campos de aplicación. En el ámbito de las ciencias sociales (administración, economía, educación, sociología, etc.) se han desarrollado, entre otros, los números índice (p.e. índice de precios al consumidor1 (IPC), índice Dow Jones2, etc.), las series de tiempo (son una colección de datos medidos cronológicamente a lo largo de intervalos uniformes, por ejemplo: el precio por barril de petróleo exportado durante cada uno de los doce meses del año 2003, el número total de alumnos inscritos en la UNEXPO por semestre desde el año 2000 hasta la fecha, etc.), las técnicas de análisis factorial. Las técnicas estadísticas para el diseño de experimentos son muy empleadas en las ciencias físicas como biología. En ingeniería, las aplicaciones de las técnicas estadísticas abarcan un rango de mayor amplitud que incluye, entre otras: el diseño de experimentos para situaciones reales, el análisis de riesgo enfocado en la gerencia y control de proyectos, la teoría de colas para evaluar y mejorar la prestación de servicios, la programación dinámica estocástica y las cadenas de Markov para estudiar la evolución de los sistemas en el tiempo, etc.
1
Es un indicador utilizado para conocer el impacto inflacionario midiendo la variación de los precios a los cuales un consumidor adquiere cantidades determinadas de un grupo de productos seleccionados entre los extremos de un intervalo de tiempo de interés; habitualmente, la extensión del intervalo puede ser mensual, trimestral, semestral o anual. 2 Este indicador pondera los valores de las cotizaciones en la Bolsa de Valores de Wall Street para un grupo de acciones seleccionadas y se emplea para definir tendencias sobre el estado de la economía, al comparar los valores extremos del índice en un intervalo dado de estudio, frecuentemente de un día de duración. 9
Particularmente, dentro del campo de la ingeniería industrial destaca, sobre otros usos, las técnicas estadísticas de control de calidad tales como: la estimación de índices de capacidad de procesos y los gráficos de control, ya que la calidad, entre otros atributos, impacta profundamente la productividad, la competitividad y por ende la rentabilidad del negocio. Un proceso que mantiene un estándar elevado de calidad es inversamente proporcional tanto al volumen de materia prima desperdiciada como a la cantidad de horas hombre empleadas en detener y poner nuevamente a punto las líneas de producción; además los productos de calidad generan muchos más clientes satisfechos y por lo tanto, leales. El impacto de las bondades del control de calidad, en la manufactura de cualquier producto o servicio, han generado un incremento en el interés que la industria ha puesto en la estadística, perneando su influencia a todas las áreas de conocimiento que coexisten en la empresa, sean ellas ingeniería, investigación y desarrollo de nuevos procesos y productos, mercadeo o gerencia. El impacto más significativo de la estadística, como una herramienta objetiva para la gerencia científica, es el resultado de la conexión entre el análisis de datos cuantitativos y los problemas de toma de decisiones. Las técnicas de la estadística descriptiva resumen la información disponible para la toma de decisiones, por ejemplo, el ingeniero supervisor de una línea de producción puede revisar los registros diarios de productos defectuosos y encontrar que ayer fue de un 3% mientras que hoy alcanzó 5%, sin embargo, la teoría estadística va más allá y es necesaria para conocer si el incremento en la proporción de ítems defectuosos es una señal de deterioro en el proceso productivo o es simplemente el resultado de la variabilidad normal en el día a día de las operaciones. Está claro que las decisiones que se tomarán serán distintas al responder esa fundamentalísima interrogante; en el primer caso se implementarán acciones remediales urgentes, mientras que en el segundo no se actuará al nivel de influencia del supervisor, puesto que una inconformidad con resultados estadísticamente normales implicaría acciones de mayor envergadura, tales como, una inversión en adiestramiento de los operarios, un rediseño de la línea, etc. El aspecto más relevante de una situación como la descrita está en la necesidad de tomar una decisión en un entorno de incertidumbre, caracterizado por la variabilidad de las características analizadas y por la disponibilidad de información incompleta. Los métodos estadísticos permiten, no sólo tomar decisiones racionales y eficientes en dichas circunstancias, sino además, fijar en un nivel preestablecido los riesgos de tomar decisiones incorrectas al confiar en información incompleta. La piedra angular sobre la que se cimientan la mayor parte de los conocimientos requeridos en las diversas aplicaciones enunciadas es la comprensión de la variabilidad y para comprender esta 10
manifestación se requiere un sólido pensamiento estadístico y un manejo adecuado de los métodos estadísticos para la descripción del fenómeno; por ello y dado que, cada momento en la naturaleza o en una organización es único e imperan diferentes condiciones, todo colectivo que existe en la vida real muestra variabilidad y demanda de los ciudadanos para acostumbrarse a manejar el pensamiento estadístico y darle a los sucesos cotidianos la importancia de su magnitud relativa; ésto es tan relevante que regularmente aparecen en prensa y otros medios de comunicación, en artículos contenidos en revistas de difusión científica y en conversaciones profesionales y académicas, estudios estadísticos para cuya lectura crítica la mayoría de los ciudadanos no están capacitados, es más Utts (2003) afirma: “He encontrado siete tópicos incluidos en cualquier curso elemental de estadística que son comúnmente mal entendidos por los ciudadanos, incluyendo los articulistas que presentan estudios estadísticos al público. De hecho investigadores que presentan sus resultados en revistas arbitradas y reuniones científicas interpretan mal varios de ellos” La teoría general de la estadística es aplicable a cualquier campo científico en el cual se realicen observaciones, de hecho Deseda (1988) afirma: “No existen ciencias cuyos fenómenos no pueden ser estudiados estadísticamente”. Esta razón es la que provoca que la estadística esté incorporada en diversidad de planes de estudio tanto a nivel de pregrado como de postgrado y, cabe preguntarse: ¿en que difieren los cursos de esta asignatura cuando se dictan para ingenieros, administradores, psicólogos, o educadores?, la respuesta es trivial e inmediata, los contenidos que se imparten son, esencialmente, los mismos; no obstante como los intereses de los profesionales formados en cada área son disímiles, las aplicaciones y por lo tanto los ejemplos y ejercicios deben constituir la única diferencia. Una definición que subraya la utilidad de la estadística fue propuesta por Cobb y Moore (1997): “La estadística es una disciplina metodológica; existe no por sí misma sino para ofrecerle a otros campos del saber un conjunto coherente de ideas y herramientas para tratar con datos”. Las primeras aplicaciones de la estadística fueron los asuntos de gobierno (recabar y presentar información); luego las utilizaron las compañías de seguros y los empresarios de juegos de azar (análisis de riesgos y probabilidad); después siguieron los comerciantes y los industriales (toma de decisiones), los educadores y científicos sociales (formulación de hipótesis). En la actualidad resulta difícil indicar profesiones que no empleen la estadística, en parte, porque la asertividad de las decisiones que se toman está estrechamente entrelazada con la información disponible y gran parte de ella existe en forma numérica; por ello es fundamental disponer de métodos y 11
herramientas que permitan procesar dicha información para sacar conclusiones válidas dentro de un determinado nivel de certidumbre. La estadística surge en parte de la interacción entre la matemática y las necesidades de análisis de datos en diversas ciencias aplicadas; sin embargo se ha sugerido que la estadística no es una rama de la matemática sino una disciplina independiente, con su propio y único origen, interrogantes y contenido [Bessant & MacPherson, 2002]. Tanto el término como la disciplina de la estadística comparten un largo y enigmático pasado, a pesar de que existen diversos autores interesados en la historia de la estadística [Hald, 1990], [Pearson, 1978] y [Stigler, 1986]; no se ha logrado consenso acerca de su origen preciso; muchos mencionan las antiguas encuestas conducidas con propósitos fiscales o militares. Se sabe que, por ejemplo, los censos3 quinquenales de personas y propiedades en la República Romana se señalan como precursores de la estadística descriptiva. Más aún, se sabe que 2000 a 2500 años antes de Cristo, los chinos y los egipcios efectuaron censos que eran simples inventarios elementales. Etimológicamente, se ha descubierto que la palabra estadística presenta una raíz italiana, cuyo significado era el ensamblaje de información y hechos de interés para el estadista (statista) o pertenecientes al Estado (stato). Paralelamente, Portus, (1998) considera fundador de la estadística a Godofredo Achenwall (1719-1772), economista alemán y profesor en la Universidad de Leipzig, quién escribió sobre el descubrimiento de una nueva ciencia que llamó estadística (palabra derivada de Staat que significa gobierno) y que definió como “el conocimiento profundo de la situación respectiva y comparativa de cada estado”. El y sus seguidores estructuraron los métodos estadísticos que se orientaron a investigar, medir y comparar las riquezas de las naciones. Una definición en concordancia con esta idea es la siguiente: “Estadística en su acepción más común, no es más que una colección de datos numéricos ordenados y clasificados según un determinado criterio” [Lobez & Casa, 1969]. Llegado a este punto resulta interesante acotar que también existió durante el siglo XVII una rama del conocimiento llamada Statistik, que concernía con los temas del estado y la historia constitucional, una especie de híbrido no numérico del oficio del estadista, que naturalmente no desembocó en la acepción común del término. Uno de los argumentos que se opone a considerar estas ideas pioneras como génesis de la disciplina, se centra en que comenzar la historia de la estadística haciendo referencia a los esfuerzos del mundo antiguo para registrar la información acerca de los Estados, es fallar en la comprensión tanto de la base del enfoque estadístico como de la naturaleza de su método. De
3
Del latín censare, que significa valuar o tasar. 12
hecho, los métodos estadísticos fueron ampliamente utilizados en astronomía desde 1830; sin embargo, aplicaciones similares no se hicieron un lugar común en las ciencias sociales hasta el siglo X, a pesar de que se le acredita a Quetelet (1796-1874) varias contribuciones al desarrollo de la matemática de las ciencias sociales durante el siglo XIX; de ellas, el aspecto central de la física social de Quetelet fue su noción del hombre promedio (L’homme moyen) que fungió como invención metodológica para suavizar las variaciones aleatorias y revelar regularidades que podrían ser usadas como bases para un estudio social comparativo, más vinculadas a este enfoque están las definiciones propuestas por Haber & Runyon, (1972) “La estadística puede ser considerada como un método para tratar datos numéricos … es un instrumento que se orienta a la recolección, organización y análisis de datos numéricos o de observaciones” y por Yule & Kendall, (1954) “La estadística es la ciencia que trata de la recolección, clasificación y presentación de los hechos sujetos a una apreciación numérica como base a la explicación, descripción y comparación de los fenómenos”. El análisis descriptivo de las tasas de mortalidad y las causas de muerte, realizado por Graunt, en el Londres del siglo XVII, publicado en 1662, está considerado como uno de los primeros ejemplos de lo que se denominó Aritmética Política y que en la actualidad se llama estadística, definida por Pearson como: “la aplicación de la teoría matemática a la interpretación de las observaciones masificadas”. El cambio de enfoque, desde la mera enumeración de hechos al razonamiento acerca de lo que los datos representan, son los albores de la estadística inferencial, de hecho Cowles sugiere una definición funcional: “Ir más allá de los datos, realizar inferencias y esbozar conclusiones con un mayor o menor grado de certeza, en una forma ordenada y consistente es el objetivo de la estadística moderna aplicada”; fundamentalmente de acuerdo con esta aproximación están las siguientes definiciones: “Consideraremos la estadística como un conjunto de métodos y técnicas aplicables a realidades cuantificables, con el objeto de obtener indicadores que permitan diagnosticar dichas realidades” [Deseda, 1988], “Estadística es el sistema que estudia los métodos científicos para recopilar datos, analizarlos, agruparlos y presentarlos en cuadros o gráficos para su interpretación” [Portus, 1998] y “Estadística es la ciencia de aprender a partir de los datos” [Kettering, 2000]. Existen autores que no logran consenso en un concepto único y prefieren emplear una colección de acepciones; por ejemplo Leach, (1979) plantea: “Generalmente se considera que la estadística tiene dos funciones. Una es describir conjuntos de datos; la otra es ayudar a hacer inferencias.” Los párrafos anteriores revelan dos significados distintos para el término estadística, el primero de ellos concerniente a la colección de información numérica y no numérica acerca del Estado, 13
mientras que en un sentido más moderno el término incluye tanto aspectos descriptivos como deductivos en el tratamiento de datos, pero con un énfasis en las conjeturas en oposición del amontonamiento de datos. También resulta evidente que el desarrollo y la aparición de los métodos estadísticos están soportados en el trabajo de matemáticos pioneros en la combinación de observaciones y el uso de modelos probabilísticos en la inferencia, tal como se manifiesta en la definición propuesta por Canavos, (1987): “La estadística es el estudio de los fenómenos aleatorios”; sin embargo, la estadística se distingue de la matemática en que los estadísticos interpretan los números en un determinado contexto. Tal vez lo más interesante que se constata al revisar la contribución filosófica de los distintos autores y el devenir histórico de la estadística es que la difusión del pensamiento estadístico y sus técnicas a diversos campos evidencia las múltiples influencias interdisciplinarias que le han dado forma al carácter único de esta disciplina. Quizás el aprendizaje más reiterado en esta reseña histórica fue apuntado por Moore, (2000) al señalar que a pesar de que la disciplina ha evolucionado en forma y funciones, persisten dos características clave: datos e inferencia. No obstante, es extremadamente importante señalar que la inferencia por si sola es una función inocua, al menos en el contexto actual, porque no se infiere por conjeturar sino para tomar decisiones, para actuar. Más cónsonas con este énfasis están las definiciones de Spiegel, (1991): “La estadística estudia los métodos científicos para recoger, organizar, resumir y analizar datos, así como para sacar conclusiones válidas y tomar decisiones razonables basadas en tal análisis.”, Montgomery & Runger, (1996): “El campo de la estadística tiene que ver con la recopilación, presentación, análisis y uso de datos para tomar decisiones y resolver problemas.” y Lind, et. al., (2001): “La ciencia de reunir, organizar, presentar, analizar e interpretar datos para ayudar a tomar mejores decisiones” Leída la información precedente, se puede enunciar la siguiente definición de estadística que estará vigente a lo largo de lo expuesto en este texto: Es tadís tica es e l es tudio de los dive rsos mé todos y téc nicas pa ra l a reco lecció n , o rgani zació n y prese nta ción de da tos y s u a pli ca ción pa ra la c abal i nterp retació n de e llos co nvi r tién dol os e n i nfo rmación , co n la c ual se realiza n infe rencias y se e xtraen co nclusio nes cuyo nivel de ce rtidumb re puede co noce rse lo cual pe rmite to ma r me jore s decisiones .
A menos que los datos cuantitativos sean precisos, presentados apropiadamente, y correctamente analizados, la información numérica puede ser peligrosamente engañosa; es por esta razón que la estadística como una metodología concerniente a la recolección, presentación y el análisis de datos numéricos es tan importante.
14
El cálculo de medidas descriptivas que resuman grandes cantidades de datos estadísticos es un paso importante en la toma de decisiones basada en dichos datos; pero para que esas medidas estadísticas sean útiles a la gerencia deben ser analizadas de forma que se comprenda completamente su significado para un problema particular. Una vez propuesta una definición de estadística que compila la naturaleza distintiva de sus orígenes y los vínculos e influencias en otros campos del saber, en fin su identidad, significado y propósito, es una exigencia resumir las razones por las que es importante estudiar estadística, ellas son: a) abundan los datos en todas partes, b) las técnicas estadísticas son usadas por otros para tomar muchas decisiones que afectan nuestra vida y c) sea cual sea su futura línea de trabajo tomará decisiones que estarán basadas en datos y serán mejores si domina el pensamiento estadístico. En síntesis, cada vez más la estadística viene a ser una herramienta insuperable e insuplantable en el manejo de la información, como consecuencia de que los sucesos que ocurren de manera común o extraordinaria vienen descritos por un mayor número de elementos o componentes, y esta expansión de datos está cada día más extendida en virtud de la proliferación de elementos electrónicos de almacenamiento masivo de información. Podría ser útil tratar de representar lo aprendido hasta aquí en una figura:
FIGURA N° 1 MAPA CONCEPTUAL DE LA ESTADÍSTICA 15
b)
C LASIFICACIÓN
DE LA
E STADÍSTICA
Hemos descubierto a través de la lectura de la sección precedente que los dos objetivos fundamentales de la estadística son la descripción de datos y la producción de inferencias a partir ellos; ello conduce a una categorización de la estadística en: estadística descriptiva o deductiva y estadística inferencial o inductiva.
i).- Estadística Descriptiva La estadística descriptiva es el conjunto de métodos cuantitativos para organizar, resumir y presentar datos de manera informativa para obtener conclusiones sobre los mismos, sin que sobrepasen los conocimientos que proporcionan esos datos, es decir las conclusiones obtenidas a partir de las observaciones recopiladas no trascienden sobre un conjunto mayor de datos. Tiene por objeto fundamental describir y analizar las características del conjunto de datos para derivar explicaciones acerca de las peculiaridades de dicho conjunto y sobre las relaciones existentes con otros grupos de datos. Los procedimientos que se emplean permiten visualizar los datos, es decir, cuanto difieren los valores de los datos que conforman el conjunto observado, empleando algunas representaciones gráficas que ilustran los datos o bien se emplean cuadros o tablas que permiten que el conjunto de datos se convierta en información legible. Así mismo, se provee de medios que resuman las características más importantes de los datos. La principal ventaja de la estadística descriptiva es que al disponer de todos los datos objeto de análisis no existe incertidumbre respecto a las determinaciones establecidas.
ii).- Estadística Inferencial La inferencia estadística es el conjunto de técnicas que se utilizan para establecer un juicio sobre todo un colectivo mediante un metódico procesamiento de un subconjunto de los datos contenidos en él. Las conclusiones que se obtienen sobrepasan los límites de los conocimientos aportados por los datos en sí mismos, debido a que no se examina al grupo entero, las inferencias no son del todo exactas y debe determinarse las condiciones bajo las cuales la generalización es válida, precisando la probabilidad de que la inferencia sea correcta y esa incertidumbre, asociada a las conclusiones obtenidas, se mide empleando técnicas estadísticas. En virtud de que al realizar estadística inferencial se extrapola desde lo particular hacia lo general, el procedimiento que se sigue es inductivo y de allí el otro nombre que comúnmente recibe. La mayor parte de las interrogantes que requieren análisis inferencial están enfocadas en los siguientes propósitos: examinar las relaciones entre variables, determinar diferencias entre distintos grupos, predecir la 16
membresía a un grupo dado, probar modelos, predecir resultados y examinar cambios a lo largo del tiempo. La estadística inferencial y la descriptiva están estrechamente vinculadas y esta relación se podría observar en el siguiente diagrama:
FIGURA N° 2 MODELO BÁSICO PARA LA ESTADÍSTICA INFERENCIAL Adaptado de Dietrich & Schulze, 1999
Los métodos de la estadística inductiva son necesarios cuando no se pueden reproducir los resultados con la frecuencia o con el grado de precisión que se desea a causa de influencias
c)
T ÉRMINOS C OMUNES E MPLEADOS
EN
E STADÍSTICA
Toda disciplina tiene su propia identidad y esa identidad se conforma a partir del lenguaje que se emplea y el significado que se adopta para ciertos términos que se utilizan comúnmente. Al comenzar a estudiar cualquier campo del saber es menester conocer el vocabulario especializado; en nuestro caso precisaremos las siguientes expresiones:
i).- Universo Es el conjunto total de elementos recolectados que atrae nuestro interés, bien sean ellos personas u otros organismos vivientes, objetos inanimados, hechos, situaciones o abstracciones tales como el tiempo y el espacio.
ii).- Población Es el conjunto de todos los elementos que pertenecen al universo en consideración y que presentan una característica común susceptible de ser estudiada. Nótese que de un determinado universo pueden obtenerse tantas poblaciones como características compartan y puedan ser observadas, contadas o medidas. Esta distinción entre universo y población corresponde a una 17
interpretación muy estricta y es un uso más generalizado en la bibliografía emplear una interpretación más amplia, donde se consideran ambos términos como uno solo. El conjunto de elementos que conforman la población puede resultar finito si el investigador puede someter a medida cada uno de ellos; en cambio si el tamaño de la población, entendido como el número de elementos que abarca, es tal que con los medios de los que dispone el observador le es imposible valorar cada uno de ellos, considerando que la población bajo estudio es infinita. Cuando se trabaja con datos poblacionales los resultados obtenidos del proceso de análisis se denominan parámetros y poseen la condición de ser únicos e invariables.
Universo de Vehículos Volskwagen Escarabajo R N A
A A R
N N R
R A R
A A N
R N A
982
983
982
980
977
975
986
984
983
974
979
977
984
978
979
988
989
973
Población: “Color del VW”
Población: “Peso del VW”
108932
111345
73514
212498
100801
67854
214566
99854
44599
143567
94321
301901
67954
209888
111387
177233
39990
192100
Población: “Número de Kilómetros Recorridos por el VW” FIGURA N° 3 POBLACIONES A PARTIR DE UN UNIVERSO
Apoyándonos en la figura se intentará ilustrar los conceptos de universo y población. A través de la caracterización de los miembros de un universo se pueden obtener tantas poblaciones como características distintas se deseen describir; tal como se ha mencionado previamente, en el ejemplo se han seleccionado tres variables de un universo finito: una cualitativa, observando el color de cada elemento del universo se distingue una población finita denominada “Color del Volkswagen”. Otra variable cuantitativa discreta permite contar el número de kilómetros 18
recorridos por cada uno de los Volkswagen que integran el universo y obtener una segunda población finita. Por último, la medición de una variable cuantitativa continua permite determinar otra población llamada “Peso de los Vehículos Volkswagen”.
iii).- Muestra Según lo explicado en el inciso anterior, cuando el tamaño del universo o de la población lo amerita el investigador debe conformarse con estudiar una parte o porción de ellos que sirve para representarla. Este subconjunto de elementos definidos sobre la base del universo específico o de la población determinada se denomina muestra. Es importante destacar, que la manipulación de datos muestrales arroja resultados que se denominan estadísticos. Dado que la reproducción de un dato individual casi nunca puede lograrse los estadísticos necesariamente variarán conforme cambien los datos que se seleccionan para la muestra. Esto significa que el valor real tiene cierta probabilidad de ser ligeramente menor o mayor al que estima un estadístico. Este rango debe reportarse junto con la evaluación de cualquier valor estadístico y se denomina intervalo de confianza.
FIGURA N° 4 SELECCIÓN DE UNA MUESTRA A PARTIR DE UN UNIVERSO
De seguido su representación en términos de población y muestra: Rojo
Amarillo Naranja
Rojo
Amarillo
Naranja Amarillo Naranja Amarillo Amarillo Amarillo
Rojo
Rojo
Rojo
Rojo Amarillo Rojo Naranja Amarillo
Naranja
Población “Color de los Vehículos VW”
Muestra “Color de los Vehículos VW”
FIGURA N° 5 SELECCIÓN DE UNA MUESTRA A PARTIR DE UNA POBLACIÓN
19
En las figuras anteriores se aprecian dos tipos de muestra, una de ellas referida a los elementos que conforman el universo, y la otra tomada a partir de los datos estadísticos de los colores que conforman el conjunto poblacional seleccionado particularmente para este caso. En ambas circunstancias, se han seleccionado 5 elementos de un total de 15 unidades estadísticas, cuya manipulación permitirá extrapolar conclusiones acerca del universo – población si la muestra en cuestión es representativa. Para que la muestra sea representativa y, consecuentemente, las conclusiones que se establezcan sean válidas, deben tomarse ciertas precauciones que van más allá del espectro de este trabajo, la más importante es asegurar que cada elemento del universopoblación a estudiar tenga la misma probabilidad de ser incluido en la muestra. No obstante las precauciones que se tomen las afirmaciones hechas a partir de datos muestrales siempre tendrán un grado de incertidumbre asociado a ellas. Si dos muestras son representativas, las conclusiones generadas a partir de la mayor de ellas son más coincidentes con la realidad que las desprendidas de la otra muestra. En conocimiento de que se comete un error al extrapolar conclusiones a partir de una muestra, cabría preguntarse ¿Por qué tomarla si se puede haber caracterizado a todos los elementos? La respuesta a la interrogante planteada se puede despejar si reflexionamos sobre dos aspectos que no emergen al observar la figura: a) ¿qué sucede si el universo – población de interés no tuviera 15 unidades estadísticas sino 125.000?, y b) si la variable de interés fuese, por ejemplo, la resistencia del chasis al esfuerzo mecánico ¿sería razonable deformar todos los vehículos para concluir acerca del universo – población? ¿Qué utilidad tendría la información recabada? Ambos planteamientos ilustran las razones fundamentales para realizar muestreo; en ciertos casos el tamaño del universo – población es tal que no resulta factible la inversión de recursos y tiempo para observarlos a plenitud y en otros casos los ensayos forzosamente destruyen al elemento lo cual no permitiría su uso o venta posterior. Ninguna de las dos situaciones es razonable en el ámbito empresarial, por ello, es preferible que las conclusiones a las que se lleguen contengan un grado de incertidumbre conveniente que haya sido definido a priori.
iv).- Variables y su Clasificación Es intuitivo asumir que dentro de un colectivo las características particulares que pueden someterse al análisis y que son compartidas por los elementos de una muestra, población o universo, no se presentan con la misma intensidad ni forma en cada uno de ellos y por ende se les puede asignar distintos valores, razón por la cual dichas características se denominan variables. Para el estudio de las variables, es necesario distinguir entre los valores posibles y los valores 20
observados, entendidos los primeros como todos los que teóricamente puede exhibir una unidad estadística y los segundos como aquellos obtenidos a través de la observación, conteo o medición del colectivo con el que se esté experimentando. Si el experimento en cuestión consiste en registrar el número que aparece cuando se lanza un dado al aire diez veces, los valores observados pueden ser: 3 veces uno, una vez dos, dos veces cuatro y cuatro veces cinco; no obstante, los valores posibles para esta experiencia son los seis representados en cada una de las caras del dado. Si los datos se obtienen estudiando una característica que puede ser expresada mediante datos numéricos por medición o conteo constituyen variables cuantitativas; ejemplos de este tipo de variables lo forman el número de personas esperando a ser atendidas en una taquilla, el tiempo que tarda en ajustarse una maquinaria para comenzar a elaborar puertas de Astra después de haber fabricado guardafangos de TrailBlazer, el saldo disponible en la cuenta corriente de una empresa o la vida útil de una lámpara fluorescente. Las variables cuantitativas se subdividen en variables discretas y variables continuas. Son variables discretas las que sólo toman un determinado número de valores correspondientes a números enteros, tales como el valor que se obtiene al lanzar un dado, el número de obreros requeridos para operar una línea de producción a su máximo nivel, el número de alumnos inscritos en Inferencia Estadística I el semestre anterior o el número de tanqueros cargados en Azuay los días lunes. Las mediciones obtenidas de una variable continua pueden, en principio, tomar cualquier valor teóricamente posible entre dos valores dados; ésto significa que los números en que se transforman los datos continuos pueden ser enteros o no; ejemplos de variables continuas puede ser: el diámetro interno de las tuberías de acero comercial catálogo 40 de 1½” producidas en el turno nocturno en Sidetur, la presión de operación de la unidad de desulfonación de la Refinería de Guaraguao, el tiempo de conexión a Internet para descargar un video, el peso de los clavos contenidos en un paquete, etc. Una propiedad importante de los datos continuos es que no es posible obtener dos valores exactamente iguales; si dos de los clavos que se pesaron exhibieran una masa de 4,5 g sería una señal de que el aparato de medición no es lo suficientemente sensible; con una balanza más sofisticada4 debe ser posible diferenciar entre los dos pesos. En el caso de los datos discretos es factible observar empates que no sean el resultado de un conteo deficiente, sino que significa valores exactamente iguales, por ejemplo el número de inscritos en las secciones uno y dos de la
4
Con una balanza analítica como la del laboratorio de química cuya precisión como recordarán es de hasta diezmilésimas de gramo uno de los clavos podría pesar 4,4968 g y el otro 4,5251 g, valores para los cuales el instrumento usado en primera instancia registraría 4,5 g. 21
asignatura estadística y probabilidades en un semestre cualquiera puede ser, en ambos casos, 38 alumnos. Es interesante destacar nuevamente que a pesar de que las limitaciones de precisión en los instrumentos de medición usados por el hombre interrumpen los valores posibles de la variable continua; sin embargo ello no las hace discretas, en todos los casos lo que define a las variables continuas no es el número que se observa, sino la escala teórica subyacente. La distinción no es meramente filosófica porque los métodos de procesamiento e interpretación de los datos están vinculados al tipo de variable bajo estudio, tal como se aclarará más adelante. En general, dos son las formas de reunir datos acerca de las variables: las enumeraciones o recuentos que dan lugar a datos discretos y las mediciones a datos continuos. La exactitud en las medidas depende de las limitaciones propias del instrumento – particularmente su apreciación – y de la pericia de quien lo emplea. La magnitud de un valor medido, cualquiera que este sea, se encuentra en algún valor del rango centrado en la medida con radio igual a la apreciación del instrumento. Aclarado el punto, es conveniente recordar que los valores de las observaciones de variables discretas están perfectamente definidos porque ninguna forma de contar dará un valor diferente, mientras que para las variables continuas se pueden realizar sucesivos afinamientos de los valores medidos aumentando la resolución en la escala del instrumento de medición.
Todas las características que definen a los elementos de una población o una muestra no se ajustan a la descripción de las variables cuantitativas, en particular si estas características son no numéricas, de forma tal que cada elemento bajo análisis sólo pueda configurarse como poseedor o no de dicha característica; se está en presencia de lo que se designa como variable cualitativa o atributo.
Cuando se estudian datos representados mediante variables cualitativas suele ser objeto de atención cuantos de ellos o en que proporción caen en cada categoría. Ejemplos de variables cualitativas pueden ser sexo, estado civil, ausencia de defectos en los productos de una línea de montaje, modelos de vehículos que se ensamblan en una fábrica, y el tipo de preguntas que se tratan de responder son: ¿Cuántos hombres estudian ingeniería industrial en el Vicerrectorado “Luis Caballero Mejías” de la UNEXPO?, ¿Qué proporción de docentes solteros dictan asignaturas del área de matemáticas?, ¿Cuál es el porcentaje de botellas sin etiqueta que se despacharon desde la Planta de Polar en San Joaquín el mes pasado?, ¿Cuántos Chevrolet Corsa 22
fueron comercializados en el Programa del Vehículo Familiar el año 2002?, etc. Se resume la clasificación de las variables mediante el siguiente esquema:
FIGURA N° 6 TIPOLOGÍA DE LAS VARIABLES EN ESTADÍSTICA
Cada una de las formas de descripción de las variables cualitativas y cada uno de los valores de medición o enumeración de las variables cuantitativas, se conocen en estadística con el nombre de variantes, categorías o clases, siendo este último el más popular de los tres sinónimos.
v).- Unidad Estadística Es el sujeto en particular sobre el cual se está observando, contando o midiendo la variable, es decir cada uno de los elementos contenidos en la muestra o en el universo – población objeto de análisis. Se desarrollarán algunos casos a manera de ejemplos clarificadores de los términos definidos hasta ahora: E J E M P L O : De las 24.000 botellas de Seven Up que salen, durante el turno de la mañana, del
proceso de lavado en la Embotelladora de Pespsi Cola ubicada en Caucagua se realiza un estudio tomando 240 botellas al azar, encontrándose que existe un defecto (astillas) en 5 de ellas, dos defectos (astillas y sucio externo) en 3 de ellas y en el resto no se perciben defectos. Identifique: a) población, b) muestra, c) variable indicando su tipo, d) valores posibles, y e) unidad estadística. RESOLUCIÓN:
a)
Las 24.000 botellas de Seven Up.
b)
Las 240 botellas seleccionadas aleatoriamente.
c)
Numero de defectos (variable cuantitativa discreta).
d)
Tiene tres valores posibles: cero defectos, un defecto y dos defectos.
e)
La botella de Seven Up. 23
E J E M P L O : La fábrica de Kraft Foods en Barquisimeto está sometiendo a un control de calidad
riguroso el peso de los empaques de galletas Oreo de 4 servicios; para ello se selecciona la producción de un día y se le somete al proceso de control. Identifique: a) población, b) muestra, c) variable indicando su tipo y d) unidad estadística. RESOLUCIÓN:
a)
La producción de galletas Oreo en empaques de 4 servicios.
b)
La producción de 1 día de galletas Oreo en empaques de 4 servicios.
c)
El peso (variable cuantitativa continua).
d)
El paquete de de 4 servicios.
E J E M P L O : El Ministerio de Producción y Comercio desea presentar un informe acerca de la
calidad de los modelos beneficiados con el Programa del Vehículo Familiar (Accent, Brisa, Corsa, Energy, Fiesta y Terios); para ello entrevista a un grupo de cincuenta y cinco compradores del 2002 que fueron atendidos por garantía para saber cuál modelo poseían. Las respuestas se discriminaron en los siguientes modelos: Chevrolet Corsa (26 propietarios), Ford Fiesta (11 propietarios), Chrysler Brisa (4 propietarios) y Toyota Terios (14 propietarios). Identifique: a) población, b) muestra, c) variable indicando su tipo, d) valores posibles, e) valores observados y f) unidad estadística. RESOLUCIÓN:
a)
Los propietarios de vehículos del Programa Familiar comprados en el 2002.
b)
Los 55 propietarios entrevistados.
c)
Modelo de vehículo (variable cualitativa)
d)
Cada uno de los seis modelos beneficiados por el Programa de Vehículo Familiar en el 2002: Accent, Brisa, Corsa, Energy, Fiesta y Terios.
d)
e)
Los cuatro de los que se obtuvieron respuestas: Brisa, Corsa, Fiesta y Terios.
f)
El propietario de un vehículo beneficiado con el Programa Familiar.
M EDIDAS
Y
M EDICIONES
La observación de valores o características se desarrolla a través de un proceso de medición. Se entiende por medición la acción de asignar números a ciertos elementos para cuantificar una propiedad; esta operación implica comparar las variables con escalas de valores establecidas. Dicho número debe simultáneamente representar la magnitud o intensidad de la característica que se desea medir, así como ser susceptible de análisis mediante su manipulación en concordancia con ciertas reglas. La relación que se establece entre las observaciones y los números asignados 24
no siempre es evidente, por lo cual es preciso establecer el alcance o significación de dicha asignación antes de proceder al análisis de los mismos por medio de manipulaciones u operaciones algebraicas, con la finalidad de obtener nueva información acerca del objeto que se está estudiando. La reflexión acerca del alcance de la asignación numérica provoca que se distinga entre cuatro niveles de medición, los cuales se diferencian entre sí por la forma en que se adecuan a las propiedades de los números y, por tanto, se diferencian en las operaciones que se puedan hacer con los números asignados. Matemáticamente hablando, los números pueden clasificarse, de acuerdo a su uso, en: cardinales, ordinales y nominales. Un conjunto de números que carecen de propiedades aritméticas se conocen como números nominales y su misión es identificar algo mediante el símbolo numérico; ejemplos de este uso se encuentran en cualquier código de clasificación numérica, entre otros: las cédulas de identidad, los valores expuestos en las caras de un dado, el número de camiseta de los atletas de un equipo deportivo. Por el papel que representan estos números no tiene sentido sumarlos, multiplicarlos e inclusive ordenarlos5. Sin embargo, se sabe que los números son un cuerpo algebraico que cumple con la propiedad de orden que se enuncia a continuación: D E F I N I C I Ó N : [Portus, 1998] Todo par de números a y b cumple con una y sólo una de las
relaciones siguientes: ab Un conjunto de números usados para abstraer la naturaleza de los objetos teniendo en cuenta exclusivamente el orden que ocupa, gracias a la propiedad que se definió previamente, se denominan números ordinales. Casos típicos, entre otros, resultan de señalar la posición que ocupó un piloto en cierto Gran Premio de Fórmula 1 o designar el orden de atención en una cola para el servicio de charcutería de un supermercado. Los números además del orden, pueden usarse para expresar cantidades, tales como: 20 centímetros, 20 grados centígrados, 20 kilogramos, 20 segundos, etc., en cuyo caso se conocen como números cardinales y las variables representadas por ellos son apropiadas para aplicarle operaciones aritméticas.
5
Nótese que un jugador con el número 8 en un equipo de fútbol puede desempeñarse como defensa, medio campista o delantero; no es el más joven no el mayor de ellos; el mejor no tiene el número más bajo ni el más alto; el número representa un código para registrar la actuación individual (amonestaciones, goles, etc.). En el caso de la cédula de identidad, aún cuando los números pueden ser ordenados, no tiene ni siquiera relación con la edad de la persona, por que el correlativo asignado depende de la entidad federal de registro y no sucede al nacer, por lo que depende de la edad en que la persona fue identificada por primera vez. 25
Los niveles o formas en que se puede medir o clasificar una variable dependen de la naturaleza de la variable de forma tal que el conjunto de números que sean asignados le sean representativos. Hay cuatro niveles de medición en estrecha relación con la clasificación del conjunto numérico utilizado, por lo tanto, estos niveles indican los cálculos que se pueden realizar para resumir y presentar los datos y las pruebas estadísticas que pueden llevarse a cabo. Dichos niveles, ordenados por el nivel de información que aportan de la observación, son: nominal, ordinal, de intervalo y de razón, tal como se ilustra en Figura N° 7 plasmada de seguido:
FIGURA N° 7 NIVELES DE MEDICIÓN
Para la medición o clasificación de variables cualitativas se utilizan escalas nominales, dado que como se ha discutido previamente en este capítulo, las observaciones de estos datos sólo pueden ser clasificadas o contadas y no existe un orden particular para las distintas clases. Pueden ser tan simples como cuando ofrecen sólo dos categorías o valores posibles, en cuyo caso, a las variables se les conoce como variables dicotómicas, el género es un ejemplo adecuado, si observamos a los estudiantes de ingeniería industrial de la UNEXPO-Caracas podemos discriminarlos según su género, contando cuantas son del sexo femenino y cuantos son del sexo masculino. Estas categorías son mutuamente excluyentes, lo que significa que un individuo no puede pertenecer a 26
ambas simultáneamente; además las categorías empleadas son colectivamente exhaustivas porque todo estudiante que conforme la población se puede clasificar en alguna de ellas. Los casos donde los valores posibles no están nítidamente identificados desde un comienzo se suelen tratar incluyendo una categoría denominada ‘otros’, por ejemplo si usted está interesado en construir un modelo para evaluar la necesidad de comprar un horno para pintar las piezas metálicas puede ser relevante determinar el número de días al año que el horno es útil; para ello una posibilidad es asignarle a la variable clima las categorías: i) soleado y seco, ii) soleado y húmedo y iii) otros climas, en virtud de que si llueve, existe una neblina fría o nieva son exactamente igual de perjudiciales para la pintura fuera del horno. Esta colección de categorías es colectivamente exhaustiva y mutuamente excluyente, dado que a cada uno de los días de operación puede asignársele una y sólo una de las categorías propuestas; todos los eventos que pertenecen a una categoría tienen una característica igual (el mismo tipo de clima) y el número de ellos que pertenecen a una misma categoría se llama frecuencia. Además, las categorías no pueden ser ordenadas lógicamente, es decir, es indistinto que la primera de ellas sea soleada y seca o soleada y húmeda. Con los datos medidos mediante escalas nominales se pueden realizar pocos indicadores estadísticos, tales como: determinar la frecuencia (contar el número de elementos en una categoría) con lo cual podemos calcular el porcentaje respecto al total de observaciones y establecer la categoría modal (estipular la categoría que presenta mayor frecuencia). Si una escala es susceptible de interpretarse en forma jerárquica, se convierte en una escala ordinal; una escala cuya medición se efectúa a nivel ordinal es una escala nominal para la cual existe la característica especial que se ordena por rango; algunas aplicaciones pueden ser: clasificar los trabajadores según el nivel de experticia en la preparación de una estampadora para cambiar entre la producción de una pieza y otra, que pueden agruparse en: alta, intermedia y baja; las respuestas a una pregunta de apreciación de opción múltiple: ¿Cómo considera Ud. que funciona el proceso de inscripción?
(5) (4) (3) (2) (1)
Excelente Bien Regular Mal Muy Mal
En estos casos podemos concluir que una apreciación de cuatro puntos (bien) es mejor que una de dos puntos (mal); sin embargo, no podemos considerar que la opinión que se expresa como bien es dos veces mejor que la expresada con mal, a pesar de que un valor es el doble del otro. Nótese 27
que el uso del nivel de medición ordinal exige orden entre las categorías antes de iniciar cualquier medición y, por el mismo hecho de poder ordenar todas sus categorías, permite sumariar los datos mediante el cálculo de las medidas estadísticas de posición. El siguiente nivel de medición es el nivel de intervalo; este nivel tiene todas las características del nivel ordinal, pero, además la diferencia entre dos valores cualesquiera es de longitud constante y utiliza como cero un valor arbitrario que no significa la ausencia de la característica. Quizás, el caso más representativo de este nivel de medición son las escalas habituales de temperatura. Un termómetro que marque 0ºC no representa la ausencia de energía sino que hace frío, además diferencias iguales entre dos temperaturas están representadas por diferencias iguales en los números asignados, sin importar la posición que ocupen en la escala. En este nivel de medición el orden de las observaciones se efectúa en concordancia con la cantidad de característica que posean; las variables que se miden en este tipo de escala son cuantitativas y pueden calculársele todas las medidas estadísticas a excepción del coeficiente de variación. El nivel de medición más alto es el nivel de razón, el cual tiene todas las características del nivel de intervalo, pero además, el valor cero significa ausencia de la característica y la relación entre dos números tiene sentido; por ello, las cantidades medidas con escalas de razón pueden compararse estableciendo proporcionalidades y el cociente entre dos datos que exhiban la misma intensidad en la característica es independiente de la unidad de medida. Cuando la variable en estudio se mide a nivel de razón es susceptible de analizarse con todos los indicadores estadísticos; este tipo de variables se encuentra generalmente en las ciencias físicas. Un buen ejemplo puede ser el peso de una persona; la balanza sólo arroja un valor de cero en ausencia de masa y además se cumple que; 5 kilogramos 11,0232 libras = = 2,5 2 kilogramos 4,4093 libras En cambio, un nivel de medición de intervalos no mantiene las proporciones al cambiar de unidad de medida por ubicar el cero de manera arbitraria, por ejemplo:
100 º C 212 º F =4≠ = 2,7533 25 º C 77 º F EJEMPLO:
Identifique en cada uno de los siguientes casos propuestos la variable y su tipo, y el
nivel de medición que se está empleando: a) el código de barras de los nuevos productos ingresados al almacén de un supermercado, b) los rangos que detentan en el ejército 100 encuestados, c) el precio de venta, en €, de cada uno de los productos de una comercializadora, d) la distancia entre los ejes de 35 vehículos ensamblados por Mack de Venezuela, e) el peso de una 28
muestra de 59 baldosas tipo “A” elaboradas por Balgres, f) las profesiones de los egresados de la UCV en el año 2002, g) la diferencia en el valor de la electronegatividad de Pauling de una muestra 7 no metales al compararlas con la del Carbono, h) el turno en que fueron manufacturadas 300 griferías de lujo en Fundición Pacífico, i) el número de defectos de las 50 piezas incluidas en una muestra de la producción de una suplidora de muebles modulares, j) la localización geográfica de las cooperativas textileras beneficiadas con el Programa de Uniformes Escolares para el año 2002, k) la temperatura, medida en Kelvin, a la que trabajaron los hornos de SIDOR en cada una de las últimas 72 horas, y l) el número de horas mensuales dedicadas a mantenimiento en la Refinería El Palito en el último semestre. RESPUESTAS:
La mayoría de las respuestas son directas y se resumen a continuación en forma
tabular. Los casos polémicos se comentan al final de la tabla de respuestas Variable
Tipo de Variable
Nivel de Medición
a) El código de barras
Cualitativa
Nominal
b) El rango en el ejército
Cualitativa
Ordinal
c) El precio de venta en €
Cuantitativa Continua De Razón
d) La distancia entre ejes
Cuantitativa Continua De Razón
e) El peso
Cuantitativa Continua De Razón
f) Profesión
Cualitativa
g) La diferencia de electronegatividad
Cuantitativa Continua De Intervalo
h) El turno de manufactura
Cualitativa
Nominal
i) El número de defectos
Cuantitativa Discreta
De Razón
j) Localización geográfica
Cualitativa
Nominal
k) La temperatura en Kelvin
Cuantitativa Continua De Razón
l) El número de horas
Cuantitativa Discreta
Nominal
De Razón
Entre los casos dignos de comentarios están el: b, f, g, k y l. Los rangos del ejército son una escala nominal pero demuestran una posición jerárquica, por lo tanto se establece un orden relativo a la autoridad de cada entrevistado. Las profesiones presentan un inconveniente interesante: al clasificar a los graduandos, algunos de ellos pueden exhibir más de una titulación, por ejemplo, ingeniero y abogado; esta particularidad puede llevar a pensar que los datos no pueden ser clasificados en categorías mutuamente excluyentes y, por ende, la variable profesiones no tendría asociado ningún nivel de medición por violar esta condición, que como se muestra en la Figura N° 7 es común a todos las escalas de medición. Este inconveniente aparente es subsanado de forma inmediata cuando se entiende que un individuo que se haya graduado de abogado, ostentando previamente el título de ingeniero, lo que hace es conformar una nueva 29
categoría y, por lo tanto, existiría un nivel de medición, con la peculiaridad de que no se sabe a priori el número de categorías; en virtud de que las combinaciones de dos o más profesiones elevaría sustancialmente el número de categorías, podría considerarse establecer una categoría tal como “múltiples profesiones”, con lo cual todos aquellos con por lo menos dos titulaciones se clasificarían en ella. La escala de electronegatividad de Pauling es en sí una escala arbitraria, es decir, el cero carece de significado; pero en particular el conocimiento de ésto no es necesario para establecer que el nivel de medición, en el caso ejemplificado, es de intervalo, en virtud de que en el enunciado se establece una comparación o diferencia con un elemento particular; en todos los casos en que ésto sucede un dato cuya diferencia sea de 0,8 unidades, por ejemplo, no representa necesariamente el doble de uno con diferencia de 0,4 unidades porque el elemento de comparación representa un valor que es cero al establecer la diferencia pero que no es ausencia de la propiedad. Para
ilustrar lo que explicado previamente, coloquemos unos valores de electronegatividad según la escala de Pauling. El Carbono tiene una electronegatividad de 2,6; el Nitrógeno una de 3,0; y el Oxígeno un valor de 3,4; y los tres se ajustan a lo expresado en el enunciado, veamos: ΔENC = ENitrógeno - ECarbono = 3,0-2,6 = 0,4
(1)
ΔEOC = EOxígeno - ECarbono = 3,4-2,6 = 0,8
(2)
ΔE OC 0,8 = =2 ΔE NC 0,4
(3)
E O 3,4 = = 1,133' E N 3,0
(4)
ΔE OC E O ≠ ΔE NC E C
(5)
La relación que se establece en (5) indica que esta escala no es de nivel de razón pues no conserva las proporciones; ésto sucedería también si consideramos, por ejemplo, la diferencias de alturas respecto a un patrón o las diferencias en volúmenes de venta respecto a un año base. En el caso de la temperatura, a pesar de que se comentó durante la exposición de los niveles de medición como un nivel de intervalo, es un hecho conocido que la escala Kelvin no es arbitraria y el cero en ella representa el cero absoluto, es decir, ausencia de energía. El último de los casos que merece un comentario deliberado se refiere a las horas de mantenimiento; la confusión puede presentarse porque las horas son unidades de tiempo y el tiempo es una variable continua; sin embargo, está claro que el caso en cuestión, tal como está enunciado, tiene un propósito 30
enumerativo, es decir funciona como un contador y no es una medida de tiempo en el sentido que comúnmente se le atribuye.
e)
R ECOLECCIÓN
DE
D ATOS
El propósito de esta sección es familiarizar al lector con algunas de las fuentes principales de datos estadísticos e indicar alguna de las prácticas que deben ser observadas para que los datos recolectados en estudios estadísticos sean confiables. Como se ha señalado hasta ahora, el primer paso en un proceso estadístico es la obtención de datos para que sean procesados, convirtiéndolos así en un insumo útil para el análisis y la toma de decisiones; el procesamiento abarca lo relativo a la ordenación y presentación de la data. Por ser el dato el principal insumo de los procesos estadísticos y el protagonista de la estadística descriptiva, es necesario ocuparse brevemente del proceso de recolección.
i).- Investigación Estadística Las investigaciones estadísticas son frecuentemente asociadas con las encuestas, de hecho estas últimas se han convertido en una de las fuentes primordiales de datos estadísticos útiles para que gerentes públicos y privados seleccionen acertadamente entre las diversas opciones de las que disponen. Realizar una operación orientada a la recopilación de información original sobre un universo – población es una tarea complicada que requiere de una planificación y conducción competente para obtener datos precisos; en muchos casos la complejidad y envergadura de la investigación exige la colaboración de equipos interdisciplinarios altamente especializados, tal como sucede en la elaboración de los censos de población de una nación. En otras oportunidades la labor investigativa puede referirse a la medición sistemáticamente organizada de los resultados de múltiples experimentos estadísticos, entendiéndose como tales los estudios de un situación creada en la que la población es inexistente o mejor dicho hipotética; el objeto del experimento es establecer, por métodos estadísticos, algunas características de la población si ésta existiera. Por ejemplo, los experimentos biológicos, farmacológicos, psicológicos y médicos donde se evalúa el efecto o impacto de alguna intervención bajo ciertas condiciones que varían a voluntad del investigador. Por último, las investigaciones pueden ser tan simples como la recopilación de datos estadísticos obtenidos de informaciones provenientes de fuentes oficiales a nivel institucional o de publicaciones de organismos altamente especializados en estas materias. Todos los profesionales en contacto con datos estadísticos deben conocer ampliamente los problemas enfrentados su recopilación para poder evaluar la influencia de esas limitaciones cuando sean 31
usados, a razón de lo cual se pretende dar una orientación sobre algunos de los aspectos básicos en el planteamiento de una investigación, las cuales abarcan las siguientes fases: ) Objeto de la investigación: comprende la respuesta a la pregunta: ¿qué se investigará?,
precisando adicionalmente en qué condiciones, con qué medios, en que momento y en cuál sitio se llevará a cabo. ) Unidad de investigación: corresponde a la unidad estadística y significa el elemento del
universo – población que origina la información, debe ser clara en su definición, fácilmente identificable y mesurable. ) Recolección de la observación: es la fase de observación del universo – población que
permite obtener los valores de la variable que la definen. ) Procesamiento de la información: consiste en ordenar la información, filtrarla eliminando
posibles errores y analizarla mediante los métodos y normas de la estadística. ) Publicación: es la etapa final de entrega de la información después de revisada, ya sea para
uso propio o ajeno. Esta fase requiere que los datos se presenten adecuadamente. Al diseñar el plan de la investigación, es decir, al organizar las actividades que son necesarias desarrollar para lograr el objetivo propuesto, deben definirse cada una de las actividades, prever posibles obstáculos, y establecer los requerimientos de recursos y tiempo para llevarlas a cabo.
ii).- Observación de la Población Muchos de los datos estadísticos que se requieren en una organización son datos internos, es decir, datos acerca de la producción, venta y otras operaciones propias de la empresa. Esos datos internos se compilan en infinidad de registros básicos que se realizan en las empresas, por ejemplo: el número de personas que solicitó ayuda al Help Desk, la temperatura del horno en intervalos regulares de tiempo durante la jornada de operación, las ausencias y horas extras laboradas por el personal, el costo de la materia prima y el momento de su recepción, las características físicas, químicas o estructurales de la producción, las comisiones y las ventas de cada departamento, etc. Por la naturaleza de los ejemplos citados, es intuitivo descubrir que los registros internos se llevan a cabo durante la ejecución de las operaciones y que estos insumos se presentan en forma de reportes, de los cuales destacan los financieros y los de operación. Estos últimos son quizás los más relevantes para el desempeño profesional de un ingeniero industrial, porque no sólo contienen información en unidades monetarias, sino que versan sobre aspectos tales como: unidades manufacturadas, compras de material, gastos de mantenimiento, unidades defectuosas, fallas en maquinarias y operarios, tiempos de ejecución de actividades rutinarias, 32
reportes de verificación de estándares de calidad en materias primas y productos terminados, tiempo de espera para cumplir con pedidos, horas extras, volumen de trabajo en proceso (WIP6), disponibilidad de productos en inventario, tiempos de entrega de los proveedores de bienes y servicios, condiciones de operación de las maquinarias, etc. Asimismo, los reportes se recaudan en una base temporal, pudiendo ser: diaria, mensual, trimestral, semestral o anualmente, dependiendo de su impacto en los resultados de la empresa y la frecuencia con que son llevadas a cabo las actividades que los originan. Muchos de estos reportes sirven para comparar con las metas empresariales lo que permite aplicar correctivos cuando es necesario o prever la atención de nuevas actividades o mercados; por ello, pueden estar estandarizados o responder a requerimientos especiales y específicos demandados por los ingenieros, administradores y gerentes. La mayoría de los datos y reportes internos en formato electrónico están a la disposición de quienes los necesitan para decidir, prácticamente con inmediatez, debido a los potentes y minuciosamente diseñados sistemas de información tan comunes hoy en día. Además de estos datos también son necesarios otros que escapan del alcance de la actividad interna de la empresa, particularmente buscados en la actualidad; son datos acerca de otras compañías similares para comparar el desempeño (benchmarking). Estos datos se obtienen de reportes
y
publicaciones,
impresas
o
electrónicas,
elaboradas
por
organizaciones
gubernamentales, asociaciones industriales, gremiales o comerciales, empresas especializadas en la recopilación de información y el desarrollo de estudios estadísticos. Esta situación permite identificar una de las formas más comunes de diferenciar a los datos estadísticos según su fuente. Cuando se utiliza un informe que contiene datos que fueron originalmente recopilados y publicados por cualquier ente distinto a quien lo publica, se habla de la utilización de fuentes secundarias u observación indirecta; en cambio, si los que publican el reporte también acopiaron los datos se identifican como datos estadísticos de fuentes primarias o de observación directa. Muchas publicaciones son fuentes primarias de algunos datos y secundarias de otros. Las fuentes primarias presentan ventajas respecto a las secundarias en aspectos como la presentación y la cantidad de información, debido a que suelen mostrarse de forma más completa y detallada, incluyendo explicaciones acerca de los métodos utilizados en la recolección, lo que se convierte en un auxilio para la evaluación e interpretación de los datos. Además, siempre existe la posibilidad de que aparezcan en una fuente secundaria errores que no existían en los 6
Se le conoce por sus siglas en ingles Work in Process, y significa la cantidad de pedidos ya comenzados y aún no 33
datos originales, principalmente asociados al proceso de trascripción7 e intercambio de datos. Estos errores en trascripción, procesamiento y presentación de los datos no son exclusivos de las fuentes secundarias, de hecho, el trabajo de trascripción es una labor fundamental y muy delicada en el momento de coleccionar los datos, aunado a la imposibilidad de descartar que en su compendio se hayan empleado técnicas inapropiadas de obtención y la diversidad de datos de distintas fuentes que se compilan en las fuentes secundarias las hacen muy convenientes; de hecho este es el tipo de observación que se usa al resolver los ejercicios y ejemplos de este texto. El profesional debe prestar mucha atención al momento de evaluar la precisión y pertinencia de los datos estadísticos consultados o recabados para cualquier análisis. Como se ha señalado hasta ahora, para recolectar los datos de un estudio estadístico, es necesario observar al universo – población que reviste interés, ya se ha expuesto el principal criterio para clasificar la tarea observadora. Sin embargo, existen otros juicios igualmente válidos para clasificar las distintas formas de observación, enumeración y medición del objeto a estudiar. Dependiendo de la concepción del problema se puede establecer una tipología en atención no sólo con la fuente, sino considerando también la periodicidad y la cobertura. Atendiendo a la fuente las observaciones se clasifican en directas e indirectas; según la periodicidad puede ser continua, periódica o circunstancial; y en relación con la cobertura pueden separarse en exhaustiva, parcial o mixta. A continuación se desarrollan un poco las clasificaciones recién introducidas: Observación Continua: es aquella que se lleva a cabo de un modo permanente, por ejemplo,
los registros contables de una empresa. Observación Periódica: es la que se ejecuta en períodos de tiempo constantes; normalmente
la base temporal puede ser diaria, semanal, mensual, trimestral, anual, etc. El resultado de este tipo de observación produce series estadísticas denominadas series de tiempo cronológicas, sobre las cuales se realizan extensas actividades de investigación por su relación con los pronósticos.
terminados en un momento de tiempo determinado. 7 Muchos se preguntarán ¿quién se va a poner a pasar los datos existiendo disquetes, CD’s y mail? la respuesta es trivial, existen casos en que ello sigue siendo necesario por que los datos que se necesitan sólo existen en un material impreso y la segunda razón está vinculada a que el intercambio electrónico no está exento de problemas de corrupción de la información en el proceso de transferencia, ni de vulnerabilidad de la integridad de la data por errores del operario del software. 34
Observación Circunstancial: en este caso responde a una necesidad momentánea y
específica que requiere una evaluación esporádica, por ejemplo, el número de pacientes diagnosticados con fiebre amarilla en el Estado Zulia en agosto de este año. En lo relativo a la cobertura puede aclararse que: Observación Exhaustiva: se denomina cuando la actividad se realiza sobre la totalidad de
los elementos que conforman el universo-población; un ejemplo adecuado son los censos que elabora el Instituto Nacional de Estadística (INE8). En virtud de que esta operación se ejecuta cada diez años, es también una observación periódica; más aún por ser una encuesta que es administrada y publicada por el mismo organismo corresponde a una observación directa. Es importante resaltar que cada investigación estadística podrá ser clasificada a partir de todos y cualquiera de los criterios señalados. Observación Parcial: como se argumentó anteriormente la observación de los universos –
poblaciones es poco práctica y no siempre factible. Por lo tanto, es más común centrar la investigación en una muestra, dado que en este caso el investigador se fija en sólo una parte de las unidades estadísticas, se clasifica como observación parcial. Observación Mixta: cuando un estudio se hace sobre una serie de características, es natural
que todas ellas no revistan igual atractivo. Una alternativa para enfrentar estos estudios, de forma que la información recabada justifique su costo, consiste en la adecuada combinación de la observación exhaustiva con la parcial, de tal manera que las características que se consideren no básicas se observen mediante una muestra.
iii).- Fuentes de Datos Estadísticos La existencia de publicaciones contentivas de datos estadísticos se remonta a principios de siglo. Como se ha explicado previamente en el texto, desde sus orígenes la estadística ha estado vinculada a la recopilación de información acerca de las actividades del estado y sus habitantes; entonces es natural que en todas partes del mundo funcionen organizaciones gubernamentales vinculadas a la recolección de datos estadísticos. La actividad de recaudar datos con distintas finalidades no está limitada al espacio de lo público; debido a los intereses particulares que demandan cierto tipo de información se conocen una basta cantidad de empresas cuya actividad está referida a la realización de estudios estadísticos particulares y a la comercialización de bases de datos que reúnan estadísticas de interés general. Existen miles de fuentes impresas donde se
8
Anteriormente, respondía al nombre de Oficina Central de Estadística e Informática (OCEI). 35
informan datos estadísticos recolectados periódicamente; lo más común es que esta literatura se presente en entregas mensuales o en tomos anuales. A pesar de ello, no siempre es una tarea sencilla disponer de los datos estadísticos abiertos al público, dependiendo del interés específico de quién requiere los datos; lo más oportuno es consultar una fuente de datos primarios estándar en la que sea razonable esperar que dichos datos aparezcan, en particular, si el objetivo es un estudio de seguridad industrial y se demandan datos acerca del número de accidentes laborales en las industrias manufactureras venezolanas con incapacitación temporal, lo más sensato es acudir a los registros del Ministerio de Trabajo y Desarrollo Social. Dada la extensión, facilidad y cotidianidad con la que se utiliza Internet como herramienta de búsqueda y publicación de información sobre los diversos tópicos, se hará énfasis en las posibilidades que brinda dicha herramienta. Entre otras facultades, Internet permite acceder a las páginas de organizaciones gubernamentales. En el ámbito local se dispone de: 1.- http://www.bcv.org.ve/c2/indicadores.asp: Es la página de información estadística del Banco Central que presenta los datos fundamentales acerca de aspectos económicos del país. 2.- http://www.ine.gov.ve/ine/indexine.asp: Es la página del Instituto Nacional de Estadísticas y permite el acceso online a diversos datos, principalmente demográficos y económicos. A nivel mundial, se obtienen con relativa facilidad datos acerca de Estados Unidos de América en páginas como: 3.- http://lib.mansfield.edu/govstats.html: Página Web de la biblioteca "North Hall" de la Universidad de Mansfield; contiene datos estadísticos de varias áreas socioeconómicas norteamericanas, documentos gubernamentales y trabajos de referencia, además de un link para información internacional distribuidos en diez páginas individuales. 4.- http://devdata.worldbank.org/data-query/: Esta página del Banco Mundial permite observar 53 series estadísticas para los años 1998-2002 de casi todos los países del globo; algunas de ellas bien interesantes para diagnosticar la economía, tecnología y desarrollo industrial de los países. 5.- http://faculty.babson.edu/turner/fish/finecn.htm: Es una página que reúne una serie de vínculos que dan acceso a una diversidad de datos económicos reales recopilados por instituciones de gran prestigio internacional. 36
6.- http://globaledge.msu.edu/ibrd/busresmain.asp?ResourceCategoryID=10: Desde aquí se puede acceder a páginas con datos compilados por la CIA, British Petroleum, UNESCO, Banco Mundial y otras de reconocida validez por su solvencia profesional. Además, cuenta con un servicio buscador. Como se puede apreciar en esta pequeña muestra, existe una gran y diversa disponibilidad de datos estadísticos en línea. Conectándose con servicios de búsqueda de páginas Web, esta lista se extendería ampliamente; queda de ustedes aprovechar los recursos que oferta el ciberespacio.
f) R ESUMEN Este capítulo le permitió conocer el origen, concepto, aplicación e importancia de la estadística además de aclarar la mayor parte de los términos que empleará de aquí en adelante. Conocer e identificar variables y sus niveles de medición le permitirá aplicar los conceptos que se desarrollarán en el siguiente capítulo, además, entender la naturaleza del colectivo en estudio, le significará comprender el alcance de la información que obtiene y las conclusiones que esboza. Se le dio a conocer fuentes de donde poder extraer datos estadísticos para realizar análisis que soporten conclusiones que le interesen, se espera haber incentivado su curiosidad por conocer datos reales y ubicar fuentes confiables de aquellos pertinentes a su especialidad profesional. Sin embargo, en opinión del autor lo más importante debe ser que usted reflexione ante su forma de observar el mundo y se de cuenta de las características importantes de los colectivos, que juzgue adecuadamente las informaciones que lea y escuche en términos de su variabilidad y su validez estadística, todo ello hará de sus decisiones, acciones cada vez mejor tomadas y justificadas.
g)
E JERCICIOS P ROPUESTOS
1.- Se realizó un estudio acerca del tipo de transporte utilizado para ir al trabajo por sus residentes. La información obtenida de encuestar una muestra de ellos es la siguiente: TIPO DE TRANSPORTE
No. DE RESIDENTES
Auto Particular
41
b) ¿Cuál es la muestra?
Taxi
22
c) ¿Cuál es la variable y de qué tipo es?
Metro
42
d) ¿Cuál es la unidad estadística?
Auto por Puesto
52
e) ¿Cuál es la escala de medición
Autobús
37
Otros
25
a) ¿Cuál es la población?
utilizada?
37
2.- En cada caso indique, cuál es la variable, el tipo y la escala de medición: a) El número de catastro de los terrenos ubicados en Prados del Este. b) El volumen de los recipientes de los detergentes. c) El número de defectos de los lápices fabricados en Berol. d) El número de glóbulos rojos por centímetro cúbico de sangre de los pacientes del Hospital Vargas.
3.- El laboratorio de control de calidad de una empresa realiza un test de rapidez de acción de un pesticida de jardín, en 50 plantas infectadas. Los resultados fueron observados cada hora, habiéndose obtenido los siguientes datos del número de plantas totalmente libre de plagas después de los lapsos que se indican: 3 horas, 3 plantas; 4 horas, 7 plantas; 5 horas, 10 plantas; 6 horas, 16 plantas; 7 horas, 9 plantas; 8 horas, 5 plantas. a) ¿Cuál es la población? b) ¿Cuál es la muestra? c) ¿Cuál es la variable? d) ¿De qué tipo es la variable? e) ¿Cuál es la escala de medición utilizada?
4.- Se realiza un estudio en 120 hogares de la clase media de la ciudad X, para conocer el tipo de aceite o grasa usada en la cocina. Los resultados son los siguientes: oliva, 3 hogares; cártamo, 65 hogares; ajonjolí, 21 hogares; maíz, 14 hogares; compran aceite a granel sin especificar tipo, 7 hogares; grasas de origen animal, 11 hogares; grasas de origen vegetal, 6 hogares. a) ¿Cuál es la población? b) ¿Cuál es la muestra? c) ¿Cuál es la variable? d) ¿De qué tipo es la variable? e) ¿Cuántas clases tiene la variable? f) ¿Qué tipo de escala se ha utilizado en la clasificación de la variable?
38
5.- Se efectúa un censo de capacidad de las fábricas textiles existentes en el Municipio A, de acuerdo con el número de telares instalados en cada fábrica. Los resultados del censo son los siguientes: 3 telares: 7 fábricas; 4 telares: 2 fábricas; 5 telares: 8 fábricas; 6 telares: 6 fábricas; 7 telares, ninguna fábrica; 8 telares: 5 fábrica; 9 telares: 1 fábrica; 10 telares: 3 fábricas. a) ¿Cuál es la población?; ¿cuál es la muestra?; c) ¿cuál es la variable?; d) ¿de qué tipo es la variable?; e) ¿cuántas clases tiene la variable?; f) ¿qué tipo de escala se ha utilizado en la clasificación de la variable?.
6.- En cada caso indique: a.- cuál es la variable, y de qué tipo; b.- cuál es la unidad estadística; c.cuál es la escala de medición utilizada. a) Espectáculo preferido por los habitantes del Estado Mérida. b) Catastro de los terrenos del Municipio Libertador. c) Peso de los interruptores producidos por la empresa XX, C.A. d) Número de expedientes procesados diariamente por la PTJ. e) Serial de las computadoras almacenadas en los depósitos. f) Nombre de las ciudades más visitadas por los asiáticos.
39
II. DISTRIBUCIONES DE FRECUENCIA Cuando se realiza un experimento estadístico con la finalidad de describir y analizar algún fenómeno en un colectivo de interés, se realizan observaciones sobre los elementos que integran dicho colectivo. Si uno se concentra en determinar las veces en que se repiten cada una de las distintas observaciones, se pueden descubrir características y patrones que permiten extraer conclusiones importantes. La forma de clasificar y agrupar esas observaciones incide mucho en las conclusiones que se extraen. Una de las actividades fundamentales del ingeniero industrial se denomina análisis de fallas, la mejor manera de abordarlo es realizando un estudio de la frecuencia de ocurrencia de las fallas, mediante un histograma de Pareto, esta herramienta se le presentará en este aparte. Mediante el estudio de este capítulo se pretende que Usted sea capaz de:
1. Expresar el concepto de series estadísticas. 2. Describir cada una de las características de las series estadísticas. 3. Explicar el concepto de distribución de frecuencias, destacando sus componentes. 4. Explicar los conceptos de: rango total, intervalo de clase, límite de clase, límite nominal, límite real, marca de clase, frecuencias: absolutas, relativa, porcentual y acumuladas.
5. Construir distribuciones de frecuencias de una serie estadística agrupando sus datos ordenadamente según su magnitud y tipo de variable. 6. Representar gráficamente las distribuciones de frecuencias mediante histogramas, polígonos de frecuencias y ojivas.
7. Calcular frecuencias relativas, frecuencias porcentuales, frecuencias acumuladas, percentiles y rango percentil.
8. Reconocer la importancia y aplicabilidad de los histogramas de Pareto. 9. Realizar análisis de Pareto a partir de las distribuciones de frecuencia acumulada.
40
a)
S ERIES E STADÍSTICAS
Tal como se estableció en el capítulo anterior, la estadística no se ocupa de hechos aislados, sino que tiene como objeto el estudio de los colectivos. Al llevar a cabo un estudio estadístico se observan, cuentan o miden una o más características de las unidades estadísticas que conforman el universo-población; estas actividades generan una masa de datos que deben ser organizados para disponerlos en alguna secuencia lógica que facilite su análisis. Esta colección de datos numéricos, obtenida durante la investigación, clasificada y ordenada según un determinado criterio, se denomina serie estadística, conocida también como distribución estadística. La forma en que se observa al colectivo sujeto de estudio permite clasificar a las series estadísticas según la periodicidad en la observación, es decir, de acuerdo a la influencia del tiempo en la recolección de la data. Este criterio permite tipificar las series estadísticas en: a) series temporales o cronológicas, y b) series de frecuencias o atemporales. Asimismo las series de frecuencia pueden discriminarse en: cuantitativas, cualitativas, y las series espaciales o geográficas.
i).- Series Temporales Son el conjunto de datos que se obtiene al registrar un fenómeno cuantificable de forma reiterada en diferentes momentos equiespaciados en el tiempo. Ejemplos de ellas pueden ser: a) utilidad antes de impuesto de Empresas Polar al 31 de marzo de cada año en la última década, y b) cantidad promedio de piezas defectuosas producidas en cada año por Sanitarios Maracay entre 1995 y 2002. Usted debería notar una sutil pero relevante diferencia que existe entre los ejemplos enunciados; mientras el primero de los citados está referido a un instante de tiempo particular (el último día del mes de marzo), el segundo se refiere a un período de tiempo (un año completo). Visto que es posible realizar cada observación sucesiva, bien sea a lo largo de un período o para un instante particular, urge entonces, especificar la forma en que están referidos los datos observados.
ii).- Series Atemporales Son aquellas donde las observaciones se efectúan en un mismo instante de tiempo o sobre un período en particular. En estas condiciones, y dado que el tiempo durante el cual se cuantifica el fenómeno es el mismo para todas las observaciones, el universo-población que se selecciona proporciona una fotografía de una cierta situación, es decir, una visión instantánea del patrón establecido por el fenómeno estudiado; ejemplos apropiados pueden ser: a) costo en Bs. del 41
inventario de materia prima perecedera de las empresas afiliadas a la CAVIDEA al primero de diciembre del 2002, b) ventas brutas en Bs. de pañales Huggies por zonas de distribución, y c) número de veces que se procesan 6, 7, 8, 9, 10, 11, 12 o 13 transacciones electrónicas diarias por la gerencia de B2B9 de Ford Motors de Venezuela. Una serie estadística donde sea explícito que los valores dependen del espacio geográfico, como la del segundo ejemplo, se conoce como serie espacial o geográfica. Los otros dos ejemplos corresponden o pueden transformarse a lo que se denomina distribuciones de frecuencias, las cuales revisten una gran importancia en los estudios estadísticos y por ello se ahondará en detalles a lo largo del capítulo.
b)
D ISTRIBUCIONES
DE
F RECUENCIA
Tal como se ha hecho hincapié hasta ahora, para analizar una variable y explotar la utilidad de la estadística se hace necesario, en primer lugar, recopilar una cantidad de valores, realizando un experimento estadístico mediante el cual se obtiene una secuencia de observaciones, mayoritariamente representadas por números, que se registran anotándose en el orden en el que suceden. Este registro conforma un conjunto de datos conocidos con el nombre de datos en bruto o no agrupados. Los datos en bruto deben ser ordenados y clasificados para obtener una descripción informativa de las manifestaciones del colectivo; particularmente útil es determinar el número de casos en que se presentan cada una de sus clases, es decir, la frecuencia de repetición de las observaciones en el conjunto, para ello se emplea un arreglo tabular que contiene todas las clases o variantes de la variable y sus frecuencias respectivas. Esta construcción que indica como se agrupan las repeticiones o frecuencias de aparición de los valores de una variable dentro de clases o categorías es denominada distribución de frecuencias, término que se abrevia normalmente como distribución. La conversión de datos observados en distribuciones de frecuencia constituye, a menudo, la aplicación primaria del método estadístico, visto que expresar los hechos observados en forma de distribuciones de frecuencia es el paso inicial en la mayoría de las investigaciones. La determinación de la frecuencia con la que ocurre cada variante puede llevarse a cabo a través del estudio u observación de toda la población, en cuyo caso se trata de un censo o de un inventario. Las distribuciones de frecuencia también pueden emplearse con datos cualitativos o
9
Acrónimo proveniente del inglés Business to Business empleado para designar las transacciones ínter empresariales realizadas en forma electrónica sin soporte físico. Las transacciones entre empresas y consumidores, tales como la compra de software, libros, regalos, etc., consultas de cuentas bancarias por Internet se conocen como B2C por Business to Consumers. 42
categóricos. En algunas aplicaciones, cuando la variable ha sido clasificada usando una escala cuyo nivel de medición es ordinal, la distribución de frecuencia debe reflejar el ordenamiento natural de las categorías mediante una presentación que respete una secuencia lógica para maximizar la claridad de la descripción realizada y con ello su comprensión10. En las aplicaciones cuyo nivel de medición es nominal el orden de las categorías
es arbitrario y depende del que presente los datos. Para elaborar una distribución de frecuencias es necesario construir lo que se denomina una tabla de conteo, para ello se siguen estos pasos: 1) Hacer una tabla o lista de dos columnas, tal como esta: Clases Marcas
FIGURA N° 8 BOSQUEJO DE UNA TABLA DE CONTEO
2) Determinar por inspección del conjunto de datos el valor mínimo y el valor máximo. 3) Definir las variantes o clases como cada uno de los valores posibles de la variable, comprendidos entre el menor y el mayor de los valores observados. 4) Colocar en la primera columna, ordenados de menor a mayor11, cada una de las variantes o clases. 5) Observar, uno a uno, los datos en bruto y registrar con una marca vertical (palito) en la clase que corresponda a cada observación; para mejorar la visual de las marcas y facilitar el conteo se sugiere agrupar las marcas de cinco en cinco, haciendo el quinto registro tachando los cuatro previos. El resultado debería verse similar a:
10
Si los datos son cuantitativos también debe seguirse el ordenamiento natural, habitualmente, en orden ascendente, aun cuando puede hacerse de forma contraria. 11 El orden ascendente es el más habitual, no obstante es absolutamente válido emplear el ordenamiento descendiente para estos fines. 43
Nº de Conexiones Marcas 9 \\ 10 \\\\ 11 \\\\ \\ 12 \\\\ 13 \\\ FIGURA N° 9 REPRESENTACIÓN DE UNA TABLA DE CONTEO LLENA
Normalmente, las tablas de conteo no aparecen en los informes estadísticos; sin embargo, percátese como el encabezado correspondiente a la columna donde se listan las clases se rotula con el nombre de la variable que define a la población en cuestión. Una vez que se cuantifica el número de repeticiones de cada variante dentro del conglomerado de datos, se puede establecer la distribución de frecuencias en un arreglo tabular similar, donde se sustituyen las marcas de conteo por el número que las identifica, conocido como frecuencia absoluta. Otra posibilidad muy empleada por su capacidad de síntesis son la denominadas tablas de frecuencia, que pueden incluir cinco columnas, la primera de ellas corresponde al ordenamiento de las clases, en la segunda se registran las frecuencias absolutas – en el caso ilustrado en Figura N° 9 esta columna contemplaría una lista con los números: 2, 4, 7, 5 y 3 – las columnas subsiguientes contienen la frecuencia relativa, la frecuencia absoluta acumulada y la frecuencia relativa acumulada. La frecuencia relativa es el valor que se obtiene al dividir la frecuencia absoluta de una clase entre el número total de observaciones o tamaño de la muestra; la frecuencia absoluta acumulada representa todas las frecuencias correspondientes a los valores de la muestra que son menores o iguales a cierto valor; se calcula sumando el valor de la frecuencia absoluta acumulada anterior con el valor de la frecuencia absoluta de la clase sucesiva; evidentemente para la primera de las clases no existe ningún valor previo y, consecuentemente, la frecuencia absoluta acumulada anterior es nula. La frecuencia relativa acumulada de cada clase es el resultado de dividir la frecuencia absoluta acumulada entre el número total de observaciones. Nº de Conexiones
Marcas
9 \\ 10 \\\\ 11 \\\\ \\ 12 \\\\ 13 \\\ Totales
Frecuencia Absoluta
Frecuencia Relativa
Frecuencia Absoluta Acumulada
Frecuencia Relativa Acumulada
2 4 7 5 3 21
2/21=0,0952 4/21=0,1905 0,3333 0,2381 0,1429 1,0000
0+2=2 2+4=6 13 18 21
0+0,0952=0,0952 0,0952+0,1905=0,2857 0,6190 0,8671 1,0000
FIGURA N° 10 EJEMPLO DE UNA TABLA DE FRECUENCIAS
44
Hay quienes consideran que una tabla con seis columnas, como la mostrada en la figura previa, facilita el trabajo de construcción de la tabla de frecuencias al incorporar entre las columnas correspondientes a las clases y la frecuencia absoluta, la columna de marcas. Si cierto valor numérico no aparece en una muestra su frecuencia será cero; por el contrario, si todas las observaciones corresponden a una clase en particular su frecuencia será el tamaño de la muestra N. A partir de este hecho y la definición de frecuencia relativa se puede establecer el siguiente
teorema: T E O R E M A 1:
[Kreysig, 1973] La frecuencia relativa es al menos igual a 0 y a lo más igual a 1.
En virtud del teorema 1, podemos inferir de forma inmediata que las frecuencias relativas pueden expresarse en porcentajes, una modalidad de uso más común al redactar informes analíticos, simplemente multiplicándolas por cien. (1)
Porcentaje = 100×hi Tomando una muestra dada de tamaño N que consta de nc clases: (nc ≤ N)
x1, x2,..., xnc
con sus respectivas frecuencias relativas: ) ) ) h1 , h2 , K , hnc ) Entonces se podrá introducir la función de frecuencias de la muestra, h (x) , que representa
como están distribuidos los valores de la muestra: ) ) ⎧hk cuando x = x k h (x) = ⎨ ∀k = 1, 2, L , nc ⎩0 en caso contrario
(2)
En virtud de que las frecuencias no son más que observaciones y que el conjunto de datos que conforma la muestra son todas las observaciones, forzosamente la suma de todas las frecuencias absolutas de una muestra coinciden con el tamaño de la misma, lo cual permite establecer el próximo teorema: T E O R E M A 2:
[Kreysig, 1973] La suma de todas las frecuencias relativas en una muestra es igual
a 1, esto es, nc
)
∑ h(x k =1
k
) ) ) ) = h ( x1 ) + h ( x 2 ) + L + h ( x nc ) = 1
Lo que permite introducir la función de frecuencias relativas acumuladas de la muestra ó función de distribución de la muestra: ~ ( x) = H
)
∑ h (t ) t≤x
(3) 45
En la ecuación (3) se establece la relación entre la función de frecuencia y la función de distribución de la muestra, por lo tanto resulta evidente, que a partir de los valores de cualquiera de ellas pueden obtenerse los de la otra. Un aspecto interesante que surge al introducir las funciones definidas en las ecuaciones (2) y (3) es que como toda función, éstas tienen una representación gráfica en el plano cartesiano, por ende, una forma de visualizar el comportamiento de la muestra; para el ejemplo de la Figura N° 10, se tiene: 1,00
0,35 0,3333
0,90
0,30
Frecuencia Relativa Acumulada
0,80 0,70
Frecuencia Relativa
0,25 0,20
0,2381
0,60 0,50
0,1905
0,40
0,15
0,1429
0,30
0,10
0,20
0,0952
0,10
0,05
0,00 8
0,00 8
9
10
11
12
13
9
10
11
12
13
14
14
Número de Conexiones
(a) Función de Frecuencia de la Muestra
Número de Conexiones
(b) Función de Distribución de la Muestra
FIGURA N° 11 REPRESENTACIÓN GRÁFICA DE LAS FUNCIONES DE FRECUENCIA Y DISTRIBUCIÓN
Cuando el número de clases de la variable es muy grande la función de frecuencias y su representación gráfica se complica, provocando confusión en vez de claridad; por ello, puede resultar preferible la construcción de una distribución o tabla de frecuencias agrupada, es decir, incluyendo en cada clase un rango de mediciones de la variable en vez de un único valor. Se justifica la agrupación para obtener una mejor descripción, visualización y explicación de los hechos. A razón de la simplificación que ofrece el proceso de agrupamiento, siempre que se convierten los datos originales en una distribución de este tipo, se pierden detalles sobre los datos iniciales. Sin embargo, esta pérdida en la información es pequeña si se le compara con la facilidad de interpretación ganada al obtener una visión más nítida del conjunto, lo que permite la revelación de patrones y tendencias exhibidos por él. Además, cuando los valores de la variable se resumen en una tabla de frecuencias agrupadas se pueden obtener características adicionales de las variables, aplicando ciertas técnicas estadísticas, tales como las medidas de posición y dispersión. Antes de comentar como construir una distribución de frecuencias agrupadas, deben puntualizarse ciertos términos que faciliten la sistematización del procedimiento, la comprensión del mismo y de sus resultados: 46
) Intervalo total: conocido también como recorrido o rango de la serie de datos y corresponde a
la diferencia entre el mayor y el menor de los valores observados. IT = xmayor – xmenor
(4)
) Clases: corresponden al fraccionamiento que se hace del intervalo total y comprenden un
rango de valores de la variable estudiada. La cantidad total de fracciones resultantes de la segmentación del intervalo total se conoce como número de clases (nc) de la distribución de frecuencias agrupadas. ) Límites de clase: son los valores extremos del recorrido delimitado por cada clase, de esta
forma todas las clases poseen un límite inferior (Li) y un límite superior (Ls). La siguiente ilustración permitirá delinear el problema primordial al establecer los límites de clase:
FIGURA N° 12 PROBLEMAS CON LOS LÍMITES DE CLASE
En la práctica, al construir una distribución de frecuencias agrupadas hay que tener cuidado de que los límites de las clases no coincidan con valores observados de la variable; ello para evitar cualquier ambigüedad con respecto a la clase a que pertenece una observación en particular. Si fijamos en el primero de los casos que se visualizan, existen problemas al tratar de
clasificar datos cuyos valores observados sean 13 ó 15, debido a que son simultáneamente el límite superior de una clase y el inferior de otra, en consecuencia, se está en presencia de clases que no son mutuamente excluyentes. Sin embargo, esta situación se presenta sin extrañeza en la práctica diaria, resolviéndose la claridad de la situación a criterio del investigador, quien establece un intervalo semicerrado donde, habitualmente, el Li está incluido en el rango de datos 47
y simultáneamente todos los datos de la clase son estrictamente menores que el Ls. Esta forma de proceder se identifica como clases con límites nominales, puesto que la misión de los límites superiores es funcionar como etiqueta que señala la frontera del intervalo; lamentablemente la ambigüedad de clasificación de los datos en las clases persiste para el lector de la investigación. Otra opción para resolver el problema se corresponde con el caso (b) de la figura, en donde se introducen dos límites adicionales marcados con las letras B’ y C’; en efecto, la expresión de los intervalos de clase así delimitadas son mutuamente excluyentes cuando los datos son discretos. No obstante, para datos continuos se sabe que no hay ruptura real y por ende existe una serie de valores que no pertenecen a ninguna clase. Las clases así definidas no serán colectivamente exhaustivas. La tercera imagen, propuesta en la Figura N° 12, funciona tanto para datos discretos como continuos. Para datos continuos es necesario señalar una separación arbitraria adecuadamente establecida por la precisión de la medición; cuando se realiza el proceso de registro de los datos de una variable continua se obtienen una serie de valores con alguna separación entre ellos, es decir, las observaciones discretizan a las variables continuas. Observe que diferenciar entre variable continua y discreta obliga a profundizar en el género filosófico y conceptual de la variable propiamente dicha y amplía la disertación a los valores posibles y observados, punto donde no se ha alcanzado un consenso entre los diversos autores; para evitar ese conflicto se puede utilizar la expresión menor que, en el sentido en que es posible acercarse a un valor tanto cuanto se quiera pero sin llegar al valor en sí; este recurso lingüístico se logra operativamente utilizando como valor del límite superior de una clase el valor nominal sustrayéndole una unidad en la última cifra de apreciación del instrumento empleado en la medición. El límite inferior de la clase subsiguiente será el límite superior nominal de la clase previa que ya no puede ser representado en ella. Con lo cual cada observación pertenecerá de manera inequívoca a una única clase, es decir, se dispondrá de clases mutuamente excluyentes y colectivamente exhaustivas. Pueden ahora puntualizarse algunas definiciones importantes y sus correspondientes relaciones matemáticas en caso de existir: ) Intervalos de clases: es la distancia que existe entre el límite superior y el inferior de cada
clase; es frecuente que los términos intervalo de clase y clase se intercambien, sin embargo es importante resaltar que el intervalo es un atributo de la clase. ic = Ls – Li
(5)
No es necesario que los intervalos de clase sean iguales, excepto cuando la necesidad radica en comparar una muestra cualquiera con otra previamente agrupada donde se exige la 48
misma longitud para los intervalos. Elaborar intervalos del mismo ancho es una práctica
común, tanto por la simplicidad de la construcción de la distribución y la facilidad de los cálculos ulteriores, como por la mejora de la información visual en la distribución de frecuencias. En cuyo caso la amplitud de los intervalos de clase viene dada al conocer el intervalo total y el número de clases, según la expresión:
ic =
IT nc
(6)
En ciertas situaciones pueden ser necesarios intervalos de clase desiguales para evitar un gran número de clases vacías o casi vacías; estas circunstancias se suelen manifestar cuando el intervalo total presenta una longitud muy amplia. Un caso particular donde se hace patente esta necesidad sucede en aplicaciones donde existen ciertas observaciones cuyos valores difieren en cuantía del resto. Para estos casos se emplean intervalos de clase que, al menos teóricamente, carecen de límite superior o inferior. Este tipo de intervalos de clase se conocen como intervalos de clase abiertos y ocurren en la primera clase, en la última clase o en ambas. En cada aplicación particular se debe elegir el intervalo más adecuado para mostrar la información deseada. ) Frecuencia absoluta: es el número de ocurrencias, dentro de las observaciones, cuyos valores
están comprendidos entre de los límites de una clase, y se denota como fi. Análogamente al caso de las distribuciones no agrupadas, el cociente entre la frecuencia absoluta y el número total de datos proporciona la frecuencia relativa (hi) hi =
fi N
nc
y en virtud del Teorema 2,
∑h i =1
i
=1
(7) (8)
También para las distribuciones agrupadas de frecuencias se emplean las frecuencias acumuladas, la absoluta designada como Fi y la relativa denotada con Hi. En ambos casos expresan la suma de las frecuencias absolutas o relativas, respectivamente, de todos los valores de la variable precedentes y la suya propia. ) Marca de clase: es el valor central o punto intermedio del intervalo de clase, razón por la cual
también se le conoce como punto medio de la clase. Si se asume que los valores que están incluidos en el intervalo de clase están uniformemente distribuidos, entonces la marca de clase (xi) es el valor típico ó más representativo de todos ellos. Se utiliza, básicamente, como insumo para el cálculo de las medidas de tendencia central y de dispersión, así como para la 49
representación puntual del intervalo de una clase y se determina mediante la semisuma de los límites de la clase: xi =
Li + Ls 2
(9)
La desventaja principal de las distribuciones agrupadas estriba en que la marca de clase puede discrepar de los valores observados de la variable; cuando ésto sucede, los cálculos derivados a partir de los datos de la distribución tienen asociado imprecisiones conocidas como errores de agrupamiento. Por ello, los intervalos de clase se deben seleccionar de modo tal que las marcas de clase coincidan con datos realmente observados.
La cuestión de cuándo y cómo se debe presentar una distribución de frecuencias en forma agrupada sólo puede decidirse con la ayuda del criterio que va delineando la experiencia. En términos generales, son preferibles las distribuciones que no contengan un número excesivo de clases y nuevamente, la interpretación del adjetivo excesivo es relativa y se forma con la experiencia. Si se plantea como alternativa plausible el interrogante bajo las condiciones del tamaño del intervalo no escapamos del problema, ya que puede establecerse que si los intervalos son muy pequeños (un número muy grande de clases) puede limitar su uso al dejar sin observaciones a algunas de las clases, mientras que si son excesivamente amplios (un número muy pequeño de clases) puede ocultar la distribución real del conjunto de datos diluyendo los detalles. El número de clases depende del número de observaciones y de la dispersión de los datos y debe aumentar en función del número de observaciones que conforman la población o la muestra a analizar. La selección, bien sea del número de clase o del tamaño del intervalo, constituye el problema básico, al construir distribuciones agrupadas de frecuencias. La experiencia del autor revela que las distribuciones pueden englobarse en un número de clases que oscila entre 7 y 15. Yamane, (1974) también considera conveniente tener de siete a
quince intervalos, aunque destaca la ausencia de reglas fijas; Canavos, (1987) refuerza este criterio al señalar que en ningún caso el número de clases debe ser menor de cinco, y que generalmente no excede de quince. Portus, (1998) es un poco más flexible al afirmar que la cantidad de intervalos de clase no debe ser mayor de dieciocho ni menor de cinco. Para establecer un número adecuado de clases en una aplicación específica existen distintas maneras de proceder. Montgomery y Runger, (1996) señalan que se obtienen buenos resultados si se hace la selección del número de clases aproximadamente igual a la raíz cuadrada del 50
número de observaciones12, Mendelhall y Sincich, (1997) establecen una regla empírica en
función del número de observaciones: Número de observaciones N
Número de clases
Menos de 25
de 5 a 6
Entre 25 y 50
de 7 a 14
Más de 50
de 15 a 20
Existe un estándar DIN13, el número 55302 que dispone las siguientes recomendaciones en un entorno de muestras muy grandes: Número de observaciones N
Número de clases
Hasta 50
No agrupar
Entre 50 y 100
mínimo 10
Entre 100 y 1000
mínimo 13
Entre 1000 y 10000
mínimo 16
Otra opción determinística disponible para estimar el número de clases lo constituye el Método de Sturges, tal como lo expone Deseda, (1988), una vez conocido el número de observaciones consiste en redondear adecuadamente el resultado de aplicar la siguiente fórmula: nc = 1 + 3.322 log10 ( N)
(10)
Una ecuación con resultados idénticos al Método de Sturges que está establecida en la norma industrial europea CNOMO [PSA Peugeot, Citröen, Renault, 1991] es: nc = 1 +
10 log10 (N ) 3 Juran y Gryna (1980) proponen la siguiente ecuación:
(11)
nc = 1,5×ln(N) + 0,5
(12)
A partir de la ecuación (12) el autor construye la siguiente tabla de recomendaciones: Número de observaciones N Número de clases Número de observaciones N Número de clases Entre 20 y 50 Entre 101 y 200 Entre 501 y 1000
6 8 10
Entre 51 y 100 Entre 201 y 500 Más de 1000
7 9 Entre 11 y 20
Resulta evidente que ante la carencia de una norma taxativa, dos personas distintas pueden decidir agrupar el mismo fenómeno en un número de clases diferente. En caso de mantener 12
Es importante notar que según el más flexible de los criterios establecidos en el párrafo precedente, Si N > 400, el número de clases permanece fijo en 20. Para el autor esta observación es válida a partir de N = 225, donde las clases se mantendrán constantes en 15. 51
alguna duda en cuanto a la cantidad definitiva de clases a utilizar, se recomienda excederse con un número de clases sobredimensionado de intervalos reducidos para clasificar las cifras. El razonamiento detrás de esta práctica gravita en que siempre es posible hacer
agrupaciones inmediatas de las frecuencias en intervalos mayores, mediante la unión de los intervalos que se dispusieron originalmente; en cambio, si se opta por pocos intervalos grandes al principio, no pueden ser subdivididos sin realizarse nuevamente todos las cuentas. Cualquier lector podría resultar abrumado ante el abanico de posibilidades existentes para establecer un adecuado número de clases; por ello, se presenta la siguiente gráfica con intención de comparar los resultados de las diferentes herramientas: Mont. & Runger Ajustado
Sturges ó CNOMO
Juran
1000
10000
Número de Clases (nc)
21 18 15 12 9 6 3 0 10
100
Número de Observaciones (N)
FIGURA N° 13 COMPARACIÓN DE LOS MÉTODOS EMPÍRICOS
En la Figura N° 13 se puede notar como todos los métodos son proporcionales al número de datos que se consideran; sin embargo, la regla empírica propuesta por Montgomery & Runger crece a mayor velocidad que las otras. Una característica relevante que no se observa en la figura, respecto a la regla en cuestión, es que la misma presenta problemas de adaptación a los criterios generalmente establecidos, dado que puede fijar un número de clases menor que cinco (5) o mayor que veinte (20), por ello la curva que representa a esta regla, se rotula como ‘ajustada’ en virtud de que para valores de N mayores de 400 se fijó el número de clases como 20, independientemente del resultado que arroja la ecuación. La coincidencia de la cantidad de clase establecidas por el Método de Sturges y la regla CNOMO es natural si observamos que el coeficiente que afecta el logaritmo es virtualmente el mismo – 3,322 y 3,333 – respectivamente.
13
Siglas de la oficina de normalización alemana (Deutsches Institut für Normung), cuyas regulaciones son ampliamente utilizadas alrededor del mundo. 52
También resulta interesante percatarse que el resultado obtenido empleando cualquiera de las ecuaciones no es compatible con las tablas de recomendaciones establecidas en la normas DIN ó las sugeridas por Montgomery & Runger. Una vez pormenorizados los aspectos relevantes de la conversión de datos en bruto en distribuciones de frecuencia, se puede establecer un procedimiento específico para organizar conjuntos de datos en distribuciones agrupadas; este será:
1. Ordene los datos en forma ascendente. 2. Mediante la ecuación (4) halle el intervalo total. 3. Si no está establecido por el problema, seleccione el número de clases, puede hacerlo de forma arbitraria, o empleando cualquiera de los criterios referidos previamente. 4. Aplicando la ecuación (6) obtenga el intervalo de clase. Si como suele ocurrir el número determinado no es un entero redondee al entero superior, en cuyo caso debe ajustarse el rango mediante las expresiones: = ic × nc I ajustado T
(12)
− IT Residuo = I ajustado T
(13)
El residuo se distribuye entre los dos extremos del rango de la forma más simétrica que sea posible. 5. Decida si empleará límites nominales o límites reales para definir las clases. Si los límites son nominales puede proceder directamente a establecer las clases; en caso de emplear límites reales necesitará: 5.1. Fijar el límite inferior de la primera clase, que concuerde con el menor valor observado, salvo que haya sido necesario restarle alguna proporción del exceso. 5.2. Obtener el límite superior de la primera clase incrementando el valor del límite inferior, en una cantidad que corresponda al intervalo de clase a utilizar, habiéndole restado la menor unidad de apreciación del instrumento de medición. Por ejemplo, si el instrumento es un contador la apreciación es una unidad; si es una regla estándar la apreciación es un milímetro; en la balanza analítica de un laboratorio es una diezmilésima de gramo, etc. 5.3. Establezca como límite inferior de la siguiente clase el valor consecutivo al límite superior de la clase previa. Halle el límite superior repitiendo el paso anterior y reitere este procedimiento hasta definir todas las clases. 6. Prepare una tabla de conteo a partir de las clases establecidas (ver Figura N° 9). 7. Llene la tabla de frecuencias siguiendo el ejemplo de la Figura N° 10. 53
Este algoritmo, tal como todos los de aplicación práctica que se estudian en este texto, se convierte, para su facilidad, en un organizador gráfico. La idea que subyace en ellos es establecer una pauta para lograr el objetivo final mediante la consecución de todos los objetivos intermedios o prerrequisitos. Consta de seis tipos de elementos: (a) cajas de registro; son cajas con dos zonas, la superior sombreada contiene una instrucción, la inferior vacía es para escribir el resultado de ejecutar la instrucción, (b) cajas de instrucciones; no tienen espacio para registrar información porque la extensión de la misma amerita que se registre en una hoja aparte, (c) óvalos de proceso; son similares a las cajas de instrucción, sólo que se refieren a la ejecución de algún algoritmo expuesto previamente, (d) rombos de decisión; se incluyen cuando existen procedimientos alternativos que dependen de algún criterio cuya aplicación origina respuestas del tipo si ó no, (e) ciclos de repetición; son comentarios con una flecha circular que los interconecta consigo mismos; cuando aparecen indican que el óvalo de proceso o la caja de instrucción adyacente debe ejecutarse tantas veces como se indique y (f) flechas direccionadas; que indican el camino a tomar desde cualquier parte del diagrama. La forma de leerlos es desde arriba hacia abajo y las claves son: " Las cajas a las que no les ingresa flecha representan datos del problema que pueden leerse directamente del enunciado, de una tabla o de un gráfico. " Para resolver una caja a la que le ingresen flechas se deben haber llenado previamente las cajas donde dichas flechas se originan.
Para la construcción de distribuciones agrupadas de frecuencia el organizador gráfico que resume y sistematiza; el procedimiento es:
54
FIGURA N° 14 ORGANIZADOR GRÁFICO PARA FACILITAR LA CONSTRUCCIÓN DE DISTRIBUCIONES AGRUPADAS DE FRECUENCIAS
Con el objeto de aclarar las técnicas hasta ahora expuestas, procedemos a desarrollar el ejemplo que se presenta de seguido:
E J E M P L O : Para determinar la calidad del aire en los alrededores de una refinería al noreste de
San Francisco, U.S.A., se midió la concentración de un contaminante (monóxido de carbono CO) 55
en partes por millón (ppm). La muestra fue recogida en un lapso de 31 días consecutivos desde el 16 de abril de 1993 y los valores obtenidos se presentan en la siguiente tabla: TABLA N° 1 PPM DE CO EN AIRE
45
63
99
37
75
43
21
161
30
43
63
55
58
102
40
86
38
102
58
58
36
52
141
71
42
86
34
153
59
30
85
Fuente: http://lib.stat.cmu.edu/DASL/Stories/MeasuringAirPolution.html
Construya una tabla de frecuencias a partir de los datos de la Tabla N° 1. RESOLUCIÓN:
1) Lo que se hará es ir completando la información en el orden que lo pide el organizador gráfico, al hacerlo se obtendrá lo siguiente:
FIGURA N° 15 RESOLUCIÓN DE UN EJEMPLO DE CONSTRUCCIÓN DE DISTRIBUCIONES DE FRECUENCIAS AGRUPADAS EMPLEANDO EL ORGANIZADOR GRÁFICO 56
2) Para establecer las clases se comienza desde el nuevo xmin, añadiendo el intervalo de clase ajustado se obtiene el límite superior de la clase. Como se decidió usar límites nominales este valor se repite como límite inferior de la clase siguiente. El procedimiento se repite hasta colocar el valor del nuevo xmax. Con ello se obtiene la tabla que se muestra de seguido: TABLA N° 2 LISTADO DE IDENTIFICACIÓN DE LAS CLASES NOMINALES
Clase Nº Límite Inferior Límite Superior 1 2 3 4 5 6 7 8
19 37 55 73 91 109 127 145
37 55 73 91 109 127 145 163
3) Luego, sólo resta contar el número de datos contenidos dentro de los límites de cada una de las clases establecidas, completando la tabla de frecuencias absolutas, tal como que se puede apreciar a continuación: TABLA N° 3 FRECUENCIAS EN LA MEDICIÓN DE LA CONTAMINACIÓN DEL AIRE PPM de CO en Aire, Bahía de San Francisco, U.S.A., Abril-Mayo 1993
Clase Nº 1 2 3 4 5 6 7 8
c)
Límite Límite Frecuencia Marca de Conteo Inferior Superior Absoluta 19 37 \\\\ \ 6 37 55 \\\\ \\\ 8 55 73 \\\\ \\ 7 73 91 \\\\ 4 91 109 \\\ 3 109 127 0 127 145 \ 1 145 163 \\ 2
R EPRESENTACIÓN G RÁFICA
DE LAS
D ISTRIBUCIONES
DE
F RECUENCIA
Como ha quedado de manifiesto, la distribución de frecuencias ofrece un resumen compacto que facilita la interpretación de los datos. Comprender lo que los datos revelan requiere del analista una capacidad de visualización que le proporcione tendencias y patrones, en otras palabras, representarse la dispersión de los datos e imaginar como están repartidos. Por ello es útil 57
presentar las distribuciones en forma gráfica, que suele ser más persuasiva, máxime cuando se desean comparar los perfiles de dos o más conjuntos de datos. La conversión de la forma descriptiva tabular de los datos a su presentación visual se ajusta a un boceto predefinido que se denomina histograma. Un histograma es una representación en un plano delimitado por dos ejes, uno horizontal, donde se ubican la escala de medición y se representan las fronteras de clase, y otro vertical, en el cual se señalan las frecuencias absolutas, relativas, porcentuales, y sus versiones acumuladas dependiendo de lo que se desea mostrar; hay quienes prefieren las frecuencias relativas porque la escala del eje vertical varía exclusivamente entre cero y la unidad; la escala vertical es la única diferencia entre los histogramas. En cualquiera de los casos la frecuencia observada en cada intervalo es representada por un rectángulo, y el área de cada rectángulo dibujado tiene que ser proporcional a la frecuencia presentada. Para que exista cierta estandarización en la impresión visual que proporciona un histograma es habitual ajustar la longitud del eje vertical de modo que alcance tres cuartos de la longitud del eje horizontal.
Operativamente, ésto significa que las condiciones del problema – intervalos de clase y número de clases – determinan el eje de las abcisas y luego se fija la longitud del eje vertical como el 75% de la longitud del horizontal. La propiedad de la proporcionalidad directa del área de las representaciones gráficas de las distribuciones con las frecuencias, hace relucir una de las ventajas al emplear intervalos de clase con idéntica amplitud durante la construcción de las distribuciones de frecuencia: si los intervalos de clase son del mismo ancho, la altura del rectángulo coincide numéricamente con la frecuencia14. Es aconsejable manejar esta coincidencia con aprensión porque puede conducir a confusiones conceptuales en el sentido de que la altura de los rectángulos indica, realmente, la densidad de frecuencia de cada intervalo de clase en unidades de frecuencia por intervalo
⎡f ⎤ ⎢⎣ int ⎥⎦
.
Ésta, como todas las definiciones de densidad, está referida a una cierta unidad base; en este caso, como todos los intervalos de clase son iguales, se emplea esta longitud como la unidad patrón. Si la frecuencia está conceptualmente representada por el área del rectángulo la altura será efectivamente el valor de la frecuencia si y sólo si la amplitud de los intervalos de clase es unitaria. Sin duda un histograma de una distribución de frecuencias cuyos intervalos de clase son
iguales será más fácil de interpretar, en particular, los histogramas que representan las
14
Esta coincidencia se debe a la propiedad distributiva de la multiplicación, en virtud de que una fracción a la que se le multiplican numerador y denominador por el mismo número no se altera. De hecho, dado que el área de un rectángulo es la multiplicación de la base por su altura Si A = b × h y A = b × h , entonces A1 = b.h 1 = h 1 1 1 2 2 A 2 b.h 2 h 2 58
distribuciones de frecuencia construidas con datos cualitativos o categóricos deben dibujarse con clases del mismo ancho. Debe recordarse que cuando los datos son discretos existe una separación o espaciado entre los intervalos de clase, que al ser representados gráficamente conduciría a una disyunción entre los rectángulos que se dibujan. Para evitar este aspecto que teóricamente es incorrecto y puede lucir desagradable, se definen y emplean puntos de división, calculados como la semisuma de los límites superior de una clase e inferior de la clase subsiguiente:
punto de división ij =
Lis − Lji 2
⎧i = 1,2,L nc − 1 , ⎨ ⎩j = i +1
(14)
donde la clase j es la que aparece a continuación de la clase i. El arreglo propuesto al aplicar los puntos de división es importante porque evita la confusión entre un histograma y un diagrama de barras – como se verá más adelante es una forma de presentar gráficamente información que permite algunas apreciaciones estadísticas – los histogramas son una aplicación particular de las distribuciones de frecuencias y exhiben determinadas propiedades matemáticas que los hacen únicos, por ello, los histogramas siempre deben ser dibujados sin dejar espacio entre los rectángulos. Cuando se emplean datos
discretos correspondientes a una distribución de frecuencias no agrupadas, se emplean líneas en vez de rectángulos para la representación gráfica. Asimismo, tal como se indicó para las distribuciones, los histogramas están profundamente afectados por el número de intervalos de clase y su amplitud. Esto es particularmente cierto si el conjunto contiene una pequeña cantidad de datos, en cuyo caso la apariencia de los histogramas puede cambiar claramente cuando se modifica el número de clases o el ancho de las mismas. Los histogramas ganan estabilidad a medida que aumenta el número de datos del conjunto, esta tendencia se consolida cuando existen 75 o más datos.
Para corroborar esto procedamos a representar el histograma correspondiente a la distribución de frecuencias agrupadas del registro de partes por millón de monóxido de carbono en el aire cercano a una refinería cuyo resultado se presentó en la Tabla N° 2
59
9
7
Número de Días
Número de Días
8
6 5 4 3 2 1 0 19-37
37-55
55-73
73-91
91-109
15 14 13 12 11 10 9 8 7 6 5 4 3 2 1 0 21-56
109-127 127-145 145-163
56-91
ppm de CO en Aire
91-126
126-161
ppm de CO en Aire
(a) Histograma con 8 Clases
(b) Histograma con 4 Clases
FIGURA N° 16 SENSIBILIDAD DE UN HISTOGRAMA AL NÚMERO DE CLASES
El comportamiento que se observa en los histogramas es más sencillo si tratamos de comparar la forma de ambos debido a que la forma es señal de patrones de conducta de los datos agrupados. Para ello, construyamos una línea suave que aproximadamente una las marcas de clase lo que se presenta de seguidas:
Fecuencia
15 14 13 12 11 10 9 8 7 6 5 4 3 2 1 0
Sturges 4 Clases
1
2
3
4
5
6
7
8
Clase Nro.
FIGURA N° 17 COMPARACIÓN DE LA FORMA DE LOS HISTOGRAMAS DEL EJEMPLO
Se puede afirmar de forma inmediata que la forma cambió sensiblemente al reducir el número de clases a la mitad. Mientras que el histograma construido a partir del número de clases determinado por el Método de Sturges – ocho en total – presenta una forma ascendente al principio y que rememora una conducta cíclica, el histograma de tan sólo cuatro clases decrece en forma permanente. Esto lleva a sacar conclusiones distintas en ambos casos, en el segundo de ellos el ingeniero puede considerar que la refinería causa un bajo impacto ambiental en el aire, puesto que la curva es exponencial decreciente y señala que existe elevadas frecuencias en las 60
concentraciones bajas y luego el número de repeticiones va decayendo a medida que el nivel de contaminación aumenta. En cambio el otro señala que se pueden esperar altísimas concentraciones con mucha frecuencia si se toman suficientes mediciones, debido a que la curva comienza a crecer a partir de la penúltima clase y podría ser bimodal, es decir exhibir dos valores máximos o más frecuentes. Como un comentario adicional y anticipando que el lector sea escéptico podríamos señalar que ninguno de los métodos que se discutieron para determinar el número de clases arrojaría cuatro de ellas, dado que se ha señalado como restricción al determinar el número de clases que nunca debe ser menor de cinco. Sin embargo, se coloca está cantidad como un ejemplo académico que le permita observar la sensibilidad de los histogramas, donde entre otros aspectos, puede ser interesante que el lector note que no tiene clases vacías; también se mencionó que la presencia abundante de clases vacías es una señal de una distribución muy segregada. Para obviar el problema de emplear cuatro clases se podría tratar de comparar con un histograma de seis clases – que es el menor número recomendado y que para los datos del ejemplo se obtiene empleando el criterio de la raíz cuadrada o siguiendo las recomendaciones de Juran y Gryna – En este caso lo que observaremos es un histograma con una clase vacía y un perfil exponencial, por lo tanto, todas las conclusiones que se apuntaron cuando se realizó la comparación del impacto del número de clases los histogramas – utilizando el ejemplo de la concentración de CO en aire – se mantienen. tal como se ilustra en la Figura N° 18 12
Frecuencia Absoluta
Número de Días
12 10 8 6 4 2
10
8
6
4
2
0 19-43
43-67
67-91
91-115
115-139
ppm de CO en Aire
(a) Histograma
139-163
0 1
2
3
4
5
6
Clase Nro.
(b) Perfil del Histograma FIGURA N° 18 HISTOGRAMA DEL NIVEL DE CO EN EL AIRE CON FRECUENCIAS AGRUPADAS EN SEIS CLASES PPM de CO en Aire, Bahía de San Francisco, U.S.A., Abril-Mayo 1993
Una alternativa a los histogramas son los denominados diagramas de tallo y hojas. Esta técnica de representación es relativamente simple y presenta una ventaja evidente respecto a los histogramas en el sentido de que no se pierde la información de los datos individuales, sin embargo esa 61
ventaja surge a consecuencia de permitir un número elevado de categorías. Para realizarlo se requiere: 1. Registrar en una columna ordenada ascendentemente los valores con un lugar decimal menor que la precisión presentada por los datos. 2. Dibujar una línea vertical a la derecha de los valores registrados. 3. Para cada dato, en orden de aparición, se selecciona el primer número registrado en la primera columna estrictamente menor a él. Se registra el valor decimal, ignorado en el primer paso, a la derecha de la línea vertical. Una vez ubicadas todos los datos se obtendrá una representación numérica que asemeja a un histograma rotado 90º sobre el origen. El diagrama de tallo y hojas se ilustra para el ejemplo de la contaminación del aire con CO, que se ha venido desarrollando: TALLO
HOJAS
2 1 3 084760 4 52330 5 858892 6 33 7 51 8 656 9 9 10 2 2 11 12 13 14 1 15 3 16 1 FIGURA N° 19 DIAGRAMA DE TALLO Y HOJAS PARA LA CONCENTRACIÓN DE CO EN AIRE PPM de CO en Aire, Bahía de San Francisco, U.S.A., Abril-Mayo 1993
Existen otras posibilidades a la hora de representar los datos, una de ellas se designa como polígono de frecuencias. El polígono es un grafico donde se representan las frecuencias de clase versus las marcas de clase y se puede obtener conectando por medio de líneas rectas los puntos medios de la parte superior de los rectángulos expuestos en un histograma; en el caso de que 62
exista algún intervalo vacío, la línea recta correspondiente tocará y/o partirá del eje de las abcisas; en particular se les añaden líneas de cierre del polígono contra el eje en puntos situado antes de la primera clase y a continuación de la última clase a una distancia igual a la mitad del intervalo de clase de la serie. Otra caracterización gráfica útil, de un conjunto de datos, es la distribución de frecuencias acumuladas, normalmente conocida como ojiva. La misma se obtiene al representar en el eje vertical la frecuencia acumulativa de una clase contra el límite inferior de la siguiente sobre el eje horizontal y uniendo con segmentos de recta todos los puntos consecutivos. Dependiendo del tipo de frecuencia acumulada representada en eje vertical, el polígono obtenido se denominará ojiva absoluta, ojiva relativa u ojiva porcentual. Para el ejemplo de contaminación ambiental que se ha venido trabajando, estas representaciones se muestran de seguido: 9
Número de Días
8 7 6 5 4 3 2 1 0 10
28
46
64
82
100
118
136
154
172
ppm de CO en Aire
32 30 28 26 24 22 20 18 16 14 12 10 8 6 4 2 0
100% 90%
Porcentaje de Días
Número de Días
(a) Polígono de Frecuencias 80% 70% 60% 50% 40% 30% 20% 10% 0% 19
37
55
73
91
109
ppm de CO en Aire
(b) Ojiva Absoluta
127
145
163
19
37
55
73
91
109
127
145
163
ppm de CO en AIre
(c) Ojiva Porcentual
FIGURA N° 20 POLÍGONO Y OJIVAS PARA LA CONCENTRACIÓN DE CO EN AIRE PPM de CO en Aire, Bahía de San Francisco, U.S.A., Abril-Mayo 1993
Una de las características más interesantes que brinda la Figura N° 20 es que permite constatar que las ojivas absoluta y porcentual son idénticas en su forma, el gráfico de cada una de ellas sólo 63
difiere en la escala que se emplea en el eje vertical. La misma conclusión podría extraerse si se hubiese representado la ojiva relativa. También resulta relevante que se observe como la curva que representa el perfil del histograma con el número de clases establecido con el Método de Sturges representado en la Figura N° 17, no es más que el polígono de frecuencias que se observa en la Figura N° 20-a trazando segmentos de curvas suaves en vez de rectas para unir los puntos. Curvas similares a la que se representó en la Figura N° 17 son de mucha importancia en estadística y de ellas se hablará con mayor profundidad más adelante. El uso principal de las ojivas es lo que se conoce como cuantiles. Un cuantil es el valor bajo el cual se encuentra una determinada proporción de los valores de la distribución. Se lee en la dirección opuesta – en el eje horizontal – a la proyección de la curva en el punto correspondiente a proporción deseada, que se ubica mediante el valor respectivo en el eje vertical. Los cuantiles operan como segmentadores de la globalidad de los datos; los más comunes son: 9 Cuartiles: corresponde a un fraccionamiento en cuatro partes iguales, a saber: primer cuartil
abarca el 25% de los datos, el segundo cuartil un 50%, el tercer cuartil un 75% de los datos y el 100% estarán en el cuarto cuartil. 9 Quintiles: es la segmentación en cinco partes iguales de 20% cada una, por ende, el primer
quintil alcanza hasta el 20% de cobertura, el segundo, tercero, cuarto y quinto quintil corresponden a 40%, 60%, 80% y 100% de los datos, respectivamente. 9 Deciles: en este caso, la segmentación es de diez en diez por ciento. 9 Centiles o Percentiles: subdividen el conglomerado en estudio en cien clases distintas,
representando el valor de la variable bajo el cual se encuentra un porcentaje dado. Por ejemplo, empleando el caso representado en la Figura N° 20-c se puede leer directamente que el 80% de los días la concentración del monóxido de carbono en el aire fue inferior a 91 ppm. Los datos que se recopilan y cuya frecuencia se representa gráficamente pueden ser calificados como una muestra de una población grande; si ella está representada por una variable continua pudieran existir datos en abundancia, entonces es posible, al menos en teoría, disminuir paulatinamente el tamaño del intervalo de clase y continuar existiendo un número razonable de observaciones en cada una de las clases. A medida que la amplitud de los intervalos decrece, el tamaño de los segmentos de recta que interconectan las respectivas marcas de clase se reducen, si las figuras resultantes se suavizan, la representación que se obtiene es una curva llamada curva de frecuencias o polígono de frecuencias suavizado. Del mismo modo puede procederse para 64
obtener una ojiva suavizada, en cuyo caso los errores de aproximación al suavizar suelen ser menores que cuando se trabaja con polígonos de frecuencia. Las curvas de frecuencia pueden presentar un único valor máximo, o varios valores que representan máximos locales; el primero de los casos descritos se conoce como curva de frecuencia unimodal, Una curva de frecuencia simétrica presenta un máximo centrado respecto al intervalo total y las frecuencias de las observaciones equidistantes a dicho máximo son las mismas, pareciéndose a una campana. El ejemplo más importante de esta curva es la distribución normal. Cuando el valor modal15 separa las colas en forma de que una es más larga que la otra se dice que la distribución es sesgada, si la cola más prolongada está a la derecha se denomina sesgo positivo, caso contrario, sesgo negativo. Una función de frecuencias bimodal se caracteriza por que posee dos máximos. Se encuentran también, curvas de frecuencias con más de dos valores modales representados como máximos locales, en cuyo caso las distribuciones correspondientes se denominan multimodales.
d)
A NÁLISIS
DE LAS
D ISTRIBUCIONES
DE
F RECUENCIA
Una de las aplicaciones más importantes de las distribuciones de frecuencia es dar respuesta a interrogantes comunes que nacen de la interacción diaria con datos; entre ellas se pueden formular preguntas tales como: ¿Cuál es el porcentaje de cajeros cuyo tiempo de atención es menor a 11 minutos?, ¿Cuantos de los bombillos de la muestra ensayada duraron entre 1100 y 1300 horas?, ¿Cuál es la resistencia a la tensión por encima de la cual están 25 de las 100 guayas que conforman la muestra de un ensayo de calidad?, ¿Cuál es el precio en el que se realiza el 70% de las ventas de la compañía?, etc. Todas esas preguntas pueden responderse una vez organizados los datos en distribuciones y su aclaratoria, evidentemente, profundiza el análisis y la comprensión de los datos, lo que conduce a conclusiones y decisiones más asertivas. Como se mencionó en la sección concerniente a representación gráfica de las distribuciones de frecuencia, el uso primordial de las ojivas son los cuantiles, de los cuales el más comúnmente usado es el percentil. El análisis como producto de las respuestas a las inquietudes establecidas al inicio del párrafo hace uso del concepto de percentiles y se conoce como análisis percentílico. Lo que se propone el investigador al realizar un análisis percentílico no es más que hallar los valores de la variable debajo de los cuales se encuentran ciertos porcentajes dados de la frecuencia, o bien, conocer el porcentaje de valores que se encuentran por debajo o por encima de un valor 15
el valor modal es el correspondiente al máximo de la curva de frecuencias. 65
específico de la variable; este porcentaje de valores es lo que se denomina rango percentil. Para obtener este tipo de información se dispone de dos vías alternas: mediante la inspección de las gráficas de ojivas porcentuales o a través de las distribuciones, en cuyo caso el procedimiento emplea la técnica aritmética de la interpolación lineal de los segmentos de recta que unen a los distintos intervalos de clase; la ecuación resultante es: ⎡ f j (r − Lji ) ⎤ 100 P( x < r ) = ⎢Faa + , ⎥ ic ⎣⎢ ⎦⎥ N
(15)
donde: r,
un valor dado de la variable para el que se desea determinar el porcentaje de datos menores que él.
P(x>r),
porcentaje de datos para los cuales el valor de la variable es menor que r.
Faa,
frecuencia acumulada anterior a la clase que contiene al valor dado de r.
fj,
valor de la frecuencia absoluta de la clase j que contiene al valor dado de r.
j L i,
límite inferior de la clase j que contiene a r.
ic,
intervalo de clase.
N,
número total de datos en la distribución.
Es importante que se reflexione acerca de que con esta ecuación se puede dar respuesta a cualquiera de las interrogantes planteadas previamente y a cualquiera similar. Si se esta interesado en el porcentaje menor a un cierto valor, la aplicación es directa. En el caso diametralmente opuesto, es decir, el porcentaje mayor a un cierto valor se puede determinar sabiendo que ambos porcentajes – el solicitado y el que se calcula mediante (14) – son complementarios, esto es:
P( x > r ) + P( x < r ) = 100% ∴ P( x > r ) = 100 − P( x < r )
(16)
Si por el contrario el interés radicara en obtener el porcentaje de un rango acotado por ambos extremos, en vez del limitado por un único valor, ese rango puede determinarse por sustracción de los valores menores que el extremo inferior a los valores menores al extremo superior, tal como se observa en la siguiente representación gráfica:
66
FIGURA N° 21 ILUSTRACIÓN DEL RANGO PERCENTIL ACOTADO ENTRE DOS VALORES
Por tanto:
P (q < x < r ) = P ( x < r ) − P ( x < q ) ∀ q < r
(17)
Además, dado que se conoce el número total de observaciones, enumeraciones o mediciones que componen la muestra, si se desea conocer la cantidad absoluta de datos que cumplan con la condición impuesta, sólo basta con recordar que se cumple la siguiente relación: n ( x < r ) = P( x < r ) × N
(18)
La única de las cuestiones formuladas al inicio de esta sección cuya resolución no ha sido explícitamente proporcionada, es la relativa a determinar el valor de la variable para el cual se alcanza un determinado porcentaje. Tal como se señaló con anterioridad, la ecuación (15) es la que se emplea para todos los cálculos que aquí conciernen; despejando el valor de r se obtiene: N × P( x < r ) − Faa j 100 r = Li + × ic fj
(19)
No obstante disponer de la expresión anterior, es necesario señalar que para poder usarla con efectividad es menester llevar a cabo el siguiente procedimiento: " Determinar los porcentajes acumulados para cada clase. " Identificar el intervalo de clase que está delimitado por los porcentajes acumulados que
abarquen al porcentaje buscado. Una vez identificada la clase correctamente ya se dispone de todos los datos exigidos por la ecuación (19). Se puede ilustrar el juego de ecuaciones presentadas respondiendo algunas preguntas selectas: 67
E J E M P L O : Con el conjunto de datos presentados en la Tabla N° 1, responda las siguientes
preguntas: a) ¿Cuál es el porcentaje de días con concentraciones de CO menores de 110 ppm?, b) ¿Cuántos días el aire de la zona presenta niveles de contaminación de CO entre 85 y 110 ppm?, c) ¿Cuántos días se midieron concentraciones por encima de 110 ppm?, d) ¿Qué valor de concentración acota al 75% de las mediciones?, y e) ¿Qué porcentaje de las mediciones realizadas tienen concentraciones mayores a 85 ppm? RESOLUCIÓN:
a).- En este caso r=110 ppm, que está contenido en la sexta clase (j=6) que comprende las concentraciones mayores que 109 y hasta 127 ppm, con lo cual se conoce que la frecuencia acumulada anterior será Faa = 28, la frecuencia absoluta de la sexta clase f6 = 0, cuyo límite inferior es 109, la longitud del intervalo de clase es, ic = 18 y el número total de mediciones es N = 31, entonces de la ecuación (15) se obtiene:
0(62 − 119) ⎤ 100 ⎡ P( x < 110) = ⎢28 + ⎥⎦ 31 = 90,32% 18 ⎣ De donde se determina el número de días mediante la ecuación (18) n ( x < 110) = P( x < 110) × 31 =
90,32% × 31 = 28 días 100%
b).- Para responder esta interrogante se hace uso de la ecuación (17) P(85 < x < 110) = P( x < 110) − P( x < 85) Debemos determinar previamente con el auxilio de la ecuación (15) los dos porcentajes requeridos, para 110 ppm ya se obtuvo en la pregunta anterior, entonces faltaría para 85 ppm. Los datos son: j = 4, Faa = 21, Li = 73, ic = 18 y N=31, entonces P(x < 85) será: 4(85 − 73) ⎤ 100 ⎡ P( x < 85) = ⎢21 + ⎥⎦ 31 = 76,34% 18 ⎣ El valor solicitado vendrá dado por: P(85 < x < 110) = 90,32% − 76,34% = 13,98%
c).- En esta oportunidad se halla el porcentaje de días con concentraciones mayores a 110 ppm a partir de la ecuación (16). Sabiendo, porque se determino en la primera parte, que el valor de P(x<110)=90,32%, se tiene:
P( x > 110) = 100 − P( x < 110) = 100% − 90,32% = 9,68% Como se hizo previamente usando la ecuación (18) se específica el número de días que cumplen con la condición: 68
n ( x > 110) = P( x > 110) × 31 =
9,68% × 31 = 3 días 100%
d).- Esta pregunta se responde utilizando la ecuación (19), que requiere de cierto procedimiento previo. Se hallan los porcentajes acumulados para cada clase, tal como se muestra de seguido: TABLA N° 4 TABLA DE FRECUENCIAS Y PORCENTAJE ACUMULADO DE LA CONCENTRACIÓN DE CO EN AIRE PPM de CO en Aire, Bahía de San Francisco, U.S.A., Abril-Mayo 1993
% acumulado Clase
19-37 37-55 55-73 73-91 91-109 109-127 127-145 145-163
Frecuencia Frecuencia [fj] Acumulada [Hj] 6 8 7 4 3 0 1 2
6 14 21 25 28 28 29 31
⎡H j ⎤ ⎢ ×100⎥ ⎣N ⎦ 19,35% 45,16% 67,74% 80,65% 90,32% 90,32% 93,55% 100,00%
Con la ayuda de la tabla se puede identificar que la clase que comprende al 75% de los valores es aquélla entre los porcentajes acumulados de 67,74% y 80,65%, es decir la cuarta clase (j = 4), sabiendo entonces que los otros datos son: Faa = 21, Li = 73, ic = 18 y N=31, se puede aplicar ahora la ecuación (19) 31 × 75 − 21 r = 73 + 100 × 18 = 83,125 ppm 4 e).- Aquí nuevamente emplearemos la ecuación (16) P( x > 85) = 100 − P( x < 85) = 100% − 76,34% = 23,66%
En el cálculo se empleó el valor de P(x < 85) que se había calculado en el segundo apartado. Como se mencionó previamente, es posible hacer un análisis percentílico a partir de la respectiva ojiva porcentual; debe recordarse que en una representación de este tipo el plano está delimitado por un eje de las ordenadas, contentivo de las frecuencias relativas acumuladas expresadas en porcentajes16, y un eje de las abcisas que comprende los valores de la variable. En este caso, si se
16
Es decir, las frecuencias relativas acumuladas multiplicadas por cien. 69
desea obtener el rango percentil de un valor de variable dado, se ubica éste en el eje x y se levanta una perpendicular al eje hasta cortar a la ojiva de porcentajes, desde el punto de corte se traza una línea horizontal que intercepte al eje de las ordenadas. El valor de la intersección corresponderá al rango percentil para el valor dado. Resulta evidente, que este procedimiento es reversible, en el sentido de que si lo que se requiere es el valor de la variable para que abarca un porcentaje dado de los datos se realiza en sentido inverso el procedimiento descrito. Es interesante indicar que el análisis percentílico no sólo es útil cuando se desea comprender y relacionar datos dentro de un mismo colectivo, tal como se hace al dar respuesta a las inquietudes que se propusieron al comenzar la sección, sino cuando se trata de establecer comparaciones acerca de una característica común entre dos o más conjuntos de datos recopilados mediante experimentos diferentes. La condición imprescindible para lograr este tipo de comparaciones es que en cada colectivo se hayan efectuado la misma cantidad de observaciones, es decir, que tengan la misma base. La comparación relativa permite obviar el requisito de la base común; es más, el análisis percentílico soporta comparaciones globales y además, es posible indicar la posición relativa al grupo al que pertenece la observación. Otra conclusión interesante que se puede obtener a partir de las distribuciones de frecuencias está vinculada a la jerarquización de intereses o actividades, particularmente empleada por los ingenieros industriales en el análisis frecuencial de fallos. Esta técnica se conoce con el nombre de análisis ABC o análisis de Pareto, en honor al economista italiano Vilfredo Pareto (18481923) quién en 1897 demostró para la distribución del ingreso per cápita una conclusión que se observa en la mayoría de los eventos, conocida como la Ley de Pareto o la Regla del 80/20 que establece que cerca del 20% de las causas son responsables del 80% de los efectos. Un diagrama de Pareto permite separar las pocas causas vitales de las muchas triviales permitiendo establecer prioridades para concentrar las acciones correctivas. El procedimiento para desarrollar un análisis de Pareto consiste en: (Adaptado de [Crossley, 2000] ) 1. Decidir el objetivo (p.e defectos por tipo, ventas por localidad, etc.). 2. Recolectar los datos en una tabla de conteo (ver Figura N° 9). 3. Ordenar las categorías de los datos recolectados en forma descendente según la frecuencia absoluta. 4. Determinar el porcentaje que representa cada clasificación respecto al total. 5. Desarrollar una distribución porcentual acumulada hasta englobar el 100% de los datos. 70
6. Construir un histograma porcentual colocando las categorías en el orden establecido durante la ejecución del paso 3. 7. Dibujar la curva generada por los datos hallados en el paso 5. Esta curva de conoce como Línea de Lorenz17 o Curva de Pareto E J E M P L O : En el desempeño como consultor de empresas de servicio, usted ha sido contratado
para ayudar a un consultorio odontológico en la mejora del servicio que prestas a sus clientes. Durante la entrevista con los médicos contratantes se llega a la conclusión de que existen los siguientes asuntos que deben afectar el nivel del servicio: falta de cortesía de los empleados, costo del servicio, explicación adecuada del procedimiento, decoración de la oficina, sabor del enjuague bucal, el nivel de dolor del tratamiento, la selección de revistas disponibles en la sala de espera, el profesionalismo del personal médico, la puntualidad en las citas, la limpieza del consultorio, y el acceso al consultorio. Se decide entonces realizar una encuesta a los clientes al concluir sus citas donde se le pide que señale su nivel de aceptación acerca del funcionamiento de la empresa en cada uno de esos once ítems. Usted procesa los resultados elaborando la siguiente tabla: TABLA N° 5 FRECUENCIA DE RESPUESTAS “NO ACEPTABLE”
Asunto
Número de respuestas
Falta de cortesía de los empleados
10
Costo de las consultas y tratamientos
35
Explicación adecuada del procedimiento
11
Decoración de la oficina
3
Sabor del enjuague bucal
1
Nivel de dolor en el tratamiento
60
Selección de revistas en la sala de espera
8
Profesionalismo de los médicos
2
Puntualidad de las citas
2
Limpieza del consultorio
6
Acceso al consultorio
12
17
M.O. Lorenz graficó en su momento la concentración de la riqueza usando el porcentaje acumulado de población en un eje y el porcentaje de riqueza en el otro. Dada la similitud de los métodos de ambos investigadores se suelen intercambiar estos nombres. 71
Como la definición inicial era muy ambiciosa para tratar de mejorarlos todos, se espera de usted como consultor que le señale a los médicos contratantes cuáles de esos factores son en los que ellos deben concentrar su atención para garantizar mejoras sustanciales. RESOLUCIÓN:
La forma de obtener las áreas críticas es empleando un histograma de Pareto, por lo tanto se debe rearreglar los datos recolectados en orden descendente de frecuencia y determinar el porcentaje que representa cada área de forma absoluta y acumulada. Ello se muestra en la siguiente tabla:
TABLA N° 6 DISTRIBUCIÓN DE FRECUENCIAS ORDENADAS PARA ANÁLISIS DE PARETO
Asunto
Número de Porcentaje del Porcentaje acumulado respuestas total de respuestas del total de respuestas
Nivel de dolor en el tratamiento
60
40,0
40,0
Costo de las consultas y tratamientos
35
23,3
63,3
Acceso al consultorio
12
8,0
71,3
Explicación adecuada del procedimiento
11
7,3
78,6
Falta de cortesía de los empleados
10
6,7
85,3
Selección de revistas en la sala de espera
8
5,3
90,6
Limpieza del consultorio
6
4,0
94,6
Decoración de la oficina
3
2,0
96,6
Puntualidad de las citas
2
1,3
97,9
Profesionalismo de los médicos
2
1,3
99,2
Sabor del enjuague bucal
1
0,8
100,0
150
100,0
Totales
Hecho este arreglo se puede concluir que poco más del 63% de los asuntos que los clientes califican como “no aceptable” se restringe tan sólo a dos de las categorías encuestadas, es decir, el 18% de la lista de once preocupaciones originalmente planteadas. Su consejo a los odontólogos será que deben enfocar su atención en procurar disminuir el nivel de dolor que causan en sus pacientes y explorar la posibilidad de reducir sus tarifas. Para exponer a los médicos su recomendación puede presentar la información gráficamente: 72
Nivel de dolor en el tratamiento Costo de las consultas y tratamientos Acceso al consultorio Explicación adecuada del procedimiento Falta de cortesía de los empleados Selección de revistas en la sala de espera Limpieza del consultorio Decoración de la oficina Puntualidad de las citas Profesionalismo de los médicos Sabor del enjuague bucal
0
10
20
30
40
50
60
Número de Respuestas "No Aceptable"
FIGURA N° 22 DIAGRAMA DE PARETO PARA EL CONSULTORIO ODONTOLÓGICO
Como puede ver ésta técnica es de gran utilidad cuando se trata de distribuir recursos entre varias opciones, porque promueve la eficacia del gasto, mejorando el desempeño de la organización en base a decisiones más sólidamente tomadas.
e)
R ESUMEN
Este capítulo ha comenzado a proveerle de recursos útiles y aplicados en su desempeño profesional, se expuso la técnica fundamental de la estadística descriptiva: las distribuciones de frecuencia, se le incluyó un organizador gráfico para enfrentar el reto que le proponen los casos donde debe construir distribuciones de frecuencia agrupadas, además se resolvió un ejercicio empleando el organizador gráfico a manera de ejemplo para obtener su confianza en la herramienta. Todos los contenidos estudiados hasta ahora son básicos en el desarrollo posterior del trabajo estadístico, porque como afirma Rice (2002): una vez que el propósito, el número y tipos de variables, niveles de medición, selección de la muestra, el número de grupos, y la forma de las distribuciones es conocida, las técnicas estadísticas apropiadas para inferir pueden ser determinadas; por ello, se llevó a cabo una discusión profusa acerca de la forma de determinar el
73
número de clases que deben seleccionarse para agrupar frecuencias en una distribución, inclusive se presentaron comparaciones gráficas y aplicadas entre los distintos métodos para ayudarlo a obtener experiencia en un área muy delicada, puesto que influye en la forma de las distribuciones y, consecuentemente, en las conclusiones que se elaboran a partir de ellas. También se presentaron las formas gráficas de mostrar distribuciones de frecuencia, por ser estas series estadísticas las más importantes de las que se ocupa un profesional. Más adelante se discutirá la forma de presentar los datos de otras series estadísticas para poder analizarlos y extraer información útil de ellos para la toma de decisiones.
f) E JERCICIOS P ROPUESTOS 1.- Con los datos: Construya una distribución de frecuencias de
15
20
25
28
30
18
23
17
18
17
18
15
23
17
20
20
23
18
20
17
25
20
25
18
acumuladas) y porcentajes (absolutos y
25
20
20
23
23
18
30
20
acumulados). Adicionalmente, construya: a)
28
23
25
28
20
30
28
23
cinco clases. Determinar los diferentes tipos de
frecuencias
relativas
(absolutas
y
histograma de frecuencias absolutas; b) histograma de frecuencias acumuladas; c) polígono relativo; d) ojiva porcentual.
2.- Los jornales por hora (en cientos de Bs.) de los operarios de una industria (redondeados a la unidad) son: 62
44
42
39
37
32
30
47
58
40
58
50
43
30
41
52
37
43
46
44
57
49
41
43
42
36
52
49
64
45
46
43
37
38
54
46
36
45
47
45
45
51
40
52
38
42
40
50
46
57
46
47
54
55
53
52
42
43
50
51
74
a) Elabore un cuadro de datos ordenados. b) Seleccione un tamaño de clase conveniente y elabore un cuadro de frecuencias agrupadas. c) Encuentre los límites reales. d) Halle las marcas de clase. e) Dibuje el histograma correspondiente. f) Dibuje el polígono de frecuencias.
3.- Construya las clases correspondientes a la distribución que se presenta de seguido: Clases
Xi (Marca de Clase)
fi
5
12
10
20
15
32
20
18
25
8
4.- Dibuje hipotéticamente (sin datos de distribución de frecuencias): a) Un polígono relativo. b) Un histograma porcentual. c) Una ojiva absoluta. d) Explique como se leen las gráficas dibujadas en los apartes a), b), y c).
5.- Una industria manufacturera de tradición decide mejorar el rendimiento de sus equipos, para lo cual ha planificado reemplazar los chips de memoria eléctricos por electrónicos, y para efectos de un estudio descriptivo del nuevo proyecto con respecto al costo en dólares ($) de dichos chips, el departamento de producción y finanzas cuenta con la información que a continuación se presenta: 9 18 chips con costo promedio de $ 50. 9 Con costo mínimo de $ 65, 11 chips. 9 El menor costo es de $ 15, a partir del cual se agrupan 68 chips. 9 16 chips con costos menores a $ 35. 9 Con costos de por lo menos $ 25 e inferiores a $ 35, 9 chips. 75
9 El estudio abarca costos de cuando más $ 85. 9 Chips con costos superiores o iguales a $ 75, 5 chips. 9 Con costos de por lo menos $ 55 y cuando más $ 85, 21 chips.
Partiendo de la información anterior: a) Construya la distribución de frecuencias relativa de siete clases de igual amplitud. b) Grafique la ojiva absoluta y explíquela. c) Determine el % de chips que tienen costos inferiores a $ 73,50. d) ¿Cuál es el costo máximo de los 36 chips más caros? e) Halle en la gráfica del punto b) el costo correspondiente al percentil 60%. f) Halle con en la gráfica del punto b) el rango percentil de un de $ 72. 6.- En la siguiente distribución de frecuencias especifique cuales son los inconvenientes que podrían presentarse en caso de un análisis detallado de la información: PRECIOS (Bs.)
N o. DE ARTÍCULOS
1.890
2.090
5
2.110
2.210
7
2.210
2.500
9
2.490
2.800
6
2.805
3.500
4
7.- Convierta la distribución de frecuencias siguiente en una distribución de frecuencias acumulada. VARIABLE
Nº. DE UNIDADES ESTADÍSTICAS
50
100
7
100
150
15
150
200
30
200
250
45
250
300
25
300
350
10
350
400
8
a) Señale para que valor de la variable representa el 50% de las unidades estadísticas
76
b) ¿Cuántas unidades estadísticas se encuentran por debajo del valor 290 de la variable?. ¿Qué porcentaje representan?
8.- A partir de la siguiente información, construya la distribución de frecuencias absoluta y grafique el polígono porcentual:
SALARIO MENSUAL ($)
N o. DE TRABAJADORES
500
600
7/80
600
700
20/80
700
800
23/80
800
900
18/80
900
1.000
12/80
c) Determine cuál es el porcentaje de trabajadores que devengan salarios mensuales entre 650 y 850$ d) ¿Cuáles son los salarios que agrupan: el primer decil, el segundo cuartil y el percentil 70?
9.- Con los datos del ejercicio No. 5 del Capítulo I, a) construya una distribución de frecuencias en orden descendente; b) ¿cuál es la 1era Clase?; c) ¿cuál es la frecuencia de la cuarta clase?.
10.- Los siguientes se refieren a los espesores en decímetros de un número determinado espigas eléctricas: 15
20
25
28
30
18
23
17
18
17
18
15
23
17
20
20
23
18
20
17
25
20
25
18
25
20
20
23
23
18
30
20
28
23
25
28
20
30
28
23
e) Construir una distribución de frecuencias relativa con limites de clases nominales y construya la ojiva absoluta. f) Convierta la distribución anterior en una distribución absoluta g) Señale cuantas espigas tienen un espesor mayor de 220 cm. 77
h) Calcule bajo cual espesor están contenidas el 80% de las espigas
11.- Suponga que se tiene la siguiente distribución sobre los defectos estructurales en las puertas de un automóvil: abolladuras, 4; picaduras, 4; partes ensambladas fuera de frecuencia, 6; partes subajustadas, 21; falta de agujeros/ranuras, 8; partes no lubricadas, 5; partes fuera de contorno, 30 y partes con rebarbas, 3. Construya un diagrama de Pareto e interprete.
12.- Los datos siguientes representan la duración en horas de una muestra de lámparas incandescentes que fueron sometidas a una prueba de su vida útil: 1115
1567
1223
1782
1055
798
1016
2100
910
1501
1310
1883
375
1522
1764
1020
1102
1594
1730
1238
1540
1203
2265
1792
1330
865
1605
2023
1102
990
1502
1270
1910
1000
1608
2130
706
1315
1578
1468
1258
1015
1018
1820
1535
1421
2215
1269
758
1512
1315
845
1452
1940
1781
1109
785
1260
1416
1750
1085
1674
1890
1120
1750
1481
885
1888
1560
1642
a) Construya un diagrama de tallo y hoja para visualizar estos datos. b) ¿Existe evidencia de qué una lámpara “sobrevivirá” más allá de las 2.000 horas? Justifique su respuesta.
13.- Su profesor de Inglés le afirma que en ese idioma las cinco letras más empleadas son: a, e, o, h, y s. Como escéptico estudiante de Ingeniería Industrial usted decide corroborar esa
información. Demuestre o rechace la afirmación del profesor y justifique el procedimiento empleado. En caso de rechazarla proponga usted cuales letras pueden considerarse las más frecuentes.
78
III. FORMAS TABULARES DE PRESENTAR INFORMACIÓN Existen dos métodos básicos para presentar datos cuantitativos, uno de ellos consiste en mostrar los números, propiamente dichos, en lo que se conoce como tablas estadísticas; el otro involucra la interpretación visual de las magnitudes en lo que se denomina gráficos estadísticos. Cada tipo de presentación posee técnicas y usos particulares; este capítulo se concentrará en exponer las técnicas y recomendaciones relativas a tablas estadísticas, mientras que el estudio de los gráficos estadísticos se posterga hasta el próximo capítulo. La finalidad de las técnicas de representación es destacar la información que se suministra a quienes toman decisiones relativas a los resultados de un experimento estadístico que caracteriza un fenómeno o procedimiento. Si una información no es presentada en una forma efectiva quien acceda a ella hará caso omiso de la misma, por ésta razón los dos capítulos que siguen son de vital interés en su vida, tanto académica como profesional. Mediante el estudio de este capítulo se pretende que Usted sea capaz de:
1. Expresar el concepto de tabla estadística. 2. Clasificar a las tablas estadísticas de acuerdo al uso y la clasificación de los datos. 3. Construir tablas estadísticas a partir de datos disponibles. 4. Interpretar la información presentada en una tabla estadística.
79
Los datos que están contenidos en los registros internos de las organizaciones o que han sido recopilados en un estudio estadístico, deben ser organizados o tabulados, de forma que puedan ser útiles para sus propósitos. Las estadísticas deben ser presentadas en forma efectiva para que los hechos y las relaciones significativas emerjan a partir del volumen de datos en vez de ser ocultados por ellos. La presentación efectiva es una importante ayuda para clarificar el análisis y la interpretación de los datos, por ello es una necesidad ocupar parte de este texto con la exposición de los procedimientos para la efectiva presentación de los datos estadísticos. Un profesional que no organice y ajuste sus datos para que sean analizados efectivamente, fallará en descubrir el significado que pudiera estar contenido en esos datos. Además, el lector de un reporte referido a datos cuantitativos presentados de forma ineficiente, independientemente de la importancia de la información que pueda desprenderse de ellos, descartará los hallazgos del mismo, por su incapacidad para entender como fueron deducidos. La necesidad de una presentación efectiva de los datos estadísticos está vinculada al hecho de que los datos no ‘hablan’ por si mismos. Cuando un analista emplea cualquiera o ambos de los métodos de representación de datos cuantitativos, procura resaltar los rasgos distintivos de una determinada situación. No debe entenderse que por su propósito la representación de los datos sustituye en forma alguna a los procedimientos para su agrupación que se estudiaron previamente; más bien representan un complemento para que los lectores puedan percibir los hechos más resaltantes del fenómeno que se estudia mediante dichos datos. En vista de que algunos investigadores han reportado que, por lo general, las personas poseen pocos conocimientos estadísticos [Utts, 2002], es recomendable diseñar adecuadamente las formas de representación para que sean lo más sencillas y comprensibles posibles, y consecuentemente, puedan lograr su cometido. En algunas situaciones, los datos estadísticos que requieren ser presentados, no son lo suficientemente extensos para ocasionar dificultades en la interpretación, en estos casos los datos se suelen presentar integrados al texto, lo que se denomina presentación textual. La característica fundamental de la presentación textual es que los datos no pueden separarse de su contexto verbal inmediato, independientemente de que se arreglen en columnas para permitir una mejor visualización. Cuando la cantidad de datos es considerable, este tipo de presentación le impide al lector hacerse una idea efectiva de su significado, inclusive el lector promedio ignorará esa parte del texto dirigiendo su atención y lectura al final de los mismos, razón por la cual resulta inconveniente abusar de esta forma de representación. Sin embargo, cuando se citan muy pocos datos con propósitos ilustrativos, la presentación textual suele ser la más indicada porque refuerza 80
la relación de los indicadores registrados con los argumentos propuestos, tal como se desea al redactar conclusiones o recomendaciones que provienen de un estudio cuantitativo. Un ejemplo de presentación textual puede ser el siguiente tomado del Informe del Grupo de Trabajo de Energía y Transporte del Consejo Presidencial para el Desarrollo Sustentable (1996): “...El índice de congestión de carreteras muestra que para el período que comienza en 1982 y culmina en 1990 las ciudades con la mayor densidad poblacional presentan la mayor congestión y su mayor incremento; 47 de las 50 ciudades experimentó incrementos en la congestión. Los costos de la congestión de tráfico en 1990 también se midieron, resultando en promedio 200.000 horas de retraso y 860 millones de dólares representados por el tiempo de retraso y los gastos de combustible. En 1999 se espera que al menos la mitad de las millas recorridas sean en congestión severa comparado con un 31% para 1989...”
La representación tabular no es más que la colocación de los datos mediante un arreglo lógico en filas y columnas que contemple las especificaciones relacionadas con la naturaleza de dicha información, sin embargo, la elaboración de un cuadro no es tan sencilla y debe planearse cuidadosamente su tamaño y la distribución acorde a la importancia de las series o categorías. Es necesario, además, ser cuidadoso con la elección de las columnas y sus encabezamientos, ya que en ellas se pondrán las relaciones que se desean destacar. La diferencia más relevante de la presentación tabular respecto a la representación textual radica, en que estos arreglos son auto-explicativos, entre otras razones, porque son independientes de su contexto verbal inmediato y se separan de él mediante una identificación que incluye un titulo y un número, además señalan la fuente de la que se desprenden los datos y las unidades descriptivas. La correcta elección de las unidades de medida de las magnitudes es otro aspecto importante porque una buena elección de las mismas beneficia la claridad y el tamaño del cuadro. En la mayor parte de los casos en que los datos son complicados y/o abundantes, será conveniente mostrar esos datos distribuyéndolos en más de una tabla estadística para afianzar la claridad de la presentación y consecuentemente la interpretación de la información que ellos revelan. Una de las ventajas principales de las tablas estadísticas es que una vez incorporadas, el autor puede referirse a los datos contenidos en ellas varias veces a lo largo del reporte; más aún, las tablas permiten la flexibilidad al poder ser ubicadas en cualquier lugar del reporte para satisfacer las exigencias estéticas.
a)
D ESCRIPCIÓN
DE LAS
T ABLAS E STADÍSTICAS
Las diferencias existentes entre los distintos tipos de tablas estadísticas no ocasionan mayores distinciones al momento de su elaboración, es decir, siguen los mismos patrones o normas. Por 81
ello, antes de elaborar una tipología se preferirá distinguir y comentar los elementos que forzosamente deben incluirse al construir un cuadro estadístico. La figura siguiente permite reconocerlos:
FIGURA N° 23 ESQUEMA DE LAS PARTES FUNCIONALES DE UNA TABLA ESTADÍSTICA
Procedamos ahora, a aclarar cada uno de los componentes destacados en la Figura N° 23: D Número del cuadro: El objetivo que se persigue al numerar una tabla estadística es facilitar la
posterior cita de los datos contenidos en ella. La numeración que se adopta por convención refleja el orden de aparición, en reportes muy extensos divididos en capítulos, es una buena práctica que dicha codificación esté compuesta por una cifra que señale el capítulo y otra que numere la figura, en el orden de aparición dentro del capítulo correspondiente; ambas cifras se separan mediante un punto. Ocasionalmente el número se omite si el cuadro es el único contenido en el reporte. D Título: El título de un cuadro es muy importante y debe reflejar con claridad lo que
representan los datos contenidos en él. Para ello, se acostumbra que el título responda a las siguientes preguntas acerca de las actividades realizadas para recopilar los datos presentados: ¿qué? , ¿dónde? , ¿cuándo? , y ¿cómo se clasificaron?. Es importante resaltar que un título será adecuado a sus propósitos si la descripción no es excesivamente extensa, ni extremadamente breve. D Nota de Encabezamiento: Se emplea solamente cuando es menester revelar pormenores tales
como: las unidades en que están expresadas las variables, indicar si los datos provienen de una muestra o un universo-población, también pueden proveer información adicional al título, en aras de limitar la extensión de éste sin omitir detalles relevantes sobre el contenido de la tabla. Puede o no escribirse entre paréntesis, lo importante, es que el autor de un reporte que 82
incluya tablas estadísticas debe ser consistente en su presentación, seleccionando sólo una de las alternativas existentes para ello. D Encabezado: El encabezamiento comprende los títulos, etiquetas o rótulos, que describen lo
que se representa en cada columna, sea ello series o categorías, en el último caso, si las columnas agrupan datos de clases subsumidas en otra mayor, debe existir un subtítulo maestro en la parte superior, abarcando el espacio que ellas ocupan. El encabezado se ubica en la parte superior del cuadro, debajo del título y la nota de encabezamiento – si existiese – debe ser claro, conciso y estar separado del resto del cuadro mediante líneas horizontales un poco más gruesas. Se procura que las etiquetas estén escritas en forma horizontal, en vez de vertical, para facilitar su lectura. D Columna Matriz: Es la columna a la extrema izquierda de la tabla, comprende las etiquetas
que rotulan cada una de las filas y el encabezado de la matriz, es decir, un título explicativo de las categorías o series que se representan de cada fila. Al igual que en el encabezado, cada etiqueta debe ser clara y explícita, de hecho puede ser más extensas en esta parte porque disponen de mayor espacio útil. El profesional debe ser muy cuidadoso cuando la tabla comprende más de una clasificación por filas, de modo tal que el lector pueda entender la relación existente entre cada fila y el esquema global de clasificación que se desea presentar. D Cuerpo de la Tabla: El cuerpo del cuadro resume la información estadística que se presenta,
esta integrado por las celdas que se forman al interceptar cada fila con cada columna. Una celda es el contenedor de un dato estadístico individual cuyo significado está indicado por las especificaciones establecidas en las etiquetas de la columna y la fila que se interceptan. Un valor de celda vacío puede interpretarse de muchas maneras, entre ellas, como un error de trascripción o como ausencia o inexistencia del valor, por ello, es absolutamente necesario que cada celda contenga un dato, si su valor es cero debe colocarse, igualmente si la información respectiva no está disponible debe estar indicado con alguna convención, por ejemplo, las siglas N.D., S.I., etc. D Notas al Pie: Las notas al pie de las tablas, tal como se mencionó anteriormente, se utilizan
para hacer aclaratorias sobre uno o varios elementos contenidos en la misma. En la Figura N° 23, la celda 2,2 contiene una marca (una a en negritas) que invita a leer la nota al pie, la información que contendría la nota, puede variar entre indicar que el valor es sólo estimado, hasta señalar una explicación si éste variase mucho respecto a los otros valores reportados. D Fuente: La nota sobre la fuente indica el origen de los datos recopilados en el cuadro. El
objetivo al proporcionar la fuente de los datos es doble, por una parte se reconoce a la persona 83
u organismo que recopilo y/o publico los datos, y por la otra, se le permite, a quienes deseen verificar o ampliar la información, acudir a consultar la fuente por ellos mismos. Lo apropiado será entonces que la fuente sea suficientemente completa como para servir a ambos propósitos. A pesar, de que en la Figura N° 23 la nota sobre la fuente de los datos se colocó en la parte inferior de la tabla, ocurre de forma menos frecuente que algunos autores la incluyan en la nota de encabezamiento, debajo del título. En ocasiones, cuando la fuente de los datos se sobrentiende se puede omitir, esta situación ocurre cada vez que los datos son recopilados por el autor del reporte. Es posible que para algunos lectores exista confusión entre las notas al pie y las notas de encabezamiento, en particular, su relación con el título del cuadro. Con fines aclarativos puede señalarse que la relación entre el título y la nota de encabezamiento es muy próxima, mientras que entre el título y las notas al pie suele ser remota debido a que las notas al pie sólo se requieren si una porción muy específica de los datos en la tabla debe ser explicada; en cambio, las notas de encabezamiento son más frecuentes por su capacidad para limitar la extensión de los títulos.
b)
C LASIFICACIÓN
DE LAS
T ABLAS E STADÍSTICAS
Existen distintos pareceres para clasificar a los tablas estadísticas, a tal efecto en este texto emplearemos una tipología relativa a dos criterios no necesariamente excluyentes, ellos son: a) propósito, en cuyo caso se reconocen tablas de referencia y tablas analíticas, b) clasificación de los datos por el cual se tienen tablas clasificadas en un solo sentido, tablas de clasificación cruzada, y tablas de clasificación múltiple.
i).- Tablas de Referencia Estos cuadros también denominados tablas de propósito general, depósitos o fuente, son por lo general muy extensas, pudiendo ocupar varias páginas al publicarse. Su objetivo es actuar como un almacén de información estadística que pretende dar información detallada que sirva como referencia y no como término de comparación entre las distintas partidas. Deben diseñarse en forma tal que sea sencillo para el lector localizar cualquier dato particular en la misma, ello se logra, listando las categorías ordenadas por algún criterio preestablecido, entre otros suelen usarse: alfabético cuando las categorías son textuales, numérico ascendente si están codificadas, o cronológicos si se refieren al tiempo. Los cuadros generales o de referencia, por el hecho de que 84
frecuentemente contienen demasiada información, no permiten realizar, a partir de ellos, un análisis sencillo de las relaciones entre las diferentes categorías o series que puedan contener.
ii).- Tablas Analíticas o de Resumen Resultaría impráctico informar a quien toma las decisiones solamente sobre los resultados obtenidos de la enumeración o medición de la realidad de un colectivo. También es importante dar a conocer sobre las posibles relaciones subyacentes a los datos o brindar respuesta a alguna inquietud específica sobre el fenómeno que los genera, cuando se requiere satisfacer un propósito investigativo que responde alguna pregunta específica, por ejemplo: ¿cómo se comparan la condiciones ambientales entre dos días de producción cuyo número de piezas defectuosas difiere notablemente?, se construyen tablas analíticas. Los cuadros analíticos pueden formarse directamente con los datos obtenidos de los experimentos estadísticos en cuestión o pueden ser producto de la reducción de uno o de varios cuadros generales o de referencia. Las tablas analíticas son de tamaño relativamente reducido para poder resaltar en forma clara los datos que se encuentren relacionados. Se trata, en lo posible, que ocupen una sola página para permitir que los datos se vean en su totalidad, ya que de lo contrario se dificultaría su estudio. También resulta esencial que los datos estén dispuestos en forma tal que se facilite el análisis de las relaciones importantes, por ejemplo, la mayoría de los lectores sienten que es más fácil relacionar y comparar datos arreglados en columnas en vez de filas [Neter & Wasserman, 1954]. Adicionalmente, resulta evidente que los datos se compararen con mayor facilidad si están cercanos entre si, es decir, los datos deben en lo posible colocarse de tal forma que las comparaciones se lleven a cabo entre columnas o filas adyacentes. No obstante, existen otros argumentos menos sofisticados que limitan la selección de las categorías que se colocan en cada parte del cuadro, entre otras, si la lista de clases es muy extensa o requiere de etiquetas detalladas, imperativamente debe ubicarse en la matriz de la tabla porque es la ubicación con mayor espacio disponible para rotular. El principio general que debe tomarse en cuenta para que una tabla se convierta en una herramienta efectiva para el análisis y la toma de decisiones, puede resumirse en que los datos contenidos en un cuadro deben estar dispuestos para favorecer el descubrimiento de las analogías entre las series estadísticas o las categorías resumidas en él. Siempre que no impida la percepción de alguna relación relevante, es conveniente ordenar las clases a partir de su tamaño u orden de magnitud. En algunas situaciones es necesario considerar más clasificaciones que las que pueden presentarse efectivamente en una 85
tabla, en cuyo caso, es mejor construir una serie de tablas relacionadas, cada una de las cuales presenta claramente un grupo particular de las relaciones que quieren ser destacadas.
Es una buena y habitual práctica que los cuadros estadísticos incluyan filas y columnas que resuman los datos presentados. Este resumen suele ser una totalización, en otras ocasiones puede mostrar algunos cálculos estadísticos relevantes como el promedio o la desviación. El uso adecuado de las columnas y filas de resumen es una característica que exhiben las presentaciones tabulares efectivas, en muchos problemas, ellas constituyen un insumo importante para el análisis de los datos, en particular cuando se desean destacar proporciones desbalanceadas y posiciones relativas.
La ubicación de las filas y columnas de resumen dependen del interés del analista en destacar los aspectos generales o los particulares. Si el énfasis se desea en lo general, la fila de resumen debe colocarse arriba y la columna a la izquierda de los datos que resumen; en caso contrario, debe ubicarse la fila posterior y la columna a la derecha de las series resumidas. La razón de esta ubicación radica en que el lector promedio procesa la información de izquierda a derecha y desde arriba hacia abajo, por lo tanto, las ubicaciones sugeridas provocan que el lector fije su atención primero en lo que se desea subrayar.
iii).- Tablas en un solo sentido
Cuando los datos que se deben mostrar pueden ser discriminados en una sola clasificación, el cuadro estadístico que los contiene se identifica como un cuadro clasificado en un solo sentido. Este tipo de tablas son las más sencillas, sin embargo, no están restringidas a presentar una sola serie estadística, mientras que ambas series se refieran a datos de la única clasificación que se muestra.
El sentido de la clasificación es indistinto, es decir, las categorías pueden ser las etiquetas de la filas o de las columnas. Las tablas referenciales suelen estar clasificadas en un solo sentido. En la próxima figura se ilustra este criterio y algunas de sus peculiaridades:
86
FIGURA N° 24 ESQUEMA DE TABLAS CLASIFICADAS EN UN SOLO SENTIDO
En la figura se puede observar la representación de una o dos series, en ambos casos, la clasificación está hecha en un solo sentido porque las únicas categorías son: a) profesores, b) administradores, y c) servicios. Nótese que en este tipo de cuadros solo puede haber resumen en el sentido de la clasificación, en particular en la Figura N° 24, no tendría ningún sentido que aparezca una columna resumen. También es interesante destacar como el título se ajusta para explicar de manera suficiente los datos que se presentan, en la tabla inferior se agregó una nota de encabezado que aclara las unidades en que se presenta la información. En los cuadros estadísticos, frecuentemente se utilizan porcentajes, tal como aparece en la parte inferior de la Figura N° 24. La finalidad del uso de los porcentajes en los cuadros es facilitar la comparación, de tal manera que las relaciones que puedan existir se perciban. Cuando se muestran valores porcentuales es indispensable reseñarle al lector la unidad que representa el total. En la figura usada como ejemplo en esta discusión puede observarse que en la fila de resumen el total correspondiente a columna ‘porcentaje’ suma 100; esto le indica al lector que la base de cada porcentaje es número total de empleados. El total de porcentajes se pudo haber omitido, ya que por tener la tabla una sola columna sola clasificación, resulta evidente a quién se refieren los totales, aun cuando no exista duda en cuanto a quién representa la totalidad es una buena práctica acostumbrarse a totalizar los por cientos siempre, dado que una omisión de este tipo de cuadros más complejos hace difícil determinar a cuál de las partidas están referidos los 87
mismos. Existen cuadros que sólo poseen datos en forma de porcentaje, mientras que otros, como la Figura N° 24, vienen expresados tanto en valores absolutos como en porcentajes.
iv).- Tablas de Clasificación Cruzada En ocasiones, se aprovecha el espacio que ocupa la tabla para reflejar clasificaciones en ambos sentidos, en vez de series en uno y categorías en el otro, tal como se realizó en la parte inferior de la Figura N° 24. Cuando los datos pueden ser clasificados en categorías mutuamente excluyentes, empleando más de un criterio, los arreglos tabulares exhiben ventajas evidentes. En esos casos cada una de las celdas representa los valores que simultáneamente exhiben la característica relativa a la clasificación horizontal y a la vertical. Las etiquetas de las filas designan las clases acordes a unos de los criterios y las de las columnas respetan el otro, los criterios correspondientes serán escritos en el encabezado de la matriz y en el subtítulo maestro, respectivamente. Esta construcción se ilustra en la siguiente figura:
FIGURA N° 25 CARACTERÍSTICAS DE UNA TABLA DE CLASIFICACIÓN CRUZADA
En la figura se muestra como se clasifican los datos en categorías mutuamente excluyentes, la clasificación vertical corresponde al criterio ‘sexo’ de la persona empleada e incluye una columna de totalización a la derecha; mientras que la clasificación horizontal corresponde al criterio ‘ocupación’ y se sumarias en la última fila. Por ejemplo, la celda 2,2 de la tabla ilustrada representa el número de mujeres dedicadas a labores administrativas en la situación a la que se refiera el cuadro. Las tablas estadísticas de clasificación cruzada deben contabilizar en las filas y columnas de resumen la totalidad de los datos recopilados, sin embargo, hay casos donde es innecesario, o no es factible presentar los datos de todas las clases individuales en que se representa la variable en cuestión, en situaciones como la descrita es recomendable agrupar las clases irrelevantes según el objeto del estudio en una fila o columna, según sea el caso, etiquetada como ‘otros’ o ‘todos los 88
demás’. Si la situación se presenta en las filas, la fila compuesta se ubica en la parte inferior de la tabla, mientras que en el caso de una columna compuesta se coloca a la extrema derecha del cuadro.
v).- Tablas de Múltiples Clasificaciones Otro tipo de tabla que podemos encontrar son las tablas de clasificación múltiple, donde la multiplicidad se refiere al número de secciones que presenta, pudiendo ser dobles o triples, multiplicidades superiores no son frecuentes. Cada sección corresponde al valor de una variable o categoría cuyo análisis puede ser refinado mediante la agrupación de los datos que pertenecen a ella en subcategorías más específicas. Un ejemplo se muestra en la Figura N° 26.
FIGURA N° 26 ESQUEMA DE UNA TABLA DE CLASIFICACIÓN CRUZADA MÚLTIPLE
Es importante que el lector note que la tabla de la figura precedente tiene las siguientes características, en primer lugar, corresponde a una tabal de clasificación cruzada, debido a que toda tabla con clasificación múltiple no puede estar dispuesta en un solo sentido, adicionalmente, se puede constatar que la multiplicidad se verifica en uno sólo de ellos: el horizontal. En ocasiones ambos sentidos de clasificación pueden exhibir más de una sección. Otra característica relevante se puntualiza en el hecho de que cada sección presenta su propia fila de resumen, donde se totalizan – en este caso – los valores para cada período de ocupación.
89
c) C ONSIDERACIONES E STADÍSTICAS
PARA
O BTENER I NFORMACIÓN
DE LAS
T ABLAS
Cuando usted se encuentre en la situación de tener que leer los datos que se le presentan en forma de cuadro estadístico debería hacerlo siguiendo un proceso delimitado por ciertas guías metodológicas, entre otras que pueden ser útiles para muchas de las presentaciones tabulares se tienen: 9 Antes de fijarse en los números, uno debe tener claro acerca de lo que la tratan los datos
contenidos en la tabla y del tipo de información que puede derivarse de ellos. 9 Observar primero los valores totales o de resumen es una buena costumbre para obtener un
marco general de orientación. 9 Piense acerca de los datos que usted podría calcular, a partir de aquéllos contenidos en la
tabla, y que podrían esclarecer la información presentada; entre otros estos cálculos pueden referirse a totalizaciones, variaciones, porcentajes o proporciones. Una vez culminado la inspección de la tabla bajo las consideraciones antes descritas usted debe escribir sus hallazgos, enfatizando lo importante y omitiendo lo trivial. Haciendo referencia a la Figura N° 26 puede comenzar con una frase como: “...los datos de los profesores de sexo masculino empleados por menos de cinco años revelan que...”. Siempre debe estarse atento de las unidades a las que se refieren los datos cuantitativos presentados, recordando que muchas veces los números que se muestran en una tabla pueden representar millones, miles o cientos de unidades, en vez de la cifra reflejada en aras de exhibir una presentación más elegante. Otra práctica aconsejable consiste en colocar los datos derivados por usted en otra tabla si es el caso que su extensión lo amerita, por ejemplo, si son más de tres o cuatro. Cuando esté redactando sus observaciones existen ciertas precauciones que debe procurar, entre ellas, no debe convertir la tabla y los datos reflejados en ella, en una presentación textual de los mismos, visto que se perdería su funcionalidad y restaría interés a quienes vayan a leer sus argumentos. También es importante que usted no vaya a comenzar a escribir acerca de un dato cualquiera y saltar luego en forma que parezca aleatoria a otros sin ninguna razón aparente; en lo posible, debe tratar de mantener una coherencia en la redacción que puede – en principio – soportarse en un eje direccional establecido por las relaciones entre los datos que revela la conformación, diseño y estructura del cuadro estadístico. Cuando se analiza los datos que se muestran en una tabla debe evitarse asegurar lo que no está demostrado por los datos, si usted desea especular o realizar conjeturas explicativas de los datos debe comenzar la frase con: 90
“Posiblemente esto es debido a...”. Lo escrito en esta sección del capítulo no pretende ser más que unas pequeñas guías para mitigar la inexperiencia del lector al enfrentar datos presentados en forma tabular, sin embargo cada tabla presenta sus propias dificultades y una de las mejores formas de ganar experiencia radica en leer frecuentemente ejemplos de comentarios de tablas bien elaborados.
d)
R ESUMEN
En este capítulo se ha discutido las ventajas de presentar la información estadística en arreglos tabulares autocontenidos, sin embargo también se le ha indicado cuando es apropiado presentar los datos en forma textual. Se describieron las partes de un cuadro estadísticos, haciendo énfasis en sus características y las buenas prácticas para hacerlas lo más efectivas posibles. Se distinguió entre tablas de referencia y tablas analíticas discutiéndose cuando y donde colocar filas y columnas de resumen que permitan aclarar la información presentada y extraer conclusiones interesantes. Se le mostró como usar clasificaciones cruzadas y múltiples para abordar realidades complejas de manera eficiente. Además, se le proporcionaron consejos acerca de cómo descifrar la información que se encuentra en una tabla estadística. Toda esta información será valiosa en su desempeño académico y profesional y puede constituir una excelente referencia en un futuro, en el próximo capítulo se discutirá como hacer más atractiva la presentación de ciertos datos relevantes al usar la impresión visual para transmitir la información y captar la atención mediante presentaciones gráficas.
e)
E JERCICIOS P ROPUESTOS
1.- Analice el siguiente informe del consumo de energía eléctrica en Gigavatios-hora, en Colombia en el año 1995. Consumo total: 18.709; para uso industrial: 5.671; comercial: 2.195; doméstico: 7.816; oficial y alumbrado público: 3.027. A partir de estos datos elabore un cuadro que destaque; a) el porcentaje de cada grupo sobre el total; b) la suma de los otros tres.
2.- En una empresa industrial la nómina de pago mensual por estamentos en cierto mes se comportó de la siguiente manera: personal de administración: $ 423.380,00; personal de ventas: $ 560.325,00; personal de producción: $ 2.360.420. Elabore un cuadro que destaque: a) el porcentaje de cada categoría con base en el total de la nómina; b) el porcentaje de la nómina de pago de cada categoría y del total con base en el total de ventas que fue de $ 10.775.514,00.
91
3.- Un colegio tiene 1.740 alumnos y para su funcionamiento tiene el siguiente personal por naturaleza: directivo: 1 rector y 2 vicerrectores; de control: 1 inspector jefe y 4 inspectores; docente: 39 profesores y 3 psicólogos; de administración: 7 empleados; y de aseo y mantenimiento: 9 personas. Elabore un cuadro en el que se muestre: a) por personal, uno por cada tantos alumnos; b) por naturaleza de personal.
4.- A continuación se le presenta el formato de una tabla estadística. Sugiera mejoras que deban ser realizadas a dicho formato: TABLA 1 GASTOS PARA UNA PLANTA NUEVA Y EQUIPOS
(Datos Estadísticos)(a) Manufactura Actividad
Bienes no
Bienes
Perecederos
Perecederos
Minería Ferrocarril
Otros Transportes
Otros(b)
1952 1949 1950 1951 Gran Total(c) 1949 1950 1951 1952
a. b. c. d.
En billones de dólares. “Otros” (d) incluye bienes públicos, comercio, servicios, finanzas, comunicaciones y construcción. “Gran Total” de los datos de las filas superiores. No incluye agricultura
Fuente: Washington, D.
5.- Se realizaron una serie de encuestas para determinar el ingreso antes de impuestos para los ejecutivos la empresa TVB durante los años 1998 y 1999. Estos datos fueron discriminados según el monto del ingreso en unidades monetarias arrojando las siguientes categorías: por debajo de 1.000, 1.000-1.999, 2.000-2.999, 3.000-3.999, 4.000-4.999, 5.000-7.499, 7.500 y más) y además se clasificaron atendiendo al departamento de adscripción en: Gerencia de Mantenimiento, 92
Gerencia de Sistemas, Gerencia de Ventas, Gerencia de Procura, Gerencia Logística, Gerencia de Recursos Humanos, Gerencia de Relaciones Públicas, Gerencia de Producción y Otras Gerencias. Se le solicita: a) elaborar el formato de un arreglo tabular efectivo que permita registrar para cada departamento el porcentaje de total de los ejecutivos encuestados que ganen cuna cierta cantidad antes de impuestos b) Coloque dentro de la celda apropiada del formato diseñado los siguientes datos: En 1998, 11% de los ejecutivos de la Gerencia Logística ganaron entre 1.000 y 1.999 unidades monetarias antes de impuestos. En 1999, 40% de los ejecutivos de la Gerencia de Ventas ganaron 7.500 unidades monetarias o más. En 1999, 20% de todos los ejecutivos ganaron entre 5.000 y 7.499 unidades monetarias antes de impuestos. Fuente de los datos: Auditores Externos de la Empresa TVB
93
IV. FORMAS GRÁFICAS DE PRESENTAR INFORMACIÓN A lo largo del texto se ha enfatizado la necesidad de representar los datos estadísticos para poder obtener la información que se desprende de ellos, en el capítulo anterior se discutió la presentación textual de la data observando sus debilidades y las fortalezas de organizarlas en cuadros estadísticos para poder obtener una visión de conjunto del fenómeno estudiado. Los datos que se muestran gráficamente suelen poner al descubierto hechos esenciales y relaciones que de otra forma pueden pasar desapercibidos, por ello, las representaciones gráficas se convierten en un instrumento estadístico de gran utilidad que permite poner el acento en alguna característica en particular en menoscabo de los detalles. Su uso apropiado y oportuno será primordial en el campo profesional y las características y las técnicas que se lo permitan serán explicadas en este capítulo, al finalizar su estudio se pretende que usted sea capaz de: 1. Explicar el concepto de gráfica estadística. 2. Describir las características de cada tipo de gráfica estadística. 3. Construir las representaciones gráficas correspondientes a series estadísticas dadas. 4. Interpretar la información presentada en una gráfica estadística.
94
Si se acepta que el sistema de representación visual es uno de los más desarrollados por el común de las personas, se estará de acuerdo en que las imágenes valen más que las palabras cuando se trata de describir una situación cualquiera. Un gráfico o diagrama, es un instrumento para presentar los datos estadísticos en términos de magnitudes interpretadas visualmente. Las representaciones gráficas se convierten en un instrumento estadístico de gran utilidad, a pesar de ello se debe reiterar que en ningún momento los gráficos o diagramas son prácticas que puedan considerarse como sustitutivas, sino más bien complementarias a las técnicas estadísticas de agrupación que son el fundamento de la estadística descriptiva. A pesar del gran valor práctico que se ha argumentado, los gráficos poseen ciertas limitaciones que se deben reconocer para poder emplearlos adecuadamente. En primer lugar, las gráficas permiten rápidamente obtener una idea de la situación descrita, pero carecen de la profundidad necesaria para ahondar en detalles. Los datos cuantitativos, por ser observaciones numéricas, vienen representados por valores exactos que al ser llevados a una gráfica sólo pueden, en general, representar un aproximado de dicho valor. Otra limitación inherente al empleo de gráficas es su inconveniencia para representar tantas series estadísticas como puede hacerse en una tabla. Por tanto, es aconsejable que cuando se requiera mostrar una situación de múltiples experimentos se empleen, en vez de una sola gráfica que contenga a todos los datos, una colección de gráficas donde en cada una de ellas se puedan representar apropiadamente algunos de los grupos de datos, de forma tal que se logre la visualización del fenómeno. Otra práctica muy frecuente es acompañar a las gráficas estadísticas de un pequeño texto explicativo, donde se redunda en cuanto a los puntos importantes que haya que destacar. Esta redundancia se hace con el propósito de que no pasen inadvertidos los aspectos más relevantes sobre los que se desea informar a los lectores. En términos generales una gráfica tiene presente los componentes que se despliegan en el siguiente modelo:
FIGURA N° 27 ELEMENTOS QUE COMPONEN UN GRÁFICO 95
Título y Subtitulo: El título se coloca debajo del gráfico y debe indicar de manera concisa y completa lo que se presenta en el diagrama, debe registrar el nombre de la serie graficada y adicionalmente puede contener el nombre de la organización a la que se refieren los datos y el tiempo en que se llevo a cabo su recolección, en ocasiones estas características opcionales y alguna otra que el autor juzgue relevante se presentan en el subtítulo. Identificación de los ejes: Deben señalarse las unidades en que se expresan los datos y ciertos valores distribuidos uniformemente a lo largo de los mismos. Si el diagrama se puede considerar muy amplio resulta conveniente repetir los valores de la escala en el otro extremo, es decir, arriba y abajo si se presenta un diagrama muy alto de forma horizontal o a izquierda y derecha de uno vertical muy ancho. En el caso en que se presenten diagramas que por su construcción requieran dos escalas, cada una de ellas debe estar plena y notoriamente identificada. Escala: La selección de las escalas debe respetar la proporción entre el ancho y la altura, esta relación dependerá de la configuración y el diseño del reporte en que esté incluido el gráfico. Líneas de fondo: Para facilitar la interpretación de los gráficos pueden incluirse líneas de un trazado más fino que el empleado en los ejes. De esta forma se construye una especie de malla en la que el lector puede ubicar alguno de los valores representado que le despierte interés. Cuando se representan los valores mediante curvas o líneas esta malla debe ser omitida si obstaculiza la apreciación del fenómeno representado, en cuyo caso sirve de guía al lector las marcas de graduación en los ejes. Marcas de graduación: Son pequeños segmentos de recta que se trazan perpendiculares a los ejes distribuidos de forma de señalar la ubicación de algunos de los valores, o bien, el nombre de las categorías que se representan en cada eje. Fuente de los datos: Al igual que se exige para las tablas estadísticas debe incluirse la información necesaria para que quien desee ahondar o validar los datos que se representan pueda hacerlo. La fuente de los datos sólo se omite cuando es obvia, por ejemplo, si el autor recopiló también la información. Rotulado: Es preferible que todas las etiquetas se coloquen en disposición horizontal para facilitar la lectura, esta recomendación sólo debe exceptuarse cuando el espacio requerido para ello sacrifique la resolución de la gráfica por las limitaciones de espacio impuestas por el diseño del reporte.
96
a)
T IPOS
DE
G RÁFICAS
Para representar gráficamente las series estadísticas, se pueden usar diferentes tipos de gráficas, entre las cuales destacan: a) diagramas lineales, b) diagramas de barras, c) gráficas circulares, y d) pictogramas y cartogramas. En lo sucesivo serán descritos cada uno de ellos para poder determinar sus ventajas y desventajas en las diferentes aplicaciones.
i).- Diagramas Lineales La representación lineal consiste en expresar en un plano bajo el sistema de coordenadas rectangulares o cartesianas varios pares de valores, conformados por un valor de una de las variables y el otro correspondiente a la otra variable. Cada pareja de estos valores, da lugar a un punto en el plano que representa un estado del fenómeno o sistema bajo estudio. La unión de cada par de puntos mediante segmentos de recta da la representación lineal de la totalidad del fenómeno o sistema observado durante el experimento estadístico. La convención que se sigue para ubicar las variables es colocar en el eje de las ordenadas aquella cuyo comportamiento se desea explicar o comparar, el cual se asume que depende de cierta variable independiente ubicada en el eje horizontal18. Los ejes se cruzan en un punto denominado origen que corresponde al par de valores nulos de cada variable, cada eje debe ser dividido en segmentos determinados por una escala que se toma arbitrariamente y que dependerá del fenómeno que se quiera representar. Es habitual que por razones de proporcionalidad ambos ejes no se expresen en una misma escala, dado que cada variable puede contarse o medirse en órdenes de magnitud distintos. Sin embargo, en ambos ejes los valores representados aumentan a medida que alejamos del origen. La forma de obtener los puntos que serán unidos para representar el diagrama se ilustra en la siguiente figura:
(a) Ubicación del Primer Punto
(b) Ubicación del Segundo Punto
18
En aquellos casos donde las dos variables pueden depender mutuamente (dependencia bilateral o interdependencia), se pueden colocar indistintamente una u otra variable en uno cualquiera de los ejes, y la otra variable en el otro eje. 97
(c) Todos los Puntos Ubicados
(d) Trazado de las Líneas de Unión
FIGURA N° 28 BOSQUEJO DE LA CONSTRUCCIÓN DE UN DIAGRAMA LINEAL
En la parte (a) de la figura se representa el proceso de ubicación del primer punto – formado por el par de valores (x1, y1) – se comienza trazando una perpendicular al eje x en el valor x1, luego de traza una perpendicular al eje y en el valor y1; la intersección de ambas perpendiculares, representadas en color azul, señalará el valor del punto. El proceso se repite para cada par de datos que se desean representar hasta obtener lo que se observa en la parte (c) de la Figura N° 28, posteriormente y en el orden de representación impuesto por la variable independiente (eje x) se unen cada par de puntos con un segmento de recta, tal como se aprecia en la parte (d) de la figura, mediante trazado amarillo. Los diagramas lineales se usan frecuentemente para representar series cronológicas y series de frecuencias cuantitativas. Por su construcción, un diagrama de líneas es especialmente útil cuando se desea visualizar la relación entre dos variables o bien cuando se desea comparar dos o más series estadísticas. En el área administrativa, en particular, se emplean frecuentemente para estudiar series cronológicas porque los diagramas lineales ponen mayor énfasis en las fluctuaciones de la variable en el tiempo en vez de la comparación entre períodos en específico. Esta característica de los diagramas lineales permite acentuar la dirección y magnitud de los cambios, lo que obliga a discernir sus causales para tomar las acciones requeridas que refuercen o corrijan los efectos observados. En las representaciones temporales se toma como norma llevar la frecuencia con que se presente la variable al eje vertical, y sobre el eje horizontal colocar la variable tiempo, tal como se observa en la siguiente figura:
98
Millones de Unidades Monetarias
100 90 80 70 60 50 40 30 20 10 0 1997
1998
1999 2000 Años
2001
2002
FIGURA N° 29 VENTAS DE LAS COMPAÑÍA TVB
La Figura N° 29 permite destacar algunas de las características de los ejes comentadas previamente, en primer lugar mientras la variable independiente, es decir el tiempo, está expresado en el valor del año calendario en cuestión, la magnitud del eje de las ordenadas está en millones, variando entre 20 y 95, con lo cual se recalca la disparidad de escalas. Adicionalmente, y tal como se sucederá con estas series temporales, el eje de la abcisas no comienza en cero y por lo tanto el punto de cruce de los ejes no es, estrictamente hablando, el origen de sistema de coordenadas. Si en estos casos se comenzara en el origen las líneas quedarían desplazadas muy a la derecha y el tamaño total de la imagen relativa al área de trazado del diagrama sería mínimo. Observemos ahora como el tamaño y la escala de los ejes influye en la percepción que el lector puede hacer sobre un diagrama de líneas, mediante la construcción de una secuencia de diagramas lineales sobre el porcentaje de uso de la capacidad instalada de la empresa TVB en el período 1999-2002.
99
(a) Eje y con longitud desproporcionada
(b) Eje y no comienza en cero
MALA CONSTRUCCIÓN DE LOS EJES EN DIAGRAMAS DE LÍNEA (c) Eje y comienza en cero
(d) Eje y muestra la interrupción
BUENA CONSTRUCCIÓN DE LOS EJES EN DIAGRAMAS DE LÍNEA FIGURA N° 30 INFLUENCIA DE LOS EJES EN LOS DIAGRAMAS DE LÍNEA Porcentaje de Utilización de la Capacidad Instalada de la Empresa TVB (1998-2002)
Tal como se indicó previamente, cuando el valor inicial de una de las variables es muy alto se suele interrumpir la escala del eje donde se va a representar tal variable con el objeto de dar una mejor visión de la gráfica. Cuando se trunca el eje de las ordenadas se aumentan artificialmente las pendientes de las líneas de unión, tal como se comprueba al observar el recuadro (b) de la Figura N° 30. El observador de un diagrama comúnmente dirige su atención a la altura vertical y las pendientes, cuanto más inclinada sea una línea se concluye que mayor es la variación en la relación entre las cantidades que miden los ejes, pero se puede extraer una conclusión engañosa o mal fundamentada al prestarle poca atención a las escalas de valores de los ejes. Esta actitud en ocasiones es empleada para crear con las gráficas efectos artificiosos de apreciación a través de una manipulación maliciosamente hábil del eje vertical, por ello, cuando la intención de quien presenta el reporte es destacar los cambios en una serie debe señalar la interrupción del eje de las ordenadas en forma visible porque está sacrificando la visión de la importancia relativa de esos cambios en términos de las magnitudes absolutas de los datos. La práctica habitual recomienda emplear una línea quebrada, tal como se muestra en la parte (d) de la Figura N° 30. Otra forma de 100
tergiversar la información que se muestra en un diagrama de líneas consiste en elaborarlas, consciente o inconscientemente, sobre unos ejes que no guarden una proporción adecuada en lo relativo a su longitud, tal como se muestra en el recuadro (a) de la Figura N° 30, en este caso – al igual que en recuadro (b) – se trasmite la sensación de que la caída en la utilización de la capacidad instalada se desmorona vertiginosamente entre el año 2001 y 2002 debido a que el segmento de línea que une ambos valores es prácticamente vertical. Del mismo modo el incremento experimentado entre los años 1999 y 2000 se hace ver muy pronunciado. Para evitar este tipo de deformaciones reiteramos la convención (citada previamente en la construcción de histogramas) conocida como “regla de los tres cuartos de altura”. Esta costumbre se fundamenta en fijar como altura del eje vertical o de las ordenadas un valor aproximadamente igual a tres cuartos de la longitud del eje horizontal. En la práctica esto fija la escala puesto que la altura del eje y estará próxima al valor más alto de la variable dependiente. Esta norma se aplicó en las representaciones (b), (c) y (d) de la Figura N° 30. Una misma gráfica puede mostrar el comportamiento de varias series, cuando se emplean diagramas de líneas en estudios comparativos debe tenerse especial precaución en la identificación apropiada de la línea que representa a cada serie, además de la forzosa selección de una variable independiente en común, en las series cronológicas esto implica realizar la
Millones de Unidades Monetarias
comparación 100 90 80 70 60 50 40 30 20 10 0
de
varias
series
a
lo
largo
de
un
periodo.
La
Nacionales Internacionales
1992 1993 1994 1995 1996 1997 1998 1999 2000 2001 2002
Años
Figura N° 31 – más abajo – muestra las ventas en los dos segmentos de mercado diferenciados de la empresa TVB, desde 1992 hasta 2002. Fácilmente podemos ver que las ventas en ambos segmentos están creciendo, con el componente nacional por adelante del componente internacional en cada uno de los años.
101
Millones de Unidades Monetarias
100 90 80 70 60 50 40 30 20 10 0
Nacionales Internacionales
1992 1993 1994 1995 1996 1997 1998 1999 2000 2001 2002
Años
FIGURA N° 31 EVOLUCIÓN DE LAS VENTAS DE LA EMPRESA TVB SEGÚN EL SEGMENTO DE MERCADO
Si en los gráficos se dibujan simultáneamente varios diagramas, llega un momento en el cual la vista no los puede separar y se suele crear confusión aunque éstos se hayan distinguido por colores o por diferentes tipos de trazado, esto constituye la limitación fundamental al emplear diagramas lineales como herramienta de comparación. Cuando las series a comparar se pueden considerar como componentes de una totalidad – como es el caso de la Figura N° 31 – puede ser relevante el comportamiento de la totalidad del fenómeno. En estas situaciones se emplean diagramas de línea segmentados; para su construcción se ubican los puntos correspondientes a la primera serie, luego se representan los de las siguientes series mediante una serie de puntos obtenidos manteniendo el valor de las abcisas y sumando al valor de la ordenada el correspondiente al de la serie anterior, es decir Pj+1 = (xj, yj+yj+1), de esta forma el diagrama se construye por capas que deben ser diferenciadas entre si porque cada una representa un componente específico del total. Si para tomar cierta decisión privan más los cambios relativos que los absolutos se pude transformar el diagrama segmentado de forma tal que muestre la distribución porcentual. Para determinar la distribución porcentual solo se requiere dividir la magnitud de cada componente entre la suma de las magnitudes de todos ellos y multiplicarlo por cien. La última serie que se representa siempre estará mostrada por una línea horizontal dado que la totalidad de cualquier fenómeno observado corresponde al 100% y por ende no es necesario calcularla. En los casos en que se construyen gráficos de líneas segmentados es preferible rellenar, sombrear o colorear el área delimitada por las líneas para aumentar la claridad de interpretación. Las características aquí planteadas se muestran en la siguiente figura:
102
Millones de Unidades Monetarias
Millones de Unidades Monetarias
100 Nacionales
80
Internacionales
60 40 20 0 1992
1994
1996
1998
2000
100% 80% 60% 40% 20% 0% 1992
1994
2002
Años
1996
1998
2000
2002
Años Internacionales
Nacionales
FIGURA N° 32 VENTAS TOTALES Y POR SEGMENTO DE MERCADO DE LA EMPRESA TVB, PERÍODO (1992-2002)
Después de haber pasado revista a las principales características de estos diagramas se pueden resumir algunas reglas para el trazado de diagramas lineales: 1. El cero de la escala vertical siempre debe colocarse. Si se hace necesario interrumpir la escala vertical, esto debe mostrarse en forma clara y franca con una línea quebrada. 2. La curva debe trazarse más gruesa que las coordenadas para que resalte. 3. Los títulos deben ser claros y todos los letreros y notas deben colocarse en el sentido de la lectura, si el espacio lo permite se prefiere que sea horizontalmente. 4. Las unidades que se utilizan deben destacarse claramente. 5. La longitud de los ejes debe seleccionarse de modo que la gráfica resulte balanceada a lo alto y ancho (regla de los ¾). 6. Si hay que mencionar puntos particulares de la curva, deben indicarse con notas al pie. 7. Indique siempre la fuente de información.
ii).- Diagramas de Barras Esta forma de representar los datos se utiliza con mucha frecuencia debido a la facilidad de interpretación que presenta para cualquier lector. Una gráfica de barras puede usarse para describir cualquiera de los niveles de medición: nominal, ordinal, de intervalo o de razón, por ello comúnmente se emplean para mostrar distribuciones cuantitativas donde la variable toma pocos valores distintos, también para distribuciones de frecuencias cualitativas y por último, suelen ser empleadas para representar series de tiempo. Las gráficas de barras pueden acomodar las barras en posición horizontal o vertical, prefiriéndose la primera cuando las categorías son cualitativas y cuando las etiquetas que las rotulan son relativamente extensas y las segundas cuando se representan series de tiempo. La magnitud con que viene expresada la variable es determinada por la longitud de las barras y no su amplitud, de hecho las barras deben tener el mismo ancho. Esta característica diferencia radicalmente a los histogramas de las gráficas de barra, porque en
103
los primeros las frecuencias (que corresponden al valor de la variable) están indicadas por el área de la barra19, además los histogramas se presentan siempre en forma tal que las categorías están en el eje de las abcisas y por ende las barras son verticales. Es conveniente, con el objeto de dar una visión objetiva del fenómeno, que las barras tengan una balanceada proporción, es decir, que no sean ni excesivamente cortas ni anchas, ni demasiado largas y angostas. Se debe dejar un espacio entre las barras que formen la gráfica, con la finalidad de facilitar al lector la identificación de la correspondencia entre las barras y sus etiquetas. Dicho espacio debe estar relacionado con el ancho de las barras para que ellas no estén muy separadas ni que el espacio sea demasiado pequeño; un criterio históricamente utilizado es hacer este espacio igual a la mitad del ancho de las barras. Para elaborar un diagrama de barras se debe completar la siguiente secuencia: 1. Decidir la dirección de las barras evaluando la longitud de las etiquetas y la característica que se va a exhibir. 2. Tomar un sistema de coordenadas rectangulares y colocar en el eje correspondiente (de las abscisas si la presentación es vertical y de las ordenadas en caso contrario) las etiquetas que muestran los valores que toma la variable y en el eje contrario se expresan las magnitudes a visualizar. Si la presentación es vertical estos rótulos se acomodan a la derecha, mientras que en la configuración horizontal se ubican en la parte superior como un encabezado. 3. Construir, tomando como base al eje correspondiente, unas columnas o barras, cuya altura o longitud será igual a cada una de las distintas magnitudes con que se presenta cada categoría o valor de la variable. Resulta ventajoso para la lectura de la gráfica que se dibujen líneas correspondientes a los valores de las marcas presentadas en el eje de magnitudes, de forma tal que el área de trazado de las barras o columnas se ubique sobre una especie de malla, en vez de una superficie blanca. 4. Si el nivel de medición de los valores de la variable que corresponden a cada barra o columna es nominal, deben arreglarse en forma tal que reflejen su magnitud, bien sea en orden creciente o decreciente, con la finalidad de facilitar las comparaciones entre ellas. 5. Si existe una categoría del tipo ‘todas las demás’ o ‘misceláneos’ la barra que la represente debe ubicarse al fondo del diagrama o bien la columna debe presentarse completamente a la derecha del mismo, independientemente de que se contraríe el inciso 19
Sólo en los casos de intervalos de clase del mismo ancho, como la base de cada barra es idéntica, la frecuencia y la 104
anterior, puesto que estas categorías representan un conjunto de clases relativamente insignificantes. También se aplica este acuerdo cuando se desea mostrar un valor estándar o de comparación, por ejemplo, un tiempo promedio de ejecución cuya barra o columna respectiva será menor que algunas y mayor que otras. Algunos autores suelen destacar mediante sombreado o coloración diferencial estas barras o columnas. 6. Tal como se señaló, en los diagramas de línea pueden ofrecerse interpretaciones mal fundamentadas o artificiosas si la escala de magnitudes no comienza en cero. Sin embargo, es factible que existan casos donde los valores están concentrados en alguna categoría en particular, en cuyo caso la longitud de esta barra o la altura de la columna pertinente será desproporcionada respecto a las demás, inhabilitando las comparaciones que puedan surgir entre las otras categorías. En estas situaciones debe procederse interrumpiendo la barra más alargada en el valor apropiado para observar a las otras y señalando explícitamente la magnitud que ésta representa. Recordemos nuevamente que si se desean presentar magnitudes absolutas se exige la clara identificación del valor cero para poder realizar comparaciones válidas por medio de razones o proporciones. Hasta ahora se han expuesto las técnicas y limitaciones de los gráficos de barra, sin embargo sólo se ha considerado la construcción de barras o columnas individuales sin segmentar. Estas otras cualidades, agrupación y segmentación, amplían la versatilidad y funcionalidad de los diagramas de barras. Se pueden reconocer cuatro posibilidades para los gráficos de barras o columnas: a) individuales sin segmentar, b) segmentadas, c) agrupadas, y d) bidireccionales. A continuación se puntualizarán las diferencias y las posibles aplicaciones. Las gráficas de barras o columnas segmentadas se dibujan mediante segmentos de tal manera que cada uno represente las partes componentes de un total y la longitud de la barra o altura de la columna reflejará la suma de las magnitudes de cada componente. Los segmentos deben diferenciarse adecuadamente, para lograr este propósito se suelen sombrear de distintas maneras o gracias a los equipos de impresión modernos se les dan distintos colores. Debido a que los segmentos se apilan en orden de aparición, todos los segmentos que no emerja directamente de la base de la barra o columna comenzarán en sitios diferentes por lo cual la única comparación sencilla de realizar respecto a los componentes entre sí sucede con el segmento inicial. Estas
altura de la barra son coincidentes. 105
representaciones son útiles para tratar de descubrir o resaltar proporciones, mientras se mantiene el enfoque en los totales. Cuando lo que reviste interés es la comparación entre varios componentes de una variable, y simultáneamente visualizar la relación entre las distintas categorías de dicha variable la presentación más adecuada consiste en diagramas de barras agrupadas. Las gráficas de barras agrupadas consisten en construir, en conjuntos diferenciables, distintas barras o columnas que correspondan a la comparación de dos series de datos durante varias categorías, pudiendo corresponder cada grupo de barras a distintas partes componentes de un total o ser partes diferentes totales. También se pueden comparar mediante este tipo de gráficas, dos o más categorías en períodos de tiempo distintos. Cuando se usan gráficas de barras agrupadas lo usual es no dejar espacio entre dos barras correspondientes a un grupo y dejar un espacio prudencial entre los grupos de las barras; espacio que puede, como se acotó para las barras individuales, la mitad del ancho de una de las barras. Las gráficas de barras agrupadas no permiten, a diferencia de las segmentadas, la comparación entre totales. Una ilustración con fines comparativos de la apariencia de los tipos de gráficos de barras que se acaban de precisar se tiene en la siguiente figura:
Miles de Unidades Monetarias
900
Cobre
Hierro
600
300
0 1994
1995
1996
1997
Años
(a) Columnas Agrupadas Miles de Unidades Monetarias
1200
Cobre
Hierro
900 600 300 0 1994
1995
1996
1997
Años
(b) Columnas Segmentadas FIGURA N° 33 COMPRA DE MATERIA PRIMA PARA RECICLAR POR LA EMPRESA TVB 106
Es interesante destacar que la observación de la parte (a) de la figura muestra la inexacta apreciación de que la inversión en materia prima reciclada se incrementa en el año 1996 cayendo ligeramente al año siguiente, debido a la proporción que representan las compras de material de cobre respecto al ferroso. En cambio cuando se observan los totales en las columnas segmentadas de la parte (b) se nota el efecto real que es justamente el contrario, una declinación leve en el 96 y un aumento ligero en el 97. Es interesante destacar que las barras agrupadas mantienen la claridad cuando representan tres, máximo cuatro, modalidades; si las necesidades superan estas limitaciones es mejor emplear gráficos lineales para representar las series correspondientes a cada modalidad, además, Neter y Wasserman, (1954) sostienen que es más efectivo rotular directamente las barras en vez de suministrar una leyenda. Las barras segmentadas son muy efectivas cuando presentan dos componentes, a partir de allí es más la información que ocultan que la que revelan. En las situaciones donde se desean representar cantidades positivas y negativas es útil emplear diagramas de barras de dos direcciones. Estos casos pueden ser, entre otros, ganancias y pérdidas, porcentajes de cambio en el tiempo, desviaciones alrededor de un estándar, etc. Difieren de los otros diagramas vistos hasta ahora en que las barras se extienden a la derecha y a la izquierda de una base vertical o línea ‘cero’. Debe procurarse que las barras que representan cantidades positivas se ordenen en forma descendente y en sentido contrario las que muestran cantidades negativas, de forma tal que se favorezca la comprensión del diagrama. Barras agrupadas y/o segmentadas también pueden exhibirse en dos direcciones, recordando que en la misma medida en que aumenta la elaboración y el nivel de detalle que se plasma en un diagrama se disminuye su efectividad como transmisor de información. La siguiente figura es un ejemplo del uso de diagramas bidireccionales:
Deshumidificadores Aires Acondicionados Neveras Congeladores Chillers -25
-20
-15
-10
-5
0
5
10
15
20
25
Porcentaje (%)
FIGURA N° 34 CAMBIOS PORCENTUALES DEL AÑO 2001 RELATIVO AL AÑO 2000 DE LA PRODUCCIÓN DE LA EMPRESA TVB, SEGÚN EL TIPO DE PRODUCTO 107
Por último, conviene recordar que los diagramas de barras, como todos los tipos de gráficas, tienen por finalidad dar una visión simplificada del fenómeno, por tanto nunca se debe sacrificar la claridad en aras de la cantidad de la información presentada, es decir, no es apropiado recargarlos con demasiadas partes componentes o barras agrupadas ya que esto genera gráficas muy complejas.
Un diagrama de difícil interpretación será inefectivo en su propósito, por ello, es prudente reiterar que un buen gráfico quedará balanceado, mostrará un espacio entre las barras, y presentará líneas de fondo. El autor siempre debe evaluar el producto final con criterios estéticos y verificar la claridad en la apreciación visual.
En ocasiones la esencia de la información que desea presentarse demanda el uso de diagramas combinados. A continuación se presentan algunas posibles aplicaciones con la finalidad de propiciar la reflexión acerca de lo necesario que resulta destacar visualmente los aspectos de
No Completadas
Entregadas
100 90 80 70 60 50 40 30 20 10 0
Recibidas
Número de órdenes
mayor relevancia, según lo demande la decisión que debe tomarse en cada situación:
1er trim.
2do trim.
3er trim.
4to trim.
FIGURA N° 35 NÚMERO DE ÓRDENES DE PEDIDO RECIBIDAS, ENTREGADAS E INSATISFECHAS, EMPRESA TVB AÑO 1997
La Figura N° 35 permite a quién evalúa la relación con los clientes, no sólo saber el comportamiento del volumen de pedidos (órdenes recibidas) que en este caso presenta poca variación, sino simultáneamente saber que la cantidad de órdenes no entregadas se ha estado incrementando durante el año a causa de una disminución sostenida de los envíos. Otro arreglo permite comparar la producción actual con la planificada, como se muestra en la siguiente figura:
108
300 Producción Planeada Acumulada
Número de órdenes
250 200 Producción Real Acumulada
150 100
Produción Real
50 0
1er trim.
2do trim.
3er trim.
4to trim.
FIGURA N° 36 NÚMERO DE ÓRDENES PRODUCIDAS POR LA EMPRESA TVB EN EL AÑO 1997
La Figura N° 36 permite al observador ver la brecha existente entre la producción planificada y lo llevado a cabo realmente, además de visualizar simultáneamente el comportamiento trimestral para poder puntualizar en las causas donde se produjo mayor desvío respecto a las metas. Un
Miles de Unidades Monetarias
ejemplo, donde se compara contra un estándar se ilustra de seguido: 55,0 52,5
Costo Estándar
50,0 47,5 45,0 1er trim.
2do trim.
3er trim.
4to trim.
FIGURA N° 37 COSTO DE PRODUCCIÓN UNITARIA DE CONDENSADORES TIPO “A”, EMPRESA TVB (AÑO 1997)
En el último de los diagramas, el encargado de tomar las decisiones puede observar que las desviaciones respecto al estándar no son muy pronunciadas, lo cual permite asumir que el valor fijado está bien colocado y puede ser satisfecho por la empresa. Asimismo, se observan fluctuaciones alternativas en el sentido de la variación de los costos de producción, pudiendo ahora inferir que al presentarse un trimestre con costos bajos se relajan las condiciones de operación provocando el aumento sucesivo, desatando medidas restrictivas que inciden en la baja posterior. Una presentación en conjunto de las dos últimas figuras permite presumir una relación entre el nivel de producción y el costo unitario de cada pieza. Ambas inferencias pueden dar pie a otras investigaciones que permitan afianzar las conclusiones.
109
iii).- Gráficos Circulares Este tipo de gráfica se utiliza para presentar los tamaños relativos de las partes componentes de una globalidad, mediante alícuotas superficiales de un círculo proporcionales a las magnitudes de los datos, asemejando las rebanadas de un pastel, por lo que se les denomina con frecuencia diagramas de torta. Una gráfica de pastel es especialmente útil para describir datos de nivel nominal, ejemplos clásicos de su aplicación en el contexto industrial serían la representación de la distribución de los costos de producción, la distribución de los empleados según algún atributo de interés como formación profesional, la distribución de las ganancias o de las ventas de una empresa entre otros. Para construir un diagrama de torta se considera al círculo como la representación de la totalidad del fenómeno estudiado; por tanto, se requieren representar tantas secciones como partes componentes tenga el fenómeno en estudio. La superficie de cada una de las secciones en que se dividirá del círculo deben ser proporcionales a la magnitud de cada componente representado. Para ello, se calculan los grados del arco que corresponden a ciertos valores porcentuales uniformes (p.e. en intervalos del cinco por ciento: 0, 5, 10,..., 95) por medio de una sencilla regla de tres que distribuya los 360 grados proporcionalmente a las cifras20 y se registran en el perímetro del circulo – manualmente hablando – con la ayuda de un transportador. Ahora, si usted desea graficar el 55 por ciento de participación en el total, trace una línea desde cero hasta el centro del círculo y después otra línea desde el centro hasta el punto de la circunferencia donde registró el valor de 55%. Para representar otras porciones debe proceder en dos pasos, primero agregue al 55 por ciento que ya ubicó, la próxima cantidad; supongamos ahora que la siguiente categoría en importancia representa un 19 por ciento, el resultado de la suma es 74 por ciento; luego, el área abarcada entre 55 y 74 por ciento representará la nueva alícuota, en consecuencia, usted deberá trazar una línea desde el centro del círculo hasta el punto del perímetro que corresponda al valor 74. Como en la construcción que propusimos se señalaron los valores cada 5%, no se observa una marca para el 74%. Para ubicarla deberán marcarse los puntos correspondientes al 1% dentro del sector comprendido entre 70 y 75%. Este procedimiento se reitera hasta agotar los componentes que deben ser representados, nótese que la última fracción queda dibujada automáticamente, que en nuestro caso podría representar una clase del tipo ‘todas las demás’. Una vez marcada con las líneas radiales la circunferencia, se rellenan de forma distintiva los correspondientes sectores circulares. El método se ilustra en la
20
100% → 360º 5%
→
x
⇒x=
5% × 360º = 18º 100%
110
Figura N° 38. Como las áreas del pastel representan la participación relativa de cada categoría, podemos compararlas rápidamente. Si el ejemplo utilizado significa volumen de ventas, el mayor porcentaje de los ingresos se obtiene de la primera actividad, siendo esta cantidad más de la mitad del total, y más del doble de la cantidad otorgada a la categoría que le sigue en tamaño. Además existen dos productos o servicios fundamentales y un grupo de pequeño impacto individual pero que genera más recursos en conjunto que la segunda actividad importante (26% vs. 19%).
(1) Registrar ángulos uniformemente distribuidos en la circunferencia
(2) Trazar las líneas que delimitan al primer sector desde las 12 m
(3) Identificar el porcentaje acumulado (4) Trazar la línea que delimita el segundo borde de la nueva sección para la siguiente clasificación FIGURA N° 38 CONSTRUCCIÓN DE UN DIAGRAMA DE PASTEL
Pueden puntualizarse otras recomendaciones útiles, entre ellas, señalizar cada sector del círculo con etiquetas arregladas en dirección horizontal en vez de radial; también horizontalmente, es adecuado expresar en la gráfica los porcentajes que representan las cifras respecto del total para facilitar el trabajo y la comprensión del lector. Como en todas las gráficas y diagramas la sencillez es una necesidad fundamental, es prudente emplear pocas categorías para no sobrecargar la figura. Una versión refinada del ejemplo construido en la figura previa podría verse de seguido:
111
26% Todos los Demás Compresores
55%
Refrigeradores
19%
FIGURA N° 39 DISTRIBUCIÓN DE LOS INGRESOS POR VENTAS SEGÚN PRODUCTO DE LA EMPRESA TVB, AÑO 2001
Cuando se coloca una secuencia de diagramas circulares, por ejemplo, cuando se desea comparar en el tiempo la evolución de cierta distribución, deben emplearse círculos con la misma área total para evitarle al lector interpretaciones erróneas respecto a la magnitud absoluta que ellos representan. Todos los Demás
Todos los Demás
16%
26% Compresores Refrigeradores
Refrigeradores
55%
27%
Compresores
57%
19%
(a) Año 2001
(b) Año 2002
FIGURA N° 40 COMPARACIÓN DE LA DISTRIBUCIÓN DE LOS INGRESOS POR VENTAS SEGÚN PRODUCTO DE LA EMPRESA TVB, AÑOS SELECCIONADOS
La última figura mostrada permite inferir como la empresa se está dedicando a fortalecer sus principales rubros de mercado, disminuyendo la importancia relativa de la categoría todos los
demás, mientras incrementa sus ingresos a partir de las ventas de la clase refrigeradores, manteniendo aproximadamente igual el ítem compresores.
iii).- Pictogramas Los diagramas pictóricos son representaciones gráficas que utilizan símbolos y figuras que por su forma deben sugerir la naturaleza del dato o fenómeno que se quiere representar. Si el estudio se refiere al personal de una empresa, las figuras a utilizar serán humanas. Los pictogramas tienen como objetivo mostrar comparaciones impactantes llamando así la atención de aquellas personas que por desinterés, aversión o desconocimiento de la estadística no observarían una gráfica más 112
formal. Son usadas como herramientas de comunicación efectiva debido a su apariencia atractiva. El autor pone de manifiesto su creatividad tratando de trasmitir un hecho o información que juzgue relevante para la audiencia ante la cual se presenta. Sin embargo este tipo de diagrama se utiliza muy pocas veces como ayuda al análisis estadístico serio del fenómeno representado, debido tanto a que los íconos empleados en su elaboración podrían operar como distractores, y más importante aún, por la carencia de rigurosidad con que se ajustan a escalas precisas los valores mostrados, tal como corresponde a datos de naturaleza cuantitativa. Si se emplea un pictograma ha de estarse consciente de que quien lo observe siempre le será problemático comparar alturas, áreas y/o volúmenes; por esto, en todo trabajo con pictogramas las diferencias de magnitudes de los datos se revelan empleando un mayor o menor número de figuras iguales. Las aproximaciones se hacen por fracción de figura usando mitades e inclusive cuartas partes de la misma. Las características a la que más atención debe prestársele al concebir un pictograma pueden resumirse en indicar con absoluta claridad en el encabezamiento del pictograma la cantidad representada por cada figura, las representaciones pictóricas se ajustan más cuando la información se puede presentar en forma diáfana, los íconos deben ser utilizados en arreglos naturales que no perturben la comprensión del observador, por ejemplo, si se están presentando los niveles de producción de una ensambladora de vehículos automotrices, los grupos de automóviles deben mostrarse en filas horizontales y no apilados en columnas. Cualquiera que sea el símbolo gráfico a emplear debe ser fácil e inequívocamente reconocible, y tal como se mencionó previamente, tienen que ser representativos de aquello a lo que el dato hace referencia.
FIGURA N° 41 PICTOGRAMA DEL COSTO DE PRODUCCIÓN UNITARIA DE CONDENSADORES TIPO “A” EMPRESA TVB (AÑO 1997) 113
En la Figura N° 41 se ilustra nuevamente lo mostrado en la Figura N° 37. En aquel entonces se comparaba con un costo estándar para que el gerente o supervisor de la línea de producción se percatara o investigara las fluctuaciones en los costos, entre las decisiones posibles podría incluirse realizar una presentación a los empleados de la línea de producción para conscientizarlos y motivarlos, en este caso la presentación en forma de pictograma puede ser más efectiva por su capacidad para llamar la atención.
iv).- Cartogramas
Los cartogramas son representaciones gráficas empleadas para mostrar datos estadísticos cuando por su naturaleza pueden ser clasificados por áreas geográficas. Existen al menos tres modalidades para presentar los datos de una serie geográfica en un cartograma, la más simple de todas consiste en oscurecer o sombrear las diferentes zonas geográficas de acuerdo a la magnitud de las observaciones. Es habitual que cuando se utiliza esta técnica la intensidad del sombreado será proporcional al valor de la serie en la región respectiva, siendo más oscuro para las magnitudes mayores y aclarándose a medida que el valor disminuye.
Una forma similar al sombreado es representar una cierta cantidad o valor por medio de un punto disponiendo, en cada región, un número de puntos proporcional al valor de la serie en dicha zona. Es importante destacar que con éstas técnicas puede dificultársele al observador comparar las magnitudes para diferentes regiones, si se codifican mediante sombras muchos niveles de valor diferentes, será arduo distinguir entre categorías adyacentes en valor, y si se emplean los puntos, será especialmente difícil captar el valor para aquellas zonas que exhiban los mismos en una elevada cantidad relativa al área dibujada.
Una forma que procura, pero no logra del todo, facilitar las comparaciones es presentando mapas en los que se inserten barras que denoten la magnitud de la variable medida para cada región. Sin embargo, son las únicas viables si se desean presentar sobre un mapa series obtenidas en diferentes oportunidades, porque podría incluirse una barra por cada ocasión donde se recopilasen datos. Esta variante permite las comparaciones cronológicas dentro de cada región. A continuación se muestra un ejemplo que ilustra la densidad poblacional en el país: 114
Fuente: http://www.a-venezuela.com/mapas/map/html/densidadpoblacional.html
FIGURA N° 42 DENSIDAD POBLACIONAL EN VENEZUELA POR ENTIDAD FEDERAL
Para concluir y a manera de resumen se puede señalar que no existen reglas absolutas para la construcción de los gráficos, ni tampoco puede decidirse de una manera determinística cual es la forma de presentación adecuada para cada situación en particular, lo visto hasta ahora es un promotor para estimular su ingenio cuando usted decida elaborar una presentación gráfica. Además se pretende haber indicado un conjunto de buenas prácticas y recomendaciones para construir diagramas simples y efectivos. Las representaciones gráficas solo pueden ser evaluadas una vez realizadas, apoyándose en su capacidad para trasmitir al observador la información que al autor le interesa. Por lo sugestivas y la facilidad de evocación que logran en la mayoría de las personas, las gráficas son un instrumento estadístico de gran utilidad. Los datos que proporcionan son aproximados y por esto se debe ser cuidadoso en su elaboración e interpretación, además, en múltiples ocasiones son aplicadas de forma tendenciosa, con o sin intención; por ello, siempre que vea un diagrama o una gráfica, analícela cuidadosamente tratando de descubrir que pretende mostrar el autor y si podría estar sesgado presentando una visión parcializada del fenómeno.
b)
R ESUMEN
En este capítulo se discutieron los aspectos más relevantes acerca de la presentación gráfica de la información, en el se presentaron los elementos que debe contener un buen diagrama y se particularizaron las técnicas para construir diagramas de barras, líneas o círculos, como elementos efectivos para la presentación y el análisis estadístico. Además, se introdujeron los cartogramas y los pictogramas como herramientas para captar la atención y mejorar la presentación de un reporte; pero con poca rigurosidad estadística. Se comentaron algunas de las 115
limitaciones más importantes de los gráficos y los problemas que se presentan al usar indebidamente los ejes. A pesar de su impacto y utilidad debe recordarse que los gráficos no son sino aproximaciones de los valores cuantitativos debiendo ser, por tanto, un apoyo complementario y no la base de ningún trabajo estadístico serio. En general le han sido presentados para su información y estudio los aspectos de la estadística descriptiva que atienen a la organización, clasificación, presentación e interpretación de la información, los contenidos hasta ahora expuestos son la base de todo trabajo estadístico ulterior y, además, se convierten en una herramienta útil para aplicar en otras áreas del conocimiento.
c)
E JERCICIOS P ROPUESTOS
1.- Dibuje el diagrama lineal correspondiente a las ventas de un almacén en el semestre enerojunio de un año. El reporte de contabilidad fue: enero, Bs. 675.532.000,00; febrero, Bs. 563.684.000,00; marzo, 785.322.000,00; abril, Bs. 760.520.000,00; mayo, Bs. 821.230.000,00; y junio, Bs. 890.410.000,00.
2.- Muestre en un pictograma la serie cronológica correspondiente a la matrícula de la UNEXPO en el último quinquenio.
3.- Elabore un diagrama de barras con las exportaciones de esmeraldas de Colombia en el quinquenio 1991 – 1995. En millones de dólares FOB: 1991: 142,8; 1992: 179,7; 1993: 399,6; 1994: 422,4; 1995: 452,3.
4.- En una industria el informe de contabilidad muestra que la producción fue de Bs. 62.600.000,00 y los gastos de: administración, Bs. 11.160.000,00; materiales y energéticos, Bs. 15.650.000,00; salarios y prestaciones, Bs. 18.780.000,00. Elabore a partir de estos datos un diagrama circular.
5.- El departamento de control de calidad de una fábrica que produce un tipo de tornillo de acero especial, preocupado por las desviaciones observadas en el producto, realiza un estudio aleatorio de la producción de un día midiendo cuidadosamente una muestra. Los resultados obtenidos (en cm.) son los siguientes: 96, 96, 102, 102, 104, 104, 108, 126, 126, 128, 128, 140, 156, 160, 160, 164 y 170. Construya un diagrama apropiado y justifique su selección.
116
AGRADECIMIENTOS
A Rut, por su paciencia y amor, por el tiempo que sacrificó para el logro de esta meta.
A Manuel Serafin, compañero incansable, amigo a toda prueba y apoyo personal. Gracias por estar conmigo y ser como eres.
117
V. REFERENCIAS BIBLIOGRÁFICAS 1. Arias, F.G. (1999), “El Proyecto de Investigación: Guía para su Elaboración”. (3ra. ed.) Caracas: Episteme. 2. Bessant, K., y E. MacPherson (2002), “Thoughts on the Origins, Concepts, and Pedagogy of Statistics as a ‘Separate Discipline’”. The American Statiscian, Vol. 56, 22-29. 3. Braselton, S. y B. Decker (1994), “Understanding graphic organizers to improve the reading of mathematics”. The Reading Teacher, Vol. 48, 276-281. 4. Canavos, G. C. (1987), “Probabilidad y Estadística: Aplicaciones y Métodos”. México: McGraw-Hill. 5. Castillo, H., y R. Romero (2002), “Destrezas Básicas de Enseñanza: El Desempeño Docente a través de la Técnica de la Microenseñanza”. Caracas: Universidad Central de Venezuela, Vicerrectorado Académico, Sistema de Actualización Docente del Profesorado. 6. Chou, Y. (1977), “Análisis Estadístico”. México: Interamericana. 7. Coob, G. W. y D. Moore (1997), “Mathematics, Statistics, and Teaching”. The American Mathematicat Monthly, Nro. 104, 801-823. 8. Crossley, M. (2000), “The Desk Reference of Statistical Quality Methods”. Milwaukee, WI: ASQ Quality Press. 9. Deseda, L. (1988), “Métodos Estadísticos”. Caracas: Nueva Expresión. 10. Dietrich, E., y A. Schulze (1999), “Statistical Procedures for Machine and Process Qualification”. Milwaukee, WI: ASQ Quality Press. 11. Energy and Transportation Task Force (1996), “Energy and Transportation Task Force Report”. [Documento en línea]. Presidential Council for the Sustainable Development, Washington, DC. Disponible: http://clinton4.nara.gov/textonly/PCSD/Publications/TF_Reports/energy-top.html [Consulta: 2003, Agosto 11]. 12. Garfield, J. (2002), “The Challenge of Developing Statistical Reasoning”. Journal of Statistics Education [Revista en línea], Vol. 10(3) Disponible: www.amstat.org/publications/jse/v10n3/garfield.html [Consulta: 2003, Mayo 26]. 13. Garfield, J., y B. Chance (2000), “Assessment in Statistics Education: Issues and Challenges”. Mathematics Thinking and Learning, Vol. 2, 99-125. 14. Ginsburg, H. P. (1977), “Children’s Arithmetic”. Nueva York: Van Nostrand. 118
15. González, H., Meneses, L., Rios C., y M. Fernández (1983 Reedición), “Estadistica 1: Módulos 0,1,2,3 y 4”. Caracas: Universidad Nacional Experimental “Simón Rodríguez”, Vicerrectorado Académico, Programa de Estudios Universitarios Supervisados. 16. Haber, A., y R. Runyon (1972), “Estadística General”. Los Angeles, CA: Fondo Educativo Interamericano. 17. Hald, A. (1990), “A History of Probability and Statistics and Their Applications Before 1750”. Nueva York: Wiley. 18. Hollis, R. J. (1997), “Ideas for Improving Statistics Education”. International Journal of Mathematical Eduaction in Science and Technology, Vol. 28, 569-573. 19. Juran, J., y F. Gryna (1980), “Quality Planning and Analysis”. (3ra. ed.) Nueva York, NY: McGraw-Hill. 20. Kettering, J. R. (1997), “Shaping Statistics for Success in the 21st Century”. Journal of the American Statistical Association, Vol. 92, 1229-1234. 21. Kreysig, E. (1973), “Introducción a la Estadística Matemática: Principios y Métodos”. México: Limusa. 22. Lan, W., Bradley, L. y G. Parr (1993), “The Effects of a Self-Monitoring Process on College Student’s Learning in a Introductory Statistics Course”. Journal of Experimental Education, Vol. 62, 26-40. 23. Leach, C. (1982), “Fundamentos de Estadística: Enfoque no Parámetrico para Ciencias Sociales”. México: Limusa. 24. Lewes, F. (1986), “Where Should We Start?”. [Revista en línea] Teaching Statistics. en The Best of Teaching Statistics Disponible: http://science.ntu.ac.uk/rsscse/ts/bts/lewes/text.html [Consulta: 2003, Mayo 26]. 25. Lind, D., Mason, R., y W. Marchal (2001), “Estadística para la Administración y Economía”. (3ra. ed.) México: McGraw-Hill. 26. Lobez, J., y E. Casa (1969), “Estadística Intermedia”. Barcelona: Vincens-Vives. 27. Mendenhall, W., y T. Sincich (1997), “Probabilidad y Estadística para Ingeniería y Ciencias”. (4ta. ed.) México: Prentice-Hall Hispanoamericana. 28. Méndez, C. E. (1995), “Metodología: Guía para Elaborar Diseños de Investigación en Ciencias Económicas, Contables y Administrativas”. (2da. ed.) Bogotá: McGraw-Hill. 29. Miller, I., y J. Freund (1970), “Probabilidad y Estadística para Ingenieros”. México: Reverté.
119
30. Montgomery, D., y G. Runger (1996), “Probabilidad y Estadística Aplicada a la Ingeniería”. México: McGraw-Hill. 31. Moore, D. (1997), “New Pedagogy and New Content: The Case of Statistics”. International Statistical Review, Vol. 65, 123-165. 32. Moore, D. (2000), “Undergraduate Programs and the Future of Academic Statistics” [Documento en línea]. Disponible: http://www.amstat.org/meetings/jsm/2000/usei/undergradFuture.pdf [Consulta: 2003, Julio 22]. 33. Neter, J. y W. Wasserman (1954), “Fundamental Statistics for Business and Economics”. Boston: Allyn & Bacon. 34. Newbold, P. (1997), “Estadística para los Negocios y la Economía”. (4ta. ed.) Madrid: Prentice-Hall. 35. Pearson, E. S. (Comp.) (1978), “The History of Statistics in the 17th and 18th Centuries: Against the Changing Background of Intellectual, Scientific, and Religious Thought, Lectures by Karl Pearson Given at University College London During the Academic Sessions 1921-1933.Londres: Charles Griffin & Company. 36. Portus, L. (1998), “Introducción a la Estadística”. (2da. ed.) Bogotá: McGraw-Hill. 37. Proaño, H. (1975), “Estadística Aplicada a la Mercadotecnia: Teoría y Casos Prácticos”. México: Diana. 38. PSA Peugeot, Citröen, Renault (1991), “CNOMO Norm E41.36.110.N”. Produktionsmittel, Zulassung der Funktionsfähigkeit von Meβmitteln, Spezifische Prüfmittel. 39. Rice, Marti H. (2002), “Statistical analyses: making sense of them in the research report”. Journal of Neuroscience Nursing, Vol. 34, 105-111. 40. Seldmeier, P. (1999), “Improving Statistical Reasoning: Theoretical Models and Practical Implication”. Mahwah, NJ: Lawrence Erlbaum. 41. Senge, P., Kleiner, A., Roberts, C., Ross, R., Roth, G., y B. Smith (2000), “La Danza del Cambio: los Retos de Sostener el Impulso en Organizaciones Abiertas al Aprendizaje”. Bogotá: Norma. 42. Sirias, D. (2002), “Using graphic organizers to improve the teaching of business statistics”. Journal of Education for Busines, Vol. 78, 33-38. 43. Spiegel, M. (1991), “Estadística”. (2da. ed.) México: McGraw-Hill.
120
44. Stigler, S. (1986), “The History of Statistics: The Measurement of Uncertainty Before 1900”. Cambrige, MA: Belknap Press. 45. Utts, J. (2003), “What educated citizens should know about statistics and probability”. The American Statistician, Vol. 57, 74-80. 46. Walpole, R., y R. Myers (1992), “Probabilidad y Estadística”. (4ta. ed.) México: McGrawHill. 47. Yamane, T. (1974), “Estadística”. (3ra. ed.) México: Harper & Row Latinoamericana. 48. Yule, Y., y M. Kendall (1954), “Introducción a la Estadística Matemática”. Madrid: Aguilar.
121