DESCRIPCIÓN DE VARIABLES CUALITATIVAS
En este capítulo se exponen las técnicas más sencillas que se utilizan para describir una variable cualitativa. Definiremos las variables cualitativas nominales y ordinales, los conceptos asociados a la distribución de frecuencia y los limitados estadísticos que pueden emplearse en la descripción. El capítulo se cierra con algunos de los procedimientos gráficos empleados para representar las distribuciones de estas variables. Datos nominales y ordinales
Las variables pueden ser cualitativas o cuantitativas. Variables cualitativas
Aquellas que no aparecen en forma numérica, sino como categorías o atributos (sexo, profesión, color de ojos) y sólo pueden ser nominales u ordinales. Variables nominales
Lo único que puede hacerse es establecer frecuencias en cada atributo y la igualdad o desigualdad entre los diferentes casos, ver cuál es el grupo que tiene mayor frecuencia alcanzando el concepto de “moda” (y también obtener algunas medidas de asociación cuando
se relacionan variables entre sí). Variables ordinales
Recogen la idea de orden pero no tiene sentido realizar operaciones aritméticas con ellas (acuerdo o desacuerdo con un proyecto de ley) ya que no puede medirse distancia entre una categoría y otra. Se puede establecer aquí igualdad y desigualdad, y relaciones como mayor que, y menor que. Puede establecerse orden, pero no medirse distancia dentro de ese orden. La medida estadística de tendencia central más apropiada para estas escalas es la "mediana". En una encuesta sobre el gasto turístico se pregunta a los visitantes de una autonomía cuál es la impresión que han obtenido de su viaje. La pregunta y las posibles respuestas son las siguientes: La impresión que ha tenido de su viaje ha sido: • Muy buena. • Buena. • Normal. • Mala.
También se pregunta cuál es la categoría socio-profesional socio -profesional en la que se sitúa el e l encuestado: Su profesión es: • Profesional liberal. • Directivo o empresario. • Administrativo. • Trabajador manual.
• Trabajador Autónomo. • Funcionario. • Jubilado. • Estudiante • Otras.
Las anteriores variables son de tipo cualitativo, calificándose como de tipo ordinal (la primera) y nominal (la segunda). La distinción entre ellas es clara. En la pregunta sobre la impresión del viaje, la respuesta “muy buena” indica un nivel de satisfacción mayor que “buena”, ésta última respuesta estaría a su vez por encima de “normal” y “mala” señalaría en
nivel mínimo de satisfacción. Las respuestas pueden, en algún sentido, ordenarse de menos a más. En cambio, no es posible ordenar de menos a más las respuestas de una variable como la categoría profesional. Las variables cualitativas nominales únicamente ponen nombre a una característica, las variables ordinales llevan asociadas un orden en las respuestas. Las categorías de una variable nominal, al contrario de las de una variable ordinal, no pueden ordenarse de menos a más. Distribución de frecuencias, Frecuencia relativa y frecuencia relativa acumulada
La principal herramienta de análisis de una variable de tipo cualitativo es el simple recuento del número de los casos dentro de cada categoría. Además de referirnos a las categorías de una variable, emplearemos también el término “valores” de la variable. Supongamos que tenemos una variable A , que puede tomar las categorías A1 , A2 ,…, AI . El primer objetivo es conocer cuántos individuos tienen cada característica. La principal herramienta de análisis de una variable de tipo cualitativo es el simple recuento del número de los casos dentro de cada categoría. En estadística, el número de veces que se repite una de las categorías o valores de la variable se denomina frecuencia o, de manera más precisa, frecuencia absoluta (que denotaremos ni ). Por distribución de frecuencias se entiende el registro de todas las posibles categorías o valores de la variable, junto con sus frecuencias asociadas . Además de las frecuencias absolutas se suelen presentar las frecuencias relativas de cada categoría. La frecuencia relativa se define como la frecuencia absoluta dividida por el total de observaciones:
Cuando se trabaja con una variable de tipo ordinal (cuyas categorías se pueden ordenar de menor a mayor) se pueden calcular las frecuencias acumuladas . La idea de acumulación facilita conocer rápidamente el número de observaciones que están por debajo de un determinado valor o categoría. Se distingue entre frecuencias acumuladas absolutas y relativas . La frecuencia absoluta acumulada se define como:
Y la frecuencia relativa acumulada como:
Recuerde que tiene sentido hablar de valores acumulados cuando las respuestas de la variable se han ordenado de menor a mayor, lo que sólo es posible si la variable cualitativa es de tipo ordinal. La imagen estándar de una distribución de frecuencias es tan sencilla como la que se muestra en el (cuadro 1). En la misma aparecerían, para el total de n observaciones, los I distintos atributos de la variable, sus frecuencias absolutas, las frecuencias relativas y las frecuencias relativas acumuladas.
Ejemplo 1:
El régimen de propiedad de la vivienda familiar puede considerarse como una variable cualitativa, distinguiendo tres posibles categorías: la vivienda está en alquiler, la vivienda es de propiedad con la hipoteca pendiente o la vivienda es de propiedad sin hipoteca. Ante una muestra concreta de familias, podemos describir de una manera cuantitativa su relación con la propiedad de su vivienda. En el (cuadro 2) se muestra la distribución de frecuencias de una muestra de 4791 declarantes de IRPF. Aunque no es estrictamente necesario suele ser cómodo, cuando se graban los datos, convertir las categorías en etiquetas numéricas. En nuestro ejemplo se ha definido una variable denominada “vivienda” que toma un valor igual a 0 cuando la vivienda
es de alquiler, igual a 1 cuando la vivienda es de propiedad pero tiene la hipoteca aún vigente y valor 2, si la vivienda es de propiedad y sin hipoteca.
En el cuadro 2 aparecen los siguientes conceptos: Los valores que toma la variable ( Value ) Para esta variable los valores 0, 1 y 2 reflejan las categorías de alquiler, vivienda con hipoteca vigente y vivienda de propiedad (en la columna Value Label se muestran las “etiquetas” de la variable).
La Frecuencia absoluta (Frequency )
El número de individuos que tiene cada una de las categorías. La frecuencia relativa (Percent ) Definida como el cociente entre la frecuencia absoluta y el número total de observaciones. La frecuencia relativa acumulada (Cum Percent ) La frecuencia relativa acumulada se define como la suma acumulada de los porcentajes relativos de las categorías anteriores y hasta la propia categoría. La vivienda en propiedad y ya pagada, con un 43.1% de los declarantes tiene el mayor porcentaje de individuos. La segunda es la categoría de vivienda en alquiler, con un 36.8% de declarantes. Finalmente, la categoría con menos individuos corresponde a la de declarantes que viven en vivienda de propiedad, aún no pagada. La importancia de cada una de las categorías es fácil de percibir cuando el número de categorías de la variable es muy pequeño. Los porcentajes acumulados no tienen una interpretación “inocente” cuando se tratan
variables de tipo cualitativo. La información de que el 56.9% de los individuos viven en régimen de alquiler o en vivienda propia con hipoteca puede ser una información sin sentido. • La frecuencia relativa
se define como la frecuencia en cada clase dividida por el total de
observaciones: La frecuencia relativa acumulada en cada clase se define, una vez ordenadas las respuestas desde la categoría inferior a la superior, como: •
En variables de tipo cualitativo nominal el porcentaje acumulado de frecuencias no debe leerse de manera automática, puesto que al no existir un orden en las categorías, el sentido de la acumulación puede ser confuso. •
Diagrama de barras
Los resultados de la distribución de frecuencias se pueden acompañar de ayudas gráficas que facilitan la lectura de la información. El diagrama de barras representa, para cada una de las categorías de la variable (indicada en uno de los ejes de la gráfica), su frecuencia absoluta o relativa (que se muestra en un segundo eje). Su objetivo es disponer de una visualización clara y rápida de la importancia de cada una de las categorías de la variable. En la gráfica 1 se muestra el diagrama de barras correspondiente al ejemplo anterior. El diagrama de barras representa gráficamente las frecuencias (absolutas o relativas) de la variable.
Moda
En el Ejemplo 1 sobre el régimen de propiedad de la vivienda uno de los resultados obtenidos era que la categoría con un porcentaje mayor de individuos era la 2 (vivienda en propiedad sin hipoteca). Esta percepción puntual puede convertirse en el primer estadístico de resumen, ya que saber cuál es la categoría más frecuente de una variable dice algo del comportamiento general del grupo de individuos. Conocer el valor con mayor frecuencia permite disponer de una medida sintética de cuál es la tendencia general de las observaciones. A este valor se le denomina moda de la distribución. La moda de una distribución es el valor de la variable con mayor frecuencia. En ocasiones, las distribuciones de frecuencias se pueden caracterizar en función de la moda , distinguiendo entre distribuciones con una única moda (distribuciones unimodales ) y distribuciones en las que son dos o más de dos los valores que alcanzan la máxima frecuencia (distribuciones bimodales o multimodales , respectivamente).
Es difícil encontrar distribuciones empíricas que sean multimodales en el sentido estricto en que aquí se han definido, es decir, que de manera exacta varios valores tengan la misma frecuencia. Sin embargo, resulta interesante detectar distribuciones en las que dos o más valores tienen frecuencias más altas que los demás. En la práctica estas distribuciones se denominan también multimodales . La explicación de esta flexibilidad puede encontrarla en la comparación de las gráficas 2 y 3. Ambas representan dos distribuciones ficticias de una variable que tomaría ocho categorías. En la primera distribución se observa una doble moda, con las categorías A3 y A7 con superior e igual frecuencias absolutas. En la segunda distribución la moda se encuentra en la categoría A3 , pero resulta obvio que cualquier comentario sobre la distribución que ignorase la categoría A7 “falsearía” la imagen de conjunto que se desea transmitir. Hablar de una distribución bimodal , con una primera moda situada en la categoría A3 y una segunda moda en la categoría A7 resultaría ser un retrato más fiel de las observaciones.
Mediana
En el caso de variables cualitativas ordinales la moda no es el único estadístico con significado. Puesto que en las variables ordinales existe un sentido de orden en sus categorías, si éstas se ordenan de “menos” a “más”, la distribución de frecuencias
acumuladas tendrá una interpretación. La mediana es aquella característica de la distribución que ocupa la posición central de la misma. Ordenados los valores de la variable (de menor a mayor), la mediana define aquel punto que deja por debajo de sí mismo el 50% de la distribución. Ordenados los valores de la variable (de menor a mayor) la mediana es aquel valor de la distribución que ocupa el valor central de la misma. Ejemplo 2. Investigación comercial de un nuevo producto . Las empresas, antes de lanzar un producto nuevo, realizan pruebas para medir su aceptación. Una práctica habitual es ofrecer una muestra del producto a algunos consumidores potenciales. Una encuesta posterior permitirá conocer el nivel de satisfacción del consumidor y las modificaciones que podrían resultar adecuadas. Supongamos que una empresa productora de un abrillantador de muebles reparte de manera aleatoria 236 unidades de un nuevo producto entre un número igual de posibles consumidores, realizando después una encuesta sobre el nivel de satisfacción respecto al producto. En el cuadro 3 se reproducirían los resultados obtenidos.
La variable cualitativa presenta cuatro posibles respuestas, indicando cada una de ellas el nivel de satisfacción del consumidor. Existe una quinta opción que recoge la categoría de aquellas personas que finalmente no han empleado el producto y que, en esta ocasión, se han definido como “valores perdidos” ( missing ). En los resultados del programa aparecen dos columnas de porcentajes. En la primera, el total de observaciones (hayan empleado o no el producto) se recoge como referencia para calcular las frecuencias. En la segunda columna (valid percent ) se calculan lo que se denominan “porcentajes válidos”, calculándose las frecuencias con referencia al número de individuos que han empleado el producto. Las características más relevantes de la distribución serían una moda para la categoría de “bastante satisfactorio” (43% de las respuestas válidas) y un valor mediano en la misma
categoría, al acumularse dentro de ella el 50% de consumidores. Además, en los porcentajes acumulados puede leerse que sólo el 16,6% de los consumidores consideran el producto “nada ” o “ poco ” satisfactorio.
El diagrama de barras de la distribución se representa en la gráfica 4, apareciendo esta vez en el eje vertical las frecuencias relativas. Destaque de los resultados anteriores el hecho de que la lectura de los porcentajes acumulados (y, por tanto de la mediana) tiene sentido al tratarse de una variable cualitativa de tipo ordinal.
Pictograma
Junto a los diagramas en barra es posible representar la importancia de cada una de las categorías usando otro tipo de gráficas. El pictograma no es más que un círculo en el que se representan las categorías de la variable proporcionalmente a su frecuencia . La regla de proporcionalidad se consigue definiendo los ángulos proporcionalmente a las frecuencias. Así, una categoría con una frecuencia relativa del 40.4% debería cubrir un ángulo igual a 0.404⋅3600=145.440. En la gráfica 5 se representan las frecuencias relativas del ejemplo anterior por medio de un pictograma .
Gráfica 5
Diagrama de Pareto
Si se quiere resaltar la distribución de frecuencias acumuladas puede emplearse el denominado diagrama de Pareto . Éste no es más que un diagrama en barras en el que las categorías se ordenan de mayor a menor frecuencia, dibujando sobre las barras una línea indicativa de la frecuencia acumulada hasta esa categoría. La gráfica se puede realizar tanto sobre variables nominales como ordinales. El diagrama de Pareto es un diagrama de barras en el que las categorías se ordenan de mayor a menor frecuencia, dibujando una línea indicativa de la frecuencia acumulada hasta esa categoría. Ejemplo 3. Control de producción .
Una empresa sufre continuas paradas en su cadena de producción. Dada la importancia de las consecuencias económicas de estas paradas se decide controlar durante un mes cuáles son las razones que las ocasionan. Para ello se solicita de los operarios que anoten el tipo de percance y el tiempo que tarda en arreglarse, desde que se detecta hasta que se soluciona el problema. Las causas detectadas (seis causas particulares a este proceso de producción) así como su frecuencia y el tiempo de parada se reproducen en el (cuadro 4).
En total, como consecuencia de 39 paradas, se han perdido 204 minutos en un mes de trabajo. El tiempo de parada y el número de paradas se pueden analizar a partir de los correspondientes diagramas de Pareto. En la gráfica 6 se observa que las tres causas más frecuentes de parada son la sexta, primera y segunda, por este orden. Estas tres primeras causas, tal como se observa en la línea continua del diagrama, representan un porcentaje alto del total de paradas, en concreto un 79,5% de éstas, (11+10+10)/39. En la gráfica 7 se puede observar, sin embargo, que no todas las paradas tienen igual importancia en cuanto al tiempo de interrupción. Las tres primeras causas (primera, sexta y tercera) suponen un 80,4% del tiempo de parada, (70+53+41)/204. Si el interés de la empresa se encuentra en reducir al máximo el tiempo de parada (y no tanto el número de veces en que la producción
se detiene) debería centrarse en los determinantes de la rotura de tornillos, los desajustes de temperatura y la rotura o bloqueo de cintas.
MEDIDAS DE APUNTAMIENTO Y ASIMETRÍA MEDIDA DE APUNTAMIENTO O CURTOSIS
Miden la mayor o menor cantidad de datos que se agrupan en torno a la moda. Se definen 3 tipos de distribuciones según su grado de curtosis: Distribución mesocúrtica
Presenta un grado de concentración medio alrededor de los valores centrales de la variable (el mismo que presenta una distribución normal). Distribución leptocúrtica: presenta un elevado grado de concentración alrededor de los valores centrales de la variable. Distribución platicúrtica: presenta un reducido grado de concentración alrededor de los valores centrales de la variable.
El número de días necesarios por 10 equipos de trabajadores para terminar 10 instalaciones de iguales características han sido: 21, 32, 15, 59, 60, 61, 64, 60, 71, y 80 días. Calcular la media, mediana, moda, varianza y desviación típica. SOLUCIÓN: La media
Suma de todos los valores de una variable dividida entre el número total de datos de los que se dispone:
La mediana
Es el valor que deja a la mitad de los datos por encima de dicho valor y a la otra mitad por debajo. Si ordenamos los datos de mayor a menor observamos la secuencia: 15, 21, 32, 59, 60, 60,61, 64, 71, 80. Como quiera que en este ejemplo el número de observaciones es par (10 individuos), los dos valores que se encuentran en el medio son 60 y 60. Si realizamos el cálculo de la media de estos dos valores nos dará a su vez 60, que es el valor de la mediana.
La moda
El valor de la variable que presenta una mayor frecuencia es 60 La varianza S 2
Es la media de los cuadrados de las diferencias entre cada valor de la variable y la media aritmética de la distribución.
Sx2= La desviación típica S
Es la raíz cuadrada de la varianza. S = √ 427,61 = 20.67 El rango
Diferencia entre el valor de las observaciones mayor y el menor. 80 - 15 = 65 días El coeficiente de variación
Cociente entre la desviación típica y el valor absoluto de la media aritmética CV = 20,67/52,3 = 0,39 Coeficiente de apuntamiento
La otra medida de forma que vamos a considerar es el apuntamiento, al igual que con la simetría hemos de tomar una referencia para ver si la distribución de los datos es apuntada o no. Esa referencia será la distribución normal, distinguiremos tres casos que la distribución sea más picuda que la normal, igual a ella o más aplastada. Para poder comparar las distribuciones con la normal podemos tomar el estadístico
La distribución normal toma para a 4 el valor 3, por tanto podemos hacer dos cosas tomar este estadístico y clasificar el apuntamiento en función de que su valor sea mayor, igual o menor que 3, o bien hacer una corrección para que el centro de referencia esté en cero. Con esta premisa se define el coeficiente de aplastamiento de Fisher (curtosis) como
Teniendo en cuenta el coeficiente de aplastamiento de Fisher podemos decir que: Si normal.
la distribución se llama Leptocúrtica, las frecuencias son más apuntadas que la
Si la distribución se llama Mesocúrtica, la distribución tiene el mismo apuntamiento que la normal. Si
se denomina Platicúrtica, es menos apuntada que la normal.
MEDIDA DE ASIMETRÍA
Diremos que una distribución es simétrica cuando su mediana, su moda y su media aritmética coinciden. Diremos que una distribución es asimétrica a la derecha si las frecuencias (absolutas o relativas) descienden más lentamente por la derecha que por la izquierda. Si las frecuencias descienden más lentamente por la izquierda que por la derecha diremos que la distribución es asimétrica a la izquierda. Existen varias medidas de la asimetría de una distribución de frecuencias. Una de ellas es el Coeficiente de Asimetría de Pearson :
Su valor es cero cuando la distribución es simétrica, positivo cuando existe asimetría a la derecha y negativo cuando existe asimetría a la izquierda.