DE YULE DE ASOCIACIÓN ENTRE VARIABLES CUALITATIVAS DICOTÓMICAS O DICOTOMIZADAS UN EJEMPLO DEL PROCEDIMIENTO DE 3. CÁLCULO DE: 4. COEFICIENTE DE COALIGACIÓN < w> (OMEGA MINÚSCULA)
212
212
2.
5. UN EJEMPLO DE CÁLCULO
214 215 215 216
CUADRO Nº 47: COEFICIENTE DE ASOCIACIÓN c2 (JI CUADRADO) CON VARIABLES CUALITATIVAS DICOTÓMICAS
217
1.
DEFINICIÓN
217
2.
LAS DOS FÓRMULAS DEL
217
3.
UN PROBLEMA PARA EJEMPLIFICAR EL PROCEDIMIENTO DE CÁLCULO
219
CUADRO Nº 48: EL COEFICIENTE c2 (JI CUADRADO) PARA VARIABLES CUALITATIVAS POLICOTÓMICAS (1ª PARTE: CÁLCULO DE LAS FRECUENCIAS TEÓRICAS) 1.
INTRODUCCIÓN
222
2. CÁLCULO DE LAS FRECUENCIAS TEÓRICAS DE CADA CASILLA 3. TRANSCRIBIR LAS FRECUENCIAS EMPÍRICAS A LA TABLA DE CONTINGENCIA 4. HALLAR LAS FRECUENCIAS MARGINALES 5. CÓMO OBTENER LAS TEÓRICAS DE CADA CASILLA
222
FRECUENCIAS
223
223 224 224
Estadísticos e-Books & Papers
Pág.
CUADRO 49º: EL COEFICIENTE c2 (JI CUADRADO) PARA VARIABLES CUALITATIVAS POLICOTÓMICAS (2ª PARTE: CÁLCULO DEL COEFICIENTE c2) 1.
LAS TABLAS DE FRECUENCIAS EMPÍRIAS Y DE LAS FRECUENCIAS TEÓRICAS CALCULO DEL VALOR DE CADA SUMANDO
1.
CUADRO Nº 50: COEFICIENTES DE ASOCIACIÓN DERIVADOS DEL COEFICIENTE < c2 > 1.
RELACIÓN DE COEFICIENTES DE ASOCIACIÓN DERIVADOS DEL COEFICIENTE(JI CUADRADO) COEFICIENTE DE CONTINGENCIA 2. COEFICIENTE DE CONTINGENCIA MÁXIMO: . COEFICIENTE CORREGIDO: 4. 3.
5.
UN EJEMPLO DE CÁLCULO
226 227
229
229 229 230 231 232
6. COEFICIENTEDE CRAMERS
232
7. COEFICIENTE T2 DE TSCHUPROW
233
8. COEFICIENTE < f2 > (FI CUADRADO)
233
EPÍLOGO EL USO DE LOS PROGRAMAS INFORMÁTICOS DE ESTADÍSTICA 1.
226
235 235
DISPOSITIVOS ELECTRÓNICOS Y PROGRAMAS INFORMÁTICOS PARA LOS ANÁLISIS ESTADÍSTICOS EL PROGRAMA INFORMÁTICO2.
235
DESCRIPCIÓN DE LA VENTANA
237
3.
236
Estadísticos e-Books & Papers
INTRODUCCIÓN Amigo lector: Tienes ante tus ojos un libro dedicado a exponer los contenidos de la Estadística Descriptiva. Ha sido redactado con el único fin de ayudarte a comprender los conceptos de la estadística descriptiva y a dominar los procedimientos de cálculo de todos los índices univariables (tendencia central, variabilidad, asimetría y apuntamiento) y los índices bivariables (coeficientes de correlación y asociación) y multivariables (coeficiente de correlación múltiple y de correlación parcial). Los índices se presentan con la mayor claridad posible para facilitar la comprensión del concepto, de sus fórmulas, la identificación de los símbolos matemáticos que las integran y, sobre todo, el desarrollo de todo el procedimiento de cálculo, aplicado a un problema, con ablas adecuadas a cada índice, en las que se van recogiendo progresivamente los resultados de las operaciones aritméticas que prescribe la órmula, con una descripción minuciosa de cada paso, uno a uno, no dando por sentado conocimientos matemáticos, por muy básicos que sean, sinpasos del proceso de cálculo. Acompañan al texto las tablas de áreas bajo la curva normal a partir de la puntuación , tablas de valores críticos de las correlaciones biserial y biserial puntual y del coeficiente ( ji cuadrado). Para una mejor comprensión del papel instrumental de la Estadística en la investigación científica experimental, se ofrecen consideraciones sobre los saberes humanos, las ciencias explicativas y las interpretativas, las fases del método hipotético-deductivo, las variables y las escalas de medida. Aunque todos los cálculos propuestos en este libro pueden ser realizados con una calculadora científica manual, dedicamos un epílogo a una muy breve guía de uso del programa informático SPSS (Stastistic Program for Social Sciences) para aquellos casos con un gran número de sujetos con sus puntuaciones, con la búsqueda combinada de varios índices y con complejos y repetitivos cálculos.
Estadísticos e-Books & Papers
CUADRO Nº 1: LAS CIENCIAS EXPLICATIVAS Y EL MÉTODO CIENTÍFICO 1. LOS DISTINTOS SABERES DE LA CIVILIZACIÓN Los saberes que constituyen el fundamento de la civilización humana pueden ser clasificados siguiendo distintas tipologías, la que aquí presentamos no es la más exhaustiva y rigurosa, pero como marco que relaciona las ciencias sociales con la Estadística, la estimamos válida para este propósito. a. FILOSOFÍA: su objeto de estudio es el(Ortega y Gasset). Sus disciplinas son la Ética, la Metafísica, la Teoría del
Conocimiento (Crítica), la Estética,…Su metodología es muy variada: especulación, fenomenología, análisis del lenguaje… b. CIENCIAS
Distinguimos entre: 1) 2)
Ciencias formales (Matemáticas, Lógica y Epistemología). Su método es axiomático y deductivo. Ciencias materiales: 1)
Ciencias explicativas/experimentales (Física, Química, Biología, Astronomía, Fisiología, Neurología, Psicología… y ciencias derivadas y afines). Su metodología, con variantes adaptadas a sus particulares objetos de estudio, es el conocido como, que con mayor precisión debería nombrársele como: , nacido en las obras de Roger Bacon, Guillermo de Occam, Galileo Galilei, Sir Francis Bacon, Sir Isaac Newton, John Stuart Mill, Henri Poincaré, Sir Karl Popper, etc.
2)
Ciencias interpretativas: Historia, Teología, Etnografía, Derecho... Interpretan, buscan el significado y el sentido a textos orales, escritos, gestuales, gráficos, musicales,…
3)
Ciencias de los signos (Semiótica): Semiología, Morfología, Fonética, Fonología, Sintaxis, Semántica, Pragmática,…
4)
Ciencias aplicadas y Tecnologías, derivadas preferentemente de las ciencias formales y explicativas:
d I) Sobre la salud y la actividad física: Anatomía, Histología, Farmacología, Terapéutica, Psiquiatría, Psicoterapia, Enfermería, Estomatología, Pediatría, Podología… d II) Sobre la educación. Psicopedagogía, Psicodidáctica, Organización escolar,… d III) Sobre la producción de bienes agrícolas, industriales, mineros, de transporte y comerciales: Ingeniería en sus distintas especialidades, Agronomía, Veterinaria, Cibernética, Informática, Robótica, Aviónica, Economía,… d IV) De la comunicación social y relaciones jurídicas: Periodismo, Derecho,Otras ciencias que en unos aspectos pertenecerían a las ciencias explicativas y en otros a las interpretativas, como podría ser, con ciertas reservas, la Geografía, la Sociología,… a. HUMANIDADES Y BELLAS ARTES: Promueven las relaciones humanas, interpersonales e intrapersonales, dentro de las sociedades y
los grupos humanos, respecto a los valores éticos, científicos, culturales, religiosos, estéticos, económicos,, políticos, deportivos, musicales, de ocio…
2. CARACTERÍSTICAS DE LAS CIENCIAS EXPLICATIVAS Sobre las ciencias explicativas, puras y aplicadas, como las ciencias de la conducta (Psicología, Psicopedagogía,…), podemos decir que Intentan reducir la complejidad del cosmos, en sus distintas realidades, a regularidades comprensibles y comprobables intersubjetivamente. También se las conoce como ciencias positivas, pues trabajan con( ) por la Naturaleza, lo dado ( ) por ella: los (los datos). Las ciencias explicativas son saberes o sea son sistemas de leyes o proposiciones generales sobre fenómenos que se repiten, rente al saber que estudia hechos únicos, como lo hace la Historiografía. La característica distintiva de las ciencias explicativas/positivas es el uso exclusivo del método conocido como método . Las ciencias explicativas establecen las relaciones de identidad, igualdad, reciprocidad, causa-efecto... Sus conclusiones tienen que ser verificables y la expresión de esas relaciones tiende a ser de naturaleza matemática. 3. EL MÉTODO CIENTÍFICO POSITIVO Para poder comprender el papel que juega la Estadística en la aplicación del método científico, creemos conveniente presentar una visión panorámica del método científico, concretamente en las ciencias explicativas y en las ciencias aplicadas o tecnologías que se derivan de los hallazgos de aquellas. Siendo la Estadística una rama de las Matemáticas (por tanto una ciencia formal) viene a ayudar a describir e inferir relaciones existentes entre objetos estudiados en las ciencias explicativas por medio de la aplicación del método experimental conocido como .
Estadísticos e-Books & Papers
El método (inductivo)-hipotético-deductivo es propio del paradigmaque se aplica a datos cuantitativos. 4. DESARROLLADORES DEL MÉTODO El método científico positivo/experimental es el método hipotético-deductivo, cuyos representantes más destacados son: Alhacén, Avicena, Roger Bacon, Robert Grosseteste, William of Ockham, Galileo Galilei, René Descartes, Sir Francis Bacon, Sir Isaac Newton, Hans Christian Orsted, John Stuart Mill, Charles Sanders Peirce, William Whewell, William Stanley Jevons, Henri Poincaré, Sir Karl Popper y otros muchos.
Estadísticos e-Books & Papers
5. LOS GRADOS DE PERFECCIÓN DE LAS CIENCIAS EXPLICATIVAS El grado de perfección de cada ciencia explicativa es, entre otros, el nivel alcanzado, dentro de los siguientes niveles de sus propósitos: a. Descripción de fenómenos y de sus elementos. b. Explicación de las relaciones entre los elementos intervinientes en el fenómeno estudiado. c. Predicción de la aparición de un fenómeno a partir del conocimiento de las relaciones entre los elementos del fenómeno. Vemos estos
niveles: DESCRIPCIÓN En la simple descripción se presentan con palabras y números los resultados de las observaciones de las características (variables) que son perceptibles en los objetos (cosas, animales y seres humanos, sus sociedades y organizaciones) tal como son captados por los sistemas sensoriales directamente o a través de dispositivos que los amplían y/o los miden. EXPLICACIÓN El segundo nivel de perfección que la ciencia es su poder de explicación de los fenómenos que ha descrito tras la observación. Para la explicación, son necesarias la formulación de hipótesis y la experimentación, la cuasi experimentación o la experimentacióno la correlacional. PREDICCIÓN Si además de la descripción y la explicación, es posible predecir la evolución del fenómeno estudiado y los resultados finales de esta evolución, nos encontraríamos en el nivel superior de la calidad del rigor en una ciencia. Así, por ejemplo, la astronomía es una ciencia que describe, explica los porqués de los movimientos celestes, y es capaz de predecir los eclipses, las órbitas de los planetas y otros muchos enómenos propios de esta ciencia. En el nivel actual de desarrollo de las ciencias, la Física, la Química, la Astronomía y en menor medida la Biología alcanzan el nivel superior: la predicción. 6. LAS CUATRO ETAPAS DEL MÉTODO EXPERIMENTAL El método científico sigue un proceso de cuatro etapas: 1º Observación de los fenómenos e identificación de variables. 2º Inducción de probables relaciones entre variables. 3º Formular la hipótesis que es una conjetura sobre la relación existente entre dos variables y que debe ser aceptada o rechazada. Para ello hay que concretar y definir la relación. Se distinguen dos variables en cada hipótesis: una variable independiente (X) y una variable dependiente (Y). Se establece la hipótesis nula (no existe relación entre ambas variables) y la hipótesis alternativa (sí existe una relación entre las dos variables). Si los resultados no apoyan la hipótesis alternativa, aceptamos la hipótesis nula. Cuando admitimos la hipótesis alternativa o la hipótesis nula, debemos hacerlo con un determinado riesgo de error. La estadística podrá ayudarnos a tomar la decisión correcta. 4º Elegir el diseño más adecuado para rechazar la hipótesis nula. He aquí los cuatro diseños: a. b. c. d.
Un experimento Un cuasi-experimento Un experimento. Un experimento de correlación entre variables cuantitativas o de asociación entre variables cualitativas.
El orden de los cuatro tipos de diseños experimentales responde al rigor científico de cada uno de ellos: el mayor rigor lo ostenta el diseño experimental y el menor, al diseño de correlación entre variables cuantitativas y el de asociación entre variables cualitativas. En los dos primeros se manipula la variable independiente y en el tercero, se selecciona las variables independientes no manipulables. En los tres primeros tipos se procura controlar las variables extrañas. A partir de los resultados obtenidos en el experimento, se acepta la hipótesis o se rechaza, con un nivel de error. 5º Con las conclusiones deducidas de los resultados, el científico formula los modelos o teorías que acogerán y sistematizarán el conjunto de las relaciones que no han sido rechazadas en los experimentos, siempre con la asunción de un grado de riesgo de error. 7. PAPEL DE LA ESTADÍSTICA EN EL MÉTODO EXPERIMENTAL Las dos primeras fases del método experimental son la observación y medición de los fenómenos y la inducción. Ya Aristóteles señalo que la inducción incompleta no es nunca concluyente. Pero la inducción completa (observaciones de todos los objetos existentes en una) es de hecho imposible. Por tanto, es necesario recoger muchas observaciones y mediciones de las variables involucradas en el fenómeno estudiado y comprobar que en todas ellas aparece la relación entre dos variables, una independiente y otra dependiente. Sintetizar esos datos es area de la Estadística Descriptiva. Cuanto mayor sea el número de casos observados (muestra) en los que se cumple la relación (causa efecto, condicional…) observada entre ambos variables, habrá más probabilidad de que se cumpla en todos los casos (población o universo). El salto desde la muestra o muestras a la población es cometido de la Estadística Inferencial. El ideal del método científico es llegar a una función matemática (exacta o probabilística) de una relación entre, al menos, dos variables. La Estadística es indispensable en el desarrollo de las cuatro fases del método experimental. a. Sirve para describir los grados de presentación de las variables en muestras. Estadísticos e-Books & Papers
b. Sirve para inducir la relación. c. Sirve para la formulación de hipótesis. d. Sirve para el diseño del experimento, del cuasi experimento o del proceso, que pondrá a prueba las hipótesis principal y
alternativas. e. Sirve para inferir la validación o(término y concepto acuñado por Sir Karl Popper: demostrar que una proposición es falsa)
de los resultados obtenidos en una prueba experimental.
Estadísticos e-Books & Papers
CUADRO Nº 2: NATURALEZA DE LA CIENCIA ESTADÍSTICA 1. ETIMOLOGÍA DE ESTADÍSTICA. El matemático alemán Gottfried Aschenwall fue el primero en utilizar el términocon el significado de . procede de la palabra alemana que puede traducirse por . Para otros, procedería del término latino: (lo relativo al ). es participio pasivo del verbo , , (tener una posición>). Un precedente sería el (Consejo de Estado) de la época imperial romana. 2. DEFINICIÓN La Estadística, como rama de las Matemáticas, es una ciencia formal, estrechamente relacionada con la Teoría de la probabilidad. Es una ciencia transversal e instrumental/auxiliar, pues sirve para investigar en muchas ciencias, desde la Física a las ciencias sociales y conductuales. Estudia las grandes leyes que rigen el comportamiento de las grandes masas de datos que dependen de causas poco o nada conocidas e incontrolables dada su complejidad de interacciones, pero que presentan ciertas regularidades. Emplea modelos de reducción de la información de análisis de validación de los resultados en términos de representatividad. Escotet,(1973) define la Estadística con estas palabras: .
3. CLASIFICACIÓN DE LA ESTADÍSTICA. Según el criterio adoptado, la estadística puede ser clasificada de distintas maneras. Los criterios clasificatorios son: La función Número de variables implicadas. Modelo probabilístico. Tipo de variables y escalas de medida.
1) 2) 3) 4)
a. POR LA FUNCIÓN: 1)
Estadística descriptiva: busca describir por medio de cuatro tipos de índices que resuman y representen los valores obtenidos en la aplicación de instrumentos de medida a una o a dos variables en una muestra. La estadística descriptiva se refiere sólo a los datos observados, y comprende su tabulación, representación gráfica y descripción, a fin de hacerlos más manejables, pudiendo así comprenderlos e interpretarlos mejor (Bisterra).
2)
Estadística inferencial: busca obtener valores(valores estimados de las poblaciones) a partir de (valores obtenidos en muestras). La estadística inferencial alcanza conclusiones probabilísticas sobre las características de una población a partir de los índices propios de los análisis de la Estadística Descriptiva.
Sin la Estadística Descriptiva es imposible la Estadística Inferencial. Por tanto, la primera tarea de toda análisis estadístico es el análisis de los datos, o sea describir, por medio de ciertos índices, los resultados obtenidos tras la aplicación de una escala de medida a una o más variables en una muestra. Con estos índices, es posible manejar los datos y facilitar los análisis propios de la estadística inferencial, la que hace posible la comprobación de hipótesis, infiriendo los valores estimados en la población a partir de los datos obtenidos en las muestras supuestamente incluidas en la población. b. POR EL NÚMERO DE VARIABLES MEDIDAS SIMULTÁNEAMENTE A UN MISMO GRUPO DE SUJETOS:
Estadística univariable
1)
Se refiere a una sola variable. Incluye básicamente las medidas de tendencia central, de variabilidad, de simetría y apuntalamiento. Estadística bivariable
2)
La estadística bivariable se refiere a las relaciones entre dos o más variables en una misma muestra: los coeficientes de correlación y de asociación. Estadística multivariable
3)
Estadística multivariada es aquella que analiza simultáneamente más de dos variables, como por ejemplo la regresión múltiple, el análisis multivariante o de la varianza, el análisis factorial, el análisis discriminante y la correlación canónica entre otros. c. POR EL TIPO DE MODELO PROBABILÍSTICO QUE SUBYACE EN LAS VARIABLES: 1)
Estadística paramétrica es aquella que puede aplicarse a variables que cumplen los supuestos de:
1) Normalidad: su distribución se ajusta a la curva normal. 2) Homocedasticidad (igualdad en la dispersión). 3) Linealidad 2)
Estadística no paramétrica: la que opera con variables que no cumplen las tres condiciones anteriores. Estadísticos e-Books & Papers
d. POR EL TIPO DE VARIABLES Y LAS ESCALAS DE MEDIDA ADECUADAS A CADA TIPO:
1) 2) 3)
Estadística de variables cualitativas/atributos, medidas en escala nominal. Estadística de variables cuantitativas discretas, medidas en escala ordinal, o de intervalo. Estadística de variables cuantitativas continuas, medidas por escalas de intervalo o de razón.
4. LA ESTADÍSTICA Y LAS CIENCIAS HUMANAS Las variables de las ciencias de la conducta, la psicología y la psicopedagogía entre otras, generalmente son variables cuantitativas medidas con escalas de intervalo, suponiendo una unidad constante entre dos puntuaciones consecutivas. Damos por hecho, en r ealidad es una suposición, que la variable, cuando es medida por un test de fluencia verbal, tiene una unidad constante, que entre un par de puntuaciones consecutivas hay la misma diferencia que entre otro par de valores correlativos. 5. UNA PERSPECTIVA SINÓPTICA DE LA ESTADÍSTICA DESCRIPTIVA A continuación se ofrece una , no muy detallada, de los contenidos de la estadística descriptiva. En este momento tal cúmulo de datos puede resultar abrumador, sin embargo también permite contemplar la posición de un análisis en el conjunto. Creemos que será posible, si se desea, regresar a ella para situar cualquier del de la Estadística en el lugar adecuado.
Estadísticos e-Books & Papers
ESTADÍSTICA
Nº DE VARIABLES
ESTADÍSTICA DESCRIPTIVA
MUESTRAS UNA VARIABLE
DE VARIABILIDAD O DISPERSIÓN
AMPLITUD RECORRIDO DESVIACIÓN MEDIA VARIANZA DESVIACION ESTANDAR COEDIFICIENTE DE VARIACIÓN
DE ASIMETRÍA DE APUNTAMIENTO
MUESTRAS DE VARIABLES
DE
ÍNDICE SIMETRÍA
DE
ÍNDICE APUNTAMIENTO CURTOSIS
DE O
TIPO DE ÍNDICES
NOMBRE DE LOS ÍNDICES
MODA MEDIANA MEDIA ARITMÉTICA DE TENDENCIA MEDIA CENTRAL GEOMÉTRICA MEDIA CUADRÁTICA MEDIA ARMÓNICA
COEFICIENTES DE COEFICIENTES DE CORRELACIÓN DOS CORRELACIÓN ENTRE VARIABLES LINEAL DE CUANTITATIVAS PEARSON CONTIUAS EN ESCALA DE INTERVALO O DE RAZÓN.
COEFICIENTE S DE CORRELACIÓN ENTRE VARIABLES CUANTITATIVAS DISCRETAS, EN ESCALA ORDINAL
COEFICIENTE(RRO)DE CORRELACIÓN ORDINAL SPEARMAN COEFICIENTE RRO COEFICIENTE < t > (tau) KENDALL
REGRESIÓN LINEAL COEFICIENTE DE CORRELACIÓN NO LINEAL
de
REGRESIÓN LINEAL COEFICIENTE
CORRELACIÓN ENTRE VARIABLE NOMINAL Y VARIABLS CUANTITATIVA CONTINUA O DISCRETA CORRELACIÓN ENTRE VARIABLES CUANTITATIVAS CONTINUAS UNA DE ELLAS DICOTOMIZADA
Coeficiente biserial
COEFICIENTES DE ASOCIACIÓN ENTRE VARIABLES CUALITATIVAS
Coeficiente
Coeficiente biserial puntual
Coeficientecoeficiente Coeficiente de Tchuprow Coeficiente de Cramer Coeficiente de Yule CoeficienteCoeficiente tetracórico MÁS DE DOS VARIABLES CUANTITATIVAS CONTINUAS
CORRELACIÓN PARCIAL
CORRELACIÓN MÚLTIPLE
Estadísticos e-Books & Papers
CUADRO Nº 3: TIPOS DE VARIABLES Y ESCALAS DE MEDIDA 1. CARACTERÍSTICAS DE LOS OBJETOS: CONSTANTES Y VARIABLES Todas las características/propiedades perceptibles por los sentidos en los objetos (color, tamaño, fuerza, velocidad, …), con o sin instrumentos de aumento, son de dos tipos: a. Constantes b. Variables.
2. LAS CONSTANTES Unas características de los objetos, no presentan grados, ni modalidades/categorías, sino que, en todos los casos muestran un valor constante presentan un valor constante. Estas constantes son propias de las matemáticas y de la física. Ejemplo de estas constantes son: a. La relación entre el diámetro y la longitud de la circunferencia
< p> (3.1416…). b. c. d. e.
La, constante de gravitación (G=6.6725). La constante de Faraday (F=96485.30.). La constante de Plank (h=6.626). La velocidad de la luz (c=300 000 km./seg),…
3. LAS VARIABLES Por el contrario, las variables son aquellas características/propiedades de los objetos que son perceptibles por los sentidos, con o sin instrumentos de aumento, y que pueden presentarse en más de una modalidad o grado. Ejemplos de ellas son: a. b. c. d. e. f.
La masa de un cuerpo. El número de hijos. La cantidad de palabras retenidas tras medio minuto. El estado civil de las personas. El número de pulsaciones cardíacas por minuto. El volumen de la cavidad craneal. Como puede verse, estas variables son de muy distintos tipos. Vamos a clasificarlas.
4. TIPOS DE VARIABLES Las variables pueden ser clasificadas en: Variables cualitativas:
1)
Dicotómicas (sólo dos modalidades) Policotómicas (más de dos modalidades) II) variables cuantitativas: a) Variables cuantitativas discretas. b) Variables cuantitativas continuas. 5. VARIABLES CUALITATIVAS Las variables cualitativas también reciben el nombre de: atributos. Son siempre nombres substantivos, no números. Cualquier variable cualitativa puede presentarse, en dos o más modalidades o categorías excluyentes y, en conjunto, exhaustivas. No admiten grados, no hay mayor o menor, no hay puntuaciones, sólo nombres. Pueden ser agrupados los objetos que tienen la misma modalidad de la misma variable. Ejemplos de variables cualitativas son: Variables cualitativas dicotómicas:
1)
a. El sexo anatómico: ( b. Ser propietario de un BMW:y.
Variables cualitativas policotómicas:
2)
a. Estado civil:, , , , y .
b.
Tipo sanguíneo: <0>, , y
c. Color del cabello:, , y
6. VARIABLES CUANTITATIVAS DISCRETAS Y CONTINUAS Las variables cuantitativas son características que poseen los objetos y que se presentan con grados y necesariamente tienen que expresarse con números. Las variables cuantitativas son de dos tipos: discretas y continuas. 1)
Las variables cuantitativas discretas son aquellas variables cuantitativas que únicamente admiten valores numéricos enteros. Estadísticos e-Books & Papers
Los valores de las variables cuantitativas discretas, como las variables cualitativas, son resultados de, no de en sentido vulgar. Ejemplos de variables cuantitativas discretas son: a. Número de hermanos de una familia. b. Número de alumnos del aula. 2)
Las variables cuantitativas continuas son aquellas variables cuantitativas que admiten valores intermedios entre dos valores numéricos enteros.
Ejemplos e variables cuantitativas continuas son: a. La estatura. b. La velocidad. c. Tiempo de reacción. 7. LA MEDIDA Medir es la asignación de signos numéricos a objetos o aspectos/propiedades/características de objetos por medio de ciertas reglas de asignación de números conocidas como escalas. El sistema formal de los signos numéricos consiste en un conjunto de definiciones y postulados, de los que se derivan los teoremas y las conclusiones del campo del álgebra. El sistema empírico al que se van asignar lo signos numéricos es, en nuestro campo, la conducta humana y las conductas de aprendizaje especialmente. Las reglas para poder establecer las correspondencias entre sistema formal de los signos numéricos, o sea de la matemática, y el correspondiente sistema empírico (la conducta humana), depende, por una parte de las reglas siguientes: la de igualdad, la de orden, la de igualdad de diferencias y la de igualdad de razones. En la medida en que estas operaciones matemáticas pueden realizarse con los objetos empíricos, la conducta humana, se podrán aplicar esos números. 8. RELACIÓN ENTRE VARIABLES Y ESCALAS DE MEDIDA Según sea la naturaleza de la variable (cualitativa, cuantitativa discreta o cuantitativa continua), las escalas posibles son cuatro: a. b. c. d.
ESCALA NOMINAL ESCALA ORDINAL ESCALA DE INTERVALOS ESCALA DE RAZÓN .
Existe una relación, no biunívoca, entre las variables y las escalas de medida. Según sea el tipo de variable, así serán los tipos de escala de medida que puede utilizarse para medir la variable. a. LA ESCALA NOMINAL
La escala nominal se aplica a las variables cualitativas/atributos, si bien los distintos grados de las variables cuantitativas continuas podrían ser convencionalmente agrupados como si fueran modalidades de una variable cualitativa. LA ESCALA ORDINAL Las escalas ordinales se aplican a variables cualitativas, a variables cuantitativas discretas y, de algún modo transformando las cuantitativas continuas. Atribuyen valores numéricos ordinales (rangos) a los distintos valores de las puntuaciones en una serie creciente o decreciente de valores. b. LA ESCALA DE INTERVALO
Las escalas de intervalo atribuyen valores numéricos cardinales, sitúan a cada sujeto en un continuo de valores numéricos correlativos, entre los cuales es posible intercalar infinitos números fraccionarios, si bien con unidades constantes, o sea, mantienen la igualdad de diferencias entre pares de valores correlativos. Las variables cuantitativas continuas pueden ser medidas con una escala de intervalo, pero solamente algunas de ellas, también con una escala de razón.
c. LA ESCALA DE RAZÓN:
Las escalas de razón son también escalas de intervalo, si bien añaden la propiedad de poder establecer razones entre parejas de puntuaciones. La causa reside en que las variables que pueden ser medidas con escala de razón tienen ausencia total de la variable. Variables susceptibles de ser medidas con escala de razón suelen ser variables propias de la Física, tales como: masa, edad, longitud, escalade emperatura, velocidad… Si un sujeto mide 160 cm y el otro mide 80 cm, podremos decir justificadamente que el primero de ellos tiene una estatura doble que la estatura del segundo. Sin embargo, si en lugar de medir la estatura, midiéramos la temperatura con la escala Celsius nunca podríamos afirmar que un objeto con 80 grados tiene doble cantidad de calor que un cuerpo con 40 grados.
Estadísticos e-Books & Papers
TIPOS DE VARIABLES Nominal
TIPOS DE ESCALAS Ordinal
Cualitativas
Intervalo Si
No
No
Cuantitativas discretas
Si
Si
No
Cuantitativas continuas
No
No (*)
Si
Resumiendo en la siguiente tabla las relaciones entre variables y escalas de medida: (*): Se pierde precisión pero nada impide ordenar en una serie de rangos
datos cuantitativos continuos.
Estadísticos e-Books & Papers
CUADRO Nº 4: VARIABLES CUALITATIVAS Y LA ESCALA NOMINAL 1. DESIGNACIÓN DE LAS MODALIDADES DE CADA ATRIBUTO Las escalas nominales se aplican a las variables cualitativas/atributos. Como los atributos se presentan en dos o más modalidades o categorías, las escalas nominales siguen la siguiente regla: asignar un solo nombre, cifra o signo distinto a cada una de las categorías/modalidades que presenta el atributo. Lo habitual es asignar a cada modalidad un nombre o un adjetivo calificativo. También puede utilizarse cifras para designar a cada modalidad, si bien las cifras, en este caso, no poseen valor cuantitativo, sino que uncionan como simples signos arbitrarios. Por ejemplo, en el atributo, las modalidades posibles son: y , podemos designarlas con cifras, por ejemplo, asignar un <1> a y un <2>a o al contrario. Con esta convención, mientras se mantuviera la relación biunívoca (cifra/número y categoría/modalidad). Como son simples signos carentes de valor numérico, no es posible realizar operaciones aritméticas con ellos. 2. EXCLUSIVIDAD Y EXHAUSTIVIDAD DE LAS MODALIDADES DE UN ATRIBUTO Estas categorías o modalidades están sujetas a las leyes de la exclusividad y de la e xhaustividad: Por la primera, un sujeto no puede ser situado simultáneamente en dos modalidades distintas de un mismo atributo. Dicho de otro modo: cada sujeto únicamente puede ser situado en una sola categoría/modalidad y en ninguna otra. Por la segunda ley, al menos, una modalidad debería acoger a cualquier sujeto susceptible de portar el atributo, que pudiera ser incluido en una u otra de las modalidades o categorías de dicho atributo. No siempre es fácil dividir un atributo en un número exhaustivo de categorías. Pongamos un ejemplo: en una ciudad viven muchos inmigrantes procedentes de varias naciones. De algunas nacionalidades abundan muchos ciudadanos, pero otras nacionalidades están representadas por una o dos personas. Así podríamos dividir el atributo , en las siguientes modalidades: , , , , y . Nos podían preguntar por qué hay una categoría llamada . La explicación es muy sencilla: viven en dicha ciudad un argentino, un mexicano, dos ranceses y un británico. Es más sencillo manejar seis modalidades o categorías que nueve: las cinco primeras y las cuatro últimas; englobando estas cuatro en la modalidad , tal vez se pierde precisión, pero se gana en claridad y brevedad si, como suponemos, queremos dar una idea general de la distribución de la inmigración en la ciudad. Supongamos que son 60 los marroquíes, 55 los rumanos, 30 los ecuatorianos, 27 los colombianos, 19 los bolivianos, y los otros son sólo 10 inmigrantes de cuatro nacionalidades distintas, de poco peso en el conjunto de inmigrantes residentes en la ciudad. 3. ¿QUÉ PUEDE HACER LA ESTADÍSTICA CON LOS ATRIBUTOS?
Solamente: a. IDENTIFICACIÓN Y PERTENENCIA
Toda variable cualitativa, o sea, un atributo, debe presentar dos o más modalidades y que estas modalidades sean identificables en cada sujeto que porta el atributo. b. IGUALDAD O DESIGUALDAD
Tras esta identificación, se pueda establecer la igualdad o desigualdad entre la modalidad que el sujeto presenta en una variable cualitativa/atributo, y la modalidad que otro sujeto presenta en esa misma variable cualitativa/atributo. En acción se pueda establecer la igualdad o desigualdad entre la modalidad que el sujeto presenta en una característica cualitativa/atributo, y la modalidad que otro sujeto presenta en esa misma característica, variable cualitativa/atributo. Los símbolos matemáticos serían: <<≠>
c. FORMACIÓN DE SUBGRUPOS
Cuando se ha concluido la identificación de las modalidades que los distintos sujetos del grupo presentan en una concreta variable cualitativa, puede o no formarse subgrupos. No se formará ningún subgrupo si todos los sujetos coinciden en poseer la misma modalidad. Si, por el contrario, hay sujetos que presentan distintas modalidades de la misma variable cualitativa, se podrán formar dos o más subgrupos, tantos como modalidades con algún sujeto. d. CONTAR LOS SUJETOS QUE PRESENTAN LA MISMA MODALIDAD DE UN MISMO ATRIBUTO
Simplemente contando el número de sujetos que presenta cada una de las modalidades de la misma variable cualitativa/atributo, se cuentan los sujetos. e. COMPARAR EL NÚMERO DE SUJETOS DE CADA SUBGRUPO CON LOS DE LOS DEMÁS
Es posible comparar los números obtenidos por cada subgrupo. La suma de los sujetos que presenta cada subgrupo es igual al número de sujetos que forman el grupo
f. ORDENAR LOS SUBGRUPOS POR EL NÚMERO DE SUJETOS DE CADA UNO
Ordenar de mayor a menor o de menor a mayor los subgrupos según el números de sujetos de cada modalidad. Cabe ordenar los subgrupos de mayor a menor o viceversa.
Estadísticos e-Books & Papers
g. RELACIONES ENTRE EL NÚMERO DE SUJETOS DE CADA SUBGRUPO, CON EL NÚMERO DE SUJETOS DEL GRUPO TOTAL
Comparar el número de sujetos de cada una de las modalidades del atributo, con lo que conducirá a hallar la igualdad o la no igualdad entre los números de sujetos de cada modalidad con los de las demás modalidades. 4. POSIBLES OPERACIONES ARITMÉTICAS
Además de distinguir la igualdad o desigualdad entre los sujetos respecto a las modalidades que porta cada uno de ellos en el campo de un atributo y de contar cuántos sujetos presentan la misma modalidad, es posible: sumar restar y dividir entre sí los números de cada modalidad. Ejemplos con los datos de los inmigrantes: Sumar: Número de inmigrantes hispanoamericanos=número de inmigrantes ecuatorianos + número de inmigrantes colombianos + número de inmigrantes bolivianos=30+27+19=76 inmigrantes hispanoamericanos. Restar: número de inmigrantes hispanoamericanos-número de inmigrantes colombianos=76-27=49 Dividir: ==2 (Hay doble número de inmigrantes marroquíes que de inmigrantes colombianos). 5. PROPORCIONES Y PORCENTAJES
Supongamos que los sujetos que componen el grupo son cincuenta; de ellos, 17 tienen ojos marrones, 18 negros, 3 verdes y 12 azules. Con esos datos, podríamos determinar las proporciones y los porcentajes. Lade un subgrupo es el cociente de dividir el número de sujetos del subgrupo entre el número total de sujetos del grupo. Si a la proporción de un grupo la multiplicamos por 100, tendremos el . Por ejemplo, si la frecuencia de un subgrupo es 15 y el número total de sujetos del grupo es 60, la proporción es 15/60 (0,25); y el porcentaje será 25%. De la relación que un subgrupo tiene con su grupo, podemos hallar las proporciones y los porcentajes. La proporción es el cociente de dividir el número de sujetos e un subgrupo entre el número total de sujetos de todo el grupo. El porcentaje resulta de multiplicar el valor numérico de la proporción por 100 Ejemplo: Proporción es el número de casos de un valor numérico por cada caso de total. O sea, frecuencia de un valor dividido entre la frecuencia total. Porcentaje es el resultado de multiplicar una proporción por 100 Ejemplos: Tabla de frecuencias, proporciones y porcentajes de número de sujetos de la modalidad < varones> y de la modalidad de variable cualitativas/atributos: .
MODALIDAD
FRECUENCIA
PROPORCIÓN
PORCENTAJE
VARONES
20
20/60=0.33333
33.333 %
MUJERES
40
40/60=0.66666
66.666 %
TOTALES
60
0.999999=1
99.999=100 %
Estadísticos e-Books & Papers
CUADRO Nº 5: VARIABLES CUANTITATIVAS DISCRETAS Y ESCALAS ORDINALES 1. VARIABLES CUANTITATIVAS DISCRETAS Recordamos que las variables cuantitativas discretas son aquellas características a las que únicamente el grado de presencia puede ser expresado por números enteros, no admiten fracciones. El número de hijos de una familia en todos los casos será un número entero: tres hijos, un hijo, seis,…cero hijos. Pero nunca es posible que una familia tiene tiene dos hijos y medio, o 5,3 hijos. Si tenemos, por ejemplo, cuatro familias, y atendemos a la variable, podemos encontrarnos que una o más de una tienen el mismo nº de hijos o números diferentes. Con esos datos, se puede sumarlos todos o sólo algunos o hallar la diferencia entre dos valores (cuántos hijos tiene Juan más que José). Las variables cuantitativas discretas se asemejan a las variables cualitativas/atributos, porque los valores se obtienen por conteo, como en las modalidades de la variable cualitativa. Sin embargo existe una diferencia: las modalidades de las variables cualitativas no pueden ser legítimamente ordenadas en una serie numérica (la variable presenta cinco modalidades: negro, castaño, azul, verde y gris), no pueden ser ordenados pues no hay justificación matemática para afirmar que los ojos negros sean superiores a los ojos azules, a los verdes,… Tal vez sea distinto en el campo de las preferencias estéticas de las personas. Eso sí, el número de sujetos de cada modalidad de la misma variable pueden ser ordenados. Veamos el siguiente cuadro: Cuadro de número de sujetos que pertenecen a cada modalidad de una variable cualitativa VARIABLE
MODALIDAD
Nº DE SUJETOS
Negro
12
Color de Los ojos Castaño
15
Azul
9
Verde
4
Gris
10 Total = 50
Del mismo modo, las variables cuantitativas discretas ofrecen valores que pueden ser contados, comparados, agrupados por recuencias, ser presentados en una tabla de distribución de frecuencias: pueden ser medidos con una escala nominal. Pero, además, las variables cuantitativas discretas pueden ser medidas con una escala ordinal, pues los valores numéricos que oman pueden ser ordenados en series crecientes o decrecientes. Por ejemplo: según el número de familias con 0, 1, 2, 3, 4, 5, 6, 7 y 8 hijos en una pequeña localidad, tendríamos la siguiente tabla de distribución de frecuencias: Número de hijos
Frecuencia
0
6
1
32
2
61
3
18
4
7
5
8
6
1
7
1
8
1 N = 135
También, como decimos, pueden ordenarse en una serie creciente o decreciente, asignando a cada frecuencia un rango. Siguiendo con el ejemplo anterior de las 135 familias, tendríamos las siguientes operaciones: 1º) Ordenamos las frecuencias de mayor a menor. 2º) Las asignamos rangos: la familia más frecuente (61) es la que tiene; se le asigna el rango 1º. La que ocupa el siguiente rango es la que solo tiene , pues hay 32 que tienen esa composición. La que ocupa el tercer rango es la familia que tiene , pues 18 amilias con esa prole… Veamos la tabla: FRECUENCIAS (NÚMERO DE FAMILIAS CON EL MISMO NÚMERO DE HIJOS) 61
RANGOS
Nº DE DE HI HIJOS DE DE CADA FAMILIA
1º
2 hijos Estadísticos e-Books & Papers
32
2º
1 HIJO
18
3º
3 HIJOS
8
4º
5 HIJOS
7
5º
1 HIJO
6
6º
0 HIJOS
1
7º
6 HIJOS
1
8º
7 HIJOS
1
9º
8 HIJOS
Las variables cuantitativas discretas no pueden ser medidas con la escala de intervalo o de razón, reservadas para todas las variables cuantitativas continuas o sólo para algunas respectivamente.
2. ESCALA ORDINAL Las escalas ordinales sitúan los individuos en una serie ordenada creciente o decreciente según los valores que presenta cada individuo en una determinada variable; el puesto puesto que ocupa cada individuo se denomina. Las series series numéricas de una escala ordinal (primero, segundo, tercero, cuarto…) son distintas a las series numéricas de una escala de valores cardinales (1, 2, 3, 4,…n). La ordenación depende de cuatro operaciones: a. La igualdad/desigualdad. igualdad/desigualdad. b. Ser mayor y menor. c. La seriación y asignación de rangos, manteniendo una relación biunívoca entre números cardinales ordenados de mayor a menor (o
viceversa) y los rangos. La escala ordinal puede aplicarse a variables cuantitativas discretas y a variables cuantitativas continuas, si bien en este último caso, se pierde información. No puede aplicarse a variables cualitativas/atributos, cualitativas/atributos, que únicamente admite la aplicación de la escala nominal. No es posible realizar ninguna operación aritmética con rangos de una serie ordinal. No tiene sentido sumar: tercero, sexto y séptimo, pero si es posible determinar la distancia existente entre parejas de de rangos. Veamos un ejemplo de aplicación de la la escala ordinal a una variable cuantitativa cuantitativa discreta: Si cinco especialidades de un Conservatorio tienen distinto distinto número de alumnos, podemos ordenarlas en una serie de rangos, de mayor a menor número de alumnos. He aquí su tabla:
NÚMERO DE ALUMNOS DE CADA ESPECIALIDAD
RANG RANGO O ASIG ASIGNA NADO DO
ÁREA ÁREA CURR CURRIC ICUL ULAR AR
38
1º
Solfeo
20
2º
Violín
18
3º
Clarinete
12
4º
Trompeta
9
5º
Percusión
Los índices estadísticos aplicables aplicables a datos expresados en escala ordinal son laentre los índices de tendencia central y la entre los índices de variabilidad. Como hemos dicho, también las variables cuantitativas continuas, como la estatura humana, pueden ser legítimamente medidas por una escala ordinal. Veamos un ejemplo: Cinco jóvenes (Rogelio, Jorge, Alberto, Severo y Nicolás) miden respectivamente: 1,70 m., 1.59 m, 1.89 m, 1.67 m y 1.61 cm. Si los ordenamos de mayor a menor, tendríamos la siguiente tabla: ESTATURA EN EN ME METROS.
RANGO
INDIVIDUO
1.89
1º
Alberto
1.70
2º
Rogelio
1.67
3º
Severo
1.61
4º
Nicolás
1.59
5º
Jorge
Estadísticos e-Books & Papers
Estadísticos e-Books & Papers
CUADRO Nº 6. VARIABLES CUANTITATIVAS CONTINUAS Y LAS ESCALA DE INTERVALO Y DE RAZÓN 1. VARIABLES CUANTITATIVAS CONTINUAS Y LAS ESCALAS DE INTERVALO Y DE RAZÓN
Como ya se expuso en elnúmero 3º, las variables cuantitativas continuas son aquellas variables que admiten fracciones entre números enteros consecutivos. Ejemplos son: la longitud, la masa, la velocidad, el cociente intelectual,…Para medir este tipo de variables, disponemos de las escalas de intervalo y de razón. La escala de intervalo se aplica a la medición de todas las variables cuantitativas continuas, si bien algunas de ellas también pueden ser medidas por una escala de razón. Así mismo, como vimos en el cuadro número 5º, pueden ser medidas por una escala ordinal. En las escalas de intervalo es posible determinar: 1º) La igualdad/desigualdad entre los valores que presentan las puntuaciones. 2º) El orden: pueden ser comparados. Si son distintos, podrán ser ordenados en una serie creciente o decreciente. 3º) La igualdad de diferencias: entre cada dos valores consecutivos hay la misma diferencia que entre cualquier otra pareja de valores consecutivos (por ejemplo, la diferencia entre 17 y 18 es la misma que entre 31 y 32), lo que significa que esa variable dispone de unidad constante, Las escalas de intervalo no tienen cero absoluto. Si lo tuvieran ya no estaríamos hablando de escalas de intervalo, sino de escalas de razón. 4º) Carece de igualdad entre razones. Por ello no es aceptable afirmar que un sujeto que tiene un coeficiente intelectual de 120 tiene doble inteligencia que otro sujeto cuyo coeficiente intelectual sea de 60. Si, por el contrario 120 y 60 fueran centímetros de estatura, estaría justificado afirmar que el primero tiene doble estatura que el segundo. No sería correcto afirmar que un objeto con 80 grados centígrados tiene doble emperatura que un objeto con 40 grados centígrados, pues la escala Celsius no tiene cero absoluto. En ocasiones, por simplificar los cálculos, datos de variables cuantitativas continuas, como p.e. la estatura, son tratados como si fueran de una variable cualitativa. Si hubiéramos medido la estatura de 60 jóvenes, podríamos agrupar las puntuaciones obtenidas (160 cm., 184 cm….) en res categorías: , y . Necesariamente habría que marcar el umbral y el dintel de cada una de esas modalidades. Por ejemplo, estaría entre 1.60 y 1.75,si así lo convenimos. Considera a la estatura de este modo supone una depreciación de la precisión de los datos, pero puede servir para presentarlos de una manera más fácilmente operable. 2. LAS ESCALAS DE RAZÓN Algunas variables cuantitativas continuas pueden ser medidas por una escala de intervalo o por una escala de razón. Por ejemplo: la escala Celsius o centígrada de temperatura no tiene cero absoluto, sino que existen magnitudes de la variable que se presenta como (-3 grados). En cambio, la escala Kelvin de temperatura sí tiene 0 absoluto. Otras variables con 0 absoluto son: la altura, la masa…, variables propias de la Física o la Química, pero las variables en Psicología o Psicopedagogía (por ejemplo, el cociente intelectual) no pueden ser medidas con una escala de razón, sino sólo por una escala de intervalo. Las escalas de razón son aquellas que: 1. 2. 3. 4.
Distinguen la igualdad/desigualdad entre puntuaciones. Ordenan las puntuaciones en una serie ascendente o descendente. Mantienen la igualdad de diferencias entre valores consecutivos (o sea, con unidad constante). Poseen la propiedad de la igualdad entre razones, lo que supone que la concreta variable cuantitativa continua medida tiene 0 absoluto. El ejemplo de estas variables cuantitativas continuas que posee el cero absoluto es la longitud. Si el objeto mide 40 cm y el objeto , 20 cm, es completamente correcto afirmar que el objeto mide el doble que el objeto .
Por el contrario, otras variables cuantitativas continuas no tienen 0 absoluto, por lo que no pueden ser medidas con una escala de razón, como ya se expuso en la anterior sección. Las variables propias de la conducta, objeto de estudio de la psicología y de la psicopedagogía, muy raramente y con matices, podrían considerarse aptas para ser medida con una escala de razón. Las variables conductuales generalmente son medidas con escalas de intervalo y, con pérdida de información, por escalas ordinales e, incluso, por escalas nominales. CUADRO RESUMEN DE LAS OPERACIONES ARITMÉTICAS POSIBLES SEGÚN EL TIPO DE ESCALA ESCALAS
VARIABLES
NOMINAL
CUALITATIVA
ORDINAL
CUANTITATIVA DISCRETA
DE INTERVALO
CUANTITATIVA CONTINUA SIN VALOR ABSOLUTO
DE RAZÓN
OPERACIONES ARITMÉTICAS POSIBLES CON ESTE TIPO DE ESCALA Igualdad ( = ), desigualdad (
Igual ( =) , desigual (
igualdad ( =), desigualdad (≠) ).
CUANTITATIVA Todas las operaciones válidas para la escala de intervalo más la igualdad de razones. Se aplica a variables cuantitativas continuas que cuentan con < cero absoluto>. CONTINUA CON VALOR ABSOLUTO
Estadísticos e-Books & Papers
CUADRO Nº 7: CONCEPTOS BÁSICOS EN ESTADÍSTICA En Estadística, como en otras ciencias, se utiliza una serie de conceptos (con sus correspondientes símbolos) que, si no son bien comprendidos, sería muy difícil avanzar con paso seguro en el desarrollo de los análisis estadísticos descriptivos o inferenciales. Ya conocemos el significado de los siguientes conceptos, expuestos en los cuadros precedentes: medida, característica, constante, variables cualitativas/atributos, y sus modalidad/categoría, variables cuantitativas discretas con sus series y rangos, variables cuantitativas continuas con sus valores y las cuatro escalas de medida: nominal, ordinal, de intervalo y de razón. Por ello, en este cuadro no se hacen referencias a esos conceptos. Los conceptos estadísticos que en este cuadro presentamos son: INDIVIDUO: Cada uno de las unidades de un grupo. Cuando los individuos son seres humanos reciben el nombre de. GRUPO: conjunto de individuos a los que se les ha aplicado un instrumento de medida sobre un determinado atributo o variable. MUESTRA: grupo de individuo (extraído de una población) y cuyos individuos han sido objeto de observación o medida en alguna de las variables que portan. POBLACIÓN O UNIVERSO: colectivo de todos los individuos que presentan una característica común, y que por su amplitud, extensión o dificultad de aplicación de un instrumento de medida, no pueden ser sometidos a observación o a medida en ninguna de sus variables; incluye a odas las muestras que puedan extraerse de la población. NÚMERO DE CASOS: número de mediciones de una variable en una muestra, o sea, número de individuos de una muestra que han sido observados o medidos en alguna de sus variables. FRECUENCIA: número de individuos que han obtenido el mismo valor (p. e. , una puntuación) en la aplicación del mismo instrumento de medida sobre la misma variable. VALOR: Cada uno de los posibles grados o modalidades que puede presentar una variable. Por ejemplo, la puntuación (5) obtenible en una escala del 1 al 10 PUNTUACIÓN: grado de posesión de una determinada variable cuantitativa. PUNTUACIÓN DIRECTA.- (X, x mayúscula): Puntuación obtenida por un individuo tras serle aplicado un instrumento de medid a una de sus variables cuantitativas. PUNTUACIÓN DIFERENCIAL.- (x, x minúscula): es la diferencia entre la puntuación directa, la obtenida por un individuo en una de sus variables cuantitativas continuas y el valor de la media aritmética de la muestra que incluye al individuo. PUNTUACIÓN ESTÁNDAR.- (z, z minúscula): es el cociente de dividir la puntuación diferencial (x) entre la desviación estándar (S). ESTADÍSTICO.- El valor numérico resultante del cálculo de un estadígrafo (índices de tendencia central, de variabilidad, simetría, y apuntamiento, de correlación, de asociación de la estadística descriptiva o de pruebas y contrastes de la estadística inferencial) de una muestra a partir de las puntuaciones obtenido por la aplicación de una de las cuatro escalas de medida a una, dos o más variables de los individuos que constituyen una muestra. Sus símbolos son letras del alfabeto latino (X, x, z, S, Mo, Md, r xy salvo en algunos coeficientes de correlación o de asociación representados por letras del alfabeto griego (r, c, t, w, f ...). También algunos autores sustituyen el símbolo de la desviación estándar/típica del alfabeto latino, por la letra griega(letraminúscula). Nosotros designamos la desviación estándar con una (una S mayúscula). PARÁMETRO: valor representativo de una población. Por definición no puede hallarse, pero sí estimarse. Es desconocido, pues, por muy grande que sea el número de individuos observados o medidos, siempre será una muestra, no una población; La estimación de un parámetro se realiza a partir del valor de uno o más estadísticos obtenidos por la aplicación de un instrumento de medida sobre una variable a grupos de individuos (muestras) extraídas de la concreta población. El cálculo de parámetros incumbe a la estadística inferencial, no a la descriptiva. Sus símbolos suelen ser, en casi todos los casos, letras del alfabeto griego: s, m, ... FÓRMULA: Ecuación que indica las operaciones matemáticas, generalmente aritméticas, que deberán ser efectuadas para hallar el valor numérico de un índice descriptivo o inferencial. SÍMBOLO: cada uno de los signos (operadores o variables) que forman parte de una fórmula. INTERVALO: grupos de 3, 4, 5, 6, o 7 valores consecutivos que resultan de dividir el número de valores que pueden tomar las puntuaciones, entre 4, 5, 6, 7, 8 o 9 y, de este modo simplificar los cálculos.
Estadísticos e-Books & Papers
CUADRO Nº 8: SÍMBOLOS USADOS EN ESTADÍSTICA DESCRIPTIVA Conviene advertir a los lectores de este libro que la relación de los símbolos estadísticos, que a continuación se ofrece, son presentados en estecon la única finalidad de que puedan ser consultados por el lector si lo creyera necesario más adelante. Todos los conceptos matemáticos pueden representarse por medio de símbolos. La estadística, una rama de las matemáticas, no iba a ser una excepción. Por supuesto que se cumple la regla de la relación biunívoca entre cada símbolo y el concepto representado: a cada concepto le corresponde uno y sólo uno de los símbolos y que a cada símbolo le corresponde uno y sólo uno de los conceptos. Las fórmulas utilizadas para el cálculo de los valores numéricos de los distintos índices estadísticos, están formadas por símbolos procedentes de los alfabetos latino y griego. En principio puede decirse que los símbolos que son letras del alfabeto latino, casi exclusivamente son propios de la estadística descriptiva (que utiliza una única muestra) y los símbolos que son letras del alfabeto griego son utilizados casi exclusivamente, en la estadística inferencial. Limitándonos en este a los símbolos de la Estadística descriptiva, encontramos: LETRAS LATINAS X: (x mayúscula) Puntuación directa obtenida tras la aplicación de una prueba a un sujeto. Otros autores prefieren Xi (X mayúscula con una minúscula como subíndice) X j (X mayúscula con una como subíndice): puntuación media de un intervalo. En otros textos también se ve los símbolo Xm o Xi. x: (x minúscula): puntuación diferencial resultante de hallar la diferencia entre una puntuación directa (X) y la media aritmética ( ) de la muestra a la que pertenece el individuo. f (f minúscula): frecuencia (número de individuos que han obtenido la misma modalidad cualitativa en una observación o el mismo valor cuantitativo en una puntuación o en un intervalo (agrupación de 3 a 7 valores consecutivo). n (n minúscula): número total de individuos (sujetos si son seres humanos) o suma de todas las frecuencias de todos los valores o de todos los intervalos de una muestra. Algunos autores sustituyen la minúscula por una (n mayúscula) siempre o sólo en algunos casos. Mo: moda, valor que presenta la mayor frecuencia en una distribución. Md: mediana, valor que ocupa el punto medio de una distribución de valores, o sea, el valor que deja por encima y por bajo el mismo número de valores. (X mayúscula con una línea recta horizontal sobre la X): media aritmética. Xg: media geométrica. Xa: media armónica. Xc: media cuadrática. A: (A mayúscula) amplitud o recorrido de un conjunto de puntuaciones. Es la diferencia entre la puntuación más alta y la puntuación más baja de una serie ordenada +1. S2 (S mayúscula con un 2 como índice de potenciación o sea, el valor de S elevado al cuadrado): varianza: media de los cuadrados de las puntuaciones diferenciales. O sea: cuadrado de S (desviación estándar). S o SD (S mayúscula o S y D mayúsculas): Desviación estándar: raíz cuadrada de la varianza. r xy (r minúscula con una x y una y pequeñas como subíndices): coeficiente de correlación de Pearson. R: (R mayúscula) rango, posición de una puntuación en una serie creciente o decreciente de puntuaciones. W: (W mayúscula) coeficiente de concordancia de Kendall. C: (C mayúscula) coeficiente de contingencia. Q: (Q mayúscula) coeficiente de asociación. V: (V mayúscula) coeficiente de Cresmer La anterior relación no pretende ser exhaustiva. LETRAS GRIEGAS UTILIZADAS EN LA ESTADÍSTICA DESCRIPTIVA Las letras griegas utilizadas en la Estadística descriptiva son: ∑ (letra griega mayúscula): sumatorio. s (letra griega minúscula): desviación estándar/típica, el más importante índice de variabilidad; puede simbolizarse con una mayúscula (S) o por la letra griega < s>. En la estadística descriptiva utilizaremos el símbolo, no el símbolo.
r (letra griegaminúscula): Coeficiente de correlación entre valores ordinales de Spearman t (letra griega minúscula): coeficiente de correlación de datos ordinales de Kendall. w (letra griega minúscula): coeficiente de asociación f (letra griega minúscula): Coeficiente de coaligación entre variables cualitativas. h (letra griega minúscula): coeficiente de correlación no lineal o curvilineo c2 (letra griega o con exponente cuadrado): un coeficiente de asociación entre variables cualitativas (atributos); también es una prueba de contraste y decisión en la Estadística inferencial. Estadísticos e-Books & Papers
CUADRO Nº 9: ALGUNAS PRECISIONES SOBRE EL USO DE LOS SÍMBOLOS MATEMÁTICOS DE LAS FÓRMULAS ESTADÍSTICAS. 1. INTRODUCCIÓN Es preciso concretar y aclarar el uso de los signos que designan las operaciones aritméticas indicadas en las fórmulas de los distintos índices usados en Estadística. Veamos cómo: LA SUMA El signo de la suma o adición es: <+>. LA DIFERENCIA El signo de la resta o diferencia es: <->. Lo mantenemos. EL PRODUCTO El signo de la multiplicación o producto habitual en Aritmética es unao un simple punto <.> entre los factores. En este libro, para evitar la confusión con la (puntuación directa) o con (puntuación diferencial), no usaremos ningún signo entre factores de un producto/multiplicación, simplemente cada factor irá dentro de un paréntesis en posiciones contiguas, o sea, el único signo del producto será en las fórmulas usadas en este libro un espacio entre dos paréntesis; dentro de cada paréntesis irá el número u otro símbolo aritmético que sea un actor del producto. Pongamos un ejemplo, si tuviéramos que multiplica 30×20x8, no lo escribiremos: 30x20x8=4800 porque la x minúscula en Estadística descriptiva representa una puntuación diferencial. Ni una X mayúscula 30X20X8 =4800, pues la X mayúscula representa una puntuación directa. Por tanto, ambas prácticas nos llevarían a confusión. También usar el punto (.) puede llevar a error, ya que el <.> se usa para diferenciar la parte entera, de la parte decimal, p.e.: 18.75 (como aquí lo usamos) o la separación de las unidades de millar respecto de las centenas (como es habitual en nuestro país), por ejemplo, 12.375,58. Nuestra forma de escribir ese producto no será: 30x20x15 = 4800; ni 30X20X15 = 4800; ni tampoco: 30.20.15 =4800, sino: (30)(20)(15) = 4800 Otros ejemplos: (5)(7)=35 (9)(6)(4) = Una ventaja más de esta notación para los productos se pone de relieve cuando uno o más factores son una suma o una resta. Por ejemplo: (8 + 4) (7 -2) = (12) (5)= 60 Reconocemos, no obstante, que las fórmulas se llenan de paréntesis < ( ) > e incluso habrá que usar en muchas fórmulas distintos tipos de paréntesis, unos incluidos dentro de otros paréntesis: = 18 +16 =34 Las letras minúsculas representan variables (p.e.: y ); las variables pueden ser factores de un producto. Con ellas, actuamos como con los números, encerrándolas en paréntesis. Por ejemplo: <(a)(b)>) es el producto de los valores numéricos que pueden tomar la variable , por los valores numéricos que puede tomas la variable .
Estadísticos e-Books & Papers
LA DIVISIÓN El signo de la división/cociente será en todas las fórmulas un segmento de recta horizontal (raya) situado entre el dividendo y el divisor o lo que es equivalente, entre el numerador y el denominador. Ejemplo: 20 dividido entre 4, sería: = 5 Se excluye la notación de los dos puntos (:) Ejemplo 30:5 = 6 También se excluye la notación de la(/) Por ejemplo: 30/5 = 6 Ambas notaciones distorsionan las fórmulas estadísticas. LA POTENCIACIÓN La potenciación de un número será simbolizada, como es habitual en matemáticas, por un número ( ) y otro número ( ). Recordemos que el número o la expresión que se multiplica es la y el número o la expresión que indica las veces que se multiplicara la base, es el . La se escribe con un número o expresión de tamaño normal. El número o expresión del es de menor tamaño que el de la , y se coloca a la derecha y arriba del número o expresión de la . =216 53 = 125
Ejemplos: =36
104 = 10,000
LA RADICACIÓN La radicación, o sea, la extracción de la raíz cuadrada, cúbica,… de un número, conocido como, tendrá como signo el habitual en matemáticas: El . En los demás casos, en el lugar mencionado, debe ir el número de orden de la raíz: <3> si la raíz de su cúbica, un <4>, si la raíz es de cuarto orden, etc. Ejemplos: = 6 =5 =2 PUNTOS Y COMAS EN NÚMEROS DECIMALES: Para escribir un número decimal, tradicionalmente en nuestro ámbito cultural, se colocaba una coma (,) para diferenciar la parte entera a la izquierda de la coma y la parte decimal a la derecha de la coma. Por ejemplo: el número , en la notación tradicional de nuestro país se escribiría <38,6>. En la notación que usaremos en este libro, el mismo número decimal, lo escribimos del siguiente modo: <38.6>. Nos decidimos por la notación del punto (.), en lugar de la coma (,), porque los programas informáticos de estadística (por ejemplo, el SPSS) así lo hacen. Otros países utilizan esta misma convención. TABLA RESUMEN ERACIÓN
EJEMPLOS EJEMPLOS DE NOTACIÓN NOTACIÓN HABITUAL ESTE LIBRO
DE EN
MA/ADICIÓN
4+6+5=15
4+6+5 = 15
Es misma
la
STA/DIFERENCIA
12-4=8
12-4 = 8
Es misma
la
ODUCTO/MULTIPLICACIÓN
6x5x2=60
(6) (5) (2)=60
Es diferente
CIENTE/DIVISIÓN
16:2=8
=8
Es diferente
TENCIACIÓN
42 = 16
42 = 16 )
Es misma
la
DICACIÓN
=5
=5
Es misma
la
Estadísticos e-Books & Papers
CUADRO Nº 10. REPRESENTACIONES GRÁFICAS DE LOS DATOS 1. LAS REPRESENTACIONES GRÁFICAS DE LOS DATOS No sólo los datos recogidos de la aplicación de alguna de las cuatro escalas de medida a una, dos o más variables cualitativas o cuantitativas de los individuos de una muestra, pueden ser presentados en tablas de distribución de frecuencias con valores numéricos, sino también por representaciones gráficas, aprovechando las posibilidades que ofrecen los ejes cartesianos. Recordemos esas nociones. 2. LOS EJES CARTESIANOS Los ejes cartesianos de coordenadas en el plano son dos rectas que se cortan perpendicularmente en un punto <0>. El eje horizontal recibe el nombre de(0 X) y el eje vertical, el de (0 Y). 3. CARACTERÍSTICAS DE LOS DATOS QUE PUEDEN REPRESENTARSE CON GRÁFICOS Las representaciones gráficas pueden aplicarse a distintos tipos de datos: a) Las frecuencias que obtiene cada modalidad de variables cualitativas/atributos. b) Las frecuencias de los valores que toman las puntuaciones obtenidas con escalas de intervalo en variables cuantitativas continúas. Las representaciones gráficas de distribuciones de frecuencias dependen de: a. Las modalidades de las variables cualitativas. b. Los valores que pueden tomar las puntuaciones en una variable cuantitativa continua. c. Los intervalos que agrupan valores que pueden tomar las puntuaciones en una variable cuantitativa continua. a. LA DISTRIBUCIÓN DE FRECUENCIAS
Recordemos qué es una distribución de frecuencias: El tipo de distribución de frecuencias varía según el número de modalidades de la variable cualitativa o del número de valores posibles que puedan tomar las puntuaciones de una variable cuantitativa continua; si el número de valores es superior a doce, será conveniente agrupar entre res y siete valores consecutivos en intervalos del mismo número de valores. 4. TIPOS DE REPRESENTACIONES GRÁFICAS Las principales representaciones gráficas son: 1) 2) 3) 4)
Histograma. Polígono de frecuencias Curva de frecuencias. Diagrama de desarrollo.
5. EL HISTOGRAMA Y EL POLÍGONO DE FRECUENCIAS
Ambos son representaciones gráficas de una distribución de frecuencias. Un histograma está formado por rectángulos (barras) con la misma base (sobre el eje de las abscisas) y con alturas generalmente diferentes paralelas al eje de las ordenadas. Las bases representan las modalidades de una variable cualitativa, los valores o los intervalos que agrupan valores de una variable cuantitativa continua. Las alturas representan generalmente frecuencias. También los rectángulos pueden ser sustituidos por prismas o cilindros en perspectiva. Los barras (rectángulos) que representan a las modalidades de una variable cualitativa/atributo suelen dejar un pequeño espacio entre cada dos consecutivos y el orden de colocación de las barras es indiferente, arbitrario. En cambio, las barras (rectángulos) que representan valores o intervalos de valores de una variable cuantitativa continua, están situados sin espacios entre ellas,, sin , para mostrar la naturaleza continua de la variable. El orden de colocación de las barras está sujeto al orden natural de los números cardinales, comprendidos entre el valor más bajo y el valor más alto. Los histogramas pueden mostrar: a. Frecuencias absolutas b. Frecuencias relativas, en proporciones o porcentajes. c. Frecuencias absolutas acumuladas, en los que cada barra acumula los valores absolutos de la suma de las frecuencias de las barras
menores (no es posible con frecuencias de modalidades de variables cualitativas/atributos). d. Frecuencias relativas acumuladas (como el tipo de histograma anterior, pero con proporciones o porcentajes en lugar de frecuencias
absolutas). El polígono de frecuencias deriva del histograma. Es la serie de segmentos de recta que unen los puntos medios de las frecuencias de cada una de las barras (rectángulos) del histograma.
6. CONSTRUCCIÓN DE UN HISTOGRAMA O DE UN
La elaboración de un histograma o de un polígono de frecuencias supone el desarrollo de un mismo proceso, pues se sigue estos pasos: Estadísticos e-Books & Papers
a. Trazar un sistema de ejes de coordenadas cartesianas. b. En el eje de las abscisas se sitúa las bases de los rectángulos (barras) que representarán a: 1)
Las modalidades de la variable cualitativa/atributo.
2)
Los valores numéricos que pueden tomar las puntuaciones de una variable cuantitativa.
3)
Los puntos medios de los intervalos que agrupan valores cuando el número de estos aconseja el agrupamiento.
c. En el eje de las ordenadas se representan las frecuencias con las alturas de las barras (rectángulos); esas alturas deben ser
proporcionales a las frecuencias. En la construcción de un histograma debe tenerse reservar espacio suficiente para la mayor de las frecuencias, aquella cuya barra será la más alta. El resto de las frecuencias aparecerán en alturas proporcionales.
Ejemplos de histogramas y polígono de frecuencias son estos:
A
7. HISTOGRAMA Y POLÍGONO DE FRECUENCIAS ACUMULADAS
El histograma y el polígono de frecuencias acumulativos siguen los mismos pasos que sus semejantes no acumulativos. En los acumulativos cada rectángulo representa la suma de las frecuencias de los rectángulos precedentes
8. SECTORES CIRCULARES PARA PRESENTAR FRECUENCIAS
Estos diagramas circulares son generalmente usados para representar frecuencias de modalidades de variables cualitativas/atributos. Se forma tantos sectores circulares como modalidades y la frecuencia de cada una de ellas es proporcional a la extensión del área de cada sector circular Se halla los porcentajes de las frecuencias de cada modalidad y por una simple regla de tres, se reparten los 360 grados de la circunferencia: Si al 100% de la suma de todas las frecuencias, le corresponde 360 grados, a un 27 % de frecuencias (o el 40%, o el 36% o el porcentaje que sea), le corresponderágrados. Número de grados Ejemplo: diagrama de sectores circulares con las frecuencias de alumnos que habían aprobado 0, 1, 2, 3 y 4 o más:
Estadísticos e-Books & Papers
Estadísticos e-Books & Papers
CUADRO Nº 11: TAREAS DE LA ESTADÍSTICA DESCRIPTIVA 1. EL TRATAMIENTO DE LOS DATOS Los análisis de la estadística descriptiva siguen un proceso formado por estas fases: a. b. c. d. e.
Recogida de los datos Ordenación Tabulación Representación gráfica Cálculo de los índices con una sola variable o con coeficientes de correlación o asociación de dos o más variables:
Los índices son valores numéricos que representan el conjunto total de valores obtenidos por los sujetos de una muestra. Estos índices se calculan aplicando ciertas fórmulas, una o más por índice. Existen cuatro clases de índices descriptivos: a. Índices de tendencia central o promedios b. índices de variabilidad o de dispersión c. Índice de simetría/asimetría (As) d. Índice de apuntamiento o curtosis (K) 2. RECOGIDA Y ORDENACIÓN DE LOS DATOS
Habiendo recogido los datos fruto de la aplicación de un instrumento de medida sobre una variable presente en los sujetos de una muestra, la primera tarea en cualquier análisis estadístico descriptivo es la organización de los datos. Estos se ordenan en una tabla de distribución de recuencias. La frecuencia de una modalidad de una variable cualitativa/atributo o un valor de puntuación de variable cuantitativa es el número de individuos que presentan dicha modalidad o dicho valor. 3. TABULACIÓN Para presentar ordenadamente los datos, han de ser elaboradas las tablas más adecuadas al tipo de: a. b. c. d. e. f.
La variable medida. La escala de medida utilizada. El número de modalidades o de valores que pueden tomar las observaciones o las puntuaciones respectivamente. El índice descriptivo que se quiere calcular. La fórmula del índice utilizada. El número de sujetos de la muestra.
Las tablas están constituidas por un entramado de filas y columnas. Encabezan las filas, bien los sujetos (cuando no superan la docena), bien los posibles valores o bien grupos de valores (intervalos) que una variable puede tomar. Las columnas (exceptuando la primera por la izquierda) recogen generalmente las frecuencias y los resultados de las operaciones aritméticas que prescribe la fórmula. Limitándonos a las ablas de, distinguimos tres casos: a. Tabla para una muestra de menos de 12 individuos. La tabla está formada por dos columnas, la de la izquierda contiene los nombres de
los individuos, uno por fila. La columna de la derecha contiene la puntuación obtenida por cada sujeto. Probablemente se repetirán los valores de algunas puntuaciones, pero se opera del mismo modo con las puntuaciones repetidas que con las no repetidas. b. Tabla para una muestra que supera la docena de individuos. Si el número de valores es inferior a doce, algunos valores de las
puntuaciones estarán repetidos. El número de puntuaciones que tienen el mismo valor recibe el nombre de. c. Tabla de distribución de frecuencias destinada a aquellos casos en los que el número de valores que pueden tomar las puntuaciones
es superior de 12 o 15; en ese caso, conviene agrupar los valores en. Veamos estos tres tipos de tablas.
4. EJEMPLO DE TABLA PARA MUESTRAS CON MENOS DE 12 SUJETOS Se sometió a un grupo de diez sujetos a una prueba de 12 preguntas. Los valores que puede tomar la prueba es el número de respuestas acertadas (0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11 y 12).
La tabla tendrá tantas filas como individuos forman la muestra y dos columnas, la columna para situar el nombre u otro signo identificativo de cada uno de los individuos de la muestra y la columna destinada a acoger el número de preguntas acertadas por cada uno de los sujetos. Veamos esta tabla:
Estadísticos e-Books & Papers
A
B
SUJETOS
Nº PREGUNTAS ACERTADAS (X)
JOSÉ
12
JUAN
8
JAIME
9
JOAQUÍN
6
JAVIER
4
MELCHOR
8
MIGUEL
3
MARCOS
6
MANUEL
10
MARIO
9
N = 10
Advertimos que algunos valores obtenidos por los sujetos de esta muestra se repiten (Juan y Melchor, p. e.). Esta tabla de dos columnas puede servir para realizar solamente cálculos de índices de tendencia central/promedios. 5. EJEMPLO DE TABLA DE FRECUENCIAS PARA MUESTRAS SUPERIORES A DOCE SUJETOS Y CON PUNTUACIONES CUYOS VALORES NO ESTÁN AGRUPADOS EN INTERVALOS. Supongamos el siguiente conjunto de datos: Los posibles valores que pueden tomar las puntuaciones en una prueba de evaluación son diez: 1, 2, 3, 4, 5, 6, 7, 8, 9 y 10. Las puntuaciones realmente obtenidas por 16 alumnos tienen los siguientes valores: 1, 2, 3, 3, 4, 5, 5, 5, 6, 6, 7, 7, 7, 8, 8 y 10.
La tabla adjunta es de tres columnas: los valores, sus frecuencias y los productos de cada valor por su frecuencia: A
B
C
VALORES
FRECUENCIAS
1
1
1
2
1
2
3
2
6
4
1
4
5
3
15
6
2
12
7
3
21
8
2
16
9
0
0
10
1
10
n = 16
(X)(f) = 87
PRODUCTO DE VALORES POR FRECUENCIAS
Así ya podemos recoger los resultados de las operaciones aritméticas implicadas en los índices de tendencia central. 6. EJEMPLO DE TABLA DE FRECUENCIAS PARA DATOS CUYOS VALORES OBTENIBLES ESTÁN AGRUPADOS EN INTERVALOS Cuando el número de valores que pueden tomar las puntuaciones es elevado (15, 20, 30, 40), ya no es práctico hacer una tabla con una fila por cada valor, pues la tabla tendría 15, 20, 30, 40…filas. Necesitamos reducir el número de filas para que la tabla sea manejable. En este caso, la mejor solución es agrupar los valores en intervalos. Los intervalos deben cumplir ciertas condiciones: a. Igualdad del número de valores que integran cada intervalo. b. Exclusividad: cada valor sólo puede estar en un intervalo. c. Exhaustividad: Todos los valores tienen que estar en alguno de los intervalos. d. El número de valores de cada intervalo debiera ser(3, 5 o 7), mejor que (2, 4 o 6) pues es fácil determinar el punto
medio de cada intervalo, mientras que los intervalos con númerode valores requieren hallar la media aritmética de los dos valores centrales de cada intervalo, resultando un número decimal, lo que siempre complica los cálculos posteriores. Para determinar el número de intervalos necesarios para reducir el número de valores que pueden presentar las puntuaciones, se siguen los siguientes pasos: 1º) Se halla la (A) aplicando esta fórmula: A = Xma (valor mayor) - Xmen (valor menor)+1. Un ejemplo: si los valores se mueven entre 18 y 67, la amplitud será 50 (A= 67 – 18 + 1 = 50). 2º) Dividimos el valor de la amplitud (A), entre un número que nos permita tener entre 5 y 10 intervalos con 3, 4, 5 o 6 valores cada intervalo. Hagamos una tabla de distribución de frecuencias con los siguientes datos: Un grupo de 100 alumnos han sido sometidos a un test, obteniendo, por tanto, 100 puntuaciones (n = 100). Los valores que pueden adoptar las 100 puntuaciones son 30 (del 1 al 30).
Agrupamos estos 30 valores en seis intervalos de cinco valores cada uno, resultando una tabla de seis filas y de tres columnas. Las filas acogen los intervalos. Necesitamos cuatro columnas: a. La columna acoge los valores agrupados en intervalos. b. La columna , los puntos medio de cada intervalo. c. La columna, las frecuencias de cada intervalo, el número de puntuaciones que coinciden con alguno de los valores que integran el
intervalo. Estadísticos e-Books & Papers
d. Columna: productos de los puntos medios de cada intervalo por su frecuencia.
A INTERVALOS
B PUNTO MEDIO DEL INTERVALO
C FRECUENCIA
D PRODUCTO DEL PUNTO MEDIO DE CADA INTERVALO POR SU FRECUENCIA
1–5
3
3
9
6 – 10
8
7
56
11 – 15
13
42
546
16 – 20
18
38
684
21 – 25
23
8
184
26 - 30
28
2
56
n = 100
(xJ)(f) = 1535
Con esta tabla es posible y fácil calcular el valor numérico de índices de tendencia central media aritmética.
Estadísticos e-Books & Papers
CUADRO Nº 12: ÍNDICES DESCRIPTIVOS DE UNA SOLA VARIABLE EN UNA MUESTRA 1. ÍNDICES DESCRIPTIVOS DE UNA SOLA VARIABLE Podemos preguntarnos cómo describir los resultados de un proceso de medida de una variable en los individuos que forman una muestra. Responder a esta pregunta depende del número de individuos de la muestra. Por ejemplo, si tenemos cuatro hijos y las calificaciones en Música han sido 4, 6, 6 y 5, podríamos satisfacer la curiosidad de un pariente próximo con la simple enumeración, 6, 6, 5 y 4. Podríamos añadir que uno de los hijos tendrá que examinarse en el próximo Septiembre y que los otros tres vástagos, no. Como hemos visto, con cuatro hijos es suficiente la enumeración, pero si son diez alumnos de una clase, la enumeración de la calificación de cada uno de los diez no sirve para dar una visión sintética de las calificaciones obtenidas por los individuos de la muestra. Cuando los individuos de una muestra son, 15, …20…80…100 o más, se precisa obtener ciertos valores numéricos que representen a los valores de las puntuaciones individuales. Esos valores numéricos buscados son los índices descriptivos de muestras de sujetos medidos en una sola variable.
2. TIPOS DE ÍNDICES DESCRIPTIVOS DE UNA SOLA VARIABLE El proceso de análisis propio de la estadística descriptiva es el cálculo de <índices>, valores numéricos que represente al conjunto total de valores obtenidos por los sujetos de una muestra. Estos índices se calculan aplicando ciertas fórmulas, una o más por índice. ¿Cómo poder hallar unos pocos índices numéricos que representen a toda una muestra, cuando se tienen medidas individuales de una variable de los sujetos de una muestra? Existen cuatro clases de índices descriptivos de una sola variable en una muestra. a. Índices de tendencia central, también denominadosb. Índices de variabilidad o dispersión c. Índices de simetría/asimetría d. Índices de apuntamiento
3. ÍNDICES DE TENDENCIA CENTRAL
Los Índices de tendencia central o promedios son: a. b. c. d. e. f.
La moda (Mo) La mediana (Md) La media aritmética ( ) La media geométrica (g) La media cuadrática (c) La media armónica a) 4. LOS ÍNDICES DE VARIABILIDAD O DISPERSIÓN
Los índices de variabilidad o de dispersión son: a. b. c. d. e.
La amplitud total o recorrido (A) La amplitud semi-intercuartil (Q) La varianza (S2) La desviación estándar (S) El coeficiente de variación (CV) 5. LOS ÍNDICES DE ASIMETRÍA Y APUNTAMIENTO
La asimetría y el apuntamiento son medidos por un único índice de asimetría y un solo índice de apuntamiento respectivamente, si bien cada uno de ellos tiene varias fórmulas alternativas de cálculo.
6. TABLA RESUMEN A continuación se presenta una tabla de las variables, las escalas y los índices de una sola variable: VARIABLES
VARIABLES
VARIABLES
VARIABLES
VARIABLES CUANTITATIVAS
Estadísticos e-Books & Papers
CUALITATIVAS/ ATRIBUTOS
EJEMPLOS VARIABLES
ESCALA MEDIDA
DE
DE
CUANTITATIVAS DISCRETAS
Grupo Sanguíneo, Estado civil, Nivel de estudios
Número hijos,
Escala Nominal (grupo
Escala nominal y ordinal (Grupo isotónico)
ÍNDICES DE TENDENCIA CENTRAL
.ÍNDICES DE VARIABILIDAD
Igualdad/desigualdad
Moda (Mo)
de
Escala
Celsius
Temperatura, Escala de pH
permutativo)
OPERACIONES ARITMETICAS ADMITIDAS
de
CUANTITATIVAS CONTINUAS CONTINUAS SIN CON CERO ABSOLUTO CERO ABSOLUTO
Escala de Escala de Intervalo (Grupo razón (Grupo de de función Similaridad) Lineal)
Determinación Igualdad de de orden intervalos o mayor/menor diferencias entre pares de valores Mediana (Md)
Escala Kelvin de temperatura, masa, longitud
()
Media aritmética
Igualdad razones, Cero absoluto
de
Lo mismo
Media geométrica (() , Media cuadrática ((), Media armónica (a) -----------
Amplitud (A). Desviación Amplitud semi- media (DM), intercuartil Varianza (S2), Desviación Estándar o Típica (S)
Lo mismo, y Coeficiente de variación
ÍNDICE DE SIMETRÍA/ASIMETRÏA
------------
------------
As
As
ÍNDICE DE APUNTAMIENTO O CURTOSIS
------------
-----------
K
K
Estadísticos e-Books & Papers
CUADRO Nº 13: ÍNDICES DE TENDENCIA CENTRAL/PROMEDIOS Y LA. 1. ÍNDICES DE TENDENCIA CENTRAL
Los primeros índices para una sola variable tratados en Estadística Descriptiva son los índices de tendencia central, también conocidos como. Son los primeros porque, entre otras razones, son necesarios para calcular la mayoría de los índices de variabilidad, de apuntalamiento y de simetría. Los índices de tendencia central, que a continuación se presentan, tienen como única finalidad: resumir los numerosos valores obtenidos en las puntuaciones de los individuos de una muestra, por un valor numérico que represente a toda la muestra. Reconocemos que la aplicación de un instrumento de una escala de medida sobre una variable supuestamente poseída en distintos grados por los individuos de una muestra ofrece un número de tantos valores numéricos como individuos constituyen la muestra. Esa multiplicidad de valores no pueden ser sólo enumerados, sino representados por un valor numérico que resuma y represente la totalidad de los valores obtenidos individualmente por los sujetos. Es preciso r educir la multiplicidad de valores a un valor que recoja significativamente la totalidad, aún reconociendo que se pierde información. En la siguiente tabla aparecen los índices de tendencia central: Índice de tendencia central o promedios
Símbolo
Moda
Mo
Mediana
Md
Media aritmética Media geométrica
g o Mg
Media cuadrática
c o Mc
Media armónica
a o Ma
Los índices menos utilizados son los tres últimos y la(Mo). Por el contrario, la (Md) y, sobre todo, la () son los índices de tendencia central más utilizados porque, entre otras razones, son imprescindibles para aplicar los restantes índices: índices de de variabilidad, de asimetría y de apuntamiento, así como para los coeficientes de correlación y de asociación. Podemos ver en el siguiente cuadro una comparación entre los tres índices de tendencia central más utilizados: MODA Mo
MEDIANA Md
MEDIA ARITMÉTICA
No tiene en cuenta los casos extremos
No tiene en cuenta los casos extremos
Tiene en cuenta todas las puntuaciones
Las puntuaciones se agrupan por los valores
Requiere la ordenación de todas las puntuaciones
El cálculo no necesita la ordenación de las puntuaciones
Atiende a los valores con mayor frecuencia
Puede ser un número que no está en los datos.
El resultado del cálculo puede que no esté entre las puntuaciones
2. LA MODA ENTRE LOS ÍNDICES DE TENDENCIA CENTRAL La(Mo) es el índice de tendencia central más sencillo de hallar, pero más impreciso y menos riguroso de los cinco índices de endencia central. El símbolo de la es: Mo (una mayúscula seguido por una minúscula). La (Mo) puede aplicarse a datos nominales (modalidades de una variable cualitativa) y, en cierto modo, a los datos de escala de intervalo (variable cuantitativa continua). Para los datos ordinales se utiliza la (Md) y para los datos de intervalo (variable cuantitativa continua), las medias aritmética, geométrica, cuadrática y armónica. La es el único índice que puede ser aplicado para datos en escala nominal. 1. CÓMO IDENTIFICAR LA DE UNA DISTRIBUCIÓN DE FRECUENCIAS
Para identificar la(Mo) de una distribución de frecuencias, se comprueba: a. ¿Qué modalidad de una variable cualitativa presenta la mayor frecuencia? b. ¿Qué valor numérico de una variable cuantitativa continua presenta la mayor frecuencia?
Lano tiene fórmula de cálculo, no incluye operaciones aritméticas, sólo es suficiente contar los individuos que presentan la misma puntuación o pertenecen a la misma modalidad. Es suficiente comparar las frecuencias de las distintas modalidades o las frecuencias de los valores que toman las puntuaciones, para descubrir cuál es la modalidad o la puntuación con la mayor frecuencia. 4. VERSATILIDAD DE LA La es un índice de tendencia central muy versátil: a. La es el único índice de tendencia central que puede aplicarse a datos nominales, los obtenidos de medir variables cualitativas/atributos b. La moda (Mo) es un índice de tendencia central que, no sólo se aplica a datos medidos con escala nominal, sino también a las variables cuantitativas continuas, aquellas que se miden con escala de intervalo o de razón. c. La no puede ser aplicada a datos ordinales. 5. LIMITACIONES DE LA La presenta numerosas limitaciones que reducen su valor a una superficial medida de una distribución de frecuencias. He aquí Estadísticos e-Books & Papers
algunas de estas limitaciones: a. El valor con mayor frecuencia es independiente del resto de las frecuencias de los demás valores, por lo que lahallada es escasamente representativa de toda la distribución de frecuencias. b. No siempre se sitúa en el centro de la distribución. c. Si los valores están agrupados en intervalos, la depende mucho de del número de intervalos y del número de valores asignado a cada intervalo. d. Se espera que la distribución presente un único valor con la mayor frecuencia; pero, si, por el contrario, la distribución tuviera más de un valor con la mayor frecuencia, se tendría, no una distribución unimodal, sino bimodal, trimodal... 6. EJEMPLOS DE IDENTIFICACIÓN DE LA DE DISTRIBUCIONES DE FRECUENCIAS Presentamos tres ejemplos de identificación de la con tres distintas distribuciones de frecuencias: a. Distribución de frecuencias de variables cualitativas. b. Distribución de frecuencias con variables cuantitativas continuas, sin agrupar los valores en intervalos. c. Distribución de frecuencias con variables cuantitativas continuas, agrupados los valores en intervalos. a. EJEMPLO DE CON VARIABLES CUALITATIVAS: En una urbanización de la costa viven 30 extranjeros: Siete son alemanes, cinco franceses, doce británicos, dos rusos y seis suecos. Hallar la .
Nacion alidad
Nú mero de nacionales
Francesa
5
Británica
12
Rusa
2
Sueca
6
Alemana
7
C omparamos las cinco frecuencias: 7, 5, 12, 2 y 6. El número mayor de los cinco es: <12>. Este número es el que corresponde a nacionales británicos. Luego la, es este caso es la .
b. EJEMPLO DECON VARIABLES CUANTITATIVAS CONTÍNUAS CON VALORES NO AGRUPADOS EN INTERVALOS Hallar la entre las puntuaciones obtenidas por 25 alumnos en una prueba de composición escrita. En la tabla se presentan las frecuencias de cada uno de los posibles valores que podían tomar las puntuaciones:
VALORES QUE PODÍAN TOMAR LAS PUNTUACIONES
FRECUENCIA (NÚMERO DE PUNTUACIONES QUE TOMAN CADA VALOR)
1
0
2
1
3
2
4
2
5
6
6
9
7
3
8
2
9
0
10
0
Comparamos las frecuencias (0, 1, 2, 2, 6, 9, 3, 2, 0 y 0) y vemos que la mayor frecuencia de las diez es <9> y <9>, correspondiendo a la puntuación: <6>. Por tanto, el valor que reúne más puntuaciones es <6> y consecuentemente, laes <6>. Puede aceptarse que el resultado de la prueba de composición escrita es bastante satisfactorio: 9 de 25 alumnos tiene una puntuación próxima a la centralidad. c. EJEMPLO DE CON VARIABLES CUANTITATIVAS CONTÍNUAS AGRUPANDO LOS VALORES EN INTERVALOS Del mismo modo que hemos alcanzado el valor del índice de tendencia central de una distribución de frecuencias con valores numéricos no agrupados en intervalos, se podría hacer otro tanto una distribución de frecuencias de valores agrupados en intervalos. Hallar la