Universidad
Nacional
del
Este
Facultad de Ciencias de la Salud
DOCTORADO EN CIENCIAS MÉDICAS CON NIVEL INTERMEDIO DE MAESTRÍA
MODULO I Estadística Descriptiva
Ciudad de Minga Guazú – Paraguay Septiembre ‐ 2012 Estadíst ica ic a Descripti Descri pti va - MÓDULO MÓDULO I Docente Responsable: Responsable: Ing . Silvia Grenóvero. Consultas a:
[email protected]
Universidad
Nacional
del
Este
Facultad de Ciencias de la Salud
Índice Contenido:
Pág.
Módulo I: Estadística Descriptiva 1. Tablas y Gráficos 1.1 Descripción de variables cualitativas 1.2 Descripción de variables cuantitativas 2. Medidas de Resumen 2.1 Medidas de Tendencia Central 2.2 Medidas de Dispersión Dispersió n 2.3. Medidas de posición: n-tiles 2.4 Valores atípicos (outliers) 2.5 Momentos respecto al origen orige n 2.6 Medidas de Forma 3.Variables bidimensionales bidimensionales 4. Errores más frecuentes y transcendentes que se cometen en la aplicación de estadísticas descriptivas BIBLIOGRAFÍA Anexo: Discrepancias Discrepancias en el cálculo de percentiles
3 12 26 34 42 47 50 52 56 56 58 60
Estadíst ica ic a Descripti Descri pti va - MÓDULO MÓDULO I Docente Responsable: Responsable: Ing . Silvia Grenóvero. Consultas a:
[email protected]
Universidad
Nacional
del
Este
Facultad de Ciencias de la Salud
Índice Contenido:
Pág.
Módulo I: Estadística Descriptiva 1. Tablas y Gráficos 1.1 Descripción de variables cualitativas 1.2 Descripción de variables cuantitativas 2. Medidas de Resumen 2.1 Medidas de Tendencia Central 2.2 Medidas de Dispersión Dispersió n 2.3. Medidas de posición: n-tiles 2.4 Valores atípicos (outliers) 2.5 Momentos respecto al origen orige n 2.6 Medidas de Forma 3.Variables bidimensionales bidimensionales 4. Errores más frecuentes y transcendentes que se cometen en la aplicación de estadísticas descriptivas BIBLIOGRAFÍA Anexo: Discrepancias Discrepancias en el cálculo de percentiles
3 12 26 34 42 47 50 52 56 56 58 60
Estadíst ica ic a Descripti Descri pti va - MÓDULO MÓDULO I Docente Responsable: Responsable: Ing . Silvia Grenóvero. Consultas a:
[email protected]
Universidad
Nacional
del
Este
Facultad de Ciencias de la Salud
♦
Fundamentación
La estadística actúa como disciplina puente entre los modelos matemáticos y los fenómenos reales (Peña, 1988) y se la ha definido como el arte de la decisión frente a la incertidumbre (Milton, J., 2001). El mundo actual enfrenta un desarrollo vertiginoso del conocimiento y muchos de los existentes se tornan obsoletos a una gran velocidad. Esta situación plantea un desafío en la formación de profesionales, que debe responder a los cambios operados op erados en el entorno social. social. Esta situación se transmite en la necesidad de contar con profesionales de la salud, con un amplio perfil y dominio profundo de los elementos e lementos básicos básicos y esenciales capaz de resolver de modo activo independiente y creador, los problemas de salud más generales que se le presenten. La Bioestadística, Bioestadística, como como disciplina disciplina dentro de la la Estadística Aplicada, Aplicada, se ocupa de os métodos y procedimientos procedimientos para recoger, clasificar, clasificar, resumir, hallar regularidades regularidades y analizar los datos, siempre y cuando la variabilidad e incertidumbre sea una causa intrínseca de los mismos; así como de realizar inferencias a partir de ellos, con la finalidad de ayudar a la toma de decisiones y en su caso formular predicciones. Por tanto, el desarrollo de contenidos tiende que el maestrando/doctorando logre: 1) Valorar:
los fundamentos y los principios básicos de la Bioestadística para ser aplicada en el área de las Ciencias de la Salud, y las destrezas para interpretar la bibliografía aplicada de manera crítica, comprender sus errores potenciales y aplicar con confianza los resultados de estudios al cuidado del paciente.
2) Afianzar: Los hábitos de estudio, el conocimiento e investigación tendientes a una permanente actualización y perfeccionamiento en las técnicas estadísticas básicas que otorgan validez a trabajos de investigación científica, para su aplicación en la evaluación de los factores de riesgo, elaboración del diagnóstico, pronóstico, terapéutica, y evaluación del efecto del tratamiento y curso clínico.
Estadíst ica ic a Descripti Descri pti va - MÓDULO MÓDULO I Docente Responsable: Responsable: Ing . Silvia Grenóvero. Consultas a:
[email protected]
Universidad
Nacional
del
Este
Facultad de Ciencias de la Salud
♦
El objetivo general •
•
•
•
•
•
Tomar conciencia de la necesidad y valor de la Bioestadística para ser aplicada a las Ciencias de la Salud, Interpretar los resultados de pruebas diagnósticas, con la utilización de indicadores estadísticos y epidemiológicos acordes, para la toma de decisiones clínicas Conocer y aplicar técnicas estadísticas básicas que otorgan validez a trabajos de investigación científica. Leer la bibliografía aplicada de manera crítica, comprender sus errores potenciales y aplicar con confianza los resultados de estudios para el cuidado del paciente. Adoptar una posición crítica, responsable, ética y constructiva en relación a las tareas de investigación. Reconocer las diferencias entre datos objetivos, juicios de valor, opiniones y prejuicios.
ESTADÍSTICA DESCRIPTIVA Y EPIDEMIOLÓGICA Este módulo estará integrada por:
I. Estadística y el método científico El maestrando/doctorando debe ser capaz de: 1. Identificar los aspectos que deben ser considerados al planificar la recolección de datos a fin de asegurar la calidad de la información. 2. Reconocer e identificar los diferentes tipos de variables y diseños para la definición de un plan estadístico acorde. 3. Identificar la validez interna y externa de un trabajo de investigación.
II. Estadística Descriptiva El maestrando/doctorando debe ser capaz de: 1. Diferenciar y organizar los diferentes tipos de análisis estadísticos descriptivos en función los distintos tipos de variables en estudio. Esta área cognoscitiva incluye los procesos de: a. introducir las diferentes clases de datos obtenidos en una investigación aplicada a ciencias de la salud y demostrar cómo se organizan y exhiben, b. tomar los conceptos necesarios para organizar la información en escalas, gráficas o resúmenes de cifras, c. determinar los diferentes tipos de escalas de medición, así como el alcance de los correspondientes niveles de medición, Estadíst ica Descripti va - MÓDULO I Docente Responsable: Ing . Silvia Grenóvero. Consultas a:
[email protected]
Universidad
Nacional
del
Este
Facultad de Ciencias de la Salud
d. identificar las distribuciones de mediciones numéricas y ordinales, de la misma forma la distribución de valores de una característica y la frecuencia de su ocurrencia, y e. aplicar escalas, gráficos, medidas de resumen y distribuciones con la aplicación de planillas electrónicas Excel ® y software SPSS. 2. Objetivar a través de métodos estadísticos adecuados información de estudios científicos o experiencias particulares, para la comprensión rigurosa de la naturaleza del trabajo clínico.
III. C. Estadística Epidemiológica El maestrando/doctorando debe ser capaz de: 1. valorar y cuantificar un problema de Salud de los individuos y de las poblaciones, 2. identificar los casos de enfermedad de la observación clínica al diagnóstico, 3. describir los casos y la enfermedad, en los diferentes estudios epidemiológicos, y 4. reconocer el estudio de los factores de riesgo para el desarrollo de una enfermedad, ♦
Criterios de evaluación del modulo
Evaluaciones parciales por unidades temáticas y evaluación integrada final de módulo.
Estadíst ica Descripti va - MÓDULO I Docente Responsable: Ing . Silvia Grenóvero. Consultas a:
[email protected]
Universidad
Nacional
del
Este
Facultad de Ciencias de la Salud
ESTADÍSTICA DESCRIPTIVA La estadística nos permite describir a un individuo representativo de un grupo, y comprobar, cómo dicha descripción representa al grupo de referencia para poder generalizar las conclusiones de una muestra a toda una población. De esta forma, la estadística se puede utilizar de dos maneras: para describir los datos y para realizar inferencias a partir de ellos. Por tanto existen dos tipos de estadísticas:
La estadística descriptiva:
se dedica a la presentación, organización y resumen de los datos. Esta incluye diversos métodos de organización, representación gráfica y parámetros que resumen los datos con muy pocos números claves. La estadística inferencial: permite
generalizar los datos de una muestra a un número
más grande de individuos.
El procesamiento de datos numéricos, como parte de la Estadística, incluye dos grandes aspectos, en función del objetivo de estudio y el diseño que se aplicará en el proceso de investigación: - Primero: las técnicas estadísticas que se utilizan para organizar y resumir los datos obtenidos en un conjunto de situaciones que tienen algo en común. Por ejemplo, para resumir el resultado obtenido en un grupo de individuos con una enfermedad determinada y que fueron sometidos a cierto tratamiento, o la situación en lo que respecta a presencia de casos de alguna afección en los habitantes de una región geográfica específica. En estas condiciones las técnicas que se aplican están dentro de lo que se denomina la “ estadística descriptiva” . Es habitual que el interés científico se centre en la totalidad de los hechos que se producen en condiciones determinadas. El objetivo es describir la manera en que se producen los hechos y la forma que toma la variable, en una población. Se describen, de esta manera, un conjunto de elementos, individuos o, en forma más genérica, unidades experimentales (unidades a partir de las que se lleva a cabo un experimento), que tienen por lo menos una característica observable en común ; en los ejemplos, padecer una misma enfermedad o habitar en una región geográfica. -Segundo: las técnicas que permiten inferir conclusiones, mediante el procesamiento numérico de los datos registrados en una muestra, hacia una población se denomina “estadística inferencial
Las técnicas de la estadística inferencial incluyen la estimación de parámetros con "intervalos de confianza" y la prueba de hipótesis formuladas como punto de partida de una investigación. En el proceso de investigación la selección de la técnica estadística a utilizar, estará en estricta relación con el diseño del estudio ( Esquemas de Diseño). A continuación se desarrollan tablas de selección de técnicas estadísticas, según el diseño de aplicación del proceso de investigación: Estadíst ica Descripti va - MÓDULO I Docente Responsable: Ing . Silvia Grenóvero. Consultas a:
[email protected]
Universidad
Nacional
del
Este
Facultad de Ciencias de la Salud
DISEÑO NO EXPERIMENTAL (PROSPECTIVO O RETROSPECTIVO) TRANSVERSAL O LONGITUDINAL Diseño
Técnica Estadística Análi si s Descri ptiv o Tabulación con indicadores de frecuencia y representación gráfica. -
Medidas de tendencia central, dispersión, posición y de forma. -
Corte
-
Valores atípicos (outliers)
-
Momentos respecto al origen y a la media.
Intervalos de Confianza Distribu ción de variables discr etas y continuas -
DISEÑO NO EXPERIMENTAL (PROSPECTIVO O RETROSPECTIVO) TRANSVERSAL O LONGITUDINAL Diseño
Técnicas Epidemiológicas Análi si s Descri ptiv o Tabulación y representación gráfica epidemiológica. -
Medidas de frecuencia, tendencia central, dispersión, y de orden. -
Corte
Pruebas Diagnósticas - Sensibilidad - Especificidad -Valor predictivo positivo y negativo
Estadíst ica Descripti va - MÓDULO I Docente Responsable: Ing . Silvia Grenóvero. Consultas a:
[email protected]
Universidad
Nacional
del
Este
Facultad de Ciencias de la Salud
DISEÑO NO EXPERIMENTAL (PROSPECTIVO O RETROSPECTIVO) TRANSVERSAL O LONGITUDINAL Muestras Diseño N°
Tamaño >30
Comparativo
22
<30
Varianzas Distrib. de la variable
Técnica Estadística
Normal
t de Student
Normal
t de Student
Otra distribución
Iguales
t de Student
Distintas
t de Student con ajuste de gl
2
Muestras Independientes formadas por individuos distintos y sin relación entre sí.
DISEÑO NO EXPERIMENTAL (PROSPECTIVO O RETROSPECTIVO) TRANSVERSAL O LONGITUDINAL Muestras Diseño N°
Comparativo
≥3
Tipo
Indepen dientes
Distrib. de l a v ar iab le
Fac tor
Técnica Estadística
Normal
1
ANOVA (Oneway)
Otra distribución
≥2
ANOVA (de k direcciones)
Estadíst ica Descripti va - MÓDULO I Docente Responsable: Ing . Silvia Grenóvero. Consultas a:
[email protected]
Universidad
Nacional
del
Este
Facultad de Ciencias de la Salud
DISEÑO NO EXPERIMENTAL (PROSPECTIVO O RETROSPECTIVO) TRANSVERSAL O LONGITUDINAL Muestras Diseño N°
Tipo
Distrib. de la variable
Técnica Estadística
ANOVA
Comparativo
≥33
Normal
(de k direcciones
Otra distribución
Friedman
Relacionadas
3 Muestras
relacionadas: compara dos o más variables con el mismo número de casos
DISEÑO NO EXPERIMENTAL (PROSPECTIVO O RETROSPECTIVO) TRANSVERSAL O LONGITUDINAL Muestras Diseño
Técnica Estadística N°
Tipo
-Mc Nemar
Comparativo
2
-Prueba de los Signos Relacionadas - Prueba de Wilcoxon
- Friedman ≥3
-Prueba
de Kendall
-Prueba
Q de Cochran
Estadíst ica Descripti va - MÓDULO I Docente Responsable: Ing . Silvia Grenóvero. Consultas a:
[email protected]
Universidad
Nacional
del
Este
Facultad de Ciencias de la Salud
DISEÑO NO EXPERIMENTAL (PROSPECTIVO O RETROSPECTIVO) TRANSVERSAL O LONGITUDINAL Variable Diseño
Técnica Estadística
Correlacional
Nominal
Riesgo Relativo y/o regresión logística de Cox
Nominal y Numérica
Rho de Spearman
Numérica
Correlación de Pearson
DISEÑO EXPERIMENTAL LONGITUDINAL de COHORTE Muestras Tipo
N°
Tamaño <20
Tipo de variable
Técnica Estadística
Nominal
Probabilidad exacta de Fisher y Yates
>20 Independiente
Prueba de ji-cuadrado
2
de Pearson Ordinal
Prueba de KolmogorovSmirnov
Interválica
Prueba t de Student
Estadíst ica Descripti va - MÓDULO I Docente Responsable: Ing . Silvia Grenóvero. Consultas a:
[email protected]
Universidad
Nacional
del
Este
Facultad de Ciencias de la Salud
DISEÑO EXPERIMENTAL LONGITUDINAL de COHORTE Muestras Tipo
N°
Tamaño <5
Tipo de variable
Técnica Estadística
Nominal
Prueba de ji-cuadrado de Pearson Prueba de ji-cuadrado de Proporciones
>5 Independiente
≥3
Ordinal
Prueba análisis de varianza de doble entrada por rangos de Kruskal-Wallis
Interválica
Prueba de análisis de varianza de una entrada de Fisher
DISEÑO EXPERIMENTAL LONGITUDINAL de COHORTE Muestras Tipo
Dependientes
Tipo de v ariable
Técn ica Estadística
Nominal
Prueba de Mc Nemar
Ordinal
Prueba de Wilcoxon
Interválica
Prueba de t de Student
N°
2
Estadíst ica Descripti va - MÓDULO I Docente Responsable: Ing . Silvia Grenóvero. Consultas a:
[email protected]
Universidad
Nacional
del
Este
Facultad de Ciencias de la Salud
DISEÑO EXPERIMENTAL LONGITUDINAL de COHORTE Muestras Tipo
Dependientes
Tipo de v ariable
Técn ica Estadística
Nominal
Prueba de Q de Cochran
Ordinal
Prueba análisis de varianza de doble entrada por rangos de Friedman
Interválica
Prueba análisis de varianza de entrada
N°
≥3
sencilla o doble de Fisher
Estadíst ica Descripti va - MÓDULO I Docente Responsable: Ing . Silvia Grenóvero. Consultas a:
[email protected]
Universidad
Nacional
del
Este
Facultad de Ciencias de la Salud
1. Tablas y Gráficos 1.1 Descripción de variables cualitativas La descripción de una variable cualitativa consiste básicamente en una tabulación de las frecuencias y en su representación gráfica mediante un diagrama de sectores o de barras. La tabulación es una de las primeras operaciones que se suele realizar una vez recogidos los datos. La tabla de frecuencias proporciona una rápida visión del comportamiento de los datos. Cualquier tabulación que se haga con una variable cualitativa debe incluir la frecuencia absoluta y la frecuencia relativa de cada modalidad; también es frecuente representar los porcentajes. Frecuencia absoluta
Frecuencia absoluta, fa, de una modalidad o categoría de una variable aleatoria cualitativa, es el número de veces que se ha observado dicha modalidad en un determinado experimento u observación.
= En la ecuación anterior n es el número total de datos. La ecuación anterior indica que la suma de todas las frecuencias absolutas observadas es igual al número total de datos, lo que implica que cada dato debe pertenecer a una modalidad y sólo a una. Frecuencia relativa
Frecuencia relativa, fr, de una modalidad de una variable cualitativa es la frecuencia absoluta dividida por el número de casos estudiados, n. La frecuencia relativa es una proporción, y como se estudia en próximos capítulos, es una estimación de la probabilidad basada en la experiencia. La suma de todas las frecuencias relativas es igual a 1.
= Sustituyendo en la expresión anterior ,fr, por su valor según la expresión: Porcentaje de una modalidad de una variable cualitativa es la fr multiplicada por 100. Si la frecuencia relativa de una modalidad de una variable aleatoria cualitativa es 0,14 el porcentaje es 14. Estadíst ica Descripti va - MÓDULO I Docente Responsable: Ing . Silvia Grenóvero. Consultas a:
[email protected]
Universidad
Nacional
del
Este
Facultad de Ciencias de la Salud
La frecuencia relativa, en general, aporta más información que la frecuencia absoluta. Si en un grupo de individuos hay 14 hipertensos, este dato por sí solo no aporta mucha información, pero si, además, se conoce la frecuencia relativa que es 0,17 la información es mayor, se sabe que la gran mayoría no son hipertensos. Con la frecuencia absoluta aislada no se sabe si esa modalidad es mayoritaria o no. Si en una comunidad hay 25 personas afectadas de cardiopatía isquémica, y en otra 37, evidentemente hay más afectados en la segunda comunidad; pero si la primera comunidad tiene 1.000 habitantes y la segunda 500, hay más afectados de forma relativa en la segunda comunidad. En la siguiente tabla se expresan estos datos. Tabla1. Frecuencia de afectados de cardiopatía isquémica en dos comunidades.
La frecuencia relativa permite comparar resultados. En la 2a comunidad hay mayor porcentaje de afectados. Representación gráfica
La representación gráfica completa la descripción típica de una variable cualitativa. Los dos tipos de gráficos más frecuentemente utilizados en la descripción de variables cualitativas son los de sectores y los de barras. En los gráficos de sectores cada sector representa una categoría de la variable y su ángulo central debe ser proporcional a su frecuencia. En los gráficos de barras cada barra representa una categoría de la variable a representar y su altura debe ser proporcional a su frecuencia. En el Ejemplo 2.1 los mismos datos son representados mediante un gráfico de sectores y otro de barras. Esto se hace así por motivos didácticos, pero en informes o artículos científicos solamente debe figurar un gráfico por cada conjunto de datos.
EJEMPLO 1 En un servicio de Traumatología, con objeto de realizar una correcta planificación, interesa conocer la localización de la patología principal de los pacientes atendidos en Urgencias, para lo cual se estudia una muestra de 186 elegida entre los pacientes atendidos durante los últimos seis meses n = 186. La variable de interés es la zona afectada es una variable cualitativa dividida en 5 modalidades (rodilla, cadera, tobillo, cráneo, otras). Estadíst ica Descripti va - MÓDULO I Docente Responsable: Ing . Silvia Grenóvero. Consultas a:
[email protected]
Universidad
Nacional
del
Este
Facultad de Ciencias de la Salud
TABLA 2. Zonas afectadas en pacientes traumatológicos.
A continuación se representan las frecuencias absolutas en dos figuras: de barras y de sectores.
Estadíst ica Descripti va - MÓDULO I Docente Responsable: Ing . Silvia Grenóvero. Consultas a:
[email protected]
Universidad
Nacional
del
Este
Facultad de Ciencias de la Salud
1.2 Descripción de variables cuantitativas En la descripción de variables cuantitativas, es importante acompañar la tabulación y representación gráfica con medidas de resumen, como la media aritmética y la desviación típica. Frecuentemente, también suelen calcularse otros parámetros de centralización como la mediana, y de dispersión como el coeficiente de variación, cuartiles, percentiles, etc.
1.2.1. Tabulación de variables cuantitativas Con objeto de tener una visión adecuada de los datos es conveniente representarlos en tablas. El intervalo de variación observado de la variable se divide en clases, es decir, se divide la variable en intervalos a los que se denomina clases. Al representar los datos en tablas divididas en clases y realizar a partir de ellos los cálculos se gana en rapidez, pero se pierde en exactitud: a menos clases menos exactitud. La tabulación de los datos antes de la aparición de las calculadoras tenía dos funciones: describir los datos y facilitar los cálculos de las medidas de centralización y de dispersión. Actualmente esta segunda función no tiene importancia puesto que los cálculos se suelen hacer con toda exactitud en ordenadores o al menos en calculadoras. En la construcción de la tabla debe determinarse el número de clases, la longitud del intervalo de clase y el límite inferior de la primera clase. El número de clases en que se debe dividir una tabla es una decisión a tomar por el responsable del estudio, pero existen unas reglas orientativas que pueden ayudar a realizar tabulaciones. Se insiste en el hecho de que estas recomendaciones no son leyes, y una tabulación hecha sin seguir estas reglas puede ser perfectamente válida. Número de clases
El número de clases debe ser aproximadamente la raíz cuadrada del número de datos sin sobrepasar 20 ni ser inferior que 5. Por ejemplo, si se dispone de 1.000 datos, aunque la raíz cuadrada de este número es más de 30 se toman únicamente 20 clases. Tomar menos de cinco clases (en alguna ocasión pueden tomarse menos de 5 clases si esto permite representar mejor las observaciones realizadas) conduce a agrupar demasiado la variable y se pierde la esencia de una variable cuantitativa, que es su capacidad de variabilidad, lo que permite diferenciar entre una gran riqueza de matices. Por el contrario, clasificar la variable en más de 20 clases evitaría obtener una información rápida sobre la distribución de los datos, que es el fundamento de la tabulación. Límites de clase
Una clase está definida por dos valores, límite inferior, LIC, y límite superior, LSC. Cómo elegir estos valores es motivo de controversia y varios métodos son propuestos por Estadíst ica Descripti va - MÓDULO I Docente Responsable: Ing . Silvia Grenóvero. Consultas a:
[email protected]
Universidad
Nacional
del
Este
Facultad de Ciencias de la Salud
los autores, pero hay una regla indiscutible y es que los límites deben ser elegidos de tal manera que un dato solo pueda estar contenido en una clase y todo dato debe estar contenido en una clase, es decir, la clasificación tiene que ser exhaustiva y mutuamente excluyente. En este método el límite superior de una clase coincide con el límite inferior de la clase siguiente, pero esta coincidencia es sólo aparente porque las clases son intervalos semiabiertos, de tal manera que incluyen el límite inferior de clase pero no el superior. Si a es el límite inferior de una clase y b es el límite superior de la misma clase, pertenecen a la clase todos los números que cumplan la siguiente condición:
Intervalos de clase
Se denomina intervalo de clase al conjunto de valores que pueden pertenecer a una clase, es decir, los comprendidos entre el límite superior y el límite inferior sin incluir el valor del límite superior, como se indicó en el párrafo anterior. Longitud del intervalo es la diferencia entre el límite superior de clase y el límite inferior. En general, es conveniente que la longitud de los intervalos de clase sea la misma en todas las clases. En el caso de que los datos no se repartan regularmente en las clases, puede ser mejor que las clases sean desiguales. En algunas ocasiones, para realizar cálculos a partir de datos tabulados, se utilizan las marcas de clase: una marca de clase es el punto medio de una clase.
En la expresión anterior MC1 representa a la i-ésima marca de clase, LSC1 al iésimo límite superior de clase y LIC1 al i-ésimo límite inferior de clase. Es decir, la marca de clase de una determinada clase es el promedio de la diferencia entre el límite superior y el límite inferior de dicha clase. TABLA 1. Parámetros más importantes en una tabulación de variables aleatorias cuantitativas.
Estadíst ica Descripti va - MÓDULO I Docente Responsable: Ing . Silvia Grenóvero. Consultas a:
[email protected]
Universidad
Nacional
del
Este
Facultad de Ciencias de la Salud
Los parámetros representados en la tabla anterior son los siguientes: Cx clase x. LICx límite inferior de la clase x. LSCx límite superior de la clase x. MCx marca de la clase x. fax frecuencia absoluta de la clase x. frx frecuencia relativa de la clase x. Fax frecuencia absoluta acumulada de la clase x. Frx frecuencia relativa acumulada de la clase x. Frecuencias de clase
correspondiente a la tabulación de una variable cuantitativa, es el número de observaciones cuyos valores están incluidos en esa clase. La suma de todas las frecuencias absolutas es n (número total de datos). Frecuencia absoluta de una clase
correspondiente a la tabulación de una variable cuantitativa, es la frecuencia absoluta de esa clase dividida por el número total de datos. La frecuencia relativa es el tanto por uno, la suma de todas las frecuencias absolutas es igual a 1. La frecuencia relativa da más información que la frecuencia absoluta, puesto que es una relación entre el número de datos de esa clase y el número total de datos. Frecuencia relativa de una clase
es igual a la frecuencia absoluta de esa clase más la frecuencia absoluta acumulada de la clase anterior o lo que es lo mismo a la frecuencia absoluta de esa clase más la suma de frecuencias absolutas de las clases anteriores. La frecuencia absoluta acumulada de la primera clase es igual a la frecuencia absoluta de esta clase, y la frecuencia absoluta acumulada de la última clase es igual al número total de datos. La frecuencia absoluta acumulada de una clase
La frecuencia relativa acumulada de una clase es igual a la frecuencia relativa de esa
clase más la frecuencia relativa acumulada de la clase anterior, o lo que es lo mismo, a la frecuencia relativa acumulada de esta clase más la suma de las frecuencias relativas acumuladas de todas las clases anteriores. La frecuencia relativa acumulada de la primera clase coincide con su frecuencia relativa, y la frecuencia relativa acumulada de la última clase es igual a 1. En el caso de tabulación de variables continuas discretas el procedimiento es el mismo, aunque si el número de clases es pequeño cada clase en lugar de ser un intervalo es un valor determinado. Por ejemplo, el objetivo de un estudio es tabular el número de hijos que tienen las parejas de una comunidad. Los pasos a realizar para la construcción de una tabla a partir de datos cuantitativos continuos se realiza de la siguiente forma:
Estadíst ica Descripti va - MÓDULO I Docente Responsable: Ing . Silvia Grenóvero. Consultas a:
[email protected]
Universidad
Nacional
del
Este
Facultad de Ciencias de la Salud
TABLA 2.Tabla de frecuencias de una variable aleatoria cuantitativa discreta.
EJEMPLO 2 Un servicio de medicina interna, con objeto de planificar debidamente sus recursos, estudia mediante muestreo aleatorio el número de urgencias atendidas por día, para ello se extrae una muestra de 30 días al azar. Obteniéndose los siguientes resultados:
Número de clases =6 (aproximadamente raíz cuadrada de n). Longitud del intervalo de clase. LIC: rango/número de clases. LIC = 32/6 = =5,33. Aproximando al entero siguiente porque los datos se dan en números enteros, es decir, 6. LIC =6. Lo primero que debemos hacer es identificar los valores máximo y mínimo; la diferencia entre los dos es el rango. Una vez determinado el rango y el número de clase, el cociente con la aproximación correspondiente da la longitud del intervalo de clase. Una vez obtenida la longitud del intervalo de clase, sólo queda determinar el límite inferior de la primera clase, y sumándole la longitud del intervalo de clase se obtiene el límite superior de la primera clase que coincide con el límite inferior de la segunda clase, y así sucesivamente. El límite inferior de la primera clase se obtiene restándole 0,5 al valor mínimo si los datos son enteros, en caso de que los datos tengan un decimal se restaría al mínimo 0,05; la regla general es restar al valor mínimo la mitad de la mínima diferencia posible entre dos datos. Si los datos están expresados en números enteros, la mínima diferencia posible es 1 y la mitad 0,5. Si los datos están expresados con una cifra decimal, la mínima diferencia posible entre dos datos es 0,1 y la mitad 0,05 y así sucesivamente. Estadíst ica Descripti va - MÓDULO I Docente Responsable: Ing . Silvia Grenóvero. Consultas a:
[email protected]
Universidad
Nacional
del
Este
Facultad de Ciencias de la Salud
En este caso, el mínimo es 11, por lo tanto restándole 0,5 el límite inferior de la primera clase es 10,5; sumándole 6, que es la longitud del intervalo de clase, el límite superior de la segunda clase es 16,5 que además es el límite inferior de la segunda clase y así sucesivamente. Una vez definidos los límites de las clases se determinan las frecuencias absolutas y el resto de los parámetros según las definiciones dadas en los párrafos anteriores. TABLA 3. Urgencias atendidas por día.
En el ejemplo anterior se podrían haber elegido otros límites de clase e incluso un número distinto de clases. Como se comentó anteriormente, en la tabulación de datos hay reglas pero pocas leyes. El objetivo es resumir en una tabla la información que aportan los datos, en general, la mejor manera de hacerlo es la descrita anteriormente.
1.2.1. Representación gráfica de variables cuantitativas La representación gráfica de variables cuantitativas puede ser muy variada. Los gráficos más frecuentemente utilizados son los siguientes: — Histograma de frecuencias. — Histograma de frecuencias acumulado. — Polígono de frecuencias. — Polígono de frecuencias acumulado Descriptiva e Histograma de frecuencias
El histograma de frecuencias está compuesto por tantos rectángulos como clases, el área del rectángulo es proporcional a las frecuencias. En el caso de que el intervalo de todas las clases tenga la misma longitud, la base de los rectángulos son iguales, y por lo tanto la altura también es proporcional a las frecuencias, pero en los casos en los que los intervalos de clase son distintos la altura de los rectángulos no es proporcional a las frecuencias. El histograma siguiente está basado en los datos correspondientes al Ejemplo 2.
Estadíst ica Descripti va - MÓDULO I Docente Responsable: Ing . Silvia Grenóvero. Consultas a:
[email protected]
Universidad
Nacional
del
Este
Facultad de Ciencias de la Salud
Histograma de frecuencias acumulado
El área de los rectángulos de este histograma son proporcionales a las frecuencias absolutas acumuladas. Polígono de frecuencias
El polígono de frecuencias se construye uniendo mediante una línea recta el punto medio de las bases superiores de los rectángulos del histograma de frecuencias. El polígono comienza en el punto medio de una hipotética clase anterior a la primera clase y con una longitud de intervalo igual; en el caso del Ejemplo 2.2 la primera clase corresponde al intervalo numérico 10,5-16,5. Una clase anterior y de igual longitud de intervalo sería la correspondiente al intervalo numérico 4,5-10,5, el polígono comienza en el punto medio de esta clase, que es 7,5. El polígono se cierra trazando una línea desde el punto medio de la base superior del rectángulo correspondiente a la última clase, hasta el punto medio de una clase posterior a la última y de igual longitud de intervalo. En el Ejemplo 2.2 una clase posterior a la última y Estadíst ica Descripti va - MÓDULO I Docente Responsable: Ing . Silvia Grenóvero. Consultas a:
[email protected]
Universidad
Nacional
del
Este
Facultad de Ciencias de la Salud
de igual longitud a la última sería la correspondiente al intervalo numérico 46,5-52,5, el punto medio de esta clase es 49,5 que es el punto donde termina el polígono.
Polígono de frecuencias acumulado
El polígono de frecuencias acumulado comienza en el punto medio de una clase anterior a la primera; en el caso del Ejemplo 1comenzaría en el punto 7,5 y uniría mediante líneas rectas los puntos medios de las bases superiores del histograma de frecuencias acumulado, terminando en el punto medio de la base superior del rectángulo correspondiente a la última clase.
Se justifica la construcción de este tipo de gráfico, cuando es necesario expresar una situación comparativa de distribución entre dos o más muestras o poblaciones.
Otros Gráficos de distribución: representaciones tallo-hoja (stem and leaf) Esta representación es una combinación de dos procedimientos: uno gráfico y otro de ordenación. Estadíst ica Descripti va - MÓDULO I Docente Responsable: Ing . Silvia Grenóvero. Consultas a:
[email protected]
Universidad
Nacional
del
Este
Facultad de Ciencias de la Salud
Ordenar:
es formar una lista de los datos en un orden dado de acuerdo con su valor
numérico. El tallo se forma con el (los) primer (os) dígito del dato, mientras que la hoja se forma con los demás dígitos siguientes. Por ejemplo, el valor numérico 458 se dividiría en 45-8 como se muestra a continuación: Dígitos iniciales Dígitos sucesivos 45 8 Utilizados en la ordenación Mostrados en la representación Ejemplo de construcción de representación tallo-hoja para un conjunto de 20 calificaciones:
82 62
74 68
88 72
66 92
58 86
74 76
78 52
84 76
96 82
76 78
En una inspección rápida se ve que hay valores en los grupos del 50, 60, 70, 80 y 90. El primer dígito de cada valor debe utilizarse como tallo, y el segundo como hoja. Casi siempre la representación se construye en disposición vertical. Con una recta vertical se dividen: los tallos hacia la izquierda en columna y cada hoja junto a su tallo a la derecha. El valor del primer dato es 82; 8 es tallo y 2 es la hoja. Por lo tanto se ubica el 2 frente al 8. El valor del dato siguiente es 74, de manera que se escribe la hoja 4 frente al tallo 7. 5 6 7 8 9
7 8 “tallos a la izquierda”
4 2
“tallo y hoja”
El proceso continúa hasta que se coloquen todas las 18 hojas restantes. La siguiente figura muestra la representación tallo-hoja que resulta.
En la figura se han puesto en la misma línea de hojas o ramas todas las calificaciones puntajes que tienen las mismas decenas. Si suponemos que se reconstruye la representación Estadíst ica Descripti va - MÓDULO I Docente Responsable: Ing . Silvia Grenóvero. Consultas a:
[email protected]
Universidad
Nacional
del
Este
Facultad de Ciencias de la Salud
y ahora en vez de agrupar diez valores posibles para cada tallo, se agrupan los valores de manera que sólo puedan estar cinco para cada tallo. Generalmente es sencillo formar una representación con tallos diferentes, una vez que los datos se han ingresado en una computadora. La siguiente figura presenta una forma semejante a la anterior, aproximadamente simétrica respecto al 70. Es típico que muchas variables muestren una distribución que se concentra (formando un montículo) alrededor de un valor central y se extiende luego a un lado y otro.
A continuación se muestra esta representación cuando se analizan dos poblaciones en forma conjunta.
En este ejemplo se parte de una muestra tomada al azar de 50 estudiantes de una universidad. De sus registros médicos se obtuvieron sus pesos (en libras) según lo muestra la siguiente tabla:
Estadíst ica Descripti va - MÓDULO I Docente Responsable: Ing . Silvia Grenóvero. Consultas a:
[email protected]
Universidad
Nacional
del
Este
Facultad de Ciencias de la Salud
Se debe advertir que los pesos varían entre 98 y 215 libras. Los valores de peso se agrupan para tallos de 10 unidades utilizando los dígitos de las centenas y decenas como tallos, y los de las unidades como hojas.
Una inspección más detallada de esta figura indica que puede haber dos distribuciones traslapadas. Eso es exactamente lo que se tiene: una distribución para los pesos de las alumnas y otra para los pesos de los alumnos. La figura que se muestra a continuación muestra una representación tallo-hoja de tipo adosado para ese conjunto de datos, evidencia que en realidad se tienen dos distribuciones distintas.
Algunas opciones de tablas y gráficos expuestos anteriormente se pueden observar ejemplificados en: http://new.paho.org/par/index.php?option=com_content&task=view&id=25&Itemid=1 35 Estadíst ica Descripti va - MÓDULO I Docente Responsable: Ing . Silvia Grenóvero. Consultas a:
[email protected]
Universidad
Nacional
del
Este
Facultad de Ciencias de la Salud
2. Medidas de Resumen 2.1 Medidas de Tendencia Central Al tabular los datos se tiene una visión más amplia y ordenada sobre ellos, pero esto no es suficiente, y se necesita conocer otros parámetros que informen de la tendencia central de los datos, estos son los llamados parámetros de centralización. A continuación se desarrollan los más utilizados:
2.1.1 Media aritmética La media aritmética es el parámetro de centralización más utilizado, su valor es el centro aritmético de los datos. Se suele hacer referencia a ella, sin su calificativo. Se suele emplear el símbolo µ para representar la media aritmética poblacional y x para representar la media aritmética muestral. La media aritmética es el valor que tendría cada elemento de la serie de datos si todos tuvieran el mismo valor. La media aritmética se calcula promediando todos los datos:
En la expresión anterior x indica el i-ésimo dato; si la suma es desde que i es igual a 1 hasta n, esto quiere decir la suma de los n primeros datos que han sido seleccionados, el orden en este caso es el de selección no es un orden según el valor de los datos; aunque el resultado es el mismo sea cual sea el orden de los datos.
̅
La media poblacional se calcula sustituyendo en la expresión anterior µ por y N por n. En este texto los símbolos n y N serán utilizados para representar los tamaños de la muestra y de la población respectivamente. La media aritmética de los datos 2, 4, 6, 8, y 9, es 5,8.
En el caso de datos agrupados en tablas el cálculo no es exacto, y en este caso se considera que todos los datos correspondientes a una clase tienen el valor de la marca de su clase. El cálculo de parámetros a partir de tablas se realizaba antes de la utilización de los medios electrónicos de cálculo, para ahorrar tiempo, aunque se perdía exactitud. En la Estadíst ica Descripti va - MÓDULO I Docente Responsable: Ing . Silvia Grenóvero. Consultas a:
[email protected]
Universidad
Nacional
del
Este
Facultad de Ciencias de la Salud
actualidad este método de cálculo puede realizarse en el caso de disponer de una tabla de datos, pero no de los datos originales.
En la fórmula anterior fi es la frecuencia absoluta de la clase i-ésima, y la marca de clase de la i-ésima clase. La fórmula anterior también se puede utilizar para calcular la media aritmética de variables discretas, en este caso fi es la frecuencia absoluta de la i-ésima clase que tiene un valor numérico x, n es el número total de observaciones; el producto de las dos debe ser igual al número total de observaciones. La expresión anterior también es aplicable en el caso de que haya muchos valores repetidos, en cuyo caso fi representa el número de veces que se repite el gnlpo de datos iésimo según el orden de menor a mayor. EJEMPLO 3 En una comunidad el número de hijos por pareja viene dado por la tabla siguiente:
El número medio de hijos por pareja es 2,19. En el caso del ejemplo anterior se trata de la tabulación de una variable aleatoria discreta.
Estadíst ica Descripti va - MÓDULO I Docente Responsable: Ing . Silvia Grenóvero. Consultas a:
[email protected]
Universidad
Nacional
del
Este
Facultad de Ciencias de la Salud
EJEMPLO 4 La glucemia basal en mg/100 ml de una muestra de personas de un barrio X, está expresada en la siguiente tabla:
La media aritmética será:
La glucemia media de los integrantes de la muestra es 0,93.
2.1.2 Media aritmética ponderada En algunas ocasiones no todos los datos de una serie tienen la misma importancia. En estos casos se puede asignar un peso distinto a cada valor de la variable, a esta distinta consideración se le denomina ponderación, y a la media aritmética calculada de esta manera media aritmética ponderada.
Si se tiene un conjunto de datos 1 , 2 , ..., y a cada uno de ellos se le asignan los pesos siguientes: 1 , 2 , ..., la media aritmética ponderada se puede calcular mediante la siguiente expresión:
Estadíst ica Descripti va - MÓDULO I Docente Responsable: Ing . Silvia Grenóvero. Consultas a:
[email protected]
Universidad
Nacional
del
Este
Facultad de Ciencias de la Salud
EJEMPLO 5 En la evaluación de un servicio sanitario, han sido calculados tres índices. La evaluación total del servicio se obtiene calculando la media ponderada de los índices ya que no tienen el mismo valor. Los pesos asignados son 3 al primer índice, 5 al segundo y 9 al tercero. Los datos que se obtuvieron fueron los siguientes:
2.1.3 Media geométrica La media geométrica de un conjunto de n datos se calcula obteniendo la raíz enésima del producto de todos los datos.
Para datos agrupados, la media geométrica puede calcularse a partir de la siguiente expresión.
En la expresión anterior n debe ser igual a la suma de todas las frecuencias, es decir, n es igual al número total de observaciones. Obsérvese que los exponentes f, f ..., son correspondientes a las veces que se repite cada dato, es decir, si el número 5 se repite tres veces, en la raíz estará elevado al cubo. EJEMPLO 6 Calcular la media geométrica de los datos siguientes: 4, 5, 6, 8, 9, 12.
Estadíst ica Descripti va - MÓDULO I Docente Responsable: Ing . Silvia Grenóvero. Consultas a:
[email protected]
Universidad
Nacional
del
Este
Facultad de Ciencias de la Salud
La media geométrica sólo es preferible a la aritmética en algunos casos muy concretos, como en progresiones geométricas. Debe tenerse en cuenta que cuando un dato es igual a cero, la media geométrica es cero. Si un número impar de datos tienen valores negativos, la raíz no tiene solución real, aunque sí imaginaria, y en caso de un número par de valores negativos el producto es positivo, de esta manera daría igual que los valores fueran positivos o negativos; en general, no debe calcularse la media geométrica si hay valores negativos, podría llegarse a conclusiones erróneas.
2.1.4 Media armónica La media armónica es la inversa de la media aritmética de los inversos de una serie de datos. Se puede calcular mediante la siguiente expresión:
Para datos agrupados la media armónica puede calcularse mediante la siguiente expresión:
En la expresión anterior n debe ser igual a la suma de todas las frecuencias absolutas ( ). En muy pocas ocasiones es preferible la media armónica a la media aritmética, una de ellas es el cálculo de promedio de velocidades.
EJEMPLO 7 Un coche recorre 300 kilómetros, los 100 primeros a 80 kilómetros por hora, los 100 siguientes a 70 kilómetros por hora y los 100 restantes a 90 kilómetros por hora ¿Cuál ha sido la velocidad media del viaje? No es la media de las velocidades de cada tramo, es decir, 80 kilómetros por hora. La velocidad media se calcula dividiendo el espacio recorrido, 300 kilómetros por el tiempo recorrido; el tiempo empleado en recorrer cada tramo es el cociente entre la distancia y la velocidad: Estadíst ica Descripti va - MÓDULO I Docente Responsable: Ing . Silvia Grenóvero. Consultas a:
[email protected]
Universidad
Nacional
del
Este
Facultad de Ciencias de la Salud
La velocidad media es la distancia 300 kilómetros, dividida por 3,79 horas: 79,16 kilómetros por hora, que es la media armónica de las velocidades:
2.1.5 Media cuadrática La media cuadrática es la raíz cuadrada de la media aritmética del cuadrado de una serie de datos. La media cuadrática se puede calcular mediante la siguiente expresión:
Para datos agrupados la expresión aplicable es la siguiente:
En la expresión anterior n debe ser igual a la suma de las k frecuencias absolutas. La media cuadrática es útil cuando se promedian series de números al cuadrado. Tiene aplicaciones muy concretas, y es la que menos utilizada en ciencias de la salud.
2.1.6 Mediana La mediana de un conjunto de n datos ordenados de menor a mayor es el valor central, es decir, la mediana divide a un conjunto de datos ordenados en dos partes iguales en cuanto al número de datos. Si n es impar la mediana es el elemento:
El orden del elemento anterior es en relación a su valor. Si n es par, la mediana es la media aritmética de los dos valores centrales esto es: Estadíst ica Descripti va - MÓDULO I Docente Responsable: Ing . Silvia Grenóvero. Consultas a:
[email protected]
Universidad
Nacional
del
Este
Facultad de Ciencias de la Salud
EJEMPLO 8 Calcular la mediana de los conjuntos de datos siguientes: 2, 4, 6, 8, 9, 10, 11, 12, 13, 14, 20. El conjunto de datos anterior tiene un número impar de datos, y el número total de datos es 11; por lo tanto la mediana es el valor central es decir el sexto M = 10. El conjunto de datos siguiente: 3, 6, 8, 12, 17, 28, 32, 34, consta de 8 datos; por lo tanto la mediana es la media aritmética de los dos valores centrales, dichos valores son el 12 y el 17.
La mediana tiene un sentido geométrico, divide el conjunto de datos ordenados en dos partes iguales en cuanto al número de datos, por esta circunstancia es menos sensible que la media aritmética a los valores atípicos (outliers), indicando con esta definición a algún dato que destaca con respecto a los demás por ser mucho más pequeño o grande. En éste mismo capítulo, en un apartado posterior se definen paramétricamente los valores atípicos. El cálculo de la mediana a partir de datos tabulados es un poco más complicado, se puede hacer mediante la siguiente expresión:
elemento mediano, si hay 99 datos el elemento mediano es el 50.° en orden de menor a
mayor; si hay 100 datos el elemento mediano sería el punto medio entre los elementos 50.° y 51.° LICM límite inferior de la clase mediana. Se llama clase mediana a la que contiene al elemento central de la distribución de datos; en un conjunto de 101 datos la clase mediana es la que contiene al elemento 51 en orden de menor a mayor.
−1:frecuencia absoluta acumulada de la clase anterior a la mediana. :frecuencia absoluta de la clase mediana. ICM: longitud del intervalo de la clase mediana.
2.1.7 Moda La moda de un conjunto de datos es el valor que más veces se repite. En el caso de variables continuas en las que es difícil que se repitan datos, si dicha variable viene Estadíst ica Descripti va - MÓDULO I Docente Responsable: Ing . Silvia Grenóvero. Consultas a:
[email protected]
Universidad
Nacional
del
Este
Facultad de Ciencias de la Salud
expresada en forma funcional se puede identificar la moda absoluta con el máximo absoluto de la función si existe, y la moda relativa con los máximos relativos de la función si estos existen. La moda absoluta es el valor que más veces se repite. La moda relativa es un valor que sin ser el que más veces se repite, se repite más veces que el resto de los datos. En el siguiente conjunto de datos: 2,2,2,3,7,8,9,11,11,11,11,11,34,56,78. El 11 es la moda o moda absoluta, y el 2 la moda relativa. El siguiente ejemplo se utilizará como ejercicio para el cálculo de parámetros de centralización a partir de datos tabulados. EJEMPLO 9 En un centro sanitario durante 25 días se anota el número total de exploraciones radiológicas demandadas obteniéndose los siguientes resultados:
a) Tabular los datos. b) Calcular la media aritmética a partir de los datos tabulados. c) Calcular la mediana a partir de los datos tabulados. Soluciones: a) Mínimo 112; máximo = 301; rango = 301 — 112 = 189. Número de clases 5 (raíz cuadrada de 25). Intervalo de clase = (rango/n.° clases) = 189/5 37,8; aproximamos la longitud del intervalo a 38. Límite inferior de la primera clase: 111,5.
Estadíst ica Descripti va - MÓDULO I Docente Responsable: Ing . Silvia Grenóvero. Consultas a:
[email protected]
Universidad
Nacional
del
Este
Facultad de Ciencias de la Salud
b) Aplicando la fórmula de media aritmética:
c) Hay 25 datos, por lo tanto, la clase mediana es la que contiene al elemento 13.° en orden ascendente. Aplicando la fórmula de mediana:
3. Medidas de Dispersión En el ítem anterior se han analizado las medidas de centralización las cuales informan de la tendencia central de los datos, pero conjuntos de datos muy distintos pueden tener parámetros centrales parecidos. Para tener un conocimiento más exacto de los datos es necesario conocer otros parámetros que indiquen si los datos están agrupados o dispersos; es decir qué variación existe entre cada uno de los datos con respecto al valor representativo de los mismos. Las medidas de dispersión miden la distancia que existe entre los datos considerándolos conjuntamente. Si los valores de los datos son parecidos las medidas de dispersión tienen valores pequeños, si los datos son muy diferentes entre sí, las medidas de dispersión tiene valores grandes. Las medidas de dispersión más importantes son las siguientes:
3.1. Rango Rango o recorrido de una variable es la diferencia entre el valor máximo y el valor mínimo de los datos observados. Este parámetro informa sobre el recorrido de la variable, pero es una visión que en ciertos casos aporta poca información e incluso puede ser engañosa, si alguno de los datos extremos está muy desviado del resto de los datos. Para Estadíst ica Descripti va - MÓDULO I Docente Responsable: Ing . Silvia Grenóvero. Consultas a:
[email protected]
Universidad
Nacional
del
Este
Facultad de Ciencias de la Salud
tener una visión realista de los datos, el rango debe ser evaluado junto a otras medidas de dispersión. El rango es un parámetro que ya ha sido utilizado en la construcción de tablas para datos cuantitativos. Rango = Máximo — Mínimo EJEMPLO 10 En la medida de la presión arterial sistólica en milímetros de mercurio en un grupo de pacientes se obtienen los siguientes resultados: 120, 135, 160, 100, 155, 115, 165, 125, 130. Calcular el rango. Máximo 165 Mínimo = 100 Rango = 165 — l00 = 65 Esto indica que en un intervalo de 65 milímetros de mercurio están todos los valores observados.
3.2. Desviación media Intuitivamente, para estudiar la dispersión de los datos debería fijarse un punto fijo que representara la tendencia central de los datos, y respecto a él medir la distancia de cada uno de ellos y calcular el promedio. El punto de referencia más adecuado es la media aritmética. Sin embargo, se analizó anteriormente que una de las propiedades de la media aritmética es que la suma de las desviaciones de todos los datos respecto a la media es cero, pero la idea de promediar las distancias a dicho punto parece adecuada. La suma de las desviaciones respecto a la media es cero, debido a que hay valores positivos y negativos equilibrados. Si se eliminan los valores negativos y se consideran positivos se evitaría la anulación del promedio. Al fin y al cabo, en una medida de dispersión interesa la idea de distancia al punto central. Una de las maneras de conseguir que los valores negativos se consideren positivos es calculando el valor absoluto de la diferencia entre la media aritmética y los valores observados.
La expresión matemática anterior es la correspondiente a la medida de dispersión denominada desviación media. La cual da una buena información acerca de la dispersión de Estadíst ica Descripti va - MÓDULO I Docente Responsable: Ing . Silvia Grenóvero. Consultas a:
[email protected]
Universidad
Nacional
del
Este
Facultad de Ciencias de la Salud
los datos, pero incluye en su formula el valor absoluto, lo que es un inconveniente para el análisis matemático. EJEMPLO 11 Las tallas en centímetros de un grupo de personas se detallan a continuación: 180, 165, 160, 175. Calcular la desviación media.
Aplicando la fórmula de desviación media:
3.3. Varianza y desviación típica Otra manera de evitar la anulación de la suma de las desviaciones de todos los datos respecto a la media es elevándolas al cuadrado, de esta manera los valores negativos se convierten en positivos, aunque en este caso el resultado obtenido es un promedio de las distancias cuadráticas de los datos a la media. Al promedio de las diferencias cuadráticas de los datos respecto a la media se le denomina varianza, y sus unidades son las de los datos al cuadrado. La varianza poblacional se representa mediante la letra griega sigma al cuadrado (σ2 ), la varianza muestral se representa mediante la letra latina S al cuadrado ( 2 ). Las expresiones matemáticas de la varianza poblacional y muestral son las siguientes:
La expresión anterior es la correspondiente a la varianza poblacional; n es el tamaño de la población y i. la media aritmética poblacional.
La expresión anterior es la correspondiente a la varianza muestral, n es el tamaño de la muestra y la media muestral.
�
Estadíst ica Descripti va - MÓDULO I Docente Responsable: Ing . Silvia Grenóvero. Consultas a:
[email protected]
Universidad
Nacional
del
Este
Facultad de Ciencias de la Salud
Cuando la varianza muestral se utiliza como estimador de la varianza poblacional, se divide por n — 1 en lugar de n y se puede representar como o en los países anglosajones y en la mayoría de los paquetes estadísticos se denomina varianza muestral al parámetro que 2 , las se obtiene mediante la expresión 22.27; si las muestras son grandes, entre 1 y −1 diferencias son pequeñas, pero si el tamaño de la muestra es pequeño las diferencias pueden ser notables; se recomienda al lector que cuando utilice un paquete estadístico consulte mediante qué fórmula se realizan los cálculos. En estadística, cuando se pone un acento circunflejo sobre el símbolo de un parámetro muestral, indica que se utiliza como estimador del correspondiente parámetro poblacional. En los temas de estimación se amplían estos conceptos.
A la varianza muestral promediada sobre n — 1, en lugar de sobre n algunos autores europeos le denominan cuasivarianza muestral. En muchas ocasiones se utiliza otra medida de dispersión derivada de la varianza la desviación típica o desviación estándar que es la raíz cuadrada de la varianza. Las unidades de medida de la desviación típica son las mismas que las de los datos sobre los que ha sido calculada.
La expresión anterior es la correspondiente a la desviación típica poblacional, la siguiente a la desviación típica muestral.
Cuando la desviación típica muestral se promedia sobre n — 1, en lugar de sobre n, muchos autores europeos le denominan cuasidesviación típica muestral. Su expresión matemática es la siguiente:
Estadíst ica Descripti va - MÓDULO I Docente Responsable: Ing . Silvia Grenóvero. Consultas a:
[email protected]
Universidad
Nacional
del
Este
Facultad de Ciencias de la Salud
La varianza en la mayoría de los paquetes estadísticos y en los países anglosajones, la denominan desviación típica muestral. Tanto la varianza como la desviación típica son fácilmente utilizables en los desarrollos matemáticos; esto ha generalizado su uso como medidas de dispersión. En caso de disponer de datos agrupados en tablas o cuando los datos se repiten con mucha frecuencia las expresiones adecuadas para el cálculo son las siguientes:
En las expresiones anteriores f representa la frecuencia absoluta de datos correspondiente a cada grupo, el sumatorio se extiende desde 1 hasta k, siendo estos los grupos de datos con el mismo valor o el número de clases en el caso de datos tabulados. La suma de todas las frecuencias debe de ser igual a N o n dependiendo de que se trate de poblaciones o de muestras. EJEMPLO 12 En un área de salud el número de nuevos pacientes afectados de cataratas que precisan una intervención quirúrgica, en los 6 primeros meses de 2007 está reflejado en la siguiente tabla:
Estadíst ica Descripti va - MÓDULO I Docente Responsable: Ing . Silvia Grenóvero. Consultas a:
[email protected]
Universidad
Nacional
del
Este
Facultad de Ciencias de la Salud
Calcular la media aritmética, la varianza, la desviación típica, y la cuasivarianza de las necesidades mensuales.
Propiedades de la varianza y de de la desviación desviación típica
La varianza y la desviación típica tienen propiedades matemáticas que en ciertas ocasiones es útil tenerlas en cuenta. Las más importantes son las siguientes: a) La varianza y la desviación típica de un conjunto de números es mayor o igual a cero. La varianza es el promedio de una serie de números elevados al cuadrado, por lo tanto, siempre será positiva, únicamente es igual a cero si todos los números son iguales, en cuyo caso no habría dispersión. La desviación típica al ser la raíz cuadrada de la varianza, también es un número positivo o cero. b) Si k series ser ies de números tienen la misma media aritmética con una de ellas y varianzas 12 , 22 , ..., 2 .
1, 2..., elementos elementos cada
La varianza combinada es la media aritmética ponderada de las varianzas. Esto sólo es aplicable si todas las series numéricas tienen la misma media aritmética. La expresión para el cálculo de la varianza combinada es la siguiente:
Estadíst ica ic a Descripti Descri pti va - MÓDULO MÓDULO I Docente Responsable: Responsable: Ing . Silvia Grenóvero. Consultas a:
[email protected]
Universidad
Nacional
del
Este
Facultad de Ciencias de la Salud
EJEMPLO 13 En un centro asistencial se recogieron las edades de los pacientes atendidos en tres consultas en una misma semana, la edad media fue la misma en todas ellas =52. Las varianzas de la primera, segunda y tercera consultas fueron 200, 260, y 290 respectivamente.
�
Calcular la varianza de la edad de los pacientes atendidos en las tres consultas, es decir, la varianza combinada.
c) Si a una serie de números se les suma una misma cantidad su varianza y desviación típica permanecen permanecen inalteradas. Se representa por 52 a la varianza de la serie de números antes de sumarles a todos la constante K, y a 5 a la varianza de la serie después de haberle sumado la constante K. Si a todos los números se les suma una misma cantidad k, la media aritmética, según una de sus propiedades, aumenta en k unidades, por lo tanto:
3.4. Coeficiente de variación La desviación estándar es útil como una medida de variación dentro de un determinado conjunto de datos. Sin embargo, cuando se desea comparar la dispersión en dos conjuntos de datos, el comparar las dos desviaciones estándar puede conducir a resultados ilógicos. Además, puede ser que las dos variables que intervienen se midan en unidades distintas. Por ejemplo, si se compara la desviación estándar de los pesos de niños de primer año de primaria con la desviación estándar de los pesos de jóvenes de primer año de secundaria, puede encontrarse que la desviación estándar de estos últimos es numéricamente mayor que la de los primeros debido a que los propios pesos son mayores y no porque la dispersión sea mayor. Lo que se necesita en situaciones como ésta es una medida de variación relativa, más que una de variación absoluta. Dicha medida se encuentra en el Coeficiente de Variación, que expresa la desviación estándar como un porcentaje de la media. El coeficiente de variación es una medida de dispersión sin unidades y es el cociente de la desviación típica respecto a la media aritmética, multiplicado por cien.
Estadíst ica ic a Descripti Descri pti va - MÓDULO MÓDULO I Docente Responsable: Responsable: Ing . Silvia Grenóvero. Consultas a:
[email protected]
Universidad
Nacional
del
Este
Facultad de Ciencias de la Salud
El hecho de que el coeficiente de variación no tenga unidades permite comparar entre sí coeficientes de variación calculados a partir de datos medidos en distintas unidades. El coeficiente de variación se calcula mediante la siguiente expresión:
A medida que aumenta el coeficiente de variación nos indica el aumento de la dispersión de los datos, un coeficiente de variación de más del 30% indica datos dispersos, y mayor del 50% muy dispersos. EJEMPLO 14 En un estudio sobre el peso de niños de dos años en dos países distintos A y B, se obtuvieron los siguientes resultados: en el país A el peso medio es 13 kg y la desviación típica 1,6 kg; en el país B el peso medio es 30 libras y la desviación típica 2 libras. ¿En que país hay mas mas dispersión dispersión en cuanto al peso peso de los niños de dos años? años?
La dispersión es mayor en el país A. EJEMPLO 15 Por ejemplo: dos muestras de personas del sexo masculino proporcionan los resultados siguientes: Muestra 1 Muestra 2
Edad (años) Peso medio (kg) (kg ) Desvío estándar (kg)
25 72,5 5
11 40 5
La comparación comparación de las desviaciones estándar podría llevar llevar a concluir que las las dos muestras poseen igual variabilidad. Sin embargo, si se calculan los coeficientes de variación para los individuos: individuos: de 25 años de edad edad se tiene tiene que: 5 (100) = 6,9 = 72,5
25 años
= 405 (100) = 12,5 11 años
Si se comparan estos resultados, se tiene una impresión bastante distinta. Estadíst ica ic a Descripti Descri pti va - MÓDULO MÓDULO I Docente Responsable: Responsable: Ing . Silvia Grenóvero. Consultas a:
[email protected]
Universidad
Nacional
del
Este
Facultad de Ciencias de la Salud
El coeficiente de variación también es útil para comparar los resultados obtenidos por diferentes personas que estén efectuando investigaciones que comprendan la misma variable.
4. Medidas de posición: n-tiles Un grupo de medidas descriptivas importantes son las que dividen al conjunto de datos en un número determinado de grupos con el mismo número de datos cada uno de ellos. En algunos textos estas medidas se incluyen dentro de las medidas de dispersión, lo cual no es muy correcto, ya que estas medidas incluyen medidas de centralización y de dispersión; por ejemplo, el percentil 95 es una medida de dispersión y el percentil 50 de centralización, y coincide con la mediana. El término n-tiles se refiere a n grupos, es decir, los n grupos que se quieren formar. Los terciles son dos parámetros que dividen el conjunto de datos en tres partes iguales; los cuartiles son tres parámetros que dividen el conjunto de datos en cuatro partes iguales; los quintiles son cuatro parámetros que dividen al conjunto de datos en cinco partes iguales, etc. Los más importantes son los cuartiles, deciles y percentiles. Todos los parámetros que permiten dividir el conjunto de datos en n grupos iguales en cuanto al número de datos son percentiles. Por ejemplo, los cuartiles son los percentiles 25, 50 y 75; los quintiles son los percentiles 20, 40, 60 y 80, etc. Debe tenerse en cuenta que los grupos no siempre pueden ser exactamente iguales porque el número de datos puede no ser divisible por el número de grupos que se quiere formar. Por ejemplo, si tenemos 31 datos y se quiere calcular los cuartiles, como 31 no es divisible por 4, habrá tres grupos con 8 datos y uno con siete. A continuación se comentan las características generales de las medidas de posición más utilizadas.
4.1. Cuartiles Los cuartiles dividen al conjunto de datos en cuatro partes iguales en cuanto al número de datos, en cada una de ellas hay un 25% de los datos. En caso de que el número de datos no sea divisible por cuatro, los grupos no podrán tener todos exactamente el mismo número de datos.
Menor o igual que el primer cuartil, Q1, están el 25% de los datos y mayor que el Q1 el 75% de los datos. Estadíst ica Descripti va - MÓDULO I Docente Responsable: Ing . Silvia Grenóvero. Consultas a:
[email protected]
Universidad
Nacional
del
Este
Facultad de Ciencias de la Salud
El segundo cuartil coincide con la mediana M Q2, y por lo tanto tiene sus mismas propiedades. Menor o igual que el Q3 están el 75% de los datos, y mayor que el Q3 el 25% de los datos.
La diferencia entre los cuartiles tercero y primero es el recorrido intercuartílico: RI =
3- 1entre el 3 y el 1 están el 50% de los datos centrales.
Las siglas inglesas del recorrido intercuartílico son IQR. Por ejemplo, si el tercer cuartil de un conjunto de tallas correspondientes a un grupo de personas es 175, y el primer cuartil 152, el recorrido intecuartílico RIC = 175 — 152 = 23 cm; en 23 cm están el 50% de los datos centrales. Existe discrepancias en el cálculo de los percentiles entre distintos autores (Anexo: Discrepancias en el cálculo de percentiles) La mayoría de los autores utilizan la siguiente fórmula para calcular la posición de un percentil: P( n + 1); P es el percentil que se quiere calcular dividido por 100 y n es el número total de datos. EJEMPLO 16 Calcular el primer cuartil de los datos 2, 3, 5, 6, 7, 8, 9 y 10; la posición se calcula mediante la fórmula anterior, el primer cuartil es el percentil 25, dividiendo por 100 es 0,25, como hay 8 datos n es igual a 8 y la posición para el primer cuartil es 0,25(8 + 1) = 2,25, esto quiere decir que el primer cuartil es un punto situado entre el segundo y el tercer dato, porque la posición es mayor de 2, la parte decimal, 0,25, indica que está a un cuarto de la distancia entre el segundo y el tercer dato entre 3 y 5, la diferencia entre los dos datos es de dos unidades, y la cuarta parte de la diferencia es 0,5, por lo tanto el valor del primer cuartil es 3,5. Observe la diferencia entre la posición y el valor del primer cuartil. En un conjunto de datos ordenados la posición del primer cuartil se calcula dividiendo el número total de datos ( n) entre cuatro. El tercer cuartil se calcula dividiendo 3n por cuatro. Estadíst ica Descripti va - MÓDULO I Docente Responsable: Ing . Silvia Grenóvero. Consultas a:
[email protected]
Universidad
Nacional
del
Este
Facultad de Ciencias de la Salud
El cálculo de los cuartiles a partir de datos tabulados se hace mediante las siguientes expresiones:
L1: Límite inferior de la clase donde está el dato n/4.
−1: Frecuencia absoluta acumulada de la clase anterior a la que contiene al elemento n/4. f1: Frecuencia absoluta de la clase que incluye al dato n/4. IC: Longitud del intervalo de la clase que contiene al elemento n/4.
L3: Límite inferior de la clase que contiene al dato 3n14.
−1: Frecuencia absoluta acumulada de la clase anterior a la que contiene al elemento 3n/4.
3: Frecuencia absoluta de la clase que incluye al dato 3 n/4. IC: Longitud del intervalo de la clase que contiene al elemento 3 n/14.
4.2. Deciles Los deciles son medidas de dispersión que dividen el conjunto de datos en 10 partes iguales en cuanto al número de datos. En cada una de ellas hay un 10% de los datos. Entre dos deciles consecutivos hay un 10% de los datos.
El primer decil Dl divide el conjunto de datos en dos partes, menor o igual que el están el 10% de los datos y mayor que él el 90% de los datos. El segundo decil D2 divide el conjunto de datos en dos partes, menor o igual que él quedan el 20% de los datos y mayor el 80%, y así sucesivamente con el resto de los deciles. Estadíst ica Descripti va - MÓDULO I Docente Responsable: Ing . Silvia Grenóvero. Consultas a:
[email protected]
Universidad
Nacional
del
Este
Facultad de Ciencias de la Salud
El cálculo de la posición de deciles a partir de un grupo de datos ordenados se calcula aplicando la fórmula comentada en el apartado correspondiente a los cuartiles P(n + 1). Por ejemplo, el tercer decil es el percentil 30; en la fórmula en lugar de P se pondría 0,30. El cálculo de los deciles a partir de datos tabulados se realiza siguiendo las siguientes expresiones:
: k-ésimo decil. Lk: Límite inferior de la clase que incluye al dato kn/ l0.
−1: Frecuencia absoluta acumulada de la clase anterior a la que incluye al elemento : Frecuencia absoluta de la clase que incluye al dato kn/l0.
kn/l0.
IC: Intervalo de la clase que incluye al dato kn/l0.
4.3. Percentiles Otras medidas de dispersión muy utilizadas cuando el número de los datos es muy grande son los percentiles. Los percentiles son 99 y dividen al conjunto de datos en 100 partes iguales en cuanto al número de datos, en cada parte hay el 1% de los datos. Entre dos percentiles consecutivos están el 1% de los datos. Menor o igual que el primer percentil hay un 1% de los datos y mayor que él el 99%. Menor o igual que el segundo percentil están el 2% de los datos y mayor que él el 98%, y así sucesivamente con el resto de los percentiles.
El cálculo de la posición y del valor de percentiles a partir de un grupo de datos ordenados se realiza a partir de la fórmula comentada en el apartado correspondiente a los cuartiles. El cálculo de los percentiles a partir de datos tabulados se realiza siguiendo la siguiente expresión: Estadíst ica Descripti va - MÓDULO I Docente Responsable: Ing . Silvia Grenóvero. Consultas a:
[email protected]
Universidad
Nacional
del
Este
Facultad de Ciencias de la Salud
: k-ésimo percentil. Lk: Límite inferior de la clase que incluye al dato kn/l00.
−1: Frecuencia absoluta acumulada de la clase anterior a la que incluye al elemento : frecuencia absoluta de la clase que incluye al dato kn/l00.
kn/l00.
IC: Longitud del intervalo de la clase que incluye al elemento kn/l00. EJEMPLO 17 Un grupo de 100 facultativos de un centro hospitalario, fueron evaluados según un índice de rendimiento laboral cuyo valor mínimo es 3 y el máximo valor que pueden alcanzar es 11. Los datos obtenidos están recogidos en la siguiente tabla:
I) Calcular la media aritmética. II) Calcular la mediana. III) Calcular el primer y el tercer cuartil. IV) Calcular el primer y el noveno decil.
Estadíst ica Descripti va - MÓDULO I Docente Responsable: Ing . Silvia Grenóvero. Consultas a:
[email protected]
Universidad
Nacional
del
Este
Facultad de Ciencias de la Salud
Obsérvese que la longitud del intervalo de clase es 1.
5. Valores atípicos (outliers) Los valores atípicos son aquellos que se manifiestan como mucho mayores o mucho menores que los demás. Hay varios criterios paramétricos basados en los percentiles para definir los valores atípicos; por ejemplo, los pesos de los niños se consideran muy bajos si están por debajo del percentil 3 de una población de características similares, y muy altos si están por encima del percentil 97. En los últimos años se utiliza cada vez más un criterio basado en los cuartiles. Se distingue entre valores atípicos de primer grado y de segundo grado , tanto para valores grandes como para valores pequeños. Se consideran valores atípicos por exceso a aquellos que son mayores que el tercer cuartil más 1,5 veces el recorrido intercuartílico. Si los valores son mayores que la suma del tercer cuartil más 3 veces el recorrido intercuartílico se denominan valores atípicos de segundo grado por exceso . Se consideran valores atípicos por defecto a aquellos que son menores que el primer cuartil menos 1,5 veces el recorrido intercuartílico. Si los valores son menores que la diferencia entre el primer cuartil menos 3 veces el recorrido intercuartílico, se denominan valores atípicos de segundo grado por defecto . EJEMPLO 18 Los cuartiles primero y tercero de un conjunto de datos son 80 y 90, respectivamente. Calcular los valores a partir de los cuales serían considerados valores atípicos de primero y segundo grado, por exceso y por defecto. El recorrido intercuartílico es: RIC = 90 — 80 = 10. Estadíst ica Descripti va - MÓDULO I Docente Responsable: Ing . Silvia Grenóvero. Consultas a:
[email protected]
Universidad
Nacional
del
Este
Facultad de Ciencias de la Salud
Los valores atípicos por exceso son aquellos que son mayores que el tercer cuartil, 90, más 1,5 veces el RIC, 15, es decir, los mayores de 105. Los valores mayores de 105, pero inferiores a la suma del tercer cuartil, 90, más 3 veces el recorrido intercuartílico, 30, es decir, menores de 120, son valores atípicos de primer grado por exceso; los valores mayores de 120 son valores atípicos de segundo grado por exceso. Los valores atípicos por defecto son aquellos que son menores que el primer cuartil, 80, menos 1,5 veces el RIC, 15, es decir, los menores de 65. Los valores menores de 65, pero mayores que la diferencia entre el primer cuartil y 3 veces el recorrido intercuartílico, 30, es decir, mayores de 50, son valores atípicos de primer grado por defecto; los valores menores de 50 son valores atípicos de segundo grado por defecto. Esta manera de definir los valores atípicos tiene una serie de ventajas, no siempre hay valores atípicos, puede haberlos o no. En ocasiones se consideran valores atípicos aquellos que exceden un determinado percentil, de esta manera, siempre hay valores atípicos; por ejemplo, sí se consideran valores atípicos los que exceden el percentil 97, en éste caso siempre el 3% de los datos son atípicos. Otra ventaja es que es válida para todo tipo de distribuciones; es muy frecuente considerar valores atípicos los que están a una distancia de 2 o 3 desviaciones típicas de la media, pero éste caso solo es válido para datos que sigan una distribución según una curva normal o de Gauss, además siempre hay un porcentaje determinado de valores atípicos.
Diagramas de cajas (boxplot) Las medidas indicadas hasta el momento se pueden expresar en forma visual a través del uso del diagrama de cajas, propuesto por Tukey. Por otra parte, se utiliza cuando el objetivo es ilustrar ciertas ubicaciones en la distribución, como valores de la mediana, de los cuartiles 1º y 3º, y de los puntos de comienzo de los valores atípicos, tanto por exceso como por defecto.
Estadíst ica Descripti va - MÓDULO I Docente Responsable: Ing . Silvia Grenóvero. Consultas a:
[email protected]
Universidad
Nacional
del
Este
Facultad de Ciencias de la Salud
La caja central indica el rango en el que se concentra el 50% central de los datos. Sus extremos son, por lo tanto, el 1 er y 3er cuartil de la distribución. La línea central en la caja es la mediana. De este modo, si la variable es simétrica, dicha línea se encontrará en el centro de la caja. Los extremos de los "bigotes" que salen de la caja son los valores que delimitan el 95% central de los datos, aunque en ocasiones coinciden con los valores extremos de la distribución. Se suelen también representar aquellas observaciones que caen fuera de este rango (outliers o valores extremos). Esto resulta especialmente útil para comprobar, gráficamente, posibles errores en nuestros datos. En general, los diagramas de cajas resultan más apropiados para representar variables que presenten una gran desviación de la distribución normal . Resultan además de gran ayuda cuando se dispone de datos en distintos grupos de sujetos.
Estadíst ica Descripti va - MÓDULO I Docente Responsable: Ing . Silvia Grenóvero. Consultas a:
[email protected]
Universidad
Nacional
del
Este
Facultad de Ciencias de la Salud
La gráfica de caja y línea es también útil cuando hay más de un conjunto de observaciones y el objetivo es compararlos. Sit ua ción actual f renteal 1
2
3
0 ,0
4
tabaco 5
8 24 5
3 2
2000,00
4000,00 o c i t n n i 6000,00 d a o s 8000,00
1 0000,00 140
1 2000,00
1: Ahora fumo, y fumo lo mismo que antes de enterarme que estaba embarazada. 2: Ahora fumo, pero menos desde que me enteré que estaba embarazada 3: Fumo de vez en cuando 4: Dejé de fumar cuando me enteré que estaba embarazada 5: No fumaba cuando me enteré del embarazo, ni tampoco ahora.
6. Momentos respecto al origen Se denomina momentos respecto al origen (
), a la siguiente expresión:
El momento de primer orden respecto al origen coincide con la media aritmética:
Estadíst ica Descripti va - MÓDULO I Docente Responsable: Ing . Silvia Grenóvero. Consultas a:
[email protected]
Universidad
Nacional
del
Este
Facultad de Ciencias de la Salud
El momento de segundo orden respecto al origen se representa de la siguiente manera:
6.1 Momentos respecto a la media Se denomina momentos respecto a la media (
), a la siguiente expresión:
El momento de segundo orden respecto a la media coincide con la varianza:
EJEMPLO 19 Las cifras de potasio en sangre en miliequivalentes por litro, obtenidos de 7 pacientes, fueron las siguientes: 5,4; 3,5; 4,6; 4,2; 4,5; 3,2; 5,7 Calcular el momento respecto a la media de orden tres. El momento respecto a la media de orden tres se calcula según la siguiente fórmula:
Obsérvese que como no hay repeticiones, la frecuencia de cada uno, f , es uno.
Estadíst ica Descripti va - MÓDULO I Docente Responsable: Ing . Silvia Grenóvero. Consultas a:
[email protected]
Universidad
Nacional
del
Este
Facultad de Ciencias de la Salud
7. Medidas de Forma Las medidas de forma indican si la distribución es simétrica, coeficientes de sesgo, y también el grado de apuntamiento tomando como referencia la curva normal o de Gauss Si un conjunto de datos difiere poco respecto a la normal en grado de asimetría y en grado de apuntamiento, se puede considerar que los datos se aproximan a la distribución normal. (Conceptos que serán estudiados en los fundamentos de Probabilidad).
Asimetría La asimetría, también denominada sesgo, informa si los extremos de las curvas (colas) asociadas a los datos son más alargados hacia alguno de los lados. Si la curva de distribución de frecuencias tiene más alargado el extremo izquierdo que el derecho respecto al máximo central, se dice que esta sesgada a la izquierda. En el caso de que sea la derecha la más alargada se dice que tiene sesgo a la derecha. Si la distribución no tiene sesgo, es simétrica respecto al máximo central.
Asimetría El concepto de asimetría se refiere a si la curva que forman los valores de la se rie presenta la misma forma a la izquierda y derecha de un valor central . (media aritmética)
Los índices más utilizados para medir el sesgo de una curva son el de Pearson y el de Fisher. El coeficiente de sesgo o asimetría de Pearson se calcula según la siguiente expresión:
� es la media aritmética. - 0 es la moda. -
- s es la desviación típica. Estadíst ica Descripti va - MÓDULO I Docente Responsable: Ing . Silvia Grenóvero. Consultas a:
[email protected]
Universidad
Nacional
del
Este
Facultad de Ciencias de la Salud
El coeficiente de sesgo de Fisher se calcula según la siguiente expresión:
-
3 es el momento de tercer orden respecto a la media.
- S es la desviación típica. En ambos coeficientes si v = 0, se interpreta como que no existe asimetría. Si y < 0, se considera que existe asimetría hacia la izquierda o sesgada a la izquierda. Si v > 0, la asimetría es hacia la derecha sesgo a la derecha.
Curtosis Otro importante dato respecto a la forma es el grado de apuntamiento de la curva también llamado curtosis, tomando como referencia a la distribución normal.
Curtosis
Uno de los coeficientes más utilizados para medir el grado de apuntamiento de una curva se calcula mediante la siguiente expresión:
-
4 es el momento de cuarto orden respecto a la media.
-S es la desviación típica. Estadíst ica Descripti va - MÓDULO I Docente Responsable: Ing . Silvia Grenóvero. Consultas a:
[email protected]
Universidad
Nacional
del
Este
Facultad de Ciencias de la Salud
Si τ = O consideramos que la curva tiene el apuntamiento que le corresponde a una distribución normal y decimos que es mesocúrtica. Si τ < O la curva es aplanada planicúrtica. Si τ > O la curva es leptocúrtica, es decir, más estilizada que una curva gaussiana. EJEMPLO 20 La hemoglobina en gramos por 100 ml de un grupo de pacientes se recoge en la siguiente tabla:
a) Calcular la media aritmética y la desviación típica. b) Calcular los momentos con respecto a la media de orden tres y cuatro. c) Calcular el coeficiente de asimetría de Fisher. d) Calcular el coeficiente de curtosis.
a) Como los datos están en forma de tabla se aplican las fórmulas para casos agrupados.
Estadíst ica Descripti va - MÓDULO I Docente Responsable: Ing . Silvia Grenóvero. Consultas a:
[email protected]
Universidad
Nacional
del
Este
Facultad de Ciencias de la Salud
Puesto que este valor es muy próximo a 0 la distribución de frecuencias es casi simétrica, el signo negativo indica que está sesgada a la izquierda. d) El coeficiente de curtosis τ es:
Aplicando [2.48]:
Puesto que el signo del coeficiente de curtosis es negativo, la distribución es platicúrtica, es decir, más aplanada que una curva normal.
Estadíst ica Descripti va - MÓDULO I Docente Responsable: Ing . Silvia Grenóvero. Consultas a:
[email protected]
Universidad
Nacional
del
Este
Facultad de Ciencias de la Salud
4. Variables bidimensionales Los contenidos de éste ítem se hallan expuestos con claridad en el Capitulo 3 (pag. 73 a 94) del libro anexo de Riuz Díaz y Barón López. 5. Errores más frecuentes y transcendentes que se cometen en la aplicación de estadísticas descriptivas (Alvarez Cáceres, 2007- Pallás y Villa, 2003)
- Confundir la población diana o poblaciones de interés, con la población estadística del estudio. Es uno de los errores más frecuentes y que más consecuencias tiene en estadística aplicada. La población diana de un estudio de investigación es a la que se quieren extrapolar o generalizar los resultados de una investigación, por ejemplo si se investiga el efecto de un hipotensor, el objetivo del estudio es generalizar las conclusiones del estudio a todos los pacientes que padezcan hipertensión. Una población estadística es aquella en la que se han estudiado todos sus elementos, o que se ha muestreado aleatoriamente mediante técnicas estadísticamente correctas. Para que una población se considere que se ha muestreado de manera estadísticamente correcta tienen que cumplirse al menos dos condiciones ineludibles: que el muestreo sea aleatorio y que todos los integrantes de la población tengan una probabilidad mayor que cero de estar en la muestra. Es preferible que todos los elementos de la población, antes de seleccionar la muestra, tengan la misma probabilidad de estar en la muestra; a estas técnicas se les denomina equiprobables, aunque esto es difícil en algunas técnicas de muestreo como el muestreo por conglomerados. La mayoría de las técnicas de muestreo utilizadas habitualmente son equiprobables, como el muestreo aleatorio simple, el muestreo sistemático aleatorio, y cada estrato del muestreo estratificado aleatorio. Las expresiones matemáticas de los estimadores son ciertas bajo el supuesto de la distribución al azar, cualquier otra consideración carece de base científica. Es un error reiterado tratar de demostrar que una muestra no aleatoria refleja los valores de la población; que unos datos seleccionados mediante muestreos no aleatorios reflejen los parámetros de una pob1ación en algunos casos no demuestra nada. Las expresiones matemáticas de los estimadores son ciertas bajo el supuesto de la distribución al azar, cualquier otra consideración carece de base científica. Se puede hacer un estudio a partir de una muestra obtenida de manera incorrecta y que sus resultados coincidan con los valores poblacionales, mientras que, a veces, a partir de una muestrea seleccionada correctamente se pueden obtener valores alejados de los poblacionales.
Estadíst ica Descripti va - MÓDULO I Docente Responsable: Ing . Silvia Grenóvero. Consultas a:
[email protected]
Universidad
Nacional
del
Este
Facultad de Ciencias de la Salud
Por ejemplo, si en una población la glucemia basal media de sus habitantes mayores que 30 años es de 102 mg por 100 ml de suero, y se extrae una muestra aleatoria mediante muestreo aleatorio simple, puede ocurrir que por efecto del azar la media muestral sea de 110 y un intervalo de confianza para la media poblacional del 95% sea (108; 112), es decir, los resultados se alejan de la realidad poblacional; sin embargo, puede ocurrir que se mida la glucemia basal de las primeras cuatro personas que pasen por la calle y que el valor de esta muestra coincida con el valor poblacional; aunque es muy poco probable que los resultados se alejen de los valores poblacionales si el muestreo es correcto. Por ello, es importante aplicar un método correcto, y en la mayoría de las ocasiones los valores de la muestra se acercaran a los de la población. Si el objetivo de un estudio es valorar la proporción de diabéticos insulinodependientes que tienen afectaciones de la retina, y los pacientes estudiados son todos los dependientes de un servicio hospitalario de endocrinología, la población diana u objetivo del estudio es la de todos los pacientes diabéticos insulinodependientes, porque los resultados se quieren generalizar. La población estadística del estudio es la de los pacientes estudiados, que en este caso se ha estudiado entera, sólo es correcto un estudio estadístico descriptivo. Se pueden extrapolar los resultados mediante consideraciones técnicas, endocrinológicas, pero no es correcto hacer inferencia estadística. La estadística es una poderosa herramienta, pero no todas sus técnicas pueden aplicarse a cualquier conjunto de datos. - Expresar los resultados en porcentajes cuando el número de casos es muy reducido: por ejemplo, en un estudio sobre 8 pacientes, escribir: el 50% de los casos. - Acompañar una media aritmética, sin indicar la variación correspondiente de esos datos, con la utilización del desvío estándar, error estándar o intervalo de confianza. Este último parámetro, está siendo utilizado como un indicador descriptivo, pero es necesario tener claro que sólo debe ser utilizada con variables estudiada a partir de una muestra aleatoria. -Incluir información no pertinente ( no relacionada con los objetivos del estudio). -Presentar los resultados sin una secuencia lógica.
-Duplicar la información presentada en tablas, figuras o texto.
Estadíst ica Descripti va - MÓDULO I Docente Responsable: Ing . Silvia Grenóvero. Consultas a:
[email protected]
Universidad
Nacional
del
Este
Facultad de Ciencias de la Salud
V. BIBLIOGRAFÍA Estilo ICMJE (Vancouver)
A. BIBLIOGRAFÍA BASICA RECOMENDADA Álvarez Cáceres, R. Estadística aplicada a las ciencias de la Salud. España. Ediciones Díaz de Santos; 2007. Armitage, P. Estadística para la Investigación Biomédica. Barcelona: Harcourt Brace de España; 1997. Beth Dawson-Saunders. Bioestadística Médica . México: El Manual Moderno; 1995. Basualdo, J., Minvielle, M., Grenóvero, M., Barengo, N., Nociones básicas de la Metodología de la Investigación. Tomo 1. 1 a edic.. La Plata; 2004. Basualdo, J., Minvielle, M., Grenóvero, M., Nociones básicas de la Metodología de la Investigación. Tomo 2. 2 a edic.. La Plata; 2005. Box,G., Hunter, W., Stuart Hunter, J. Estadística para Investigadores. Barcelona Editorial Reverté; 2005. Carrasco, J. El método estadístico. Madrid: Ciencia 3; 1995. Cordero Guevara, J., Pereda, M. Técnicas y métodos de Investigación en Nutrición Humana. Alberto (ed.) Mijn de la Torre, Novartis Farmacéutica. Capítulo 14: Estadística aplicada en el diseño y la ejecución de estudios nutricionales. (2002) Daniel, W. Bioestadística. Base para el análisis de las ciencias de la salud. Noriega Editores: México; 1993. Guerrero,R., Gonzalez,C., Medina, E. Epidemiología. Addison-Wesley Iberoamericana, S.A. Delaware. E.U.A; 1986. Martel, P., Diéz Vegas, F.. Probabilidad y Estadística en Medicina. Madrid :Ediciones Díaz de Santos; 1997. Milos, J. Epidemiología. La lógica de la medicina moderna. Editorial Masson. 2007. Norman, G. R. & Streiner, D. L. Bioestadística. Madrid: Mosby / Doyma Libros; 1996. Pagano, M. Gauvreau, K. Fundamentos de Bioestadísticas. 5 a ed. Universidad de Thomson Learning Editores ; 2001. Pagano, R. Estadísticas para las ciencias del comportamiento. 5 a ed. Universidad de Pittsburg. International Thomson Editores ; 2003. Polit, D. & Hungler, B Investigación científica en ciencias de la salud . México: McGrawHill Interamericana; . 2000. Rius Díaz, F., Barón López, J. Bioestadística. Thomson, Paraninfo; 2008. Spiegel, M. Estadística. México: McGraw-Hill Interamericana; 1991. Wayne, D. Bioestadística. Base para el análisis de las ciencias de la salud . México: Uteha Noriega Editores; 1993. Estadíst ica Descripti va - MÓDULO I Docente Responsable: Ing . Silvia Grenóvero. Consultas a:
[email protected]
Universidad
Nacional
del
Este
Facultad de Ciencias de la Salud
B. BIBLIOGRAFÍA DE CONSULTA Aranceta, J., Mijan, A., Clínicas Españolas de Nutrición. Vol. 1. Barcelona; 2005. Doménech Massons, J. Diseño de Estadística en Ciencias de la Salud. U.D. 1-15. Barcelona: Signo; 2002. Kuzma, J. W. Estadística básica aplicada a las ciencias médicas. California: Mayfiel Publishing Company ;1984. Peña, D. Análisis de datos multivariantes. Madrid:Mc Graw Hill/Interamericana; 2002.
Estadíst ica Descripti va - MÓDULO I Docente Responsable: Ing . Silvia Grenóvero. Consultas a:
[email protected]
Universidad
Nacional
del
Este
Facultad de Ciencias de la Salud
Anexo: Discrepancias en el cálculo de percentiles En los apartados anteriores se han definido los percentiles más utilizados, y se ha realizado ejemplos utilizando las fórmulas utilizadas habitualmente para datos ordenados y tabulados. Sorprende que en una cosa aparentemente tan sencilla como el cálculo de percentiles no haya unanimidad de cálculo entre los diferentes autores, por eso el valor de un determinado percentil de un conjunto de datos puede ser diferente si se utilizan distintos programas informáticos. Los cálculos de percentiles que se comentan en este apartado son válidos para todos los n-tiles: cuartiles, deciles, etc. La fórmula más utilizada para el cálculo de percentiles es la siguiente: P(n + 1); P es el percentil cuya posición se quiere calcular dividido por cien, n es el número de casos; esta es la fórmula que usan muchos programas estadísticos como SPSS, aunque el programa SPSS tiene opciones que permiten el cálculo de percentiles teniendo en cuenta los criterios de Tukey y de otros autores. Debe tenerse en cuenta que la fórmula anterior permite calcular la posición del percentil, después se calcula su valor. EJEMPLO Calcular el percentil 25, es decir, el primer cuartil de los datos 3, 4, 7, 8, 9. En primer lugar calcularnos la posición del percentil 25: 0,25 (5 + 1) = 1,5 La posición es 1,5, es decir, mayor que el primer dato y menor que el segundo. Para calcular el valor de éste percentil se debe tener en cuenta que es mayor que el primer dato porque la posición es mayor que uno, y menor que el segundo, la posición 1,5 indica que el valor buscado es el punto medio entre el primer y segundo dato, es decir, entre 3 y 4. El primer cuartil de los datos anteriores es 3,5. Autores tan importantes como Tukey emplean otro método para calcular los cuartiles, el primer cuartil lo calcula si los datos son pares como la mediana de los datos inferiores a la mediana de todos los datos. Por ejemplo, silos datos son 4, 6, 8 y 9, la mediana es 7; los datos inferiores a la mediana son 4 y 6 y su mediana 5, la mediana de los datos inferiores a la mediana es 5, por lo tanto, este es el primer cuartil, o percentil 25, el tercer cuartil o percentil 75, es la mediana de los datos mayores, es decir, 8,5. Si los datos son impares, el primer cuartil es la mediana de la mitad de datos con valores menores incluyendo a la mediana de todos los datos. Por ejemplo, con los datos 4, 6, 7, 8 y Estadíst ica Descripti va - MÓDULO I Docente Responsable: Ing . Silvia Grenóvero. Consultas a:
[email protected]