BIOESTADISTICA
n
x i
ˆ
x
1
n
.
BIOESTADISTICA Mg. Beatriz Castañeda Saldaña Profesora de Bioestadística Facultad de Ingeniería Ambiental Universidad Nacional de Ingeniería
.
BIOESTADISTICA
INDICE INTRODUCCION
1
1. ESTADISTICA DESCRIPTIVA 1.1. Organización de datos 1.2. Medidas de Resumen 1.2.1. Medidas de Posición 1.2.2. Medidas de Dispersión 1.2.3. Medidas de Forma Práctica Domiciliaria 1 1.2.4. Medición de datos nominales Práctica Domiciliaria 2 Bibliografía del capítulo
5 5 12 13 22 25 28 32 44 49
2. PROBABILIDAD 2.1. Función Probabilidad 2.2. Asignación de probabilidad 2.3. Métodos de enumeración y conteo 2.4. Probabilidad Condicional. Probabilidad condicional de Bayes 2.5. Evaluación de procedimientos de detección. Sensibilidad,
51 53 54 56 62
BIOESTADISTICA
4.1. Variables del muestreo 4.2. Distribución de la media muestral 4.3. Distribución de la varianza muestral 4.4. Distribución de la proporción muestral Práctica domiciliaria 6 Bibliografía del capítulo
135 136 143 145 149 153
5. ESTIMACION 5.1. Estimación Puntual 5.2. Estimación interválica 5.2.1. Estimación interválica para la media poblacional Error de muestreo. Tamaño de muestra 5.2.2. Estimaciçon interválica para la varianza poblacional 5.2.2. Estimación interválica para la proporción poblacional Error de muestreo. Tamaño de muestra 5.2.4. Estimación interválica para la diferencia de medias poblacionales 5.2.5. Estimación interválica para la diferencia de proporciones poblacionales Práctica domiciliaria 7 Bibliografía del capítulo
154 154 155 156 161 162 167 171 173 177
BIOESTADISTICA
7. REFERENCIAS BIBLIOGRÁFICAS
270
Anexo: Resumen de Estimación y Prueba de Hipótesis
272
BIOESTADISTICA
Lista de Cuadros Cuadro 1. Clasificación de variables según escala de medición Cuadro 2. Edad de mujeres sometidas a evaluación de porcentaje de saturación de colesterol en bilis Cuadro 3. Etapa de la enfermedad de pacientes con cáncer colorrectal Cuadro 4. Frecuencia de bacteriemia en pacientes hipotéticos con cultivos de catéter Cuadro 5. Número de hijos por familia Cuadro 6. Edad de pacientes Cuadro 7. Codificación de categorías Cuadro 8. Casos con calcificaciones pulmonares en dos poblaciones con fábrica
BIOESTADISTICA
Cuadro19. Prueba de hipótesis
Lista de Tablas Tabla 1. Edad y porcentaje de sobresaturación de colesterol en bilis Tabla 2. Arreglo ordenado según edad Tabla 3. Data de la contaminación bacteriana y calificación de verduras Tabla 4. Relación de muestras posibles para muestreo con reposición Tabla 5. Relación de muestras posibles para muestreo sin reposición Tabla 6: Cuantilas de la prueba de kolmogorov smirnov Tabla 7: Cuantilas del test estadístico para normalidad de Lilliefors
BIOESTADISTICA
Gráfico 10. Ordenamiento en círculo Gráfico 11. Función de cuantía de variable discreta Gráfico 12. Edad de mujeres trabajadoras en el sector textil Gráfico 13. Función de densidad de variable continúa Gráfico 14. Distribución de la edad de los niños (Población) Gráfico 15. Distribución de la media muestral (Muestreo con reposición) Gráfico 16. Distribución de la media muestral (Muestreo sin reposición) Gráfico 17. Error de muestreo y cota superior Gráfico 18. Error de muestreo al estimar la proporción poblacional Gráfico 19. Tipos de error en la toma de decisión Gráfico 20. Probabilidad de error tipo I ( α) y de error tipo II (β)
BIOESTADISTICA
Prólogo
Esta publicación es fruto de los apuntes de clase desarrollados para mis alumnos de la Facultad de Ingeniería Ambiental de la Universidad Nacional de Ingeniería, los cuales empecé a compilar en el año 2003 como una guía del curso de Bioestadística para agilizar el proceso enseñanza-aprendizaje y dinamizar las clases con la modalidad de taller.
Los temas trabajados cubren en su totalidad el sillabus del curso de Bioestadística en la Facultad de Ingeniería Ambiental y contiene 6 capítulos. En el primer capítulo
BIOESTADISTICA
Para cada tema se ha elaborado ejemplos aplicados los cuales serán resueltos en clase con la participación de los estudiantes. Al final de cada capítulo se incluye un listado de ejercicios y problemas denominado práctica domiciliaria.
Mg. Beatriz Castañeda Saldaña Lima, enero 2007
BIOESTADISTICA
INTRODUCCIÓN La investigación científica es la búsqueda continua del conocimiento y la estadística interviene en ella en la etapa de la experimentación y observación, esto es, las observaciones experimentales y reconocimientos son partes integrantes del método científico, el cual conduce al empleo de las técnicas estadísticas, las que al ser utilizadas adecuadamente hacen más eficientes las investigaciones. Por ello es necesario que todos los investigadores se familiaricen con las técnicas y conceptos básicos de la ciencia Estadística.
ESTADÍSTICA Es el campo de la ciencia que se ocupa de; 1) La recopilación, organización
de los da
BIOESTADISTICA
-
Estimación de parámetros poblacionales
-
Prueba de hipótesis respecto a las poblaciones
-
Estudio de la relación entre dos o más variables.
Población: En el contexto del manejo estadístico se considera dos acepciones: -
El conjunto de elementos para los cuales se tiene interés en estudiar alguna característica (por ejemplo los niños de un distrito)
-
El conjunto de valores asociados a cada uno de los elementos según la característica de interés (por ejemplo, si interesa estudiar el peso de los niños, al medirlos se tendrá la población de pesos de los niños del distrito)
BIOESTADISTICA
SELECCIÓN DE LOS MÉTODOS ESTADÍSTICOS
Antes de seleccionar un método estadístico debemos tomar dos decisiones: 1) Determinar cuál es la variable dependiente y cual es la independiente, y 2) Qué tipo de datos constituyen cada una de esas variables.
Clasificación de las variables en función de los objetivos de la investigación Variable dependiente: Puede identificarse como la variable de interés principal o el desenlace principal del estudio. Queremos contrastar hipótesis o hacer estimaciones, o efectuar ambos procedimientos, acerca de la variable dependiente.
BIOESTADISTICA
Cuadro1. Clasificación de variables según escala de medición Tipo variable
de Descripción
Categórica
Escala
Nominal (no establece Clasifica a los elementos orden) en categorías o clases Ordinal (orden en categorías)
Cuantitativa
Cuando asume valores - Discretos cuantitativos (numéricos) - Continuos
Ejemplo -sexo -estado civil -raza -Dolor -Color (intensidad) -Estadío de enfermedad - número de hijos - número de fallas - Edad - talla - peso -tiempo de enfermedad
BIOESTADISTICA
CAPÍTULO 1. ESTADISTICA DESCRIPTIVA La estadística descriptiva se ocupa de la organización y resumen de datos para la mejor descripción de los elementos bajo estudio según la o las características de interés.
1.1. Organización de datos Para la descripción de un conjunto de datos el primer procedimiento consiste en organizarlos presentándolos en un listado en forma ascendente y agrupándolos para ser presentados en tablas y gráficos de frecuencias.
Ejemplo 1.1. El siguiente cuadro proporciona la edad y el porcentaje de
BIOESTADISTICA
15 23 65 15 47 77 16 43 79 16 36 91 17 27 87 17 74 128 18 63 56 18 53 75 19 59 110 19 41 82 20 53 106 20 25 69 21 66 110 21 57 84 22 48 78 22 42 116 23 27 80 23 49 73 24 32 47 24 60 87 25 62 74 25 23 46 26 36 58 26 48 107 27 29 88 27 44 84 28 27 73 28 37 120 29 65 118 29 57 123 30 42 67 31 60 57 Fuente: Dawson, B y Trapo R. Bioestadística Médica. 2ª Edición, 1997 (36)
Para describir la edad de las personas en el estudio ordenamos las edades ascendentemente:
BIOESTADISTICA
22 3 58 111 22 14 50 127 23 19 59 110 23 18 53 75 24 31 60 57 24 8 56 146 25 25 62 74 25 21 57 84 26 5 63 106 26 29 57 123 27 18 63 56 27 24 60 87 28 11 64 88 28 5 63 142 29 29 65 118 29 17 74 128 30 21 66 110 31 7 67 123 Fuente: Dawson, B y Trapo R. Bioestadística Médica. 2ª Edición, 1997 (36)
El arreglo nos permite apreciar que el grupo de varones tienen edades ligeramente menores que las mujeres, pero para tener información de la tendencia de la edad para los varones y mujeres es mejor organizar los datos en forma agrupada.
BIOESTADISTICA
3) Determinar el número de intervalos (k) o la longitud de cada intervalo (c), como: K = R/c
o
c = R/k
Sugerencias: a) 5 ≤ k ≤ 10 b) Todos los intervalos deben ser de igual longitud y de preferencia determinar c como una medida que nos proporcione intervalos de fácil lectura
Lo más importante es el criterio propio y el sentido común. No existe regla precisa para la determinación del número de intervalos (k), generalmente tratamos de no tener muchos, ni muy pocos. La razón básica para agrupar los datos es revelar la forma de la distribución utilizando un número moderado de
BIOESTADISTICA
Histograma de frecuencias Se utiliza para representar frecuencias simples (absolutas o porcentuales) de
datos continuos. Se construye dibujando un eje en el cual se indican los intervalos de clase, luego se dibuja una serie de rectángulos que tienen como base los intervalos de clase y cuyas superficies deben ser proporcionales a las frecuencias correspondientes a cada intervalo. En el caso de que todos los intervalos sean de igual amplitud, la altura de cada rectángulo será proporcional a la frecuencia. Si los intervalos tienen amplitudes diferentes, entonces, las alturas son llamadas densidad de frecuencia.
Gráfico 1 Edad de mujeres sometidas a evaluación de porcentaje de saturación de colesterol en bilis
BIOESTADISTICA
El polígono de frecuencias nos permite visualizar la forma de la distribución y en base a ella poder ajustarla a un modelo de probabilidad. Para el uso descriptivo con este gráfico podemos representar, simultáneamente, la distribución de frecuencias de dos o más subconjuntos de datos para efectos de comparación de tendencias de agrupamiento; en este caso se sugiere graficar las frecuencias porcentuales para evitar distorsiones debido a la diferencia en los tamaños de muestra.
b) Agrupamiento por conteo individual Si los datos son categóricos o de tipo discreto los ordenamos en cuadros de frecuencia por conteo individual e ilustramos con un gráfico de barras. Por ejemplo en el cuadro 3 se presenta el agrupamiento de pacientes según etapa
BIOESTADISTICA
indican las categorías o valores diferentes de la variable, luego se dibujan barras de igual ancho y cuyas longitudes deben ser proporcionales a las frecuencias correspondientes a cada categoría.
Gráfico 2 Etapa de la enfermedad de pacientes con cáncer colorrectal s 70 e t n 60 e i c 50 a p 40 e d 30 o r 20 e m10 ú 0 N
1
2
3
4
Etapa de la enfermedad Fuente: Dawson, B y Trapo R. Bioestadística Médica. 2ª Edición, 1997 (31)
BIOESTADISTICA
Gráfico 3 Frecuencia de bacteriemia en pacientes hipotéticos con cultivos de catéter
20% Si No 80%
Fuente: Dawson, B y Trapo R. Bioestadística Médica. 2ª Edición, Manual Moderno 1997 (28)
1.2. MEDIDAS DE RESUMEN
BIOESTADISTICA
- Coeficiente de Variación
Medidas de forma. Indican la deformación horizontal y vertical de los datos. - Asimetría - Curtosis
MEDICIÓN DE DATOS NOMINALES - Proporciones y Porcentajes - Razones - Medición epidemiológica: * Tasa. Ajuste de tasas * Riesgo Relativo (RR) * Odds Ratio (OR)
BIOESTADISTICA
Es una medida de posición que proporciona el valor que tiende a tomar la variable para la mayoría de los elementos en la población o muestra, según corresponda. Por su forma de cálculo describe el centro de los datos en el sentido de un centro de gravedad o punto de equilibrio, por ello se la considera como una medida de tendencia central.
Obtención de la media para datos agrupados k
k i
edia i
oblacional :
Valor individual o
i 1
ni
i
;
edia
uestral :
unto medio del intervalo
i 1
n
ni
;
BIOESTADISTICA
Media x = 198 = 3.09 ≅ 3 hijos por familia 64 Luego las familias tienen en promedio 3 hijos por familia.
Obtención de la media para agrupamiento por intervalo Ejemplo 1.3. En el cuadro 6 se presenta los intervalos de la edad y sus puntos medios de cada intervalo, así como la frecuencia respectiva para una muestra de 75 pacientes de una cierta enfermedad.
Cuadro 6. Edad de pacientes Edad 5 – 14 15 – 24 25 – 34 35 44
xi * 9.5 19.5 29.5 39.5
ni 5 10 20 22
xi ni 47.5 195.0 590.0 869.0
BIOESTADISTICA
o
Para la edad:
35 – 44 años es el intervalo modal Moda = 39.5 años *
* En el manejo de datos, para efectos descriptivos, se asume que los datos que toman medida en un intervalo dado se distribuyen uniformemente
dentro
de
él
estableciéndose
una
relación
de
proporcionalidad entre el tamaño del intervalo y la frecuencia correspondiente, de esta manera el punto medio representa a los datos en el intervalo.
CUANTILAS O CUANTILES Cuantila : X p Es un valor en el recorrido de la variable en el que se acumula una porción p de
BIOESTADISTICA
Indica que el 50% de las personas tienen edad máxima 36 años y que el otro 50% tiene mínimo 36 años.
Cuartiles : q1 = X0.25 ; q2 = X0.50
;
q3 = X0.75
Son puntos que dividen al conjunto de datos en 4 partes, esto es en cada parte se acumula 25% de los datos, por ejemplo q1 = X0.25 = 27 años ;
q3 = X0.75 = 45 años
Indica que el 25% de las personas tienen hasta 27 años y que el 75% tiene a lo más 45 años, es decir el 50% tiene edad entre los 27 y 45 años.
Déciles:
d1 = X0.10 ; d2 = X0.20 ; ........ ;
d9 = X0.90
Son puntos que dividen al conjunto de datos en 10 partes donde cada una
BIOESTADISTICA
Indica que el 20% de las personas tiene máximo 20 años y que sólo el 5% de las personas tiene más de 57 años, también podemos deducir que el 75% de las personas tienen edad entre los 23 y 57 años.
OBTENCIÓN DE LAS CUANTILAS a) Para datos no agrupados. Luego de ordenar los datos ascendentemente se determina la cuantila p como el valor que ocupa el lugar r X p = X(r) Donde:
r=nxp
(si r no es entero redondear al entero superior)
Ejemplo 1.5. Consideremos nuevamente los datos del ejemplo 1.1 ordenados según edad (Tabla 2)
BIOESTADISTICA
20 21 22 23 24 25 26 27 28 29 30 31
20 12 3 19 31 25 5 18 11 29 21 7
53 55 58 59 60 62 63 63 64 65 66 67
106 137 111 110 57 74 106 56 88 118 110 123
20 21 22 23 24 25 26 27 28 29
3 23 14 18 8 21 29 24 5 17
49 49 50 53 56 57 57 60 63 74
76 73 127 75 146 84 123 87 142 128
Para la variable Edad Varones
Mujeres
X0.50 = 43 años (np = 15.5)
X0-50 = 42 años (np = 14.5)
X0.25 = 27 años (np = 7.75)
X0.25 = 35 años (np = 7.25)
X0.90 = 64 años (np = 27.9)
X0.90 = 60 años (np = 26.1)
BIOESTADISTICA
nº de hijos (xi) 0 1 2 3 4 5 6 Total
nº de familias (ni) 4 8 11 15 10 13 3 64
P10 = X0.10 = 1 pues np = 0.10 x 64 = 6.4 P25 = X0.25 = 2 pues np = 0.25 x 64 = 16 P50 = X0.50 = 3 pues np = 0.50 x 64 = 32 P75 = X0.75 = 4 pues np = 0.75 x 64 = 48 P90 = X0.90 = 5 pues np = 0.90 x 64 = 57.6
Nº acumulado de familias Ni 4 12 23 38 48 61 64
BIOESTADISTICA
c: Amplitud del intervalo j L jI: Frontera de clase del intervalo j (el punto medio entre los extremos consecutivos para intervalos discretos) o límite inferior para intervalos continuos.
Ejemplo 1.7. Consideremos la distribución de la edad de la muestra de mujeres del ejemplo 1.1 presentadas en el
cuadro 2 para la cual
obtendremos los percentiles 25, 50 y 95.
Edad de mujeres sometidas a evaluación de porcentaje de saturación de colesterol en bilis Nº de
BIOESTADISTICA
Otra manera de obtener las cuantilas es a partir del gráfico de frecuencias acumuladas en porcentaje, para lo cual el gráfico debe ser hecho a escala para facilitar la aproximación, como se ilustra en el gráfico 4 para el percentil 50, el cual aproximadamente sería igual a 43 años.
Gráfico 4
100%
s e r e j u m e d %
90% 80% 70% 60% 50% 40% 30% 20% 10%
Distribución acumulada de las mujeres según edad
BIOESTADISTICA
N
N
( x i 2
)
2
2
1
i
n
n
( x i x ) S 2
x i 2
2
x i 2
n 1
Desviación estándar
2
n x
1
i
Varianza Poblaciona l
n 1
Varianza muestral
2
S
S 2
La varianza indica cuan representativa de los datos es la media aritmética, ya que una varianza pequeña indica que los datos están cerca de la media, en cambio una varianza grande indica que los datos están alejados de la media.
BIOESTADISTICA
Los niños tienen en promedio 9,42 g/100ml de hemoglobina y esta tiende a variar en 1,7g/100ml respecto a la hemoglobina promedio.
Coeficiente de Variación: C .V .
S x
x 100
Indica la variabilidad de los datos en unidades porcentuales de media. Esta medida nos indica cuan grande o pequeña es la desviación estándar. Se utiliza para comparar la variabilidad de 2 o más grupos de datos.
Por ejemplo para la hemoglobina de los niños C .V .
Calculo de la varianza para datos agrupados
1 .7 9.42
x 100
18%
BIOESTADISTICA
x
2645.5
2
S
C .V .
75
35.27 años
105538 .75
75( 35.27 ) 2 74
12.86 35.27
x 100
165.42
S
12.86 años
36.5%
Los resultados nos indican que los pacientes en promedio tienen 35 años y que sus edades tienden a dispersase en aproximadamente 13 años respecto de la edad promedio, es decir, la dispersión de la edad es el 36,5% de la edad promedio.
BIOESTADISTICA
Mo = x = Me Gráfico 5. Distribución simétrica b) La distribución es asimétrica, es decir, los datos se concentran a uno de los extremos y aparecen con poca frecuencia hacia el otro extremo.
Asimetría Negativa
Asimetría Positiva
BIOESTADISTICA
Curtosis Es una medida de la deformación vertical de una distribución de frecuencias, es decir, nos indica el apuntamiento o achatamiento de la curva, lo cual está relacionado con la dispersión de los datos.
Platicúrtica
Mesocúrtica
Leptocúrtica
Gráfico 7. Clasificación de distribuciones según curtosis
(
)
BIOESTADISTICA
PRACTICA DOMICILIARIA 1 1. Los siguientes datos son parte de los resultados de una investigación acerca del reuso de aguas residuales y su impacto en los cultivos. Aquí se presentan los datos recopilados para el logaritmo del coliforme fecal en el agua de irrigación y la verdura para una muestra de 100 productos agrícolas, los que fueron irrigados con agua de diferente calidad bacteriana. Se indica también la procedencia, el tipo de crecimiento y la calificación de cada producto para el consumo humano. La codificación utilizada es:
Cuadro 7. Codificación de categorías Variable Categoría Código Cieneguilla (agua de río) 1 Procedencia San Juan (agua tratada) 2
BIOESTADISTICA
Caso Proced T.C. Logcfa logcfv Calif-P
12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32
4 4 4 4 4 4 4 4 4 4 4 4 4 4 1 1 1 1 1 1 1
1 1 1 1 1
1 1 1
1 1 1 1
1 1 2 2
2 2 2 2 2
7.70 7.78 7.90 7.81 9.96 7.70 7.60 7.60 7.70 7.70 8.96 7.78 7.70 7.60 1.90 2.36 1.90 1.90 3.48 2.36 1.30
2.17 0.73 0.40 3.13 2.30 2.14 4.47
3.01 2.14 0.30 3.14 0.50
0.34 4.20 0.41
0.73 0.30 1.02 0.30 1.64 0.36
3 2 1 3 3 3 3 3 3 1 3 1 1 3 1 2 1 1 1 2 1
Caso
Proced
62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82
3 3 3 3 3 3 3 3 3 4 4 4 4 4 4 4 4 4 4 4 4
T.C. 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2
Logcfa logcfv
8.10 7.70 8.20 7.70 8.10 7.70 8.10 7.60 8.13 7.78 7.90 7.81 7.78 7.60 7.70 8.96 7.90 8.96 7.70 7.90 7.70
2.10 2.52 5.14 2.85 3.94 3.17 0.64
0.69 3.38 2.52 0.69 1.59
1.21 0.63 0.54
2.61 2.27 2.21 0.49 3.69 1.97
Calif-P
3 3 3 3 3 3 1 2 3 3 2 2 2 2 1 3 3 3 1 3 3
BIOESTADISTICA
-
Histograma de frecuencias para logcfa y logcfv
-
Gráfico de barras para procedencia
-
Gráfico pastel para tipo de crecimiento
-
Gráfico pastel para la calificación del producto
c) Obtener las medidas de resumen para las variables cuantitativas (mínimo, máximo, cuartiles, media, desviación estándar, coeficiente de variación). Interpretar los resultados. d) Obtener las tablas de frecuencia bivariante para - Procedencia y calificación del producto - Tipo de crecimiento y procedencia de los productos. e) Comparar el logcfv por tipo de crecimiento.
BIOESTADISTICA
10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30
Blanca Blanca Mestiza Mestiza Blanca Negra Negra Blanca Blanca Negra Blanca Negra Blanca Blanca Blanca Blanca Mestiza Blanca Negra Blanca Blanca
F F M F F F F M F F M F F F M F F F M F F
32 46 48 26 64 71 48 62 55 68 73 77 56 80 49 38 64 45 82 31 67
Gruesa Delgada mediana Gruesa Delgada Delgada Delgada Gruesa Gruesa Mediana Mediana Delgada Delgada Delgada Mediana Gruesa Gruesa Gruesa Mediana Delgada Gruesa
3 4 2 1 1 0 0 2 1 1 2 0 0 1 3 1 3 3 2 3 1
4 4 0 2 5 3 1 2 1 0 4 2 5 6 0 1 1 0 2 0 1
No si si No si si si No si No No No si si No No si si si No No
Mucho Poco Nada Nada Poco Nada Poco Poco Mucho Mucho Nada Poco Poco Nada Poco Mucho Mucho Poco Nada Nada Nada
1.01 0.70 0.83 1.07 0.68 0.71 0.92 0.77 0.84 0.93 0.72 0.82 0.66 0.68 1.03 0.97 0.81 0.84 0.78 1.04 0.72
BIOESTADISTICA
1.2.4. MEDICIÓN DE DATOS NOMINALES Proporción Una proporción es la comparación por cociente entre el número de elementos de un subconjunto y el número de elementos del conjunto al que pertenece el subconjunto. Indica que parte del todo es el subconjunto.
p
a a
b
Ejemplo:
p
175 casos de cáncer pulmonar 1956 casos de todos los tipos de cáncer
0,09
Porcentaje Un porcentaje es una proporción multiplicada por 100. Indica la parte en
BIOESTADISTICA
A esta razón se suele denominar índice de hacinamiento, nos indica cuan densa es la población por vivienda
R
20 cirujanos 40 int ernistas
1 cirujano / 2 int ernistas .
Esta razón nos indica la relación entre la cantidad de 2 clases de especialistas en medicina.
R
R1
18 alumnos / docente
R2
10 alumnos / docente
1.8
R
180%
Esta razón compara dos razones y nos indica que los docentes del grupo 1 tienen 80% más de intensidad de trabajo que los docentes del grupo 2, para la interpretación a la razón la hemos expresado en unidades porcentuales del
BIOESTADISTICA
Los datos que integran una tasa ocurrieron en un período anterior al actual y en cierto modo permiten anticipar, con un determinado valor numérico, la probabilidad de que exista ese riesgo para
la población en períodos
inmediatos, particularmente si las condiciones de dicha población se mantienen estables. En Epidemiología, usualmente los eventos están constituidos por casos de enfermedad o defunciones por diversas afecciones. Las tasas están constituidas por tres elementos: 1) El numerador del cociente, que consiste en el número de veces que ocurrió el evento o suceso en estudio. 2) El denominador del cociente que es la población expuesta al riesgo de que le ocurra el fenómeno.
BIOESTADISTICA
N º de nacimiento s vivos ocurridos Tasa anual bruta de natalidad =
en una región y año dado Estimación de la población a mitad de año en la misma región y el mismo año
N º de enfermos nuevos de una afección Tasa de incidencia
=
aparecidos en una región y año dado Estimación de la población a mitad de año en la misma región y el mismo año
N º de personas de una región que tienen Pr evalencia
=
la enfermedad en un tiempo especificado Estimación de personas en la población en la misma región y tiempo especificado
Ejemplo 1.10
x 1000
x 1000
x 1000
BIOESTADISTICA
Tasa de B
2083 59656
x 1000
34,9 casos de calcificaciones / 1000 habi tan tes
Al comparar por cociente R
Tasa de A Tasa de B
x 100
55,1 34,9
x 100
158%
Lo que nos indica que los habitantes de la población A tienen un riesgo 58% mayor al de la población B para tener calcificaciones pulmonares.
AJUSTE DE TASAS Cuando dos poblaciones tienen diferente estructura de población no es apropiado comparar las tasas globales ya que está comparación podría no ser válida debido a éstas diferencias, lo que nos permite, además explicar las
BIOESTADISTICA
Cuadro 9. Tasas específicas de calcificaciones pulmonares por distancias en dos poblaciones Distancia (Km) 0 – 0,9 1,0 – 1,9 2,0 – 2,9 3,0 – 3,9 4,0 y más TOTAL
Población A Habitantes Nº Casos Tasa 1 531 279 182,2 1 904 69 36,2 2 599 141 54,3 4 672 2 0,4 368 119 323,4 11 074 610 55,1
Población B Habitantes Nº Casos Tasa 5 438 462 85,0 4 489 117 26,1 10 351 802 77,5 36 994 37 1,0 2 384 665 278,9 59 656 2083 34,9
Fuente: Centro Panamericano de Ecología Humana y Salud. Evaluación Epidemiológica de riesgos causados por agentes químicos ambientales. Edición de 1985. México: OPS; 1985.
Cuadro 10. Casos esperados en población A, bajo condiciones de la población B Distancia (Km)
Población A Habitantes
Tasas Casos esperados en A especificas bajo condiciones de B de B
BIOESTADISTICA
La comparación inicial (55,1/34,9 = 1,58) nos estaría indicando que la población A tiene un riesgo 58% mayor al de la población B para tener calcificaciones pulmonares.
La comparación luego del ajuste (44,2/34,9 = 1,3) nos indica que si la población A estuviera sometida a condiciones de exposición al asbesto iguales a las que tiene B, el riesgo de tener calcificaciones pulmonares en A sería 30% mayor que en la población B, lo cual se explicaría por la distribución de la población según distancia distancia a la fábrica de asbestos.
Riesgo relativo (RR) El riesgo relativo de una enfermedad (RR), es la razón de incidencia en
BIOESTADISTICA
Así para interpretar este coeficiente lo comparamos con la unidad, de manera que -
Si RR = 1, nos indica que el factor de exposición no es un factor de riesgo para la enfermedad, pues se tiene la misma incidencia o riesgo de enfermedad para las personas expuestas que para las no expuestas.
-
Si RR > 1, nos indica que el factor de exposición es un factor de riesgo para la enfermedad, ya que para las personas personas expuestas se tiene mayor incidencia de la enfermedad que para las personas no expuestas.
-
Si RR < 1, nos indica que el factor de exposición es un factor de protección para la enfermedad, ya que para las personas expuestas expuestas se
BIOESTADISTICA
e = 2.7182
es el número neperiano
ln(RR):
es el logaritmo natural del RR
Si el intervalo obtenido tiene límite inferior mayor que 1, entonces concluimos que el factor considerado es un factor de riesgo para la enfermedad.
Si el intervalo obtenido tiene límite inferior menor que 1, entonces no podemos concluir que el factor considerado sea un factor de riesgo, porque con 95% de probabilidad se está estimando que es posible que RR = 1, es decir que haya la misma incidencia para los expuestos que para los no expuestos.
Ejemplo 1.15
BIOESTADISTICA
ln(1.60 )
Ls
1.96
e
100 20 200 25 100 ( 20 ) 200 ( 25 )
2.74
Luego el intervalo de confianza al 95% es:
0.935 – 2.74
Este resultado nos indica que no podemos concluir que el factor de exposición sea un factor de riesgo, pues la diferencia encontrada no es significativa.
Odds Ratio (OR) En estudios de caso-control, en los cuales los investigadores determinan el número de controles, no es apropiado estimar las tasas de incidencia. No obstante puede realizarse un cálculo de riesgo relativo, llamado Odds Ratio
BIOESTADISTICA
Aquí también, para interpretar este coeficiente debemos compararlo con la unidad, de manera que -
Si OR = 1, nos indica que el factor de exposición no es un factor de riesgo para la enfermedad, pues la relación de expuestos a no expuesto es la misma para casos y controles.
-
Si OR > 1, nos indica que el factor de exposición es un factor de riesgo para la enfermedad,
ya que la proporción de casos que han sido
expuestos es mayor que la proporción de controles que han sido expuestos. -
Si OR < 1, nos indica que el factor de exposición es un factor de protección para la enfermedad, ya que aquí la porción de expuestos es mayor en los controles que en los casos.
BIOESTADISTICA
Si el intervalo obtenido tiene límite inferior mayor que 1, entonces concluimos que el factor considerado es un factor de riesgo para la enfermedad. Si el intervalo obtenido tiene límite inferior menor que 1, entonces no podemos concluir que el factor considerado sea un factor de riesgo, porque con 95% de probabilidad se está estimando que es posible que OR = 1, es decir que haya la misma proporción de expuestos en los casos y controles.
Ejemplo 1.16 En un estudio de casos-control de dieta con frituras y cáncer pancreático (Norell et al 1986), los siguientes datos fueron obtenidos:
Cuadro 11. Exposición a dieta con frituras para casos y Controles
BIOESTADISTICA
LS
e
ln( 1.98 )
1.96
1 53
1 43
1 53
1 85
Luego el intervalo de confianza al 95% es:
3.359 1.167 – 3.359
Este resultado nos indica que podemos concluir que la dieta con frituras es un factor de riesgo para el desarrollo de cáncer pancreático, pues la diferencia encontrada es significativa.
Práctica domiciliaria 2 1. En un estudio para examinar la relación entre clase socio-económica y tipo
BIOESTADISTICA
2. A continuación aparecen las frecuencias porcentuales de concentración de plomo en la sangre de los trabajadores de una fábrica de pinturas examinados en 1989 y otro en 1997. Plomo en la % de trabajadores Sangre (µg/dl) 1989 1997 10 – 19 11 38 20 – 29 12 15 30 – 39 14 13 40 – 49 15 15 50 – 59 17 10 60 – 69 13 7 70 – 79 10 1 80 – 90 8 1 Nº trabajadores 280 325 a) ¿En cuál de los dos años tienden los trabajadores a presentar niveles más bajos de plomo en la sangre?
BIOESTADISTICA
Obtenga el riesgo de infarto de miocardio por tomar aspirina. Interprete. 4. Compare e interprete las siguientes informaciones : a) Para el año 2000 se obtuvo Tasa de mortalidad por 10000 hbt. las tasas siguientes: Ciudad General Infantil A 35 80 B 42 60 b) En un estudio de casos-control Antecedente familiar para Artritis Reumatoide se Individuo Total Si No obtuvo la siguiente información. Caso 95 55 150 Calcule el riesgo apropiado e Control 40 180 220 interprete. c) Para el año 2000 se obtuvo las Tasa por 1000 horas-hombre tasas siguientes: Empresa Productividad Accidentes A 500 40 B 350 60
BIOESTADISTICA
〈8.5 – 9.0] Total
240 2200
a) Elabore el histograma y polígono de frecuencias. b) Obtenga la media, desviación estándar y coeficiente de variación. Interprete c) El riesgo de la población es evaluado: Bajo, si X0.90 ≤ 7.5; Moderado, si: X0.90 >7.5; pero X0.50< 7.5 y Alto, si X0.50 ≥7.5. Según este criterio, evaluar el riesgo de los niños del Callao. d) Calcule el grado de asimetría de la distribución: Interprete. e) Indique el porcentaje de niños para los que el nivel de plomo en sangre excede a los 7.5 µg/dl 6. Considere los siguientes datos que comparan la mortalidad por cáncer en
BIOESTADISTICA
c) Calcule las tasas de mortalidad ajustadas para el país A, sujeto a las condiciones del país B. Interprete.
7. En una compañía trabajan 200 obreros y 12 empleados. Luego de las negociaciones con el Sindicato de trabajadores, la compañía otorgará un incremento de 20% a los obreros y de 15% a los empleados. Los ingresos mensuales en promedio son de S/. 1200 para los obreros y de S/. 1800 para los empleados. Calcule usted, la cantidad de dinero que debe disponer la compañía para hacer efectivo el aumento.
8. Un sociólogo desea comparar los grados de fertilidad de las mujeres de dos grupos suburbanos de una ciudad. Seleccionó dos muestras al azar de 100
BIOESTADISTICA
35 30 25 20 15 10 5 0
Del grupo A Del grupo B
0
1
2
3
4
5
6
7
8
b) Interprete las siguientes medidas de resumen y compare los grados de fertilidad medidos por el número de hijos por mujer
BIOESTADISTICA
3. DAWSON-SAUNDERS, B. And TRAPP, R. Bioestadística Médica. 2ª Edición. Manual Moderno, S.A. de C.V. México. 2000 4. DAWSON-SAUNDERS, B. And TRAPP, R. Bioestadística Médica. 4ª Edición .Manual Moderno, S.A. de C.V. México. 2004 5. ROTHMAN, K. Modern Epidemiology. Little, Brown and Company. Boston/Toronto. 1986 6. MONTGOMERY, D y RUNGER, G. Probabilidad y Estadística aplicadas a la Ingeniería. McGRAW-HILL. México. 1996 7. Centro Panamericano de Ingeniería Sanitaria y Ciencias del Ambiente. Evaluación de Riesgos para la salud por el uso de aguas residuales en agricultura. Anexo 3: Aspectos Microbiológicos. CEPIS-OPS. Lima, Perú. 1990
BIOESTADISTICA
CAPITULO 2.
PROBABILIDAD
Es la medida de la posibilidad de que ocurra un hecho o evento.
Probabilidad
Subjetiva
Objetiva
Teórica o a priori Gráfico 8. Asignación de probabilidades Probabilidad Subjetiva
Frecuencial o a posteriori
BIOESTADISTICA
- Espacio muestral: Ω, S Conjunto formado por todos los resultados posibles de un experimento aleatorio, por ejemplo dados l os siguientes experimentos: - Al lanzar una moneda
Ω =
{c, s}
- Al observar la calidad de 3 productos Ω =
{BBB,BBD,BDB,BDD,DBB,DBD,DDB,DDD }
Evento elemental: w Resultado individual del experimento aleatorio, por ejemplo w = BBB
Evento o Suceso:
BIOESTADISTICA
A ∪ B, es el evento reunión, decimos ocurre A o B
Ac = A´=
,
es el evento complemento de A, A A´= Ω
2.1. Función Probabilidad La función probabilidad asigna a cada evento A definido en el espacio muestral un real p llamado probabilidad de A .
A
P ( A) p
Donde p debe cumplir los tres axiomas siguientes: 1. P(A) ≥ 0 , para todo evento A definido en
Ω
2. P(Ω) = 1 3. Dados A1, A2, …., An,
…. eventos definidos en
Ω,
tales que son
BIOESTADISTICA
2.2. Asignación de Probabilidad - Probabilidad Frecuencial
P ( A)
n( A) n
Dadas n realizaciones de un experimento aleatorio, donde A es un resultado obtenido, entonces la probabilidad de A es la frecuencia relativa Ejemplo 2.1 La tabla presenta las reacciones de 400 ciudadanos con respecto a un nuevo plan de impuestos de acuerdo con su filiación partidaria Afiliación partidaria A B
Reacción Total A favor Neutral Se opone 120 20 20 160 50 30 60 140
BIOESTADISTICA
Ejemplo 2.2: Lanzamiento de un dado P(puntaje par) = 3 = 0.5 6 Ejemplo 2.3: Extraer una carta de un juego de naipes P(un as) = 4 =0.077 52 Ejemplo 2.4: Al extraer dos objetos de una caja que contiene 8A y 6B Sea el evento C: Se obtiene un A y un B Los posibles resultados del experimento los podemos ilustrar con el siguiente diagrama denominado diagrama de árbol
8A
6B
BIOESTADISTICA
2.3. Métodos de Enumeración y Conteo 1. Principio de multiplicación Si un proceso tiene dos etapas o su realización se puede conceptuar en 2 etapas, de las que la primera se puede realizar de m maneras y la segunda de n maneras, entonces el proceso (1ª y 2ª etapa) puede realizarse de mxn maneras. Se ilustra con el diagrama de árbol.
Ejemplo 2.5 Sea el experimento de lanzar 2 monedas.
C
S
BIOESTADISTICA
Este principio se puede generalizar a k etapas.
2. Principio de Adición Si un proceso A puede realizarse de n A maneras y un proceso B puede realizarse de n B maneras, entonces si A y B son procesos que no pueden realizarse u ocurrir simultáneamente, el número de maneras en que se puede realizar el proceso A o B será n A + nB
Ejemplo 2.8 Sea el experimento de extraer un artículo de un lote que contiene 4b, 2n y 3 A. Sean los eventos: A: El artículo extraído es b
BIOESTADISTICA
3. Permutaciones u ordenamientos Si se tiene un conjunto de n elementos, entonces el número de maneras diferentes en que podemos presentarlos ordenadamente en línea será
1 2
N = n!
3 . . . n
Se elige de 1 en 1 y se coloca en cada lugar 1º
2º
n
n-1
.
.
.
n-1º
nº
2
1
N = n x n-1 x . . . x 2 x 1 = n!
el experimento sería similar al de extraer de uno en uno los elementos y
BIOESTADISTICA
N = n x n-1 x . . . x n – (n-1) =
n!
(n
r )!
Ejemplo 2.11 Placas con 3 números y 2 letras deben construirse, si no se permite la repetición de dígitos y letras, ¿cuántas placas se construyen con los dígitos 0, 1, 2, …. , 9 y las letras A, B, …., E
El número de placas será: N = (10 x 9 x 8) x (5 x 4)
4.
Combinaciones
Si de un conjunto con n elementos deseamos formar un grupo de r elementos
BIOESTADISTICA
Ejemplo 2.14 Un examen consiste de 10 preguntas cuyas respuestas son verdadero (V) o falso (F) ¿De cuántas maneras se puede contestar el examen marcando 3V y 7F Este procedimiento lo podríamos comparar con la acción de escoger 3 preguntas para responder verdadero y a las 7 restantes asignarle falso, luego: N
5.
10 3
120
Particiones
El número combinatorio puede interpretarse de 2 maneras, así: 1) Indica el número de maneras en que se elige r elementos de un conjunto
BIOESTADISTICA
El número de maneras será: N
6.
9! 3! 4! 2!
1260
Permutaciones con repetición
Si se tiene n elementos entre los que n 1, n2, …, nk elementos son similares entre si y
n1 + n2 + … + nk = n, entonces el número de maneras de
ordenarlos en línea es:
N
n! n1! n2 ! . . . nk !
Ejemplo 2.16 Sean las letras a, a, b, b, b si las deseamos presentar en línea en un orden diferente cada vez, el número de maneras será:
BIOESTADISTICA
abc, cab, bca se obtienen de rotar el último al primer lugar y al presentarlas en círculo se obtiene una misma disposición como se puede apreciar en el siguiente diagrama.
a
c
b
c
abc
b
b
a
a
cab
c
bca
lo mismo ocurre para acb,bac,cba a
b
c a
BIOESTADISTICA
Ejemplo 2.18 Con los datos del ejemplo 2.1, calculamos la probabilidad de que un ciudadano este a favor del nuevo plan de impuestos dado que es de afiliación partidaria A Afiliación partidaria A B Otra Total
Reacción A favor Neutral Se opone 120 20 20 50 30 60 50 10 40 220 60 120
A: El ciudadano es de afiliación A
P(A) = 160/400 = 0.40 AF: el ciudadano es de Afiliación A y está a favor
Total 160 140 100 400
BIOESTADISTICA
Lo que se resume en la siguiente tabla
Cuadro 12. Probabilidad marginal y conjunta
B BC Prob. marginal
Prob. marginal c P(AB) P(AB ) P(B) P(PABc) P(AcBc) P(Bc) A
Ac
P(A)
P(Ac)
Elaboración propia
2.
P(ABC) = P(AB) P(C/AB) = P(A) P(B/A) P(C/AB)
Como los eventos son conjuntos y la intersección de conjuntos tiene la propiedad asociativa y conmutativa, entonces el orden en que podemos escribir
BIOESTADISTICA
Ejemplo 2.19 Calculamos la probabilidad de obtener
2 caras al lanzar dos veces una
moneda P(cc) = P(c) P(c) = (1/2)(1/2) = ¼
Probabilidad Total Un evento de probabilidad total es un evento A que ocurre asociado a la ocurrencia de n eventos B i, tales que son mutuamente excluyentes y colectivamente exhaustivos BiB j = φ ∀ i ≠ j
y
∪ Bi = Ω
BIOESTADISTICA
probabilidad de Bj condicionada al resultado A se denomina evento condicional de Bayes P ( B
j
/ A )
P ( AB
j
)
P ( A )
Ejemplo 2.20 Para las fiestas navideñas una tienda de regalos contrata a 3 empaquetadores. Carmen empaqueta el 30% de los regalos vendidos y olvida quitar la etiqueta con el precio en 1 de cada 20, Juan empaqueta el 40% de los regalos que empaqueta Sandra y olvida quitar la etiqueta con el precio en 1 de cada 10; y Sandra olvida quitar la etiqueta con el precio en 1 de cada 25. a) ¿Cuál es la probabilidad de que un cliente reciba un regalo con la etiqueta del precio?
BIOESTADISTICA
Como Juan y Sandra empaquetan el 70% de los regalos, entonces
J + S =0.7
Además, Juan empaqueta el 40% de los regalos que empaqueta Sandra, es decir,
0.4S + S = 0.7 , entonces S = 0.5 Luego Sandra empaqueta el 50% y Juan el 20% de los regalos. Resumiendo la información en una tabla obtenemos:
Regalos empaquetados Con etiqueta Sin la etiqueta Total
Carmen Juan 0,015 0,285 0,30
Sandra Total
0,02 0,02 0,018 0,48 0.20 0.50
0,055 0,945 1,00
BIOESTADISTICA
positivos o negativos a la prueba; resultados que podemos agrupar en una tabla de 2 x 2 Prueba aceptada Enfermos Sanos Se define:
Prueba diagnóstica Positivo (+) Negativo (-) E + (PV) E- (NF) S+ (PF) S- (NV)
TOTAL E S
Sensibilidad = E + x 100 E
Es la capacidad del método para detectar a los enfermos, mide el porcentaje de enfermos que el método es capaz de detectar
Especificidad = S - x 100 S Es la capacidad del método para identificar a los que no tienen la enfermedad
BIOESTADISTICA
Mide la probabilidad de que una persona que resultó positiva a la prueba, realmente tenga la enfermedad.
Valor predictivo Negativo (VP-) = P(S -) X 100 P(-) Mide la probabilidad de que una persona que resultó negativa a la prueba, realmente esté sana.
Ejemplo 2.21 Se estima que el 1% de la gente de cierto vecindario tiene tuberculosis; una placa de rayos X es usada con la gente para prevenirla de la enfermedad. De experiencias anteriores se sabe que los rayos X tienen una sensibilidad del
BIOESTADISTICA
Valor predictivo Negativo (VP-) = P(S-) X 100 = 0.891 x 100 = 99.99% P(-) 0.8911 Ejercicios 1. Se examina de cáncer a los residentes de una comunidad y los resultados se clasifican de positivos si se sospecha que es maligno, y como negativos si no hay indicios de que sea maligno. Si la sensibilidad del método diagnóstico es del 98% y la especificidad del 85% y si el 5% de la comunidad tiene cáncer, ¿cuál es la probabilidad de que una persona no tenga cáncer si su examen resulta positivo? 2. Se sabe que el análisis de glucosa en sangre en ayuno tiene una sensibilidad y especificidad conocidas de 80% y 96%, respectivamente.
BIOESTADISTICA
2. En la Facultad de Psicología se promueve la titulación de todos los pasantes, se inscriben 5 000 alumnos de los cuales 720 son irregulares, por adeudar 1 materia, 397 no han realizado servicio social, 534 no han acreditado el idioma, 180 , además de no haber realizado su servicio social, adeudan una materia y 70 que también no han realizado el servicio y no han acreditado el idioma. ¿Cuál es la probabilidad de no alcanzar la titulación si se tiene alguno de los problemas anteriores? 3. Seis cartas se extraen de una baraja ordinaria. a) ¿Cuál es la probabilidad de que consten de una pareja (dos ases, o dos cincos, por ejemplo) y 4 cartas que no formen parejas? b) ¿y de que haya dos parejas y dos que no formen pareja? 4. En una fabrica se tienen dos máquinas que producen un determinado
BIOESTADISTICA
caja es 8. ¿cuál es la probabilidad de que la caja contenga exactamente 5 bolas blancas? 6. Una institución ha desarrollado una prueba para la detección de hepatitis, e indica que tiene 98% de sensibilidad y 95% de especificidad. a) Una persona ha sido evaluada con la prueba y dio resultado positivo. Si la prevalencia de la población es del 5% ¿Cuál es el valor predictivo? 7. Un laboratorio desea utilizar esta prueba de detección y para evaluarla aplica la prueba a 80 personas previamente diagnosticadas con hepatitis y a 120 personas sanas, obteniendo los siguientes resultados: Prueba Diagnóstica Persona Total + Con hepatitis 76 4 80 Sana 10 110 120
BIOESTADISTICA
incorrecto es 0.05 y que los errores en dígitos diferentes son independientes uno de otro. ¿cuál es la probabilidad de formar un número incorrecto? 10. En el departamento de fotocopiado de una universidad existen 3 copiadoras que fueron adquiridas, al mismo tiempo, con las mismas características técnicas para una gran demanda de trabajo. Este tipo de copiadora está fuera de servicio un 10% del tiempo de uso (por mantenimiento y reparación). Suponga la posibilidad de que ninguna de las fotocopiadoras, cuando están fuera de servicio, dependa de la condición actual de las otras dos. El funcionamiento de cada una es independiente entre sí. Calcule la probabilidad de que: a) Las tres fotocopiadoras estén fuera de servicio b) Una de las tres esté fuera de servicio.
BIOESTADISTICA
probabilidad de que el estudiante apruebe el examen si para ello debe resolver al menos 3 de los problemas? 13. En un estudio reciente, de 1800 compañías se encontró que 49% de ellas realizan estudios serios sobre la eficiencia de su publicidad, 61% llevan a cabo pronósticos de ventas a corto plazo, 38% de ellas hacen ambas cosas y 64% de las compañías realizan investigaciones sobre sus competidores. Si el realizar investigaciones sobre sus competidores es independiente de la realización de los otros estudios, estime: a) La probabilidad de que una compañía realice estudios sobre la eficiencia de su publicidad, haga investigaciones sobre los competidores pero no lleve a cabo pronósticos de sus ventas a corto plazo. b) La probabilidad de que lleve a cabo los tres tipos de actividad.
BIOESTADISTICA
Suponga que los dispositivos fallan de manera independiente. En la figura se indica la probabilidad de falla de cada dispositivo. Calcule la probabilidad de que el circuito funcione. 16. Para la detección de osteoporosis se cuenta con una prueba diagnóstica que tiene 90% de sensibilidad y 95% de especificidad. a) En cierta comunidad, cuya población femenina mayor de 50 años tiene 25% de prevalencia de osteoporosis. Las mujeres son sometidas a 2 evaluaciones consecutivas con la prueba diagnóstica. Obtenga el valor predictivo para el resultado ++ y el valor predictivo para el r esultado - -. b) Si una persona obtuvo un resultado + y un -, entonces es sometida a una tercera evaluación ¿Cuál es el valor predictivo si el tercer resultado es
BIOESTADISTICA
inaceptable para el almacenamiento de datos. En la parte aceptable del disco, la probabilidad de una lectura exitosa es 0.98. Suponga que las lecturas son independientes. ¿Cuál es la probabilidad de eliminar una parte aceptable del disco y marcarla como inaceptable para el almacenamiento de datos? 19. Se saca 6 cartas sin restitución de una baraja. Calcule la probabilidad de que: a) Las primeras 3 cartas sean reinas y las 3 últimas sean reyes. b) Sólo las tres primeras cartas sean reinas. c) Las tres primeras cartas sean reinas. 20. Suponga que se ha cargado un dado de manera que la probabilidad de que ocurra un número determinado es proporcional al mismo. Se lanza dos
BIOESTADISTICA
a) Las extracciones se hacen sin reposición b) Las extracciones se hacen con reposición. 23. En un partido de voleibol 2 equipos juegan hasta que uno de ellos haya ganado 3 sets. Se supone que el equipo A tiene 0.70 de probabilidad de ganar el primer juego, 0.80 de ganar cualquier juego posterior si gano el anterior y 0.40 si perdió el anterior. ¿Calcular la probabilidad de que el partido termine en 4 sets. 24. Los tiradores A, B y C disparan hacia un blanco y las probabilidades de que cada uno acierte son 0.90, 0.70 y 0.80 respectivamente. ¿Cuál es la probabilidad de que: a) Dos de ellos acierten b) Acierte A, si acertaron al menos 2 de los tiradores
BIOESTADISTICA
tiene 95% de exactitud tanto para los que tienen como para los que no tienen cáncer. Si el 2% de la población tiene cáncer, ¿Cuál es el valor predictivo positivo y cuál el valor predictivo negativo? Interprete. 27. Una empresa de servicios que elabora proyectos de Plan Maestro para infraestructura de agua y desagüe de pueblos y ciudades, garantiza que el 90% de los proyectos que prepara son aceptados por las entidades que dan la buena pro. Suponga que una institución le encarga 5 proyectos. a) ¿Cuál es la probabilidad de que ninguno de los proyectos sea aprobado? b) ¿Cuál es la probabilidad de que al menos dos de los proyectos sean aprobados?
BIOESTADISTICA
Bibliografía del capítulo 1. WAYNE, D. Bioestadística base para el análisis de las ciencias de la salud. Limusa Wiley. Méxio 2004. 2. ELORZA H. Estadística para ciencias del comportamiento. Harla S.A., México. 1987 3. MONTGOMERY, D y RUNGER, G. Probabilidad y Estadística aplicadas a la Ingeniería. McGRAW-HILL. México. 1996 4. MEYER, P. L. Probabilidad y Aplicaciones Estadísticas. Addison-Wesley Iberoamericana S.A., Buenos Aires – Argentina. 1992 5. KAZMIER, L.J. Estadística aplicada a la Administración y Economía. McGRAW-HILL, México. 1996
BIOESTADISTICA
CAPITULO 3. VARIABLES ALEATORIAS Y DISTRIBUCIONES DE PROBABILIDAD 3.1. Variable Aleatoria Una variable aleatoria (v.a.) es una función X cuyo dominio es el espacio muestral (Ω), de un experimento aleatorio, y cuyo rango es un subconjunto no vació de números reales. X :
R w
X ( w )
x
En términos aplicados la v.a. asigna a cada resultado del experimento un número según una característica numérica de los eventos.
BIOESTADISTICA
El rango de una v.a. también es denominado recorrido de la v.a. y se indica por los valores que asigna la v.a. a los resultados del experimento.
Cada valor x real define un evento en el espacio muestral, es decir, [X = x] ⇔ A
wi
/ X ( wi )
por ejemplo [X = 0] ⇔ {sss} [X = 1] ⇔ {css, scs, ssc } [X = 2] ⇔ {ccs, csc, scc } [X = 3] ⇔ {ccc} [X = 5] ⇔ φ
x
BIOESTADISTICA
Distribución de probabilidad de una variable aleatoria discreta (Función de cuantía o Función de probabilidad puntual) La distribución de probabilidad de una v.a. discreta se puede representar con una fórmula, tabla o gráfica que proporciona las probabilidades asociadas a cada valor posible de la variable aleatoria.
f(x) = P[X = x] = P( A
wi
/ X ( wi )
x
)
La función f para que sea función de cuantía debe cumplir con las siguientes restricciones:
1) f(x) 0
2)
x R
f ( x )
f ( x ) 1 x R
BIOESTADISTICA
3) Forma gráfica f(x) 3/8
1/8 0
1
2
3
X
Gráfico 11. Función de cuantía de variable discreta
Variable aleatoria continua Se dice que una v.a. X es continua si puede tomar un número infinito y continuo de valores dentro de un intervalo real, como por ejemplo el tiempo
BIOESTADISTICA
Gráfico 12 Edad de mujeres trabajadoras en el Sector Textil
12
s 10 e r e 8 j u m 6 e d 4 º N 2 0 10 - 19 20 - 29
30 - 39 40 - 49
50 - 59 60 - 69
70 - 79 80 - 89
Edad (años)
Distribución de probabilidad de una variable aleatoria continua (Función de densidad de probabilidad)
BIOESTADISTICA
100 f ( x )
x 2 0
si x
100
si x
100
¿Cuál es la probabilidad de que una lámpara de radio de este tipo pueda durar máximo 150 horas?
Luego deseamos calcular 150
P(X ≤ 150) =
100 x 2
150
x
100
x 2 100
x
100 x
150
100
100
100
150
100
1/ 3
Que representa el área bajo la curva de densidad en el intervalo de 100 a 150
BIOESTADISTICA
1) Si X es v.a. discreta, entonces f ( x )
F(x’0 ) = P(X ≤ x0 ) =
x x 0
2) Si X es v.a. continua, entonces x 0
f ( x ) x
F(x’0 ) = P(X ≤ x0 ) = Ejemplo 3.4.
a) Para la v.a. X: Número de caras observadas al lanzar 3 monedas F(2) = P(X ≤ 2) = P(X = 0) + P(X = 1) + P(X = 2) = 1/8 + 3/8 + 3/8 = 7/8 b) Para la v.a. X: vida en horas de las lámparas de radio de cierto tipo F(150) = P(X ≤ 150) = 1/3 300
100
300
100
100
300
100
100
BIOESTADISTICA
6. P(X > x0) = 1 – P(X ≤ x0) = 1 – F(x0)
3.2. Valor Esperado y Varianza Media o Valor Esperado ( = E(X)) La media o valor esperado de una variable, si existe, es un valor único y nos indica el valor alrededor del cuál toma medida la variable con mayor probabilidad y por lo tanto es el valor que esperamos observar para esta variable aleatoria. 1) Si X es v.a. discreta
E ( X )
x f ( x ) x R x
2) Si X
tinua
E ( X )
f (
)
BIOESTADISTICA
E ( X )
x 100
100 2
x
x
100
1 x
x
ln x 100
100
Es decir la media o valor esperado de la vida de las lámparas de radio de este tipo no está determinada, no existe, puesto que la integral no es convergente.
Varianza y Desviación estándar ( 2 = V(X);
=
V ( X )
)
La varianza y desviación estándar son medias que indican la tendencia de dispersión de la variable aleatoria con respecto a su media. Se calcula como la media o valor esperado de de las desviaciones cuadráticas respecto a la media. 1) Si X es v.a. discreta
BIOESTADISTICA
Ejemplo 3.6. a) Para la v.a. X: Número de caras observadas al lanzar 3 monedas
= 1.5 Obtenemos su varianza 2
E ( X 2 )
2
x 2 f ( x )
2
x R x
= { 02 (1/8) + 12 (3/8) + 22 (3/8) + 32 (1/8) } - (1.5)2 = 24/8 – 2.25 = 0.75 2
= 0.87
Valor Esperado de una función de variable aleatoria Si X es v.a. con f(x) función de cuantía o función de densidad de probabilidad y
BIOESTADISTICA
2. Si X e Y son v.a., entonces a) E(a X + b Y) = a E(X) + b E(Y) b) V(a X + b Y) = a2 V(X) + b2 V(Y) +2ab Cov(X,Y) Si X e Y son independientes Cov(X,Y) = 0, entonces V(a X + b Y) = a2 V(X) + b2 V(Y)
Práctica domiciliaria 4
1. Sea
f(x) = (3/4) (1/4)x ,
x = 0, 1, 2, .......
a) ¿Cuál es el valor de P(X = 2)?
BIOESTADISTICA
3. En cierta ciudad, el consumo diario de energía eléctrica (en millones de kilowatt-hora) puede considerarse como una variable aleatoria que tiene la siguiente densidad de probabilidad f(x) =
x2 e-x/2 16
; si x > 0
y f(x) = 0 ; para otro valor de x
a) Obtenga el promedio y desviación estándar del consumo de energía eléctrica para esta ciudad. b) Si la planta de energía de esa ciudad tiene una capacidad diaria de 12 millones de kilowatt-hora, ¿cuál es la probabilidad de que este abastecimiento de energía sea inadecuado un día cualquiera 4. En cierto juego se lanzan tres dados y un jugador apuesta sobre la salida
BIOESTADISTICA
repeticiones son independientes, ¿Cuál es el costo esperado de la operación completa? 7. Se sabe que un lote contiene 2 artículos defectuosos y 8 no defectuosos. Si estos artículos se inspeccionan al azar, uno después de otro, ¿cuál es el número esperado de artículos que se deben escoger para inspección a fin de sacar todos los defectuosos? 8. La escala electrónica de un proceso de llenado automático detiene la línea de producción después de haber detectado tres paquetes con un peso menor que el especificado. Suponga que la probabilidad de llenar un paquete con un peso menor es 0.001 y que cada operación de llenado es independiente. a) ¿Cuál es el número promedio de operaciones de llenado antes de que se
BIOESTADISTICA
b) ¿Cuál es la varianza del número de transacciones previas a la falla de todas las computadoras? 10.En cierto servicio telefónico, la probabilidad de que una llamada sea contestada en menos de 30 segundos es 0.75. Suponga que las llamadas son independientes. a) ¿Cuál es la probabilidad de tener que llamar cuatro veces para obtener la primera respuesta en menos de 30 segundos? b) Hallar la función de cuantía del número de llamadas que es necesario realizar para obtener la primera respuesta en menos de 30 segundos. c) Calcular la probabilidad de que el número de llamadas sea superior a 3 11.El espesor de un recubrimiento conductor, en micrómetros ( µm), tiene una función de densidad f(x) = 600 /x2 para 100 m < x < 120
0
otro
BIOESTADISTICA
a) Calcular la probabilidad de obtener 4 puntos al realizar un disparo. b) Describir el espacio muestral para los puntajes observados luego de realizar 2 disparos. c) Calcular la probabilidad de obtener un total de 4 puntos al realizar 2 disparos. d) Si Y es el puntaje total obtenido al realizar dos disparos, obtener el valor esperado de Y. 13.Suponiendo que D la demanda diaria de un artículo, es una variable aleatoria con la siguiente distribución de probabilidad:
P(D=d) = k 2d , d!
para d= 1,2,3,4
BIOESTADISTICA
3.3. DISTRIBUCIONES DE VARIABLES DISCRETAS 3.3.1. DISTRIBUCION DE BERNOULLI El experimento de Bernoulli se caracteriza por tener dos posibles resultados a los que usualmente se denominan “éxito” y “fracaso”, por ejemplo - Al lanzar una moneda resulta cara o sello. - Al lanzar dos dados y observar si la suma de puntos es 7 o diferente de 7 - Al observar la reacción de un paciente a un tratamiento este puede mejorar o no mejorar - Un paciente examinado puede tener fiebre o no tenerla. - Un producto puede ser defectuoso o no defectuoso - A la exposición a un contaminante los individuos pueden desarrollar cierta enfermedad o no desarrollarla
BIOESTADISTICA
3.3.2. DISTRIBUCION BINOMIAL Sea un proceso que consiste en observar n “pruebas” independientes de Bernoulli, es decir, que pueden tener 2 posibles resultados denominados éxito y fracaso, tales que para cada prueba se considera que
P(éxito) = P ; P(fracaso) = 1 – P = Q Luego la variable aleatoria definida como
X: Número de éxitos en las n pruebas independientes x: 0, 1, 2, ..., n (valores que puede asumir x)
Se denomina variable binomial y la función de cuantía esta dada por el modelo:
BIOESTADISTICA
b) Si al examen se presentaran 200 estudiantes, con este mismo patrón de respuesta ¿cuál es el número esperado de aprobados, si para aprobar debe contestar de manera más de 10 preguntas? Si un estudiante elige al azar las respuestas, entonces Para cada pregunta la respuesta es correcta (RC) o incorrecta (RI) con probabilidades: P(RC) = 1/5 = 0.20
P(RI) = 0.80
Y si X: Número de respuestas correctas entre las 25 preguntas del examen Luego X es binomial ya que cuenta el número de éxitos en n pruebas independientes
BIOESTADISTICA
Como los estudiantes son independientes unos de otros al escoger las respuestas, entonces la variable
Y: Número de estudiantes que aprueben el examen entre los 200 que lo
rindan
Es Binomial con n= 200 y P= 0.0056 Por lo tanto E(Y) = nP = 200x0.0056 =1.12 Se espera que sólo uno de los 200 estudiantes apruebe el examen si responde al azar adivinando las respuestas.
Ejercicio
BIOESTADISTICA
3.3.3. DISTRIBUCION HIPERGEOMÉTRICA El experimento consiste en extraer una muestra aleatoria de n elementos sin reposición, de un conjunto que contiene N elementos los cuales se clasifican en dos categorías A y Ac, siendo T el número de elementos de clase A y ( N -T) el número de elementos de clase A c
N
Población A
T
Ac
N –T
P=T N Proporción de elementos A en la población
BIOESTADISTICA
T
N T
x
n x N
f ( x )
x : 0, 1, 2, ..., n si n
T y n N T
n
0 para otro valor x
Media y Varianza E ( X ) n
T N
nP ;
2
n
T
N T
N n
N
N
N 1
nP (1 P )
N n N 1
Ejemplo 3.8 Mecanismos de dirección defectuosos han sido montados por error en 3 de un grupo de 9 misiles. No se sabe que misiles tienen los mecanismos defectuosos.
BIOESTADISTICA
Ejercicio Ciertos componentes para ensamble se envían en lotes de 25 unidades, para la aceptación de un lote se seleccionan 3 componentes al azar y si ninguno de ellos tiene defectos se acepta el lote. ¿Cuál es la probabilidad de que se acepte el lote si contiene: a) cinco defectuosos? b) Dos defectuosos?
Aproximación de la Distribución Hipergeométrica a la binomial Si el muestreo es sin reposición, tenemos que el comportamiento probabilístico de X se aproxima al modelo Binomial cuando la población es grande (es decir N grande)
BIOESTADISTICA
Ejemplo 3.9 De un lote de 200 unidades de las cuales 10 son defectuosas se obtiene una muestra aleatoria de tamaño 4. Halle la probabilidad de que esta contenga un artículo defectuoso.
Podemos definir la variable
X: Número de artículos defectuosos en la muestra entonces
X
tiene distribución hipergeomética, pero se cumplen las
condiciones para aproximar a l binomial con n = 4 y P = 10/200 = 0.05, pues la fracción de muestreo n
4
N
200
0.02
0.10
BIOESTADISTICA
3.3.4. DISTRIBUCIÓN DE POISSON Este modelo es considerado cuando la medición es el resultado de observar la ocurrencia de un “evento” o “hecho” por unidad especificada de tiempo, longitud, superficie o volumen, es decir,
X: Número de “hechos” por unidad especificada Donde X: 0, 1, 2, ..... entonces, x
f ( x ) P ( X x )
e
x !
;
;
2
es el número promedio o esperado de “hechos”por unidad especificada.
BIOESTADISTICA
Se conoce que λ = 0,4 averías /semana. Se desea calcular P(La computadora trabaje sin averías 2 semanas consecutivas) = P(X= 0) Entonces definimos X: Número de averías en la computadora cada dos semanas con λ = 0,8 averías / 2 semanas P ( X
0)
e
0.8
0,8 0 0!
0,449
Ejercicio Si el número promedio de accidentes graves por año en una fábrica grande es de cinco, encuentre la probabilidad de que en el año en curso:
BIOESTADISTICA
P( X = x ) Binomial (n,p)
P( X = x ) Poisson (λ = np)
Es decir :
lim
n x
x
P x (1 P ) n
x
e
x !
, haciendo λ = nP
Ejemplo 3.11. El 3% de las personas que reciben un tratamiento para cierta enfermedad no se recuperan. Si 180 pacientes con ésta enfermedad están recibiendo el tratamiento, ¿cuál es la probabilidad de que: a) Más de 10 no se recuperen
BIOESTADISTICA
Ejercicio Una compañía de seguros halla que el 0.005% de la población fallecía cada año debido a cierto tipo de accidente, ¿cuál es la probabilidad de que tenga que pagar a más de 3 de 10 000 asegurados contra tales accidentes en un año?
3.4. DISTRIBUCIONES DE VARIABLES CONTINUAS 3.4.1. Distribución Exponencial Si X es v.a. continua con función de densidad de probabilidad (fdp) f ( x )
e
x
; si x 0
0 para otro valor x
;
con
0
BIOESTADISTICA
Ejemplo 3.14. Sea la v.a. X: nº de llamadas que recibe una central telefónica en una hora, Con λ = 20 llamadas/hora Es decir esperamos que en cada hora la central telefónica reciba alrededor de 20 llamadas.
Luego la variable T: El tiempo transcurrido entre 2 llamadas consecutiva tiene distribución exponencial con λ = 20
BIOESTADISTICA
3.4.2. DISTRIBUCIÓN NORMAL Dada una variable aleatoria X con función de densidad de probabilidad 1 x
f ( x )
e
2
2
2
;
x
decimos que X tiene distribución normal de media = µ y varianza = σ2 Escribimos:
X es N(µ, σ2)
Características 1. La distribución es simétrica respecto a su media µ
Es decir P( X < - k ) = P( X > + k )
BIOESTADISTICA
3. La distribución es asintótica respecto al eje de abscisas P( -
< X < + ) = 0.683
68%
x
P( - 2 < X < + 2 ) = 0.9545
+
BIOESTADISTICA
Propiedades 1. Si X es N(µx, σx2), entonces Y = a + b X es normal Con
µy = a + b µx y
σ2y = b2 σx
2. Si X1, X2, ...Xn son n variables independientes cada una con distribución normal N(µi, σi2), entonces Y = a1 X1 + a2 X2 + ...... + an Xn Con
es normal
µy = a1 µ1 + a2 µ2 + ..... + an µn σ2y = a12 σ12 + a22 σ22 + .... + an2 σn2 2
BIOESTADISTICA
Uso de la tabla de la normal estándar
P( Z z )
Z z 1)
0
P(Z < -1.5) = 0.06681
6.7%
-1.5
Z
BIOESTADISTICA
4) P(Z > 1.5) = P(Z < -1.5) = 0.06681
6.7%
6.7%
-1.5
1.5
Z
Ejemplo 3.15 1. En la realización de una prueba los alumnos tardan en promedio 2,1 minutos en examinar y comprender cada pregunta. Suponga que el tiempo que se tardan se distribuye en forma normal y que la desviación estándar es de 0,6 minutos. a) ¿Qué porcentaje de los alumnos tardan entre 2,45 y 3,55 minutos?
BIOESTADISTICA
Luego el 27,3% de los alumnos tardan entre 2,45 y 3,55 minutos.
b) El tema consiste de 5 preguntas, entonces el tiempo para la comprensión del tema será la suma de tiempos para la comprensión de cada pregunta, así
Y: Tiempo para la comprensión del tema
Y = X1 + X2 + X3 + X4 + X5 Donde Xi es el tiempo para lo comprensión de la pregunta i, el cual es independiente del tiempo utilizado para la comprensión de las otras preguntas. Por propiedad del modelo normal, entonces
BIOESTADISTICA
c) El tiempo que necesita para la comprensión del tema el 10% más hábil y el 10% menos hábil implica obtener las cuantilas del 10% y del 90%, para lo cual obtenemos de las tablas las cuantilas de la normal estándar y luego despejamos las cuantilas de la variable X
80% 10%
X0.10 Z0.10 = -1.28
10%
10.5
X0.90 Z0.90 = 1.28
X
BIOESTADISTICA
cumplirse la garantía. ¿cuánto tiempo debe dar de garantía de modo que no más del 5% de las pilas fallen antes de este tiempo?
APROXIMACIÓN DE LA DISTRIBUCIÓN BINOMIAL A LA DISTRIBUCIÓN NORMAL Dada una variable X con distribución Binomial (n,p), donde p = 0.50. Se cumple que las probabilidades de valores de X son simétricas para valores alrededor de su media µ = np
Ejemplo: consideremos las funciones de cuantía para p =0,50 .375 .375
.375
BIOESTADISTICA
binomiales se pueden calcular de manera aproximada utilizando el modelo normal con media
P( X = xo ) Binomial
P( X ≤ xo ) Binomial
P( X ≥ xo )
= np y
2
= np(1- p), de la siguiente manera:
P[ xo – 0,5 < X < xo + 0,5] Normal
P[ X < xo + 0,5] Normal
P[ X > xo - 0,5]
factor de corrección de continuidad
BIOESTADISTICA
b) ¿Cuál sería la probabilidad en a) si se elige una muestra de 40 trabajadores para ser evaluados por el servicio de salud?
Sea
X: Número de trabajadores en la muestra que ha desarrollado la neumoconiosis. Como
n = 16 N = 500 la fracción de muestreo n/N = 0.032 < 0.10
La distribución de X se aproxima a la Binomial con n = 16 P = 0.15
Se desea calcular P(A lo más el 25% de la muestra haya desarrollado neumoconiosis) = P(X ≤ 4) = 0.921 Esto es, se tiene 92% de probabilidad de que entre los 16 trabajadores
BIOESTADISTICA
P ( X 10) P ( X
10.5) P ( Z
10.5 2.26
6
) P ( Z
1.99)
0.9767
Esto es, se tiene 97% de probabilidad de que entre los 40 trabajadores elegidos a lo más 10 hayan desarrollado la enfermedad.
Ejercicio En cierto país en vías de desarrollo, el 30% de los niños está desnutrido. En una muestra al azar de 80 niños de esta área, cuál es la probabilidad de que el número de niños desnutridos sea a) exactamente de 32? b) menor de 20? c) De 20 o más?
BIOESTADISTICA
d) Calcule la dimensión de un intervalo de tiempo, de modo tal que la probabilidad de recibir al menos una llamada en ese lapso sea 0.90. 2. Un cargamento de 120 alarmas contra robo contiene 20 defectuosas. a) Si 25 de ellas son seleccionadas aleatoriamente y embarcadas por un cliente, encuentre la probabilidad de que al cliente le toque 2 defectuosas. b) Si 5 de ellas son seleccionadas aleatoriamente y embarcadas por un cliente, encuentre la probabilidad de que al cliente le toque 2 defectuosas. 3. En un astillero el personal de servicio técnico para reparaciones recibe en promedio 3 pedidos de atención por jornada de trabajo. Cada pedido es atendido por un técnico.
Si el servicio cuenta con 5 técnicos ¿cuál es la
BIOESTADISTICA
b) ¿Cuál es la probabilidad de encontrar las dos que fallan si se inspeccionan cuatro de ellas? c) ¿cuántas lámparas se deben inspeccionar para tener un 70% de probabilidad de encontrar las dos lámparas defectuosas? 6. Se ha encontrado que el número de fallas de transistores en un computador electrónico en cualquier periodo de una hora ocurre a un promedio de una falla de un transistor cada 10 horas. Se inicia cierto proceso que necesita 20 horas de tiempo de cómputo, en un computador que utiliza 8 transistores. Encontrar la probabilidad de que el proceso anterior pueda completarse exitosamente sin una falla. (Se supone que la máquina se considera inoperante sólo si fallan 3 o más transistores.) 7. Una compañía alquila tiempo en computadora por periodo de t horas por lo
BIOESTADISTICA
9. Una fábrica elabora artículos que necesitan de cierto componente que es adquirido de un proveedor. De los componentes en almacén, usualmente el 5% es defectuoso. a) Si el fabricante tiene 25 componentes en su almacén ¿Cuál es la probabilidad de que pueda surtir un pedido de 22 artículos, sin tener que pedir mas componentes? b) Sí el fabricante tiene 108 componentes en su almacén ¿Cuál es la probabilidad de que pueda surtir un pedido de 100 artículos, sin tener que pedir mas componentes? c) Si el porcentaje de componentes defectuosos fuera de 8%, ¿cuál es la probabilidad de que pueda surtir un pedido de 70 artículos, si cuenta con 80 componentes en almacén?
BIOESTADISTICA
d) Se encuentren exactamente cinco. 12. Suponga
que el número de errores en una superficie de grabación
magnética ocurre a una tasa un defecto por cada 10 5 bits. Un sector de datos está formado por 4096 bytes (un byte = 8 bits). a) ¿Cuál es la probabilidad de que el sector tenga más de un error? b) ¿Cuál es la probabilidad de que de 8 sectores utilizados, máximo 2 sectores tengan exactamente un error? 13. Los mensajes a una computadora utilizada como servidor lo hacen con una tasa promedio de 10 mensajes por hora. a) Determine el intervalo de tiempo necesario para que la probabilidad de que no llegue ningún mensaje durante ese lapso de tiempo sea 0,90. b) ¿Cuál es la probabilidad de que se reciba un mínimo de 15 mensajes
BIOESTADISTICA
¿Cuál es la media y la desviación estándar del tiempo de incapacidad mensual para los empleados de la compañía? 16. En un estudio realizado en la ciudad de Lima se concluyó, que el consumo diario de agua por vivienda tiene distribución normal con µ = 120 galones y
σ = 18 galones. a) ¿Qué porcentaje de viviendas tiene consumo mínimo de 100 galones diarios? b) Obtener la cantidad de agua que se consume como máximo en el 95% de las viviendas. 17. Un fabricante de productos electrónicos espera que el 2% de las unidades fallen durante el periodo de garantía. a) Se hace un seguimiento de 18 unidades para determinar su desempeño
BIOESTADISTICA
c) Si un distribuidor ha recibido un lote de 20 lavadoras, ¿cuál es la probabilidad de que tenga que pedir a la fábrica el reemplazo de a lo más 2 lavadoras? d) Si la fábrica despacha un cargamento de 150 lavadoras, ¿cuál es la probabilidad de que tenga que reemplazar al menos 8 lavadoras? 19. Las remesas de ciertos productos son aprobadas si en una muestra aleatoria de la misma el porcentaje de defectuosos es de hasta un 5%. a) Se ha recibido una remesa de 50 productos, en la cual se tiene 10% de defectuosos, ¿cuál es la probabilidad de que se acepte la remesa si se extrae una muestra de 20 productos? b) Si la remesa recibida es de 500 unidades con 8% de productos defectuosos, ¿cuál es la probabilidad de que se rechace la remesa si se
BIOESTADISTICA
21. En una gran planta manufacturera, los accidentes industriales serios ocurren en forma aleatoria a razón de 1 por cada 10 días laborables. a) Calcule la probabilidad de que no ocurra más de un accidente serio en la planta durante los próximos 30 días laborables. b) ¿Cuál es la probabilidad de que sólo en 3 de 40 meses, el registro de accidentes haya superado a 4 accidentes por mes? 22. Un proceso de fabricación de tubos electrónicos produce diariamente 1500 tubos, de los cuales el 4% son defectuosos. a) Si se elige una muestra de 20 tubos ¿cuál es la probabilidad de que más del 10% de los tubos sean defectuosos? b) Si se elige una muestra de 120 tubos, ¿cuál es la probabilidad de que máximo 7.5% de la muestra sea defectuosa?
BIOESTADISTICA
decide analizar el contenido de 5 frascos. Suponga que 6 de los 24 frascos tienen cantidad deficiente de antibiótico. Obtenga la probabilidad de que a lo más 2 de los frascos analizados tenga una cantidad deficiente de antibiótico. 25. Se considera que un proceso de producción está bajo control estadístico si la porción defectuosa de la producción es menor o igual a 0.10. Para determinar si el proceso está fuera de control, se han sugerido dos planes: I.
Se juzga el proceso como fuera de control si se encuentran dos o más unidades defectuosas en una muestra de 25
II.
Se juzga que el proceso está fuera de control si se encuentran dos o más unidades defectuosas en una muestra de 10
Evalué la eficiencia de estos dos planes con respecto a descubrir un proceso
BIOESTADISTICA
probabilidad de que, entre 84 accidentes industriales, de 20 a 30 se deban a esta causa. 28. Se envía un técnico para hacer la instalación de un sistema de comunicación especializado a una ciudad, sólo si se han recibido tres o más pedidos. Suponga que los pedidos tienen una distribución de Poisson con media 0.25 por semana para una ciudad de 100 000 habitantes. a) ¿Cuál es la probabilidad de que sea enviado el técnico después de un periodo de 4 semanas? b) Suponga que se hacen pedidos de una ciudad que tiene 800 000 habitantes, ¿cuál es la probabilidad de que el técnico sea enviado después de un periodo de una semana? 29. La duración de un láser semiconductor a potencia constante tiene una
BIOESTADISTICA
a) ¿Cuál es la probabilidad de que el regulador de voltaje falle en el lapso de 6 años? b) Si el regulador falla después de 3 años de haber efectuado la compra del automóvil y se remplaza, ¿cuál es el tiempo promedio que transcurriría hasta que el regulador vuelva a fallar? 31. Supóngase que durante un período de varios años el número promedio de muertes debidas a cierta enfermedad no contagiosa ha sido de diez. Si el número de muertes debidas a esta enfermedad sigue la distribución de Poisson, ¿cuál es la probabilidad de que durante el año que transcurre? a) Mueran exactamente siete personas debido a la enfermedad? b) Mueran diez o más personas debido a la enfermedad? c) Nadie muera debido a la enfermedad?
BIOESTADISTICA
2. Teorema del límite Central Sean x1, x2, …., xn una sucesión de variables aleatorias independientes tales que tienen la misma distribución f(x), entonces la variable
X = xi tiene distribución que se aproxima al modelo normal conforme n crece x =
2
E(xi)
Luego Z
x =
X
x
V(xi)
N (0,1) conforme n
x
Para esta aproximación se asume n grande si n ≥ 30
BIOESTADISTICA
Propiedades a) Si Z es normal N(0, 1) , entonces
Z2 tiene distribución Ji-Cuadrado
Z2
con un grado de libertad, y denotamos
es
2
(1)
b) Si X es normal N(µ, σ2) , entonces 2
Z
2
X
c) Si Y1, Y2, …., Yk
es
2 (1)
son variables aleatorias independientes cada una con
distribución Ji- Cuadrado con k i grados de libertad entonces la variable aleatoria n
X
2 1
Y
2 2
Y
....
2 n
Y
es
2 ( r )
donde r
k i
BIOESTADISTICA
Dada la probabilidad p = 0.90, ubicamos la cuantila X 0.90 = 18.5
0.90
0
X2(12)
18.5
4. Distribución t-Student
f ( x )
( k 1) / 2
.
1
k ( k / 2) ( x / k )
E ( X ) 0 ;
2
V ( X )
2
k k 2
1
( k 1) / 2
para k
,
2
para
x
BIOESTADISTICA
Uso de tablas Sea la v.a. t-Student con k = 12 , entonces P(t(12) 1.782) = 0.90
0.90 t(12) 0
1.782
Dada la probabilidad p = 0.99, ubicamos la cuantila t 0.99 = 2.681
0.98 0.01
0.01
BIOESTADISTICA
Decimos que X tiene distribución F con grados de libertad (u,v) y denotamos: X es F(u,v)
Propiedad Sean W y Y variables aleatorias Ji-Cuadrada con grados de libertad, u y v, respectivamente, entonces el cociente
F
W / u Y / v
es F ( u , v )
Uso de tablas Sea la
v.a. F(3,5) , entonces
P(F(3,5) 0.415) = 0.25
BIOESTADISTICA
CAPITULO 4. DISTRIBUCIONES DEL MUESTREO Población: Es el conjunto de elementos para los cuales deseamos estudiar algunas de sus características.
Muestra. Es una parte o subconjunto de la población
Muestra aleatoria. Es una muestra elegida de manera que no esté influencia por la subjetividad del investigador.
Muestreo aleatorio simple. Consiste en elegir la muestra de manera que cada elemento de la muestra tiene la misma probabilidad de pertenecer a la muestra y cada posible muestra tiene la misma probabilidad de ser elegida. Con este
BIOESTADISTICA
4.1. Variables del muestreo El proceso de selección de muestras es un experimento aleatorio con el cual se genera un espacio muestral constituido por todas las posibles muestras que se pueden formar con los elementos de la población.
( x 1 ,..., x n ) 1 , ( x 1 ,..., x n ) 2 ,....( x 1 ,...., x n ) k En este espacio muestral se definen las variables aleatorias
Variable cuantitativa x
X i n
Media muestral
2
BIOESTADISTICA
Xi : El elemento i - ésimo de la muestra Xi tiene la misma distribución que la población, es decir, f(xi) = f(x) , E(Xi) = E(X) = µ ,
V(Xi) = V(X) = σ2
2) Muestra aleatoria. Si X es una población con distribución f(x), media = µ , varianza = σ2, se define como muestra aleatoria de la población X al conjunto de variables (X 1, X2, . . . , Xn) tales que son independientes entre si y tienen la misma distribución que la población.
4.2. DISTRIBUCIÓN DE LA MEDIA MUESTRAL Sea la población formada por las edades de 5 niños
BIOESTADISTICA
a) Muestreo con reposición: Tabla 4. Relación de muestras posibles para muestreo con reposición Muestra
Elementos
Media muestral
Muestra
Elementos
Media muestral
1
(x1 , x1)=(2,2)
2
14
(x3 , x4)=(6,8)
7
2
(x1 , x2)=(2,4)
3
15
(x3 , x5)=(6,10)
8
3
(x1 , x3)=(2,6)
4
16
(x4 , x1)=(8,2)
5
4
(x1 , x4)=(2,8)
5
17
(x4 , x2)=(8,4)
6
5
(x1 ,x5)=(2,10)
6
18
(x4 , x3)=(8,6)
7
6
(x2 , x1)=(4,2)
3
19
(x4 , x4)=(8,8)
8
7
(x2 , x2)=(4,4)
4
20
(x4 , x5)=(8,10)
9
8
(x2 , x3)=(4,6)
5
21
(x5 , x1)=(10,2)
6
9
(x2 , x4)=(4,8)
6
22
(x5 , x2)=(10,4)
7
10
x
x = 4 10
7
23
(x5 , x3)=(10,6)
8
11
(x
)=(6,2)
4
24
(x
9
)=(10,8)
BIOESTADISTICA
b) MUESTREO SIN REPOSICIÓN: Tabla 5. Relación de muestras posibles para muestreo sin reposición
Muestra
Elementos
Media muestral
1
(x1, x2)=(2,4)
3
2
(x1, x3)=(2,6)
4
3
(x1, x4)=(2,8)
5
4
(x1, x5)=(2,10)
6
5
(x2, x3)=(4,6)
5
6
(x2, x4)=(4,8)
6
7
(x2, x5)=(4,10)
7
BIOESTADISTICA
Gráfico 14 Distribución Distribución de las edades edade s de los niños (Población) 1,2
s o 1 ñ i n 0,8 e d 0,6 o r e 0,4 m ú 0,2 N
0 2
4
6
8
Edad (años)
Gráfico 15 Distribución de la media muestral (Muestreo con reposición) s 6 a r t s 5 e
10
BIOESTADISTICA
Distribución de la media muestral (Resumen) Dada una población con con media = µ
. Al tomar muestras de y varianza = σ2 Al
tamaño “n” a) La media muestral x tiene distribución Normal con
Media
x
2
Varianza
2 x
n Para todo tamaño de n, si la población es normal o para n grande si la población no es normal, pero es infinita (n/N ≤ 0.10) b) La media muestral x tiene distribución Normal con Media
x
BIOESTADISTICA
Ejemplo 4.1 1) Se ha encontrado que después después de un periodo de entrenamiento, entrenamiento, el tiempo medio que requieren ciertas personas impedidas para realizar una tarea particular es de 25 segundos con una desviación estándar de 5 segundos. Suponiendo distribución normal para los tiempos, encuentre la probabilidad de que una muestra de 25 personas proporcione una media: a) De 26 segundos o más b) Entre 24 y 27 segundos c) Mayor de 22 22 segundos. segundos.
Sea X: Tiempo requerido para ejecutar una tarea tarea particular personas rehabilitadas
BIOESTADISTICA
b) P ( 24 x 27) = P(-1 < Z < 2)
0.81859 x
24
25
Z = -1
27 Z=2
c) P ( x 22) = P(Z - 3) = 0.99865
0.99865 x
BIOESTADISTICA
2) Para cierto sector grande de una población, en un año determinado, supóngase que el número medio de días de incapacidad es de 5.4 con una desviación estándar de 2.8 días. Encuentre la probabilidad de que una muestra al azar de tamaño 49 de dicha población tenga una media: a) Mayor de 6 días. b) Entre 4 y 6 días. c) Entre 4 ½ y 5 ½ días.
4.3. Distribución de la varianza muestral Dada una población con media = µ tamaño “n”
2 y varianza = σ . Al tomar muestras de
BIOESTADISTICA
Ejemplo 4.2 Para el ejemplo 4.1, previo, calcular la probabilidad de que la desviación estándar de la muestra sea mayor de 6 segundos
Como la distribución de los tiempos para la ejecución de la tarea es normal con media µ = 25 seg
y σ = 5 seg
Entonces para una muestra de tamaño n = 25 , tenemos que 2
X =
Así
( n 1) S 2 2
es χ2(24)
P(S 6) = P(
( n 1) S 2 2
( 24) 6 2 5
2
) = P (χ2(24) 34.56) = 0.079
BIOESTADISTICA
4.4. DISTRIBUCION DE LA PROPORCION MUESTRAL
Población
N Ac
A
T
N –T
P=T N Proporción de elementos A en la población
Muestra
n A
x
Ac
n-x
p=x n Proporción de elementos A en la muestra
BIOESTADISTICA
Como p = X/n, entonces
p
= E(P) = E(X)/n = nP/n = P
2 p =
y
V(X) = V(X)/n² = P(1-P) (N-n) n (N-1)
Estos resultados nos llevan a resumir que
p
P
y
2
P (1 P ) N n
n
N 1
Es decir el promedio de la proporción muestral p es la proporción poblacional
P y su varianza está en función del tamaño de muestra (n), de la proporción
BIOESTADISTICA
Para muestras grandes (n ≥ 30) la distribución de la proporción muestral es aproximadamente normal
p
P Para poblaciones finitas p es normal con
p
P
y
2
P (1 P ) N n
n
N 1
BIOESTADISTICA
Solución: n= 100 muestra grande, aproximamos a la normal con
µp = 0. 15;
σp = 0.0357
a) P(p ≥ 0.20) = P(Z ≥ (0.20-0.15)/0.0357) = P(Z ≥ 1.4) = 0.08076 b) P(0.10 < p < 0.20) = P(-1.4 < Z < 1.4) = 0.83848 c) P(p ≤ 0.12) = P(Z ≤ -0.84) = 0.20045 Ejemplo 4.4 En cierta ciudad se observa que el 20% de las familias tienen por lo menos un miembro que sufre de algún malestar debido a la contaminación atmosférica. En una muestra al azar de 150 familias se obtuvo p = 0.27. Si el valor del 20% es correcto, ¿cuál es la probabilidad de obtener una proporción de 0.27 o más?
BIOESTADISTICA
PRACTICA DOMICILIARIA 6
1. Un diario local afirma que el 40% de las familias de la ciudad de Lima se encuentra en situación de extrema pobreza (ingreso familiar máximo de S /. 500 mensuales) y que sólo el 1% de las familias percibe un ingreso mensual superior a los S/. 3000 mensuales. Asumiendo distribución normal. a) ¿Cuáles son el promedio y la desviación estándar del ingreso mensual por familia? b) ¿Qué porcentaje de familias se encuentran en situación de pobreza (ingreso familiar máximo S/. 1000 mensuales) c) Al tomar una muestra de 40 familias calcule la probabilidad de que: i) el ingreso promedio sea inferior a S/. 1000,
BIOESTADISTICA
3. Se supone que el número de un tipo particular de bacteria en un mililitro de agua potable, se distribuye normalmente con media de 115 y desviación estándar de 20. a) Calcule la probabilidad de que en un mililitro de agua obtenida a partir de una muestra aleatoria, contenga más de 150 bacterias? b) Se tomaron 80 muestras de un mililitro de agua, ¿Cuál será la probabilidad que el promedio de bacterias por muestra sea mayor a 120? 4. El volumen que una máquina de llenado automático deposita en latas de una bebida gaseosa tiene una distribución normal con media 12,4 onzas de líquido y una desviación estándar de 0,1 onzas de líquido. a) Si se desechan todas las latas que tienen menos de 12,1 o más de 12,6 onzas de líquido, ¿cuál es la proporción de latas desechadas?
BIOESTADISTICA
b) El fabricante garantiza que reemplazará gratis cualquier neumático cuya duración sea inferior a x. determínese el valor de x de modo que tenga que reemplazar sólo el 1% de los neumáticos. c) Si un cliente adquiere 25 neumáticos ¿cuál es la probabilidad de que la duración promedio de sus neumáticos supere los 85,000 km? 6. Un fabricante de bombas de pozo profundo asegura que a lo sumo el 30% de sus bombas requieren reparación en los primeros 5 años de operación. a) Si lo afirmado es verdad ¿Cuál es la probabilidad de que en una muestra de 50 bombas, a lo más 20 requieran reparación?. b) ¿Cuál debe ser el tamaño de muestra si se desea tener una probabilidad del 90% de que la proporción de la muestra diferirá a lo más en 2% con respecto a lo afirmado por el fabricante?
BIOESTADISTICA
probabilidad de que a lo más el 25% de los trabajadores, de la muestra, haya desarrollado neumoconiosis? La planta tiene 500 trabajadores. b) ¿Cuál es la probabilidad en a) si se elige una muestra de 40 trabajadores para ser evaluados por el servicio de salud? 9. Para decidir acerca de un proyecto de remodelación de un sector de una ciudad, el Municipio decide seleccionar una muestra de viviendas de este sector y si el 40%
o más están
en mal estado se procederá a la
remodelación en caso contrario esta remodelación no se hará. ¿Cuál es la probabilidad de que se haga la remodelación si: a) El sector tiene 50 viviendas de las cuales el 20% está en mal estado y se elige una muestra de 10 viviendas. b) El sector tiene 500 viviendas de las cuales el 60% está en mal estado y
BIOESTADISTICA
es la probabilidad de que menos de 55 trabajadores en la muestra haya desarrollado asbestosis? 12. Una red de televisión pretende que su película del lunes por la tarde tenga regularmente el 36% del total de espectadores. Si esto es cierto, ¿cuál es la probabilidad de que entre 400 espectadores llamados por teléfono en t ardes de los lunes estén mirando dicha película más de 30%?. 13. De los alumnos de una universidad, el 40% fuma. a) Se elige una muestra de 6 para conocer sus opiniones sobre el cigarro. Encuentre la probabilidad de que: i)ninguno de ellos fume, ii) a lo más dos fumen. b) Si se elige una muestra de 50 encuentre la probabilidad de que: i) Por lo menos la mitad de los 50 fume, ii) Sólo 15 fumen.
BIOESTADISTICA
5. MASON, R, LIND, D y MARCHAL, W. Estadística para Administración y Economía. 10ª Edición, Alfaomega. Mexico 2003.
CAPITULO 5. ESTIMACIÓN Proceso mediante el cual usando datos de una muestra se obtienen medidas aproximadas de los parámetros poblacionales.
Estimación puntual Consiste en proporcionar un único valor como aproximación del parámetro.
Estimación interválica Consiste en proporcionar un intervalo para el cual se tiene una probabilidad, llamada confianza, de que el valor del parámetro está incluido en él.
5.1. Estimación Puntual
BIOESTADISTICA
^
Diferencia de medias:
1-
2
1
2
x 1
x 2
p1
p2
^
Diferencia de proporciones: P1 - P2 5.2. Estimación interválica
P 1
P 2
Para una estimación interválica, usamos los datos de la muestra para obtener los límites del intervalo de manera que tengamos una probabilidad (1- α) de que el intervalo contiene al parámetro poblacional, así por ejemplo Sabemos que la media muestral toma valores alrededor de la media poblacional.
95%
BIOESTADISTICA
BIOESTADISTICA
5.2.1. Estimación interválica para la media poblacional ( ) A) Si la varianza poblacional (σ2) es conocida Para todo tamaño de muestra de población normal o Para muestra grande (n ≥ 30) de cualquier población
L x Z 1
/2
n
donde Z1-α/2 es la cuantila 1-α/2 de la normal estándar. B) Si la varianza poblacional poblacional (σ2) es desconocida Para muestras grandes
S
BIOESTADISTICA
de 10. Obtenga un intervalo de 90% de confianza para estimar el número número promedio de latidos por minuto. Se desea desea estimar el promedio promedio ( ) Para una muestra de x
n =49 personas
= 90 latidos / minuto
y S = 10 latidos / minuto
Entonces como la muestra es grande n > 30 L
x
Z 1
S /2
n
para una confianza
1 - α = 0.90 ,
Z0.95 = 1.645
Luego Li 90
1.645
10 49
87.65
y Ls 90
1.645
10 49
92.35
BIOESTADISTICA
L
x
t 1
S /2
n
para una confianza
Li 35.8
1.753
1 - α = 0.90 ,
6 16
33.17
t0.95 (15) = 1.753
y Ls 35.8
1.753
6 16
38.42
Con 90% de confianza estimamos que el peso medio de las niñas de 10 años está entre 33,17 kg y 38.42 kg
Error de muestreo y Tamaño de muestra
BIOESTADISTICA
De aquí obtenemos obtenemos que el tamaño de muestra necesario necesario para estimar la media de una población con una confianza (1 -
) de tener un error
máximo E, es:
n
Z 12
2 /2 2
, Si la población es grande o infinita
E
2
Si la población es finita, entonces
2
Z 1 n
1
E Z 1
/2
N n N 1
n
2 /2 2
E Z 12
n0 2 /2 2
1
n0 N
;
n0
Z 12
2 /2 2
E
BIOESTADISTICA
Confianza : Luego
1 - α = 0.99
n
Z0.995 = 2.575
2.575 (200) 2 100
26.52
2
27
Ejemplo 5.4. El mantenimiento de cuentas de crédito puede resultar demasiado costoso si el promedio de compra por cuenta baja de cierto nivel. El gerente de un almacén, con 500 cuentas de crédito, desea estimar el promedio de la cantidad comprada por mes por sus clientes y acepta un error de no más de $ 2,50 al 95% de confianza. ¿cuántas cuentas debe seleccionar del archivo de la compañía, sí la desviación estándar de las compras se estima en $15
Z 12
2 /2
BIOESTADISTICA
5.2.2. Estimación Interválica para la Varianza poblacional Para muestras de población normal 2
X =
( n 1) S 2 2
es χ2(n-1)
Luego para una probabilidad 1- α se tiene:
/2
/2 2 2
χ α / 2
2 χ 1−α / 2
(n-1)
BIOESTADISTICA
Li
(n 1) S ² 2 1
Ls
(n 1) S ² 2
/2
/2
5.2.3. Estimación interválica para la Proporción poblacional (P) Para muestra grande (n ≥ 30), los límites para la estimación interválica de P se obtienen como sigue:
a) Para muestras de población grande o infinita L
p
Z 1
p(1 p ) /2
n
b) Para muestras de población finita
BIOESTADISTICA
Asumiendo una confianza
1 - α = 0.95,
Z0.975 = 1.96
Entonces obtenemos los límites para la estimación interválica Li 0.90 1.96
0.90( 0.10) 200
0.858
y
Ls
0.90 1.96
0.90(0.10) 200
0.942
Así concluimos que: con 95% de confianza se estima que que el porcentaje de pacientes en los que el medicamento sería efectivo es entre el 86% y 94%.
Ejemplo 5.6. Una muestra de tamaño 400 seleccionada de entre los 2000 alumnos que habían consultado el servicio de salud de una universidad el año pasado indicó que 80 tenían enfermedad de naturaleza psicosomática. a) ¿Obtenga una estimación interválica interválica con 95% de confianza para el
BIOESTADISTICA
Li 0.20 1.96
Ls
0.20 1.96
0.2(0.8) 1600 400
1999
0.2(0.8) 1600 400
1999
0.165
0.235
A partir de esta muestra se estima con 95% 95% de confianza que el porcentaje porcentaje de alumnos consultantes que tuvieron enfermedad psicosomática fue entre el 16,5% y el 23,5% b) Se desea estimar el número de alumnos alumnos con enfermedad psicosomática psicosomática Como la proporción poblacional
P = T/N
Luego la estimación puntual
ˆ N P ˆ T
Np
2000x0.20 = 400 400 alumnos
T = NP
BIOESTADISTICA
Error de muestreo y Tamaño de muestra e
p P
error de estimación puntual
1-
P-E
. p P+E
P e
p
_ E
Gráfico 18. Error de muestreo al estimar la proporción poblacional Entonces para para poblaciones grandes o infinitas
BIOESTADISTICA
Z 12 n
1
P (1 P )
/2
E 2 Z 12 / 2 P (1 P 2
N E
n0
1
n0
;
n0
Z 12
/2
P (1 P )
E 2
N
Ejemplo 5.7. El Director de un hospital desea saber que porcentaje de los pacientes dados de alta están inconformes con los cuidados recibidos durante su hospitalización. a) ¿Cuán grande debe ser la muestra si se piensa piensa que que aproximadamente aproximadamente el 25% de pacientes pacientes está inconforme y se desea desea tener una precisión precisión del 5% al 95% de confianza?
BIOESTADISTICA
n
1.96 2 (0.25)(0.75) 0.05
2
288
b) Para la determinación del tamaño de muestra como no tenemos tenemos referencia de P, consideremos consideremos que fijado E y la confianza (1- α) la expresión para n es una función cuadrática de P y toma su valor máximo para P =0.50 Así calculamos n asumiendo
n
P =0.50, lo que proporcionará la muestra más grande que garantice una precisión E con confianza 1- α
P
2
BIOESTADISTICA
B) Si las varianza poblacionales son desconocidas Para muestras grandes (n 1 ≥ 30 y n2 ≥ 30)
( x 1 x 2 )
L
Z 1
S x 1
donde
/2
x 2
S x 1
x 2
s 12
s 22
n1
n2
C) Si las varianzas poblacionales son desconocidas, pero son semejantes
(
2 1
=
2 2 ).
Para muestras pequeñas (n 1 < 30 y n2 <30) de poblaciones
normales
L
( x 1 x 2 )
t 1
/2
S x 1
x 2
BIOESTADISTICA
Tipo de tumor A B
n 41 36
x (cm) 3.85 2.80
S(cm) 1.95 1.70
Construya un intervalo de confianza del 95% para la diferencia entre las dimensiones del promedio de estos dos tipos de tumor. Interprete. Como las muestras son grandes, entonces
( x 1 x 2 )
L
Z 1
/2
S x 1
x 2
Luego obtenemos 2
S x 1
x 2
s1
s2
2
1.95 2
1.702
n1
n2
41
36
Como 1 - α = 0.95, entonces Z0.975 = 1.96
0.416
BIOESTADISTICA
capacitación, los obreros fueron sometidos a una prueba de tiempo y ejecución que expresaba la velocidad en el tiempo (minutos) de ejecución de dicho trabajo. De obtuvieron los siguientes datos:
Método 1: 15 20
11
23
16
21
18
16
27
24
Método 2: 23 31
13
19
23
17
28
26
25
28
Suponiendo
poblaciones con
distribución normal y
varianzas
iguales,
construya un intervalo de 95% de confianza para estimar la diferencia entre las medias de ejecución entre los dos métodos. Interprete resultados. De las muestras obtenemos
BIOESTADISTICA
Li = - 8.25
Ls = 1.85
Este resultado nos indica que al 95% de confianza no podemos concluir que los obreros capacitados con el método 1 sean en promedio más veloces que los capacitados con el método, pues el intervalo incluye al 0, y por lo tanto no haya diferencia entre las medias.
Ejercicio Ocho personas obesas se pusieron a dieta durante un mes. Se observó mediante análisis clínicos la cantidad de triglicéridos al comienzo y al final del mes. Persona
:A
B
C
D
E
F
G
H
BIOESTADISTICA
Los límites para la estimación interválica de la diferencia de proporciones poblacionales las obtenemos como :
L
( p1
p2 )
Z 1
/2
S p1
p 2
donde
S p1
p 2
p1 (1 p1 )
p2 (1 p2 )
n1
n2
Ejemplo 5.10. En un
estudio diseñado para conocer los efectos
secundarios de dos
medicamentos, se encontró que de los 50 animales a los que se les dio el medicamento A, 11 de ellos mostraron efectos secundarios no deseables;
BIOESTADISTICA
Con el medicamento
A obtuvo mayor proporción de casos con efectos
secundarios no deseables que con el medicamento B, pero al 95% de confianza esta diferencia no es significativa.
PRACTICA DOMICILIARIA 7 1. Una gran tienda desea estimar con una confianza de 98% y un error máximo de 5 soles la verdadera media de las compras mensuales de sus clientes de cuenta corriente. ¿cuál debería ser el tamaño de muestra si se sabe que la desviación estándar es de 15 soles? 2. ¿Cuál es el tamaño de muestra que se requiere para estimar la proporción de días en los que la contaminación atmosférica excede los 200
BIOESTADISTICA
en favor del proyecto. Con 95% de confianza estime la proporción de ciudadanos adultos que están a favor del proyecto. Interprete el resultado con respecto al anuncio de la autoridad. 5. Se ha medido el contenido de nicotina de 36 cigarrillos de una determinada marca. A continuación se resumen los resultados obtenidos: x : Contenido de nicotina de un cigarrillo, medido en miligramos Σ
x = 756 miligramos
Σ
(x - x)² = 315
Obténgase un intervalo de confianza 0.95 para estimar el contenido promedio de nicotina de los cigarrillos de esta marca. 6. Se seleccionó una muestra aleatoria de 30 docentes de entre los profesores de una USE con el objeto de estimar la experiencia docente media de ellos.
BIOESTADISTICA
tiene 12000 cuentas a la vista, obténgase un intervalo de confianza 0,99 para la cantidad total en depósitos a la vista en el banco. 9. Una muestra aleatoria de 100 alumnos varones de un colegio estatal indica que 15 alumnos practican deportes en forma activa. a)
Obténgase un intervalo de confianza 0.90 para estimar la proporción de alumnos varones del colegio que practican un deporte activamente.
b)
Si el colegio tiene 1200 alumnos varones, para la misma confianza estime el número de alumnos que practican deportes en forma activa.
10.El Director de Asuntos Estudiantiles de una Universidad está considerando una nueva política en relación con las residencias estudiantiles. Antes de tomar su decisión final, desea seleccionar una muestra aleatoria de estudiantes para estimar la proporción de los que están a favor de la nueva
BIOESTADISTICA
interválica para el número de estos alumnos que tenían una enfermedad de naturaleza psicosomática 12.Doscientos cincuenta y seis pacientes que sufren de una cierta enfermedad fueron tratados con un nuevo medicamento. Este medicamento curó a 128 pacientes ¿con qué grado de confianza puede afirmarse que la efectividad del medicamento está entre 45% y 55%. 13.Suponga que la concentración de oxigeno disuelto OD para una corriente de una planta industrial en un punto A se distribuye normalmente con varianza 0.5 (mg/lt)² pero con media desconocida. Si se toma una muestra de tamaño n = 10, que arroja los siguientes resultados en mg/lt: 1.8, 2.0, 2.1, 1.7, 1.2, 2.3, 2.5, 2.9, 1.6, 2.2. a) Estime la media con un intervalo de 99.5% de confianza. Interprete su
BIOESTADISTICA
3. MASON, R., LIND, D. y MARCHAL, W. Estadística para Administración y Economía. Alfaomega, Colombia. 2003 4. PAGANO, M y GAUVREAU, K. Fundamentos de Bioestadística. Thomson Learning. México, 2000.
BIOESTADISTICA
CAPITULO 6.
PRUEBAS DE HIPÓTESIS
6.1. Principios básicos de prueba de hipótesis
6.1.1. Definición Una prueba de hipótesis es un procedimiento estadístico con el cual, utilizando la información que proporciona una o más muestras aleatorias, tomamos la decisión de rechazar o no rechazar un supuesto (hipótesis) acerca de la población o poblaciones de donde se ha elegido la muestra, asumiendo un riesgo (probabilidad de error) de equivocarnos al tomar la decisión.
Para realizar el proceso de prueba de hipótesis es necesario que primero se
BIOESTADISTICA
Hipótesis nula (Ho). Es la hipótesis que el procedimiento estadístico somete a prueba, se formula como un supuesto de no diferencia o igualdad para el valor poblacional, o como un supuesto de no asociación entre dos variables
Ejemplo 6.1. El porcentaje de pacientes que refiere efectos adversos al ingerir ciprofloxacina es de 5%
H0: P = 0.05
El nivel promedio de glicemia en pacientes con diabetes tipo II del distrito de Catacaos es 210 mg %
H0: µ = 210 mg%
La prevalencia de parasitosis intestinal en los niños preescolares del asentamiento humano la Esperanza es igual a la de los niños preescolares del distrito de San Isidro.
H 0: P1 = P2
BIOESTADISTICA
niños pre-escolares del asentamiento humano la Esperanza es mayor que la de los niños preescolares del distrito de San Isidro.
H 1: P1 > P2
Los supuestos planteados en las investigaciones nos llevan a formular hipótesis de diferencia, y nosotros para el manejo estadístico lo indicaremos como la hipótesis alterna (H1) y a la complementaria que lleve la igualdad la indicaremos como hipótesis nula (H0).
Ejemplo 6.3 Se ha desarrollado un nuevo medicamento y deseamos probar que este es más eficaz que uno antiguo porque suponemos que el porcentaje de pacientes curados es significativamente mayor con el medicamento nuevo que con el
BIOESTADISTICA
1.
= k, significa que el valor verdadero de la media poblacional es igual a un valor específico k
2.
k, significa que el valor verdadero de la media poblacional es mayor o igual a un valor específico k
3.
k, significa que el valor verdadero de la media poblacional es menor o igual a un valor específico k.
En cada una de las proposiciones anteriores, la hipótesis que se habrá de comprobar es la hipótesis nula (H0). Esta hipótesis nula, también llamada de nulidad, afirma que no existe diferencia significativa entre un estado actual general del universo
con uno particular, como se ha establecido en la
BIOESTADISTICA
Hipótesis nula (H0)
Hipótesis alternativa (H1)
1. H0: = k
H1:
k
(alternativa bilateral)
2. H0:
k
H1:
(alternativa unilateral)
3. H0:
k
H1:
>k
(alternativa unilateral)
2) Decisión Al realizar el proceso de prueba de hipótesis y utilizar la información que proporciona una muestra, ésta nos puede indicar una de dos posibles decisiones: rechazar o no rechazar la hipótesis nula (H 0).
BIOESTADISTICA
muestra cuyos valores esperados se encuentren relacionados con lo expresado en las hipótesis de manera que nos pueda servir como un indicador de la concordancia de la muestra con una de las hipótesis planteadas.
Ejemplo 6.4 Se piensa que la vitamina C puede disminuir los niveles del colesterol sérico, y que esta disminución en promedio es mayor de 50 mg. por 100 ml. Para confirmar se evalúa una muestra de 40 personas (con niveles elevados de colesterol) antes y después de un tratamiento de un mes bajo un régimen de 500 mg. diarios de vitamina C. Entonces las hipótesis estadísticas son formuladas de la siguiente manera:
BIOESTADISTICA
hipótesis alterna (H1) fuera la correcta, entonces esperaríamos que x tome valor alrededor de un valor mayor que 50; gráficamente tenemos:
H0
H1
50
50
x
Así para la toma de decisión se considera una medida de la muestra, que esté muy relacionada con las hipótesis planteadas, pero como los valores a observar para la muestra están sujetos al azar del muestreo, entonces las
BIOESTADISTICA
Z
=
x
−
0
S
;
cuya distribución es N (0,1) si H 0 es cierta
n
Para nuestro ejemplo, como µ0 = 50, al reemplazar en la expresión Z obtenemos:
Z
=
x
− 50 S
;
cuya distribución es N(0,1) si H 0 es cierta
n
De manera que si la hipótesis nula (H 0) fuera cierta, esperaríamos que Z tome un valor alrededor de 0 ó menor que 0; en cambio, si la hipótesis alterna (H 1) fuera la correcta, entonces esperaríamos que Z tome valor alrededor de un valor mayor que 0; gráficamente tenemos:
BIOESTADISTICA
población, relación de independencia entre los grupos, etc), La Estadística ha diseñado expresiones diversas cuya distribución probabilística se asocia a un modelo de probabilidad, por lo que a las pruebas se les denomina con el nombre del modelo que sigue o se aproxima a tener la estadística de la prueba.
Ejemplo 6.6 1. Prueba Z para la media H0 : = 0 H0 :
0
Estadística de la prueba: Z =
x
−
0
S n
Esta prueba es aplicable sólo si la muestra es grande (n ≥ 30)
BIOESTADISTICA
4) Región crítica y región de no rechazo Al elegir muestras aleatorias de tamaño n de una población, debido al azar del muestreo, algunas muestras tendrán medidas que serán concordantes o favorecerán a la hipótesis nula (H 0) y otras serán concordantes o favorecerán a la hipótesis alterna (H1). Así para la toma de decisión se considera una medida de la muestra, que esté muy relacionada con las hipótesis planteadas, y a su recorrido esperado se divide en dos regiones excluyentes y complementarias llamadas “Región crítica o de rechazo” y “Región de no rechazo”.
Ejemplo 6.7 Para probar las hipótesis
H:
50
H:
50
BIOESTADISTICA
Luego como se aprecia en la figura hemos dividido al recorrido de Z en dos regiones, de manera que si la media de la muestra x es mayor que 50 y su valor estandarizado (Z) es mayor que 2, rechazamos H 0 a favor de H1, pues el resultado de la muestra es concordante con H 1; en cambio si x es cercano a 50 y su valor estandarizado (Z) es menor que 2, nosotros no podemos rechazar H0 , pues la diferencia encontrada es pequeña (no significativa) y podría deberse al azar del muestreo.
Región de no rechazo: Conjunto de resultados muestrales que son concordantes o favorecen a la hipótesis nula, indicando que la diferencia encontrada en la muestra con respecto a lo planteado en H 0 es pequeña (no significativa) y puede deberse al azar del muestreo.
BIOESTADISTICA
cometemos un error. De manera similar si H 0 es falsa (H1 es verdadera) y la muestra nos indica no rechazar H 0 cometemos un error en cambio si la muestra nos indicara rechazar no cometemos error.
Población
H0 Verdadera
H0 H1 Falsa verdadera
La muestra indica No rechazar H0 Rechazar H0 (no error) (error tipo I)
No rechazar H0 Rechazar H0 (error tipo II) (no error )
BIOESTADISTICA
= P(error tipo I) = P(Rechazar H0 cuando H0 es verdadera) a la probabilidad
también se denomina nivel de significancia de la prueba
o tamaño de la región crítica, y el investigador la debe fijar por adelantado, según el riesgo que esté dispuesto a correr, de rechazar una situación que en la realidad es cierta.
= P(error tipo II) = P(No rechazar H0 cuando H0 es falsa) A (1 - ) se denomina potencia de la prueba y es la probabilidad de rechazar H0 cuando ésta es falsa, es decir, cuando H 1 es verdadera, esto es:
BIOESTADISTICA
H0:
= 50
H1: = 60
Entonces la distribución de la media muestral podría ser alrededor de 50 si H 0 es verdadera o alrededor de 60 si H 0 es falsa (H1 es verdadera), gráficamente tenemos: H0
H1
1-
1-
x
= 50 Región de no rechazo
c
= 60 Región crítica o de rechazo (R.C.)
BIOESTADISTICA
7) Nivel crítico (p) de una prueba estadística El nivel crítico (p) es la probabilidad mínima con la que se podría rechazar la hipótesis nula (H 0 ) sobre la base de los resultados obtenidos en la muestra, bajo el supuesto de que la hipótesis nula es verdadera (Conover W.J.–
Practical Nonparametric Statistics. Pág.80)
p = P(rechazar H0 con los resultados obtenido en la muestra observada, cuando H0 es verdadera) Este valor p es la principal estadística utilizada en la prueba de hipótesis. El cual indica la probabilidad, asumiendo que la hipótesis nula f uera verdadera, de que los datos observados se alejen del valor planteado en la hipótesis nula en la magnitud observada o en una magnitud mayor, sólo debido a la casualidad o
BIOESTADISTICA
Deseamos saber si esta media muestral difiere significativamente con respecto a la reducción promedio de 50 mg por 100 ml propuesta en H 0, luego calculamos p, la probabilidad de que la media de la muestra tome un valor tan grande o mayor que 58, asumiendo que la verdadera media es igual a 50.
p = P( x
58 cuando = 50) o en términos de la estadística Z
x − µ 0 58 − 50 = P ( Z ≥ 3.16) = 0.00079 ≥ S / n 16 / 40
= P
Gráficamente tenemos:
BIOESTADISTICA
Cuadro 13. NIVEL CRÍTICO DE UNA PRUEBA ESTADÍSTICA: INTERPRETACIÓN * Nivel crítico p 0.05 0.01 p 0.05
0.001 p 0.01 p 0.001
Interpretación
Conclusión
Indica que la diferencia encontrada es no significativa y puede deberse al azar del muestreo Indica que la diferencia encontrada es significativa y que probablemente ya no se deba al azar del muestreo Indica que la diferencia encontrada es muy significativa y probable-mente se deba a que hay diferencias en la población Indica que la diferencia encontrada es altamente significativa y probablemente se deba a que hay diferencias en la población
No rechazar H0 No hay evidencia suficiente para rechazar. Rechazar H0 a favor de H1 hay evidencia suficiente para rechazar Rechazar H0 a favor de H1 hay evidencia suficiente para rechazar Rechazar H0 a favor de H1 hay evidencia suficiente para rechazar
* Si para la realización de la prueba de se ha pre-fijado un nivel de significancia
, entonces para tomar la decisión se compara p con , de manera que
BIOESTADISTICA
Resumen En esta unidad Ud. ha recibido las bases para la realización de una prueba de hipótesis estadística, la cual será una herramienta muy útil para la comprobación de los supuestos planteados en las investigaciones en las que Ud, participe. A continuación se presenta un esquema resumido del procedimiento a seguir para la realización de una prueba de hipótesis
PROCEDIMIENTO A SEGUIR PARA LA REALIZACIÓN DE UNA PRUEBA DE HIPOTESIS
1. Defina con claridad los supuestos que se plantean en la investigación
BIOESTADISTICA
Ejercicio Aplicativo RENDIMIENTO ESCOLAR Y DESARROLLO VISOMOTOR EN HIJOS DE MADRES ADOLESCENTES Silvestre N, Villena A. Gonzáles G, Instituto de Investigaciones de la Altura. Dpto. de Ciencias Fisiológicas. Universidad Peruana Cayetano Heredia. (Revista Médica Herediana 7. Suplemento 1, 1996. pág 6) El objetivo del presente estudio fue determinar el desarrollo visomotor y el rendimiento escolar en hijos de madres adolescentes y compararlos con los observados en hijos de madres adultas. La muestra estuvo constituida por 59 niños de 7-8 años de edad, mestizos que residen en la ciudad, hijos de madres adolescentes, y 73 niños de 7-8 años de edad, hijos de madres adultas ( > 20 años). El desarrollo visomotor fue evaluado utilizando la prueba de Bender. El
BIOESTADISTICA
En conclusión, los hijos de madres adolescentes tienen un retardo en el desarrollo visomotor y un menor rendimiento escolar que los hijos de madres adultas Para esta investigación identifique 1) Población o poblaciones bajo estudio
2) Variables de interés y su tipo
BIOESTADISTICA
6.2. PRUEBAS ESTADÍSTICAS 6.2.1. PRUEBAS PARAMETRICAS Y PRUEBAS NO PARAMETRICAS Según los requisitos exigidos para tener en consideración la distribución de la estadística de la prueba, las pruebas estadísticas se han dividido en dos grandes grupos denominados Pruebas paramétricas y pruebas no paramétricas
“Pruebas paramétricas son aquellas en las que el interés se centra en probar una hipótesis acerca de uno o más parámetros de la población, además lo básico de estos procedimientos es que se debe conocer la distribución de la población de la cual proviene la muestra (usualmente el modelo normal) Pruebas no paramétricas son aquellos procedimientos que prueban hipótesis que no son afirmaciones acerca de parámetros de la población, sino más bien plantea determinados comportamientos para la población, o aquellos para los cuales no se exige que la población tenga una distribución conocida ” (WAYNE, D. Bioestadística base para el análisis de las ciencias de la salud. Limusa Wiley. Méxio 2004; pp 658-659) Cuadro 14. PRUEBAS PARAMÉTRICAS Número de
Variable
Parámetro
BIOESTADISTICA
Cuadro 15. PRUEBAS NO PARAMÉTRICAS Número de Grupos
Variable de interés
Hipótesis
Prueba Estadística
Prueba de bondad de Distribución de la ajuste Cuantitativa, población tiene Ordinal o un modelo deter- Prueba Ji-Cuadrado * categórica minado Prueba de Kolmogorov – Smirnov
Uno Ordinal o cuantitativa Categórica
Dos
Ordinal o cuantitativa Categórica
Médición de efec- Prueba del signo* to antes-después (observaciones Prueba de Wilcoxon* apareadas) Prueba de McNemar * Comparación de mediciones (grupos indepen- Prueba de dientes) Mann-Whitney * Comparación de Prueba exacta
BIOESTADISTICA
6.2.2. PRUEBAS PARAMETRICAS 6.2.2.1. Pruebas de Hipótesis para la media poblacional ( ) Prueba Z para la media ( ) Datos: La muestra consiste de n valores cuantitativos,
independientes de una
población
Requisitos: 1) La muestra es aleatoria 2) Muestra grande de cualquier población o muestra de cualquier tamaño si la población tiene distribución normal. 3) Varianza poblacional
2
conocida.
BIOESTADISTICA
α/2
α/2
Z
-Z1-α/2
0
Z1-α/2 R.C.
R.C.
b) Rechazar H 0 al nivel , si
Z > Z1-α
Z
0
Z1R.C.
c) Rechazar H0 al nivel , si
Z < -Z1-α
BIOESTADISTICA
Ejemplo 6.10. Se llevó a cabo un estudio sobre nutrición en un país en desarrollo. El objetivo del estudio fue determinar si los habitantes de una región rural tenían un consumo diario mínimo de 2000 calorías, que cubriera sus requerimientos básicos para la supervivencia. Una muestra de 500 adultos campesinos reportó un consumo medio diario de calorías de 2015 con una desviación estándar de 210 calorías. De acuerdo a los objetivos propuestos, planteamos hipótesis para el consumo promedio diario de calorías en la región:
H0:
= 2000
H1:
2000
Recordemos que plantear que el consumo medio diario de la población es de
BIOESTADISTICA
Z
x S /
0
n
2015 2000 210 / 500
Para este valor de Z, calculado con
1 . 598
la información de la muestra,
obtenemos el nivel crítico p para la toma de decisión:
p = 0.0548
1.598
p = P(Z ≥ 1.598) = 0.0548 > 0.05
Z
BIOESTADISTICA
Hipótesis: a) H0: µ = µ0
H1: µ ≠ µ0
b) H0: µ ≤ µ0
H1: µ > µ0
c) H0: µ ≥ µ0
H1: µ < µ0
Estadística de la prueba
T
x
0
S / n
T tiene distribución t-Student con n-1 grados de libertad [ t(n-1) ], si H0 es verdadera.
Regla de decisión
BIOESTADISTICA
c) Rechazar H0 al nivel , si
-t1- α
t < -t1-α
0
T
R.C.
Ejemplo 6.11. Un laboratorio farmacéutico conduce una investigación relativa a la eficacia de una vacuna contra el sarampión. La variable considerada es los títulos de anticuerpos en suero producidos por la vacuna. La vacuna producida por otro laboratorio reporta un título promedio anticuerpos de 1.9.
de
BIOESTADISTICA
Luego calculamos la media, desviación estándar y la estadística T para realizar la prueba de las hipótesis.
x
T
= 2.225 x
0
S/ n
S = 0.518
2 .225 1 .9 0 .518 / 16
Para el valor calculado de
2 .51
T obtenemos el nivel crítico
distribución t-Student con 15 grados de libertad. t (15 )
p = 0.012
p utilizando la
BIOESTADISTICA
Resumimos las pruebas de hipótesis para la media poblacional en la siguiente tabla
Cuadro 16. PRUEBA DE HIPÓTESIS PARA LA MEDIA POBLACIONAL a) H0:
Prueba
Z
0
H1:
0
b) H0:
0
H1:
0
c) H0:
0
H1:
0
Requisitos
=
Estadística de la prueba
Varianza σ2 conocida -Todo n de población x − µ 0 Normal Z = n grande de σ / n cualquier población
Distribución Decisión: de Rechazar H0 La estadística Al nivel α si Si H0 es cierta Normal N(0,1)
a) Z < -Z1α/2
ó Z > Z1-α/2 b) Z > Z1-α c) Z < -Z1-α
BIOESTADISTICA
6.2.2.2. Prueba Ji-Cuadrado para la varianza
2
Datos: La muestra consiste de n valores cuantitativos independientes de una población normal.
Requisitos: 1) La muestra es aleatoria 2) La población es normal.
Hipótesis: a) H0: σ2 = σ20
H1: σ2 ≠ σ20
b) H0: σ2 ≤ σ20
H1: σ2 > σ20
c) H
2
2
H
2
2
BIOESTADISTICA
b) Rechazar H 0 al nivel α,
X2 >
si
2
χ 1−α
X2 2
χ 1 − α
R.C. c) Rechazar H0 al nivel α, si X2 <
2
χ α
X2 2
χ α
BIOESTADISTICA
Esta afirmación nos llevaría a plantear que la distribución de la concentración de este
medicamento sería normal con media µ = 5 y desviación
estándar
σ = ( 0.1) /3 = 0.033 gráficamente tendríamos:
99.7%
X 5
4.9
5.1
3
0.1
3 = 0.1
BIOESTADISTICA
se tomó una muestra de 8 envases para los cuales se obtuvo las siguientes concentraciones en mg /cc
4.94, 5.09, 5.03, 4.90, 4.95, 5.04, 5.02, 4.93 Como la elección de la prueba para las hipótesis formuladas acerca de la media, en el caso de muestras pequeñas, depende de que se conozca la varianza de la población; primero probaremos las hipótesis para la varianza
De la muestra observada obtenemos:
n = 8 ;
x
S2 = 0.00439;
= 4.9875;
1
2
7 0 00439
S=0.0663
BIOESTADISTICA
concluimos: Que el fabricante de este medicamento está elaborando el
producto con una concentración cuya variabilidad es mucho mayor que la especificada en sus envases (desviación estándar = 0.033 mg cc), pues la diferencia encontrada es altamente significativa (p 0.001)
Entonces, como se ha rechazado el valor supuesto para la varianza, la prueba de las hipótesis para la media la realizaremos utilizando la prueba T para muestras pequeñas con varianza poblacional desconocida.
H0: = 5 De los datos de la muestra tenemos: T
x
0
S/ n
4.9875 5 0 0663 / 8
0.533
H1:
5
BIOESTADISTICA
Concluimos que no podemos rechazar lo especificado por el fabricante para la concentración media del medicamento (5 mg /cc), pues no hay evidencia suficiente (p > 0.05)
En resumen concluimos que esta muestra nos indica que el fabricante debería corregir la variabilidad de la concentración del medicamento para que cumpla con las especificaciones.
6.2.2.3. Prueba Z para una proporción poblacional (P) Datos: Muestra que consiste de n resultados de observaciones independientes, cada resultado puede estar en una de dos categorías pero no en ambas.
BIOESTADISTICA
Estadística de la prueba: Z
p P 0 P 0 (1 P 0 )
Z es N(0,1), si H0 es verdadera
n
Regla de decisión a) Rechazar H 0 al nivel , si
Z < -Z1-α/2 ó
α/2
Z > Z1-α/2
α/2
-Z1-α/2
0
R.C.
b) Rechazar H 0 al nivel , si
Z > Z1-α
Z
Z1-α/2 R.C.
BIOESTADISTICA
Z
p P 0 P 0 (1 P 0 ) N n
n
N 1
Ejemplo 6.13. Luego de la realización de un programa de inmunización contra la rubéola, se informó que la inmunización había tenido una cobertura del 50% de los niños de primaria. Una institución supervisora sospecha que se ha sobre valorado la cobertura del programa, por lo que aplicó una encuesta a 500 niños de primaria, revelando que 150 niños habían sido inmunizados. ¿Al 5% de significancia podremos decir que estos resultados validan lo afirmado acerca de la cobertura del programa de inmunización?
BIOESTADISTICA
concluimos que se ha sobre valorado la cobertura del programa de inmunización.
6.2.2.4.
Pruebas de Hipótesis para poblacionales ( 1, 2)
Prueba Z para la diferencia de medias ( 1 -
la comparación de medias
2)
Datos: Una muestra de tamaño n 1 (x 1, x 2, ....., xn1) de la población 1 y una muestra de tamaño n2 (x1, x2, ....., xn2) de la población 2
Requisitos: 1) Ambas son muestras aleatorias de su población correspondiente.
BIOESTADISTICA
Estadística de la prueba ( x 1
Z
x 2 )
2 1
2 2
n1
n2
Z tiene distribución normal N(0,1) si H0 es verdadera.
Regla de decisión a) Rechazar H 0 al nivel , si
Z < -Z1-α/2 ó
α/2
Z > Z1-α/2
α/2
-Z1-α/2 R.C.
0
Z
Z1-α/2 R.C.
BIOESTADISTICA
Nota Si las varianzas
2
2
1,
2
son desconocidas, entonces sólo cuando las
muestras sean grandes (n1
30, n2 30), la estadística Z se obtendrá
como Z
( x1
x2)
S 12
S
2 2
n
n
2
1
Ejemplo 6.14. Un epidemiólogo desea comparar dos vacunas para la rabia. Las personas que previamente habían recibido dichas vacunas se dividieron en dos grupos. El grupo 1 recibió una dosis de refuerzo de la vacuna del tipo 1 y el grupo 2 recibió una dosis de refuerzo de la vacuna tipo 2. Las respuestas de los
BIOESTADISTICA
H1: Existe diferencia en la efectividad de las dos vacunas utilizadas para dosis de refuerzo. 1
2
Por ser muestras grandes y no contar con las varianzas poblacionales, calculamos
Z
( x 1 x 2 ) 2 1
2 2
4.5 2.5
S
S
( 2.5)
n1
n2
30
2
( 2.0)
2
3.71
49
Para este valor de Z, calculado con la información de la muestra, obtenemos el nivel crítico p para la toma de decisión:
BIOESTADISTICA
Prueba T para la diferencia de medias ( 1 -
2)
Datos: Una muestra de tamaño n 1 (x 1, x 2, ....., xn1) de la población 1 y una muestra de tamaño n2 (x1, x2, ....., xn2) de la población 2. La variable es cuantitativa.
Requisitos: 1) Ambas son muestras aleatorias de su población correspondiente. 2) Las poblaciones 1 y 2 son independientes 3) Muestras pequeñas de poblaciones son normales. 4) Las varianzas poblacionales suponen semejantes.
σ21,
σ22 son desconocidas, pero se
BIOESTADISTICA
Regla de decisión T < -t1-α/2 ó T > t1-α/2
a) Rechazar H 0 al nivel , si
α/2
α/2
T
-t1-α/2
0
t1-α/2
R.C.
b) Rechazar H 0 al nivel , si
R.C.
T > t1-α
T
0
t1- α R.C.
BIOESTADISTICA
v
S 12
n1
S 12
S 22
n1
n2
2
S 22
n1
1
n2
2
2
2
n2
1
Ejemplo 6.16 Con el objeto de determinar si la privación del sueño tiene algún efecto sobre la frecuencia de la onda alfa del electroencefalograma de las personas, a veinte personas voluntarias se dividió al azar en dos grupos. Las personas del grupo A se sometieron a un período de privación del sueño de 10 días, mientras que las del grupo B sirvieron de control. Al término del período experimental, se registró la frecuencia de la onda alfa componente de los electroencefalogramas de las personas. Los resultados fueron los siguientes:
BIOESTADISTICA
H1: Existe diferencia en la frecuencia de la onda alfa para las personas sometidas a privación del sueño respecto a las que no fueron sometidas a la privación.
A
B
Por ser muestras pequeñas y no contar con las varianzas poblacionales, antes de aplicar la prueba T para comparación de medias, con los datos obtenidos para el nivel alfa en cada grupo, se debe comprobar si estas muestras validan los requisitos de población normal y varianzas semejantes, lo cual es aceptado (los procedimientos y resultados de estas pruebas serán presentados en la secciones 6.2.26- ejemplo 6.19 y 6.2.3.1 – ejemplo 6.20)
BIOESTADISTICA
Para el valor calculado de
T obtenemos el nivel crítico
p utilizando la
distribución t-Student con 18 grados de libertad. t (18 )
p
2
0.005
t (18 ) -3.357 Por ser una prueba de alternativa bilateral
p 0.01
Luego concluimos que esta muestra es una evidencia de que existe diferencia en la frecuencia de la onda alfa para las personas sometidas a privación sensorial respecto a las que no fueron sometidas a la privación, es decir, que la
BIOESTADISTICA
Caudro 17. PRUEBA DE HIPÓTESIS PARA DIFERENCIA DE MEDIAS a) H0: b) H0: c) H0:
1 1 1
-
2 = 2 2
Requisitos Prueba (Grupos independientes) Varianzas σ21, σ22 conocidas Z -Todo n1, n2 de poblaciones normales - n1 ≥ 30, n2 ≥ 30 de cualquier población Z
Varianzas σ21, σ22 desconocidas - n1 ≥ 30, n2 ≥ 30 de cualquier población
0 0 0
H1: H1: H1: Estadística de la prueba
Z
=
( x1 − x 2 ) 2 1
n1
Z
2
+
2
11 1
2
-
2 2
0 0 0
Distribución de la estadística Si H0 es cierta Normal
Decisión: Rechazar H0 Al nivel α si a) Z < -Z1-α/2 ó Z > Z1-α/2
N(0,1)
b) Z > Z1-α
Normal
c) Z < -Z1-α a) Z < -Z1-α/2 ó Z > Z1-α/2
N(0,1)
b) Z > Z1-α
n2
( x 1
x 2 )
S 12
S 22
n1
n2
c) Z < -Z1-
BIOESTADISTICA
6.2.2.5. Prueba para la media de la diferencia (datos apareados) Comparación de mediciones para datos apareados Un método que suele utilizarse para averiguar la efectividad de un tratamiento o procedimiento experimental es el que usa observaciones relacionadas que se obtienen de muestras no independientes. Una prueba de hipótesis basada en este tipo de datos se conoce como prueba de comparaciones apareadas.
El objetivo en las pruebas de comparaciones apareadas es eliminar un número máximo de fuentes de variación externa, haciendo a las parejas semejantes con
respecto a las demás variables
inherentes a los
elementos de estudio, que podrían hacer variar el resultado esperado al margen del efecto del tratamiento.
BIOESTADISTICA
En lugar de llevar a cabo el análisis con observaciones individuales, se utiliza como variable de interés la diferencia entre pares individuales de observaciones. Hipótesis a) H0: µd = µd0
H1: µd ≠ µd0
b) H0: µd ≤ µd0
H1: µd > µd0
c) H0: µd ≥ µd0
H1: µd < µd0
La estadística de la prueba puede ser la
Z
d
d0
Sd / n
o la
T
d
d0
Sd / n
BIOESTADISTICA
6 7 8 9 10 11 12
237 326 235 240 267 284 209
216 296 195 207 247 260 201
21 30 40 33 20 24 8
(Enunciado adaptado de Bioestadística. 3 ra edición de Daniel, W pág. 255-256) La hipótesis del estudio sería:
La dieta combinada con el
programa de ejercicios es efectiva para
reducir los niveles de colesterol en suero en al menos 10 unidades Las hipótesis estadísticas serán formuladas como:
H0:
d
10
La dieta combinada con el programa de ejercicios no es
BIOESTADISTICA
datos utilizando la prueba de bondad de ajuste que se desarrollará más adelante en la sección 6.2.2.1)
T
d S d /
d 0
n
18 . 75
10
13 . 11 /
12
Para el valor calculado de
2 . 312
T obtenemos el nivel crítico
distribución t-Student con 11 grados de libertad. t (11)
p = 0.0206
t (11) 2.312
p utilizando la
BIOESTADISTICA
Hipótesis: a) H0 : σ21 = σ22
H1 : σ21 ≠ σ22
b) H0 : σ21 ≤ σ22
H1 : σ21 > σ22
c) H0 : σ21 ≥ σ22
H1 : σ21 < σ22
Estadística de la Prueba 2
F
S 1
S 22
Si H0 es cierta, F tiene distribución F (n1-1, n2-1) ; donde n1 -1 y n2 – 1 son los grados de libertad del numerador y denominador.
BIOESTADISTICA
c) Rechazar H0 al nivel α, si F < F α
F Fα
R.C.
Ejemplo 6.18 De dos hospitales se tomaron muestras de tamaño 10 de los pesos de recién nacidos para probar si la dispersión de los pesos es la misma para los dos hospitales. Los resultados obtenidos son los siguientes:
BIOESTADISTICA
0.025 0.025
0.2448
R.C.
↓ 0.968
F
4.03
F(9,9)
R.C.
Luego concluimos que la dispersión de los pesos de los recién nacidos es la misma para los dos hospitales, pues la diferencia encontrada no es significativa.
Ejemplo 6.19 En el ejemplo 6.16, para poder aplicar la prueba T para comparar las medias
BIOESTADISTICA
Los resultados obtenidos fueron: Grupo A:
10.2, 9.5, 10.1, 10.0, 9.8, 10.9, 11.4, 10.8, 9.7, 10.4
Grupo B:
11.0, 11.2, 10.1, 11.4, 11.7, 11.2, 10.8, 11.6, 10.9, 10.9
Grupo A B
Tamaño de La muestra 10 10
Media Desv. est. S x 10.28 0.5978 11.08 0.4590
Luego calculamos la estadística F para la comparación de varianzas. Luego
F = (0.5978)2 = 1.696 (0.4590)2
Si α = 0.05, entonces para F(9,9), obtenemos las cuantilas α/2 y 1-α/2
BIOESTADISTICA
6.2.2.7 Prueba Z para comparación de proporciones poblacionales Datos: Dos muestras que consisten de n 1 y n2 resultados de observaciones independientes. Para cada muestra los resultados pueden estar en una de dos categorías pero no en ambas.
Requisitos: 1. Los n1 resultados de la muestra de la población 1 son mutuamente independientes y de igual manera los n 2 resultados de la muestra de la población 1 también son mutuamente independientes. 2. Cada resultado de las n1 observaciones de la muestra de la población 1 tiene probabilidad P1 de estar en la categoría 1 y Cada resultado de las
BIOESTADISTICA
Z es N(0,1), si H0 es verdadera
S p1
Donde:
p(1 p )
p(1 p )
n1
n2
p2
Si H0 es verdadera, es decir, las proporciones son iguales P 1 = P2 = P y existe una proporción común (P). la cual estimamos como:
p
x1
x2
n1
n2
siendo x1 y x2 las observaciones que están en la categoría 1, para cada muestra.
p1
x1 n1
y
p2
x2 n2
BIOESTADISTICA
c) Rechazar H0 al nivel , si
-Z1-
Z < -Z1-α
0
Z
R.C.
Ejemplo 6.20 En el Ejercicio aplicativo, los investigadores tenían por objeto comparar el desarrollo visomotor y el rendimiento escolar de hijos de madres adolescentes con el de los hijos de madres adultas. El desarrollo visomotor fue evaluado utilizando la prueba de Bender (Número de errores que tiene el niño cuando trata de reproducir nueve figuras que l e han sido mostradas).
BIOESTADISTICA
2) Para la comparación del rendimiento escolar
H0: P1 = P2 El porcentaje de niños que desaprobó el año escolar es igual para los hijos de madres adolescentes que para los hijos de madres adultas.
H1: P1 P2 El porcentaje de niños que desaprobó el año escolar es mayor para los hijos de madres adolescentes que para los hijos de madres adultas. (lo que indica menor rendimiento escolar)
La tabla siguiente resume los resultados obtenidos Grupo
Muestra Media de DE de la media Porcentaje de n Errores( ) (SE = S/ n) desaprobados
BIOESTADISTICA
1) Para realizar la prueba de hipótesis para comparar las medias, calculamos la estadística Z: Z
( x1
x2 )
S 12
S 22
n1
n2
6.34 4.75 0.38 2 0.24 2
3.53
Luego el nivel crítico p = P(Z ≥ 3.53) = 0.00021 < 0.001 Es decir la diferencia encontrada es altamente significativa, por lo que se puede concluir que los hijos de madres adolescentes tienen un retardo en el desarrollo visomotor respecto al de los hijos de madres adultas 2) Para realizar la prueba de hipótesis de comparación de proporciones, calculamos la estadística Z:
BIOESTADISTICA
6.2.3 PRUEBAS NO PARAMETRICAS 6.2.3.1. Prueba de Bondad de ajuste de Kolmogorov – Smirnov Esta prueba es una alternativa a la prueba de bondad de ajuste Ji-Cuadrado, preferida cuando la muestra es pequeña; desde que la prueba de Kolmogorov es exacta aún para muestras pequeñas, mientras que la prueba Ji-Cuadrado requiere de muestras suficientemente grande para que la distribución JiCuadrado sea una buena aproximación de la distribución de la estadística de la prueba. En general la prueba de Kolmogorv es más potente que la prueba JiCuadrado en la mayoría de las situaciones. (Conover. Practical Nonparametric Statistics. 2ed, pág 346)
BIOESTADISTICA
Hipótesis: H0: La variable tiene distribución sigue el modelo f*(x) H1: La distribución de la variable difiere del modelo f*(x)
Estadística de la prueba: Para los valores Xi, observados en la muestra, se obtiene sus probabilidades acumuladas correspondientes con el modelo f*(x) propuesto en la hipótesis nula [Pi = P(X ≤ Xi)]. La estadística de la prueba viene a ser D, la mayor diferencia absoluta entre la probabilidad acumulada teórica y la frecuencia relativa acumulada (probabilidad acumulada estimada)
D = máxima{ Pi – pi }
BIOESTADISTICA
Grupo A:
10.2, 9.5, 10.1, 10.0, 9.8, 10.9, 11.4, 10.8, 9.7, 10.4
Grupo B:
11.0, 11.2, 10.1, 11.4, 11.7, 11.2, 10.8, 11.6, 10.9, 10.9
Para que la aplicación de la prueba T sea válida debe comprobarse que las muestras validan que la distribución de los niveles alfa, para cada grupo tiene distribución normal
Luego planteamos dos hipótesis: 1)
H0: Los registros del nivel alfa para las personas del grupo A tienen distribución normal
H1: La distribución de los registros del nivel alfa para las personas del grupo A no tienen distribución normal
BIOESTADISTICA
X A
pi
9.5 9.7 9.8 10 10.1 10.2 10.4 10.8 10.9 11.4
0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
zi
xi SA
-1.30 -0.97 -0.80 -0.47 -0.30 -0.13 0.20 0.87 1.04 1.87
x
Pi = P(Z ≤ zi)
Di = Pi - pi
0.095983 0.165967 0.211003 0.319755 0.381668 0.446771 0.579547 0.807811 0.850164 0.969503
0.004017 0.034033 0.088997 0.080245 0.118332 0.153229 0.120453 0.007811 0.049836 0.030497
D = máxima{ Pi – pi } = 0.153229
Los valores Pi los hemos obtenido de la tabla de la distribución acumulada para la normal estandarizada, calculando previamente los
BIOESTADISTICA
XB
pi
10.1 10.8 10.9 11 11.2 11.4 11.6 11.7
0.1 0.2 0.4 0.5 0.7 0.8 0.9 1
zi
xi
x
SB
-2.14 -0.61 -0.39 -0.17 0.26 0.70 1.13 1.35
Pi = P(Z ≤ zi)
Di = Pi - pi
0.01638 0.27092 0.34747 0.43082 0.60312 0.75715 0.87137 0.91161
0.08362 0.07092 0.05253 0.06918 0.09688 0.04285 0.02863 0.08839
D = máxima{ Pi – pi } = 0.09688 Luego como se aprecia, para ambos casos se acepta que la distribución de los registros del nivel alfa tiene distribución normal, ya
que las diferencias
máximas obtenidas 0.153229 y 0.09688 son menores que la cuantila 0.95 de la tabla de Lilliefors.
BIOESTADISTICA
4 5 6 7 8 9 10 11 12
260 228 237 326 235 240 267 284 209
233 214 216 296 195 207 247 260 201
27 14 21 30 40 33 20 24 8
La hipótesis del estudio sería:
La dieta combinada con el
programa de ejercicios es efectiva para
reducir los niveles de colesterol en suero en al menos 10 unidades Las hipótesis estadísticas serán formuladas como:
H0:
d
10
La dieta combinada con el programa de ejercicios no es
BIOESTADISTICA
H0: La variable diferencia tiene distribución normal H1: La distribución de la variable diferencia no sigue el modelo normal Luego para las diferencias obtenemos sus frecuencias relativas acumuladas (pi) y sus probabilidades acumuladas (P i) con el modelo normal, utilizando los valores estimados para la media = 19.73 y la desviación estándar= 13.28
di
pi
-5 5 8 14 20 21 24 27
0.0833 0.1667 0.3333 0.4167 0.5000 0.5803 0.6667 0.7500
zi
di Sd
-1.812 -1.049 -0.820 -0.820 -0.362 0.095 0.172 0.400
d
Pi = P(Z ≤ zi)
Di = Pi - pi
0.0350 0.1471 0.2061 0.2061 0.3585 0.5380 0.5681 0.6556
0.0483 0.0196 0.0439 0.1272 0.0581 0.0380 0.0152 0.0111
BIOESTADISTICA
Tabla 6: CUANTILAS DE LA PRUEBA DE KOLMOGOROV SMIRNOV
n 1 2 3 4 5
.80 .900 .684 .565 .493 .447
.90 .950 .776 .636 .565 .509
p .95 .975 .842 .708 .624 .563
.98 .990 .900 .785 .689 .627
(Prueba bilateral) .99 n .80 .995 21 .226 .929 22 .221 .829 23 .216 .734 24 .212 .669 25 .208
.90 .259 .253 .247 .242 .238
.95 .287 .281 .275 .269 .264
p .98 .321 .314 .307 .301 .295
.99 .344 .337 .330 .323 .317
6 7 8 9 10
.410 .381 .358 .339 .323
.468 .436 .410 .387 .369
.519 .483 .454 .430 .409
.577 .538 .507 .480 .457
.617 .576 .542 .513 .489
26 27 28 29 30
.204 .200 .197 .193 .190
.233 .229 .225 .221 .218
.259 .254 .250 .246 .242
.290 .284 .279 .275 .270
.311 .305 .300 .295 .290
11 12 13 14 15 16
.308 .296 .285 .275 .266 .258
.352 .338 .325 .314 .304 .295
.391 .375 .361 .349 .338 .327
.437 .419 .404 .390 .377 .366
.468 .449 .432 .418 .404 .392
31 32 33 34 35 36
.187 .184 .182 .179 .177 .174
.214 .211 .208 .205 .202 .199
.238 .234 .231 .227 .224 .221
.266 .262 .258 .254 .251 .247
.285 .281 .277 .273 .269 .265
BIOESTADISTICA
Tabla 7: Cuantilas del test estadístico para normalidad de Lilliefors
n 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18
P 0.80 0.300 0.285 0.265 0.247 0.233 0.223 0.215 0.206 0.199 0.190 0.183 0.177 0.173 0.169 0.166
0.85 0.319 0.299 0.277 0.258 0.244 0.233 0.224 0.217 0.212 0.202 0.194 0.187 0.182 0.177 0.173
0.90 0.352 0.315 0.294 0.276 0.261 0.249 0.239 0.230 0.223 0.214 0.207 0.201 0.195 0.189 0.184
0.95 0.381 0.337 0.319 0.300 0.285 0.271 0.258 0.249 0.242 0.234 0.227 0.220 0.213 0.206 0.200
0.99 0.417 0.405 0.364 0.348 0.331 0.311 0.294 0.284 0.275 0.268 0.261 0.257 0.250 0.245 0.239
BIOESTADISTICA
6.2.3.2 Prueba Ji-Cuadrado para comparación de proporciones (Prueba de Homogeneidad) Datos: Hay r grupos o poblaciones en total, y una muestra aleatoria es elegida de cada población. Sea n i que representa el número de observaciones en la i-ésima muestra proveniente de la población i, para i: 1,2,3, ...., r Cada observación en cada una de las muestras puede ser clasificada dentro de una de las c categorías diferentes de la característica bajo estudio.
Si nij es el número de observaciones provenientes de la i-ésima muestra que caen en la categoría j, entonces:
ni = ni1 + ni2 + .... + nic
BIOESTADISTICA
Requisitos: 1) Cada muestra es una muestra aleatoria 2) Los resultados de las muestras son
independientes de muestra a
muestra 3) Cada observación puede ser clasificada sólo en una de las c categorías de la característica bajo estudio.
Hipótesis:
H0: La proporción de elementos en cada categoría es la misma para todos los grupos o poblaciones (Los grupos son homogéneos)
BIOESTADISTICA
Donde: Si H0 es verdadera, entonces P1j = P2j = ...... = Prj = P j
para cada categoría j
Es decir, existe una proporción común P j de elementos en la categoría j, la cual puede ser estimada como
P j = C j n Así para la muestra del grupo i , esperaríamos ni x P j = ni C j elementos en la n categoría j
Luego a
Eij = ni C j n
Se denomina frecuencia o número esperado de elementos en la categoría j para la muestra muestra del grupo o población i.
BIOESTADISTICA
cualquiera de las Eij es menor que 1 o si más del 20% de las E ij es menor que 5, la prueba no es aplicable.
2) Si r y c no son tan pequeños, y si parece que las Eij pueden ser tan pequeñas como 1, sin perjuicio de comprometer la validez de la prueba, varias categorías pueden ser combinadas para eliminar las frecuencias esperadas pequeñas. Cuales categorías deberían ser combinadas es problema de juicio. Generalmente, las categorías son combinadas solo si ellas son similares en algún aspecto, tal que la hipótesis mantiene su significado.
3) Para el caso particular en que se comparan dos grupos para una
BIOESTADISTICA
• “Corrección de Yates. Las frecuencias observadas en una tabla de contingencia son discretas y, de este modo, dan lugar a una estadística discreta, X 2 , la que ha sido aproximada por la distribución Ji-Cuadrado que es continua. Yates propuso una corrección para mejorar la aproximación, a esta estadística se denomina X 2 corregida y se obtiene como:
X2
n( ad corregida
• Si la muestra es pequeña n
bc
(n / 2)) 2
n 1 n 2 C1 C2 < 20
o si
20
< n < 40
y si cualquier
frecuencia esperada es menor que 5, no debe utilizarse los resultados
BIOESTADISTICA
Grupo sanguíneo Portadores No portadores Total O 72 92 164 A B AB
54 16 8
77 25 6
131 41 14
Total
150
200
350
(Enunciado adaptado de Bioestadística. 4 ra edición de Daniel, W. pp 641-642, obra citada)
Luego formulamos las hipótesis estadísticas
H0: No hay diferencia, en la distribución por grupo sanguíneo, entre portadores y no portadores.
H1: Hay diferencias en las distribuciones de grupos sanguíneos de los
BIOESTADISTICA
Como r =2 grupos y c = 4 categorías, entonces en la distribución Ji-cuadrado con 3 grados de libertad obtenemos el valor crítico p p = P[ 2( 3 ) ≥ 1.6289] = 0.6258 Este resultado nos indica que la diferencia encontrada no alcanza significancia estadística y que es muy probable que se deba al azar del muestreo, por lo que no podemos rechazar la hipótesis de no diferencia en la distribución de grupos sanguíneos.
Para complementar el análisis se puede acompañar de un gráfico comparativo de porcentajes por categorías como el siguiente
Gráfico 21
BIOESTADISTICA
6.2.3.3. Prueba de Independencia Ji-Cuadrado Datos: Una muestra aleatoria de tamaño n es obtenida de una población. Las observaciones en la muestra son clasificadas de acuerdo a 2 características o variables nominales. Usando la primera característica cada observación es clasificada en una de las r categorías de la variable y usando la segunda característica cada observación es clasificada en una las c categorías de ésta segunda variable. Sea nij el número de observaciones en la categoría i de la primera variable y en la categoría j de la segunda variable. Las frecuencias n ij son arregladas en una tabla de contingencia de r x c como sigue:
BIOESTADISTICA
2) Cada observación puede ser clasificada dentro de una de las r categorías de acuerdo con una de las características y dentro de una de las c categorías de acuerdo a la segunda característica.
Hipótesis H0: Las variables son independientes (Es decir cada observación puede ser clasificada en una categoría de una variable independientemente de la categoría en que fue clasificada de acuerdo a la otra variable).
H1: Existe asociación o dependencia entre las variables (Es decir una observación que es clasificada en una categoría de una
BIOESTADISTICA
Regla de decisión: Rechazar H 0 al nivel α,
si
X2 >
2 1
α
X2 2 1
R.C. Las observaciones indicadas en la sección 6.2.3.2 para la prueba Ji-Cuadrado de comparación de proporciones también se deben tener en cuenta para la aplicación de esta prueba.
BIOESTADISTICA
Las hipótesis estadísticas son formuladas como: H0: Las alteraciones respiratorias son independientes de la exposición al
producto. H1: Las alteraciones respiratorias están asociadas a la exposición al producto Obtenemos las frecuencias esperadas y calculamos la estadística X 2 de la prueba FRECUENCIAS ESPERADAS
Presencia de síntomas Sí No Total
Nivel de exposición Alto Medio Bajo 143.35 49.82 41.83 161.65 56.18 47.17 305 106 89
Total 235 265 500
BIOESTADISTICA
Tratamiento Restablecimiento Con terapia curados No curados Total Tratados 140 20 160 No tratados 10 30 40 Total 150 50 200 Con esta información se desea evaluar si existe relación entre el tratamiento y la curación
de los pacientes. (Elorza, H. Estadística para ciencias del
comportamiento. Pág 414, obra citada)
Luego, planteamos las hipótesis:
H0: El restablecimiento de los pacientes es independiente del tratamiento H1: Existe relación entre el tratamiento y el restablecimiento de los
BIOESTADISTICA
Práctica Domiciliaria 8 1. Una muestra aleatoria de 40 hombres que trabajan en un proyecto de construcción de un complejo residencial indica que 6 hombres no utilizan cascos de protección. a) Establezca un intervalo de confianza 98% con respecto a la proporción verdadera de hombres que no utilizan cascos de protección. b) Si hay 1150 hombres trabajando en la construcción, con 95% de confianza estime el número de los que no utilizan los cascos de protección. 2. Se hicieron determinaciones de hemoglobina en 14 animales expuestos a un compuesto químico nocivo. Se registraron los siguientes valores: 15.6,
BIOESTADISTICA
reducir en mas de 10 horas el tiempo perdido debido a accidentes de trabajo? 4. Se informa que después de una campaña de seguridad vial sólo el 2% de los vehículos que se detienen en una autopista interestatal no han sido sometidos a una revisión de seguridad. a) Si se detienen 16 vehículos, encuentre la probabilidad de que a lo más 2 no satisfagan las normas de seguridad. b) Si de un día se eligiera una muestra de 200 automóviles para verificar la revisión de seguridad ¿cuál es la probabilidad de que al menos el 5% de los automóviles detenidos no haya pasado la revisión? c) Si en la muestra elegida resultó que 12 automóviles no pasaron la revisión de seguridad ¿Qué concluiría Ud. Acerca de la información
BIOESTADISTICA
c) Si una muestra de 10 peces proporciona los siguientes pesos: 3.7, 3.9, 3.5, 2.8, 5.1, 4.2, 4.4, 2.1, 5.5, 2.6 d) Corroboran estos datos lo afirmado acerca del peso de los peces. 6. Un inspector encargado del control de la contaminación de ríos, mares y lagos, sospecha que cierta población estaba usando un río como basurero de desperdicios semitratados. Para verificar su sospecha tomó muestras aleatorias del agua después de la ciudad. Las observaciones de oxígeno disuelto en partes por millón (ppm) son: Oxígeno Disuelto (ppm) [4.5 - 4.8〉 [4.8 - 5.2〉 [5.2 - 5.5〉 [5.5 - 5.8〉 [5.8 - 6.5〉
Número de muestras 5 8 12 10 11
BIOESTADISTICA
muestra aleatoria de n = 1000 televidentes de los cuales y = 184 ven el programa. a) ¿Constituyen los datos anteriores evidencia suficiente para contradecir el reporte. b) Estime con 95 % de confianza la proporción de televidentes que ve el programa 8.
El número de fallas de un instrumento de prueba, debido a las partículas contaminantes de un producto, ocurre en promedio a 0.25 fallas por hora. a) ¿Cuál es la probabilidad de que el instrumento no falle en una jornada de 8 horas? b) Calcule la probabilidad de que en 5 días de trabajo (jornada de 8 horas) ocurran fallas máximo en 2 de estos días.
BIOESTADISTICA
varianza del peso de llenado en la muestra sea a lo más de 0,015 onzas2? b) Una muestra de 8 cajas de “48 onzas” proporcionó un peso medio de 49,6 onzas y una varianza de 0,018 onzas 2. ¿Considera Ud. que estos resultados contradicen la afirmación del fabricante?. Use α = 0,05 c) c) Use estos resultados para encontrar un intervalo del 90% de confianza para el recorrido o rango de la cantidad empacada al usar la máquina del fabricante. 10. Los “raitings” de público televidente han vuelto a los productores y patrocinadores muy sensibles a las afirmaciones acerca del auditorio que ve un programa dado. Una estación de televisión afirma que su noticiero de las 6 p.m. es visto por el 50% del auditorio de en su área de cobertura.
BIOESTADISTICA
11. En una muestra aleatoria de 500 adultos residentes en cierta ciudad, se encuentra que 385 están a favor de aumentar el límite de velocidad en las autopistas a 120 km/h, mientras que en otra muestra de 400 adultos residentes en otra ciudad vecina se encuentra que 267 están a favor del aumento del límite de velocidad. ¿Estos datos indican que existe una diferencia en el apoyo al
aumento del límite de velocidad entre los
residentes de ambas ciudades? Utilice
α =
0.05. Encuentre el nivel crítico
de esta prueba. 12. La toma de decisiones participativa ha sido una estrategia administrativa que se ha adoptado como un medio para mejorar la eficiencia y la participación de los individuos en las organizaciones. Se entrevistó a dos grupos de empleados, los cuales difieren substancialmente en el nivel de
BIOESTADISTICA
a una muestra aleatoria de 8 persona, las que son expuestas a ambos anuncios en orden aleatorio Persona: 1 2 3 4 5 6 7 8 Anuncio 1: 1 3 2 1 2 1 3 2 Anuncio 2: 4 2 3 3 1 2 3 3 a) ¿A que conclusiones se puede llegar al nivel del 5% de significancia? b) Obtenga un intervalo de confianza 98% para la media de la diferencia de tiempos. Interprete el resultado. 14. Un fabricante de calculadoras electrónicas afirma que menos del 1% de su producción es defectuosa. Se toma una muestra aleatoria de 1200 calculadoras y se encuentran 8 unidades defectuosas. Utilizando α = 0.05, determine si esto es evidencia suficiente para apoyar la afirmación del fabricante.
BIOESTADISTICA
16. El sistema de enfriamiento de un submarino nuclear está formado por un ensamble de tuberías soldadas por donde circula un líquido refrigerante. Las especificaciones requieren que la resistencia de la soldadura sea mayor o igual que 150 psi. a) Suponga que los ingenieros de diseño deciden probar la hipótesis H 0: µ = 150 contra H1: µ > 150. Explique porque esta elección de hipótesis alternativa es mejor que H 1: µ < 150. b) Al tomar una muestra de 20 soldaduras se tiene que x = 153.7 psi y S = 11.3 psi. ¿Qué conclusiones pueden obtenerse con respecto a la hipótesis del inciso a)? Utilice α = 0.05. c) Obtenga una estimación interválica para la varianza de la población.
BIOESTADISTICA
a) ¿Qué concluirían los investigadores? Sea α = 0.05. b) Obtenga una estimación interválica del 95% de confianza para la diferencia entre las edades promedio para las dos poblaciones. 19. Un fabricante afirma que al menos el 95% de las piezas que ha surtido para cierta fábrica cumple con las especificaciones. Se examina una muestra de 200 de un lote que contiene 1000 piezas y se encuentra que 15 de ellas son defectuosas. a) ¿Puede decirse que los datos proporcionan evidencia suficiente para rechazar la afirmación del fabricante? ¿cuál es el valor crítico de la prueba? b) Con confianza de 95%, proporcione una estimación interválica para la proporción de piezas que cumple con las especificaciones en el lote.
BIOESTADISTICA
5. ROTHMAN, K. MODERN EPIDEMIOLOGY. LITTLE, BROWN AND COMPANY.Boston/Toronto. 1986 6. ELORZA H. Estadística para ciencias del comportamiento. Harla S.A., México. 1987 7. MASON, R., LIND, D. y MARCHAL, W. Estadística para Administración y Economía. Alfaomega, Colombia. 2003 8. RENDIMIENTO ESCOLAR Y DESARROLLO VISOMOTOR EN HIJOS DE MADRES ADOLESCENTES.
Silvestre N, Villena A. Gonzáles G, Instituto de
Investigaciones de la Altura, Departamento de Ciencias Fisiológicas. Universidad Peruana Cayetano Heredia. (Revista Médica Herediana 7. Suplemento 1, 1996. pág 6)
BIOESTADISTICA
8. REFERENCIAS BIBLIOGRAFICAS 1. DANIEL, W. BIOESTADÍSTICA, Base para el Análisis de las ciencias de la Salud”. 4ª Edición, Editorial Limusa S.A. de C.V. Grupo Noriega Editores. México 2004 2. DANIEL, W. BIOESTADÍSTICA, Base para el Análisis de las ciencias de la Salud”. 3ª Edición, Editorial Limusa S.A. México 1991 3. AHLBOM, A. And NORELL, S. Itroduction To MODERN EPIDEMIOLOGY. Epidemiology Resourses Inc. USA. 1990 4. CONOVER, W.J. Practical Non parametric Statistics 2 ed. JOHN WILEY & SONS. New York. 1980. 5. DAWSON-SAUNDERS, B. And TRAPP, R. Bioestadística Médica. 2ª
BIOESTADISTICA
10.ELORZA H. Estadística para ciencias del comportamiento. Harla S.A., México. 1987 11.OSTLE, B. “ESTADÍSTICA APLICADA, Técnicas de la Estadística Moderna, cuando y donde aplicarlas”. Editorial LIMUSA –WILEY. México, 1973. 12.ROTHMAN, K. MODERN EPIDEMIOLOGY. LITTLE, BROWN AND COMPANY.Boston/Toronto. 1986 13.MONTGOMERY, D y RUNGER, G. Probabilidad y Estadística aplicadas a la Ingeniería. McGRAW-HILL. México. 1996 14.MEYER, P. L. Probabilidad y Aplicaciones Estadísticas. Addison-Wesley Iberoamericana S.A., Buenos Aires – Argentina. 1992 15.KAZMIER, L.J. Estadística aplicada a la Administración y Economía. McGRAW-HILL, México. 1996
BIOESTADISTICA
Anexo RESUMEN DE ESTIMACION Y PRUEBA DE HIPOTESIS
Mg. Beatriz Castañeda S.
273
BIOESTADISTICA
Cuadro 16. ESTIMACION POR INTERVALO Parámetro
Media
Intervalo de confianza (1- α)
Requisitos Varianza σ2 conocida -Todo n de población Normal - n grande de cualquier población Varianza σ2 desconocida - n grande (n > 30) de cualquier población Varianza σ2 desconocida - n < 30 de población Normal
L x Z 1
Varianza 2
Proporción
La población es normal
Población grande Muestra grande
Li
=
/2
S
L
x
Z 1
/2
L
x
t 1
/2
( n − 1) S 2
L s
2
χ 1−α / 2
L p Z 1
L p Z 1
n
S
=
n 2
χ α / 2
p(1 p) /2
n
p(1 p ) N n /2
Poblac. grande Z 12 / 2 S 2 n E 2 Poblac. finita n0 n n0 1 N Z 12 / 2 S 2 n0 E 2
(n − 1) S 2
P Población finita Muestra grande
n
Tamaño de muestra
n
N 1
Poblac grande. 2
n0
Z 1
/2
p(1 p ) 2
E
n
1
n0 Poblac finita n0 N
Elaboración del autor
Mg. Beatriz Castañeda S.
274
BIOESTADISTICA
Parámetro
Diferencia de medias 1 -
2
Requisitos Varianzas σ21, σ22 conocidas -Todo n1, n2 de poblaciones normales. -n1≥ 30, n2≥ 30 en general Varianzas σ21, σ22 desconocidas - n1≥ 30, n2≥ 30
Intervalo de confianza (1- α)
L
L
( x 1 x 2 )
( x 1 x 2 )
Varianzas σ21, σ22 Desconocidas -n1<30, n2< 30 de poblaciones normales
Diferencia de Proporciones
Muestras grandes de cada población.
P1 – P2
Z 1
L S x 1
Z 1
x 2
S p1
/2
S x 1
1) S 12 n1
( p1 p 2
x 1 x 2
x 1 x 2
( x 1 x 2 ) ( n1
L
/2
x 2
S x 1
t 1
/2
n2
p2 )
S x 1
2
Z 1
/2
2 2
n1
n2
x 2
1) S 22
( n2
2 1
s1
2
s2
2
n1
n2
x 2
1
1
n1
n2
S p1
p 2
p1 (1 p1 )
p2 (1 p2 )
n1
n2
Elaboración del autor
Mg. Beatriz Castañeda S.
275
BIOESTADISTICA
Cuadro17. PRUEBA DE HIPÓTESIS HIPOTESIS
H0: a) H1:
=
0 0
b) H1:
0
c) H1:
0
H0: 2 = 20 2 a) H1: 2 0 2 b) H1: 2 0 2 c) H1: 2 0 H0: P = P0 a) H1: P P0 b) H1: P P0 c) H1: P P0 H0: P1 = P2 a) H1: P1 P2 b) H1: P1 P2 c) H1: P1 P2
Requisitos Varianza σ2 conocida -Todo n de población Normal - n grande de cualquier población
Z =
2
Varianza σ desconocida - n grande (n > 30) de población
n
x − µ 0
t-Student t(n -1)
S / n
Z
=
(n
p 1 p )
α
α
α
Normal
P 0 (1 P 0 ) N
P (1
1)
2 σ 0
p P 0
Z
Decisión: Rechazar H0 Al nivel α si a) Z < -Z1-α/2 ó Z > Z1-α/2 b) Z > Z1-α c) Z < -Z1-α a) Z < -Z1-α/2 ó Z > Z1-α/2 b) Z > Z1-α c) Z < -Z1-α a) T < -t1-α/2 ó T > t1-α/2 b) T > t1-α c) T < -t1-α a) X2 < χ 2 / 2 ó X2 > χ 12− / 2 b) X2 > χ 12− c) X2 < χ 2 α
2
(n − 1) S
n
N(0,1)
N 1
n
Muestras grandes de poblaciones independientes
N(0,1)
2
X 2 Muestra grande
σ /
Normal N(0,1) Normal
S / n
T =
La población es normal
x − µ 0 x − µ 0
Z =
cualquier
Varianza σ2 desconocida - n < 30 de población Normal
Mg. Beatriz Castañeda S.
Distribución de La estadística Si H0 es cierta
Estadística de la prueba
p 2
; p
1
1
n1
n2
x 1
x 2
n1
n2
a) Z < -Z1-α/2 ó Z > Z1-α/2 b) Z > Z1-α c) Z < -Z1-α a) Z < -Z1-α/2 ó Z > Z1-α/2 b) Z > Z1-α c) Z < -Z1-α Z es N(0,1)
276