CENTRO DE ESTUDIANTES DE VETERINARIA
UNIVERSIDAD DE BUENOS AIRES FACULTAD DE CIENCIAS VETERINARIAS
ESTADÍSTICA ANALÍTICA GUÍA DE TRABAJOS PRÁCTICOS
2011 SECRETARIA DE PUBLICACIONES
Facultad de Ciencias Veterinarias U.B.A.
Estadística Analítica Guía de Trabajos Prácticos
Área Bioestadística 2011 – 1er. Cuatrimestre
Cronograma 2011 Se 1
lunes Miér 9/3
2
14/3
3
21/3 Feriado Jue 24
4 5
28/3 Feriado Sáb 2/4 4/4
6
11/4
7
8
Jue: Revisión de conceptos relativos a inferencia. Intervalos de confianza y pruebas de hipótesis para la media de las diferencias y para la diferencia de medias de dos poblaciones. Mar: Revisión de conceptos relativos a inferencia. Intervalos de confianza y pruebas de hipótesis para la media de las diferencias y para la diferencia de medias de dos poblaciones. Jue: Intervalos de confianza y pruebas de hipótesis para la diferencia de proporciones de dos poblaciones y para el cociente de varianzas de dos poblaciones. Mar: Intervalos de confianza y pruebas de hipótesis para la diferencia de proporciones de dos poblaciones y para el cociente de varianzas de dos poblaciones. Prueba de hipótesis y estimación para dos poblaciones (integración) Diseño de experimentos – Análisis de Varianza Diseño Completamente Aleatorizado. Modelo paramétrico. Diseño Completamente Aleatorizado no paramétrico. Ejercitación
18/4 Mar: ejercitación y consulta. F SSan- En esta clase no se controlara la asistencia. ta 21 22 23 24 de Integración (sábado 30-4-11 parcial) 25/4
9
2/5
Estadístico de Chi cuadrado para pruebas de bondad de ajuste. Pruebas de Pruebas de Independencia. Estadístico de Chi cuadrado para Pruebas de Homogeneidad Ejercitación.
10
9/5
11
16/5
12
23/5 Feriado Mi 25/5
13 14
30/5 6/6
Ejercitación. Regresión Lineal Múltiple. Correlación Simple Paramétrica y no paramétrica
15
13/6
Integración. Revisión y consultas. (sábado 18-6-11 parcial)
16
20/6 Feriado Lu 20/6
17
27/6
Regresión Lineal Simple. Supuestos del Modelo y Estimadores. Dócima de hipótesis utilizando la t de Student Regresión Lineal Simple. Intervalos de confianza y predicción. Coeficiente de Determinación- ANOVA en la regresión.
Recuperatorio martes 28/6 a las 18 hs
II
Bibliografía Cantatore de Frank, Norma M.: Manual de Estadística Aplicada. Ed. Hemisferio Sur. 1ra. Edición. Buenos Aires. Capítulos: 4, 5, 6, 7, 8, 12 y 13. Cappelletti, Carlos A.: Elementos de estadística. Cesarini Hnos. Editores. 2da. Edición. Bs. As. Capítulos 8, 9, 10, 11, 13 y 14. Daniel, Wayne W.: Bioestadística. Base para el análisis de las ciencias de la salud. 3ra. Edición. Uteha, Noriega Editores. México. Capítulos: 5, 6, 8, y 10.
NOTA IMPORTANTE:
La cátedra publica solamente la GUIA DE TRABAJOS PRACTICOS y la GUIA DE FORMULAS Y TABLAS para la cursada de esta materia. Cualquier otra publicación NO CUENTA CON LA APROBACION DE LA CATEDRA.
III
Sistema de Evaluación de Elementos de Estadística Se tomarán dos parciales, que serán calificados en una escala de 0 a 10, en forma global. La condición de LIBRE se obtiene si en ambos parciales la calificación obtenida es inferior a 4 (cuatro), o cuando no se cumpla el requisito del 75% de concurrencia a las clases teórico-prácticas. La condición de ASISTENCIA CUMPLIDA se obtiene al cumplir el requisito de presentismo, correspondiente al 75% de concurrencia a las clases teóricoprácticas, o sea, como máximo 4 ausentes; y obtener como calificación: ♦ en ambos parciales, mayor o igual a 4 (cuatro) y menor de 6(seis) ♦ en un parcial, mayor o igual a 4 (cuatro) y menor de 6 (seis); y en el otro, menos de 4 (cuatro). No se recuperarán parciales para quedar en condición de ASISTENCIA CUMPLIDA. La condición de REGULAR se obtiene al cumplir el requisito de presentismo, correspondiente al 75% de concurrencia a las clases teórico-prácticas, o sea, como máximo 4 ausentes; y obtener como calificación: ♦ en ambos parciales, 6(seis), sin uso del examen recuperatorio. ♦ en un parcial 6 (seis) y en el otro, nota 7 (siete), sin uso del examen recuperatorio. ♦ en un parcial, inferior a 6 (seis); y en el otro, 6 (seis) o más. En este caso, deberá recuperar el parcial correspondiente a una calificación inferior a 6 (seis) y aprobarlo. La nota de aprobación del recuperatorio es 6 (seis). La condición de PROMOCIÓN se obtiene al cumplir el requisito de presentismo, correspondiente al 80% de concurrencia a las clases teórico-prácticas, o sea, como máximo 3 ausentes; y obtener como calificación: ♦ de al menos 7(siete) en ambos parciales, de tal forma que la suma de ambos puntajes sea mayor o igual a 14. ♦ en un parcial, de al menos 7 (siete), y en el otro, un puntaje desde 4 (cuatro) hasta menos de 6 (seis); pero que la suma de ambos sea de al menos 14 puntos. En este caso, se tomará un coloquio oral de los contenidos que involucra el parcial de menor puntaje para definir su situación, dependiendo ésta de la aprobación del mismo.
IV
Estadística Analítica 2010
Fac. Cs. Veterinarias (U.B.A)
Unidad 1: INFERENCIA para DOS POBLACIONES Objetivos específicos: • Comprender la importancia de diseñar experimentos. • Analizar la adecuación de cada diseño en función del contexto de la investigación. • Aplicar los conceptos de inferencia estadística a la comparación de dos poblaciones, utilizando como procedimientos la estimación y la prueba de hipótesis. • Seleccionar el procedimiento de inferencia adecuado en función del objetivo y del cumplimiento de los supuestos. • Resolver problemas e interpretar conclusiones aplicando los métodos de análisis sobre dos poblaciones. Contenidos temáticos: Diseño de experimentos: necesidad, ventajas, propósitos, definiciones previas. Tipos de diseños y alcances. Revisión de conceptos relativos a la estimación puntual y por intervalos. Intervalos de confianza para la diferencia de medias y para la media de las diferencias. Estimaciones para la diferencia de dos proporciones, para el cociente de varianzas, y para el cociente de desvíos estándar. Revisión de conceptos relacionados con las pruebas de hipótesis. Prueba de hipótesis para: diferencia de medias en base a dos muestras independientes: diferencia de medias, cociente de varianzas, diferencias de proporciones. Muestras apareadas: media de las diferencias. Relación entre intervalo de confianza y prueba de hipótesis bilateral. Aplicaciones. Glosario: Diseño de experimentos: experimento, unidad experimental, tratamiento, factor, niveles de un factor, observación, efecto. Repetición, aleatorización, control local. Estudios observacionales, preexperimentales, cuasiexperimentales y experimentales. Inferencia para dos poblaciones: Población, muestra. Parámetro. Estimador. Estimación. Estimador puntual. Intervalo. Intervalo de confianza. Nivel de confianza. Hipótesis de trabajo. Hipótesis estadística. Hipótesis nula y alternativa. Error tipo I y tipo II. Nivel de significación. Región crítica. Regla de decisión. Distribución F de Snedecor. Diferencia de medias y de proporciones, cociente de varianzas para muestras independientes. Muestras apareadas: media de las diferencias. El diseño de experimentos La ciencia, tiene como objetivo la explicación y la predicción de los hechos. Un requisito fundamental en toda ciencia fáctica es el contraste de las hipótesis planteadas, poniendo a prueba las mismas mediante una confrontación con la experiencia. El diseño experimental crea las condiciones para el contraste de la hipótesis y brinda la metodología estadística correspondiente para el análisis de los datos. Es el proceso de planear un experimento para obtener datos apropiados que puedan ser analizados mediante métodos estadísticos, con objeto de producir conclusiones válidas y objetivas. La metodología estadística es el único enfoque objetivo para analizar un problema que involucre datos sujetos a errores experimentales. Así es que hay dos aspectos en cualquier problema experimental: el diseño del experimento y el análisis estadístico de los datos. El propósito del diseño experimental es proporcionar la máxima cantidad de información pertinente al problema bajo investigación. Sin embargo también es importante que el diseño o plan sea tan simple como sea posible, a fin de ahorrar tiempo, dinero, personal y material experimental. Para que la metodología de diseño de experimentos sea eficaz es fundamental que el diseño sea el adecuado. Un experimento puede realizarse por alguno de los siguientes motivos: de
Determinar los factores principales que influyen sobre la variable respuesta. Encontrar las condiciones experimentales con las que se consigue un valor extremo en la variable interés o respuesta. Comparar las respuestas en diferentes niveles de observación de variables controladas. Obtener un modelo estadístico-matemático que permita hacer predicciones de respuestas futuras.
1
Estadística Analítica 2010
Fac. Cs. Veterinarias (U.B.A)
Para poder realizar un buen diseño experimental, es necesario previamente comprender el problema que se desea estudiar, planteándose un conjunto de preguntas clásicas: 1234-
¿Cuáles son las características que se van a analizar? ¿Qué variables afectan a las características que se van a analizar? ¿Cuántas veces debería repetirse el experimento? ¿A partir de qué valor se considerará que existe un efecto?
Lo cual conduce a elegir las variables más apropiadas y sus niveles de medición, elegir la o las respuestas a evaluar y el modelo de diseño. Para poder responder las preguntas anteriores es necesario que definamos claramente algunos términos fundamentales: Experimento: es un ensayo o una observación especial realizada para confirmar o descartar una hipótesis especialmente bajo condiciones establecidas por el experimentador. Variable de interés o respuesta: es la variable que se desea estudiar. Unidad experimental: es la parte más pequeña de material experimental, entidad física o sujeto, en la que se aplica un tratamiento una sola vez. También puede entenderse como cada una de las reproducciones del experimento. Tamaño del Experimento: es el número total de observaciones recogidas en la ejecución del experimento. Ejemplo: si se asignan 10 gallinas a cada una de tres dietas el tamaño del experimento es 30. Factor: es una variable que se sospecha que puede ejercer influencia sobre la variable respuesta de interés. Factor controlado: se denomina así a una variable manipulada por el investigador o variable independiente, a fin de estudiar su influencia sobre la variable de interés o dependiente. Algunos autores la denominan variable de entrada al proceso. Ejemplo: si pensamos que la temperatura o la humedad pueden afectar a la conservación de cierta propiedad de un alimento o medicamento, se puede controlar manteniendo dicho producto con tres valores distintos de temperatura. Niveles del factor: son cada una de las categorías, o valores, o formas específicas que adopta la variable independiente o controlada. Ejemplo: en el caso de las tres dietas, el factor dieta tiene tres niveles; en el caso del rodeo, el factor tiene dos niveles. Tipos de factores: existen factores cuantitativos, cuyos niveles son cantidades numéricas, y cualitativas, cuyos niveles son procedimientos o cualidades. Ejemplo de factor cuantitativo puede ser la cantidad de fertilizante adicionado a las parcelas de cultivo por hectárea con niveles: 10kg/ha – 20 kg/ha -30 kg/ha de fertilizante. Ejemplo de factor cualitativo puede ser el tipo de nutriente adicionado a una dieta con niveles: potasio, magnesio y calcio. Tratamiento: conjunto de condiciones experimentales o procedimientos creados para el experimento en función de la hipótesis de investigación a las que se someterá a las unidades experimentales en un diseño elegido. Es una combinación específica de los niveles de los factores de estudio en un diseño con varios factores, y son los distintos niveles del factor en el caso de un diseño unifactorial. Por ejemplo: si se asignan tres dietas distintas a las gallinas de un criadero, cada una de las dietas es un tratamiento. Si en un tambo se combinan tres raciones de alimentación dos rodeos con vacas en ordeñe (uno con vacas de alta producción y el otro con las de baja producción). Cada combinación de rodeo y ración constituye un tratamiento (6 tratamientos). Observación: valor que asume una variable, también denominada variable respuesta, en una determinada realización del experimento, es decir cada registro realizado en el contexto del experimento de la variable respuesta. Efecto: diferencia entre los valores medios de la variable respuesta en presencia y ausencia de un nivel del factor. Si la variable respuesta de interés es el engorde semanal medido en gramos de una gallina con cierta dieta enriquecida, el efecto es la diferencia entre el engorde medio con la dieta enriquecida y el engorde medio con la dieta tradicional, ambos medidos en gramos. Diseño equilibrado o balanceado: es el diseño en el que todos los tratamientos son asignados a un número igual de unidades experimentales, en el cual se obtiene la misma cantidad de repeticiones por tratamiento. Por ejemplo hay cuatro vacas en cada combinación de rodeo y nutriente para el agua. Principios Básicos del diseño experimental Los tres principios básicos que caracterizan a un diseño experimental:
2
Estadística Analítica 2010
Fac. Cs. Veterinarias (U.B.A)
♦ Repetición: cuando un tratamiento es aplicado a más de una unidad experimental. Las observaciones repetidas con las mismas condiciones experimentales en el contexto de un experimento no coinciden necesariamente, y por lo tanto una de las cuestiones fundamentales a la hora de diseñar un experimento es la selección del tamaño de muestra o número de repeticiones adecuado en cada contexto. Las razones por las cuales es deseable realizar repeticiones del experimento son: a- Proporcionar una estimación del error experimental (error generado por causas no controladas por el experimentador), que actúa como unidad básica de medida para indicar el significado de las diferencias. b- Obtener mayor precisión en la estimación. c- Permitirnos extender el alcance de la inferencia relativa al experimento. El error experimental según el contexto puede reflejar: • errores de experimentación • errores de observación • errores de medición • variación del material experimental El error experimental puede reducirse generalmente adoptando una o más de las técnicas siguientes: • usando material experimental tan homogéneo como sea posible. • utilizando información proporcionada por otras variables aleatorias • teniendo cuidado al dirigir el experimento • usando un diseño experimental más eficiente. ♦ Aleatorización: Todo procedimiento de prueba se basa en un conjunto de supuestos que deben satisfacerse para que la prueba resulte válida. Una de las suposiciones más frecuentes es que las observaciones, o los errores en ellas, están distribuidos independientemente. Dicho en otras palabras la aleatorización hace válida la prueba. ♦ Control local: Se denomina de esta manera al conjunto de acciones que implementa el investigador con el fin de reducir al máximo posible el error experimental manteniéndolo en un rango de variación manejable. Por ejemplo: selección de unidades experimentales homogéneas, división en bloques, calibración de instrumentos, etc. Tipos de estudios de investigación Los estudios observacionales son un conjunto de estudios en los que no hay intervención por parte del investigador y este se limita a medir las variables que define en el estudio. Por ejemplo, los estudios epidemiológicos. Ventajas de los estudios observacionales 1. Son más prácticos y factibles de realizar, ya que la cooperación de los sujetos es menos necesaria. 2. Sus resultados son más generalizables a poblaciones, geográfica o demográficamente definidas. Inconvenientes de los estudios observacionales 1. Escaso control de las influencias de los factores de confusión sobre los resultados del estudio. (Los factores de confusión son factores no tenidos en cuenta que pueden llegar a modificar los resultados de un análisis). 2. Debido a la falta de control por parte del investigador, cada estudio observacional tiende a ser único, siendo muy difícil reproducir los resultados por otro investigador. Los estudios pre-experimentales se caracterizan por analizar una única variable y prácticamente no existe ningún tipo de control. No existe manipulación de la variable independiente ni se utiliza el grupo de control; por consiguiente son escasas las posibilidades de que este grupo sea representativo de los demás. Este tipo de diseño consiste en administrar un tratamiento o estímulo en la modalidad de solo pre-prueba / posprueba.
3
Estadística Analítica 2010
Fac. Cs. Veterinarias (U.B.A)
Un estudio de intervención, también llamado estudio experimental, es un estudio caracterizado por la manipulación artificial del factor de estudio por el investigador y por la aleatorización de los casos o sujetos en dos grupos, llamados control y tratado. Cuando la característica de la aleatorización en el estudio no se cumple, se dice que el estudio es cuasiexperimental. La falta de aleatorización de los estudios cuasiexperimentales indica que no existe manera de asegurar la equivalencia inicial de los grupos denominados experimental y de control. También es usual que, en un experimento, se utilicen controles históricos. El problema que presenta este tipo de diseño es que el grupo actualmente en tratamiento puede presentar importantes diferencias relativas al tratamiento respecto al grupo de control histórico. Los trabajos con controles históricos están generalmente sesgados a favor del tratamiento, mientras que los experimentos aleatorios evitan este tipo de sesgo. PROBLEMA RESUELTO
1) Gracias a la técnica de la ecografía, los bebés pueden actualmente ser observados mientras están en el seno materno. Sin embargo, gran cantidad de experimentos desarrollados en animales de laboratorio dieron como resultado que la aplicación de ultrasonidos podía ser la causa de que el peso al nacer fuese inferior al normal. Ante el temor de que esta conclusión fuese aplicable a los humanos, un grupo de especialistas del Hospital John Hopkins de Baltimore puso en marcha un estudio para investigar el tema. En el mismo se observó el peso al nacimiento de los bebés que estuvieron expuestos a controles ecográficos (ultrasonido) y de los que no estuvieron expuestos. También en este caso los bebés expuestos al ultrasonido durante el embarazo pesaban en su mayoría al nacer menos que aquellos que no lo habían estado, pero un dato a tener en cuenta es que los obstetras recomendaban el ultrasonido cuando sospechaban que el embarazo no se desarrollaba con normalidad. a) ¿Se trata de un estudio observacional o experimental? ¿Por qué? b) ¿Puede concluirse que el ultrasonido influye sobre el peso del nacimiento? Solución: a) Se trata de un estudio observacional, porque no hay intervención del investigador. b) Los bebés expuestos al ultrasonido y los no expuestos presentaban diferencias que no tenían nada que ver con el hecho de ser tratados o no. De modo tal que los investigadores tuvieron un conjunto de factores de confusión con el cual enfrentarse. La conclusión del estudio fue, por lo tanto, que las ecografías y el menor peso de los bebés tenían una causa común: problemas durante el embarazo.
4
Estadística Analítica 2010
Fac. Cs. Veterinarias (U.B.A)
PROBLEMAS RESUELTOS 1) Mediante la siguiente experiencia se quiere determinar si una droga reduce el nivel promedio de glucosa en sangre (glucemia) en una línea de ratas diabéticas. Se tomaron al azar 40 ratas de esta línea y se les suministró la droga (grupo tratado). Al mismo tiempo se tomaron otras 30 ratas de la misma línea y se les suministró un placebo (grupo control). Los niveles sanguíneos de glucosa (mg/ml) en las ratas fueron: 1,82 1,41 1,60 1,68
1,89 1,88 1,70 1,57
1,39 1,88 1,69 1,91
Tratadas con droga 1,79 1,27 1,73 2,01 1,74 1,91 1,66 1,93 1,56 1,93 1,70 1,74 1,94 1,62 1,44 1,68 1,99 1,82 1,83 1,60 1,58 2,12 1,61 1,91
1,52 2,16 1,40 1,70
Tratadas con placebo 2,15 1,91 1,93 2,22 2,18 1,75 1,93 2,03 2,37 1,65 2,09 1,75 2,00 2,23 2,10 1,95 2,18 1,95 1,92 2,01 2,48 1,67 2,23 1,96 1,87 2,06 2,00 2,26 1,94 1,89
a) ¿Es la droga efectiva para reducir el nivel promedio de glucosa en sangre, al 5%? Asuma que la droga no modifica la varianza poblacional del nivel de glucosa en sangre, y que ésta es conocida, sim2 2 2 2 bólicamente σ droga=σ placebo =0,04 mg /ml b) Construya un intervalo de confianza del 95% para la diferencia entre la media poblacional de la glucemia de las ratas tratadas con droga y la media poblacional de la glucemia de las ratas tratadas con placebo. Datos del problema: • Variables en estudio X1: nivel de glucosa de una rata diabética de la línea, tratada con droga, en mg/ml X2: nivel de glucosa de una rata diabética de la línea, tratada con placebo, en mg/ml •
Tamaños de las muestras: n1= 40 y n2= 30
•
Varianzas poblacionales: Conocidas e iguales. (σ 1=σ
•
Nivel de significación: α=0,05
•
Nivel de confianza: 1-α=0,95
2
2
2
2
2
=0,04 mg /ml )
Solución: a) • La hipótesis de trabajo que se desea poner a prueba es: “El empleo de la droga disminuye el nivel medio de glucosa en sangre de ratas diabéticas de la línea” • Verificación de supuestos: Para poder plantear las hipótesis estadísticas y poder llevar a cabo la prueba, hay que verificar los supuestos teóricos necesarios. En este caso, los supuestos son que ambas variables (X1 y X2) sean independientes y se distribuyan normalmente. El supuesto de independencia se cumple por la forma en que se realizó el experimento: a un grupo de ratas se le suministró la droga y a otro grupo, también tomado al azar, se lo trató con placebo. Para X1: se realizó un gráfico de cuantil-cuantil (qqplot) para visualizar el comportamiento distribucional de la variable. Nota: En este gráfico se comparan dos distribuciones, la de los datos muestrales y la de una normal. Para describir el hecho de que los datos se distribuyen de manera normal, hay que observar que los puntos estén alineados sobre la recta.
5
Estadística Analítica 2010
Fac. Cs. Veterinarias (U.B.A)
Observando el gráfico se puede ver que los puntos no se alejan notoriamente de la recta, sin embargo, por ser un gráfico, no se puede hacer inferencia sobre el comportamiento distribucional de la variable a nivel poblacional. Para poder concluir a nivel poblacional es necesario un test de normalidad. En Elementos de Estadística se estudió la prueba Shapiro-Wilks, para verificar normalidad, y cuyas hipótesis son:
Qqplot Cuantiles observados(X1)
2.17
1.95
1.72
1.50
H 0 : X 1se distribuye normal H1 : X 1 no se distribuye normal
1.27 1.27
1.50
1.72
1.95
2.17
Cuantiles de una Normal(1.7328,0.04161)
Al realizar el test, utilizando InfoStat, se obtuvieron los siguientes resultados: Shapiro-Wilks (modificado) Variable n X1 40
Media D.E. 1.73 0.20
W* 0.97
p (una cola) 0.7731
Como p-valor= 0,7731 y es mayor que α=0.05, no se rechaza la hipótesis nula, por lo tanto, con un nivel de significación del 5% se puede decir que la variable X1 (nivel de glucosa en sangre de una rata tratada con droga, en mg/ml) se distribuye normalmente. Análogamente se estudia la normalidad de la variable X2: Qqplot Cuantiles observados(X2)
2.48
H 0 : X 2 se distribuye normal H1 : X 2 no se distribuye normal
2.27
2.05
Shapiro-Wilks (modificado) Variable n Media D.E. X2 30 2.02 0.20
1.84
W* p (una cola) 0.97 0.7739
1.62 1.62
1.84
2.05
2.27
2.48
Cuantiles de una Normal(2.022,0.038086)
Como p-valor= 0,7739 y es mayor que α=0,05, no se rechaza la hipótesis nula, por lo tanto, con un nivel de significación del 5% se puede decir que la variable X2 (nivel de glucosa en sangre de una rata tratada con placebo, en mg/ml) se distribuye normalmente. Una vez verificado el supuesto teórico se puede seguir adelante con la prueba. Nota: si, por experiencias previas o por información previa, se sabe que se verifican los supuestos, este ítem no es necesario. •
Hipótesis estadísticas. El interés del investigador es probar si la droga disminuye el nivel medio de glucosa en sangre, por lo tanto quiere saber si la media del nivel de glucosa en sangre de ratas tratadas con droga es menor que la media del nivel de glucosa en sangre de las ratas tratadas con placebo. Simbólicamente: µ1 < µ 2 , esta expresión no lleva el signo igual, por lo tanto debe corresponder a
la hipótesis alternativa. Es decir que las hipótesis estadísticas son:
H 0 : µ1 ≥ µ 2 equivalentemente podría escribirse H1 : µ1 < µ 2
H 0 : µ1 − µ 2 ≥ 0 o también H1 : µ1 − µ 2 < 0
H 0 : µ 2 − µ1 ≤ 0 H1 : µ 2 − µ1 > 0
cualquiera de estas formas expresan las mismas hipótesis estadísticas. Sin embargo hay que elegir una expresión para poder continuar con la prueba manteniendo la elección a lo largo de todo el análisis y por sobre todo concluir para las hipótesis elegidas. Si esto no se mantiene deja de tener vali-
6
Estadística Analítica 2010
Fac. Cs. Veterinarias (U.B.A)
dez la prueba o peor aún, se podría estar concluyendo erróneamente. En este caso se va a trabajar
H 0 : µ1 ≥ µ 2 H1 : µ1 < µ 2
con: •
Nivel de significación: α=0.05
•
Estadístico de prueba (o variable pivotal) Se está realizando un test de hipótesis para la diferencia de medias poblacionales, por lo cual se cuenta con dos opciones al elegir la variable pivotal: Z o t de Student, dependiendo del hecho de conocer o no las varianzas poblacionales. En este caso las varianzas poblacionales son conocidas e iguales, por lo tanto se utiliza una Z, con la siguiente expresión: Z
=
(X
1
− X 2 ) − ( µ1 − µ2 )
σ 12 n1
+
σ 22
~N (0; 1) .
n2
• Región crítica: Observando la hipótesis alternativa (del par de hipótesis elegidas), se ve que la región crítica es unilateral izquierda. Por lo tanto el valor crítico es: Z 0,05 = −1, 64 y la región crítica es: Z H 0 ≤ −1, 64 •
Regla de decisión: Rechazo H0 si
Z H 0 ≤ −1, 64
No rechazo H0 si
Z H 0 > −1, 64
•
Cálculo de ZHo: Hasta este momento no fueron necesarias las muestras, excepto en la verificación de supuestos, sin embargo se podría haber hecho con muestras piloto y recién en esta instancia extraer las muestras para el análisis. Antes de calcular el valor del estadístico de prueba hay que calcular las medias muestrales utilizando las fórmulas dadas en la unidad de estadística descriptiva de Elementos de Estadística:
X 1 = 1, 73; X 2 = 2, 02 . Hay que tener en cuenta que la prueba se está realizando bajo la hipótesis
nula que contiene el caso en que las medias poblacionales son iguales, por lo tanto la diferencia de las medias poblacionales es cero, es decir que µ1 − µ 2 = 0 . Reemplazando estos valores y el resto de la información en la fórmula nos queda:
Z H0 =
(X
1
− X 2 ) − ( µ1 − µ2 )
σ
2 1
n1 •
+
σ
2 2
n2
=
(1, 73 − 2, 02 ) − 0 = 0, 04 0, 04 + 40 30
−0, 29 −0, 29 = = −6, 017 0, 001 + 0, 00133 0, 0482
Decisión: Se rechaza la hipótesis nula porque Z Ho = -6, 017 , es menor que –1,64, o sea que
ZCALCULADO < ZCRITICO. • Conclusión: Con un nivel de significación de 5% tengo evidencia suficiente para rechazar la hipótesis nula ( H 0 : µ1 ≥ µ 2 ), por lo tanto la media poblacional del nivel de glucosa en sangre de ratas diabéticas tratadas con droga es menor que la media poblacional del nivel de glucosa en sangre de ratas diabéticas tratadas con placebo, en estas poblaciones de ratas diabéticas en estudio. Por lo tanto puedo decir que la droga es efectiva. b) La fórmula del intervalo del 95% que se está pidiendo se despeja de la variable pivotal y es:
σ 12 σ 22 σ 12 σ 22 + ;( X 1 − X 2 ) + Z1−α / 2 + ( X 1 − X 2 ) − Z1−α / 2 n1 n2 n1 n2 reemplazando se obtiene que
7
Estadística Analítica 2010
Fac. Cs. Veterinarias (U.B.A)
0, 04 0, 04 0, 04 0, 04 + + ; (1, 73 − 2, 02) + 1,96 (1, 73 − 2, 02) − 1,96 = 40 30 40 30 −0, 29 − 1,96 0, 0023; − 0, 29 + 1,96 0, 0023 = [ −0, 29 − 0, 0939; − 0, 29 + 0, 0939] = [ −0,3839; − 0,1961] Por lo el tanto intervalo de confianza para la diferencia de medias poblacionales
[ -0,3839mg/ml; -0,1961mg/ml]
µ1 − µ 2 es:
Conclusión: Con un nivel de confianza del 95%, se espera que el intervalo [-0,3839mg/ml; -0,1961 mg/ml] cubra o contenga a la diferencia entre la media poblacional del nivel de glucosa de las ratas tratadas con droga y la media poblacional del nivel de glucosa de las ratas tratadas con placebo, en estas poblaciones de ratas diabéticas en estudio. NOTA: Observemos que el 0 (cero) no está incluido en el intervalo de confianza, y que ambos límites son negativos, lo cual es indicador de que la diferencia es negativa. Sin embargo, hay que tener en cuenta que el IC no es equivalente porque la prueba es unilateral. 2) Se tomó una muestra aleatoria de 21 cerdos Yorkshire del norte de la provincia de Buenos Aires. Los mismos tenían 3 meses de edad y pesos homogéneos, y se los separó, aleatoriamente, en dos lotes. Al lote 1 se le asignó una ración estándar (A) y al lote 2 otra con distinta formulación (B). La siguiente tabla contiene las ganancias de peso de cada animal, luego de 30 días de experiencia, expresadas en kg. Lote 1 Lote 2
24 26
26 32
25 28
23 25
28 29
27 27
28 28
24 27
29 27
29 28
30
Por estudios anteriores se sabe que ambas variables se distribuyen normalmente con varianzas iguales, pero desconocidas. a) ¿Se puede suponer, al 5%, que la ganancia media de peso de los animales alimentados con la ración B supera significativamente la ganancia media de peso de los animales alimentados con ración A? b) Construir un intervalo para la diferencia de medias al 95%. ¿Qué puede concluir? Datos del problema: • Variables en estudio: XA: ganancia de peso de un cerdo Yorkshire de 3 meses de edad del norte de la provincia de Bs. As. alimentado con la ración estándar A XB: ganancia de peso de un cerdo Yorkshire de 3 meses de edad del norte de la provincia de Bs. As. alimentado con la formulación distinta B •
Tamaños de las muestras: nA=10 y nB=11
•
Varianzas Poblacionales: σA =σB =σ (desconocidas)
•
Nivel de significación: α=0,05
•
Nivel de confianza: 1-α=0,95
2
2
2
Solución a) • Hipótesis de trabajo: “La ganancia media de peso de los animales alimentados con la ración B supera la ganancia media de peso de los animales alimentados con ración A” • Verificación de supuestos: En este caso, a diferencia del ejercicio anterior, en el enunciado se asegura la normalidad de ambas variables, por estudios anteriores. Por lo tanto no es necesaria la prueba de Shapiro–Wilks para verificarla porque es un dato que nos provee el investigador. Por otro lado el supuesto de independencia también se cumple por la forma en que se realizó el experimento: a un grupo de cerdos, tomado al azar, se lo alimenta con la ración A y al otro grupo, también tomado al 2 2 azar, se lo alimentó con la ración B. Es decir que: XA ∼ N (µA, σ ) y XB ∼ N (µB, σ ) son variables aleatorias independientes. Observar que ambas variables tiene la misma varianza poblacional.
8
Estadística Analítica 2010
•
Fac. Cs. Veterinarias (U.B.A)
Hipótesis estadísticas: La hipótesis de trabajo simbólicamente nos lleva a la expresión:
µ B > µ A , por
lo tanto esta corresponde a la hipótesis alternativa, ya que no contiene la igualdad.
H 0 : µB ≤ µ A como en el ejercicio anterior, existen muchas forma diferentes de plantear la misma H1 : µ B > µ A H 0 : µB − µ A ≤ 0 hipótesis, como por ejemplo: y otras más. En este caso, se trabajará con la segunda H1 : µ B − µ A > 0 expresión y se concluirá para esta expresión: •
H 0 : µB − µ A ≤ 0 H1 : µ B − µ A > 0
Nivel de significación: α=0,05
• Variable pivotal: En este caso, como en el ejercicio anterior, se está realizando un test para la diferencia de medias poblacionales, por lo tanto hay dos opciones para la variable pivotal (Z o t-Student). Como las varianzas poblacionales son desconocidas no se puede utilizar la variable Z, por lo tanto se utilizará la variable pivotal t de Student, cuya fórmula es:
t=
(X
B
− X A ) − ( µB − µ A ) Sa
1 1 + nA nB
~t( nA + nB − 2) . Donde
Sa es la raíz cuadrada positiva de la varianza amalgamada, es decir que es un promedio ponderado entre la varianza muestral de la variable XA y la varianza muestral de la variable XB y estima a la única varianza 2 poblacional que se desconoce, σ . • Región crítica: Observando la hipótesis alternativa planteada se deduce que la región crítica es unilateral derecha (es decir que se rechaza la hipótesis nula a valores grandes de la variable pivotal). El valor crítico que se utiliza es tnA + nB − 2;1−α = t10+11− 2;0,95 = t19;0,95 = 1, 729 , por lo tanto la región crítica es:
t ≥ 1, 729 . Gráficamente:
t H 0 ≥ 1, 729 y no rechazo H0 si t H 0 < 1, 729
•
Regla de decisión: Rechazo H0 si
•
Cálculo: Para obtener el valor calculado del estadístico de prueba, hay que realizar ciertos cálcu2
los auxiliares ( X A ; X B y S a ) utilizando las fórmulas habituales para las medias y las varianzas muestrales, y la siguiente fórmula para la varianza amalgamada:
S a2 = Se obtuvo: X A
= 26, 3 ; X B = 27,91 ; S A2 = 4,90 ; S B2 = 3, 69 y
Sa = 2
por lo tanto
(nA − 1) S A2 + (nB − 1) S 22 nA + nB − 2
(9)4,90 + (10)3, 69 44,1 + 36,9 = = 4, 26 10 + 11- 2 19
S a = 2, 06
Reemplazando estos valores en la fórmula de la variable pivotal queda:
tH0 =
(X
B
− X A ) − ( µB − µ A ) Sa
1 1 + nA nB
=
( 27,91 − 26,3) − 0 = 2, 06
1 1 + 10 11
1, 61 1, 61 1, 61 = = = 1, 78 21 2, 06*0, 44 0,906 2,06 110 9
Estadística Analítica 2010
Como
Fac. Cs. Veterinarias (U.B.A)
t H 0 = 1, 78 y utilizando la regla de decisión se rechaza la hipótesis nula ya que 1,78 es mayor
que 1.729. • Conclusión: Con un nivel de significación del 5% tengo evidencia suficiente para rechazar la hipótesis nula (Ho: µB - µA ≤ 0), por lo tanto, la diferencia entre la media poblacional de la ganancia de peso de los cerdos alimentados con la ración B y la media poblacional de la ganancia de peso de los cerdos alimentados con la ración A es mayor a cero, en estas poblaciones de cerdos de 3 meses de raza Yorkshire del norte de la provincia de Buenos Aires. • Respuesta: Se puede suponer, al 5%, que la ganancia media poblacional del peso de los cerdos alimentados con la ración B supera significativamente a la media poblacional del peso de los cerdos alimentados con la ración A. Para este problema, la salida de InfoStat correspondiente es: Prueba T para muestras Independientes Gr(1) Gr(2) n(1) n(2) media(1) media(2) {A} {B} 10 11 26,30 27,91
p(Var.Hom.) 0,6623
T -1,78
p prueba 0,0452 UnilatI
Nota: InfoStat compara grupos en orden alfabético, por lo cual la prueba es unilateral izquierda, o sea que utiliza H1: µA-µB<0. Para la comparación es indistinta la forma en que se plantea la diferencia, siempre que se respete el sentido de la misma. El valor de t observado es el mismo que obtuvimos al aplicar la fórmula, pero de signo opuesto, por haber invertido el orden de la diferencia. Como puede verse, al realizar la Prueba T para muestras independientes, también se realiza una prueba para evaluar la Homogeneidad de Varianzas, el p-valor es 0,6623, por lo que se cumple este supuesto. En este caso, en que la región crítica es unilateral izquierda, el cálculo del p valor es:, p valor= P(t ≤ V.Calc.) = P(t19≤ -1,78)
Ahora, si consideramos la región crítica derecha que planteamos al principio, el p valor se grafica y se calcula de la siguiente forma, dado que la región crítica es unilateral derecha: p valor= P(t ≥ V.Calc) = P(t19≥ 1,78)
b) La fórmula del intervalo de 95% de confianza para la diferencia de medias se deduce de la fórmula de la variable pivotal:
1 1 1 1 + ;( X B − X A ) + tnA + nB − 2;1−α / 2 Sa + ( X B − X A ) − tnA + nB − 2;1−α / 2 Sa nA nB n A nB Reemplazando con los valores correspondientes queda:
1 1 1 1 + ;(27,91 − 26,3) + t10+11− 2;0.975 * 2, 06 + = (27,91 − 26,3) − t10 +11− 2;0.975 * 2, 06 10 11 10 11 [1, 61 − 2, 093* 2, 06 *0, 44 ; 1, 61 + 2, 093* 2, 06* 0, 44] = [1, 61 − 1,90 ; 1, 61 + 1,90] = [ −0, 29;3,51] Por lo tanto el intervalo pedido es: [-0,29 Kg ; 3,51 Kg] Conclusión: Con un nivel de confianza del 95% se espera que el intervalo [-0,29 Kg ; 3,51 Kg] cubra o contenga a la diferencia entre la media poblacional del peso de los cerdos alimentados con la ración B y la media poblacional del peso de los cerdos alimentados con la ración A, en estas poblaciones de cerdos Yorkshire de 3 meses de la provincia de Buenos Aires.
10
Estadística Analítica 2010
Fac. Cs. Veterinarias (U.B.A)
Nota: En este caso el p valor < nivel de significación, y sin embargo el 0 (cero) pertenece al IC. Recordar que la prueba es unilateral derecha, mientras que el IC es bilateral.
3) En un experimento referido al uso de la vitamina B12 en casos de anemia perniciosa durante el período de remisión, se administró, por vía intramuscular, 30 µg de B12 a un total de 10 pacientes tomado al azar. En ellos se midió la concentración de hemoglobina en sangre (mg%) en dos momentos, al inicio del tratamiento y luego de tres meses. Los valores observados se muestran en la siguiente tabla: Paciente Hemoglobina (mg%)
1
2
3
4
5
6
7
8
9
10
Inicial (I)
12,2 11,3 14,7 11,4 11,5 12,7 12,3 13,0 12,7 13,0
Después de 3 meses (F, o final)
13,0 13,4 16,0 13,6 14,0 13,0 14,2 15,1 15,9 14,5
¿Hay aumento significativo de hemoglobina después del tratamiento al nivel del 5%? Datos del problema: • Variable en estudio: D: diferencia entre la concentración de hemoglobina en sangre (en mg%) al inicio del tratamiento con vitamina B12 y la concentración de hemoglobina en sangre (en mg%) después de tres meses del tratamiento con vitamina B12, de un paciente con anemia perniciosa. En símbolos: di = ii - fi En la siguiente tabla están calculados los valores correspondientes a la diferencia planteada: di
-0,8
-2,1
-1,3
-2,2
-2,5
-0,3
-1,9
-2,1
-3,2
-1,5
Nota: En este caso se utilizará: di = ii - fi, pero también se podría haber definido la variable como di = fi ii . La definición de esta variable debe quedar clara al comienzo de la resolución del ejercicio y debe mantenerse a lo largo del mismo. •
Nivel de significación: α=0,05
Solución: •
Hipótesis de trabajo: “Hay aumento significativo del nivel de hemoglobina después del tratamiento”
Antes de plantear las hipótesis estadísticas hay que analizar la situación planteada, ya que no es igual a las anteriores, dado que no hay independencia entre las mediciones realizadas, ya que se realizaron en cada individuo, al inicio y al finalizar los 3 meses de aplicado el tratamiento con vitamina B12. Por esta razón no se van a comparar las medias en los diferentes tiempos, sino que se va estudiar la variable diferencia. • Verificación de supuestos: En este caso, solamente hay que probar la normalidad de la variable Di. El otro supuesto teórico corresponde a la no independencia entre las mediciones, o sea, X1 y X2 no son independientes. Qq plot
H 0 : D se distribuye normal H1 : D no se distribuye normal Shapiro-Wilks (modificado) Variable n Media D.E. W* D 10 -1,79 0,84 0,97
p (una cola) 0,9425
Cuantiles observados(D)
-0,30
-1,02
-1,75
-2,48
-3,20 -3,20
-2,48
-1,75
-1,02
-0,30
C uantiles de una Norm al(-1,79,0,70989)
11
Estadística Analítica 2010
Fac. Cs. Veterinarias (U.B.A)
Como 0,9425 es mayor que 0,05, no se rechaza la hipótesis nula. Entonces, con un nivel de significación del 5% se puede concluir que la diferencia entre la concentración de hemoglobina en sangre (mg%) al inicio del tratamiento con vitamina B12 y la concentración de hemoglobina en sangre (mg%) luego de 3 meses de tratamiento con vitamina B12 en pacientes con anemia perniciosa se distribuye normalmente. Simbólicamente
D ~N ( µ , σ D2 )
• Hipótesis estadísticas: si el tratamiento produce un aumento en el nivel de hemoglobina en sangre, los niveles de hemoglobina medidos a los 3 meses deberían ser mayores que los medidos al inicio del tratamiento, es decir que la variable D = I – F, tendría una media negativa. Simbólicamente µ D < 0 . La orientación de esta hipótesis depende exclusivamente de la definición de la variable en estudio, por esta razón debe quedar clara la forma en que se realiza la diferencia entre Ii y Fi. Esta expresión no contiene al signo igual, por lo tanto corresponde a la hipótesis alternativa, es decir que las hipótesis estadísticas son: •
H 0 : µD ≥ 0 H1 : µ D < 0
Variable pivotal: Por ser una prueba de medias apareadas la única opción para la variable pivotal
es una t de Student con la siguiente fórmula:
t=
d − µd ~tn −1 . Observar que esta expresión es la sd n
misma que la utilizada en Elementos de Estadística para estudiar una población, la variable estudiada es D, su media muestral es
d y su varianza muestral es S D2 .
• Región crítica: Observando la hipótesis alternativa planteada, se ve que la región critica es unilateral izquierda, con valor crítico: tn −1;0,05 = t10 −1;0,05 = t9;0,05 = −t9;0,95 = −1,83 (los grados de libertad son 10-1, porque hay 10 diferencias). Por lo tanto, la región crítica queda definida como t ≤ −1,83 . Gráficamente:
t H 0 ≤ −1,83 y no rechazo H0 si t H 0 > −1,83
•
Regla de decisión: Rechazo H0 si
•
Cálculo: Para obtener el valor calculado del estadístico de prueba hay que realizar ciertos cálculos
auxiliares ( d
y sD2 ), utilizando las fórmulas habituales para la media muestral y la varianza muestral,
sobre las 10 diferencias. Utilizando los valores calculados para di (ver la tabla correspondiente al plantear la forma de realizar la misma), se obtuvo
d = −1, 79 y sD2 = 0, 71 , reemplazando en la fórmula de la variable pivotal: −1, 79 −1, 79 tH0 = = = −6, 7 . 0,84 0, 26 10
Como –6,7 es menor que –1,83 se rechaza la hipótesis nula. • Conclusión: Con un nivel de significación del 5% tengo evidencia suficiente para rechazar la hipótesis nula ( µ D ≥ 0 ), por lo tanto la media poblacional de las diferencias entre la concentración de hemoglobina en sangre (mg%) de pacientes con anemia perniciosa al inicio del tratamiento y la concentración de hemoglobina en sangre (mg%) de pacientes con anemia perniciosa después de tres meses de iniciado el tratamiento con vitamina B12 es menor que cero, en la población de pacientes con anemia perniciosa. Por lo cual la hemoglobina aumenta significativamente luego del tratamiento con vitamina B12. • A continuación se da la salida del programa InfoStat para este problema, en donde aplicaremos el concepto del valor p, explicado en la página anterior:
12
Estadística Analítica 2010
Prueba T para un parámetro Valor del parámetro probado: 0 Variable n Media DE T D 10 -1,79 0,84 -6,72
Fac. Cs. Veterinarias (U.B.A)
p(Unilateral I) <0,0001
Como el p-valor<0.0001<0,05, entonces Rechazo H0, siendo esta la misma decisión obtenida anteriormente. Nota: con un p-valor tan pequeño puede decirse que esta es una decisión “fuerte“. Para el caso de que la región crítica sea unilateral izquierda, el cálculo del p valor es: p valor= P(t ≤ V.Calc.)
Nota: Al comienzo del ejercicio se definió la variable diferencia como: di = ii - fi, Se recomienda realizar de nuevo la prueba, pero definiendo de la otra forma a la variable y observar qué se modifica y qué permanece igual. 4) En las poblaciones de adultos y adolescentes que veían un programa de televisión los sábados a la noche se tomaron sendas muestras al azar de 400 y 600 individuos, respectivamente. A la pregunta “si realmente les gustaba el programa”, 100 adultos y 300 adolescentes, de estas muestras, contestaron que sí. a) Estimar puntualmente y con una confianza del 95% la diferencia entre las proporciones de adultos y adolescentes que ven el programa y les gusta. b) Probar, al 5%, si ambas proporciones son iguales. Datos del problema •
Variable en estudio:
X1: Cantidad de adultos que ven el programa los sábados a la noche y les gusta, en una muestra de 400. X2: Cantidad de adolescentes que ven el programa los sábados a la noche y les gusta, en una muestra de 600. •
Tamaños de muestras: n1 = 400; n2 = 600
•
Nivel de confianza: 1 – α = 0,95.
Solución: a) Antes de comenzar a construir el intervalo hay que verificar los supuestos teóricos. • Supuestos teóricos: En este caso, a diferencia de los ejercicios anteriores, el supuesto teórico es la Binomialidad de ambas variables. La verificación de este supuesto es más sencilla que la verificación de la normalidad de las variables, ya que solamente hay que verificar que las variables cumplan con las condiciones de una variable binomial, es decir: Que cada repetición del experimento tenga dos resultados posibles (éxito y fracaso). Si lo aplicamos al ejemplo veremos que las dos posibles respuestas que podemos obtener, al encuestar a una persona, son: “que le guste el programa del sábado a la noche” y “que no le guste el programa del sábado a la noche”. Que los resultados (éxito y fracaso) sean mutuamente excluyentes en una misma repetición. Que los resultados (éxito y fracaso) sean independientes de repetición en repetición. Que el número de repeticiones esté prefijado de antemano y que la probabilidad de éxito sea constante a lo largo de todas las repeticiones del experimento aleatorio. En este caso ambas variables cumplen con estas condiciones. • Estimación puntual: Lo que se quiere estimar es: ”la diferencia entre las proporciones poblacionales de adultos y adolescentes que ven el programa y les gusta”, simbólicamente: p1-p2. Por lo tanto la estimación puntual de esta diferencia es la diferencia entre las proporciones estimadas, pˆ1 − pˆ 2 .
13
Estadística Analítica 2010
pˆ1 =
Fac. Cs. Veterinarias (U.B.A)
cantidad de adultos que ven el programa los sábados a la noche y les gusta 100 = = 0, 25 cantidad total de adultos 400
pˆ 2 =
cantidad de adolescentes que ven el programa los sábados a la noche y les gusta 300 = = 0,5 cantidad total de adolescentes 600
Por lo tanto la estimación puntual es:
pˆ1 − pˆ 2 = 0, 25 − 0,5 = −0, 25
• Intervalo de confianza: La fórmula del intervalo de confianza para la diferencia de proporciones se deduce de la única variable pivotal posible, cuya fórmula es:
Z=
pˆ1 − pˆ 2 − ( p1 − p2 ) x x d → N (0, 1) donde pˆ1 = 1 y pˆ 2 = 2 n1 n2 pˆ1 (1 − pˆ1 ) pˆ 2 (1 − pˆ 2 ) + n1 n2
Por lo tanto la fórmula del intervalo es:
( pˆ1 − pˆ 2 ) − Z1−α 2
pˆ1 (1 − pˆ1 ) pˆ 2 (1 − pˆ 2 ) + ; ( pˆ1 − pˆ 2 ) + Z1−α 2 n1 n2
pˆ1 (1 − pˆ1 ) pˆ 2 (1 − pˆ 2 ) + n1 n2
Reemplazando: 0, 25 (1 − 0, 25 ) 0,5 (1 − 0,5 ) 0, 25 (1 − 0, 25 ) 0,5 (1 − 0,5 ) + ; ( 0, 25 − 0,5 ) + 1,96 + ( 0, 25 − 0,5 ) − 1,96 = 400 600 400 600
0,1875 0, 25 0,1875 0, 25 = −0, 25 − 1,96 + ; −0, 25 + 1,96 + = 400 600 400 600 = [ −0, 25 − 1,96 *0, 03; −0, 25 + 1,96 *0, 03] = [ −0, 25 − 0, 0588; −0, 25 + 0, 0588] = [ −0,31; −0,19] • Conclusión: Con un nivel de confianza del 95% se espera que el intervalo [-0,31;-0,19] cubra o contenga a la diferencia entre la proporción poblacional de adultos que ven el programa los sábados a la noche y les gusta y la proporción poblacional de adolescentes que ven el programa los sábados a la noche y les gusta. b) Las hipótesis estadísticas son:
H0: p1-p2=0 versus H1: p1-p2≠0
El nivel de significación es 5%, siendo el estadístico de contraste:
Z=
pˆ1 − pˆ 2 − ( p1 − p2 ) 1 1 pˆ (1 − pˆ ) + n1 n2
d → N (0, 1) donde pˆ1 =
x1 x x +x , pˆ 2 = 2 y pˆ = 1 2 n1 n2 n1 + n2
La región crítica es bilateral, y está formada por los valores de Z mayores o iguales a 1,96, y los menores o iguales a -1,96. La regla de decisión es:
RECHAZO H0 si Zobs ≥ 1,96 o Zobs ≤ -1,96 NO RECHAZO H0 si -1,96 < Zobs < 1,96
pˆ = Z obs =
x1 + x2 100 + 300 = = 0, 4 n1 + n2 400 + 600
( 0, 25 − 0,5 ) − 0
1 1 0, 4 (1 − 0, 4 ) + 400 600
=
−0, 25 1 0, 24 * 240
=
−0, 25 = −7,81 0, 032
Como Zobs = -7,81 la decisión es ................................................................................................................................ En esta situación (región crítica bilateral) el p valor se grafica y se calcula de la siguiente forma:
14
Estadística Analítica 2010
Fac. Cs. Veterinarias (U.B.A)
p valor= P(Z ≥ V.Calc2) + P(Z ≤ V.Calc1) = 2* P(Z ≤ -8,33)
Con un nivel de significación del 5%, hay/no hay (tache lo que no corresponda) evidencias suficientes para rechazar H0, por lo tanto ........................................................................................................... ..................................................................................................................................................................... ......................................................................................................................................... 5) Basándose en el mismo texto y los mismos datos del problema 02, responda los siguientes ítems: a.- Estimar el cociente entre las varianzas, puntualmente y con un nivel de confianza del 95%. b.- Los nutricionistas que desarrollaron la nueva ración (B) temen que esta genere menor uniformidad en el crecimiento. Probar la hipótesis sugerida con un nivel de significación del 5%. (Nota: “Menor uniformidad” hace referencia a la obtención de ganancias de peso desparejas dentro del lote, con alta dispersión, siendo esta una característica no deseada por los productores.) Solución: Los datos son los mismos que los del problema 3 y los supuestos teóricos también a) •
Estimación puntual: se pide estimar puntualmente el cociente entre las varianzas, por ejemplo, sim-
σ A2 S A2 bólicamente 2 , cuyo estimador puntual es el cociente de las varianzas muestrales, es decir 2 σB SB Utilizando la fórmula de la varianza muestral se obtiene: 2 2 x1i ) 1 263) 1 ( ( 1 44,1 ∑ 2 S = x1i − = 6961 − = 4,9 = [ 6961 − 6916,9] = ∑ 10 9 9 n1 − 1 n 9 2 A
2 2 x2i ) 1 ( ( 307 ) = 1 8605 − 8568,09 = 36,91 = 3, 69 1 ∑ 2 S = x − = 8605 − [ ] ∑ 2i n2 − 1 n 11 10 10 10 S2 4,9 2 2 Por lo tanto el estimador puntual del cociente entre SA y SB es: A2 = = 1,3279 S B 3, 69 2 B
(Nota: En este caso se estima el cociente entre la varianza poblacional de A sobre la varianza poblacional de B, pero también podríamos resolver este ejercicio haciendo el cociente inverso, dado que en el enunciado no hay ninguna orientación en especial para realizarlo.) • Intervalo de confianza: La fórmula del intervalo de confianza para el cociente de varianzas se deduce de la variable pivotal que se utiliza para estudiar el cociente de varianzas, cuya fórmula es:
S A2
F=
σ A2 S B2
~F( nA −1),( nB −1)
o F=
σ B2
S A2 S B2
σ A2 σ B2
~F( nA −1),( nB −1)
La distribución se grafica de la siguiente manera:
Donde:
F1 = F
( n A −1),( nB −1);
α 2
y
F2 = F
( n A −1),( nB −1);1−
α
.
2
15
Estadística Analítica 2010
Fac. Cs. Veterinarias (U.B.A)
Como en la tabla de F de Snedecor que se usa en el presente curso el valor de F1 no está tabulado, para conocerlo es necesario hacer uso de la siguiente igualdad:
F
( nA −1),( nB −1);
α 2
=
1 F
( nB −1),( n A −1);1−
α 2
Por ejemplo, en el problema que estamos resolviendo:
F9,10;0,975 = 3, 78; F9,10;0,025 =
1 F10,9;0,975
; F9,10;0,025 =
1 = 0, 25. 3,96
El intervalo se construye basándose en las siguientes igualdades:
S A2 2 SB = 1−α P F ≤F α ≤ α 2 ( nA −1),( nB −1);1− ( nA −1),( nB −1); 2 σ A 2 σ B2
σ A2 σ2 1 1 P ≥ B2 ≥ S F F A α α ( nA −1),( nB −1);1− ( nA −1),( nB −1); 2 S 2 2 B σ A2 1 1 σ2 P ≤ B2 ≤ SA F F α α ( n A −1),( nB −1); ( nA −1),( nB −1);1− 2 S 2 2 B
= 1−α = 1−α
S A2 S A2 S B2 σ2 S B2 P ≤ A2 ≤ F σB F α α ( n A −1),( nB −1); ( nA −1),( nB −1);1− 2 2
= 1−α
Entonces, en nuestro problema:
1,3279 σ A2 1,3279 ≤ 2 ≤ 0, 25 3, 78 σ B
σ A2 0,3513 ≤ ≤ 5,3116 2 σB • Conclusión: Con una confianza del 95% se espera que el intervalo [0,35136; 5,3116] cubra, o contenga, al cociente entre la varianza poblacional de la ganancia de peso de los cerdos Yorkshire de 3 meses de edad del norte de la provincia de Buenos Aires alimentados con la ración A durante 30 días, y la varianza poblacional de la ganancia de peso de los cerdos Yorkshire de 3 meses de edad del norte de la provincia de Buenos Aires alimentados con la ración B durante 30 días. b) •
Hipótesis de trabajo: “la nueva ración genera menor uniformidad en el crecimiento”.
•
Supuestos teóricos: Ya fueron verificados en el ejercicio 3
•
Hipótesis estadísticas: Si se quiere probar que la nueva formulación es menos uniforme, se quiere
probar que la nueva formulación es más variable que la ración A, simbólicamente: σ A 2
< σ B2 , esta
expresión no contiene el signo igual por lo que corresponde a la hipótesis alternativa. Entonces las
16
Estadística Analítica 2010
Fac. Cs. Veterinarias (U.B.A)
σ2 H 0 : A2 ≥ 1 H : σ ≥ σ σB hipótesis quedan: 0 o equivalentemente al igual que en las demás pruebas se 2 2 2 H1 : σ A < σ B σ H : A < 1 1 σ B2 2 A
2 B
debe plantear solo un par de hipótesis y mantenerlas a lo largo de toda la prueba, en esta caso vamos a
σ A2 H0 : σ 2 ≥ 1 B trabajar con 2 H : σ A < 1 1 σ B2 •
Nivel de significación: α=0,05
• Variable pivotal: Existe una única opción al elegir la variable pivotal en esta prueba, la F de Snedecor, cuya fórmula es: S A2
F=
σ
S
σ
2 A 2 B 2 B
~F( nA −1),( nB −1)
o F=
S A2 S B2
σ A2 σ B2
~F( nA −1),( nB −1)
• Región crítica: Observando la hipótesis alternativa, se ve que la región crítica es unilateral izquierda. El valor crítico que la determina, debe buscarse en la tabla de la distribución de F de Snedecor y es:
FnA −1;nB −1,α =
1 FnB −1;nA −1,1−α
determinada por •
=
1 F11−1;10−1,1− 0,05
=
1 F10;9,0,95
=
1 = 0,3185 , por lo tanto la región crítica está 3,14
F ≤ 0, 3185
Regla de decisión: Rechazo H0 si
FH 0 ≤ 0, 3185 y no rechazo H0 si FH 0 > 0,3185
• Cálculo del estadístico de prueba: Todos los valores necesarios ya fueron calculados, por lo tanto, reemplazando en la fórmula, se obtiene:
FH 0 =
•
S A2 S B2
σ A2 σ B2
4, 9 Observar que el cociente de las varianzas poblacionales fue 3, 69 = = 1, 3279 reemplazado por 1, porque el cálculo se hace bajo la hipótesis nula que 1 plantea la igualdad de las varianzas. Como 1,3279 es mayor que 0,3145, no se rechaza la hipótesis nula.
Conclusión: Con un nivel de significación del 5% no hay evidencia suficiente para rechazar H0
( H0 :
σ A2 ≥ 1 ). Esto significa que el cociente entre la varianza poblacional de la ganancia de peso de los σ B2
cerdos Yorkshire del norte de la provincia de Buenos Aires de 3 meses de edad alimentados con la ración A y la varianza poblacional de la ganancia de peso de los cerdos Yorkshire del norte de la provincia de Buenos Aires de 3 meses de edad alimentados con la ración B, es mayor o igual a 1. Por lo tanto, al mismo nivel, no es cierta la hipótesis de los nutricionistas. Nota: a continuación se da la salida del programa InfoStat para este problema. Observar que los resultados son los mismos que se obtuvieron anteriormente. Prueba F para igualdad de varianzas Grupo(1) Grupo(2) n(1) n(2) 1 2 10 11
Var(1) Var(2) F 4.900 3.691 1.328
p 0.6688
prueba Unilat I
y la decisión es la misma (p=0,6688>0,05, por lo que no se rechaza la H0).
17
Estadística Analítica 2010
Fac. Cs. Veterinarias (U.B.A)
6) Con el fin de comparar el rendimiento académico (en una escala de 0 a 10 puntos) entre establecimientos privados y estatales, se seleccionan aleatoriamente 15 personas que han realizado estudios secundarios en establecimientos privados, y de 15 personas que han realizado estudios secundarios en establecimientos estatales. Los datos obtenidos son los siguientes: PRIVADO 7 6 4 7 5 5 4 9 9 8 4 5 5 7 5
ESTATAL 9 6 5 6 5 4 4 4 4 4 6 3 3 5 4
¿Podemos suponer que los rendimientos académicos difieren significativamente? (α=0,05) Como primer paso debemos verificar el supuesto de normalidad, por lo que realizamos el test de Shapiro-Wilks: Shapiro-Wilks (modificado) Secundario Variable n Media D.E. W* p (una cola) Estatal Rendim 15 4,80 1,52 0,85 0,0330 Privado Rendim 15 6,00 1,73 0,85 0,0253 No se cumple el supuesto de normalidad para el rendimiento académico de las personas que provienen de establecimientos secundarios estatales y privados, por lo que no podemos realizar una prueba t para muestras independientes, debemos realizar un análisis no paramétrico, la prueba de MannWhitney. Boxplot 10,00
Como podemos ver en el boxplot, las distribuciones de rendimiento académico de los individuos que provienen de establecimientos estatales y privados, son similares. Ambas son asimétricas positivas, ya que prácticamente coinciden el C2 con el C1. La falta de normalidad ya la habíamos confirmado con la prueba de Shapiro Wilks.
Puntaje
8,00
6,00
4,00
2,00
0,00 Privado
Estatal
Secundario
Las hipótesis a testear en este caso son: H0: θE − θP = 0 vs H1: θE − θP ≠ 0 (hipótesis bilateral) Se combinan ambas muestras en una única muestra ordenada y luego asignamos a cada dato su rango (posición) sin tener en cuenta de cuál de las muestras proviene.
18
Estadística Analítica 2010
Fac. Cs. Veterinarias (U.B.A)
Datos Secundario Orden Rango 3 Estatal 1 1,5 3 Estatal 2 1,5 4 Estatal 3 7 4 Estatal 4 7 4 Estatal 5 7 4 Estatal 6 7 4 Estatal 7 7 4 Estatal 8 7 4 Privado 9 7 4 Privado 10 7 4 Privado 11 7 5 Estatal 12 15,5 5 Estatal 13 15,5 5 Estatal 14 15,5 5 Privado 15 15,5 5 Privado 16 15,5 5 Privado 17 15,5 5 Privado 18 15,5 5 Privado 19 15,5 6 Estatal 20 21,5 6 Estatal 21 21,5 6 Estatal 22 21,5 6 Privado 23 21,5 7 Privado 24 25 7 Privado 25 25 7 Privado 26 25 8 Privado 27 27 9 Estatal 28 29 9 Privado 29 29 9 Privado 30 29
3+4+5+6+7+8+9+10+11 63 = =7 9 9
Estadístico: T = Suma de rangos de una de las muestras El valor esperado del estadístico y la varianza del estadístico bajo H0 son, respectivamente: T (estatal)= 1,5*2 + 7*6 + 15,5*3 + 21,5*3 + 29 = 185 15*(15 + 15 + 1) n (n + n2 + 1) E (T ) = = 232,5 = µT E (T ) = 1 1 2 2
n1 n2 (n1 + n 2 + 1) = σ T2 12 15*15* (15 + 15 + 1) V(T) = = 581, 25 12 σ T = 581,5 = 24,109 185 − 232,5 T - E(T) Z obs = = −1,97 Z obs = ≈ N (0;1) 24,109 V(T) V(T) =
A un nivel de significación del 5%, y para nuestra hipótesis, rechazamos H0 si Zobs< -1,96 o Zobs>1,96 Puesto que -1,97 < -1,96, la decisión es rechazar Ho. Al nivel del 5%, existen evidencias suficientes para rechazar H0, por lo que la mediana poblacional del rendimiento académico de los individuos que han realizado estudios secundarios en establecimientos estatales es distinta a la mediana poblacional de los que han realizado sus estudios secundarios en establecimientos privados. Como respuesta a la pregunta, podemos decir, que, al 5%, los rendimientos académicos difieren significativamente entre los individuos que han realizado sus estudios secundarios, al comparar establecimientos estatales y privados. Utilizando InfoStat, tenemos que aplicar el test de Wilcoxon para muestras independientes, y obtenemos la siguiente salida, en la que figuran medidas resumen, el estadístico correspondiente, y el p-valor de la prueba. Prueba de Wilcoxon para muestras independientes (Mann Whitney) Grupos Estatal Privado
Media
Desvío estándar
Mediana
Media del rango
Estadístico (T)
p-valor
4,80 6,00
1,52 1,73
4,00 5,00
12,33 18,67
185,00
0,0433
7) Los datos que se presentan a continuación provienen de los pesos, en g, de 22 ratas hembras, de entre 28 y 84 días de vida. Doce de ellas fueron alimentadas con una dieta alta en proteínas, y 10 con una dieta baja en proteínas.
19
Estadística Analítica 2010
Alta en proteína
120,2
Baja en proteína 102,13
Fac. Cs. Veterinarias (U.B.A)
120,57 119,78 120,29 118,62 120,69 120,27 119,13 118,04 120,29 117,46 119,7 105,3
103,39 104,73
98,00
95,89
98,65
98,73
95,2
102,47
a) ¿Se puede suponer, al 5%, que el peso medio las ratas alimentadas con la dieta alta en proteínas es mayor que el peso medio las ratas alimentadas con la dieta baja en proteínas? b) Construir un intervalo para la diferencia de medias al 95%. ¿Qué puede concluir? Datos del problema: • Variables en estudio X1: peso de una rata de entre 28 y 84 días de vida alimentada con una dieta alta en proteínas. Medida en g. X2: peso de una rata de entre 28 y 84 días de vida alimentada con una dieta baja en proteínas. Medida en g. •
Tamaños de las muestras: n1= 12 y n2= 10
•
Varianzas poblacionales: Desconocidas
•
Nivel de significación: α=0,05
•
Nivel de confianza: 1-α=0,95
Solución: a) • La hipótesis de trabajo que se desea poner a prueba es: “La dieta alta en proteínas produce un peso medio mayor que la dieta baja en proteínas” • Verificación de supuestos: Para poder plantear las hipótesis estadísticas y poder llevar a cabo la prueba, hay que verificar los supuestos teóricos necesarios. En este caso, los supuestos son que ambas variables (X1 y X2) sean independientes y se distribuyan normalmente. El supuesto de independencia se cumple por la forma en que se realizó el experimento: a un grupo de ratas seleccionado aleatoriamente se le suministró la dieta alta en proteínas y a otro grupo, también tomado al azar, se le suministro una dieta baja en proteínas. Para X1: se realizó un test de Shapiro Wilks cuyas hipótesis son:
H 0 : X 1 se distribuye normalmente H1 : X 1 no se distribuye normalmente Al realizar el test, utilizando InfoStat, se obtuvieron los siguientes resultados: Shapiro-Wilks (modificado) Variable n Media D.E. W* p (una cola) X1 12 119.58 1.049 0.8715 0.0683 Como p-valor= 0,0683 y es mayor que α=0,05, no se rechaza la hipótesis nula. por lo tanto, con un nivel de significación del 5% se puede decir que la variable X1 (peso de una rata de entre 28 y 84 días de vida alimentada con una dieta alta en proteínas medido en g) se distribuye normalmente. Análogamente se estudia la normalidad de la variable X2:
H 0 : X 2 se distribuye normalmente H1 : X 2 no se distribuye normalmente Shapiro-Wilks (modificado) Variable n X2 10
20
Media 100.45
D.E. W* p (una cola) 3.62 0.9282 0.4305
Estadística Analítica 2010
Fac. Cs. Veterinarias (U.B.A)
Como p-valor= 0,4305 y es mayor que α=0,05, no se rechaza la hipótesis nula. Por lo tanto, con un nivel de significación del 5%, se puede decir que la variable X2 (peso de una rata de entre 28 y 84 días de vida alimentada con una dieta baja en proteínas medida en g) se distribuye normalmente. En este caso, no hay información de las varianzas poblacionales, por lo tanto son desconocidas, y hay que probar si son iguales. Para esto hay que realizar un test de homogeneidad de varianzas, cuyas hipótesis son:
H 0 : σ 12 = σ 22 H 1 : σ 12 ≠ σ 22 Prueba F para igualdad de varianzas Variable Grupo(1) Grupo(2) n(1) n(2) Peso {Alta} {Baja} 12 10
Var(1) Var(2) F 1,10 13,10 0,08
p prueba 0,0009 Bilateral
El resultado del estadístico es F= 0,08 y un p-valor de 0,0009, por lo tanto se rechaza la hipótesis de homogeneidad de varianzas. Es decir que ambas variables se distribuyen normalmente con varianzas desconocidas y diferentes. •
Hipótesis estadísticas. Como el interés del investigador es probar si al alimentar a las ratas con una dieta con alta concentración de proteínas produce un peso medio superior, simbólicamente: µ1 > µ 2 . Por lo que las hipótesis estadísticas son:
H 0 : µ1 ≤ µ 2 H 1 : µ1 > µ 2 •
Nivel de significación: α=0,05
•
Estadístico de prueba (o variable pivotal) Se está realizando un test de hipótesis para la diferencia de medias poblacionales de variables con distribución normal, por lo cual se cuenta con dos opciones al elegir la variable pivotal: Z o t de Student, dependiendo del hecho de conocer o no las varianzas poblacionales. En este caso, las varianzas poblacionales son desconocidas y desiguales, por lo tanto se utiliza una t, con la siguiente ex-
s 2 s 2 2 1 + 2 ( X − X ) − 0 n n 1 2 presión: T = ≈ t w con w = 12 2 2 2 2 2 2 s1 s 2 s1 s2 + n1 n 2 n1 n2 + n1 − 1 n2 − 1 •
Región crítica:
Es unilateral derecha, dado que H1: µ1-µ2>0 , por lo tanto el valor crítico es:
2 2 2 s1 + s2 n1 n2 w= 2 2 s12 s22 n1 + n2 n1 − 1 n2 − 1
2 1,10 13,1 + 12 10 = 2 2 1,10 13,1 12 10 + 10 − 1 12 − 1
2 = ( 0, 091 + 1, 31) ( 0, 091)2 (1,31) 2 + 9 11
t w,0,95 , siendo w
2 1, 401) ( = = 0, 008281 + 1, 7161 11 9
1,9628 1,9628 = = = 10, 28 = 10 0, 00075 + 0,19 0,19075 El valor crítico es
t10, 0,95 = 1,812 y la región crítica queda determinada por: t ≥ 1,812
21
Estadística Analítica 2010
•
Fac. Cs. Veterinarias (U.B.A)
Regla de decisión: Rechazo H0 si
t H 0 ≥ 1,812
No rechazo H0 si
t H 0 < 1,812
•
Cálculo de tHo: Hasta este momento no fueron necesarias las muestras, excepto en la verificación de supuestos, sin embargo se podría haber hecho con muestras piloto y recién en esta instancia extraer las muestras para el análisis. Antes de calcular el valor del estadístico de prueba hay que calcular las medias muestrales utilizando las fórmulas dadas en la unidad de estadística descriptiva de Elementos de Estadística: X 1 = 119,58 X 2 = 100,45 . Hay que tener en cuenta que la prueba se está realizando bajo la hipótesis nula que contiene el caso en que las medias poblacionales son iguales, por lo tanto la diferencia de las medias poblacionales es cero, es decir que µ1 − µ 2 = 0 . Reemplazando estos valores y el resto de la información en la fórmula nos queda:
TH 0 =
•
(X1 − X 2 ) − 0 2 1
2 2
=
s s + n1 n 2
(119,58 − 100,45) 1,1 13,1 + 12 10
Decisión: Se rechaza la hipótesis nula porque
=
(19,13) 0.091 + 1,31
=
(19,13) 1,401
=
(19,13) = 16,162 1,1836
t H 0 = 16,162 , es mayor que 1,812
• Conclusión: Con un nivel de significación de 5% tengo evidencia suficiente para rechazar la hipótesis nula ( H 0 : µ1 ≤ µ 2 ), por lo tanto la media poblacional del peso de las ratas de entre 28 y 84 días de vida que reciben la dieta alta en proteínas es mayor que la media poblacional de las ratas de entre 28 y 84 días de vida que reciben la dieta baja en proteínas, en estas poblaciones de ratas en estudio. b) La fórmula del intervalo del 95% que se está pidiendo se despeja de la variable pivotal y es:
s12 s 22 s12 s 22 + ; ( X 1 − X 2 ) + t w,1−α + ( X 1 − X 2 ) − t w,1−α 2 2 n1 n2 n1 n2 reemplazando se obtiene que
1,1 13,1 1,1 13,1 ; (119,58 − 100, 45) + t10;0,0975 + + (119,58 − 100, 45) − t10;0,0975 = 12 10 12 10 = (19,13) − 2, 228 0, 091 + 1,31; (19,13) + 2, 228 0, 091 + 1,31 = = (19,13) − 2, 228 1, 401; (19,13) + 2, 228 1, 401 = [ (19,13) − 2, 228(1,1836); (19,13) + 2, 228(1,1836) ] = = [ (19,13) − 2, 637; (19,13) + 2, 637] = [16,493 g; 21, 767 g ] Conclusión: Con un nivel de confianza del 95%, se espera que el intervalo [ 16,493 g ; 21,767 g ] cubra o contenga a la diferencia entre la media poblacional del peso de la ratas de entre 28 y 84 días de vida alimentadas con la dieta alta en proteínas y la media poblacional de las ratas de entre 28 y 84 días de vida alimentadas con la dieta baja en proteínas, en estas poblaciones de ratas de entre 28 y 84 días de vida. PROBLEMAS PROPUESTOS 1) Para comparar cinco dietas para porcinos se seleccionaron veinticinco animales al azar para ser usados en el experimento. Aleatoriamente se les asignó una dieta a cada grupo, midiéndose sobre cada animal el peso inicial y el peso al cabo de 30 días. Responder: a- La unidad experimental es ........................................................................................................... b- Los tratamientos son ................................................................................................................... c- La observación es .......................................................................................................................
22
Estadística Analítica 2010
Fac. Cs. Veterinarias (U.B.A)
d- El objetivo del trabajo es ............................................................................................................ ...................................................................................................................................................... 2) Para estudiar el efecto de un nuevo fertilizante sobre el rendimiento de un cultivo de oleaginosas, se sembraron 12 ha del cultivo con fertilizante y 10 ha sin fertilizante. Una vez levantada la cosecha resultó: X 1 =1089 kg/ha y X 2 = 877 kg/ha, respectivamente. Suponiendo que σ1 = σ2 = 105 kg/ha, y que ambas variables tienen distribución normal: a.- ¿Es la diferencia entre los rendimientos medios con y sin fertilizante, significativa al 5%? b.- ¿Considera conveniente construir un intervalo de confianza para la diferencia entre las medias? Justifique. 3) Las personas que tienen el síndrome de Raynaud sufren un súbito deterioro en la circulación sanguínea de los dedos de las manos y de los pies. Para estudiar esta enfermedad, en un experimento se midió la 2 generación de calor, mediante calorimetría, en cal/cm /min, de un dedo índice luego de haberlo sumergido en agua a 19°C. En este estudio, se contó con una m uestra tomada al azar de 10 individuos con el síndrome y una muestra de 10 individuos sanos. Sanos (S) Síndrome de Raynaud (E)
2,43 0,81
1,83 0,70
2,43 0,74
2,70 0,36
1,88 0,75
1,96 0,56
1,53 0,65
2,08 1,85 2,44 0,87 0,40 0,31
Asuma que las distribuciones de ambas variables son normales, y que σE = σS . a.- Definir: 2
2
Variables en estudio: ........................................................................................................................ ............................................................................................................................................................. ............................................................................................................................................................. Parámetros: ..................................................................................................................................... ............................................................................................................................................................. ............................................................................................................................................................. Poblaciones: .................................................................................................................................... ............................................................................................................................................................. ............................................................................................................................................................. b.- Estimar puntualmente y por intervalo de confianza la diferencia entre la generación de calor media de los individuos enfermos (µE) y la generación de calor media de los individuos sanos (µS) (1-α = 0,95). c.- Se cree que la generación de calor por parte de los afectados por este síndrome es más homogénea. Probarlo con un nivel de significación del 5%. 4) De una población de individuos afectados por una enfermedad, se tomaron dos muestras aleatorias e independientes de 100 individuos cada una. A una de las mismas (que llamaremos grupo A), se le administró un suero, al otro grupo (B, control) se le administró un placebo; en todo lo demás, los dos grupos fueron tratados idénticamente. Se encontró que en los grupos A y B, 75 y 55 individuos, respectivamente, se habían recuperado luego de un mes de observación. Probar la hipótesis de que el suero ayuda a curar la enfermedad con un nivel de significación del 5%. a) La hipótesis de trabajo es: ......................................................................................................... ..................................................................................................................................................... .....................................................................................................................................................
b) La región crítica es .....................................................
c) El valor calculado del estadístico de prueba es:
23
Estadística Analítica 2010
Fac. Cs. Veterinarias (U.B.A)
Fórmula empleada
Reemplazo numérico
Resultado
d) Conclusión a la que llega luego de la prueba: ....................................................................................... ....................................................................................................................................................... ....................................................................................................................................................... ....................................................................................................................................................... ....................................................................................................................................................... 5) Un estudio llevado a cabo para probar si la aspirina afecta el tiempo de coagulación, se tomó una muestra de 12 adultos varones. El tiempo de protrombina, que mide el tiempo en segundos entre el inicio de la reacción de coagulación y la formación del coágulo, fue medido en cada uno de los individuos antes y después de 3 hs de haber ingerido dos tabletas de aspirina (500mg cada una). Antes Después
12,3 12,0
12,0 12,3
12,0 12,5
13,0 12,0
13,0 13,0
12,5 12,5
11,3 10,3
11,8 11,3
11,5 11,5
11,0 11,5
11,0 11,0
11,3 11,5
a) Probar si existe alguna diferencia en el tiempo de protrombina con un nivel de significación del 5%, tener en cuenta la verificación de supuestos, sin hacer cálculos y utilizando la información que le proporciona alguna de las salidas de InfoStat que abajo se detallan. Comente brevemente por qué eligió esa salida y a qué decisión llega a partir de la información. Shapiro-Wilks (modificado) Shapiro-Wilks (modificado) Variable n Media D.E. W* p (una cola) Variable n Media D.E. W* p (una cola) antes 12 11.89 0.71 0.89 0.2210 Dif_AD 12 0,11 0,51 0,86 0,0972 después 12 11.79 0.75 0.97 0.9213 Prueba T para muestras Independientes Grupo1 Grupo2 n1 n2 med1 med2 LI(95%) LS(95%) T p prueba Antes Después 12 12 11,89 11,78 -0,51 0,72 0,37 0,7186 Bilat Prueba T para un parámetro Valor del parámetro probado: 0 Variable n Media DE Dif_AD 12 0,11 0,51
LI(95) LS(95) T -0,21 0,43 0,74
p(Bilateral) 0,4748
....................................................................................................................................................... ....................................................................................................................................................... b) El intervalo de confianza correspondiente tiene como límites: ......................................................... c) La conclusión para el intervalo de confianza es: ............................................................................ ....................................................................................................................................................... ....................................................................................................................................................... ....................................................................................................................................................... 6) Las empresas que comercializan agua para beber, realizan controles de calidad diariamente. Una de las variables de interés es el pH, que mide el grado de acidez del agua contenida en los envases lista para su distribución. Un pH menor a 7 es considerado ácido, un pH mayor a 7 es considerado alcalino y un pH igual a 7 es considerado neutro. Un investigador sospecha que el material de los nuevos envases modifica el pH del agua. Para estimar la diferencia entre los pH medios, extrae 20 muestras de agua con el envase viejo y 15 muestras de agua con el envase nuevo. Algunos datos obtenidos son: Envase viejo Envase nuevo
Media
Desvío
Shapiro-Wilks (p-valor)
8,366 6,318
0,54 3,73
0,6413 0,9609
Al hacer la prueba de homogeneidad de varianzas, resultó: F = 0,0209, p-value = 0 Construir un intervalo para la diferencia de medias al 95%. ¿Qué puede concluir?
24
Estadística Analítica 2010
Fac. Cs. Veterinarias (U.B.A)
7) Alle y Bowen (1932) estudiaron el tiempo de supervivencia de la carpa dorada, en minutos, cuando se coloca en suspensiones de plata. Los investigadores realizaron varios experimentos, entre ellos el siguiente: se asignan aleatoriamente 10 carpas a cada grupo. En uno de ellos se exponen a las carpas a una concentración baja de nitrato de plata disuelto en el agua (Conc1, 50 g/l), y el otro grupo, a una concentración mayor (Conc2, 80g/l). Al nivel del 5%, ¿difieren los tiempos de supervivencia? Boxplot
Conc2 81 75 156 180 102 200 135 85 78 87
250
200
Sobrevida
Conc1 210 180 240 60 55 75 78 82 125 83
150
100
50 1
2
Concentración
Shapiro-Wilks (modificado) Concentración Variable 1 Sobrevida 2 Sobrevida
n 10 10
Media D.E. 118,80 67,11 117,90 46,46
W* 0,81 0,82
p (una cola) 0,0247 0,0307
Prueba de Wilcoxon para muestras independientes (Mann Whitney) Grupos Conc1 Conc2
Media
Desvío estándar
Mediana
Media del rango
Estadístico T
p-valor
118,80 117,90
67,11 46,46
82,50 94,50
9,75 11,25
97,50
0,5703
CUESTIONARIO 1.- ¿Cuál es el objeto de un diseño experimental? ¿Qué beneficios trae? ....................................................................................................................................................... 2.- ¿De qué manera puede controlarse la confusión de factores en el estudio experimental? ....................................................................................................................................................... 3.- ¿Cuál/es de las siguientes preguntas corresponde hacerse en un estudio observacional? Tache lo que no corresponda. a) ¿se aleatorizaron las asignaciones a tratamiento y control? SÍ NO b) ¿qué característica determinó la separación entre los grupos? SÍ NO c) ¿existen factores que pueden confundirse con los tratamientos? SÍ NO d) ¿si existe posibilidad de confusión, puede controlarse? SÍ NO 4.- En los estudios observacionales pueden establecerse asociaciones, es decir poner de manifiesto que una cosa está relacionada con otra. ¿Pueden estos estudios establecer causalidad? ..................................................................................................................................................................... ......................................................................................................................................... 5.- ¿Cómo diseñaría un experimento para estudiar si la hipertensión durante el embarazo provoca bebés nacidos con menor peso? ¿Qué factor podría confundirse y cómo lo controlaría? ..................................................................................................................................................................... ..................................................................................................................................................................... ...........................................................................................................................
25
Estadística Analítica 2010
Fac. Cs. Veterinarias (U.B.A)
6.- Según un estudio observacional realizado en el Kaiser Permanente de Walmut Creek, California, se daba un índice más elevado de cáncer de cuello de matriz entre mujeres que usaban anticonceptivos orales que entre las que no usaban, independientemente de su edad, educación, estado civil, religión y hábito de fumar. Los investigadores llegaron a la conclusión de que la píldora causaba el cáncer del cuello de matriz. ¿Es correcta esta afirmación? ¿Por qué? .............................................................................................................................................................................. ................................................................................................................................................ 7.- Identifique en el ejemplo anterior los términos: unidad experimental, tratamiento, factor, niveles del factor. .............................................................................................................................................................................. ................................................................................................................................................ ............................................................................................................................................................... 8.- En qué casos debe aplicarse el test de Welch? .............................................................................. ....................................................................................................................................................... 9.- Un estimador puntual es ........................................................................................................... y se utiliza para ............................................................................................................................... 10.- ¿Qué entiende por confianza en la estimación de un intervalo? ............................................................................................................................................................... ............................................................................................................................................................... 11.- Establezca las diferencias entre ambos tipos de estimación. ............................................................................................................................................................... ............................................................................................................................................................... 12.- ¿Qué ocurre con la amplitud de un intervalo de confianza para la diferencia de medias poblacionales con varianzas desconocidas pero iguales si: a.- aumenta el tamaño de las muestras (manteniéndose la varianza muestral constante) b.- disminuye el nivel de confianza. c.- disminuye la variabilidad de las muestras. 13.- ¿Es la diferencia de medias poblacionales la que fluctúa en el intervalo ó es el intervalo el que fluctúa alrededor de la diferencia de medias poblacionales? Explique su respuesta. 14.- ¿Puede resultar negativo algún límite de un intervalo de confianza para la diferencia de dos proporciones? Justifique su respuesta. 15- ¿En qué casos es recomendable aplicar un test de Mann Whitney? Explicite los supuestos y las hipótesis que se corresponden con los mismos. 16.- Si al realizar una prueba de hipótesis, donde H0:
p1 − p2 ≥ 0 versus H1: p1 − p2 < 0 , se rechaza
H0 al nivel 5%; se puede estar: a.- actuando correctamente con probabilidad igual a 0,95. b.- actuando correctamente con probabilidad igual a (1 - β). c.- cometiendo un error tipo I con probabilidad igual a 0,05. d.- cometiendo un error tipo II con probabilidad igual a β. Indicar cuál o cuáles de las situaciones son correctas justificando claramente la respuesta. 17.- ¿Qué elementos necesita para definir la región crítica? Detalle cómo interviene cada uno de ellos. 18.- ¿Cuándo le parece conveniente utilizar una prueba para la media de las diferencias apareadas? ¿Cuántas son las variables en estudio? 19.- Se tiene la sospecha de que la proporción de individuos que no tienen enfermedades cardiovasculares en la población A es mayor que en la población B. Para poner a prueba esta hipótesis se tomó
26
Estadística Analítica 2010
Fac. Cs. Veterinarias (U.B.A)
una muestra aleatoria de individuos de la población A y otra de la población B y se observó el número de individuos sin esta afección en cada grupo. a.- La hipótesis de trabajo es: .......................................................................................................... ....................................................................................................................................................... ....................................................................................................................................................... b.- Interpretación biológica de parámetro/s en estudio: ...................................................................... ....................................................................................................................................................... ....................................................................................................................................................... c.- Las hipótesis estadísticas son: ...................................................................................................... d.- Los supuestos necesarios para la validez de la prueba estadística son: ........................................... ....................................................................................................................................................... ....................................................................................................................................................... 20.- Se realizó una dócima a un nivel del 5%, con las hipótesis H0:
σ 12 = σ 22
versus H1:
σ 12 ≠ σ 22
y
resultó no significativa (es decir, no se rechazó H0). ¿En qué situación de las cuatro que quedan planteadas en una dócima de hipótesis se ubica este ejemplo si supiéramos que para estas poblaciones
σ 12 > σ 22 ? ¿Cuál es la probabilidad asociada a esta situación?
21.- En una población con µ1 > µ2 se realizó la dócima H0: µ1 = µ2 contra H1: µ1 ≠ µ2 y resultó significativa al 1%, es decir se rechazó H0. ¿En qué situación de las cuatro posibles ubica este ejemplo? ¿Cuál es la probabilidad asociada a esta situación? 22.- Dentro del marco de la dócima de hipótesis definir en forma clara y concisa los siguientes conceptos: • Hipótesis estadística • Nivel de significación •1-α
27
Unidad 2: CONTRASTES de CHI-CUADRADO Objetivos específicos • Elegir las hipótesis adecuadas a cada problema planteado con datos categóricos y seleccionar la prueba correspondiente. • Aplicar correctamente los contrastes Chi Cuadrado para los ensayos de independencia, homogeneidad y bondad de ajuste. Contenidos temáticos Bondad de ajuste. Tablas de contingencia: Ensayos de Independencia. Contrastes Ji-cuadrado para homogeneidad con varias poblaciones. Alcance de los ensayos. Glosario Datos categorizados (cualitativos o atributos). Respuestas categóricas y dicotómicas. Categorías mutuamente excluyentes. Categorías independientes. Frecuencia observada. Frecuencia esperada o teórica. Frecuencia total o marginal. Tablas o criterios de clasificación. Bondad de ajuste entre frecuencias observadas y frecuencias teóricas. Hipótesis de independencia. Asociación entre atributos. Hipótesis de homogeneidad. PROBLEMAS RESUELTOS 01.- Se realizó un estudio para saber si el grado de eficacia de un medicamento contra mastitis a partir del nivel de mejoría está relacionado con el nivel de gravedad del cuadro clínico. Se tomó una muestra de 642 vacas Holando con mastitis y se registró el nivel de gravedad. A todas se las trató con la misma dosis del medicamento y luego de 10 días se las clasificó en función del nivel de mejoría. Los resultados se observan en la siguiente tabla: Nivel de mejoría
Niveles de Infestación
Ninguna
Ligera
Notable
Leve
8
7
12
Intermedio
6
37
36
37
148
351
Grave
¿Es sustentable la hipótesis de que existe relación entre la eficacia del medicamento y el nivel de mastitis del animal al 5%? Justifique. Datos del problema: • Variables en estudio: X1: Nivel de infestación de un paciente, categorizada en leve, intermedio y grave X2: Nivel de mejoría de un paciente, categorizada en ninguna, ligera y notable • Cantidad y tamaño de muestras: hay una única población de pacientes de la cual se extrajo una única muestra de tamaño 642 •
Nivel de significación:α = 0,05
• Se completa la tabla de frecuencias observadas (Oij) con los totales de filas y columnas (Oi٠ y O٠j , respectivamente) y el total general (O٠٠ = n) Nivel de mejoría Ninguna Ligera Notable Total
28
Leve
8
7
12
27
Niveles de
Intermedio
6
37
36
79
Infestación
Grave
37
148
351
536
Total
51
192
399
642=n
Solución: Existen dos variables en estudio X1 y X2 ambas con tres categorías y una única población de vacas. Se quiere probar si las variables, o criterios de clasificación, nivel de infestación y nivel de mejoría, son independientes en la población. Entonces nuestras hipótesis estadísticas son:
H 0 : p ij = p i• * p • j
para i = 1, 2, 3;
j = 1, 2, 3
H 1 : a lg una de las igualdades anteriores no se cumple En este caso H0 está expresando la independencia de las variables para todos los pares de sucesos o categorías que las componen y H1 la falta de independencia o no independencia entre ellas. Donde: pij: es la probabilidad conjunta esperada de la intersección de la fila i-ésima y la columna j-ésima de la tabla. pi.: es la probabilidad total esperada de elementos de la fila i-ésima. p.j: es la probabilidad total esperada de los elementos de la columna j-ésima. El nivel de significación, es la probabilidad de cometer error de tipo I, es del 5%. El estadístico de prueba a utilizar es:
(Oij - Eˆ ij )2 χ = ∑∑ ≈ χ (2f -1)(c-1) Eˆij i =1 j =1 f
c
2
siendo f = Nº de filas y c = Nº de columnas. La región crítica es unilateral derecha, debido a que grandes discrepancias entre los valores observados y sus correspondientes valores esperados nos harán sospechar de la veracidad de la hipótesis planteada. 2 2 El valor crítico es χ 4;0,95 = 9,48, quedando como región crítica: χ ≥ 9,48. Recordemos que la región crítica está formada por los valores del estadístico de prueba para los cuales se va a rechazar la hipótesis nula. Y la determinamos a partir de la distribución del estadístico de prueba, el nivel de significación, la hipótesis alternativa y, a veces, del tamaño de la muestra. Gráficamente:
RECHAZO H0
si
χ H2
0
si
χ H2
0
≥ 9,48
La regla de decisión es NO RECHAZO H0
< 9,48
Por ser un caso de independencia, multiplicando las probabilidades esperadas ( (tamaño de la única muestra), se obtienen las frecuencias esperadas ( Eij
pij = pi. ∗ p. j ) por n
= n * pij = n * pi. * p. j ).
Debido a que no tenemos las probabilidades esperadas las estimamos a partir de la muestra, es decir:
pˆ ij = pˆ i• * pˆ • j =
Oi• O• j * O•• O••
y luego obtenemos los valores esperados estimados como:
Eˆij = n * pˆ ij = n * pˆ i. * pˆ . j
29
Por ejemplo, para el elemento ubicado en la fila 1 y la columna 1 tenemos:
Eˆ =642*
27
642
11
642 51
*
= 2,1448
Si efectuamos la misma operación para todos los elementos de la tabla de contingencia, obtenemos la tabla de frecuencias esperadas estimadas: Nivel de mejoría
Nivel de infestación
Ninguna
Ligera
Notable
Leve
2,145
8,075
16,780
27
Intermedio
6,276
23,626
49,098
79
Grave
42,579
160,299
333,122
536
Total
51
192
399
642 = n
Total
El valor del estadístico calculado se obtiene reemplazando estos valores ( Eˆ ij ) en lugar de los ( Eˆ ij ) sin modificar la distribución y los correspondientes valores observados llegando a:
χ Ho = 2
+
(8 − 2,145)2 + (6 − 6,276)2 + (37 − 42,579)2 + (7 − 8,075)2 + (37 − 23,626)2 2,145
42,579
6,276
8,075
23,626
(148 − 160,299)2 + (12 − 16,78)2 + (36 − 49,098)2 + (351 − 333,122)2
160,299 Por lo tanto, el valor es
16,78
49,098
333,122
+
=
χ H2 = 15,982 + 0,012 + 0,731 + 0,143 + 7,571 ++0,944 + 1,36 + 3,494 + 0,959 = 31,198 0
Nota: Suele aportar información observar si las mayores magnitudes que forman este valor calculado (ej.: 15,982; 7,571 y 3,494) provienen de una misma fila o de una misma columna. Conclusión: Al nivel de significación del 5%, hay evidencias suficientes para rechazar la hipótesis nula (donde se plantea la independencia), es decir que las variables nivel de infestación de mastitis, categorizada en Leve, Intermedio y Grave; y nivel de mejoría, con niveles Ninguna, Ligera y Notable, no son independientes, por lo tanto, a este nivel de significación es sustentable la hipótesis de que en esta población existe relación entre la eficacia del medicamento y el nivel de gravedad de mastitis en vacas Holando. 02.- Se espera que una determinada droga sea efectiva para la curación del catarro común en personas. En un experimento con 164 personas con catarro, la mitad de ellas recibió la droga y la otra mitad recibió píldoras azucaradas (grupo control). En la siguiente tabla se encuentran los resultados obtenidos luego de aplicar los tratamientos. Resultado Mejorados Efecto nulo Empeorados Droga 50 22 10 Tratamiento Píldoras azucaradas 40 28 14 Probar la hipótesis de que la droga no produce efectos, con un nivel de significación del 1% Datos del problema: • Variable en estudio: X: Resultado de un paciente luego del tratamiento, categorizado en: mejorado, efecto nulo, empeorado. • Cantidad y tamaño de muestras: hay dos muestras, una de 82 de pacientes que tomaron droga y otra de 82 pacientes que tomaron píldora azucarada •
30
Nivel de significación:α = 0,01
• Se completa la tabla de frecuencias observadas con los totales de las muestras y los totales de cada categoría:
Tratamiento
Mejorados (m) 50 40 90
Droga (d) Píldoras azucaradas (a) Total
Resultados Efecto Empeorados nulo (n) (e) 22 10 28 14 50 24
Total 82 82 164
Solución: Se cuenta con dos muestras de igual tamaño, proveniente de dos poblaciones, y una variable ordinal con 3 categorías. La hipótesis que interesa docimar es que "la probabilidad de mejorar es la misma en las dos poblaciones de personas con catarro”: la población de personas con catarro tratados con droga y la población de personas con catarro tratados con las píldoras azucaradas. Es decir, que hay homogeneidad en los resultados del tratamiento con droga y píldoras. Entonces las hipótesis estadísticas son: H0:
pm / pob: dorga = pm / pob: azuc = pm (probabilidad de mejorar en la población que recibe droga = probabili-
pn / pob: dorga = pn / pob: azuc = pn
dad de mejorar en la población que recibe píldora azucarada) (probabilidad de efecto nulo en la población que recibe droga = probabilidad de efecto nulo en la población que recibe píldora azucarada)
pe / pob: dorga = pe / pob: azuc = pe (probabilidad de empeorar en la población que recibe droga = probabilidad de empeorar en la población que recibe píldora azucarada) H1 : alguna igualdad de las anteriores no se cumple. Nivel de significación α = 0,01 El estadístico de prueba a utilizar es:
(O ij - Eˆ ij ) χ = ∑∑ Eˆ ij i =1 j =1 f
c
2
2
≈χ
f = número de filas c = número de columnas
2 ( f -1)( c -1)
2
El valor crítico es
χ (3-1)( 2-1);0,99 = 9, 21
Por lo tanto la región crítica es χ ≥ 9,21 2
RECHAZO H0 si
χ H2
0
≥ 9,21
La regla de decisión es: NO RECHAZO H0
si
χ H2
0
< 9,21
Información muestral: para calcular el valor del estadístico de prueba es necesario estimar las frecuencias esperadas, considerando que la hipótesis nula es verdadera. Previamente estimamos pm ; pn y pe .
31
En este caso las muestras están representadas en las filas de la tabla y se estiman las proporciones correspondientes a las categorías de la variable resultados como pˆ m = obteniendo: pˆ m =
90 164
; pˆ n =
24 164
; pˆ e =
O•1 O O ; pˆ n = •2 ; pˆ e = •3 O•• O•• O••
50 164
A partir de aquí se calculan las frecuencias esperadas estimadas en cada clase o categoría: 24 eˆde = nd * pˆ ee = 82 * = 12 (donde nd es el tamaño de la muestra de las personas tratadas con la 164 droga). Efectuando la operación equivalente en todas las celdas del cuerpo de la tabla de frecuencias observadas, se obtiene la tabla de frecuencias esperadas estimadas: Resultado Mejorados (m)
Efecto nulo (n)
Empeorados (e)
Total
Droga (d)
45
25
12
82
Píldoras (a)
45
25
12
82
Total
90
50
24
164
Tratamiento
Por lo tanto el estadístico de prueba resulta
χ H2 0 =
(50 - 45)
χ H2 0
25
2
+
(40 - 45)
2
+
(10 -12)
2
+
(14 -12)
2
+
(22 - 25)
2
+
(28 - 25)
45 45 12 12 25 25 4 4 9 9 = + + + + + = 1,111 + 0, 667 + 0, 720 = 2, 498 45 45 12 12 25 25
2
25
y como 2,498 < 9,21 se decide no rechazar H0 Conclusión: A un nivel de significación del 1%, no hay evidencias suficientes para rechazar la hipótesis nula ( pm / pob: dorga = pm / pob: azuc = pm ; pn / pob: dorga = pn / pob: azuc = pn ; pe / pob: dorga = pe / pob: azuc = pe ) entonces la probabilidad poblacional de personas con catarro común mejorados sería la misma para los tratados con droga y los tratados con píldoras azucaradas. Lo mismo ocurre con las probabilidades poblacionales de empeorados y de los que tuvieron efecto nulo, o sea que la droga y la píldora azucarada producirían reacciones similares en cuanto a las probabilidades poblacionales de mejorados, empeorados y de efecto nulo, con respecto a la curación del catarro común en personas. Por lo tanto, al 1% se puede decir que la droga no es efectiva para la curación del catarro común. 03.- Supongamos que cuando las palomas son desorientadas no demuestran preferencia por ninguna dirección de vuelo, de manera que la dirección debería estar distribuida uniformemente en el intervalo (0°;360°]. Para probar esta suposición se desorient ó a 60 palomas y se estudió la dirección de vuelo de cada una de ellas dividiéndola en 4 categorías (como se indica en la tabla siguiente), obteniéndose los siguientes resultados: Dirección Frecuencia
(0°;90°] 12
(90°;180°] 16
(180°;270°] 17
(270°;360°] 15
¿Son compatibles estos resultados con la suposición planteada? (α=0,05). Datos del problema • Variable en estudio: X: Dirección de vuelo de una paloma, categorizada en (0°;90°],(90°;180°];(180°;270°] y (270°;360°] • Cantidad y tamaño de muestras: hay una única muestra de palomas de tamaño 60, obtenida de la población de palomas desorientadas.
32
•
Nivel de significación:α = 0,05
Solución Aquí tenemos una única muestra (como en el primer ejemplo) pero sólo se registra una variable de 4 categorías, que es la dirección de vuelo. Es de interés ver si dicha variable tiene en la población una distribución determinada. De esto, se puede deducir que la hipótesis que nos interesa docimar es que la variable responde a una distribución teórica y por lo tanto se trata de un caso de bondad de ajuste. Las hipótesis estadísticas son: H0 : p1 = p2 = p3 = p4 = 1/4 H1 : alguna igualdad de las anteriores no se cumple. Donde: p1: probabilidad esperada de elegir la dirección (0°; 90°] p2: probabilidad esperada de elegir la dirección (90°;180°] p3: probabilidad esperada de elegir la dirección (180°;270°] p4: probabilidad esperada de elegir la dirección (270°;360°] El nivel de significación es del 5% k
χ2 = ∑
El estadístico de prueba a utilizar es:
(O i - E i ) Ei
k =1
2
≈ χ ( k -1) 2
La región crítica es unilateral derecha, siendo el valor crítico:
k = N °clases
χ (4-1);0,95 = 7, 81 , resultando como región 2
crítica los valores de χ ≥ 7,81 2
Gráficamente:
RECHAZO H0
si
χ H2
NO RECHAZO H0
si
χ H2
0
≥ 7,81
La regla de decisión es: 0
< 7,81
Información: Dado que pi = 1/4 para i = 1, 2, 3, 4; resulta que ei= n*pi = 60*1/4 = 15 para i = 1, 2, 3, 4. Por lo tanto el cálculo del estadístico es:
χ
2 H0
(12 − 15 ) = 15
2
(16 − 15 ) + 15
2
(17 − 15 ) + 15
2
(15 − 15 ) + 15
2
=
9
+
1
+
4
15 15 15
+0 =
14 = 0, 93 15
Conclusión: Con un nivel de significación del 5%, no existen evidencias suficientes para rechazar H0 (p1 = p2 = p3 = p4 = 0,25), o sea que en la población se puede decir que se cumple el modelo teórico de que las cuatro direcciones de vuelo (0°; 90°]; (90°; 180°]; (180°; 270°] y (270°;360°] son igualmente probables . Por lo tanto, la dirección de vuelo de las palomas estaría distribuida uniformemente en la población de palomas que han sido desorientadas. PROBLEMAS PROPUESTOS 01.- En la localidad A se realizó una colecta de la especie S. Un examen de los 167 machos adultos recogidos reveló que 35 de ellos tienen bandas color pálido alrededor del cuello. De la localidad B, situada a 90 Km, se obtiene una muestra de 27 machos adultos de la misma especie, de los que 6 tienen bandas y en la localidad C, situada a 150 Km, en una muestra de 79 machos adultos de la misma especie, 17 tienen bandas. ¿Pertenecen las muestras a la misma población? Justifique estadísticamente su respuesta (α=0,01). 02.- En un estudio anatómico de ulceraciones gástricas benignas y malignas, se analizaron los antecedentes de todos los pacientes con tales ulceraciones que fueron autopsiados entre 1975 y 1985.
33
Solamente se examinaron pacientes con 50 años o más de edad, pues es en estos individuos en quienes el diagnóstico diferencial ofrece mayores dificultades, resultando: Clasificación de pacientes con ulceración gástrica de acuerdo con el lugar de la úlcera y el estado de malignidad. ESTADO DE MALIGNIDAD LUGAR DE LA ÚLCERA
Benigna
Maligna
Total
Prepilórica
87
34
121
Cuerpo
52
19
71
Cardias
11
8
19
Total
150
61
211
Realizar con estos datos la prueba de asociación entre el lugar de la úlcera y el estado de malignidad, a un nivel de significación del 5%. 03.- Se desea analizar si el tenor de la fosfatasa alcalina en casos de hepatitis humana varía según la edad. Se tomaron enfermos de distintas edades que se agruparon en tres clases, y se midió el tenor de fosfatasa alcalina. Los resultados fueron: Niveles de Fosfatasa Edad
Menos de 20 UI
20 UI o más
Menos de 20 años
11
49
20 a 40 años
15
45
Más de 40 años 20 ¿Influye la edad sobre el tenor de fosfatasa alcalina? Concluir al nivel del 5%
40
04.- Se realiza un experimento entre dos cobayos heterocigotas (AaBb) en los cuales A determina el pelaje negro y a determina el pelaje blanco, mientras que B determina el pelo corto y b el pelo largo. Se obtuvieron las siguientes frecuencias fenotípicas: Pelaje negro y corto 85 Pelaje negro y largo 28 Pelaje blanco y corto 35 Pelaje blanco y largo 12 ¿Puede considerarse que la segregación de la descendencia está en una proporción de 9:3:3:1, a un nivel del 5%? 05.- Se arroja 48 veces un dado con los siguientes resultados: Resultado 1 2 3 4 5 Frecuencia 11 5 8 15 1 ¿Puede considerarse el dado equilibrado con un nivel de significación del 5%?
6 8
06.- Para investigar si el dosaje de transaminasa en casos de hepatitis de tipo A está asociado con la edad, se tomaron sesenta historias clínicas de pacientes registrados en un hospital en un período determinado y se las clasificó por grupo de edad y por dosaje de transaminasa, obteniéndose la siguiente tabla: EDAD (AÑOS) Menos de 18 18 a 35 años Más de 35 años
15 - 30 10 8 9
DOSAJE DE TRANSAMINASA 30 – 45 más de 45 6 5 7 5 7 5
a) Plantear las hipótesis nula y alternativa b) Indicar la zona crítica (Use α=0,05) c) Detallar los pasos a seguir para calcular el valor esperado de la celda (2;3) bajo la hipótesis nula.
34
d) Si χ² = 0,475, ¿cuál es la decisión? Concluir en términos del problema. Ho 07.- Suponga que para comparar tres métodos de enseñanza se realizan pruebas en tres cursos de 30; 43 y 50 alumnos respectivamente, impartiendo un método a cada curso. Al cabo de la experiencia se toma una prueba escrita individual y se clasifica a los alumnos según el grado de comprensión del tema. Los resultados se muestran en el siguiente cuadro: Grado de comprensión Alta Media Baja
Curso 1: Simulación 16 9 5
Método de enseñanza Curso 2: Estudio de casos 25 11 7
Curso 3: Exposición 12 28 10
A un nivel de significación del 5%, ¿cree que la respuesta de los alumnos resulta similar bajo los tres métodos de enseñanza? ¿Corresponde a un problema que se resuelve realizando una prueba de Independencia? Justifique. 08.- Un criador de perros de raza desea determinar si han cambiado las preferencias de la gente en relación a las razas de perros a la hora de comprar una mascota. Se sabe que las preferencias por razas de perros en el pasado sigue los siguientes porcentajes: 35% del público prefería la raza A; 21% la raza B; el 16% la raza C y el resto la raza D; mientras que en el último año entre 250 individuos que compraron como mascota un perro de raza resultó que optaron: 63 por raza A, 32 por raza B, 38 por raza C y el resto prefirió la D. A un nivel de significación del 5%, ¿se puede decir que la preferencia del público se ha modificado? a. Indicar Hipótesis estadísticas b. Seleccione una categoría, simbolice el correspondiente valor observado e indique como obtiene el correspondiente valor esperado. CUESTIONARIO 1.- ¿Cuál es la utilidad de las pruebas de Bondad de Ajuste? 2.- ¿Cuándo aplica una Dócima de Independencia y cuándo una de Homogeneidad? Señale similitudes y diferencias entre ambas pruebas. 3.- ¿Por qué la región crítica es unilateral derecha en este tipo de prueba de hipótesis? 4.- Dada la siguiente tabla: B1 B2 B3
A1 10 15 25
A2 15 30 40
Total 25 45 65
Total
50
85
135
Responda las siguientes consignas suponiendo que es una prueba para: A- Independencia B- Homogeneidad a) Definir las variables A (con 2 niveles) y B (con 3 niveles) de modo que tenga sentido realizar la dócima. b) Indicar el modo en que se seleccionaría/n la/s muestra/s. c) Proponer las hipótesis correspondientes. d) Suponiendo que se rechaza la hipótesis nula, redactar la conclusión. 5.- Seleccionar una alternativa en cada caso y justificar claramente:
En una prueba de INDEPENDENCIA
a.- La/s variables en estudio debe/n ser:
35
a.1.- ambas cuantitativas continuas a.2.- ambas cuantitativas discretas a.3.- ambas cualitativas a.4.- al menos una cualitativa a.5.- ninguna de las situaciones anteriores b.- La región crítica es: b.1.- unilateral derecha b.2.- unilateral izquierda b.3.- bilateral c.- El valor esperado de la celda que se encuentra en la intersección de la primera fila con la segunda columna se calcula como:
eˆ12 = pˆ •2 * n1• c.2. - eˆ12 = p ˆ 1• * n•2 c.3. - eˆ12 = p ˆ 1• * pˆ •2 * n••
c.1. -
c.4. - Ninguna de las situaciones anteriores
En una prueba de HOMOGENEIDAD
El valor esperado de la celda que se encuentra en la intersección de la primera fila con la segunda columna se calcula, si las poblaciones están ordenadas por columnas, como:
eˆ12 = pˆ •2 * n1• a.2. - eˆ12 = p ˆ 1• * n•2 a.3. - eˆ12 = p ˆ 1• * pˆ •2 * n•• a.1. -
a.4. - Ninguna de las situaciones anteriores 6.- Para una dócima de bondad de ajuste se concluyó de la siguiente forma: “Con un nivel de significación del 1% se tiene evidencia suficiente para rechazar H0, por lo tanto la población de vacas Shorthorn se puede suponer que sigue una distribución según el modelo teórico 1:2:3, en la población bajo estudio”. Seleccionar el ítem correcto y justificar su respuesta. a.- la conclusión es correcta b.- la conclusión esta incompleta ya que le falta detallar las categorías del modelo c.- la conclusión esta incompleta ya que le falta detallar la variable en estudio d.- b y c son correctas e.- ninguna de las anteriores 7.- Seleccionar la respuesta correcta, el estadístico de prueba en la dócima de Chi-cuadrado siempre toma valores a.- no negativos b.- entre 0 y 1 c.- mayores o iguales al valor crítico d.- menores o iguales al valor crítico 8.- Escribir para cada situación: H0, variable pivotal y región crítica • Las calificaciones categorizadas en libres, regulares y promociones no están balanceadas en la población correspondiente a los alumnos de estadística. H0: .................................................................................................................................................. Variable pivotal: ............................................................................................................................... Región crítica: ................................................................................................................................. • Aprobar o desaprobar un examen final no está asociado a sí el presidente de mesa es el titular, el adjunto o el jefe de trabajos prácticos en la población correspondiente a los alumnos de estadística. H0: .................................................................................................................................................. Variable pivotal: ............................................................................................................................... Región crítica: .................................................................................................................................
36
9.- Completar a) En una prueba de Homogeneidad se trabaja con la cantidad de .......... población/es y se registra la cantidad de ........................ variable/es. b) En una prueba de Bondad de Ajuste se quiere probar si una................................... se comporta como .................. respecto a una variable aleatoria de interés. c) Las pruebas de independencia sólo se pueden aplicar cuando al muestrear se toma la/las .................... en forma aleatoria . 10.- Se tomó aleatoriamente una muestra y se registró presión diastólica y colesterol ambas variables con niveles normal y alto resultando: Presión Diastólica
Colesterol
Normal
Alta
Normal
716
79
Alto
207
25
Completar: a.- Población o poblaciones:.............................................................................................................. b.- El valor esperado de la segunda celda de la primera fila se obtiene ...............................................
37
Estadística Analítica 2011
Fac. Cs. Veterinarias (U.B.A)
UNIDAD 3: Regresión Lineal Simple y Múltiple. Objetivos específicos • Comprender el sentido de las técnicas de regresión lineal así como su importancia en el marco de la Inferencia Estadística para dos o más variables conjuntamente distribuidas. • Conocer las ventajas y limitaciones de esta técnica así como los procedimientos de diagnóstico para evaluar la calidad de los resultados obtenidos en la estimación. • Distinguir claramente entre casos de relación funcional entre variables respecto a independencia de variables aleatorias. Contenidos temáticos Concepto de regresión. Caso particular: regresión lineal simple. Diagrama de dispersión. Variable dependiente. Modelo, supuestos. Método de mínimos cuadrados. Coeficiente de regresión: cálculo e interpretación. Varianza del error. Prueba de hipótesis e intervalo de confianza para β. Banda de confianza para la recta de regresión. Intervalo de predicción. Coeficiente de determinación. Aplicaciones. Regresión múltiple: Conceptos y aplicaciones. Interpretación de análisis realizados mediante programas de computación. Glosario Relación entre variables. Concepto de función. Variable dependiente e independiente. Diagrama de dispersión. Curva aproximada de ajuste. La función lineal simple. Criterio de los mínimos cuadrados. Concepto de error: como distancia vertical entre el punto observado y la función propuesta. Las ecuaciones normales. Pendiente de la recta (β, coeficiente de regresión lineal). Ordenada al origen (α). Contrastes e intervalo para β. Varianza del error. Varianza explicada (coeficiente de determinación). Partición de la varianza total. Coeficientes de regresión parcial. PROBLEMAS RESUELTOS 1) La siguiente tabla da los resultados del estudio de la energía metabolizada por el gorrión Passer domesticus, bajo diversas condiciones de temperatura seleccionadas por el experimentador y un fotoperíodo de 10 hs. Considere que se verifican todos los supuestos teóricos necesarios para realizar el análisis Temperatura (°C)
10
12
14
16
18
20
22
24
26
28
Energía metabolizada (cal)
24
23
22
24
20
18
18
15
16
13
a) Dibujar el diagrama de dispersión. b) Estimar la función lineal de regresión y graficarla en el diagrama anterior. c) Probar estadísticamente que el aumento de la temperatura genera una disminución de la energía metabolizable (α = 0,05). d) Calcular el intervalo de confianza del 95% para β. e) Particionar la suma de cuadrados total mostrando la proporción explicada por el modelo y la no explicada o residual. 2 f) Calcular el R e interpretar el resultado. g) ¿Qué porcentaje de la variabilidad de la variable respuesta no es explicada por el modelo escogido? h) ¿Cuál es la estimación, por intervalo, de la energía media metabolizada (en calorías) a los 25°C, con un nivel de confianza del 95%? i) Construir un intervalo de predicción para la energía metabolizada por un gorrión que es sometido a una temperatura de 21 °C El objetivo del estudio de regresión es investigar si se puede explicar la relación entre dos variables cuantitativas por una relación funcional con el propósito de estimar o predecir valores de una de ellas a partir de la otra. Datos del problema •
38
Variables en estudio:
Estadística Analítica 2011
Fac. Cs. Veterinarias (U.B.A)
X: Temperatura ambiente donde habita un gorrión Passer domesticus, medida en ºC; variable explicatoria, independiente (no aleatoria) Y: Energía metabolizada por un gorrión Passer domesticus, medida en calorías (cal); variable respuesta, dependiente (aleatoria) •
Supuestos teóricos Antes de comenzar el estudio, deberíamos verificar si se cumplen los supuestos requeridos:
i) Para cada valor de temperatura, existe una subpoblación de valores de energía metabolizada por el gorrión, con distribución normal (al tener un solo valor de esta subpoblación no podemos verificarlo y suponemos que se cumple) ii) Los valores de energía metabolizada son independientes dentro de cada temperatura. Para garantizar este supuesto, se toman 10 gorriones y cada uno de ellos es sometido a una de las temperaturas ambientales iii) Las varianzas de los valores de energía metabolizada para cada temperatura deben ser iguales (al tener un solo valor de esta subpoblación no podemos verificarlo y suponemos que se cumple)
Energía metabolizada
Solución 25 a) El diagrama de dispersión es recomendable como primer paso del estudio de regresión, ya que nos permitirá apreciar 20 visualmente la existencia o no de una tendencia lineal, tener una idea sobre el tipo de relación entre las variables, y 15 sobre su grado de dispersión. Se grafican los puntos (pares (xi;yj)) colocando la variable independiente sobre el eje X (horizontal) y la variable 10 dependiente sobre el eje Y (vertical). Es importante elegir escalas adecuadas y mantener las mismas para todos los 5 puntos, porque de lo contrario se desvirtúa el objetivo del gráfico, que es dar una idea a priori de la forma de la 0 relación. 10 15 20 25 En este caso parecería haber una relación lineal inversa Temperatura entre la “energía metabolizada” y la “temperatura ambiente”, de modo tal que al aumentar la temperatura del ambiente donde se encuentra el gorrión, disminuye la energía metabolizada por el mismo en forma lineal. b) Modelo poblacional propuesto es: E(Yi) = α + βXi ó Yi = α + βXi + εi
30
donde εi ~ N(0; σ ) y son independientes entre sí 2
Los estimadores de mínimos cuadrados de los parámetros (son los que se obtienen al hacer mínima ∑εi = ∑( Yi - α - βXi ) 2
Por lo tanto •
2
son:
αˆ = a
βˆ = b
y
Yˆi = a + bxi es la recta estimada 2
2
Información muestral: ∑xi = 190; ∑xi = 3940; ∑yi =193; ∑yi = 3863; ∑xi yi = 3464
Reemplazando en las fórmulas correspondientes se obtienen las estimaciones de los parámetros:
b=
∑ XY - (∑ X )(∑ Y ) / n 3464 - (190)(193) / 10 -203 = = = - 0, 62 3940 - 36100 /10 330 ∑ x 2 - (∑ X ) 2 / n a =Y -b X =
193 190 - -0.62 = 19, 3 + 0, 62 *19, 0 = 31, 08 10 10
La recta estimada con la muestra que tenemos resulta:
Yˆi = 31, 08 − 0, 62 xi
39
Estadística Analítica 2011
Fac. Cs. Veterinarias (U.B.A)
Gráfico
Energía metabolizada
25 20
15 10
5 0 10
15
20
25
30
Temperatura
c) Lo planteado en esta parte se responde resolviendo una prueba cuyas hipótesis son: H0: β ≥ 0 H1: β < 0 Para encontrar el estadístico de prueba adecuado, tenemos en cuenta que el parámetro en estudio es β, y que su estimador es b, cuya expresión se obtiene por el método de mínimos cuadrados. Resulta que: E(b) = β por lo que b es estimador insesgado de β, y además b ∼ N (β , σβ ), lo cual puede verse intuitivamente observando la fórmula de b, dado que los xi son valores constantes y que los yi tienen distribución normal. 2
Por lo tanto, estandarizando a b, obtenemos Z = b - β ∼ N (0 , 1) σβ Considerando que desconocemos la varianza poblacional, y el caso general en que la variable respuesta sea aproximadamente normal, tenemos como estadístico de prueba:
t=
b-β Sb
~t
( n -2)
El nivel de significación es α = 0,05 La región crítica (RC) es unilateral izquierda: t8 ≤ -1,86
La regla de decisión (RD) es:
La varianza muestral de b es:
RECHAZO HO si tHo ≤ - 1,86 NO RECHAZO HO si tHo > - 1,86
Se2
Sb2 =
∑X siendo la varianza muestral del error:
40
(Valor crítico: -t(8;0,95) = -1,86)
2
(∑ X ) n
2
Estadística Analítica 2011
Fac. Cs. Veterinarias (U.B.A)
1 (∑ Y ) 2 2 (∑ X ) 2 ∑ Y 2 - b ∑ X 2 n-2 n n
S e2 =
Luego, tomando la información muestral:
S e2 =
=
1 8
(193) 2 (190 ) 2 3863 - (-0, 62 ) 2 3940 10 - 2 10 10 1
( 3863 − 3724, 9 − 0, 3844 ⋅ 330 )
=
1 8
(138,10 − 126, 85) = 1, 405
sb2 = 1,405/330 = 0,0043 ; t Ho =
sb =0,0653 ≅ 0,07
-0, 62
= - 9, 4946 0, 0653 Conclusión: A un nivel de significación del 5%, hay evidencias suficientes para rechazar H0 (H0: β ≥ 0), es decir β < 0. Se puede concluir que por cada aumento de temperatura ambiente en 1ºC hay una disminución de la energía media poblacional metabolizada por los gorriones, en calorías, en esta población de gorriones Passer domesticus.
d) Para el cálculo del intervalo de confianza para β, se toma como variable pivotal el estadístico de prueba que se utilizó en la dócima para ese parámetro, y su construcción es similar al de todos los intervalos simétricos. En este caso, calculamos el intervalo de confianza del 95% para β: L.I. = b - t8; 0,975 . Sb = -0,62 - (2,306 · 0,07) = - 0,78 L.S. = b + t8; 0,975 . Sb = -0,62 + (2,306 · 0,07) = - 0,46 Conclusión: Con una confianza del 95%, se espera que el intervalo [- 0,78 cal/°C; - 0,46 cal/°C] cubra al verdadero valor del coeficiente de regresión, en este caso la modificación o cambio de la energía media metabolizada (cal) por los gorriones al aumentar en 1°C la temperatura ambiente, en la población de gorriones Passer domesticus. e) Sean: yi un valor observado de la variable respuesta yˆ i el valor estimado correspondiente, para el mismo xi y según la recta estimada.
y el promedio de todos los valores observados de la variable respuesta. y : desvío total yˆ i - y : desvío debido a la regresión yi - yˆ i : desvío debido al error muestral o residuo
yi -
Se verifica que: (Por ejemplo: en
yi -
(ei = yi -
yˆ i error muestral)
y = ( yˆ i - y ) + (yi - yˆ i)
x4 = 16 el valor observado es y4 = 24, el valor estimado es yˆ 4 = 21,16 ; y = 19,3
24 – 19,3 = 4,7 21,16 – 19,3 = 1,86 24 – 21,16 = 2,84
desvío total correspondiente al punto 4 desvío debido a la regresión del punto 4 desvío debido al error o residuo del punto 4
Luego, la igualdad se verifica para el punto 4, ya que 4,7 = 1,86 + 2,84 Elevando al cuadrado cada uno de los miembros de la igualdad, sumando y operando algebraicamente se obtiene la partición de la suma de cuadrados total
41
Estadística Analítica 2011
Fac. Cs. Veterinarias (U.B.A)
2
2
2
∑(yi - y ) = ∑( yˆ i - y ) + ∑(yi - yˆ i) SCtotal = SCregresión + SCresidual En este caso: SCtotal = ∑(yi -
y )2 = ∑ y2 – (∑yi )2 /n = 3863 – (193)2 /10 = 138,10 n
SCregresión = ∑( yˆ i -
y )2 = b 2 ∑ ( X i − X )2 = (-0,62)2 330 = 126,85 i =1
SCresidual = SCtotal - SCregresión = 138,10 – 126,85 = 11,25 Luego: SCregresión SCtotal
SCresidual SCtotal
f) Se define:
=
=
126, 85 138,10
11, 25
= 0, 91 es la proporción explicada por el modelo estimado.
= 0,09 es la proporción no explicada por el modelo estimado.
138,10
2
R =
SCregresión
SCtotal Como se vio en el punto anterior, expresa la proporción de la suma de cuadrados total explicada por la regresión. Es una medida muestral. 2 En este caso: R = 0,91
Interpretación: El 91% de la variabilidad total de la variable respuesta es explicada por la regresión en la variable explicatoria, en la relación dada por el modelo estimado. En este caso, el 91% de la variabilidad de la energía metabolizada (cal) es explicada por la temperatura (°C) a la que están sometidos los ˆ = 31,08 + 0,62 ⋅ x gorriones Passer domesticus, según el modelo estimado: y g) Si R² = 0,91 es una medida de la variabilidad de la variable respuesta que es explicada por el modelo 2 2 estimado, teniendo en cuenta que 0 ≤ R ≤ 1, su complemento, 1 – R , es una medida de la variabilidad de y no explicada por el modelo estimado. En este caso: 1- 0,91 = 0,09, y por lo tanto el porcentaje que no es explicado por el modelo estimado es el 9%, como ya se había visto en el punto e).
Yˆ( X = 25) = 31, 08 - 0, 62(25) = 15, 58 cal, (teniendo en
h) La estimación puntual de E(Y) para X=25°C es:
cuenta el modelo estimado en el punto b). La estimación mediante un intervalo de confianza se realiza empleando la fórmula:
1 ( X ′ - X )2 a + b′X m t n - 2;1 − α / 2 S e + n ∑( X - X ) 2 donde X' es el valor de la variable X de nuestro interés, en este caso X' = 25°C.
31, 08 - (0, 62) 25 m 2, 306 1, 405 En consecuencia:
1
+
10 L.I. = 15,58 - 1,25 = 14,33 cal L.S. = 15,58 + 1,25 = 16,83 cal
(25 -19) 2 330
= 15,58 ± 2,306 * 0,54
Conclusión: Con una confianza del 95%, se espera que el intervalo (14,33 cal; 16,83 cal) contenga al verdadero valor medio de la energía metabolizada por la población de gorriones Passer domesticus cuando la temperatura ambiente es de 25°C. i) La estimación puntual es
Yˆ( X = 21) = 31, 08 - 0, 62(21) = 18, 06
La estimación mediante un intervalo de predicción se realiza empleando la fórmula:
42
Estadística Analítica 2011
Fac. Cs. Veterinarias (U.B.A)
1 ( X ′ - X )2 a + bX ′ m tn -2;1−α / 2 S e 1 + + n ∑( X - X ) 2 donde X' es el valor de la variable X de nuestro interés, en este caso X' = 21°C.
31, 08 - (0, 62) 21 m 2, 306 1, 405 1 + En consecuencia:
1
+
10 L.I. = 18,06 - 2,88 = 15,18 cal L.S. = 18,06 + 2,88 = 20,94 cal
(21-19) 2 330
= 18,06 ± 2,306 * 1,25
Es decir el intervalo de predicción del 95% para el valor de la energía metabolizada por un gorrión Passer domesticus sometido a una temperatura ambiente de 21°C se esp era que se encuentre en el intervalo (15,18 cal; 20,94 cal). 2) Con el objeto de estudiar el efecto del tratamiento con estrona sobre el peso uterino de ratas hembra, un conjunto de ratas se dividió aleatoriamente en grupos y a cada grupo se le administró una dosis diferente de estrona. Considere que se verifican todos los supuestos teóricos necesarios para realizar el análisis Después de cierto tiempo se observó el peso del útero de una rata, tomada al azar, para cada una de las dosis, expresado en mg. Dosis (µg)
4
6
8
10
12
14
16
18
20
22
Peso (mg)
12,4
14,8
15,2
16,9
19,1
19,9
20,2
21,0
18,7
20,9
Analizar la siguiente salida de computadora generada al realizar el análisis estadístico mediante el programa InfoStat: a) Estimación del modelo. b) Dócima para β, utilizando la Tabla de Análisis de Varianza. (α = 0,05) c) Intervalo de confianza del 95% para β d) Intervalo de confianza del 95% para α e) Valor del coeficiente de determinación. Análisis de regresión lineal Variable N R² Peso 10 0.80
R² Aj ECMP 0.77 3.28
Coeficientes de regresión y estadísticos asociados Coef Est. EE LI(95%) LS(95%) Const 12.26 1.10 9.73 14.79 Dosis 0.43 0.08 0.26 0.61
T p-valor 11.17 <0.0001 5.63 0.0005
Cuadro de Análisis de la Varianza (SC tipo III) F.V. SC gl CM F p-valor Modelo 62.40 1 62.40 31.74 0.0005 Dosis 62.40 1 62.40 31.74 0.0005 Error 15.73 8 1.97 Total 78.13 9 Datos del problema •
Variables en estudio:
X: dosis de estrona administrada a una rata hembra (en µg) Y: peso del útero de una rata hembra después de cierto tiempo de haberle administrado una dosis de estrona (en mg)
43
Estadística Analítica 2011
Fac. Cs. Veterinarias (U.B.A)
Solución a) Modelo teórico propuesto: E(Y) = α + βX Los valores correspondientes a los estimadores de los parámetros del modelo pueden extraerse de la tabla: “Coeficientes de regresión y estadísticos asociados”, columna “Est.” El valor de a es el que corresponde a “const” (constante), en este caso es de 12,26, y el valor de b es el que corresponde al nombre de la variable independiente (por ser el coeficiente que la multiplica), en este caso es “Dosis”, y su valor es de 0,43. Por lo que el modelo estimado es:
yˆi = 12, 26 + 0, 43 xi .
Interpretación: a = 12,26 mg, por lo tanto, el peso medio estimado del útero de las ratas con dosis 0µg, es decir sin haber recibido tratamiento con estrona es 12,26 mg. b = 0,43 mg/µg, indica que al aumentar la dosis de estrona en un µg, el peso medio estimado del útero de las ratas aumenta en 0,43 mg. b) La tabla de Análisis de la Varianza fue construida basándose en la descomposición de la Suma de Cuadrados Total. Hay dos fuentes de variación que la afectan: una debida a la regresión, simbolizada por el nombre de la variable explicatoria, en este caso “Dosis”; y otra debida al residuo o error muestral, simbolizada por “Error”. La tercera columna de la tabla, es la de Cuadrados Medios: C.M. =
Suma de Cuadrados
grados de libertad
. Son varianzas y
con ellos se construye el estadístico de prueba. Con los datos de la Tabla de Análisis de Varianza, las únicas hipótesis que se plantean son: H0: β = 0 H1: β ≠ 0 La variable pivotal a usar es F de Snedecor, que, bajo la hipótesis nula, es el cociente de dos varianzas 2 que provienen de variables independientes, cada una con distribución χ : F=
CMregresión ∼ F1, n-2 ; en este caso CMresidual
F=
CM DOSIS ~ F1,8 CM ERROR
Si F es grande (F>1), esto equivale a que CMregresión > CMresidual entonces es mayor la variabilidad debida a la regresión que la debida a los residuos, por lo tanto se rechaza la hipótesis nula y la regresión es significativa (β≠0). Si F es chico (F≤1), esto equivale a que CMregresión ≤ CMresidual entonces es mayor o igual la variabilidad debida al residuo que la debida a la regresión, por lo tanto no se rechaza la hipótesis nula y la regresión es no significativa (β=0). Por lo tanto la región crítica es siempre unilateral derecha. En este caso, α = 0,05; el valor crítico es: F1, 8; 0,95 = 5,32 → RC: F 1, 8 ≥ 5,32
La regla de decisión es: RECHAZO HO si FHo ≥ 5,32 NO RECHAZO HO si FHo < 5,32 Según la tabla de Análisis de Varianza, el valor de FHo = 31,74 es mayor que 5,32, entonces RECHAZO H0.
44
Estadística Analítica 2011
Fac. Cs. Veterinarias (U.B.A)
Conclusión: A un nivel de significación del 5%, hay evidencias suficientes para rechazar H0 (H0: ß=0), por lo tanto se puede concluir que por cada aumento de la dosis de estrona en 1µg hay una modificación del peso medio poblacional del útero de las ratas, en mg, en la población de ratas hembra. Esta decisión también la podemos tomar utilizando el p-valor que aparece en la tabla de Análisis de Varianza. En este caso, p-valor=0,0005<0,05, por lo que RECHAZO H0 y concluimos que hay diferencias significativas que nos permiten rechazar a la hipótesis nula. Otra forma de expresarlo es: p<0,05, que corresponde a la comparación con el valor que toma el nivel de significación en este problema. Esta última expresión se utiliza en las conclusiones de trabajos de investigación, y generalmente figura entre paréntesis.
25.0
25.0
20.0
22.0
15.0
19.0
Peso
Peso
Con el programa estadístico utilizado también se puede realizar el diagrama de dispersión, en donde los datos aparecen expresados como círculos pequeños, junto a la recta muestral, y a la banda de confianza de nivel 1-α.
10.0
16.0
5.0
13.0
0.0
10.0
0
5
10
15
Dosis
20
25
0
5
10
15
20
25
Dosis
Estos gráficos fueron hechos con distintas escalas para el eje Y. Al respecto debemos hacer notar que: la recta solamente está graficada para los valores de X que consideramos en el problema, o sea en el intervalo [4; 22]. se ve modificada (falsamente) la pendiente, ya que por cálculos b=0,43, sea cual sea el gráfico. 2 R = 0,80 se ve mejor reflejado en el primer gráfico que en el segundo. c) Este intervalo de confianza también puede leerse de la tabla “Coeficientes de regresión y estadísticos asociados”, donde figuran LI (límite inferior) y LS (límite superior), en este caso los correspondientes a “Dosis”, valores calculados para un nivel de confianza del 95%. Luego: [0,26 mg/µ µg ; 0,61 mg/µ µg]] es el IC del 95% para β. Con un nivel de confianza del 95%, espero que el intervalo [0,26mg/µg ; 0,61 mg/µg] contenga al cambio del verdadero valor del peso medio del útero de las ratas hembra al aumentar la dosis de estrona en un µg, en la población de ratas hembra. d) Este intervalo se lee en la misma tabla que el anterior, en la fila correspondiente a “const”. Luego: [9,73 mg ; 14,79 mg]] es el IC del 95% para α. Con un nivel de confianza del 95%, espero que el intervalo [9,73 mg ; 14,79 mg]] contenga al verdadero valor del peso medio del útero de las ratas hembra que no recibieron tratamiento con estrona. 2
e) En la salida de computadora tenemos también información sobre el valor de R , calculado con los datos de la muestra. El que nos interesa es el primero, por lo tanto es 0,80. La interpretación correspondiente es: El 80% de la variabilidad del peso del útero es explicada por la dosis de estrona aplicada a las ratas hembra, según el modelo estimado: yˆ i = 12, 26 + 0, 43 xi .
45
Estadística Analítica 2011
Fac. Cs. Veterinarias (U.B.A)
Regresión Lineal Múltiple 3) En un estudio sobre la duración de la hospitalización para pacientes de un hospital de enfermedades crónicas, un grupo de investigadores deseaba poder predecir la duración de la internación (Y, en días), dadas las variables independientes: número de admisiones previas (X1) y edad (X2, en años). Se obtuvieron datos de una muestra de 15 pacientes. Considere que se verifican todos los supuestos teóricos necesarios para realizar el análisis a) Indicar e interpretar la expresión del plano estimado b) Analizar la significación de la regresión (α = 0,05) c) Analizar el ajuste a nivel muestral.
Análisis de regresión lineal Variable N R² Y 15 0.85
Y
X1 X2
Y
X1 X2
Y
X1 X2
15 15 21 28 30
0 0 0 1 1
35 40 35 30 45
1 1 2 2 2
50 60 45 60 50
3 3 4 4 5
R² Aj 0.83
21 18 22 24 25
25 26 34 25 38
44 51 39 54 55
ECMP 59.81
Coeficientes de regresión y estadísticos asociados Coef Est. EE LI(95%) LS(95%) const 2.09 6.74 -12.60 16.77 X1 0.06 2.61 -5.64 5.75 X2 1.05 0.33 0.34 1.76
T 0.31 0.02 3.22
p-valor 0.7623 0.9830 0.0074
Cuadro de Análisis de la Varianza (SC tipo III) F.V. SC gl CM F p-valor Modelo 2502.39 2 1251.20 34.08 <0.0001 X1 0.02 1 0.02 4.8E-04 0.9830 X2 380.37 1 380.37 10.36 0.0074 Error 440.54 12 36.71 Total 2942.93 14
Datos del problema: • Variables en estudio: X1: Número de admisiones previas de un paciente de un hospital de enfermedades crónicas X2: Edad de un paciente, en años, de un hospital de enfermedades crónicas Y: Duración de la internación de un paciente, en días, de un hospital de enfermedades crónicas Solución: a) Modelo teórico: E(Y)= α + β1 X1 + β2 X2 ˆ = 2,09 + 0,06 x1 + 1,05 x 2 , extraída de la salida de computadora Ecuación del plano estimado: y Interpretaciones b1 = 0,06 días/número de admisiones previas. Indica que para cada edad fija, al aumentar en 1 el número de hospitalizaciones previas, el tiempo medio estimado de hospitalización aumenta 0,06 días (≅ 1 hora) en los pacientes de enfermedades crónicas de un hospital b2 = 1,05 días/año de edad. Indica que para un número de admisiones previas fijo, al aumentar en 1 año la edad del paciente, el tiempo medio estimado de hospitalización aumenta 1,05 días (≅ 1 día) en los pacientes de enfermedades crónicas de un hospital a = 2,09 días. Indicaría el tiempo medio estimado de internación en un hospital para enfermedades crónicas para pacientes recién nacidos (edad cero) y sin internaciones previas, sin sentido biológico.
46
Estadística Analítica 2011
Fac. Cs. Veterinarias (U.B.A)
b) Análisis de Regresión
H 0 : β1 = β 2 = 0 H1 : algún β i ≠ 0 con i = 1, 2
Hipótesis conjunta
F = CMREGRESION / CMRESIDUAL ~ F2, n-3 Regla de decisión (α = 0.05) Rechazo H0 si No rechazo H0 si ó si Rechazo H0 No rechazo H0 si
FHo ≥ 3.89 FHo < 3.89
(F2, 12; 0.95 = 3,89)
p-valor ≤ 0.05 p-valor > 0.05
donde P = P( F >FHo)
Decisión: p < 0.0001 (o F=34.08) por lo tanto se rechaza H0, el resultado es significativo. Conclusión: Con un nivel de significación del 5% se tienen evidencias suficientes para rechazar H0 (H0:β1=β2=0), por lo tanto algún βi ≠ 0, la regresión conjunta con las variables explicatorias número de admisiones previas y edad del paciente es significativa; o sea que al aumentar conjuntamente, en una unidad, el número de admisiones previas y la edad, se modifica el tiempo medio poblacional de hospitalización de los pacientes en este hospital de enfermedades crónicas. El modelo propuesto parece aceptable para explicar la duración de la internación en pacientes crónicos en este hospital. Hipótesis individuales
H 0 :β1 = 0 H1:β1 ≠ 0
Para X1 Hipótesis estadística
H 0 :β 2 = 0 H1:β 2 ≠ 0
Para X2 Hipótesis estadísticas
Regla de decisión (α=0,05) Rechazo H0 No rechazo H0
si si
t = b1 / s b1 ~ t
n-3
t = b2 / s b2 ~ t n-3
tHo ≥ 2,179 ó tHo ≤ -2,179 (t12,0.975 = 2,179) -2,179 < tHo < 2,179
o Rechazo H0 si p-valor ≤ 0,05 [donde p-valor = P(|t| >tHo) = P(t>tHo)+P(t<-tHo)] No rechazo H0 si p-valor > 0,05 Decisión 1: p=0,9830 (o t=0,02) por lo tanto no se rechaza H0, el resultado es no significativo. Conclusión 1: Con un nivel de significación del 5%, no se tienen evidencias suficientes para rechazar H0: β1=0, por lo tanto se supone que al aumentar en uno el número de admisiones previas y manteniendo fija la edad, no se modifica el tiempo medio poblacional de internación en pacientes crónicos en este hospital en estudio. Decisión 2: p=0,0074 (o t=3,22) por lo tanto se rechaza H0, el resultado es significativo. Conclusión 2: Con un nivel de significación del 5%, se tienen evidencias suficientes para rechazar H0:β2=0, por lo tanto β2 ≠ 0, lo que significa que podemos suponer que al aumentar la edad en un año y manteniendo fijo el número de internaciones previas, se modifica el tiempo medio poblacional de internación en pacientes crónicos en este hospital en estudio. Conclusión final: Si bien el modelo propuesto para la duración de las internaciones en pacientes crónicos en función del número de internaciones previas y de la edad del paciente resultó adecuado, parecería que el tiempo de internación está afectado en forma significativa por la edad y no por la cantidad de internaciones previas en los pacientes de este hospital de enfermedades crónicas.
47
Estadística Analítica 2011
Fac. Cs. Veterinarias (U.B.A)
2
c) Coeficiente de determinación: R = 0,85 El 85% de la variabilidad total del tiempo de internación en los pacientes de un hospital de enfermedades crónicas está explicada por el número de internaciones previas (X1) y la edad del paciente (X2) conˆ i = 2,09 + 0,06 x1i + 1,05 x 2i . juntamente, según la relación dada por el modelo estimado y PROBLEMAS PROPUESTOS 04.- Para analizar el rendimiento (en toneladas) de una pastura en función de la cantidad de agua aplicada (riego artificial en mm) se realizó un experimento con 10 parcelas. Considere que se verifican todos los supuestos teóricos necesarios para realizar el análisis. Los resultados se muestran en la tabla siguiente:
Agua
12
18
24
30
36
42
48
54
60
66
Rendimiento
5
6
6
7
8
9
8
8
9
9
a) Graficar e interpretar el diagrama de dispersión. b) Estimar la ecuación de regresión y graficarla en el diagrama anterior c) Docimar el coeficiente de regresión al 5% d) Para el supuesto de que al aumentar el riego en 1mm, el rendimiento de la pastura aumenta más de 0,01tn i) Las hipótesis estadísticas son: H0: ...............................
H1: .................................
ii) El valor crítico es (α=0,05): .......................... iii) La regla de decisión es: .............................................................................................. 2 e) Calcular el R e interpretarlo. f) Estimar el rendimiento medio de la pastura sin riego artificial con una confianza del 95%. Fórmula Reemplazo de valores Resultado LI
LS Seleccione la opción correcta para concluir: Con un nivel de confianza del 95% i) se espera que el intervalo [ ; ] contenga al rendimiento medio de la pastura sin riego artificial en la población en estudio ii) el intervalo [ ; ] cubre al verdadero valor del rendimiento medio de la pastura sin riego artificial en la población en estudio iii) se espera que el intervalo [ ; ] cubra al valor medio poblacional del rendimiento de la pastura sin riego artificial iv) se espera que el intervalo [ ; ] cubra al valor medio poblacional del rendimiento de la pastura sin riego artificial en la población en estudio g) Predecir el rendimiento de la pastura con un riego artificial de 50 mm con una confianza del 95%. Fórmula Reemplazo de valores LI
LS
El resultado obtenido es .............................................................................................................................. 05.– La siguiente tabla registra datos correspondientes a concentraciones conocidas de β-eritroidina (C, en mg/ml) en una solución acuosa, y la lectura de la turbidez de la solución correspondiente (L) registrada en un colorímetro.
48
Estadística Analítica 2011
Fac. Cs. Veterinarias (U.B.A)
ci
40
45
50
55
60
65
70
75
80
85
li
69
72
175
180
272
265
335
340
490
492
lˆ = −338, 27 + 9, 72c i i
Considerando que la recta estimada de regresión es:
Considere que se verifican todos los supuestos teóricos necesarios para realizar el análisis a) Interpretar los coeficientes en términos del problema. b) Estimar la lectura media de una solución cuya concentración de β-eritroidina es de 72 mg/ml, con un nivel de confianza del 95%. Datos:
∑c
i
∑c
= 625;
2 i
= 41125;
∑l
i
= 2690;
∑l
2 i
= 927168;
∑c l
i i
= 188165; Se2 = 966, 26
06.- Se realizó una experiencia para analizar la influencia de la anestesia en la presión intraocular. A 10 perros que habían recibido pentobarbital como inducción anestésica, se les aplicó además, como refuerzo, metoxifluorano por inhalación. Se controló la presión intraocular media (pi, en unidades de presión), cada cinco minutos una vez comenzada la inhalación (ti, en minutos).
ti
5
10
15
20
25
30
35
40
45
50
pi
25,1
29,2
27,7
24,9
22,1
19,6
19,1
18,8
17,9
17,7
Considere que se verifican todos los supuestos teóricos necesarios para realizar el análisis a) Indicar e interpretar el modelo lineal que se propone b) Estimar los coeficientes para el modelo propuesto y expresar dicho modelo c) Indicar los supuestos que deben tenerse en cuenta, en este caso, para poder hacer inferencia a la población en estudio d) Estimar el coeficiente de regresión puntualmente y con una confianza del 95% Cuestionario 1.- Dadas las variables X1: longitud y X2: peso, dentro del contexto de un análisis de Regresión proponga: a.- hipótesis de trabajo b.- experimento (sea claro al comentar las acciones que realiza) c.- supuestos teóricos en este caso (No en forma genérica) d.- significado biológico de el o los parámetros poblacionales en estudio. 2.- Si en un análisis de regresión lineal simple al estimar β se obtiene que b = 2, ¿puede afirmar que la regresión es significativa? ¿por qué? Explique de qué depende que se concluya "es significativo". 3.- Si debe elegir entre dos variables independientes o explicatorias (X1 o X2) para predecir la variable aleatoria Y, y mediante dos muestras independientes estima ambas regresiones. ¿En qué se basa para seleccionar la mejor variable explicatoria? ¿Por qué? 4.- En un modelo de regresión lineal, ¿mediante qué método obtiene los estimadores de los parámetros poblacionales? Explique brevemente el método, NO LAS FÓRMULAS. 5.- En un Análisis de Regresión Lineal Simple considerando un valor de Y por cada valor de X: a) ¿Cuál es el parámetro más importante? ¿Qué significa? Expréselo en términos de un problema propuesto por Ud. b) ¿Cuál es la descomposición de la suma de cuadrados (SC) que se puede realizar a partir de una observación? Indicar gráficamente dicha partición señalando a qué parte de la suma de cuadrados da origen cada una de ellas. c) ¿Por qué en el Análisis de Varianza para la Regresión Lineal la región crítica es unilateral derecha? d) El estadístico al que se hace referencia, ¿qué relación tiene con la distribución t-Student?
49
Estadística Analítica 2011
Fac. Cs. Veterinarias (U.B.A)
2
6.- Relacione los siguientes gráficos con posibles valores de R , suponiendo que el gráfico representa la situación promedio de los desvíos presentados.
A)
Y ˆ Y
Y
B)
Y
C)
Y ˆ Y
ˆ Y Y
Y
7.- Elija la opción correcta: En una prueba de hipótesis para β en regresión lineal simple, los supuestos son: 2 a) X e Y son independientes, Y ∼ N (µY , σ ) 2 b) X prefijada, X e Y son independientes, Y ∼ N (µY, σ ) c) X prefijada, los valores de Y son independientes entre si, Y ∼ N (µY, σ ) 2
8.- Seleccionar V (verdadero) o F (falso), según corresponda: V F a) Si el coeficiente de determinación es igual a 1, entonces la recta poblacional pasa exactamente por los valores (Xi , Yi ) V F b) En un análisis de RLS, el método de mínimos cuadrados consiste en minimizar la SC de la regresión 9.- Completar para obtener una expresión verdadera: a) En un análisis de RLS, bajo el modelo E(Yi)= α + β Xi, β representa el ...............................en el valor medio ............................ de la variable Y cuando la variable regresora ................................en una unidad. b) En una prueba F de Snedecor para β, se pone a prueba .....................................de la regresión c) En una prueba F de Snedecor para β, el p-valor representa el área ubicada ........................... de los valores mayores o iguales a FHo
50
Estadística Analítica 2011
Fac. Cs. Veterinarias(U.B.A)
UNIDAD 4: Diseño Completamente Aleatorizado (DCA) Análisis de la Varianza (ADEVA) Objetivos específicos • • •
Comprender la importancia de las aplicaciones del análisis de la varianza. Adquirir vocabulario específico y manejar algunos métodos del Diseño Experimental. Aplicar análisis de la varianza paramétrico y no paramétrico, según corresponda, en casos relativos al campo profesional del veterinario.
Contenidos temáticos Concepto de Modelo. Supuestos. Método de mínimos cuadrados. ADEVA para DCA. Prueba de hipótesis para comparar valores medios de más de dos tratamientos. Análisis de varianza de una clasificación por rangos de Kruskal-Wallis. Aplicaciones. Interpretación de análisis realizados mediante programas de computación. Glosario Diseño completamente aleatorizado (DCA). Modelo estadístico. Análisis de la varianza (ADEVA) para un DCA, Modelo I. Pruebas de Hipótesis. Suma de cuadrados. Cuadrado medio. Varianza. Análisis de varianza Kruskal-Wallis. Rango. Variables al menos ordinales. Mediana.
PROBLEMAS RESUELTOS 1) Para comparar cuatro suplementos “de engorde” en bovinos para carne, se seleccionaron, al azar, cuarenta animales Hereford de iguales edad y sexo, y de pesos homogéneos para ser usados en un experimento. Los suplementos a comparar se definieron sobre la base de las características del grano de maíz empleado (“entero” o “partido”) y la fuente comercial de vitaminas y minerales (“A” y “B”). Entonces el suplemento 1 (S1) estuvo constituido por grano partido y fuente A, mientras que el suplemento 2 (S2) por grano partido y fuente B, el suplemento 3 (S3) por grano entero y fuente A, y el suplemento 4 (S4) por grano entero y fuente B. Se asignaron aleatoriamente 10 animales por suplemento, los que fueron alimentados individualmente con una dieta estándar más el correspondiente suplemento durante 80 días. La variable en estudio (o respuesta) fue la eficiencia de conversión (EfCon) individual (kg Materia Seca/ kg Ganancia de Peso) cuyos registros se presentan en la siguiente tabla: S1
S2
S3
S4
3,3 4,4 4,9 4,9 3,9 4,2 4,7 5,1 4,6 4,5
4,6 4,5 5,0 4,0 4,5 5,2 4,9 5,5 4,8 5,3
6,7 5,8 5,0 4,8 5,3 6,2 5,0 6,4 5,9 5,4
6,3 6,0 6,7 5,5 6,6 6,1 5,3 6,5 6,3 6,8
a.- ¿Cuál es el objetivo del experimento? b.- ¿Cuál fue la unidad experimental? ¿En qué condiciones se desarrolla el experimento? ¿Qué se registra? c.-¿Qué diseño se empleó? ¿Por qué? ¿qué se asumió? d.- ¿Qué puede decir con respecto a la validez del DCA paramétrico? e.- Escriba las hipótesis de interés, y teniendo en cuenta la salida de computadora concluya al 5%. Solución a.- ¿Cuál es el objetivo del experimento? Objetivo: comparar cuatro suplementos “de engorde”.
51
Estadística Analítica 2011
Fac. Cs. Veterinarias(U.B.A)
Los suplementos se definieron sobre la base de las características del grano de maíz empleado (“entero” o “partido”) y la fuente comercial de vitaminas y minerales (“A” y “B”) quedando constituidos por: Suplemento 1 (S1): grano partido y fuente A Suplemento 2 (S2): grano partido y fuente B Suplemento 3 (S3): grano entero y fuente A Suplemento 4 (S4): grano entero y fuente B. b.- ¿Cuál fue la unidad experimental? ¿En qué condiciones se desarrolla el experimento? ¿Qué se registra? Unidad experimental: un bovino raza Hereford. Condiciones en que se desarrolla el experimento: 40 bovinos de raza Hereford de iguales edad y sexo, y de pesos homogéneos, alimentados individualmente con una dieta estándar más el correspondiente suplemento durante 80 días. Se asigna al azar igual cantidad de bovinos a cada dieta. Variable respuesta: Eficiencia de conversión (EfCon) de un bovino (kg Materia Seca/ kg Ganancia de Peso). c.- ¿Qué diseño se empleó? ¿Por qué? ¿Qué se asumió? Se aplicó un diseño completamente aleatorizado debido a que los animales se asignaron sin restricciones a los tratamientos. Se asumió que: 1) los factores raza, peso y sexo podían influir en los resultados por lo cual fueron controlados por el experimentador. 2) No hay otros factores que influyan en los resultados del experimento. d.- ¿qué puede decir con respecto a la validez del DCA paramétrico?
En las cuatro poblaciones ocurre que, al 5%, no se rechaza la hipótesis de normalidad de Eficiencia de conversión. En el gráfico se observa que las varianzas de las cuatro poblaciones, en cuanto a la variable eficiencia de conversión, son similares.
EfCon
Supuestos teóricos Antes de realizar el estudio, deberíamos verificar si se cumplen los supuestos requeridos: i) Las observaciones de eficiencia de conversión son independientes por como se ha diseñado el experimento. ii) Para cada tratamiento existe una subpoblación de valores de Eficiencia de conversión por los bovinos Hereford de sexo, edad y peso inicial semejantes con distribución normal e igual varianza. Este supuesto se puede probar y/o observar a partir de: a) la variable respuesta Shapiro-Wilks (modificado) EfCon por tratamiento Variable n Media D.E. W* p (una cola) S1 10 4,45 0,54 0,92 0,5174 6,97 S2 10 4,83 0,45 0,97 0,9167 S3 10 5,65 0,65 0,92 0,4806 6,01 S4 10 6,21 0,50 0,90 0,3451 5,05 4,09 3,13 S1
S2
S3
S4
Tratam
b) los residuos (diferencia entre valor observado y valore esperado bajo el modelo propuesto) Cuando se tienen pocas observaciones por tratamiento es mejor probar el supuesto de normalidad a partir de los residuos, pues si el modelo es: Yij = µi + εij para i=1, 2, 3, 4; j=1, 2, …, 10 Donde:
Yij es Eficiencia de conversión registrada en el j-ésimo individuo que recibió la i-ésima dieta.
µi : Eficiencia de conversión media de la i-ésima dieta en bovinos de raza Hereford 52
Estadística Analítica 2011
Fac. Cs. Veterinarias(U.B.A)
εij: variable aleatoria no observable correspondiente a la respuesta propia del j-ésimo bovino de raza 2 Hereford que recibió la dieta i-ésima.(ε ~ N(0, σ )). µi, i=1, 2, 3, 4) suponer que la variable respuesta se Dado que los parámetros son información fija (µ distribuye normalmente es equivalente a suponer normalidad para los errores. Dado que los errores son no observables el supuesto se verifica utilizando sus equivalentes a nivel muestral llamados residuos. i) Los errores son independientes por como se ha diseñado el experimento. ii) Hipótesis estadísticas: 2 2 H0: ε ~N(0, σ ) vs H1: ε no se distribuye N(0,σ )
Q Q plot 2,18
Cuantiles obs(RE_EfCon)
Shapiro-Wilks (modificado) Variable n Media D.E. W* p(una cola) RE_EfCon 40 0,00 1,01 0,96 0,4386 Con un nivel de significación del 5% no tengo evidencia suficiente para rechazar H0, es decir que los errores provenientes del modelo propuesto (DCA Modelo fijo) se distribuyen normalmente. Por lo tanto la Eficiencia de conversión en la población de bovinos Hereford de iguales edad y sexo se distribuye normalmente, teniendo en cuenta los 4 suplementos diferentes (S1, S2, S3 y S4 ya especificados).
n= 40 r= 0,989 (RE_Ef Con)
1,08
-0,02
-1,12
-2,22 -2,22
-1,12
-0,02
1,08
2,18
C uantiles de la N orm al(-5,55E-016,1,026)
En el gráfico no se observan puntos (residuos) con gran alejamiento de los valores normales teóricos, por lo que se puede suponer que la distribución que siguen los errores es normal. iii) Para observar si se puede suponer homogeneidad de varianzas Box plot por tratamiento
2 ,2 4
6,97
1 ,0 7
6,01
EfCon
RE_EfCon
D ia g r a m a d e D is p e r s ió n
- 0 ,1 0
5,05 4,09
- 1 ,2 6
3,13 - 2 ,4 3
S1 4 ,3 6
4 ,8 6
5 ,3 6
5 ,8 5
6 ,3 5
P R E D _ E fC o n
En el diagrama de dispersión de residuos vs valores predichos no se observan diferencias notorias entre las varianzas de la Eficiencia de conversión en bovinos Hereford de iguales edad y sexo para cada suplemento “de engorde” en bovinos para carne.
S2
S3
S4
Tratam
En este gráfico se observa asimetría en algunos casos y alguna varianza sensiblemente menor que las otras. Se debe recordar que este gráfico puede ser engañoso cuando las muestras son muy pequeñas.
Prueba de Levene Es una prueba que tiene la ventaja de no ser tan exigente respecto a al distribución normal de la variable respuesta.
53
Estadística Analítica 2011
H0 :
Fac. Cs. Veterinarias(U.B.A)
σ 12 = σ 22 = σ 32 = σ 42 = σ 2
H1 : algún
σ i2 ≠ σ 2
i=1, 2, 3, 4
Se calcula para cada observación (repetición j-ésima del i-ésimo tratamiento)) la diferencia en valor absoluta entre su puntuación (Yij) y la mediana del grupo o nivel del factor al que pertenece (Medianai) obteniendo así una nueva variable.
dif ij = yij − Mnai Con ésta variable (dif) se realiza un ANOVA. Análisis de la varianza – Test de Levene Variable N R² R² Aj dif_abs(efcon-mna) 40 0,07 0,00
CV 75,24
Cuadro de Análisis de la Varianza (SC tipo III) F.V. SC gl CM F p-valor Modelo 0,25 3 0,08 0,86 0,4716 Tratam 0,25 3 0,08 0,86 0,4716 Error 3,51 36 0,10 Total 3,76 39 Como el pvalor es 0,4716 no se rechaza la hipótesis nula y se puede considerar que las varianzas poblacionales de la Eficiencia de conversión de las cuatro poblaciones (las poblaciones que reciben S1, S2, S3 y S4 previamente definidas) de bovinos Hereford de iguales edad y sexo son iguales (homoscedasticidad). e.- Escriba las hipótesis de interés, y teniendo en cuenta la salida de computadora concluya al 5%. Debido a los supuestos realizados en los puntos anteriores, seleccionamos el ANOVA (o ADEVA) paramétrico, i) Análisis de la varianza Variable N R² R² Aj CV EfCon 40 0,65 0,62 10,32 Cuadro de Análisis de la Varianza (SC tipo III) F.V. SC gl CM F p-valor Modelo 19,87 3 6,62 22,18 <0,0001 Tratam 19,87 3 6,62 22,18 <0,0001 Significativo Error 10,76 36 0,30 Total 30,63 39 Las hipótesis estadísticas son: H0: µi = µ para i=1, 2, 3, 4 vs H1: algún µi ≠ µ Como se rechaza H0 (p-valor<0,0001) se concluye: Con un nivel de significaron del 5% existe evidencia suficiente para rechazar H0, por lo tanto al menos un valor medio poblacional de Eficiencia de conversión en bovinos Hereford, de iguales edad y sexo, difiere de los restantes, es decir, que la eficiencia de conversión media poblacional en bovinos alimentados con Suplemento 1 (grano partido y fuente A), Suplemento 2 (grano partido y fuente B), Suplemento 3 (grano entero y fuente A) o Suplemento 4 (grano entero y fuente B) no es la misma. (p-valor<0,05) Nota: Cuando se rechaza la hipótesis nula, es decir todos los valores medios no son iguales, es interesante comparar los valores medios poblacionales para ver cuál o cuales son diferentes. Existen diferentes métodos de comparaciones múltiples pero esta parte del estudio escapa de los alcances de esta materia. 2) El esculeno es un hidrocarburo insaturado que se encuentra en aceites vegetales. En una experiencia se desea comparar cuantitativamente el contenido de esta sustancia entre 4 aceites vegetales: maní,
54
Estadística Analítica 2011
Fac. Cs. Veterinarias(U.B.A)
maíz, soja y girasol. Para ello se tomaron 8 muestras para cada tipo de aceite determinándose el contenido de esculeno en mg/100 g de aceite. a.- ¿Cuál es el objetivo del experimento? b.- ¿Cuál fue la unidad experimental? ¿Qué se registra? c.- ¿Qué puede decir con respecto a la validez del DCA paramétrico? d.- Escriba las hipótesis de interés, y teniendo en cuenta la salida de computadora concluya al 5%.
Aceite
Maní Maíz Soja Girasol
Contenido de esculeno (mg/100 g de aceite) 21 22 38 13 23 25 33 18 14 27 21 17 8 12 21 9 16 7 5 12 10 13 9 10
14 15 6 15
16 23 11 6
Solución a.- ¿Cuál es el objetivo del experimento? Objetivo: comparar el contenido de esculeno en aceites vegetales provenientes de maíz, maní, girasol y soja. b.- ¿Cuál fue la unidad experimental? ¿Qué se registra? La unidad experimental es una muestra de aceite, a la que se le observa la concentración de esculeno, medida en mg/100 g de aceite. c.- ¿qué puede decir con respecto a la validez del DCA paramétrico? Se propone en ese caso el modelo Yij= µi + εij para i=1, 2, 3, 4 j= 1, 2, ....., 8 i) Los errores son independientes dado que en cada población (Vegetal) las muestras de aceite fueron seleccionadas al azar, ii) Hipótesis estadísticas: H0: ε tiene distribución normal H1: ε no tiene distribución normal Shapiro-Wilks (modificado) Variable n Media D.E. RE_Esculeno 32 -0,02 0,95
W* p(unacola) 0,90 0,0180
Con un nivel de significación del 5% tengo evidencia suficiente para rechazar H0, es decir que los errores provenientes del modelo propuesto (DCA Modelo fijo) no se distribuyen normalmente, Por lo tanto la variable concentración de esculeno no se distribuye normalmente, teniendo en cuenta los 4 vegetales (maíz, maní, girasol y soja),
Cuantiles observados(RE_Esculeno)
3,03
n= 32 r= 0,940 (RE_Esculeno)
1,77
0,52
-0,73
-1,98 -1,98
-0,73
0,52
1,77
3,03
Cuantiles de una Normal(-0,016999,0,89847)
Se observan varios residuos que son más grandes que los restantes y se alejan de los valores normales teóricos lo que pone en duda el supuesto de que la distribución que siguen los errores, según el modelo propuesto, es normal,
iii) Para observar si se puede suponer homogeneidad de varianzas, se realiza el Test de Levene
σ 12 = σ 22 = σ 32 = σ 42 = σ 2 2 2 i=1, 2, 3, 4 H1 : algún σ i ≠ σ
H0 :
55
Estadística Analítica 2011
Fac. Cs. Veterinarias(U.B.A)
Análisis de la varianza – Test de Levene Variable N R² R² Aj CV abs dif 32 0,09 0,00 93,09
Cuadro de Análisis de la Varianza (SC tipo III) F.V. SC gl CM F p-valor Modelo 43,38 3 14,46 0,95 0,4292 Aceite 43,38 3 14,46 0,95 0,4292 Error 425,50 28 15,20 Total 468,88 31 Como p-valor=0,4292, no rechazo H0, y se puede considerar que las varianzas de la concentración de esculeno en los aceites vegetales de maíz, maní, girasol y soja son iguales (supuesto de homoscedasticidad), d.- Escriba las hipótesis de interés, y teniendo en cuenta la salida de computadora concluya al 5%, Por todo el análisis anterior no es válido utilizar un DCA Modelo 1 o fijo Paramétrico, Por otro lado, los cuatro vegetales son independientes y la variable concentración de esculeno en aceite es al menos de escala ordinal, por lo que selecciono la salida correspondiente a la Prueba de Kruskal Wallis. Prueba de Kruskal Wallis Variable Aceite Esculeno Girasol Esculeno Maíz Esculeno Maní Esculeno Soja
N 8 8 8 8
Medias 10,00 21,00 21,50 11,25
D.E. 3,38 6,48 7,98 5,06
Medianas 10,00 19,50 21,50 10,00
H 17,79
p 0,0005
Si simbolizamos con θ a la mediana poblacional para la concentración de esculeno en aceite. Hipótesis estadísticas H0 :
θ12 =θ 22 =θ 32 =θ 24 =θ 2
H1 : algún
θ i2 ≠ θ 2
i=1, 2, 3, 4
Es decir que se prueba si la variable concentración de esculeno en aceite tiene la misma posición para los cuatro vegetales: maíz, maní, girasol y soja. Conclusión: A un nivel de significación del 5%, hay evidencias suficientes para rechazar H0 por lo que se puede suponer que al menos alguna de las medianas poblacionales de los cuatro vegetales (maíz, maní, girasol y soja), difiere de las restantes para la variable concentración de esculeno, en esta población de aceites vegetales en estudio. Nota: La potencia-eficiencia de la prueba de Kruskal Wallis comparada con el ANOVA de un factor modelo 1 es de 3/π = 95,5%, Algunos experimentadores para trabajar con el ANOVA paramétrico ante ésta situación aplican alguna transformación a la variable respuesta (por ejemplo: ytranf = ln(y), ytranf = 0,5 y , ytranf = 1/y, etc,) para lograr que se cumplan los supuestos con respecto a al variable transformada. Nosotros no veremos transformaciones pues escapa de los alcances de esta materia.
PROBLEMAS PROPUESTOS 3) Se realizó un ensayo para estudiar el efecto de 5 raciones sobre la ganancia de peso de novillos. Para ello se emplearon 5 lotes de 6 animales cada uno, de la misma raza y edad. El diseño experimental fue un DCA. Los datos corresponden a la ganancia de peso por animal expresada en kg, para el período total del ensayo.
56
Estadística Analítica 2011
Estadística descriptiva Tratamientos Variable 1 Ganancia 2 Ganancia 3 Ganancia 4 Ganancia 5 Ganancia
Fac. Cs. Veterinarias(U.B.A)
1
Tratamientos 2 3
4
5
43 49 39 41 43 46
54 54 50 48 51 55
61 68 62 64 68 62
85 83 89 91 89 82
n 6 6 6 6 6
Media 43.50 52.00 58.17 64.17 86.50
62 55 59 57 60 56
D.E. 3.56 2.76 2.64 3.13 3.67
Mín 39.00 48.00 55.00 61.00 82.00
Máx 49.00 55.00 62.00 68.00 91.00
Mediana 43.00 52.50 58.00 63.00 87.00
A partir de los gráficos y las salidas correspondientes, responda los siguientes ítems: a) Verificar si se cumplen los supuestos para un DCA modelo fijo (concluya u opine para cada supuesto) Normalidad .................................................................................................................................................... ......................................................................................................................................................................... ......................................................................................................................................................................... ......................................................................................................................................................................... ......................................................................................................................................................................... Homoscedasticidad ........................................................................................................................................ ......................................................................................................................................................................... ......................................................................................................................................................................... ......................................................................................................................................................................... ......................................................................................................................................................................... ......................................................................................................................................................................... .........................................................................................................................................................................
b) Teniendo en cuenta lo anterior y que el nivel es del 5% La salida elegida es ....................................................................................................................................... Las hipótesis planteadas son: ........................................................................................................................ Como p-valor es .......................... la decisión es ......................................, por lo que la conclusión es ......................................................................................................................................................................... ......................................................................................................................................................................... SALIDAS Y GRAFICOS OBTENIDOS POR COMPUTADORA: Tabla 1 Shapiro-Wilks (modificado) Variable n Media REGanancia 30 0.00
D.E. 1.02
W* 0.91
p (una cola) 0.0600
57
Estadística Analítica 2011
Fac. Cs. Veterinarias(U.B.A)
Tabla 2 Análisis de la varianza – Test de Levene Variable N R² R² Aj CV abs dif 30 0,05 0,00 65,82 Cuadro de Análisis de la Varianza (SC tipo III) F.V. SC gl CM F p-valor Modelo 3,47 4 0,87 0,31 0,8674 Tratamientos 3,47 4 0,87 0,31 0,8674 Error 69,50 25 2,78 Total 72,97 29
QQ-plot
Residuos vs Predichos 2,08
Cuantiles observados(RE_ganancia)
2.07
RE_Ganancia
1.12
0.17
-0.78
-1.72 41.35
53.18
65.00
76.83
0,00
-1,04
-2,08 -2,08
88.65
-1,04
0,00
1,04
2,08
Cuantiles de una Normal(2,3759E-015,1,0345)
PRED_Ganancia
Tabla 3 Análisis de la varianza Variable N R² R² Aj CV Ganancia 30 0,96 0,96 5,22 Cuadro de Análisis de la Varianza (SC tipo III) F,V, SC gl CM Modelo 6332,80 4 1583,20 Tratamientos 6332,80 4 1583,20 Error 252,67 25 10,11 Total 6585,47 29 Tabla 4 Prueba de Kruskal Wallis Variable Tratamientos Ganancia 1 Ganancia 2 Ganancia 3 Ganancia 4 Ganancia 5
1,04
N 6 6 6 6 6
Medianas 43,00 52,50 58,00 63,00 87,00
F p-valor 156,65 <0,0001 156,65 <0,0001
H 27,35
p <0,0001
4) Un fisiólogo estudió la función pituitaria de las gallinas ponedoras asociada a cada etapa del régimen estándar para muda forzada de plumas que usan los productores de huevos con el fin de mantener a las aves en producción. Las etapas de la dieta son cinco: (A) premuda, previa al inicio del régimen; (B) ayuno de 8 días; (C) 60 gr de salvado durante 10 días; (D) 80 gr de salvado durante 10 días; y (E) mezcla de malta durante 42 días. En el estudio se utilizaron 25 gallinas elegidas aleatoriamente de la población. Todas fueron puestas bajo la misma dieta en jaulas. Después de cada etapa, se seleccionaban aleatoriamente grupos de cinco y se las sacrificaba. Entre los compuestos medidos, el fisiólogo estaba interesado en saber si las distin-
58
Estadística Analítica 2011
Fac. Cs. Veterinarias(U.B.A)
tas etapas afectaban la concentración de T3 en suero (medida en ng/dl). Se obtuvo como resultado el siguiente conjunto de observaciones: Etapas de Dieta Premuda (A) Ayuno (B) 60 g de Salvado (C) 80 g de Salvado (D) Mezcla de malta (E) Estadística descriptiva Etapas Variable n a T3 5 b T3 5 c T3 5 d T3 5 e T3 5
Media 94,58 118,96 198,65 114,38 84,53
94.09 117.9 197.18 112.47 83.14
Concentración de T3 (ng/dl) en suero 90.45 99.38 91 115 115.23 129.06 207.31 194 192.50 117.51 119.92 112.01 89.59 87.76 82.94
D.E. 4,03 5,80 6,11 4,15 4,15
Mín 90,45 115,00 192,50 110,00 79,21
Máx 99,38 129,06 207,31 119,92 89,59
Mediana Q1 94,09 91,00 117,61 115,23 197,18 194,00 112,47 112,01 83,14 82,94
98.00 117.61 202.25 110 79.21
Q3 98,00 117,90 202,25 117,51 87,76
A partir de los gráficos y las salidas correspondientes, responda los siguientes ítems: a) Verificar si se cumplen los supuestos para un DCA modelo fijo (concluya u opine para cada supuesto) Normalidad .................................................................................................................................................... ......................................................................................................................................................................... ......................................................................................................................................................................... Homoscedasticidad ........................................................................................................................................ ......................................................................................................................................................................... ......................................................................................................................................................................... b) Teniendo en cuenta lo anterior y que el nivel es del 5% La salida elegida es ........................................................................................................................................ Las hipótesis planteadas son: ........................................................................................................................ Como p-valor es .......................... la decisión es ......................................, por lo que la conclusión es ......................................................................................................................................................................... ......................................................................................................................................................................... ......................................................................................................................................................................... SALIDAS Y GRAFICOS OBTENIDOS POR COMPUTADORA: Tabla 1 Shapiro-Wilks (modificado) Variable n Media RE_T3 25 -4,5E-03
1,03
D.E. 0,90
W* p (una cola) 0,0469
Tabla 2 Análisis de la varianza – Test de Levene Variable N R² R² Aj CV abs dif 25 0,04 0,00 97,95 Cuadro de Análisis de la Varianza (SC tipo III) F.V. SC gl CM F p-valor Modelo 8,66 4 2,17 0,19 0,9412 Etapas 8,66 4 2,17 0,19 0,9412 Error 228,87 20 11,44 Total 237,53 24 Tabla 3 Análisis de la varianza Variable N R² R² Aj T3 25 0,99 0,99
CV 4,04
59
Estadística Analítica 2011
Fac. Cs. Veterinarias(U.B.A)
Cuadro de Análisis de la Varianza (SC tipo III) F,V, SC gl CM F p-valor Modelo 40488,68 4 10122,17 415,95 <0,0001 Etapas 40488,68 4 10122,17 415,95 <0,0001 Error 486,70 20 24,33 Total 40975,38 24 Tabla 4 Prueba de Kruskal Wallis Variable Etapas N T3 a 5 T3 b 5 T3 c 5 T3 d 5 T3 e 5
Medias 94,58 118,96 198,65 114,38 84,53
D,E, 4,03 5,80 6,11 4,15 4,15
Medianas 94,09 117,61 197,18 112,47 83,14
H 22,24
p 0,0002
QQ-plot
Gráfico de densidad de puntos 2,29
Cuantiles observados(RE_T3)
2,47
RE_T3
1,45
0,42
-0,60
1,21
0,13
-0,95
-2,02 -2,02
-1,63 a
b
c
d
e
-0,95
0,13
1,21
2,29
Cuantiles de una Normal(-0,0045184,1,0556)
Etapas
5) (Un experimento ilegal). Es un hecho muy conocido que casi todos los caballos que corren carreras “cuadreras” o extraoficiales, reciben tratamientos medicamentosos que en las carreras oficiales no están permitidos. Todos los cuidadores afirman que de otro modo no es posible competir, pero la efectividad de esos tratamientos suele ser objeto de polémicas. A tal efecto se diseñó un experimento para comparar a tres de tales tratamientos, con 5 caballos cada uno y un grupo testigo, sin medicar. Se utilizaron, en consecuencia, 20 caballos de características lo más similares posibles (en velocidad, edad, sanidad). Se registraron en cada caso los tiempos (en segundos) empleados en una corrida a fondo sobre la distancia clásica cuadrera de 300 metros en pista normal, con los siguientes resultados: Trat 1 17,96 17,62 17,90 17,70 17,70
Trat 2 17,80 17,90 17,68 17,72 18,00
Trat 3 18,30 18,50 18,40 18,22 18,30
Trat 4 (control) 18,60 18,80 18,60 18,90 18,80
Estadística descriptiva Tratamiento Variable n Media D.E. Mín Máx Mediana 1 Tiempo 5 17.78 0.15 17.62 17.96 17.70 2 Tiempo 5 17.82 0.13 17.68 18.00 17.80 3 Tiempo 5 18.34 0.11 18.22 18.50 18.30 4 Tiempo 5 18.74 0.13 18.60 18.90 18.80 A partir de los gráficos y las salidas correspondientes, responda los siguientes ítems:
60
Estadística Analítica 2011
Fac. Cs. Veterinarias(U.B.A)
a) Verificar si se cumplen los supuestos para un DCA modelo fijo (concluya u opine para cada supuesto) Normalidad ................................................................................................................................................... ......................................................................................................................................................................... ......................................................................................................................................................................... ........................................................................................................................................................................ Homoscedasticidad ........................................................................................................................................ ......................................................................................................................................................................... ......................................................................................................................................................................... ............................................................................................................................... b) Teniendo en cuenta lo anterior y que el nivel es del 5% La salida elegida es ............................................................................................................................. Las hipótesis planteadas son: .............................................................................................................. Como p-valor es .......................... la decisión es ......................................, por lo que la conclusión es ......................................................................................................................................................................... ......................................................................................................................................................................... SALIDAS Y GRAFICOS OBTENIDOS POR COMPUTADORA: Tabla 1 Shapiro-Wilks (modificado) Variable n Media D.E. RE_Tiempo 20 0.01 1.06 Tabla 2 Análisis de la varianza Variable N R² R² Aj abs dif 20 0,02 0,00
W* 0.87
p (una cola) 0.0201
CV 98,82
Cuadro de Análisis de la Varianza (SC tipo III) F.V. SC gl CM Modelo 2,9E-03 3 9,6E-04 Trat 2,9E-03 3 9,6E-04 Error 0,14 16 0,01 Total 0,15 19
F 0,11 0,11
p-valor 0,9550 0,9550
Tabla 3 Análisis de la varianza Variable N R² R² Aj CV Tiempo 20 0,92 0,91 0,72 Cuadro de Análisis de la Varianza (SC tipo III) F,V, SC gl CM F p-valor Modelo 3,16 3 1,05 61,90 <0,0001 Tratamiento 3,16 3 1,05 61,90 <0,0001 Error 0,27 16 0,02 Total 3,44 19 Tabla 4 Prueba de Kruskal Wallis Variable Tratamiento N Tiempo 1 5 Tiempo 2 5 Tiempo 3 5 Tiempo 4 5
Medianas 17,70 17,80 18,30 18,80
H 16,17
p 0,0010
61
Estadística Analítica 2011
Fac. Cs. Veterinarias(U.B.A)
Gráfico de densidad de puntos QQ-plot
19,00
18,50 1,01
Tiempo
Cuantiles observados(RE_Tiempo)
2,00
0,01
18,00
17,50 -0,98
17,00 -1,97 -1,97
1 -0,98
0,01
1,01
2,00
2
3
4
Tratamiento
Cuantiles de una Normal(0,014126,1,1307)
6) Interesa determinar si existen diferencias significativas entre las concentraciones medias de glucosa registradas después de aplicar diferentes drogas a conejos de cierta raza. Para ello se empleó un conjunto de 18 conejos de esa raza y se lo dividió aleatoriamente en tres grupos. Cada grupo recibió una droga diferente. Al cabo de cierto tiempo se midió la concentración de glucosa en plasma, en mg/100 ml, y se obtuvieron los siguientes datos: Droga A: 94 97 84 92 95 107 Droga B: 82 73 77 81 84 73 Droga C: 91 106 102 104 107 92 Estadística descriptiva Droga Variable A Concentración B Concentración C Concentración
n 6 6 6
Media 94.83 78.33 100.33
D.E. 7.47 4.72 7.06
Mín 84.00 73.00 91.00
Máx Mediana 107.00 94.50 84.00 79.00 107.00 103.00
A partir de los gráficos y las salidas correspondientes, responda los siguientes ítems: a) Verificar si se cumplen los supuestos para un DCA modelo fijo (concluya u opine para cada supuesto) Normalidad .................................................................................................................................................... ......................................................................................................................................................................... ......................................................................................................................................................................... ......................................................................................................................................................................... Homoscedasticidad ........................................................................................................................................ ......................................................................................................................................................................... ......................................................................................................................................................................... ............................................................................................................................... b) Teniendo en cuenta lo anterior y que el nivel es del 5% La salida elegida es ...................................................................................................................................... Las hipótesis planteadas son: ....................................................................................................................... Como p-valor es .......................... la decisión es ......................................, por lo que la conclusión es ......................................................................................................................................................................... ......................................................................................................................................................................... .........................................................................................................................................................................
62
Estadística Analítica 2011
Fac. Cs. Veterinarias(U.B.A)
SALIDAS Y GRAFICOS OBTENIDOS POR COMPUTADORA: Tabla 1 Shapiro-Wilks (modificado) Variable n RE_Concentración 18
Media D.E. 0,00 1,03
W* 0,96
p (una cola) 0,7830
Tabla 2 Análisis de la varianza – Test de Levene Variable N R² R² Aj CV abs dif 18 0,02 0,00 91,27 Cuadro de Análisis de la Varianza (SC tipo III) F.V. SC gl CM F Modelo 5,44 2 2,72 0,15 Droga 5,44 2 2,72 0,15 Error 278,67 15 18,58 Total 284,11 17 Tabla 3 Análisis de la varianza Variable N R² R² Aj CV Concentración 18 0,71 0,67 7,16 Cuadro de Análisis de la Varianza (SC tipo III) F,V, SC gl CM Modelo 1573,00 2 786,50 Droga 1573,00 2 786,50 Error 639,50 15 42,63 Total 2212,50 17 Tabla 4 Prueba de Kruskal Wallis Variable Droga Concentración A Concentración B Concentración C
N 6 6 6
p-valor 0,8649 0,8649
F 18,45 18,45
Medianas 94,50 79,00 103,00
p-valor 0,0001 0,0001
H 11,38
Gráfico de densidad de puntos 110,00
2,08
100,00
1,08
Concentración
Cuantiles observados(RE_Concentración)
QQ-plot
0,07
90,00
80,00
-0,93
-1,93 -1,93
p 0,0033
70,00 -0,93
0,07
1,08
2,08
Cuantiles de una Normal(-0,0027137,1,1226)
a
b
c
Droga
63
Estadística Analítica 2011
Fac. Cs. Veterinarias(U.B.A)
CUESTIONARIO 1.- ¿Cuáles son los supuestos del Análisis de la Varianza paramétrico? ¿Cómo puede verificarlos y/o garantizarlos? 2.- ¿Cuáles son los supuestos del Análisis de la Varianza no paramétrico? ¿Cómo puede verificarlos y/o garantizarlos? 3.- En los problemas propuestos 3) y 4) indique: Para el problema propuesto 3: a) Factor en estudio: .......................................................................................................................... b) Tratamientos: ................................................................................................................................ c) Unidad experimental: ..................................................................................................................... d) Observación: ................................................................................................................................. Para el problema propuesto 4: a) Factor en estudio: .......................................................................................................................... b) Tratamientos: ................................................................................................................................ c) Unidad experimental: ..................................................................................................................... d) Observación: ................................................................................................................................. 4.- En los problemas propuestos 5) y 6) indique los supuestos que tuvo en cuenta para elegir el tipo de análisis adecuado. 5.- En un Análisis de la Varianza paramétrico, ¿por qué la región crítica es unilateral derecha?
64
Estadística Analítica 2008
Fac. Cs. Veterinarias(U.B.A)
Unidad 5 – CORRELACIÓN LINEAL (Pearson) Y NO PARAMÉTRICA (Spearman) Objetivos específicos • Destacar la necesidad y utilidad del análisis de correlación. • Diferenciar el análisis de correlación del análisis de regresión. • Analizar resultados y casos específicos y sus aplicaciones en el campo de los procesos biológicos. Contenidos temáticos Concepto de correlación. Diagrama de dispersión. Coeficiente de correlación: cálculo e interpretación. Prueba de hipótesis para ρ = 0. Correlación no paramétrica. Actividad globalizante de los conocimientos adquiridos basándose en el estudio de casos que se presentan en la experimentación o investigación biológica. Glosario Distribución bivariada (dos variables aleatorias conjuntamente distribuidas). Distribución normal bivariada. Parámetros de esta distribución. Elipse de concentración. Asociación entre variables aleatorias normales y no normales. Coeficiente de correlación lineal y no lineal. Aplicaciones a inferencia estadística: Estimación y contraste. PROBLEMAS RESUELTOS 01.- Los siguientes datos corresponden al peso vivo (PV, en Kg) y al espesor de grasa dorsal (EGD, en mm) de 30 lechones elegidos al azar de una población de porcinos Duroc Jersey del Oeste de la provincia de Buenos Aires: Obs 1 2 3 4 5 6 7 8 9 10 PV 56,81 70,40 71,73 75,10 79,65 51,43 52,10 69,10 35,70 76,44 EGD 16,19 22,00 19,52 31,00 23,58 16,58 17,20 26,70 21,60 24,51 Obs 11 12 13 14 15 16 17 18 19 20 PV 27,51 67,90 51,61 69,40 48,93 55,02 62,70 84,00 67,50 58,62 EGD 16,21 13,80 16,43 33,60 25,07 20,52 26,20 11,50 21,50 27,26 Obs 21 22 23 24 25 26 27 28 29 30 PV 68,58 67,10 49,10 73,80 61,40 63,44 93,00 58,90 58,70 66,45 EGD 12,60 23,30 32,46 19,90 20,48 7,29 40,90 9,21 27,60 23,27 a.- Dibujar el diagrama de dispersión e interpretarlo. b.- Calcular el coeficiente de correlación muestral. c.- ¿Hay suficiente evidencia para admitir asociación entre el peso y el espesor de grasa? (α = 0,05) Datos del problema: • Variables en estudio: X1: peso vivo de un lechón, en kg; X2: espesor de grasa dorsal de un lechón, en mm; •
Tamaño de muestra: n = 30
Diagrama de dispersión
Solución
35.0
EGD
a) En el eje de la abscisas está graficado el peso vivo (PV), y en el eje de las ordenadas, el espesor de grasa dorsal (EGD). Se podría haber graficado al revés, ya que en el análisis de correlación no hay una variable que explica a la otra, sino que se estudia el comportamiento de ambas variables conjuntamente.
45.0
25.0
15.0
En este gráfico se puede observar una asociación directa suave entre ambas variables, es decir que a valores grandes de peso vivo corresponden valores grandes de espesor de grasa dorsal. (Se denomina directa porque al aumentar los valores de una de las
5.0 25.0 35.0 45.0 55.0 65.0 75.0 85.0 95.0
PV
65
Estadística Analítica 2008
Fac. Cs. Veterinarias(U.B.A)
variables aumentan los valores de la otra, y viceversa). b) Para calcular el coeficiente de correlación muestral tenemos dos coeficientes, el de Pearson y el de Spearman. Las variables en estudio en este caso cumplen, en principio, con el supuesto teórico de Spearman, ya que ambas variables (Peso vivo y espesor de grasa dorsal) son al menos ordinales, es decir que tienen un orden natural porque son números. Sin embargo podríamos docimar la hipótesis de normalidad, para ver si se cumple el supuesto de Pearson Dócima de normalidad para X1 al 5%
H 0 : X 1 ~N ( µ1 ;σ 12 ) H1 : X 1 no se distribuye normalmente
Salida del programa InfoStat para X1 Shapiro-Wilks (modificado) Variable n Media D.E. PV 30 63.07 13.54
W* 0.98
p (una cola) 0.9463
Como el p-valor = 0,9463>0,05 no se rechaza la hipótesis nula. Por lo tanto al 5% la variable X1 se puede suponer que se distribuye normalmente. Dócima de normalidad para X2 al 5%
H 0 : X 2 ~N ( µ 2 ;σ 22 ) H1 : X 2 no se distribuye normalmente
Salida del programa InfoStat para X2 Shapiro-Wilks (modificado) Variable n Media D.E. EGD 30 21.59 7.44
W* 0.98
p (una cola) 0.9485
Como el p-valor = 0,2501>0,05 no se rechaza la hipótesis nula. Por lo tanto al 5% la variable X2 se puede suponer que se distribuye normalmente. Por lo tanto ambas variables se distribuyen normalmente y es mejor utilizar el coeficiente de Pearson, ya que utiliza la información que proporciona la normalidad de la variable y, por esto, es un estimador más eficiente. Es decir que, en los casos en los cuales las variables se distribuyen normalmente, aunque se pudiera usar el coeficiente Spearman, es mejor utilizar el coeficiente de Pearson. Entonces vamos a calcular el coeficiente de correlación lineal muestral, que estima a ρ (Rho).
r=
∑x
1i
x 2i -
1i
124659
2 x 2i ) ( ∑ 2 ∑ x 2i n
1892,1 * 647, 7 30
2 (1892,1) 30
2i
n
2 x 1i ) ( ∑ 2 ∑ x 1i n
41604, 3 -
r=
( ∑ x )( ∑ x )
× 15597, 3
2 (647, 7 ) 30
= 0.2572
Sabemos que el estimador del coeficiente de correlación debe ser un número entre –1 y 1, por lo tanto este valor está en el rango apropiado de valores.
66
Estadística Analítica 2008
Fac. Cs. Veterinarias(U.B.A)
c) Para responder a esta pregunta debemos realizar la dócima correspondiente cuyas hipótesis son:
H 0 : ρ = 0 (no hay correlación lineal) H1 : ρ ≠ 0 (hay correlación lineal)
Hipótesis estadísticas:
Como no nos dice asociación positiva o asociación negativa, se plantea igual versus distinto. Nivel de significación: α = 0,05 Estadístico de prueba: t =
r n-2
~ t n-2
1-r 2
Región crítica: Para este punto vamos a necesitar los valores críticos, son dos por que la región crítica es bilateral, y van a estar determinados por tn − 2,α / 2 y tn − 2,1−α / 2 . En este caso, t28;0,025 y t28;0,975 . Valores Críticos:
t28;0,025 = -2,048 y t28;0,975 = 2,048. Región Crítica: t ≤ -2,048 conjuntamente t ≥ 2,048 Regla de decisión:
RECHAZO HO si tH0 ≤ - 2,048 o tH0 ≥ 2,048 NO RECHAZO HO si -2,048 < tH0 < 2,048
Cálculo: Reemplazando los datos muestrales en el estadístico
t
Ho
=
0, 2572 28 2
=
1,3606 = 1, 408 0,9663
1 - (0, 2572) Decisión: Como 1,5746<2,048 y 1,5746>-2,048 no se rechaza la hipótesis nula al 5% Conclusión: Al nivel de significación del 5%, no hay evidencias suficientes para rechazar H0 (H0:ρ=0), por lo tanto no existiría asociación lineal poblacional entre el peso vivo y el espesor de grasa dorsal en los lechones Duroc Jersey del Oeste de la provincia de Buenos Aires. Cuando se procesa con infoStat se obtiene: Coeficientes de correlación Correlación de Pearson: coeficientes\probabilidades PV 1,00 0,25
PV EGD
EGD 0,17 1,00
p valor
Valor de r 02.- Al finalizar el primer año de un programa de promoción de la salud aplicado a los habitantes de la ciudad de Córdoba se tomaron mediciones de algunas variables de interés en una muestra aleatoria de 8 (ocho) hombres de dicha ciudad. Se quiere saber si la concentración de colesterol (X1) y la concentración de ácido úrico (X2), ambas medidas en sangre, están correlacionadas en forma inversa al 5%. Los datos obtenidos se muestran en la siguiente tabla: X1 269 279 248 318 318 254 263 320 X2
43
65
78
73
71
69
67
45
Datos del problema: • Variables en estudio X1: concentración de colesterol en un hombre X2: concentración de ácido úrico en un hombre. •
Tamaño de muestra: n = 8
67
Estadística Analítica 2008
Fac. Cs. Veterinarias(U.B.A)
Solución: Para poder resolver esta situación hay dos posibilidades, utilizar el coeficiente de correlación de Pearson o el de Spearman. Las variable en estudio, en este caso, cumplen con el supuesto teórico de Spearman, ya que ambas variables (concentración de colesterol y concentración de ácido úrico) son al menos ordinales (es decir que tienen un orden natural porque son números). Sin embargo podríamos docimar la hipótesis de normalidad, para ver si se cumple el supuesto de Pearson Dócima de normalidad para X1 al 5%
H 0 : X 1 ~N ( µ1 ;σ 12 ) H1 : X 1 no se distribuye normalmente
Salida del programa InfoStat para X1 Shapiro-Wilks (modificado) Variable n Media D.E. X1 8 283.63 30.46
W* 0.81
p (una cola) 0.0463
Como el p-valor = 0,0463<0,05 se rechaza la hipótesis nula. Por lo tanto al 5% la variable X1 no se puede suponer que se distribuye normalmente. Dócima de normalidad para X2 al 5%
H 0 : X 2 ~N ( µ2 ;σ 22 ) H1 : X 2 no se distribuye normalmente
Salida del programa InfoStat para X2 Shapiro-Wilks (modificado) Variable n Media D.E. X2 8 63.50 12.46
W* 0.78
p (una cola) 0.0196
Como el p-valor = 0,0196<0,05 se rechaza la hipótesis nula. Por lo tanto al 5% la variable X2 no se puede suponer que se distribuye normalmente. Como estas variables no cumplen con el supuesto para utilizar Pearson vamos a utilizar Spearman.
H 0 : X1 y X 2 no están asociadas inversamente H1: X1 y X 2 están asociadas inversamente
Hipótesis estadísticas:
Nivel de significación: α = 0,05 Estadístico de prueba: rS = 1 -
6 Σdi2 , (esta fórmula está en la Guía de Fórmulas y Tablas) (n-1) n (n+1)
Región crítica: Para este punto vamos a necesitar el valor crítico ya que es una región critica unilateral izquierda, determinada por rn; 1-α = -rn; α , en este caso: r8;0.95 = -r8;0.05 . Buscando en la tabla de la distribución Spearman observamos que la probabilidad considerada es la de la cola derecha. Valores Críticos: r8;0.95 = −r8;0.05 = −0.619 Región Crítica: r ≤ −0.619 Regla de decisión: RECHAZO H0 si rS ≤ -0,619 NO RECHAZO H0 si rS > -0,619 Cálculo: Para calcular el valor del estadístico se utilizarán los órdenes o rangos de los datos muestrales sabiendo que: ui: rango correspondiente a la observación “i” de la variable X1. vi: rango correspondiente a la observación “i” de la variable X2.
68
Estadística Analítica 2008
Fac. Cs. Veterinarias(U.B.A)
di: diferencia entre ui y vi; 2
di : cuadrado de la diferencia entre ui y vi. Se obtiene la tabla: 2
x1i
x2i
ui
vi
di
di
269 279 248 318 318 254 263 320
43 65 78 73 71 69 67 45
4 5 1 6,5 6,5 2 3 8
1 3 8 7 6 5 4 2
3 2 -7 -0,5 0,5 -3 -1 6 0
9 4 49 0,25 0,25 9 1 36 108,5
La estimación del coeficiente de correlación de Spearman es: 6*108,5 651 651 rS = 1 =1=1= 1 - 1,2916 = -0, 2916 7*8*9 504 8-1 *8* 8+1 ( ) ( ) Decisión: Como -0,2916>-0.619 no se rechaza la hipótesis nula al 5% Conclusión: Con un nivel de significación del 5%, no se tienen evidencias suficientes para rechazar H0 (H0: X1 y X2 no están asociadas inversamente), por lo tanto se puede concluir que la concentración de colesterol y la concentración de ácido úrico en sangre no estarían asociadas inversamente la población de hombres de la ciudad de Córdoba. Salida del programa InfoStat Coeficientes de correlación Correlación de Spearman: coeficientes\probabilidades X1 X2 X1 1,00 0,44 X2 -0,29 1,00 PROBLEMAS PROPUESTOS 03.- Se registra la temperatura (T) y el pulso (P) en forma simultánea a un grupo de 10 pacientes. ti pi
39,0 100
39,9 90
39,5 80
39,0 70
38,7 65
38,4 64
38,0 62
37,5 62
36,9 60
36,7 59
a.- Dibujar el diagrama de dispersión. b.- Teniendo en cuenta la siguiente salida decidir cual de los estimadores es el adecuado para estimar el coeficiente de correlación Shapiro-Wilks (modificado) Variable n Media D.E. T 10 38.36 1.07 P 10 71.20 14.12
W* 0.93 0.80
p (una cola) 0.5915 0.0190
c.- Comprobar estadísticamente si existe asociación positiva entre la temperatura y el pulso, usando un nivel de significación del 5%. 04.- Considerando que la estimación del coeficiente de correlación entre el peso al nacer y al destete en una especie fue igual a 0,40 (r=0,40) a partir de una muestra de 20 individuos. ¿Podría afirmar que el peso al nacer y el peso al destete están significativamente asociados? (α=0,05). Suponer que ambas variables tienen distribución normal. 05.- Sabiendo que el contenido de celulosa, hemicelulosa, y lignina se estudian a través de la fibra detergente neutro (FDN) de la dieta, se quiere analizar su relación con el pH ruminal generado. Se tomaron 10 bovinos y se midieron ambas variables: FDN pH
37,9 5,88
39,2 5,92
41,2 6,01
43,1 6,10
44,6 5,92
45,8 6,56
46,2 5,93
55,8 6,20
57,0 6,30
59,0 6,57
69
Estadística Analítica 2008
Fac. Cs. Veterinarias(U.B.A)
Suponiendo que ambas variables se distribuyen normalmente, y que α = 0,05, responder: Hipótesis estadísticas:................................................................................................................................... Región crítica:.............................................................................................................................................. Valor de la variable pivotal:.......................................................................................................................... Población:.................................................................................................................................................... 2
2
Datos: ∑ di pi = 2896,574; ∑ di = 22592, 98; ∑ pi = 377, 4907; ∑ di = 469, 8; ∑ pi = 61, 39. 06.- El director de un centro de internación veterinaria les pide a dos enfermeros que califiquen de 1 a 100 los pacientes internados de acuerdo a la dificultad de cuidados médicos que los mismos requieren. La siguiente tabla tiene la respuesta de los enfermeros. Paciente Enfermero 1 Enfermero 2
A 9 25
B 3 10
C 15 35
D 6 5
E 100 50
F 12 15
G 18 28
H 80 100
I 21 40
J 95 70
¿Se puede afirmar que la opinión de estos enfermeros está asociada? ¿Qué supuesto debe hacer para poder contestar la pregunta anterior? 07.-Se quiere analizar si existe asociación negativa entre el numero de hijos de un matrimonio (X1) y su ingreso anual (X2 ). Se muestrearon 10 matrimonios y se obtuvieron los siguientes datos: X1 X2
1 13005
8 11096
3 8720
2 9166
6 10111
2 12937
0 13734
4 8861
5 9747
6 9568
Responder, sabiendo que α = 0,05. Hipótesis estadísticas:........................................................................................................................... Regla de decisión................................................................................................................................. Decisión:.............................................................................................................................................. Conclusión: ......................................................................................................................................... ........................................................................................................................................................... ........................................................................................................................................................... CUESTIONARIO 1.- Suponer que las variables en estudio son A: peso y B: longitud. a.- Explicar cómo seleccionaría las unidades experimentales y qué observaría en cada una para que se pueda realizar un análisis de correlación entre ambas variables. b.- Modificar el enunciado para que corresponda a un estudio de regresión. 2.-Indicar verdadero o falso según corresponda. a) V F Spearman se aplica solamente a variable con distribución no normal. b) V F En un análisis de correlación de Spearman se estudia la diferencia entre los valores de las variables. c) V F ρ es un parámetro que toma valores entre 0 y 1. d) V F Si e) V F
X 1 ~ N ( µ , σ 2 ) y X2 es una variable aleatoria ordinal entonces no se puede utilizar Pearson.
El estimador “r” se distribuye normalmente.
3.-Indicar qué método o métodos se puede/n utilizar para analizar la asociación entre cada par de variables (S: Spearman, P: Pearson, N: ninguno) a) X1:”Peso de un lechón al nacer”; X2: “Peso de la madre al momento del parto”. ................................ b) X1:”Longitud del fémur de un animal”; X2:”Peso de un animal”. ........................................................
70
Estadística Analítica 2008
Fac. Cs. Veterinarias(U.B.A)
c) X1:”Concentración de glóbulos rojos en sangre en un individuo”; X2:”Consumo de carne de un individuo (categorizado en: alto, medio, bajo)”....................................................................................... d) X1:”Nota de un alumno en elementos de estadística”; X2:”Nota de un alumno en Estadística analítica”. ........................................................................................................................................................... e) X1:”Cantidad de cachorros nacidos por camada”; X2:”Peso de una madre”. ........................................ f) X1:”Ubicación de un caballo en una carrera”; X2:”Ritmo cardiaco de un caballo al finalizar una carrera”. ........................................................................................................................................................... g) X1:”Color del pelaje de un animal”; X2:”Color de ojos de un animal”. ................................................. h) X1:”Color de la herida de un animal”; X2:”Nivel de glóbulos rojos de un animal”. ................................ i)
X1:”Estado civil de una persona”; X2:”Cantidad de hijos de una persona”. ..........................................
4.- ¿Qué indica el coeficiente de correlación lineal? ¿Cuál es su rango de valores posibles? Proponer un ejemplo donde sospeche que existe correlación negativa. Indicar cómo selecciona los individuos en estudio, qué registra en cada uno de ellos y cómo se interpreta en caso de rechazar la hipótesis nula a un cierto nivel? 5.- ¿Cuándo se utiliza el análisis de correlación? ¿Cuántas muestras son necesarias para dicho estudio? Proponer un ejemplo donde se especifique: cómo se muestreó, algunos valores de la muestra, las variables y supuestos teóricos que deben cumplirse para realizar dicho estudio. 6.- En un análisis de correlación lineal simple: a.- ¿Cuál es la distribución en que se basa el estudio? b.- ¿Cuántos y cuáles son los parámetros de la distribución? c.- Proponga un ejemplo donde identifique los parámetros e indique su significado biológico. 7.-Elegir la opción correcta: a.-Si (X1,X2) se distribuyen normal bivariada y son independientes entre si, entonces:
1) ρ = 1
2) ρ = 0 3) ρ > 0 4) ρ = −1 b.-Si dos variables no están correlacionadas linealmente, para estimar la correlación se emplea: 1) El coeficiente de Spearman 2) El coeficiente de Pearson 3) No se puede estimar la correlación 4) No tienen sentido estimar la correlación. c.-El supuesto teórico para emplear el coeficiente de correlación de Spearman es 1) Ambas variables no se distribuyan normalmente 2) Ambas variable se distribuyan normalmente 3) Ambas variable al menos ordinales 4) Una de las variable no se distribuye normalmente 8.- ¿Cuándo se utiliza el análisis de correlación no paramétrico? Proponer un ejemplo donde se especifique: cómo se hizo el muestreo, algunos valores de la muestra, las variables y supuestos teóricos que deben cumplirse para realizar dicho estudio.
71
Estadística Analítica 2011
Fac. Cs. Veterinarias (U.B.A)
PROBLEMAS COMPLEMENTARIOS UNIDADES TEMÁTICAS 1 y 2 01.- Dos analistas, X e Y, midieron la dureza del agua en una ciudad. Se desea comparar si los resultados de X e Y son similares, por lo cual se toma una muestra, de tamaño 10, de agua de distintas regiones de la Ciudad de Buenos Aires. Cada analista midió las 10 muestras. Estime un intervalo de confianza del 95% para la media de las diferencias entre estos dos analistas. ¿Qué supuesto debe hacer para poder realizar el intervalo?
xi
0,46
0,62
0,37
0,40
0,44
0,58
0,48
0,53
0,59
0,68
yi
0,72
0,61
0,73
0,51
0,33
0,48
0,43
0,35
0,67
0,78
02.- En un estudio sobre llamadas de apareamiento, realizado en el sapo arbóreo (Hyla ewingi), se estimó en Tasmania, en una muestra de 29 observaciones, que la duración de las llamadas tenía una media de 189 ms (milisegundos) y un desvío estándar de 32 ms; y en Bristbane, en una muestra de 31 observaciones, una media de 216 ms (milisegundos) y un desvío estándar de 28 ms. a) Estime un intervalo de confianza del 95% para el cociente de varianzas. b) Asumiendo igualdad de varianzas, pruebe la hipótesis: “el tiempo de llamada del sapo arbóreo es mayor en Britsbane que en Tasmania”. 03.- A 300 pacientes que sufrían una enfermedad se los dividió al azar en tres grupos iguales de 100 pacientes cada uno. A cada grupo se le asignó, al azar, uno de los siguientes tratamientos: a) estándar, b) nuevo, y c) placebo. Durante la primera semana de tratamiento, en el primer grupo se recuperaron 78 pacientes; en el segundo grupo se recuperaron 90; y en el grupo placebo, se recuperaron 55. Probar si existen diferencias significativas entre tratamientos al 5% 04.- En un experimento, se compararon las propiedades hipnóticas de dos drogas A y B. Para ello se midió, con cada una de las drogas, la cantidad de horas ganadas en sueño por cada sujeto. La aparente superioridad de la droga B, ¿puede ser atribuida a las diferencias entre los sujetos? (α=0,05) SUJETO
1
2
3
4
5
6
7
8
9
10
DROGA A
2,2
3,5
1,7
4,4
2,8
1,6
2,5
2,0
2,4
2,9
DROGA B
5,3
4,8
5,9
2,3
6,7
5,0
6,1
4,3
4,9
6,0
Realizar el análisis estadístico suponiendo que las drogas se aplicaron: a) a dos grupos diferentes de sujetos (asumir homogeneidad de varianzas). b) a los mismos sujetos (en orden aleatorio y dejando transcurrir un tiempo prudencial). 05.- Hay dos formas de abordar el abdomen al realizar castraciones en gatas, por el flanco y por línea media. Para saber si hay alguna preferencia por una de estas entre los Veterinarios de la Ciudad Autónoma de Buenos Aires, se realizó una muestra de 200 profesionales y se les preguntó que abordaje prefieren. Resultó que 113 de los encuestados prefieren por el flanco mientras que los restantes prefieren por línea media. ¿Provee la información recogida evidencia suficiente que indique diferencias en la preferencia de estos abordajes? (α=0,05). 06.- Un experimentador quiere probar si un nuevo probiótico reduce la mortandad en pollitos parrilleros. Para esto, de manera experimental, mantiene a 200 pollitos en jaulas individuales y les asigna aleatoriamente a la mitad el probiótico estándar y a la otra mitad el nuevo. A los 20 días, cuenta 85 sobrevivientes con el probiótico estándar y 93 con el nuevo. Pruebe si el nuevo probiótico reduce la mortandad (α=0,05), y estime un intervalo de confianza del 95% para la diferencia de proporciones poblacionales de sobrevivientes de ambos grupos. 07.- Se desea saber si existe relación entre el tipo de tenencia de tierra de los agricultores de la Pcia. de Córdoba y la participación, o no, de los mismos en una cooperativa. El investigador obtiene una muestra aleatoria de 360 agricultores de esta región y organiza la información en la siguiente tabla de contingencia:
72
Estadística Analítica 2011
Fac. Cs. Veterinarias (U.B.A)
Forman parte de una cooperativa
Tipo de tenencia de tierra
SI
NO
Propietarios
52
68
Aparceros
25
65
Arrendatarios
43
107
¿Cuál es la H0 a contrastar? Usando un estadístico χ y un nivel de significación del 5%, ¿se rechaza H0? Dar conclusiones. 2
08.- Se realizó un ensayo sobre el rendimiento de cultivares de papa utilizando diez parcelas con plantas sanas y nueve con plantas enfermas por el mosaico deformante. El rendimiento promedio en plantas sanas fue de 16.042 kg/ha con un desvío de 35,21 kg/ha y en plantas enfermas se obtuvo un promedio de 12.027 kg/ha y un desvío de 42,43 kg/ha. Estimar, con una confianza del 90%, la diferencia de los rendimientos medios poblacionales. ¿En qué supuestos teóricos se basa para realizar esta estimación? 09.- Con el objeto de orientar su propaganda a fin de neutralizar el efecto de la competencia, una empresa productora de artículos de consumo realizó una encuesta piloto sobre la preferencia del público a personas de cada una de las cuatro regiones del país. Los resultados son los siguientes: Zona Preferencia
Norte
Sur
Este
Oeste
Empresa
35
22
28
33
Competencia
45
28
12
17
¿Es la preferencia del público la misma en las distintas zonas geográficas, al nivel del 5%? 10.- Se quiere comparar la eficiencia de dos test para detectar cierto tipo de enfermedad. Para ello se seleccionaron 200 pacientes con esa enfermedad, a 100 de ellos se les aplicó el test 1 y a los otros 100 el test 2. En el primer caso el test dio positivo en 65 pacientes y en el segundo en 83. Construir un intervalo de 95% de confianza para la diferencia de proporciones poblacionales de positivos. 11.- Se hizo un cruzamiento de prueba entre un conejo de Viena y una hembra blanca Neocelandesa, se obtuvieron las siguientes frecuencias genotípicas en la descendencia: A Pelo negro, ojos rojos
108
B Pelo negro, ojos negros
46
C Pelo blanco, ojos negros
32
D Pelo blanco, ojos rojos
14
¿Se puede considerar que la segregación de la descendencia en este tipo cruzamiento sigue una distribución 9:3:3:1 para A:B:C:D, respectivamente, con un nivel de significación del 5%? 12.- Una muestra de 150 compradores tomada en forma aleatoria en un comercio tenía un 96% de mujeres y una muestra de 100 compradores tomada en el local de su mejor competidor resultó contener 88% de mujeres. Construir un intervalo de confianza del 90% para la diferencia de las proporciones de compradores femeninos. 13.- Se hicieron análisis para determinar el porcentaje de gas amoníaco en un laboratorio durante 9 días consecutivos mediante dos métodos diferentes. La composición del gas varía notablemente de un día para otro. Los datos obtenidos son:
73
Estadística Analítica 2011
Fac. Cs. Veterinarias (U.B.A)
Método A
14
37
35
43
34
36
48
33
33
Método B
18
37
38
36
47
38
57
28
42
Determinar si hay diferencias entre los dos métodos al nivel del 5% 14.- Se ha demostrado que un alto contenido de nitrato en la composición de los alimentos da origen a numerosos efectos nocivos. En un experimento se tomaron 16 ratas al azar de una línea, las mismas fueron alimentadas con una dieta estándar. A 9 de ellas, elegidas al azar, se les dio de beber agua con 2000 ppm de nitrato. Luego se midió la ganancia de peso y se expresó en porcentaje: A
12,7
19,3
20,5
10,5
14,0
10,8
16,6
B
18,2
22,9
10,1
14,3
10,2
17,1
15,7
14,0
17,2
¿Se puede concluir que la dosis de nitrato disminuye la ganancia de peso de las ratas? Justifique estadísticamente su respuesta (α= 0,05). ¿En qué supuestos se basa para realizar el test de hipótesis? 15.- Un Veterinario sabe, por archivo de datos históricos, que en su clínica durante el mes de diciembre los casos se distribuyen así: infecciones 50%, vacunaciones 35%, cirugías 10% y otros 5%. Durante diciembre de 2003 se encontró con las siguientes distribución de casos: infecciones 90, vacunaciones 80, cirugías 30 y otros 20. Con un nivel de significación de 5%, ¿cree Ud. que estos datos confirman la distribución histórica de los casos en la población durante el mes de Diciembre? 16.- Un tambero con 279 vacas en ordeñe probó un nuevo producto para prevenir problemas de pezones. Para esto, el veterinario asignó al azar 139 vacas al producto nuevo y 140 al usado anteriormente. Luego de las lactancias de estas vacas se comprobó que 31 de las últimas presentaron problemas de pezones, mientras que sólo 17 de las primeras dichos presentaron problemas. ¿Qué puede concluir con respecto a la distribución de los problemas de pezón entre estos dos tratamientos? Concluya con un nivel de significación del 5%. Si deseara saber cual de estos dos tratamientos es mejor, ¿qué le diría al tambero? ¿En qué basaría su respuesta? 17.- En un experimento que incluye un cruzamiento entre dos variedades de porotos (Phaseolus vulgaris), se obtuvieron los siguientes resultados: Fenotipos
Frecuencias
Púrpura
103
Rojo
46
Ante
40
Testáceo
12
¿Cree que estos resultados, con un nivel de significación del 5%, soportan el modelo genético 9:3:3:1? Justifique estadísticamente su respuesta. 18.- Se estudió la influencia de un nuevo fertilizante sobre el rendimiento de una oleaginosa. Como se desea estudiar el comportamiento del fertilizante bajo distintas condiciones climáticas, se eligieron 8 estaciones experimentales ubicadas estratégicamente en una región y en cada estación se tomó una parcela. En una mitad, elegida aleatoriamente, se adicionó fertilizante y la otra mitad de la parcela no recibió fertilizante. Se han obtenido los siguientes resultados expresados en kg de producción por ha: Estación número:
1
2
3
4
5
6
7
8
Con fertilizante
810
540
930
690
710
720
840
740
Control
610
405
805
560
570
620
730
620
En función del costo del fertilizante, los productores no estarían dispuestos a invertir en fertilizante si el
74
Estadística Analítica 2011
Fac. Cs. Veterinarias (U.B.A)
aumento debido al uso es de a lo sumo 140 kg/ha. ¿Con un nivel de significación del 10%, cree que los productores invertirán en fertilizante? 19.- Los siguientes datos indican el aumento de peso, en g, de 20 ratas elegidas al azar de las cuales la mitad recibió proteína de maní crudo y la otra mitad de maní tostado. Probar si el tostado del maní ha tenido efecto sobre su valor proteico (α=0,05). Suponga homogeneidad de varianzas, y tenga presente que se sospecha que el tostado aumenta el valor proteico del maní, y que, obviamente, a mayor nivel proteico mayor aumento de peso. Crudo
61
61
56
63
56
63
59
56
44
61
Tostado
55
54
47
59
51
61
57
54
62
58
20.- La desviación estándar de la concentración de sodio en la sangre de una muestra de 10 anguilas marinas, tomada al azar, fue de 40,5 mg%; mientras que para una muestra de 10 anguilas de agua dulce, también tomada al azar, resultó 32,1 mg%. ¿Se puede concluir estadísticamente que la varianza de la concentración de sodio en las anguilas marinas es superior a la de agua dulce? (α=0,01). ¿En qué supuestos se debe basar para realizar la prueba de hipótesis sugerida? 21.- Un grupo de investigación estudia la relación entre el tipo de sangre y el grado de cierta afección en una población. Se toma una muestra aleatoria de 1200 individuos, y se los clasifica según grado de afección y tipo de sangre en la siguiente tabla de contingencia: TIPO DE SANGRE GRADOS DE AFECCIÓN Ninguno
A
B
AB
0
243
211
90
476
Leve
44
22
8
31
Severo
28
9
7
31
Los investigadores desean saber si estos datos sustentan la hipótesis de que el grado de afección y el tipo de sangre son independientes en la población al nivel del 1%. 22.- Con el fin de probar si un tratamiento especial sobre tubos de ensayo modifica la resistencia al calor, se realizó un pequeño experimento. De un lote de tubos se tomaron dos muestras y a una se le aplicó el tratamiento. Luego fueron probados y registradas las resistencias al calor, obteniéndose: NO TRATADOS TRATADOS X = 81,4 X = 91,8 S² = 37,3 S² = 40,7 n = 15 n = 15 Estimar la diferencia entre las medias poblacionales de los tubos tratados y no tratados mediante un intervalo de confianza del 95%. ¿Qué supuestos debe realizar para la estimación anterior? 23.- En un experimento se cruzaron conejos gigantes polacos y conejos flamencos en dos criaderos obteniéndose 10 conejos de esa cruza en el criadero 1, y 61 en el criadero 2. Los siguientes datos corresponden a longitudes del fémur (en mm) de los conejos resultantes de la cruza. n
X
S
Criadero 1
10
83,30
1,65
Criadero 2
61
80,50
3,81
¿Es significativamente mayor la varianza de las longitudes del fémur entre conejos del criadero 2 con respecto a los del criadero 1? Justifique estadísticamente su respuesta (α = 0,05). ¿En qué supuestos se basa para realizar la prueba de hipótesis?
24.- Dos establecimientos dedicados al cultivo de maíz híbrido siembran en quince parcelas diferentes, obteniendo los siguientes rendimientos (en Kg/parcela):
75
Estadística Analítica 2011
Fac. Cs. Veterinarias (U.B.A)
ESTABLECIMIENTO 1: 114 - 86 - 93 - 75 - 102 - 89 - 83 - 89 - 92 - 96 – 100 - 98 - 87 - 80 - 86 ESTABLECIMIENTO 2: 107 - 94 - 86 - 70 - 78 - 90 - 82 - 77 - 95 - 84 - 100 - 89 - 92 - 99 - 85 Construir un intervalo del 99% de confianza para el cociente de las varianzas de los rendimientos de maíz híbrido entre los establecimientos. ¿En qué supuestos se basa para realizar el intervalo de confianza? 25.- Dos tratamientos A y B fueron asignados al azar a cada uno de dos lotes de animales tomados aleatoriamente de una población. La respuesta registrada fue el aumento de peso, en kg, durante el 2 2 2 2 período experimental. Datos: X A =1,57g ; X B =1,89g ; nA=11 ; nB=10 ; S A=0,15g ; S B=0,12g . Calcular un intervalo de confianza para el cociente de las varianzas (A/B) de los tratamientos, con un coeficiente de confianza del 95%. ¿Qué conclusiones puede extraer del experimento? 26.- En un área de 30 m x 10 m sembrada con plantas de una determinada especie, se observaron 296 plantas con flor y 987 sin flor. En otra área del mismo tamaño sembrada con 1000 plantas de la misma especie se observaron sólo 200 con flor. ¿Puede suponerse a un nivel del 1% que la proporción de plantas florecidas es la misma en ambas áreas? 27.- Se sabe que la alta presión sanguínea es un factor que aumenta el riesgo de padecer una enfermedad coronaria. Para estudiar la relación entre las presiones sanguíneas de padres e hijos se tomó una muestra aleatoria de 184 pares de padres e hijos. Se les midió la presión sanguínea y se los ubicó en las categorías baja, media, y alta; los resultados se observan en la siguiente tabla. Presión sanguínea de los hijos
Presión sanguínea de los padres
Alta
Media
Baja
Alta
28
22
16
Media
22
22
18
Baja
12
20
24
¿Existe relación entre la presión de los padres con la de los hijos? Use un valor de α=0,05. 28.- Al finalizar un curso de asistencia no obligatoria, un profesor realizó la siguiente agrupación basada en la aprobación o no del curso y la asistencia al mismo. Usando un α=0,05 a que conclusión puede llegar. Número de días ausente
Resultados del Curso Aprobado Reprobado
0-3
84
5
4-6
60
8
Más de 6 10 25 29.- Si las frecuencias esperadas de genotipos en una determinada experiencia de cruzamiento son 9:3:3:1 según una hipótesis del área de genética. ¿Cree que los siguientes datos: 190, 85, 80 y 35 soportan la hipótesis? Use un α=0,05. 30.- Una medicación nueva para tratar resfriados se comparó con la medicación de más uso. Para esto se tomó al azar un grupo de 300 individuos que padecían resfriado; a la mitad de estos, tomados al azar, se los trató con la nueva medicación y a los otros 150 con la medicación tradicional. La opinión de los pacientes se resume a continuación. Opinión de los pacientes
76
Tratamiento
Empeoró
Sin efecto
Mejoró
Totales
Nuevo
16
30
104
150
Tradicional
20
42
88
150
Totales
36
72
192
300
Estadística Analítica 2011
Fac. Cs. Veterinarias (U.B.A)
¿Considera que estos medicamentos se comportan de manera similar, use un α=0,05? 31.- Se consideró una muestra de 97 niños escolarizados de 10 años que fueron clasificados según las siguientes variables: La Conducta en Clase, que fue clasificada por los maestros en Buena (B) y No Buena (NB) y la Adversidad Escolar en baja (b), media (m) o alta (a). Adversidad Escolar
Conducta en clase
B
b
m
a
20
49
8
NB 5 11 4 Indicar: a. Posible Hipótesis de trabajo: ................................................................................................. ................................................................................................................................................... b. Hipótesis estadística: ............................................................................................................. c. Fórmula y reemplazo para obtener el valor esperado de la celda (2;1). Fórmula
Reemplazo numérico
Resultado
d. Si se trabaja a un nivel del 5% la decisión es ............................................................................... 32.- Con el fin de comparar la efectividad de tres fármacos se seleccionaron al azar doce peces con cierta infección viral de una población, y se los dividió aleatoriamente en tres grupos, a cada grupo se lo medicó con un fármaco diferente y se midió la carga viral al principio y al final del tratamiento para cada animal. Responder: a- La unidad experimental es ................................................................................................... b- Los tratamientos son ........................................................................................................... c- La observación es ................................................................................................................ d- El objetivo del trabajo es ..................................................................................................... ................................................................................................................................................... 33.- Se realiza un experimento para comparar la absorción media de garrapaticida por unidad de tejido muscular, registrándose la concentración sanguínea del principio activo. Para ello se seleccionan al azar dieciséis perros y se los subdivide en cuatro grupos aleatoriamente. A cada uno de los subgrupos se le asigna un producto diferente: A, B, C y D. Responder: a- La unidad experimental es .................................................................................................. b- Los tratamientos son .......................................................................................................... c- La observación es ............................................................................................................... d- El objetivo del trabajo es .................................................................................................... .................................................................................................................................................. 34.- La columnista Ann Landers se preguntó si tener hijos valía la pena considerando los problemas que acarrean. Le preguntó a los lectores: “Si pudiera volver a empezar, ¿valdría la pena tener hijos?” Unas semanas después el titular de su columna era: “El 70% de los padres afirman que tener hijos no vale la pena”, ya que el 70% de los padres norteamericanos que le escribió opinaron que si pudieran volver a elegir no tendrían hijos. ¿Es esta conclusión válida? Justificar. ...................................................................................................................................................................... ...................................................................................................................................................................... ......................................................................................................................................................................
77
Estadística Analítica 2011
Fac. Cs. Veterinarias (U.B.A)
35.- Con el objeto de medir el efecto del ejercicio en enfermedades coronarias, un grupo de investigadores decidió comparar el índice de enfermedad en dos grandes grupos de personas que trabajan en los colectivos de Buenos Aires: choferes e inspectores. Los inspectores realizan más ejercicio, ya que su actividad requiere que estén caminando gran parte del día, mientras que la tarea de los choferes es más sedentaria. Se consideraron aquellas personas que vinieran realizando el mismo trabajo durante los últimos 8 años y además la distribución de las edades en ambos grupos es similar. Se observó que el índice de enfermedades coronarias entre los conductores era sustancialmente mayor. a) Este experimento ¿es observacional o experimental? Justificar. ...................................................................................................................................................................... ...................................................................................................................................................................... ...................................................................................................................................................................... b) ¿Por qué cree usted que los investigadores le dan importancia a la distribución de las edades? ...................................................................................................................................................................... ...................................................................................................................................................................... ..................................................................................................................................................................... c) ¿Cree que puede haber efectos confundidos no mencionados en el experimento que expliquen el resultado obtenido? ...................................................................................................................................................................... ...................................................................................................................................................................... ...................................................................................................................................................................... 36.- Los registros de 3000 historias clínicas muestran que los fumadores están más propensos a deprimirse que los no fumadores. a) ¿De qué tipo de estudio se trata? ......................................................................................... b) ¿Considera que están controlados todos los factores? .........................................................
37.- Estudios realizados en el período 1850-1900 en Estados Unidos, muestran que el promedio de duración de los matrimonios era de 12 años. a) ¿De qué tipo de estudio se trata? ......................................................................................... b) Mencione posibles factores de confusión.
......................................................................................................................................................... Usted está interesado en diseñar un experimento para analizar el mismo objetivo, ¿qué factores tendría en cuenta?
c)
...................................................................................................................................................................... ................................................................................................................................ d) ¿Muestran estas observaciones que la proporción de divorcios era alta en ese periodo?
................................................................................................................................................... 38.- La flebitis es una inflamación de las venas que altera el equilibrio hemodinámico en el individuo que la padece, que generalmente presenta otros signos cardiológicos. Se puede producir por causas naturales o artificiales como, por ejemplo, la aplicación endovenosa de ciertas drogas, ya sea por la droga en sí misma (principio activo), o por el excipiente (vehículo). El problema de detectar la aparición de flebitis es de particular importancia para los investigadores, ya que se pueden prevenir complicaciones cardíacas. Este estudio se diseñó con la finalidad primordial de buscar mecanismos para la detección temprana de la misma. Para ello se trabajó con conejos del bioterio y se eligió como droga a la amiodarona (antiarrítmico), para ser aplicada por vía endovenosa, ya que como efecto colateral se observa la aparición de flebitis en el lugar de la aplicación. Se sospecha que un aumento en la temperatura de los tejidos cercanos al lugar de la administración intravenosa serían señal de una inflamación inminente. Se administraron tres tratamientos intravenosos en conejos. Estos fueron:
78
Estadística Analítica 2011
Fac. Cs. Veterinarias (U.B.A)
amiodarona en una solución excipiente sólo una solución excipiente una solución salina (control) Los conejos utilizados como animales de prueba se asignaron al azar a los tres grupos de tratamientos y se les insertó una aguja en la vena de una de las orejas, por donde les fueron suministradas las soluciones. Un incremento en la temperatura de la oreja tratada se consideró como posible indicador temprano de flebitis. La diferencia en la temperatura de las orejas (tratada menos no tratada) se usó como variable respuesta. El incremento medio estimado en la temperatura de las orejas de conejos tratados con amiodarona más excipiente fue de 1,20ºC, que es un valor con significado clínico, mientras que las estimaciones medias respectivas para las soluciones excipiente y salina fueron de 0,13ºC y 0,000ºC, que no son significativas en el sentido clínico. Si la amiodarona incrementa la temperatura más que la solución excipiente, entonces se presumiría que contribuye a la inflamación de los tejidos. De la misma manera, la comparación de la solución excipiente con la salina proporcionaría información sobre la contribución del excipiente a la inflamación de los tejidos. Identificar en este diseño: a) ¿Cuál es la variable respuesta a analizar? .............................................................................
................................................................................................................................................... b) ¿Qué factores se controlaron mediante el diseño experimental? ..........................................
................................................................................................................................................... c)
¿Qué hipótesis se planteó el investigador? ...........................................................................
................................................................................................................................................... d) ¿Qué conclusiones podrían resultar del experimento? .........................................................
................................................................................................................................................... e) ¿Considera que se han respetado los principios básicos del diseño experimental (repetición, aleato-
rización y control local)? .......................................................................................... 39.- La vida útil de las carnes refrigeradas sin cocción es el tiempo en que un corte previamente empaquetado es sano, nutritivo y vendible. Un paquete de estos expuesto al aire ambiental tiene una vida útil aproximada de 48 hs, después de la cual la carne comienza a deteriorarse por contaminación de microbios, degradación del color y encogimiento. El empaque al vacío es efectivo para suprimir el desarrollo de microbios; sin embargo, continúan siendo un problema los otros aspectos. Algunos estudios recientes sugieren las atmósferas controladas de gas, como alternativa a los empaques actuales. Dos atmósferas que prometen combinar la capacidad de suprimir el desarrollo de microbios con la conservación de las cualidades de la carne son: 1) dióxido de carbono puro (CO2) y 2) mezclas de monóxido de carbono(CO), oxígeno (O2) y nitrógeno (N2). Se cree que alguna forma de atmósfera controlada proporcionará un entorno más efectivo de empaque para el almacenamiento de carne. En base a las siguientes preguntas previas: a. Para reducir el desarrollo de bacterias, ¿es más efectiva la creación de una atmósfera artificial que el aire ambiental del empaque comercial? b. ¿Son más efectivos los gases que el vacío total? c. ¿Es más efectivo el CO2 que una mezcla de CO, O2 y N2? El investigador diseña un experimento a fin de responderlas, incluyendo carne envasada, con un empaque comercial de plástico, con: 1) aire del ambiente 2) al vacío 3) una mezcla de gases con 1% de CO, 40% de O2 y 59% de N2 4) 100% de CO2
79
Estadística Analítica 2011
Fac. Cs. Veterinarias (U.B.A)
Los empaques con aire del ambiente y al vacío sirven como tratamientos de control, ya que ambos son estándares, con cuya efectividad se puede comparar la de los nuevos empaques. A cada conjunto de empaque se le asignaron al azar tres cortes del mismo tamaño (75 g). Cada corte se empacó por separado en las condiciones asignadas. Se desea, en este caso, estudiar la efectividad de cada tratamiento para suprimir el desarrollo bacterial. Después de nueve días de almacenamiento a 4ºC en una instalación normal, se midió el número de bacterias sicotrópicas en la carne. Las bacterias sicotrópicas se encuentran en la superficie de la carne y se asocian con el deterioro de la carne. Se pide: a) Señalar el tratamiento o factor que se analiza con sus niveles. ...................................................................................................................................................................... ................................................................................................................................ b) La hipótesis del investigador es: .......................................................................................... ...................................................................................................................................................................... ................................................................................................................................ c) Explicar si es un diseño experimental o cuasiexperimental, justificando adecuadamente. ...................................................................................................................................................................... ................................................................................................................................ d) ¿Cuáles podrían ser las conclusiones de este experimento? ............................................................................................................................................................................. ..................................................................................................................................... 40.- En un estudio se analiza la hipótesis de que el ancho del escudo, o placa dorsal, medida en µm, de ninfas de garrapata del conejo, Haemaphysalis leporispalustris, es mayor en regiones cálidas que en templadas. Para poner a prueba esta suposición se toma una muestra aleatoria de 10 conejos infestados por la garrapata que pertenecen a granjas de clima cálido (Región 1), y lo mismo se hace en granjas de clima templado (Región 2), seleccionándose, también 10 conejos infestados. Los datos obtenidos son: Boxplot
Región 2 220 190 250 80 100 95 200 215 225 198
300,00
250,00
Ancho
Región 1 225 220 240 145 260 255 270 185 130 165
200,00
150,00
100,00
50,00 1
2
Región
Shapiro-Wilks (modificado) Región Variable 1 Ancho 2 Ancho
n 10 10
Media D.E. 209,50 50,14 177,30 61,58
W* 0,89 0,81
p (una cola) 0,2657 0,0290
Prueba de Wilcoxon para muestras independientes (Mann Whitney) Desvío esMedia del Grupos Media Mediana tándar rango Región 1 209,50 50,14 222,50 12,20 Región 2 117,30 61,58 199,00 8,80 Realizar la prueba de interés al 10%.
80
Estadístico
p-valor
122,00
0,1984
Estadística Analítica 2011
Fac. Cs. Veterinarias (U.B.A)
41.- En un estudio farmacológico se compararon los tiempos de recuperación, en días, de pacientes que fueron tratados con un principio activo, y los tiempos de recuperación de los que fueron considerados como grupo control, a los que se les aplicó un placebo. Para el primer grupo se seleccionaron aleatoriamente 20 pacientes que recibieron el principio activo. El segundo grupo, formado por 20 pacientes, también seleccionados de manera aleatoria, recibió un placebo. ¿Se puede suponer, al 5%, que los tiempos de recuperación son diferentes? Shapiro-Wilks (modificado) Variable n Media D.E. W* p (una cola) Principio activo 20 10.864 2.162543 0.964 0.6262 Placebo 20 12.300 3.537248 0.9697 0.7482 Al realizar la Prueba de homogeneidad de varianzas se obtuvo que F=0.3738, p-valor=0.0378 UNIDADES TEMÁTICAS 3, 4 y 5 01.- Se midió la producción de leche y el porcentaje de grasa en la misma, en 8 vacas elegidas al azar: Producción (kg)
18
10
11
12
12
19
15
14
Grasa (%)
5,2
6,0
5,8
5,7
5,4
5,1
5,4
5,3
¿Puede afirmarse que la producción de leche y el porcentaje de grasa están correlacionados? Justificar la respuesta con α = 0,05, suponiendo que las variables se distribuyen normalmente. 02.- Los siguientes valores corresponden a la edad (ei, en semanas) y la concentración de cierto mineral encontrado en el tejido (ci, en ppm), en 10 animales. c1 e1
70 82
49 85
41 83
Shapiro-Wilks (modificado) Variable n concent 10 peso 10
64 64
34 82
Media D.E. 36.60 19.07 60.80 21.49
W* 0.89 0.86
25 53
26 26
24 47
14 37
19 49
p (una cola) 0.2537 0.1320
De acuerdo con los resultados anteriores, plantear al 5% y resolver el análisis de correlación que considere adecuado 03.- Se desea estudiar la relación entre el tiempo (ti) después de administrar 5 mg de xilocaína (anestesia local) por kilo de peso vivo, medido en minutos, y la presión venosa (pi), en mm de mercurio, en una muestra de 9 perros. Para ello se fijaron (determinaron) los tiempos y se observó la presión venosa. ti
0
10
20
30
40
50
60
70
80
pi
9,41
9,07
8,81
8,40
7,93
7,38
7,36
7,21
7,01
¿Qué porcentaje de la variación total de la presión venosa es explicada por el tiempo transcurrido después de aplicar la anestesia local? Fórmula
Reemplazo
Resultado
Interpretación:.................................................................................................................................. ......................................................................................................................................................... 04.- Los siguientes datos corresponden al peso branquial (bi, en mg) y al peso corporal (ci, en g), en una muestra de 8 individuos de la población de cangrejos de mar Pachygrapsus crassipes:
81
Estadística Analítica 2011
Fac. Cs. Veterinarias (U.B.A)
bi
159
179
100
384
230
320
220
210
ci
14,4
15,2
11,3
22,7
14,9
15,8
15,4
9,5
Probar la hipótesis de que los pesos branquial y corporal están asociados, sabiendo que ambas variables tiene distribución normal. Justificar estadísticamente la respuesta (α = 0,01). 05.- Un estudio realizado sobre dos tipos distintos de bacterias produjo la siguiente información: Cultivo A Cultivo B
ˆ 200 + 0,8 x Y=
ˆ 50 + 1,2 x Y=
2
R² = 0,81 R = 0,49 donde Y es el número de colonias cada 0,1 ml y X es la cantidad de nutrientes en el caldo de cultivo, medidos en moles/litro. a) ¿Cuál de los dos tipos de bacteria aumenta más por incremento de la cantidad de nutrientes introducido? Fundamentar brevemente la respuesta. b) ¿Le resulta útil para obtener alguna conclusión el cálculo de los respectivos coeficientes de determinación? ¿Qué indican en este caso? 06.- Diez nuevas pinturas fueron puestas en exhibición, y dos expertos en arte las ordenaron de mejor a peor según sus criterios. ¿Existe asociación entre los puntos de vista de estos dos expertos? Use un alfa de 0,05. Pintura
1
2
3
4
5
6
7
8
9
10
Experto 1
4
1
9
5
2
10
7
3
6
8
Experto 2
5
2
10
6
1
9
7
3
4
8
07.- La siguiente tabla muestra el número de bacterias (bi) presentes en un cultivo después de un cierto número controlado de horas (ti): ti
1
2
3
4
5
6
7
8
9
10
bi
35
40
41
47
54
62
63
70
72
78
Estimar puntualmente y con un nivel de confianza del 95%, el aumento de bacterias en función del tiempo. a) Estimación puntual Fórmula
Reemplazo
Resultado
Interpretación : ................................................................................................................................ b) Estimación con un nivel del 95% Fórmula
Reemplazo
Resultado
LI LS
Interpretación : ................................................................................................................................ ......................................................................................................................................................... .........................................................................................................................................................
82
Estadística Analítica 2011
Fac. Cs. Veterinarias (U.B.A)
08.- Para estudiar la influencia de la temperatura (ti, en °C) en el ritmo cardíaco (ri, en latidos/min), en sapos, se observaron 10 animales sometidos a temperaturas determinadas, obteniéndose los siguientes resultados: ti
2
4
6
8
10
12
14
16
18
20
ri
5
6
11
14
22
30
32
30
32
30
a) Representar gráficamente. b) Estimar e interpretar la recta de regresión. c) Indicar los supuestos necesarios, en este caso, para poder inferir a la población d) Analizar a un nivel del 5%, si los latidos aumentan significativamente con la temperatura, planteando: Hipótesis estadísticas .............................................................................................................................. Región crítica .......................................................................................................................................... Valor calculado del estadístico de prueba ................................................................................................. Decisión ................................................................................................................................................. Interpretación biológica del parámetro en estudio .................................................................................... .............................................................................................................................................................. Población .............................................................................................................................................. 09.- Se toma una muestra aleatoria de tamaño n = 17 y se calcula el coeficiente de correlación muestral r =0,75. ¿Es significativo al 5%? ¿En qué supuestos se basa? 10.- Los siguientes datos corresponden al tiempo de la caída del cordón umbilical (Ci, en días), con respecto al aumento de peso del lactante (Ai, en g): Ai
510
400
600
550
660
480
575
700
780
Ci
13
17
10
12
8
15
11
6
7
¿Podría afirmar, a un nivel del 5%, que ambas variables están correlacionadas? Las variables tienen distribución normal. Plantear: Hipótesis estadísticas............................................................................................................................... Valor calculado de la variable pivotal: ....................................................................................................... Decisión ................................................................................................................................................. 11.- Para estudiar la relación entre la edad y presión sanguínea entre bovinos, se seleccionaron 40 animales de distintas edades. Se les midió la presión sanguínea, obteniéndose los siguientes resultados: X = edad en meses Y = presión sanguínea ΣX = 2000; ΣY = 480; ΣX² = 104000; ΣXY = 24400; S²e = 1000 a) Definir en forma completa las variables en estudio b) Indicar el modelo propuesto e interpretar los coeficientes c) Estimar el modelo e interpretar lo obtenido. d) ¿Hay evidencia estadística suficiente para decir que la edad influye sobre la presión sanguínea? (α=0,01). 12.- Para estudiar la relación entre el número de cigarrillos fumado por día durante el embarazo y el peso del recién nacido se tomó una muestra al azar de 15 madres que fumaron durante el embarazo. Los datos se muestran a continuación:
83
Estadística Analítica 2011
Fac. Cs. Veterinarias (U.B.A)
Madre
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
Cigarrillos/día
12
15
35
21
20
17
19
46
20
25
39
25
30
27
29
Peso al Nacer (Kg) 3,5
3,7
3,1
3,7
3,9
3,8
4,3
2,9
3,8
2,4
2,7
3,6
3,6
2,8
3,4
Usando un alfa de 5%, responda: Hipótesis estadísticas......................................................................................................................... Regla de decisión............................................................................................................................... Población en estudio.......................................................................................................................... 13.- Los siguientes datos corresponden al peso de la cresta (X2) y al peso del cuerpo (X1) de 10 pollos parrilleros: ΣX1 = 740 ; ΣX2 = 544; ΣX1² = 61790 ; ΣX2² = 39718; ΣX1 X2 = 42062 ¿Puede afirmar, a un nivel del 5% que el peso de la cresta está asociado al peso del cuerpo? Las variables se distribuyen normalmente. 14.- Los datos de la siguiente tabla corresponden a la edad (ei, en meses), prefijada por el investigador, y a la concentración de hemoglobina en sangre (hi, en %), de un grupo de perros normales: ei
10
11
12
13
14
15
16
17
18
19
hi
93
96
98
100
103
110
111
115
117
120
a.- Dibujar el diagrama de dispersión. b.- Estimar e interpretar la función que mejor ajuste los datos. c.- Se pusieron a prueba las hipótesis estadísticas
H0: β = 0
versus
H1: β ≠ 0
c1) La hipótesis de trabajo correspondiente es ................................................................................... ............................................................................................................................................................ c2) La región crítica es (α=0,05) ..................................................................................................... c3) La decisión es ............................................................................................................................ c4) El parámetro en estudio es ........................................................................................................ c5) La población es ................................................................................................. ....................... 15.- En un laboratorio se realizó un estudio para analizar si la tasa de conversión alimenticia está relacionada con el peso de los animales. Se seleccionaron al azar 6 pollos de pesos determinados obteniéndose los siguientes datos: Peso Tasa Conversión
35 3,8
40 3,4
45 3,2
50 2,8
55 2,5
60 2,2
Datos: Σpi = 285; Σpi = 13975; Σti = 17,9; Σti = 55,17; Σpiti = 822,5 2
2
a) Establecer la relación funcional entre las variables. b) Obtener un intervalo de confianza del 95% para la tasa de conversión media esperada correspondiente a un peso de 42 g. Interpretar en términos del problema. 16.- A continuación se dan el peso, en kg, y el diámetro torácico, en cm, de 10 perros de una determinada raza a los 10 meses de edad. Estos datos corresponden a un estudio en el que se quiere probar si existe asociación entre estas variables.
84
Estadística Analítica 2011
Fac. Cs. Veterinarias (U.B.A)
Peso (p)
23,0
22,7
21,2
21,5
17,0
28,4
19,0
14,5
19,0
19,5
Diámetro (d)
22,0
21,5
20,5
20,0
21,0
25,0
21,0
20,0
19,0
19,0
Shapiro-Wilks (modificado) Variable n Peso 10 Diámetro 10
Media D.E. 20,58 3,78 20,90 1,74
W* 0,97 0,88
p (una cola) 0,9373 0,2174
a) Efectuar el gráfico correspondiente. b) Realizar el análisis estadístico que considere adecuado respecto de la información suministrada (α=0,01). c) Concluir. 17.- A un químico le interesa encontrar un método rápido de determinación del contenido de alfa-resina en el lúpulo. Para ello realiza un experimento que evidencia la relación funcional existente entre las lecturas de un colorímetro (L), para ciertas cubetas tipo, y sus respectivas concentraciones conocidas de alfa-resina (C). Los datos obtenidos fueron: L C
8 0,20
50 0,71
81 1,09
102 1,38
140 1,95
181 2,50
199 2,78
223 3,08
254 3,57
¿Qué conclusiones podría extraer acerca de la relación mencionada? (α = 0,05) 3
18.- Se ha determinado el volumen de plasma (V), en cm , y la cantidad de albúmina circulante (A), en g, de 8 hombres normales. Estas determinaciones se dan a continuación: V
2,5
2,8
2,4
2,5
3,2
2,9
3,6
3,14
A
119
133
123
129
146
146
182
145
¿Hay evidencia de alguna relación entre albúmina circulante y volumen de plasma? Justifique estadísticamente su respuesta, planteando Hipótesis estadística, valor calculado de la variable pivotal, decisión y población en estudio. (α = 0,01). Las variables se distribuyen normalmente. 19.- Una gran empresa quiere determinar si existe una relación negativa entre las horas perdidas por empleado por año y la ganancia anual por empleado. Una muestra aleatoria de 16 empleados se expone a continuación: Empleado
1
2
3
4
5
6
7
8
Horas de Trabajo Perdidas
49
36
127
91
72
34
155
11
Ganancia Anual (en 1000$) Empleado
15,8 17,5 11,3 13,2 13,0 14,5 11,8 20,2 9
10
11
12
13
14
15
16
Horas de Trabajo Perdidas
191
6
63
79
43
57
82
24
Ganancia Anual (en 1000$)
10,8 18,8 13,8 12,7 15,1 24,2 13,9 15,1
Shapiro-Wilks (modificado) Variable n Media D.E. W* p (una cola) h 16 70.00 51.20 0.90 0.2020 g 16 15.11 3.56 0.90 0.1618 ¿Cree Ud., usando un alfa del 1%, que la empresa tiene razón?
85
Estadística Analítica 2011
Fac. Cs. Veterinarias (U.B.A)
20.- Para el estudio del crecimiento del hongo de la papa se inocularon tubos con medio de cultivo. El crecimiento (C), en mm, se midió en determinados tiempos (T), en días, fijados por el experimentador. Se obtuvieron los siguientes resultados: T C
2 10
3 15
5 27
7 35
9 42
10 50
12 51
13 66
15 68
17 72
a.- Graficar e interpretar los datos. b.- Establecer la relación funcional entre el crecimiento y el tiempo. c.- ¿Es significativo el crecimiento diario a nivel del 5%? 21.- Una compañía de productos químicos desea estudiar los efectos que tiene el tiempo (t), en minutos, en la eficiencia de una operación de extracción (e), en %, obteniendo los datos que aparecen en la siguiente tabla: ei
19
19
15
27
35
45
31
39
49
41
ti
46
52
57
59
62
64
68
72
77
80
Datos: Σei = 320; Σei = 11490; Σti = 637; Σeiti = 21329; Σti = 41627 2
2
a) Estimar la ecuación de regresión lineal y graficar. b) Estimar la eficiencia media de extracción que puede esperarse cuando el tiempo de extracción es de 50 minutos, con una confianza del 99% 22.- Para estudiar si existe relación funcional entre la estatura (E, en cm) y la longitud del radio (L, en cm), en jóvenes varones con edades entre 12 y 18 años, se tomó una muestra de 12 de ellos, tomando valores determinados de estatura y observando la longitud del radio. Los valores correspondientes se ordenaron en la siguiente tabla: E
149,0
152,0
155,7
159,0
163,3
166,0
169,0
172,0
174,5
176,1
176,5
179,0
L
21,0
21,79
22,4
23,0
23,7
24,3
24,92
25,5
25,8
26,01
26,15
26,3
a.- Estimar la relación funcional existente entre ambas variables. b.- Completar los datos de la tabla de ADEVA y realizar la dócima de interés, con un nivel del 5%. c.- Utilizando la tabla de ADEVA, calcular el coeficiente de determinación e interpretar el resultado. FUENTE DE VARIACION REGRESION RESIDUAL TOTAL
G.L.
SC
CM
F
37,05
P < 0,0001
0,018 11
37,23
Coeficientes de regresión y estadísticos asociados Coef Est. EE LI(95%) LS(95%) const -5.61 0.66 -7.07 -4.15 E 0.18 3.9E-03 0.17 0.19
T -8.55 45.58
p-valor <0.0001 <0.0001
23.- En un estudio se sospecha que la cantidad de folículos ovulados (fi) está asociado positivamente con la cantidad de huevos puestos (hi), por las hembras de faisán de cuello anidado. En la siguiente tabla se presentan los datos obtenidos de 10 hembras cautivas: hi
39
29
46
28
31
25
49
57
51
21
fi
37
34
52
26
32
25
55
65
44
25
Calcular el coeficiente de correlación de Spearman. Poner a prueba la hipótesis de los investigadores al nivel del 5%.
86
Estadística Analítica 2011
Fac. Cs. Veterinarias (U.B.A)
24.- Como parte de un estudio acerca del efecto de las presiones del grupo sobre un individuo con respecto a una situación que involucraba riesgo monetario, los investigadores asignaron una escala para medir el autoritarismo (ai) y otra para medir el esfuerzo por alcanzar posición social (pi), en cada uno de 6 estudiantes universitarios. Se buscaba información acerca de la correlación entre los puntajes de autoritarismo y los del esfuerzo por alcanzar posición social: ai
82
98
87
40
116
113
pi
42
46
39
37
65
88
Indicar si existe correlación significativa entre las variables al 5%. 25.- Para realizar un experimento sobre engorde intensivo de novillos una estación experimental somete a 24 novillos cruza de la misma edad al siguiente experimento: los individuos son asignados aleatoriamente a 3 grupos (1, 2 y 3) y antes de llevarlos a la pastura son inoculados con tres dosis de un novedoso anabólico no esteroide. Luego de 45 días se pesan los animales obteniendo para cada uno de ellos el aumento promedio diario de peso (en kg). Los resultados son los siguientes: Grupo 1 0,4 0,5 0,4 0,2 0,4 0,6 0,5 0,5 Estadística descriptiva Dosis Variable 1 AumPeso 2 AumPeso 3 AumPeso
n 8 8 8
Media 0,44 0,68 0,74
Grupo 2 0,7 0,7 0,8 0,6 0,5 0,7 0,7 0,7
D.E. 0,12 0,09 0,11
Grupo 3 0,7 0,8 0,8 0,9 0,6 0,8 0,6 0,7
Mín 0,20 0,50 0,60
Máx 0,60 0,80 0,90
Mediana 0,45 0,70 0,75
A partir de los gráficos y las salidas correspondientes, responda los siguientes ítems: a) Verificar si se cumplen los supuestos para un DCA modelo fijo (concluya u opine para cada supuesto) Normalidad ....................................................................................................................................... Homoscedasticidad ........................................................................................................................... b) Teniendo en cuenta lo anterior y que el nivel es del 5% La salida elegida es ........................................................................................................................... Las hipótesis planteadas son: ............................................................................................................ c) Decidir y concluir. SALIDAS Y GRAFICOS OBTENIDOS POR COMPUTADORA: Tabla 1 Shapiro-Wilks (modificado) Variable RDUO_AumPeso
n 24
Media D.E. 0,00 0,10
W* 0,93
p (una cola) 0,2558
87
Estadística Analítica 2011
Fac. Cs. Veterinarias (U.B.A)
Tabla 2 Análisis de la varianza – Test de Levene Variable N R² R² Aj CV abs dif 24 0,07 0,00 90,85 Cuadro de Análisis de la Varianza (SC tipo III) F.V. SC gl CM F p-valor Modelo 0,01 2 3,8E-03 0,81 0,4593 Dosis 0,01 2 3,8E-03 0,81 0,4593 Error 0,10 21 4,6E-03 Total 0,11 23 Tabla 3 Análisis de la varianza Variable N AumPeso 24
R² 0,63
R² Aj 0,60
CV 17,06
Cuadro de Análisis de la Varianza (SC tipo III) F.V. SC gl CM F p-valor Modelo 0,40 2 0,20 18,10 <0,0001 Dosis 0,40 2 0,20 18,10 <0,0001 Error 0,23 21 0,01 Total 0,63 23 Tabla 4 Prueba de Kruskal Wallis Variable Dosis AumPeso 1 AumPeso 2 AumPeso 3
N 8 8 8
Medias 0,44 0,68 0,74
D.E. 0,12 0,09 0,11
Medianas 0,45 0,70 0,75
H 14,16
p 0,0006
QQ-plot
Gráfico de densidad de puntos 0,94
0,91
0,74
AumPeso
Cuantiles observados(RE_Peso)
2,04
-0,22
0,55
-1,35
0,36
-2,47 -2,47
-1,35
-0,22
0,91
2,04
Cuantiles de una Normal(1,0547E-015,1,0957)
0,17 1
2
3
Dosis
26.- En un estudio realizado sobre pacientes hipertensos con el propósito de investigar la relación del nivel de presión arterial tomado como la presión media en un determinado período (Y, medida en mm de Hg) con la edad (X1, en años) y el peso (X2, en kg), se obtuvieron datos de una muestra aleatoria de 20 pacientes.
88
Estadística Analítica 2011
Fac. Cs. Veterinarias (U.B.A)
Y
X1
X2
Y
X1
X2
105 115 116 117 112 121 121 110 110 114
47 49 49 50 51 48 49 47 49 48
85,4 94,.2 95,3 94,7 89,4 99,5 99,8 90,9 89,2 92,7
114 115 114 106 125 114 106 113 110 122
47 49 50 45 52 46 46 46 48 56
94,4 94,1 91,6 87,1 101,3 94,5 87,0 94,5 90,5 95,7
Estimar la ecuación de regresión múltiple, analizar la significación de la regresión al nivel del 1%, y el ajuste. Análisis de regresión lineal Variable N Y 20
R² 0.99
R² Aj 0.99
ECMP 0.37
Coeficientes de regresión y estadísticos asociados Coef Est. EE LI(95%) LS(95%) const -16.58 3.01 -22.92 -10.23 X1 0.71 0.05 0.60 0.82 X2 1.03 0.03 0.97 1.10 Cuadro de Análisis de la Varianza (SC tipo III) F.V. SC gl CM Modelo 555.18 2 277.59 X1 49.70 1 49.70 X2 311.91 1 311.91 Error 4.82 17 0.28 Total 560.00 19
T -5.51 13.23 33.15 F 978.25 175.16 1099.20
p-valor <0.0001 <0.0001 <0.0001 p-valor <0.0001 <0.0001 <0.0001
27.- En un estudio realizado en niños sobre la relación entre la excreción de creatinina (en mg/día, tomada como variable dependiente), el peso (en kg) y la estatura (en cm), se obtuvieron 20 datos de niños del sexo masculino. Y 100 115 52 85 135 58 90 60 45 125
Peso 9 10 6 8 10 5 8 7 4 11
Estatura 72 76 59 68 60 58 70 65 54 83
Y 86 80 65 95 25 125 40 95 70 120
Peso 7 7 6 8 5 11 5 9 6 10
Estatura 64 66 61 66 57 81 59 71 72 75
a.- Estimar la ecuación de regresión múltiple que describe la relación entre estas variables b.- Analizar la significación de la regresión al nivel del 5% 2 c.- Interpretar el R d.- Explicitar el modelo teórico supuesto e interpretar los parámetros
89
Estadística Analítica 2011
Fac. Cs. Veterinarias (U.B.A)
Análisis de regresión lineal Variable N Y 20
R² 0.90
R² Aj 0.89
ECMP 196.69
Coeficientes de regresión y estadísticos asociados Coef Est. EE LI(95%) LS(95%) T const 1.38 23.96 -49.18 51.94 0.06 Peso 15.58 1.98 11.40 19.77 7.86 Estatura -0.55 0.52 -1.65 0.56 -1.04 Cuadro de Análisis de la Varianza (SC tipo III) F.V. SC gl CM F Modelo 16769.73 2 8384.86 80.69 Peso 6412.62 1 6412.62 61.71 Estatura 113.44 1 113.44 1.09 Error 1766.47 17 103.91 Total 18536.20 19
p-valor 0.9547 <0.0001 0.3107 p-valor <0.0001 <0.0001 0.3107
28.- Como parte de un estudio para investigar la relación entre la tensión nerviosa y otras variables, se reunieron datos a partir de una muestra aleatoria de 15 ejecutivos medios de una corporación. Las variables observadas fueron: Y: medición del estrés X1: salario anual (x 1000) X2: edad (años) Y 101 60 10 27 89 60 16
X1 30 20 20 54 52 27 26
X2 38 52 27 36 34 45 50
Y 184 34 17 78 141 11 104 76
X1 52 34 28 42 84 31 38 41
X2 60 44 39 41 58 51 63 30
a.- Estimar la ecuación de regresión múltiple que describe la relación entre estas variables tomadas b.- Analizar la significación de la regresión al nivel del 5% 2 c.- Interpretar el R d.- Explicitar el modelo teórico supuesto e interpretar los parámetros Análisis de regresión lineal Variable N Y 15
R² 0.49
R² Aj 0.41
ECMP 2437.79
Coeficientes de regresión y estadísticos asociados Coef Est. EE LI(95%) LS(95%) T const -67.13 46.10 -167.58 33.32 -1.46 X1 1.60 0.65 0.18 3.02 2.46 X2 1.63 1.00 -0.54 3.80 1.63 Cuadro de Análisis de la Varianza (SC tipo III) F.V. SC gl CM F Modelo 17995.73 2 8997.87 5.79 X1 9368.94 1 9368.94 6.03 X2 4150.88 1 4150.88 2.67 Error 18652.67 12 1554.39 Total 36648.40 14
90
p-valor 0.1710 0.0303 0.1282
p-valor 0.0174 0.0303 0.1282
Estadística Analítica 2011
Fac. Cs. Veterinarias (U.B.A)
29.- Se desea saber si cuatro tratamientos antiinflamatorios utilizados en patologías articulares difieren en cuanto a su efectividad. Se eligieron al azar 24 caballos con dicho signo clínico y se los repartió en 4 grupos de igual tamaño y a cada uno se le asigna un tratamiento distinto. Al final de un período determinado, cada grupo es revisado clínicamente para cuantificar la efectividad del tratamiento y el puntaje asignado corresponde a la reducción del área inflamada y va de 0 a 100. Se obtuvieron los siguientes puntajes: 1 64 75 72 80 79 71 Estadística descriptiva Trat Variable 1 Puntaje 2 Puntaje 3 Puntaje 4 Puntaje
n 6 6 6 6
Tratamiento 2 3 76 58 81 74 90 76 80 60 89 75 85 69 Media 73,50 83,50 68,67 87,67
D.E. 5,89 5,47 7,89 5,05
Mín 64,00 76,00 58,00 80,00
4 95 90 80 87 85 89 Máx 80,00 90,00 76,00 95,00
Mediana 73,50 83,00 71,50 88,00
A partir de los gráficos y las salidas correspondientes, responda los siguientes ítems: a) Verificar si se cumplen los supuestos para un DCA modelo fijo (concluya u opine para cada supuesto) Normalidad ....................................................................................................................................... Homoscedasticidad ........................................................................................................................... b) Teniendo en cuenta lo anterior y que el nivel es del 5% La salida elegida es ........................................................................................................................... Las hipótesis planteadas son: ............................................................................................................ c) Decidir y concluir. SALIDAS Y GRAFICOS OBTENIDOS POR COMPUTADORA: Tabla 1 Shapiro-Wilks (modificado) Variable n Media D.E. W* RE_Puntaje 24 0.02 1.05 0.88 Tabla 2 Análisis de la varianza – Test de Levene Variable N R² R² Aj CV abs dif 24 0,08 0,00 74,08
p (una cola) 0.0224
Cuadro de Análisis de la Varianza (SC tipo III) F.V. SC gl CM F Modelo 22,83 3 7,61 0,61 Trat 22,83 3 7,61 0,61 Error 247,67 20 12,38 Total 270,50 23 Tabla 3 Análisis de la varianza Variable N R² Puntaje 24 0.64
R² Aj 0.59
p-valor 0,6135 0,6135
CV 7.88
91
Estadística Analítica 2011
Fac. Cs. Veterinarias (U.B.A)
Cuadro de Análisis de la Varianza (SC tipo III) F.V. SC gl CM F Modelo 1383.67 3 461.22 12.11 Trat 1383.67 3 461.22 12.11 Error 761.67 20 38.08 Total 2145.33 23 Tabla 4 Prueba de Kruskal Wallis Variable Tratamientos Puntaje 1 Puntaje 2 Puntaje 3 Puntaje 4
N 6 6 6 6
p-valor 0.0001 0.0001
Medianas 73.50 83.00 71.50 88.00
H 16.50
p 0.0009
Gráfico de densidad de puntos
1,99
100,00
0,99
87,50
Efectividad
Cuantiles observados(RE_Efectividad)
QQ-plot
0,00
-0,99
75,00
62,50
-1,99 -1,99
-0,99
0,00
0,99
1,99
50,00 1
Cuantiles de una Normal(3,7007E-017,1,0435)
2
3
4
Tratamientos
30.- De cierto producto se tomaron 25 muestras, lo más parecidas posibles y se almacenaron bajo diferentes condiciones (métodos). Se trata de ver con los datos de hidratación del cuadro adjunto si hay diferencias significativas entre los métodos de almacenamiento en cuanto al contenido de agua (en %). A 8,30 8,10 8,40 8,30 8,40
B 7,90 7,10 7,90 7,80 7,68
Método C 8,10 8,50 7,82 8,30 8,15
D 7,40 8,50 8,50 8,50 8,22
E 7,60 7,70 7,90 7,98 8,10
Estadística descriptiva Método Variable n Media D.E. Mín Máx Mediana A Hidratación 5 8.30 0.12 8.10 8.40 8.30 B Hidratación 5 7.68 0.33 7.10 7.90 7.80 C Hidratación 5 8.17 0.25 7.82 8.50 8.15 D Hidratación 5 8.22 0.48 7.40 8.50 8.50 E Hidratación 5 7.86 0.20 7.60 8.10 7.90 A partir de los gráficos y las salidas correspondientes, responda los siguientes ítems: a) Verificar si se cumplen los supuestos para un DCA modelo fijo (concluya u opine para cada uno) Normalidad ....................................................................................................................................... Homoscedasticidad ...........................................................................................................................
92
Estadística Analítica 2011
Fac. Cs. Veterinarias (U.B.A)
b) Teniendo en cuenta lo anterior y que el nivel es del 5% La salida elegida es ........................................................................................................................... Las hipótesis planteadas son: ............................................................................................................ c) Decidir y concluir. SALIDAS Y GRAFICOS OBTENIDOS POR COMPUTADORA: Tabla 1 Shapiro-Wilks (modificado) Variable n Media D.E. W* p (una cola) RE_Hidratación 25 0,00 1,02 0,87 0,0078 Tabla 2 Análisis de la varianza – Test de Levene Variable N R² R² Aj CV abs dif 25 0,07 0,00 148,73 Cuadro de Análisis de la Varianza (SC tipo III) F.V. SC gl CM F p-valor Modelo 0,10 4 0,03 0,36 0,8329 Método 0,10 4 0,03 0,36 0,8329 Error 1,41 20 0,07 Total 1,51 24 Tabla 3 Análisis de la varianza Variable N R² R² Aj CV Hidratación 25 0,44 0,33 3,76 Cuadro de Análisis de la Varianza (SC tipo III) F.V. SC gl CM F p-valor Modelo 1,43 4 0,36 3,89 0,0170 Método 1,43 4 0,36 3,89 0,0170 Error 1,84 20 0,09 Total 3,26 24 Tabla 4 Prueba de Kruskal Wallis Variable Método N Medianas H p Hidratación A 5 8,30 11,75 0,0185 Hidratación B 5 7,80 Hidratación C 5 8,15 Hidratación D 5 8,50 Hidratación E 5 7,90 Gráfico de densidad de puntos 9,00
0,74
8,50
Hidratación
Cuantiles observados(RE_Hidratación)
QQ-plot 2,00
-0,52
8,00
7,50
-1,78
-3,04 -3,04
7,00
-1,78
-0,52
0,74
2,00
Cuantiles de una Normal(3,5527E-017,1,0417)
A
B
C
D
E
Método
93
Estadística Analítica 2011
Fac. Cs. Veterinarias (U.B.A)
31.- Para realizar un ensayo sobre la actividad estrogénica se compararon varias soluciones que habían sido sometidas a una técnica de inactivación in vitro. Se inyectaron ratones hembra y como medida de la actividad estrogénica se utilizó el peso del útero. Los siguientes datos de los pesos de úteros, en mg, de diez ratones hembra para cada uno de los tratamientos: control y dos soluciones diferentes son: Control 89,8 93,8 112,6 101,6 97,2 106,5 98,1 94,4 105,3 95,7 Estadística descriptiva Soluciones Variable 0 Peso 1 Peso 2 Peso
10 10 10
Solución 1 64,4 79,8 69,4 76,3 67,1 71,5 78,2 68,6 70,4 71,9 n 99.50 71.76 69.38
Media 6.94 4.95 4.50
Solución 2 75,2 62,4 73,8 71,8 65,1 74,6 66,8 70,1 64,7 69,3
D.E. 89.80 64.40 62.40
Mín Máx Mediana 112.60 97.65 79.80 70.95 75.20 69.70
A partir de los gráficos y las salidas correspondientes, responda los siguientes ítems: a) Verificar si se cumplen los supuestos para un DCA modelo fijo (concluya u opine para cada uno) Normalidad ....................................................................................................................................... Homoscedasticidad ........................................................................................................................... b) Teniendo en cuenta lo anterior y que el nivel es del 5% La salida elegida es ........................................................................................................................... Las hipótesis planteadas son: ............................................................................................................ c) Decidir y concluir. SALIDAS Y GRAFICOS OBTENIDOS POR COMPUTADORA: Tabla 1 Shapiro-Wilks (modificado) Variable n Media D.E. W* p (una cola) RE_Peso 30 0.00 1.06 0.96 0.6534 Tabla 2 Análisis de la varianza – Test de Levene Variable N R² R² Aj abs dif 30 0,05 0,00
CV 79,70
Cuadro de Análisis de la Varianza (SC tipo III) F.V. SC gl CM F Modelo 16,45 2 8,23 0,71 Trat 16,45 2 8,23 0,71 Error 313,20 27 11,60 Total 329,65 29 Tabla 3 Análisis de la varianza Variable N Peso 30
94
R² 0.87
R² Aj 0.86
CV 6.94
p-valor 0,5010 0,5010
Estadística Analítica 2011
Fac. Cs. Veterinarias (U.B.A)
Cuadro de Análisis de la Varianza (SC tipo III) F.V. SC gl CM Modelo 5607.95 2 2803.98 Soluciones 5607.95 2 2803.98 Error 835.68 27 30.95 Total 6443.63 29 Tabla 4 Prueba de Kruskal Wallis Variable Soluciones N Peso 0 10 Peso 1 10 Peso 2 10
Medianas 97.65 70.95 69.70
F 90.59 90.59
H 19.79
p-valor <0.0001 <0.0001
p 0.0001
Gráfico de densidad de puntos QQ-plot 120,00
105,00
1,40
Peso
Cuantiles observados(RE_Peso)
2,58
0,21
90,00
75,00
-0,97
-2,16 -2,16
60,00 -0,97
0,21
1,40
2,58
Cuantiles de una Normal(2,0724E-016,1,1172)
0
1
2
Soluciones
95