Estadística y diseño de experimentos
Cecilia Ríos Varillas
Estadística y diseño de experimentos
Universidad Nacional de Ingeniería Editorial Universitaria
I
Cecilia Ríos Varillas
Rector Dr. Ing. Aurelio Padilla Ríos Primer Vicerrector Geol. José S. Martínez Talledo Segundo Vicerrector Msc. Ing. Walter Zaldívar Álvarez Primera edición, setiembre de 2012 Estadística y diseño de experimentos Impreso en el Perú / Printed in Peru © Cecilia Ríos Varillas Derechos reservados © Derechos de edición Universidad Nacional de Ingeniería Editorial Universitaria
Av. Túpac Amaru 210, Rímac – Lima Pabellón Central / Sótano Telfs. 4814196 / 4811070 anexo 215 Correo-e:
[email protected] Jefe EDUNI: Prof. Álvaro Montaño Freire Coordinador Editorial: Nilton Zelada Minaya Impreso en la Imprenta de la Editorial Universitaria de la Universidad Nacional de Ingeniería ISBN .... Hecho el Depósito Legal en la Biblioteca Nacional del Perú Nº 2011-13203 Prohibida la reproducción de este libro por cualquier medio, total o parcialmente, sin permiso expreso del autor.
II
Estadística y diseño de experimentos
Palabras liminares Me complace felicitar a los docentes de nuestra Universidad ganadores del II Concurso para la Publicación de Libros de Texto convocado por el Rectorado y realizado en cada una de las Facultades. Una de las políticas medulares del Rectorado es la permanente mejora en la calidad académica, y en ese sentido nos interesa que cada docente tenga la oportunidad de convertir su labor cotidiana de enseñanza en textos para uso de los estudiantes universitarios de todo el país. Los autores han hecho un meritorio esfuerzo para organizar los temas de sus exposiciones, realizando investigaciones y consultando fuentes peruanas y extranjeras, así como recogiendo el fruto del diálogo con sus colegas y los propios estudiantes. Asimismo, se han esmerado en presentar sus cursos de manera que facilita el acceso por parte de los interesados. La publicación de textos académicos es una de las obligaciones de toda universidad y uno de los índices que se toma en cuenta para la evaluación de la calidad académica. Por ende, seguiremos apoyando la publicación de libros y revistas a través de nuestra Editorial Universitaria, cuya meta es formar parte del liderazgo peruano en la industria editorial dedicada a ingeniería, ciencia y arquitectura. Es responsabilidad de la Universidad Nacional de Ingeniería aportar al Perú un liderazgo de base tecnológica que trabaje en estrecha asociación con las autoridades gubernamentales, los dirigentes empresariales y la sociedad civil en su conjunto, lo cual requiere de una política editorial y de publicaciones que estamos impulsando.
Dr. Ing. Aurelio Padilla Ríos Rector
III
Cecilia Ríos Varillas
IV
Estadística y diseño de experimentos
Agradecimientos Quisiera comenzar agradeciendo a mi esposo Luis y a mis hijas Ana Cecilia, Claudia y Vanessa, por su apoyo incondicional para hacer este libro una realidad. A mi madre Anita, hermanos y a la memoria de mi padre Ladislao Rios, quien me dejó, el mejor de los legados: la docencia. Un agradecimiento muy especial al Mg. Jorge Chue Gallardo, mi primer profesor de Estadística, quien forjó en mí la vocación a esta carrera maravillosa y además por su aporte incondicional en la presentación de este texto. A la señorita Claudia Oscanoa Ríos, Bachiller en Ingeniería Estadística, por su colaboración en la edición y la revisión final del libro. A todos mis alumnos, por sus deseos de superación que motivan e inspiran mi labor docente.
V
Cecilia Ríos Varillas
VI
Estadística y diseño de experimentos
Índice
Presentación................................................................................................................XIII Introducción.................................................................................................................XV Capítulo 1 Conceptos básicos en estadística................................................................................ 1 1.1. Definición y división de la estadística................................................................. 1 1.1.1. Estadística ............................................................................................................ 1 1.1.2. División de la Estadística.................................................................................... 1 1.2. Conceptos fundamentales en estadística............................................................. 2 1.2.1. Población............................................................................................................... 2 1.2.2. Muestra.................................................................................................................. 2 1.2.3. Parámetro.............................................................................................................. 3 1.2.4. Estadígrafo............................................................................................................ 3 1.2.5. Dato........................................................................................................................ 3 1.2.6. Unidad Elemental................................................................................................ 3 1.3. Variable..................................................................................................................... 3 1.3.1. Variable Cualitativa............................................................................................. 3 1.3.2. Variable Cuantitativa........................................................................................... 4 1.4. Ejercicios desarrollados.......................................................................................... 5 1.5. Ejercicios propuestos.............................................................................................. 7 Capítulo 2 Estadística descriptiva.................................................................................................. 9 2.1 Organización y presentación de los datos............................................................ 9 2.2 Tabla de frecuencias cuando la variable es cualitativa....................................... 9 2.3 Tabla de frecuencias cuando la variable es cuantitativa................................... 11 2.3.1 Tabla de Frecuencias cuando la variable es cuantitativa discreta................ 12 VII
Cecilia Ríos Varillas
2.3.2 Tabla de Frecuencias cuando la variable es cuantitativa continua.............. 13 2.4 Medidas descriptivas............................................................................................. 17 2.4.1 Medidas de Tendencia Central.......................................................................... 17 2.4.2 Medidas de Dispersión...................................................................................... 26 2.5 Aplicación usando el paquete estadístico minitab............................................ 31 2.6 Ejercicios desarrollados......................................................................................... 37 2.7 Ejercicios propuestos............................................................................................. 48 Capítulo 3 Probabilidades............................................................................................................. 51 3.1 Definiciones básicas............................................................................................... 51 3.1.1 Experimento......................................................................................................... 51 3.1.2 Espacio muestral Ω ............................................................................................ 52 3.1.3 Evento o suceso................................................................................................... 52 3.2 Técnicas de conteo.................................................................................................. 54 3.2.1 Principio de adición............................................................................................ 54 3.2.2 Principio de multiplicación............................................................................... 55 3.2.3 Permutación......................................................................................................... 55 3.2.4 Permutación Circular.......................................................................................... 56 3.2.5 Combinación........................................................................................................ 57 3.2.6 Ejercicios de Conteo............................................................................................ 57 3.3 Probabilidad............................................................................................................ 59 3.3.1 Enfoque Clásico (Probabilidad de un Evento)................................................ 59 3.3.2 Enfoque Empírico............................................................................................... 60 3.4 Axiomas de probabilidad...................................................................................... 60 3.5 Propiedades de probabilidad............................................................................... 60 3.6 Probabilidad condicional...................................................................................... 62 3.6.1 Definición de probabilidad condicional.......................................................... 62 3.6.2 Propiedades de probabilidad condicional...................................................... 63 3.6.3 Tipos de muestreo............................................................................................... 65 3.6.4 Teorema de multiplicación de probabilidades (probabilidad conjunta).... 66 3.7 Eventos independientes........................................................................................ 67 3.8 Partición del espacio muestral............................................................................. 68 3.9 Ecuación de la probabilidad total........................................................................ 69 3.10 Teorema de Bayes................................................................................................. 71 3.11 Ejercicios desarrollados....................................................................................... 72 3.12 Ejercicios propuestos........................................................................................... 83 VIII
Estadística y diseño de experimentos
Capítulo 4 Variable aleatoria........................................................................................................ 89 4.1 Definición................................................................................................................ 89 4.2 Variable aleatoria discreta..................................................................................... 90 4.2.1 Función de probabilidad (Distribución de probabilidades) de la variable aleatoria discreta.................................................................................. 90 4.2.2 Función de distribución (acumulada) de la variable aleatoria discreta...... 91 4.3 Variable aleatoria continua................................................................................... 93 4.3.1 Función de probabilidad de la variable aleatoria continua.......................... 93 4.3.2 Función de distribución (acumulada) de la variable aleatoria continua.... 94 4.4 Valor esperado y varianza de la variable aleatoria........................................... 96 4.4.1 Valor esperado de la variable aleatoria............................................................ 96 4.4.2 Varianza de la variable aleatoria....................................................................... 98 4.5 Ejercicios desarrollados....................................................................................... 100 4.6 Ejercicios propuestos........................................................................................... 109 Capítulo 5 Distribución de probabilidades............................................................................. 113 5.1 Distribuciones discretas notables...................................................................... 113 5.1.1 Distribución Binomial...................................................................................... 113 5.1.2 Distribución de Poisson.................................................................................... 116 5.1.3 Distribución Hipergeométrica........................................................................ 119 5.2 Distribuciones continuas notables..................................................................... 120 5.2.1 Distribución Uniforme..................................................................................... 120 5.2.2 Distribución exponencial................................................................................. 121 5.2.3 Distribución Normal o Gaussiana.................................................................. 123 5.2.4 Distribuciones relacionadas con la normal, distribuciones para muestras pequeñas........................................................................................... 129 5.3 Ejercicios desarrollados....................................................................................... 133 5.4 Ejercicios propuestos........................................................................................... 140 Capítulo 6 Muestreo aleatorio y distribuciones en el muestreo.......................................... 143 6.1 Definiciones básicas............................................................................................. 143 6.1.1 Distribución muestral....................................................................................... 143 6.1.2 Muestra aleatoria.............................................................................................. 143 6.1.3 Error en el muestreo......................................................................................... 144 6.2 Distribución de la media muestral.................................................................... 144 IX
Cecilia Ríos Varillas
6.2.1 Teorema 1. La media y la varianza de las medias muestrales.................... 144 6.2.2 Teorema 2. Distribución de la media muestral cuando la población es normal............................................................................................................ 145 6.2.3 Teorema 3. Teorema del límite central........................................................... 145 6.3 Distribuciones muestrales de los estimadores ................................................ 146 6.3.1 Distribución de la media muestral cuando la varianza poblacional σX2 es conocida......................................................................................................... 146 6.3.2 Distribución de la media muestral cuando la varianza poblacional σx2 no es conocida................................................................................................... 147 6.3.3 Distribución de la varianza muestral S2......................................................... 148 6.3.4 Distribución de la diferencia de medias muestrales si σ21 y σ22 son conocidas............................................................................................................ 149 6.3.5 Distribución de la diferencia de medias muestrales si σ21 y σ22 no son conocidas............................................................................................................ 149 6.4 Ejercicios desarrollados....................................................................................... 150 6.5 Ejercicios propuestos........................................................................................... 156 Capítulo 7 Inferencia estadística................................................................................................ 159 7.1 Definición de la estadística inferencial............................................................. 159 7.2 Objetivos de la inferencia estadística................................................................ 160 7.3 Estimación de parámetros.................................................................................. 160 7.3.1 Estimación puntual........................................................................................... 161 7.3.2 Estimación por intervalos (Límites de Confianza)....................................... 162 7.4 Prueba o contraste de hipótesis......................................................................... 170 7.4.1 Tipos de errores................................................................................................. 171 7.4.2 Tipos de prueba................................................................................................. 171 7.4.3 Pasos necesarios para realizar una prueba de hipótesis a un parámetro..... 172 7.4.4 Prueba de hipótesis para los parámetros....................................................... 173 7.5 Ejercicios desarrollados....................................................................................... 179 7.6 Ejercicios propuestos.......................................................................................... 192 Capítulo 8 Diseños experimentales........................................................................................... 195 8.1 Definición e importancia del diseño experimental......................................... 195 8.2 Pasos a seguir en el diseño de experimentos .................................................. 196 8.3 Definiciones básicas............................................................................................. 196 8.4 Principios básicos del diseño experimental..................................................... 198 8.5 Análisis de varianza (anva)................................................................................. 199 X
Estadística y diseño de experimentos
8.6 Modelo matemático............................................................................................. 200 8.7 Tipos de modelos estadísticos............................................................................ 200 8.8 Diseños básicos..................................................................................................... 201 8.9 Diseño completamente aleatorio o al azar (DCA)........................................... 201 8.9.1 Características del diseño completamente al azar....................................... 202 8.9.2 Modelo aditivo lineal en el diseño completamente aleatorio..................... 202 8.9.3 Representación simbólica de los datos en el diseño completamente aleatorio.............................................................................................................. 202 8.9.5 Prueba de Homogeneidad de varianzas........................................................ 207 8.10 Diseño bloque completamente al azar (DBCA)............................................. 209 8.10.1 Características del diseño bloque completamente al azar........................ 210 8.10.2 Modelo aditivo lineal en el diseño bloque completamente aleatorio...... 210 8.10.3 Representación simbólica de los datos en el diseño bloque completamente aleatorio............................................................................... 211 8.10.4 Análisis de varianza en el diseño bloque completamente aleatorio........ 211 8.11 Diseño cuadrado latino (DCL)......................................................................... 215 8.11.1 Características del diseño cuadrado latino................................................. 215 8.11.2 Modelo aditivo lineal en el diseño cuadrado latino................................... 216 8.11.3 Análisis de varianza en el diseño cuadrado latino..................................... 216 8.12 Diseños estadísticos usando Minitab.............................................................. 220 8.13 Ejercicios desarrollados..................................................................................... 226 8.14 Ejercicios propuestos......................................................................................... 241 Glosario....................................................................................................................... 247 Bibliografía................................................................................................................. 249 Anexos......................................................................................................................... 251 Anexo 1. Tabla función de distribución acumulativa distribución t-student F(t)=P(T≤t).................................................................................................. 251 Anexo 2. Tabla de la función de distribución acumulativa normal estándar P(Z≤z)=F(z)................................................................................................. 253 Anexo 3. Tabla de la función de distribución acumulativa distribución ji-cuadrado.................................................................................................................. 255 Anexo 4. Tabla de valores de la distribución F para una probabilidad acumulada de 0,99 .................................................................................................. 258 Anexo 5. Tabla de valores de la distribución F para una probabilidad acumulada de 0,95.................................................................................................... 261
XI
Cecilia Ríos Varillas
Índice de Figuras Figura 2.1. Diagrama de Barras.................................................................................. 10 Figura 2.2. Diagrama por sectores circulares........................................................... 11 Figura 2.3. Histograma de Frecuencias..................................................................... 16 Figura 3.1. Partición del espacio muestral................................................................ 68 Figura 3.2. Probabilidad Total.................................................................................... 69 Figura 3.3. Diagrama de Árbol................................................................................... 70 Figura 4.1. Dominio y rango de la variable aleatoria.............................................. 89 Figura 4.2. Función de Densidad f............................................................................. 93 Figura 5.1. Distribución Binomial............................................................................ 114 Figura 5.2. Distribución Uniforme........................................................................... 121 Figura 5.3. Distribución Exponencial...................................................................... 122 Figura 5.4. Gráfica de la función de probabilidad de Distribución Normal..... 124 Figura 5.5. Gráficos de la normal, con probabilidades notables......................... 125 Figura 5.6. Distribución Normal Estándar............................................................. 126 Figura 5.7. Distribución Chi-Cuadrado.................................................................. 131 Figura 5.8. Distribución T......................................................................................... 132 Figura 5.9. Distribución F.......................................................................................... 133 Figura 7.1. Intervalo de confianza........................................................................... 163 Figura 7.2. Regiones críticas de una media µX con varianza conocida............... 174 Figura 7.3. Regiones críticas de una media µX con varianza desconocida......... 175 Figura 7.4. Prueba de Hipótesis para la varianza poblacional σX....................... 178 Figura 7.5. Regiones críticas en la prueba de homogeneidad de varianzas...... 179 Figura 8.1. Regiones críticas en el diseño completamente aleatorio................... 205 Figura 8.2. Regiones críticas en el diseño bloque completamente aleatorio..... 212 Índice de cuadros y tablas Cuadro 2.1. Tabla de Frecuencias por intervalos de clase...................................... 15 Cuadro 5.1. Cuadro de Conversiones..................................................................... 128 Cuadro 7.1. Tipos de Errores.................................................................................... 171 Cuadro 8.1. Agrupación de resultados del experimento en el diseño completamente aleatorio..................................................................... 203 Tabla 1. ANVA Diseño Completo Aleatorio (Igual número de u.e. por tratamiento).................................................................................... 204 Tabla 2. ANVA Diseño Completo Aleatorio (diferente número de u.e. por tratamiento).................................................................................... 204 Cuadro 8.2 . Representación simbólica de los datos en el diseño bloque completamente aleatorio.................................................................... 211 Tabla 3 Análisis de varianza para un diseño bloque completo al azar.............. 212 Tabla 4 Análisis de varianza en el diseño cuadrado latino.................................. 217
XII
Estadística y diseño de experimentos
Presentación
El presente libro nace como producto de la dedicación y experiencia docente en el dictado del curso de Estadística. Esta primera edición presenta aspectos fundamentales de los temas tratados en el nivel pregrado en la Universidad Nacional de Ingeniería, donde a través de los años adquirí la convicción de que era necesario presentar en palabras simples los temas estadísticos que toda persona debe conocer y con mayor razón nuestros alumnos, quienes son el motor de todo docente que tiene la vocación de enseñar y trasmitir conocimientos. En este libro se presentan temas muy importantes que va a permitir darle luego al estudiante una visión de lo que puede hacer cuando tenga que realizar alguna investigación, sobre todo cuando tenga que planificar y elegir el diseño más acorde al estudio que desee realizar. Esta edición ha sido diseñada de manera tal que sea útil para diferentes finalidades, como un libro de consulta, que imparte teoría y práctica de la Estadística Básica. Algo muy importante que quiero resaltar, es que la mayoría de ejercicios desarrollados y propuestos en este texto son ejercicios aplicados a la química y a la manufactura textil, ya que soy docente de la Facultad de Ingeniería Química y Textil de la UNI por más de 20 años; sin embargo, alumnos de nivel de pregrado de cualquier especialidad también podrán buscar asesoría en este libro sin ninguna dificultad. Hoy en día con el avance de la tecnología, la Estadística también se ha modernizado. Actualmente se conocen muchos paquetes estadísticos que ayudan a simplificar procedimientos extensos, lo cual permite ahorrar tiempo. En el presente texto muestra el uso del Minitab que permitirá al alumno resolver situaciones en Estadística Descriptiva y en Diseños de Experimentos. Las interpretaciones y deducciones deberán ser realizadas por el alumno. Finalmente, espero que este texto cumpla con el objetivo personal que me tracé, de compartir conocimientos y experiencias que vayna más allá de las aulas y que permita al lector entender la estadística como base para el análisis de sus futuras investigaciones. XIII
Cecilia Ríos Varillas
XIV
Estadística y diseño de experimentos
Introducción
En un intento de captar que la Estadística puede ser un campo interesante y estimulante que toca muchísimos aspectos de gran importancia en nuestra vida diaria y en toda rama del saber humano, como son las ciencias e ingeniería, es necesario presentar un libro que además de contener los conceptos teóricos, sea instructivo y legible con énfasis en datos químicos y textiles. Por esta razón el presente texto incluye definiciones básicas y un gran número de ejemplos y ejercicios, para demostrar que la estadística no es sólo presentar fórmulas abstractas que tienen muy escasa relación con la aplicación práctica. En todo trabajo que involucre recopilación de datos, la información recolectada debe ordenarse para lograr una correcta presentación del informe, para ello contamos con las tablas de frecuencias y los gráficos estadísticos. Es así que se ha dado un lugar importante a la Estadística Descriptiva, a pesar de que no se pretenda que las técnicas de la Estadística Descriptiva representen algo que sobrepase los fundamentos del análisis estadístico, es necesario dominar éstas técnicas para la comprensión y la aplicación de los conceptos y procedimientos relacionados con la Inferencia Estadística. En muchos problemas de tipo práctico es imposible probar u observar la totalidad de los elementos que intervienen y por consiguiente es necesario recurrir al muestreo, así se miden o consideran las propiedades de una muestra con el objeto de estimar las características de la población de donde se extrajo la muestra. No sólo es conveniente tomar la muestra representativa de la población, sino también de que la conclusión a la que lleguemos es sólo probablemente correcta, no se puede tener una certeza total con base en el muestreo. De lo anterior se deduce que el estudio de la estadística y probabilidades están fundamentalmente relacionados entre sí. En tanto que la Estadística se interesa en gran medida en deducir conclusiones a partir de muestras alteradas por variaciones aleatorias o incertidumbres, mediante la teoría de probabilidades se pueden definir cómo controlar tales incertidumbres en los resultados.
XV
Cecilia Ríos Varillas
Es muy importante que todo ingeniero, cuando pretenda realizar una investigación, planifique adecuadamente sus procedimientos y pasos a seguir, esto quiere decir que “diseñe” un buen plan de acción. En este texto, se presenta también de manera simple y muy práctica los diseños básicos que más se aplican en las investigaciones. Este libro incluye en su mayoría los apuntes de las clases que he elaborado y presentado a los alumnos de la Facultad de Ingeniería Química y Textil de la UNI, en más de 20 años de labor docente. Por tal motivo, sirve como una guía tanto teórica como práctica para todo alumno que necesite de la estadística básica. Asimismo los ejercicios desarrollados y propuestos representan en su mayoría a aquellos evaluados en prácticas calificadas y exámenes.
XVI
Estadística y diseño de experimentos
CAPÍTULO 1
Conceptos básicos en estadística El término alemán “statistik”, que fue primeramente introducido por Gottfried Achenwall (1749), designaba originalmente el análisis de datos del Estado, es decir, la "ciencia del Estado". Por lo que la Estadística estuvo asociada en un principio a los Estados, para ser utilizados por el gobierno y cuerpos administrativos (a menudo centralizados). En la actualidad, la colección de datos acerca de estados y localidades continúa ampliamente a través de los servicios de estadísticas nacionales e internacionales. En particular, los censos suministran información de toda la población. Esto fue base para la estadística moderna, que reúne la estadística matemática y el análisis de datos, con el fin de resolver y obtener conclusiones válidas y objetivas a partir de los resultados de una muestra. En este primer capítulo iniciaremos con definiciones básicas en estadística, necesarias para una correcta comprensión de los temas a tratar en los siguientes capítulos, siendo una definición muy importante lo que corresponde a variable, ya que ésta representa la característica que se desea estudiar o analizar, sobre todo de aquellas variables que se usan con más frecuencias en los análisis químicos y textiles. Es importante enfatizar la diferencia entre una población de variables cuantitativas y una población de variables categóricas.
1.1. DEFINICIÓN Y DIVISIÓN DE LA ESTADÍSTICA 1.1.1. Estadística Es una ciencia aplicada a cualquier rama del saber humano y se encarga de los métodos y procedimientos para recopilar, ordenar, clasificar y presentar una información llamada muestra, con el fin de inferir acerca del comportamiento de la población respectiva.
1.1.2. División de la Estadística Estadística Descriptiva. Es la parte de la estadística que se encarga de recopilar, ordenar, clasificar y presentar una información llamada muestra. Los resultados de un análisis no pretenden ir más allá del conjunto de datos. 1
Cecilia Ríos Varillas
Estadística Inferencial. Es la parte de la estadística que se encarga de inferir (estimar, predecir) el comportamiento de la población a partir de una muestra, considerando un margen de error o incertidumbre que es cuantificado por la teoría de probabilidades.
1.2. CONCEPTOS FUNDAMENTALES EN ESTADÍSTICA 1.2.1. Población Es un conjunto de observaciones que tienen una característica en común, la cual se desea estudiar, la población representa la totalidad de elementos de un determinado estudio. La población puede ser finita (cuando se conoce la totalidad de elementos y se representa por N) o infinita (cuando no se puede determinar la cantidad de elementos que conforma la población). Una población estadística es entonces un conjunto de observaciones medidas o descritas, para cada una de sus unidades elementales. Ejemplos: La población de un país, de granos cristalizados en una roca, de bienes manufacturados por una fábrica en particular durante un periodo dado, número de bacterias en 1 cm3 de agua. También podría ser un proceso observado en varios instantes y los datos recogidos de esta manera constituyen una serie de tiempo. Una población si es infinita no se puede estudiar en forma completa, si es finita es muy engorroso, ya que involucra pérdida de tiempo, dinero, etc. por esta razón nos basaremos en la muestra.
1.2.2. Muestra Es un subconjunto de la población, la muestra debe ser representativa o no sesgada (sin manipulación, ni adulteración) de la población respectiva. Si la muestra es representativa de la población, inferencias y conclusiones hechas en la muestra pueden ser extendidas a la población completa. Existen diversos métodos para tomar la muestra (muestreo), como por ejemplo un muestreo puede ser sistemático, estratificado, por conglomerado, aleatorio, etc., el muestreo que más se aplica en ingeniería es el muestreo aleatorio (llamado también probabilístico). Un muestreo es aleatorio cuando cada elemento de la población tiene la misma posibilidad de ser seleccionado en la muestra. La muestra se representa por la letra minúscula n (tamaño de la muestra o número total de observaciones en la muestra). Ejemplos: Las mediciones de la humedad relativa (en porcentajes por día) en el lugar de almacenamiento de una muestra de materias primas en 12 días 2
Estadística y diseño de experimentos
En trabajos químicos, se toman muestras de un material, se analiza y luego se hacen inferencias (predicciones) para la totalidad de dicho material, a partir de los resultados obtenidos.
1.2.3. Parámetro Es cualquier característica de la población que sea medible, por eso representa a la población. Este valor para ser calculado requiere de la información de toda la población lo cual muchas veces es difícil, por eso generalmente los parámetros son estimados a partir de valores calculados en la muestra (este procedimiento se desarrollará en Inferencia Estadística). Ejemplos: µX : Media poblacional σX2 : Varianza poblacional
1.2.4. Estadígrafo Representan a las medidas descriptivas que se obtienen de un conjunto de observaciones, se les llama también estadístico. Es un número o constante que representa a la muestra y que puede ser calculado teniendo la información de la muestra, con calculadoras o paquetes estadísticos.
1.2.5. Dato Es la recopilación, registro o anotación de una característica o un valor en particular que toma la variable en estudio.
1.2.6. Unidad Elemental Es el individuo u objeto del cual se toma la información de la característica a estudiar. El resultado de observar una unidad elemental se llama observación. Puesto que, en una investigación, se hace una observación de cada unidad elemental escogida.
1.3. VARIABLE Es la característica que presenta las unidades o datos que compone una población y es lo que se desea estudiar, se representa en forma simbólica mediante símbolos o letras. Según los datos recopilados, las variables se clasifican en:
1.3.1. Variable Cualitativa Representa datos que indican cualidades atributos, características, propiedades, etc. Es llamada también variable categórica. No toman valores numéricos, si los 3
Cecilia Ríos Varillas
toma representan códigos. Con esta variable no se pueden realizar operaciones aritméticas. La variable cualitativa, siendo no medible, puede presentar cierto “orden” cuando se desea clasificar en una tabla de frecuencias; por lo tanto la variable cualitativa puede ser: Variable cualitativa nominal. Cuando no existe ninguna “jerarquía” u “orden” entre ellas, en la clasificación cualquiera puede ir primero. Ejemplos: - Tipos de tela - Marcas de microscopios - Profesiones - Color de una sustancia química Variable cualitativa ordinal. Estas variables no son medibles, sin embargo, expresan cierto “orden o jerarquía”. Ejemplos: - Control de calidad de un producto (malo, regular, bueno, muy bueno) - Intensidad del dolor (poco, regular, mucho)
1.3.2. Variable Cuantitativa Representa a datos numéricos, son medibles, con estas variables se pueden hacer operaciones aritméticas. La variable cuantitativa puede ser: Variable cuantitativa discreta. Representa a datos numéricos que surgen de un proceso de conteo. Estos no se fraccionan, asumen valores enteros. Ejemplos: - Número de microscopios por laboratorio - Número de alumnos por aula - El número de bacterias de una muestra de agua Variable cuantitativa continua. Representa a datos numéricos que surgen de un proceso de medición, ya que pueden tomar valores sobre un intervalo o una colección de intervalos. La variable continua es la que más se emplea en ingeniería, dado que la mayoría de datos que se usan se obtienen de mediciones. Además se debe indicar la unidad de medida. 4
Estadística y diseño de experimentos
Ejemplos: - Tiempo (años) - Volumen (cm3) - Temperatura (°C) - Longitud (m)
1.4. EJERCICIOS DESARROLLADOS Ejercicio 1 En cada caso, indique cuál es la población, la muestra, unidad elemental, cuál es la variable que se quiere estudiar y especifique la clase de variable: a) Tiempo (en minutos) que demoran 30 alumnos de la Facultad de Ingeniería Química y Textil en el semestre 2010-1, en terminar el examen final de Estadística y Diseños de Experimentos. b) Estado Civil de 80 personas del distrito de San Miguel c) Número de pipetas en cada uno de los laboratorios de la facultad d) Control de calidad de 50 productos fabricados en un día Solución a) Tiempo (en minutos) que demoran 30 alumnos de la Facultad de Ingeniería Química y Textil en el semestre 2010-1, en terminar el examen final de Estadística y Diseños de Experimentos. Población: total de alumnos de la Facultad de Ingeniería Química y Textil en el semestre 2010-1 Muestra: 50 alumnos de la Facultad de Ingeniería Química y Textil en el semestre 2010-1 Unidad elemental: un alumno de la Facultad de Ingeniería Química y Textil Variable: Tiempo (en minutos) que demoran en terminar el examen final de Estadística y Diseños de Experimentos. Clase de variable: variable cuantitativa continua b) Estado Civil de 80 personas del distrito de San Miguel Población: total de personas del distrito de San Miguel Muestra: 80 personas del distrito de San Miguel Unidad elemental: una persona del distrito de San Miguel Variable: estado civil Clase de variable: variable cualitativa nominal
5
Cecilia Ríos Varillas
c) Número de pipetas en cada uno de los laboratorios de la facultad Población: total de laboratorios de la facultad Muestra: un grupo de laboratorios de la facultad Unidad elemental: un laboratorio de la facultad Variable: número de pipetas Clase de variable: variable cuantitativa discreta d) Control de calidad de 50 productos fabricados en un día Población: total de productos fabricados en el día Muestra: 50 productos fabricados en el día Unidad elemental: un producto fabricado en el día Variable: control de calidad Clase de variable: variable cualitativa ordinal Ejercicio 2 En agosto del 2006, una empresa de gaseosas decidió hacer una encuesta para conocer el grado de aceptación que había tenido su producto “agua de manzana” (un nuevo producto que ha lanzado al mercado), entre los habitantes de Lima Metropolitana. Para ello se entrevistaron a 50 amas de casa, utilizando un cuestionario que incluía preguntas para determinar: si en la casa han probado el producto, quiénes han consumido el producto, la edad de los que consumen el producto, si el producto qué tanto les ha gustado o aceptado (poco, regular, mucho), si seguirán consumiendo el producto, etc. De acuerdo a lo anterior: - ¿Cuál es la población de estudio? ¿Es finita o infinita? - ¿Cuál es la muestra? - ¿Cuál es la unidad estadística elemental? - ¿Cuáles son las variables que se presentan en esta entrevista? y ¿Qué tipo de variable es cada una de las señaladas en este caso? Solución Población: total de amas de casa de Lima Metropolitana Muestra: 50 amas de casa de Lima Metropolitana Unidad elemental: un ama de casa de Lima Metropolitana Variables: - Conocimiento del producto (variable cualitativa nominal) - Edad de los consumidores (variable cuantitativa continua) - Aceptación del producto (variable cualitativa ordinal) 6
Estadística y diseño de experimentos
Ejercicio 3 Indique la clase de variable que corresponde en cada caso: a) Nivel de instrucción (primaria, secundaria, superior) b) Años de estudios completados c) Punto de fusión d) El peso en kilogramos e) Solubilidad (baja, media o alta) f) La temperatura en grados Celsius Solución a) Variable cualitativa ordinal b) Variable cuantitativa discreta c) Variable cuantitativa continua d) Variable cuantitativa continua e) Variable cualitativa ordinal f) Variable cuantitativa continua
1.5. EJERCICIOS PROPUESTOS Ejercicio 1 Los alumnos del curso de Estadística de la FIQT realizaron una investigación con el objetivo de establecer el perfil de los estudiantes de Postgrado de la UNI. Como el total de alumnos que estudian posgrado es de 300, después de debatir arduamente, los alumnos de Estadística seleccionaron a 10 alumnos del curso para tomar datos a 40 estudiantes del posgrado. A tales estudiantes se les aplicó un cuestionario de donde se obtuvieron datos como: Nota promedio ponderado, nivel económico, sexo, estado civil, número de hijos, número de horas de clase por semana, ciclo de estudios, ingresos mensuales, minutos de viaje a casa. a) Identifique la población b) Identifique la muestra c) Según el párrafo con letra cursiva, indique las variables y sus tipos Ejercicio 2 En un programa de mejoramiento que se ha implementado en una empresa, se ha diseñado un plan para mejorar el proceso de fabricación de un horno de microondas de alta fidelidad. Desde la línea de despacho, donde los productos egresan 7
Cecilia Ríos Varillas
uno a uno, se seleccionan 10 equipos los cuales son enviados a distintas áreas donde son clasificados entre otras características, el estado de las bisagras de las puertas, las dimensiones del diámetro del plato interior del horno, el voltaje de salida, la temperatura interior del equipo después de dos minutos de trabajo, la radiación emitida y el color del horno a) Identifique la población, la muestra y la unidad elemental b) Indique y clasifique las variables involucradas. Ejercicio 3 En cada caso indique la población, la unidad elemental y cuál la variable que se quiere estudiar. Especifique el tipo de variable: a) Temperatura máxima diaria (en grados centígrados) de las ciudades, capitales de provincia de La Libertad. b) Deportes que practican los alumnos matriculados en la UNI en el semestre 2007-1. c) Número de celulares que hay en cada aula de la UNI en un día en particular. Ejercicio 4 En los siguientes casos indicar: la población, unidad elemental, la variable y el tipo de variable. - - - -
Código Postal de los distritos de Lima Categoría de los profesores de Estadística de la UNI Número de niños por escuela fiscal en el distrito del Rímac Tiempo que demoran los alumnos en terminar el examen de Estadística
Ejercicio 5 Una fábrica industrial actualmente cuenta con 400 empleados y desea ofrecer a los mismos un servicio de salud, el cual posiblemente se instale a 1kilómetro de distancia de la fábrica. Suponga que usted lo encargan de realizar un estudio de las necesidades de salud que los empleados tienen al respecto. - - - -
8
Defina la unidad elemental y la población delimitándolas claramente. Defina tres objetivos específicos de la investigación. Trabajaría usted con una muestra o la población total. Cite cuatro variables pertinentes de investigar y la clasificación de cada una de ellas.
Estadística y diseño de experimentos
CAPÍTULO 2
Estadística descriptiva
No fue hasta el siglo XIX cuando el término estadística adquirió el significado de recolectar y clasificar datos. Este concepto fue introducido por el inglés John Sinclair. La mayor parte de los experimentos que se realizan en el laboratorio requiere de mediciones y como son numéricas (cuantitativas), se necesita encontrar medidas que representen a estos datos, para luego hacer juicios sobre el experimento que se está realizando. En este capítulo, se muestra de una manera simple y práctica, la forma de organizar y tabular los valores recopilados (mediciones realizadas en el laboratorio) mediante la construcción de tablas de frecuencias, como también la presentación de gráficos estadísticos.
2.1 ORGANIZACIÓN Y PRESENTACIÓN DE LOS DATOS Luego de recopilar los datos, tienen que ser revisados, corregidos, ordenados y clasificados para una correcta presentación, La presentación puede ser mediante Tablas de Frecuencias y/o Gráficos. La Tabla de Frecuencias tiene como objetivo resumir los datos sin perder ninguno de ellos. Indica la distribución de las frecuencias de los valores de la variable dentro de varias clases. El término distribución de frecuencias se abrevia normalmente como distribución: por ejemplo, se dice distribución de empleados de una empresa por niveles de ingreso, distribución de las mediciones del volumen (cm3), etc. Según el tipo de variable tenemos los siguientes casos:
2.2 TABLA DE FRECUENCIAS CUANDO LA VARIABLE ES CUALITATIVA En este caso de manera inmediata se construye la tabla de frecuencias, según las diferentes opciones que se obtenga como respuesta. 9
Cecilia Ríos Varillas
Ejemplo: En el laboratorio de Textiles de la FIQT se desea clasificar 50 retazos de tela según su tipo para luego realizar una investigación sobre la calidad de ellas, los tipos de tela que corresponden a los 50 retazos analizados se presentan en el siguiente cuadro: Tipo de tela Brocado Chenille Cretona Gasa Organza
Número de retazos 5 10 20 10 5
% 10% 20% 40% 20% 10%
Existen diversos gráficos que se pueden presentar cuando la variable es cualitativa, algunos de ellos son: Diagrama de barras, Diagrama de Pareto, Pictogramas, Gráficos por Sectores Circulares, etc.; los más comunes son los Diagramas de barras y por Sectores Circulares. El Diagrama de Barras. Se utiliza para representar los caracteres cualitativos (también los cuantitativos discretos). En el eje horizontal, o eje de abscisas, se representan los datos de la variable analizada; en el eje vertical o de ordenadas, se representan las frecuencias de cada dato. Diagrama por Sectores Circulares. Se utiliza cuando queremos representar frecuencias de la variable cualitativa. Los datos se representan en un círculo. Cada sector indica la parte proporcional a la frecuencia y, por tanto, un valor de la variable, El ángulo de cada sector circular es proporcional a la frecuencia de cada dato. Estos gráficos y otros pueden ser realizados por cualquier software estadístico. Del ejemplo anterior se presentan estos gráficos usando Excel.
Figura 2.1. Diagrama de Barras.
10
Estadística y diseño de experimentos
Figura 2.2. Diagrama por sectores circulares
2.3 TABLA DE FRECUENCIAS CUANDO LA VARIABLE ES CUANTITATIVA Primero debemos tener presente las siguientes definiciones: Frecuencia Absoluta. (fi): número de observaciones por cada clase o intervalo, donde se verifica: m
= ∑ fi n
0 ≤ fi ≤ n
i =1
n : tamaño de la muestra m: número de clases o intervalos de clase Frecuencia Absoluta Acumulada. (Fi), número de observaciones acumuladas desde la primera clase hasta la clase i. m i
Fi = ∑ f j j =1
Frecuencia Relativa. (hi): relación entre la frecuencia absoluta y el número total de observaciones.
= hi
fi n
m
0 ≤ hi ≤ 1 = ∑ hi 1 i =1
Generalmente la frecuencia relativa se expresa en porcentaje:
hi %= hi × 100% 11
Cecilia Ríos Varillas
Frecuencia Relativa Acumulada. (Hi) Representa a las frecuencias relativas acumuladas desde la primera clase hasta la clase i. m i
Hi = ∑ hj j =1
también H i =
Fi n
Generalmente esta frecuencia también se expresa en porcentaje: Hi% = Hi x 100%
2.3.1 Tabla de Frecuencias cuando la variable es cuantitativa discreta En este caso generalmente se agrupa por clase, considerando de manera directa los valores de los datos en forma ordenada, además generalmente la muestra es pequeña (usualmente n<30) y los datos se repiten con mucha frecuencia ya que no debe haber muchas clases. Ejemplo: Los siguientes datos corresponden al número de imperfecciones observadas en 30 rollos de tela: 2 0 4 4 1 4 0 3 1 1 0 1 2 4 1 1 5 3 4 0 4 0 0 0 2 1 2 0 3 1 En este caso, la tabla de frecuencias se agrupa por clase, ya que los datos discretos se repiten con frecuencia. En la tabla de frecuencias se presenta cada uno de estos valores ordenados y se cuenta la cantidad de veces que se repite cada dato. N° de Imperfecciones
N° de rollos de tela ( fi )
0
8
1
Fi
hi%
H i%
8
26,67
26,67
8
16
26,67
53,33
2
4
20
13,33
66,67
3
3
23
10,00
76,67
4
6
29
20,00
96,67
5
1
30
3,33
100
Se observa que sólo 1 rollo de tela presenta 5 imperfecciones, este valor representa el 3,33% del total, mientras que 16 rollos de tela presentan a lo mucho una imperfección,es decir el 53,33% del total.
12
Estadística y diseño de experimentos
2.3.2 Tabla de Frecuencias cuando la variable es cuantitativa continua Cuando la variable es cuantitativa continua (generalmente las mediciones realizadas en laboratorio son de este tipo), los datos se agrupan por intervalos de clase. El número de intervalos depende del número de datos y de su dispersión. Si el número de intervalos es demasiado pequeño pueden estarse ocultando características importantes de los datos en esta agrupación, si se tienen demasiados intervalos se pueden presentar muchos intervalos de clase vacíos que resten significado a la distribución. Entonces, el número de intervalos de clase será determinado por el número de datos considerando también que tan uniformes sean los datos. Una muestra pequeña requiere en general pocos intervalos de clase, inclusive en algunos casos no es necesaria agruparla. A continuación se presenta un procedimiento para construir este tipo de Tabla de Frecuencias. 2.3.2.1 Procedimiento para construir una Tabla de Frecuencias por Intervalos de Clases: Primer paso Cálculo del número de intervalos de Clase (m). Para calcular el número de intervalos, se tiene dos criterios: - Por criterio personal (según la experiencia del investigador), se fija el valor de m. - La regla de Sturges: m = 1 + 3,3 log n (redondear a entero) Segundo paso Cálculo del rango de la muestra (R). De todos los datos recopilados se consideran los extremos, el valor mayor y el valor menor. R= Valor Máx. – Valor Mín. Tercer paso Cálculo de la amplitud o ancho del Intervalo (c). Para calcular la amplitud del intervalo, nos basamos en la siguiente expresión:
c=
R m
Observaciones: - Con este procedimiento la amplitud del intervalo que se calcula es constante para todos los intervalos y es preferible que tenga la misma cantidad de decimales que presentan los datos, por lo tanto debe ser redondeado y este redondeo debe ser por exceso, para no perder ningún dato. - Para determinar los límites de clase, se deberá considerar los siguientes puntos: 13
Cecilia Ríos Varillas
a. Los límites de clase deben ser mutuamente excluyentes, no debe haber duda en cuanto a la clase a que pertenece una observación determinada. b. La elección de los límites de clase depende en gran parte si los datos son continuos o discretos. Los límites pueden ser: - Límites Traslapantes Ejemplo: 4,18 – 4,28 4,28 – 4,38 - Límites No Traslapantes Ejemplo: 4,18 – 4,27 4,28 – 4,37 Ambos tipos pueden usarse para datos continuos o para datos tratados como continuos. Al tratar datos discretos se puede usar los límites no traslapantes. c) Los intervalos más comunes, corresponde a límites traslapantes, estos intervalos son semiabiertos de la forma que puede ser cerrado.
[ X′i-1– X′i
, a excepción del último
Cuarto paso Tabulación, mediante el conteo adecuado a considerar. Quinto paso Calcular las marcas de clase Xi (punto medio de cada intervalo), se calcula mediante el promedio de los límites del intervalo respectivo. Sirve para representar a los datos de cada intervalo:
xi =
xi' −1 + xi' 2
xi' −1 : Límite inferior del intervalo '
xi : Límite superior del intervalo
14
Estadística y diseño de experimentos
2.3.2.2 Representación de la tabla de frecuencias por intervalos de clase Cuadro 2.1. Tabla de Frecuencias por intervalos de clase
xi' −1 − xi' x0' − x1' x1' − x2' . . . xm' −1 − xm'
xi
fi
Fi
hi %
Hi%
x1
f1
F1
h1 %
H 1%
x2 . . .
f2 . . .
F2 . . .
h2 % . . .
H 2% . . .
xm
fm
Fm = n
hm %
H m % = 100%
Ejemplo: Los siguientes datos corresponden a 30 mediciones del punto de ebullición de un compuesto de silicio (en grados Celsius): 166 178 136 170 162 155 146 183 157 148 138 160 153 175 157 156 165 160 159 168
170 150 148 179 167 165 162 158 173 164.
Solución Realizamos el procedimiento para construir la tabla de frecuencias. 1er. Paso. Calculamos en número de intervalos con la Regla de Sturges: m = 1+ (3,3)log30 = 5,8745 ≈ 6 2do. Paso. Rango de la muestra: R = 183 – 136 = 47 3er. Paso. Cálculo de la amplitud del intervalo:
c = 47 = 7,83 ≈ 8 6 Se redondea al entero ya que los datos no tienen decimales.
15
Cecilia Ríos Varillas
4to. Paso. Tabulación Punto de ebullición (°C)
xi
fi
Fi
h i%
H i%
136 – 144 144 – 152 152 – 160 160 – 168 168 – 176 176 – 184
140 148 156 164 172 180
2 4 7 9 5 3
2 6 13 22 27 30
6,7 13,3 23,3 30,0 16,7 10,0
6,7 20,0 43,3 73,3 90,0 100
Se puede observar que son 9 las mediciones cuyo punto de ebullición son de por lo menos 160 °C pero menos de 168 °C y éstas representan el 30% del total de las mediciones. También vemos que el 43,3% de las mediciones presentan un punto de ebullición menor que 160 °C, las cuales corresponden a 13 de las mediciones. Los gráficos en este caso son: Histograma de frecuencias Para realizar un histograma se marcan una serie de intervalos sobre un eje horizontal, y sobre cada intervalo se coloca un rectángulo de altura proporcional al número de observaciones (frecuencia absoluta) que caen dentro de dicho intervalo. De esta manera el histograma de frecuencias resulta muy útil para representar gráficamente la distribución de frecuencias. También se puede usar la frecuencia relativa en lugar de la frecuencia absoluta y el histograma es proporcional al anterior.
Figura 2.3. Histograma de Frecuencias
Polígono de frecuencias Para construir el polígono de frecuencias se toma la marca de clase que coincide con el punto medio de cada rectángulo de un histograma y la altura respectiva es la frecuencia absoluta (también puede ser la frecuencia relativa). Este gráfico se presenta en la sección 2.5. 16
Estadística y diseño de experimentos
Ojivas (usando frecuencias acumuladas) Es un gráfico que se basa en frecuencias acumuladas, se le conoce también como diagrama “menor que”, ya que la frecuencia que se representa en cada frontera de clase son el número de observaciones menores que la frontera señalada.
2.4 Medidas descriptivas En esta sección, se presenta algunas medidas descriptivas más frecuentemente empleadas, sobre todo cuando en el laboratorio se realizan mediciones, se necesita encontrar aquellas medidas que representen a estas mediciones y también que midan la variabilidad de ellas. Estas medidas descriptivas se usan cuando los datos son cuantitativos. A las medidas descriptivas también se les conoce como estadígrafos o estadísticos, y se clasifican en: - Medidas de Tendencia Central - Medidas de Dispersión
2.4.1 Medidas de Tendencia Central Llamados de tendencia central, porque tienden a ubicar el centro de las observaciones, además el valor central es el más representativo de un conjunto de datos, por eso cuando se realizan mediciones o se recopilan datos es necesario calcular una medida de tendencia central para que represente a este conjunto de datos. Estas medidas se expresan en las mismas unidades de medición que los datos; esto es, si la observación es en gramos, el valor de tendencia central también resulta en gramos. Algunas medidas de tendencia central son: media aritmética, mediana, moda, media geométrica, media armónica etc. y las que más se usan son: la media aritmética, mediana y moda, son las que se presentan a continuación: 2.4.1.1 Media Aritmética También se le conoce como promedio aritmético o simplemente promedio; es la medida de tendencia central que más se usa en estadística, es simple y fácil de calcular. Se denota
X ó M(x).
Cálculo de la media aritmética Se calcula teniendo en cuenta los siguientes casos: 1er. Caso: Datos no agrupados en tablas de frecuencias Sean x1 , x2 , x3 ,...., xn un conjunto de n observaciones que representan a los datos o mediciones de una muestra, la media aritmética se calcula : 17
Cecilia Ríos Varillas
n
X=
∑x
i
i =1
n
2do. Caso: Datos agrupados en tabla de frecuencias Cuando los datos están clasificados en tablas de frecuencias, entonces la media aritmética se calcula mediante la siguiente fórmula:
m
X=
∑x i =1
i
fi
n
Donde: xi= marca de clase o valor numérico de la variable m = número de intervalos de clase fi = frecuencia absoluta Ejemplo: Supóngase que se determinó que a 22°C una pipeta de 5,000 mililitros, después de pesar por seis ocasiones su volumen vertido, generó los siguientes pesos aparentes de agua en gramos: 4,995; 4,993; 4,994; 4,996; 4,998; 4,992. Calcular el peso promedio. Solución La media aritmética para esta muestra pequeña (datos no agrupados en tabla de frecuencias) se calcula: n
= X
∑x
i
= n
i =1
4,995+ 4,993 +4,994 +4,996+ 4,998 +4,992 = 4,9947 6
Esto significa que la pipeta escurre a una temperatura de 22°C, en promedio 4,9947 gramos de agua. Ejemplo: De la siguiente tabla de frecuencias construida en un ejemplo anterior, calcular la media aritmética para datos agrupados.
18
Estadística y diseño de experimentos Punto de ebullición (°C)
xi
fi
Fi
h i%
H i%
136 – 144
140
2
2
6,7
6,7
144 – 152
148
4
6
13,3
20,0
152 – 160
156
7
13
23,3
43,3
160 – 168
164
9
22
30,0
73,3
168 – 176
172
5
27
16,7
90,0
176 – 184
180
3
30
10,0
100
Solución La media aritmética para datos agrupados en tabla de frecuencias es: m ∑ xifi ‾= X
i=1
n
(140)(2) + (148)(4) + (156)(7) + (164)(9) + (172)(5) + (180)(3)
=
30
=
4840 30
‾ = 161,333°C X Es decir el punto de ebullición promedio es de 161,333°C. Propiedades de la media aritmética Propiedad 1 Si todos los datos son iguales a una constante k, entonces la media es igual a dicha constante: k‾ = k Demostración: n
Sea X =
∑x i =1
i
n n
Si
xi = k
⇒
k =
∑k i =1
n
=
nk =k n
19
Cecilia Ríos Varillas
Propiedad 2 Si a cada dato se le suma o resta una constante k, a la media también se le suma o resta, dicha constante: x + k = x‾ + k Demostración: n
n
n
∑ ( xi + k ) ∑ xi + ∑ k
=i 1 =i 1 = x += k i1= = n n
n
n
∑ xi ∑ k nk =i 1 =i 1 = + =+ =+ x x k n n n Propiedad 3 Si a cada dato se le multiplica o divide por una constante k, a la media también se le multiplica o divide dicha constante:
xk =x k Demostración: n
n
∑(x k )
n
k ∑x ∑ xi =i 1 = = = k= x k xk n n n i i =i 1 =i 1
Propiedad 4 La suma de las desviaciones con respecto a la media es igual a cero: n
∑( x i =1
i
)
−x = 0
Demostración: n
n
n
n
∑ ( xi − x )= ∑ xi − ∑ x = ∑ xi − n x =
=i 1
=i 1 =i 1 =i 1
n
n
= ∑ xi − n
=i 1
∑x i =1
i
n
n
= ∑ xi − ∑ xi = 0
n=i 1 =i 1
Nota. Todas las propiedades cumplen para datos agrupados y no agrupados. 20
Estadística y diseño de experimentos
‾w Media ponderada X Si cada observación xi tiene un peso o ponderación Wi , esto es, cuando las observaciones no tienen la misma importancia dentro de una muestra, entonces tenemos la media ponderada que se calcula de la siguiente manera: m
Xw =
∑ x .w i =1 m
i
i
∑w i =1
i
Ejemplo: Las notas de un alumno de ingeniería química al finalizar el semestre 2010-1 fueron: Curso
Nota
Créditos
Estadística y diseños de experimentos
11
4
Física III
09
5
Introducción al diseño mecánico
12
3
El promedio ponderado del alumno en el semestre 2010-1 es:
= Xw
11(4) + 09(5) + 12(3) = 10, 4 12
2.4.1.2 Mediana Es el estadígrafo de posición que divide en dos partes iguales al conjunto de observaciones, es decir, la mediana representa el valor central de una distribución de datos ordenados en forma creciente o decreciente, y es aquel que divide a la distribución de los datos de tal forma que 50% de los valores son menores o iguales que él, y 50% de los valores son mayores o iguales que él. Cálculo de la mediana 1er. Caso: Datos no agrupados en tabla de frecuencias Primero se ordena los datos en forma creciente o decreciente y luego se tiene en cuenta sí: n es impar.- La mediana es el valor central.
me = Xn+1
(Posición del valor central)
2
21
Cecilia Ríos Varillas
Ejemplo: Los siguientes datos corresponden al contenido de sólidos en el agua en partes por millón (ppm) : 4520 4570 4520 4490 4570 4500 4520 4590 4540 4500 4520. Calcule la mediana. Solución Primero se ordenan: 4490 4500 4500 4520 4520 4520 4520 4540 4570 4570 4590 Como n=11 (impar) el valor central es: me = 4520 ppm (representa la 6ta. posición) entonces, el valor que tiene 50% de los valores por encima y 50% por debajo de él es 4520 ppm. n es par.- La mediana es igual al promedio de los 2 valores centrales:
me =
xn + xn 2
2
2
+1
Ejemplo: Del ejemplo anterior de la media aritmética para datos no agrupados, después de pesar su volumen vertido por seis ocasiones, generó los siguientes pesos aparentes de agua en gramos: 4,995 4,993 4,994 4,996 4,998 4,992. Calcule la mediana. Solución Se ordena: 4,992 4,993 4,994 4,995 4,996 4,998 Como n = 6 (par), entonces la mediana resulta:
= me
4,994 + 4,995 = 4,9945 g 2
Se observa que el valor de la mediana es muy similar a la media aritmética calculada anteriormente. 2do.Caso: Datos agrupados en tabla de frecuencias En este caso la mediana se calcula mediante la siguiente fórmula:
n − Fme −1 ' 2 = me xme −1 + cme f me
22
Estadística y diseño de experimentos
Donde: X’me–1 = límite inferior de la clase mediana Cme = tamaño del intervalo de la clase mediana Fme–1 = frecuencia absoluta acumulada anterior a la clase mediana fme = frecuencia absoluta de la clase mediana Clase mediana Es aquél intervalo que contiene al valor que ocupa la posición media, es decir, contiene a la mediana. Donde se cumple: Fme-1 ≤ n < Fme 2
Fme= frecuencia absoluta acumulada de la clase mediana
Ejemplo: De la tabla de frecuencias anterior, Punto de ebullición (°C)
xi
fi
136 – 144
140
2
144 – 152
148
Fi
h i%
H i%
2
6,7
6,7
4
6
13,3
20,0
152 – 160
156
7
13
23,3
43,3
160 – 168
164
9
22
30,0
73,3
168 – 176
172
5
27
16,7
90,0
176 – 184
180
3
30
10,0
100
Calcule la mediana. Solución Como n=30 entonces:
n = 15 ⇒ 13 < 15 < 22 2
por lo tanto el intervalo que contiene a la posición 15 es el cuarto, es la clase mediana, y además:
n ' xme cme 8= 15 = 160 = −1 2
Fme −1 13 f me 9 = =
Reemplazando en la fórmula de la mediana:
15 − 13 160 + 8 161, 7778°C me = = 9 23
Cecilia Ríos Varillas
El cálculo anterior de la media aritmética para datos agrupados en tablas de frecuencias resultó: ‾ = 161,333°C X Lo cual es muy cercano al valor calculado de la mediana, ambas son medidas de tendencia central y cualquiera de ellos puede representar al conjunto de datos. 2.4.1.3 Moda Representa al valor que más se repite en un conjunto de observaciones. Esta medida no es muy útil, porque puede ocurrir que una distribución tenga dos ó más valores que se repitan con la misma frecuencia, en tal caso se tienen dos o más modas. Entonces: - Si la distribución de frecuencias tiene un sólo valor que más se repite: UNIMODAL. - Si la distribución presenta dos o más valores que se repitan: POLIMODAL. - Si no hay algún valor que se repita con más frecuencia: DISTRIBUCIÓN UNIFORME. Cálculo de la moda 1er.Caso: Datos no agrupados Es fácil de calcular, bastará con observar cual es el dato que más se repite. Ejemplo: Calcule la moda en cada caso (i): 4 5 6 7 4 5 4 6 5 5 4 5 5 Mo = 5 UNIMODAL (es el valor que más se repite) (ii) 7 7 6 8 8 6 8 7 7 9 12 11 10 8 Mo=7 Mo=8 BIMODAL (son dos valores que se repiten con más frecuencia) 2do.Caso: Datos agrupados en tablas de frecuencias
24
d1 ' = mo xmo −1 + cmo d1 + d 2
Estadística y diseño de experimentos
Donde: ’ X mo-1 : Límite inferior de la clase modal. cmo : amplitud de la clase modal. d1 : Diferencia entre la frecuencia absoluta de la clase modal menos la frecuencia absoluta anterior. d2 : Diferencia entre la frecuencia absoluta de la clase modal menos la siguiente. Clase Modal. Representa el intervalo con la mayor frecuencia absoluta. Ejemplo: De la Tabla de Frecuencias anterior, luego de calcular la media aritmética y mediana para datos agrupados, ahora se calcula la moda. El intervalo que presenta más datos (mayor frecuencia absoluta) es el cuarto, entonces esa es la clase modal, además: ' xmo −1 = 160 cmo = 8
d1 = 9 − 7 = 2
d2 = 9 − 5 = 4
Reemplazamos en la fórmula
2 160 + 8 162, 6667°C mo = = 2+4 Este es el valor de la moda para datos agrupados en tabla de frecuencias. Finalmente, se observa que las tres medidas son muy cercanas y cualquiera de ellas puede representar al conjunto de observaciones. 2.4.1.4. Relación entre la media aritmética, mediana y moda - La media aritmética es muy sensible cuando hay valores extremos, y como la mediana es un valor posicional, se ve menos afectada por valores extremos; esta es una ventaja de la mediana que la convierte en más representativa que la media aritmética cuando hay valores extremos. - X ‾ = mediana = moda, si la distribución es simétrica (frecuencias absolutas equidistantes son iguales), es decir polígono de frecuencias simétrico. - X ‾ < mediana < moda o moda < mediana < X, ‾ si la distribución de las frecuencias no es simétrica
25
Cecilia Ríos Varillas
2.4.1.5 Otras medidas de tendencia Central También existen otras medidas de tendencia central, algunas de ellas son: Media Geométrica Representa a un valor de tendencia central y se calcula mediante la raíz enésima del producto de los datos de la muestra.
Mg =
n
x1 x2 .... xn
No es muy útil en química ni en textiles, ya que cuando la variable toma al menos un valor cero entonces la Mg se anula, y si la variable toma valores negativos se pueden presentar una gama de casos particulares en los que tampoco queda determinada debido al problema de las raíces de índice par de números negativos. Media armónica Esta medida representa la inversa del promedio de las inversas de cada dato recopilado.
1 n = n n 1 1 ∑ ∑ xi =i 1 = i 1 xi n
Mh =
Se suele utilizar para promediar variables tales como productividades, velocidades, tiempos, rendimientos, cambios, etc. Su cálculo no tiene sentido cuando algún valor de la variable toma valor cero.
2.4.2 Medidas de Dispersión En el laboratorio, cuando se realizan mediciones, la variabilidad de los datos afecta la precisión y exactitud de los resultados, y esto puede influir en los análisis que se realicen con ellos. Por eso es muy importante calcular una medida que cuantifique la dispersión de los datos. En esta sección se presenta las medidas de dispersión, estas medidas son números que miden o cuantifican la variabilidad de las observaciones con respecto a un estadígrafo de tendencia central (generalmente la media aritmética). Los principales estadígrafos de dispersión son los siguientes:
26
Estadística y diseño de experimentos
2.4.2.1 Varianza V(X) Se define como el promedio del cuadrado de las desviaciones con respecto a la media. 2
Cuando la varianza es muestral, entonces V(X) se puede denotar como S (x) ; y 2 si la varianza es poblacional, entonces V(X) se denota como sx .En este capítulo estudiaremos la varianza muestral. Cálculo de la varianza La varianza se calcula teniendo en cuenta los siguientes casos: 1er. Caso: Datos no agrupados en tablas de frecuencias n
S 2 ( x) =
∑(x i =1
i
-x
)
2
n -1
Desarrollando esta sumatoria, se obtiene una forma más simple para calcular la varianza: n
(
2
)
n
n
n
xi2 - 2 x xi + x xi2 - 2 x ∑ xi + ∑ x 2 ∑ ∑ =i 1 =i 1 =i 1 i 1 = S 2 (= x) = n -1 n -1 n
n ∑ x - 2 x n ∑ xi + n x 2 = n -1 n
n 2 i =i 1 =i 1
n
2
n
∑x - 2xn i =1
2 i
∑x i =1
n n -1
i
+ nx2
n
xi2 - 2 x n x + n x xi2 - 2 n x 2 + n x 2 ∑ ∑ =i 1 =i 1 = = n -1 n -1 n
2
S ( x) =
∑ i =1
xi2 - n x 2 n - 1 27
Cecilia Ríos Varillas
2do. Caso: Datos agrupados en tablas de frecuencias m
S 2 ( x) =
∑(x
i
i =1
-x
)
2
fi
n -1
De manera similar a la anterior, desarrollando esta sumatoria se obtiene: m
S 2 ( x) =
∑x
2 i
i =1
fi - n x 2
n -1
Donde: Xi= marca de clase fi = frecuencia absoluta
Propiedades de la varianza Propiedad 1 2
El valor de la varianza es un valor no negativo: S (x) ≥ 0 Propiedad 2 Si todos los datos son iguales, no hay dispersión. Esto es si cada xi = k (constante): 2 S (k) = 0 Demostración n
∑(k - k )
n
2
∑(k - k )
2
i 1= = 1 = = i= S 2 (k ) n -1 n -1
0
Propiedad 3 Si a cada dato xi se le suma (o resta) una constante k entonces la varianza no cambia: 2
2
S (x ± k) = S (x) Demostración:
∑ ( ( xi + k ) n
(
))
2
n
(
(
))
2
- x+k ∑ ( xi + k ) - x + k 2 = i 1 =i 1 = S (x + k) = = n -1 n -1
28
Estadística y diseño de experimentos n
∑(x
)
2
+ k - x - k = n - 1
n
∑(x
=
)
2
- x = n - 1
i =i 1 =i 1
i
S 2 ( x)
Propiedad 4 Si a cada dato se multiplica (o divide) por una constante k, entonces la varianza queda multiplicada por la constante al cuadrado. 2
2 2
S (kx) = k S (x) Demostración:
∑ ( ( x k ) - ( xk ) ) n
∑ ( ( x k ) - ( xk ) ) n
2
i 2 = i 1 =i 1
= S ( xk )
n
= n -1
∑k (x 2
)
2
-x = n - 1
= n -1 n
∑(x
)
2
-x k= n - 1
i 2 i 1 =i 1 =
=
2
i
i
k 2 S 2 ( x)
Propiedad 5 En general:
S 2 (ax ± b= y)
a 2 S 2 ( x) + b 2 S 2 ( y )
Siendo a y b constantes, x e y variables independientes. La varianza no tiene la misma magnitud que las observaciones (ejemplo: si las observaciones se miden en metros (m), la varianza lo hace en m2). Si queremos que la medida de dispersión sea de la misma dimensionalidad que las observaciones, bastará con tomar su raíz cuadrada. 2.4.2.2 Desviación estándar o típica Se define como la raíz cuadrada positiva de la varianza, y como la varianza esta expresada en unidades cuadradas, la desviación estándar (que está expresada en las mismas unidades de los datos) representa mejor la variabilidad de las observaciones.
S ( x) =
S 2 ( x)
29
Cecilia Ríos Varillas
2.4.2.3 Coeficiente de variación (C.V.) Las medidas de tendencia central y la desviación estándar nos dan información sobre una muestra y se expresan en las mismas unidades de medida que presentan los datos. Ahora, si se desea comparar dos muestras de diferentes unidades de medida, por ejemplo, en la variable altura podemos usar como unidad de longitud el metro y en la variable peso, el kilogramo; comparar una desviación medida en metros con otra en kilogramos no tiene ningún sentido. El mismo problema se plantea si medimos cierta cantidad, por ejemplo la masa, de dos muestras, pero con distintas unidades de valor, por ejemplo si comparamos el peso en gramos de una muestra de 20 hornos microondas con el correspondiente en gramos de una muestra de 50 sobres de té filtrante. El problema no se resuelve tomando las mismas escalas para ambas poblaciones. El coeficiente de variación es lo que nos permite evitar estos problemas, pues elimina la dimensionalidad de las variables y tiene en cuenta la proporción existente entre la media X ‾ y la desviación estándar S(x). Se calcula del siguiente modo:
C.V . =
S ( x) .100% x
El C.V. como no tiene unidades se debe expresar en porcentaje y sirve como medida de comparación con otras distribuciones de cualquier tipo de unidad, es decir, el coeficiente de variación mide el grado de dispersión de los datos. Para calcular el C.V. se considera al promedio en valor absoluto, además se debe tener en cuenta lo siguiente: C.V. < 10% representa a una muestra que tiende a ser homogénea, los datos o mediciones no son muy dispersos. 10% ≤ C.V. ≤ 20% presentan una regular o moderada dispersión. C.V >20% los datos de la muestra son muy dispersos. Ejemplo: Se tiene dos muestras, con la siguiente información para cada una de ellas:
= n1 = n2
= 25 x 1 = 27 x 2
274.46 kg = S1 3
7,3 cm = S2
8,58 kg 0, 75cm3
¿En qué muestra hay menos variabilidad en las observaciones? 30
Estadística y diseño de experimentos
Solución Primero hay que tener en cuenta que no se puede comparar las desviaciones estándares de cada muestra, porque están expresadas en diferentes unidades, pero sí podemos compararlas con sus respectivos C.V.
= CV1
S1 = .100% x1
8,58 = .100% 274.46
= CV2
S2 = .100% x2
0, 75 = .100% 10, 274% 7,3
3,126%
Entonces, comparando ambos coeficientes de variación se observa que existe menor dispersión en los datos de la primera muestra, es así que, la primera muestra es más homogénea y la dispersión es mínima.
2.5 Aplicación usando el paquete estadístico minitab También se pueden procesar los datos usando Minitab, se presenta a continuación de una manera práctica y muy simple: Procedimiento: Se ingresan los datos correspondientes a las variables: Tipos de Tela, Número de imperfecciones y Punto de Ebullición (de los ejemplos anteriores). Los datos se pueden ingresar por variable (en columnas). Se debe ingresar el nombre de la columna. Cuando los datos son del tipo alfanumérico (variable cualitativa), el Minitab automáticamente a la columna le añade el sufijo –T. La versión del Minitab que se usó para este texto usa la coma como separador decimal, ya que algunas versiones del Minitab usan el punto como separador decimal. Guardar los datos como un proyecto: del menú la opción File / Save Proyect As Nombre del archivo lab1.MPJ .
31
Cecilia Ríos Varillas
Ejecute los siguientes comandos: Stat/Tables/ Tally Individual Variables. Para variable Cualitativa: Seleccione la variable Cualitativa “Tipos de tela” luego elija las opciones Counts y Percents, luego OK y se obtiene el siguiente cuadro, para la variable cualitativa “Tipos de tela” (Tabla de Frecuencias): Tipos de tela Count Percent Brocado 5 10.00 Chenille 10 20.00 Cretona 20 40.00 Gasa 10 20.00 Organza 5 10.00 Para realizar los gráficos de la variable cualitativa, se elige Graph/Bar Chart, luego la opción “simple” y OK. En la ventana que aparece, se selecciona la variable “Tipos de tela”, luego se presiona el botón “Chart Options” y por “Default“la gráfica se presenta como se muestra en la figura (si se elije las opciones “Decreasing Y”y “Show Y as Percent”, las barras aparecen ordenadas de mayor a menor y en porcentaje). Presione OK. Luego presionamos el botón “Labels” e ingrese el título del trabajo: TIPOS DE TELA, al momento seleccione “Data Labels” y elija “Use yvalue labels”. En “Data View” marcar la opción Bars Presione OK y otra vez OK, se muestra la siguiente figura:
32
Estadística y diseño de experimentos
Para el gráfico por Sectores Circulares, ejecute los siguientes comandos: Graph/ Pie Char. Seleccione la variable “Tipos de tela”. Elija Pie Options/Decreasing volumen OK. Elija Labels (coloque título)/Slice labels/Percent OK. El Gráfico es el siguiente:
Para la variable Cuantitativa Discreta: Ahora trabajaremos con la variable cuantitativa discreta “Número de imperfecciones” del ejemplo de las imperfecciones en los rollos de Tela. Ingrese: Stat/Tables/ Tally Individual Variables, luego se selecciona la variable cuantitativa discreta “Número de Imperfecciones” y se elije las opciones Counts, Percents, Cumulative counts, Cumulative Percents, OK y se obtiene lo siguiente: 33
Cecilia Ríos Varillas Tally for Discrete Variables: N°de Imperfecciones Número de Imperfecciones
Count
0
8
1 2
CumCnt
Percent
CumPct
8
26,67
26,67
8
16
26,67
53,33
4
20
13,33
66,67
3
3
23
10,00
76,67
4
6
29
20,00
96,67
5
1
30
3,33
100,00
N=30
Para graficar esta variable discreta, se ejecuta los siguientes comandos: Graph/ Bar Chart, elija la opción “simple”, OK, luego se selecciona la variable “Número de Imperfecciones”. Presione el botón “Chart Options” y elija la opción “Show Y as Percent” (debe estar activada la opción “Default”). Presione OK, luego presione el botón “Labels” e ingrese el título del trabajo Número de Imperfecciones, al momento seleccione “Data Labels” y elija “Use y-value labels”. Presione OK. Seguidamente, presione el botón “Data View” y elija la opción “Project lines” (desactivar la opción “Bars” si se encuentra activa). Presionar OK y la gráfica es la siguiente figura:
Para la variable Cuantitativa Continua: Ahora se hará el procesamiento para los datos correspondiente a la variable cuantitativa continua, se elige Graph/Histogram, luego “simple”, OK. 34
Estadística y diseño de experimentos
Seleccionar la variable “Punto de ebullición”, presione “Labels” (coloque título) elegir la ficha “Data labels”, luego elija “Use Y-value labels” o si no desea que aparezca las frecuencias sobre cada barra entonces elegir “None”, OK y luego otra vez OK. Aparece el Histograma con 11 intervalos (por defecto). Para modificar el Histograma, hacemos clic dos veces dentro del histograma, en la ventana que aparece escoja en la ficha Binning, las opciones “cutpoint”,”Midpoint /cutpoint positions”, seguidamente se ingresa el valor mínimo (136), dos puntos, valor máximo (183), diagonal y finalmente la amplitud 8, como aparece en la siguiente ventana:
Hacer clic en OK y aparece el Histograma:
35
Cecilia Ríos Varillas
Para graficar el Polígono de frecuencias, ingrese los valores de las frecuencias relativas y de las marcas de clase de la tabla de frecuencias en otras columnas C2 (punto de ebullición) y C3 (Porcentaje) de Minitab, finalmente ejecute los siguientes comandos: Graph/Scatterplot y elija “With Connect Line”. OK:
Estadísticos: Para calcular los estadísticos de las variables cuantitativas: Stat/Basic Statistics/ Display Descriptive Statistics, se seleccionan los datos ingresados en la columnas C2 (N° de imperfecciones) y C3 (punto de ebullición), se hace clic en statistics y se marcan los estadísticos que se desean encontrar seguido de OK; los estadísticos resultantes para los datos de estas dos variables (sin agrupar en tablas de frecuencias) aparecen en la ventana Session que se muestra a continuación: Descriptive Statistics: N°de Imperfecciones, Punto de ebullición Minim
Median
N°de Imperfecciones 1.800
Variable
Mean StDev 1.606
2.579
89.22
0.000
1.000
5.000
Punto de ebullición 160.93
11.39
129.72
7.08
136.00
161.00
183.00
Mode
Mode
Variable
Variance CoefVar
N for
Range
N°de Imperfecciones
5.000
8
Punto de ebullición
47.00 148, 157, 160, 162
2
0, 1
The data contain at least five mode values. Only the smallest four are shown.
36
Maximum
Estadística y diseño de experimentos
2.6 EJERCICIOS DESARROLLADOS Ejercicio 1 Los siguientes datos corresponden a 20 lecturas de temperatura (en °F) tomadas en varios puntos de un horno de gran tamaño 415 460 510 475 430 410 425 490 500 470 450 425 485 470 450 455 460 480 475 465 Sin agrupar los datos en tabla de frecuencias, calcule: media aritmética, mediana, moda y el coeficiente de variación C.V. interprete. Solución n
= X
∑X
i
= n
i =1
415 + 460 + 510 + ..... + 465 = 20
9200 = 20
460 ° F
Para calcular la mediana ordenamos 410 415
425
425 430 450
450 455 460 460
465 470
470
475 475 480
485 490 500 510
= me
460 + 465 = 2
462,5 ° F
Es polimodal, las modas son: mo1= 425 mo2= 450 mo3= 460 mo4= 470 mo5= 475 (todas se repiten dos veces)
= S ( x) = C.V .
27,9096286 ° F (Se calcula directamente con la calculadora) 27,9096286 = 100% 460
6, 07 %
Los datos son pocos dispersos
37
Cecilia Ríos Varillas
Ejercicio 2 En el laboratorio de química se han realizado n determinaciones del volumen (cm3) de una sustancia química, los datos se han clasificado en una tabla de frecuencias con 6 intervalos de igual amplitud, donde se conoce la siguiente información: 6
∑x i =1
i
= 264 (suma de marcas de clase)
F= 10 2
f= 7 4
F= 25 4
h= 3
4 17
mediana=43, 625 cm3
f= 6
f= 1
n -30
Calcular la media aritmética, moda, determine e interprete el coeficiente de variación (C.V.) Solución Colocamos los datos dados, donde X1 : es la primera marca de clase y c es la amplitud del intervalo Intervalo
Xi
fi
Fi
hi
X1 X1 + c
10
X1 + 2c X1 + 3c
4/17 7
X1 + 4c X1 + 5c
Se observa que:
= F3 F4= - f 4 25 = - 7 18 = f 3 F= 18= -10 8 3 - F2 h3 =
f3 n
⇒
4 8 = ⇒ n =34 17 n
entonces f= 6
38
f= 1
34 -30=
4
25
Hi
Estadística y diseño de experimentos
Se completa las frecuencias absolutas y relativas: Intervalo
Como:
Xi
fi
Fi
h i%
Hi%
X1
4
4
11,8
11,8
X1 + c
6
10
17,6
29,4
X1 + 2c
8
18
23,5
52,9
X1 + 3c
7
25
20,6
73,5
X1 + 4c
5
30
14,7
88,2
X1 + 5c
4
34
11,8
100
n = 17 ⇒ 10 < 17 < 18 2
Entonces: Fme–1 = 10 y Fme = 18
La mediana está en el 3er. intervalo
' xme x1 + 2c -1 =
c 3 = x1 + c (Límite inferior de la clase mediana) 2 2
3 17 -10 me =x1 + c + c =43, 625 2 8
19 x1 + = c 43, 625 ⇒ 8 x1 + 19 = c 349.......(1) 8 Del dato: m
∑x i =1
i
= 264 ⇒ 6 x1 + 15c = 264 ........(2)
Resolviendo las ecuaciones (1) y (2) se obtienen: X1 = 36,5 c = 3
39
Cecilia Ríos Varillas
Entonces la tabla de frecuencias completa es: Intervalos
Xi
fi
Fi
hi%
Hi%
35 – 38
36,5
4
4
11,8
11,8
38 – 41
39,5
6
10
17,6
29,4
41 – 44
42,5
8
18
23,5
52,9
44 – 47
45,5
7
25
20,6
73,5
47 – 50
48,5
5
30
14,7
88,2
50 – 53
51,5
4
34
11,8
100
Luego: 6
= X
∑ x f ( 36,5)( 4 ) + ( 39,5)( 6 ) + ... + ( 51,5)( 4 ) = = i =1
i i
34
34
43,8235 cm3
X¯ = 43,8235 cm3 La clase modal es el tercer intervalo ya que tiene la mayor cantidad de mediciones d1 = 8 - 6 = 2 d2 = 8 - 7 = 1 Reemplazando en la fórmula de la moda, tenemos:
2 mo =+ 41 3 43 = 2 +1
⇒
mo = 43 cm3
Ahora calculamos la desviación estándar: 6
= S ( x)
∑x
2 i i
f - n x2 i =1 = n -1
66002,5 - 34(43,8235) 2 = 4, 6238 cm3 33
Finalmente se calcula el coeficiente de variación (C.V.)
C.V .=
S ( x) 4, 6238 100%= 100%= 10,55% ⇒ x 43,8235
C.V .= 10,55%
Se observa una moderada dispersión en las mediciones.
40
Estadística y diseño de experimentos
Ejercicio 3 Para encontrar el efecto de la carga de polvo en la salida de un sistema con un precipitante, se efectuaron las siguientes mediciones (en gramos por m3 en el tubo del gas): 1,5 1,5 1,4 1,1 1,7 1,8 1,6 1,5 1,6 2,2 1,7 1,4 1,9 1,9 1,5 1,4 1,9 2,1 1,8 2,0 1,7 1,2 1,5 2,2 2,1 2,0 1,8 1,7 1,3 1,9 1,4 1,7 1,5 1,2 a. Clasifique los datos en una tabla de frecuencias usando la regla de Sturges. b. Calcule la media, mediana y C.V. para los datos agrupados e interprételos. Solución Primero hacemos el procedimiento para la construcción de la tabla de frecuencias por intervalos: m = 1 + 3,3 log(34) = 6,054 ≈ 6 R = 2,2 - 1,1 = 1,1
= c
1,1 = 0,183 ≈ 0, 2 6
Se ha redondeado a un decimal porque los datos tienen un decimal. La tabla de frecuencias es la siguiente: Intervalos
Xi
fi
Fi
h i%
H i%
1,1 – 1,3
1,2
3
3
8,8
8,8
1,3 – 1,5
1,4
5
8
14,7
23,5
1,5 – 1,7
1,6
8
16
23,5
47
1,7 – 1,9
1,8
8
24
23,5
70,5
1,9 – 2,1
2,0
6
30
17,7
88,2
2,1 - 2,3
2,2
4
34
11,8
100
Cálculo de los estadísticos pedidos:
X
1, 2(3) + 1, 4(5) + 1, 6(8) + 1,8(8) + 2(6) + 2, 2(4) = 1, 7235 g por m3 34
41
Cecilia Ríos Varillas
17 − 16 1, 7 + 0, 2 1, 725 g por m3 me = = 8 m
∑x
f - nX 2 103,88 - 34(1, 7235) 2 =1 = = 0, 087412833 S ( x) i= n -1 33 = S ( x) = 0, 087412833 0, 2956566 2
= C.V .
2 i i
S ( x) 0, 2956566 = 100% = 100% 17,15% X 1, 7235
Se observa una regular dispersión en las mediciones. Ejercicio 4 Se realizaron las mediciones del volumen (cm3) de 30 sustancias químicas sometidas a la misma temperatura, los resultados se clasificaron en una tabla de frecuencias simétrica con 5 intervalos de igual amplitud. Se conoce la siguiente información: ‾ = 55 cm3 f1 = 4 X
X4 = 61 (cuarta marca de clase)
F2 = 10
Complete la tabla de frecuencias, luego calcule la mediana, moda y el coeficiente de variación, interprete sus resultados. Solución Como la tabla de frecuencias es simétrica y con la información dada, entonces f1 = f5 = 4
f2 = f4 = 6
Se ubican los datos en la tabla de frecuencias y se tiene: Intervalos
42
Xi
fi
Fi
61-3c
4
4
61-2c
6
10
61-c
10
20
61
6
26
61+c
4
30
hi%
H i%
Estadística y diseño de experimentos
Sea c = amplitud, usamos el valor de la media:
X
(61 − 3c)(4) + (61 − 2c)(6) + (61 − c)(10) + (61)(6) + (61 + c)(4) = 55 30
1830 - 30c = 1650 ð 30c = 180
ð c=6
Luego la tabla de frecuencias completa es la siguiente: Intervalos
Xi
fi
Fi
hi%
H i%
40 - 46
43
4
4
13,3
13,3
46 – 52
49
6
10
20,0
33,3
52 – 58
55
10
20
33,3
66,7
58 – 64
61
6
26
20,0
86,7
64 – 70
67
4
30
13,3
100
Como la distribución de frecuencias es simétrica: ‾ = me = mo = 55 cm3 X
Entonces, el volumen promedio, la mediana y la moda de las mediciones correspondientes a las 30 sustancias es 55 cm3 m
∑x
f - nX 2 92334 − 30(55) 2 i =1 = = 54, 62068966 n -1 29
= S 2 ( x)
= ⇒ S ( x)
2 i i
54, 62068966 = 7,39058 cm3
Por lo tanto el C.V. es:
= C.V .
S ( x) 7,39058 = 100% = 100% X 55
13, 44%
Este valor indica que los datos son regularmente heterogéneos, la dispersión es moderada.
43
Cecilia Ríos Varillas
Ejercicio 5 La contaminación con petróleo de los mares estimula el crecimiento de ciertos tipos de bacterias. Un conteo de microorganismos oleolíticos (bacterias por 100 mililitros) en n muestras de agua de mar, fueron clasificados en una tabla de frecuencias con 6 intervalos de igual amplitud, además se presenta los siguientes resultados:
f1 = f5
h4% = 25%
h5% + h6% = 15%
H1% = 10%
f3 = 6f6
‾ = 21 X = X 3
F3 = 24
n 2
Complete la tabla de frecuencias y calcule la mediana. Solución Primero se coloca la información dada: Intervalo
Xi
n/2
fi a
Fi
6b
24
hi%
10%
25% a b
h4% = 25%
h5% + h6% = 15% ð h4% + h5% + h6% = 40%
h1% + h2% + h3% = 100% – 40% = 60% = H3%
como : H 3 =
F3 n
⇒ n=
F3 24 = = 40 H 3 0, 60
Colocando algunos resultados en la tabla de frecuencias:
44
H i%
Estadística y diseño de experimentos Intervalo
‾ X=
Xi
fi
Fi
h i%
H i%
20-2c
4
4
10%
10%
20-c
8
12
20%
30%
20
12
24
30%
60%
20+c
10
34
25%
85%
20+2c
4
38
10%
95%
20+3c
2
40
5%
100%
(20-2c)(4) + (20-c)(8) + (20)(12) + (20+c)(10) + (20+2c)(4) + (20 + 3c)(2) 40
800 + 8c = 840 ð
= 21
c=5
Completando la tabla de frecuencias: Intervalos
Xi
fi
Fi
h i%
Hi%
7,5 - 12,5
10
4
4
10%
10%
12,5 – 17,5
15
8
12
20%
30%
17,5 -22,5
20
12
24
30%
60%
22,5 – 27,5
25
10
34
25%
85%
27,5 – 32,5
30
4
38
10%
95%
32,5 – 37,5
35
2
40
5%
100%
Calculando la mediana (el tercer intervalo contiene a la mediana):
20 − 12 17,5 + 5 20,8333 me = = 12 El valor de la mediana es de 20,8333 bacterias por 100 mililitros. Ejercicio 6 La siguiente tabla de frecuencias, representa la distribución de la Resistencia a la ruptura (en onzas) de 50 fibras de nylon. La longitud de clase es constante e igual a 20, además se conoce que la resistencia promedio es 76 onzas y S(X) = (30/7) √58 onzas.
45
Cecilia Ríos Varillas Resistencia
Frecuencia absoluta
a
8
b
[
- 100 >
17
c
6
Se pide, a. Las frecuencias a, b y c. b. El valor de la mediana. Solución
30 30 = S 58 ⇒= S2 58 7 7 = S2
∑x
2 i i
f − n( X ) 2 49
2
2
30 ⇒ = 58 7
∑x
2 i i
f − 50(76) 2
⇒= ∑ xi2 fi 341000
49
Como la amplitud es 20 y con los datos de la tabla se tiene:
f ∑ x= 2 i i
x=
46
341000
∑x
i
50
fi
⇒
= 76 ⇒
Resistencia
Xi
fi
20 - 40
30
a
40 - 60
50
8
60 - 80
70
b
80 - 100
90
17
100 - 120
110
c
120 - 140
130
6
2 302 a + 702 b + 110= c 81900
∑x
i
⇒ 9a + 49b + 121 = c 819
fi = 3800 ⇒ 3a + 7b + 11c = 109
Estadística y diseño de experimentos
f ∑= i
50
⇒ a + b += c 19
Operando y simplificando tenemos:
9a + 49b + 121c = 819
(1)
a+b+c = 19
(2)
3a + 7b + 11c = 109
(3)
⇒
a = 10
b= 5
c= 4
El valor de la mediana es:
25 − 23 me = 80 + 20 82,3529 onzas = 17 Ejercicio 7 Una fábrica de productos químicos paga en promedio 700 soles de salario semanal a los trabajadores y la desviación estándar de los salarios es de 54 soles, el sindicato pide un aumento para cada trabajador del 15% de su salario más una bonificación por riesgo de planta de 25 soles por semana. a. Calcule el promedio y la desviación estándar de los salarios de los trabajadores considerando el aumento. b. Compare el C.V. sin el aumento y el C.V. con el aumento, ¿cambió la dispersión? Solución Este ejercicio se resuelve considerando las propiedades de la media y varianza, entonces: Sean x = salario inicial de cada trabajador y = salario de cada trabajador con el aumento ‾ = 700 S(X) = 54 Datos: X
Yi = xi + 0,15x + 25 = 1,15xi + 25 ‾ = 1,15X ‾ + 25 = 1,15(700) + 25 = 830 soles Y
S(1,15x + 25) = 1,15 S(x) = 1,15(54) = 62,1 soles 47
Cecilia Ríos Varillas
El salario promedio de los trabajadores considerando los aumentos es de 830 soles, y la desviación estándar respectiva es de 62,1 soles. Calculando el C.V. :
54 C.V .( x) = ×100% =7, 71% 700 62,1 C.V .( y ) = ×100% =7, 48% 830 La dispersión en los sueldos se modificó muy brevemente, con los aumentos la dispersión en los sueldos disminuyó.
2.7 EJERCICIOS PROPUESTOS Ejercicio 1 Los siguientes datos representan el peso (g) de 34 madejas de lana de las mismas dimensiones: 6,23 6,78 6,32 6,34 6,17 6,32 6,54 6,70 6,78 6,43 6,89 6,54 6,78 6,54 6,54 6,78 6,54 6,32 6,73 6,58 6,54 6,76 6,50 6,43 6,32 6,54 6,21 6,45 6,65 6,64 6,63 6,43 6,54 6,69. a. Clasificar los datos en una tabla de frecuencias, usando la regla de Sturges. b. Calcular la media aritmética, mediana, moda y C.V., interpretar Ejercicio 2 Los químicos orgánicos a menudo purifican los compuestos orgánicos por un método conocido como cristalización fraccionada. Un experimentador deseaba preparar y purificar 4,85 gramos de anilina. Se prepararon individualmente 30 cantidades de anilina de 4,85 gramos y se purificaron convirtiéndose en acetanilida. Las cantidades obtenidas fueron las siguientes (en gramos): 3,85 3,88 3,90 3,62 3,72 3,80 3,85 3,36 4,02 3,83 3,80 3,85 3,36 4,01 3,85 3,88 3,90 3,90 3,62 3,72 3,62 3,72 3,80 3,85 3,72 3,80 3,85 3,36 4,01 3,85 Agrupando los datos en una tabla de frecuencias por intervalos: a. Calcule el número medio de gramos de acetanilida que se ha obtenido. b. Calcule la mediana, moda y C.V. 48
Estadística y diseño de experimentos
Ejercicio 3 En una determinada prueba se obtuvieron los siguientes datos acerca de los pesos (en gramos) de n productos elaborados por una fábrica. Los datos se agruparon en una tabla de frecuencias con 7 intervalos de igual amplitud y se obtuvo un peso promedio de 170 gramos, se sabe que el menor peso recopilado es de 100 gramos y que:
F2 = 9 f3 = 7 F3 = f4 H4% = 64% h1% = 6% f5 + f7 = 12 Límite superior del 5to intervalo = 200, complete la tabla de frecuencias y calcule la mediana, la moda y el coeficiente de variación. Ejercicio 4 Los datos correspondientes a una muestra de 60 sustancias químicas se clasificaron en una tabla de frecuencias simétrica con 7 intervalos de igual amplitud, resultando la mediana igual a 25,5 gramos. Además algunos valores de la tabla son: L6 = 50 (límite superior del 6to. intervalo); h3= 0,2; H4= 0,65; H6=0,95; se pide: a. Complete la tabla de frecuencias b. Calcule el C.V. e interprételo. Ejercicio 5 Los siguientes son los resultados obtenidos en la determinación de plomo en partículas suspendidas en el aire en ug/m3 : 2,4 2,1 1,6 2,2 1,9 2,5 2,8 2,2 3,5 3,9 a. Sin agrupar los datos calcule la media, mediana, moda y C.V. Interprete b. Si cada dato disminuye un 18% y luego aumenta en 0,5 ug/m3 ¿Cuál es la nueva media y el nuevo C.V.? Ejercicio 6 En un Laboratorio de Química, se realizan mediciones acerca de los tiempos de ignición (en segundos) de ciertos materiales expuestos al fuego. Se elaboró una tabla de frecuencias con 6 intervalos de igual amplitud, resultando ser simétrica, además:
X3 = 16,5 X6 = 25,5 h5 = 0,26 y
H2 H3
=
f1 = 4a + 1 (a es la amplitud del intervalo)
2 5
49
Cecilia Ríos Varillas
a. Calcule qué tanto por ciento tienen un tiempo menor de 21 minutos. b. Calcule la mediana de los datos. Ejercicio 7 Los gastos (en dólares) correspondientes al mes de junio del 2005 de un grupo de personas profesionales, las cuales fueron seleccionadas al azar en la ciudad de Lima se distribuyó en una tabla de frecuencias con 6 intervalos de clase con amplitud constante igual a 80 dólares; si se conocen los siguientes datos:
f1 = f6
f2 = f5 f4 – f3 = 4
h1% – h2% = 9%
h4% = 30%
6 H3% = 49% ΣXi = 4800 (suma de marcas de clase) i=1 Complete la tabla de frecuencias y calcule la mediana y la moda. Ejercicio 8 El coeficiente de variación de los ingresos de 200 empleados de una compañía es 57%. Después de reajustar, según ley, todos los sueldos en 11 dólares, este coeficiente de variación es ahora de 50%. Sin embargo, la gerencia fija un sueldo mínimo de 71 dólares. Antes del reajuste había 35 personas que tenían un sueldo promedio de 40 dólares y todos ellos ganaban menos de 60 dólares, con la nueva política de la gerencia, sus sueldos serán elevados en promedio a 71 dólares. Determine la cantidad de dinero que necesitará mensualmente la compañía, para pagar los sueldos después de hacer efectivos los reajustes. Ejercicio 9 Un ingeniero químico vigila la calidad del agua midiendo la cantidad de sólidos suspendidos en una muestra de agua pluvial. En n días distintos observó los sólidos suspendidos (partes por millón) y estas mediciones las agrupó en una tabla de frecuencias con 6 intervalos de amplitud constante e igual a 10, se sabe que la suma de las marcas de clase es igual a 240, y además se tiene la siguiente información de la tabla de frecuencias. 6
= h% ∑ j =4
j
52,5% = F2 28 = F3 38 = f1
h2= % + h4 % 38, 75 % = h5 %
21, 25 %
f6
Complete la tabla de frecuencias. En base a la tabla de frecuencias calcule la media, mediana, moda y C.V., interprete. 50
Estadística y diseño de experimentos
CAPÍTULO 3
Probabilidades
Los métodos estadístico-matemáticos emergieron desde la teoría de probabilidad, la cual data desde la correspondencia entre Pascal y Pierre de Fermat (1654). Christian Huygens (1657) da el primer tratamiento científico que se conoce a la materia. El “Ars Coniectandi” (1713) de Jakob Bernoulli y la “Doctrina de posibilidades” (1718) de Abraham de Moivre estudiaron la materia como una rama de las matemáticas. Laplace (1774) representó la ley de probabilidades de errores mediante una curva y dedujo una fórmula para la media de tres observaciones. En la era moderna, el trabajo de Kolmogórov ha sido un pilar en la formulación del modelo fundamental de la Teoría de Probabilidades, el cual es usado a través de la estadística. En los capítulos anteriores se han tratado principalmente las técnicas empleadas para describir y presentar en la forma más significativa posible, la información que se obtiene cuando se realizan mediciones o determinaciones en el laboratorio, o simplemente cuando se recopila una muestra. En este capítulo se presentará de una manera didáctica la teoría de probabilidades, algo que no es tan extraño para muchas personas, ya que en la vida diaria con mucha frecuencia emitimos juicios probabilísticos, debido a las acciones o experimentos que realizamos, así también se genera cierto grado de incertidumbre cuando queremos realizar estas actividades. La cuantificación de esa incertidumbre es base en la teoría de probabilidades, la que se basa en la experimentación.
3.1 DEFINICIONES BÁSICAS 3.1.1 Experimento Es todo proceso de observación o ejecución de un fenómeno, se dice que un experimento es aleatorio cuando tiene dos o más resultados posibles y no se conoce “a priori” el resultado a obtener. Por ejemplo, se presentan tres experimentos aleatorios:
51
Cecilia Ríos Varillas
E1: lanzar un dado E2: Selección de un artículo E3: Medir la resistencia a la ruptura (onzas) de fibras de nylon
3.1.2 Espacio muestral Ω Conjunto de todos los resultados posibles de un experimento. (Como un conjunto universo), el espacio muestral puede ser finito o infinito. Por ejemplo, de cada uno de los experimentos anteriores, se presenta su respectivo espacio muestral: Ω1 = {1, 2, 3, 4, 5, 6} Ω2 = {Defectuoso, no defectuoso} Ω3 = { x
∈ R / x > 10}
Entonces Ω1 , Ω2 son espacios muestrales finitos y Ω3 es un espacio muestral infinito.
3.1.3 Evento o suceso Es un subconjunto del espacio muestral y reúne ciertos resultados de interés. Al igual que los conjuntos, los eventos se denotan con letras mayúsculas: A, B, C,... Los eventos pueden ser: a. Evento Elemental; formado por cada resultado individual del espacio muestral. A = {2} b. Evento imposible (φ); aquel evento que no tiene resultados que pertenezca al espacio muestral, es el evento que nunca ocurre. Ejemplo: A: resultado siete al lanzar un dado normal A = { } = φ c. Evento seguro; aquel evento formado por todos los resultados del espacio muestral, entonces el evento seguro es el mismo espacio muestral Ω. d. Evento Contrario (A’); aquel evento formado por todos los resultados que no están en A, el evento A’ ocurre cuando el evento A no ocurre. Se cumple que: A ∪ A' = Ω e. Eventos mutuamente excluyentes (m.e). Dos eventos A y B; definidos en Ω, son m.e. si A ∩ B = φ (No ocurren simultáneamente) Las operaciones o álgebra de eventos son las mismas que las operaciones entre los conjuntos y cumplen todas las propiedades de los conjuntos. 52
Estadística y diseño de experimentos
Ocurrencias de eventos: Sean los eventos A1, A2, ... Ak luego se dice que: k
A i =1
i
k
A i =1
i
ocurre, si ocurre al menos un Ai
ocurre, si ocurre todos los eventos Ai
A’ ocurre, si A no ocurre. A-B ocurre, si ocurre A y no ocurre B. Ejemplo 1 de espacio muestral: Determinar el espacio muestral del siguiente experimento: Se clasifica un artículo en defectuoso (d) y no defectuoso (d’) y el control de calidad consiste en extraer artículos hasta observar dos defectuosos o hasta extraer 4 artículos. Solución El espacio muestral será:
Ω = {dd, dd’d, dd’d’d, dd’d’d’, d’dd, d’dd’d, d’dd’d’, d’d’dd, d’d’dd’, d’d’d’d, d’d’d’d’} Ejemplo 2 de espacio muestral: En un laboratorio químico, el volumen producido por día de un en producto particular varía entre 15 cm3 y un valor máximo de 50 cm3, los cuales corresponden a la capacidad. Se escoge un día aleatoriamente y se observa la cantidad producida. Escribir el espacio muestral. Solución
Ω = {x ∈ R / 15 ≤ x ≤ 50} Ejemplo 3 (ocurrencia de eventos): Sean A, B, C, D eventos de Ω, expresar los siguientes eventos usando simbología de los conjuntos.
53
Cecilia Ríos Varillas
a. Al menos ocurra un evento b. Que ocurran todos los eventos c. Que ninguno ocurra d. Que exactamente uno ocurra Solución a. (A ∪ B ∪ C ∪ D) b. (A ∩ B ∩ C ∩ D) c. (A' ∩ B' ∩ C' ∩ D') = (A ∪ B ∪ C ∪ D)' d. (A ∩ B' ∩ C' ∩ D') ∪ (A' ∩ B ∩ C' ∩ D') ∪ (A' ∩ B' ∩ C ∩ D') ∪ (A' ∩ B' ∩ C' ∩ D)
3.2 TÉCNICAS DE CONTEO Las técnicas de conteo estudian los métodos que permite encontrar el número de resultados posibles de algunos experimentos. Nos dice cuántos son y no necesariamente cuáles son esos resultados. Las principales técnicas de conteo son las siguientes:
3.2.1 Principio de adición Sean los eventos A1, A2,...Ak definidos en Ω, si el evento A1 se puede realizar de n(A1) formas posibles, el evento A2 se puede realizar de n(A2) formas posibles, y así sucesivamente, el evento Ak se puede realizar de n(Ak) formas posibles, entonces el evento o proceso (A1 ó A2 ó... ó Ak) se puede realizar de: n(A1) + n(A2) + ... + n(Ak) formas posibles. Los eventos A1, A2,...Ak son mutuamente excluyentes, no ocurren simultáneamente. Ejemplo: Un estudiante debe elegir un microscopio para hacer un análisis químico. En una mesa del laboratorio hay 15 microscopios, en otra mesa hay 20 y en otra 10. ¿Cuántos microscopios tiene el estudiante para elegir? Solución Tiene para elegir cualquiera de los microscopios de cada mesa, es decir: 15 + 20 + 10 = 45 opciones
54
Estadística y diseño de experimentos
3.2.2 Principio de multiplicación Si un proceso completo consiste en k diferentes etapas A1, A2,...Ak de los cuales el primero se puede realizar de n(A1) formas posibles, el evento A2 se puede realizar de n(A2) formas posibles,……. y el evento Ak se puede realizar de n(Ak) formas posibles, entonces el proceso completo se puede realizar de: n(A1) x n(A2) x ... x n(Ak) formas posibles. Ejemplo: Un análisis químico completo requiere de un reactivo tipo A, un reactivo tipo B y un reactivo tipo C. En el laboratorio hay 5 reactivos tipo A, 8 reactivos tipo B y 10 reactivos tipo C ¿De cuántas formas posibles puede hacer el análisis químico? Solución
5 x 8 x 10 = 400 formas posibles
3.2.3 Permutación Son arreglos lineales de los elementos de un conjunto teniendo en cuenta el orden que ocupa en cada arreglo, es decir, interesa el orden. Tenemos: Permutación de n elementos (todos distintos) tomados todos a la vez (de n en n)
P nn = n ! Ejemplo: Un mecanismo electrónico de control requiere de 5 chips de memoria iguales. ¿De cuántas maneras puede ensamblarse este mecanismo colocando los cinco chips en las cinco posiciones dentro del controlador? Respuesta:
= P55
5! = 120
maneras.
Permutación de n elementos (todos distintos) tomados de r en r
P nr =
n! ( n - r )!
55
Cecilia Ríos Varillas
Ejemplo: ¿Cuántos números (todos distintos) de tres cifras se pueden formar con los dígitos 5; 3; 4; 6; 9?
5! 120 = = 60 ( 5 - 3) ! 2
5
P3 Respuesta: =
números de tres cifras
Permutación de n elementos (no todos distintos) tomados todos a la vez (de n en n)
P nn1 ,n2 ,.....nr =
n! n1 !n2 !....nr !
donde n1 + n2 + ... nr = n
Ejemplo:
¿Cuántas palabras diferentes se pueden formar con todas las letras de la palabra LABORATORIO? Solución
n = 11 n(L) = 1 n(A) = 2 n(B) = 1 n(O) = 3 n(R) = 2 n(T) = 1 n(I) = 1
= P 11 1, 2, 1,3,2, 1, 1
11! = 1!2!1!3!2!1!1!
1 663 200
3.2.4 Permutación Circular Cuando los elementos se disponen en forma circular (puede ser una mesa redonda, una rueda, etc.), entonces el número de permutaciones circulares de n elementos tomados todos a la vez, se calcula:
Pcir, n = (n -1)! Esta fórmula se obtiene cuando se fija uno de los n objetos en el arreglo circular, los restantes (n – 1) se consideran como una permutación lineal, la cual se realiza de (n - 1)! Ejemplo:
56
Estadística y diseño de experimentos
En el laboratorio hay una gran mesa circular y 10 estudiantes se sientan alrededor de la mesa ¿De cuantas maneras se pueden sentar los 10 estudiantes alrededor de la mesa circular? Solución Hay n= 10 elementos para permutar, y se fija un estudiante y se permuta el resto, entonces se tiene: (10 – 1)! = 9! = 362 880 formas de sentarse alrededor de la mesa circular los 10 estudiantes.
3.2.5 Combinación Son arreglos lineales de los elementos de un conjunto sin considerar el orden en cada arreglo, es decir, no interesa el orden. Tenemos: Combinación de n elementos (todos distintos) tomados de r en r
C nr =
n! r !( n - r ) !
Ejemplo: De un conjunto de seis estudiantes hombres y cinco estudiantes mujeres se desea formar comités de 8 estudiantes ¿Cuántos comités se pueden formar? ¿Cuántos comités si cada uno de ellos debe contener por lo menos tres estudiantes mujeres? Solución A: Comités de 8 estudiantes
B: Comités con al menos 3 mujeres
11 n(= A) C= 165 8
n( B) =C 56 C 53 + C 64 C 54 + C 36 C 55 = ( 6 )(10 ) + (15 )( 5 ) + ( 20 )( 1) =155
3.2.6 Ejercicios de Conteo Ejercicio 1 Se tienen disponibles 8 consonantes y 4 vocales, todas diferentes ¿Cuántas palabras de 5 letras pueden formarse, sabiendo que las palabras tienen 3 consonantes y 2 vocales? No es necesario que las palabras tengan significado. 57
Cecilia Ríos Varillas
Solución Primero se eligen las 3 consonantes de las 8 disponibles y 2 vocales de las 4 vocales disponibles, luego una vez elegidas estas 5 letras se permutan ya que cuando se forman palabras (al igual que los números) interesa el orden, entonces el número total de palabras que se pueden formar es:
C 83 C 42 5 ! = 40 320 palabras Ejercicio 2 Se tienen los dígitos {1; 2; 3; 4; 5; 6; 7}, se seleccionan en forma aleatoria cuatro dígitos, si los dígitos no se pueden repetir: a. ¿Cuántos mayores de 5000 se pueden obtener? b. ¿Cuántos números si 4 y 5 no deben estar juntos en la misma muestra? Solución a. Sólo puede ser 5; 6 ó 7
3 x 6 x 5 x 4 = 360 números mayores de 5000 b. Los números 4 y 5 no deben estar juntos
5 x 4 x 3 x 2 = 120
(ni 4 ni 5)
4
1 x 5 x 4 x 3 = 60x4=240
(sale 4 y no 5, y el 4 en cualquier lugar)
1 x 5 x 4 x 3 = 60x4=240
(sale 5 y no 4, y el 5 en cualquier lugar)
5
Total de casos= 120+240+240= 600
58
Estadística y diseño de experimentos
Ejercicio 3 En el laboratorio de química hay 5 diferentes análisis que realizar y hay 8 alumnos para hacerlo ¿De cuántas formas pueden ser asignados los 8 alumnos para hacer los 5 análisis? (Cada análisis es realizado sólo por un alumno). Solución El primer análisis puede ser realizado por cualquiera de los 8 alumnos, el segundo análisis puede ser realizado por cualquiera de los 7 alumnos que quedan, el tercer análisis por cualquiera de 6 alumnos restantes, el cuarto análisis por cualquiera de los 5 que quedan y el último análisis por cualquiera de los 4 alumnos restantes, por lo tanto el número de formas que se pueden asignar a los 8 alumnos los 5 análisis es:
8 x 7x 6x 5x 4
=
6720 formas posibles
También se puede realizar mediante:
P58 =
8! 8! 8 × 7 × 6 × 5 × 4 × 3 ! = = = 8 × 7 × 6 × 5 × 4 = 6720 (8 − 5)! 3! 3!
3.3 PROBABILIDAD Podemos definir probabilidad, como la teoría relacionada con posibles resultados de experimentos, es decir, la cuantificación de una incertidumbre basada en la experimentación. Para poder cuantificar numéricamente el valor de la probabilidad de un evento se deberá enumerar cada resultado posible del evento dado y establecer las frecuencias relativas de estos resultados.
3.3.1 Enfoque Clásico (Probabilidad de un Evento) Para asignar probabilidad a los eventos definidos en un espacio muestral finito donde todos los eventos elementales son igualmente probables, la probabilidad de cualquier evento A se define: número de casos favorables a A P(A) = número de casos posibles Es decir: 59
Cecilia Ríos Varillas
P ( A) =
n( A) n (Ω)
Esta norma de asignación se atribuye a Laplace. El punto más importante de la definición clásica de probabilidad es la suposición de una situación ideal en la que se conoce el número total de resultados posibles de un experimento, a través de un razonamiento deductivo se llega a la frecuencia relativa esperada en cada resultado. Así, la probabilidad de un evento se interpreta como la frecuencia relativa teórica con que se presentará el evento.
3.3.2 Enfoque Empírico Este enfoque permite determinar la probabilidad con base en la proporción de veces que ocurre un resultado favorable en cierto número experimentos. Aunque es fácil asignar frecuencias relativas esperadas a cada uno de los resultados posibles en un juego de azar, no es igualmente fácil hacerlo en la mayoría de los experimentos de la vida real. En casos reales, la frecuencia relativa esperada se asigna con base en resultados de experimentos empíricos. Así, podemos no conocer la proporción exacta de alimentos contaminados en una feria, pero podemos estudiar una muestra al azar tomada entre todos los alimentos y estimar la proporción del total que está contaminada de acuerdo con los resultados de la muestra. Una vez que hayamos llegado a una estimación podemos emplear la teoría clásica de probabilidad.
3.4 AXIOMAS DE PROBABILIDAD La probabilidad de todo evento A definido en Ω cumple con los siguientes axiomas: 1) P(A) ≥ 0 2) P(Ω) = 1
∞ 3) P Ai= i =1
∞
∑ P( A ) i =1
i
∀Ai ⊂ Ω, Ai ∩ A= φ ∀i ≠ j j
3.5 PROPIEDADES DE PROBABILIDAD Propiedad 1
P(φ) = 0
60
Estadística y diseño de experimentos
Demostración
P= (φ )
n(φ ) 0 = = n (Ω ) n (Ω )
0
Propiedad 2
P(A') = 1- P(A) Demostración P(Ω) = P(A' ∪ A) = P(A') + P(A) luego: 1 = P(A') + P(A) Despejando: P(A') = 1 – P(A) Propiedad 3
P (A ∪ B) – P(A) + P(B) - P(A ∩ B) Si los eventos son disjuntos => P(A ∪ B) = P(A) + P(B) (Esta propiedad se puede extender para más eventos) Ejemplo: Una clase consta de 18 hombres y de 15 mujeres, de los cuales la mitad de los hombres y la tercera parte de las mujeres han desaprobado el curso de Estadística y Probabilidades. Se elige un estudiante al azar y se pide la probabilidad. a. De que sea hombre o haya desaprobado el curso de Estadística y Probabilidades. b. De que no sea mujer y no haya desaprobado el curso de Estadística y Probabilidades Solución n(Ω) = 33 (Cualquiera de los 33 alumnos puede ser seleccionado) Sean los eventos: H: escoger un hombre M: escoger una mujer D: desaprobado el curso de Estadística y Probabilidades. 61
Cecilia Ríos Varillas
Entonces: P(H) = 18/33 P(M) = 15/33 P(H ∩ D) = 9 P(M ∩ D) = 5 => P(D) = 14/33 P(H ∪ D) = P(H) + P(D) - P(H ∩ D)
P(H ∪ D) = 18/33 + 14/33 - 9/33 = 23/33 = 0,69697
P(M ∩ D') = P(M ∪ D)' = 1 – P(M ∪ D)
= 1 – [P(M) + P(D) – P(M ∩ D)]
= 1 – [15/33 + 14/33 – 5733]
= 1 – 24/33 = 9/33 = 0,2727
3.6 PROBABILIDAD CONDICIONAL En muchas situaciones la ocurrencia de ciertos eventos o procesos afectan la ocurrencia de otro evento dado cuya probabilidad deseamos evaluar, esto es, la ocurrencia del nuevo evento está condicionado a un evento previo por lo que el valor de la probabilidad ya no es una simple probabilidad sino que se restringe al evento ocurrido. Esto sucede con mucha frecuencia en análisis en laboratorio, cuando se desea realizar un nuevo proceso, hay algunos que dependen de otros procesos que ya ocurrieron. Entonces ahora se va a definir la probabilidad de un evento que está condicionado a otro evento que ya ocurrió y que va a afectar a su probabilidad.
3.6.1 Definición de probabilidad condicional Sean los eventos A y B definidos en Ω, entonces, la probabilidad de que ocurra el evento A dado que ha ocurrido el evento B, se denota P(A/B), y es aquella probabilidad de A condicionada a B, o probabilidad de A sabiendo que pasa B. Se calcula:
P ( A / B) =
P ( A ∩ B) P( B)
También se puede definir con base en el número de elementos:
62
Estadística y diseño de experimentos
n ( A ∩ B) n ( A ∩ B) n (Ω) P ( A ∩ B) n (Ω) = P ( A / B) = = n( B ) n( B ) P( B) n (Ω) n (Ω)
P ( A / B) =
n ( A ∩ B) n( B )
Es decir, el espacio muestral se reduce al evento B que ya ocurrió.
3.6.2 Propiedades de probabilidad condicional Sean A, B y C eventos definidos en Ω entonces. Propiedad 1
0 ≤ P(A/B) ≤ 1 Esto es: (i) P(A/B) = 0 <—>
A∩B=φ
(ii) P(A/B) = 1 <—>
B
∩
A
Demostración:
P ( A ∩ B) P( B)
Por definición
P ( A / B) =
como:
A ∩ B = φ ⇒ P ( A / B) =
Por definición
P ( A / B) =
Si B ⊂ A
P (φ ) 0 = = 0 P( B) P( B)
P ( A ∩ B) P( B)
⇒ P ( A / B )=
P( B) = 1 P( B)
63
Cecilia Ríos Varillas
Propiedad 2
P(A/B) ≠ P(B/A) Propiedad 3
P (A/ Ω) = P(A) Propiedad 4
P(Ω/B) = 1 Propiedad 5
P(A ∪ B / C) = P(A/C) + P(B/C) <—> A ∩ B = φ Propiedad 6
P(A/B) + P(A'/B) = 1 Ejemplo de probabilidad condicional: En el laboratorio de química hay 20 instrumentos para medir el volumen, 5 son tubos de prueba de los cuales 2 están fallados, 10 son probetas de los cuales 4 no tienen fallas y el resto son pipetas; del total de instrumentos 12 están con fallas. Si se escoge un instrumento al azar: a. ¿Cuál es la probabilidad de que sea tubo de prueba si se observa que está fallado? b. Si no está fallado ¿Cuál es la probabilidad de que sea pipeta? c. ¿Cuál es la probabilidad de que no sea probeta dado que no está fallado? d. Si es tubo de prueba ¿Cuál es la probabilidad de que este fallado? e. ¿Cuál es la probabilidad de que no sea probeta ni esté fallado? Solución Sean los eventos F: instrumento fallado T: tubo de prueba R: probeta I: pipeta Además
64
T
R
I
F
2
6
4
12
F’
3
4
1
8
5
10
5
20
Estadística y diseño de experimentos
n (T ∩ F ) = n (F )
P (T / = F)
a)
b)
c)
d)
e)
2 = 12
= P(I / F ' )
n(I ∩ F ' ) = n (F ' )
P(R'/ F '
= 1 - P(R / F '
)
n(F ∩T ) = n (T )
P ( F / T= )
P ( R '∩ F '
)
1 6
1 8 n(R ∩ F ' ) 4 1 1− = = = 0,5 )=
2 = 5
n ( F ')
2
0, 4
= P ( R ∪ F ) ' =1- P ( R ∪ F
8
)
= 1 − [ P( R) + P( F ) − P( R ∩ F )] 16 1 10 12 6 =− 1 + − =− 1 == 0, 2 20 5 20 20 20
3.6.3 Tipos de muestreo Cuando se realizan extracciones sucesivas de los elementos u objetos de un conjunto (una urna, caja, lote, etc.) pueden ocurrir dos tipos de muestreo: Muestreo con reposición (con sustitución). En este caso el objeto extraído se devuelve o repone y el número total de objetos (o espacio muestral) no disminuye extracción tras extracción). Muestreo sin reposición (sin sustitución). en este caso el objeto extraído no se devuelve ni se repone y el número total de objetos (o espacio muestral) disminuye extracción tras extracción.
65
Cecilia Ríos Varillas
3.6.4 Teorema de multiplicación de probabilidades (probabilidad conjunta) Sean A y B eventos definidos en Ω, si estos eventos están relacionados de tal manera que la ocurrencia de uno de ellos depende de la ocurrencia del otro, entonces la probabilidad de que ocurran ambos A y B (probabilidad conjunta), se define:
P(A ∩ B) = P(A) P(B/A) + P(B) P(A/B) Esto es si cualquiera de ellos puede ocurrir primero. Si se tienen los eventos A1 y A2, entonces la probabilidad de que ocurran ambos eventos en ese orden es:
P(A1 ∩ A2) = P(A1) P(A2/A1) En general, sean los eventos A1, A2, A3, ..., AK , la probabilidad de que ocurran los eventos A1, A2, A3, ..., AK en forma simultánea y en ese orden es:
k = P Ai P ( A 1 ) P ( A2 / A 1 ) P ( A3 / A1 ∩ A2 )....P ( Ak / A1 ∩ A2 ..... ∩ Ak -1 ) i =1 Nota. Para calcular probabilidades conjuntas se puede usar el diagrama del árbol, donde cada rama del árbol es una probabilidad condicional y la ramificación completa es la probabilidad conjunta, además es necesario saber cómo fue el muestreo. Ejemplo: Se tiene una urna con 4 fichas blancas y 5 rojas, se realizan dos extracciones sucesivas. Calcular la probabilidad de que ambas fichas extraídas sean de diferente color, si el muestreo: a. Es con reposición b. Es sin reposición Solución Sean los eventos Bi: Ficha blanca en la i-ésima extracción Ri =Ficha roja... en la i-ésima extracción
66
Estadística y diseño de experimentos
El diagrama del árbol es el siguiente: B2 B1 R2 B2 B1 R2
Fichas de diferente color B y R, se consideran en cualquier orden, a. Cuando el muestreo es con reposición, entonces:
P(B1 ∩ R2) + P(R1 ∩ B2) = P(B1) P(R2/B1) + P(R1) P(B1/R1) = (4/9) (5/9) + (5/9) (4/9) = 40/81 = 0,4938 b. Cuando el muestreo es sin reposición, entonces:
P( B1 ∩ R2) + P(R1 ∩ B2) = P(B1) P(B1) P(R2/B1) + P(R1) P(B2/R1) = (4/9) (5/8) + (5/9) (4/8) = 40/72 = 0,5556 3.7 EVENTOS INDEPENDIENTES Dos eventos A y B son mutuamente independientes, si la ocurrencia o no ocurrencia de uno de ellos no afecta a la ocurrencia o no ocurrencia del otro. La probabilidad conjunta es:
P(A ∩ B) = P(A) P(B) Entonces la probabilidad condicional es la siguiente:
P (A/B) = P(A) (La ocurrencia de B no afecta la ocurrencia de A) Ejemplo: En una planta productora de plástico, 2 tuberías vacían distintos productos químicos en un recipiente mezclador. La tubería 1 tiene una probabilidad de 0,6 de llegar su flujo al recipiente y la tubería 2 tiene una probabilidad de 0,75 de 67
Cecilia Ríos Varillas
llegar su flujo al recipiente, para obtener una solución. Si las dos tuberías están funcionando. ¿Cuál es la probabilidad de que en el recipiente tenga flujos sólo de la tubería 1? Solución Sean los eventos: T1: llega flujo de la tubería 1 T2: llega flujo de la tubería 2 Estos eventos son independientes, ya que si llega flujo de una de las tuberías, eso no implica que llegue o no llegue flujo de la otra tubería, entonces la probabilidad de que llegue flujo sólo de la tubería 1 y no llegue flujo de la tubería 2 es:
P (T1 ∩ T2ʹ) = P(T1) P(T2ʹ) P (T1 ∩ T2ʹ) = (0,6) (1 – 0,75) = (0,6) (0,25) = 0,15 3.8 PARTICIÓN DEL ESPACIO MUESTRAL Sean los eventos B1, B2, B3, ..., BK , éstos forman una partición del espacio muestral Ω si cumplen las siguientes condiciones:
a. Bi ∩ Bj = φ k
b.
i =1
Bi = Ω
∨ i ≠ j (todos los eventos son mutuamente excluyentes entre sí). ⇒
k
∑ P( B ) i =1
i
= 1
Figura 3.1. Partición del espacio muestral 68
Estadística y diseño de experimentos
3.9 ECUACIÓN DE LA PROBABILIDAD TOTAL Sea un experimento aleatorio cuyo espacio muestral es Ω, sean los eventos B1, B2, B3, ..., BK que forman una partición de Ω y sea el evento A definido también en B1, B2, B3, ..., BK; la probabilidad de que ocurra el evento A se define:
P( A) =
k
∑ P( B ) P( A / i =1
i
Bi )
Demostración
Figura 3.2. Probabilidad Total
El evento A es la unión de las intersecciones de cada evento Bi con el evento A,
A = (B1 ∩ A) ∪ (B2 ∩ A) ∪ ... ∪ (BK ∩ A) Entonces la probabilidad del evento A es:
P(A) = P(B1 ∩ A) + P(B2 ∩ A) + ... + (BK ∩ A) Luego:
P(A) = P(B1)P(A / B1) + P(B2)P(A / B2) + ... + P(Bk)P(A / Bk) k
⇒ P( A) = ∑ P( Bi ) P( A / Bi ) i =1
69
Cecilia Ríos Varillas
También se puede presentar el diagrama del árbol siguiente: A B1 Aʹ A B2 Aʹ . . .
. . .
A Bk Aʹ
Figura 3.3. Diagrama de Árbol
Ejemplo de probabilidad total: El volumen diario de producción en tres plantas diferentes de una fábrica textil es de 1000 chompas en la primera; 2000 chompas en la segunda y 3000 chompas en la tercera. El porcentaje de chompas defectuosas producidas en las tres plantas son 2%, 3% y 5% respectivamente. Si una persona extrae al azar una chompa de cualquiera de las plantas ¿Cuál es la probabilidad de que sea defectuosa? Solución Sean los eventos: C1: chompa fabricada en la primera planta C2: chompa fabricada en la segunda planta C3: chompa fabricada en la tercera planta D: chompa defectuosa Según los datos
70
Estadística y diseño de experimentos
P(C1) = 1/6
P(C2) = 2/6
P (D/C1) = 0,02
P(C3) = 3/6
P(D/C2) = 0,03
P(D/C3) = 0,05
Entonces la probabilidad de que la chompa sea defectuosa es:
P(D) = P(C1) P(D/C1) + P(C2) P(D/C2) + P(C3) P(D/3)
P( D) =
1 6
( 0, 02 )
2 3 ( 0, 03) + ( 0, 05 )= 0, 038 6 6
+
3.10 TEOREMA DE BAYES Sea un experimento aleatorio cuyo espacio muestral es Ω, sean los eventos B1, B2, B3, ... Bk que forman una partición de Ω y sea el evento A definido también en
Ω; la probabilidad de que un evento Bj ocurra dado que el evento A ha ocurrido está dado por:
P( B j / A) =
P( B j ) P( A / B j ) k
∑ P( B ) P( A i =1
i
/ Bi )
Demostración Por definición de probabilidad condicional
P( B j / A) =
P( B j ∩ A ) P( A)
Por probabilidad conjunta:
P(Bj ∩ A) = P(Bj) P(A/Bj)
La ecuación de la probabilidad total es: reemplazando
k
P( A) = ∑ P( Bi ) P( A / Bi ) i =1
71
Cecilia Ríos Varillas
P( B j / A) =
P( B j ) P( A / B j ) k
∑ P( B ) P( A i =1
i
/ Bi )
Ejemplo del teorema de Bayes: Del ejemplo anterior, si la chompa elegida resulta defectuosa, calcule la probabilidad de que se haya manufacturado en la segunda planta. Solución
P(C2/D) = =
P(C2) P(D/C2) = P(D)
P(C2) P(D/C2) (2/6)(0,03) = = 0,2632 P(C1) P(D/C1) + P(C2) P(D/C2) + P(C3) P(D/C3) 0,038
Hay un 26,32% de posibilidad que la chompa defectuosa haya sido manufacturada en la segunda planta.
3.11 EJERCICIOS DESARROLLADOS Ejercicio 1 Un químico está interesado en analizar muestras de agua en una planta eléctrica de vapor. Las pruebas serán engañosas si se encuentra presente nitrógeno o silicio en las muestras. Los dispositivos automáticos indican que la probabilidad de que ambos elementos se encuentren presentes simultáneamente es despreciable. La probabilidad de que se encuentre nitrógeno en la muestra es de 0,15 y la probabilidad de que se encuentre silicio en la muestra es de 0,20 ¿Calcular la probabilidad de que las pruebas hayan sido engañosas? Solución Sean los eventos N: se encuentra nitrógeno en la muestra S: se encuentra silicio en la muestra E: prueba engañosa Las pruebas serán engañosas si se encuentra presente nitrógeno o silicio, entonces: 72
Estadística y diseño de experimentos
P(E) = P(N ∪ S) = P(N) + P(S) - P(N ∩ S) = 0,15 + 0,20 -0 = 0,35 Por lo tanto la probabilidad de que las pruebas hayan sido engañosas es de 0,35. Ejercicio 2 Sea el experimento aleatorio E, que consiste en el lanzamiento de dos dados al aire (dados normales), Ω el espacio muestral de este experimento y sean los eventos A, B y C definidos en Ω, donde: Ω / x+y = 4} C = {(x,y)
∩
Ω / x+y ≤ 3} B = {(x,y)
∩
∩
A = {(x,y)
Ω / 2 < x+y ≤ 4}
Calcule las siguientes probabilidades: a. P (A - B) b. Probabilidad de que ocurra al menos un evento c. P [(B ∪ C) ∩ A] Solución Ω = { (1;1), (1;2);...; (6;6)}
de los datos: B
∩
A = {(1,1), (1,2), (2,1)}
N(Ω) = 36
B = {(1,3), (2,2), (3,1)}
C = {(1,2), (2,1), (1,3), (2,2), (3,1)}
CyA∩B=φ
a ) P ( A − B ) = P ( A ∩ B ') = P ( A) = b) P ( A ∪ B ∪ C ) =
3 = 0, 08333 36
6 = 0,166666 36
c) P( B ∪ C ) ∩ A) = P(C ∩ A) =
2 = 0, 055555 36
Ejercicio 3
2 7
6 7
Si P ( A ' ∩ B ) = , P ( A ∪ B ) =,
P( B) =
5 7
Calcule P(Bʹ/A) 73
Cecilia Ríos Varillas
Solución
P(A)
1/7
P(B)
3/7
2/7 1/7
P( B ' /= A)
P ( B ' ∩ A) 1/ 7 1 = = P( A) 4/7 4
Ejercicio 4 En una urna hay 4 fichas rojas y 5 blancas, se toma al azar una muestra de 5 fichas y se las deja en una mesa, luego se extrae una ficha más. Calcular la probabilidad de que esta última ficha extraída sea blanca. Solución Según el experimento, primero se extraen cinco fichas del total y para que queden algunas blancas, de las cinco fichas blancas se deben extraer: 4, 3, 2, ó 1 y luego se realiza la última extracción, cuya probabilidad de que esta última ficha sea blanca es:
C14C45 1 C24C35 2 C34C25 3 C44C15 4 280 . + . + . + . = = 0,55556 C59 4 C59 4 C59 4 C59 4 504 Ejercicio 5 En una caja hay 8 sustancias químicas, tres de ellas son de un proveedor A y las otras 5 son de un proveedor B, se realizan tres extracciones sucesivas y sin reposición del total de sustancias, entonces se pide calcular la probabilidad de que: a) Las dos primeras sean del proveedor A y la última sustancia del proveedor B. b) Las tres sustancias químicas seleccionadas provengan del mismo proveedor. Solución Sean los eventos: 74
Estadística y diseño de experimentos
Ai: sustancia química proveniente del proveedor A en la extracción i-ésima. Bi: sustancia química proveniente del proveedor B en la extracción i-ésima. El diagrama del árbol respectivo es el siguiente: 1/6 A3 2/7 A2 5/6 B3 A1 A3 3/8
B2
B3 A3 5/8 A2 B3 B1 A3 B 4/7 2
3/6 B3
Las probabilidades pedidas son: a. P(A1 ∩ A2 ∩ B3) = P(A1) P(A2/A1) P(B3)/A1 ∩ A2)
3 2 5 5 = = 8 7 6 56 b. P(A1 ∩ A2 ∩ A3) + P (B1 ∩ B2 ∩ B3)
11 3 2 1 5 4 3 1 10 = + = + = 56 8 7 6 8 7 6 56 56
75
Cecilia Ríos Varillas
Ejercicio 6 En la facultad de Química de cierta universidad, los estudiantes publican tres revistas A, B y C. Realizada una encuesta, se estima que del total de estudiantes el 20% lee la revista A, el 30% lee la revista B y el 25% lee la revista C, el 10% lee A y B, el 8% lee A y C y 12% lee B y C, además el 3% lee las tres revistas. Se elige un estudiante al azar, a. Calcule la probabilidad de que lea al menos una de las tres revistas b. Calcule la probabilidad de que lea sólo una de las revistas c. Calcule la probabilidad de que no lea ninguna revista d. Calcule la probabilidad de que lea al menos dos de las revistas Solución De los datos: P(A) = 0,20 P(B) = 0,30 P(C) = 0,25 P(A ∩ B) = 0,10 P(A ∩ C) = 0,08 P(B ∩ C) = 0,12 P(A ∩ B ∩ C) = 0,03 Colocamos los datos en el diagrama de Venn P(Ω) P(A) P(B)
0,05
0,05
0,07 0,03
0,11
0,09
0,08 0,52 P(C) a. P(A ∪ B ∪ C) = 0,48 b. P(A ∩ Bʹ ∩ Cʹ) + P(Aʹ ∩ B ∩ Cʹ) + P(Aʹ ∩ Bʹ ∩ C) = 0,05 + 0,11 + 0,08 = 0,24 c. P(Aʹ ∩ Bʹ ∩ Cʹ) = 0,52 d. P(A ∩ B ∩ Cʹ) + P(Aʹ ∩ B ∩ C) + P(A ∩ Bʹ ∩ C) + P(A ∩ B ∩ C) = 0,07 + 0,09 + 0,05 + 0,03 = 0,24 76
Estadística y diseño de experimentos
Ejercicio 7 Una caja contiene 3 monedas: una corriente (I ), otra de 2 caras(II) y la tercera cargada (III) tal que la probabilidad de que se obtenga cara al lanzarla es 2/3. Se escoge una moneda al azar y se lanza. Si aparece cara se lanza la moneda de nuevo. Si aparece sello se escoge otra moneda entre las dos que quedan y se lanza. Sea M el evento. “Se escoge primero la moneda cargada (III)”; sea X el evento “Sale primero sello y después cara” Calcule P (M / X)
Solución M: Se escoge primero la moneda cargada III X: sale primero sello(s) y después cara (c). P(M/X) =
P(M ∩ X) = P(X) 77
Cecilia Ríos Varillas
=
(1/3)(1/3)(1/2)(1/2) + (1/3)(1/3)(1/2)(1) 3 = (1/3)(1/2)(1/2)(1) + (1/3)(1/2)(1/2)(2/3) + (1/3) (1/3) (1/2)(1/2) + (1/3)(1/3)(1/2)(1) 8
Ejercicio 8 Conteste brevemente cada pregunta: a. Sean A y B eventos tales que P(A)= 1/3; P(B)=1/5 y P(A|B)+P(B|A)=2/3, calcule P(A' ∪ B'). b. Dados los eventos A, B y C tales que A y B son eventos independientes, además: P(A ∩ B ∩ C) = 0,04; P(C/ A ∩ B) = 0,25 y P(B) = 4P(A). Calcule P(A ∪ B). Solución a. De los datos:
P = ( A) 1 / 3
P = ( B) 1 / 5
P ( A | B ) + P ( B= | A)
P( A ∩ B) P( A ∩ B) 2 + =⇒ P( B) P ( A) 3
2 3
P( A ∩ B) P( A ∩ B) 2 + = 1 1 3 5 3
2 1 5 P ( A ∩ B ) + 3P ( A ∩ B ) = ⇒ P ( A ∩ B ) = 3 12
P( A ' ∪ B ' ) =P( A ∩ B) ' = 1- P( A ∩ B) =− 1
1 11 = 12 12
b. De los datos A y B son independientes:
P( A ∩ B ∩ C ) 0,04 0,04 = = = P( A ∩ B) P ( A) P ( B ) P ( A) ⋅ 4 P( A)
P (C | A= ∩ B)
=
0,04 1 =0, 25 ⇒ P ( A) = 2 4 P ( A) 5
Luego: P(A ∪ B) = P(A) + P(B) - P(A ∩ B)
1 4 1 4 4 21 P ( A ∪ B ) = + − =1 − = = 0,84 5 5 5 5 25 25 78
y P( B) =4 P ( A) =
4 5
Estadística y diseño de experimentos
Ejercicio 9 Si: P(A) = 1/2 P(B) = 13
P(A ∩ B) = 1/4
Calcule: P(A' / B') Solución 1 1 1 7 P(A ∪ B) = P(A) + P(B) – P(A ∩ B) = + + = 2 3 4 12 Se pide: P(A' / B') =
P (A' ∩ B') = P(B')
Usando algebra de eventos: 7 5 P(A' ∩ B') = P(A ∪ B)' = 1 - P(A ∪ B) = 1 = 12 12 1 2 P(B') = 1 - P(B) = 1 = 3 3 Reemplazando:
P( A = '/ B ')
(5 / 12) 5 = (2 / 3) 8
Ejercicio 10 Una urna A contiene 9 cartas numeradas del 1 al 9, y otra urna B contiene 5 cartas numeradas del 1 al 5, se escoge una urna al azar y se saca una carta, si la carta indica un número par, se saca otra carta de la misma urna; si la carta indica un número impar se saca carta de la otra urna. Si ambas cartas indican números pares. ¿Cuál es la probabilidad de que las 2 cartas procedan de la urna A?
79
Cecilia Ríos Varillas
3/8 PA 4/9 PA 5/8 IA 1/2 A 2/5 PB 5/9 IA 3/5 IB 1/4 PB 2/5 PB 3/4 IB 1/2 B 4/9 PA 3/5 IB 5/9 IA Solución M: ambas cartas son pares N: Cartas procedan de la urna A
1 4 3 P( N ∩ M ) 5 2 9 8 P( N / M )= = = = 0, 625 P( M ) 1 4 3 1 2 1 8 + 2 9 8 2 5 4 Ejercicio 11 Tres personas trabajan independientemente en descifrar un mensaje, con probabilidad de descifrarlo igual a 1/5, 1/4 y 1/3 respectivamente: a. ¿Cuál es la probabilidad de que exactamente uno de ellos descifre el mensaje? b. Si dos de ellos descifran el mensaje ¿Cuál es la probabilidad de que sean la primera y tercera persona? Solución a. Los eventos son independientes, entonces
80
Estadística y diseño de experimentos
P( A ∩ B ' ∩ C ' ) + P( A ' ∩ B ∩ C ' ) + P( A ' ∩ B ' ∩ C ) = = P( A) P( B ') P (C ') + P ( A ') P ( B ) P (C ') + P ( A ') P ( B ') P (C ) 1 3 2 4 1 2 4 3 1 26 = = 0, 43333 + + = 5 4 3 5 4 3 5 4 3 60 b. M: Dos de ellos descifran el mensaje N: que sean A y C P(M) = P(A ∩ B ∩ C') + P(A' ∩ B ∩ C') + P(A ∩ B' ∩ C')
1 3 1 ⋅ ⋅ 1 P( N ∩ M ) 5 4= 3 = P( N / M ) = 1 1 2 4 1 1 1 3 1 3 P( M ) ⋅ ⋅ + ⋅ ⋅ + ⋅ ⋅ 5 4 3 5 4 3 5 4 3 Ejercicio 12 Una fábrica produce cierto tipo de productos usados en experimentos químicos con tres máquinas distintas, las cantidades de producción diaria de cada máquina son: Máquina 1: 3 000 unidades Máquina 2: 2 500 unidades Máquina 3: 4 500 unidades La experiencia nos demuestra que el 1% de las unidades producidas por la máquina 1 son defectuosas, los correspondientes porcentajes para las otras dos máquinas son 1,2% y 2% respectivamente. Se selecciona un artículo cualquiera al azar de la producción total de un día y se pide: a. Calcular la probabilidad de que el artículo seleccionado sea defectuoso. b. Si el artículo seleccionado es defectuoso, calcule la probabilidad de que haya sido producido: i. Por la máquina 1 ii. Por la máquina 2 iii. Por la máquina 3 Solución Sean los eventos: M1: artículo producido por la máquina 1 M2: artículo producido por la máquina 2 81
Cecilia Ríos Varillas
M3: artículo producido por la máquina 3 D: artículo defectuoso Según los datos: producción total 10 000 unidades P (M1) = 0,3 P (D/M1) = 0,01
P(M2) = 0,25 P(D/M2) = 0,012
P(M3) = 0,45 P(D/M3) = 0,02
a. Se calcula la probabilidad de que el artículo seleccionado sea defectuoso, para eso se utiliza el teorema de la probabilidad total: P(D) = P(M1) P(D/M1) + P(M2) P(D/M2) + P(M3) P(D/M3) P(D) = (0,3) (0,01) + (0,25) ( 0,012) + (0,45) ( 0,02) = 0,015 b. Ahora como ya el artículo seleccionado es defectuoso, se calcula la probabilidad de que ha sido producido por cada una de las máquinas, entonces: i.
= P( M 1/ D)
P( M 1) P( D / M 1) (0,3) (0, 01) = = P( D) 0, 015
0, 2
ii.= P( M 2 / D)
P( M 2) P( D / M 2) (0, 25) (0, 012) = = P( D) 0, 015
iii.= P( M 1/ D)
P( M 3) P( D / M 3) (0, 45) (0, 02) = = P( D) 0, 015
0, 2 0, 6
El artículo defectuoso, es mucho más probable que haya sido producido por la Máquina 3. Ejercicio 13 Una caja contiene 6 tubos de radio de los cuales tres son defectuosos. Se prueban los tubos unos tras otro hasta que se descubren dos defectuosos. ¿Cuál es la probabilidad de que se suspenda el proceso en la: a. Segunda prueba, b. En la tercera prueba? Solución
82
Estadística y diseño de experimentos
2/5 D D 2/4 D 3/6 3/5 B B
2/4 D
D 3/5 3/6 B B D B B La probabilidad de que se suspenda el proceso en la segunda prueba es:
3 2 1 × = = 0, 2 6 5 5 La probabilidad de que se suspenda el proceso en la tercera prueba es:
3 3 2 3 3 2 3 ⋅ ⋅ + ⋅ ⋅ = = 0,3 6 5 4 6 5 4 10
3.12 EJERCICIOS PROPUESTOS Ejercicio 1 En una habitación hay 10 personas que llevan insignias numeradas del 1 al 10. Se eligen 3 personas al azar y se les solicita que abandonen la habitación ¿Cuál es la probabilidad de que: a. El número menor de las insignias sea 5? b. El número mayor de las insignias sea 5?
83
Cecilia Ríos Varillas
Ejercicio 2 Se tienen los dígitos {4; 9; 3; 4; 5; 6}, se seleccionan en forma aleatoria cinco dígitos, si los dígitos no se pueden repetir: a. ¿Cuántos mayores de 5 600 se pueden obtener? b. ¿Cuántos números si 4 y 5 no deben estar juntos en la misma muestra? c. ¿Cuántos números pares se pueden formar? Ejercicio 3 Una fundidora produce piezas de hierro fundido para uso en las transmisiones automáticas de camiones. Son dos las dimensiones cruciales de dicha pieza, A y B. Suponga que si la pieza cumple con la especificación de la dimensión A, existe la probabilidad de 98% de que también cumpla la de la dimensión B. Además, existe 95% de probabilidad de que se cumpla con la especificación de la dimensión A y de 97% de que se haga con la dimensión B. Se selecciona aleatoriamente e inspecciona una unidad de dicha pieza. ¿Cuál es la probabilidad de que se cumpla con las especificaciones de ambas dimensiones? Ejercicio 4 En un proceso de manufactura hay seis operaciones distintas, que se indican con A, B, C, D, E y F. ¿Cuántas secuencias diferentes pueden ocurrir, a. si no existe una secuencia fija para las operaciones? b. con la salvedad de que A debe efectuarse al principio y F al final? c. con la salvedad de que C debe efectuarse siempre antes que D? Ejercicio 5 Un ingeniero químico está a cargo de un proceso específico en una refinería. La experiencia indica que 10% de los paros de la planta se deben únicamente a fallas de equipo, 5% a fallas de equipo y errores de operadores, y 40% a errores de los operadores. Ocurre un paro de la refinería. Calcule la probabilidad de que: a. Se deba a fallas de equipo o errores de los operadores. b. Se deba sólo a errores de los operadores. c. No se deba sólo a fallas de equipo ni errores de los operadores. d. Se deba a errores de los operadores, dado que ocurrió una falla de equipo. e. Se deba a errores de los operadores, dado que no ocurrió una falla de equipo
84
Estadística y diseño de experimentos
Ejercicio 6 El 20% de los empleados de una empresa son ingenieros y otro 20% economistas. El 75% de los ingenieros ocupan un puesto directivo y el 50% de los economistas también, mientras que de los no ingenieros y no economistas solamente el 20% ocupan un puesto directivo. Se selecciona al azar un empleado y es directivo ¿Cuál es la probabilidad de que el empleado directivo elegido al azar sea ingeniero? Ejercicio 7 Suponga que el total de producción de un determinado artículo contiene 10% de unidades defectuosas, si la producción es llenada al azar en cajas de n unidades cada una, determinar el valor de n de manera que haya una probabilidad de 0.01 de que ninguna caja contenga artículo defectuoso. Ejercicio 8 Un lote que contiene 12 artículos de los cuales x son defectuosos y el resto no defectuosos es sometido a dos controles. En el primer control se extrae de este lote un artículo al azar, si está bueno se le devuelve al lote y si es defectuoso se lo reemplaza por uno bueno, luego se pasa el lote al segundo control. a. Determinar el número de artículos defectuosos que hay en el lote si este pasa al segundo control de forma tal que la probabilidad de extraer al azar aquí un artículo no defectuoso es 61/72. b. Suponga que el lote pasa al segundo control con el número de defectuosos hallados en la parte a). El segundo control consiste en extraer 3 artículos al azar a la vez y rechazar el lote si se encuentran al menos dos artículos defectuosos, calcular la probabilidad de aceptar el lote. Ejercicio 9 La probabilidad de que un accidente de aviación sea correctamente previsto debido a fallas mecánicas es 0.85 y la probabilidad que un accidente de aviación sea correctamente previsto debido a fallas no mecánicas es 0.35. Encontrar la probabilidad que un accidente de aviación sea por fallas mecánicas, dado que fue previsto correctamente, si el 30% de accidentes de aviación es debido a fallas mecánicas. Ejercicio 10 Se tiene dos urnas. La primera tiene dos fichas blancas y tres negras, y la segunda tiene dos blancas y tres rojas. Se extrae al azar una ficha de la primera urna y se pasa a la segunda urna, luego se extrae una ficha de la segunda urna y se pasa a la primera, finalmente se extrae al azar dos fichas de la primera urna y resultan ser blanca y negra. Determinar la probabilidad de que la primera urna no tenga ninguna ficha roja. 85
Cecilia Ríos Varillas
Ejercicio 11 Se tiene dos urnas. La primera con tres bolas blancas y dos negras; la segunda dos blancas y tres negras. Se lanza un dado y si sale 1 o 2 o 3 o 4 se extrae una bola de la primera urna, si sale 5 ó 6, se extrae una bola de la segunda urna. a. Calcular la probabilidad de que la bola salga negra, b. Calcular la probabilidad de que la bola provenga de la 1era urna sabiendo que fue negra. Ejercicio 12 En una ciudad se publican tres periódicos: A, B y C. Realizada una encuesta, se estima que de la población adulta el 20% lee el periódico A, el 16% B y el 14% C. Se obtuvo también que el 13% leen al menos dos periódicos; los que leen sólo A y B representan el triple de los que leen sólo B y C, y el doble de los que leen sólo A y C; y los que leen los tres periódicos es igual a los que leen sólo B y C. a. ¿Qué porcentaje lee al menos uno de estos periódicos? b. De los que leen al menos un periódico, ¿qué porcentaje lee A y B? Ejercicio 13 Se desea realizar un experimento con una sustancia química, donde dicha sustancia puede estar compuesta por tres componentes A, B, y C. En el laboratorio hay 3 tubos de ensayo con el componente A, dos tubos con el componente B y cinco tubos con el componente C. La probabilidad de que el componente A produzca una reacción fuerte es de 1/3, que la produzca B es de 2/3 y que la produzca el componente C es de 1/7. Se realiza el experimento y se produce la reacción fuerte. ¿Cuál es la probabilidad de que el componente que la produjo sea el C? Ejercicio 14 Un empresario tiene una máquina automática en su fábrica que produce determinados artículos. Con su pasada experiencia ha comprobado que si la máquina se ajusta en forma apropiada, la máquina producirá un 90% de piezas aceptables, mientras que si su acondicionamiento no es adecuado, sólo producirá un 30% de aceptables. El empresario también ha observado que el 75% de los acondicionamientos se hace en forma correcta. Si la primera pieza producida es aceptable, ¿Qué probabilidad existe de que el acondicionamiento se haya hecho correctamente? Ejercicio 15 Una compañía está estudiando la posibilidad de construir una granja en un cierto sector agropecuario. La compañía considera de gran importancia la construcción de un reservorio en las cercanías del lugar. Si el gobierno aprueba este reservorio 86
Estadística y diseño de experimentos
la probabilidad de que la compañía construya la granja es 0.9, de otra manera la probabilidad es de sólo 0.2. El presidente de la compañía estima que hay una probabilidad de 0.6 de que el reservorio sea aprobado. a. Hallar la probabilidad de que la compañía construya la granja. b. Si la granja fue construida, hallar la probabilidad de que el reservorio haya sido aprobado. Ejercicio 16 Cierta industria envasa en caja sus productos. La proporción de defectuosos en cada caja es de 0.02. El control de calidad de los productos se efectúa en la forma siguiente: Se toma una muestra de 100 productos de una caja elegida al azar. Si se encuentra a lo sumo dos defectuosas, se acepta, la caja si se encuentra 3 o 4 defectuosos, se elige una muestra de 80 productos. Si en total 180 productos elegidos hay 5 ó más defectuosos, se rechaza la caja. Y en caso contrario se le acepta. Calcular la probabilidad de que la caja elegida sea aceptada. Ejercicio 17 En una elección a la presidencia se obtienen los siguientes resultados en la primera vuelta: el 10% de los electores inscritos votaron en blanco, 32% de los electores votaron por A, el 23% lo hicieron por B y el 35% restante, por otros candidatos. Se estima que todos los electores que votaron en la primera vuelta lo harán en la segunda vuelta, pero una encuesta indica que en razón de las declaraciones contradictorias de los candidatos, 15% de los que votaron por A en la primera vuelta votarán por B en la segunda vuelta y 20% de los que votaron por B votarán por A. La misma encuesta indica los que votaron en blanco en la primera vuelta votarán en la segunda, a razón de 30% por A, 20% por B y el resto seguirá votando en blanco. Además de los que votaron por otros candidatos en la primera vuelta, el 38% votará por A, el 32% votará por B y el 30% restante votará en blanco Si la encuesta es fiable, ¿Quién saldrá elegido en la segunda vuelta?
87
Cecilia Ríos Varillas
88
Estadística y diseño de experimentos
CAPÍTULO 4
Variable aleatoria
4.1 DEFINICIÓN La función que asigna números a cada uno de los elementos del espacio muestral con una probabilidad definida se llama variable aleatoria. En ocasiones las variables aleatorias están ya implícitas en los puntos muestrales, sobre todo en los casos de variables cuantitativas donde los valores son numéricos. En el caso de las variables cualitativas donde los resultados no se dan en términos numéricos, entonces se les puede asignar números y tratarlos como cuantitativos, esta asignación está sujeta a ciertas condiciones que se propone el investigador. La variable aleatoria es una función X, cuyo dominio es el espacio muestral Ω, y el rango es un conjunto dentro de los reales, llamado rango o recorrido de la variable aleatoria (Rx).
Ω
R Rx
s
x
Figura 4.1. Dominio y rango de la variable aleatoria
Clases de Variable Aleatoria Según el rango o recorrido (Rx), la variable aleatoria se clasifica en: - Variable aleatoria discreta - Variable aleatoria continua 89
Cecilia Ríos Varillas
4.2 VARIABLE ALEATORIA DISCRETA Una variable aleatoria es discreta si el rango o recorrido de la variable aleatoria es finito o infinito numerable de valores enteros.
4.2.1 Función de probabilidad (Distribución de probabilidades) de la variable aleatoria discreta La Ley de probabilidad o distribución de probabilidad de una variable aleatoria es una manera de modelar la variabilidad o la forma cómo se distribuyen los valores de la variable. Dada una variable aleatoria discreta, su función de probabilidad o de cuantía p(x) ó P(X=x), se define de modo que p(x) es la probabilidad de que X tome el valor x, y que cumple las siguientes condiciones:
1) p ( x) ≥ 0 ∀x ∈ Rx 2) ∑ p ( x) = 1 x∈Rx
Ejemplo: Se lanzan tres monedas y la variable aleatoria X se define: X: número de caras – número de sellos, Entonces Rx = {-3; -1; 1; 3} Se buscan todos los puntos muestrales que dan lugar a cada valor de la variable y a ese valor se le asigna la probabilidad del suceso correspondiente, entonces se tiene que:
111 1 p (-3) = P( X = −3) = P ({sss} ) = = 222 8 111 111 111 3 p (-1) =P ( X = −1) =P ({ssc, scs, css} ) = + + = 222 222 222 8 111 111 111 3 p (1 ) = P( X = 1) = P ({scc, ccs,csc} ) = + + = 222 222 222 8 p (3)= P ( X= 3)= P ({ccc}= )
90
111 1 = 222 8
Estadística y diseño de experimentos
Estas probabilidades, lo presentamos en la siguiente tabla (distribución de probabilidades): x
-3
-1
1
3
p(x)
1/8
3/8
3/8
1/8
Observación Obsérvese que X está definido sobre el espacio muestral, mientras que p(x) lo está sobre el espacio de números reales R. Las propiedades de la función de probabilidad de variable aleatoria se deducen de forma inmediata de los axiomas de probabilidad: La representación gráfica de la función de probabilidad de una variable discreta se realiza mediante un diagrama de líneas:
p(x) 3/8
1/8 -3
-2
-1
1
2
3
Propiedad Si X es una variable aleatoria discreta, la probabilidad en cada intervalo es diferente.
P(a < x < b) ≠ P(a ≤ x ≤ b) ≠ P(a < x ≤ b) ≠ P(a ≤ x < b) 4.2.2 Función de distribución (acumulada) de la variable aleatoria discreta Otro concepto importante es el de función de distribución de una variable aleatoria discreta, F, que se define de modo que si xi є R, F(xi) es igual a la probabilidad de que X tome un valor inferior o igual a xi, es decir, acumula las probabilidades hasta xi .
F ( xi )= P ( X ≤ xi )=
i
∑ P( X = j =1
xj ) 91
Cecilia Ríos Varillas
Volviendo al ejemplo de las tres monedas se tiene que:
F (−3) = P ( X ≤ −3) = p (−3) =
1 8
F ( −1) = P ( X ≤ −1) = p ( −3) + p ( −1) =
1 3 4 + = 8 8 8
1 3 3 7 + + = 8 8 8 8 1 3 3 1 8 F (3) = P ( X ≤ 3) = p (−3) + p (−1) + p (1) + p (3) = + + + = = 1 8 8 8 8 8 F (1) = P ( X ≤ 1) = p (−3) + p (−1) + p (1) =
0 1 / 8 = F ( x) 4 / 8 7 / 8 1
si si
x < −3 − 3 ≤ x < −1
si si
-1 ≤ x < 1 1≤ x < 3
si
x≥3
Gráfico de la función de distribución de la variable aleatoria discreta
F(x) 1 7/8
1/8 -3
-1
1
3
Hay que observar que a valores no admisibles por la variable les pueden corresponder valores de F no nulos. Por ejemplo: F(–4) = P(X ≤ –4) = P(φ) = 0 Propiedades de la función de distribución de la variable aleatoria discreta F(x) 1. Su gráfica es una función escalonada no decreciente, es decir: x1 < x2 => F(x1) ≤ F(x2) 92
Estadística y diseño de experimentos
F (−∞) lim = F ( x) 0 2.= x → −∞
= F (+∞) 3. 4.= P( x )
F ( xi ) − F ( xi -1 )
i
5. P ( a <
lim = F ( x) 1
x → +∞
x≤b= )
P ( x ≤ b) - P ( x ≤ a= )
F (b) - F (a )
4.3 VARIABLE ALEATORIA CONTINUA Una variable aleatoria X es continua, si puede tomar cualquiera de los valores de un intervalo.
4.3.1 Función de probabilidad de la variable aleatoria continua La función de probabilidad de la variable aleatoria continua también es conocida como función de densidad, es una función integrable, que verifica las dos condiciones siguientes:
1) f ( x) ≥ 0
∀x ∈ Rx
+∞
= 2) ∫ f ( x)dx 1= es decir : ∫ f ( x)dx 1 ∀x∈Rx
-∞
Figura: Función de densidad f. La probabilidad de un intervalo, es el área que existe entre la función y el eje de abscisas.
P ( a ≤ X ≤ b)
b
a
Figura 4.2. Función de Densidad f b
P ( a ≤ X ≤ b) = ∫ f ( x)dx a
Observación. Por ser f una función integrable, la probabilidad de un punto es nula:
P( x = a) = P(a ≤ x ≤ a) =
∫
a
a
f ( x)dx = 0 93
Cecilia Ríos Varillas
y por ello al calcular la probabilidad de un intervalo no afectará nada el que éste sea abierto o cerrado por cualquiera de sus extremos, pues estos son puntos y por tanto de probabilidad nula: P(a ≤ X ≤ b) = P(a < X < b) = P(a < X ≤ b) = P(a ≤ X < b) = ∫ab f(x) dx
4.3.2 Función de distribución (acumulada) de la variable aleatoria continua
∩
Se denota F(x) y se define de modo que dado X R y f(x) es la función de probabilidad de la variable aleatoria continua X, F(x) es la probabilidad de que X sea menor o igual que x, es decir:
F ( x) =
P( X ≤ x) =
P( X < x) =
x
∫
f (t ) dt
-∞
Propiedades de la función de distribución de la variable aleatoria continua F(x) 1. La función de distribución F, es no decreciente y continua: X1 < x2 => F(x1) ≤ F(x2) 2. Es una función absolutamente continua que verifica: F(–∞) = lim F(x) = 0 x –> –∞ F(+∞) = lim F(x) = 0 x –> +∞ 3. f(x) = F'(x) P(a ≤ X ≤ b) = P(a < X < b) = P(a < X ≤ b) = P(a ≤ X < b) = ∫b f(x) dx = F(b) – F(a) a Ejemplo: Sea X una variable aleatoria continua con la siguiente función de probabilidad:
0 ≤ x <1 x f ( x) = 2 − x 1 ≤ x ≤ 2 0 en otros casos Graficar la función de probabilidad f(x) y calcular: a. P(-1 ≤ X ≤ 1/2) b. P(X < 3/2) c. La función de distribución F(x)
94
Estadística y diseño de experimentos
Solución La gráfica de la función de probabilidad dada es:
f(x)
11
0 0
1
P(−1 ≤ X ≤ 1/ = 2)
a.
12
∫
f (= x)dx
−1
x
2
0
1/2
−1
0
∫ (0)dx + ∫ ( x)dx
1/2
x2 (1/ 2) 2 1 = = = 2 0 2 8 b.
3/2
∫
P( X < 3 /= 2)
f ( x)= dx
−∞
=
0
1
3/2
−∞
0
1
∫ (0)dx + ∫ xdx +
∫ (2 − x)dx=
7/8
c. Cálculo de F(x):
Si x < 0
Si 0 ≤ x < 1
=>
⇒
F(x) = 0
F ( x= ) P( X ≤ x= )
0
x
−∞
0
∫ (0)dt + ∫ (t )dt
x t2 x2 = = 20 2
95
Cecilia Ríos Varillas
Si 1 ≤ x ≤ 2
0
1
x
−∞
0
1
∫ (0)dt + ∫ ( x)dx + ∫ (2 − t )dx
F ( x= ) P( X ≤ x= )
⇒
1 x x2 t2 x = + 2t 1 − = 2 0 21 x2 1 1 = + 2x − 2 − + 2 2 2 2 −x = + 2x −1 2 Si x > 2
⇒
F ( x)= P( X ≤ x)=
0
1
2
−∞
0
1
∫ (0)dt + ∫ ( x)dx + ∫ (2 − x)dx + 0 =
1
Entonces:
F ( x) = 2 − x 2
0 2
x<0
x 2
0 ≤ x <1
+ 2x −1
1≤ x ≤ 2
1
x>2
Se puede calcular F(3/2) = 7/8
4.4 VALOR ESPERADO Y VARIANZA DE LA VARIABLE ALEATORIA Los parámetros de la variable aleatoria son:
4.4.1 Valor esperado de la variable aleatoria Se le conoce también como media o esperanza matemática es un promedio ponderado de los resultados que se esperan en el futuro. Es una medida de localización, que indica el valor alrededor del cual fluctúa la variable aleatoria X Si X es discreta, el valor esperado se define como:
E ( X ) = ∑ xi p ( xi ) ∀i
96
Estadística y diseño de experimentos
Si X es continua, el valor esperado se define como:
E(X) = ∫+∞ x f(x)dx -∞ Nota: El valor esperado también presenta la notación de la media poblacional.
E(X) = µx Teorema Esperanza Matemática de una función de una variable aleatoria. Sea X una variable aleatoria discreta o continua y h(x) es una función de la variable aleatoria. X, entonces el valor esperado de h(x) está dado por: E(h(x)) = ∑ h(x)p(x) Si X es v.a discreta
En ambos casos para todo x cambia.
∩
E(h(x)) = ∫ h(x)f(x)dx Si X es v.a continua Rx respectivo, la función de probabilidad no
Propiedades del valor Esperado
∩
1. E(X)
R
(puede asumir cualquier valor real).
2. E(a) = a
a es una constante real.
3. E(aX) = aE(X)
a es una constante real.
4. E(a + bX) = a + bE(X) a,b son constantes reales. n n 5. E(∑ Xi) = ∑ E(Xi)
i=1
i=1
Ejemplo de valor esperado para la variable aleatoria discreta: Del ejemplo inicial, donde X: Número de sellos – número de caras Rx = {-3; -1; 1; 3} La distribución de probabilidades es: x
-3
-1
1
3
p(x)
1/8
3/8
3/8
1/8
1
Calcular E(x).
97
Cecilia Ríos Varillas
Solución Como la variable es discreta, entonces: E(x) = ∑x.p(x) = (-3)(1/8) + (-1)(3/8) + (1)(3/8) + (3)(1/8) E(x) = 0 Ejemplo de valor esperado para la variable aleatoria continua: Sea X una variable aleatoria continua, que representa el peso (Kg) de conservas envasadas de frutas para exportación, cuya función de densidad es la siguiente:
3 0≤ x≤2 x(2 − x) f ( x) = 4 0 en otros casos Hallar E(x) Solución Sea X: peso (Kg) de conservas envasadas de frutas para exportación Como X es una variable aleatoria continua
∩
E(x) = ∫x.f(x)dx para todo x
[0;2]
2
E(x) = ∫x. 3 x(2 – x)dx = 1 4 0 El peso promedio esperado de las latas de conservas para exportación es de 1 Kg.
4.4.2 Varianza de la variable aleatoria Se le conoce también como varianza esperada, estas medidas numéricas describen la dispersión o variabilidad de la variable aleatoria mediante el “promedio” o “valor esperado” de las desviaciones cuadráticas de los valores de x a partir de su media o valor esperado. V(X) = E(X2) – (E(X))2 A la varianza esperada también se le denota igual que la varianza poblacional: 2
V(X) = σx
98
Estadística y diseño de experimentos
Propiedades de V(X) 1. V(x) ≥ 0 (varianza es no negativa) 2. V(a) = 0 a es una constante real 3. V(aX) = a2V(X) a es una constante real 4. V(X + a) = V(X) 5. V(aX + bY) = a2V(X) + b2V(Y) a,b son constantes reales. X e Y son variables aleatorias independientes. Como la varianza está en unidades cuadradas sacamos su raíz cuadrada, que nos da la desviación estándar, que es la que mejor indica la dispersión de los datos ya que está en sus mismas unidades. Desviación Estándar o Típica: σx = √ V(X) Ejemplo de varianza si la variable aleatoria es discreta: De ejemplo donde X: Número de sellos – Número de caras Rx = {-3; -1; 1; 3} x
-3
-1
1
3
p(x)
1/8
3/8
3/8
1/8
1
Calcular V(x). Solución E(X) =0; calculado anteriormente Calculamos:
1 3 3 1 E ( X 2 ) = ∑ x 2 . p ( x) = (−3) 2 + (−1) 2 + 12 + 32 = 3 8 8 8 8 2 V (X ) = 3 − (0) = 3 Nota: cuando la variable aleatoria es discreta, muchas veces la varianza no tiene sentido calcularla. Ejemplo de varianza si la variable aleatoria es continua: Del ejemplo donde X: peso (Kg) de latas de conservas para exportación, cuya función de densidad es la siguiente:
99
Cecilia Ríos Varillas
3 0≤ x≤2 x(2 − x) f ( x) = 4 0 en otros casos Se desea calcular la dispersión esperada en los pesos de las latas de conservas. Solución Se debe calcular la varianza: E(x) = 1 , calculado anteriormente. E(X2) = ∫x2.f(x)dx
∩
x
[0;2]
2
E(X2) = ∫x2. 3 x(2 – x)dx = 6 4 5 0 Reemplazando: V(X) = 6 – 12 = 1 = 0,2 (Kg)2 5 5 Como la varianza está en unidades cuadradas, calculamos la desviación estándar que es la que mejor indica la dispersión en sus mismas unidades. σx = √ 0,2 = 0,447214 Kg
4.5 EJERCICIOS DESARROLLADOS Ejercicio 1 En una urna hay dos bolas rojas, 3 azules, 4 verdes y 1 blanca. Cuando se extrae una bola y es roja el jugador recibe $ 6,00, cuando es azul recibe $ 5,00, cuando es verde el jugador paga $ 2,50 y cuando es blanca paga $ 15,00. ¿Cuál es la ganancia esperada del jugador? (Si es que le conviene o no jugar en estas condiciones). Solución Sea X: Ganancia ($) del jugador Rx = {6; 5; -2,5; 15}
100
P(6) = P(Roja) = 2/10
P(5) = P(Azul) = 3/10
P(-2,5) = P(Verde) = 4/10
P(-15) = P(Blanca) = 1/10
x
6,00
5,00
-2,5
-15,00
p(x)
0,2
0,3
0,4
0,1
1
Estadística y diseño de experimentos
E(x) = ∑xP(x) = 6(0,2) + 5(0,3) +(-2,5)(0,4) + (-15)(0,1) = $ 0,20 Lo que espera ganar este jugador. Ejercicio 2 En una urna hay tres fichas rojas y cinco blancas, en otra urna hay cuatro fichas rojas y tres blancas; se toma una urna al azar y se saca una ficha, esta ficha se coloca en la otra urna, luego de esta última urna se saca una muestra de tres fichas. Sea X: número de fichas rojas en la muestra extraída de la última urna, calcular: a. La función de probabilidad de X b. F(x), E(X) y P(1< X < 4) Solución 5R => Se sacan tres fichas 3/8 R 3B II I 1/2 4R => Se sacan tres fichas 5/8 R 4B II 4R => Se sacan tres fichas 3/8 R 5B 1/2 I II 3R => Se sacan tres fichas 5/8 R 6B I a. X: número de fichas rojas en la muestra extraída de la última urna. Rx = {0; 1; 2; 3}
5 3 4 4 4 5 3 6 0 3 0 3 0 3 1 3 1 5 1 4 1 3 0 3 14581 p (0) = ⋅ ⋅ + ⋅ ⋅ + ⋅ ⋅ + ⋅ ⋅ = = 0,1107036565 2 8 8 2 8 8 2 7 9 2 7 9 131712 3 3 3 3
101
Cecilia Ríos Varillas 5 3 4 4 45 3 6 1 2 1 2 1 2 1 3 1 5 1 4 1 3 1 2 57295 p (1) = ⋅ ⋅ + ⋅ ⋅ + ⋅ ⋅ + ⋅ ⋅ = = 0, 4350021259 2 8 8 2 8 8 2 7 9 2 7 9 131712 3 3 3 3
5 3 4 4 4 5 36 2 1 2 1 2 1 1 3 1 5 1 4 1 3 2 1 50358 p (2) = ⋅ ⋅ + ⋅ ⋅ + ⋅ ⋅ + ⋅ ⋅ = = 0,3823341837 2 8 8 2 8 8 2 7 9 2 7 9 131712 3 3 3 3
5 3 4 4 45 46 1 3 3 0 1 5 3 0 1 4 3 0 1 3 3 0 9478 p (3) = ⋅ ⋅ + ⋅ ⋅ + ⋅ ⋅ + ⋅ ⋅ = = 0,0719600340 8 8 9 9 2 8 2 8 2 7 2 7 131712 3 3 3 3
x P(x)
F(x) =
{
0
1
2
3
14581
57295
50358
9478
131712
131712
131712
131712
0 ; 0,110704 ; 0,5457 ; 0,9280 ; 1 ;
x<0 0≤x<1 1≤x2 2≤x<3 x≥3
E(x) = 1,41555 P(1 < X < 4) = 0,45429 Ejercicio 3 Sea X una variable aleatoria que representa el peso (gramos) de ovillos de hilo, cuya función de probabilidad es:
x −1 1< x ≤ 2 k 2 2 < x ≤ 2,5 f ( x) = k 6 − 2 x 2,5 < x ≤ 3 0 caso contrario
102
Estadística y diseño de experimentos
a. Determine el valor de k b. Calcular E(x) e interprete. Solución 2
x −1 dx + a. ∫ k 1
5/2
∫ 2
3
2 dx + ∫ (6 − 2 x)dx = 1 k 5/2
k=2
1 2 ( x − 1) 1 < x ≤ 2 2 < x ≤ 2,5 f ( x) = 1 6 − 2x 2,5 < x ≤ 3 caso contrario 0
b. E(x) = ∫xf(x)dx 2
5/2
3
1 E ( x)= ( x 2 − x)dx + ∫ xdx + ∫ (6 x − 2 x 2 )dx ∫ 21 2 5/2 E ( x= )
53 = 24
2, 2083 g
Ejercicio 4 Se tienen dos cajas A y B. La caja A tiene en total 9 bolas de las cuales 3 son rojas y las demás negras y verdes. En B hay 5 bolas: 3 verdes y 2 negras. Se propone el siguiente juego: se saca una bola de A y se pone en B y luego se saca una bola de B. Si de ésta última caja sale una roja se gana $ 60, si sale una verde se pierde $45 y si sale una negra se gana $20. Calcular la ganancia esperada, si se sabe que la probabilidad de que salga una bola negra en la última caja es de 10/27.Determine la función de probabilidad. Solución Sea x: Nro. de bolas negras en la caja A. 6-x: Nro. de bolas verdes en la caja A. La probabilidad de que al final resulte la bola negra es:
3 2 x 3 ( 6 - x ) 2 10 + + = ⇒ x= 2 9 6 9 6 9 6 27
103
Cecilia Ríos Varillas G P(x)
60
-45
20
3
31
20
54
54
54
3 1 3 = P(60) = 9 6 54 3 3 2 3 4 4 31 P(−= 45) + + = 9 6 9 6 9 6 54 3 2 2 3 4 2 20 P(20) = + + = 9 6 9 9 9 6 54 E (G ) =( 60 )
3 31 + ( -45 ) + 54 54
( 20 )
20 815 =54 54
E(G) ≈ -15,0926 En estas circunstancias y con las condiciones del juego, se espera obtener una pérdida de aproximadamente $ 15,0926. Ejercicio 5 Las máquinas tejedoras en una fábrica de elástico usan un rayo láser para detectar los hilos rotos. Cuando se rompe un hilo, es necesario detener la máquina y el técnico debe localizar y reparar el hilo roto. Suponer que la función de probabilidad de X: número de veces que se detiene cada día una máquina, está dada por: x
1 = p ( x) k= x 0;1; 2;3; 4 2 a. Halle el valor de la constante k y luego presente en una tabla la distribución de probabilidad de X. b. Si en un día la máquina se tuvo que detener a lo más 3 veces, halle la probabilidad de que sea detenida por lo menos una vez. c. Si cada vez que se detiene la máquina para reparar el hilo se emplean 3,5 minutos ¿Cuántos minutos por día esperaría usted que se empleen en reparar el hilo? Solución a. Sea X: número de veces que se detiene la máquina. Considerando la función de probabilidad dada, se tiene: 104
Estadística y diseño de experimentos x p(x)
0
1
2
3
4
k
k
k
k
k
2
4
8
16
Como Σ p(x) = 1 => k = 16 31 Reemplazando, la distribución de probabilidades es: x p(x)
(
P x ≥1
)
= x≤3
0
1
2
3
4
16
8
4
2
1
31
31
31
31
31
P (1 ≤ x ≤ 3) 14 31 14 = = = 0, 46667 30 30 P ( x ≤ 3) 31
Sea T: Tiempo (minutos) que se emplea cada vez que se detiene la máquina x T p(x)
0
1
2
3
4
0
3,5
7
10,5
14
16
8
4
2
1
31
31
31
31
31
16 8 4 2 1 E (T ) =( 0 ) + ( 3,5 ) + ( 7 ) + (10,5 ) + (14 ) = 2,93548 31 31 31 31 31 En reparar el hilo se esperaría emplear aproximadamente 2,94 minutos por día. Ejercicio 6 El contenido de magnesio de una determinada aleación es una variable aleatoria dada por la siguiente función de densidad:
x f ( x) = 18 0
, 0 < x≤6 , en otros casos
105
Cecilia Ríos Varillas
a. ¿Cuál es la probabilidad de que una aleación tenga un contenido de magnesio entre 2,2 y 4,8? b. La utilidad (en soles) que se obtiene de esta aleación es U=10+2X.Calcule el coeficiente de variación de la variable U. Solución a. Sea X: contenido de magnesio en una determinada aleación Se pide:
= P ( 2, 2 < x < 4,8 )
4,8
4,8
2,2
2,2
6
x f ( x) dx ∫=
= b. E ( x)
0
6
x
6
6
= E(x )
2
0
0,5056
x = ∫0 x 18 dx 4 x
f ( x) dx = ∫ x= ∫ x 18 dx
2
91
= dx= ∫ dx= ∫ f(x) 18 180
2
18
0
V(x) = E(x2) - E2(x) = 18 - (4)2 = 2 U = 10 + 2x => E(U) = 10 + 2E(x) = 10 + 2(4) = 18 V(U) = V(10 + 2x) = 4V(x) = 4(2) = 8 Se calcula el CV de la utilidad U:
V (U ) = 100% E (U )
= C.V . (U )
8 = 100% 15, 7135% 18
Se presenta una dispersión moderada en el contenido de magnesio. Ejercicio 7
f(x) = |x|e-x V x 2
106
∩
Supóngase que el error de medición (mm) de determinado aparato electrónico es un fenómeno aleatorio con función de densidad.
R
Estadística y diseño de experimentos
a. Determine la función de distribución. b. ¿Cuál es la probabilidad de que el error sea menor que 2, si se sabe que es mayor que 1? Solución a. La función de densidad, para cada valor de x es:
xe − x = xe − x2 − xe 2
− x2
= f ( x)
x≥0 x<0
Luego, la función de distribución es la siguiente:
e− x F ( x) = 2 1 − 1 e − x2 2 2
(
)
<2 b. P x= x >1 Donde: F (2) =
1 1 − e −4 2
F (2) − F (1) = 1 − F (1) =
x<0 x≥0
P (1 < x < 2 ) F (2) − F (1) 0,1747819 = = = 0,950213 1 − F (1) 0,1839397 P( x > 1)
F (1) =
1 1 − e −1 2
1 −1 1 −4 e − e = 0,1747819 2 2
1 −1 e = 0,1839397 2
Por lo tanto, la probabilidad de que el error de medición sea menor que 2, sabiendo que es mayor que 1 mm es de 0,950213, una probabilidad muy alta. Ejercicio 8 Dada la función de distribución de una variable aleatoria continua X que representa el volumen (cm3):
107
Cecilia Ríos Varillas
0, 2 x / 4, F ( x) = 1/ 4 + ( x − 1) / 2, 1 − [(3 − x) 2 / 4], 1,
x<0 0 ≤ x <1 1≤ x < 2 2≤ x<3 x≥3
a. Hallar la función de probabilidad f(x) b. Encontrar P(0.75< X < 2.2). Solución Se sabe que f(x) = F’(x) entonces, derivando F(x) se encuentra la función de probabilidad:
1 2 x 1 f ( x) = 2 1 (3 − x ) 2 0
0 ≤ x <1 1≤ x < 2 2≤ x<3 en otros casos
P(0,75 < x < 2,2) = F(2,2) – F(0,25) =
( 0, 75 )2 =0,84 − 0,140625 =0, 699375 =(1 − [(3 − 2, 2) 2 / 4]) − 4 Ejercicio 9 El error en la temperatura de reacción (en °C) para un experimento controlado de laboratorio es una variable aleatoria continua X, que tiene la siguiente función de probabilidad:
4 xe −2 x f ( x) = 0 Determine P(X ≤ 2 σ2x)
108
x≥0 en otros casos
Estadística y diseño de experimentos
Solución Primero se calcula el valor esperado y varianza:
= E( X )
+∞
+∞
0
0
= ∫ x f ( x) dx +∞
x 4 xe −2 x dx ∫= +∞
+∞
2 −2 x 4= ∫ x e dx
x f ( x) dx x 4 xe dx ∫= ∫=
2
= E( X )
2
0
2
−2 x
0
V ( X ) = s X2 = E ( X 2 ) − ( E ( X ) ) = 2
1
0
+∞
4 ∫ x 3e −2 x dx = 0
3 2
3 1 −1 = 2 2
Ahora ya se puede calcular:
1 P X ≤ 2 = ) P ( X ≤ 1= 2
P ( X ≤ 2s X2 = ) 1
0
1
−∞
−∞
0
−2 x = ∫ f ( x) dx = ∫ 0 dx + ∫ 4 xe dx =
= 1 – 3e-2 = 0,593994 4.6 EJERCICIOS PROPUESTOS Ejercicio 1 Una urna contiene 6 bolas numeradas de 1 a 6. Se extraen al azar dos bolas, una después de otra con reposición. Sea X el menor de los dos números obtenidos. a. Encuentre la función de probabilidad de X. b. A partir de la función de distribución acumulada de X, calcular P(2< X < 4). Ejercicio 2 Cierta aleación se forma al cambiar la mezcla fundida de 2 metales. La aleación que resulta contiene cierto porcentaje de plomo x, que puede considerarse como una variable aleatoria con función de densidad.
3 −5 10 x ( 100 − x ) f ( x) = 5 0
0 ≤ x ≤100 en otros casos 109
Cecilia Ríos Varillas
Calcular el porcentaje de plomo que se espera obtener. Determine:
P x -µ
x
≤
3 sX 2
; donde
E ( x) = µX V ( x) = s X2
Ejercicio 3 El tiempo de retraso, medido en minutos, de la ciudad A a la Ciudad B en tren, sigue una variable aleatoria continua con función de distribución acumulada:
0 2 k ( x + 1) + x − 1 2 F ( x) = 2 k ( x + 1) − x + 1 2 1
si x ≤ −1 −1 < x ≤ 0 0 < x ≤1 x >1
a. Calcule el valor de k. b. Calcule la probabilidad de que el tren llegue entre medio minuto de adelanto y un minuto de retraso. c. Sabiendo que el tren ha llegado con retraso, calcule la probabilidad de que lo haya hecho menos de 15 segundos después de lo previsto. Ejercicio 4 Dada la función de distribución de una variable aleatoria continua X
0, 2 x / 4, F ( x) = 1/ 4 + ( x − 1) / 2, 1 − [(3 − x) 2 / 4], 1,
x<0 0 ≤ x <1 1≤ x < 2 2≤ x<3 x≥3
a. Hallar f(x) b. Calcular E(X) y P( 0,75 < X < 2,2)
110
Estadística y diseño de experimentos
Ejercicio 5 La duración de un componente electrónico (en años) se distribuye con función de densidad:
2 x = f ( x) k 0
si 0 ≤ x ≤ 1/ 2 si 1/ 2 < x ≤ 2 en otros casos
Sabiendo que un componente se considera válido si su duración es superior a tres meses. Se pide: a. El valor de k y F(X) b. La duración esperada c. Probabilidad de que un componente sea válido Ejercicio 6 Sea X una variable aleatoria con la siguiente función de distribución
0 = F ( x) α x 1
si
x≤0
si
0 < x <
si
x≥
1
α
1
α
Verifique que F(x) es una función de distribución. Además encuentre la función de probabilidad f(x), y calcule la siguiente probabilidad:
1 P0 ≤ x ≤ 2α
Ejercicio 7 El contenido x de magnesio en cierto compuesto es una variable aleatoria, cuya función de densidad es:
cx / 8 si 0 ≤ x ≤ 6 f ( x) = en otro caso 0
111
Cecilia Ríos Varillas
La ganancia que se obtiene por este compuesto es G = 10 + 2X. ¿Cuál es la ganancia esperada? Ejercicio 8 En cierta ciudad el consumo diario de agua (en millones de litros) es una variable aleatoria cuya densidad de probabilidad está dada por:
x −x / 3 e , x>0 f ( x) = 9 0, x≤0 Encuentre la función de distribución. ¿Cuál es la probabilidad de que en un día dado el suministro de agua sea insuficiente si la capacidad diaria del reservorio de la ciudad es de 9 millones de litros? Si en un determinado momento del día, el reservorio esta menos de la tercera parte de su capacidad (capacidad=9 millones de litros), ¿cuál es la probabilidad de que el suministro de agua sea suficiente para ese día? Encuentre la media y varianza del consumo diario de agua.
112
Estadística y diseño de experimentos
CAPÍTULO 5
Distribución de probabilidades
Como complemento al capítulo anterior en el que definimos todos los conceptos relativos a variables aleatorias, se describe en este capítulo las principales leyes de probabilidad que encontramos en las aplicaciones del cálculo de probabilidades. Es así que atendiendo a la clasificación de las variables aleatorias en discretas y continuas, se presenta las principales leyes de probabilidad de cada una de ellas, las cuales constituirán el soporte subyacente de la inferencia estadística y a las que será necesario hacer referencia en el estudio de dicho bloque. A la tabla, gráfica o expresión matemática, que presente las probabilidades con que una variable aleatoria toma diferentes valores, se llama distribución de probabilidad de la variable aleatoria y a al conjunto de pares (x; f(x)) se le llama función de probabilidad, donde x es el valor de la variable aleatoria y f(x) es la probabilidad asignada a x. Se inicia este capítulo con el estudio de las distribuciones notables para cada clase de variable aleatoria.
5.1 DISTRIBUCIONES DISCRETAS NOTABLES Según las formas especiales que pueden tener las funciones de probabilidad y según las características de la variable para cada experimento, se conocen algunas distribuciones especiales para las variables discretas y son las siguientes:
5.1.1 Distribución Binomial Consideremos un experimento con las siguientes características: Experimento de Bernoulli: Que consiste en n ensayos o repeticiones. Cada ensayo tiene dos resultados posibles: Éxito (E) o Fracaso (F) La probabilidad de éxito = p, y la probabilidad de fracaso = 1 – p = q Los ensayos son independientes, es decir la probabilidad de éxito p es constante en cada ensayo o repetición. - Si el experimento consiste en un muestreo, éste será con reposición. - - - -
113
Cecilia Ríos Varillas
La distribución binomial aparece cuando estamos interesados en el número de veces que un evento o suceso A ocurre (éxitos) en n intentos independientes de un experimento. Sea X: número de éxitos obtenidos en los n ensayos o repeticiones. La función de probabilidad es la siguiente:
n P (= X x= ) p x q n− x x
= xx = 0,0,1, 1, 2,......; 2, ... ; nn
La variable aleatoria discreta X es Binomial, que se distribuye con parámetros n y p: X ~ B(n ; p) Propiedades 1. P(X = x) ≥ 0 x = 0,1,2, ...; n n
2.
∑ i =1
P(= X x= 1 i)
3. E(X) = n p 4. V(X) = n q p
0,2 0,18 0,16 0,14 0,12 0,1 0,08 0,06 0,04 0,02 0
1
4
7
Figura 5.1. Distribución Binomial.
114
10
13
16
19
Estadística y diseño de experimentos
Ejemplo: Un agente químico produce la decoloración del 5% de los rollos de papel producido por cierta compañía. En una muestra de 20 rollos de papel, - ¿Cuál es probabilidad de que 3 rollos presenten decoloración debido al agente químico? - ¿Cuál es probabilidad de que por lo menos 2 rollos presenten decoloración debido al agente químico? - ¿Cuántos rollos se espera que presenten decoloración debido al agente químico? Solución X: número de rollos que presenten decoloración debido al agente químico de los 20 rollos de papel Este problema se puede considerar como un problema de distribución binomial para el cual n=20 y p=0,05 Éxito: presenta decoloración debido al agente químico P(éxito) = p = 0,05
P(fracaso) = 1- p = q = 0,95
La función de probabilidad es la siguiente
20 ) (0, 05) x (0,95) n − x P (= X x= x
= x 0,1, 2,......; 20
20 3 17 (0, 05) (0,95)= 0, 05958 3
X 3)= a. P ( =
b. P(X ≥ 2) = 1 - P(X < 2) = 1 - [p(0) + p(1)]
20 20 = 1 − (0, 05)0 (0,95) 20 + (0, 05)1 (0,95)19 1 0 = 0,26416 c. E(X) = np = 20 ( 0,05) = 1 Se espera que un rollo de papel presente decoloración debido al agente químico. 115
Cecilia Ríos Varillas
Algunos cálculos para obtener las probabilidades de valores particulares de n y x, resultan bastante tediosos; razón por la cual se pueden usar tablas estadísticas de la Distribución Binomial para n ≤ 20 y valores disponibles de p. En general, la distribución binomial tiene poca aplicación en el análisis químico de laboratorio, ya que es una variable aleatoria discreta; su principal uso está en el control estadístico de calidad, en la detección de porcentajes de productos “defectuosos” en lotes de producción.
5.1.2 Distribución de Poisson La distribución de Poisson es una de las distribuciones discretas más importantes, cuyo nombre se debe al matemático francés, Simeon Denis Poisson (1781 – 1840), quien la introdujo en 1837. Esta distribución se puede deducir de dos formas: 5.1.2.1 A partir de un proceso Poisson La característica principal de este proceso es la ocurrencia de eventos discretos en espacios o unidades continuas, ejemplos: número de hilos por cm2 de tela, número de llamadas telefónicas por hora, número de bacterias por cm3 de agua, etc. Las asunciones de este proceso Poisson son: - El número de eventos discretos (éxitos) en los espacios continuos es grande, entonces se conoce el promedio de éxitos que ocurren en dicha unidad de medida, definida como λ . - La ocurrencia de los eventos son independientes. - La probabilidad de que ocurra un evento es pequeña. La variable aleatoria se define: X: Número de éxitos por unidad de medida. X~Poisson (λ), se dice que X sigue una distribución de Poisson con parámetro λ, si la función de densidad es como sigue:
) P (= X x=
e−λ λ x x!
= x 0,1, 2,......
Si X: Número de éxitos en t unidades de medida
e−t λ ( λ t ) x P (= X x= ) x! 116
x 0,1, 2,...... =
Estadística y diseño de experimentos
Propiedades
1. P(X = x) ≥ 0 x = 0,1,2,.... ∞
∑ P(X = x ) = 1 2. i i= 1
3. E(X) = λ 4. V(X) = λ Ejemplo: Supongamos que el número de imperfecciones en un alambre delgado de cobre tiene una media de 0,7 imperfecciones por milímetro. a. Determine la probabilidad de 2 imperfecciones en un milímetro de alambre. b. Determine la probabilidad de 10 imperfecciones en 5 milímetros de alambre. c. Determine la probabilidad de que haya a lo más 4 imperfecciones en 2mm de alambre. Solución Sea X: número de imperfecciones por milímetro. λ = 0,7 imperfecciones por mm X ~ Poisson (λ = 0,7) La función de probabilidad es la siguiente:
P (= X x= )
e − 0.7 ( 0, 7 ) x x!
x 0,1, 2,...... =
e − 0.7 ( 0, 7 ) 2 X 2) = = 0,12166 a. P ( = 2! b. En este caso se usa otro λ1 = (0,7) (5) = 3,5 imperfecciones por 5 mm
e − 3,5 ( 3,5 ) 10 P= ( X 10) = = 0, 00229555 10!
c. λ2 = (0,7) (2) = 1,4
imperfecciones por 2 mm
P(X ≤ 4) = 0,986
117
Cecilia Ríos Varillas
Este resultado se ha obtenido usando tablas estadísticas. La probabilidad de que haya a lo más 4 imperfecciones en 2 mm de alambre, es muy alta, ya que resulta 0,986. 5.1.2.2 Como Límite de la Distribución Binomial Se obtiene como aproximación de una distribución binomial con la misma media, cuando n es grande (n > 30) y la probabilidad de éxito p es muy pequeña (p < 0,1). Es decir:
P (= X x= )
n x n − x e − ( n p ) ( np ) x pq ≈ lim x! n →∞ x p →0
λ = np
Ejemplo: Una fábrica envía al depósito 500 artículos, la probabilidad de deterioro de un artículo es de 0,002. Deterrmine la probabilidad de que en el camino se deterioren: a. Exactamente tres artículos b. A lo más tres artículos Solución X: número de artículos que se deterioran de los 500 artículos enviados
X ~ B (500 ; 0,002) X se distribuye como una Binomial, pero como n es muy grande y p muy pequeño, entonces se puede aproximar a Poisson con λ = np = (500) (0,002) = 1, es decir: X ~ B(500 ; 0,002) ≈ X ~ Poisson (λ = 1) e-1(1)3 a. P(X = 3) = 3! = 0,061313 La probabilidad de que en el camino se deterioren sólo tres artículos es muy pequeña. P(X ≤ 3) = 0,981 La probabilidad de que en el camino e deterioren a lo más tres artículos es muy alta; es decir, existe un 98,1% de posibilidad de que esto ocurra.
118
Estadística y diseño de experimentos
5.1.3 Distribución Hipergeométrica La distribución hipergeométrica suele aparecer en procesos muestrales sin reemplazo, en los que se investiga la presencia o ausencia de cierta característica. Esta distribución se puede ilustrar del modo siguiente: - Una población finita de N elementos, particionados en dos clases mutuamente excluyentes: clase éxito y clase fracaso. - La clase éxito tiene k elementos y la clase fracaso (N – k) - Se extrae de esta población, una muestra tamaño n. - Si el experimento consiste en un muestreo, éste es sin reposición. Sea X una variable aleatoria discreta que se define: X: número de elementos de la muestra extraída que pertenecen a la clase éxito. La función de probabilidad está dada por:
k N -k x n- x P (= X x= ) N n
= x 0;1;2;......, mín (n; k )
Propiedades 1. P(X = x) ≥ 0 x = 0, 1, 2, ...; min (n, k) 2. ∑ P(X = xi) = 1 i=1
( ) ( )(
k 3. E(X) = n n 4. V(X) = n k 1 - k n n
) ( NN -- n1 )
Ejemplo: Se sabe que el 7% de los insumos químicos en un lote de 100 no cumplen ciertas especificaciones de calidad. Tomada una muestra al azar de 10 insumos químicos sin reemplazo, interesa conocer la probabilidad de que no más de dos sean defectuosos.
119
Cecilia Ríos Varillas
Solución El número de útiles defectuosos en el lote es 7% de 100 = 7. Para un tamaño muestral de n=10, la función de probabilidad es la siguiente:
7 93 x 10 - x P ( X ≤ 2) = = p (0) + p (1) + p (2)= 100 10
7 93 7 93 7 93 0 10 + 1 9 + 2 8 = 0,97924 100 100 100 10 10 10
=
La probabilidad de que a lo sumo haya dos útiles defectuosos en el lote es aproximadamente 0,98.
5.2 DISTRIBUCIONES CONTINUAS NOTABLES Desde hace 300 años se ha estudiado la distribución de los datos experimentales y se han propuesto muchas fórmulas para representar estas distribuciones. Estas fórmulas expresan de diferentes maneras la distribución de las frecuencias de mediciones repetidas o de otros acontecimientos que se basan en la probabilidad. En esta sección se estudian las distribuciones más importantes de las variables aleatorias continuas unidimensionales. Algunas distribuciones continuas notables son: distribución uniforme, distribución exponencial y distribución normal, esta última es la que más se aplica, por eso sólo citaremos brevemente a la distribución uniforme y a la exponencial.
5.2.1 Distribución uniforme Una variable aleatoria continua X posee una distribución uniforme en el intervalo [a, b], si su función de probabilidad es la siguiente:
1 f ( x) = b - a 0 X ~ U (a,b) 120
si x ∈ [ a ; b ] en caso contrario
Estadística y diseño de experimentos
Su función de distribución es:
0 x - a = F ( x) b - a 1
si x < a si a ≤ x < b si x ≥ b
El valor esperado y varianza de una variable aleatoria con distribución uniforme se presentan a continuación:
= E( X )
b
b+a 2
1
x dx ∫= b-a a
b
1 = E ( X ) ∫= x dx b-a a 2
2
2
V ( X ) = E( X ) − E
2
(b + a )
2
3
(b + a ) (X ) =
2
3
2
b + a (b + a ) − = 12 2
2
La gráfica de la función de probabilidad es:
Distribución Uniforme
1 n
a
b
Figura 5.2. Distribución Uniforme
5.2.2 Distribución exponencial La distribución exponencial describe procesos en los que nos interesa saber el tiempo hasta que ocurre determinado evento, sabiendo que, el tiempo que pueda ocurrir desde cualquier instante dado t hasta que ello ocurra en un instante cualquiera ti , no depende del tiempo transcurrido anteriormente en el que no ha pasado nada.
121
Cecilia Ríos Varillas
Ejemplos de este tipo de distribuciones son: El tiempo que tarda una partícula radiactiva en desintegrarse. El conocimiento de la ley que sigue este evento se utiliza en Ciencias, por ejemplo, la datación de fósiles o cualquier materia orgánica mediante la técnica del carbono 14 (C14). Concretando, una variable aleatoria continua X distribuida a lo largo de los reales positivos, se distribuye en forma exponencial si su función de densidad es:
λ e − λ x f ( x) = 0
si x ≥ 0 en caso contrario
Su función de distribución es:
0 F ( x) = −λ x 1 − e
si x < 0 si x ≥ 0
El valor esperado y la varianza de una variable aleatoria X con distribución exponencial son:
= E( X )
+α
1
xλ e dx ∫= −λ x
λ
0
V (X ) =
1
λ2
La gráfica de la función de probabilidad de la variable aleatoria X con distribución exponencial es:
Distribución Exponencial
0.6 0.5 0.4 0.3 0.2 0.1 0 0
2
4
6
8
Figura 5.3. Distribución Exponencial
122
10
12
14
16
18
20
Estadística y diseño de experimentos
Ejemplo: El tiempo de vida de una bacteria (en horas) sigue una distribución exponencial con media de 16 horas. a. ¿Cuál es la probabilidad de que dicha bacteria tenga un tiempo de vida menor de 20 horas? b. Si la bacteria vive más de 5 horas, ¿cuál es la probabilidad de que viva hasta 25 horas? Solución
1 Sea X: tiempo de vida (en horas) de la bacteria X ~ Exp λ
E ( X= ) 16 =
1
λ=
⇒
λ
1 −161 x e f ( x) = 16 0
1 16
si x ≥ 0 en caso contrario
La función de distribución es:
0 F ( x) = 1 − x 1 − e 16
si x < 0 si x ≥ 0
20
20 − 1 − 161 x 16 1− e = 0, 7135 F (20) = a. P ( X ≤ 20 ) = ∫0 16 e dx =
(
)
≤ 25 b. P X= X ≥5
P ( 5 ≤ X ≤ 25 ) F (25) − F (5) = = 0, 713495 1 − F (5) P ( X ≥ 5)
5.2.3 Distribución normal o gaussiana La distribución normal es, sin duda, la distribución de probabilidad más importante del cálculo de probabilidades y de la Estadística. Fue reconocida por primera vez por el francés Abraham de Moivre (1667-1754). Posteriormente, Carl Friedrich Gauss (1777-1855) elaboró desarrollos más profundos y formuló la ecuación de la curva; de ahí que también se la conozca, más comúnmente, como la “Campana de Gauss”.
123
Cecilia Ríos Varillas
La importancia de la distribución normal queda totalmente consolidada por ser la distribución límite de numerosas variables aleatorias especialmente las continuas. La distribución normal se aplica en todos los campos de las ciencias empíricas: biología, medicina, psicología, química, física, economía, ingeniería, etc. En particular, muchas medidas de datos continuos en química y textiles (volumen, peso, temperatura, resistencia a la ruptura de fibras etc.) se aproximan a la distribución normal. Se dice que una variable aleatoria continua X sigue una distribución normal de parámetros µx y σ2x , y se denota como X ~ N(µx; σx2) si su función de probabilidad o densidad es la siguiente:
= f ( x)
1 2π s x
e
1 x−µx − 2 s x
2
x∈R
µx : media poblacional σx2 : varianza poblacional Se ha encontrado experimentalmente que la función de distribución normal describe satisfactoriamente aquellos sistemas en los que las mediciones en estudio vienen afectadas por un número grande de errores que actúan todos independientemente. f(x)
µ
Figura 5.4. Gráfica de la función de probabilidad de Distribución Normal
Características de la función de probabilidad de la distribución normal a. Forma acampanada. b. Asintótica respecto al eje X. c. Es unimodal ya que solo tiene un valor máximo en el que coincide la media, mediana y la moda.
124
Estadística y diseño de experimentos
d. El punto central en la distribución es la media e indica la posición de la campana (parámetro de centralización); mientras que las distancias de la media se expresan en función de la desviación estándar ya que es el parámetro de dispersión. e. El área bajo la curva representa la probabilidad de que ocurra una observación dentro de los límites del área. f. El área total bajo la curva se considera igual a la unidad. g. Este valor indica la proporción de la población que se encuentra en determinados intervalos centrados en la media. Si µx es el valor medio y σx es la desviación estándar, entonces: - El 68 % de las observaciones están en el intervalo [µx – σx ; µx + σx] - El 95,5% de las observaciones están en el intervalo [µx – 2σx ; µx + 2σx] - El 99,7% de las observaciones están en el intervalo [µx – 3σx ; µx + 3σx] Observación Estos dos parámetros µx y σx2 coinciden además con la media (esperanza) y la varianza respectivamente, es decir: E(X) = µx y V(X) = σ2x La forma de la función de densidad es la llamada campana de Gauss. Se puede interpretar la media como un factor de traslación y la desviación estándar como un factor de escala o de dispersión. 68%
95.5%
2.25%
2.25%
16%
µ −s
16%
µ
µ +s
µ
µ − 2s
µ + 2s
99.7%
µ − 3s
µ
µ + 3s
Figura 5.5. Gráficos de la normal, con probabilidades notables
Si una variable aleatoria X tiene una distribución normal y queremos calcular la probabilidad de que X caiga entre dos valores a y b entonces, se debe hallar el área debajo de la curva entre a y b; es decir, se debe integrar de la siguiente manera: 125
Cecilia Ríos Varillas
P (a ≤= x ≤ b)
b
b
a
a
1
( x) dx ∫ ∫ f=
2π s x
e
1 x−µx − 2 s x
2
dx
Debido a que estos cálculos son algo complicados, entonces se puede realizar una transformación para estandarizar la variable normal. 5.2.3.1 Distribución normal estándar Sea X una variable aleatoria continua que se distribuye normalmente X ~ N(µx; σx2), esta variable se puede transformar en otra variable normal con media 0 y varianza 1, la cual se le conoce como Distribución Normal Estándar y se representa por Z. La estandarización de cualquier normal es de la siguiente manera:
= Z
X - µx
∼ N ( 0 , 1)
sx
Característica de la Distribución normal estándar - El valor esperado o media es 0 y la varianza 1, es decir: E(Z) = 0 V(Z) = 1 - Esta distribución es simétrica respecto a su media - La gráfica es asintótica respecto al eje de abscisas
Distribución Normal Estándar
3
2.7
2.4
2.1
1.8
1.5
1.2
0.9
0.6
0
0.3
-0.3
-0.6
-0.9
-1.2
-1.5
-1.8
-2.1
-2.4
-2.7
-3
0.45 0.4 0.35 0.3 0.25 0.2 0.15 0.1 0.05 0
Figura 5.6. Distribución Normal Estándar
Existen tablas estadísticas que da el área debajo de la curva normal estándar (probabilidad acumulativa). Ver Anexo 2, donde F(Z) = P(Z ≤ z) Ejemplo 1 Usando la Distribución Normal: Si X ~ N(15;4). Calcular usando Tablas estadísticas del Anexo 2
126
Estadística y diseño de experimentos
( x σ– µ
P(X ≤ 16) = P
x
x
>
)
16 – 15 = P(Z ≤ –0,5) = F(0,5) = 0,69146 2
(
)
x–µ 14,5 – 15 P(X > 14,5) = P σ x > = P(Z > –0,25) = P(Z < 0,25) = F(0,25) = 0,59871 2 x Nota: Los valores negativos por simetría. Ejemplo 2 de la Distribución normal: En el laboratorio de química, se realizó estudios acerca de la duración de unas laminillas de acero sumergidas en el agua. Los resultados mostraron que la duración de dichos productos están distribuidos normalmente con una duración media de 491 horas y una desviación estándar en la duración de dichas laminillas, de 5 horas. Calcular la probabilidad de que las laminillas tengan una duración comprendida entre 480 y 500 horas. Solución Sea X: duración (en horas) de laminillas de acero sumergidas en agua. Como X ~ N(µx; σx2) es decir X ~ N(491; 25), entonces se debe estandarizar para calcular la probabilidad pedida P(480 < X < 500):
480 - 491 X − µX 500 - 491 < 500 ) P < < = P ( 480 < X= 5 5 sX P(2,2 < Z < 1,8) = F(1,8) – F(2,2) = 0,96407 – 0,01390 = 0,95017 Entonces se dice que existe un 95,017% de posibilidad de que las laminillas de acero sumergidas en agua, tengan una duración entre 480 y 500 horas. Nota. Las probabilidades acumuladas se han calculado con las tablas estadísticas de la normal estándar. 5.2.3.2 Aproximación de la binomial a la normal Una variable aleatoria discreta con distribución binomial se puede aproximar mediante una distribución normal si n es suficientemente grande y p no está ni muy próximo a 0 ni a 1. Como el valor esperado y la varianza de X son respectivamente np y npq, la aproximación consiste en decir que:
{
n > 30 X ~ B(n,p) donde np ≥ 5
=> X = N (np; npq)
127
Cecilia Ríos Varillas
Cuando ocurren las condiciones anteriores, la gráfica de la distribución Binomial, es muy parecida a la distribución Normal, por lo que es adecuado calcular probabilidades con la Normal en lugar de la Binomial y de una forma más rápida. En resumen, se utiliza la aproximación Normal para evaluar probabilidades Binomiales siempre que p no esté cercano a 0 ó 1. La aproximación es excelente cuando n es grande y bastante buena si p está razonablemente cercana a ½. Una posible guía para determinar cuándo puede utilizarse la aproximación Normal es tener en cuenta el cálculo de np y nq. Sí ambos, np y nq son mayores o iguales a 5, la aproximación será buena. Antes de empezar a resolver problemas con la aproximación Normal, es bueno aclarar que se están evaluando probabilidades asociadas a una variable discreta, con una distribución que evalúa variables de tipo continuo como es la Normal, por este motivo se usa un factor de corrección ± ½. El cuadro para conversiones es el siguiente: Cuadro 5.1. Cuadro de Conversiones X se distribuye Binomial P(X = x)
P(X ≤ x) P(X < x) P(X ≥ x) P(X > x) P(a ≤ X ≤ b) P(a < X ≤ b) P(a ≤ X < b) P(a < X < b)
128
X se aproxima a la Normal
( (
P x–
)
1 1 ≤X≤x+ 2 2 1 2
)
(
1 2
)
(
1 2
)
(
1 2
)
P X≤x+ P X≤x– P X≥x– P X≥x+ P a–
(
1 1 ≤X≤b+ 2 2
)
(
1 1 ≤X≤b+ 2 2
)
P a–
(
1 1 ≤X
)
(
1 1
)
P a+
P a+
Estadística y diseño de experimentos
Ejemplo: Si 35% de los productos manufacturados en cierta línea de producción son defectuosos, ¿cuál es la probabilidad de que entre los siguientes 1000 productos manufacturados en esa línea a. menos de 354 productos sean defectuosos? b. entre 342 y 364 productos sean defectuosos? Solución Sea X: número de productos defectuosos que se manufacturan en la línea n = 1000 p = P (un producto sea defectuoso) = 0,35 q = P (un producto no sea defectuoso) = 1- p = 0,65 µx = np = 1000(0,35) = 350
σx = √npq = √1000(0,35)(0,65) = 15,0831
( 354 -1/ 2 ) − np =
a. P ( X < 354 ) ≈ P Z < = P(Z < 0,23) = F(0,23) = 0,59095 b.
npq
PZ <
( 354 -1/ 2 ) − 350 = 15, 0831
363,5 − 350 342,5 − 350 P ( 342 < X < 364 ) ≈ P < Z < = 15, 0831 15, 0831
P(-0,50 < Z < 0,90) = F(0,90) – F(–0,50) = 0,81594 – 0,30854 = 0,5074
5.2.4 Distribuciones relacionadas con la normal, distribuciones para muestras pequeñas La teoría de la distribución normal se desarrolla a partir de tamaños de muestra suficientemente grandes, generalmente mayores a 30 observaciones y no aplicable a muestras pequeñas. En el laboratorio no podemos permitirnos la libertad de realizar un gran número de observaciones y, por ello, las pruebas de hipótesis estadísticas basadas en la distribución normal llevarían al químico a falsas conclusiones. El hecho fue reconocido por W. S. Gosset, un químico irlandés que en 1908 publicó, bajo el pseudónimo de Student, un trabajo titulado “El error probable de una medida”. En parte por consideraciones teóricas y en parte por el uso de muestras
129
Cecilia Ríos Varillas
aleatorias, obtuvo la distribución teórica del promedio de tamaños de muestra pequeñas (n< 30), ajustada a una distribución normal. Cuando queramos hacer inferencia estadística la distribución normal aparece de forma casi inevitable, en Inferencia estadística se utilizan también distribuciones continuas de probabilidad que son funciones de distribuciones normales, dependiendo del problema, podemos encontrar otras (asociadas): - X2 (chi o ji- cuadrado) - t- student - F-Snedecor Estas distribuciones resultan directamente de operar con distribuciones normales. Típicamente aparecen como distribuciones de ciertos estadísticos como la media muestral, o la varianza, que son variables aleatorias normales o funciones de variables aleatorias normales. 5.2.4.1 Distribución X2 (Chi-cuadrado) Tiene un sólo parámetro denominado grados de libertad. La función de densidad es asimétrica positiva. Sólo tienen densidad los valores positivos. La función de densidad se hace más simétrica incluso casi gaussiana cuando aumenta el número de grados de libertad. Normalmente consideraremos anómalos aquellos valores de la variable de la “cola de la derecha”. Decimos que una variable aleatoria tiene distribución chi-cuadrado con v = (n-1) grados de libertad, cuando sigue la misma distribución que la suma de n variables aleatorias normales (0,1) elevadas al cuadrado, independientes. n
χ 2 = ∑ Z i2 i =1
La función de probabilidad es la siguiente: v
f ( x) =
E(X)= v 130
1 2 1 v−2 2 x 2 e− 2 x v Γ 2 y V(X)= 2v
x≥0
Estadística y diseño de experimentos
Su función de distribución depende de los grados de libertad (g.l.) Para el cálculo de probabilidades se usa la siguiente expresión:
χ2 =
(n − 1) S 2
s X2
~ χ 2 ( n −1) g .l .
Distribución Chi Cuadrado 0.2 0.15 0.1 0.05 0 0.001
2
4
6
8
10
12
14
16
Figura 5.7. Distribución Chi-Cuadrado
Grados de libertad Los grados de libertad pueden ser interpretados como el número de valores de la muestra que pueden ser fijados arbitrariamente y su cuantificación depende del número de variables o del tamaño de la muestra .Una muestra de tamaño n tiene (n – 1) grados de libertad, si hay restricciones los niveles de libertad se reducen. Para tamaños grandes de la muestra la distribución chi-cuadrado puede aproximarse a una normal estándar (Z). 5.2.4.2 Distribución T-student Dadas dos variables aleatorias independientes; una Z ~ N (0,1) y otra X2 con (n – 1), grados de libertad, generamos una nueva variable aleatoria llamada tstudent donde:
t =
x − µx Z = n χ2 Sx n −1
~ T (n -1) g .l.
Que sigue una distribución t de Student con v = (n -1) grados de libertad, la función de probabilidad es:
131
Cecilia Ríos Varillas
f ( x) =
n +1 Γ 1 2 n +1 n π n Γ x2 2 2 1 + n
Propiedades de la distribución T-student 1. Cada curva t tiene forma de campana con media igual a 0 y varianza v/(v-2). 2. Tiene un parámetro denominado grados de libertad. 3. Cuando aumentan los grados de libertad, más se acerca a la curva normal estándar N(0,1). 4. Es simétrica con respecto al cero. 5. Se consideran valores anómalos los que se alejan de cero (positivos o negativos).
Distribución T
0.45 0.4 0.35 0.3 0.25 0.2 0.15 0.1 0.05 0 -3 -2.7 -2.4 -2.1 -1.8 -1.5 -1.2 -0.9 -0.6 -0.3 0 0.3 0.6 0.9 1.2 1.5 1.8 2.1 2.4 2.7 3
Figura 5.8. Distribución T
Ejemplo: Usando las tablas estadísticas del Anexo 1. Si n=12, se tiene 11gl, luego, las tablas de t tienen la forma: F(t) = P(T ≤ t), así tenemos: P(T ≤ 1,796) = 0,95
P(T ≥ –2,201) = P(T ≤ 2,201) = 0,975
P(T ≤ –0,876) = P(T ≥ 0,876) = 1 – P(T < 0,876) = 1 – 0,8 = 0,2 5.2.4.3 Distribución F de Fisher-Snedecor La variable aleatoria F, se define como el cociente de dos variables aleatorias independientes con distribución ji-cuadrado divididas por sus correspondientes grados de libertad. 132
Estadística y diseño de experimentos
(n − 1) χ12 F (n1 − 1; n2 − 1) = 1 (n2 − 1) χ 22 Entonces F(n1 – 1; n2 – 1) sigue una distribución F con (n1 – 1) y (n2 – 1) g.l - La función de densidad depende de dos parámetros (n1 – 1) y (n2 – 1) que son los grados de libertad del numerador y denominador respectivamente. - Sólo toma valores positivos. Es asimétrica a la derecha. - Normalmente se consideran valores anómalos los de la cola de la derecha. - Distribución asociada a la normal. - Se usa en las técnicas del análisis de la varianza y del diseño de experimentos.
Distribución F
1 0.8 0.6 0.4
gl.1 5; g/2 gl.2==66 g/1 == 5;
0.2 0
0
0
1
1
2
2
3
3
4
4
5
5
Figura 5.9. Distribución F
5.3 EJERCICIOS DESARROLLADOS Ejercicio 1 Una prueba contiene 10 preguntas y cada una de ellas 5 respuestas de las cuales 1 es la correcta. Si un estudiante desconocía las respuestas y contestó al azar todas las preguntas. Hallar la probabilidad: a. De que conteste por lo menos tres preguntas correctas b. De que conteste a lo más cuatro preguntas correctas. c. Que conteste más de cinco pero a lo más ocho preguntas correctas. d. ¿Cuántas respuestas correctas espera contestar? Solución X: número de respuestas correctas en las 10 preguntas contestadas Éxito: respuesta correcta P(Éxito) = p = 1/5 P(fracaso) = 1- p = q = 4/5, entonces X ~ Binomial (n=10, p=1/5) 133
Cecilia Ríos Varillas
La función de probabilidad es la siguiente:
10 ) (1 / 5) x (4 / 5) n − x P (= X x= x
= x 0,1, 2,......;10
a. P(X ≥ 3) = 1 – P(X < 3) = 1 – [p(0) + p(1) + p(2)]
10 10 10 = 1 − (1/ 5)0 (4 / 5)10 + (1/ 5)1 (4 / 5)9 + (1/ 5) 2 (4 / 5)8 = 0,3222 1 2 0
b. P(X ≤ 4) = p(0) + p(1) + p(2) + p(3) + p(4) Con tablas: P(X ≤ 4) = 1 – P(X > 4) = 1 – P(X ≥ 5) = 1 – 0,033 c. P(5 < X ≤ 8) = P(X ≥ 6) – P(X ≥ 9) = 0,006 – 0+ ≈ 0,006 0+ (Número positivo muy cercano a 0)
d. E(X) = np = 10 ( 1/5) = 2 Al marcar aleatoriamente las respuestas, espera que sólo 2 respuestas sean correctas. Ejercicio 2 Los mensajes que llegan a una computadora utilizada como servidor lo hacen con una tasa promedio de 10 mensajes por hora. a. ¿Cuál es la probabilidad de que en 24 minutos lleguen por lo menos 3 y no más de 7 mensajes? b. Determine el intervalo de tiempo necesario para que la probabilidad de que no llegue mensaje alguno durante ese lapso sea 0,90. Solución X: Número de mensajes que llegan a una computadora utilizada como servidor. λ = 10 mensajes por hora a. λ = 10 ⋅ 24 minutos = 4 mensajes en 24 minutos 1 60 minutos P(3 ≤ X ≤ 7) = P(X ≤ 7) – P(X ≤ 2) = 0,949 – 0,238 = 0,711 b. X ~ Poisson (λ2)
P( X = 0) =
e − λ2 λ20 = e − λ2 = 0,90 ⇒ λ2 = 0,105360 0!
Pero λ2 = 10t => t = 0,010 horas (cada 0,010 horas no llega mensaje alguno)
134
Estadística y diseño de experimentos
Ejercicio 3 El número promedio de clientes que llegan a un banco es 12 cada 10 minutos. Si se considera que el número X de clientes llegan en intervalos de 10 minutos tiene el modelo de Poisson. a. ¿Cuál es la probabilidad de que entre las 9 a.m. y las 9:10 a.m. lleguen a lo más ocho clientes? b. ¿Cuál es la probabilidad de que entre las 9 a.m. y las 9:05 a.m. lleguen más de tres clientes? Solución X : Número de clientes que llegan cada 10 minutos λ = 12 clientes cada 10 minutos a. P(x ≤ 8) = 0,155 (λ = 12) b. P(x > 3) = 1 – P(x ≤ 3) (λ = 6) = 1 – 0,151 = 0,849 Ejercicio 4 Una máquina fabrica una determinada pieza y se sabe que produce un 7 por 1000 de piezas defectuosas. Hallar la probabilidad de que al examinar 80 piezas sólo haya dos piezas defectuosas. Solución X: número de piezas defectuosas en las 80 piezas analizadas. Éxito: pieza defectuosa P(Éxito) = p = 0.007 n= 80 Como n es grande y p es muy pequeño entonces la distribución Binomial se aproxima a Poisson, donde λ = np = 80(0,007) = 0,56 por lo tanto la probabilidad pedida es: P(X=2) =
e-0,56 (0,56)2 = 0,08957 0!
Ejercicio 5 Se supone que en un proceso de fabricación de botellas de vidrio es ideal que el porcentaje de defectuosas sea pequeño. Para comprobar si se mantiene con el tiempo esa calidad se extrae una muestra de tamaño n cada cierto tiempo. Si en una de estas muestras se encuentra por lo menos una defectuosa el proceso se de135
Cecilia Ríos Varillas
tiene. Si el proceso pasara a producir el 5% de defectuosas el fabricante desearía que este cambio se notara con probabilidad igual a 0,95, ¿Cuál debe ser el valor de n para que se cumplan los deseos del fabricante? Solución P(X ≥ 1) = 0,95 p = 0,05 (pequeño) X ~ B(n,p) ≈ X ~ Poisson(λ = 0,05n)
P(X ≥ 1) = 0,95
1 – P(X ≤ 0) = 0,95
P(X = 0) = 0,05 e-0,05n. (0,05n)0 = 0,05 0! Ejercicio 6
e-0,05n = 0,05 => n = 59,9146 ≈ 60
Supóngase que la resistencia a romperse de un género de algodón (en onzas) se distribuye normalmente con una desviación estándar de 3 onzas; se sabe que el 19,766% de estos géneros tiene una resistencia no menor de 160 onzas ¿Cuál es la resistencia media a la ruptura? Solución Sea X: resistencia a la ruptura de un género de algodón De los datos: X ~ N(µx; 32) P(X ≥ 160) = 0,19766 Estandarizando:
X − µX 160 − µ X ≥ P 3 sX
160 − µ X P Z =≥ = 3
160 − µ X 160 − µ X 160 − µ X = 1− P Z < 1− F 0,19766 ⇒ F 0,80234 = = = 3 3 3 De la tabla: 160 – µx 3
= 0,85 => µx = 157,45 onzas
Ejercicio 7 Los promedios de un curso de la UNI se distribuyen normalmente con una media de 7 puntos. Si el 6,681% de los alumnos tienen nota aprobatoria, ¿Cuánto debe aumentarse en promedio a cada uno para conseguir un 45% de aprobados? 136
Estadística y diseño de experimentos
Solución X ~ N(7, σx2)
P (x ≥ 10) = 0,06681
P(Z <
P (x < 10) = 0,93319 de la tabla: 3 = 1,5 σ
10 – 7 σ ) = 0,93319
=>
σ=2
Entonces: X ~ N(7, 22) Y = X + a donde a: es lo que debe aumentarse a c/u µy = ux + ua P (Y ≥ 10) = 0,45 P (Y < 10) = 0,55
P( Z <
10 − (7 + µa ) )= 0,55 2
3 − µa ≅ 0,13 ⇒ 2
µa ≈ 2, 74
Debería aumentarse a cada uno 2,74 puntos en promedio. Ejercicio 8 La resistencia eléctrica media de unas piezas metálicas es de 503 ohmios y su varianza es de 100 ohmios2. Suponiendo que su distribución es normal, calcular: a. Los límites de resistencia entre los cuales se encontrarán el 99%. b. Si no se conociera la varianza. ¿Cuál sería su valor para que con tolerancias de 503±10 las defectuosas no sobrepasen el tres por mil? Solución a. De los datos: ux = 503 σx2 = 100
X ~ N(503,100)
0,005
0,005
0,99 -Zo
Zo =2,58
137
Cecilia Ríos Varillas
P(a < X < b) = 0,99 P(-Z0 < Z < Z0) = 0,99
Z0 =
b − 503 = 2,58 10
a − 503 −Z0 = = −2,58 10
⇒
b = 528,8
⇒
a= 477, 2
Entonces, los límites de resistencia entre los cuales se encontrarán el 99%, son: a = 477,2 y b = 528,8 b.Cálculo de la nueva varianza: P(503 – 10 < X < 503 + 10) = 0,997
P(
P(
493 − 503
s −10
s
10
s
513 − 503
s
)= 0,997
)= 0,997
0,0015
0,0015
0,997
−10
s
10
s
De acuerdo a tabla:
10 = 2,96
sx
⇒
s x= 3,3778378 ohmios
σ2 = 11,4134 La nueva varianza es de σ2 = 11,4134ohmios2 Ejercicio 9 Una panadería vende cierto tipo de pastel, tal que con probabilidad de 0,52 contiene por lo menos 30 pasas. Dicho pastel si contiene menos de 30 pasas se le considera “No apto para la venta”. Si en un pedido de 100 de estos pasteles hay a 138
Estadística y diseño de experimentos
lo más 32 pasteles “No apto para la venta”, ¿Cuál es la probabilidad de que hayan por lo menos 29 pasteles “No apto para la venta”? Solución X: Número de pasteles no aptos para la venta (contiene menos de 30 pasas) p = 0,48
n = 100
X ~ Binomial (n = 100 ; p = 0,48) ≈
X ~ Normal (48 ; 24,96)
P(29 ≤ X ≤ 32) P(28,5 ≤ X ≤ 32,5) = P( X ≤ 32) P( X ≤ 32,5)
P( X ≥ 29= / X ≤ 32) Donde:
28,5 − 48 32,5 − 48 ≤Z≤ P(28,5 ≤ X ≤ 32,5) = P = P ( −3,9 ≤ Z ≤ −3,10 ) 24,96 24,96
= F(–3,10) –F(–3,9) = 0,00097 – 0,00005 ≈ 0,00092
32,5 − 48 = PZ ≤ = = P ( X ≤ 32,5) ) 0, 00097 P ( Z ≤ −3,10 24,96 Entonces:
P( X ≥ 29 / X ≤ 32) ≈
0, 00092 ≈ 0,948454 0, 00097
Ejercicio 10 Se sabe que cierto virus ha invadido la UNI y ataca a la mitad de los estudiantes. Se toma una muestra aleatoria de 200 estudiantes y se pide calcular la probabilidad que en dicha muestra a lo más el 49% sean atacadas por el virus. Solución X: Número de estudiantes atacados por el virus. p: Probabilidad de éxito de X. n = 200 p = 0,5 X ~Bin(n,p) u = np = 100 σ2 = npq = 50
P( X ≤
49 ⋅ 200 ) =P( X ≤ 98) 100
⇒ Aproximación de la Binomial a la Normal
Usando el factor de corrección:
139
Cecilia Ríos Varillas
P( X ≤ 98) ≈ P( X ≤ 98,5) ≈ P ( Z ≤
98,5 − 100 ) ≈ P( Z ≤ −0, 21) ≅ 0, 41683 50
Existe una probabilidad de 0,41683 que a lo más 98 alumnos de la muestra de 200 sean atacados. Ejercicio 11 Si el 52% de las nubes impregnadas con yoduro de plata muestran un crecimiento espectacular. ¿Cuál es la probabilidad de que entre 40 nubes impregnadas de yoduro de plata, a lo más 18 muestren un crecimiento espectacular? Solución Sea X: número de nubes impregnadas con yoduro de plata que muestran un crecimiento espectacular Con los datos: p = 0,52 n = 40 como n es grande (n > 30), X se aproxima a la Normal.
{
{
np npq Entonces: X ~ Bin ≈ X ~ N(20,8 ; 9,984) Se pide: P(X ≤ 18)
1 P( X ≤ 18) ≈ P( X ≤ 18 + ) ≈ P ( X ≤ 18,5) 2
18,5 − 20,8 = PZ ≤ = = 0, 23270 P( Z ≤ −0, 73) 9,984 Existe una probabilidad de 0,2327 de que a lo más 18 nubes muestren un crecimiento espectacular.
5.4 EJERCICIOS PROPUESTOS Ejercicio 1 Una prueba de laboratorio para detectar el peso (g) de cierta muestra química tiene un 52% de precisión. Si se analizan 20 muestras en un mes, ¿cuál es la probabilidad de que a. A lo mucho 16 estén correctamente evaluadas? b. Más de 12 pero menos de 18 estén correctamente evaluadas? c. Exactamente 15 estén correctamente evaluadas?
140
Estadística y diseño de experimentos
Ejercicio 2 Un laboratorio afirma que una droga causa de efectos secundarios en una proporción de 3 de cada 100 pacientes. Para contrastar esta afirmación, otro laboratorio elige al azar a 5 pacientes a los que aplica la droga. ¿Cuál es la probabilidad de los siguientes eventos? a. Ningún paciente tenga efectos secundarios. b. Al menos dos tengan efectos secundarios. Ejercicio 3 Un lote contiene 40 piezas de un proveedor de tubería local y 30 unidades de un proveedor de tubería del estado vecino. Si se seleccionan cuatro piezas al azar y sin reemplazo: a. ¿Cuál es la probabilidad de que dos o más piezas de la muestra sean del proveedor local? b. ¿Cuál es la probabilidad de que al menos una pieza de la muestra sea del proveedor local? Ejercicio 4 Una compañía de productos químicos elimina sus residuos en un río situado en la vecindad de su ubicación. Para verificar el grado de contaminación creado por estos residuos desea obtener algunas estimaciones. Suponga que los residuos de contaminante tienen una distribución normal con media de 1,7 gramos por litro (g/l) y desviación estándar de 0,223 gramos por litro (g/l) ¿Cuál es la probabilidad que los residuos del contaminante: a. Sean mayores de 1,72? b. Entre 1,46 y 1,88? c. Inferiores de 2,05? Ejercicio 5 Se realiza un experimento para comparar la efectividad de un compuesto químico en producir resistencia en porcentaje de humedad en productos textiles. Suponga que las medidas de resistencia a la humedad tienen una distribución normal con media de 11,9 y varianza 1,21. ¿Qué porcentaje de las medidas de resistencia a la humedad es menor que 11,8? Ejercicio 6 Un fabricante de medicamentos sostiene que cierto medicamento cura una enfermedad de la sangre en promedio el 80% de los casos. Para verificar esta afir141
Cecilia Ríos Varillas
mación, inspectores de gobierno utilizan el medicamento en una muestra de 100 individuos y deciden aceptar la afirmación si 75 o más se curan a. ¿Cuál es la probabilidad de que el gobierno acepte la afirmación? b. ¿Cuál es la probabilidad de que el gobierno rechace la afirmación si en realidad la probabilidad de curarse es de 0,70? Ejercicio 7 Por análisis anteriores se sabe que la resistencia a la ruptura (onzas) de una fibra de cáñamo, se distribuye normalmente y además existe una posibilidad de 76,115% de que la resistencia sea no menor de 14 onzas y un 85,543% de posibilidad de que la resistencia tenga a lo más 16,5 onzas, se pide: a. Calcular la resistencia media y la desviación estándar de dicha variable. b. Calcular P(13 < X < 15,5). c. Calcular la probabilidad de que la resistencia difiera de su media en por lo menos 1,5. Ejercicio 8 El peso de las unidades de cierta sustancia química se distribuye normalmente con media ux y varianza σx2. Si este peso es tal que el 93,056 % es no mayor que 12 g. y el 93,319 % excede a 8 g. Calcular la probabilidad de que los pesos de estos productos se encuentren comprendidos en el intervalo < 10; 11,5 >. Ejercicio 9 Sea X una variable aleatoria que representa el peso (kg) de una pieza de acero, la experiencia dice que dicha variable se distribuye normalmente, y es tal que el 2,275% de las piezas pesan menos de 6 kg y el 84,134% pesan no menos de 8 kg. Calcule: a. La media y la desviación estándar de los pesos. b. La probabilidad de que el peso de las piezas sea de por lo menos 3,5 y a lo más 7 kg. c. La probabilidad de que los pesos difieran de la media en por lo menos 0,5 kg.
142
Estadística y diseño de experimentos
CAPÍTULO 6
Muestreo aleatorio y distribuciones en el muestreo A menudo necesitamos estudiar las propiedades de una determinada población, pero nos encontramos con el inconveniente de que es demasiado numerosa como para analizar a todos los individuos que la componen. Por tal motivo, recurrimos a extraer una muestra de la misma y a utilizar la información obtenida para hacer inferencias sobre toda la población. La muestra debe ser aleatoria, para que sea representativa de la población. Consideremos todas las posibles muestras que pueden extraerse de una población dada. Para cada muestra se puede calcular un estadístico, tal como la media, la desviación estándar, la varianza, que variará de una muestra a otra. De esta forma se obtiene una distribución del estadístico que se conoce como distribución muestral o distribuciones en el muestreo. En este capítulo, se tratará el estudio de las distribuciones muestrales de los principales estadísticos: media muestral, varianza muestral y diferencia de medias muestrales.
6.1 DEFINICIONES BÁSICAS 6.1.1 Distribución muestral La distribución muestral de un estimador es la distribución de probabilidades de todos los posibles valores de un estimador que se pueden obtener extrayendo “infinitas” muestras aleatorias de tamaño n de la población. Entonces, la distribución muestral se genera extrayendo todas las posibles muestras del mismo tamaño de la población y calculándoles su estadístico.
6.1.2 Muestra aleatoria Se dice que x1, x2,..., xn es una muestra aleatoria de tamaño n si cumple las siguientes condiciones:
143
Cecilia Ríos Varillas
- Cada xi tiene la misma distribución que la población respectiva. - Los xi son mutuamente independientes. Una forma de asegurarnos que el subconjunto escogido es representativo de toda la población consiste en tomar una muestra aleatoria simple, en la cual cada miembro de la población tiene la misma probabilidad de ser elegido. Así, el muestreo es una técnica que utilizaremos para inferir algo respecto de una población mediante la selección de una muestra de esa población.
6.1.3 Error en el muestreo Tras entender la importancia de escoger una muestra representativa de la población, veamos que para lograr esto podemos seleccionar, por ejemplo, una muestra aleatoria simple de la población, pero es muy improbable que la media de la muestra sea idéntica a la media de la población. De la misma manera, tal vez otra medición que se calcule con base en la muestra no sea igual al valor correspondiente de la población, a dicha diferencia se la conoce como error de muestreo.
6.2 DISTRIBUCIÓN DE LA MEDIA MUESTRAL Si la población de la que se extraen las muestras es normal, la distribución muestral de medias será normal sin importar el tamaño de la muestra.
6.2.1 Teorema 1.- La media y la varianza de las medias muestrales Se extraen muestras aleatorias de tamaño n de una población infinita con media poblacional µx y varianza σx2: La media de las medias muestrales es igual a la media poblacional. Es decir, µx = µx La varianza de las medias muestrales es igual a la varianza poblacional dividida por n. En consecuencia la desviación estándar de las medias muestrales (llamada también el error estándar de la media muestral), es igual a la desviación estándar poblacional dividida por la raíz cuadrada de n. Es decir:
s x2 =
s X2 n
⇒
sx =
sX n
error errorestándar estándarde delalamedia mediamuestral muestral
Nota. Si la población fuera finita de tamaño N, se aplica el factor de corrección: N −n al error estándar de la media muestral. N −1
144
Estadística y diseño de experimentos
Demostración
µx =
= s x2
(X ) E =
n ∑ xi 1 n i =1 E = E ( xi ) ∑= n n i =1
(X ) V =
n ∑ xi i =1 V = n
1 n= s x2 ) 2 ( n
1 n µx ) µx (= n
s x2 n
6.2.2 Teorema 2.- Distribución de la media muestral cuando la población es normal Si la población de la que se extraen las muestras es normal, la distribución muestral de medias será normal sin importar el tamaño de la muestra. Sea X una variable aleatoria que sigue una distribución normal X ~ N(µx, σx2) y sea X la media muestral de una muestra aleatoria de cualquier tamaño n (n ≥ 2) extraída de la población X, entonces:
X ~ N
(µ
x
, s x2
)
⇒
s2 X ~ N µx , x n
Observación:
s2 Como X ~ N µ x , x entonces para el cálculo de probabilidades se debe esn tandarizar:
= Z
x − µx x − µx x − µx = = n sx s x2 sx n n
~
N (0,1)
6.2.3 Teorema 3.- Teorema del límite central De una población infinita con media µX y varianza σX2 se extraen muestras aleatorias de tamaño n, entonces la media muestral X se comporta aproximadamente como una variable aleatoria normal con media igual a la media poblacional y con varianza igual a la varianza poblacional dividida por el tamaño de la muestra, siempre que n sea grande. 145
Cecilia Ríos Varillas
Esto es: Sea X una variable aleatoria con distribución desconocida o diferente de la Normal, de parámetros µX y σX2 , y sea X la media muestral de una muestra aleatoria tamaño n (n > 30), entonces:
Si n >>> 30
s2 ⇒ X ~ N µX , X n
Mientras más grande sea la muestra la aproximación es mejor.
6.3 DISTRIBUCIONES MUESTRALES DE LOS ESTIMADORES Uno de los objetivos de la estadística es saber acerca del comportamiento de pa2 rámetros poblacionales tales como: la media (µX), la varianza (σX) o la diferencia de medias (µ1 – µ2). Se extrae una muestra aleatoria de la población y se calcula el valor de un estadístico2 correspondiente, por ejemplo, la media muestral (X), la varianza muestral (Sx) o la diferencia de medias muestrales (X1 – X2). El valor del estadístico es aleatorio porque depende de los elementos elegidos en la muestra seleccionada. Y, por lo tanto, el estadístico tiene una distribución de probabilidad la cual es llamada la distribución muestral del estadístico.
6.3.1 Distribución de la media muestral cuando la varianza poblacional σX2 es conocida Si X ~ N (µx ; σx2) y n ≥ 2 o si X cualquier distribución y n ≥ 30 entonces:
Z =
s2 X ~ N µx ; x n
X - µx
sx
~ N (0;1)
n Ejemplo: Una compañía vende insumos químicos, y se hace entrega de pedidos a cada empresa que lo solicita. El tiempo de demora en la entrega tiene distribución normal con promedio de 25 minutos y desviación estándar 7 minutos ¿Cuántos pedidos de insumos químicos se deben atender, para tener un tiempo promedio de entrega de insumos a lo más de 30 minutos, con una probabilidad de 0,98? Solución
146
Estadística y diseño de experimentos
Sea X: tiempo de demora (minutos) en la entrega de pedidos de insumos químicos 2 Se conoce que: X ~ N(25;72) y que: X ~ N 25; 7
n
Como la varianza poblacional es conocida, entonces, para el cálculo de probabilidades se usa:
Z =
X - µx
sx
n Se pide: P(X ≤ 30) y para calcularlo se procede a la estandarización:
30 − 25 30 − 25 P( X ≤ 30) = P Z ≤ = F 7 = 0,98 7 n n De la tabla de Z acumulativa:
0,98
0,02
2,05
5 n ≈ 2, 05 7
⇒
n ≈ 8, 2369 n≈8
Se debe atender aproximadamente 8 pedidos de insumos químicos, para tener un tiempo promedio de entrega de insumos a lo más de 30 minutos.
6.3.2 Distribución de la media muestral cuando la varianza poblacional σx2 no es conocida Si X ~ N(µx ; σx2) y n < 30, además se conoce la varianza muestral
entonces:
t =
X - µx ~ t( n-1) g .l . Sx n
Nota. Si σx2 no es conocida y n > 30, S2 se aproxima a σ2 entonces se puede usar Z. 147
Cecilia Ríos Varillas
Z=
x - µx ~ N (0;1) Sx n
6.3.3 Distribución de la varianza muestral S2 Se toma una muestra de tamaño n de una población normal con varianza σ2x Entonces
χ2 =
(n − 1) S x2
s
2 X
~ χ 2 ( n-1) g .l .
Ejemplo: El tiempo de atención de un profesor en la asesoría en una facultad, es una variable aleatoria normal con desviación estándar de 15 minutos. Este profesor es observado en la atención de 25 alumnos seleccionados al azar ¿Qué valor máximo tomará la desviación estándar de la muestra con probabilidad 0,98? Solución Sea X: tiempo de atención de un profesor en la asesoría Con los datos: σ = 15 n = 25 Se pide el valor máximo (a) que tomará la desviación estándar: P(S ≤ a) = 0,98
(n − 1) S 2 24a 2 2 ≤ a2 ) P ≤ 2 P ( S= 2 s s Como χ 2 =
(n − 1) S 2
s2
24a 2 P χ2 ≤ 0,98 = 225 De la tabla acumulativa de X2 (Ver anexo 3)
148
Estadística y diseño de experimentos
0,02
0,98 39,3641
X2 (0,98),24gl = 40,27 24a 2 = 40, 27 225
⇒
a= 19, 43 minutos
El valor máximo que puede tomar la desviación estándar de la muestra de los tiempos de asesoría a los 25 alumnos es de 19,43 minutos.
6.3.4 Distribución de la diferencia de medias muestrales si σ12 y σ22 son conocidas X1 ~ N (µ1; σ21 ) X2 ~ N (µ2; σ22 )
s2 s2 ( X 1 - X 2 ) ~ N µ1 − µ2 ; 1 + 2 n1 n2
Z=
( X 1 − X 2 ) − ( µ1 − µ2 ) s 12 s 22 + n1 n2
~ N (0;1)
Nota. También si X1 y X2 siguen cualquier distribución, y n1 ≥ 30 y n2 ≥ 30
6.3.5 Distribución de la diferencia de medias muestrales si σ12 y σ22 no son conocidas X1 ~ N (µ1; σ12 ) X2 ~ N (µ2; σ22 )
s2 s2 ( X 1 - X 2 ) ~ N µ1 − µ2 ; 1 + 2 n1 n2 2
2
Muestras pequeñas y varianzas muestrales S1 y S2 conocidas Si σ12 = σ22 :
149
Cecilia Ríos Varillas
(X
t =
1
− X 2 ) - ( µ1 − µ2 ) Sp
~
t( n1 + n2 − 2) g .l . 2
Donde Sp es la desviación estándar de la varianza ponderada Sp
1 1 S 2 (n − 1) + S 22 (n2 − 1) = S p2 + 1 1 n1 + n2 − 2 n1 n2 Si σ21 ≠ σ22:
(X
t =
− X 2 ) − ( µ1 − µ2 )
1
~ tG g .l .
s12 s22 + n1 n2
Donde
G=
s12 s22 + n1 n2 s 2 2 s 2 2 1 2 n1 n2 n −1 + n −1 2 1
6.4 EJERCICIOS DESARROLLADOS Ejercicio 1 Si P(a ≤ µX ≤ b) = 1 – α. Determinar α, a y b; de modo que la probabilidad de que la media de una muestra de 100 observaciones difiera de la media verdadera en no más de 2 sea de 1 – α, además se conoce: 100
∑x i =1
2 i
2 = 30000 y Sx = 100
Solución P(a ≤ µX ≤ b) = 1 – α
P(|X – µX| ≤ 2) = 1 – α n =100 Sx ≈ σX => Usar Z
2 −2 100 ≤ Z ≤ 100 =1 − α P (-2 ≤ X − µ X ≤ 2) =P 10 10
150
2
2
Estadística y diseño de experimentos
= P(–2 ≤ Z ≤ 2) = F(2) – F(–2) = 0,9545 = 1 – α luego α = 0,0455
∑x
2 i
= S x2
− nx 2
100 ⇔ =
n −1
30000 − 100 x 2 = ⇒ x 14,1774 99
=> P(–2 ≤ x – µx ≤ 2) = P(x – 2 ≤ µx ≤ x + 2)
{
{
= P(12,1774 ≤ µx ≤ 16,1774) a b
Entonces los valores pedidos son: a = 12,1774
α = 0,0455
b = 16,1774
Ejercicio 2 En un laboratorio se está produciendo cierta clase de vacuna donde se mide el grado de resistencia (%), esta variable sigue una distribución normal con una resistencia media de 12%. Para probar dicha efectividad se toma una muestra de 20 personas y se les aplica la vacuna, donde se encontró una desviación estándar en la resistencia de 2,5%. Calcular la probabilidad de que el grado de resistencia promedio de estas 20 personas esté comprendido en <11,8; 12,4> (%). Solución 2 σ X ~ N(12; σ2) X ~ N(12; 20 )
σ2 No se conoce n < 30 Usar t-student
n = 20 S = 2,5 P(11,8 < X < 12,4) 12,4-12 11,8 − 12 P 20 < t < 20 = P (−0,3578< t <0,7155) 2,5 2,5
Interpolando, en la tabla de t-student con 19 g.l.
t
P(T≤t)
0,688
0,75
0,7155
p0
0,861
0,8
0,861 − 0, 688 0, 7155 − 0, 688 = = → p0 0, 75795 0,80 − 0, 75 p0 − 0, 75
151
Cecilia Ríos Varillas
t
P(T≤t)
0
0,5
0,3578
p1
0,688
0,75
0, 688 − 0 0,3578 − 0 = = → p1 0, 630014 →= 1 − p1 0,36999 ≈ 0,37 0, 75 − 0,5 p1 − 0,5
= F(0,7155) – F(–0,3578) = 0,75795 – 0,3700 ≈ 0,38795 La probabilidad de que el grado de resistencia esté comprendido en el intervalo dado es de 0,38795. Ejercicio 3 La densidad de un líquido orgánico (en g/cm3) es una variable aleatoria con distribución desconocida, sin embargo se conoce que la media general es de 0,9130 g/cm3 y la desviación estándar es de 9,65978x10-4 , se realizan cincuenta determinaciones de la densidad del líquido orgánico (en g/cm3) y se desea calcular la probabilidad de que el promedio de las cincuenta mediciones de la densidad sea a lo más 0,9132 g/cm3 Solución Sea X: densidad de un líquido orgánico (en g/cm3) Se conocen los parámetros µx = 0,9130 g/cm3 y σx = 9,65978 x 10-4 g/cm3, y sea X la media muestral de las 50 determinaciones (n > 30), entonces: Por el teorema del límite central Como n >>> 30
s2 ⇒ X ~ N µX , X n
2 9, 65978 ×10−4 ) ( X ~ N 0,9130 , 50
Se pide: P(X ≤ 0,9132) => estandarizando: X − µX 0,9132 − 0,9130 P ≤ s 9, 65978 ×10−4 X n 50
P ( Z ≤ 1, 46 ) =
De la tabla normal estándar acumulativa: F(1,46) = 0,92785 152
Estadística y diseño de experimentos
Ejercicio 4 Un químico analiza dos técnicas para determinar el punto de fusión del estaño, las mediciones con cada técnica siguen una distribución normal con media de 232,26°C y 250°C y desviaciones estándares de 1,4°C y 1,8°C respectivamente. Para estos análisis realiza 15 mediciones usando la primera técnica y 12 mediciones con la segunda técnica, se desea calcular la probabilidad de que la media de la primera muestra exceda a la media de la segunda muestra en no más de 12,5°C. Solución X1 ~ N(232,26 ; (1,4)2) (X1 – X2) ~ N ( − 17, 74 ;
n1 = 15,
X2 ~ N(250 ; 1,82)
n2 = 12
1, 42 1,82 + ) 15 12
P(X1 ≤ X2 + 12,5) ―> P(X1 – X2 ≤ 12,5) = ? P( Z ≤
12,5 − (−17, 74) 1, 42 1,82 + 15 12
)= P ( Z ≤ 47, 77) ≈ 1
La probabilidad es aproximadamente 1, es decir es casi seguro que la media de la primera muestra exceda a la media de la segunda muestra en no más de 12,5°C. Ejercicio 5 Los pesos de los usuarios regulares de un ascensor siguen una distribución Normal, con una media de 70 Kg y una desviación estándar de 10 Kg a. ¿Qué peso máximo debería soportar el ascensor, de modo que, solo en el 1% de las ocasiones el peso de 4 personas supere ese peso máximo? b. Si el ascensor admite como peso máximo 585 kg. ¿Cuántas personas a la vez pueden entrar al ascensor de manera que, la probabilidad de que el peso no supere el máximo permitido sea 0,0668? Solución X: Peso (Kg) de usuarios regulares de un ascensor X ~ N(70,100) a. Sea Y = x1 + x2 + x3 + x4 , la suma de los pesos de las cuatro personas.
153
Cecilia Ríos Varillas
Calculando E(Y) = 4µ = 4(70) = 280 V(Y) = 4V(X) = 4(100) = 400 Entonces: Y ~N(280,400)
{
P(x1 + x2 + x3 + x4 > M) = 0,01
Y
P(Y > M ) => P( Z
M − 280 M − 280 ) =⇒ 0, 01 P( Z ≤ )= 0,99 20 20
En tablas: M − 280 = 2,33 ⇒ M = 326, 6 20
El peso máximo que debería soportar el ascensor, para que cumpla la condición dada es de 326,6 Kg. b. Sea n: número de personas que pueden entrar en el ascensor de manera que, la probabilidad de que el peso no supere el máximo permitido sea 0,0668. Sea W = x1 + x2 + ... + xn , luego calculamos sus parámetros respectivos: E(W) = E(x1 + ... + xn) = 70n V(W) = V(x1 + ... + xn) = 100n Entonces: P(X ≤ 585) = 0,0668
P( Z ≤
585 − 70n )= 0, 0668 100n
En tablas:
585 − 70n = −1,5 ⇒ 100n
n= 9
Pueden entrar en el ascensor 9 personas, de tal manera que la probabilidad de que el peso no supere el máximo permitido sea 0,0668.
154
Estadística y diseño de experimentos
Ejercicio 6 Considere un juego de azar, en donde uno puede ganar 10 dólares o perder 1, 2, 3 ó 4 dólares; cada posibilidad tiene una probabilidad 0,20 ¿Cuántas veces podemos jugar este juego si ha de haber una probabilidad de 0,95 que en el resultado final, la ganancia ó pérdida promedio por juego esté entre -2 y 2 dólares? (asuma distribución normal) X: Ganancia en el juego de azar x
10
-1
-2
-3
-4
P(x)
0,2
0,2
0,2
0,2
0,2
Solución Calculando los parámetros respectivos: µx = E(x) = 0 V(x) = E(x2) – E(x)2 = 26 Entonces: X ~ N(0;26) P(–2 < X < 2) = 0,95 P(−2 < X < 2) = 0,95 −2 2 P(
2 = 1,96 26 n n = 24,9704 ≈ 25 Ejercicio 7 Se tiene 2 métodos para medir el volumen de una sustancia química: El método A (con pipeta) y el método B (con probeta), ambos métodos se distribuyen normalmente con medias de 30 y 38(cm3) respectivamente. Se realizan 8 mediciones con pipeta y se encuentra una desviación estándar de 2 cm3 y 10 mediciones con probeta y se obtiene una desviación estándar de 2,5 cm3. Calcular la probabilidad de que las medias muestrales de ambos métodos difieran en no menos de 7 cm3. (Asumir varianzas poblacionales iguales).
155
Cecilia Ríos Varillas
Solución
s2 s2 ( X 1 − X 2 ) ~ N -8; 1 + 2 8 10 σ21 y σ22 desconocidas σ21 = σ22 => usar t con Sp P(|X1 – X2| ≥ 7) = 1 – P(|x1 – x2| < 7) = 1 – P(– 7 < x1 – x2 < 7) 2 2 1 1 7 S1 + 9 S 2 S12 = 4 S 22 == (2,5) 2 S p 1, 08847 = + 16 8 10
−7 − (−8) +7 − (−8) =1− P ≤t ≤ Sp Sp
= 1 – P(0,9187 ≤ t ≤ 13,7808) = 1 – [F(13,7808) – F(0,9187)] ≈ F(0,9187) F(13,7808) ≅ 1 interpolando para t16gl => F(0,9187) = 0,81303
6.5 EJERCICIOS PROPUESTOS Ejercicio 1 La v.a. X: Temperatura (°F) de cierto compuesto químico, se distribuye en forma Normal, Se realizan 9 determinaciones de la temperatura y se sabe que: P(X ≥ 5) = 0,9772
P(X ≥ 7) = 0,0668
Donde X es la media de una muestra de las 9 determinaciones efectuadas. Calcular: a. E(X) y varianza V(X) b. Probabilidad de que la media muestral difiera de la media poblacional en no menos de 3,5. Ejercicio 2 Sí X: Peso de sobres de café (g.) se distribuye Normalmente con media µx y varianza σ2x se toma una muestra tamaño n = 9, además: P(X < 124,05) = 0,91149 Calcular: a. La media µx y varianza σx2 b. P (123 < X < 124,20) 156
P(X > 122,76) = 0,17879
Estadística y diseño de experimentos
Ejercicio 3 Se estudian dos técnicas para comparar el nivel de productividad de frutos de manzano, se toman dos muestras de 8 y 6 árboles respectivamente. Se asumen que la productividad de cada técnica sigue una distribución normal con medias de 15 y 17 manzanos respectivamente, y desviaciones estándares poblacionales de 3,5 y 4,0 manzanos respectivamente. Calcular la probabilidad de que la diferencia de medias muestrales difiera en menos de 2 frutos. Ejercicio 4 En una planta industrial se realizan emisiones diarias (en toneladas) de óxidos de azufre que están distribuidas normalmente con una media de 21,8 Tn. De la emisión de un día, se realizan 20 determinaciones de óxidos de azufre, obteniéndose una desviación estándar de 5,4 Tn.. Se desea calcular la probabilidad de que la emisión promedio de ese día difiera de 2, en por lo menos 20 Tn. Ejercicio 5 El consumo promedio de gasolina de autos de la marca A es 45 Km/galón. De manera análoga para autos de marca B es 50 Km/galón. Asumiendo que el consumo de gasolina de ambas marcas esta normalmente distribuido. Se toma una muestra de 10 autos de la marca A y se obtiene una desviación estándar de 8 Km/ galón y 12 autos de la marca B y se obtiene una desviación estándar de 6 Km/ galón ¿Cuál es la probabilidad que el consumo promedio de gasolina de los 10 autos de la marca A sea mayor que el consumo promedio de gasolina de los 12 autos de la Marca B?
157
Cecilia Ríos Varillas
158
Estadística y diseño de experimentos
CAPÍTULO 7
Inferencia estadística
Luego de haber presentado la estadística descriptiva, se ha estudiado una serie de procedimientos y técnicas que permiten un conocimiento descriptivo de las características básicas de una población. Pero en general, no se puede casi nunca tratar con información completa de la población. Ya sea porque la población a estudiar es muy grande, por motivos económicos, falta de personal calificado, etc.; para una mayor rapidez en la recogida y presentación de los datos, lo que se suele hacer es obtener los datos de una muestra representativa de la población. Los resultados experimentales cuantitativos carecen de interés si no van acompañados de una estimación de los errores ocurridos en su medida. Es muy común usar a la media como la estimación de la cantidad medida y la desviación estándar como la estimación de la precisión. En este capítulo se estudiará la estimación de los parámetros que nos permitan tener una idea muy próxima a los verdaderos valores que representan a la población, como también realizar procedimientos para probar hipótesis propuestas por los investigadores y que se desee analizar.
7.1 DEFINICIÓN DE LA ESTADÍSTICA INFERENCIAL La Estadística inferencial se ocupa de extender o extrapolar a toda una población, de informaciones obtenidas de una muestra, para la toma de decisiones. Así por ejemplo, cuando se pretende conocer de antemano los resultados de algunas pruebas en laboratorio, se hacen un grupo de mediciones sobre lo que se desea analizar. Se trata en este caso, de extrapolar para toda la población, los resultados derivados de las mediciones. La Estadística Inferencial nos ayuda en este caso, cabe mencionar que siempre existirá un margen de error en los resultados obtenidos. La Inferencia Estadística es la parte de la estadística matemática que se encarga del estudio de los métodos para la obtención del modelo de probabilidad (forma funcional y parámetros que determinan la función de distribución) que sigue una 159
Cecilia Ríos Varillas
variable aleatoria de una determinada población, a través de una muestra (parte de la población) obtenida de la misma. Es decir, estudia el comportamiento de una población a partir de una muestra, con cierto grado de incertidumbre. Los dos problemas fundamentales que estudia la inferencia estadística son el “Problema de la estimación” y el “Problema del contraste o prueba de hipótesis”. Todo nuestro estudio se basa en la normalidad de las distribuciones que empleamos.
7.2 OBJETIVOS DE LA INFERENCIA ESTADÍSTICA - Estimar los parámetros de la población como la media poblacional, varianza poblacional y diferencias de medias poblacionales - Utilizar distintos tamaños muestrales para controlar la confianza y el error admitido - Contrastar los resultados obtenidos a partir de muestras - Visualizar gráficamente, mediante las respectivas curvas normales, las estimaciones realizadas
Principios Básicos de estadística inferencial - Tamaño que ha de tener. Parece evidente, que a mayor tamaño, más se acercaran los parámetros que calculemos, a los de la población. - Muestras han de ser representativas. Cuando no se tienen en cuenta estos dos principios básicos, las inferencias realizadas son deficientes. La Inferencia se basa en: - Estimación de Parámetros - Prueba de Hipótesis
7.3 ESTIMACIÓN DE PARÁMETROS Llamaremos así al procedimiento utilizado cuando se quiere conocer las características de un parámetro poblacional, a partir del conocimiento de la muestra. En una población cuya distribución es conocida pero desconocemos algún parámetro, podemos estimar dicho parámetro a partir de una muestra representativa. Un estimador es un valor que puede calcularse a partir de los datos muestrales y que proporciona información sobre el valor del parámetro. Por ejemplo, la media muestral es un estimador de la media poblacional, la varianza observada en la muestra es un estimador de la varianza de la población. 160
Estadística y diseño de experimentos
Por ejemplo, si se estudia el peso (Kg) de cierto producto y queremos saber cuál es la verdadera media del peso de dicho producto, mediante una muestra de n= 40 productos. Podemos hacer una primera aproximación, utilizando la media muestra; sin embargo, este valor está sesgado debido a que solo representa a una muestra. Podríamos decir que la media buscada es próxima a 3 Kg., pero ¿cuánto de próxima? ¿Digamos que 200 gramos más o menos? Esto significaría que la media estaría entre 2,8 y 3,2 Kg.. Esto último se denomina estimar por intervalo, y es uno de los métodos que ahora vamos a ver. La estimación de parámetros puede ser: - Estimación puntual - Estimación por intervalos
7.3.1 Estimación puntual Una estimación es puntual cuando se obtiene un único valor para el parámetro. Los estimadores más probables en este caso son los estadísticos obtenidos en la muestra, aunque es necesario cuantificar el riesgo que se asume al considerarlos. Recordemos que la distribución muestral indica la distribución de los valores que tomará el estimador al seleccionar distintas muestras de la población. Las dos medidas fundamentales de esta distribución son la media que indica el valor promedio del estimador y la desviación estándar, también denominada error típico de estimación, que indica la desviación promedio que podemos esperar entre el estimador y el valor del parámetro. Para que un estadístico sea un buen estimador puntual
debe ser:
- Consistente, el estimador θ� es consistente cuando al aumentar el tamaño de la muestra la varianza tienda a cero - Insesgado; el estimador θ� es insesgado, si la esperanza del estimador es igual � = θ θ� es el estimador de θ (Es cercano al valor a su parámetro respectivo: E(θ) verdadero) - Eficiente, varianza mínima de todos los posibles estimadores insesgados. - Suficiente; Un estimador θ� es suficiente cuando no da lugar a pérdida de información; es decir, cuando la inferencia basada en θ� es tan buena como la que hiciera uso de toda la muestra. � X es un buen estimador puntual del parámetro = µ , ya que cumple Ejemplo: θ= x con las condiciones citadas anteriormente:
= E( X )
V (X ) µ= X
s X2 Es la menor varianza. n
161
Cecilia Ríos Varillas
La estimación puntual, implica cierto riesgo, ya que con un solo valor se estima al verdadero parámetro de la población, no es el método más utilizado para estimar parámetros, el que más se aplica es la estimación por intervalos.
7.3.2 Estimación por intervalos (Límites de Confianza) La estimación por intervalos resulta útil ya que con ella calculamos dos valores entre los que se encontrará el parámetro, con un nivel de confianza fijado de antemano. Llamamos Intervalo de confianza al intervalo que con un cierto nivel de confianza, contiene al parámetro que se está estimando. La técnica de la estimación confidencial consiste en asociar a cada muestra un intervalo que se sospecha que debe contener al parámetro y se le denomina intervalo de confianza, evidentemente esta técnica no tiene porqué dar siempre un resultado correcto. A la probabilidad de que hayamos acertado al decir que el parámetro está contenido en dicho intervalo se la denomina nivel de confianza. Es decir: Nivel de confianza es la “probabilidad” de que el intervalo calculado contenga al verdadero valor del parámetro. Se indica por (1 – α) y habitualmente se da en porcentaje (1 – α) 100%. También se denomina nivel de significación a la probabilidad de equivocarnos: α. Si L1 y L2 (son los límites de confianza), y θ� estimador de θ, entonces: P(L1 ≤ θ ≤ L2) = 1 – α Al valor L1 se le llama límite inferior de confianza y al valor L2 se le llama límite superior de confianza de dicho intervalo. 7.3.2.1 Intervalo de confianza para la media poblacional µX Conjunto o rango de valores o intervalo centrado en una media muestral (estimador de
µ x ), que consiste en calcular L1 y L2 (los límites de confianza).
L1 ≤ µX ≤ L2 : Límites dentro del cual se espera que esté contenida la media población µX con una probabilidad de confianza de (1 – α) o (1 – α) 100% denominado nivel o coeficiente de confianza. Donde: (1 – α): Nivel de confianza (éxito) α: Nivel de significación (error o fracaso) 162
Estadística y diseño de experimentos
Para calcular los límites de confianza se presentan dos casos: 1er. caso. Si la varianza poblacional σX2 es conocida La estimación para la media poblacional "µX" por intervalo de confianza cuando σx2 es conocida, se realiza utilizando la distribución normal. Para estimar µX, el estadístico que mejor nos va a ayudar es X del que conocemos su distribución: σ2 X ~ N (µX, x) n Esa distribución depende de µX (desconocida). Lo más conveniente es hacer que la ley de distribución no dependa de ningún parámetro desconocido, y como σx2 es conocida, estandarizamos:
Z=
X − µX
sX
~ N (0,1)
n ∩
De este modo, fijado α 0,1 consideramos la variable aleatoria Z ~ N(0,1) y tomamos un intervalo que contenga una masa de probabilidad de 1 – α. Este intervalo lo queremos tan pequeño como sea posible. Por ello lo mejor es tomarlo simétrico con respecto a la media (0), ya que allí es donde se acumula más masa (véase la figura). Así las dos colas de la distribución (zonas más alejadas de la media) se repartirán a partes iguales el resto de la masa de probabilidad, α
α /2
α /2
1−α
Zα /2
0
Z1−α /2
Figura 7.1. Intervalo de confianza
Zα/2 y Z1–α/2 difieren en el signo Vamos a precisar cómo calcular el intervalo de confianza: Sean P(Z ≤ zα/2) = α/2 y P(Z ≤ z1 – α/2) = 1 – α/2 Es útil considerar en este punto la simetría de la distribución normal, y observar que los valores anteriores son los mismos aunque con el signo cambiado: 163
Cecilia Ríos Varillas
zα/2 = –z1 – α/2 El intervalo alrededor del origen que contiene la mayor parte de la masa 1 – α, es el intervalo siguiente [zα/2,–z1 – α/2] lo que habitualmente escribiremos como: |z| ≤ z1 – α/2, es decir: P(|z| ≤ z1 – α/2) = 1 – α De este modo podemos afirmar que existe una probabilidad de 1 – α de que al extraer una muestra aleatoria de la variable en estudio, ocurra:
z ≤ z1−α / 2 ⇒
X − µX
sX
≤ z1−α / 2 ⇒ X − µ X ≤ z1−α / 2
sX
n
n
, de este modo un intervalo de confianza al nivel 1 – α , para la esperanza de una normal de varianza conocida es el comprendido entre los valores:
sX n s x1−α /= X + z1−α / 2 X 2 n xα /= X − z1−α / 2 2
Es decir: P ( X − z1−α / 2 s X ≤ µ X ≤ X + z1−α / 2 s X ) =1 − α n n
La forma habitual de escribir este intervalo es:
LC ( µ X = ) X ± z1−α / 2
sX n
A la expresión E, también se le conoce como error máximo de estimación. E = z1−α /2
sX n
Estimación del tamaño muestral Antes de realizar un estudio de inferencia estadística sobre una variable, lo primero es decidir el número de elementos, n a elegir en la muestra aleatoria. Para ello consideremos que el estudio se basa en una variable de distribución normal, 164
Estadística y diseño de experimentos
y nos interesa obtener para un nivel de significación α dado, una precisión (error máximo de estimación) E . Para ello, de la fórmula anterior:
µ X= X ± z1−α / 2
sX n
Siendo: E = z1−α / 2 s X n Despejando n ≥ z1−α / 2 .s X E
2
2do Caso: Si no se conoce la varianza poblacional σ2X Como hemos mencionado, los casos anteriores se presentarán poco en la práctica, ya que lo usual es que sobre una población quizás podamos conocer si se distribuye normalmente, pero el valor exacto de los parámetros µX y σX2 no son conocidos. De ahí nuestro interés en buscar intervalos de confianza para ellos. El problema que tenemos en este caso es más complicado que el anterior, pues no es tan sencillo eliminar los dos parámetros a la vez. Para ello, cuando n ≤ 30 y se conoce S2x nos vamos a ayudar de la prueba estadística de t-student siguiente:
T=
X − µX ~ t( n −1) g .l . SX n
Dado el nivel de confianza 1-α buscamos en una tabla de T, el valor de t(n–1) con 1-α/2 de probabilidad. Por simetría de la distribución de Student se tiene que t(n–1,1–α/2) = – t(n–1,α/2), luego P(|t| ≤ t(n–1,1–α/2)) = 1 – α El intervalo de confianza se obtiene a partir del siguiente cálculo:
t ≤ t( n −1,1−α / 2) ⇒
X − µX S ≤ t( n −1,1−α / 2) ⇒ X − µ X ≤ t( n −1,1−α / 2) X SX n n
165
Cecilia Ríos Varillas
Entonces:
P( X − t( n −1,1−α / 2)
SX S ≤ µ X ≤ X + t( n −1,1−α / 2) X ) =1 − α n n
Es decir, el intervalo de confianza al nivel 1 – α para la esperanza de una distribución normal cuando sus parámetros son desconocidos es:
) X ± t( n −1,) gl (1−α /2) LC ( µ X =
SX n
Ejemplo: Se quiere estimar un intervalo de confianza al nivel de significación α = 0,05 para el volumen promedio µX correspondientes a las mediciones del volumen al realizar una investigación. En principio sólo sabemos que la distribución de los volúmenes (cm3.) es una variable aleatoria X de distribución normal. Para ello se realizan 25 mediciones del volumen y se obtienen sus estadísticos respectivos: X = 170 cm3 y Sx = 10 cm3. Solución Como no se conoce σ2x, entonces usamos:
) X ± t( n −1,) gl (1−α /2) LC ( µ X =
SX n
t(24gl;0,975) = 2,06
Reemplazando, tenemos.
LC ( µ X ) =170 ± (2, 06)
10 =170 ± 4,12 = 25
P(170 – 4,12 ≤ µX ≤ 170 + 4,12) = P(165,88 ≤ µX ≤ 174,12) = 1 – α = 0,95
∩
Con un nivel de confianza del 95% podemos decir que la media poblacional está en el intervalo siguiente µX [165,88; 174,12] cm3 . Nota. En este 2do. Caso, cuando no se conoce σx2 y muestras grandes: (n > 30), entonces SX ≈ σx2 y se puede usar Z. Estimación del tamaño muestral En este caso, usamos:
166
) X ± t( n −1) gl ,(1−α /2) LC ( µ X =
SX n
Estadística y diseño de experimentos
Siendo: E = t( n −1,1−α / 2) 1
S X , error de estimación n
t( n −1,1−α / 2 ).S X n≥ 1 E
Despejando
2
Donde SX2 es la varianza muestral (estimación de la varianza poblacional). Para obtenerla, tomamos una muestra piloto que sirve para dar una idea previa de los parámetros que describen una población. Ejemplo: En el ejemplo anterior se ha estudiado la variable volumen (cm3) de las mediciones, considerando que ésta es una variable que se distribuye de modo normal. Para ello se realizaron de 25 mediciones del volumen, que ofreció los siguientes resultados: X = 170 cm3 y Sx = 10 cm3. Calcular cuántas mediciones del volumen, se debe realizar para que se obtuviese un intervalo de confianza para la media poblacional con un nivel de significación α =0,01 (al 99%) y con una precisión de E = 1 cm3. Solución Obsérvese que sobre la muestra piloto, el error cometido al estimar el intervalo al 95% fue aproximadamente de 4.12cm3 por lo que si buscamos un intervalo de confianza tan preciso, el tamaño de la muestra, n, deberá ser bastante mayor, entonces se debe considerar en este caso SX2 ≈ σx2, y se obtiene: (con α = 0,01). 2
2
.s z 2,58 ×10 n ≥ 1−α /2 X ⇒ n ≥ ⇒ n ≥ 665, 64 ⇒ n ≈ 666 1 E Por tanto, si queremos realizar la investigación con toda la precisión requerida en el enunciado, se debería realizar 666 mediciones del volumen. Esto es una indicación de gran utilidad antes de comenzar la investigación. Una vez que se haya ejecutado las mediciones, se debe confirmar que el error para el nivel de significación dado es inferior o igual a 1 cm3, utilizando la muestra obtenida. 7.3.2.2 Intervalo de confianza para la varianza poblacional σX2 Para estimar un intervalo de confianza para la varianza poblacional, se usa la distribución χ 2 :
χ2 =
(n − 1) S x2
s
2 X
≈ χ 2 ( n −1) g .l .
167
Cecilia Ríos Varillas
Consideremos dos valores de esta distribución que nos dejen una probabilidad 1-α en la “zona central” de la distribución P( χ 2 < χ (2n −1) gl , α /2 ) = α /2 ⇒ P( χ (2n −1) gl , α /2 ≤ χ 2 ≤ χ (2n −1) gl , 1−α /2 ) =− 1 α 2 2 P( χ > χ ( n −1) gl ,1−α /2 ) = α /2
Entonces un intervalo de confianza al nivel 1-α para la varianza de una distribución normal (cuyos parámetros desconocemos) lo obtenemos del siguiente modo: χ (2n −1) gl , α /2 ≤ χ 2 ≤ χ (2n −1) gl , 1−α /2 ⇒ χ (2n −1) gl , α /2 ≤ ⇒
(n − 1) S x2
(n − 1) S x2
χ
2 ( n −1) gl , 1−α /2
s X2
≤ χ (2n −1) gl , 1−α /2
≤ s X2 ≤
(n − 1) S x2
χ (2n −1) gl , α /2
(n − 1) S 2 (n − 1) S x2 x = ≤ s X2 ≤ 2 P 2 1−α χ ( n −1) gl , 1−α /2 χ gl , α /2 n − 1 ( )
Entonces:
(n − 1) S 2 (n − 1) S 2 2 x x ; 2 con una conPor tanto el intervalo que se busca es s X ∈ 2 χ χ n −1) gl , 1−α /2 n −1) gl , α /2 ( ( fianza del (1 – α) 100%.
Ejemplo: En el ejemplo anterior se estudiaba el volumen (cm3) de las mediciones, considerando que ésta es una variable que se distribuye de forma normal y que se realizaron 25 mediciones del volumen, que ofreció los siguientes resultados: X = 170 cm3 y Sx = 10 cm3. Calcule un intervalo de confianza con α =0,05 para la varianza σX2 del verdadero volumen de las mediciones realizadas. Solución Para estimar un intervalo de confianza para σX2 (varianza poblacional) lo obtenemos mediante: ⇒
(25 − 1)100 2 χ 24;0,975
168
(25 − 1)100 2 χ 24;0,025
⇒
(25 − 1)100 (25 − 1)100 ≤ s X2 ≤ 39, 4 12, 4
[60,9137;193.5484] (cm3)2
∩
Entonces: σX2
≤ s X2 ≤
Estadística y diseño de experimentos
∩
Por tanto, para el valor poblacional de la desviación estándar tenemos que σX [7,80472;13,91217] cm3 con una confianza del 95%, que por supuesto contiene a la estimación puntual Sx = 10 cm3 calculado sobre la muestra. 7.3.2.3 Intervalos para la diferencia de medias de dos poblaciones µ1 – µ2 Consideremos el caso en que tenemos dos poblaciones de modo que el carácter que estudiamos en ambas (X1 y X2) son variables aleatorias distribuidas según leyes normales. X1 ~ N(µ1;σ21)
X2 ~ N(µ2;σ22)
En cada una de estas poblaciones se extrae mediante muestreo aleatorio simple, muestras que no tienen por qué ser necesariamente del mismo tamaño (respectivamente n1 y n2) y sean X1 y X2 las medias de estas dos muestras. Como ya sabemos: X 1 − X 2 ~ N ( µ1 − µ2 ,
s 12 n1
+
s 22 n2
)
Podemos plantearnos a partir de las muestras el saber qué diferencias existen entre las medias de ambas poblaciones, o por ejemplo estudiar las relaciones existentes entre sus dispersiones respectivas. A ello vamos a dedicar los siguientes puntos: 1er. Caso, si las varianzas σ21 y σ22 son conocidas Esa ley de distribución depende de µX (desconocida). Lo más conveniente es hacer que la ley de distribución no dependa de ningún parámetro desconocido, y como σ21 y σ22 son conocidas, estandarizamos:
Z=
( X 1 − X 2 ) − ( µ1 − µ2 )
s 12 n1
+
s 22
~ N (0,1)
n2
Siguiendo los mismos pasos, del 1er. Caso para estimar el intervalo de confianza para µX, obtenemos en este caso:
LC ( µ1 − µ2 ) = ( X 1 − X 2 ) ± z1−α / 2
s 12 n1
+
s 22 n2
169
Cecilia Ríos Varillas
2do. Caso, si las varianzas σ21 y σ22 no son conocidas En este caso, si las muestras son pequeñas, se conocen las varianzas muestrales S21 y S22 y las varianzas poblacionales desconocidas (asumiendo σ12 = σ22 homocedasticidad), usaremos: T=
( X 1 − X 2 ) − ( µ1 − µ2 ) ~ t( n1 + n2 − 2) g .l Sp
1 1 S12 (n1 − 1) + S 22 (n2 − 1) + n1 + n2 − 2 n1 n2
S p2 Donde: =
Si 1-α es el nivel de confianza con el que deseamos establecer el intervalo para la diferencia de las dos medias, calculamos el valor t((n1 + n2 – 2)gl, 1–α/2). Luego el intervalo de confianza al nivel 1-α para la diferencia de medias de dos poblaciones con la misma varianza (aunque esta sea desconocida) es: LC (µ1 – µ2) = (X1 – X2) ± t((n1 + n2 – 2)gl, 1–α/2). Sp
7.4 PRUEBA O CONTRASTE DE HIPÓTESIS Una hipótesis estadística es una asunción relativa a una o varias poblaciones, que puede ser cierta o no. Las pruebas de hipótesis permiten verificar la veracidad de alguna hipótesis establecida acerca de una población, determinando si los valores difieren significativamente de los esperados por la hipótesis. Las hipótesis estadísticas se pueden contrastar con la información extraída de las muestras y tanto si se aceptan como si se rechazan puede presentar error. Por ejemplo. Se realiza Prueba de Hipótesis si se piensa que un método de producción nuevo puede tener un porcentaje de rendimiento mayor que otro antiguo, o cuando se plantea si los contenidos de cierta sustancia química de distintos detergentes vendidos en el mercado nacional son similares. En esta sección se presenta las pruebas de hipótesis para los parámetros más usuales que fueron citados en la sección anterior: media, varianza y diferencia de medias poblacionales, con la asunción que los datos de partida siguen una distribución normal. En las pruebas de hipótesis se distinguen dos tipos de hipótesis: Hipótesis nula Es la hipótesis formulada con intención de rechazarla y se representa por H0 , es la hipótesis que se formula antes de tener información de la muestra, generalmente en base a estudios anteriores o por la experiencia del investigador. 170
Estadística y diseño de experimentos
Hipótesis alternante Rechazar H0 implica aceptar una hipótesis alternativa (H1), es la hipótesis que se formula como alternativa de la nula, después de tener información de la muestra. Normalmente H1 es la negación de H0, aunque esto no es necesariamente así.
7.4.1 Tipos de errores La decisión de rechazar o no la hipótesis nula está justificada en la elección de una muestra tomada al azar, y por tanto es posible cometer decisiones erróneas. Los errores que se pueden cometer se clasifican como sigue: Error de tipo I Es el error que consiste en rechazar H0 cuando es cierta. La probabilidad de cometer este error es lo que anteriormente se ha denominado nivel de significación. Es una costumbre establecida el denotarlo siempre con la letra α. α = P (rechazar H0 | H0cierta) Error de tipo II Es el error que consiste en no rechazar H0 cuando es falsa. Se denota con la letra β. β = P (aceptar H0| H0 falsa) Potencia =1-β = P (rechazar H0|H0 falsa) La situación se puede esquematizar: Cuadro 7.1. Tipos de Errores H0falsa H1 cierta
H0 cierta H0 rechazada
Error tipo I (α)
Decisión correcta
H0 no rechazada
Decisión correcta
Error tipo II (β)
7.4.2 Tipos de prueba Cuando se realiza una prueba o contraste de hipótesis, se presentan los siguientes tipos de prueba que se pueden analizar, y dependiendo de lo que se quiera probar y su contraste respectivo, sólo una de ellas será la que queda. H0 : θ = θ0 H1 : θ ≠ θ0
Prueba de 2 colas (contraste bilateral)
171
Cecilia Ríos Varillas
H0 : θ ≥ θ0
Prueba de una cola a la Izquierda (contraste unilateral a la iz- H : θ < θ 0 quierda) 1 H0 : θ ≤ θ0
Prueba de una cola a la Derecha (contraste unilateral a la de- H : θ > θ0 recha) 1
7.4.3 Pasos necesarios para realizar una Prueba de Hipótesis a un parámetro Paso 1 Establecer la hipótesis nula en términos de igualdad y su hipótesis alternativa respectiva: H0 : θ = θ0 H1 : θ ≠ θ0
H0 : θ ≥ θ0 H1 : θ < θ0
H0 : θ ≤ θ0 H1 : θ > θ0
La hipótesis nula, en cualquiera de los casos puede ser: H0 : θ = θ0 Paso 2 Elegir un nivel de significación: nivel crítico α Paso 3 Suposiciones del Modelo: Poblaciones Normales Muestras aleatorias Paso 4 Elegir un estadístico de prueba o de contraste: Z, T; ó χ2 estadístico cuya distribución muestral se conozca en H0, y establecer en base a dicha distribución, la región crítica: Región de Rechazo de H0 (probabilidad α) región en la que, si el estadístico cayera en la misma, se rechazaría H0; y también la Región de Aceptación H0 (probabilidad de 1-α). Paso 5 Calcular el estadístico para una muestra aleatoria reemplazando el valor propuesto del parámetro (valor calculado) y compararlo con la región crítica (de acuerdo a las tablas estadísticas). 172
Estadística y diseño de experimentos
- La región de aceptación de la hipótesis nula es la que corresponde a 1 – α. - Si el valor calculado cae en la zona de Aceptación de H0 => Se acepta la H0. - Si el valor calculado cae en la zona de Rechazo de H0 => Se rechaza H0 y se acepta la Alternativa H1 Obsérvese que, de esta manera, se está más seguro cuando se rechaza una hipótesis que cuando no. Por eso se fija como H0 lo que se quiere rechazar. Cuando no se rechaza, no se ha demostrado nada, simplemente no se ha podido rechazar. Por otro lado, la decisión se toma de acuerdo a la distribución muestral en H0, por eso es necesario que tenga la igualdad. Paso 6 Interpretación, de acuerdo al problema. Observación. Para dar una forma homogénea a todos los contrastes de hipótesis es costumbre denominar al valor del estadístico del contraste calculado sobre la muestra como valor calculado o experimental y a los extremos de la región crítica, como valores teóricos o tabulados. Estudiaremos Prueba o Contrastes de Hipótesis para: a. La Media Poblacional (Varianza conocida y Desconocida). b. La diferencia de Medias Poblacionales (Varianzas Conocidas y Desconocidas) c. La Varianza Poblacional d. Prueba de Homogeneidad de Varianzas
7.4.4 Prueba de Hipótesis para los Parámetros De manera similar a los intervalos de confianza, también se presenta las pruebas de hipótesis para los parámetros como la media poblacional, la diferencia de medias poblacionales, para la varianza poblacional y también se presenta la prueba de homogeneidad de varianzas, que es una prueba necesaria cuando se presentan dos poblaciones con varianzas desconocidas y un paso muy importante es comprobar que esas varianzas desconocidas sean iguales. 7.4.4.1 Prueba de hipótesis para la media poblacional µX Suponemos que la población se distribuye normalmente: X ~ N(µX,σx2), luego para realizar la prueba de hipótesis se presenta dos casos: 1er. Caso. Si la varianza poblacional σx2 es conocida Las hipótesis respectivas son:
173
Cecilia Ríos Varillas
H0 : µ = µ0 H1 : µ ≠ µ0
H0 : µ ≥ µ0 H1 : µ < µ0
H0 : µ ≤ µ0 H1 : µ > µ0
En cualquiera de los casos la hipótesis nula también puede ser: H0 : µ = µ0 . El valor del parámetro propuesto se reemplaza en la prueba de Z, y se encuentra un valor calculado:
X - µ0 Z cal = n sX Las regiones críticas de una media µX con varianza conocida, puede ser bilateral o unilateral (depende de H1)
Prueba bilateral: (de 2 colas)
H1 : µ ≠ µ 0
Región de Aceptación Zα /2
0
Z1−α /2
Pruebas unilaterales
Zα
H1 : µ < µ 0
H1 : µ > µ 0
Región de Aceptación
Región de Aceptación
0
0
Prueba de 1 cola a la izquierda
Prueba de 1 cola a la derecha
Figura 7.2. Regiones críticas de una media µX con varianza conocida
R.Aceptación de H0 —> Aceptar H0
Si Zcal
R.Rechazo de H0 —> Rechazar H0 y Aceptar H1
∩
∩
Si Zcal
174
Z1−α
Estadística y diseño de experimentos
2do. Caso. Si la varianza poblacional σX2 no es conocida Las hipótesis respectivas son: H0 : µ = µ0 H1 : µ ≠ µ0
H0 : µ ≥ µ0 H1 : µ < µ0
H0 : µ ≤ µ0 H1 : µ > µ0
En cualquiera de los casos la hipótesis nula también puede ser: H0 : µ = µ0 El valor del parámetro propuesto se reemplaza, y se encuentra un valor calculado de t:
X - µ0 t cal = n SX Las regiones críticas de una media µX con varianza desconocida, puede ser bilateral o unilateral (depende de H1) . Prueba bilateral: (de 2 colas)
H1 : µ ≠ µ 0
Región de Aceptación tα /2
0
t1−α /2
Pruebas unilaterales
H1 : µ < µ 0
Región de Aceptación tα
0
Prueba de 1 cola a la izquierda
H1 : µ > µ 0
Región de Aceptación 0
t1−α
Prueba de 1 cola a la derecha
Figura 7.3. Regiones críticas de una media µX con varianza desconocida
R.Aceptación de H0 —> Aceptar H0
Si tcal
R.Rechazo de H0 —> Rechazar H0 y Aceptar H1
∩
∩
Si tcal
175
Cecilia Ríos Varillas
7.4.4.2 Prueba de hipótesis para la diferencia de medias poblacionales µ1 – µ2 Sean dos poblaciones X1 y X2 dos poblaciones, cuyas distribuciones son: X1 ~ N(µ1;σ12)
X2 ~ N(µ2;σ22)
De cada una de ellas se toma una muestra y se calculan sus promedios muestrales respectivos X1 y X2, cuya distribución es la siguiente:
s2 s2 X 1 − X 2 ~ N µ1 − µ2 , 1 + 1 n1 n1 Como se analizó en el capítulo anterior, aquí también tenemos dos casos: 1er. caso, si las varianzas poblacionales σ12 y σ22 son conocidas Las hipótesis respectivas son: H0 : µ1 – µ2 = Δ H1 : µ1 – µ2 ≠ Δ
H0 : µ1 – µ2 ≥ Δ H1 : µ1 – µ2 < Δ
H0 : µ1 – µ2 ≤ Δ H1 : µ1 – µ2 > Δ
En cualquiera de los casos la hipótesis nula también puede ser: H0 : µ1 – µ2 = Δ El valor del parámetro propuesto se reemplaza en el estadístico de prueba (Z), y se encuentra un valor calculado de Z:
Z cal =
( x1 - x2 ) − ∆
s 12 + s 22 n1
n2
2do. caso, si las varianzas poblacionales σ21 y σ22 no son conocidas Las hipótesis respectivas son: H0 : µ1 – µ2 = Δ H1 : µ1 – µ2 ≠ Δ
H0 : µ1 – µ2 ≥ Δ H1 : µ1 – µ2 < Δ
H0 : µ1 – µ2 ≤ Δ H1 : µ1 – µ2 > Δ
En cualquiera de los casos la hipótesis nula también puede ser: H0 : µ1 – µ2 = Δ Antes de reemplazar el valor del parámetro propuesto en el estadístico de prueba, se realiza la Prueba de Homogeneidad de varianzas (la última prueba de hipótesis en esta sección) y al finalizar, puede ocurrir lo siguiente:
176
Estadística y diseño de experimentos
a. Si σ21 = σ22 (Homogeneidad de varianzas) Si se comprueba que las varianzas desconocidas son iguales, entonces el parámetro propuesto se reemplaza en el siguiente estadístico de prueba:
tcal =
( x1 − x2 ) − ∆ Sp
2
donde: Sp: varianza ponderada
1 1 (n1 − 1) s12 + (n2 − 1) S 22 + n1 + n2 − 2 n1 n2
= Sp
Desviación estándar ponderada
Los valores tabulados para ubicarlos en las regiones críticas se buscan en la tabla de T(n1 + n2 – 2)gl b. Si σ21 ≠ σ22 Si se comprueba que las varianzas desconocidas son diferentes, entonces el parámetro propuesto se reemplaza en el siguiente estadístico de prueba:
tcal =
( x1 − x2 ) − ∆ S12 S 22 + n1 n2
Los valores tabulados para ubicarlos en las regiones críticas se buscan en la tabla de t(G)g.l donde:
G=
S12 S 22 + n1 n2 S 2 2 S 2 2 1 2 n1 n2 n −1 + n −1 2 1
Nota. si lo que se quiere contrastar es si las medias poblacionales de dos muestras independientes obtenidas de poblaciones normales son idénticas, esto se reduce a los casos anteriores tomando Δ =0, es decir, realizando el contraste: H0 : µ1 – µ2 = 0 (No hay diferencia significativa) H1 : µ1 – µ2 ≠ 0 (Existe diferencia significativa) 177
Cecilia Ríos Varillas
7.4.4.3 Prueba de hipótesis para la Varianza poblacional σX2 H0 : σX2 = k
H0 : σX2 ≥ k
H0 : σX2 ≤ k
H1 : σX2 ≠ k
H1 : σX2 < k
H1 : σX2 > k
En cualquiera de los casos H0 puede ser: H0 : σX2 = k 2 χ cal =
(n − 1) S x2 k Prueba Bilateral (de 2 colas)
H1 : s 2 ≠ k
Región de Aceptación x 2α /2
x 21−α /2 Pruebas unilaterales
H1 : s x2 > k
H1 : s x2 < k
Región de Aceptación
Región de Aceptación
x 2α
x 21−α
Prueba de 1 cola a la izquierda
Prueba de 1 cola a la derecha 2
Figura 7.4. Prueba de Hipótesis para la varianza poblacional σX
R.Aceptación de H0 —> Aceptar H0
Si χcal
R.Rechazo de H0 —> Rechazar H0 y Aceptar H1
∩
∩
Si χcal
7.4.4.4 Prueba de Homogeneidad de Varianzas Para determinar la homogeneidad de varianzas (si las varianzas de las dos poblaciones son iguales) es necesario hacer la prueba de homogeneidad de varianzas. En esta nueva prueba se comparan las varianzas de las poblaciones en la hipótesis nula. 178
Estadística y diseño de experimentos
H0 : σ12 = σ22 H1 : σ ≠ σ 2 1
2 2
Fcal =
S12 S 22 H1 : s 12 ≠ s 22
Región de Aceptación Fα /2
F1−α /2
Figura 7.5. Regiones críticas en la prueba de Homogeneidad de Varianzas
R.Aceptación de H0 —> Aceptar H0
Si Fcal
R.Rechazo de H0 —> Rechazar H0 y Aceptar H1
∩
∩
Si Fcal
7.5 EJERCICIOS DESARROLLADOS Ejercicio 1 El punto de ebullición del azufre tiene una varianza de 0,6889 (grados Celsius)2. ¿Qué tamaño debe tener la muestra para asegurar con una confianza del 99% que el error para estimar el punto promedio de ebullición del azufre sea a lo más de 0,15 grados Celsius? Solución σ2x = 0,6889
0,005
1 – α = 0,99
=>
α = 0,01
0,005
0,99 2,58
Error de estimación:
s
E Z= (2,58) = α 1− n 2
0, 6889 ≤ 0,15 n
179
Cecilia Ríos Varillas
=> √ n ≥ 14,276
=> √ n 2 ≥ 14,2762
=> n ≥ 203,8041
La muestra debe ser de por lo menos 204 determinaciones. Ejercicio 2 Un intervalo de Confianza del 95% para estimar el peso promedio de los hornos microondas (de las mismas dimensiones) usados en laboratorio, basado en una muestra de 36 hornos, resultó ser [4,0; 10,5] libras a. Hallar el peso promedio muestral y el error de estimación b. ¿Un intervalo de confianza del 90% será más amplio que uno del 95%? Justificar su respuesta. c. Un técnico del laboratorio, afirma que el peso promedio de los hornos microondas es mayor que 6,5 libras. ¿A qué conclusión se llegará?, para responder esta pregunta use la desviación estándar de la muestra de 1,2 lb. Nota. Se asume población normal y muestra aleatoria Solución a. Se sabe que: LC(µX) = X ± E De los datos para un 95% de confianza: X–E=4 X + E = 10,5 Resolviendo se tiene que el peso promedio de la muestra y el error máximo de estimación son: X = 7,25 lb
E = 3,25 lb
b. Primero se calcula la desviación estándar (como n >30 entonces se usará Z, y además la desviación estándar de la muestra se aproxima al de la población), usando el error de estimación calculado en el paso anterior:
E = 3, 25 E = Z 0,975
sX s = 1,96 X = 3, 25 ⇒ s X = 9,94898 6 36
Con el valor de la desviación estándar calculada, se encuentra el valor de E cuando α = 0,10, es decir confianza del 90%.
S S = E2 Z= 1,= 64 2, 7194 0,95 6 6 180
Estadística y diseño de experimentos
LC2(µX) = [ X ± E2 ] = [7,25 ± 2,7194] LC2 = [4,5306 ± 9,9694] Como se observa, éste último intervalo con 90% de confianza es menos amplio que el intervalo anterior con 95% de confianza; en este segundo caso el error de estimación es menor y las mediciones del peso (lb) están menos dispersas alrededor de su verdadera media. c. Se debe realizar la prueba de hipótesis: H0 : µ = 6,5 H1: µ > 6,5 α = 0,05
n > 30 => usar Z
7, 25 − 6,5 = Z c = 36 3, 75 1, 2 Las regiones críticas (prueba de 1 cola a la derecha)
0,05
0,95
Zc
∩
1,64
RA H0 => Aceptar H1
∴ Si es mayor, el técnico del laboratorio no está equivocado, tiene razón. Ejercicio 3 La probabilidad de que la media muestral difiera de la verdadera media en no más de 2 cm, es de (1 – α). Además se conoce los siguientes datos: 200
= n 200 = S2 100 = ∑ xi2 71100 1
a. Determine el valor de α b. Calcule un intervalo de confianza para la verdadera media (usando α calculado anteriormente).
181
Cecilia Ríos Varillas
Solución 200
∑
De los datos: = n 200 = S2 100 = xi2 71100 1 P(|X – µ| ≤ 2) = 1 – α Como la muestra es grande: S ≈ σX => t ≈ Z a. P (−2 ≤ X − µ ≤ 2) =P ( −2 200 ≤ Z ≤ 2 200 ) =P (−2,83 ≤ Z ≤ 2,83) =1 − α 10 10
1−α
α /2 2,83
-2,83
α
α 0, 00466 = 1− 0,99767 ⇒ = 2 b. Para calcular el intervalo de confianza, primero se calcula el valor de la media muestral
X ? =
2 S=
∑x
2 i
− nx 2
n −1
⇒ 100 =
71100 − 200 x 2 199
X 16 ⇒ =
Se reemplazan los resultados anteriores:
LC ( µ ) = X ± Z1−α /2
sX n
16 ± (2,83) =
10 200
Entonces los límites de confianza son: L1 = 13,99888
L2 = 18,0011
P(13,99888 ≤ µX ≤ 18,0011) = 1 – α = 1 – 0,00466 = 0,99534
Existe una confianza del 99,534%, de que la verdadera media se encuentre comprendida en el intervalo: [13,99888; 18,0011]
182
Estadística y diseño de experimentos
Ejercicio 4 Las cajas de un compuesto químico deben tener un contenido promedio de 160 gramos. Un inspector de INDECOPI tomó una muestra aleatoria de 10 cajas para calcular los pesos xi en gramos. Si de la muestra resultan las siguientes sumas: 10
∑ x2i = 252858
10
∑ xi = 1590
y
i=1
i=1
Mediante un intervalo de confianza del 98% para la media poblacional, ¿es razonable que INDECOPI multe al fabricante? Suponer que el peso de las cajas sigue una distribución normal. Solución x − nx ∑ = 2 i
X 159 S2 = =
2
n −1
252858 − 10(159) 2 9
2
S = 5,3333
Se reemplazan estos datos y se obtienen los límites de confianza pedidos. LC ( µ= 159 ± t x)
L1 = 156,9398 L2 = 161, 0602
S n
t(9gl;0,99) = 2,821
También se puede hacer una prueba de Hipótesis: H 0 : µ = 160 H1 : µ ≠ 160 159 − 160 tcal = 10 = −1,369 5,3333
0,01
-2,821
∩
tcalc
0,01
0,98 T(0,99;9gl) 2,821
RA H0
183
Cecilia Ríos Varillas
No lo multa, ya que al aceptar Ho, se concluye que el verdadero contenido promedio que contienen las cajas es de 160 gramos. De manera similar se llega a esta conclusión con el intervalo calculado, ya que el verdadero peso promedio, cae dentro de los límites de confianza calculados. Ejercicio 5 Se obtuvieron los resultados de la normalidad de una disolución de ácido clorhídrico según el método de determinación gravimétrica de cloruros y el método de valoraciones frente a carbono sódico puro. Estos resultados están distribuidos normalmente. Se tomaron 13 y 10 muestras respectivamente de cada método y se obtuvieron los siguientes resultados: una media de 0,10505 y una desviación estándar de 2,38E-04 según el método de determinación gravimétrica y con una media de 0,1055 y una desviación estándar 6,04E-04 según el método de valoraciones. El estudio deseaba saber si había alguna diferencia significativa entre los valores medios de las normalidades obtenidas por los dos métodos, con un nivel de confianza del 95%. Asumir σ12 = σ22 Solución Formulación de hipótesis: H0 : µ1 = µ2 H1 : µ1 ≠ µ2 Datos: S1 = 2,38E – 04 S2 = 6,04E – 04
n1 = 13 n2 = 10
Asumiendo σ12 = σ22 2 2 1 1 S1 (12) + S 2 (9) + S p2 = 3,33885 ×10−8 = 21 13 10
(0,10505 − 0,1055) − 0 −4,5 × 10−4 = tcal = 1,82725 ×10−4 Sp
184
⇒
−2, 4627 tcal =
Estadística y diseño de experimentos
Las regiones críticas:
0,025
0,95
0,025 α t (1− ;21gl) 2
-2,08
2,08
∩
tcalc = –2,4627
Región de aceptación H0 => Se rechaza H0
∴ Con un nivel de confianza del 95%, existe evidencia estadística para afirmar que sí hay diferencias significativas entre los valores medios de las normalidades obtenidas por el método de determinación gravimétrica de cloruros y el método de valoraciones frente a carbono sódico puro. Ejercicio 6 Para determinar qué influencia ejerce la temperatura del medio ambiente en el error sistemático de cierto instrumento goniométrico, han sido efectuadas las mediciones del ángulo horizontal de un objeto durante la mañana (a temperatura de 10°C) y durante el medio día (a temperatura 26°C). Se sabe que las mediciones del ángulo horizontal se distribuyen normalmente durante la mañana y el medio día. Y se obtienen ángulos medios de 35,8 y 36,5; y una desviación estándar de 2,5 y 3,1 respectivamente. Se realizan 10 determinaciones por la mañana y 8 durante el mediodía. a. ¿Se puede considerar que la temperatura ambiente influye en el error sistemático del instrumento goniométrico? α = 0,05. b. Realizar un intervalo del 90% de confianza para el verdadero promedio durante el mediodía. Solución a. Las hipótesis a contrastar son: H0 : µ1 = µ2 ó H1 : µ1 ≠ µ2
H0 : µ1 – µ2 = 0
n1 = 10
H1 : µ1 – µ2 ≠ 0
n2 = 8
1° Hacer la Prueba de Homogeneidad de varianzas: (ya que conocen)
s 12 , s 22
no se
185
Cecilia Ríos Varillas
H0 : σ12 = σ22 H1 : σ12 ≠ σ22 Las regiones críticas: 0,025
0,025
RAHo 0,95 0,238
4,82
Los valores de F de la tabla son: F0,025(9,7)gl = 0,238 F0,975(9,7)gl = 4,82 El valor de F calculado es:
S12 = 0, 6504 S 22
Fcalc
Región de aceptación H0 => No se rechaza H0
∩
Fcalc =
σ12 = σ22 Se comprueba que las varianzas poblacionales son desconocidas, pero iguales, entonces se procede al siguiente paso: 2° Contrastar la hipótesis H0 : µ1 – µ2 = 0 H1 : µ1 – µ2 ≠ 0 Considerar α = 0,05. Como σ12 = σ22 , entonces se usa: tcal =
( x1 − x2 ) Sp
donde: 2
Sp: varianza ponderada 186
Estadística y diseño de experimentos
1 1 (n1 − 1) s12 + (n2 − 1) s22 + n1 + n2 − 2 n1 n2
= Sp
Desviación estándar ponderada
Datos: x1 = 35,8
x2 = 36,5
n1 = 10
n2 = 8
s1 = 2,5
s2 = 3,1
Reemplazando los datos tenemos:
tcalc =
(35,8) − (36,5) −0, 7 = = −0,5311 1,3179 Sp
Donde: 2 2 1 1 S1 (9) + S 2 (7) Sp = 1,3179 = + 16 10 8
Las regiones críticas son las siguientes:
0.95
0,025 -2,12
0,025
t( 0,975)16 gl = 2,12
de la tabla de t-student t(0,975)16gl = 2,12 ∩
tcalc
RA H0 => Aceptar H0
∴ No existen diferencias entre las mediciones tomadas en la mañana y durante el mediodía, esto significa que la temperatura ambiente no influye en el error sistemático del instrumento goniométrico. b. Se procede a calcular el intervalo de confianza para el verdadero promedio de las mediciones del ángulo horizontal de un objeto durante el mediodía.
187
Cecilia Ríos Varillas
0,90
0,05
0,05
-1,895
1,895
t(0,95)7gl = 1,895 LC ( µ2 ) = x2 ± t(1−α /2,n2 −1)
S2 (3,1) 36,5 ± (1,895) = 8 n2
P(34,42305) ≤ µ2 ≤ 38,5769) = 0,95 Existe una confianza del 90% que el verdadero promedio de las mediciones del ángulo horizontal de un objeto durante el mediodía, esté comprendido en el intervalo: [34,42305;38,5769] Ejercicio 7 Se tienen dos localidades de cultivo, se toman 16 muestras de tierra de la localidad A y 13 de la localidad B, se realizan determinaciones respectivas de laboratorio (se evalúa el porcentaje de arcilla), obteniéndose los siguientes datos: 16
= X A 38
∑(X
= X B 31
∑(X
i =1
Ai
= − X A ) 2 150
Bi
= − X B ) 2 159
13
i =1
Suponiendo poblaciones normales: a. ¿Existen diferencias significativas entre los porcentajes promedios de arcillas de cada localidad? b. Si por experiencias anteriores, se asegura que la variabilidad (varianza) del porcentaje de arcilla de la localidad B es no menor de 16,5 (%)2 ¿Qué puede decir al respecto? α = 0,01. c. Calcule un intervalo del 95% para el verdadero promedio de arcilla en la localidad A. Solución De los datos: nA = 16
188
xA = 38
nB = 13
xB = 31
Estadística y diseño de experimentos
Se reemplaza en la fórmula de la varianza para cada localidad y se obtienen: 16
13 2 Ai A 2 2 = i 1= i 1 A B A
S =
∑(X
−X )
150 = 10 15
= S A2
S =
n −1
= S B2
∑(X
Bi
− X B )2
nB − 1
159 = 13, 25 12
a. Como no se conocen las varianzas poblacionales, entonces. 1° Hacer la Prueba de Homogeneidad: H0 : σA2 = σB2 H1 : σA2 ≠ σB2 Las regiones críticas con la tabla de F: 0,025
0,025
RAHo 0,95 0,337
3,18
Los valores de F de la tabla son: F0,025(15,12)gl = 0,337 F0,975(15,12)gl = 3,18 El valor de F calculado es:
Fcalc =
S A2 10 = = 0, 7547 2 S B 13, 25
Se observa que: ∩
Fcalc
RA H0 => σA2 = σB2
Luego de esta prueba, se procede al siguiente paso: 2° Contrastar la hipótesis H0 : µA – µB = 0 H1 : µA – µB ≠ 0 189
Cecilia Ríos Varillas
Considerar α = 0,05. Como en el paso anterior se concluyó que σA2 = σB2, entonces se usa:
tcal =
( x A − xB ) Sp
donde: S p2 : varianza ponderada
38 − 31
7 = = 5,5415 1, 2632 1 1 10(15) + 13, 25(12) + 27 16 13
= tcalc
Las regiones críticas, usando t-student:
RAHo
0,025 -2,052
0,025
t( 0,975;27 gl ) = 2,052
Conclusión: tcalc
∩
RR H0
=> Rechazar H0 Aceptar H1
∴ Considerando un error de 5%, existen diferencias significativas, entre los verdaderos porcentajes promedios de cada localidad. b. Se realiza la prueba de hipótesis para la varianza poblacional considerando los datos de la localidad B. 2
H0 : σB ≥ 16,5 2
H1 : σB < 16,5 En este caso el nivel de significación es: α = 0,01 La prueba a usar es: 2 = χ cal
190
12(13, 25) = 9, 6364 16,5
Estadística y diseño de experimentos
Las regiones críticas son: 0,01
RAHo 0,99 3,57
χ2(0,01;12gl) = 3,57 ∩
2 χcal = 9,6364
Región de aceptación H0
∴ Sí, es cierto lo que se asegura, que σB2 ≥ 16,5. Se presenta la evidencia estadística
de lo mencionado, considerando un error del 1%.
c. Cálculo del intervalo de confianza para el verdadero promedio de arcilla en la localidad A: Los datos se reemplazan en:
LC = X A ± t( 0,975 ; 15gl)
SA 16
Buscando en la tabla de t, para un α = 0,05
0,95
0,025 -2,131
0,025 2,131
Donde: t(0,975;15gl) = 2,131 Reemplazando, se tiene que:
LC = 38 ± (2,131)
10 16
Realizando los cálculos, se encuentran los límites de confianza: P(36,3153 ≤ µA ≤ 39,6847) = 0,95 Se tiene un 95% de confianza que el verdadero porcentaje promedio de arcilla en la localidad A, esté comprendido en [36,3153; 39,6847]% 191
Cecilia Ríos Varillas
7.6 EJERCICIOS PROPUESTOS Ejercicio 1 Una empresa decide comprar dos máquinas. Antes de elegir una decide realizar una prueba para saber si las dos máquinas ofertadas pueden producir la misma cantidad de unidades por hora. Para ello, observa la producción de las dos máquinas y observa los resultados que se reflejan en la tabla adjunta: Máquina A
89
84
81
87
79
97
92
87
89
80
Máquina B
88
77
87
92
81
94
79
85
84
88
a. Determine un intervalo del 95% de confianza para la verdadera producción promedio de la Máquina A. b. Determine un intervalo del 90% de confianza para la verdadera varianza de la Máquina B. c. Se desea saber si existe diferencias significativas en la verdadera producción promedio de ambas máquinas α = 0,05. (Hacer primero la prueba de Homogeneidad de Varianzas). d. Se sospecha que la verdadera varianza de los productos producidos por la Máquina A es 8,45 ¿Es correcta esta sospecha? α = 0,01 e. Luego de tomar la información de estas muestras, se desea probar si la verdadera varianza de la Máquina B es menor que 7,55 Ejercicio 2 Se desea comparar un nuevo método enzimático para determinar colesterol con el método estándar de Lieberman (colorimétrico). Para ello, se observó una muestra para ambos métodos con los resultados siguientes: (en mg/dl). Suponiendo poblaciones Normales y varianzas poblacionales homogéneas: Enzimático
305
385
193
162
478
Colorimétrico
300
392
185
152
480
455
238
a. Calcule un intervalo del 90% de confianza para el verdadero promedio con el Método Enzimático. b. Determine un intervalo del 95% de confianza para el verdadero promedio con el Método Colorimétrico. c. Calcule un intervalo del 90% de confianza para la Diferencia de promedios poblacionales de ambos métodos. d. Determine un intervalo del 95% de confianza para la verdadera varianza con el Método Enzimático. e. Un ingeniero químico sospecha que el verdadero promedio usando el método Enzimático es de 350 mg/dl ¿Qué puede decir de esta sospecha? α = 0,05. 192
Estadística y diseño de experimentos
f. ¿Existe diferencia significativa con un nivel de confianza del 99% entre los métodos? g. En base a estudios anteriores, se afirma que la verdadera varianza con el Método Colorimétrico es no más de 12 500 (mg/dl)2 ¿Qué podemos asegurar de esta afirmación? α = 0,05. Ejercicio 3 Una fábrica de productos químicos ha producido en promedio 800 toneladas por semana. Las producciones en las últimas semanas fueron 785, 805, 790, 793 y 802 toneladas. ¿Indican estos datos que la producción promedio fue menor que 800 toneladas y que, por lo tanto, el rendimiento de la planta ha disminuido? Realice una prueba (nivel de significación del 5%). Ejercicio 4 Se realiza un experimento para comparar la resistencia (en onzas) de dos tipos de tela. Se seleccionó una muestra aleatoria de tiras de tela de cada tipo. El tipo 1, papel estándar, una muestra de tamaño 60 presentó una resistencia media aritmética 1.364 y una desviación estándar de 0.112. En tanto, de la tela tipo 2, el estándar pero tratado con una sustancia química, el promedio aritmético y desviación estándar de una muestra de tamaño 50 resultaron, 1.442 y 0.123, respectivamente. Pruebe la hipótesis de que no hay diferencia entre la resistencia de los dos tipos de tela α = 0,10. Ejercicio 5 Se aplican dos métodos diferentes para medir la resistencia de los lotes de algodón (lb), necesarias para romper una madeja. Con este fin se toman los siguientes lotes de algodón: Método I
74
100
90
99
97
89
108
94
Método II
101
90
105
83
91
96
98
95
87
88
Suponiendo poblaciones normales y varianzas poblacionales iguales: a. Determine un intervalo del 90% de confianza para la verdadera desviación estándar del Método I. b. Se sospecha que la verdadera resistencia promedio del segundo método es de 2 gramos más que el otro. ¿Qué puede decir de esta sospecha? c. Un ingeniero sostiene que la verdadera varianza del método I es de 25 (lb)2, ¿qué se puede decir al respecto?
193
Cecilia Ríos Varillas
Ejercicio 6 Se le pide a una analista experimentada la evaluación de dos métodos diferentes para la determinación de trazas de plomo en ácido acético glacial. Se realizaron ocho determinaciones mediante cada método, que dieron los siguientes resultados para la concentración del plomo (en ppm): Método A
1.34
1.33
1.32
1.35
1.32
1.43
1.34
1.31
Método B
1.3
1.26
1.3
1.33
1.2
1.24
1.24
1.33
a. ¿Existe una diferencia significativa en el promedio de trazas de plomo determinado por ambos métodos? α = 0,05. b. Determine los límites de confianza para el verdadero promedio de trazas de plomo, mediante el método B (90% de confianza). c. Con una confianza del 95% determine los límites de la verdadera varianza usando el método A. d. Determine los límites de confianza de la diferencia de medias de ambos métodos. Ejercicio 7 La dureza del agua en la salida de cierta planta de energía eléctrica tiene una distribución normal con µX = 55 ppm, y desviación estándar de 5,5 ppm Doce muestras de agua dieron como resultado una media aritmética de 53 ppm. ¿Se puede concluir que la dureza media del agua es inferior a 55 ppm? α = 0,10.
194
Estadística y diseño de experimentos
CAPÍTULO 8
Diseños experimentales
El diseño de experimentos es en la actualidad una de las herramientas principales utilizadas en la investigación estadística, el objetivo que se tiene es estudiar el efecto de un factor sobre una variable respuesta. Diseñar un experimento, simplemente significa planear un experimento de modo que se reúna la información que sea pertinente al problema bajo investigación. En ciencias e ingeniería, el diseño de experimentos es muy necesario ya que implica investigación, análisis y comprobación de los resultados.
8.1 DEFINICIÓN E IMPORTANCIA DEL DISEÑO EXPERIMENTAL El diseño de un experimento, es la secuencia completa de pasos tomados de antemano para asegurar que los datos apropiados se obtendrán de modo que permitan un análisis objetivo que sea posible de analizar inferencias estadísticas válidas con respecto al problema establecido. Cuando un investigador está planeando realizar un experimento, se formula muchas interrogantes, algunas de las cuales es saber cuáles son los factores o tratamientos que se estudiarán, cuál sería la mejor forma de analizarlos, cuántas veces se ejecutará el análisis, entonces surge la necesidad de aplicar un buen diseño, que sea el más adecuado para lograr sus objetivos. El propósito del diseño experimental es proporcionar una cantidad máxima de información pertinente al problema bajo investigación, es también importante que el diseño o plan, sea tan simple como sea posible, es decir debe ser eficiente tanto en lo estadístico como en lo económico. Un experimento diseñado estadísticamente proporciona una estimación del error que puede servir como norma por la que pueden ser medidos los resultados del experimento. Un investigador que planee un experimento debería incorporar ambos de estos factores en sus diseños, esforzarse para lograr eficiencia estadística (buena metodología estadística) y economizar recursos. Aplicaciones del diseño experimental: 195
Cecilia Ríos Varillas
- - - -
Mejora en el rendimiento del proceso Menor variabilidad y mayor ajuste a los requerimientos del proceso Menor tiempo de desarrollo Menores costos globales del proceso
8.2 PASOS A SEGUIR EN EL DISEÑO DE EXPERIMENTOS Es muy importante que todo investigador siga cuidadosamente una secuencia de pasos que él mismo crea conveniente; sin embargo, según Kempthorne1 un experimento diseñado estadísticamente consta de los siguientes pasos: 1. Enunciado del problema (Comprensión y planteamiento del problema) 2. Formulación de las Hipótesis 3. Selección de tratamientos y el Diseño Experimental 4. Examen de los sucesos posibles y referencias en que se basan las razones que asegure que el experimento proporciona la información requerida y en la extensión adecuada 5. Consideración de los posibles resultados desde el punto de vista de los procedimientos estadísticos que se les aplicará, para asegurar que se satisfagan las condiciones necesarias para que sean válidos estos procedimientos. 6. Ejecución del experimento 7. Aplicación de las técnicas estadísticas a los resultados experimentales 8. Interpretación de resultados y extracción de conclusiones y recomendaciones 9. Valuación de la investigación realizada y preparación del informe final Esta lista es una guía referencial para cualquier investigador, ya que puede asegurar que nada ha pasado desapercibido.
8.3 DEFINICIONES BÁSICAS Tratamiento Se usa el término tratamiento, para denominar los diferentes procesos cuyos efectos van a ser medidos y comparados. Un tratamiento es un conjunto particular de condiciones experimentales que deben imponerse a una unidad experimental. Un diseño de experimentos tendrá dos o más tratamientos, tal que una comparación entre ellos permitirá resolver los problemas planteados al inicio del experimento. En la selección de tratamientos es importante definir claramente cada uno de ellos y entender el papel que jugará para alcanzar los objetivos del experimento. 1
The Design and Analysis of Experiments
196
Estadística y diseño de experimentos
La especificación de los tratamientos puede originar casos difíciles relativos a las condiciones bajo las cuales van a ser comparados los tratamientos. Los tratamientos son una creación de las circunstancias para el experimento. Es necesario identificar los tratamientos con el papel que cada uno tiene en la evaluación de la hipótesis de investigación. Si no se logra delinear con claridad esta hipótesis y el objetivo del estudio, puede haber dificultades en la selección de los tratamientos y experimentos sin éxito. Por eso es muy importante que el investigador se asegure de que los tratamientos elegidos concuerden con la hipótesis de investigación.
Unidad Experimental Se usará el término de unidad experimental para representar el conjunto de material al cual se aplica un tratamiento en un solo ensayo. La unidad puede ser una parcela, un alumno en el laboratorio, un lote de semillas, una porción de masa, etc., específicamente en la industria química, ejemplos de unidades experimentales pueden ser: lotes de material, trabajadores, máquinas. Entonces la unidad experimental es el material experimental unitario que recibe la aplicación de un tratamiento, es el elemento donde se realiza la medición. Es característico de tales unidades, que produzcan diversos resultados aun cuando se sujeten al mismo tratamiento: estas diferencias, bien sean grandes o pequeñas, contribuyen a formar los errores experimentales.
Error Experimental Es la medida de la variación, existente entre dos o más unidades experimentales que han recibido la aplicación de un mismo tratamiento. El término error experimental se aplica frecuentemente a estas variaciones. La palabra “error” no es sinónimo de “equivocación” sino que incluye todos los tipos de variación extraña. Por eso se dice también que el término error experimental describe el “fracaso” de llegar a resultados idénticos con dos unidades experimentales tratadas idénticamente. Se pueden distinguir dos fuentes principales de errores experimentales en los diseños de experimentos. La primera es la variabilidad inherente al material experimental (unidad experimental) al cual se aplican los tratamientos. La segunda fuente de variabilidad es la falta de uniformidad en la conducción física del experimento; es decir, la deficiencia en poder uniformizar la técnica experimental (variabilidad debida a los tratamientos) Causas del Error Experimental: puede ser errores de experimentación, de observación, de medición, variación en el material experimental y factores extraños.
197
Cecilia Ríos Varillas
Para reducir el Error Experimental se debe: - - - -
usar material experimental más homogéneo dar buena dirección del experimento repetir el experimento usar un diseño experimental apropiado
Factor Un factor es un grupo específico de tratamientos, como por ejemplo: temperatura, humedad, dosis de nitrógeno en trigo, tipos de suelo, aditivo químico, etc., se consideran un factor cada uno. Las diversas categorías de un factor se denominan niveles del factor, como por ejemplo: - cuatro diferentes dosis de nitrógeno: O; 37,5; 75,0 y 112,5 (kg/ha) - tres diferentes tipos de suelo: normal, salino, sódico. Al primero de ellos se le conoce como factor cuantitativo, tiene niveles asociados con puntos ordenados en alguna escala de medición, y el segundo ejemplo corresponde a los niveles de un factor cualitativo, que representan distintas categorías o clasificaciones, que no se pueden acomodar conforme alguna magnitud. Al tratamiento también se le define como a cada una de las combinaciones de niveles de los distintos factores.
Variable respuesta o variable de interés Los datos que se recogen en un experimento son medidas de una variable denominada variable respuesta o variable de interés. Es importante precisar de antemano cuál es la variable respuesta y en qué unidades se mide. También se debe especificar con claridad la forma en que se realizarán las mediciones: instrumentos de medida, tiempo en el que se harán las mediciones, etc.
8.4 PRINCIPIOS BÁSICOS DEL DISEÑO EXPERIMENTAL Reproducción Se entiende por reproducción la repetición del experimento básico. Es importante la reproducción ya que: - Proporciona una estimación del error experimental que actúa como una unidad básica de medida para indicar el significado de las diferencias observadas o para determinar la amplitud de un intervalo de confianza. 198
Estadística y diseño de experimentos
- La reproducción proporciona algunas veces una estimación más aproximada del error experimental.
Aleatorización Consiste en asignar al azar los tratamientos a las unidades experimentales. La aleatorización permite proceder como si la independencia de errores fuera un hecho. Los errores asociados con unidades experimentales, tenderán a correlacionarse, y lo que hace la aleatorización es asegurar que el efecto de esta correlación sea muy pequeño. La aleatorización es una de las pocas características de los diseños experimentales modernos, las ocasiones en que se requiere la aleatorización varían con el tipo de experimento y deben dejarse a juicio del investigador. La aleatorización es en cierta forma un seguro, por el hecho de que es una precaución contra interferencias que pueden o no ocurrir, y ser o no importantes si ocurren.
Control Local Control local, se refiere a la cantidad de balanceo, bloqueo y agrupamiento de las unidades experimentales que se emplean en el diseño estadístico que se emplea. El propósito del control local es hacer al diseño experimental más eficiente. Esta eficiencia significa la reducción del error experimental mediante el control de todos los factores.
8.5 ANÁLISIS DE VARIANZA (ANVA) El Análisis de Varianza, es una las técnicas más utilizadas en los análisis de los datos de los diseños experimentales que se usa para comprobar si existen diferencias significativas entre los promedios de los tratamientos (2 ó más), por lo que puede verse como una extensión de la prueba t para diferencias de dos medias. Básicamente es un procedimiento que permite dividir la varianza de la variable dependiente (la que se estudia) en dos o más componentes, cada uno de los cuales puede ser atribuido a una fuente (variable o factor) identificable. El análisis de varianza se aplica en la investigación, pues está relacionado con el diseño de experimentos, y puede ser usado para dos tipos de análisis: para contrastar hipótesis acerca de varianzas y para contrastar hipótesis acerca de medias; aunque las conclusiones acerca de las medias dependerán de las varianzas observadas.
Supuestos del análisis de varianza El ANVA está basado en ciertos supuestos, acerca de dichas variables aleatorias. Es evidente que cuantos más factores introduzcamos menos cantidad de varia199
Cecilia Ríos Varillas
ción residual (error) quedará por explicar. Pero siempre quedará alguna variación residual (o error). Los supuestos del ANVA son: 1. El valor esperado de cada variable aleatoria residual es cero. 2. Las variables aleatorias residuales son mutuamente independientes. 3. Todas las variables aleatorias residuales tienen la misma varianza. 4. Toda variable aleatoria residual se distribuye normalmente. En algunos casos los datos o mediciones que se realizan no satisfacen las suposiciones, sobre todo cuando las varianzas de las respuestas para diferentes tratamientos no son iguales, entonces en estos casos interviene el criterio del investigador, ya que no se puede desechar las mediciones realizadas en laboratorio, lo que sí se puede hacer es transformar las mediciones; es decir, usando las mediciones originales, se podrían usar sus raíces cuadradas, logaritmos o alguna otra función. Muchas de las transformaciones realizadas tienden a estabilizar la varianza de la respuesta y hacen también que las distribuciones de probabilidad de las respuestas transformadas estén más cerca de la normalidad. Cuando es imposible lograr que se satisfagan estos supuestos del ANVA, se debe utilizar procedimientos no-paramétricos de pruebas de hipótesis.
8.6 MODELO MATEMÁTICO El modelo matemático especificado debe indicar la relación que se supone que existe entre la variable respuesta y las principales fuentes de variación identificadas. Es fundamental que el modelo elegido se ajuste a la realidad con la mayor precisión posible. El modelo más habitual es el modelo lineal:
= Y
n
∑α i =1
i
+e
En este modelo la respuesta viene dada por una combinación lineal de términos que representan las principales fuentes de variación planificada más un término residual (error) debido a las fuentes de variación no planificada. Los modelos que más se estudian y aplican, se ajustan a esta forma general.
8.7 TIPOS DE MODELOS ESTADÍSTICOS Los modelos de diseños de experimentos según la selección de tratamientos y los efectos de los factores, pueden ser:
200
Estadística y diseño de experimentos
Modelo de efectos fijos Es un modelo en el que los niveles del factor han sido seleccionados por el experimentador. Es apropiado cuando el interés se centra en comparar el efecto sobre la respuesta de esos niveles específicos. Ejemplo: un ingeniero está interesado en comparar el rendimiento de tres máquinas del mismo tipo que tiene en su empresa. El modelo de efectos fijos es el que más se usa y aplica en ingeniería, y es el que se va a usar en los diseños básicos que se presenta en este capítulo.
Modelo de efectos aleatorios Es un modelo en el que todos los factores son factores de efectos aleatorios; es decir, que sólo se incluyen en el experimento una muestra aleatoria simple de todos los posibles niveles del mismo. Evidentemente se utilizan estos factores cuando tienen un número muy grande de niveles y no es razonable o posible trabajar con todos ellos. En este caso se está interesado en examinar la variabilidad de la respuesta debida a la población entera de niveles del factor.
Modelo mixto Es un modelo en el que hay factores de efectos fijos y factores de efectos aleatorios.
8.8 DISEÑOS BÁSICOS Los diseños básicos y de uso común en trabajos de investigación son los siguientes: 1. Diseño Completamente Aleatorio 2. Diseño de Bloques Aleatorios 3. Diseño Cuadrado Latino
8.9 DISEÑO COMPLETAMENTE ALEATORIO O AL AZAR (DCA) Es el diseño más simple y aplicativo en diseños experimentales. El diseño completamente al azar, es el diseño en el cual los tratamientos son asignados completamente al azar a las unidades experimentales, o viceversa. En este diseño solamente se estudia el efecto de un factor, el cual se varía en diferentes tratamientos o niveles, por eso al diseño completamente aleatorio también se le llama diseño unifactorial o de clasificación de un solo criterio.
201
Cecilia Ríos Varillas
8.9.1 Características del diseño completamente al azar - No impone restricciones en la distribución de los tratamientos a las unidades experimentales. - Se debe disponer de unidades experimentales homogéneas. Por lo tanto este diseño se usara en laboratorios o invernaderos. - Cada tratamiento puede tener igual o diferente número de unidades experimentales. - El número de tratamientos está en función del número de unidades experimentales. (es conveniente menos tratamientos y más unidades experimentales).
8.9.2 Modelo aditivo lineal en el diseño completamente aleatorio En el diseño completamente al azar con una observación por unidad experimental, las observaciones pueden ser representadas por el siguiente modelo aditivo lineal (de efectos fijos):
Yij = µ + τi + eij i = 1,2,..., t (tratamientos) j = 1,2,..., n (iguales repeticiones por tratamiento) j = 1,2,..., ni (diferentes repeticiones por tratamiento) Donde:
µ : es el efecto medio verdadero τi : es el efecto verdadero del i-ésimo tratamiento. eij : es el efecto verdadero de la j-ésima unidad experimental sujeta al i-ésimo tratamiento.
Yij : Respuesta de la j-ésima unidad experimental sujeta al i-ésimo tratamiento. t
Asunciones:
∑τ i =1
i
=0
eij ~ N ( 0,s 2 )
8.9.3 Representación simbólica de los datos en el diseño completamente aleatorio Los resultados del experimento se pueden agrupar de la siguiente forma:
202
Estadística y diseño de experimentos Cuadro 8.1. Agrupación de resultados del experimento en el diseño completamente aleatorio Tratamientos 1
2
...
i
...
t
Y11 Y12 . . . Y1j . . . Y1n
Y21 Y22 . . . Y2j . . . Y2n
... ...
... ...
...
Yi1 Yi2 . . . Yij . . . Yin
...
Yt1 Yt2 . . . Ytj . . . Ytn
Y1.
Y2.
...
Yi.
...
Yt.
1
Totales
2
...
...
i
t
Y..
Donde: Yij : es el resultado de la medición del i-ésimo tratamiento en la j-ésima repetición. t
Y.. = Σi=1 Yi.. =
Σ
ni
j=1
Yij: La suma de todas las observaciones
n. = Σti=1ni : El número total de unidades experimentales
8.9.4 Análisis de varianza en el diseño completamente aleatorio En esta parte desarrollaremos el Análisis de Varianza para el modelo de Efectos fijos del diseño completamente aleatorio. Para el cual se siguen los siguientes pasos: 1. Formulación de las hipótesis H0 : µ1 = µ2 = ... = µt H1 : al menos un µi ≠ µj
i≠j
Equivalentemente se puede formular la hipótesis en función de los efectos de los tratamientos de la siguiente forma: H0 : τi = 0,
∨i = 1,2,...,t
H1 : τi ≠ 0
para algún i
Donde: τi = µi - µ, efecto de un nivel del factor
Ht0: i = 0,∀=i 1,,2 . ,a
2. Presentar un nivel de significación adecuado, generalmente α = 0,05
203
Cecilia Ríos Varillas
3. Realizar los cálculos respectivos, teniendo en cuenta si presentan igual o diferente número de unidades experimentales por tratamiento, los cálculos se presentan en las Tabla 1 y Tabla 2. (también puede ser directamente aplicando paquetes estadísticos como el Minitab, SPSS y otros). Se debe tener presente: La Ecuación Fundamental del Análisis de Varianza en el DCA: Suma total de cuadrados SCTo
=
Suma de cuadrados de los tratamientos SCTr
+
Suma de cuadrado de los errores SCE
Tabla 1. ANVA Diseño Completo Aleatorio (Igual número de u.e. por tratamiento) Fuente de Variación
Grados de Libertad
y2
t
y2
SCTr ∑ i. − .. t −1 = i =1 n tn
Tratamientos
t (n − 1)
Error
Suma de Cuadrados
SCTr t −1
CMTr =
F calculado (Fc)
Fc =
CMTr CME
= SCE SCTo − SCTr CME = SCE
t (n − 1)
SCTo tn − 1=
Total
Cuadrados Medios (varianzas)
t n 2 y..2 ∑∑ yij − =i 1 =j 1 tn
Tabla 2. ANVA Diseño Completo Aleatorio (diferente número de u.e. por tratamiento) Fuente de Variación
Grados de Libertad
Tratamientos
t −1 t
∑ ( n − 1)
Error
i
i =1
t
i =1
TC =
y..2
t
∑n i =1
204
= SCTr
i
t
yi2.
∑n i =1
− TC
Cuadrados Medios (varianzas)
CMTr =
i
SCTr t −1
SCE
= SCE SCTo − SCTr CME = n − t
SCTo ∑ ni − 1 =
Total
Donde:
Suma de Cuadrados
t
ni
∑∑ y
=i 1 =j 1
2 ij
− TC
: Término de corrección
C.V . =
CME y..
F calculado (Fc)
Fc =
CMTr CME
Estadística y diseño de experimentos
4. Analizar las regiones críticas Por otra parte el cociente de dos variables χ2 se distribuye mediante la distribución de F.
Fc =
CMTr ~ F1– α [(gl.Trat),(gl.Error)] CME
F1−α Figura 8.1. Regiones críticas en el diseño completamente aleatorio
5. Conclusiones e interpretación. Conclusiones: Si Fc > F1–α
=> Se rechaza Ho
Si Fc < F1–α
=> No se rechaza Ho
Nota: Los valores de F para α = 0,05 y α = 0,01 en el Anexo 4. Ejemplo de un diseño completamente aleatorio Se utilizaron tres métodos diferentes para determinar la concentración (ppm) de Mg. en agua natural. Se hallan los siguientes resultados: Método A
5.65
5.75
5.64
5.73
5.69
5.71
Método B
5.83
5.78
5.79
5.92
5.95
5.82
Método C
5.75
5.63
5.68
5.64
5.72
5.66
¿Existe diferencia significativa con un nivel de significación del 5%, entre los métodos? Suponer poblaciones normales. Solución El modelo aditivo lineal es el siguiente: Yij = µ + τi + eij i = 1,2,3 (métodos)
j = 1,2,...,6
Yij: Concentración (ppm) de Mg en agua natural 205
Cecilia Ríos Varillas
Las hipótesis a probar son las siguientes: H0 : µ1 = µ2 = µ3 H1 : al menos un µi ≠ µj i ≠ j Se usará el nivel de significación α = 0,05 Se procede a los cálculos usando la Tabla 1, ya que se presenta igual número de unidades experimentales por tratamiento: n
t
∑∑ y=
=i 1 =j 1
TC =
2 ij
y..2 = tn
2 5, 652 + 5, 752 + ... + 5, 66= 593, 4358
(103,34 = ) 2
3(6)
593, 2864222
Entonces reemplazando en la fórmula de la suma de cuadrados del total:
t n y..2 = ∑∑ yij2 − = 593, 4358 − 593, 2864222 = 0,14937778 SCTo =i 1 =j 1 tn Ahora se calcula la suma de cuadrados de tratamiento: YA = 34,17
YB = 35,09
YC = 34,08
t y 2 y..2 = ∑ i. −= SCTr i =1 n tn 34,17 2 + 35, 092 + 34, 082 = = (métodos ) 2864222 0,1041444667 SCTr − 593, 6 La suma de cuadrados del error experimental se puede calcular por diferencia: SCE = SCTo – SCTr = 0,14937778 – 0,1041444667 = 0,04523331333 Los valores calculados se reemplazan en la tabla del ANVA, se completan los cuadrados medios y los demás cálculos: Fuente de Variación
Grados de Libertad
Suma de Cuadrados
Cuadrados Medios (varianzas)
F calculado (Fc)
Métodos
2
0,1041444667
0,05207223
17,2679
Error
15
0,04523331333
0,00301555
Total
17
0,14937778
206
Estadística y diseño de experimentos
Se calcula el valor crítico (ver anexo 5): F1– α [(gl.Trat),(gl.Error)] = F0,95(2;15)gl = 3,682 Conclusión Fc = 17,2679 > F1– α = 3,682
=>
Se rechaza H0
Por lo tanto se concluye que hay diferencias significativas en la concentración (ppm) de Mg. en agua natural en al menos dos de los tres métodos utilizados, esto es que los métodos usados producen diferentes concentraciones (ppm) de Mg en agua natural. Cuando se requiere saber entre cuales de los métodos hay estas diferencias, se procede a las pruebas de comparaciones de medias (como Tuckey, Duncan, DLS, etc.), los paquetes estadísticos presentan estos resultados de manera inmediata.
8.9.5 Prueba de Homogeneidad de varianzas Como se ha mencionado, uno de los supuestos del análisis de varianza es la homogeneidad de varianzas, cuando se trata de dos poblaciones aplicamos de manera directa la prueba de F, pero cuando son más poblaciones existen muchas pruebas de comprobación, una de ellas es el Test de Bartlett que se presenta a continuación: La hipótesis que se desea probar es H0 : σ12 = σ22 = σ23 = ... = σ2t H1 : al menos un σi ≠ σj Se tienen t tratamientos con ni repeticiones, y sean: 2
Si : Varianza del error en cada tratamiento 2 S : Varianza común (coincide con el CME en el ANVA) C : factor de corrección Los cálculos son los siguientes: t
S2 =
∑ (n − 1) S i =1 t
i
2 i
∑ (n − 1) i =1
i
207
Cecilia Ríos Varillas
t 1 1 1 ∑ C= 1+ − t 3(t − 1) i =1 (ni − 1) (ni − 1) ∑ i =1 t
t 2 i 2 i 1 =i 1 =
X cal =
∑ (n − 1).Ln S − ∑ (n − 1).Ln S i
2 i
C
X21–α Se distribuye como Chi-cuadrado con (t - 1) g.l. Conclusión: Si X2 cal < X2 1–α => No se rechaza Ho Existe homogeneidad de varianzas Ejemplo: Se sospecha que cuatro máquinas llenadoras en una planta, están sacando productos con diferentes pesos. Se realizó un experimento para comprobarlo, mediante una muestra de 17 productos, cuyos pesos en onzas fueron recopilados usando las máquinas A, B, C y D. Los datos en onzas son los siguientes: MÁQUINAS (Peso neto en onzas) A
B
C
D
12.25
12.18
12.24
12.20
12.27
12.25
12.23
12.17
12.24
12.26
12.23
12.19
12.20
12.18
12.25 12.20
Total
61.21
36.69
48.9
60.9
(ni)
5
3
4
5
0.00067
0.0019
0.0003
0.00025
2
Si
208
12.16
17
Estadística y diseño de experimentos
Desarrollar la prueba de Homogeneidad de Varianzas mediante el Test de Bartlett: t
∑(ni – 1)S2i
2
2
2
2
4SA + 2SB + 3SC + 4SD S = = = 0.0006446 (CMEE) 13 ∑(ni – 1) 2
i=1 t
i=1
t 1 1 1 ∑ = C= 1+ − t 3(t − 1) i =1 (ni − 1) − n ( 1) ∑ i i =1
C =1 +
1 1 1 1 1 1 =1.1396 + + + − 3(3) 4 2 3 4 13
[
t t χcal2 = 1c ∑ (ni – 1) ln S2 – ∑ (ni – 1) ln S2i
χcal =
i=1
i=1
]
1 [(ln 0.0006446)13 – (4ln SA2 + 2SB2 + 3SC2 + 4SD2 )] = 3.3053 1.1396
Se compara: 2 2 χ1–α = χ0,95(3)gl = 7,81
Conclusión: 2 2 χcal = 3,3053 < χ0,95(3)gl = 7,81 => existe homogeneidad de varianzas
Con la aprobación de este supuesto, se puede realizar el ANVA (Ver pág. 222).
8.10 diseño bloque completamente al azar (DBCA) Es aquel modelo en que las unidades experimentales sobre las que se toman las medidas se asignan al azar a los diferentes niveles de tratamientos y bloques, donde los bloques son subgrupos homogéneos con relación a la variable exógena cuyos efectos se desea eliminar. La variable que define el bloque, recibe el nombre de variable de bloque. 209
Cecilia Ríos Varillas
8.10.1 Características del diseño bloque completamente al azar - El Diseño es completo en el sentido de que cada tratamiento aparece en cada bloque. - Los tratamientos se asignan al azar dentro de cada bloque. - Este tipo de diseño tiene por objeto hacer que la variación entre los sujetos dentro de los subgrupos (bloque) resulte más pequeña que la variación entre los sujetos cuando no se hace ningún subgrupo o bloque. 8.10.2 Modelo aditivo lineal en el diseño bloque completamente aleatorio En el diseño bloque completamente aleatorio con una observación por unidad experimental, las observaciones pueden ser representadas por el siguiente modelo aditivo lineal (de efectos fijos):
Yij = µ + τi + βj + eij i = 1,2,..., t (tratamientos) j = 1,2,..., r (bloques) Donde:
µ : es el efecto medio verdadero τi : es el efecto verdadero del i-ésimo tratamiento. βj : es el verdadero efecto del j-ésimo bloque eij : es el efecto verdadero de la unidad experimental en el j-ésimo bloque que está sujeta al i-ésimo tratamiento.
Yij : Respuesta de la de la unidad experimental en el j-ésimo bloque que está sujeta al i-ésimo tratamiento.
Asunciones: Los supuestos que deben cumplir los errores, son los siguientes: independencia, homocedasticidad y Normalidad. Además: r
∑ βj = 0
j=1
210
eij ~N(0,σ2)
Estadística y diseño de experimentos
8.10.3 Representación simbólica de los datos en el diseño bloque completamente aleatorio Se presenta t tratamientos en r bloques: Cuadro 8.2 . Representación simbólica de los datos en el diseño bloque completamente aleatorio 1
2
...
i
...
t
Totales bloques
Bloque I
Y11
Y21
...
Yi1
...
Yt1
Y.1
Bloque II . . .
Y12 . . .
Y22 . . .
...
Yi2 . . .
...
Yt2 . . .
Y.2 . . .
Bloque j
Y1j . . .
Y2j . . .
...
Yij . . .
...
Ytj . . .
Bloque r
Y1r
Y2r
...
Yir
...
Ytr
Y.r
Total Trat.
Y1
Y2
...
Yi
...
Yr
Y..
Tratam.
8.10.4 Análisis de varianza en el diseño bloque completamente aleatorio En esta parte desarrollaremos el Análisis de Varianza para el modelo de Efectos fijos del diseño bloque completamente aleatorio. Para el cual se siguen los siguientes pasos: 1. Formulación de las hipótesis Así las hipótesis de interés son: Para tratamientos Para bloques H0 : µ1 = µ2 = ... = µt H0 : µ1 = µ2 = ... = µr H1 : al menos un µi ≠ µj H1 : al menos un µi ≠ µj 2. Presentar un nivel de significación adecuado, generalmente α = 0,05 3. Realizar los cálculos respectivos. Se presentan los cálculos en la Tabla 3 (también puede ser directamente aplicando paquetes estadísticos como el Minitab, SPSS y otros) Se debe tener presente: “La Ecuación Fundamental del Análisis de Varianza”
SCTo = SCTr + SCBI + SCE 211
Cecilia Ríos Varillas Tabla 3. Análisis de varianza para un diseño bloque completo al azar Fuente de Variación
Grados de Libertad
Suma de Cuadrados
Tratamientos
t–1
∑
Bloque
r–1
∑
Error
(t – 1)(r – 1)
Total
tr – 1
yi2. − TC r
y.2j
− TC
t
SCE (por diferencia) t
r
∑∑ y
=i 1 =j 1
2 ij
Cuadrados Medios
F calculado (Fc)
SCTr t–1
CMTr CME
SCBloque
CMBloque
(r – 1)
CME
SCE (t – 1)(r – 1)
− TC
Matemáticamente: r
Yij i 1, 2,...., t = Y. j ∑=
= Yi.
= Y..
j =1
t
r
t
r
t
Yij j 1, 2,...., r ∑= i =1
Y ∑= y ∑∑ Y ∑=
=i 1
TC =
i.
=j 1
.j
=i 1 =j 1
ij
Y ..2 tr
4. Analizar las regiones críticas Se establece las regiones críticas y se compara con los F calculados, tanto para bloques como para tratamientos. F = CMTr ~ F1–α[(gl.Trat),(gl.Error)] c(tr) CME
F = c(bloq)
CMBloque ~ F1–α[(gl.bloque),(gl.Error)] CME
212
F1–α[(gl.Trat),(gl.Error)]
Figura 8.2. Regiones críticas en el diseño bloque completamente aleatorio
Estadística y diseño de experimentos
5. Conclusiones e interpretación. Conclusiones: Si Fc > F1–α => Se rechaza H0 Si Fc < F1–α => No se rechaza H0 Ejemplo en el diseño bloque completamente aleatorio Un ingeniero textil, mide la resistencia a la ruptura de cinco clases de fibras textiles por medio de cuatro distintos instrumentos, y obtiene los resultados (en onzas) que se muestran en la tabla siguiente: Instrumentos de medición Fibras
I1
I2
I3
I4
F1 F2 F3 F4 F5
20,6 24,7 25,2 24,5 19,3
20,7 26,5 23,4 21,5 21,5
20,0 27,1 21,6 23,6 22,2
21,4 24,3 23,9 25,2 20,6
a. Indique cuál es la variable respuesta y cuál es el factor principal. b. Calculando el ANVA, responda si ¿Existe diferencias significativas entre las fibras textiles?, ¿Los instrumentos de medición tienen que ver en las diferencias de la resistencia a la ruptura? Y diga si el bloqueo tuvo éxito. α = 0,05. Interprete sus resultados. Solución a. La variable respuesta es: resistencia a la ruptura de fibras textiles (en onzas) El factor principal: fibras textiles b. Para calcular el ANVA, las hipótesis de interés son: Para fibras textiles Para instrumentos de medición H0 : µ1 = µ2 = µ3 = µ4 = µ5 H0 : µ1 = µ2 = µ3 = µ4 H1 : al menos un µi ≠ µj H1 : al menos un µi ≠ µj Realizando los cálculos: Instrumentos de medición Fibras
I1
I2
I3
I4
Total Fibras
F1 F2 F3 F4 F5
20,6 24,7 25,2 24,5 19,3
20,7 26,5 23,4 21,5 21,5
20,0 27,1 21,6 23,6 22,2
21,4 24,3 23,9 25,2 20,6
82,7 102,6 94,1 94,8 83,6
Total Inst.Med.
114,3
113,6
114,5
115,4
457,8
213
Cecilia Ríos Varillas
Se calcula primero el término de corrección
Y ..2 = TC = tr
( 457,8= ) 2
20
10479,042
Se procede a calcular la Suma de cuadrados del total
SCto =
t
r
∑∑ y
2 ij
=i 1 =j 1
−= TC
= (10574,86 ) − (10479, 042 )
95,818
Se calcula la Suma de cuadrados de las fibras y de los instrumentos de medición
SCFibras=
∑
SCInsMed=
yi2. 82, 7 2 +102, 62 +94,12 +94,82 +83, 6 − TC= − (10479, 042= ) 70,173 r 4
∑
y.2j t
− TC=
114,32 +113, 62 +114,52 +115, 42 − (10479, 042= ) 0,330 5
Se completa los otros resultados de manera inmediata en el ANVA: Fuente de Variación
Grados de Libertad
Suma de Cuadrados
Cuadrados Medios
F calculado (Fc)
Fibras
4
70,173
17,54325
8,316
Instrumento Medición
3
0,330
0,11
0,0521
Error
12
25,315
2,10958
Total
19
95,818
Luego de ver los resultados del ANVA, comparamos los F calculados con los F de la tabla, se usa α = 0,05, entonces: Para fibras: CMfibras Fc(fibras) = CME
F(0,95)[4,12]gl = 3,26
Fc(fibras) = 8,316 > 3,26
=> Se rechaza H0
214
Estadística y diseño de experimentos
Para instrumentos de medición: Fc(InsMed) =
CMInsMed F(0,95)[3,12]gl = 3,49 CME
Fc(InsMed) = 0,0521 < 3,49 => No se rechaza H0 Conclusión: Existen diferencias significativas entre las fibras textiles; sin embargo, los instrumentos de medición no afectan a esta diferencia en la resistencia a la ruptura, por lo tanto el bloqueo no tuvo éxito. Al decir que hay diferencias significativas entre las fibras textiles, se debe entender que al menos dos de ellas nos dan resultados diferentes, y si se desea comparar entre ellas, en estadística hay pruebas de comparación que nos permite saber entre cuales hay diferencias, esas pruebas de comparación lo realiza de manera inmediata cualquier paquete estadístico.
8.11 Diseño cuadrado latino (DCL) El diseño cuadrado latino es una ampliación del diseño bloque completo aleatorio. Este diseño se usa frecuentemente en experimentos agrícolas e industriales. Este diseño permite al investigador delimitar, con toda seguridad, los efectos relativos de varios tratamientos, cuando se impone a las unidades experimentales una restricción del tipo doble bloqueo. El efecto del doble agrupamiento es el de eliminar de los errores todas las diferencias entre filas, al igual que todas las diferencias entre columnas. Así el cuadrado latino mediante una planificación hábil, da más oportunidad para reducir los errores que el diseño bloque completo al azar. 8.11.1 Características del diseño cuadrado latino - Las unidades experimentales se agrupan en dos direcciones: filas y columnas, y los tratamientos se asignan al azar en las unidades experimentales tal que en cada fila y en cada columna se encuentren todos los tratamientos. - Existe homogeneidad dentro de filas y dentro de columnas. - El número de filas es igual al número de columnas e igual al número de tratamientos.
215
Cecilia Ríos Varillas
8.11.2 Modelo aditivo lineal en el diseño cuadrado latino En el diseño cuadrado latino con una observación por unidad experimental, las observaciones pueden representarse mediante el modelo aditivo lineal siguiente:
Yij(k) = µ + fi + cj + τk + eij(k) i = 1, 2, ...., n j = 1, 2, ...., n k = 1, 2, ...., n Donde:
µ : fi : cj : τk : eij(k) :
Media general Efecto de la i-ésima fila Efecto de la j-ésima columna Efecto del k-ésimo tratamiento
Error experimental de la unidad observada de la fila i, columna j, correspondiente al tratamiento k.
8.11.3 Análisis de varianza en el diseño cuadrado latino En esta parte desarrollaremos el Análisis de Varianza para el modelo de Efectos fijos del diseño cuadrado latino. Para el cual se siguen los siguientes pasos: 1. Formulación de las hipótesis Así las hipótesis de interés son: Para filas Para columnas H0 : µf1 = µf2 = ... = µfn H0 : µc1 = µc2 = ... = µcn H1 : al menos un µi ≠ µj H1 : al menos un µi ≠ µj Para tratamientos H0 : µ1 = µ2 = ... = µn H1 : al menos un µi ≠ µj 2. Presentar un nivel de significación adecuado, generalmente α = 0,05. 3. Realizar los cálculos respectivos. Se presentan éstos cálculos en la Tabla 4 ( también puede ser directamente aplicando paquetes estadísticos como el Minitab, SPSS y otros)
216
Estadística y diseño de experimentos Tabla 4 Análisis de varianza en el diseño cuadrado latino F.V.
g.l. n–1
Fila Columna
n–1
Tratamiento
n–1
S.C 2 ∑ Yi.(.)
n ∑ Y. 2j (.) n
− TC − TC
∑Y
2 .. ( k )
n EE
(n-1)(n-2)
Total
n 2– 1
Donde:
TC =
2
ij(k)
SCfila n–1 SCcolum n–1 SCTr
− TC
SCEE
ΣY
C.M.
n–1
Fcal Fc(c)fila
Fc(Col)
Fc(tr)
SCE (n – 1) (n – 2)
– TC
Y 2..(.) n2
4. Analizar las regiones críticas Se establece las regiones críticas y se compara con los F calculados, tanto para filas, columnas y tratamientos. = Fc ( fila )
CMfila CMcolum CMTr = Fc ( colum ) = Fc (tr ) CME CME CME
Cada uno de los F calculados anteriores se compara con el mismo F tabulado: El valor del F tabulado, es el mismo para cada fuente de variabilidad, cada F calculado se contrasta con el mismo F tabulado. F 1–α[(n – 1)gl,(gl.Error)]
5. Conclusiones e interpretación. Conclusiones: Si Fc > F1–α => Se rechaza H0 Si Fc < F1–α => No se rechaza H0 Ejemplo en Diseño Cuadrado Latino La tabla que se muestra contiene los resultados (codificados) de nueve distintas determinaciones de la viscosidad de caucho de silicón usando tres métodos diferentes (A, B, C). Se ha seleccionado materiales proporcionados por tres proveedores diferentes aparentemente de la misma calidad y las muestras se han enviado a tres dife217
Cecilia Ríos Varillas
rentes laboratorios. Analice los resultados en busca de efectos significativos, usando una probabilidad de error del 5%. Haga los comentarios que correspondan. Laboratorios Proveedores
I
II
III
1
9(A)
8(B)
3(C)
2
7(B)
5(C)
7(A)
3
2(C)
4(A)
2(B)
Solución La variable respuesta es: determinaciones de la viscosidad de caucho de silicón. El factor principal: Métodos para la determinación de la viscosidad. Hipótesis a probar: Para proveedores Para laboratorios H0 : µp1 = µp2 = µp3 H0 : µl1 = µl2 = µl3 H1 : al menos un µi ≠ µj H1 : al menos un µi ≠ µj Para métodos H0 : µA = µB = µC H1 : al menos un µi ≠ µj Realizando los cálculos: Laboratorio
Total
Proveedor
I
II
III
proveedor
1
9(A)
8(B)
3(C)
20
2
7(B)
5(C)
7(A)
19
3
2(C)
4(A)
2(B)
8
Total laboratorio
18
17
12
47
Ordenando los tratamientos: Métodos
Total Métodos
218
A
B
C
9
8
3
7
7
5
4
2
2
20
17
10
Estadística y diseño de experimentos
Cálculo del término de corrección:
Y 2..(.) = TC = n2
( 47 ) = 2
245, 4444
9
Calculando la suma de cuadrados del total SCTotal = ΣY2ij(k) – TC = 301 – 245,4444 = 55,5556 Calculando la suma de cuadrados para proveedor, laboratorios y métodos
SCp r oveedor=
202 +192 +82 − 245, 4444= 29,5556 3
SClaboratorio =
182 +17 2 +122 − 245, 4444 = 6,8889 3
SCmétodos =
202 +17 2 +102 − 245, 4444 = 17,5556 3
SCE = SCTotal – (SCproveedor + SClaboratorio + SCmétodos) Los resultados se colocan en el ANVA respectivo y se realizan de manera inmediata los otros cálculos: F.V.
g.l.
S.C
C.M.
Fcal
F0.95
Proveedor
2
29,5556
14,7778
19,0007
19
Laboratorio
2
6,8889
3,44445
4,428737
19
Métodos
2
17,5556
8,7778
11,2861
19
EE
2
1,5555
0,77775
Total
8
55,5556
Al comparar los F calculados con el F de la tabla: F1–α[(n – 1)gl,(gl.Error)] = F0,95(2,2)gl = 19 Se concluye lo siguiente: En cuanto a los Métodos empleados: Fc = 11,2861 < F1–α = 19 =>
No se rechaza H0
No hay diferencias significativas entre los métodos. Los métodos empleados no interfirieren en las diferencias de las determinaciones de caucho de silicón, por lo tanto, igual da realizarlo con cualquiera de esos métodos. 219
Cecilia Ríos Varillas
En cuando a laboratorios donde se realizan los análisis: Fc = 4,428737 < F1–α = 19 => No se rechaza H0 No hay diferencias significativas entre los laboratorios donde se realizan los análisis; los resultados realizados por los analistas de cada laboratorio no se diferencian, por lo tanto no interfirieren en las diferencias de las determinaciones de caucho de silicón, igual da realizarlo con cualquiera de los laboratorios. En cuando a los proveedores: Fc = 19,40007 > F1–α = 19 => Se rechaza H0 En este caso, algunos investigadores pueden considerar que son iguales, tanto el F calculado como el F de la tabla, y la decisión es según su criterio; sin embargo si respetamos el resultado como está, se observa que Fcal es mayor, por lo tanto hay diferencias significativas entre los proveedores que han proporcionado los materiales, al menos dos de los proveedores están enviando materiales que interfirieren en las diferencias de las determinaciones de caucho de silicón.
8.12 Diseños estadísticos usando Minitab El paquete estadístico Minitab, proporciona de manera directa y práctica muchas soluciones inmediatas como los Diseños Estadísticos, Ejemplo en Diseño Completamente Aleatorio. Se sospecha que cuatro máquinas llenadoras en una planta, están sacando productos con diferentes pesos. Se realizó un experimento para comprobarlo y los datos en onzas son los siguientes: Peso neto en onzas Máquinas A
B
C
D
12,25
12,18
12,24
12,20
12,27
12,25
12,23
12,17
12,24
12,26
12,23
12,19
12,20
12,18
12,25 12,20
220
12,16
Estadística y diseño de experimentos
Solución Paso 1 En la Columna 1, la variable respuesta (Peso Neto en onzas) ingrese los datos, en la Columna 2 el Tipo de Máquina.
Paso 2 Para la Prueba de Homogeneidad de Varianzas, seleccione: Stat/ ANOVA/ Test for Equal Variances En la ventana Test for Equal Variances, en Response: Peso Neto, en Factors: Máquinas y en Title: Prueba de Homogeneidad de Varianzas.
221
Cecilia Ríos Varillas
Como p-value > 0,05, por defecto, indicaría que las varianzas son estadísticamente homogéneas. Nota: En todo paquete estadístico aparece por defecto el valor p-value, y se compara así: p > 0,05 => No se rechaza H0 p < 0,05 => Se rechaza H0 => hay diferencias significativas Paso 3 Para realizar el ANVA para el ejemplo en DCA: Stat / ANOVA / One-Way. Se marca ‘Comparisons’ en la ventana One-Way Multiple Comparisons, se permite elegir un método (se ofrecen tres distintos) se marca generalmente Prueba de Tuckey’s, para calcular intervalos de confianza para las diferencias entre medias (intervalos necesarios en el caso de que se observen diferencias significativas) y en ‘Graphs’ se pueden representar los residuos para validar el método aplicado para la resolución. One-way ANOVA: peso versus máquinas Source
DF
SS
MS
F
P
Máquinas
3
0,010726
0,003575
5,55
0,011
Error
13
0,008380
0,000645
Total
16
0,019106
El p-valor del análisis de varianza sale 0,011< 0,05, luego estadísticamente se observan diferencias significativas en el peso neto de los productos llenados por las máquinas. Como las pruebas se han realizado con 4 máquinas distintas, se requiere concluir entre cuáles de estas máquinas existe esta diferencia (entre todas, o solo entre algunas de ellas). El Minitab ofrece éstos métodos de comprobación, mediante el método Tuckey (uno de los más utilizados). Edgar Acuña, en su libro Análisis Estadístico de datos usando Minitab, presenta todos los procedimientos necesarios. Ejemplo en diseño bloque completamente aleatorio Una industria química desea probar el efecto de cuatro agentes químicos sobre la resistencia de un tipo particular de tela. Dado que puede haber variabilidad entre un rollo de tela y otro decide utilizar a los rollos de tela como bloques, y selecciona 5 rollos y les aplica los cuatro agentes químicos en orden aleatorio. A continuación se presentan los datos de la resistencia a la tensión (en psi).
222
Estadística y diseño de experimentos
Agente químico 1 2 3 4
Rollo de tela 1
2
3
4
5
73 73 75 73
68 67 68 71
74 75 78 75
71 72 73 75
67 70 68 69
a. Indique cuál es la variable respuesta y los factores, indicando cual es el factor de interés. b. Plantee las hipótesis que interesaría probar en esta situación y mediante una tabla ANVA, determine si hay diferencias entre los agentes químicos y si las hay entre los rollos de tela. α = 0.05. Solución Paso 1 En la Columna 1, la variable respuesta (Resistencia a la Tensión) ingrese los datos, en la Columna 2 (Rollo de Tela) y en la Columna 3 (Agente Químico).
Paso 2 Para realizar el ANVA para el ejemplo en DBCA: Stat / ANOVA / Two-Way.
223
Cecilia Ríos Varillas
Results for: dbca.MTW Two-way ANOVA: RESISTENCIA A LA TENSIÓN versus Agente Químico, Rollo de tela Source
DF
SS
MS
F
P
Agente Químico
3
12,95
4,3167
2,38
0,121
Rollo de tela
4
157,00
39,25
21,61
0,000
Error
12
21,80
1,8167
Total
19
171,75
Conclusión: p-value = 0,121>0,05 no existe diferencias significativas entre los Agentes Químicos. p-value = 0,000 < 0,05 existe diferencias significativas entre los rollos de tela. Ejemplo en cuadrado latino Un diseño estadístico se usó para comparar las resistencias de las conexiones de conductores con sus terminales por medio de tres diferentes métodos: A, B, C. Las conexiones fueron hechas por tres operadores diferentes y luego encapsuladas usando tres plásticos diferentes, con los siguientes resultados, expresados en libras de fuerza requeridas para romper la unión. Operador O1
224
O2
O3
P1
3,0 A
2,4 B
1,9 C
P2
2,1 B
2,7 C
2,3 A
P3
2,1 C
2,6 A
2,5 B
Estadística y diseño de experimentos
Analice esos resultados, aplique las hipótesis correspondientes y dé sus conclusiones. Solución Paso 1 En la Columna 1, la variable respuesta (Fuerza) ingrese los datos, en la Columna 2 (Métodos), en la Columna 3 (Operadores) y en la Columna 4 (Plásticos).
Paso 2 Para realizar el ANVA para el ejemplo en DCL: Stat-ANOVA-General Linear Model. En la ventana que aparece, en Responses: Fuerza, en Model: Selecciones MÉTODOS OPERADORES PLÁSTICOS
General Linear Model: Fuerza versus OPERADORES, PLÁSTICOS, MÉTODOS
225
Cecilia Ríos Varillas Analysis of Variance for Fuerza, using Adjusted SS for Tests DF
SS
MS
F
P
operadores
Source
2
0,1667
0,0833
0,33
0,752
plásticos
2
0,0067
0,0033
0,01
0,987
métodos
2
0,2600
0,1300
0,51
0,661
Error
2
0,5067
0,2533
Total
8
0,9400
El p-value del análisis de varianza en los tres casos es p > 0,05, estadísticamente se observan que no hay diferencias significativas en los operadores, tipos de plásticos y tampoco hay diferencias entre los métodos.
8.13 EJERCICIOS DESARROLLADOS 8.13.1 Ejercicios desarrollados en diseño completamente aleatorio Ejercicio 1 Un fabricante de calzado desea mejorar la calidad de las suelas, las cuales se pueden hacer con uno de los cuatro tipos de cuero A, B, C, y D disponibles en el mercado. Para hacer ello, prueba los cueros con una máquina que hace pasar los zapatos por una superficie abrasiva; la suela de los zapatos se desgasta al pasarla por dicha superficie. Como criterio de desgaste se usa la pérdida de peso después de un número fijo de ciclos. Se prueban en orden aleatorio 24 zapatos, seis de cada tipo de cuero. (Pérdida de peso) A
B
C
D
264
208
220
217
260
220
263
226
258
216
219
215
241
200
225
224
262
213
230
220
255
206
228
222
a. Realice el test de Bartlett para varianzas homogéneas. α = 0,01 b. ¿El tipo de cuero tiene influencia sobre la calidad de la suela? α = 0,01
226
Estadística y diseño de experimentos
Solución a. Se realizan cálculos con la tabla de datos: A
B
C
D
264
208
220
217
260
220
263
226
258
216
219
215
241
200
225
224
262
213
230
220
255
206
228
222
n1
6
6
6
6
24
Yi
1540
1263
1385
1324
5812
Yi
256,67
210,5
230,83
220,67
Si
8,29
7,26
16,34
4,18
Se realiza la prueba de Homogeneidad de Varianzas mediante el Test de Bartlett: t
∑ (n − 1)S i
S2 =
i =1
t
∑ (n − 1)
2 i
=
5S A2 + 5S B2 + 5SC2 + 5S D2 = 101,474925 (CMEE) 20
i
i =1
1 t 1 1 ∑ = 1,0833 1+ C= − t 3(4 − 1) i =1 (ni − 1) (ni − 1) ∑ i =1 t 1 t 2 ( 1) ln (ni − 1) ln Si2 =8,476565 n S − − ∑ ∑ i C i 1 =i 1 = 2 χ cal =
Se compara con α = 0,01 => χ20,993(3gl) = 11,3449 Conclusión: 2 Si χcal < 11,3449
Luego, se concluye que: existe Homogeneidad de Varianzas b. Planteamiento del experimento: Observar el efecto del tipo de cuero sobre la calidad de las suelas. 227
Cecilia Ríos Varillas
Tratamiento (Factor): tipo de cuero Niveles: cueros A, B, C, y D Variable de respuesta: calidad de las suelas, medida como la pérdida de peso después de un número fijo de ciclos. Repeticiones: seis Hipótesis a contrastar Ho: µA = µB = µC = µD (El tipo de cuero no tiene efecto sobre la calidad de las suelas). H1: Al menos un par µi ≠ µj. (El tipo de cuero si tiene efecto sobre la calidad de las suelas)
SCTotal=
Y..2 2 − y ∑∑ ij 24 = =i 1 =j 1 t
n
58122 SCTo = 2642 + 2602 + ... + 2222 − = 9101,33 24
Ahora se calcula la suma de cuadrados de tratamiento (tipos de cuero): 2 t y 2 y.. SC (tipos de cuero) = ∑ i. −= 7072,33 i =1 n tn
La suma de cuadrados del error experimental se puede calcular por diferencia: SCE = SCTo – SCTr = 9101.33 – 7072.33 = 2029 Los valores calculados se reemplazan en la tabla del ANVA, se completan los cuadrados medios y los demás cálculos: Fuente de Variación
Grados de Libertad
Suma de Cuadrados
Cuadrados Medios
F calculado (Fc)
Tipos de cuero
3
7072,33
2357,44
23,24
Error
20
2029,0
101,45
Total
23
9101,33
Ftab(3,20) = 3,098 Como Fcal > Ftab —> Se rechaza Ho El factor tipo de cuero influye sobre la calidad de las suelas, es claro observar que los diferentes tipos de cuero, dan calidades diferentes en cuanto a la pérdida de peso. 228
Estadística y diseño de experimentos
Ejercicio 2 En cierto estudio de calibración de espectroscopía de absorción atómica, las medidas de respuesta fueron las unidades de absorción de un instrumento según la cantidad de cobre diluido en una solución ácida. Se usaron cinco niveles de cobre con cuatro réplicas del nivel cero y dos réplicas de los otros cuatro niveles. En la siguiente tabla se dan los datos de espectroscopia para cada nivel de cobre como microgramos de cobre/mililitro de solución. Cobre (mg/ml) 0,00
0,05
0,10
0,20
0,50
0,045 0,047 0,051 0,054
0,084 0,087
0,115 0,116
0,183 0,191
0,395 0,399
a. Realice el Test de Bartlett para varianzas homogéneas: α = 0,05 b. Calcule el ANVA c. Pruebe la hipótesis de que no hay diferencias significativas entre las medias de los cinco niveles de cobre, con α = 0,05. Interprete sus resultados. Solución Se realizan cálculos con la tabla de datos: Cobre (mg/ml) 0,00
0,05
0,10
0,20
0,50
0,045
0,084
0,115
0,183
0,395
0,047
0,087
0,116
0,191
0,399
2
2
2
2
0,051 0,054 n1
4
Yi
0,197
0,171
0.231
0,374
0,794
Yi
0,04925
0,08550
0,11550
0,187
0,397
Si
0,00403
0,00212
0,00071
0,00566
0,00283
12
a. Se realiza la prueba de Homogeneidad de Varianzas mediante el Test de Bartlett: t
2
= S
∑ (n − 1)S i
2 i
= t ∑ (ni − 1)
i =1
3S12 + 1S 22 + 1S32 + 1S 42 + 1S52 = 0, 0000134 (CME) 7
i =1
229
Cecilia Ríos Varillas
1 t 1 1 ∑ − 1+ C= 3(t − 1) i =1 (ni − 1) t (ni − 1) ∑ i =1
C = 1+
1 1 1 + 1 + 1 + 1 + 1 − = 1,3492 3(5 − 1) 3 7
t 1 t 2 ( 1) ln (ni − 1) ln Si2 n S − − ∑ ∑ i C i 1 =i 1 = 2 χ cal =
2 χ cal =
2 = χ cal
t 1 ( 7 ) ln ( 0, 0000134 ) − ∑ (ni − 1) ln Si2 1,3492 i =1
1 00334 ) − ( −81,9807 ) 2,5489 ( 7 ) ln ( 0, = 1,3492
2 Se compara: Para α = 0.05 => χ21–α = χ0,95(4)gl = 9,4877
Conclusión: 2 Si χcal = 2,5489 < 9,4877
Por lo tanto: existe Homogeneidad de Varianzas b. Cálculo del ANVA La hipótesis a probar, para niveles de cobre: H0 : µ1 = µ2 = µ3 = µ4 = µ5 H1 : al menos un µi ≠ µj Realizando los cálculos:
Y 2 1, 767 2 .. TC = = = 0, 26019075 12 12
SCTotal =
t
n
∑∑ y
=i 1 =j 1
2 ij
−= TC
SCTo = 0,0452 + 0,0472 + ... + 0,3992 – (0,26019075) = 0,1760623
230
Estadística y diseño de experimentos
Ahora se calcula la suma de cuadrados de tratamiento (niveles de cobre):
0,197 2 0,1712 0, 2312 0, 3742 0, 7942 = SC (niveles de cobre) + + + = + − ( 0, 26019075 ) 0,1759685 2 2 2 2 4 – (0,26019075) = 0,1759685 La suma de cuadrados del error experimental se puede calcular por diferencia: SCE = SCTo – SCTr = 0,0000938 Los valores calculados se reemplazan en la tabla del ANVA, se completan los cuadrados medios y los demás cálculos: F.V.
g.l.
S.C
C.M.
Fcal
Niveles de cobre
4
0,1759685
0,0439921
3284,75
Error
7
0,0000938
0,0000134
Total
11
0,1760623
De la tabla de F acumulativa: F(1–α)(4,7)gl= F0,95(4,7)gl = 4,12 Como el Fcal es mayor que el F tabulado, entonces se rechaza Ho, por lo tanto se concluye que sí hay diferencias significativas en los niveles de cobre, al menos dos de los niveles producen diferencias en los resultados de espectroscopía en las unidades de absorción. Ejercicio 3 Para estudiar el efecto de la temperatura sobre el rendimiento de un proceso químico se produjeron cinco lotes con cada uno de tres valores de temperatura (50°C, 60°C y 70°C). Luego de presentar los datos y realizando los cálculos en MINITAB, el ANVA resultó: One-way ANOVA: Rendimiento versus Temperaturas Source
DF
p
Temperaturas
2
0,210
Error
12
Total
14
a. Indique la unidad experimental, la variable respuesta y el factor (tratamientos) y sus niveles. 231
Cecilia Ríos Varillas
b. ¿El nivel de temperatura tiene efecto sobre la media del rendimiento del proceso químico? Solución a. La unidad experimental Variable respuesta. Factor Niveles
= = = =
1 lote Rendimiento del proceso químico Temperatura 50°C, 60°C y 70°C
b. El Minitab calcula automáticamente el p-value (valor de probabilidad) que en este caso es p = 0,210 > 0,05 => No se rechaza H0 El nivel de temperatura no tiene efecto sobre el rendimiento del proceso químico.
8.13.2 Ejercicios desarrollados en Diseño Bloque Completamente Aleatorio Ejercicio 1 Se realiza un experimento para determinar el efecto de cuatro sustancias químicas diferentes sobre la resistencia de una tela. Las sustancias se emplean como parte del proceso terminal de planchado permanente. Para ello, se escogen cinco muestras de tela y se aplica un diseño por bloques completos aleatorizados mediante la prueba de cada sustancia en un orden aleatorio sobre cada una de las muestras de tela. El promedio general es de 1,96 y el Coeficiente de Variabilidad (CV) es 14,44 %. El ANVA respectivo es el siguiente: Fuentes de Variación
G.L.
Suma de Cuadrados
Sustancias Muestras
Cuadrado Medio
Fcalc 75,13
6,69
Error Total
a. Completar el Cuadro de ANVA b. Determine si existe diferencias significativas entre las sustancias químicas, y también entre las muestras. (α = 0,05). Solución a. Las pruebas de hipótesis son las siguientes: 232
Estadística y diseño de experimentos
H0 : µsus1 = µsus2 = µsus3 = µsus4 H1 : al menos dos son diferentes H0 : µmuestras1 = µmuestras2 = µmuestras3 = µmuestras4 = µmuestras5 H1 : al menos dos son diferentes
Y .. 1,96 = Datos: Y = 20
S CV =× 100% = 14, 44% Y
S= CME
Reemplazando en CV:
CME ×100% = 14, 44% ⇒ CME = 0, 08010 1,96
Fc =
CM Tr CM Tr = = 75,13 ⇒ CM Tr = 6, 0179 CME 0, 0801
Finalmente: Fuentes de Variación
Grados de Libertad
Suma de Cuadrados
Cuadrado Medio
Fcalc
Sustancias
3
18,0537
6,0179
75,13
Muestras
4
6,69
1,6725
20,8801
Error
12
0,9612
0,08010
Total
19
b. Para las sustancias químicas: F(0,95) (4,7)gl = 3,49 Fcal = 75,13 > 3,49 => Se rechaza H0 Para las muestras: F(0,95) (4,12)gl = 3,26 Fcal = 20,8801 > 3,26
=> Se rechaza H0
∴ Sí existen diferencias significativas entre las sustancias químicas, y también entre las muestras, es decir afectan la resistencia de la tela. Ejercicio 2 Los datos presentados son ensayos de variedades de trigo. Cuatro variedades de trigo crecieron en cada una de cinco localidades diferentes. Las respuestas en bushels por acre, son dadas en la tabla siguiente: 233
Cecilia Ríos Varillas Variedades Loc.
1
2
3
4
1
43,60
24,05
19,47
19,41
2
40,40
21,76
16,61
23,84
3
18,08
14,19
16,69
16,08
4
19,57
18,61
17,78
18,29
5
45,20
29,33
20,19
30,08
Asumiendo varianza poblacionales iguales y distribución Normal: (α = 0,05) a. Calcule un intervalo de confianza para la verdadera varianza de la variedad 3 de trigo. b. Determine si hay diferencias significativas en las variedades c. Debido a que la construcción de bloques se ha diseñado para controlar el efecto de una variable extraña, la pregunta natural es ¿Ha tenido éxito la construcción de bloques? Solución
(n − 1) S32 (n − 1) S32 4(2, 63602) 4(2, 63602) 2 ≤ ≤ = ≤ s 32 ≤ s a. P P 3 2 2 x2 11,1 0, 484 x1 2
2
Donde x1(4gl) (0,975) = 11,1 x2(4gl)(0,025) = 0,484 El intervalo de confianza para la varianza de la variedad 3 de trigo es: [0,9499 ; 21,7853] (bushels por acre)2 Realizando el ANVA, tenemos: Fuentes de Variación
Grados de Libertad
Suma de Cuadrados
Cuadrado Medio
Fcalc
F1−α
Variedades
3
607,2691
222,423
7,0249
3,49
Localidades
4
601,6076
150,4019
4,7502
3,26
EE
12
379,9444
31,6620
Total
19
1648,8210
Para variedades: F(1–α) (3,12)gl = 3,49 Fcal = 7,0249 > 3,49
=> Se rechaza H0
∴ Sí, existe diferencia significativa de las respuestas dadas de los cuatro tipos de variedades, es decir las variedades de trigo producen diferentes respuestas en bushels por acre. 234
Estadística y diseño de experimentos
c. Del ANVA, se recoge los resultados de F calculado y del F tabulado. Para las localidades: F(1–α) (4,12)gl = 3,26 Fcal = 4,7502 > 3,26
=> Se rechaza H0
Existe diferencias de las respuestas dadas de las cinco localidades, las localidades producen diferentes respuestas en búshels por acre.
∴ Sí, ha tenido éxito el bloqueo. Ejercicio 3 Se ha realizado un estudio para determinar si hay diferencias significativas entre tres métodos para montar un mecanismo. Se registraron los datos de 5 operarios supuestamente de la misma velocidad. El número de montajes terminados diarios por cada operario y con cada método se presentó en una tabla y al desarrollar el ANVA se tuvo los siguientes resultados: F.V.
G.L.
S.C.
Fcalc
C.M.
Métodos
2
Operarios
90
Error Exp.
5
Total
Complete el ANVA y haga las pruebas de hipótesis respectivas. Solución De la tabla se observa que:
= Fc ( Met )
CM ( Mét ) = 2 CME
Entonces:
2=
CM ( Mét ) ⇒ CM ( Mét ) = 10 5
Se completa la tabla del ANVA: G.L.
S.C.
C.M.
Fcalc
Métodos
F.V.
2
20
10
2
Operarios
4
90
22,5
4,5
5
Error Exp.
8
40
Total
12
150 235
Cecilia Ríos Varillas
Los valores de la Tabla de F son: F(0,95,2,8) = 4,46
=> Fcal = 2 < 4,46
=> No hay diferencias significativas
F(0,95,4,8) = 3,84
=> Fcal = 4,5 > 3,84
=> Si hay diferencias significativas
No hay diferencias significativas entre los diferentes métodos para montar un mecanismo; sin embargo, el registro de los operarios si difieren en cuanto a la velocidad del montaje del mecanismo.
8.13.3 Ejercicios desarrollados en Cuadrado Latino Ejercicio 1 Se probaron 4 tipos de raciones alimenticias (A, B, C y D) para pollos, criados en jaula tipo batería de 4 pisos (filas) y 4 casilleros (columnas). La variable analizada fue: peso del pollo (kg) a las 8 semanas de edad. Pisos
Casilleros 1
2
3
4
1
1,40(A)
1,38(B)
1,40(C)
1,60(D)
2
1,35(B)
1,28(A)
1,45(D)
1,62(C)
3
1,38(C)
1,40(D)
1,42(B)
1,63(A)
4
1,39(D)
1,39(C)
1,40(A)
1,60(B)
a. Realice el ANVA para determinar si existe diferencias significativas entre las raciones alimenticias, también responda si ¿Existe diferencias significativas entre los pisos? y ¿entre los casilleros?, interprete sus respuestas. b. Utilice la prueba T para comparar si el peso promedio utilizando la ración C es menor al peso promedio usando la ración B. Use α = 0,05 Nota. Se asume que las varianzas poblacionales son iguales. Solución a. Para realizar el ANVA: Hipótesis a probar: Para pisos: Para casilleros: H0 : µp1 = µp2 = µp3 = µp4 H0 : µc1 = µc2 = µc3 = µc4 H1 : al menos un µi ≠ µj H1 : al menos un µi ≠ µj
236
Estadística y diseño de experimentos
Para raciones: H0 : µA = µB = µC = µD H1 : al menos un µi ≠ µj Realizando los cálculos de los totales: Casilleros
Pisos
1
2
3
4
Total Pisos
1
1,40(A)
1,38(B)
1,40(C)
1,60(D)
5,78
2
1,35(B)
1,28(A)
1,45(D)
1,62(C)
5,7
3
1,38(C)
1,40(D)
1,42(B)
1,63(A)
5,83
4
1,39(D)
1,39(C)
1,40(A)
1,60(B)
5,78
Total casilleros
5,52
5,45
5,67
6,45
23,09
A
B
C
D
1,40
1,38
1,40
1,60
1,28
1,35
1,62
1,45
1,63
1,42
1,38
1,40
1,40
1,60
1,39
1,39
5,71
5,75
5,79
5,84
Raciones
Total raciones
23,09
Cálculo del término de corrección:
23, 09 ) (= 2
= TC
16
33,32175625
Calculando la suma de cuadrados del total SCTotal = 33,4941 – 33,32175625 = 0,17234 Calculando la suma de cuadrados para raciones, pisos y casilleros
SCRaciones = = SCpisos
5,712 +5,752 +5,792 +5,842 − ( 33,32175625 = ) 0,002319 4
5,782 +5,7 2 +5,832 + 5,782 − 33,32175625 = 0,002169 4 237
Cecilia Ríos Varillas
= SCcasilleros
5,522 +5, 452 +5,67 2 + 6, 452 − 33,32175625 = 0,15932 4
SCE = SCTotal – (SCproveedor + SClaboratorio + SCmétodos) Los resultados se colocan en el ANVA respectivo y se completan de manera inmediata los otros cálculos: ANVA
G.L.
S.C.
C.M.
Fcalc
Raciones
3
0,002319
0,00077
0,54319
Pisos
3
0,002169
0,000723
0,50805
Casilleros
3
0,15932
0,053106
37,324
Error
6
0,00854
0,0014229
Total
15
0,17234
Al comparar los F calculados con los F de la tabla: F(1–α) [(n–1)gl,(gl.Error)] = F0,95(3;6) gl = 4,76 Se concluye lo siguiente: En cuanto a las raciones probadas: Fc = 0,54319 < F1–α = 4,76 =>
No se rechaza H0
No existen diferencias significativas en los pesos de pollos, considerando las cuatro raciones alimenticias probadas. En cuando a los pisos de las jaulas: Fc = 0,50805 < F1–α = 4,76 =>
No se rechaza H0
No hay diferencias significativas en los pesos de pollos, criados en los 4 pisos. En cuando a los casilleros: Fc = 37,324 < F1–α = 4,76 =>
Se rechaza H0
Hay diferencias significativas en los pesos de pollos, criados en las 4 columnas o casilleros, al menos dos de los casilleros, influyen en los pesos de los pollos. b. Prueba de hipótesis para comparar los verdaderos pesos promedios usando las raciones B y C.
238
Estadística y diseño de experimentos
H0 : µC – µB = 0 H1 : µC < µB <—> µC – µB < 0
= tcal
(1, 4475 − 1, 4375) − 0 = 0,12439 Sp
Donde SP = 0,08039
0,05
0,95
T(6gl)=-1,943
tCtc ∈ RA H00 Hay evidencia estadística para afirmar que el verdadero peso promedio de los pollos usando la ración C no es menor que el verdadero peso promedio de los pollos usando la ración B. Ejercicio 2 Un ingeniero está investigando el efecto que tienen cuatro variedades de quinua (A, B, C, D) sobre el rendimiento de una parcela agrícola. Se supuso, para el diseño, que la humedad y el contenido de Nitrógeno del terreno derivan en una heterogeneidad del medio y que un doble criterio de agrupamiento podría reducir el error experimental. El ingeniero decide utilizar el DCL. Los resultados se muestran a continuación (en 100 kg por parcela). Nitrógeno
Humedad 1
2
3
4
1
A= 8,5
B= 5,0
C=11,5
D= 8,2
2
B= 6,2
A= 10,1
D= 9,2
C= 10,5
3
C= 6,4
D= 2,4
B= 6,0
A= 9,0
4
D= 6,4
C= 9,8
A= 13,5
B= 5,8
a. ¿Cuál es la variable respuesta? b. Realice el ANVA y pruebe las hipótesis respectivas 239
Cecilia Ríos Varillas
Solución a. La variable respuesta es: Rendimiento en 100 Kg por parcela b. Las hipótesis a probar son las siguientes: Para Nitrógeno: Para humedad: H0 : µN1 = µN2 = µN3 = µN4 H0 : µh1 = µh2 = µh3 = µh4 H1 : al menos un µi ≠ µj H1 : al menos un µi ≠ µj Para variedades de quinua H0 : µA = µB = µC = µD H1 : al menos un µi ≠ µj Realizando los cálculos respectivos, se calcula el ANVA: F.V.
G.L.
S.C.
C.M.
Fcalc
Variedades de Quinua
3
58,9569
19,6523
21,2113
Nitrógeno
3
24,2169
8,0723
8,7127
Humedad
3
27,9419
9,3140
10,0529
Error
6
5,5587
0,9265
Total
15
116,6744
El F calculado de las variedades de quinua, del contenido de nitrógeno y la humedad, es mayor que el F de la tabla; F(0,95;3;6) = 4,76 Entonces se concluye tanto las variedades de quinua, como la humedad y el contenido de nitrógeno, afectan el rendimiento de la parcela agrícola. Ejercicio 3 Un ingeniero está investigando el efecto que tienen cuatro métodos de ensamblaje (A, B, C y D) sobre el tiempo de ensamblaje (en horas) de un componente para televisores a color. Se seleccionaron cuatro operadores para realizar el estudio. Asumiendo varianzas homogéneas. A continuación se presentan los datos:
240
Operador
Orden de Montaje
1
2
3
4
I
5,8 C
1,7 D
3,2 A
4,4 B
II
4,2 B
5,5 C
1,4 D
3,0 A
III
3,1 A
4,0 13
5,3 C
1,5 D
IV
1,5 D
3,3 A
4,1 B
5,5 C
Estadística y diseño de experimentos
Realice el ANVA para las Pruebas de Hipótesis correspondientes y comparar si existe diferencias entre los métodos de montaje en estudio, entre los operadores y entre las órdenes de montaje. Use α = 0,05. Interprete sus resultados. Solución Las hipótesis a probar son las siguientes: Para orden de montaje: Para operador: H0 : µI = µII = µIII = µIV H0 : µ1 = µ2 = µ3 = µ4 H1 : al menos un µi ≠ µj H1 : al menos un µi ≠ µj Para Métodos de ensamblaje H0 : µA = µB = µC = µD H1 : al menos un µi ≠ µj Realizando los cálculos, el ANVA respectivo es: F.V.
G.L.
S.C.
C.M.
Fcalc
F1−α
Método de ensamblaje
3
34,1769
11,3923
1272,8826
4,76
Operador
3
0,0519
0,0173
1,93296
4,76
Orden Montaje
3
0,2069
0,06897
7,70615
4,76
Error
6
0,0537
0,00895
Total
15
34,4894
Se concluye lo siguiente: Los métodos de ensamblaje y las órdenes de montaje tienen efecto sobre el tiempo de ensamblaje de un componente para televisores a color; sin embargo el estudio realizado por los operadores no brinda diferencias significativas sobre el tiempo de ensamblaje.
8.14 EJERCICIOS PROPUESTOS 8.14.1 Diseño completamente aleatorio Ejercicio 1 Los datos que se muestran a continuación son los grados de dureza Brinell obtenidos para muestras de cuatro aleaciones de magnesio:
241
Cecilia Ríos Varillas Aleación 1:
66,3
63,5
64,9
61,8
64,3
64,7
Aleación 2:
71,3
60,4
62,6
63,9
68,8
70,1
Aleación 3:
68,3
65,5
64,9
71,8
64,3
64,8
Aleación 4
71,3
70,4
62,5
63,4
65,8
65,1
64,5
67,1
62,6
¿Existe una diferencia significativa en los grados dureza de las cuatro aleaciones? α = 0,05. Ejercicio 2 Se ensayan tres métodos para la determinación del calor de fusión del hielo en calorías por gramo. Se desea conocer si existen diferencias entre los métodos a un nivel de significación del 5%. Método A
79,9
80
79,9
80,2
80,5
80,4
Método B
80
79,9
80,3
79,9
79,9
79,9
Método C
78,9
85
74,9
82,2
81,5
78,4
80,3
80,1
80,5
Ejercicio 3 Un fabricante sospecha que el contenido de nitrógeno en un producto varía de un lote a otro. Selecciona una muestra aleatoria de cuatro lotes y realiza cinco determinaciones del contenido de nitrógeno en cada lote. ¿Existe una diferencia significativa en el contenido de nitrógeno de un lote a otro? α = 0,05.
Lote 1 2 3 4
26,15 24,95 25 26,81
26,25 25,01 25,36 26,75
26,39 24,89 25,2 26,15
26,18 24,85 25,09 26,5
26,2 25,13 25,12 26,7
8.14.2 Diseño bloque completamente aleatorio Ejercicio 1 Se efectuó un experimento para comparar los efectos de tres catalizadores en el rendimiento de un proceso químico. Se llevaron a cabo tres ejecuciones del experimento, una empleando el catalizador A, otra usando el catalizador B y otra utilizando el catalizador C. Tres días después se obtuvieron muestras, una de cada una de las ejecuciones, y se hicieron los análisis, de manera similar (tomando muestras y efectuando los análisis) se efectuaron cinco y siete días después. Analice e interprete los datos resultantes.
242
Estadística y diseño de experimentos Rendimientos codificados del proceso químico
Días 3 días 5 días 7 días
A 68 82 90
B 90 96 93
C 82 88 91
Ejercicio 2 En una compañía manufacturera, se usan micrómetros para comprobar calidad; a su vez los micrómetros se comprueban por el uso de bloques calibradores. Sin embargo, hay cinco departamentos y cada uno de ellos tiene sus propios micrómetros y bloques calibradores. Debido a la sospecha de que hay variación entre micrómetros y/o bloques calibradores, el ingeniero de control de la calidad llevó a cabo una prueba utilizando una muestra al azar de instrumentos. Analice e interprete los siguientes datos. Bloque
Micrómetro
Calibrador
1
2
3
4
5
A
0,0110
0,0115
0,0130
0,0151
0,0121
B
0,0135
0,0127
0,0132
0,0155
0,0128
C
0,0127
0,0124
0,0132
0,0152
0,0130
Ejercicio 3 Una industria química desea probar el efecto de cuatro agentes químicos sobre la resistencia de un tipo particular de tela. Dado que puede haber variabilidad entre un rollo de tela y otro decide utilizar a los rollos de tela como bloques, y selecciona 5 rollos y les aplica los cuatro agentes químicos en orden aleatorio. A continuación se presentan los datos de la resistencia a la tensión (en psi). Rollo de tela
Agente químico
1
2
3
4
5
1 2 3 4
73 73 75 73
68 67 68 71
74 75 78 75
71 72 73 75
67 70 68 69
a. Indique cuál es la variable respuesta y los factores, indicando cual es el factor de interés. b. Plantee las hipótesis que interesaría probar en esta situación y mediante una tabla ANVA, determine si hay diferencias entre los agentes químicos y si las hay entre los rollos de tela α = 0,05. 243
Cecilia Ríos Varillas
Ejercicio 4 Se desea determinar de qué manera la solubilidad del metronidazol se ve afectada por los parabenos (conservadores) y las macromoléculas no iónicas, para lo cual se realiza el siguiente experimento: Se preparan cuatro soluciones de macromoléculas no iónicas diferentes y se coloca cada una en tres conservadores; luego se determinan las solubilidades del metronidazol en cada una de las macromoléculas, obteniéndose los siguientes resultados: Macromoléculas no iónicas Conservadores
Sol. 1
Sol. 2
Sol. 3
Sol. 4
metilparabeno
146
107
153
107
etilparabeno
199
114
310
104
propilparabeno
364
115
781
108
Realizar las pruebas para las dos hipótesis correspondientes, Ejercicio 5 En un experimento para comparar el porcentaje de eficiencia en la extracción de iones metálicos en solución acuosa por agentes quelantes, se obtuvieron los siguientes resultados: Agente quelante Días
A
B
C
D
1
84
80
83
79
2
79
77
80
79
3
83
78
80
78
Cada día se prepararon disoluciones del ion metálico (con concentración especificada) y se realizó la extracción con cada uno de los agentes quelantes, tomados de una manera aleatoria. a. Probar si los diferentes agentes quelantes tienen eficiencias significativamente diferentes. b. Probar si hay diferencias significativas día a día.
8.14.3 Diseño cuadrado latino Ejercicio 1 Se realizó un experimento para asegurar las resistencias relativas a la abrasión de 4 tipos de pieles (A, B, C, D). Se usó una máquina en la cual se probaron las muestras en una cualquiera de cuatro posiciones. Puesto que se conoce que diferentes 244
Estadística y diseño de experimentos
ejecuciones del experimento (repeticiones) dan resultados variables, se decidió hacer 4 ejecuciones del mismo. Los datos son: Posición
Ejecución 1
1
2
3
4
118(B)
136(D)
168(A)
135(C)
2
127(D)
141(B)
129(C)
151(A)
3
174(A)
173(C )
126(B)
134(D)
4
130(C)
170(A)
125(D)
95(B)
Analizar en el ANVA e interprete este problema. Ejercicio 2 En un experimento para probar los sesgos relativos de tres instrumentos (X, Y, Z) empleados en el muestreo de sacos de fertilizante, tres operarios usan cada uno de los instrumentos en tres órdenes diferentes, obteniéndose los resultados que se muestran en el cuadro adjunto. Los datos son desviaciones (en décimas de uno por ciento) del porcentaje real de fósforo total encontrado en las muestras con respecto al 10% nominal estampado en el saco. Determine si hay alguna evidencia de sesgos instrumentales significativos. Existe además, la duda de que el orden del muestreo podría ser la causa de las desviaciones y también se dice que depende de la persona (operario) que realiza el ensayo. Usar nivel de significación del 5%. OPERARIO Orden
1
2
3
1
10(X)
9(Z)
9(Y)
2
10(Y)
11(X)
9(Z)
3
11(Z)
10(Y)
10(X)
Ejercicio 3 Un investigador quiere evaluar la productividad de cuatro variedades de trigo y decide realizar el ensayo en un terreno que posee un gradiente de pendiente de oriente a occidente y además, diferencias en la disponibilidad de nitrógeno de norte a sur, para controlar los efectos de la pendiente y la disponibilidad de nitrógeno, utilizó un diseño de cuadrado latino, las variedades son: A, B, C y D, los datos corresponden a la producción en kg/parcela.
245
Cecilia Ríos Varillas Pendiente
Disponibilidad de Nitrógeno
1
2
3
4
1
785(D)
730(A)
700( C)
795(B)
2
855(A)
775(B)
760(D)
710( C)
3
950( C)
885(D)
795(B)
780(A)
4
945(B)
950( C)
880(A)
835(D)
a. ¿Cuál es el factor principal? b. Indique la variable de respuesta. c. Presente las hipótesis respectivas, calcule el ANVA e interprete sus resultados.
246
Estadística y diseño de experimentos
Glosario
Desviación estándar. La medida de dispersión más común. Puede usarse con la media para describir la distribución de las observaciones. Es la raíz cuadrada del promedio de desviaciones al cuadrado de las observaciones desde su media. Distribución (población). Corresponde los valores de una característica o variable junto con la frecuencia de su ocurrencia. Las distribuciones pueden basarse en observaciones empíricas o ser distribuciones teóricas de probabilidad (por ejemplo, normal, binomial, ji cuadrada). Distribución F. Distribución de probabilidad usada para probar la igualdad de dos estimaciones de la varianza. Es la distribución usada con la prueba F en ANVA. Grado de libertad. Cantidad que permite introducir una corrección matemática en los cálculos estadísticos para restricciones impuestas en los datos. Representa al número de variables independientes de la muestra corregida (n-1). Hipótesis nula. Es la que se está probando acerca de una población. En ge-
neral nulo significa "sin diferencia" y por lo tanto, se refiere a una situación en la que no hay diferencia (por ejemplo, entre las medias en un grupo de tratamiento y un grupo control). Homocedasticidad. Situación en la que las varianzas de las poblaciones son iguales. Prueba de dos colas. Método en donde la hipótesis alterna especifica una desviación a partir de la hipótesis nula en las dos direcciones. La región crítica se localiza en ambos extremos de la distribución de la estadística de prueba. También se llama prueba direccional P-value. El valor p (p-value) se puede definir como el menor nivel de significación al que se puede rechazar una hipótesis nula cuando es verdadera. Sesgo. Error relacionado con las formas en que difieren la ubicación y muestreo de la población; llamado también error de medición, amenaza la validez de un estudio. Valor crítico. Cantidad que una prueba estadística debe exceder (en un sentido de valor absoluto) para poder rechazar la hipótesis nula.
247
Cecilia Ríos Varillas
248
Estadística y diseño de experimentos
Bibliografía
Acuña F, Edgar. Análisis estadístico de datos usando minitab. 3a. edición. Puerto Rico: Universidad de Puerto Rico, 2010. Araya Alpízar, Carlo Magno. Estadística para laboratorista químico. San José, C.R.: Editorial de la Universidad de Costa Rica, 2004. Chue, Jorge; Barreno, Enma; Millones, Rosa; Vásquez, Félix y Castillo, Carlos. Estadística aplicada. Lima: Fondo Editorial de la Universidad de Lima, 2009. Chue, Jorge; Barreno, Enma; Millones, Rosa; Vásquez, Félix y Castillo, Carlos. Estadística descriptiva y probabilidades. Lima: Fondo Editorial de la Universidad de Lima, 2007. Cochran, William G. y Cox, Gertrude M. Diseños experimentales. 2a. edición. México: Editorial Trillas. 1980. Espinoza, Juan. “Distribuciones muestrales de los principales estadísticos”. En: Revista Ciencia Ahora N° 15, Año 8, Abril 2005. Concepción: Universidad de Concepción. Johnson, Richard A. Probabilidad y estadística para ingenieros de Miller y Freund. 5a. edición, Editorial Prentice Hall. Kazmier, Leonard. Estadistica aplicada a la administracion y economia. México: McGraw Hill, 2006. Marques de Cantú, María José. Probabilidad y estadística para ciencias químico-biológicas. México: McGraw-Hill, 1991. Ostle, Bernard. Estadística aplicada. 2a. edición. México: Editorial Limusa-Wiley, 1970. Vélez, Ricardo y Hernández Víctor. Cálculo de probabilidades. Madrid: Universidad Nacional de Educación a distancia, 1995.
249
Cecilia Ríos Varillas
250
Estadística y diseño de experimentos
Anexos
Anexo 1. Tabla función de distribución acumulativa distribución t-student F(t)=P(T≤t) Función de distribución acumulativa distribución t-student n (gl)
Prob 0,750
0,800
0,850
0,900
0,950
0,975
0,990
0,995
0,9995
1
1,000
1,376
1,963
3,078
6,314
12,706
31,821
63,657
636,619
2
0,816
1,061
1,386
1,886
2,920
4,303
6,965
9,925
31,599
3
0,765
0,978
1,250
1,638
2,353
3,182
4,541
5,841
12,924
4
0,741
0,941
1,190
1,533
2,132
2,776
3,747
4,604
8,610
5
0,727
0,920
1,156
1,476
2,015
2,571
3,365
4,032
6,869
6
0,718
0,906
1,134
1,440
1,943
2,447
3,143
3,707
5,959
7
0,711
0,896
1,119
1,415
1,895
2,365
2,998
3,499
5,408
8
0,706
0,889
1,108
1,397
1,860
2,306
2,896
3,355
5,041
9
0,703
0,883
1,100
1,383
1,833
2,262
2,821
3,250
4,781
10
0,700
0,879
1,093
1,372
1,812
2,228
2,764
3,169
4,587
11
0,697
0,876
1,088
1,363
1,796
2,201
2,718
3,106
4,437
12
0,695
0,873
1,083
1,356
1,782
2,179
2,681
3,055
4,318
13
0,694
0,870
1,079
1,350
1,771
2,160
2,650
3,012
4,221
14
0,692
0,868
1,076
1,345
1,761
2,145
2,624
2,977
4,140
15
0,691
0,866
1,074
1,341
1,753
2,131
2,602
2,947
4,073
16
0,690
0,865
1,071
1,337
1,746
2,120
2,583
2,921
4,015
17
0,689
0,863
1,069
1,333
1,740
2,110
2,567
2,898
3,965
continua en la pág. siguiente
251
Cecilia Ríos Varillas viene de la página anterior
18
0,688
0,862
1,067
1,330
1,734
2,101
2,552
2,878
3,922
19
0,688
0,861
1,066
1,328
1,729
2,093
2,539
2,861
3,883
20
0,687
0,860
1,064
1,325
1,725
2,086
2,528
2,845
3,850
21
0,686
0,859
1,063
1,323
1,721
2,080
2,518
2,831
3,819
22
0,686
0,858
1,061
1,321
1,717
2,074
2,508
2,819
3,792
23
0,685
0,858
1,060
1,319
1,714
2,069
2,500
2,807
3,768
24
0,685
0,857
1,059
1,318
1,711
2,064
2,492
2,797
3,745
25
0,684
0,856
1,058
1,316
1,708
2,060
2,485
2,787
3,725
26
0,684
0,856
1,058
1,315
1,706
2,056
2,479
2,779
3,707
27
0,684
0,855
1,057
1,314
1,703
2,052
2,473
2,771
3,690
28
0,683
0,855
1,056
1,313
1,701
2,048
2,467
2,763
3,674
29
0,683
0,854
1,055
1,311
1,699
2,045
2,462
2,756
3,659
30
0,683
0,854
1,055
1,310
1,697
2,042
2,457
2,750
3,646
35
0,682
0,852
1,052
1,306
1,690
2,030
2,438
2,724
3,591
40
0,681
0,851
1,050
1,303
1,684
2,021
2,423
2,704
3,551
45
0,680
0,850
1,049
1,301
1,679
2,014
2,412
2,690
3,520
50
0,679
0,849
1,047
1,299
1,676
2,009
2,403
2,678
3,496
55
0,679
0,848
1,046
1,297
1,673
2,004
2,396
2,668
3,476
60
0,679
0,848
1,045
1,296
1,671
2,000
2,390
2,660
3,460
70
0,678
0,847
1,044
1,294
1,667
1,994
2,381
2,648
3,435
80
0,678
0,846
1,043
1,292
1,664
1,990
2,374
2,639
3,416
90
0,677
0,846
1,042
1,291
1,662
1,987
2,368
2,632
3,402
100
0,677
0,845
1,042
1,290
1,660
1,984
2,364
2,626
3,390
200
0,676
0,843
1,039
1,286
1,653
1,972
2,345
2,601
3,340
300
0,675
0,843
1,038
1,284
1,650
1,968
2,339
2,592
3,323
400
0,675
0,843
1,038
1,284
1,649
1,966
2,336
2,588
3,315
500
0,675
0,842
1,038
1,283
1,648
1,965
2,334
2,586
3,310
1.000 0,675
0,842
1,037
1,282
1,646
1,962
2,330
2,581
3,300
252
Estadística y diseño de experimentos
Anexo 2. Tabla de la función de distribución acumulativa normal estándar P(Z≤z)=F(z) Tabla de la función de distribución acumulativa normal estándar Z
0
0,01000
0,02000
0,03000
0,04000
0,05000
0,06000
0,07000
0,08000
0,09000
0
0,50000
0,50399
0,50798
0,51197
0,51595
0,51994
0,52392
0,52790
0,53188
0,53586
0,1
0,53983
0,54380
0,54776
0,55172
0,55567
0,55962
0,56356
0,56749
0,57142
0,57535
0,2
0,57926
0,58317
0,58706
0,59095
0,59483
0,59871
0,60257
0,60642
0,61026
0,61409
0,3
0,61791
0,62172
0,62552
0,62930
0,63307
0,63683
0,64058
0,64431
0,64803
0,65173
0,4
0,65542
0,65910
0,66276
0,66640
0,67003
0,67364
0,67724
0,68082
0,68439
0,68793
0,5
0,69146
0,69497
0,69847
0,70194
0,70540
0,70884
0,71226
0,71566
0,71904
0,72240
0,6
0,72575
0,72907
0,73237
0,73565
0,73891
0,74215
0,74537
0,74857
0,75175
0,75490
0,7
0,75804
0,76115
0,76424
0,76730
0,77035
0,77337
0,77637
0,77935
0,78230
0,78524
0,8
0,78814
0,79103
0,79389
0,79673
0,79955
0,80234
0,80511
0,80785
0,81057
0,81327
0,9
0,81594
0,81859
0,82121
0,82381
0,82639
0,82894
0,83147
0,83398
0,83646
0,83891
1,0
0,84134
0,84375
0,84614
0,84849
0,85083
0,85314
0,85543
0,85769
0,85993
0,86214
1,1
0,86433
0,86650
0,86864
0,87076
0,87286
0,87493
0,87698
0,87900
0,88100
0,88298
1,2
0,88493
0,88686
0,88877
0,89065
0,89251
0,89435
0,89617
0,89796
0,89973
0,90147
1,3
0,90320
0,90490
0,90658
0,90824
0,90988
0,91149
0,91309
0,91466
0,91621
0,91774
1,4
0,91924
0,92073
0,92220
0,92364
0,92507
0,92647
0,92785
0,92922
0,93056
0,93189
1,5
0,93319
0,93448
0,93574
0,93699
0,93822
0,93943
0,94062
0,94179
0,94295
0,94408
1,6
0,94520
0,94630
0,94738
0,94845
0,94950
0,95053
0,95154
0,95254
0,95352
0,95449
1,7
0,95543
0,95637
0,95728
0,95818
0,95907
0,95994
0,96080
0,96164
0,96246
0,96327
1,8
0,96407
0,96485
0,96562
0,96638
0,96712
0,96784
0,96856
0,96926
0,96995
0,97062
1,9
0,97128
0,97193
0,97257
0,97320
0,97381
0,97441
0,97500
0,97558
0,97615
0,97670
2,0
0,97725
0,97778
0,97831
0,97882
0,97932
0,97982
0,98030
0,98077
0,98124
0,98169
2,1
0,98214
0,98257
0,98300
0,98341
0,98382
0,98422
0,98461
0,98500
0,98537
0,98574
2,2
0,98610
0,98645
0,98679
0,98713
0,98745
0,98778
0,98809
0,98840
0,98870
0,98899
2,3
0,98928
0,98956
0,98983
0,99010
0,99036
0,99061
0,99086
0,99111
0,99134
0,99158
2,4
0,99180
0,99202
0,99224
0,99245
0,99266
0,99286
0,99305
0,99324
0,99343
0,99361
2,5
0,99379
0,99396
0,99413
0,99430
0,99446
0,99461
0,99477
0,99492
0,99506
0,99520
2,6
0,99534
0,99547
0,99560
0,99573
0,99585
0,99598
0,99609
0,99621
0,99632
0,99643
2,7
0,99653
0,99664
0,99674
0,99683
0,99693
0,99702
0,99711
0,99720
0,99728
0,99736
2,8
0,99744
0,99752
0,99760
0,99767
0,99774
0,99781
0,99788
0,99795
0,99801
0,99807
2,9
0,99813
0,99819
0,99825
0,99831
0,99836
0,99841
0,99846
0,99851
0,99856
0,99861
3,0
0,99865
0,99869
0,99874
0,99878
0,99882
0,99886
0,99889
0,99893
0,99896
0,99900
3,1
0,99903
0,99906
0,99910
0,99913
0,99916
0,99918
0,99921
0,99924
0,99926
0,99929
continua en la pág. siguiente
253
Cecilia Ríos Varillas viene de la página anterior 3,2
0,99931
0,99934
0,99936
0,99938
0,99940
0,99942
0,99944
0,99946
0,99948
0,99950
3,3
0,99952
0,99953
0,99955
0,99957
0,99958
0,99960
0,99961
0,99962
0,99964
0,99965
3,4
0,99966
0,99968
0,99969
0,99970
0,99971
0,99972
0,99973
0,99974
0,99975
0,99976
3,5
0,99977
0,99978
0,99978
0,99979
0,99980
0,99981
0,99981
0,99982
0,99983
0,99983
3,6
0,99984
0,99985
0,99985
0,99986
0,99986
0,99987
0,99987
0,99988
0,99988
0,99989
3,7
0,99989
0,99990
0,99990
0,99990
0,99991
0,99991
0,99992
0,99992
0,99992
0,99992
3,8
0,99993
0,99993
0,99993
0,99994
0,99994
0,99994
0,99994
0,99995
0,99995
0,99995
3,9
0,99995
0,99995
0,99996
0,99996
0,99996
0,99996
0,99996
0,99996
0,99997
0,99997
4,0
0,99997
0,99997
0,99997
0,99997
0,99997
0,99997
0,99998
0,99998
0,99998
0,99998
4,1
0,99998
0,99998
0,99998
0,99998
0,99998
0,99998
0,99998
0,99998
0,99999
0,99999
4,2
0,99999
0,99999
0,99999
0,99999
0,99999
0,99999
0,99999
0,99999
0,99999
0,99999
4,3
0,99999
0,99999
0,99999
0,99999
0,99999
0,99999
0,99999
0,99999
0,99999
0,99999
4,4
0,99999
0,99999
1,00000
1,00000
1,00000
1,00000
1,00000
1,00000
1,00000
1,00000
4,5
1,00000
1,00000
1,00000
1,00000
1,00000
1,00000
1,00000
1,00000
1,00000
1,00000
4,6
1,00000
1,00000
1,00000
1,00000
1,00000
1,00000
1,00000
1,00000
1,00000
1,00000
4,7
1,00000
1,00000
1,00000
1,00000
1,00000
1,00000
1,00000
1,00000
1,00000
1,00000
4,8
1,00000
1,00000
1,00000
1,00000
1,00000
1,00000
1,00000
1,00000
1,00000
1,00000
4,9
1,00000
1,00000
1,00000
1,00000
1,00000
1,00000
1,00000
1,00000
1,00000
1,00000
5,0
1,00000
1,00000
1,00000
1,00000
1,00000
1,00000
1,00000
1,00000
1,00000
1,00000
254
Estadística y diseño de experimentos
Anexo 3. Tabla de la función de distribución acumulativa distribución ji-cuadrado Función de distribución acumulativa distribución ji-cuadrado n\P
0,001
0,005
0,010
0,020
0,025
0,050
0,100
0,250
0,500
1
0,000
0,000
0,000
0,001
0,001
0,004
0,016
0,102
0,455
2
0,002
0,010
0,020
0,040
0,051
0,103
0,211
0,575
1,386
3
0,024
0,072
0,115
0,185
0,216
0,352
0,584
1,213
2,366
4
0,091
0,207
0,297
0,429
0,484
0,711
1,064
1,923
3,357
5
0,210
0,412
0,554
0,752
0,831
1,145
1,610
2,675
4,351
6
0,381
0,676
0,872
1,134
1,237
1,635
2,204
3,455
5,348
7
0,598
0,989
1,239
1,564
1,690
2,167
2,833
4,255
6,346
8
0,857
1,344
1,646
2,032
2,180
2,733
3,490
5,071
7,344
9
1,152
1,735
2,088
2,532
2,700
3,325
4,168
5,899
8,343
10
1,479
2,156
2,558
3,059
3,247
3,940
4,865
6,737
9,342
11
1,834
2,603
3,053
3,609
3,816
4,575
5,578
7,584
0,341
12
2,214
3,074
3,571
4,178
4,404
5,226
6,304
8,438
11,340
13
2,617
3,565
4,107
4,765
5,009
5,892
7,042
9,299
2,340
14
3,041
4,075
4,660
5,368
5,629
6,571
7,790
10,165 13,339
15
3,483
4,601
5,229
5,985
6,262
7,261
8,547
11,037
14,339
16
3,942
5,142
5,812
6,614
6,908
7,962
9,312
11,912
15,338
17
4,416
5,697
6,408
7,255
7,564
8,672
10,085
12,792
16,338
18
4,905
6,265
7,015
7,906
8,231
9,390
10,865
13,675
17,338
19
5,407
6,844
7,633
8,567
8,907
10,117
11,651
14,562
18,338
20
5,921
7,434
8,260
9,237
9,591
10,851
12,443
15,452
19,337
21
6,447
8,034
8,897
9,915
10,283
11,591
13,240
16,344
20,337
22
6,983
8,643
9,542
10,600
10,982
12,338
14,041
17,240
21,337
23
7,529
9,260
10,196
11,293
11,689
13,091
14,848
18,137
22,337
24
8,085
9,886
10,856
11,992
12,401
13,848
15,659
19,037
23,337
25
8,649
10,520
11,524
12,697
13,120
14,611
16,473
19,939
24,337
26
9,222
11,160
12,198
13,409
13,844
15,379
17,292
20,843
25,336
27
9,803
11,808
12,879
14,125
14,573
16,151
18,114
21,749
26,336
28
10,391
12,461
13,565
14,847
15,308
16,928
18,939
22,657
27,336
29
10,986
13,121
14,256
15,574
16,047
17,708
19,768
23,567
28,336
30
11,588
13,787
14,953
16,306
16,791
18,493
20,599
24,478
29,336
31
12,196
14,458
15,655
17,042
17,539
19,281
21,434
25,390
30,336
continua en la pág. siguiente
255
Cecilia Ríos Varillas viene de la página anterior
32
12,811
15,134
16,362
17,783
18,291
20,072
22,271
26,304
31,336
33
13,431
15,815
17,074
18,527
19,047
20,867
23,110
27,219
32,336
34
14,057
16,501
17,789
19,275
19,806
21,664
23,952
28,136
33,336
35
14,688
17,192
18,509
20,027
20,569
22,465
24,797
29,054
34,336
36
15,324
17,887
19,233
20,783
21,336
23,269
25,643
29,973
35,336
37
15,965
18,586
19,960
21,542
22,106
24,075
26,492
30,893
36,336
38
16,611
19,289
20,691
22,304
22,878
24,884
27,343
31,815
37,335
39
17,262
19,996
21,426
23,069
23,654
25,695
28,196
32,737
38,335
40
17,916
20,707
22,164
23,838
24,433
26,509
29,051
33,660
39,335
n\P
0,750
0,900
0,950
0,925
0,980
0,990
0,995
0,999
1
1,323
2,706
3,841
3,170
5,412
6,635
7,879
10,828
2
2,773
4,605
5,991
5,181
7,824
9,210
10,597
13,816
3
4,108
6,251
7,815
6,905
9,837
11,345
12,838
16,266
4
5,385
7,779
9,488
8,496
11,668
13,277
14,860
18,467
5
6,626
9,236
11,070
10,008
13,388
15,086
16,750
20,515
6
7,841
10,645
12,592
11,466
15,033
16,812
18,548
22,458
Función de distribución acumulativa distribución ji-cuadrado
7
9,037
12,017
14,067
12,883
16,622
18,475
20,278
24,322
8
10,219
13,362
15,507
14,270
18,168
20,090
21,955
26,124
9
11,389
14,684
16,919
15,631
19,679
21,666
23,589
27,877
10
12,549
15,987
18,307
16,971
21,161
23,209
25,188
29,588
11
13,701
17,275
19,675
18,294
22,618
24,725
26,757
31,264
12
14,845
18,549
21,026
19,602
24,054
26,217
28,300
32,909
13
15,984
19,812
22,362
20,897
25,472
27,688
29,819
34,528
14
17,117
21,064
23,685
22,180
26,873
29,141
31,319
36,123
15
18,245
22,307
24,996
23,452
28,259
30,578
32,801
37,697
16
19,369
23,542
26,296
24,716
29,633
32,000
34,267
39,252
17
20,489
24,769
27,587
25,970
30,995
33,409
35,718
40,790
18
21,605
25,989
28,869
27,218
32,346
34,805
37,156
42,312
19
22,718
27,204
30,144
28,458
33,687
36,191
38,582
43,820
20
23,828
28,412
31,410
29,692
35,020
37,566
39,997
45,315
21
24,935
29,615
32,671
30,920
36,343
38,932
41,401
46,797
22
26,039
30,813
33,924
32,142
37,659
40,289
42,796
48,268
23
27,141
32,007
35,172
33,360
38,968
41,638
44,181
49,728
continua en la pág. siguiente
256
Estadística y diseño de experimentos 24
28,241
33,196
36,415
34,572
40,270
42,980
45,559
51,179
25
29,339
34,382
37,652
35,780
41,566
44,314
46,928
52,620
26
30,435
35,563
38,885
36,984
42,856
45,642
48,290
54,052
27
31,528
36,741
40,113
38,184
44,140
46,963
49,645
55,476
28
32,620
37,916
41,337
39,380
45,419
48,278
50,993
56,892
29
33,711
39,087
42,557
40,573
46,693
49,588
52,336
58,301
30
34,800
40,256
43,773
41,762
47,962
50,892
53,672
59,703
31
35,887
41,422
44,985
42,948
49,226
52,191
55,003
61,098
32
36,973
42,585
46,194
44,131
50,487
53,486
56,328
62,487
33
38,058
43,745
47,400
45,311
51,743
54,776
57,648
63,870
34
39,141
44,903
48,602
46,488
52,995
56,061
58,964
65,247
35
40,223
46,059
49,802
47,663
54,244
57,342
60,275
66,619
36
41,304
47,212
50,998
48,835
55,489
58,619
61,581
67,985
37
42,383
48,363
52,192
50,005
56,730
59,893
62,883
69,346
38
43,462
49,513
53,384
51,173
57,969
61,162
64,181
70,703
39
44,539
50,660
54,572
52,338
59,204
62,428
65,476
72,055
40
45,616
51,805
55,758
53,501
60,436
63,691
66,766
73,402
257
Cecilia Ríos Varillas
Anexo 4. Tabla de valores de la distribución F para una probabilidad acumulada de 0,99 Valores de la distribución f para una probabilidad acumulada de 0,99 (α=0.01) V2\v1
1
2
3
4
5
6
7
8
9
10
11
12
1
4052
4999
5403
5625
5764
5859
5928
5981
6022
6056
6083
6106
2
98,50
99,00
99,17
99,25
99,30
99,33
99,36
99,37
99,39
99,40
99,41
99,42
3
34,1
30,8
29,5
28,7
28,2
27,9
27,7
27,5
27,3
27,2
27,1
27,1
4
21,2
18,0
16,7
16,0
15,5
15,2
15,0
14,8
14,7
14,5
14,5
14,4
5
16,26
13,27
12,06
11,39
10,97
10,67
10,46
10,29
10,16
10,05
9,963
9,888
6
13,75
10,92
9,780
9,148
8,746
8,466
8,260
8,102
7,976
7,874
7,790
7,718
7
12,25
9,547
8,451
7,847
7,460
7,191
6,993
6,840
6,719
6,620
6,538
6,469
8
11,26
8,649
7,591
7,006
6,632
6,371
6,178
6,029
5,911
5,814
5,734
5,667
9
10,56
8,022
6,992
6,422
6,057
5,802
5,613
5,467
5,351
5,257
5,178
5,111
10
10,04
7,559
6,552
5,994
5,636
5,386
5,200
5,057
4,942
4,849
4,772
4,706
11
9,646
7,206
6,217
5,668
5,316
5,069
4,886
4,744
4,632
4,539
4,462
4,397
12
9,330
6,927
5,953
5,412
5,064
4,821
4,640
4,499
4,388
4,296
4,220
4,155
13
9,074
6,701
5,739
5,205
4,862
4,620
4,441
4,302
4,191
4,100
4,025
3,960
14
8,862
6,515
5,564
5,035
4,695
4,456
4,278
4,140
4,030
3,939
3,864
3,800
15
8,683
6,359
5,417
4,893
4,556
4,318
4,142
4,004
3,895
3,805
3,730
3,666
16
8,531
6,226
5,292
4,773
4,437
4,202
4,026
3,.890
3,780
3,691
3,616
3,553
17
8,400
6,112
5,185
4,669
4,336
4,102
3,927
3,791
3,682
3,593
3,519
3,455
18
8,285
6,013
5,092
4,579
4,248
4,015
3,841
3,705
3,597
3,508
3,434
3,371
19
8,185
5,926
5,010
4,500
4,171
3,939
3,765
3,631
3,523
3,434
3,360
3,297
20
8,096
5,849
4,938
4,431
4,103
3,871
3,699
3,564
3,457
3,368
3,294
3,231
21
8,017
5,780
4,874
4,369
4,042
3,812
3,640
3,506
3,.398
3,310
3,236
3,173
22
7,945
5,719
4,817
4,313
3,988
3,758
3,587
3,453
3,346
3,258
3,184
3,121
23
7,881
5,664
4,765
4,264
3,939
3,710
3,539
3,406
3,299
3,211
3,137
3,074
24
7,823
5,614
4,718
4,218
3,895
3,667
3,496
3,363
3,256
3,168
3,094
3,032
25
7,770
5,568
4,675
4,177
3,855
3,627
3,457
3,324
3,217
3,129
3,056
2,993
26
7,721
5,526
4,637
4,140
3,818
3,591
3,421
3,288
3,182
3,094
3,021
2,958
27
7,677
5,488
4,601
4,106
3,785
3,558
3,388
3,256
3,149
3,062
2,988
2,926
28
7,636
5,453
4,568
4,074
3,754
3,528
3,358
3,226
3,120
3,032
2,959
2,896
29
7,598
5,420
4,538
4,045
3,725
3,499
3,330
3,198
3,092
3,005
2,931
2,868
30
7,562
5,390
4,510
4,018
3,699
3,473
3,304
3,173
3,067
2,979
2,906
2,843
35
7,419
5,268
4,396
3,908
3,592
3,368
3,200
3,069
2,963
2,876
2,803
2,740
40
7,314
5,179
4,313
3,828
3,514
3,291
3,124
2,993
2,888
2,801
2,727
2,665
45
7,234
5,110
4,249
3,767
3,454
3,232
3,066
2,935
2,830
2,743
2,670
2,608
continua en la pág. siguiente
258
Estadística y diseño de experimentos viene de la página anterior 50
7,171
5,057
4,199
3,720
3,408
3,186
3,020
2,890
2,785
2,698
2,625
2,562
60
7,077
4,977
4,126
3,649
3,339
3,119
2,953
2,823
2,718
2,632
2,559
2,496
100
6,895
4,824
3,984
3,513
3,206
2,988
2,823
2,694
2,590
2,503
2,430
2,368
200
6,763
4,713
3,881
3,414
3,110
2,893
2,730
2,601
2,497
2,411
2,338
2,275
300
6,720
4,677
3,848
3,382
3,079
2,862
2,699
2,571
2,467
2,380
2,307
2,244
500
6,686
4,648
3,821
3,357
3,054
2,838
2,675
2,547
2,443
2,356
2,283
2,220
Valores de la distribución f para una probabilidad acumulada de 0,99 (α=0.01) v2\v1
13
14
15
20
25
30
40
50
60
100
500
1
6126
6143
6157
6209
6240
6261
6287
6303
6313
6334
6360
2
99,42
99,43
99,43
99,45
99,46
99,47
99,47
99,48
99,48
99,49
99,50
3
27,0
26,9
26,9
26,7
26,6
26,5
26,4
26,4
26,3
26,2
26,1
4
14,3
14,2
14,2
14,0
13,9
13,8
13,7
13,7
13,7
13,6
13,5
5
9,825
9,770
9,722
9,553
9,449
9,379
9,291
9,238
9,202
9,130
9,042
6
7,657
7,605
7,559
7,396
7,296
7,229
7,143
7,091
7,057
6,987
6,902
7
6,410
6,359
6,314
6,155
6,058
5,992
5,908
5,858
5,824
5,755
5,671
8
5,609
5,559
5,515
5,359
5,263
5,198
5,116
5,065
5,032
4,963
4,880
9
5,055
5,005
4,962
4,808
4,713
4,649
4,567
4,517
4,483
4,415
4,332
10
4,650
4,601
4,558
4,405
4,311
4,247
4,165
4,115
4,082
4,014
3,930
11
4,342
4,293
4,251
4,099
4,005
3,941
3,860
3,810
3,776
3,708
3,624
12
4,100
4,052
4,010
3,858
3,765
3,701
3,619
3,569
3,535
3,467
3,382
13
3,905
3,857
3,815
3,665
3,571
3,507
3,425
3,375
3,341
3,272
3,187
14
3,745
3,698
3,656
3,505
3,412
3,348
3,266
3,215
3,181
3,112
3,026
15
3,612
3,564
3,522
3,372
3,278
3,214
3,132
3,081
3,047
2,977
2,891
16
3,498
3,451
3,409
3,259
3,165
3,101
3,018
2,967
2,933
2,863
2,775
17
3,401
3,353
3,312
3,162
3,068
3,003
2,920
2,869
2,835
2,764
2,676
18
3,316
3,269
3,227
3,077
2,983
2,919
2,835
2,784
2,749
2,678
2,589
19
3,242
3,195
3,153
3,003
2,909
2,844
2,761
2,709
2,674
2,602
2,512
20
3,177
3,130
3,088
2,938
2,843
2,778
2,695
2,643
2,608
2,535
2,445
21
3,119
3,072
3,030
2,880
2,785
2,720
2,636
2,584
2,548
2,475
2,384
22
3,067
3,019
2,978
2,827
2,733
2,667
2,583
2,531
2,495
2,422
2,329
23
3,020
2,973
2,931
2,781
2,686
2,620
2,535
2.483
2,447
2,373
2,280
24
2,977
2,930
2,889
2,738
2,643
2,577
2,492
2.440
2,403
2,329
2,235
25
2,939
2,892
2,850
2,699
2,604
2,538
2,453
2,400
2,364
2,289
2,194
26
2,904
2,857
2,815
2,664
2,569
2,503
2,417
2,364
2,327
2,252
2,156
27
2,871
2,824
2,783
2,632
2,536
2,470
2,384
2,330
2,294
2,218
2,122
continua en la pág. siguiente
259
Cecilia Ríos Varillas viene de la página anterior 28
2,842
2,795
2,753
2,602
2,506
2,440
2,354
2,300
2,263
2,187
2,090
29
2,814
2,767
2,726
2,574
2,478
2,412
2,325
2,271
2,234
2,158
2,060
30
2,789
2,742
2,700
2,549
2,453
2,386
2,299
2,245
2,208
2,131
2,032
35
2,686
2.639
2,597
2,445
2,348
2,281
2,193
2,137
2,099
2,020
1,918
40
2,611
2.563
2,522
2,369
2,271
2,203
2,114
2,058
2,019
1,938
1,833
45
2,553
2.506
2,464
2,311
2,213
2,144
2,054
1,997
1,958
1,875
1,767
50
2,508
2.461
2,419
2,265
2,167
2,098
2,007
1,949
1,909
1,825
1,713
60
2,442
2.394
2,352
2,198
2,098
2,028
1,936
1,877
1,836
1,749
1,633
100
2,313
2.265
2,223
2,067
1,965
1,893
1,797
1,735
1,692
1,598
1,466
200
2,220
2.172
2,129
1,971
1,868
1,794
1,694
1,629
1,583
1,481
1,328
300
2,190
2.142
2,099
1,940
1,836
1,761
1,660
1,594
1,547
1,441
1,276
500
2,166
2,117
2,075
1,915
1,810
1,735
1,633
1,566
1,517
1,408
1,232
260
Estadística y diseño de experimentos
Anexo 5. Tabla de valores de la distribución F para una probabilidad acumulada de 0,95 Valores de la distribución f para una probabilidad acumulada de 0,95 (α =0,05 ) v2\v1
1
2
3
4
5
6
7
8
9
10
11
12
1
161,4
199,5
215,7
224,6
230,2
234,0
236,8
238,9
240,5
241,9
243,0
243,9
2
18,51
19,00
19,16
19,25
19,30
19,33
19,35
19,37
19,38
19,40
19,40
19,41
3
10,13
9,552
9,277
9,117
9,013
8,941
8,887
8,845
8,812
8,786
8,763
8,745
4
7,709
6,944
6,591
6,388
6,256
6,163
6,094
6,041
5,999
5,964
5,936
5,912
5
6,608
5,786
5,409
5,192
5,050
4,950
4,876
4,818
4,772
4,735
4,704
4,678
6
5,99
5,14
4,757
4,534
4,387
4,284
4,207
4,147
4,099
4,060
4,027
4,000
7
5,59
4,737
4,347
4,120
3,972
3,866
3,787
3,726
3,677
3,637
3,603
3,575
8
5,32
4,459
4,066
3,838
3,687
3,581
3,500
3,438
3,388
3,347
3,313
3,284
9
5,12
4,256
3,863
3,633
3,482
3,374
3,293
3,230
3,179
3,137
3,102
3,073
10
4,96
4,103
3,708
3,478
3,326
3,217
3,135
3,072
3,020
2,978
2,943
2,913
11
4,844
3,982
3,587
3,357
3,204
3,095
3,012
2,948
2,896
2,854
2,818
2,788
12
4,747
3,885
3,490
3,259
3,106
2,996
2,913
2,849
2,796
2,753
2,717
2,687
13
4,667
3,806
3,411
3,179
3,025
2,915
2,832
2,767
2,714
2,671
2,635
2,604
14
4,600
3,739
3,344
3,112
2,958
2,848
2,764
2,699
2,646
2,602
2,565
2,534
15
4,543
3,682
3,287
3,056
2,901
2,790
2,707
2,641
2,588
2,544
2,507
2,475
16
4,494
3,634
3,239
3,007
2,852
2,741
2,657
2,591
2,538
2,494
2,456
2,425
17
4,451
3,592
3,197
2,965
2,810
2,699
2,614
2,548
2,494
2,450
2,413
2,381
18
4,414
3,555
3,160
2,928
2,773
2,661
2,577
2,510
2,456
2,412
2,374
2,342
19
4,381
3,522
3,127
2,895
2,740
2,628
2,544
2,477
2,423
2,378
2,340
2,308
20
4,351
3,493
3,098
2,866
2,711
2,599
2,514
2,447
2,393
2,348
2,310
2,278
21
4,325
3,467
3,072
2,840
2,685
2,573
2,488
2,420
2,366
2,321
2,283
2,250
22
4,301
3,443
3,049
2,817
2,661
2,549
2,464
2,397
2,342
2,297
2,259
2,226
23
4,279
3,422
3,028
2,796
2,640
2,528
2,442
2,375
2,320
2,275
2,236
2,204
24
4,260
3,403
3,009
2,776
2,621
2,508
2,423
2,355
2,300
2,255
2,216
2,183
25
4,242
3,385
2,991
2,759
2,603
2,490
2,405
2,337
2,282
2,236
2,198
2,165
26
4,225
3,369
2,975
2,743
2,587
2,474
2,388
2,321
2,265
2,220
2,181
2,148
27
4,210
3,354
2,960
2,728
2,572
2,459
2,373
2,305
2,250
2,204
2,166
2,132
28
4,196
3,340
2,947
2,714
2,558
2,445
2,359
2,291
2,236
2,190
2,151
2,118
29
4,183
3,328
2,934
2,701
2,545
2,432
2,346
2,278
2,223
2,177
2,138
2,104
30
4,171
3,316
2,922
2,690
2,534
2,421
2,334
2,266
2,211
2,165
2,126
2,092
35
4,121
3,267
2,874
2,641
2,485
2,372
2,285
2,217
2,161
2,114
2,075
2,041
40
4,085
3,232
2,839
2,606
2,449
2,336
2,249
2,180
2,124
2,077
2,038
2,003
continua en la pág. siguiente
261
Cecilia Ríos Varillas viene de la página anterior 45
4,057
3,204
2,812
2,579
2,422
2,308
2,221
2,152
2,096
2,049
2,009
1,974
50
4,034
3,183
2,790
2,557
2,400
2,286
2,199
2,130
2,073
2,026
1,986
1,952
60
4,001
3,150
2,758
2,525
2,368
2,254
2,167
2,097
2,040
1,993
1,952
1,917
100
3,936
3,087
2,696
2,463
2,305
2,191
2,103
2,032
1,975
1,927
1,886
1,850
200
3,888
3,041
2,650
2,417
2,259
2,144
2,056
1,985
1,927
1,878
1,837
1,801
300
3,873
3,026
2,635
2,402
2,244
2,129
2,040
1,969
1,911
1,862
1,821
1,785
500
3,860
3,014
2,623
2,390
2,232
2,117
2,028
1,957
1,899
1,850
1,808
1,772
Valores de la distribución f para una probabilidad acumulada de 0,95 (α =0,05 ) v2\v1
13
14
15
20
25
30
40
50
60
100
500
1
244,7
245,4
245,9
248,0
249,3
250,1
251,1
251,8
252,2
253,0
254,1
2
19,42
19,42
19,43
19,45
19,46
19,46
19,47
19,48
19,48
19,49
19,49
3
8,729
8,715
8,703
8,660
8,634
8,617
8,594
8,581
8,572
8,554
8,532
4
5,891
5,873
5,858
5,803
5,769
5,746
5,717
5,699
5,688
5,664
5,635
5
4,655
4,636
4,619
4,558
4,521
4,496
4,464
4,444
4,431
4,405
4,373
6
3,976
3,956
3,938
3,874
3,835
3,808
3,774
3,754
3,740
3,712
3,678
7
3,550
3,529
3,511
3,445
3,404
3,376
3,340
3,319
3,304
3,275
3,239
8
3,259
3,237
3,218
3,150
3,108
3,079
3,043
3,020
3,005
2,975
2,937
9
3,048
3,025
3,006
2,936
2,893
2,864
2,826
2,803
2,787
2,756
2,717
10
2,887
2,865
2,845
2,774
2,730
2,700
2,661
2,637
2,621
2,588
2,548
11
2,761
2,739
2,719
2,646
2,601
2,570
2,531
2,507
2,490
2,457
2,415
12
2,660
2,637
2,617
2,544
2,498
2,466
2,426
2,401
2,384
2,350
2,307
13
2,577
2,554
2,533
2,459
2,412
2,380
2,339
2,314
2,297
2,261
2,218
14
2,507
2,484
2,463
2,388
2,341
2,308
2,266
2,241
2,223
2,187
2,142
15
2,448
2,424
2,403
2,328
2,280
2,247
2,204
2,178
2,160
2,123
2,078
16
2,397
2,373
2,352
2,276
2,227
2,194
2,151
2,124
2,106
2,068
2,022
17
2,353
2,329
2,308
2,230
2,181
2,148
2,104
2,077
2,058
2,020
1,973
18
2,314
2,290
2,269
2,191
2,141
2,107
2,063
2,035
2,017
1,978
1,929
19
2,280
2,256
2,234
2,155
2,106
2,071
2,026
1,999
1,980
1,940
1,891
20
2,250
2,225
2,203
2,124
2,074
2,039
1,994
1,966
1,946
1,907
1,856
21
2,222
2,197
2,176
2,096
2,045
2,010
1,965
1,936
1,916
1,876
1,825
22
2,198
2,173
2,151
2,071
2,020
1,984
1,938
1,909
1,889
1,849
1,797
23
2,175
2,150
2,128
2,048
1,996
1,961
1,914
1,885
1,865
1,823
1,771
24
2,155
2,130
2,108
2,027
1,975
1,939
1,892
1,863
1,842
1,800
1,747
25
2,136
2,111
2,089
2,007
1,955
1,919
1,872
1,842
1,822
1,779
1,725
26
2,119
2,094
2,072
1,990
1,938
1,901
1,853
1,823
1,803
1,760
1,705
continua en la pág. siguiente
262
Estadística y diseño de experimentos 27
2,103
2,078
2,056
1,974
1,921
1,884
1,836
1,806
1,785
1,742
1,686
28
2,089
2,064
2,041
1,959
1,906
1,869
1,820
1,790
1,769
1,725
1,669
29
2,075
2,050
2,027
1,945
1,891
1,854
1,806
1,775
1,754
1,710
1,653
30
2,063
2,037
2,015
1,932
1,878
1,841
1,792
1,761
1,740
1,695
1,637
35
2,012
1,986
1,963
1,878
1,824
1,786
1,735
1,703
1,681
1,635
1,574
40
1,974
1,948
1,924
1,839
1,783
1,744
1,693
1,660
1,637
1,589
1,526
45
1,945
1,918
1,895
1,808
1,752
1,713
1,660
1,626
1,603
1,554
1,488
50
1,921
1,895
1,871
1,784
1,727
1,687
1,634
1,599
1,576
1,525
1,457
60
1,887
1,860
1,836
1,748
1,690
1,649
1,594
1,559
1,534
1,481
1,409
100
1,819
1,792
1,768
1,676
1,616
1,573
1,515
1,477
1,450
1,392
1,308
200
1,769
1,742
1,717
1,623
1,561
1,516
1,455
1,415
1,386
1,321
1,221
300
1,753
1,725
1,700
1,606
1,543
1,497
1,435
1,393
1,363
1,296
1,188
500
1,740
1,712
1,686
1,592
1,528
1,482
1,419
1,376
1,345
1,275
1,159
263
Cecilia Ríos Varillas
264
Estadística y diseño de experimentos
Este libro se terminó de imprimir en los talleres de la imprenta de la Editorial Universitaria de la Universidad Nacional de Ingeniería en el mes de setiembre de 2012
265