INSTITUTO TECNOLÓGICO SUPERIOR de Acayucan
Probabilidad y estadística Clave de la asignatura: SCC - 0424 Carrera: Ingeniería en Sistemas Computacionales Asignatura:
ANTOLOGIA Presenta:
ING. ULISES GIRON JIMENEZ
ACAYUCAN, VER.
JUNIO 2008
Probabilidad y Estadística Ing. Ulises Girón Jiménez
INDICE
UNIDAD 1
OBJETIVO GENERAL............................................................................... GENERAL...............................................................................
10
JUSTIFICACION........................................................................................ JUSTIFICACION........................................................................................
11
ESTADISTICA DESCRIPTIVA…………………….....……………………....
12
1.1 Conceptos básicos de estadística…………………....……...... estadística…………………....…….................. ..............
13
1.1.1 Definición de estadística................. estadística............................. ........................ ....................... .................... .........
13
1.1.2 Inferencia estadística................ estadística............................ ....................... ...................... ....................... ................ ....
16
1.1.3 Teoría de decisión.................... decisión................................ ....................... ....................... ....................... ............... ....
16
1.1.4 Población...................... Población................................ ....................... ......................... ....................... ..................... ................ ......
16
1.1.5 Muestra aleatoria.................... aleatoria................................ ....................... ....................... ...................... ................. .......
20
1.1.6 Parámetros aleatorios................... aleatorios............................. ...................... ....................... ..................... ............. ...
20
1.1.7 Enfoque clásico...................... clásico.................................. ....................... ...................... ..................... ................... .........
20
1.1.8 Enfoque Bayesiano..................... Bayesiano............................... ...................... ....................... ....................... ............... ...
21
1.2 Descripción de datos………….....……………………………………… datos………….....………………………………………
22
1.2.1 Datos agrupados y no agrupados................... agrupados............................... ....................... ................ .....
22
1.2.2 Frecuencia de clase...................... clase................................. ..................... ....................... ....................... ............ ..
22
1.2.3 Frecuencia relativa................... relativa.............................. ....................... ....................... ..................... ................. .......
22
1.2.4 Punto medio........................ medio.................................. ...................... ....................... ...................... ..................... ............ ..
23
1.2.5 Límites................... Límites.............................. ........................ ........................ ....................... ....................... ..................... ............
23
1.2.6 Histograma................... Histograma............................. ...................... ....................... ....................... ...................... .................. ........
23
1.2.7 Histograma de frecuencia relativa.............................. relativa......................................... ................ .....
24
1.3 Medidas de tendencia central…………………………………………… central……………………………………………
25
1.3.1 Media aritmética, geométrica y ponderada........................ ponderada................................. .........
25
1.3.2 Mediana.................... Mediana............................... ..................... ...................... ....................... ....................... ...................... ..........
29
IV
1.3.3 Moda........................................................................................... 1.4 Medidas de dispersión…………………………………… dispersión……………………………………………………. ……………….
31 35
1.4.1 Varianza....................... Varianza................................. ..................... ..................... ....................... ....................... ................... .........
35
1.4.2 Desviación estándar................. estándar............................. ....................... ....................... ....................... ............... ....
36
1.4.3 Desviación media..................... media................................ ....................... ....................... ..................... ................. .......
38
1.4.4 Desviación mediana..................... mediana................................ ...................... ...................... ....................... .............. ..
38
1.4.5 Rango..................... Rango................................ ....................... ....................... ..................... ....................... ....................... ............
38
1.5 Parámetros para para datos agrupados………………………………… agrupados……………………………………… ……
39
1.5.1 La media.....................................................................................
39
1.5.2 La desviación típica..................... típica............................... ...................... ....................... ....................... .............. ..
39
1.6 Distribución de frecuencias………………………………...…… frecuencias………………………………...……………. ……….
41
1.6.1 Distribuciones numéricas................... numéricas.............................. ....................... ...................... .................. ........
42
1.6.2 Distribuciones categóricas.................. categóricas............................ ....................... ....................... ................. .......
43
1.6.3 Distribuciones acumuladas................... acumuladas.............................. ....................... ....................... ............... ....
44
1.6.4 Distribuciones porcentuales.................. porcentuales.............................. ....................... ....................... ............... ...
44
1.6.5 Distribuciones porcentuales acumuladas.................... acumuladas.................................. ................
45
1.7 Técnicas de agrupación de datos………………………...…… datos………………………...…………… ………
46
1.7.1 Límites de clase...................... clase................................. ..................... ....................... ....................... .................. ........
46
1.7.2 Rango de clase...................... clase.................................. ...................... ......................... ......................... ................ ......
46
1.7.3 Fronteras de clase.................... clase............................... ....................... ....................... ..................... ................ ......
46
1.7.4 Marca de clase...................... clase................................. ..................... ....................... ....................... .................... ..........
47
1.7.5 Intervalo de clase……….................... clase……….............................. ..................... ...................... ................... ........
47
1.7.6 Diagrama de tallos y hojas ………………………………………...
50
1.7.7. Diagrama de Pareto................... Pareto.............................. ..................... ...................... ....................... .............. ...
52
1.7.8 Diagrama de puntos................... puntos............................. ..................... ....................... ....................... ............... ....
59
1.8 Histograma……………......……………………………………………….
59
1.8.1 Diagrama de barras.................. barras............................. ....................... ....................... ..................... ................ ......
59
1.8.2 Polígono de frecuencias................... frecuencias.............................. ...................... ...................... .................... .........
59
V
UNIDAD 2
1.8.3 Ojivas.........................................................................................
60
1.8.4 Gráficas circulares......................................................................
61
1.9 Distribuciones muéstrales………………………...………………………
62
PROBABILIDAD……….………………………………………………………
65
2.1 Teoría elemental de probabilidad………………………...……....……
66
2.1.1 Concepto clásico y como frecuencia relativa..............................
66
2.1.2 Interpretación subjetiva de la probabilidad.................................
69
2.2 Probabilidad de eventos……………………………......………………
69
2.2.1 Definición de espacio muestral...................................................
69
2.2.2 Discreto y continuo.....................................................................
71
2.2.3 Definición de evento...................................................................
71
2.2.4 Simbología, uniones e intersecciones........................................
71
2.2.5 Diagramas de Venn....................................................................
71
2.3 Técnicas de conteo………………….……………………………………
72
2.3.1 Diagrama de árbol......................................................................
76
2.3.2 Notación factorial........................................................................
80
2.3.3 Permutación................................................................................
81
2.3.4 Combinaciones...........................................................................
91
2.4 Probabilidad con técnicas de conteo……………………………………
100
2.4.1 Axiomas......................................................................................
100
2.4.2 Teoremas....................................................................................
100
2.5 Probabilidad condicional………...………………………………………
101
2.5.1 Dependiente................................................................................
101
2.5.2 Independiente.............................................................................
110
2.6 Eventos Independientes……...…………………………………………
113
2.6.1 Regla de Bayes...........................................................................
113
VI
UNIDAD 3
FUNCIONES Y DISTRIBUCIONES MUESTRALES………………......….
121
3.1 Función de probabilidad………..…………………………………………
121
3.1.1 Variables aleatorias discretas.....................................................
121
3.1.2 Variables aleatorias continúas....................................................
122
3.2 Distribución Binomial…………………….…………....………………….
123
3.2.1 Conceptos de ensayos de Bernoulli...........................................
123
129 3.3 Distribución Hipergeométrica…………………………………………… 3.4 Distribución de Poisson…………………………..………………………
132
3.5 Esperanza matemática…………………….……………………………
139
3.6 Distribución normal…………………………….…………………………
146
3.6.1 Distribución de la probabilidad continúa.....................................
UNIDAD 4
146
3.7 Aproximación de la Binom ial a la normal……………………………
156
3.8 Otras distribuciones muéstrales…………………….……………………
161
3.8.1 Distribución T- Student...............................................................
161
3.8.2 Distribución X cuadrada..............................................................
162
ESTADÍSTICA APLICADA………………...…………………………………
170
4.1 Inferencia estadística………………….....………………………………
171
4.1.1 Concepto.....................................................................................
171
4.1.2 Estimación..................................................................................
171
4.1.3 Prueba de hipótesis....................................................................
171
4.1.4 Método clásico de estimación (puntual)......................................
172
4.1.5 Estimador Insesgado..................................................................
172
VII
4.2 Intervalos de confianza……………………………………………………
172
4.2.1 Estimación por intervalo..............................................................
172
4.2.2 Límites de confianza...................................................................
173
4.2.3 Intervalo de confianza para una media.......................................
174
4.2.4 Intervalo de confianza para una diferencia de medida...............
183
4.2.5 Intervalo de confianza para proporciones...................................
186
4.2.6. Intervalo de confianza para diferencia de proporciones……….
189
4.3 Pruebas de hipótesis………………………….....………………………
196
4.3.1 Prueba de hipótesis para la media poblacional..........................
203
4.3.2 Prueba de hipótesis para diferencias de medias........................
214
4.3.3 Prueba de hipótesis para proporciones......................................
220
4.3.4 Prueba de hipótesis para diferencia de proporciones.................
223
5.1.1 Gráficas de los datos. .................................................................................................... 217 5.1.2 Variables de regresión independientes. ....................................................................... 217 5.1.3 Regresión lineal simple. ................................................................................................ 218 5.2. Diagrama de dispersión .................................................................................................. 221 5.2.1. Tabla de datos .............................................................................................................. 221 5.2.2. Construcción de diagramas. ........................................................................................ 222 5.3. Estimación mediante la línea de regresión ..................................................................... 222 5.3.1. Ecuación de la recta como ajuste de datos ................................................................. 222 5.3.2. Modelos ....................................................................................................................... 223 5.4. Métodos de mínimos cuadrados. ................................................................................... 224 5.4.1. Estimación de los coeficientes de regresión ............................................................... 224 5.5 Error estándar de estimación .......................................................................................... 232
VIII
5.6 Coeficiente de determinación y correlación .................................................................... 234 5.6.1 Coeficiente de determinación de la muestra ............................................................... 235 5.6.2 Coeficiente de correlación de la muestra ..................................................................... 239 5.7. Problemas prácticos de ajustes de curvas ...................................................................... 248 ANEXOS .................................................................................................................................. 259
..
Bibliografía………….…………………………………………………………
262
…
IX
OBJETIVO GENERAL El estudiante seleccionará modelos probabilísticas, aplicará cálculos de inferencia estadística sobre datos y desarrollará modelos para la toma de decisiones en s istemas con componentes aleatorios.
10
JUSTIFICACION Uno de los objetivos del Instituto Tecnológico Superior de Acayucan, es el de promover, apoyar e impulsar el trabajo creativo del docente, principalmente en la elaboración de antología que apoya al proceso enseñanza – aprendizaje, el cual debe ser estimulado con los comentarios y sugerencias del profesorado y conviene que sea imitado por otros maestros, quienes con capacidad de trabajo y tiempo disponible, pueden y deben gestar literatura de este género, dando los pasos adecuados para pulirla y poder formar así textos que faciliten la enseñanza y el aprendizaje del curso.
El presente material de consulta y apoyo didáctico se pone en m anos de nuestros maestros y, particularmente, de los alumnos que se forman en nuestro instituto. Considero los contenidos de esta antología como el propósito más firme de mi convencimiento para facilitar el estudio de la probabilidad y estadística en las nuevas generaciones que me honran al confiarme su preparación y garantizar modestamente el fijarles una enseñanza para toda la vida.
11
UNIDAD 1 ESTADISTICA DESCRIPTIVA Objetivo: El estudiante conocerá fundamentos y técnicas básicas de estadística, para organizar, representar y analizar datos obtenidos de una situación
simulada o real.
1.1 Conceptos básicos de estadística. 1.1.1 Definición de estadística. La palabra estadística procede del vocablo "estado" pues era función principal de los gobiernos de los estados establecer registros de población, nacimientos, defunciones, etc. Hoy en día la mayoría de las personas entienden por estadística al conjunto de datos, tablas, gráficos, que se suelen publicar en los periódicos. Definición: Estadística, rama de las matemáticas que se ocupa de reunir, organizar y analizar datos numéricos y que ayuda a resolver problemas como el diseño de experimentos y la toma de decisiones.
UNIDAD I / ESTADISTICA DESCRIPTIVA.
Estadística es un conjunto de métodos científicos para la recopilación, representación condensación y análisis de los datos extraídos de un sistema en estudio. Con el objeto de poder hacer estimaciones y sacar conclusiones, necesarias para tomar decisiones. El análisis se hace con las herramientas estadísticas, empleando la información obtenida de los datos, para realizar estimaciones o inferencias, testear hipótesis de trabajo y así, poder tomar las decisiones más adecuadas en cada caso particular, basadas en la evidencia científica suministrada por estos análisis. El trabajo del experto estadístico no consiste ya sólo en reunir y tabular los datos, sino sobre todo en el proceso de interpretación de esa información. El desarrollo de la teoría de la probabilidad ha aumentado el alcance de las aplicaciones de la estadística. La probabilidad es útil para comprobar la fiabilidad de las inferencias estadísticas y para predecir el tipo y la cantidad de datos necesarios en un determinado estudio estadístico. Cuando a través de una muestra pretendemos obtener información de una población entera los datos obtenidos puede ser diferente a los reales. Son valores aproximados del parámetro desconocido. A estos valores se les llama Estimaciones. Al dar una estimación estoy cometiendo un error llamado error de muestreo debido a que no se esta considerando a toda la población, sino a una parte de ella. Existen procedimientos que pueden determinar de antemano el error que puedo cometer. Aparte de estos, existen otros errores que se presentan tanto en encuestas por muestreo como en las encuestas por censo. Este tipo de errores son mayores y de difícil corrección. Son errores ajenos al muestreo. ¿Qué es un experimento comparativo? Es una investigación cuya finalidad es comparar los efectos de dos o más estímulos (tratamientos A y B) aplicados a ciertos entes (unidades de experimentación
, ,
,
). Para ello se
efectúan mediciones sobre los efectos de ambos tratamientos obteniéndose los resultados (
, ,
).
13
UNIDAD I / ESTADISTICA DESCRIPTIVA.
¿Qué es una encuesta por muestreo? Es una investigación que tiene por objetivo la descripción de ciertas características ( una población, mediante el examen de una parte de ella (muestra
,
, , , … ,
de
). La medición de una
característica en los elementos de la muestra produce resultados Y Y ( 1 y 4 ) . Si el muestreo es probabilístico, todos los elementos de la población tiene una probabilidad no nula de formar parte de la muestra.
¿Qué es un estudio observacional? Es una investigación comparativa sin la asignación aleatoria que se hace en los experimentos (o investigación de muestreo no probabilístico), cuya finalidad es también comparar los efectos que dos o mas condiciones ( A y B) tienen sobre los entes observados
, ,
,
). Esto se lleva a cabo
con extremado cuidado y control.
14
UNIDAD I / ESTADISTICA DESCRIPTIVA.
División de la estadística Se divide en dos partes:
⎧ ⎪ ⎪ ⎪
⎧ ⎪
⎧Recopilar ⎪ Descriptiva Deductiva( ) ⎨Re presentar ⎪ ⎪ Condensar ⎪
⎩ ⎪⎪
⎪
División Estadistica⎨ ⎨
⎪ ⎪ ⎪ ⎪
⎪ ⎪ ⎪ ⎧Caracteristicas ⎪ Inferencial Inferencia( )⎨
⎪⎩
⎩
⎩muestras
a) Estadística descriptiva o deductiva: Es la parte de la estadística que se ocupa de recopilar, representar y condensar los datos obtenidos del sistema en estudio, utilizando representaciones gráficas de los datos tabulados. b) Estadística inferencial o inferencia estadística: Utiliza datos de muestra para hacer inferencias (característica) acerca de un conjunto de datos grandes – una población – de cual se selecciono la muestra.
1.1.2 Inferencia estadística. Es la parte de la Estadística dedicada a la formulación de supuestos y estimaciones, para hacer predicciones y poder sacar conclusiones de los datos obtenidos con el estudio de las muestras. Y así, poder tomar decisiones con base científica. La Estadística se emplea en el estudio de los fenómenos naturales, tanto los generados en los laboratorios por los científicos como aquellos más allá del control humano.
15
UNIDAD I / ESTADISTICA DESCRIPTIVA.
Es una herramienta de uso tan amplio y general que hoy día es difícil imaginar un lugar donde no pueda emplearse. Más aún, en algunas disciplinas es la herramienta básica de medición, como por ejemplo en parapsicología para la determinación de PES (percepciones extrasensoriales).
1.1.3 Teoría de decisión. Es una herramienta básica para la toma de decisiones, basadas en evidencia científica. La manera de hacerlo es plantear las hipótesis posibles y luego efectuarle una prueba o test estadístico.
Llamada en algunas obras: la docimasia es tadís tica. Cuando una conclusión se valida con un test estadístico se la llama de tipo cuantitativo, en caso contrario la decisión adoptada es de tipo cualitativo, o sea, una decisión tomada en forma subjetiva. El método consiste en definir una
probabilidad de aceptación del orden del 95% (o rechazo) de una hipótesis de trabajo planteada, que permite calcular los valores críticos (o límites de aceptación) de un estadígrafo calculado a partir de los valores medidos. La importancia de este tema es muy grande. Basta decir que el objeto final de la Estadística es la toma de decisiones.
1.1.4 Población. La población, es el conjunto de todas las muestras posibles, que pueden obtenerse del sistema en estudio de acuerdo al método de selección empleado. La población, entonces, es el total hipotético de los datos que s e estudian o recopilan. El tamaño de la población se saca contando el número de elementos componentes. A veces es un conteo simple, pero otras veces se trata de conteos ordenados. A continuación muestra las formas de observar una población. Etapas de la recopilación de datos Etapa 1 - Objetivos de la Recopilación: esta primera etapa consiste en determinar con claridad qué es lo que se quiere lograr con la recopilación. No siempre es fácil saber lo que se quiere y menos determinarlo en detalle. Por eso, se deben defini r primero los objetivos generales del trabajo estadístico. Y a partir de ellos se conocerán las variables a medir y así saber cuáles elementos se necesitarán. Con esto se tiene una primera idea de los alcances y limitaciones de la tarea a realizar, según sea el tipo de información a obtener de la población en estudio. Los objetivos deben redactarse concisos, breves y claros. Normalmente, la persona a cargo de la investigación es la
16
UNIDAD I / ESTADISTICA DESCRIPTIVA.
responsable de esta etapa pues tiene una visión más completa y actualizada del tema en estudio. Por ejemplo, si se necesita la distribución de la población por edades y sexo, no es lo mismo disponer de la información del último censo realizado que hacerlo uno mismo.
17
UNIDAD I / ESTADISTICA DESCRIPTIVA.
Etapa 2 - Relevamientos: esta etapa consiste en determinar lo que se tiene para alcanzar los objetivos definidos en la etapa anterior. Se trata de listar los bienes necesarios para poder hacer el trabajo, y el listado de los disponibles. Conviene tener en cuenta la siguiente clasificación de los bienes: Tangibles e Intangibles. Por su parte, los bienes tangibles son dos: •
Los materiales incluyen los de vidrio, de limpieza, drogas, reactivos, etc.
•
Por equipamiento se entiende no sólo los aparatos de medición, sino los accesorios como muebles y útiles de laboratorio y para oficina.
•
El dinero o los recursos monetarios deben ser determinados con mucho detalle para afrontar gastos e inversiones durante la investigación. Además, hay que determinar los fondos disponibles y las posibles fuentes financieras adonde poder recurrir.
•
La infraestructura incluye a los edificios, laboratorios, electricidad, agua, etc.
•
El personal es todo el necesario en sus diferentes niveles, como ser: profesionales, técnicos, ayudantes, consultores externos, de servicio, etc. Este relevamiento de los bienes tangibles disponibles y de los necesarios para la recopilación condiciona de alguna manera los objetivos. Puede ser que se disponga de bienes sobrados para alcanzar los objetivos, por lo que se pueden plantear metas más ambiciosas. Por otra parte, puede ocurrir que los bienes disponibles estén lejos de cubrir los necesarios, y por lo tanto se deberán resignar los objetivos planteados por otros más modestos.
Por su parte, los bienes intangibles son dos: •
la organización de los bienes tangibles, de manera tal de alcanzar los objetivos, y
•
los conocimientos para saber cómo usarlos. Esto es el “know how ” de cada profesión. Y también lo es la búsqueda bibliográfica de trabajos similares en revistas especializadas, textos y otras fuentes de información. Una vez terminada esta etapa, que seguramente habrá ayudado a depurar la anterior, se debe comenzar a pensar en las diferentes maneras de hacerlo.
Etapa 3 - Creación de alternativas: esta etapa consiste en saber cómo hacerlo. O sea, generar distintas alternativas de sistemas de recopilación de datos, de acuerdo con los objetivos adoptados y los bienes disponibles. Se debe hacer un listado con todas las formas posibles de efectuar la
18
UNIDAD I / ESTADISTICA DESCRIPTIVA.
recopilación a fin de tener un panorama completo. En síntesis, se habla de fuente propi a cuando se decide extraer los datos mediante mediciones. Fuente P rimaria es cuando se toman los datos de otros investigadores que publican los resultados de sus propias mediciones. Fuente Secundaria es cuando los datos se extraen de publicaciones que usan como referencia a fuentes primarias. Etapa 4 - Selección de alternativas: consiste en determinar cuál es la mejor entre las n alternativas planteadas en la etapa anterior. Se necesita de un método para la adopción de un criterio de selección. Etapa 5 - Prueba piloto: existe una diferencia entre el diseño en los papeles y la realidad. Es por eso que siempre es aconsejable hacer una prueba piloto antes de la puesta en marcha para poder juzgar cómo trabaja el sistema de recopilación de datos. Se sacan unos pocos datos y se analizan las dificultades no previstas, junto con los resultados. Comparando los valores obtenidos con los que se esperaba tener, se hace una especie de control previo del sistema. Etapa 6 - Ajustes: Lo normal es tener que hacer pequeños ajustes que permitan optimizar al sistema. De las diferencias detectadas en el control de la etapa anterior se sacan indicios. Estos muestran qué tópicos retocar y surgen nuevas ideas de cómo hacer mejor las cosas. Básicamente, usando el sentido común se corrigen los principales defectos, como ser: mejorar el entrenamiento y conocimientos del personal, rediseñar formularios, calibrar equipos de medición, estimación de la magnitud del error de medición, etc. Pero también hay técnicas de optimización especiales como son los distintos modelos de la Investigación Operativa. Esta es una disciplina muy emparentada con estadística y sus modelos más conocidos son: Teoría de Líneas de Espera, Programación por Camino Crítico (PERT), Programación Dinámica y Lineal, Reemplazos, Simulaciones, etc. Una vez hechos los ajustes, se vuelve a la etapa anterior y se efectúa una nueva prueba piloto. Este ensayo permite decidir si se continúa adelante, o si son necesarios más ajustes. Hay que continuar hasta que todo sea satisfactorio y recién entonces pasar a la etapa siguiente. Etapa 7 - Puesta en marcha: una vez optimizado y ajustado el método de obtención de datos solo resta ponerlo en marcha. De esa manera, se logra la cantidad de datos necesarios para alcanzar los objetivos previstos. El resultado final es la obtención de un volumen grande de información que debe ser presentada en forma más resumida y comprensible usando tablas, gráficos y otras formas, como se verá más adelante.
1.1.5 Muestra aleatoria.
19
UNIDAD I / ESTADISTICA DESCRIPTIVA.
La muestra es un conjunto de datos obtenidos de una población cualquiera, con el método de recopilación elegido. Se la puede imaginar como un subconjunto del conjunto población. Se toman muestras, cuando no se puede o no conviene, tomar la población entera. Si se tiene una población de tamaño infinito, no se podrá nunca tomar todas las muestras posibles, como por ejemplo, las mediciones repetidas de una misma magnitud, que se pueden repetir indefinidamente mientras el ensayo no sea destructivo (repetidas pesadas en una balanza, medir la temperatura de un cuerpo, etc.). Hay ocasiones, donde si bien la población es finita, es tan grande que no resulta práctico tomar todos los casos como por ejemplo, cuando la población es la especie humana. Lógicamente, la confiabilidad de las conclusiones extraídas concernientes a una población dependen de si la muestra se ha escogido apropiadamente de tal modo que represente la población suficiente. Una forma de hacer esto para poblaciones finitas es asegurarse de que cada miembro de la población tenga igual oportunidad de encontrarse en la muestra, lo que se conoce como muestra aleatoria.
1.1.6 Parámetros aleatorios. Parámetro, es toda magnitud que tiene el mismo valor dentro de una población. O sea, no permite diferenciar entre sí a sus elementos componentes. Existen medidas para realizar descripciones cuantitativas de los conjuntos de datos, o poblaciones, y de sus muestras, diferenciándose entre ellas las que se refieren a las mismas poblaciones y a las muestras. Para el caso de las poblaciones, las medidas que las describen se denominan parámetros, y suelen estar representadas con letras griegas (por ejemplo
y ). Por otro lado, para el caso de aquellas medidas que describen a una
muestra se les llama estadísticos o estimadores, y son representados por letras de nuestro alfabeto (por ejemplo, x o s). Tales medidas cuantitativas que describen a las poblaciones y a las muestras se comentarán enseguida. Se considera que s e conoce una población cuando conocemos la distribución de probabilidad f(x) de la variable aleatoria asociada X.
1.1.7 Enfoque clásico. La utilización de esta metodología implica una cierta filosofía o visión de la Probabilidad y la Estadística muy particular y poco frecuente. Lo particular de este enf oque es que es razonablemente más sencillo que el enfoque clásico de la estimación y el ensayo de hipótesis, a los que reemplaza y mejora por cuanto no implica aproximaciones ni requiere de la introducción de nuevos conceptos.
1.1.8 Enfoque Bayesiano.
20
UNIDAD I / ESTADISTICA DESCRIPTIVA.
En el enfoque Bayesiano de la Estadística, la incertidumbre presente en un modelo dado, p(x⏐θ), es representada a través de una distribución de probabilidad p (θ ) sobre los posibles valores del parámetro desconocido θ (típicamente multidimensional) que define al modelo. El Teorema de Bayes,
p(θ) p( xθ) p(θ x) = p( x)
Permite entonces incorporar la información contenida en un conjunto de datos x = ( x1,..., xn ), produciendo una descripción conjunta de la incertidumbre sobre los valores de los parámetros del modelo a través de la distribución final p (x⏐θ ). Desafortunadamente, la implementación de las técnicas Bayesianas usualmente requiere de un esfuerzo computacional muy alto. La mayor parte de este esfuerzo se concentra en el cálculo de ciertas características de la distribución final del parámetro de interés (que llamaremos resúmenes inferenciales). Así, por ejemplo, para pasar de una distribución conjunta a una colección de
distribuciones y momentos marginales que sean útiles para hacer inferencias sobre subconjuntos de parámetros, se requiere integrar. En la mayoría de los casos los resúmenes inferenciales básicos se reducen a integrales de la forma:
∫
( )
S { g (θ)}= g (θ) p(θ) p z θ d θ El análisis Bayesiano, en otra diferencia con la estadística clásica, permite incorporar en un estudio información de distintas fuentes, incluso subjetivas. De esta manera concibe, en un plano muy general, las técnicas estadísticas como mecanismos para la actualización del conocimiento particular o general, individual o colectivo sobre el estado que guarda la naturaleza."
1.2 Descripción de datos.
21
UNIDAD I / ESTADISTICA DESCRIPTIVA.
1.2.1 Datos agrupados y no agrupados. La principal diferencia entre ambas es que en datos agrupados se ordenan los datos de la tabla y se almacenan en el orden del índice. Los datos agrupados mejoran el rendimiento al almacenar los datos de la tabla junto con datos de nivel de hoja del índice. Una ordenación es un conjunto de datos numéricos en orden creciente o decreciente. Este método de presentación de la información consiste en presentar los datos por medio de una tabla o cuadro. Los datos no agrupado no apunta directamente a la fila de la tabla, sino que utiliza los valores del índice agrupado como punteros a las filas de la tabla. Una fila de datos consiste en datos recogidos que no han sido organizados numéricamente.
1.2.2 Frecuencia de clase. La frecuencia de clase o frecuencia de categoría, es el número de observaciones que caen dentro de una categoría Altura ( in) Número de estudiantes f 7 20 44 29 10
60 – 62 63 – 65
66 – 68 69 – 71 72 – 74
Total 110
1.2.3 Frecuencia relativa. La frecuencia relativa (proporción); de una clase es su frecuencia dividida por la frecuencia total de todas las clases.
numero de estudiante frecuencia relativa = total Altura ( in) 60 – 62
Número de Frecuencia relativa estudiantes (f) 7
0.0636
22
UNIDAD I / ESTADISTICA DESCRIPTIVA.
63 – 65
20
0.1818
66 – 68
44
0.4
69 – 71
29
0.2636
72 – 74
10
0.0909
total
110
1.0000
1.2.4 Punto medio. El punto medio del intervalo de clase, que puede tomarse como representativo de la clase, se llama marca de clase, que se refiere al punto medio del intervalo de clase y se obtiene promediando los limites inferior y superior de clase. Así que las marcas de clase del intervalo 60 – 62 es:
= 61
1.2.5 Límites. Tomando encuenta la clase 60 - 62 se dice que se llaman límites de clases, el 60 se llama límite inferior de clase y el 62 se llama límite superior de clase.
1.2.6 Histograma. Es una representación grafica para la distribución de frecuencia. Un histograma o histograma de frecuencias, consiste en un conjunto de rectángulos con: a)
base en el eje x horizontal, centros en las marcas de clases y longitudes iguales a los tamaños de los intervalos de clase y
b)
áreas proporcionales a las frecuencias de clase. Altura ( in)
Número de estudiantes (f)
Marca de clases (X)
60 – 62
7
61
63 – 65
20
64
23
UNIDAD I / ESTADISTICA DESCRIPTIVA.
66 – 68
44
67
69 – 71
29
70
72 – 74
10
73
total
110
frecuencia 50 40 30 20 10 0 58
61
64
67
70
73
76
1.2.7 Histograma de frecuencia relativa. Altura ( in)
Numero de estudiantes (f)
Frecuencia relativa
60 – 62
7
0.0636
63 – 65
20
0.1818
66 – 68
44
0.4
69 – 71
29
0.2636
72 – 74
10
0.0909
total
110
1.0000
Histograma de frecuencia relativa 0.45 0.4 0.35 0.3 0.25 0.2 0.15 0.1 0.05 0 1
2
3
4
5
24
UNIDAD I / ESTADISTICA DESCRIPTIVA.
Problemas propuestos: Problema: El rascón terrestre o guión de las codornices es una ave europea en peligro de extinción mundial. En fechas recientes se llevó a cabo un censo de rascones cantores en terrenos agrícolas de Gran Bretaña e Irlanda (Journal of applied ecology) . La tabla indica el numero total de rascones terrestres que habitan en cada de 10 áreas geográficas. Numero de rascones
Área
terrestres 1. 2. 3. 4. 5.
Tierra bajas de Escocia Tierras altas de escocia Orkney y Shetland Lewis y Harris N. Uist y Benbecula
6. S. Uist y Barra 7. Hebridas interiores 8. Coll y Tirce 9. Irlanda del norte 10. Republica de Irlanda Total
12 15 34 76 82 155 76 121 128 789
1488
a) Resuma los datos con un histograma
1.3.
Medidas de tendencia central.
1.3.1 Media aritmética, geométrica y ponderada. Media aritmética Sean, x1 ,x2 ,....,xn , n observaciones muéstrales, definiremos promedio de estas observaciones al valor dado por:
o bien
25
UNIDAD I / ESTADISTICA DESCRIPTIVA.
N
x x2 + x3 + ... + xn
∑
x j
j=1
∑ x x =
1
+=
= N
N
N
Ejemplo: La media aritmética de los números 8, 3. 5, 12 y 10
x =
=
= 7.6
En esta expresión, puede verse que el promedio de un conjunto de números se calcula sumándolos y luego dividiendo la suma por el número de sumandos. La estadística promedio representa muy bien el 'centro' de la distribución de los datos cuando se tr ata de casos 'normales'. Entendemos aquí por casos 'normales' aquellos conjuntos de datos que no contienen valores muy extremos, valores muy alejados de los demás. Debido a que en muchas situaciones experimentales, el comportamiento de los datos es relativamente 'normal', el promedio es muy usado, convirtiéndose en la primera estadística calculada para representar el 'centro' de la población en estudio. si los números X1 , X2 , ... , Xk , ocurren f 1 , f 2 , ... , f k , veces respectivamente, su media aritmética
∑ f x j
N
j
∑ f
x = f 1 x1 f 1++ f 2 fx22++......++ f k f k xk = j=
1k j
j=1
∑ fx
x=
N Ejemplo: si 5, 8, 6, y 2 ocurren con frecuencias 3, 2, 4 y 1 , respectivamente, su media aritmética es x =
=
= 5.7
Ejemplo:En la tabla siguiente se tiene los puntajes obtenidos en la Prueba de Aptitud Académica por 30 jóvenes, provenientes de un mismo establecimiento educacional:
26
UNIDAD I / ESTADISTICA DESCRIPTIVA.
P. Ap. Verbal
P. Ap. Matemática
P. Ap. Verbal
P. Ap. Matemática
685
664
730
642
490
548
618
533
580
567
690
654
705
665
680
542
470
452
690
678
620
506
710
732
650
618
742
749
702
718
685
570
643
621
595
574
540
555
674
657
575
502
722
747
600
531
585
620
500
478
505
482
680
558
600
643
587
600
543
500
Con los datos de la tabla, se puede caracterizar el establecimiento educacional usando el promedio de cada una de las pruebas. Lo primeros que se necesita es calcular la suma de los puntajes de los treinta alumnos.
27
Dichas sumas son las siguientes: Prueba de Aptitud Verbal 18796 Prueba de Aptitud Matemática 17906 Promedio Prueba de Aptitud Verbal 626.533 Promedio Prueba de Aptitud Matemática 596.867
UNIDAD I / ESTADISTICA DESCRIPTIVA.
La Media geométrica G La media geométrica s el resultado de multiplicar todos los elementos y extraer la raíz n -ésima del producto: media geometrica = n x1. x2... xn Ejemplo: la media geométrica g de 2, 4 y 8 G=
3 ( )2 ( )(8)4= 4
mathcad
gmean 2 4( , ,8) = 4
Promedio Ponderado. En muchas ocasiones, las observaciones recolectadas no tienen la misma importancia relativa. Para hacer presente este hecho en la búsqueda de un 'centro' que represente a los datos, es necesario asignar a cada uno de éstos, una ponderación (peso o coeficiente) que represente su importancia dentro de la muestra. Definición. A veces asociada con los números X1, X2, . . . XK , ciertos factores pesos ( o pesos ) W 1, W2 ,..., WK dependientes de la relevancia asignada a cada número.
Ejemplo: si el examen final de un curso cuanta tres veces mas que una evaluación parcial y un estudiante tiene calificación 85 en el examen final y 70 y 90 en los dos parciales , las calificaciones media es :
x = (
)(1 70) ( )(+ 1 90)+( )( )3 85 = 415 = 83 1+1+ 3
5
Ejercicios:
28
UNIDAD I / ESTADISTICA DESCRIPTIVA.
a) hallar la media aritmética de los números 5, 3, 6, 5, 4, 5, 2, 8, 6, 5, 4, 8, 3, 4, 5, 4, 8, 2, 5, y 4 Solución: 4.8
b) De entre 100 números. 20 son cuatros, 40 son cinco, 30 son seis y los restantes siete. Hallar su media aritmética. Solución: 5.30 c) las calificaciones finales de un estudiante en cuatro asignatura fueron 82, 86, 90 y 70. si los respectivos créditos otorgados a esos cursos son 3, 5, 3 y 1 , determinar una calificación media a apropiada. Solución: 85 d) De los 80 empleados de una empresa 6 cobra $ 7,00 a la hora y el resto $4,00 a la hora. Hallar cuanto cobran de media por hora Solución: $6.25 e) Cuatro grupos de estudiantes, consistentes en 15, 20, 10 y 18 individuos, dieron pesos medios de 162, 148, 153 y 140 lb., respectivamente . hallar el peso medio de todos esos estudiantes. Solución: 150 lb.
1.3.2 Mediana. La mediana de un conjunto de números ordenados en magnitud es el valor central o la media de los dos valores centrales. Datos sin agrupar: Ejemplo: el conjunto de números 3, 4, 4, 5, 6, 8, 8, 8, 10 tiene mediana 6 mathcad median(3 4, , 4, 5, 6, 8, 8, 8, 10) = 6
Ejemplo: el conjunto de números 5, 5, 7, 9, 11, 12, 15, 18 tiene mediana ½ ( 9 + 11 ) = 10
29
Ejemplo: las notas de un estudiante en seis exámenes han sido 84, 91, 72, 68, 87 y 78. hallar la mediana de esas notas. Solución : las notas ordenadas son 68, 72, 78, 84, 87 , 91, 1 / 2 ( 78 + 84 ) = 81
30
UNIDAD I / ESTADISTICA DESCRIPTIVA.
Ejemplo: cinco oficinistas cobran $ 4.52, $ 5.96, $ 5.28, $ 11.20 y $ 5.75 a la hora. Hallar la mediana Solución = la ordenación es: $ 4.52, $ 5.28, $ 5.75 , $ 5.96, $ 11.20 La mediana es $ 5.75 Datos Agrupados: Las gráficas siguientes, correspondientes a polígonos de frecuencias absolutas acumuladas, nos plantea de nuevo dos situaciones diferentes a considerar:
( )⎞ 2 ⎜ − ∑ f ⎟⎟C
⎛ N
1
⎜
mediana = L1 +
⎜ ⎜ ⎝
f mediana
⎟ ⎟ ⎠
donde: L1 = frontera inferior de la clase mediana. N = numero de datos (frecuencia total) (Σ f ) 1 = suma de la frecuencia de las clases inferiores a la de la mediana. f mediana =
frecuencia de la clase mediana.
C = anchura del intervalo de clase de la mediana. Ejemplo: Altura ( in)
Numero de estudiantes (f)
60 – 62
7
63 – 65
20
66 – 68
44
69 – 71
29
72 – 74
10
total
110
31
UNIDAD I / ESTADISTICA DESCRIPTIVA.
Para indicar la posición : = 55 ; entonces se procede a realizar una suma con las frecuencias (f) hasta llegar al valor 55 o mas de 55 pero no menos, para suponer que ahí cae la mediana solo que se tiene que hacer es verificar su valor. 7 + 20+ 44 = 71 por lo tanto cae en el intervalo 66 – 68 Datos:
L1 = 65.5; N =110;
( ) ∑ f = 27; f 1
mediana
= 44; C = 68.5−65.5 = 3
⎛110 ⎞ ⎜ − 27⎟
2 mediana = 65.5+⎜⎟( )3 = 67.41
⎜ ⎜ ⎝
44
⎟ ⎟ ⎠
1.3.3 Moda. La moda de un conjunto de números es el valor que ocurre con mayor frecuencia; es decir, el valor mas frecuente. La moda puede no existir e incluso no ser única. Esta estadística debe usarse con cuidado. Su objetivo es identificar zonas donde se producen agl omeraciones de datos, sin embargo, podría ser que por el solo hecho de haber una observación extra en un punto aislado, éste pudiese aparecer como una moda. Este inconveniente es especialmente delicado cuando hay pocas observaciones en la muestra, tal como es el caso que se observa en el gráfico siguiente. Datos sin agrupar: Ejemplo: el conjunto 2, 2, 5, 7, 9, 9, 9, 10, 10, 11, 12, 18 tiene como moda 9 mathcad
mode(2 2, , 5, 7, 9, 9, 9, 10, 10, 11, 12, 18) = 9
Ejemplo: el conjunto 3, 5, 8, 10, 12, 15, 16 n o tiene moda Ejemplo: el conjunto 2, 3, 4, 4, 4, 5, 5, 7 , 7, 7, 9 tiene dos modas 4 y 7 y se llama bimodal
32
UNIDAD I / ESTADISTICA DESCRIPTIVA.
Una distribución única se llama unimodal. Datos agrupados :
⎛
Δ1
⎞⎟⎟C
moda = L1 +⎜⎜⎝Δ1 +Δ2 ⎠
donde: L 1 = frontera inferior de la clase modal ( clase que contiene a la moda) Δ1 = exceso de la frecuencia modal sobre la clase inferior inmediata Δ2 = exceso de la frecuencia modal sobre la clase superior inmediata c = anchura del intervalo de clase modal. Ejemplo : Altura ( in)
Numero de estudiantes (f)
60 – 62
7
63 – 65
20
66 – 68
44
69 – 71
29
72 – 74
10
total
110
De acuerdo a la definición la moda será quien tenga mayor f recuencia por lo tanto cae en el intervalo 66 – 68
L1 = 65.5; Δ1 = 44 − 20 = 22 ; Δ2 = 44 − 29 = 15 ; C = 68.5−65.5 = 3
⎛
moda = 65.5 + ⎜
22 ⎞
⎟( )3 = 67.28
⎝ 22 +15⎠
33
UNIDAD I / ESTADISTICA DESCRIPTIVA.
Medidas de posición relativa (Cuartiles, deciles y percentiles). Las calificaciones de exámenes y ciertos tipos de datos sociológicos y de salud con frecuencia se presentan en una forma que describe la posición de una observación relativa a las demás observaciones de la distribución. Si un conjunto de datos están ordenados por magnitud, el valor central ( o la media de los dos centrales) que divide al conjunto en dos mitades iguales es la mediana. Extendiendo esa idea, podemos pensar en aquellos valores que dividen al conjunto en cuatro partes iguales. Estos valores, denotados por Q 1, Q 2, Q3 , se llaman primer, segundo y tercer cuartil. Q 2 coincide con la mediana. Análogamente los valores que dividen a los datos en 10 partes iguales se llaman deciles y se denotan D1 , D2 , . . . , D9 , mientras los valores que se dividen en 100 partes iguales se llaman percentiles denotados P1 , P2 , . . . , P 99 . Colectivamente cuartiles, deciles y percentiles se denominan cuantiles. Altura ( in)
Numero de estudiantes (f)
60 – 62
7
63 – 65
20
66 – 68
44
69 – 71
29
72 – 74
10
total
110
Hallar Cuartiles: N / 4 = 100 / 4 = 25 5 + 18 = 23 Q 65.5 +( )3 =
63 – 65 → 62.5 – 65.5 65.64
1
34
UNIDAD I / ESTADISTICA DESCRIPTIVA.
2N / 4 = 2(100) / 4 = 50 5 + 18 = 23 5 + 18 + 42 = 65
Q
63 – 65 → 62.5 – 65.5
65.5 +( )3 =
67.43
2
3N / 4 = 3(100) / 4 = 75 5 + 18 +42 = 65
66 – 68 → 65.5 – 68.5
Q 68.5 +( )3 =
69.61
3
Hallar los deciles = 10
D
62.5 +
1
5+ 18 = 23 =
= 20
D
60
62.5 +
D
65.5+
6
2
5+ 18 + 42 = 65
5+ 18 = 23
7(100)
= 30
D
=
65.5 + 3
70
D 68.
5+ 7
10
5+ 18 = 23 = 40 D
65.5+ 4
5+ 18 + 42 = 65 8(100)
=
5+ 18 = 23
80
D 68.
5+
= 50 D
65.5+ 5
10
8
35
UNIDAD I / ESTADISTICA DESCRIPTIVA.
5+ 18 + 42 = 65 ( )3 = 63.33
( )3 = 67.43
( )3 = 65 ( )3 = 68.14
( )3 = 66 ( )3 = 69.06
( )3 = 66.71 9(100)
D
= 90
9
( )3 = 70.17
(90 − 65) 68.5 +
10
( )3 = 71.28 27
Hallar percentiles P 35 y P 50 35 (100) / 100 = 35 (35 − 23)
P 65.5 +
35
( )3 = 66.36 42
50 (100) / 100 = 50 65.5 +( )3 =
P
67.43
50
1.4.
Medidas de dispersión.
Medidas de Posición. La descripción de un conjunto de datos, incluye como un elemento de importancia la ubicación de éstos dentro de un contexto de valores posibles. Por ejemplo, puede resultar de interés conocer qué porcentaje de automóviles equipados con convertidor catalítico sobrepasa el estándar de emisiones de gases que es aceptable según la legislación vigente. Ya no se trata en este ejemplo de describir el centro de un conjunto de datos de esta naturaleza. Es necesario ser más específico. Es probable que la emisión promedio de un conjunto de automóviles esté dentro de la norma.
36
UNIDAD I / ESTADISTICA DESCRIPTIVA.
Pero,¿es aceptable que el 25% de ellos no la cumpla?. Se ve, entonces, que la descripción debe entregar más información de los datos para cubrir las necesidades informativas referentes a un problema en particular.
1.4.1 Varianza. Cuadrada para poder compararla con la media y otras medidas análogas. Esta es la idea del desvío estándar o des viación típica . También es la fórmula planteada por Gauss en su teoría de errores
casuales. Como se verá más adelante, la curva de Gauss tiene dos puntos de inflexión simétricos ubicados a una distancia del centro igual al desvío estándar. La varianza La varianza es el promedio de los cuadrados de las desviaciones de cada elemento, x i, respecto a la media, La varianza de un conjunto de datos se define como el cuadrado de la desviación típica y viene dada en consecuencia por S2 . varianza poblacional (s 2) N
S
; N
para una población finita con n determinaciones. Y la varianza muestral (σ 2) n
⎛
2
⎞ n n ⎜∑ yi ⎟ ⎝ i=1
⎠
σ2 = i=1 = i=1 n n −1n −1 1.4.2 Desviación estándar. A su vez, el desv ío es tándar poblacional ( σ ) y el mues tral ( s ) se obtienen con la raíz cuadrada de las respectivas varianzas y Representa el alejamiento de una serie de números de su valor medio. Se calcula a partir de todas las desviaciones individuales con respecto a la media.
37
UNIDAD I / ESTADISTICA DESCRIPTIVA.
Para poder conocer o calcular tanto la media como la varianza poblacionales, se necesita conocer la población completa. Esto es imposible en el caso de mediciones repetidas porque estas son infinitas desde el punto de vista teórico. Análogamente, la cantidad total de muestras que se le puede extraer a un paciente, para hacerle una determinación en el laboratorio, es tan grande que puede ser considerada infinita. Por lo tanto, para todos
=1
S =
2
− x )
(
N
El uso de esta estadística es recomendado en aquellos conjuntos de datos que of recen cierto grado de simetría respecto de su centro. En estos casos, habitualmente tiene sentido medir discrepancias de un valor con el centro de los datos usando múltiplos de la desviación estándar. A modo de ejemplo, se puede decir que un valor está bastante alejado del centro de los datos si su distancia de él supera dos desviaciones estándar. Apoyándose en la idea anterior, la desviación estándar puede ser usada para determinar valores que se encuentran 'cerca' del centro. Este uso va más allá de la simple descripción, en otros ámbitos de Estadística es usada para tomar decisiones respecto de la población de la que fue extraída la muestra. Ejercicio: Calcular la desviación estándar de los siguientes datos: 68.2, 69.3, 70.4, 71.5, 72.6, 73.7, 74.8, prom:=
prom= 71.5
( 68.2 − 71.5 )
2
2
2
2
2
2
+ ( 69.3 − 71.5 ) + ( 70.4 − 71.5 ) + ( 71.5 − 71.5 ) + ( 72.6 − 71.5 ) + ( 73.7 − 71.5 ) + ( 74.8 − 71.5 )
2
7
desv := desv = 2.2
Problema: Investigadores del Massachussets Institute of Technology (MIT) estudiaron las propiedades espectroscopicas de asteroides de la franja principal con un diámetro menor a los 10 kilometros. Los asteroides se observaron con el telescopio hiltener del observatorio del MIT; se registro el numero N de exposiciones de imagen espectral independientes para cada observación. Aquí se presentan los datos de 40 observaciones de asteroides obtenidas de Science.
38
UNIDAD I / ESTADISTICA DESCRIPTIVA.
Numero de exposiciones de imagen espectral independientes para 40 observaciones de asteroides. 3
4
3
3
1
4
1
3
2
3
1
1
4
2
3
3
2
6
1
1
3
3
2
2
2
2
1
3
2
1
6
3
1
2
2
3
2
2
4
2
a) Localice y y s en el listado b) Construya los intervalos y ± s, y ± 2 s, y ± 3 s
39
UNIDAD I / ESTADISTICA DESCRIPTIVA.
1.4.3 Desviación media. La desviación media o desviación promedio de un conjunto de N números x 1, x 2, . . . , x N es abreviada por MD y se define como: N
∑ x
j
− x
M .D. = j=1 N Ejemplo: hallar la desviación media del conjunto 2, 3, 6, 8, 11 media aritmetica = con mathcad
=6
mean 2 3( , ,6,8,11) = 6
desviacion media 2 − 6 + 3 − 6 + 6 − 6 + 8 − 6 + 11 − 6
MD = = 2.8 5
1.4.4 Desviación mediana. Es la media aritmética de los valores absolutos de las desviaciones de los valores de la variable con respecto a la mediana.
∑ x
j
− Men j
D Me = n
1.4.5 Rango. La más simple de todas es el rango, definido como la diferencia entre el valor máximo y mínimo del grupo de datos. De fácil cálculo y comprensión, tiene la desventaja de ser la medida más grosera de la dispersión. Dos grupos de datos, con muy distinta dispersión pueden llegar a tener rangos similares. Uno de ellos puede tener el 99% de los valores junto al mínimo y el otro el 99% junto al máximo, pero al tener extremos iguales, sus rangos resultarían iguales a pesar de ser tan disímiles intrínsecamente. RANGO = Máx. datos - Mín. datos
UNIDAD I / ESTADISTICA DESCRIPTIVA.
40
1.5
Parámetros para datos agrupados.
1.5.1 La media. Sean, x1 ,x2 ,....,xn , n observaciones muéstrales, definiremos pro medio de estas observaciones al valor dado por:
o bien N
∑
x = x1 + x2 + x3 +...+ xn =
x j
j=1
N
N
∑
x = x N Ejemplo: La media aritmética de los números 8, 3. 5, 12 y 10 x = 8+ 3+ 5+12 +10 =
5
38 = 7.6 5
1.5.2 La desviación típica. A su vez, el desvío estándar poblacional ( σ ) y el mues tral ( s ) se obtienen con la raíz cuadrada de las respectivas varianzas y Representa el alejamiento de una serie de números de su valor medio. Se calcula a partir de todas las desviaciones individuales con respecto a la media. k
S =
=1
(
−
2
)
k
=1
41
UNIDAD I / ESTADISTICA DESCRIPTIVA.
x
x j − x
j
68.2 69.3 70.4 71.5 72.6 73.7 74.8
j
5 11 14 11 7 32
( x j − x)
-2.6358 6.9477 -1.5358 2.3588 -0.4358 0.1900 0.6642 1.7642 2.8642 3.9642
(
f j x j −
2 2
0.4411
x
)
34.7385 25.9472 2.6595 4.8521
3.1122 21.7856 8.2034 24.6101 15.7145 31.4290
Total 53
146.0219
x = 70.8358 Desv. Est. =
1.6599
Y la desviación media para datos agrupados: k
∑ f x j
DM = j=1
j
− x
k
∑ f
j
j=1
x j
f j
x j − x
f j x j − x
42
68.2 69.3 70.4 71.5 72.6 73.7 74.8
5 11 14
Total
53
11 73 2
2.6358 1.5358 0.4358
13.1792 16.8943 6.1019 0.6642 1.7642 7.3057 12.3491 2.8642 8.5925 3.9642 7.9283 72.3509
x = 70.8358 Desv. Med. =
1.3651
43
UNIDAD I / ESTADISTICA DESCRIPTIVA.
1.6 Distribución de frecuencias. R eglas g enerales para formar dis tribuciones de frecuencias
Paso 1: Calcular el intervalo de los datos : Intervalo = Observación Grande – Observación Pequeña. Paso 2: Dividir el intervalo entre 5 y 20 clases de igual anchura. El número de clases es arbitrario, pero se obtiene una mejor descripción grafica si se utiliza pocas clases cuando el número de datos es pequeño y un mayor número de clases cuando el conjunto de datos es grande. La frontera de la clases más baja ( o primera) deberá estar situada por debajo de la medición más pequeña, y el ancho de la clase debe ser tal que ninguna observación pueda quedar exactamente en la frontera de una clases. Se pueden calcular de la siguiente manera: Intervalo
= anchura de clase #clases O bien, Intervalo
=#clase anchura declases Si la precisión es: una
unidad entera (1) entonces es 1/2 = 0.5, la primera clases comenzará restándole 0.5 a
la observación mas pequeño una
unidad decimal (0.1) entonces es 0.1/2 = 0.05, la primera clases empieza restándole
0.05 a la observación mas pequeña. Paso 3: para cada clase, contar el numero de observaciones que caen en esa clase. Este número es la frecuencia de clases. Datos obtenidos. Por ejemplo: en la tabla que sigue se recogen los pesos de 40 estudiantes varones de una universidad, con precisión de 1 libra. Construir una distribución de frecuencias. 138 164 150 132 144 125 149 157 146 158 140 147 136 148 152 144 168 126 138 176
44
UNIDAD I / ESTADISTICA DESCRIPTIVA.
163 119 154 165 146 173 142 147 135 153 140 135 161 145 135 142 150 156 145 128 El método textual tiene una ventaja importante con respecto a los otros: se puede influenciar al lector. El autor puede resaltar ciertas cifras de su interés, puede remarcar conceptos apropiados para sus fines y hacer pasar desapercibi dos a los otros. Se puede focalizar la atenc ión del lector, de tal manera que pase por alto ciertos datos evitando que saque sus propias conclusiones.
1.6.1 Distribuciones numéricas. Método de presentación de datos tabular. Una ordenación es un conjunto de datos numéricos en orden creciente o decreciente. Este método de presentación de la información consiste en presentar los datos por medio de una tabla o cuadro. Ejercicio: Los tiempos de CPU que se indican en la tabla representan el tiempo ( en segundos) que 25 trabajos estuvieron en control de la unidad central de proceso (CPU) de una computadora mainframe grande. Estos 25 valores representan una muestra seleccionada de los 1000 tiempos de CPU . Tabla de muestra de n = 25 tiempos de CPU de trabajos (en segundos ). 1.17 1.23 0.15 0.19 0.92
1.61 3.76 2.41 0.82 0.75
1.16 1.94 0.71 0.47 2.59
1.38 0.96 0.02 2.16 3.07
3.53 4.75 1.59 2.01 1.40
1.6.2 Distribuciones categóricas. Al resumir grandes colecciones de datos, es útil distribuirlos en clases o categorías, y determinar el número de individuos que pertenecen a cada clase, llamado frecuencia de clase. Una disposición tabular de los datos por clase junto con l as correspondientes frecuencias de clase, se llama distribución de frecuencia ( o tabla de frecuencia). Ejemplos:
45
UNIDAD I / ESTADISTICA DESCRIPTIVA.
Intervalo = 4.75 – 0.02 = 4.73 Anchura aproximada de la clase es:
intervalo
4.73
= 0.676 ≅ 0.7
= 7
7
Nota: si deseo saber la anchura de la clases entonces selecciono de manera arbitraria el numero de clases en este caso el numero 7 indica el numero de clases ( f ilas) y el resultado es la anchura de cada clases. Como la tabla contiene datos con valores de centésimas entonces el grado de precisión es de 0.01 por lo tanto se deberá de utilizar 0.01/2 = 0.005. por lo cual al intervalo menor que es de 0.02 se le restara 0.05. Ahora el primer valor en la tabla iniciara en 0.015. clase Intervalo Tabulación Frec. de clase 12 3 45 67
0.015 – 0.715 0.715 – 1.415 1.415 – 2.115 2.115 – 2.815
///// ///////// //// ///
59 4 31 21
2.815 – 3.515 / 3.515 – 4.215 // 4.215 – 4.915 /
1.6.3 Distribuciones acumuladas. Intervalo clase
de Frecuencia Distribución de clase acumulada
46
UNIDAD I / ESTADISTICA DESCRIPTIVA.
0.015 – 0.715 0.715 – 1.415 1.415 – 2.115
59 43 12 1
5 14 18 21 22 24 25
2.115 – 2.815 2.815 – 3.515 3.515 – 4.215 4.215 – 4.915 Total
25 Distribucion acumulada
30 25 20 15 10 5 0 1
2
3
4
5
6
7
1.6.4 Distribuciones porcentuales. En esta distribución tenemos a la distribución de frecuencia relativa y ojivas porcentuales que se encuentra multiplicando la frecuencia relativa por cien para que los resultados estén en porcentajes . Y la suma de todas estas frecuencias resulte al 100 %. Frecuencia Frecuencia relativa = N Frecuencia relativa y ojivas = Frec. Rel *100 Intervalo de clase
Frec.
Frec. relativa
frecuencia relativa y ojivas porcentual (%)
47
UNIDAD I / ESTADISTICA DESCRIPTIVA.
0.015 – 0.715 0.715 – 1.415 1.415 – 2.115 2.115 – 2.815 2.815 – 3.515 3.515 – 4.215 4.215 – 4.915
59 43 12 1
Total
25
0.20 0.36 0.16 0.12 0.04 0.08
20 36 16 12 48 4
0.04
1.00 Frecuencia relativa porcentual 40 35 30 25 20 15 10 5 0 1
2
3
4
5
6
7
1.6.5 Distribuciones porcentuales acumuladas. Las distribuciones porcentuales acumuladas resulta dividiendo la distribución acumulada entre la frecuencia total y multiplicada por 100 para que los resultados resulten en porcentajes y al terminar el ultimo calculo debe ser al cien por ciento. Intervalo de clase
Frec.
Distribución acumulada
Dist. porcentuales acumulada (%)
0.015 – 0.715 0.715 – 1.415 1.415 – 2.115 2.115 – 2.815 2.815 – 3.515 3.515 – 4.215 4.215 –4.915
5 9 43
5 14 18
1
22 24 25
20 56 72 84 88
Total
25
21
21
96 100
D. A DPA =
*100
48
UNIDAD I / ESTADISTICA DESCRIPTIVA.
N Distribucion Porcentual Acumulada 120 100 80 60 40 20 0 1
2
3
4
5
6
7
1.7 Técnicas de agrupación de datos. 1.7.1 Límites de clase. 118 y 122 se llaman limite de clase 118 se llama limite inferior y 122 limite superior de clase
1.7.2 Rango de clase. El tamaño o anchura de un intervalo de clase es la diferencia entre las fronteras de clase superior e inferior. C = 122.5 – 117.5 = 5
1.7.3 Fronteras de clase. Si se dan valores con precisión de 1 unidad, el intervalo de clase 118 – 122 incluye teóricamente todas las medias desde 117.5 a 122.5 y se llaman frontera de clase o verdaderos limites de clase; el menor 117.5 es la frontera inferior y el mayor 122.5 la frontera superior.
1.7.4 Marca de clase. La marca de clase es el punto medio del intervalo de clase y se obtiene promediando los limites inferior y superior de clase . Así que las marcas de clase del intervalo 118 – 122 es (118 + 122 ) / 2 = 120
49
UNIDAD I / ESTADISTICA DESCRIPTIVA.
1.7.5 Intervalo de clase. Los valores de 118 – 122 se les llaman intervalo de clases Ejercicio: en la tabla siguiente se recogen los pesos de 40 estudiantes varones de una universidad, con precisión de 1 libra. Construir: a) una distribución de frecuencia. b) Distribución de frecuencia acumulada c) Grafica de la distribución de frecuencia acumulada d) Frecuencia relativa e) Frecuencia relativa y ojivas porcentuales f)
Grafica de la frecuencia relativa y ojivas porcentuales
g) Distribución porcentuales acumuladas h) Grafica de la distribución porcentuales acumuladas 119
138
146
140
147
157
126
140
147
142
148
161
132
142
149
144
150
164
135
144
156
125
158
128
163
135
150
165
135
145
152
168 136
145
138
146
153 154
173 176
Los pesos son 176 y 119 lb.; El intervalo es 176 – 119 = 57 lb. Si se usan 5 u 20 intervalos de clase su anchura será:
=11.4 =11
o = 2.85 = 3 Una colección razonable es 5 lb. Se inicia desde un valor de precisión antes para que se considere que los valores deben de caer dentro del intervalo.
50
UNIDAD I / ESTADISTICA DESCRIPTIVA.
Peso (lb.)
Frecuencia
Distribución acumulada
frecuencia relativa
118 – 122
1
1
0.025
2.5
2.5
123 – 127
2
3
0.05
5
7.5
128 – 132
2
5
0.05
5
12.5
133 – 137
4
9
0.1
10
22.5
138 – 142
6
15
0.15
15
37.5
143 – 147
8
23
0.2
20
57.5
148 – 152
5
28
0.125
12.5
70
153 – 157
4
32
0.1
10
80
158 – 162
2
34
0.05
5
85
163 – 167
3
37
0.075
7.5
92.5
168 – 172
1
38
0.025
2.5
95
173 - 177
2
40
0.05
5
100
1.00
100
Total 40
frecuencia Distribución relativa y ojivas porcentuales porcentual (%) acumulada (%)
Gráficos a) Distribución acumulada porcentual
b) Distribución relativa y ojivas
c)
Frecuencia
acumulada
51
UNIDAD I / ESTADISTICA DESCRIPTIVA.
Histogram 14
12
10
8
6
4
2 Mean = 146.8 Std. Dev. = 13.051 N = 40
0 110
120
130
140
150
160
170
180
PESO
Ejercicio. Tabla de una distribución de frecuencia de puntuaciones de un examen final de álgebra Grado
Numero de estudiante
Marca de clases (x)
fx
30 – 39 40
13
– 49 50 –
11 21
34.5 133.5 599.5
59 60 – 69
43
70 – 79 80
32
– 89
9
34.5 44.5 54.5 64.5 74.5 84.5
90 - 100
1354.5 3203.5 2704 855
95.0 N = Σ f = 120
Σfx = 8884.5
a) marca de clases x 1 = 34.5; x2 =44.5; x3 = 54.5 ; x 4 = 64.5 ; x5 = 74.5; x6 = 84.5 ; x7 = 95.0 b) media aritmética
∑ fx x=
8884.5
= N
= 74.04 120
c) mediana 120/2 = 60 1 + 3 + 11 + 21 = 36 1 + 3 + 11 + 21 + 43 = 79
52
UNIDAD I / ESTADISTICA DESCRIPTIVA.
70 – 79
43 clase mediana
⎛⎜120 −36⎞⎟ 2 mediana = 69.5+⎜⎟( )10 = 75.08
⎜ ⎜ ⎝
⎟ ⎟ ⎠
43
d) moda 70 – 79
43
⎛
22 ⎞
moda = 69.5 + ⎜
⎟( )10 = 76.17
⎝ 22 +11⎠ Problema: En la tabla siguiente se recogen los pesos de 40 es tudiantes varones de una universidad con precisión de una libra. Peso (lb.) Frecuencia (f) 35
118 – 126 127 – 135 136 – 144 145 – 153 154 – 162 163 – 171 172 – 180
9 12 54 2
N = Σf = 40 Hallar: a) Marca de clases b) Media aritmética c) Mediana y moda d) trazar un histograma y polígono de frecuencia
53
UNIDAD I / ESTADISTICA DESCRIPTIVA.
1.7.6 Diagrama de tallos y hojas. Un método para iniciar el análisis exploratorio de l os datos, previo al uso de los métodos estadísticos tradicionales, y que además proporciona información rápida, visual y es relativamente nueva, es la representación gráfica de tallos y hoja. Esta representación se basa en la ordenación de los datos a manera de gráfico, pero sin llegar a ello, utilizando las decenas y las unidades. 78
93 61 100 70 83
66
73 76 81
88 74 97 72
83 64
91 70 77 86
Ahora pensaremos en cada uno de los datos separando las decenas de las unidades, es decir, el número 51 se verá como 5 | 1. 6
1
7
6
80
8
3
9
3
10
0
4
423607 8
1
3
7
1
6
Para entenderle un poco más, hemos de decir que el primer renglón que dice 6 | 1 6 4 quiere decir que entre la lista de datos se encuentran los valores 61, 66 y 64. Esta es la representación gráfica tallos y hoja, donde cada renglón es una posición de tallos y cada dígito de la derecha es una hoja. El procedimiento para realizarla es primero empezar con los tallo, es decir la columna de la izquierda, y después dato por dato ir llenando las hojas a la derecha de la línea vertical, en el tronco correspondiente. Además, si se desean tener los datos ordenados, y hay gente que lo prefiere así, se pueden ordenar las hojas en cada renglón para que la representación quede como sigue: 6
1 7 8
4 0
6 0
2
8
1
3
3
9
1
3
7
10
0
3 6
4
6
7
8
54
UNIDAD I / ESTADISTICA DESCRIPTIVA.
En realidad una representación de tallos y hojas presenta la misma información que l a lista original de datos, pero de una manera mucho más compacta (especialmente si la lista de datos es más grande) y manejable. Ejemplo: Los tiempos de CPU que se indican en la tabla representan el tiempo (en segundos) que 25 trabajos estuvieron en control de la unidad central de proceso (CPU) de una computadora mainframe grande. Estos 25 valores representan una muestra seleccionada de los 1000 tiempos de CPU: 1.17
1.61
1.16
1.38
3.53
1.23
3.76
1.94
0.96
4.75
0.15
2.41
0.71
0.02
1.59
0.19
0.82
0.47
2.16
2.01
0.92
0.75
2.59
3.07
1.40
Ramas hojas
Frecuencia
0 12 34
9 84 31
02 15 19 47 71 75 82 92 96 16 17 23 38 40 59 61 94 01 16 41 59 07 53 76 75
25
1.7.7 Diagrama de Pareto. El Diagrama de Pareto constituye un sencillo y gráfico método de análisis que permite discriminar entre las causas más importantes de un problema (los pocos y vitales) y las que lo son menos (los muchos y triviales). El Diagrama de Pareto es una gráfica en donde se organizan diversas clasificaciones de datos por orden descendente, de izquierda a derecha por medio de barras sencillas después de haber reunido los datos para calificar las causas. De modo que se pueda asignar un orden de prioridades. Ventajas: •
Ayuda a concentrarse en las causas que tendrán mayor impacto en caso de ser resueltas.
55
UNIDAD I / ESTADISTICA DESCRIPTIVA.
• •
Proporciona una visión simple y rápida de la importancia relativa de los problemas. Ayuda a evitar que se empeoren alguna causas al tratar de solucionar otras y puede ser resueltas.
•
Su formato altamente visible proporciona un incentivo para seguir luchando por más mejoras.
¿Cuándo se utiliza? •
Al identificar un producto o servicio para el análisis para mejorar la calidad.
•
Cuando existe la necesidad de llamar la atención a los problema o causas de una forma sistemática.
• •
Al identificar oportunidades para mejorar Al analizar las diferentes agrupaciones de datos (ej: por producto, por segmento, del mercado, área geográfica, etc.)
•
Al buscar las causas principales de los problemas y establecer la prioridad de las soluciones
•
Al evaluar los resultados de los cambios efectuados a un proceso (antes y después)
•
Cuando los datos puedan clasificarse en categorías
•
Cuando el rango de cada categoría es importante
Pareto es una herramienta de análisis de datos ampliamente utilizada y es por lo tanto útil en la determinación de la causa principal durante un esfuerzo de resolución de problemas. Este permite ver cuáles son los problemas más grandes, permitiéndoles a los grupos establecer prioridades. En casos típicos, los pocos (pasos, servicios, ítems, problemas, causas) son responsables por la mayor parte el impacto negativo sobre la calidad. Si enfocamos nuestra atención en estos pocos vitales, podemos obtener la mayor ganancia potencial de nuestros esf uerzos por mejorar la calidad. Un equipo puede utilizar la Gráfica de Pareto para varios propósitos durante un proyecto para lograr mejoras: •
Para analizar las causas
•
Para estudiar los resultados
•
Para planear una mejora continua
•
Las Gráficas de Pareto son especialmente valiosas como fotos de “antes y después” para
demostrar qué progreso se ha logrado. Como tal, la Gráfica de Pareto es una herramienta sencilla pero poderosa.
56
UNIDAD I / ESTADISTICA DESCRIPTIVA.
¿Cómo se utiliza? •
Seleccionar categorías lógicas para el tópico de análisis identificado (incluir el periodo de tiempo).
•
Reunir datos. La utilización de un check List puede ser de mucha ayuda en este paso.
•
Ordenar los datos de la mayor categoría a la menor
•
Totalizar los datos para todas las categorías
•
calcular el porcentaje del total que cada categoría representa
•
trazar los ejes horizontales (x) y verticales (y primario - y secundario)
•
trazar la escala del eje vertical izquierdo para frecuencia (de 0 al total, según se calculó anteriormente)
•
de izquierda a derecha trazar las barras para cada categoría en orden descendente. Si existe una categoría “otros”, debe ser colocada al final, sin importar su valor. Es decir, que
no debe tenerse en cuenta al momento de ordenar de mayor a menor la frecuencia de las categorías. •
trazar la escala del eje vertical derecho para el porcentaje acumulativo, comenzando por el 0 y hasta el 100%
•
trazar el gráfico lineal para el porcentaje acumulado, comenzando en la parte superior de la barra de la primera categoría (la mas alta)
•
dar un título al gráfico, agregar las fechas de cuando los datos fueron reunidos y citar la fuente de los datos.
•
analizar la gráfica para determinar los “pocos vitales”
Consejos para la construcción / interpretación Como hemos visto, un Diagrama de Pareto es un gráfico de barras que enumera las categorías en orden descendente de izquierda a derecha, el cual puede ser utilizado por un equipo para analizar causas, estudiar resultados y planear una mejora continúa. Dentro de las dificultades que se pueden presentar al tratar de interpretar el Diagrama de Pareto es que algunas veces los datos no indican una clara distinción entre las categorías. Esto puede verse en el gráfico cuando todas las barras son más o menos de la misma altura. Otra dificultad es que se necesita más de la mitad de las categorías para sumar más del 60% del efecto de calidad, por lo que un buen análisis e interpretación depende en su gran mayoría de un buen análisis previo de las causas y posterior recogida de datos.
57
UNIDAD I / ESTADISTICA DESCRIPTIVA.
En cualquiera de los casos, parece que el principio de Pareto no aplica. Debido a que el mismo se ha demostrado como válido en literalmente miles de situaciones, es muy poco probable que se haya encontrado una excepción. Es mucho más probable que simplemente no se haya seleccionado un desglose apropiado de las categorías. Esto nos lleva a la conclusión que para llevar a cabo un proceso de Resolución de Problemas /Toma de Decisiones (RP/TD) es necesario manejar cada una de las herramientas básicas de la calidad, tanto desde el punto de vista teórico como desde su aplicación. La interpretación de un Diagrama de Pareto se puede definir completando las siguientes oraciones de ejemplo: “Existen (número de categorías) contribuyentes relacionados con (efecto).
Pero estos (número de pocos vitales) corresponden al (número) % del total (efecto). Debemos procurar estas (número) categorías pocos vitales, ya que representan la mayor ganancia potencial para nuestros esfuerzos.”
Relación con otras herramientas Un Diagrama de Pareto generalmente se relaciona con: •
diagrama de Causa y Efecto (Ishikawa)
•
Check List de Revisión
•
Check List de reunión de datos
•
Matriz para la Planeación de Acciones
Ejemplo: Un fabricante de heladeras desea analizar cuáles son los defectos más frecuentes que aparecen en las unidades al salir de la línea de producción. Para esto, empezó por clasificar todos los defectos posibles en sus diversos tipos:
Tipo de Defecto
Detalle del Problema
58
UNIDAD I / ESTADISTICA DESCRIPTIVA.
Motor no detiene
No para el motor cuando alcanza Temperatura
No enfría
El motor arranca pero la heladera no enfría
Burlete Def.
Burlete roto o deforme que no ajusta
Pintura Def.
Defectos de pintura en superficies externas
Rayas
Rayas en las superficies externas
No funciona
Al enchufar no arranca el motor
Puerta no cierra
La puerta no cierra correctamente
Gavetas Def.
Gavetas interiores con rajaduras
Motor no arranca
El motor no arranca después de ciclo de parada
Mala Nivelación
La heladera se balancea y no se puede nivelar
Puerta Def.
Puerta de refrigerador no cierra herméticamente
Otros
Otros Defectos no incluidos en los anteriores
Posteriormente, un inspector revisa cada heladera a medida que sale de producción registrando sus defectos de acuerdo con dichos tipos. Después de inspeccionar 88 heladeras, se obtuvo una tabla como esta: Tipo de Defecto
Detalle del Problema
Frec.
Burlete Def.
Burlete roto o deforme que no ajusta
9
Pintura Def.
Defectos de pintura en superficies externas
5
Gavetas Def.
Gavetas interiores con rajaduras
1
Mala Nivelación
La heladera se balancea y no se puede nivelar
1
Motor no arranca
El motor no arranca después de ciclo de parada
1
Motor no detiene
No para el motor cuando alcanza Temperatura
36
No enfría
El motor arranca pero la heladera no enfría
27
No funciona
Al enchufar no arranca el motor
2
59
UNIDAD I / ESTADISTICA DESCRIPTIVA.
Otros
Otros Defectos no incluidos en los anteriores
0
Puerta Def.
Puerta de refrigerador no cierra herméticamente
0
Puerta no cierra
La puerta no cierra correctamente
2
Rayas
Rayas en las superficies externas
4
Total:
88
Pero ¿Cuáles son los defectos que aparecen con mayor frecuencia? Para hacerlo más evidente, antes de graficar podemos ordenar los datos de la tabla en orden decreciente de frecuencia: Tipo de Defecto Motor detiene
Detalle del Problema
no No
para
el
motor
Frec. Frec. Rel. Prop. acum. cuando
alcanza 36
0.4091
Temperatura 0.4091
No enfría
El motor arranca pero la heladera no enfría
27
0.3068
0.7159
Burlete Def.
Burlete roto o deforme que no ajusta
9
0.1023
0.8182
Pintura Def.
Defectos de pintura en superficies externas
5
0.0568
0.8750
Rayas
Rayas en las superficies externas
4
0.0455
0.9205
No funciona
Al enchufar no arranca el motor
2
0.0227
0.9432
Puerta no cierra La puerta no cierra correctamente
2
0.0227
0.9659
Gavetas Def.
1
0.0114
0.9773
Gavetas interiores con rajaduras
60
UNIDAD I / ESTADISTICA DESCRIPTIVA.
Mala Nivelación
La heladera se balancea y no se puede nivelar 1
0.0114 0.9886
Motor arranca
no El motor no arranca después de ciclo de parada
1
0.0114 1.0000
Puerta Def.
Puerta de refrigerador cierra herméticamente
no
0
0.0000 1.0000
Otros
Otros Defectos no incluidos en los anteriores
Total:
0
0.0000
88
1.0000
1.0000
Vemos que la categoría “otros” siempre debe ir al final, sin importar su valor. De esta manera, si
hubiese tenido un valor más alto, igual debería haberse ubicado en la última fila. Ahora resulta evidente cuales son los tipos de defectos más frecuentes. Podemos observar que los 3 primeros tipos de defectos se presentan en el 82 % de las heladeras, aproximadamente. Por el Principio de Pareto, concluimos que: La mayor parte de los defectos encontrados en el lote pertenece sólo a 3 tipos de defectos, de manera que si se eliminan las causas que los provocan desaparecería la mayor parte de los defectos. 1.5000 1.0000 0.5000 0.0000 1
3
5
7
9
11
Ejemplo: Considere un problema de interés para la División de Economía Comercial ( BED , Business Economics División) del Departamento del trabajo de Estados Unidos. Cada año, la BED monitorea las empresas que fracasan y clasifican cada fracaso en categorías. Estas clasificaciones se basan en opiniones de acreedores informados y los informes la BED. Estas frecuencias se muestran en el diagrama de Pareto. Causas subyacentes
Frec. Frec. Rel.
Proporción acum.
61
UNIDAD I / ESTADISTICA DESCRIPTIVA.
Incompetencias Experiencia desequilibrada Falta de experiencia gerencial
698 236
0.477 0.215 0.161
0.477 0.692 0.853
Falta de experiencia de línea Causas desconocidas Otras causas
111 83 2
0.076 0.057 0.014
0.929 0.986 1.000
1463
1.000
314
Totales
1.5 1 0.5 0 1
2
3
4
5
6
1.7.8 Diagrama de puntos. 78 93 61 100 70 83 88 74 97 72 66 73 76 81 83 64 91 70 77 86
120 100 80 60 40 20 0 0
5
10
15
20
25
1.8 Histograma. 1.8.1 Diagrama de barras. En este tipo de gráfica, sobre los valores de las variables se levantan barras estrechas de longitudes proporcionales a las frecuencias correspondientes. Se utilizan para representar variables cuantitativas discretas. Consiste en representar las cantidades con rectángulos de igual base, y de
62
UNIDAD I / ESTADISTICA DESCRIPTIVA.
altura proporcional a los valores respectivos. Los intervalos libres entre barras también deben ser del mismo tamaño, aunque a veces algunos autores las muestran pegadas.
1.8.2 Polígono de frecuencias. Otra forma de representación de un uso menos común, y muy parecida a las gráficas de líneas, es el polígono de frecuencias. La diferencia fundamental entre ambas es que en el polígono de frecuencias se añaden dos clases con frecuencias cero: una antes de la primera clase con datos y otra después de la última. El resultado es que se "sujeta" la línea por ambos extremos al eje horizontal y lo que podría ser una línea separada del eje se convierte, junto con éste, en un polígono. El siguiente ejemplo corresponde al porcentaje del PIB gastado en docencia e investigación durante el año de 1990 en cinco países (fuente: Revista "Ciencia y Desarrollo", 1994, XIX(114):12):
Un polígono de frecuencia es un grafico de trozos de las frecuencias de clase con relación a la marca de clase. Puede obtenerse conectando los puntos medios de las partes superiores de los rectángulos de los histogramas. Se suelen añadirse longitudes PQ y RS a las marcas de clase extremas como asociadas a una frecuencia de clase cero.
63
UNIDAD I / ESTADISTICA DESCRIPTIVA.
1.8.3 Ojivas. Una gráfica similar al polígono de frecuencias es la ojiva, pero ésta se obtiene de aplicar parcialmente la misma técnica a una di stribución acumulativa y de igual manera que éstas, existen las ojivas mayor que y las ojivas menor que. Existen dos diferencias fundamentales entre las ojivas y los polígonos de frecuencias (y por ésto la aplicación de la técnica es parcial): Un extremo de la ojiva no se "amarra" al eje horizontal, para la ojiva mayor que sucede con el extremo izquierdo; para la ojiva menor que, con el derecho. En el eje horizontal en lugar de colocar las marcas de clase se colocan las fronteras de clase. Para el caso de la ojiva mayor que es la frontera menor; para la ojiva menor que, la mayor. Las siguientes son ejemplos de ojivas, a la izquierda la mayor que, a la derecha la menor que, utilizando los datos que se usaron para ejemplificar el histograma:
64
UNIDAD I / ESTADISTICA DESCRIPTIVA.
La ojiva mayor que (izquierda) se le denomina de esta manera porque viendo el punto que está sobre la frontera de clase "4:00" se ven las visitas que se realizaron en una hora mayor que las 4:00 horas (en cuestiones temporales se diría: después de las 4:00 horas). De forma análoga, en la ojiva menor que la frecuencia que se representa en cada frontera de clase son el número de observaciones menores que la frontera señalada (en caso de tiempos sería el número de observaciones antes de la hora que señala la frontera).
1.8.4 Gráficas circulares. En un diagrama de este tipo, los 360º de un círculo se reparten proporcionalmente a las frecuencias de los distintos valores de la variable. Resultan muy adecuados cuando hay pocos valores, o bien cuando el carácter que se estudia es cualitativo. El diagrama de sectores siguiente refleja el resultado de una encuesta (realizada a 300 personas) sobre los tipos de película preferidos por el público en general:
65
UNIDAD I / ESTADISTICA DESCRIPTIVA.
1.9 Distribuciones muéstrales. Como una estadística es una variable aleatoria que depende solo de la muestra observada, debe tener una distribución de probabilidad. Esta distribución de probabilidad de una estadística se llama distribución muestral. La distribución muestral de la estadística depende del tamaño de la población, el tamaño de las muestras y el método de elección de las muestras Si se selecciona n elementos de una población de modo tal que cada conjunto de n elementos de la población tenga la misma probabilidad de ser seleccionado, se dice que los n elementos constituyen una muestra aleatoria. El resultado de un experimento estadístico se puede registrar como un valor numérico o como una representación descriptiva. Cuando se lanza un par de dados y el total es un resultado de interés, registramos un valor numérico. El estadístico se interesa en primer lugar en el análisis de los datos numéricos. En cualquier estudio, el número de observaciones posibles puede ser pequeño, grande pero finito o infinito. Por ejemplo si a los alumnos estudiantes de cierta escuela se les hacen una pruebas de sangre y el tipo sanguíneo se puede clasificar en ocho maneras. Puede ser AB, A, B u O, con un signo mas o uno menos, que dependen de la presencia o ausencia del antígeno R h. la clasificación de tipos sanguíneos solo podemos tener tantas observaciones como estu diantes haya en la escuela. El proyecto por tanto tiene como resultados un numero finito de observaciones.
66
UNIDAD I / ESTADISTICA DESCRIPTIVA.
Sea x
1
, x 2, ..., x n variable aleatorias independientes, cada una con la misma distribución de
probabilidad f (x). Definimos entonces a x 1 , x 2, ..., x n como una muestra aleatoria de tamaño n de la población f(x) y escribimos su distribución de probabilidad conjunta como: F x x ( 1, 2,..., xn ) = f x f x( 1) ( 2 ),..., f x( n ) La distribución de probabilidad de una estadística se llama distribución muestral. La distribución de probabilidad de ⎯ x se llama distribución la media. La distribución muestral de una estadística depende del tamaño de la población, el tamaño de las muestras y el método de elección de las muestras. Se debe ver las distribuciones muéstrales de x y S 2 como el mecanismo a partir del cual haremos finalmente inferencias de los parámetros µ y σ 2. Cuando las muestras son lo suficientemente grandes, se pueden hacer inferencias analíticas bastante extensas, con pocos y simples recursos, en comparación con técnicas más refinadas de la Estadística. Esto es conveniente desde un punto de vista didáctico. La Teoría del muestreo es el estudio de las relaciones entre una población y las muestras que se extraen de ella. Del análisis de las muestras se pueden estimar o inferir datos de la población como su media (μ), varianza (σ2 ), etc., llamados parámetros poblacionales. Cuando la población sea finita y de un tamaño manejable en tiempo y costo, los valores poblacionales se calculan directamente, sin necesidad del muestreo.
67
UNIDAD I / ESTADISTICA DESCRIPTIVA.
Uno de los propósitos de la estadística inferencial es estimar las características poblacionales desconocidas, examinando la información obtenida de una muestra, de una población. El punto de interés es la muestra, la cual debe ser representativa de la población objeto de estudio. Se seguirán ciertos procedimientos de selección para asegurar de que las muestras reflejen observaciones a la población de la que proceden, ya que solo se pueden hacer observaciones probabilísticas sobre una población cuando se usan muestras representativas de la misma. Muestras Aleatorias Cuando nos interesa estudiar las características de poblaciones grandes, se utilizan muestras por muchas razones; una enumeración completa de la población, llamada censo, puede ser económicamente imposible, o no se cuenta con el tiempo suficiente. A continuación se verá algunos usos del muestreo en diversos campos: 1. Política. Las muestras de las opiniones de los votantes se usan para que los candidatos midan la opinión pública y el apoyo en las elecciones. 2. Educación. Las muestras de las calificaciones de los exámenes de estudiantes se usan para determinar la eficiencia de una técnica o programa de enseñanza. 3. Industria. Muestras de los productos de una línea de ensamble sirve para controlar la calidad. 4. Medicina. Muestras de medidas de azúcar en la sangre de pacientes diabéticos prueban la eficacia de una técnica o de un fármaco nuevo. 5. Agricultura. Las muestras del maíz cosechado en una parcela proyectan en la producción los efectos de un fertilizante nuevo. 6. Gobierno. Una muestra de opiniones de los votantes se usaría para determinar los criterios del público sobre cuestiones relacionadas con el bienestar y la seguridad nacional. Tipos de distribuciones muéstrales:
64
•
Distribución muestral de la media con varianza conocida.
•
Distribución muestral de diferencia de medias.
•
Distribución muestral de proporción.
•
Distribución muestral de diferencia de proporciones.
•
Distribución muestral de varianza.
•
Distribución muestral de razón de varianza.
UNIDAD 2
PROBABILIDAD
Objetivo: Conocerá los conceptos básicos de probabilidad para aplicarlos en la solución de Problemas.
UNIDAD II / PROBABILIDAD.
2.1 Teoría elemental de probabilidad. La Teoría de la Probabilidad constituye la base o fundamento de la Estadística, ya que las inferencias que hagamos sobre la población o poblaciones en estudio se moverán dentro de unos márgenes de error controlado, el cual será medido en términos de probabilidad. Así pues, es común y corriente hablar de la probabilidad de un suceso, entendiendo como tal un número entre 0 y 1, de forma que si éste es cercano a 0 (a l), el suceso tiene poca (mucha) probabilidad de ocurrir o haber ocurrido. Vemos, pues, que conviene precisar en cada caso de qué se está hablando, tratando de evitar afirmaciones tan comunes en los medios de comunicación como la de "... mañana es posible que llueva pero no es probable...".
2.1.1 Concepto clásico y como frecuencia relativa. ⎧Enfoqueclasicoo ⎪ apriori ⎪⎪ Concepto⎨
⎪Enfoquecomofrecuenciarelativao ⎪ ⎪⎩ a p o s t e r i o r i
Concepto clásico Está basado en el concepto de resultados igualmente verosímiles y motivado por el denominado Principio de la Razón Insuficiente, el cual postula que si no existe un fundamento para preferir
una entre varias posibilidades, todas deben ser consideradas equiprobables. Así, en el lanzamiento de una moneda perfecta la probabilidad de cara debe ser igual que la de cruz y, por tanto, ambas iguales a 1/2. De la misma manera, la probabilidad de cada uno de los seis sucesos elementales asociados al lanzamiento de un dado debe ser 1/6. Laplace recogió esta idea y formuló la regla clásica del cociente entre casos favorables y casos posibles, supuestos éstos igualmente verosímiles.
70
El problema aquí surge porque en definitiva igualmente verosímil es lo mismo que igualmente probable, es decir, se justifica la premisa con el resultado. Además ¿qué ocurre
UNIDAD II / PROBABILIDAD.
cuando estamos considerando un experimento donde no se da esa simetría?, o, ¿ qué hacer cuando el número de resultados posibles es infinito?. Si un suceso E puede ocurrir en h maneras diferentes de un número total de n maneras posibles, todos igualmente factibles. Entonces la probabilidad de que ocurra E (o sea un éxito) se denota por p = Pr { E }= h / n La probabilidad de que no ocurra E (o sea un fracaso) se denota por q = Pr { no E } q = ( n – h ) / n q = 1 – h /n q = 1 - p q = 1 - Pr { E } Así pues, p + q = 1 , es decir, Pr { E } + Pr {no E } = 1. El suceso “ no E “ se denotara por E.
Ejemplo: sea e el suceso de que al tirar un dado una vez salga un 3 o un 4. Hay seis formas de caer el dado, dando 1, 2, 3, 4, 5, o 6, como E puede ocurrir de dos formas tenemos: p = Pr { E }= 2/6 = 1/3
La probabilidad de que no salga ni 3 ni 4 es: q = Pr { no E }= 1 – 1/3 = 2/3
Concepto frecuentista Es un hecho, empíricamente comprobado, que la frecuencia relativa de un suceso tiende a estabilizarse cuando la frecuencia total aumenta. Surge así el concepto frecuentista de la probabilidad de un suceso como un número ideal al que converge su frecuencia relativa cuando la frecuencia total tiende a infinito.
72
UNIDAD II / PROBABILIDAD.
Así, solemos afirmar que la probabilidad de que salga un seis al tirar un dado es 1/6 porque al hacer un gran número de tiradas su frecuencia relativa es aproximadamente esa. El problema radica en que al no poder repetir la experiencia infinitas veces, la probabilidad de un suceso ha de ser aproximada por su frecuencia relativa para un n suficientemente grande, y ¿cuán grande es un n grande? 0, ¿qué hacer con aquellas experiencias que solo se pueden repetir una vez? Si después de n repeticiones de un experimento, donde n es muy grande, un suceso ocurre h veces entonces la probabilidad del suceso es h / n. Esto también se llama la probabilidad estimada o empírica, de un suceso se toma como la frecuencia relati va de ocurrencia del suceso cuando el número de observaciones es muy grande. Ejemplo: Si en 1000 tiradas de una moneda salen 529 caras, la frecuencia relativa de caras es: 529/1000 = 0.529 Definición formal de Probabilidad Los anteriores conceptos de lo que debería ser la probabilidad de un suceso, llevaron a Kolmogorov a dar una definición axiomática de probabilidad. Es decir, a introducir rigor matemático en el concepto de probabilidad, de forma que se pudiera desarrollar una teoría sólida sobre el concepto definido. Así, llamaremos probabilidad a una aplicación
P : A [0,1] Tal que: Axioma 1: Para todo suceso A de A sea P ( A)≥ 0 Axioma 2: Sea P(Ω) = 1
Axioma 3: Para toda colección de sucesos incompatibles,{ Ai } con Ai ∩ A j =φ i ≠ j , debe ser
⎛∞
⎞
∞
∑
P ⎜⎜ Ai ⎟⎟= P ( ) Ai
⎝ i=1
⎠
i=1
73
UNIDAD II / PROBABILIDAD.
Obsérvese que esta definición no dice cómo asignar las probabilidades ni siquiera a los sucesos elementales. Solo dice que cualquier asignación que hagamos debe verificar estos tres axiomas para que pueda llamarse Probabilidad .
2.1.2 Interpretación subjetiva de la probabilidad. Concepto subjetivo Se basa en la idea de que la probabilidad que una persona da a un suceso debe depender de su juicio y experiencia personal, pudiendo dar dos personas distintas probabilidades diferentes a un mismo suceso. Estas ideas pueden formalizarse, y si las opiniones de una persona satisfacen ciertas relaciones de consistencia, puede llegarse a definir una probabilidad para los sucesos. El principal problema a que da lugar esta definición es, como antes dijimos, que dos personas diferentes pueden dar probabilidades diferentes a un mismo suceso. La probabilidad subjetiva de un evento se la asigna la persona que hace el estudio, y depende del conocimiento que esta persona tenga sobre el tema. Precisamente por su carácter de subjetividad no se considera con validez científica, aunque en la vida diaria es de las más comunes que se utilizan al no apoyarse más que en el sentido común y los conocimientos previos, y no en resultados estadísticos.
2.2 Probabilidad de eventos. 2.2.1 Definición de espacio muestral. La Estadística, y por tanto el Cálculo de Probabilidades, se ocupan de los denominados fenómenos o experimentos aleatorios. El conjunto de todos los resultados posibles diferentes de
un determinado experimento aleatorio se denomina Espacio Muestral asociado a dicho experimento y se suele representar por Ω. A los elementos de Ω se les denomina sucesos elementales.
Así por ejemplo, el espacio muestral asociado al experimento aleatorio consistente en el lanzamiento de una moneda es Ω = {Cara, Cruz}; el espacio muestral asociado al lanzamiento de un dado es Ω={1, 2, 3, 4, 5, 6}, siendo Cara y Cruz los sucesos elementales asocia dos al
primer experimento aleatorio y 1, 2, 3, 4, 5 y 6 los seis sucesos elementales del segundo experimento aleatorio.
74
UNIDAD II / PROBABILIDAD.
A pesar de la interpretación que tiene el espacio muestral, no es más que un conjunto abstracto de puntos (los sucesos elementales), por lo que el lenguaje, los conceptos y propiedades de la teoría de conjuntos constituyen un contexto natural en el que desarrollar el Cálculo de Probabilidades. Sea A el conjunto de las partes de, es decir, el conjunto de todos los subconjuntos de Ω. E n principio, cualquier elemento de A, es decir, cualquier subconjunto del espacio muestral contendrá una cierta incertidumbre, por lo que trataremos de asignarle un número entre 0 y 1 como medida de su incertidumbre. En Cálculo de Probabilidades dichos subconjuntos reciben en el nombre de sucesos, siendo la medida de la incertidumbre su probabilidad. La tripleta (Ω, A,P ) recibe el nombre de espacio
probabilístico. Por tanto, asociado a todo experimento aleatorio existen tres conjuntos: El espacio muestral , la clase de los sucesos, es decir, el conjunto de los elementos con incertidumbre asociados a nuestro experimento aleatorio A, y una función real,
P : A[0,1] La cual asignará a cada suceso (elemento de A) un número entre cero y uno como medida de su incertidumbre. Advertimos no obstante, que la elección del espacio muestral asociado a un experimento aleatorio no tiene por qué ser única, sino que dependerá de que sucesos elementales queramos considerar como distintos y del problema de la asignación de la probabilidad sobre esos sucesos elementales. Problema: Liste los elementos de cada uno de los espacios muéstrales siguientes: a)
El conjunto de enteros entre 1 y 50 divisibles entre 8
b)
El conjunto S = {x | x 2 + 4x – 5 = 0}
c)
Describir un espacio muestral para una tirada de un par de dados Solución:
a)
S = {8, 16, 24, 32, 40, 48 };
b)
S = {-5, 1}
75
UNIDAD II / PROBABILIDAD.
c) (1,6) (2,6) (1,5) (2,5) (1,4) (2,4) (1,3) (2,3) (1,2) (2,2) (1,1) (2,1)
(3,6) (4,6) (5,6) (6,6) (4,5) (5,5) (6,5) (3,5) (4,4) (5,4) (6,4) (3,4) (4,3) (5,3) (6,3) (3,3) (4,2) (5,2) (6,2) (3,2) (4,1) (5,1) (6,1) (3,1)
2.2.2 Discreto y continuo. Modelos discretos: Obedecen a la generación de variables aleatorias discretas generalmente asociadas a la frecuencia de eventos. Modelos continuos que generalmente se usan en la modelación individual de los montos o pérdidas que de alguna u otra manera puedan afectar la caja de la empresa.
2.2.3 Definición de evento. Un evento es un subconjunto de un espacio muestral. La probabilidad de un evento A es igual a la suma de las probabilidades de los sucesos simples del evento A.
2.2.4 Diagramas de Venn. La relación entre eventos y el correspondiente espacio muestral se puede ilustras de forma grafica mediante diagramas de Venn. En un diagrama de Venn representamos el espacio muestral como un rectángulo y los eventos con círculos trazados dentro del rectángulo. Un universo U
puede representarse geométricamente por el conjunto de puntos dentro de un
rectángulo. Tales diagramas denominados diagramas de Venn, sirven para darnos una intuición geométrica respecto a las posibles relaciones entre conjuntos.
2.2.5 Simbología, uniones e intersecciones. La unión de dos eventos A y B es el evento que ocurre si A o B, o ambos, ocurren en una sola realización del experimento. Denotaremos la unión de los eventos A y B mediante el símbolo
A∪ B.
76
UNIDAD II / PROBABILIDAD.
Intersección: Dados dos conjuntos cualesquiera A y B llamamos "Intersección" de A y B al conjunto formado por todos los elementos que pertenecen a A y pertenecen a B. Simbólicamente: A∩ B
Diferencia: Dados dos conjuntos cualesquiera A y B llamamos "Diferencia" de A "menos" B al
conjunto formado por los elementos que pertenecen a A y no pertenecen a B. Simbólicamente: A - B
Complemento: Dados dos conjuntos cualesquiera A y B con B ⊂ A (B Subconjunto de A)
llamamos "Complemento de B respecto a A" al conjunto de elementos que pertenecen a A y no a B, esto es lo que le falta a B para ser igual a A. Simbólicamente: (A∪ B ) ‘
77
UNIDAD II / PROBABILIDAD.
2.3 Técnicas de conteo. ¿Qué son las técnicas de conteo?. Las técnicas de conteo son aquellas que son usadas
para enumerar eventos difíciles de cuantificar. Se les denomina técni cas de conteo a las combinaciones, permutaciones y diagrama de árbol, hay que destacar que éstas nos proporcionan la información de todas las maneras posibles en que ocurre un evento determinado. Las bases para entender el uso de las técnicas de conteo son el principio multiplicativo y el aditivo, los que a continuación se definen y se hace uso de ellos. Análisis combinatorio. En muchos casos el número de puntos muéstrales en un espacio muestral no es muy grande y así la enumeración o cuenta directa de los puntos del muestreo necesario para obtener las probabilidades no es difícil. Sin embargo, surgen problemas cuando la cuenta directa se convierte en una imposibilidad práctica. En tales casos se emplea el análisis combinatorio, que podría llamarse una forma sofisticada de contar. Principio aditivo. A menudo es más fácil calcular la probabilidad de algún evento a partir del conocimiento de las probabilidades de otros eventos. Esto puede ser cierto si el evento en cuestión se puede representar como la unión de otros dos eventos o como el complemento de algún evento. A continuación se presenta varias leyes importantes que con frecuencia simplifica el cálculo de probabilidades. La primera regla aditiva se aplica a uniones de eventos. Si se desea llevar a efecto una actividad, la cuál tiene formas alternativas para ser realizada, donde la primera de esas alternativas puede ser realizada de M maneras o formas, la segunda alternativa puede realizarse de N maneras o formas ..... y la última de las alternativas puede ser realizada de W maneras o formas, entonces esa actividad puede ser llevada a cabo de, M + N + .........+ W maneras o formas Problema: Una persona desea comprar una lavadora de ropa, para lo cual ha pensado que puede seleccionar de entre las marcas Whirpool, Easy y General Electric, cuando acude a hacer la compra se encuentra que la lavadora de la marca W se presenta en dos tipos de carga ( 8 u
78
UNIDAD II / PROBABILIDAD.
11 kilogramos), en cuatro colores diferentes y puede ser automática o se miautomática, mientras que la lavadora de la marca E, se presenta en tres tipos de carga (8, 11 o 15 ki logramos), en dos colores diferentes y puede ser automática o semiautomática y la lavadora de la marca GE, se presenta en solo un tipo de carga, que es de 11 kilogramos, dos colores diferentes y solo hay semiautomática. ¿Cuántas maneras tiene esta persona de comprar una lavadora? Solución: M = Número de maneras de seleccionar una lavadora Whirpool N = Número de maneras de seleccionar una lavadora de la marca Easy W = Número de maneras de seleccionar una lavadora de la marca General Electric M = 2 x 4 x 2 = 16 maneras N = 3 x 2 x 2 = 12 maneras W = 1 x 2 x 1 = 2 maneras M + N + W = 16 + 12 + 2 = 30 maneras de seleccionar una lavadora Problema: Rafael Luna desea ir a las Vegas o a Disneylandia en las próximas vacaciones de verano, para ir a las Vegas él tiene tres medios de transporte para ir de Chihuahua al Paso Texas y dos medios de transporte para ir del Paso a las Vegas, mientras que para ir del paso a Disneylandia él tiene cuatro diferentes medios de transporte, a) ¿Cuántas maneras diferentes tiene Rafael de ir a las Vegas o a Disneylandia?, b) ¿Cuántas maneras tiene Rafael de ir a las Vegas o a Disneylandia en un viaje redondo, si no se regresa en el mismo medio de transporte en que se fue?. Solución: a) V = maneras de ir a las Vegas D = maneras de ir a Disneylandia V = 3 x 2 = 6 maneras D = 3 x 4 = 12 maneras V + D = 6 + 12 = 18 maneras de ir a las Vegas o a Disneylandia b) V = maneras de ir y regresar a las Vegas D = maneras de ir y regresar a Disneylandia V = 3 x 2 x 1 x 2 = 12 maneras D = 3 x 4 x 3 x 2 = 72 maneras
79
UNIDAD II / PROBABILIDAD.
V + D = 12 + 72 = 84 maneras de ir a las Vegas o a Disneylandia en un viaje redondo ¿Cómo podemos distinguir cuando hacer uso del principio multiplicativo y cuando del aditivo? Es muy simple, cuando se trata de una sola actividad, la cual requiere para ser llevada a efecto de una serie de pasos, entonces haremos uso del principio multiplicativo y si la actividad a desarrollar o a ser efectuada tiene alternativas para ser llevada a cabo, haremos uso del principio aditivo. Principio multiplicativo. Si se desea realizar una actividad que consta de r pasos, en donde el primer paso de la actividad a realizar puede ser llevado a cabo de N1 maneras o formas, el segundo paso de N2 maneras o formas y el r-ésimo paso de Nr maneras o formas, entonces esta actividad puede ser llevada a efecto de; N 1 x N 2 x ..........x N r maneras o formas
El principio multiplicativo implica que cada uno de los pasos de la actividad debe ser llevado a efecto, uno tras otro. Problema: ¿Cuántas placas para automóvil pueden ser diseñadas si deben constar de tres letras seguidas de cuatro números, si las letras deben ser tomadas del abecedario y los números de entre los dígitos del 0 al 9?, a) Si es posible repetir letras y números, b) No es posible repetir letras y números, c) Cuántas de las placas diseñadas en el inciso b empiezan por la letra D y empiezan por el cero, d) Cuantas de las placas diseñadas en el inciso b empiezan por la letra D seguida de la G. Solución: Considerando 26 letras del abecedario y los dígitos del 0 al 9 a) 26 x 26 x 26 x 10 x 10 x 10 x 10 = 175,760,000 placas para automóvil. b) 26 x 25 x 24 x 10 x 9 x 8 x 7 = 78,624,000 placas para automóvil c) 1 x 25 x 24 x 1 x 9 x 8 x 7 = 302,400 placas para automóvil d) 1 x 1 x 24 x 10 x 9 x 8 x 7 = 120,960 placas para automóvil
80
UNIDAD II / PROBABILIDAD.
Problema: ¿Cuántos números telefónicos es posible diseñar, los que deben constar de seis dígitos tomados del 0 al 9?, a) Considere que el cero no puede ir al inicio de los números y es posible repetir dígitos, b) El cero no debe ir en la primera posición y no es posible repetir dígitos, c) ¿Cuántos de los números telefónicos del inciso b empiezan por el número siete?, d) ¿Cuántos de los números telefónicos del inciso b forman un número impar?. Solución: a)
9 x 10 x 10 x 10 x 10 x 10 = 900,000 números telefónicos
b)
9 x 9 x 8 x 7 x 6 x 5 = 136,080 números telefónicos
c)
1 x 9 x 8 x 7 x 6 x 5 = 15,120 números telefónicos
d)
8 x 8 x 7 x 6 x 5 x 5 = 67,200 números telefónicos
Problema: En una ciudad los números de teléfono constan de 5 dígitos, cada uno de los cuales se llama con alguno de los 10 dígitos (0 al 9). ¿Cuántos números diferentes pueden formularse? Solución: 10 x 10 x 10 x 10 x 10 = 100,000 números diferentes
2.3.1 Diagrama de árbol. Problema: Suponga que una persona tiene 2 formas de ir de una ciudad A a otra ciudad B; y una vez llegada a B, tiene 3 maneras de llegar a otra ciudad C, ¿De cuántas maneras podrá realizar el viaje de A a C pasando por B? Solución: Si empezó a pie, podrá tomar luego avión, carro o trasatlántico, y si empezó en bicicleta, también podrá tomar avión, carro o trasatlántico. La persona tuvo 6 f ormas diferentes de realizar el viaje que son: (iniciales) pa, pc, pt, ba, bc, bt. (2 x 3 = 6)
Problema: Se va a conformar un comité de 3 miembros compuesto por un representante de los trabajadores, uno de la administración y uno del gobierno. Si hay 3 candidatos
de los
81
UNIDAD II / PROBABILIDAD.
trabajadores, 2 de la administración y 4 del gobierno, determinar cuántos comités diferentes pueden conformarse, empleando un diagrama de árbol
Problema: Un experimento consiste en lanzar una moneda y después lanzarla una segunda vez si sale cara. Si sale cruz en el primer lanzamiento, entonces se lanza un dado una vez. Para listar los elementos del espacio muestral que proporciones mayor información.
Problema: Suponga que se selecciona tres artículos de forma aleatoria de un proceso de fabricación. Cada articulo se inspecciona y clasifica como defectuoso, D, o sin defectos N.
82
UNIDAD II / PROBABILIDAD.
Problema: Un médico general clasifica a sus pacientes de acuerdo a: su sexo (masculino o femenino), tipo de sangre (A, B, AB u O) y en cuanto a la presión sanguínea (Normal, Alta o Baja). Mediante un diagrama de árbol diga en cuantas cl asificaciones pueden estar los pacientes de este médico?
Si contamos todas las ramas terminales, nos damos cuenta que el número de clasificaciones son 2 x 4 x 3 = 24 mismas que podemos enumerar; MAN, MAA, MAB, MBN, MBA, MBB, etc, etc. Problema: Un producto (por ejemplo, hardware para un sistema de computadoras) se puede embarcar a través de cuatro aerolíneas diferentes, y cada aerolínea puede transportar los embarques por tres rutas distintas. ¿Cuántas formas distintas de embarcar el producto existen?
83
UNIDAD II / PROBABILIDAD.
Problema: Dos equipos denominados A y B se disputan la final de un partido de baloncesto, aquel equipo que gane dos juegos seguidos o complete un total de tres juegos ganados será el que gane el torneo. Mediante un diagrama de árbol diga de cuantas maneras puede ser ganado este torneo, Solución: A = gana el equipo A; B = gana el equipo B
En este diagrama se muestran que hay solo diez maneras de que se gane el torneo, que se obtienen contando las ramas terminales de este diagrama de árbol, las que es posible enumerar; AA, ABB, ABAA, ABABA, ABABB, etc, etc.
2.3.2 Notación factorial. En algunos problemas de matemáticas se nos presentan multiplicaciones de números naturales sucesivos tal como:
84
UNIDAD II / PROBABILIDAD.
4 x 3 x 2 x 1 = 24;
3 x 2 x 1 = 6;
2 x 1 = 2.
Para abreviar estas expresiones, se usa una notación especial llamada notación factorial y nos denota las multiplicaciones sucesivas de n hasta l y se define como: 4 x 3 x 2 x 1 = 4! 3 x 2 x 1 = 3!
Se lee“cuatro factorial ”
Se lee “tres factorial ”
En términos generales: n(n-1)(n-2)...x 2 x 1 = n! Se lee “n factorial ” Propiedades:
a)
para n natural n! = n(n-1)!
Ejemplo: 7! = 7 x 6! = 7 x 6 x 5 x 4! 0! = 1 5! = 5 x 4 x 3 x 2 x 1 = 120 4! 3! = (24)(6) = 144
8! 8 7 6 5! x x x = = 336 5! 5! 10!8! 10 9! 8 7 6! x x x x
= 9!6!
= 560 9! 6! x
Cuando n es demasiado grande se suele utilizar la fórmula de Stirling:
85
UNIDAD II / PROBABILIDAD.
n!≅ 2πn n e* n. −n
2.3.3 Permutación. Una permutación es un arreglo de todo o parte de un conjunto de objetos, el cual tiene una disposición de elementos en un orden especifico. Es todo arreglo de elementos en donde nos interesa el lugar o posición que ocupa cada uno de los el ementos que constituyen dicho arreglo. Teorema : Dado un conjunto de n elementos claramente distintos, se desea seleccionar r elementos de los n y acomodarlos dentro de r posiciones. El número de permutaciones diferentes de los n elementos tomados r a la vez se denota por : n P r y es igual
n Pr =
n ( n – 1 ) (n – 2 ) . . . ( n – r + 1 ) n!
P r =
n
(n−r )!
para este caso particular r = n se convierte en: n P n =
n ( n – 1 ) (n – 2 ) . . . 1 = n !
donde n ! = n (n – 1 ) (n – 2 ) . . . (3)(2)(1) y se llama n factorial. Esta fórmula nos permitirá obtener todos aquellos arreglos en donde el orden es importante y solo se usen parte (r) de los n objetos con que se cuenta, además hay que hacer notar que no se pueden repetir objetos dentro del arreglo, esto es, los n objetos son todos diferentes.
La demostración del teorema anterior es : hay n formas de ocupar la primera posición. Una vez que se ocupa, hay n – 1 formas de ocupar la segunda, n – 2 formas de ocupar la tercera, . . . , y (n – r + 1 ) formas de ocupar la n-ésima posición. Aplicaremos la regla de multiplicativa para obtener n! P nr
=(
)(n n −1)(n − 2) (... n − r +1)= (n − r ) 86
UNIDAD II / PROBABILIDAD.
Problema: Hallar: a) 8 P 3 b) 6 P 4
c) 15 P 1
d) 3 P 3
Solución a) 336 b) 360 c) 15 d) 6 Problema: El numero de ordenaciones o permutaciones diferentes que consisten de 3 letras cada una y que puede formarse de las 7 letras A, B , C, D, E, F, G, es n = 7 & r = 3 7P3 = 210 Problema: Se quieren sentar 5 hombres y 4 mujeres en una fila de modo que las mujeres ocupen los sitios pares ¿de cuantas formas pueden sentarse? Solución: ( 5 P 5 ) ( 4 P 4 ) = 2880 formas Problema: ¿Cuantas representaciones diferentes serán posibles formar, si se desea que consten de Presidente, Secretario, Tesorero, Primer Vocal y Segundo Vocal?, sí esta representación puede ser formada de entre 25 miembros del sindicato de una pequeña empresa. Solución: Por principio multiplicativo: 25 x 24 x 23 x 22 x 21 = 6,375,600 maneras Por Fórmula: n = 25, r=5 25P5 = 25!/ (25 –5)! = 25! / 20! = (25 x 24 x 23 x 22 x 21 x....x 1) / (20 x 19 x 18 x ... x 1) = 6,375,600 maneras de formar la representación Problema: a) ¿Cuántas maneras diferentes hay de asignar las posiciones de salida de 8 autos que participan en una carrera de fórmula uno? (Considere que las posiciones de salida de los autos participantes en la carrera son dadas totalmente al azar)
87
UNIDAD II / PROBABILIDAD.
b) ¿Cuántas maneras diferentes hay de asignar los primeros tres premios de esta carrera de fórmula uno? Solución: Por principio multiplicativo: 8 x 7 x 6 x 5 x 4 x 3 x 2 x 1= 40,320 maneras de asignar las posiciones de salida de los autos participantes en la carrera Por Fórmula: n = 8, r = 8 8P8=
8! = 8 x 7 x 6 x 5 x 4 x......x 1= 40,320 maneras de asignar las posiciones de salida
......etc., etc. a) Por principio multiplicativo: 8 x 7 x 6 = 336 maneras de asignar los tres primeros lugares de la carrera Por fórmula: n =8, r = 3 8P3 =
8! / (8 – 3)! = 8! / 5! = (8 x 7 x 6 x 5 x ........x1)/ (5 x 4 x 3 x......x1) = 336 maneras de asignar
los tres primeros lugares de la carrera Problema: ¿Cuántos puntos de tres coordenadas ( x, y, z ), será posible generar con los dígitos 0, 1, 2, 4, 6 y 9?, Si, a) No es posible repetir dígitos, b) Es posible repetir dígitos.
88
UNIDAD II / PROBABILIDAD.
Solución: a) Por fórmula n = 6,
r=3
6P3 =
6! / (6 – 3)! = 6! / 3! = 6 x 5 x 4 x 3! / 3! = 6 x 5 x 4 = 120 puntos posibles Nota:
este inciso también puede ser resuelto por el principio multiplicativo b) Por el principio multiplicativo 6 x 6 x 6 = 216 puntos posibles Problema: De cuántas maneras 3 fresadoras, 4 tornos, 4 taladros y 2 cepillos pueden ordenarse en fila en un taller, de modo que el mismo tipo de máquina quede juntas. 3F
4T
4T
2C
P3 = 3!
P4 = 4!
P4 = 4!
P2 = 2!
P4 = 4! 3! (4!) (4!) (2!) (4!) = 165888 Problema: Cuatro libros distintos de matemáticas, seis diferentes de física y dos diferentes de química se colocan en un estante. ¿De cuantas formas distintas es posible ordenarlos si a) los libros de cada asignatura deben estar todos juntos, b) solamente los libros de matemáticas deben estar juntos? Solución a) (4 P 4 ) (6 P 6 ) ( 2 P 2 ) ( 3 P 3 ) = 207360 b) (9 P 9 ) (4 P 4 ) = 8709120 Problema: Se sacan dos billetes de lotería de 20 para un primer y un segundo premios. Encuentre el número de puntos muéstrales en el espacio S Solución: 20 P 2 = 380
89
UNIDAD II / PROBABILIDAD.
Problema: ¿De cuantas formas puede una organización local de la sociedad americana de química programar a tres conferencistas para tres reuniones diferentes si todos están disponibles en cualquiera de cinco fechas posibles? Solución: 5 P 3 = 60 Problema: El testigo de un accidente, en el que el causante se dio a la fuga, le dijo a la policía que el numero de placas tenias las letras RLH seguidas de tres dígitos, el primero de los cuales era un 5. si el testigo no puede recordar los dos últimos dígitos, pero está seguro que todos los dígitos eran diferentes , encuentre el número máximo de registros de automóviles que la policía tendrá que revisar. Solución: 9 P 2 = 72 Problema: En una carrera de coches (50 coches) queremos saber el número de formas distintas en que se pueden repartir los premios (primero, segundo y tercer lugar) Solución: 50 P 3 = 117600 Problema: Alguien desea colocar 6 cuadros en línea recta sobre la pared de una biblioteca. ¿De cuantas maneras diferentes lo pueden hacer? Solución: 6P6 = 720 Problema: ¿De cuantas maneras pueden 10 personas sentarse en una banca si solo hay 4 puestos disponibles? Solución: 10P4 = 5040 Problemas propuestos: P1.- Un sistema de alarma de seguridad se activa y desactiva introduciendo el código numérico de tres dígitos apropiados en el orden correcto en un tablero digital. a) Calcule el número total de posibles combinaciones del código si ningún digito se puede utilizar dos veces. b) Calcule el numero total de posibles combinaciones del código si los dígitos se puede utilizar mas de una vez. Solución: a) 10 P 3 = 720 b) (10)(10)(10) = 1000 P2.- Se contrata un servicio de calificación de computadoras para encontrar las tres mejore marcas de monitores EGA. Se incluirá un total de 10 marcas en el estudio. ¿De cuantas formas distintas puede el servicio de calificación llegar al ordenamiento final?
90
UNIDAD II / PROBABILIDAD.
Solución: 10 P 3 = 720 P3.- en una carrera de coches (50 coches) queremos saber el número de formas distintas en que se pueden repartir los premios (primero, segundo y tercer lugar) Solución: 50 P 3 = 117600 P4.- Alguien desea colocar 6 cuadros en línea recta sobre la pared de una biblioteca. ¿De cuantas maneras diferentes lo pueden hacer? Solución: 6P6 = 720 P5.- ¿De cuantas maneras pueden 10 personas sentarse en una banca si solo hay 4 puestos disponibles? Solución: 10P4 = 5040 Permutaciones con repeticiones. Las permutaciones que ocurren al arreglar objetos en un círculo se llaman permutaciones circulares. Dos permutaciones circulares no se consideran diferentes a menos que los objetos correspondientes en los dos arreglos estén precedidos o seguidos por un objeto diferente conforme recorramos en la dirección de las manecillas del reloj. Teorema: 2 de
El numero de permutaciones distintas de n cosas de las que n 1 son de una clase, n
una segunda clase , ... , n k de una k – esima n!
P n n1,n2,...,nk
= n1!,n2!,...,nk !
Problemas: Obtenga todas las señales posibles que se pueden diseñar con seis banderines, dos de los cuales son rojos, tres son verdes y uno morado. Solución: n = 6 banderines; x1 = 2 banderines rojos; x 2 = 3 banderines verdes; x3 = 1 banderín morado 6P2,3,1 =
6! / 2!3!1! = 60 señales diferentes
Problema: a) ¿Cuántas claves de acceso a una computadora será posible diseñar con los números 1,1,1,2,3,3,3,3?, b) ¿cuántas de las claves anteriores empiezan por un número uno seguido de un dos?,
91
UNIDAD II / PROBABILIDAD.
c) ¿cuántas de las claves del inciso a empiezan por el número dos y terminan por el número tres? Solución: a)
n = 8 números;
x1 = 3 números uno;
x2 = 1 número dos;
8P3,1,4 =
8! / 3!1!4! = 280 claves de acceso
b)
n = 6 (se excluye un número uno y un dos);
x3 = 4 números cuatro
x1 = 2 números uno;
x2 = 4 números
tres 1 x 1 x 6P2,4 = 1 x 1 x 6! / 2!4! = 15 claves de acceso El primer número uno nos indica el número de maneras cómo es posible colocar en la primera posición de la clave de acceso un número uno, debido a que todos los números uno son iguales, entonces tenemos una sola manera de seleccionar un número uno para la primera posición, el siguiente número uno nos indica el número de maneras como se colocaría en la segunda posición el número dos y la expresión siguiente nos indica todos los arreglos posibles que es posible diseñar con los números restantes. c)
n = 6 (se excluye un número dos y un tres);
x1 = 3 números uno;
x2 = 3 números
tres 1 x 6P3,3 x1 = 1 x 6! / 3!3! = 20 claves de acceso El número uno inicial nos indica que existe una sola manera de seleccionar el número dos que va en la primera posición del arreglo, mientras que el número uno final nos indica que hay una sola manera de seleccionar el número tres que va al final del arreglo aún y cuando haya cuatro números tres, como estos son iguales al diseñar una permutación es indistinto cuál número tres se ponga, ya que siempre se tendrá el mismo arreglo y la expresión intermedia nos indica todos los arreglos posibles a realizar con los números restantes. Problema: ¿De cuántas maneras es posible plantar en una línea divisoria de un terreno dos nogales, cuatro manzanos y tres ciruelos? Solución: n = 9 árboles; x1 = 2 nogales; x2 = 4 manzanos; x3 = 3 ciruelos 9P2,4,3 =
9! / 2!4!3! = 1260 maneras de plantar los árboles
Problema: Si un equipo de fútbol soccer femenil participa en 12 juegos en una temporada, ¿cuántas maneras hay de que entre esos doce juegos en que participa, obtenga 7 victorias, 3 empates y 2 juegos perdidos?
92
UNIDAD II / PROBABILIDAD.
Solución: n = 12 juegos; x1 = 7 victorias; x2 = 3 empates; x3 = 2 juegos perdidos 12P7,3,2 =
12! / 7!3!2! = 7,920 maneras de que en la temporada este equipo logre siete
victorias, tres empates y dos juegos perdidos. Problema: De cuantas formas diferentes se pueden arreglar 3 focos rojos, 4 amarillos, y 2 azules en una serie de luces navideñas con 9 portalámparas? Solución:
=1260 Problema: Usted cuanta con 12 analista de sistemas y desea asignar tres al trabajo 1, cuatro al trabajo 2 y cinco al trabajo 3. ¿De cuantas formas distintas puede efectuar esta asignación? Solución: n1 = 3, n2 = 4, n3 = 5
= 27720 Problema: ¿Cuantas muestras de 4 juntas unidades por soldadura blanda de estaño-plomo se pueden seleccionar de un lote de 25 juntas de este tipo que están disponibles para pruebas de resistencia?
=12650
Pruebas ordenadas Se le llama prueba ordenada al hecho de seleccionar r objetos de entre n objetos contenidos en una urna uno tras otro. Una prueba ordenada puede ser llevada a efecto de dos maneras: a) Con sustitución (con reemplazo).- En este caso se procede a seleccionar el primer objeto de entre los n que hay, se observa de qué tipo es y se procede a regresarlo a la urna, luego se selecciona el siguiente objeto, lo anterior se repite hasta que se han extraído los r objetos de la prueba, por tanto el número de pruebas ordenadas de con sustitución se obtiene: Número total de pruebas ordenadas con sustitución = n x n x n x .........x n = nr
93
UNIDAD II / PROBABILIDAD.
Hay n maneras de seleccionar el primer objeto, luego al seleccionar el segundo objeto, dado que se ha regresado a la urna el primer objeto, también se tendrán n objetos y así sucesivamente. b) Sin sustitución (sin reemplazo).- En este caso se procede a seleccionar el primer objeto, el cual no es regresado a la urna, luego se selecciona el segundo objeto, lo anterior se repite hasta completar los r objetos de la prueba, por lo que el número total de pruebas ordenadas sin sustitución se obtiene: Número total de pruebas ordenadas sin sustitución = n(n-1)(n-2).........(n-r +1) = nPr Hay n maneras de seleccionar el primer objeto, luego al seleccionar el segundo objeto, hay n –1 maneras, dado que el primer objeto no se regresa a la urna, luego cuando se extrae el r-ésimo objeto, hay (n –r +1) de que sea seleccionado. Problema: ¿Cuántas maneras hay de que se asignen tres premios de un sorteo en donde el primer premio es una departamento, el segundo premio es un auto y el tercer premio es un centro de cómputo, si los participantes en este sorteo son 120 personas, a) sí la asignación se puede hacer con sustitución, b) sí la asignación se puede hacer sin sustitución. Solución: a) Por principio multiplicativo: 120 x 120 x 120 = 1,728,000 maneras de asignar los premios Por fórmula: n =120,
r = 120
nr = 1203 = 1,728,000 maneras de asignar los tres premios b) Por principio multiplicativo: 120 x 119 x 118 = 1,685,040 maneras de asignar los premios Por fórmula: n = 120, 120P3 =
r=3
120! / (120 – 3)! = 120! / 117! = 120 x 119 x 118 = 1,685,040 maneras de asignar los
premios Hay que hacer notar que en este caso, como los boletos que son seleccionados ya no regresan a la urna de donde fueron extraídos, los participantes solo pueden recibir un premio en caso de que fueran de los afortunados. Esta es la forma en que generalmente se efectúa un sorteo.
94
UNIDAD II / PROBABILIDAD.
Problema: ¿Cuántas formas hay de asignar las primeras c inco posiciones de una carrera de autos de fórmula K, si participan 26 autos en esta carrera?. Considere que la asignación es totalmente al azar. Solución: Esta asignación debe ser sin sustitución, esto es, se trata de una prueba ordenada sin sustitución, por lo que la solución es la que se muestra. n = 26, 26P5 =
r=5
26! / (26 – 5)! = 26! / 21! = 26 x 25 x 24 x 23 x 22 = 7,893,600 maneras de asignar las cinco
primeras posiciones de salida Problema: ¿Cuántas formas hay de asignar el orden de participación de las primeras 5 concursantes de 11 finalistas de un concurso de Miss Mundo? Solución: Esta asignación debe realizarse sin sustitución, por lo que se trata de una prueba ordenada sin sustitución. n = 11, r = 5 11P5 =
11! / (11 – 5)! = 11! / 6! = 11 x 10 x 9 x 8 x 7 = 55,440 maneras de asignar la participación
2.3.4 Combinaciones. Como ya se mencionó anteriormente, una combinación, es un arreglo de el ementos en donde no nos interesa el lugar o posición que ocupan los mismos dentro del arreglo. En una combinación nos interesa formar grupos y el contenido de los mismos.
95
UNIDAD II / PROBABILIDAD.
Teorema Se desea escoger una muestra de r elementos de un conjunto de n elementos. Entonces, el numero de muestras distintas de r elementos que se pueden escoger de n se denota por
( ) nr
y es igual n!
⎛⎜⎜nr ⎞⎟⎟⎠ =
C r =r !(n−r )! ⎝
n
Observe que el orden en que se extraen los r elementos no es importante. Demostración del teorema: La selección de una muestra de r elementos de un conjunto de n elementos equivale a dividir los n elementos entre k = 2 grupos: los r que se escogen para la muestra y los ( n – r ) restantes que no se seleccionan. Por tanto, al aplicar el teorema obtenemos:
n! C r =
⎛n⎞
n
⎜⎜⎝r ⎟⎟⎠ =
r !(n−r )!
Problema: Hallar el valor de a) 7 C4
b) 6 C 5
c) 4 C 4
Solución: a)
7! 7
C 4 =
= 35 4!(7 − 4)!
b) 6! C
5!(6 − 5)! 65
=
=6
c)
4! C
96
UNIDAD II / PROBABILIDAD.
4
4
=
=1
4!(4 − 4)! Problema: E l número de maneras en las cuales 3 cartas pueden escogerse o seleccionarse de un total de 8 cartas diferentes es: Solución:
8! C n
r
=
= 56 3!(8−3)!
Problema: De cuatro químicos y tres físicos encuentre el número de comités que se pueden formar que consistan en dos químicos y un físico. Solución: Químico 4 C 2;
Físico 3 C 1
⎛
4!
⎞⎛
3!
⎞
(4 2C )(3 1C )=⎜⎝ 2!(4−2)!⎟⎜⎠⎝1!(3 1)!−⎟⎠= ( )( )63 =18 Problema: Se contrataran cinco ingenieros de ventas de entre un grupo de 100 solicitantes. ¿De cuantas formas (combinaciones) podemos seleccionar grupos de cinco ingenieros de ventas? Solución: 100 C 5 = 75, 287,520 Problema: a) Si se cuenta con 14 alumnos que desean colaborar en una campaña pro limpieza del Tec, cuantos grupos de limpieza podrán formarse si se desea que consten de 5 alumnos cada uno de ellos, b) si entre los 14 alumnos hay 8 mujeres, ¿cuantos de los grupos de limpieza tendrán a 3 mujeres?, c) ¿cuántos de los grupos de limpieza contarán con 4 hombres por lo menos? Solución: a) n = 14, r = 5 14C5 =
2002 grupos
b) n = 14 (8 mujeres y 6 hombres), 8C3*6C2 =
r=5
840
97
UNIDAD II / PROBABILIDAD.
c) En este caso nos interesan grupos en donde haya 4 hombres o más 6C4* 8C1
+
6C5* 8C0
= 15 x 8 + 6 x 1 = 120 + 6 = 126
Problema: Para contestar un examen un alumno debe contestar 9 de 12 preguntas, a) ¿Cuántas maneras tiene el alumno de seleccionar las 9 preguntas?, b) ¿Cuántas maneras tiene si forzosamente debe contestar las 2 primeras preguntas?, c) ¿Cuántas maneras tiene si debe contestar una de las 3 primeras preguntas?, d) ¿Cuántas maneras tiene si debe contestar como máximo una de las 3 primeras preguntas? Solución: a)
n = 12,
12C9
r=9
= 220 maneras de seleccionar las nueve preguntas o dicho de otra manera,
el alumno puede seleccionar cualquiera de 220 grupos de 9 preguntas para contestar el examen b)
2C2* 10C7 =
1 x 120 = 120 maneras de seleccionar las 9 preguntas entre las que están
las dos primeras preguntas c)
3C1* 9C8 =
3 x 9 = 27 maneras de seleccionar la 9 preguntas entre las que está una de
las tres primeras preguntas d)
En este caso debe seleccionar 0 o 1 de las tres primeras preguntas
3C0* 9C9
+ 3C1* 9C8 = (1 x 1) + (3 x 9)
= 1 + 27 = 28 maneras de seleccionar las preguntas a contestar Problema. Una señora desea invitar a cenar a 5 de 11 amigos que tiene a) ¿Cuántas maneras tiene de invitarlos?, b) ¿cuántas maneras tiene si entre ellos está una pareja de recién casados y no asisten el uno sin el otro, c) ¿Cuántas maneras tiene de invitarlos si Rafael y Arturo no se llevan bien y no van juntos? Solución: a) n = 11, 11C5 =
r=5
462 maneras de invitarlos
Es decir que se pueden formar 462 grupos de cinco personas para ser invitadas a cenar. b) Esta señora tiene dos alternativas para hacer la invitación, la primera es no invitar a la pareja y la segunda es invitar a la pareja.
98
UNIDAD II / PROBABILIDAD.
2C0* 9C5
+
2C2* 9C3
= (1 x 126) + (1 x 84) = 210 maneras de invitarlos
En este caso separamos a la pareja de los demás invitados para que efectivamente se cumpla el que no asistan o que asistan a la cena. c) La señora tiene dos alternativas para hacer la invitación, una de ellas es que no invitar a Rafael y a Arturo o que asista solo uno de ellos. 2C0* 9C5
+
2C1* 9C4
= (1 x 126) +
(2 x 126)
= 126 + 252 = 378 maneras de hacer la invitación Problema: En un plano hay 10 puntos denominados A, B, C, ....,etc. etc., en una misma línea no hay más de dos puntos, a) ¿Cuántas líneas pueden ser trazadas a partir de los puntos?, b) ¿Cuántas de las líneas no pasan por los puntos A o B?, c) ¿Cuántos triángulos pueden ser trazados a partir de los puntos?, d) ¿Cuántos de los triángulos contienen el punto A?, e) ¿Cuántos de los triángulos tienen el lado AB?. Solución: a) Una línea puede ser trazada a partir de cómo mínimo dos puntos por lo tanto, C 10 2 = 10! / (10 – 2)!2! = 10! / 8!2! = 45 líneas que se pueden trazar b) En este caso excluiremos los puntos A y B y a partir de los ocho puntos restantes se obtendrán las líneas. 2C0* 8C2
= 1 x 28 = 28 líneas que no pasan por los puntos A o B
c) Un triángulo puede ser trazado a partir de tres puntos, luego; 10C3 = 10! / (10 – 3)!3! = 10! / 7!3! = 120 triángulos posibles de trazar d) En este caso se separa el punto A de los demás, se selecciona y posteriormente también se seleccionan dos puntos más. 1C1* 9C2 =
1 x 36 = 36 triángulos que contienen el punto A
e) Los puntos A y B forman parte de los triángulos a trazar por lo que; 2C2*8C1 =
1 X 8 = 8 triángulos que contienen el lado AB
Problema: De un total de 5 matemáticos y 7 físicos, se forma un comité de 2 matemáticos y
99
UNIDAD II / PROBABILIDAD.
3 físicos. ¿De cuantas formas puede formarse, si a) puede pertenecerá el cualquier matemático y físico, b) un físico determinado debe permanecer al comité, c) dos matemáticos determinados no pueden estar en el comité? a) 2 Mat. de un total de 5 5 C 2 3 Fis. de un total de 7 7 C 3 = (5 C 2) ( 7 C 3) = 350 b ) 2 Mat. de un total de 5 5 C 2 2 Fis. de un total de 6 6 C 2
= (5 C 2) (6 C 2) = 150
c) 2 Mat. de un total de 3 3 C 2 3 Fis. de un total de 7 7 C 3 = (3 C 2) (7 C 3) = 105 Problema: De cuantas formas pueden 10 objetos dividirse en dos grupos de 4 y 6 objetos respectivamente. Solución: (10 C 4) = 210 Problema: Cuantas manos diferentes de 5 naipes pueden darse con un mazo normal de 52 naipes, no importa el orden en que se reciban las cartas, lo que nos indica que se trata de una combinación. Solución: 52 C 5 = 2598960 Problema: Si 10 alumnos desean jugar baloncesto, ¿cuántos equipos diferentes pueden formarse con estos jugadores ? , uno de los muchachos se llama José. Solo se desea contar los equipos que incluyen a Jose Solución: 10 C 5 = 252 equipos diferentes El número de equipos que incluyen a José son:
9
C 4 = 126 Problema: ¿cuántas parejas distintas pueden formarse con cinco individuos? Solución: 5 C 2 = 10 Particiones ordenadas. Se le llama partición ordenada al hecho de repartir n objetos en células de una cantidad de x 1 objetos, x 2 objetos,......y x k objetos.
100
UNIDAD II / PROBABILIDAD.
Problema: ¿Cuántas maneras hay de repartir 10 libros diferentes entre tres alumnos, si al primero le daremos 2, al segundo 3 y el resto al tercer alumno? , esta partición serían las siguientes si se numeran los libros del 1 al 10; Solución: Lo primero que debemos hacer es seleccionar 2 libros de los 10 que se tienen para el primer alumno, esto es; 10C2 =
10! / (10 – 2)!2! = 10! / 8!2! = 45 maneras de seleccionar los libros
Luego se seleccionan 3 libros de los 8 que quedan para el segundo alumno; 8C3 = 8! / (8 – 3)!3! = 8! / 5!3! = 56 maneras Y por último se procederá a seleccionar cinco libros de los cinco que quedan para el tercer alumno, lo que se muestra a continuación; 5C5 =
5! / (5 –5)!5! = 5! / 0!5! = 1 manera
Por tanto el número total de particiones ordenadas en células de 2, 3 y 5 elementos se determina: 10C2* 8C3* 5C5 =
2520
La expresión anterior nos recuerda a la fórmula utilizada para encontrar las permutaciones de n objetos, entre los cuales hay algunos objetos que son iguales, por lo que usaremos la misma fórmula para encontrar las particiones ordenadas. Por tanto la fórmula para las particiones ordenadas sería: n! nPx1 ,x2..........,xk = x1!x2!.......xk ! Esta fórmula sólo puede ser utilizada cuando se reparten todos los objetos, no parte de ellos, en ese caso se usarán combinaciones. Donde: nPx1,x2,.....,xk = Total de particiones ordenadas o reparticiones que es posible hacer cuando los n objetos son repartidos en grupos de x 1 objetos, x 2 objetos ...... y x k objetos.
n = x1 + x2 + ......+ xk
Problema: ¿Cuántas maneras hay de repartir 9 juguetes entre tres niños, si se desea que al primer niño le toquen 4 juguetes, al segundo 2 y al tercero 3 juguetes?
101
UNIDAD II / PROBABILIDAD.
Solución: Por combinaciones, 9C4* 5C2* 3C3 =
126*10*1= 1260 maneras de repartir los juguetes
Por fórmula, n = 9; x1 = 4; x2 = 2; x3 =3 9P4,2,3 =
9! / 4!2!3! = 1,260 maneras de repartir los juguetes
Problema: ¿Cuántas maneras hay de repartir los mismos 9 juguetes entre tres niños, si se desea darle 3 al primer niño, 2 al segundo niño y 2 al tercer niño? Solución: En este caso únicamente se puede dar solución por combinaciones, ya que no es posible usar la fórmula debido a que se reparten solo parte de los juguetes. 9C3* 6C2* 4C2 =
84*15*6 = 7,560 maneras de repartir los juguetes (solo se reparten 7 y quedan
dos juguetes) Problema: a) ¿Cuántas maneras hay de que se repartan 14 libros diferentes entre 3 alumnos, si se pretende que al primer alumno y al segundo les toquen 5 libros a cada uno y al tercero le toque el resto?, b) ¿Cuántas maneras hay de que se repartan los libros si se desea dar 5 libros al primer alumno, 3 al segundo y 2 libros al tercer alumno? Solución: a) Por fórmula: n = 14 ; x1 = 5; x2 = 5; x3 = 4 14P5,5,4 =
14! / 5!5!4! = 21,021 maneras de repartir los libros en grupos de 5, 5 y 4 libros
b) Por combinaciones: 14C5* 9C3* 6C2 =
2,002*84*15 = 2,522,520 maneras de repartir 10 de los 14 libros en grupos de 5,
3 y 2 libros Problema: a) ¿Cuántas maneras hay de repartir a 12 alumnos en 4 equipos de 3 personas cada uno de ellos para que realicen prácticas de laboratorio diferentes?,
102
UNIDAD II / PROBABILIDAD.
b) ¿Cuantas maneras hay de que se repartan los 12 alumnos en 4 equipos de 3 personas si se va a realizar una misma práctica? Solución: a) En este caso al ser prácticas de laboratorio diferentes, es posible resolver el problema por combinaciones o por la fórmula, dado que se reparten todos los alumnos Por fórmula: n = 12; x1 = 3 práctica 1; x2 = 3 práctica 2; x3 = 3 práctica 3; x 4 = 3 práctica 4 12P3,3,3,3 = 12! / 3!3!3!3! = 369,600 maneras de repartir a los estudiantes en cuatro equipos de 3 personas para realizar prácticas diferentes b) 12P3,3,3,3 * 1 /4! = 12! / 3!3!3!3! * 1 / 4! = 369,600 / 4! = 15,400 maneras de repartir a los alumnos en equipos de 3 personas para realizar una misma práctica Al multiplicar la solución que se da al inciso a, por 1/4! se está quitando el orden de los grupos, que en este caso no nos interesa. Ejercicios propuestos: P1.- Se contrata un servicio de calificación de computadoras para encontrar las tres mejore marcas de monitores EGA. Se incluirá un total de 10 marcas en el estudio. ¿De cuantas formas distintas puede el servicio de calificación pero no debe poner los tres en ningún orden? Solución: 10 C 3 = 120 P2.- ¿cuántas parejas distintas pueden formarse con cinco individuos? Solución. 5 C 2 = 10 P3.- Con 5 estadistas y 6 economistas quiere formarse un comité de 3 estadistas y 2 economistas. ¿Cuántos comités diferentes pueden formarse si: a)no se impone ninguna restricción , b)dos estadistas determinados deben estar en el comité c)un economista determinado no debe estar en el comité? Solución: a) 150
b) 45
c) 100
P4.- Suponga que necesita reemplazar 5 empaques en un dispositivo que funciona con energía nuclear. Si tiene una caja con 20 empaques de entre los cuales escoger, ¿cuantas elecciones diferentes son posibles? Es decir, ¿cuantas muestras distintas de 5 empaques se pueden seleccionar de los 20 ?
103
UNIDAD II / PROBABILIDAD.
Solución: 20C5 = 15,504 P5.- Se realizo un estudio para examinar la reacción entre la estructura de costos y la propiedades mecánicas de granos equieje en lingotes solidificados unidireccionalmente ( Metallurgical Transactions, mayo de 1986 ). Lingotes de aleaciones de cobre se vertieron en uno de tres tipos de moldes (columnares, mixtos o equieje) con una orientación ya sea transversal o longitudinal. De cada lingote se tomaron cinco especimenes para pruebas de tensión a distintas distancias (10, 35, 60, 85 y 100 milímetros ) de la cara de enfriamiento del lingote, y se determino la resistencia al vencimiento. ¿ Cuantas mediciones de resistencia se obtendrán si el experimento incluye un lingote para cada combinación de tipo de molde y orientación? Solución: (3C2)(5C2) = 30
2.4 Probabilidad con técnicas de conteo. 2.4.1 Axiomas. Axioma 1: para cada suceso a en la clase C Axioma 2: para el suceso cierto o seguro S en la clase C
P ( A ) ≥ 0 P ( S ) = 1 Axioma 3:
para cualquier numero mutuamente excluyente A 1, B2, ... en la clase C P ( A1∪ A2∪ ) = p( A1) + p( A2) + ... En particular , para solo dos sucesos mutuamente excluyentes A 1, A2 P (A1∪ A2) = p(A1) + p(A2)
2.4.2 Teoremas. Teorema 1 . si A1⊂ A2 entonces P (A1) ≤ P( A2) y P( A2 - A1) = P( A2 ) – P (A1) Teorema 2. para cada suceso A 0 ≤ P ( A) ≤ 1 es decir la probabilidad de un suceso entre 0 y 1. Teorema 3. P (∅ ) = 0 es decir el suceso imposible tiene probabilidad cero. Teorema 4. si A ‘ es el complemento de A entonces P ( A ‘ ) = 1 – p ( A ) Teorema 5. p(A) = p(A1) + p(A2) + ... + p (A n ); En particular si A = S, el espacio muestral, entonces p(A1) + p(A2) + ... + p (A n ) = 1 Teorema 6. si A y B son dos sucesos cualesquiera , entonces P ( A∪ B ) = P(A) + P(B) - P ( A∩B ) Teorema 7. para dos sucesos A y B P ( A) = P ( A ∩B ) + P ( A∩B ‘ )
104
UNIDAD II / PROBABILIDAD.
Teorema 8. si un suceso A debe resultar en uno de los sucesos mutuamente excluyentes A1 , A2, ...,An entonces P ( A) = P( A∩ A1 ) + P ( A∩ A2)+ …+ P ( A ∩ An )
2.5 Probabilidad condicional. 2.5.1 Dependiente. Hay ocasiones en que nos interesa alterar nuestra estimación de la probabilidad de un evento cuando poseemos información adicional que podría afectar el resultado. Esta probabilidad modificada se denomina probabilidad condicional del evento. La probabilidad de que un evento B ocurra cuando se sabe que ya ocurrió algún evento A se llama probabilidad condicional y se denota por P(B ⏐ A ). El símbolo P(B ⏐ A ) por lo general se lee “ la probabilidad de que ocurra B dado que ocurrió A “ o simplemente “ la probabilidad de B, dado A”.
Fórmula para la probabilidad condicional Para determinar la probabilidad condicional de que el evento A ocurra, Dado que ocurra el evento B, divida la probabilidad de que ocurra tanto A como B entre la probabilidad de que ocurra B; esto es,
( )
P AB = P ( A∩ B) P (
) B donde suponemos que P ( B ) ≠ 0 Sea δ un espacio muestral en donde se ha definido un evento E, donde p(E)>0, si deseamos determinar la probabilidad de que ocurra un evento A (el que también es definido en el mismo espacio muestral), dado que E ya ocurrió, entonces deseamos determinar una probabilidad de tipo condicional, la que se determina como se muestra; p( A| E ) =
p( A∩ E ) p( E )
Donde: p(A⏐E) = probabilidad de que ocurra A dado que E ya ocurrió; p(A ∩E) = probabilidad de que ocurra A y E a un mismo tiempo; p(E) = probabilidad de que ocurra E Luego;
105
UNIDAD II / PROBABILIDAD.
P Por tanto: P( A| E ) Donde: P( E ) = ⏐ A∩E⏐= número de elementos comunes a los eventos A y E ⏐E⏐= número de elementos del evento E Luego entonces podemos usar cualquiera de las dos fórmulas para calcular la probabilidad
condicional de A dado que E ya ocurrió. Si la ocurrencia o no de E1 no afecta para nada la probabilidad de ocurrencia de E2 , entonces : Pr { E 2⏐ E 1 } = P { E 2 }, y diremos que E1 y E2 son sucesos independientes; en caso contrario, se dirá que son casos dependientes. Si denotamos por E1 E2 el suceso de que ambos E1 y E2 ocurran, llamado un suceso compuesto, entonces Pr {E1 E2 } = Pr {E1 } Pr { E2 ⏐ E1 } En particular, Pr {E1 E2 } = Pr {E1 } Pr { E2 } Problema: La probabilidad de que un vuelo programado normalmente salga a tiempo es P(D) = 0.83; la probabilidad de que llegue a tiempo es P ( A ) 0 0.82; y la probabilidad de que salga y llegue a tiempo es P ( D ∩ A ) = 0.78. Encuentre la probabilidad de que un avión a)
llegue a tiempo, dado que salió a tiempo y
b)
salió a tiempo, dado que llego a tiempo.
Solución: a)
La probabilidad de que un avión llegue a tiempo, dado que salió a tiempo es
) = P D( ∩ A) = 0.78 = 0.94 P D() 0.83 La probabilidad de que un avión saliera a tiempo, dado que llego a tiempo es P A D(
|
106
UNIDAD II / PROBABILIDAD.
P D A(
| P A( )
) = P D( ∩ A) = 0.78 = 0.95 0.82
Problema: Sean E1 y E2 los sucesos cara en el quinto lanzamiento y cara en el sexto lanza miento de una moneda, respectivamente. Entonces E1 y E2 son sucesos independientes y por lo tanto, la probabilidad de que salga cara en ambos intentos es Pr {E1 E2 } = Pr {E1 } Pr { E2 } = ½ ( ½) = ¼ Problema: Si las probabilidades de A y B de estar vivos dentro de 20 años son 0.7 y 0.5, respectivamente, entonces la probabilidad de que ambos lo estén es (0.7) (0.5) = 0.35 Problema: Una caja contiene 3 bolas blancas y 2 bolas negras. Sea E1 el s uceso “ la primera bola extraída es negra ” y E 2 el suceso “ la segunda bola extraída es negra ”. las bolas extraídas
no se devuelven a la caja E1 y E2 son sucesos dependientes . Solución: Pr {E1 E2 } = Pr {E1 } P { E2 } = ( 2/5 )(1 / 4 ) = 1 /10 Sucesos mutuamente excluyentes Dos o más sucesos se llaman sucesos mutuamente excluyentes si la ocurrencia de cualquiera de ellos excluye la de los otros. De modo que si E 1 y E2 son sucesos mutuamente excluyentes , entonces Pr {E1 E2 } = 0 Si E1 + E2 denota el suceso de que ocurra E 1 o bien E2 o ambos a la vez, entonces Pr (E1 + E2 ) = Pr (E1 ) + Pr ( E2 ) - Pr (E 1 E2 ) En particular Pr (E1 + E2 ) = Pr (E1 ) + Pr ( E2 ) para suceso Mutuamente excluyentes Problema: Sea E1 el suceso “ sacar un as de una baraja” y E2 “sacar un rey”. Cual es la probabilidad de sacar o un as o un rey en un solo ensayo es Solución:
107
UNIDAD II / PROBABILIDAD.
Pr (E1 ) = 4 / 52 = 1/13 Pr (E2 ) = 4/52 = 1/13 Pr (E1 + E2 ) = 1 / 13 + 1/13 = 2 / 13 Problema: Una bola se extrae aleatoriamente de una caja que contiene 6 bolas rojas, 4 bolas blancas y 5 bolas azules. Determinar la probabilidad de que sea a) roja, b) blanca, c) azul, d) no roja, e) roja o azul. Solución: a)
pr ( roja ) = 6 / ( 6 + 4 + 5 ) = 6 / 15 = 2/5
b)
Pr ( blanca = 4 / 15
c)
Pr ( azul ) = 5 /15 = 1/3
d)
Pr(no roja ) = 1 – Pr(roja) = 1 – 2/5 = 3/5
O bien Pr ( no roja ) = 4 / 15 + 5 / 15 = 9/15 = 3/5 e) Pr ( roja o azul ) = pr (roja) + Pr ( blanca) = 2/5 + 4 /15 = 2/3 Problema: Sea E1 el suceso “sacar un as ” de una baraja y E 2 “ sacar una espada”. Entonces E1 y E 2 no son sucesos mutuamente excluyentes, porque pueden sacarse el as de espadas. Luego la probabilidad de sacar un as o una espada o ambos es Pr (E1 + E2 ) = Pr (E1 ) + Pr ( E2 ) - Pr (E 1 E2 ) = 4 /52 + 13/52 – 1 /52 = 16 / 52 = 4 /13 Problema: Un dado honesto se lanza dos veces. Hallar la probabilidad de obtener 4, 5 o 6 en el primer lanzamiento y 1, 2, 3 o 4 en el segundo lanzamiento. Solución: E1 = 4, 5 o 6
E2 = 1, 2, 3 o 4
Pr (E1 ∩ E2 ) = Pr (E1 ) Pr ( E2 ⏐ E1 ) = Pr (E1 ) P (E2 ) = (3/6)(4/6) = 1/3 Problema: Se extraen tres bolas sucesivamente de la caja que contiene 6 bolas rojas, 4 bolas blancas y 5 bolas azules. Hallar la probabilidad de que se extraigan en el orden roja, blanca y azul si las bolas , a) se remplazan, b) no se remplazan. Solución: a) b)
pr ( se remplazan ) = [6 / ( 6 + 4 + 5 ) ] [4 / ( 6 + 4 + 5 )] [5 / ( 6 + 4 + 5 ) ] = 8/225 Pr ( no se remplazan) = [6 / ( 6 + 4 + 5 ) ] [4 / ( 5 + 4 + 5 )] [5 / ( 5 + 3 + 5 ) ] = 4/91
108
UNIDAD II / PROBABILIDAD.
Problema: Hallar la probabilidad de obtener al menos un 4 en dos lanzamientos de un dado honrado. Pr ( al menos un 4 en dos lanzamientos) = Pr (E1 ) + Pr ( E2 ) - Pr (E1 ∩ E2 ) = Pr (E1 ) + Pr ( E2 ) - Pr (E1) Pr(E2 ) = 1/6+1/6 - (1/6)(1/6) = 11/36 Problema: Se lanza al aire dos dados normales, si la suma de los números que aparecen es de por lo menos siete, a)
determine la probabilidad de que en el segundo dado aparezca el número cuatro,
b)
Determine la probabilidad de que ambos números sean pares,
c)
Determine la probabilidad de que en el primer dado aparezca el número dos.
Solución: El espacio muestral es el mismo que cuando se lanza un dado dos veces y se muestra a continuación; (1,1) (2,1) (3,1) (4,1) (5,1) (6,1) (1,2) (2,2) (3,2) (4,2) (5,2) (6,2) δ = (1,3) (2,3) (3,3) (4,3) (5,3) (6,3) (1,4) (2,4) (3,4) (4,4) (5,4) (6,4) (1,5) (2,5) (3,5) (4,5) (5,5) (6,5)
(1,6)
(2,6) (3,6) (4,6) (5,6) (6,6) a) Para calcular una probabilidad condicional es necesario definir los eventos A y E, siendo estos, A = evento de que en el segundo dado aparezca el número cuatro, E = evento de que la suma de los números que aparecen sea de por lo menos siete, (que es que es el evento que está condicionando) E = {21 elementos, los que suman siete o más }
⎧(6,1) (5,2) (6,2)(4,3) (5,3) (6,3) (3,4) (4,4) (5,4) (6,4) E =⎨
⎫ ⎬
⎩(2,5) (3,5) (4,5) (5,5) (6,5) (1,6) (2,6) (3,6) (4,6) (5,6) (6,6)⎭ A = {6 elementos, los que en el segundo dado aparece el cuatro} A = {(1,4) (2,4) (3,4) (4,4) (5,4) (6,4)}
109
UNIDAD II / PROBABILIDAD.
Luego, A∩E = {(3,4) (4,4) (5,4) (6,4)}, ⏐ A∩E⏐= 4 elementos Por tanto; p(A⏐E) = ⏐ A∩E⏐/ ⏐E⏐= 4/21 = 0.19048 b) E = evento de que la suma de los números que aparecen sea de por lo menos siete ⎧(6,1)
(5,2) (6,2)(4,3) (5,3) (6,3)(3,4) (4,4) (5,4) (6,4) ⎫ E =⎨
⎬ ⎩(2,5) (3,5) (4,5) (5,5) (6,5)(1,6) (2,6) (3,6) (4,6) (5,6) (6,6)⎭
A = evento de que ambos números sean pares A = (2,2) (4,2) (6,2) (2,4) (4,4) (6,4) (2,6) (4,6) (6,6) A∩E = (6,2) (4,4) (6,4) (2,6) (4,6) (6,6)
⏐ A∩E⏐=6 elementos p(A⏐E)
= ⏐ A∩E⏐/ ⏐E⏐ = 6/ 21 = 0.28571 c) E = evento de que la suma de los números que aparecen sea de por lo menos siete ⎧(6,1)
(5,2) (6,2)(4,3) (5,3) (6,3) (3,4) (4,4) (5,4) (6,4) ⎫ E =⎨
⎬ ⎩(2,5) (3,5) (4,5) (5,5) (6,5) (1,6) (2,6) (3,6) (4,6) (5,6) (6,6)⎭
A = evento de que en el primer dado aparezca el número dos A = (2,1) (2,2) (2,3) (2,4) (2,5) A∩E = {(2,5)},
(2,6)
⏐ A∩E⏐= 1 elemento
P(A⏐E) = ⏐ A∩E⏐/⏐E⏐ = 1/21
= 0.04762
Problema: Se seleccionan al azar dos números de entre los números del 1 al 9, si la suma de los números que aparecen es par, a) Determine la probabilidad de que ambos números sean pares, b) Determine la probabilidad de que ambos números sean impares.
110
UNIDAD II / PROBABILIDAD.
Solución: δ = {9C2 = 36 maneras de seleccionar dos números de entre nueve que se tienen} (1,2) (1,3) (2,3)
(1,4)
(2,4) (3,4) δ = (1,5) (2,5) (3,5) (4,5) (1,6) (2,6) (3,6) (4,6) (5,6) (1,7) (2,7) (3,7) (4,7) (5,7) (6,7) (1,8) (2,8) (3,8) (4,8) (5,8) (6,8) (7,8) (1,9) (2,9) (3,9) (4,9) (5,9) (6,9) (7,9) (8,9) a) E = evento de que la suma de los números que se seleccionan sea par E = (1,3) (2,4) (1,5) (3,5) (2,6) (4,6) (1,3) (3,7) (5,7) (2,8) (4,8) (6,8) (1,9) (3,9) (5,9) (7,9) E = {16 elementos }
A = evento de que ambos números Sean pares A = (2,4) (2,6) (4,6)(2,8) (4,8) (6,8) A = {6 elementos} A∩E = (2,4) (2,6) (4,6) (2,8) (4,8) (6,8) ⏐ A∩E⏐ = 6 elementos ,
p(A⏐E) = ⏐ A∩E⏐/ ⏐E⏐= 6/16 = 0.375 b) E = evento de que la suma de los números seleccionados es par E = (1,3) (2,4) (1,5) (3,5) (2,6) (4,6) (1,3) (3,7) (5,7) (2,8) (4,8) (6,8) (1,9) (3,9) (5,9) (7,9) A = evento de que ambos números sean impares A = (1,3) (1,5) (3,5) (1,7) (3,7) (5,7) (1,9) (3,9) (5,9) (7,9) A = {10 elementos}, A∩E = (1,3) (1,5) (3,5) (1,7) (3,7) (5,7) (1,9) (3,9) (5,9) (7,9) ⏐ A∩E⏐= 10 elementos;
p(A⏐E)= ⏐ A∩E⏐/ ⏐E⏐= 10/16 = 0.625
Problema: Dada la siguiente tabla referente a la producción de flechas para camión de carga pesada; se inspeccionan 200 flechas del tipo A y B, 300 del tipo C y 400 del tipo D, a continuación se presentan los resultados obtenidos en la inspección;
111
UNIDAD II / PROBABILIDAD.
Tipo flecha DEFECTO A
B
C
D
TOTAL
I
54
23
40
15
132
II
28
12
14
5
59
S - DEF
118 165 246
380 909
TOTAL
200 200 300
400 1100
a) Si se selecciona una flecha al azar y resulta que es una flecha del tipo B, ¿cuál es la probabilidad de que no tenga defectos, b) Si la flecha seleccionada es del tipo C, ¿cuál es la probabilidad de que tenga defectos del tipo II?, c) Si la flecha seleccionada tiene defectos del tipo I, ¿cuál es la probabilidad de que sea del tipo A, d) ¿cuál es la probabilidad de que una flecha no tenga defectos?, e) ¿cuál es la probabilidad de que una flecha tenga defectos? Solución: a) Definiremos los eventos; E = evento de que la flecha seleccionada sea del tipo B = {200 elementos o flechas} A = evento de que la flecha seleccionada no tenga defectos = {909 flechas o elementos} A∩E = {165 elementos del tipo B y que no tienen defectos} p(A⏐E) = ⏐ A∩E⏐/⏐E⏐= 165/200 = 0.825 b)
E = evento de que la flecha sea del tipo C = {300 flechas}
A = evento de que la flecha tenga defectos del tipo II ={59 flechas} A∩E = {14 flechas del tipo C y que tienen defectos del II } ;
p(A⏐E) =⏐ A∩E⏐/⏐E⏐= 14/300 = 0.04667 c)
E = evento de que la flecha tenga defectos del tipo I = {132 flechas}
A = evento de que la flecha sea del tipo A = {200 flechas} A∩E = {54 flechas con defectos del tipo I y del tipo A} p(A⏐E) = ⏐ A∩E⏐/⏐E⏐= 54 / 132 = 0.40901
d) En este caso se trata de una probabilidad simple, ya que no hay un evento que esté condicionando al evento del cual se desea determinar su probabilidad
112
UNIDAD II / PROBABILIDAD.
D = evento de que una flecha no tenga defectos = {909 flechas} δ = {1100 flechas} p(D) = 909/1100 = 0.82636 e) F = evento de que una flecha tenga defectos = {132 + 59 = 191 flechas} δ = {1100 flechas} p(F) = 191 / 1100 = 0.17364
Problema: Según las estadísticas, la probabilidad de que un auto que llega a cierta gasolinera cargue gasolina es de 0.79, mientras que la probabilidad de que ponga aceite al motor es de 0.11 y la probabilidad de que ponga gasolina y aceite al motor es de 0.06, a) Sí un auto carga gasolina, ¿cuál es la probabilidad de que ponga aceite?, b) Sí un auto pone aceite al motor, ¿cuál es la probabilidad de que ponga gasolina? Solución: a) E = evento de que un auto cargue gasolina p(E) = 0.79 A = evento de que un auto ponga aceite al motor P(A) = 0.11 A∩E = evento de que un auto ponga gasolina y aceite p(A∩E) = 0.07 p(A⏐E) = p(A∩E)/p(E) = 0.07/ 0.79 = 0.0881 b) E = evento de que un auto ponga aceite al motor P(E) = 0.11 A = evento de que un auto ponga gasolina P(A) = 0.79 A∩E = evento de que un auto ponga aceite al motor y ponga gasolina P(A∩E) = 0.07 P(A⏐E) = p(A∩E)/ p(E) = 0.07/0.11 = 0.63636 Problema: La probabilidad de que un auto de carreras cargue gasolina en cierto circuito en la primera media hora de recorrido es de 0.58, la probabilidad de que cambie de neumáticos en esa primera media hora de recorrido es de 0.16, l a probabilidad de que cargue gasolina y cambie de neumáticos en la primera media hora de recorrido es de 0.05, a) ¿Cuál es la probabilidad de que cargue gasolina o cambie de neumáticos en la primera media hora de recorrido?, b) ¿cuál es la probabilidad de que no cargue combustible y de neumáticos en la primera media hora de recorrido, c) Si el auto cambia de neumáticos en la primera media hora de recorrido, ¿cuál es la probabilidad de que cargue combustible también?, d) Si el auto carga combustible en la primera media hora de recorrido, ¿cuál es la probabilidad de que cambie de neumáticos también?
113
UNIDAD II / PROBABILIDAD.
Solución: a) A = evento de que cargue gasolina en la primera media hora de recorrido P(A) = 0.58 B = evento de que cambie de neumáticos en la primera hora de recorrido P(B) = 0.16 A∩B = evento de que cargue combustible y cambie de neumáticos en la primera hora de recorrido P(A∩B) = 0.05 P(cargue gasolina o cambie de neumáticos) = p(A ∪B) = p(A) + p(B) – p(A∩B) P(cargue gasolina o cambie de neumáticos) = 0.58 + 0.16 – 0.05 = 0.69 b) p( no cargue combustible y no cambie de neumáticos) = 1 – p(A∪B) = 1 – 0.69 = 0.31 c) E = evento de que el auto cambie de neumáticos en la primera media hora de recorrido A = evento de que el auto cargue combustible en la primera media hora de recorrido p(A⏐E) = p(A∩E)/ p(E) = 0.05/0.16 = 0.3125 d) E = evento de que el auto cargue combustible en la primera media hora de recorrido A = es el evento de que el auto cambie de neumáticos en la primera media hora de recorrido p(A⏐E) = p(A∩E)/p(E) = 0.05/0.58 = 0.08621
2.5.2 independientes. Se dice que un evento B es independiente de un evento A, si p(B⏐ A) = p(B), esto quiere decir que la probabilidad de que ocurra B no es afectada por la ocurrencia del evento A, la expresión anterior se puede sustituir en el teorema de la multiplicación para probabilidad condicional, p(A∩B) = p(A)p(B⏐ A) = p(A)p(B) Luego, p(A∩B) = p(A)p(B) Concepto de independencia Si la expresión anterior se cumple, podemos decir que los eventos A y B son independientes. Problema: Pruebas repetidas e independientes. Sea δ el espacio muestral del lanzamiento de una moneda tres veces, δ = { AAA, AAS, ASA, ASS, SAS, SAA, SSA, SSS}
p(AAA) = p(A1∩ A2∩ A3) = p(A1)p(A2⏐ A1)p(A3⏐ A1∩ A2) = p(A)p(A)p(A) =1/2*1/2*1/2 = 1/8 p(AAS) = p(A)p(A)p(S) =1/2*1/2*1/2 =1/8 p(ASA) = p(A)p(S)p(A) = 1/2*1/2*1/2 = 1/8 etc, etc.
114
UNIDAD II / PROBABILIDAD.
Con lo anterior se comprueba que efectivamente la probabilidad de cada uno de los elementos del espacio muestral descrito anteriormente es de 1/8 como se consideraba cuando se calculaban probabilidades para un espacio finito equiprobables. Problema: Un equipo de fútbol soccer tiene una probabilidad de ganar de 0.6, una probabilidad de empatar de 0.3 y una probabilidad de perder de 0.1, si este equipo participa en dos juegos la semana próxima, determine la probabilidad de que; a. Gane el segundo juego, b. Gane ambos juegos, c. Gane uno de los juegos, d. Gane el primer juego y empate el segundo. El espacio muestral sería: δ = {GG, GE, GP, EG, EE, EP, PG, PE, PP}
a)
p(gane el segundo juego) = p(GG, EG, PG) = (0.6)(0.6) + (0.3)(0.6) + (0.1)(0.6)
= 0.36 + 0.18 + 0.06 = 0.6 b)
p(gane ambos juegos) = p(GG) = (0.6)(0.6) = 0.36
c)
p(gane uno de los juegos) = p(GE, GP, EG, PG)
= (0.6)(0.3) + (0.6)(0.1) + (0.3)(0.6) + (0.1)(0.6) = 0.18 + 0.06 + 0.18 + 0.06 = 0.48 d)
p(gane el primero y empate el segundo) = p(GE) = (0.6)(0.3) = 0.18
Problema: Un boxeador gana 8 de cada 10 peleas en las que compite, si este boxeador participará en tres peleas en los próximos seis meses, determine la probabilidad de que; a) Gane dos de las peleas b) Si gana dos de las peleas, ¿cuál es la probabilidad de que sean la primera y tercera peleas?, c) Gane la segunda pelea. Solución: δ={GGG. GGP, GPG, GPP, PGG, PGP, PPG, PPP } a) p(gane dos de las peleas) = p(GGP, GPG, PGG) = (0.8)(0.8)(0.2) + (0.8)(0.2)(0.8) + (0.2)(0.8)(0.8) = 0.128 + 0.128 + 0.128 = 0.384 b) E = evento de que gane dos peleas.
115
UNIDAD II / PROBABILIDAD.
E ={ GGP, GPG, PGG }, p(E) = 0.348 A = evento de que gane la primera y la tercer pelea A={GGG, GPG}
A∩B = {GPG}, p(A∩B) = (0.8)(0.2)(0.8) =0.128
P(A⏐E) = p(A∩E) / p(E) = 0.348/0.128= 0.3333 c) p(gane la segunda pelea) = p(GGG, GGP, PGG, PGP) = (0.8)(0.8)(0.8) + (0.8)(0.8)(0.2) + (0.2)(0.8)(0.8) + (0.2)(0.8)(0.2) = 0.512 + 0.128 + 0.128 + 0.032 = 0.8 Problema: Tres hombres tiran a un blanco, A tiene 1/3 de posibilidades de acertar al blanco, B tiene 1/2 de posibilidades de acertar y C tiene 1/4 de posibilidades de pegar al blanco, si cada uno de ellos hace un solo disparo, determine la probabilidad de que; a) Solo uno de ellos acierte al blanco, b) Si solo uno de ellos acierta al blanco, ¿cuál es la probabilidad de que acierte A?, c) Determine la probabilidad de que ninguno acierte al blanco. Solución: Haciendo uso de un diagrama de árbol se obtiene el siguiente espacio muestral; δ = {ABC, ABC`, AB`C, AB`C`, A`BC, A`BC`, A`B`C, A`B`C`} donde: A = acierta A, A`= no acierta A, B = acierta B, B`= no acierta B, etc., etc. a) p(solo uno de ellos acierte al blanco) = p(AB`C`, A`BC`, A`B`C) = 1/3*1/2*3/4 + 2/3*1/2*3/4 + 2/3*1/2*1/4 = 3/24 + 6/24 + 2/24 = 11/24 = 0.45833 b) E = evento de que solo uno de ellos acierte al blanco E = {AB`C`, A`BC`, A`B`C};
p(E) =11/24
A = evento de que A acierte al blanco A = { ABC, ABC`, AB`C, AB`C`} A∩E = { AB`C`} = 1/3*1/2*3/4 = 3/24 p(A⏐E)= p(A∩E)/p(E) = (3/24)/(11/24) = 3/11 = 0.27273 c) p(ninguno acierte al blanco) = p(A´B´C´) = 2/3*1/2*3/4 = 6/24 = 0.25
116
UNIDAD II / PROBABILIDAD.
2.6. Eventos Independientes 2.6.1 Regla de Bayes. Teorema de la Probabilidad Total Sea un espacio probabilístico (Ω, A, P) y
{ A }⊂ A una partición de sucesos de Ω. n
Es decir, An =Ω y
Ai
A j =φ para toda i ≠ j
∑
Entonces, para todo suceso B ⊂ A es P B( ) = P B A(|
n
)* P A( n ).
n
Resultado que se puede parafrasear diciendo que la probabilidad de un suceso que se puede dar de varias formas es igual a la suma de los productos de las probabilidades de éste en cada una de esas formas, P(B / A n), por las probabilidades de que se den estas formas, P(A n). Problema: Una población está formada por tres grupos étnicos: A (un 30%), B (un 10%) y C (un 6O%). Además se sabe que el porcentaje de personas con ojos claros en cada una de estas poblaciones es, respectivamente, del 20%, 40% y 5%. Por el teorema de la probabilidad total , la probabilidad de que un individuo elegido al azar de esta población tenga ojos claros es: P(ojos claros) = P(A) ·P(ojos claros/A) + P(B) · P(ojos claros/B) + P(C) · P(0jos claros/C )
= 0'3 · 0'2 + 0'1 · 0'4 + 0'6 · 0'05 = 0'13. Teorema de Bayes El siguiente teorema es un resultado con una gran carga filosófica detrás, el cual mide el cambio que se va produciendo en las probabilidades de los sucesos a medida que vamos haciendo observaciones. Paradójicamente a su importancia, su demostración no es más que la apl icación de la definición de probabilidad condicionada seguida de la aplicación del teorema de la probabilidad total. Teorema:
117
UNIDAD II / PROBABILIDAD.
Sea un espacio probabilístico (Ω, A, P) y
{ A }⊂ A n
una partición de sucesos de Ω y B∈ A un
suceso con probabilidad positiva. Entonces, para todo suceso A i es P A P B A( i ) (
i
|
)
P A B( i |) =
∑ P A P B A(
n
) (|
n
)
n
Este teorema tiene una interpretación intuitiva muy interesante. Si las cosas que pueden ocurrir las tenemos clasificadas en los sucesos Ai de los cuales conocemos sus probabilidaes P(Ai), denominadas a priori , y se observa un suceso B, la fórmula de Bayes nos da las probabilidades a posteriori de los sucesos A, ajustadas o modificadas por B.
Problema: Supongamos que tenemos una urna delante de nosotros de la cual solo conocemos que o es la urna A1 con 3 bolas blancas y 1 negra, o es la urna A2 con 3 bolas negras y 1 blanca. Con objeto de obtener más información acerca de cual urna tenemos delante, realizamos un experimento consistente en extraer una bola de la urna desconocida. Si suponemos que la bola extraida resultó blanca 1B y a priori ninguna de las dos urnas es más verosímil que la otra, P(A1) = P(A2) = 1/2, entonces la fórmula de Bayes nos dice que las probabilidades a posteriori de cada urna son P(A1/1B) =3/4 y P(A2/1B) =1/4 Habiendo alterado de esta forma nuestra creencia sobre la urna que tenemos delante: Antes creíamos que eran equiprobables y ahora creemos que es tres veces más probable que la urna desconocida sea la A1. Pero, ¿qué ocurrirá si extraemos otra bola?. Lógicamente, en la fórmula de Bayes deberemos tomar ahora como probabilidades a priori las calculadas, 3/4 y 1/4, pues éstas son nuestras creencias sobre la composición de la urna, antes de volver a realizar el experimento. Si suponemos que la bola no fue reemplazada (se deja para el lector el caso de reemplazamiento), y sale una bola negra 2 N , la fórmula de Bayes nos devolvería a la incertidumbre inicial, ya que sería
118
UNIDAD II / PROBABILIDAD.
P(A1/2N ) =1/2 y P(A2/2N ) =1/2 Si hubiera salido blanca, la fórmula de Bayes, al igual que la lógica, también sería concluyente, P(A1/2B) =1 y P(A2/2B) =0 La utilización de la fórmula de Bayes, es decir, la utilización de distribuciones de probabilidad a posteriori como modelos en la estimación de parámetros, al recoger ésta tanto la información
muestral, P(B/Ai), como la información a priori sobre ellos, P(Ai), constituye una filosofía inferencial en gran desarrollo en los últimos años, la cual, no obstante, tiene el inconveniente (o según ellos la ventaja) de depender de la información a priori , la cual en muchas ocasiones es subjetiva y por tanto, pudiendo ser diferente de un investigador a otro. Uno de los primeros intentos por utilizar la probabilidad para hacer inferencias es la base de una rama de la metodología estadística llamada métodos estadísticos bayesianos. Con referencia a la figura siguiente podemos escribir A como la unión de los dos eventos mutuamente excluyentes E ∩ A y E’ ∩ A. De aquí : A = ( E ∩ A ) ∪ ( E’ ∩ A. ), Y por el corolario i del teorema y además podemos escribir P ( A ) = P [ (E ∩ A ) ∪ P ( E’ ∩ A ) ] = P (E ∩ A ) + P ( E’ ∩ A ) = P (E ) P (A ⏐ E) + P ( E’ ) P ( A⏐E’ ) . Problema: P ( E) = 600/900 = 2/3 ; P (A ⏐ E) = 36/600 = 3/50 P ( E ‘ ) = 1/3 P ( A⏐E’ ) = 12/300 = 1/25 P ( A ) = (2/3)(3/50) + (1/3)(1/25) = 4/75 Una generalización de la ilustración precedente al caso donde el espacio muestral se parte en k subconjuntos la cubre el siguiente teorema, que algunas veces se denomina teorema de probabilidad total o regla de eliminación
119
UNIDAD II / PROBABILIDAD.
Teorema 2.6.1. Si los eventos B 1 , B 2 , ..., B k constituyen una partición del espacio muestral S tal que P(Bi ) ≠ 0 para i = 1, 2, ..., k, , entonces para cualquier evento A de S, k
∑
k
∑
P ( A) = P ( Bi ∩ A) = P ( Bi )( A | Bi ) i=1
i=1
Problema: En cierta planta de montaje, tres maquinas, B 1, B2 y B3 , montan 30% , 45 % y 25 % de los productos, respectivamente. Se sabe de la experiencia pasada que 2% , 3% y 2% de los productos ensamblados por cada maquina, respectivamente, tiene defectos. Ahora , suponga que se selecciona de forma aleatoria un producto terminado. ¿ cual es la probabilidad de que este defectuoso? Solución: A = el producto esta defectuoso B 1: el producto esta ensamblado por la maquina B 1 B2: el producto esta ensamblado por la maquina B2 B3: el producto esta ensamblado por la maquina B3 Al aplicar la regla de eliminación, podemos escribir P ( A ) = P (B 1 ) P (A ⏐ B 1) + P (B 2 ) P (A ⏐ B 2) + P (B 3 ) P (A ⏐ B 3)
P (B 1 ) P (A ⏐ B 1) = (0.3) (0.02) = 0.006; P (B 2 ) P (A ⏐ B 2) = (0.45)(0.03) = 0.0135 P (B 3 ) P (A ⏐ B 3) = (0.25)(0.02) = 0.005; P ( A ) = 0.006 + 0.0135 + 0.005 = 0.0245 ¿Cuál es la probabilidad de que este producto fuera hecho por la maquina B i ? Preguntas de este tipo se puede contestar mediante la regla de bayes
120
UNIDAD II / PROBABILIDAD.
Problema: con referencia al ejemplo anterior, si se elige al azar un producto y se encuentra que es defectuoso, ¿ cual es la probabilidad de que este ensamblado por la maquina B 3 ? Solución: P B P A B( 3) (
| 3)
P B( 3 | A) = P ( B P A B1) ( | 1)+ P B P A B( 2) ( | 2)+ P B P A B( 3) ( | 3) y después sustituir las probabilidades calculadas en el ejemplo anterior , tenemos:
0.005 P B( 3 | A) =
0.005
=
0.006 + 0.0135+ 0.005 0.0245
10
= 49
En vista del hecho de que se selecciono un producto defectuoso, este resultado sugiere que probablemente no fue hecho con la maquina B 3. Problema: Tres máquinas denominadas A, B y C, producen un 43%, 26% y 31% de la producción total de una empresa respectivamente, se ha detectado que un 8%, 2% y 1.6% del producto manufacturado por estas máquinas es defectuoso, a)
Se selecciona un producto al azar y se encuentra que es defectuoso, ¿cuál es la
probabilidad de que el producto haya sido fabricado en la máquina B?, b)
Si el producto seleccionado resulta que no es defectuoso, ¿cuál es la probabilidad de
que haya sido fabricado en la máquina C? Solución:
a) Definiremos los eventos;
121
UNIDAD II / PROBABILIDAD.
D = evento de que el producto seleccionado sea def ectuoso (evento que condiciona); A = evento de que el producto sea fabricado en la máquina A; B = evento de que el producto sea fabricado por la máquina B; C = evento de que el producto sea fabricado por la máquina C P B P D B( ) (
|
)
)=
P B D( | P A P D A( ) (
P B D( | ) =
|)+ P B P D B( ) (
|)+ P C P D C ( ) (
|
)
0.26(0.02) 0.0052 = = 0.116697 0.43(0.08)+0.26(0.02)+0.31(0.016) 0.04456
b) ND = evento de que el producto seleccionado no sea defectuoso (evento que condiciona) A = evento de que el producto sea fabricado en la máquina A; B = evento de que el producto sea fabricado por la máquina B; C = evento de que el producto sea fabricado por la máquina C. P C P ND C ( ) ( P C ND(
)
)=
| P A P ND A( ) ( )
|)+ P B P ND B( ) (
0.31(0.984) P B D(
|
0.43(0.92)+0.26(0.98)+0.31(0.984)
|
0.30504 )=
|
|)+ P C P ND C ( ) (
= = 0.31927
0.95544
Problema: Una empresa recibe visitantes en sus instalaciones y los hospeda en cualquiera de tres hoteles de la ciudad; Palacio del Sol, Sicomoros o Fiesta Inn, en una proporción de 18.5%, 32% y 49.5% respectivamente, de los cuales se ha tenido información de que se les ha dado un mal servicio en un 2.8%, 1% y 4% respectivamente, a)
Si se selecciona a un visitante al azar ¿cuál es la probabilidad de que no se le haya dado un mal servicio?
b)
Si se selecciona a un visitante al azar y se encuentra que el no se quejó del servicio prestado, ¿cuál es la probabilidad de que se haya hospedado en el Palacio del Sol?,
122
UNIDAD II / PROBABILIDAD.
c)
Si el visitante seleccionado se quejó del servicio prestado, ¿cuál es la probabilidad de que se haya hospedado en e hotel Fiesta Inn?
Solución: Haciendo uso de un diagrama de árbol;
a) NQ = evento de que un visitante no se queje del servicio; PS = evento de que un visitante haya sido hospedado en el hotel Palacio del Sol; S = evento de que un visitante haya sido hospedado en el hotel Sicómoro; FI = evento de que un visitante haya sido hospedado en el hotel Fiesta Inn
P ( NQ) = P PS P NQ PS ( FI ( )( |
)( )
|
)+ P S P NQ S ( ) ( |
) + P FI P NQ
P NQ( ) = 0.185(0.972)+0.32(0.99)+0.495(0.96) = 0.97182 b) NQ = evento de que un visitante no se queje del servicio; PS = evento de que un visitante haya sido hospedado en el hotel Palacio del Sol; S = evento de que un visitante haya sido hospedado en el hotel Sicomoro; FI = evento de que un visitante haya sido hospedado en el hotel Fiesta Inn
0.185(0.972)
0.17982 )=
P PS NQ( | 0.1850342
0.185(0.972)+0.32(0.99) +0.495(0.96)
=
=
0.97182
c) Q = evento de que un visitante se queje del servicio; FI = evento de que un visitante haya sido hospedado en el hotel Fiesta Inn
123
UNIDAD II / PROBABILIDAD.
0.495(0.04)
0.0198 )=
P FI Q( |
0.185(0.028)+0.32(0.01)+0.495(0.04)
= = 0.7026
0.0.02818
124
UNIDAD 3 FUNCIONES Y DISTRIBUCIONES
MUESTRALES.
Objetivo: Establecerá las distribuciones de probabilidad, basándose en datos de situaciones reales o simuladas que impliquen eventos aleatorios. Centrará
su
estudio
distribuciones Hipergeométrica,
en
las
Binomial, Poisson,
Normal, TStudent, chi-cuadrada y f de Fisher para su aplicación.
UNIDAD III / FUNCIONES Y DISTRIBUCIONES MUESTRALES.
3.1 Función de probabilidad. 3.1.1 Variables aleatorias discretas. La estadística se ocupa de realizar inferencias acerca de poblaciones y sus características. Se lleva a cabo experimentos cuyos resultados se encuentran sujetos al azar. Por ejemplo, el espacio muestral que da una descripción detallada de cada posible resultado cuando se prueban tres componentes electrónicos se puede escribir como: S = {NNN, NND, NDN, DNN, NDD, DND, DDN, DDD} Donde N denota “no defectuoso” y D denota “defectuoso”. Naturalmente, estamos interesados
en el número de defectuosos que ocurren. De esta forma a cada punto muestral se le asignara un valor numérico de 0, 1, 2, o 3. Estos resultados son, por supuesto, cantidades aleatorias determinadas por el resultado del experimento. Se puede ver como valores que toma la variable
aleatoria X, el número de artículos defectuosos cuando se prueban tres componentes electrónicos. Definición Una variable aleatoria es una función que asocia un numero real con cada elemento del espacio muestral. Ejemplo: supóngase que se lanza una moneda dos veces de tal forma que el espacio muestral es S = {SS, SA, AS, AA }. Represéntese por X el número de sol que puede resultar. Punto muestral SS SA AS X
2
1
1
AA 0
Ejemplo: se sacan dos bolas de manera sucesiva sin reemplazo de una urna que contiene cuatro bolas rojas y tres negras. Los posibles resultados y los valores x de la variable aleatoria. x el numero de bolas rojas, son Punto muestral
RR
RB
BR
BB
126
UNIDAD III / FUNCIONES Y DISTRIBUCIONES MUESTRALES.
X
2
1
1
0
Definición Si un espacio muestral contiene un numero finito de posibilidades o una serie interminable con tantos elementos como números enteros existen, se llama espacio muestral discreto.
3.1.2 Variables aleatorias continuas. Una variable aleatoria continua tiene una probabilidad cero de tomar exactamente cualquiera de sus valores. En consecuencia, su distribución de probabilidad no se puede dar en forma tabular. Consideremos una variable aleatoria cuyos valores son las alturas de toda la gente mayor de 21 años de edad. Entre cualesquiera dos valores, digamos 163.5 y 164.5 centímetros, o incluso 163.99 y 164.01 centímetros, hay un número infinito de alturas unas de las cuales es 164 centímetros. Tratamos ahora como un intervalo en lugar de un valor puntual de nuestra variable aleatoria. Trataremos el cálculo de probabilidades para varios intervalos de variables aleatorias continuas como:
P a x b( < < ), P W c( > ), Nótese que cuando x es continua, P (a< x≤b)= P (a< X
3.2 Distribución Binomial. 3.2.1 Conceptos de ensayos de Bernoulli. Binomial. Es la que maneja la distribución de la probabilidad de obtener cierta cantidad de éxitos al realizar una cantidad de experimentos con probabilidad de éxito constante y con ensayos independientes
127
UNIDAD III / FUNCIONES Y DISTRIBUCIONES MUESTRALES.
Las características de esta distribución son: a)
En los experimentos que tienen este tipo de distribución, siempre se esperan dos tipos de resultados, ejem. Defectuoso, no defectuoso, pasa, no pasa, etc, etc., denominados arbitrariamente “éxito” (que es lo que se espera que ocurra) o “fracaso” (lo contr ario del éxito).
b)
Las probabilidades asociadas a cada uno de estos resultados son constantes, es decir no cambian.
c)
Cada uno de los ensayos o repeticiones del experimento son independientes entre sí.
d)
El número de ensayos o repeticiones del experimento (n) es constante.
La distribuci ón B inomial o de B ernoulli
Consideremos los llamados ensayos Bernoulli, éstos son aquellos experimentos cuyo resultado es uno de dos posibles y mutuamente excluyentes, a los que se denominarán éxito y fracaso. Entonces se tiene lo que se denomina experimento Binomial, donde el número de ensayos se denota con n, la probabilidad de éxito con p y la de fracaso con q. Hay que notar que las probabilidades de éxito y de fracaso están relacionadas de la siguiente manera: p + q =1. La distribución de probabilidad Binomial La distribución de probabilidad para una variable aleatoria Binomial esta dada por
⎛n ⎞ P ( X = x) =
p
⎜⎜ ⎟⎟ xq n− x ⎜ x⎟⎠ ⎝
= n!
p xqn− x x = 0,1,2,...,n
x!(n − x)!
Donde: p = probabilidad de éxito en una sola prueba; q = 1 – p (probabilidad de fracaso) n = número de pruebas; x = numero de éxitos en n pruebas. La media y la varianza de la variable Binomial son, respectivamente, μ= np σ2 =npq
Problema: Hallar la probabilidad de que al lanzar una moneda tres veces resulten (a) tres sol; (b) dos águilas y un sol; (c) al menos un sol ; ( d) no más de una águila. Solución:
128
UNIDAD III / FUNCIONES Y DISTRIBUCIONES MUESTRALES.
Puede ocurrir 2 posibilidades (sol o águila ) por cada lanzamiento hay un total de ( 2) ( 2) (2) = 8 resultados posibles. S = { SSS, SSA, SAS, ASS, SAA, ASA, AAS, AAA} P(caiga un sol en una sola tirada) = p = ½ P(no caiga sol en una sola tirada) = q = 1 – p = ½ (a) p( tres sol )
n=3yx=3
n
– x = 3 – 3 = 0
⎛
dbinom 3 3
1⎞
⎜,,
⎝
⎟ = 0.125
2⎠
(b) p ( dos águilas y un sol )
n
= 3 ; x = 2 ; n – x = 3 – 2 = 1
⎛
dbinom 2 3
1⎞
⎜,,
⎝
⎟ = 0.375
2⎠
( c ) p (al menos un sol ) = p ( 1 , 2 , ó 3 sol ) o bien = 1 – p (ningún sol )
n=3;
x = 0; n – x = 3 – 0 = 3
⎛ ⎜,,
1 − dbinom 0 3
⎝
1⎞
⎟ = 0.875
2⎠
(e) p(no más de una águila ) = p( 0 águila ó 1 águila) = p( 0 águila) +p(1 águila ) para 0 águila : n = 3 ; x = 0 ; n – x = 3 – 0 = 3 para 1 águila : n = 3 ; x = 1 ; n – x = 3 – 1 = 2
⎛
dbinom 0 3
⎝
⎜,, 2⎠
1⎞
⎛ ⎟ + dbinom 1 3 ⎜ , , ⎝ 2⎠
1⎞
⎟ = 0.5
129
UNIDAD III / FUNCIONES Y DISTRIBUCIONES MUESTRALES.
Problema: La probabilidad de que cierta clase de componente sobreviva a una prueba de choque dada es ¾. Encuentre la probabilidad de que sobrevivan exactamente dos de los siguientes cuatro componentes que se prueben. Solución: p = ¾; n = 4 ; x = 2; b ( 2; 4, ¾ ) = 4 C2 ( ¾) 2 (1/4) 2 = 27/128 = 0.2109 Problema: La probabilidad de que un paciente se recuperé de una delicada operación de corazón es 0.9 ¿cuál es la probabilidad de que exactamente cinco de los siguientes siete pacientes intervenidos sobrevivan? Solución: n = 7; p = 0.9, q = 0.1,,
x = 5 b ( 5; 7,
0.9) = 7C5 (0.9) 5 (0.1) 2 = 0.1240 Problema: Hallar la probabilidad de que en cinco lanzamientos de un dado honrado aparezca 3 a)
dos veces
b)
máximo una vez
c)
al menos dos veces
Solución:
p = 1/6; q =
1 – p = 5/6 a)
n=5;x=2
b( 2; 5, 1/6) = 5C2 (1/6) 2 ( 5/6) 3 = 625/3888 = 0.16075 b)
n=5,
x= 0 , 1
b( 0; 5, 1/6) + b( 1; 5, 1/6) = 3125/3888= 0.80386 c)
n = 5 ; x = 2, 3, 4, 5
b( 2; 5, 1/6) +b( 3; 5, 1/6) +b( 4; 5, 1/6) +b( 5; 5, 1/6) = 763/3888 = 0.19624 Problema: Si el 20 % de los tornillos producidos por una máquina son defectuosos, determinar la probabilidad de que de 4 tornillos escogidos aleatoriamente (a)1, (b) 0, (c) menos de 2, sean defectuosos.
130
UNIDAD III / FUNCIONES Y DISTRIBUCIONES MUESTRALES.
Solución: (a) n = 4 x =1 p = 0.2 q = 0.8 b(1 ; 4, 0.2) = 0.4096 (b) n = 4 x = 0 p = 0.2 q = 0.8 b(0 ; 4, 0.2) = 0.4096 (c ) n = 4 x = 0, 1 p = 0.2 q = 0.8
p(x<2)
= P(x = 0) + P(x = 1) = 0.8192 Problema: Hallar la probabilidad de obtener un total de 7 al menos una vez en tres lanzamiento de un par de dados honrados. Solución: n=7
p =1/6
X=0
q = 5/6
P(al menos un 7 en tres lanzamiento) = 1 – P( ningún 7 en 3 lanzamiento) n=3 x=0
p = 1/6
q = 5/6 b ( 0; 3, 1/6) = 125/216 = 0.57870
P(al menos un 7 en tres lanzamiento) = 1 – 125/216 = 91/216 = 0.42130 Problema: Calcula la probabilidad de que una familia que tiene 4 hijos, 3 de ellos sean varones. Solución: n = 4 y p =1/2 ; x = 3 p(obtener 3 varones) = b(3;4,½) = 0.25 Problema: Se tiene una moneda trucada de modo que la probabilidad de sacar cara es cuatro veces la de sacar cruz. Se lanza 6 veces la moneda. Calcula las siguientes probabilidades: a)
Obtener dos veces cruz.
b)
Obtener a lo sumo dos veces cruz.
Solución:
Calculamos en primer lugar la probabilidad de cara y de cruz:
p(cara) + p(cruz) =1. Si llamamos x a la probabilidad de sacar cruz, podemos escribir: 4 x + x = 1; 5x=1; x =1/5 =0,2 Así resulta: p(cruz)=0,2 y p(cara)=0,8
n = 6 y p = 0,2
131
UNIDAD III / FUNCIONES Y DISTRIBUCIONES MUESTRALES.
a) Probabilidad de obtener dos veces cruz: x = 2 b(2; 6,0.2) = 0.24 b) Probabilidad de obtener a lo sumo dos veces cruz: x ≤ 2 o bien x = 0, 1, 2 b(0; 6,0.2) + b(1; 6,0.2)+ b(2; 6,0.2) = 0.90 Problema: La probabilidad de que un alumno de 1º de Bachillerato repita curso es de 0,3. Elegimos 20 alumnos al azar. ¿Cuál es la probabilidad de que haya exactamente 4 alumnos repetidores? Solución: X = 4 n = 20; p = 0.3 ; q = 0.7 b( 4; 20, 0.3) = 0.13 Problema: Los ingenieros eléctricos saben que una corriente neutral elevada en los sistemas de alimentación de computadoras son un problema potencial. Un estudio reciente de las corrientes de carga en sistemas de alimentación de computadoras en instalaciones estadounidenses revelo que el 10 % de las instalaciones tenían razones de corriente neutral a corriente de carga total altas ( IEEE transactions on Industry Applications, Julio / agosto de 2004). Si se escoge una muestra aleatoria de cinco si stemas de alimentación de computadora del gran número de instalaciones del país, ¿Que probabilidad hay de que a) Exactamente tres tengan una relación de corriente neutral a corriente de carga total alta? b) Por lo menos tres tengan una relación alta? c) Menos de tres tengan una relación alta? Solución: a) x = 3; p = 0.1; n = 5 b(3,5,0.1) = 0.0081 b) x ≥ 3; p = 0.1; n = 5 b(x = 3,4,5, n = 5, p = 0.1) = 0.0086 c) x < 3; p = 0.1; n = 5 b(x = 0,1,2, n = 5, p = 0.1) = 0.9914
132
UNIDAD III / FUNCIONES Y DISTRIBUCIONES MUESTRALES.
3.3 Distribución Hipergeométrica. Los tipos de aplicaciones de la distribución Hipergeométrica son muy similares a los de la Binomial. Pero en caso de la Binomial se requiere la independencia entre las pruebas. El muestreo se debe efectuar con reemplazo de cada artículo después de que se observe. Por otro lado, la distribución Hipergeométrica no requiere independencia y se basa en el muestreo que se realiza sin reemplazo. El experimentó Hipergeométrica posee las siguientes propiedades: 1. Se selecciona sin reemplazo una muestra aleatoria de tamaño n de N artículos. 2. K de los N artículos se pueden clasificar como éxitos y N – K se clasifican como fracaso. El número x de éxitos de un experimento Hipergeométrica se denomina variable aleatoria Hipergeométrica. En consecuencia, la distribución de probabilidad de la variable Hipergeométrica se llama distribución Hipergeométrica, y sus valores se denotan como h(x, N, n, k), debido a que dependen del numero de éxitos k en el conjunto N del que seleccionamos n artículos.
⎛k ⎞⎛ N −k ⎞ ⎜⎜ ⎟ h( x ,N ,n,k )= ⎝ x⎟⎠⎜⎝⎜nN −⎞ x ⎟⎠⎟ = (k C x )( N N C− nk Cn − x)
x = 0,1,2,...,n
⎛ ⎜⎜⎝n ⎟⎟⎠ Problema: Se selecciona al azar un comité de cinco personas entre tres químicos y cinco físicos. Encuentre la distribución de probabilidad para el número de químicos en el comité. Solución:
( 3C 0 )( 5C 5 ) 0.0179 P x( = 0) =h(0,8,5,3) =
= C 8
5
133
UNIDAD III / FUNCIONES Y DISTRIBUCIONES MUESTRALES.
( 3C 1)( 5C 4 ) P x( = =1)h(1,8,5,3) =
0.2679
= C 8
5
( 3C 2 )( 5C 3) P x( = 2) = h(2,8,5,3) =
0.5357
= C 8
5
( 3C 3)( 5C 2 ) P x( = 3) = h(3,8,5,3) =
0.1786
= C 8
5
En forma tabular la distribución Hipergeométrica de x es como sigue: x
0
1
2
3
h (x, N, n k)
0.0179
0.2679
0.5357
0.1786
Problema: Lotes de 40 componentes cada uno se denomina aceptables sino contienen mas de tres defectuosos. El procedimiento para muestrear el lote es la selección de cinco componentes al azar y rechazar el lote si se encuentra un componente defectuoso. ¿cual es la probabilidad de que se encuentre exactamente un defectuoso en la muestra si hay tres defectuosos en todo el lote ? Solución: N = 40, n = 5; k = 3; x = 1
( 3C 1)( 37C 4 ) h(1,40,5,3) =
0.3011
= C 40
5
Problema: Una caja contiene 6 bolas blancas y 4 rojas. Se realiza un experimento en el cual se selecciona una bola aleatoriamente y se observa su color, pero no se reemplaza la bola. Hallar la probabilidad de que después de 5 pruebas del ex perimento se haya escogido 3 bolas blancas .
134
UNIDAD III / FUNCIONES Y DISTRIBUCIONES MUESTRALES.
N = 10; n = 5; x = 3; k = 6
( 6C 3)( 4C 2 ) h(3,10,5,6) =
0.4762
= C 10
5
Problema: Un lote de 40 artículos se seleccionan al azar 4 para probarlos y si fallan la prueba mas de 2 se rechaza el lote completo. ¿Cuál es la probabilidad de rechazar un lote que tenga 8 defectuosos? Dado que el muestreo se hace sin reemplazo y la fracción de muestreo es grande (10%) tenemos una variable aleatoria Hipergeométrica. Los parámetros son: N = 40, k = 8, n = 4, x es el numero de defectuosos en la muestra y queremos la probabilidad p ( x > 2) Solución: P ( x > 2 ) = p (x = 3) + p(x = 4) = h ( 3; 40, 4, 8) + h ( 4 ; 40, 4, 8) = 0.0204 Problema: Esta es la probabilidad de rechazar un lote con 25 % de defectuosos y es muy baja. Para mejorar el proceso de selección, los ingenieros deciden rechazar el lote cuando haya 2 o mas defectuosos. ¿Cuál es la probabilidad de rechazar un lote que tenga 8 defectuosos? Los parámetros permanecen iguales lo que cambia es la probabilidad ahora es: p ( x ≥ 2 ) = p (x = 2) + p ( x > 2) Solución: N = 40 ; n = 4, k = 8 ; x ≥ 2 p ( x ≥ 2 ) = p (x = 2) + p (x = 3) + p(x = 4)] = h ( 2; 40, 4, 8) + h ( 3; 40, 4, 8) + h ( 4 ; 40, 4, 8) = 0.1723 Problema: Con esta nueva política de rechazar el lote cuando sean 2 o más ¿cuál es la probabilidad de rechazar un lote con 6 defectuosos? los parámetros son, ahora N = 40, k = 6; n = 4 y queremos la probabilidad: p (x > 10 ) = 1 - [ p (x = 0) + p ( x = 1) ] = 1 – [ h (0 , 40, 4, 6) + h ( 1,40, 4,6)]= = 1 – ( 0.5075 + 0.3929 ) = 0.0996 Problema: En el salón de tercer año de una escuela hay 35 alumnos, de los cuales 10 son niñas y 25 niños. Se nombra un comité de 7 alumnos que represente al salón. La selección se hace al azar. ¿ que probabilidad hay de que en el comité haya mayoría de niñas? En situaciones se cumple las hipótesis de una Hipergeométrica. Los parámetros son : N = 35, k = 10, n = 7, x es
135
UNIDAD III / FUNCIONES Y DISTRIBUCIONES MUESTRALES.
el numero de niñas en el comité. La probabilidad pedida es: P (x > 3 ) = p (x = 4) + p (x = 5) + p (x = 6) + p (x = 7) Solución: =h(4,35,7,10)+h(5,35,7,10)+ (6,35,7,10)+h(7,35,7,10) = 0.0718 + 0.0112 + 7.8072 x 10 – 4 + 1.7845 x 10 – 5 = 0.0838
3.4 Distribución de Poisson. Los experimentos que dan valores numéricos de una variable aleatoria x, el número de resultados que ocurren durante un intervalo dado o en una región especifica, se llaman experimentos de Poisson. El intervalo puede ser de cualquier longitud, como un minuto, un días , una semana, un mes, o incluso un año. Por ello un experimento de Poisson puede generar observaciones para la variable aleatoria x que representa el número de llamadas telefónicas por hora que recibe una oficina, el número de días que la escuela permanece cerrada debido a la nieve durante invierno o el número de juegos suspendidos debido a la lluvia durante la temporada de béisbol. La región específica podría ser un segmento de línea, un área o quizás una pieza de material. En tales casos X puede representarse el numero de ratas de campo por acre, el numero de bacterias en un cultivo dado o el numero de errores mecanográficos por pagina. Un experimento de Poisson se deriva del proceso de Poisson y posee las siguientes propiedades: 1. el numero de resultados que ocurren en un intervalo o región especifica es independiente del numero que ocurre en cualquier otro intervalo o región del espacio disjunto. De esta forma vemos que el proceso de Poisson no tiene memoria. 2. la probabilidad de que ocurra un solo resultado durante un intervalo muy corto o una región pequeña es proporcional a la longitud del intervalo o al tamaño de la región y no depende del número de resultados que ocurren fuera de este intervalo o región. 3. la probabilidad de que ocurra mas de un resultado en tal intervalo corto o que caiga en tal región pequeña insignificante. 4. El numero X de resultados que ocurren durante un experimento de Poisson se llama variable aleatoria de Poisson y su distribución de probabilidad se llama distribución de
136
UNIDAD III / FUNCIONES Y DISTRIBUCIONES MUESTRALES.
Poisson. El número medio de resultados en cada unidad se denota por la letra griega lambda, λ. La distribución de probabilidad de Poisson La distribución de probabilidad para una variable aleatoria de Poisson esta dada por :
λe−λ p( x,λ) =
;
x = 0, 1, 2, ...
x! donde :
λ= Numero medio de eventos en una unidad dada de tiempo, área o
volumen.
e=2.71828... La media y la varianza de una variable aleatoria de Poisson son , respectivamente, y
μ=λ
σ =λ 2
Problema: Supongamos que el numero de grietas por espécimen de concreto con cierto tipo de mezcla de cemento tiene una distribución de probabilidad de Poisson aproximada. Además, suponga que el número medio de grietas por espécimen es de 2.5. a) Calcule la media y la desviación estándar de x, el numero de grietas por espécimen de concreto. b) Calcule la probabilidad de que un espécimen de concreto escogido al azar tenga exactamente cinco grietas. c) Calcule la probabilidad de que un espécimen de concreto escogido al azar tenga dos o mas grietas. Solución: a) Tanto la media como la varianza de una variable aleatoria de Poisson son iguales a λ. Por tanto,
μ=λ= 2.5
σ2 =λ= 2.5
Entonces la desviación estándar es σ= 2.5 =1.58 b) Queremos conocer la probabilidad de que un espécimen de concreto tenga exactamente cinco grietas. La distribución de probabilidad de x λ= 2.5 ;
x = 5;
2.55 e−2.5 p(5) =
= 0.067 5!
137
UNIDAD III / FUNCIONES Y DISTRIBUCIONES MUESTRALES.
c) Para determinar la probabilidad de que un espécimen de concreto tenga o mas grietas necesitamos calcular p x=2
Si queremos calcular la probabilidad de este evento, es preciso considerar el evento complementario. Así, p( x ≥ 2)=1− p( x < 2)
=1−[ p( )0 + p( )1 ] =1− 0.287 = 0.713 Problema: Si un banco recibe en promedio 6 cheques sin fondo por día, ¿cuáles son las probabilidades de que reciba, a)
cuatro cheques sin fondo en un día dado,
b)
10 cheques sin fondos en cualquiera de dos días consecutivos?
Solución: a) x = variable que nos define el número de cheques sin fondo que llegan al banco en un día cualquiera = 0, 1, 2, 3, ....., etc λ = 6 cheques sin fondo por día e
= 2.718 p(4, 6 ) = 0.1339 b) x = variable que nos define el número de cheques sin fondo que llegan al banco en dos días consecutivos = 0, 1, 2, 3, ......, etc., etc. λ = 6 x 2 = 12 cheques sin fondo en promedio que llegan al banco en dos días consecutivos
P(10, 12 ) = 0.1049 Problema: En la inspección de hojalata producida por un proceso electrolítico continuo, se identifican 0.2 imperfecciones en promedio por minuto. Determine las probabilidades de identificar a) una imperfección en 3 minutos, b) al menos dos imperfecciones en 5 minutos,
138
UNIDAD III / FUNCIONES Y DISTRIBUCIONES MUESTRALES.
c) cuando más una imperfección en 15 minutos. Solución: a) x = variable que nos define el número de imperfecciones en la hojalata por cada 3 minutos = 0, 1, 2, 3, ...., etc., etc. λ = 0.2 x 3 =0.6 imperfecciones en promedio por cada 3 minutos en la hojalata
P( 1, 0.6) = 0.3293 b) x = variable que nos define el número de imperfecciones en la hojalata por cada 5 minutos = 0, 1, 2, 3, ...., etc., etc. λ = 0.2 x 5 =1 imperfección en promedio por cada 5 minutos en la hojalata
p( x = 2,3,4,etc...λ=1) =1− p( x = 0,1,λ=1)= 1- (0.367918+0.367918) = 0.26416 c) x = variable que nos define el número de imperfecciones en la hojalata por cada 15 minutos = 0, 1, 2, 3, ....., etc., etc. λ = 0.2 x 15 = 3 imperfecciones en promedio por cada 15 minutos en la hojalata
p x( = 0,1,λ= 3) = p x( = 0,λ= 3)+ p x( =1,λ= 3)
= 0.0498+0.1494 = 0.1992 Problema: Durante un experimento de laboratorio el número promedio de partículas radiactivas que pasan a través de un contador en un milisegundo es cuatro ¿cuál es la probabilidad de que seis partículas entren al contador en un milisegundo dado?
λt = 4; x = 6
(4) e− 6
f ( x) =
4
= 0.1042 6!
A prox imaci ón de la binomial por la pois s on
En este caso se determinarán probabilidades de experimentos Binomiales, pero que dadas sus características, es posible aproximarlas con la distribución de Poisson, estas características son, n → ∞ ( n es muy grande) y p → 0 (p es muy pequeña), por lo que:
139
UNIDAD III / FUNCIONES Y DISTRIBUCIONES MUESTRALES.
x
−λ p(
x,n,p )=nC x p xqn− x ≅ λ
ε x!
La expresión anterior solo se cumple cuando n → ∞ y p → 0, solo en este caso, si esto no se cumple, la aproximación no se puede llevar a efecto, por lo que la fórmula a utilizar en es te caso sería: x −λ
p( x,λ ) = λ
ε x!
Donde: λ = μ = n p = número esperado de éxitos = tasa promedio de éxitos; n = número de repeticiones del experimento; p = probabilidad de éxito = p(éxito) Una regla general aceptable es emplear esta aproximación si n ≥ 20 y p ≤ 0.05: sí n ≥ 100, la aproximación es generalmente excelente siempre y cuando n p ≤10. Problema: Se sabe que el 5% de los libros encuadernados en cierto taller tienen encuadernaciones defectuosas. Determine la probabilidad de que 2 de 100 libros encuadernados en ese taller, tengan encuadernaciones defectuosas, usando, a) la fórmula de la distribución Binomial, b) la aproximación de Poisson a la distribución Binomial. Solución: a) n = 100 p = 0.05 = p(encuadernación defectuosa) = p(éxito) q = 0.95 = p(encuadernación no defectuosa) = p(fracaso) x = variable que nos define el número de encuadernaciones defectuosas en la muestra = 0, 1, 2, 3,....,100 encuadernaciones defectuosas p(x = 2, n = 100, p = 0.05 ) = 0.0812 b) n = 100 encuadernaciones p = 0.05 λ = n p = (100)(0.05)= 5 x = variable que nos define el número de encuadernaciones
defectuosas en la muestra = = 0, 1, 2, 3,....,100 encuadernaciones defectuosas
140
UNIDAD III / FUNCIONES Y DISTRIBUCIONES MUESTRALES.
p(2, 5) = 0.0843 Al comparar los resultados de las probabilidades con una y otra distribución, nos damos cuenta de que la diferencia entre un cálculo y otro es de tan solo 0.0031, por lo que la aproximación de Poisson es una buena opción para calcular probabilidades Binomiales. Problema: Un fabricante de maquinaria pesada tiene instalados en el campo 3840 generadores de gran tamaño con garantía. Sí la probabilidad de que cualquiera de ellos falle durante el año dado es de 1/1200 determine la probabilidad de que a) 4 generadores fallen durante el año en cuestión, b) que más 1 de un generador falle durante el año en cuestión. Solución: a) n = 3840 generadores p = 1/1200 = probabilidad de que un generador falle durante el año de garantía λ = n p = (3840)(1/1200) = 3.2 motores en promedio pueden fallar en el año de garantía x = variable que nos define el número de motores que pueden fallar en el año de garantía = 0, 1, 2, 3,....,3840 motores que pueden fallar en el año de garantía
dpois 4 3.2( ,) = 0.1781
b) P ( x >1) =1− p( x ≤1) 1 − (dpois 0 3.2( ,) + dpois 1 3.2( ,)) = 0.8288
Problema: En un proceso de manufactura, en el cual se producen piezas de vidrio, ocurren defectos o burbujas, ocasionando que la pieza sea indeseable para la venta. Se sabe que en promedio 1 de cada 1000 piezas tiene una o más burbujas. ¿Cuál es la probabilidad de que en una muestra aleatoria de 8000 piezas, menos de 3 de ellas tengan burbujas? Solución: n = 8000 piezas p = 1/1000= 0.001 probabilidad de que una pieza tenga 1 o más burbujas λ = np = (8000)(1/1000) = 8 piezas en promedio con 1 o más burbujas x = variable que nos define el número de piezas que tienen 1 o más burbujas = = 0,1, 2, 3,....,8000 piezas con una o más burbujas dpois 0 8( , ) + dpois 1 8( , ) + dpois 2 8( , ) = 0.0138 Problema: Diez por ciento de las herramientas producidas en un proceso
141
UNIDAD III / FUNCIONES Y DISTRIBUCIONES MUESTRALES.
de fabricación determinado resultan defectuosas. Hallar la probabilidad de que en una muestra de 10 herramientas seleccionadas aleatoriamente, exactamente 2 estén defectuosas, empleando la aproximación de Poisson a la distribución Binomial p = 0.1; n = 10
λ = n p = 0.1 (10)
= 1 ; x= 2 dpois 2 1( , ) = 0.1839
Problema: Si la probabilidad de que un individuo sufra una reacción negativa ante una inyección de cierto suero es 0.001, hallar la probabilidad de que entre 2000 individuos: (a) exactamente 3 ; (b) mas de 2 de ellos reaccionen negativamente. Solución: λ = N p = (2000) ( 0.001) = 2
(a)
P r{3 individuos reaccionen negativamente} = dpois 3 2( , ) = 0.1804
(b)
P r{más de 2 de ellos reaccionen negativamente}
= 1 – P r(0 ó 1 ó 2 lo sufran) 1 − (dpois 0 2( , ) + dpois 1 2( , ) + dpois 2 2( , )) = 0.3233
Problema: Diez por ciento de las herramientas producidas en un proceso de fabricación determinado resultan defectuosas. Hallar la probabilidad de que en una muestra de 10 herramientas seleccionadas aleatoriamente, exactamente 2 estén defectuosas, empleando a) La distribución Binomial b)
la aproximación de Poisson a la distribución Binomial.
Solución. a) x = 2; n = 10 ; p = 10 % = 0.1 ; q = 0.9 dbinom 2 10( , ,0.1) = 0.1937 b) λ = n p = 10 (0.1) = 1; x = 2 dpois 2 1( , ) = 0.1839
En general la aproximación es buena si P ≤ 0.1
142
UNIDAD III / FUNCIONES Y DISTRIBUCIONES MUESTRALES.
3.5 Esperanza matemática. Media de una variable aleatori a.
Si se lanzan 16 veces dos monedas y X es el número de caras que ocurre por lanzamiento, entonces los valores de X pueden ser 0,1 y 2. Suponga que en el experimento salen cero caras, una cara y dos caras un total de cuatro, siete y cinco veces, respectivamente. El numero promedio de caras por lanzamiento de las dos monedas es entonces:
=1.06 Este es un valor promedio y no es necesariamente un posible resultado del experimento. O bien :
( )0 ⎛⎜
4 ⎞⎟+( )1 ⎛⎜
⎝16⎠
7 ⎞⎟+ ( )2 ⎛⎜
5
⎞⎟=1.06 ⎝16⎠ ⎝16⎠
Los números 4/16, 7/16, y 5/16 son las fracciones de los lanzamientos totales que tienen como resultado cero, una y dos caras, respectivamente. Estas fracciones también son la frecuencia relativa de los diferentes valores de X en nuestro experimento. En efecto, entonces, podemos calcular la media o promedio de un conjunto de datos mediante el conocimiento de los distintos valores que ocurren y sus frecuencias relativas, sin un conocimiento del número total de observaciones en nuestro conjunto de datos. Por tanto, si 4/16 o 1/4
de los lanzamientos tiene como resultado cero caras, 7/16 de los
lanzamientos tienen como resultado una cara y 5/16 de estos tiene dos caras, el numero medio de caras por lanzamiento será 1.06 sin importar si el número total de lanzamiento fue 16,000 o incluso 10,000. Utilicemos frecuencias relativas para calcular el número promedio de caras por lanzamiento que podríamos esperar en el largo plazo. Nos referimos a este valor promedio como la media de la variable x o la media de la distribución de probabilidad de X y la denotamos por
μ x
o
simplemente como μ cuando este claro a que variable nos referimos. También es común entre
143
UNIDAD III / FUNCIONES Y DISTRIBUCIONES MUESTRALES.
los estadísticos referirse a esta media como la esperanza matemática o el valor esperado de la variable aleatoria X y denotarla como E(X). Supongamos que se lanza monedas legales, encontramos un espacio muestral para nuestro experimento es
S = { HH , HT ,TH ,TT }. Como los 4 puntos muéstrales son iguales probables, se sigue que P ( X = 0)= P (TT )=⎛⎜ 1 ⎟⎞⎛⎜ 1 ⎞⎟= 1
⎝ 2⎠⎝ 2⎠ P ( X =1)= P ( HT )+ P (TH )= +
4
=
P ( X = 2)= P (TT )= Este resultado significa que una persona que lance dos monedas una y otra vez, en promedio, obtendrá una cara por lanzamiento. Definición Sea X una variable aleatoria con distribución de probabilidad f(x). La media o valor esperado
∑
de X es μ= E ( ) X = xf ( x); si X es discreta, x
Problema: Un inspector de calidad muestrea un lote que contiene siete componentes; el lote contiene cuatro componentes buenos y tres defectuosos. El inspector toma una muestra de tres componentes. Encuentre el valor esperado del número de componentes buenos en esta muestra. Solución: sea X el número de componentes buenos en la muestra. La distribución de probabilidad de x es
F ( x) =
()
37
x = 0, 1, 2, 3
Unos simples cálculos dan f(0) = 1/35 = 0.028571428, f(1) = 12/35= 0.342857142; f(2) =
144
UNIDAD III / FUNCIONES Y DISTRIBUCIONES MUESTRALES.
18/35= 0.514285714; f(3) = 4/35= 0.114285714. Por tanto.
μ= E ( X )=( )0 ⎛⎜ 1 ⎞⎟+( )1⎛⎜12⎞⎟+( )2 ⎛⎜18⎞⎟+( )3⎛⎜ 4 ⎞⎟=12=1.71 ⎝35⎠ ⎝35⎠ ⎝35⎠ ⎝35⎠ 7 De esta forma si se selecciona al azar una muestra de tamaño tres una y otra vez de un lote de cuatro componentes buenos y tres defectuosos, contendría, en promedio 1.7 componentes buenos. Problema: En un juego de azar se pagaran $5 a una persona si solo salen caras(H) o cruces (T) cuando se lanzan tres monedas, y ella pagara $ 3 si salen una o dos caras. ¿ cual es su ganancia esperada? Solución: el espacio muestral para los posibles resultados cuando se lanzan de manera simultánea tres monedas, o de manera equivalente si se lanzan tres veces una moneda, es S ={ HHH , HHT , HTH ,THH , HTT ,THT ,TTH ,TTT }
Se podría argumentar que cada una de estas posibilidades es igualmente probable y que ocurre con la probabilidad de 1/8. un método alternativo seria aplicar la regla de la multiplicación de probabilidad para eventos independientes a cada elemento de S. Por ejemplo, P ( HHT) = P(H) P(H) P(T) = (1/2)(1/2)(1/2) = 1/8 La variable aleatoria de interés es Y, el monto que el jugador puede ganar; y los valores posibles de Y son $5 si ocurre el evento
E 1 = { HHH ,TTT } Y - $ 3 si ocurre el evento
E 2 = { HHT , HTH ,THH , HTT ,THT ,TTH } Evento. Como E1 y E2 ocurren con probabilidades ¼ y ¾, respectivamente, se sigue que
145
UNIDAD III / FUNCIONES Y DISTRIBUCIONES MUESTRALES.
μ= E (
) ( )Y = 5 ⎛⎜ ⎝ 4⎠
1 ⎞⎟+(−3)⎛⎜ 3⎞⎟= −1
⎝ 4⎠
En este juego la persona perderá, en promedio, $1 por lanzamiento de las tres monedas. Un juego se considera equitativo si el jugador, en promedio, queda empatado. Por tanto, una ganancia esperada de cero define un juego equitativo. Consideremos una nueva variable aleatoria g(X), que depende de X; es decir, cada valor de g(X) esta determinado al conocer los valores de X. Por ejemplo, g(X) podría ser X2 o 3X – 1 , de modo que siempre que x tome el valor 2, g(X) toma el valor g(2). En particular, si X es una variable aleatoria discreta con distribución de probabilidad f ( x), x =−1,0,1,2 y g ( X ) = X 2 entonces
P [ g ( X ) = 0]= P ( X = 0) = f (0) P [ g ( ) X =1]= P ( X = −1)+ P ( X
=1) = f (−1)+ f ( )1 , P [ g ( ) X = 4]= P ( X = 2) = f (2) De modo que la distribución de probabilidad de g(X) se puede escribir como g ( x)
0
P [ g ( X ) = g ( x)]
f (0)
1
(−1) + f (1)
4
(2)
Por definición del valor esperado de una variable aleatoria, obtenemos
μ g ( X ) = E [ g ( x)] = 0 f ( )0 +1[ f (−1)+ f ( )1 ]+ 4 f ( )2 = (−1)2 f (−1)+(0)2 f (0)+(1)2 f (1)+(2)2 f (2)
146
UNIDAD III / FUNCIONES Y DISTRIBUCIONES MUESTRALES.
∑
= g ( x) f ( x) x
este resultado se generaliza en el siguiente teorema para variables discretas y continuas. Teorema Sea x una variable aleatoria con distribución de probabilidad f(x). La media o valor esperado de la variable aleatoria g(X) es
μ g ( X ) = E [ g ( X )]=∑ g ( x) f ( x);
si X es discreta
Problema: Suponga que el numero de autos x que pasa por un lavado de autos entre 4:00 pm y 5:00 pm en cualquier viernes soleado tienen la siguiente distribución de probabilidad : x
4
5
6
7
8
9
P(X = x)
1 / 12
1 / 12
1/4
1/4
1/6
1/6
Sea g(x) = 2X – 1 la cantidad de dinero en dólares, que el administrador paga al dependiente. Encuentre las ganancias esperadas de dependiente en este periodo particular. Solución:
E [ g ( ) X ]= E (2 X −1) 9
=
∑(2 x−1) ( ) f X x=4
=( )7⎛⎜ 1⎞⎟+( )9⎛⎜ 1⎞⎟+( )11⎛⎜1⎞⎟+( )13⎛⎜1⎟⎞+( )15⎛⎜1⎞⎟+( )17⎛⎜1⎞⎟=$12.67
⎝12⎠
⎝12⎠
⎝ 4⎠
⎝ 4⎠
⎝ 6⎠
⎝ 6⎠
Debemos extender ahora nuestro concepto de esperanza matemática al caso de dos variables aleatorias X y Y con distribución de probabilidad conjunta f ( x, y) .
147
UNIDAD III / FUNCIONES Y DISTRIBUCIONES MUESTRALES.
Definición Sean X y Y variables aleatorias con distribución de probabilidad conjunta f(x , y ). La media o valor esperado de la variable aleatoria g(X, Y ) es
μ g ( X ,Y ) = E [ g ( X ,Y )]=∑∑ g ( x, y) f ( x, y) ;
si X y Y son discretas x
y
Problema: Sean X y Y variables aleatorias con distribución de probabilidad conjunta que se indica en la tabla siguiente: X
( x, )
Y
0
0 3/28
1 9/28
1
3/14
3/14
2
1/28
Totales por columna
5/14
Totales por 2 3/28
renglón 15/28 3/7 1/28
15/28
3/28
1
Encuentre el valor esperado de g ( X, Y ) = XY Solución: E x= =0 y 0
E ( XY )
( )( ) (= 0 0 f 0,0) ( )( ) (+ 0 1 f 0,1) ( )( ) (+ 0 2 f 0,2) ( )( ) (+ 1 0 f 1,0) ( )( ) ( ) ( )( ) ( + 1 1 f 1,1 + 2 0 f 2,0)
E
Definición Sea X una variable aleatoria con distribución de probabilidad f(x). La media o valor esperado de X es
dx ; si X es continua
148
UNIDAD III / FUNCIONES Y DISTRIBUCIONES MUESTRALES.
Un ingeniero se interesa en la vida media de cierto tipo de dispositivo electrónico. Esta es una ilustración de problema de tiempo de falla que a menudo se presenta en la práctica. El valor esperado de la vida del dispositivo es un parámetro importante para su evaluación. Problema: Sea X la variable que denota la vida en horas de cierto dispositivo electrónico. La f unción de densidad de probabilidad es:
⎧20,000 ⎪ x3
x >100
0
en cualquier otro caso
⎪ f ( x) =⎨ ⎪ ⎪ ⎩ Encuentre la vida esperada de este tipo de dispositivo. Solución: dx= 200
⎝ x
⎠
x
Teorema Sea x una variable aleatoria con distribución de probabilidad f(x). La media o valor esperado de la variable aleatoria g(X) es
dx ; si X es continua Problema: Sea X una variable aleatoria con función de densidad
⎧ x2 −1< x < 2 ⎪ , f ( x) =⎨ 3 ⎪
⎩0
en cualquier otro caso
Encuentre el valor esperado de g(X) = 4X + 3 .
149
UNIDAD III / FUNCIONES Y DISTRIBUCIONES MUESTRALES.
Solución:
E Debemos extender ahora nuestro concepto de esperanza matemática al caso de dos variables aleatorias X y Y con distribución de probabilidad conjunta f ( x, y) . Definición Sean X y Y variables aleatorias con distribución de probabilidad conjunta f(x,y). La media o valor esperado de la variable aleatoria g(X, Y ) es dxdy
; si X y Y son continuas.
150
UNIDAD III / FUNCIONES Y DISTRIBUCIONES MUESTRALES.
Problema: Encuentre
E ⎛
⎞ ⎜ Y ⎟ para la función de densidad ⎝ X ⎠ ⎧ x(1+ 3 y2) 0 < x < 2, f ( x, 0 < y <1
⎪
y)= ⎨ 4
⎪
⎩0
en cualquier otro caso
Solución: Tenemos
E ⎛⎜
Y ⎞⎟=
∫∫
⎛⎜⎝ xy⎠⎞⎟ x(1+43 y2) dxdy = ∫01 y +2 y3 dy = 85
01 02
⎝ X ⎠
3.6 Distribución normal. 3.6.1 Distribución de la probabilidad continúa. La distribución continua de probabilidad más importante en todo el campo de la estadística es la distribución normal. Su grafica, que se denomina curva normal, es la curva en forma de campana, la cual describe muchos fenómenos que ocurren en la naturaleza, la industria y la investigación.
Además , los errores en las mediciones científicas se aproximan extremadamente bien mediante una distribución normal. La distribución normal a menudo se denomina distribución gaussiana, en honor de Karl Friedrich Gauss (1777 – 1855), quien también derivo su ecuación a partir de un estudio de errores en mediciones repetidas de la misma cantidad.
151
UNIDAD III / FUNCIONES Y DISTRIBUCIONES MUESTRALES. Se dice que estas variables tienen una distribución normal y la función de densidad recibe el nombre de curva normal o campana de Gauss. Para expresar que una variable aleatoria
UNIDAD III / FUNCIONES Y DISTRIBUCIONES MUESTRALES.
continua X, tiene una distribución normal de media μ y desviación típica σ, escribimos N (μ,σ). Distribución normal
σ2
La función de densidad de la variable aleatoria normal X, con media μy varianza 1 1 e− 2 n( x;μ,σ)= 2πσ )[( x−μ)/σ]2 −∞< x <∞ donde
π= 3.14159...
, es
y e = 2.71828...
Existen unas tablas que permiten calcular probabilidades en distribuciones normales reducidas. Por ello es aconsejable transformar cualquier variable aleatoria X que sigue que sigue una distribución N (μ,σ) en otra variable Z que siga una distribución N(0,1). El cambio de variable que es necesario hacer es el siguiente: X −μ Z =
σ Características: a)
Es generada por una variable de tipo continuo, denominada x;
-∞< x < ∞
1 b)
La función que nos define esta distribución es: f ( x,μ ,σ2 ) = σ
-∞< x < ∞ Al dar a la función los valores de μ , σ2 y valores a x, obtendremos la
2π ε−(
x−μ )2 / 2σ2
distribución en
cuestión, la que tiene forma de campana, por lo que también se le conoce como campana de Gauss. Hay un número infinito de funciones de densidad Normal, una para cada combinación de μ y σ. La media μ mide la ubicación de la distribución y la desviación estándar σ mide su dispersión.
c)
Es simétrica con respecto a su eje vertical.
d)
Es asintótica con respecto a su eje horizontal; esto quiere decir que jamás va a tocar el eje de las equis.
e)
El área total bajo la curva es 1.
152
f)
Sí sumamos a μ ± σ, se observará que aproximadamente el 68.26% de los
datos
se encuentran bajo la curva, si sumamos a μ ± 2σ, el 95.44% de los datos estará entre esos límites y si sumamos a μ ± 3 σ, entonces el 99.74% de los datos caerá dentro de esos límites. Esta característica es a la vez una forma empírica y
rápida de demostrar si los datos que se analizan tienen una distribución Normal; ya que para trabajar los datos con esta distribución, debe verificarse que efectivamente así se distribuyen, ya que de no hacerlo, las decisiones que en un momento dado se tomarán de un análisis de los datos con la distribución Normal, serían erróneas. Definición La distribución de una variable aleatoria normal con media cero y varianza 1 se llama distribución normal estándar. Problema: Encuentre la probabilidad para cada ejercicio, a) p( Z ≤1,23) La probabilidad pedida se encuentra directamente en las tabla s . Basta buscar 1,2 en la columna y 0,03 en la fila. Su intersección nos da la probabilidad.
P ( z ≤1.23) = 0.8907 Para calcularlo a través de la fórmula original se le suma 0.5 que es de la parte de la región negativa mas lo que se va a calcular.
153
UNIDAD III / FUNCIONES Y DISTRIBUCIONES MUESTRALES.
1.23
0.5 +
b)
1 2π
⎛⌠ ⎜⎮ ⎜⎮ ⋅⎜ ⎮ ⌡0
−u e
2
2
⎞ ⎟ ⎟ du ⎟
= 0.8907
( Z ≥1,24 )
⎝ ⎠ UNIDAD III / FUNCIONES Y DISTRIBUCIONES MUESTRALES.
P ( Z ≥1.24) =1− P ( Z <1.24) =1−0.8925= 0.1075 Dos formas de calcular: 1) usando el teorema P + q = 1
⎡ ⎢ ⎢
⎛⌠1.24 ⎜⎮
− u2
1 ⎜⎮
1 − ⎢0.5 +⋅⎜⎮⌡
⎣
2⋅π ⎝ 0
⎞⎤ ⎟⎥ ⎟⎥ du⎟⎥ =
2
e
0.1075
⎠⎦
2) Restando 0.5 que es la parte completa de la región sombreada de la sección positiva
⎛⌠1.24 ⎜⎮
− u2
1 ⎜⎮ 0.5 −⋅⎜⎮⌡ 2⋅π ⎝ 0
c)
2
e
⎞ ⎟ ⎟ du⎟ = 0.1075
⎠
P ( z ≤ - 0.72 )
154
P ( z ≤−0.72)= 0.2358
⎛⌠0
2
⎜⎮
⎞ ⎟
⎜⎮
⎟ du⎟ =
−u
d)
−
p(0,5 ≤ Z ≤1,76)
1
⋅
2
0.2358
⎠
0.5⎜⎮⌡ e
2π ⎝ − 0.72
Observando la figura se deduce que
p(0.5 ≤ ≤ z 1.76) = p z ( ≤1.76)− p z ( ≤ 0.5)
= 0.9608−0.6915 = 0.2693 ⌠1.76 ⎮ ⋅⎮ 2π ⌡
⎛⌠0.5 ⎜⎮
2
−u 2
1
du −
2π
2
−u 1
⎞ ⎟ ⎮⎜⎮
e⋅⎜⎮⌡
0⎝ 0
2
e
⎟ du⎟ = 0.2693
⎠
Problema: El peso de los individuos de una población se distribuye normalmente con media de 70 Kg. y desviación típica 6 Kg. De una población de 2000 personas, calcula cuántas tendrán un peso comprendido entre 64 y 76 Kg. Solución: Se trata de una distribución N (70,6) X
−μ
Z =
μ = 70 Kg. , σ = 6 Kg. ;
64−70 =−1
Z =
6
Z = -1
Z = 6
X = 64 y 76 Kg. σ
76−70 =1
Z = 1 p(64 ≤ X ≤ 769 = p(−1≤ z ≤1)
155
UNIDAD III / FUNCIONES Y DISTRIBUCIONES MUESTRALES.
= p( z ≤1)− p( z ≤ −1) Por tanto, p(64 ≤ X ≤ 76 ) = 0.8413 – 0.1587 = 0.6826 Esto significa que el 68,25 % de las personas pesan entre 64 y 76 Kg. Como hay 2000 personas, calculamos el 68,25% de 2000 y obtenemos 1365 personas. Problema: El acero que se utiliza para tuberías de agua a menudo se recubre internamente con un mortero de cemento para evitar la corrosión. En un estudio de los recubrimientos de mortero de una tubería empleada en un proyecto de transmisión de agua en California (Transportation Engineering Journal, Noviembre de 1979) se especificó un espesor de 7/16 pulgadas para el mortero. Un gran número de mediciones de espesor dieron una media de 0.635 pulgadas y una desviación estándar de 0.082 pulgadas. Sí las mediciones de espesor, tenían una distribución Normal, ¿qué porcentaje aproximado fue inferior a 7/16 de pulgada?
156
UNIDAD III / FUNCIONES Y DISTRIBUCIONES MUESTRALES.
Solución: x = variable que nos define el espesor del mortero en pulgadas; μ = 0.635 pulgadas; σ = 0.082 pulgadas Z
P ( Z ≤−2.41) = 0.0080 Por tanto, 0.008 x 100% = 0.8% de los recubrimientos de mortero tienen un espesor menor de 7/16 pulgadas Problema: Un tubo fluorescente estándar tiene una duración distribuida Normalmente, con una media de 7,000 horas y una desviación estándar de 1,000 horas. Un competidor ha inventado un sistema de iluminación fluorescente compacto que se puede insertar en los receptáculos de lámparas incandescentes. El competidor asegura que el nuevo tubo compacto tiene una duración distribuida Normalmente con una media de 7,500 horas y una desviación estándar de 1,200 horas. a)
¿Cuál tubo fluorescente tiene mayor probabilidad de tener una duración mayor de 9,000 horas?
b)
¿Cuál tubo tiene mayor probabilidad de tener una duración de menos de 5,000 horas?
Solución: a) Tubo 1 X1 = variable que nos define la duración en horas de un tubo fluorescente μ = 7,000 horas; σ = 1,000 horas Tubo 2 X2 = variable que nos define la duración del tubo fluorescente del competidor μ = 7,500 horas; σ = 1,200 horas
z 1 =
= 2.00
p(x1 > 9,000 horas) = p (z1 > 2.00 ) = 1 – 0.9772 = 0.0228
157
UNIDAD III / FUNCIONES Y DISTRIBUCIONES MUESTRALES.
z 2 =
= 1.25
p(x2 > 9,000 horas) = p(z2 > 1.25) = 1 – 0.8944 = 0.1056 Por tanto el tubo fluorescente del competidor tiene una probabilidad mayor de durar más de 9,000 horas. b) z 1 =
=−2.00
p(x1 < 5,000 horas) = p(z1 < -2.00) = 0.0228 z 2 =
=−2.08
p(x2 < 5,000 horas) = p(z2 < - 2.08) = 0 0.0188 Por tanto, el tubo fluorescente que tiene una mayor probabilidad de durar menos de 5,000 horas es el del primer fabricante. Problema: La distribución de la demanda (en número de unidades por unidad de tiempo) de un producto a menudo puede aproximarse con una distribución de probabilidad Normal. Por ejemplo, una compañía de comunicación por cable ha determinado que el número de interruptores terminales de botón solicitados diariamente ti ene una distribución Normal, con una media de 200 y una desviación estándar de 50. a)¿En qué porcentaje de los días la demanda será de menos de 90 interruptores? b)¿En qué porcentaje de los días la demanda estará entre 225 y 275 interruptores? c) Con base en consideraciones de costos, la compañía ha determinado que su mejor estrategia consiste en producir una cantidad de interruptores suficiente para atender plenamente la demanda en 94% de todos los días. ¿Cuántos interruptores terminales deberá producir la compañía cada día? Solución: a) X = variable que nos indica el número de interruptores demandados por día a una compañía de cable μ = 200 interruptores por día; σ = 50 interruptores por día
158
UNIDAD III / FUNCIONES Y DISTRIBUCIONES MUESTRALES.
=−2.20
z =
p(z = - 2.20) = 0.4861
p(x < 90) = p(z < -2.20) = 0.0139 Por tanto, 0.0139 x 100% = 1.39% de los días se tendrá una demanda menor de 90 interruptores.
b) z 1 =
= 0.50
z 2 =
=1.50
p(225≤ x ≥ 275) = p(z2) – p(z1) = 0.4332 – 0.1915 = 0.2417 Por tanto, 0.2417 x 100% = 24.17% de los días se tendrá una demanda entre 225 y 275 interruptores. c)
En este caso se trata de determinar que valor toma x cuando se pretende cumplir con el 94% de la demanda de todos los días.
Por tanto despejaremos de la fórmula de z; x Z x = μ + zσ
−μ ; x = μ + z(p = 0.44)σ = 200 + z(p = 0.44)(50) =
= 200 + (1.55)(50) = 277.5 ≅ 278 interruptores terminales por día ¿Cómo se obtiene el valor de z? En la tabla buscamos la z que corresponde a una probabilidad de 0.44 y nos damos cuenta de que no existe un valor exacto de 0.44 por lo que tomamos los valores de área más cercanos; luego, z(p = 0.4394) = 1.50;
z(p = 0.4406) = 1.60
Por tanto si interpolamos, encontramos que el valor de z para una probabilidad de 0.44 es de 1.55, y es el valor que se sustituye en la ecuación.
159
UNIDAD III / FUNCIONES Y DISTRIBUCIONES MUESTRALES.
¿Cuál es la razón de usar un área de 0.44 en lugar de una de 0.94 para buscar en la tabla el valor de z? Es muy simple, la tabla que estamos usando es una tabla que solo trabaja con áreas que son definidas de la media hasta el valor de x y x puede puede estar tanto del lado derecho de la media, como del lado izquierdo de la media, es por esto que el área a utilizar es de 0.44 que se encuentra al lado derecho de la media. Problema: La nota media de las pruebas de acceso correspondientes a los estudiantes que querían ingresar en una facultad era 5,8 y la desviación típica 1,75. Fueron admitidos los de nota superior a 6. a)
¿Cuál fue el porcentaje de admitidos si la distribución es normal?
b)
¿Con qué probabilidad exactamente cuatro de diez estudiantes son admitidos por distribución binomial?
Solución: a)μ = 5.8 ; σ = 1.75 ; x = 6 Z = ( 6 – 5.8 ) / 1.75 = 0.11 P ( X > 6 ) = p ( Z > 0.11 ) = 1 – P ( Z < 0.11 ) = 1 – 0.5438 = 0.4562 = 45.62 % b) Es una distribución Binomial de parámetros n = 10 y p = 0,4562 p(obtener r éxitos ) = p (X = r) =
=⎛⎝⎜n⎞⎟ p pr .(1− p)n−r = p( X X = 4) =⎜⎜⎛10 4 ⎞⎟⎟⎠(0,4562)4 (1− 0,4562)6 =
⎜r ⎟⎠ =
⎝ (0,4562)4(0,5438)6 = 0,235
Problema: Dada una distribución normal con μ = 50 y σ = 10, encuentre la probabilidad de que x tome un valor en 45 y y 62. Z 1 = ( 45 – 50 ) / 10 = - 0.5
Z 2 = ( 62 – 50 ) / 10 = 1.2
160
UNIDAD III / FUNCIONES Y DISTRIBUCIONES MUESTRALES.
p ( 45 < X < 62 ) = p ( -0.5 < Z < 1.2 ) = P ( Z < 1.2 ) – P ( Z < - 0.5 ) = 0.8849 – 0.3085 = 0.5764 Problema: Dada una distribución normal con μ = 300 y σ = 50, encuentre la probabilidad de que X tome un valor mayor que 362. Z = ( 362 – 300 ) / 50 = 1.24 P ( X > 362 ) = P ( Z > 1.24 ) = 1 – p ( Z < 1.24 ) = 1 – 0.8925 = 0.1075 Problema: Una empresa eléctrica fabrica focos que tienen una duración , antes de fundirse, que se distribuye normalmente con media igual a 800 horas y una desviación estándar de 40 horas. Encuentre la probabilidad de que un f oco se funda entre 778 y 834 horas. Solución: Z 1 = ( 778 – 800 ) / 40 = - 0.55 ;
Z 2 = ( 834 – 800 ) / 40 = 0.85
P (778 < X < 834 ) = p ( - 0.55 < Z < 0.85 ) = P ( Z < 0.85 ) – P ( -0.55) = 0.8023 – 0.2912 = 0.5111 Problema: En un proceso industrial el diámetro de un cojinete es una parte importante del componente. El comprador establece que las especificaciones en el diámetro sean 3.0 ± 0.01 cm. La implicación es que ninguna parte que caiga fuera de estas especificaciones se aceptará. Se sabe que en el proceso el diámetro de un cojinete tiene una distribución normal con media 3.0 y una desviación estándar de 0.005. En promedio, ¿cuántos cojinetes se descartaran? Solución: X 1 = 3.0 – 0.01 cm = 2.99 cm; X 2 = 3.0 + 0.01 cm = 3.01 μ = 3.0 ; σ = 0.005 Z 1 = ( 2.99 – 3.0 ) / 0.005 = - 2.0
161
UNIDAD III / FUNCIONES Y DISTRIBUCIONES MUESTRALES.
Z 2 = ( 3.01 – 3.0 ) / 0.005 = 2.0 P ( 2.99 < x < 3.01 ) = P (-2.0 < Z < 2.0 ) = p ( Z < 2.0 ) – P ( Z < - 2.0 ) = 0.9772 – 0.0228 = 0.9544 Ejemplo: Cierta maquina fabrica resistores eléctricos que tienen una resistencia media de 40 ohmios y una desviación estándar de 2 ohmios. Suponga que la resistencia sigue una distribución normal y se puede medir con cualquier grado de precisión, ¿qué porcentaje de resistores tendrán una resistencia que exceda 43 ohmios? Solución: X = 43 ; μ = 40; σ = 2 Z = (43 – 40 ) / 2 = 1.5 P ( X > 43 ) = P ( Z > 1.5 ) = 1 – P( Z < 1.5 ) = 1 – 0.9332 = 0.0668 = 6.68 %
3.7 Aproximación de la Binomial a la normal. Cuando n es grande y p está próximo a 0,5 el comportamiento de una distribución binomial B(n, p) es aproximadamente igual a una distribución normal,
N (np, npq) Esto permite sustituir el estudio de una B una B(n, p) por el de una N (np, npq) . Suele considerarse que la aproximación es buena cuando n p>5 y y n q>5 Dado que por mucho que se parezca nunca es igual una binomial bi nomial que una normal, es necesario aplicar en el cálculo de probabilidades un ajuste que recibe el nombre de corrección de Yates. Si X es la binomial y X’ la normal, la corrección consiste en lo siguiente:
⎛
p( X X = r ) = p ⎜r −
⎝
1
≤ X ′≤ ′≤ r +
2
1⎞
⎟
2⎠
(Se asocia un intervalo unidad centrado en el punto)
162
UNIDAD III / FUNCIONES Y DISTRIBUCIONES MUESTRALES.
⎛
p(a ≤ X ≤b) = p ⎜a −
⎝
2
1
≤ X ′≤ ′≤b + 2⎠
1⎞
⎟
(se alarga el intervalo ½ por la izquierda y ½ por la derecha.) Para valores de n mayores de 1.000 se puede suprimir la corrección. Problema: Se lanza una moneda correcta al aire 400 veces. Calcula la probabilidad de obtener un número de caras comprendido entre 180 y 210, ambos inclusive. Solución: Calculamos la media y la desviación típica de la distribución binomial:
1 1 npq = 400. . =10 2 2 . Por tanto,
;
p(180 ≤ X ≤ 210) = p(179.5 ≤ x′ ≤ 210.5) p⎛179.5−200
⎜⎝
10
z ≤ 210.5−200 ⎞⎟
≤
10
⎠
Z ≤1,05) − p( Z Z ≤− ≤−2,05) = p(−2,05≤ Z ≤1,05) = p( Z pero p( Z Z ≤1,05) = 0,8531 p z ( ≤−2.05) = p z ( ≥ 2.05) = −1 p z ( ≤ 2.05) = −10.9798 = 0.0202 luego p luego p(180 ≤ X ≤ 210) = 0,8531 − 0,0202 = 0,8329 Problema: Un tirador acierta en el blanco en el 70% de los tiros. Si el tirador participa en una competición y tira 25 veces, ¿cuál es la probabilidad de que acierte más de 10 tiros? Solución: Es una distribución B(25; 0,7) que podemos aproximar a través de la normal:
μ=
n p .p = 25.0,7 =17,5 >5 n.q = 25.0,3 = 7,5 >5 163
UNIDAD III / FUNCIONES Y DISTRIBUCIONES MUESTRALES.
La aproximación será buena.
σ= npq= 25.0,7.0,3 = 2,29 ⎛
10.5
p x( >10) = p x( ≥11) = p x( ′ ≥10.5) p z ⎜ ≥
−17.5 ⎞ ⎟⎠ = p z ( ≥ −3.06) = −1
2.29
p
z (
≤
3.06)
=
−1
0.0010 = 0.999
⎝ = p( Z Z ≤ 3,06) = 0,9998 Problema: Hallar la probabilidad de obtener entre 3 y 6 caras inclusive en 10 lanzamientos de una moneda honrada utilizando (a)
La distribución binomial,
(b)
la aproximación normal a la distribución binomial.
Solución a)
sea X la variable variable aleatoria que da el numero numero de caras en 10 lanzamientos. lanzamientos. Entonces :
P ( X = 3 ) = (10C 3) (1/2) 3 (1/2) 7 = 15 /128 = 0.1172 P ( X = 4 ) = (10C4 ) (1/2) 4 (1/2) 6 = 105/512 = 0.2051 P ( X = 5 ) = (10C 5) (1/2) 5 (1/2) 5 = 63/256 = 0.2461 P ( X = 6 ) = (10C 6) (1/2) 6 (1/2) 4 = 105/512 = 0.2051 Entonces la probabilidad pedida es P ( 3 ≤ x ≤ 6 ) = 15/128 + 105/512 + 63/256 + 105/512 = 99/128 = 0.7734
164
UNIDAD III / FUNCIONES Y DISTRIBUCIONES MUESTRALES.
numero de caras 0,3 0,25 0,2 0,15 0,1 0,05 0 0
5
10
15
Figura 1:
numero des 0,3 025 , 0,2 0,15 0,1 0,05 0 0
2
4
6
8
10
12
Figura 2: b) La distribución de probabilidad para el numero de caras en 10 lanzamientos de la moneda se presentan gráficamente en las figuras 1 y 2 . en la figura 2 trata los datos como si fueran continuos. La probabilidad pedida es la suma de las áreas de los rectángulos sombreados en la figura 2 y puede aproximarse por el área bajo la correspondiente curva normal, mostrada a trazos. Considerando los datos como continuos, se deduce que 3 a 6 caras pueden considerarse como 2.5 a 6.5 caras. También la media y la varianza para la distribución Binomial están dadas por:
165
UNIDAD III / FUNCIONES Y DISTRIBUCIONES MUESTRALES.
μ= =np 10(0.5) = 5 σ= npq = 10(0.5)(0.5) =1.58
z 1 =
2.5−5 =−1.58 1.58
z 1 = 1.58
6.5−5 = 0.95
p( 1.58− < < z 0.95) = p z ( < 0.95)− p z ( <−1.58)
= 0.8289−0.0571 = 0.7718 Se compara muy bien con el valor verdadero de 0.7734 obtenido en el i nciso a) . La precisión es aun mejor para valores superiores de n. Problema: La probabilidad de que un paciente se recupere de una rara enfermedad de la sangre es 0.4. si se sabe que 100 personas contraen esta enfermedad, ¿cual es la probabilidad de que menos de 30 sobrevivan ? Solución:
μ= =np 100(0.4) = 40 σ=
npq =
100(0.4)(0.4) = 4.899 z 1
==−2.14
p x( < 30) = p z ( <−2.14) = 0.0162 Problema: Una prueba de opción múltiple tiene 200 preguntas cada una con cuatro respuestas posibles de las que solo una es la correcta. ¿Cual es la probabilidad De que con puras c onjeturas se obtengan de 25 a 30 respuestas correctas para 80 de los 200 problemas acerca de los que el estudiante no tiene conocimiento? Solución : La probabilidad de un respuesta correcta para cada una de las 80 preguntas es p = ¼. Si X representa el número de respuesta correcta debidas a conjeturas entonces:
∑
p(25 ≤ ≤ x30) = xx
⎛
b x ⎜⎝ ,80, 14 ⎞⎟⎠
==3025
166
UNIDAD III / FUNCIONES Y DISTRIBUCIONES MUESTRALES.
⎛⎞
μ= np = 80 ⎜ ⎟⎝ ⎠14 = 20
σ= 180⎛ ⎞⎛ ⎞⎜ ⎟⎜ ⎟⎝ ⎠⎝ ⎠1443 = 3.873
necesitamos el área entre X 1 = 24.5 y X 2 = 30.5. Los valores Z correspondientes son Z1 = (24.5 – 20 ) / 3.875 = 1.16
y
Z 2 = (30.5 – 20 ) / 3.873 = 2.71
La probabilidad de adivinar correctamente de 25 a 30 preguntas está dada por la región sombreada de la figura.
P ( 25 ≤ X ≤ 30 ) =p ( 1.16 < Z < 2.71 ) = p ( X < 2.71) – P ( X < 1.16) = 0.9966 – 0.8770 = 0.1196
3.8 Otras distribuciones muéstrales. 3.8.1 Distribución T - Student.
167
UNIDAD III / FUNCIONES Y DISTRIBUCIONES MUESTRALES.
Propiedades de las distribuciones t 1. Cada curva t tiene forma de campana con centro en cero. 2. Cada curva t esta mas dispersa que la curva normal estándar z. 3. A medida que v aumenta, la dispersión de la curva t correspondiente disminuye.
X X X Sean 1, 2,..., n variables aleatorias independientes que son todas normales con μ y x−
μ
desviación estándar. Entonces la variable aleatoria t = tiene una distribución t con v = s n n – 1 grados de libertad. Problema: El valor t con v = 14 grados de libertad que deja un área de 0.025 a la izquierda y por tanto un área de 0.975 a la derecha es t 0.975 =−t 0.025 =−2.145 t Problema: Encuentre la probabilidad de − 0.025 <
deja un área de 0.05 a la derecha y −
0.05
t 0.05
t 0.025
deja un área de 0.025 a la izquierda
encontramos un área total de 1- 0.05 – 0.025 = 0.925 P (−t 0.025 <
Problema: Un ingeniero químico afirma que el rendimiento medio de la población de cierto proceso en lo lotes es 500 gramos por milímetro de materia prima. Para verificar esta afirmación toma una muestra de 25 lotes cada mes. Si el valor de t calculado cae entre
y t t 0.05 0.05 , queda satisfecho
con su afirmación. ¿Qué conclusión extraería de una muestra que tiene una media de 518 gramos por milímetro y una desviación estándar de 40 gramos? Suponga que la distribución de rendimiento es aproximadamente normal. Solución:
168
UNIDAD III / FUNCIONES Y DISTRIBUCIONES MUESTRALES.
518 −500 40 25 = 2.25 t= Este es un valor por arriba de 1.711. Si se desea obtener la probabilidad de obtener un valor de t con 24 grados de libertad igual o mayor a 2.25 se busca en la tabla y es aproximadamente de 0.02. De aquí es probable que el fabricante concluya que el proceso produce un mejor producto del que piensa.
3.8.2 Distribución X cuadrada. Propiedades de las distribuciones ji – cuadrada. 1. Los valores de
son mayores o iguales que cero.
ଶ
2. La forma de una distribución
ଶ
depende del gl = n – l . En consecuencia , hay un
número infinito de distribuciones de
.
ଶ
3. El área bajo una curva ji – cuadrada y sobre el eje horizontal es 1. Problema: Los siguientes son los pesos en decagramos de 10 paquetes de semillas de pasto distribuida por cierta compañía: 46.4, 46.1, 45.8, 47.0, 46.1,45.9,45.8, 46.9, 45.2, 46. Encuentre un intervalo de confianza de 95 % para la varianza de todos los paquetes de semillas de pasto que distribuye esta compañía suponga una población normal. Solución:
s =
∑( x − x) = 0.5347 n−1 i
2
Al elevar este resultado al cuadrado se obtiene la varianza de la muestra Varianza = 0.286
Para obtener un intervalo de confianza de 95% se elige un α= 0.05 con 9 grados de libertad se obtiene los valores de . ଶ
169
UNIDAD III / FUNCIONES Y DISTRIBUCIONES MUESTRALES.
Se puede observar en la gráfica anterior que el valor
. Corre en forma normal, esto es de
ଶ
izquierda a derecha.
Se observa que la varianza corre en sentido contrario, pero esto es solo en la grafic a. Con un nivel de confianza del 95% se sabe que la varianza de la población de los pesos de los paquetes de semillas de pasto está entre 0.135 y 0.935 decagramos al cuadrado. Problemas propuestos P1. En una cierta área de la ciudad se da como una razón del 75% de los robos la necesidad de dinero para comprar estupefacientes. Encuentre la probabilidad que dentro de los 5 próximos asaltos reportados en esa área a) exactamente 2 se debieran a la necesidad de dinero para comprar drogas; b) cuando mucho 3 se debieran a la misma razón arriba indicada.
170
UNIDAD III / FUNCIONES Y DISTRIBUCIONES MUESTRALES.
P2. Un agricultor que siembra fruta afirma que 2/3 de su cosecha de duraznos han sido contaminada por la mosca del mediterráneo. Encuentre la probabilidad de que al inspeccionar 4 duraznos a)
los 4 estén contaminados por la mosca del mediterráneo
b)
cualquier cantidad entre 1 y 3 esté contaminada.
P3. De acuerdo con una investigación llevada a cabo por la Administrative Management Society, 1/3 de las compañías en Estados Unidos le dan a sus empleados cuatro semanas de vacaciones después de 15 años de servicio. Encuentre la probabilidad de que 6 de las compañías investigadas al azar, el número que les dan a sus empleados cuatro semanas de vacaciones después de 15 años de servicio es a) cualquier cantidad entre 2 y 5; b) menos de 3. P4. De acuerdo con un estudio publicado por un grupo de sociólogos de la Universidad de Massachussets, aproximadamente 60% de los adictos al Valium en el estado de Massachussets, lo tomaron por primera vez debido a problemas psicológicos. Encuentre la probabilidad de que los siguientes 8 adictos entrevistados a)
exactamente 3 hayan comenzado a usarlo debido a problemas psicológicos.
b)
al menos 5 de ellos comenzaran a tomarlo por problemas que no fueron psicológicos.
P5. Al probar una cierta clase de neumático para camión en un terreno escabroso se encontró que 25% de los camiones terminaban la prueba con los neumáticos dañados. De los siguientes 15 camiones probados encuentre la probabilidad de que a)
De 3 a 6 tengan ponchaduras;
b)
Menos de 4 tengan ponchaduras;
c)
Mas de 5 tengan ponchaduras
P6. De acuerdo con un reporte publicado en la revista Parade, septiembre 14 de 1980, una investigación a nivel nacional llevada a cabo por la Universidad de Michigan reveló que casi el 70% de los estudiantes del último año desaprueban las medidas para controlar el hábito de fumar mariguana todos los días. Si 12 de estos estudiantes se seleccionan al azar y se les pregunta su opinión, encuentre la probabilidad de que el número que desaprueba dicha medida sea a.
cualquier cantidad entre 7 y 9
171
UNIDAD III / FUNCIONES Y DISTRIBUCIONES MUESTRALES.
b.
cuando mucho 5;
c.
no menos de 8
P7. La probabilidad de que un paciente se recupere de una delicada operación de corazón es de 0.9. ¿Cuál es la probabilidad de que exactamente 5 de los próximos 7 pacientes que se sometan a esta intervención sobrevivan? P8. Un ingeniero de control de tráfico reporta que el 75% de los vehículos que pasan por un punto de verificación tienen matrículas del estado. ¿Cuál es la probabilidad de que más de 7 de los siguientes 9 vehículos no sean del estado? P9. Una investigación de los residentes de una ciudad de Estados Unidos mostró que 20% preferían un teléfono blanco que de cualquier otro color disponible. ¿Cuál es la probabilidad de que más de la mitad de los siguientes 20 teléfonos que se instalen en esta ciudad sean de color blanco?
P10. Se sabe que el 40% de los ratones inyectados con un suero quedan protegidos contra una cierta enfermedad. Si 5 ratones son inyectados, encuentre la probabilidad de que a.
Ninguno contraiga la enfermedad;
b.
Menos de 2 la contraigan;
c.
Más de 3 la contraigan
P11. Suponga que los motores de un aeroplano operan en forma independiente y de que fallan con una probabilidad de 0.4. Suponiendo que uno de estos artefactos realiza un vuelo seguro en tanto se mantenga funcionando cuando menos la mitad de sus motores, determine qué aeroplano, uno de los 4 motores o uno de 2, tiene mayor probabilidad de terminar su vuelo exitosamente. P12. Las probabilidades son de 0.4, 0.2, 0.3 y 0.1, respectivamente, de que un delegado llegue por aire a cierta convención, llegue en autobús, 3en automóvil o en tren. ¿Cuál es la probabilidad de que entre 9 delegados seleccionados aleatoriamente en esta convención, 3 hayan llegado por aire, 3 en autobús, 1 en automóvil y 2 en tren.
172
UNIDAD III / FUNCIONES Y DISTRIBUCIONES MUESTRALES.
P13. El dueño de una casa planta 6 tallos que selecciona al azar de una caja que contiene 5 tallos de tulipán y 4 de narciso. ¿Cuál es la probabilidad de que plante 2 tallos de narciso y 4 de tulipán? P14. Un comité de tres integrantes se forma aleatoriamente seleccionando de entre 4 doctores y 2 enfermeras. Escriba una fórmula para la distribución de probabilidad de la variable aleatoria X que representa el número de doctores en el comité. Encuentre P(2 ≤ X ≤ 3). P15. Una compañía está interesada en evaluar sus actuales procedimientos de inspección en el embarque de 50 artículos idénticos. El procedimiento es tomar una muestra de 5 piezas y autorizar el embarque si se encuentra que no más de 2 están defectuosas. ¿qué proporción del 20% de embarques defectuosos serán autorizados? P16. La probabilidad de que una persona que vive en cierta ciudad posea un perro se estima en 0.3. Encuentre la probabilidad de que la décima persona entrevistada aleatoriamente en esta ciudad sea la quinta persona que posee un perro. P17. Un científico inocula varios ratones, uno a la vez, con un germen de una enfermedad hasta que obtiene 2 que la han contraído. Si la probabilidad de contraer la enfermedad es 1/6. ¿cuál es la probabilidad de que se requieran 8 ratones? P18. Suponga que la probabilidad de que una persona determinada crea una historia acerca de los atentados a una famosa actriz es de 0.8. ¿Cuál es la probabilidad de que a)
la sexta persona que escucha tal historia sea la cuarta que la crea?
b)
La tercera persona que escucha tal historia sea la primera en creerla?
P19. Tres personas lanzan una moneda y la que salga dispareja paga los cafés. Si todas las monedas caen iguales, se lanzan nuevamente. Encuentre la probabilidad de que se necesiten menos de 4 lanzamientos. P20. La probabilidad de que un estudiante para piloto apruebe el examen escrito para obtener su licencia de piloto privado es de 0.7. Encuentre la probabilidad de que una persona apruebe el examen a. en el tercer intento b. antes del cuarto intento
173
UNIDAD III / FUNCIONES Y DISTRIBUCIONES MUESTRALES.
P21. El número promedio de ratas de campo por acre en un c ampo de trigo de 5 acres se estima que es de 12. Encuentre la probabilidad de que menos de 7 ratas de campo se encuentren a. en una acre de terreno determinado; b. en 2 de los siguientes 3 acres inspeccionados. P22. Un restaurante prepara una ensalada que contiene en promedio 5 verduras diferentes. Encuentre la probabilidad de que la ensalada contenga más de 5 verduras a. en un determinado día; b. en 3 de los siguientes 4 días; c. por primera vez el 5 de abril. P23. La probabilidad de que una persona muera debido a cierta infección respiratoria es 0.002. Encuentre la probabilidad de que mueran menos de 5 de las próximas 2000 personas infectadas. P24. Suponga que en promedio 1 persona de cada 1000 comete un error numérico al preparar su declaración de impuestos. Si se seleccionan al azar 10 000 formas y se examinan, encuentre la probabilidad de que 6, 7 u 8 formas tengan error. P25. La probabilidad de que un estudiante presente problemas de escoliosis (desviación lateral sufrida por la columna vertebral) en una escuela de la localidad es de 0.004. De los siguientes 1875 estudiantes revisados encuentre la probabilidad de que a) menos de 5 presenten este problema b) 8, 9 o 10 presenten este problema P26. Se está considerando la producción de una máquina automática de soldar. Se considerará exitosa si tiene una efectividad del 99% en sus soldaduras. De otra manera, no se considerará eficiente. Se lleva a cabo la prueba de un prototipo y se realizan 100 soldaduras. La máquina se aceptará para su fabricación si no son defectuosas más de tres soldaduras. a. ¿Cuál es la probabilidad de que una máquina eficiente sea rechazada? b. ¿Cuál es la probabilidad de que una máquina ineficiente con 95% de soldaduras correctas sea aceptada? P27. Una agencia que renta automóviles en un aeropuerto local tiene disponibles 5 Ford, 7 Chevrolet, 4 Dodge, 3 Datsun y 4 Toyota. Si la agencia selecciona aleatoriamente 9 de estos vehículos para transportar delegados desde el aeropuerto hasta el centro de convenciones en
174
UNIDAD III / FUNCIONES Y DISTRIBUCIONES MUESTRALES.
el centro de la ciudad, encuentre la probabilidad de que se utilicen 2 Ford, 3 Chevrolet, 1 Dodge, 1 Datsun y 2 Toyota. P28. Un investigador de la UCLA reporta que las ratas viven un promedio de 40 meses cuando sus dietas son muy restringidas y luego enriquecidas con vitaminas y proteínas. Suponiendo que las vidas de tales ratas están normalmente distribuidas con una desviación estándar de 6.3 meses, encuentre la probabilidad de que una rata determinada viva a) más de 32 meses; b) menos de 28 meses; c) entre 37 y 49 meses. P29. Las piezas de pan de centeno distribuidas a las tiendas locales por una cierta pastelería tienen una longitud de 30cm y una desviación estándar de 2cm. Suponiendo que las longitudes están normalmente distribuidas, ¿qué porcentaje de las piezas son a)
de más de 31.7cm de longitud?
b)
entre 29.3 y 33.5 cm de longitud?
c)
de una longitud menor que 25.5 cm?
P38. Una máquina despachadora de refrescos está ajustada para servir un promedio de 200 ml por vaso. Si la cantidad de refresco es normalmente distribuida con una desviación estándar igual a 15 ml. a)
¿Qué fracción de los vasos contendrá más de 224 ml?
b)
¿Cuál es la probabilidad de que un vaso contenga entre 191 y 209 ml?
c)
¿Cuántos vasos probablemente se derramarán si se utilizan vasos de 230 ml en los siguientes 1000 refrescos?
175
UNIDAD 4 ESTADISTICA APLICADA.
Objetivo: Conocerá los aspectos fundamentales de la inferencia estadística. Definirá su aplicación en situaciones reales o simuladas.
UNIDAD IV / ESTADISTICA ESTADISTICA APLICADA.
4.1 Inferencia estadística. 4.1.1 Concepto. La teoría de la inferencia estadística estadística consiste en aquellos métodos por los que se realizan inferencias o generalizaciones acerca de una población. La tendencia actual es la distribución entre el método clásico de clásico de estimación de un parámetro de la población, por medio del cual las inferencias se basan de manera estricta en información que se obtiene de una muestra aleatoria seleccionada de la población, y el método Bayesiano, Bayesiano, que utiliza el conocimiento subjetivo previo sobre la distribución de probabilidad de los parámetros desconocidos junto con la información que proporcionan los datos de la muestra. En esta unidad utilizaremos los métodos clásicos para estimar los parámetros de la población desconocidos como la media, la proporción y la varianza mediante el cálculo de estadística de muestras aleatorias y la aplicación de la teoría de las distribuciones muéstrales.
4.1.2 Estimación. El objetivo principal de la estadística inferencial es la estimación, estimación, esto es que mediante el estudio de una muestra de una población se quiere generalizar las conclusiones al total de la misma. Como vimos en la sección anterior, los estadísticos varían mucho dentro de sus distribuciones muéstrales, y mientras menor sea el error estándar de un estadístico, más cercanos serán unos de otros sus valores. Existen dos tipos de estimaciones para parámetros; puntuales y por intervalo in tervalo. Una estimación puntual es un único valor estadístico y se usa para estimar un parámetro, que se calcula a p artir de una muestra dada y sirve como una ap roximación del valor exacto desconocido del parámetro. intervalo , es la estima de El estadístico usado se denomina estimador . Una estimación por intervalo, un parámetro poblacional dada por dos números entre los cuales se considera c onsidera que se encuentra dicho parámetro generalmente de ancho finito
4.1.3 Prueba de hipótesis. Las secciones anteriores han mostrado cómo puede estimarse un parámetro a partir de los datos contenidos en una muestra. Puede encontrarse ya sea un sólo número (estimador puntual) o un intervalo de valores posibles (intervalo de confianza). Sin embargo, muchos problemas de ingeniería, ciencia, y administración, requieren que se tome una decisión entre aceptar o rechazar una proposición sobre algún parámetro. Esta proposición recibe el nombre de hipótesis. Este es uno de los aspectos más útiles de la inferencia estadística, puesto que muchos tipos de
177
UNIDAD IV / ESTADISTICA ESTADISTICA APLICADA.
problemas de toma de decisiones, pruebas o experimentos en el mundo de la ingeniería, pueden formularse como problemas de prueba de hipótesis.
4.1.4 Método clásico de estimación (puntual). Una estimación puntual de un parámetro θ es un solo numero que se puede considerar como el valor mas razonable de
θ.
La estimación puntual se obtiene al seleccionar una estadística
apropiada y calcular su valor a partir de datos de la muestra dada. La estadística estadística seleccionada se llama estimador puntual de θ.
4.1.5 Estimador Insesgado. Entre todos los estimadores de θ que son insesgados, seleccione al que tenga varianza mínima. ˆ
El θ resultante recibe el nombre de estimador insesgado con varianza mínima (MVUE, minimum variance unbiased estimator) de . En otras palabras, la eficiencia se refiere al tamaño de error estándar de la estadística. Si comparamos dos estadísticas de una muestra del mismo tamaño y tratamos de decidir cuál de ellas es un estimador más eficiente, escogeríamos la estadística que tuviera el menor error estándar, o la menor desviación estándar de la distribución de muestreo. Tiene sentido pensar que un estimador con un error estándar menor tendrá una mayor oportunidad de producir una estimación más cercana al parámetro de población que se está considerando.
4.2 Intervalos de confianza. 4.2.1 Estimación por intervalo. Las estimaciones por intervalo de un parámetro poblacional
desconocido dan idea de la
precisión y exactitud de la inferencia efectuada, junto con la probabilidad de que tal estimación sea cierta. Se calculan a través de los llamados: intervalos de confianza. Estos se construyen con la función probabilística del modelo estadístico adoptado para realizar la estimación
4.2.2 Límites de confianza. Estimas por intervalo de confianza, de parámetros poblacionales.
178
UNIDAD IV / ESTADISTICA ESTADISTICA APLICADA.
Un intervalo de confianza con un nivel de confianza de 95% de la resistencia real promedio a la ruptura podría tener un límite inferior de 9162.5 y uno superior de 9482.9. Entonces, en un nivel de confianza de 95%, es posible tener cualquier valor de
μ entre 9162.5 y 9482.9. Un nivel de
confianza de 95% implica que 95% de todas las muestras daría lugar a un intervalo que incluye
μ o cualquier otro parámetro que se esté estimando, y sólo 5% de las muestras producirá un intervalo erróneo. Cuanto mayor sea el nivel de confianza podremos creer que el valor del parámetro que se estima está dentro del intervalo.
Intervalos (S ± σ s , S ± 2σ s , S ± 3σ s ) son llamados lo limites de confianza del 68.27 %, 95.45 % y 99.73 % o como otras veces se conocen limites fiduciales . Análogamente, S ± 1.96σ s y S ± 2.58 σ s son los limites de confianza del 95 % y 99 % ( ó 0.95 y 0.99 ) para μs. El porcentaje de confianza se llama también nivel de confianza. Los números 1.96, 2.58, etc., de los limites de confianza se llaman coeficientes de confianza o valores críticos y se denotan por Zc . De los niveles de confianza se pueden obtener los coeficientes de confianza y recíprocamente. En la tabla siguiente se dan los valores de Z c que corresponden a distintos niveles de c onfianza utilizados en la práctica. Para niveles de confianza que no se encuentra en la tabla , los valores de Z c pueden sacarse de las tablas de la curva normal en el Apéndice A.
Nivel de confianza (%)
179
UNIDAD IV / ESTADISTICA APLICADA.
99.73
3.00
99
2.58
98
2.33
96
2.05
95.45
2.00
95
1.96
90
1.645
80
1.28
68.27
1.00
50
0.6745
Estos intervalos abiertos por izquierda o por derecha se denominan de una cola, mientras que los comunes para la estimación de parámetros poblacionales son de dos colas. Niveles de significancia
Niveles de confianza
Coeficiente de confianza
α
NC = (1−α)*100
Z α
0.0005 0.0010 0.0013 0.0050 0.0100 0.0227 0.0250 0.0500 0.1587
99.95 % 99.90 % 99.87 % 99.50 % 99.00 % 97.72 % 97.50 % 95.00 % 84.13 %
3.29 3.09 3.00 2.58 2.33 2.00 1.96 1.645 1.00
99.90%
99.00%
95.00%
1 cola
3.09
2.33
1.645
2 cola
3.29
2.58
1.96
4.2.3 Intervalo de confianza para media con varianza conocida. 1.
Grandes muestras ( n ≥ 30 ).
La fórmula para el cálculo de probabilidad es la siguiente:
180
UNIDAD IV / ESTADISTICA APLICADA.
x −μ Z
σ
=
n
Como en este caso no conocemos el parámetro y lo queremos estimar por medio de la media de la muestra, sólo se despejará μ de la formula anterior, quedando lo siguiente:
σ μ= x± Z c
n
De esta fórmula se puede observar que tanto el tamaño de la muestra como el valor de z se conocerán. Z se puede obtener de la tabla de la distribución normal a partir del nivel de confianza establecido. Pero en ocasiones se desconoce σpor lo que en esos casos lo correcto es utilizar otra distribución llamada “t” de Student si la población de donde provienen los datos es normal. Para el caso de
tamaños de muestra grande se puede utilizar una estimación puntual de la desviación estándar, es decir igualar la desviación estándar de la muestra a la de la población (s = σ). En el caso de muestreo en una población infinita o si el muestreo es con remplazamiento en una población finita y por
σ − μ= x± Z c N n n N −1 Si el muestreo es sin remplazamiento en una población finita de tamaño N. En general, la desviación típica poblacional σ es desconocida, de modo que para obtener los límites de confianza anteriores se utiliza la estima muestra S. Muestras grandes. Problema: Supóngase que las estaturas de 100 estudiantes de la universidad XYZ. Hallar los intervalos de confianza del: a)
95 % y
b)
99 % .
Para estimar la estatura media de ⎯ X = 67.45 y
σ= 2.73pulgadas de los estudiantes de la
universidad XYZ.
181
UNIDAD IV / ESTADISTICA APLICADA.
x ± Z C σ n a) Los límites de confianza del 95% son Zc = 1.96 67.45 + 1.96⋅
2.93
= 68.02
100
67.45 − 1.96 ⋅
2.93 100
= 66.88
Así, pues, el intervalo de confianza del 95 % para la media poblacional μ es 66.88 a 68.02 pulgadas, que puede denotarse por 66.88 < μ < 68.02 b)
Los límites de confianza del 99 % son 67.45 + 2.58 ⋅
2.93 100
= 68.21
67.45 − 2.58 ⋅
2.93 100
= 66.69
Así, pues, el intervalo de confianza del 99 % para la media poblacional μ es 66.69 a 68.21 pulgadas, que puede denotarse por 66.69 < μ < 68.21 Problema: Las medidas de los diámetros de una muestra de 200 cojinetes de bolas hechos por una determinada maquina durante una semana dieron una media de 0.824 pulgadas y una desviación típica de 0.042 pulgadas. Hallar los limites de confianza del a) b)
95 %
99 %
Para el diámetro medio de todos los cojinetes. Solución: a)
los limites de confianza del 95% son
Zc = 1.96 +
0.824
b)
⋅
0.042 200
= 0.83
0.824 − 1.96⋅
0.042 200
= 0.818
1.96
los limites de confianza del 99% son
Zc = 2.58 0.824
+
⋅
0.042 200
= 0.832
0.824 − 2.58⋅
0.042 200
= 0.816
2.58
Problema: Hallar los limites de confianza del a)
98 %
b) c)
90 % 99.73 %
182
UNIDAD IV / ESTADISTICA APLICADA.
Para el diámetro medio de los cojinetes del problema anterior. Solución: a)
Los limites de confianza del 98 %
Zc = 2.33 ⋅
+
0.824
b)
0.042
= 0.831
200
0.824 − 2.33⋅
0.042 200
= 0.817
2.33
Los limites de confianza del 90 %
Zc = 1.645 0.824
c)
⋅
+
0.042 200
= 0.829
0.824 − 1.645⋅
0.042 200
= 0.819
1.645
Los limites de confianza del 99.73 % Zc = 3.00 0.824
+
⋅
0.042 200
= 0.833
0.824 − 3.00 ⋅
0.042 200
= 0.815
3.00
Problema: Al medir el tiempo de reacción, un psicólogo estima que la desviación típica del mismo es de 0.05 segundos. ¿Cuál es el numero de medidas que deberá hacer para que sea del a)
95 %
b)
99 % la confianza de que error de su estima no exceda de 0.01 segundo ?
Solución: a)
Los límites de confianza del 95 % son.
Tomando σ = s = 0.05 segundos, se tiene que el error será igual a 0.01 si: (1.96 ) ( 0.05 ) / √ n = 0.01, es decir, √ n = (1.96)(0.05) / 0.01 √ n = 9.8 n
= 96.04. Así, pues, se puede estar en la confianza del 95 % de que el error de la estima será menor de 0.01 si n es 96 o mayor. b)
Los límites de confianza del 99 % son.
Tomando σ = s = 0.05 segundos, se tiene que el error será igual a 0.01 si:
183
UNIDAD IV / ESTADISTICA APLICADA.
(2.58) ( 0.05 ) / √ n = 0.01, es decir, √ n = (2.58)(0.05) / 0.01 n
= 166.41. Así, pues, se puede estar en la confianza del 99 % de que el error de la estima será menor de 0.01 si n es 166 o mayor. Problema: Se encuentra que la concentración promedio de zinc que se saca del agua a partir de una muestra de mediciones de zinc en 36 sitios diferentes es de 2.6 gramos por mililitro. Encuentre los intervalos de confianza de 95% y 99% para la concentración media de zinc en el río. Suponga que la desviación estándar de la población es 0.3. Solución: Para el 95 % , Z c = 1.96
2.6 + 1.96⎛⎜ 0.3 ⎟⎞ = 2.7
⎝ 36 ⎠
2.6 − 1.96⎛⎜ 0.3 ⎟⎞ = 2.5
⎝ 36 ⎠
2.5 <μ< 2.7 para el 99 % ; Z c = 2.58
2.6 + 2.58 ⎛ ⎜
0.3
⎝
36
⎞ ⎟ ⎠
= 2.73
0.3
2.6 − 2.58 ⎛ ⎜
36
⎝
⎞ ⎟ ⎠
= 2.47
2.47 <μ< 2.73 Problema: empresa fabrica
Una eléctrica
focos
que
tienen una duración aproximadamente distribuida de forma normal con una desviación estándar de 40 horas. Si una muestra de 30 focos tiene una duración promedio de 780 horas, encuentre un intervalo de confianza de 96% para la media de la población de todos los focos que produce esta empresa. Solución:
780 − 2.05
⎛
⎜
40
⎟
⎞
= 765.03
⎛
780 + 2.05 ⋅
⎜
40
⎞ ⎟ = 794.97
184
UNIDAD IV / ESTADISTICA APLICADA.
⎝ 30 ⎠
⎝ 30 ⎠
765 <μ< 794
Con un nivel de confianza del 96% se sabe que la duración media de los focos que produce la empresa está entre 765 y 765 horas. Problema: La prueba de corte sesgado es el procedimiento más aceptado para evaluar la calidad de una unión entre un material de reparación y su sustrato de concreto. El artículo “Testing the Bond Between Repair Materials and Concrete Substrate” informa que, en cierta investigación, se
obtuvo una resistencia promedio muestral de 17.17 N/mm2, con una muestra de 48 observaciones de resistencia al corte, y la desviación estándar muestral fue 3.28 N/mm 2. Utilice un nivel de confianza inferior del 95% para estimar la media real de la resistencia al corte. Solución: Para el intervalo de confianza uni lateral, se cargará el área bajo la curva hacia un solo lado como sigue: Inferior a 95 % de la tabla es el 90 % que tiene Z c = 1.645
17.17 −1.645⎛⎜ 3.28 ⎞⎟ = 16.39
⎝ 48 ⎠ Problema: Suponga que un centro de computo regional desea evaluar el desempeño de su sistema de memoria en disco. Una medida del desempeño es el tiempo medio entre fallas de su unidad de disco. A fin de estimar este valor, el centro registro el tiempo entre fallas para una muestra aleatoria de 45 fallas de la unidad de disco. Se calcularon las siguientes estadísticas: x
=1762horas; s = 215 horas , estime el verdadero tiempo medio entre fallas con un intervalo de confianza de 90% Solución: 1762 − 1.645 ⋅⎛⎜ 215 ⎟⎞ = 1709.3
⎝ 45 ⎠
1762 + 1.645 ⋅⎛⎜ 215 ⎟⎞ = 1814.7
⎝ 45 ⎠
1709.3 <μ< 1814.7 Problema: Una muestra aleatoria de 50 calificaciones de matemáticas de un total de 200, arrojo una media de 75 y una desviación típica de 10 a) ¿Cuales son los limites de confianza del 95 % para la estima de la media de las 200 calificaciones?
185
UNIDAD IV / ESTADISTICA APLICADA.
b) ¿Con que grado de confianza podrá decirse que la media de las 200 calificaciones es 75 ± 1?
Solución: a)
Se debe emplearse la formula para poblaciones finitas con muestreo sin remplazamiento. Entonces los limites de confianza del 95 % son : 75 + 1.96⋅
b)
10
200 − 50 ⋅ 200 1 = 77.41 50 −
75 − 1.96⋅
10
200 − 50 ⋅ 200 1 = 72.59 50 −
Los límites de confianza pueden representarse por: 75 + Z c
⋅
10 50
⋅
20050 − 200 1−
75 ± 1.23 Z c Puesto que esto debe ser igual a 75 ± 1 , se tiene que 1.23 Z c = 1 ó Z c = 0.81. El área bajo la curva desde Por simetría es : z = - 0.81 y z = 0.81 es : p( 0.81−
≤ ≤ z 0.81)
= p z ( ≤ 0.81)− p z ( ≤−0.81) = 0.7910−0.2090 = 0.5820 = 50.2% De aquí el grado de confianza pedido es de 58.20% Cálculo del Tamaño de la Muestra para Estimar una Media ¿Qué tan grande debe ser una muestra si la media muestral se va a usar para estimar la media poblacional? . La respuesta depende del error estándar de la media, si este fuera cero, entonces se necesitaría una sola media que será igual
necesariamente a la media poblacional
desconocida μ, porque σ = 0. Este caso extremo no se encuentra en la práctica, pero refuerza el hecho de que mientras menor sea el error estándar de la media, menor es el tamaño de muestra necesario para lograr un cierto grado de precisión. Se estableció antes que una forma de disminuir el error de estimación es aumentar el tamaño de la muestra, si éste incluye el total de la población, entonces x −μ sería igual a cero. Con esto en mente, parece razonable que para un nivel de confianza fijo, sea posible determinar un tamaño de la muestra tal que el error de estimación sea tan pequeño como queramos, para ser mas preciso, dado un nivel de confianza y un error fijo de estimación ε, se puede escoger un tamaño de muestra n tal que P ( x −μ <ε) = Nivel de confianza.
186
UNIDAD IV / ESTADISTICA APLICADA.
Con el propósito de determinar n. El error máximo de estimación esta dado por:
Z σ ε= n Si se eleva al cuadrado ambos lados de esta ecuación y se despeja n de la ecuación resultante, obtenemos: 2
n =⎛⎜
Z σ⎞⎟
⎝ε⎠ Como n debe de ser un número entero, redondeamos hacia arriba todos los resultados fraccionarios. En el caso de que se tenga una población finita y un muestreo sin reemplazo, el error de estimación se convierte en:
⎛ Z σ⎞ N − n ε=⎜ ⎟ ⎝ n ⎠ N −1 De nuevo se eleva al cuadrado ambos lados y se despeja la n, obteniendo: Z 2σ2 N n =ε2 ( N −1) + Z 2σ2 Problema: Un biólogo quiere estimar el peso promedio de los ciervos cazados en el estado de Maryland. Un estudio anterior de diez ciervos cazados mostró que la desviación estándar de sus pesos es de 12.2 libras. ¿Qué tan grande debe ser una muestra para que el biólogo tenga el 95% de confianza de que el error de estimación es a lo más de 4 libras? Solución:
⎜
⎛ Z σ⎞2 n = ⎟ = ⎝ε⎠ ⎡(1.96 )(12.2)⎤2 ⎢⎣
4 ⎥⎦ = 35.736
En consecuencia, si el tamaño de la muestra es 36, se puede tener un 95% de confianza en que m difiere en menos de 4 libras de x .
187
UNIDAD IV / ESTADISTICA APLICADA.
Problema: Una empresa eléctrica fabrica focos que tienen una duración aproximadamente normal con una desviación estándar de 40 horas. ¿De qué tamaño se necesita una muestra si se desea tener 96% de confianza que la media real esté dentro de 10 horas de la media real? Solución.
⎡(2.053 )(40 )⎤ 2
⎛ Z σ⎞2
ε ⎟⎠ = ⎢⎣
n = ⎜⎝
10⎥⎦ = 67.45
Se necesita una muestra de 68 focos para estimar la media de la población y tener un error máximo de 10 horas. ¿Qué pasaría si en lugar de tener un error de estimación de 10 horas sólo se requiere un error de 5 horas?
⎛ Z σ⎞2 n = ⎜⎝
⎡(2.053 )(40 )⎤ 2
ε ⎟⎠ = ⎢
5⎥⎦ = 269 .74
⎣ Se puede observar como el tamaño de la muestra aumenta, pero esto tiene como beneficio una estimación más exacta. Problema: Suponga que en el ejercicio anterior se tiene una población de 300 focos, y se desea saber de que tamaño debe de ser la muestra. El muestreo se realizará sin reemplazo. Solución:
(2.053) (2 40) (2 300)
z 2 2σ N n
=
ε2( N − +1) z 2 2σ
=
(10) (2 300− +1) (2.0532)(40)2 = 55.21
Si se tiene una población finita de 300 focos sólo se tiene que extraer de la población una muestra sin reemplazo de 55 focos para poder estimar la duración media de los focos restantes con un error máximo de 10 horas.
188
UNIDAD IV / ESTADISTICA APLICADA.
4.2.4. Intervalo de confianza para una diferencia de medias. Si se tienen dos poblaciones con medias
μ1 y μ2 varianzas σ12 y σ22 ,
respectivamente, un
estimador puntual de la diferencia entre μ1 y μ2 está dado por la estadística x1 − x2 . Por tanto. Para obtener una estimación puntual de
μ 1
-
μ 2
se seleccionan dos muestras aleatorias
independientes, una de cada población, de tamaño n 1 y n 2, se calcula la diferencia x1 −
x 2
, de
las medias muéstrales. Recordando a la distribución muestral de diferencia de medias: Z = ( x1 − x 2 ) − (μ1 − μ2 ) 2
2
1
2
σ 1 +σ 2 n n Al despejar de esta ecuación
μ1 - μ2 se tiene: 2
2
μ1 −μ2 = ( x1 − x2 ) ± Z σ1 +σ2 n1
n2
En el caso en que se desconozcan las varianzas de la población y los tamaños de muestra sean mayores a 30 se podrá utilizar la varianza de la muestra como una estimación puntual. Problema: Se lleva a cabo un experimento en que se comparan dos tipos de motores, A y B. Se mide el rendimiento en millas por galón de gasolina. Se realizan 50 experimentos con el motor tipo A y 75 con el motor tipo B. La gasolina que se utiliza y las demás condiciones se mantienen constantes. El rendimiento promedio de gasolina para el motor A es de 36 millas por galón y el promedio para el motor B es 42 millas por galón. Encuentre un intervalo de confianza de 96% sobre la diferencia promedio real para los motores A y B. Suponga que las desviaciones estándar poblacionales son 6 y 8 para los motores A y B respectivamente. Solución: Es deseable que la diferencia de medias sea positiva por lo que se recomienda restar la media mayor menos la media menor. En este caso será la media del motor B menos la media del motor A. El valor de z para un nivel de confianza del 96% es de 2.05.
189
UNIDAD IV / ESTADISTICA APLICADA.
σ12 σ22 ( x1 − x2 ) ± Z
+
(42 − 36) ± 2.05 36 + 64 μ1 −μ2 =
= n1
50
n2
75
3.43 <μ A −μ B < 8.57 La interpretación de este ejemplo sería que con un nivel de confianza del 96% la diferencia del rendimiento promedio esta entre 3.43 y 8.57 millas por galón a favor del motor B. Esto quiere decir que el motor B da más rendimiento promedio que el motor A, ya que los dos valores del intervalo son positivos. Problema: Una compañía de taxis trata de decidir si comprar neumáticos de la marca A o de la B para su flotilla de taxis. Para estimar la diferencia de las dos marcas, se lleva a cabo un experimento utilizando 12 de cada marca. Los neumáticos se utilizan hasta que se desgastan, dando como resultado promedio para la marca A 36,300 kilómetros y para la marca B 38,100 Kilómetros. Calcule un intervalo de confianza de 95% para la diferencia promedio de las dos marcas, si se sabe que las poblaciones se distribuyen de forma aproximadamente normal con desviación estándar de 5000 kilómetros para la marca A y 6100 kilómetros para la marca B. Solución:
μ1 −μ2 = ( x1 − x2 ) ± Z σ12 +σ22 =(38100−36300)±1.96 50002 +61002 n1 n2
12
12
− 2662.68 <μ B −μ A < 6262.67 Como el intervalo contiene el valor “cero”, no hay razón para creer que el promedio de duración
del neumático de la marca B es mayor al de la marca A, pues el cero nos está indicando que pueden tener la misma duración promedio. C álculo del Tamaño de la Muestra para Es timar la Diferencia de Medias
Si se recuerda a la distribución muestral de diferencia de medias se tiene que error esta dado por:
σ12 σ22 ε= Z + n1 n2
190
UNIDAD IV / ESTADISTICA APLICADA.
En esta ecuación se nos pueden presentar dos casos: •
Los tamaños de muestra son iguales.
•
Los tamaño de muestra son diferentes
Para el primer caso no se tiene ningún problema, se eleva al cuadrado la ecuación y se despeja n ya que n1 es igual a n2 .
n = Z 2(σ122+σ22)
ε Para el segundo caso se pondrá una n en función de la otra. Este caso se utiliza cuando las poblaciones son de diferente tamaño y se sabe que una es K veces mayor que la otra. Problema: Un director de personal quiere comparar la efectividad de dos métodos de entrenamiento para trabajadores industriales a fin de efectuar cierta operación de montaje. Se divide un número de operarios en dos grupos iguales: el primero recibe el método de entrenamiento 1, y el segundo, el método 2. Cada uno realizará la operación de montaje y se registrará el tiempo de trabajo. Se espera que las mediciones para ambos grupos tengan una desviación estándar aproximadamente de 2 minutos. Si se desea que la estimación de la diferencia en tiempo medio de montaje sea correcta hasta por un minuto, con una probabilidad igual a 0.95, ¿Cuántos trabajadores se tienen que incluir en cada grupo de entrenamiento? Solución:
n = Z 2(σε122+σ22) = (1.969)21(222 + 22) = 31
Cada grupo debe contener aproximadamente 31 empleados.
191
UNIDAD IV / ESTADISTICA APLICADA.
4.2.5 Intervalo de confianza para proporciones. Un estimador puntual de la proporción P en un experimento Binomial está dado por la estadística P = X / N, donde x representa el número de éxitos en n pruebas. Por tanto, la proporción de la muestra p = x /n se utilizará como estimador puntual del parámetro P. Si no se espera que la proporción P desconocida esté demasiado cerca de 0 ó de 1, se puede establecer un intervalo de confianza para P al considerar la distribución muestral de proporciones.
Z = p− P Pq n Al despejar P de esta ecuación nos queda:
Pq P = p± Z c
n
En este despeje podemos observar que se necesita el valor del parámetro P y es precisamente lo que queremos estimar, por lo que lo sustituiremos por la proporción de la muestra p siempre y cuando el tamaño de muestra no sea pequeño.
Pq P = p± Z c n Cuando n es pequeña y la proporción desconocida P se considera cercana a 0 ó a 1, el procedimiento del intervalo de confianza que se establece aquí no es confiable, por tanto, no se debe utilizar. Para estar seguro, se debe requerir que np ó nq sea mayor o igual a 5. El error de estimación será la diferencia absoluta entre p y P, y podemos tener el nivel de confianza de que esta diferencia no excederá
Pq P = p± Z c n El error de estimación será la diferencia absoluta entre p y P, y podemos tener el nivel de confianza de que esta diferencia no excederá
Pq
192
UNIDAD IV / ESTADISTICA APLICADA.
Z n Problema: Un fabricante de reproductores de discos compactos utiliza un conjunto de pruebas amplias para evaluar la función eléctrica de su producto. Todos los reproductores de discos compactos deben pasar todas las pruebas antes de venderse. Una muestra aleatoria de 500 reproductores tiene como resultado 15 que f allan en una o más pruebas. Encuentre un interval o de confianza de 90% para la proporción de los reproductores de discos compactos de la población que no pasan todas las pruebas. Solución: n = 500;
p =15/500 = 0.03;
z =1.645 pq
P = ± p z n
0.0175 < < P 0.0425 Problema: En una muestra de 400 pilas tipo B fabricadas por la Everlast Company, se encontraron 20 defectuosas. Si la proporción p de pilas defectuosas en esa muestra se usa para estimar P , que vendrá a ser la proporción verdadera de todas las pilas defectuosas tipo B fabricadas por la Everlast Company, encuentre el máximo error de estimación e tal que se pueda tener un 95% de confianza en que P dista menos de ε de p. Solución: P = x / n = 20 / 400 = 0.05 Z c =
1.96
(0.05)(0.95) pq 400 ε= Z =1.96= 0.021 n Si p = 0.05 se usa para estimar P, podemos tener un 95% de confianza en que P dista menos de 0.021 de p. En otras palabras, si p = 0.05 se usa para estimar P, el error máximo de estimación será aproximadamente 0.021 con un nivel de confianza del 95%. Para calcular el intervalo de confianza se tendría: P ±ε= 0.05±0.021 Esto da por resultado dos valores, (0.029, 0.071). Con un nivel de confianza del 95% se sabe que la proporción de pulas defectuosas de esta compañía está entre 0.029 y 0.071. Si se
193
UNIDAD IV / ESTADISTICA APLICADA.
requiere un menor error con un mismo nivel de confianza sólo se necesita aumentar el tamaño de la muestra.
Problema: En un estudio de 300 accidentes de automóvil en una ciudad específica, 60 tuvieron consecuencias fatales. Con base en esta muestra, construya un intervalo del 90% de confianza para aproximar la proporción de todos los accidentes automovilísticos que en esa ciudad tienen consecuencias fatales. Solución: P = 60/300 = 0.20
; Zc = 1.645
(0.20)(0.8) 300 P = 0.20±1.645 0.162 < P < 0.238 Problema: Es común utilizar aceros inoxidables en las plantas químicas para manejar fluidos corrosivos. Sin embargo, estos aceros tienen especial susceptibilidad al agrietamiento por corrosión causada por esfuerzos en ciertos entornos. En una muestra de 295 fallas de aleaciones de acero que ocurrieron en refinerías de petróleo y plantas petroquímicas en Japón durante los últimos 10 años, 118 se debieron a agrietamiento por corrosión causada por esfuerzos y a fatiga de corrosión ( Materials Performance, junio de 1981). Establ ezca un intervalo de confianza de 95 % para verdadera proporción de fallas de aleaciones causadas por agrietamiento por corrosión debida a esfuerzos. Solución: P = 118 / 295 = 0.4 pq
(0.4)(0.6)
P = p± Z = 0.4±(1.96)= 0.4±0.056 n295
0.344< P < 0.456
Problemas propuestos: P1. Una encuesta sobre vivienda estadounidense realizada por el Departamento de Comercio de Estados Unidos revelo que 750 de 1500 propietarios de casa muestreados siguen la filosofía de “ hágalo usted mismo” , es decir, realizaron ellos mismos la mayor parte del trabajo en por lo
menos una de las mejoras o reparaciones de su hogar ( Bureau of the Census, Statistical Brief, mayo de 1992). Estime, con un intervalo de confianza de 95 %, la verdadera proporción de
194
UNIDAD IV / ESTADISTICA APLICADA.
propietarios de casas estadounidenses que realizan ellos mismos la mayor parte del trabajo de mejoramiento o reparación de sus hogares. P2. La encuesta del “ Agujero Negro”, patrocinada po r el Consejo de Investigación sobre Empleo
Profesional, informa cuales son los puestos mas difíciles de llenar en las listas de los reclutadores. En la encuesta mas recientes, 95 de 285 reclutadores consi deraron los puestos de ingeniería como los mas difíciles de llenar. ( Industrial Engineering, agosto de 1990). Estime el verdadero porcentaje de reclutadores que consideran que los puestos mas difíciles de llenar son los de ingeniería. Utilice un intervalo de confianza de 99 % . P3. Como parte de un convenio de cooperación en investigación entre Estados Unidos y Japón, se diseño un edificio de concreto armado a escala completa y se aprobó en condiciones simuladas de carga de un terremoto en Japón (Journal of Structural Enginnering, enero de 1986). En una parte del estudio se pidió a varios ingenieros de diseño estadounidense que evaluaron el nuevo diseño. De los 48 ingenieros encuestados, 36 opinaron que la pared de cizallamiento de la estructura tenía un refuerzo demasiado ligero. Establezca un intervalo de confianza de 95 % para la verdadera proporción de ingenieros de diseño estadounidenses que consideran que la pared de cizallamiento del edificio tiene un refuerzo demasiado ligero.
4.2.6. Intervalo de confianza para diferencia de proporciones. Para este caso en particular se utilizará la distribución muestral de diferencia de proporciones para la estimación de la misma. Recordando la formula:
Z = ( p 1 − p 2 ) − ( P 1 − P 2 ) P 1 q 1 n1
+
P 2 q n
2
2
P P Despejando 1 − 2 de esta ecuación: P 1 q 1 P 1 − P 2 = ( p1 − p2 ) ± Z
n1
P 2 q 2
+ n 2
Aquí se tiene el mismo caso que en la estimación de una proporción, ya que al hacer el despeje nos queda las dos proporciones poblacionales y es precisamente lo que queremos estimar, por lo que se utilizarán las proporciones de la muestra como estimadores puntuales:
195
UNIDAD IV / ESTADISTICA APLICADA.
P 1 q 1 P 1 − P 2 = ( p1 − p 2 ) ± Z
n1
+
P 2 q 2 n2
Problema: Se considera cierto cambio en un proceso de fabricación de partes c omponentes. Se toman muestras del procedimiento existente y del nuevo para determinar si éste tiene como resultado una mejoría. Si se encuentra que 75 de 1500 artículos del procedimiento actual son defectuosos y 80 de 2000 artículos del procedimiento nuevo también lo son, encuentre un intervalo de confianza de 90% para la diferencia real en la fracción de defectuosos entre el proceso actual y el nuevo. Solución: P 1 q 1
P 1 − P 2 = ( p1 − p 2 ) ± Z
n1
+
P 2 q 2 n2
−0.0017 < P 1 − P 2 < 0.0217 Como el intervalo contiene el valor de cero, no hay razón para creer que el nuevo procedimiento producirá una disminución significativa en la proporción de artículos defectuosos comparada con el método existente. Problema: Un artículo relacionado con la salud, reporta los siguientes datos sobre la incidencia de disfunciones importantes entre recién nacidos con madres fumadoras de marihuana y de madres que no la fumaban: Usuario
No usuario
Tamaño muestral
1246
11178
Numero de disfunciones
42
294
Proporción muestral
0.0337
0.0263
Encuentre el intervalo de confianza del 99% para la diferencia de proporciones. Solución: Representemos P1 la proporción de nacimientos donde aparecen disfunciones entre todas las madres que fuman marihuana y definamos P2, de manera similar, para las no fumadoras. El valor de z para un 99% de confianza es de 2.58.
196
UNIDAD IV / ESTADISTICA APLICADA.
P 1q1 P 2q2 P 1 − P 2 = ( p1 − p2) ± Z
+ n1
n2
− 0.0064 < P 1 − P 2 < 0.0212 Este intervalo es bastante angosto, lo cual sugiere que P 1-P2 ha sido estimado de manera precisa. Problema: Un ingeniero de tráfico realizo un estudio de velocidades vehiculares en un segmento de calle en la cual se cambio varias veces el l ímite de velocidad señalizado. Cuando el límite era de 30 millas por hora, el ingeniero vigilo las velocidades de 100 vehículos elegidos al azar que transitaron por la calle y observo 49 violaciones del límite de velocidad. Después de que el limite se elevo a 35 millas por hora, el ingeniero volvió a vigilar las velocidades de 100 vehículos elegidos aleatoriamente y observo 19 que violaron el limite. Establezca un intervalo de confianza
p p de 99% para ( 1 − 2), donde p1 es la verdadera proporción de vehículos que excedieron el límite de velocidad menor ( 30 millas por hora) y p2 es la verdadera proporción de vehículos que ( en condiciones de circulación similares) excedieron el límite de velocidad mayor ( 35 millas por hora). Solución: p1 = 49/100 = 0.49 p2 = 19/100 = 0.19 P 1q1 P 2q2 P 1 − P 2 = ( p1 − p2) ± Z
+ n1 n2
(0.49)(0.51)(0.19)(0.81) P 1− P 2 =(0.49−0.19)±2.58 + =0.30±0.164 100 100 0.136< P 1− P 2 <0.464
Determinación de Tamaños de Muestra para Estimaciones Al iniciar cualquier investigación, la primer pregunta que surge es: ¿de qué tamaño debe ser la o las muestras?. La respuesta a esta pregunta la veremos en esta sección, con conceptos que ya se han visto a través de este material.
197
UNIDAD IV / ESTADISTICA APLICADA.
Se desea saber que tan grande se requiere que sea una muestra para asegurar que el error al estimar P sea menor que una cantidad específica ε. q n Elevando al cuadrado la ecuación anterior se despeja n y nos queda:
ε = Z
Z 2 pq n=
2
ε Esta fórmula está algo engañosa, pues debemos utilizar p para determinar el tamaño de la muestra, pero p se calcula a partir de la muestra. Existen ocasiones en las cuales se tiene una idea del comportamiento de la proporción de la población y ese valor se puede sustituir en la fórmula, pero si no se sabe nada referente a esa proporción entonces se tienen dos opciones: •
Tomar una muestra preliminar mayor o igual a 30 para proporcionar una estimación de P. Después con el uso de la fórmula se podría determinar de forma aproximada c uántas observaciones se necesitan para proporcionar el grado de precisión que se desea.
•
Tomar el valor de p como 0.5 ya que sustituyendo este en la fórmula se obtiene el tamaño de muestra mayor posible.
En el caso de que se tenga una población finita y un muestreo sin reemplazo, el error de estimación se convierte en:
ε= Z
pq
N
−nn −1
N
De nuevo se eleva al cuadrado ambos lados y se despeja la n, obteniendo: Z 2 pqN n =ε2( N −1) + Z 2 pq Problema: En una muestra aleatoria de 500 familias que tienen televisores en la ciudad de Hamilton, Canadá, se encuentra que 340 están suscritas a HBO. ¿Qué tan grande se requiere
198
UNIDAD IV / ESTADISTICA APLICADA.
que sea una muestra si se quiere tener 95% de confianza de que la estimación de P esté dentro de 0.02? Solución: p = 340/500=0.68. Z 2 pq
(1.96)2(0.68)(0.32)
n = ε2 = (0.02)2 = 2089.83 Por lo tanto si basamos nuestra estimación de P sobre una muestra aleatoria de tamaño 2090, se puede tener una confianza de 95% de que nuestra proporción muestral no diferirá de la proporción real por más de 0.02. Problema: Una legisladora estatal desea encuestar a los residentes de su distrito para conocer qué proporción del electorado conoce la opinión de ella, respecto al uso de fondos estatales para pagar abortos. ¿Qué tamaño de muestra se necesita si se requiere un confianza del 95% y un error máximo de estimación de 0.10? Solución:
En este problema, se desconoce totalmente la proporción de residentes que conoce la opinión de la legisladora, por lo que se utilizará un valor de 0.5 para p.
Z 2 pq n=
2
=
(1.96)2 (0.50)(0.50) (0.10)2 = 96.04 ε
Se requiere un tamaño de muestra de 97 residentes para que con una confianza del 95% la estimación tenga un error máximo de 0.10. Cálculo del Tamaño de la Muestra para Estimar la Diferencia de Proporciones Si se recuerda a la distribución muestral de diferencia de medias se tiene que error esta dado por: p1q1
ε= Z
+
p2q2 n1
n2 En esta ecuación se nos pueden presentar dos casos:
199
UNIDAD IV / ESTADISTICA APLICADA.
• Los tamaños de muestra son iguales. •
Los tamaños de muestra son diferentes.
n = z 2( p1q1 2+ p2q2)
ε Problema: Una compañía de productos alimenticios contrató a una e mpresa de investigación de mercadotecnia, para muestrear dos mercados, I y II, a fin de comparar las proporciones de consumidores que prefieren la comida congelada de la compañía con los productos de sus competidores. No hay información previa acerca de la magnitud de las proporciones P 1 y P2. Si la empresa de productos alimenticios quiere estimar la diferencia dentro de 0.04, con una probabilidad de 0.95, ¿Cuántos consumidores habrá que muestrear en cada mercado? Solución:
)
]
n = Z 2( p1q1 + p2q2) = (1.96) 2[(0.5)(0.5 + (0.5)(0.5) = 1200 .5 22
ε
(0.04)
Se tendrá que realizar encuestas a 1201 consumidores de cada mercado para tener una estimación con una confianza del 95% y un error máximo de 0.04.
Problemas propuestos P1. Se probó una muestra aleatoria de 400 cinescopios de televisor y se encontraron 40 defectuosos. Estime el intervalo que contiene, con un coeficiente de confianza de 0.90, a la verdadera fracción de elementos defectuosos. P2. Se planea realizar un estudio de tiempos para estimar el tiempo medio de un trabajo, exacto dentro de 4 segundos y con una probabilidad de 0.90, para terminar un trabajo de montaje. Si la experiencia previa sugiere que = 16 seg. mide la variación en el tiempo de montaje entre un trabajador y otro al realizar una sola operación de montaje, ¿cuántos operarios habrá que inc luir en la muestra? P3. El decano registró debidamente el porcentaje de calificaciones D y F otorgadas a los estudiantes por dos profesores universitarios de matemáticas. El profesor I alcanzó un 32%,
200
UNIDAD IV / ESTADISTICA ESTADISTICA APLICADA.
contra un 21% para el profesor II, con 200 y 180 estudiantes, respectivamente. Estime la diferencia entre los porcentajes de calificaciones D y F otorgadas por los dos profesores. Utilice un nivel de confianza del 95% e interprete los resultados. P4. Suponga que se quiere estimar la producción media por hora, en un proceso que produce antibiótico. Se observa el proceso durante 100 períodos de una hora, seleccionados al azar y se obtiene una media de 34 onzas por hora con una desviación estándar de 3 onzas por hora. Estime la producción media por hora para el proceso, utilizando un nivel de confianza del 95%. P5. Un ingeniero de control de calidad quiere estimar la fracción de elementos elementos defectuosos en un gran lote de lámparas. Por la experiencia, cree que la fracción real de defectuosos tendría que andar alrededor de 0.2. ¿Qué tan grande tendría que seleccionar la muestra si se quiere estimar la fracción real, exacta dentro de 0.01, utilizando un nivel de confianza fe 95%? P6. Se seleccionaron dos muestras de 400 tubos electrónicos, de cada una de dos líneas de producción, A y B. De la línea A se obtuvieron 40 tubos defectuosos y de la B 80. Estime la diferencia real en las fracciones de defectuosos para las dos líneas, con un coeficiente de confianza de 0.90 e intérprete los resultados. P7. Se tienen que seleccionar muestras aleatorias independientes de n1 = n2 = n observaciones de cada una de dos poblaciones binomiales, 1 y 2. Si se desea estimar la diferencia entre los dos parámetros binomiales, exacta dentro de 0.05, con una probabilidad de 0.98. ¿qué tan grande tendría que ser n?. No se tiene información anterior acerca de los valores P1 y P2, pero se quiere estar seguro de tener un número adecuado de observaciones en la muestra. P8. Se llevan a cabo pruebas de resistencia a la tensión sobre dos diferentes clases de largueros de aluminio utilizados en la fabricación de alas de aeroplanos comerciales. De la experiencia pasada con el proceso de fabricación se supone que las desviaciones estándar de las resistencias a la tensión son conocidas. La desviación estándar del larguero 1 es de 1.0 Kg/mm2 y la del larguero 2 es de 1.5 Kg/mm2. Se sabe que el comportamiento de las resistencias a la tensión de las dos clases de largueros son aproximadamente normal. Se toma una muestra de 10 largueros del tipo 1 obteniéndose una media de 87.6 Kg/mm2, y otra de tamaño 12 para el larguero 2 obteniéndose una media de 74.5 Kg/mm2. Estime un intervalo de confianza del 90% para la diferencia en la resistencia a la tensión promedio. 50
201
UNIDAD IV / ESTADISTICA APLICADA.
P9. Se quiere estudiar la tasa de combustión de dos propelentes sólidos utilizados en los sistemas de escape de emergencia de aeroplanos. Se sabe que la tasa de combustión de los dos propelentes tiene aproximadamente la misma desviación estándar; esto es σ1 = σ2 = 3 cm/s. ¿Qué tamaño de muestra debe utilizarse en cada población si se desea que el error en la estimación de la diferencia entre las medias de las tasas de combustión sea menor que 4 cm/s con una confianza del 99%?.
4.3 Pruebas de hipótesis. La Teoría de la Decisión Estadística como herramienta básica para la toma de decisiones, basadas en evidencia científica. La manera de hacerlo es plantear las hipótesis posibles y luego efectuarle una prueba o test estadístico. Llamada en algunas obras: la docimasia estadística. Cuando una conclusión se valida con un test estadístico se la ll ama de tipo cuantitativo, en caso contrario la decisión adoptada es de tipo cualitativo, o sea, una decisión tomada en forma subjetiva. El método consiste en definir una probabilidad de aceptación del orden del 95% (o rechazo) de una hipótesis de trabajo planteada, que permite calcular los valores críticos (o límites de aceptación) de un estadígrafo calculado a partir de los valores medidos. La importancia de este tema es muy grande. Basta decir que el objeto final de la Estadística es la toma de decisiones Hipótesis estadística es estadística es una suposición hecha con respecto a la función de distribución de una variable aleatoria.
Las pruebas que se realizan para plantear las hipótesis se conocen con el nombre de ensayos de validación estadística. El problema básico es determinar si las diferencias observadas entre
el valor obtenido y el valor esperado se deben al azar, o si realmente son diferentes. Suponga que se tiene interés en la rapidez de combustión de un agente propulsor sólido utilizado en los sistemas de salida de emergencia para la t ripulación de aeronaves. El interés se centra sobre la rapidez de combustión promedio. De manera específica, el interés recae en decir si la rapidez de combustión promedio es o no 50 cm/s. Esto puede expresarse de manera formal como
202
UNIDAD IV / ESTADISTICA ESTADISTICA APLICADA.
H 0 ;μ = 50 cm / s H 1;μ ≠ 50 cm / s La proposición Ho; μ = 50 cm/s, se conoce como hipótesis nula, nula, mientras que la proposición H1; μ ≠ 50 cm/s, recibe el nombre de hipótesis alternativa. Puesto que la hipótesis alternativa especifica valores de μ que pueden ser mayores o menores que 50 cm/s, también se conoce como hipótesis alternativa bilateral. En algunas situaciones, lo que se desea es formular una hipótesis alternativa unilateral, unilateral , como en Ho; μ = 50 cm/s < 50 cm/s
Ho; μ = 50 cm/s H1; μ H1; μ > 50 cm/s
Es importante recordar que las hipótesis siempre son proposiciones sobre la población o distribución bajo estudio, no proposiciones sobre la muestra. Por lo general, el valor del parámetro de la población especificado en la hipótesis nula se determina en una de tres maneras diferentes: 1. Puede ser resultado de la experiencia pasada o del conocimiento del proceso, entonces el objetivo de la prueba de hipótesis usualmente es determinar si ha cambiado el valor del parámetro. 2. Puede obtenerse a partir de alguna teoría o modelo que se relaciona con el proceso bajo estudio. En este caso, el objetivo de la prueba de hipótesis es verificar la teoría o modelo. 3. Cuando el valor del parámetro proviene de consideraciones externas, tales como como las especificaciones de diseño o ingeniería, o de obligaciones contractuales. En esta situación, el objetivo usual de la prueba de hipótesis es probar el cumplimiento de las especificaciones. Un procedimiento que conduce a una decisión sobre una hipótesis en particular recibe el nombre de prueba de hipótesis. hipótesis . Los procedimientos de prueba de hipótesis dependen del empleo de la información contenida en la muestra aleatoria de la población de interés. Si esta información es consistente con la hipótesis, se concluye que ésta es verdadera; sin embargo si esta
203
UNIDAD IV / ESTADISTICA APLICADA.
información es inconsistente con la hipótesis, se concluye que esta es falsa. Debe hacerse hincapié en que la verdad o fals edad de una hipótesis en particular nunca puede conocerse con certidumbre, a menos que pueda examinarse a toda la población. Usualmente esto es imposible en muchas situaciones prácticas. Por tanto, es necesario desarrollar un procedimiento d e prueba de hipótesis teniendo en cuenta la probabilidad de llegar a una conclusión equivocada. La hipótesis nula, representada por Ho, es la afirmación sobre una o más características de poblaciones que al inicio se supone cierta (es decir, la “creencia a priori”). La hipótesis
alternativa, representada por H1, es la afirmación contradictoria a Ho, y ésta es la hipótesis del investigador. La hipótesis nula se rechaza en favor de la hipótesis alternativa, sólo si la evidencia muestral sugiere que es falsa. Si la muestra no contradice decididamente a Ho, se continúa creyendo en la validez de la hipótesis nula. Entonces, las dos conclusiones posibles de un análisis por prueba de hipótesis son rechazar Ho o no rechazar Ho. Para establecer la verdad o falsedad de una hipótesis estadística con certeza total, será necesario examinar toda la población. En la mayoría de las situaciones reales no es posible o practico efectuar este examen, y el camino más aconsejable es tomar una muestra al eatoria de la población y con base a ella decidir si la hipótesis es verdadera o falsa. En la prueba de una hipótesis estadística, es costumbre declarar la hipótesis como verdadera si la probabilidad calculada excede el valor tabular llamado el nivel de significación y se declara falsa si la probabilidad calculada es menor que el valor tabular. La prueba a realizar dependerá del tamaño de las muestras de la homogeneidad de las varianzas y de la dependencia o no de las variables. Pr ueba de una Hipótesi Hipótesi s E s tadís tadís tica
Para ilustrar los conceptos generales, considere el problema de la rapidez de combustión del agente propulsor presentado con anterioridad. La hipótesis nula es que la rapidez promedio de combustión es 50 cm/s, mientras que la hipótesis alternativa es que ésta no es igual a 50 cm/s. Esto es, se desea probar: H 0 ;μ = 50 cm / s H 1;μ ≠ 50 cm / s
204
UNIDAD IV / ESTADISTICA APLICADA.
Supóngase que se realiza una prueba sobre una muestra de 10 especímenes, y que se observa cual es la rapidez de combustión promedio muestral. La media muestral es un estimador de la media verdadera de la población. Un valor de la media muestral x que este próximo al valor hipotético μ = 50 cm/s es una evidencia de que el verdadero valor de la media m es realmente 50 cm/s; esto es, tal evidencia apoya la hipótesis nula Ho. Por otra parte, una media muestral muy diferente de 50 cm/s constituye una evidencia que apoya la hipótesis alternativa H 1. Por tanto, en este caso, la media muestral es el estadístico de prueba. La media muestral puede tomar muchos valores diferentes. Supóngase que si 48.5 ≤ x ≤ 51.5, entonces no se rechaza la hipótesis nula Ho; μ = 50 cm/s, y que si
x
<48.5 ó x > 51.5, entonces se acepta la hipótesis alternativa H1; μ ≠ 50 cm/s. Los valores de x que son menores que 48.5 o mayores que 51.5 constituyen la región crítica de la prueba, mientras que todos los valores que están en el intervalo 48.5 ≤ x ≤ 51.5 forman la reg ión de aceptación . Las fronteras entre las regiones críticas y de aceptación reciben el nombre de valores críticos. La costumbre es establecer conclusiones con respecto a la hipótesis nula Ho.
Por tanto, se rechaza Ho en favor de H1 si el estadístico de prueba cae en la región crítica, de lo contrario, no se rechaza Ho. Contrastes de hipótesis y significación o reglas de decisiones : Si suponemos que una hipótesis particular es cierta pero vemos que los resultados hallados en una muestra aleatoria difieren notablemente de los esperados bajo tal hipótesis entonces diremos que las diferencias observadas son significativas y nos veríamos inclinados a rechazar la hipótesis. Los procedimientos que nos capacitan para determinar si las muestras observadas difieren significativamente de los resultados esperados y por tanto nos ayuda a decidir si aceptamos o rechazamos hipótesis, se llama contraste (o tests) de hipótesis o de significación o reglas de decisión.
Nivel de significación. Al contrastar una cierta hipótesis, la máxima probabilidad con la que estamos dispuestos a correr el riesgo de cometer un error tipo I s e llama nivel de significación del contraste. Esta probabilidad se denota a menudo por α, se suele especificar antes de tomar una muestra, de manera que los resultados obtenidos no influyan a nuestra elección.
205
UNIDAD IV / ESTADISTICA APLICADA.
Es frecuente un nivel de significación de 0.05 o 0.01, si bien se usan otros valores si por ejemplo, se escoge el nivel de significación 0.05 (o 5 %) al diseñar una regla de decisiones entonces hay 5 oportunidades entre 100 de rechazar la hipótesis cuando debiera haberse aceptado; es decir, tenemos un 95 % de confianza de que hemos adoptado la decisión correcta y por lo tanto tiene una probabilidad de 0.05 de ser falsa. Tipos de Ensayo (Contrastes de una y de dos colas). Se pueden presentar tres tipos de ensayo de hipótesis que son: • Bilateral •
Unilateral Derecho
•
Unilateral Izquierdo
En el test precedente estábamos interesados en los valores extremos del estadístico S o en su correspondiente valor de Z a ambos lados de la media (o sea en las dos colas de la distribución) tales test se llaman contraste de dos colas o bilaterales. Con frecuencia, no obstante, estaremos interesados tan solo en valores extremos aun lado de la media (o sea, en una de las colas de la distribución), tal como sucede cuando se contrasta la hipótesis de que un proceso es mejor que el otro (lo cual no es lo mismo que contrastar si un proceso es mejor o peor que el otro). Tales contrastes se llaman unilaterales o de una cola. En tales situaciones, la región crítica es una región situada a un lado de la distribución, con área igual al nivel de significación. Tabla de valores críticos de z para contrastes de una o de dos colas en varios niveles de significación. Nivel de significancia , α
Valores criticos z, Valores criticos z, para para tests unilateral tests bilateral
0.10
-1.28 o 1.28
-1.645 y 1.645
0.05
-1.645 0 1.645
-1.96 y 1.96
0.01
-2.33 o 2.33
-2.58 y 2.58
0.005
-2.58 0 2.58
-2.81 y 2.81
0.002
-2.88 o 2.88
-3.08 y 3.08
Bilateral
Unilateral Derecho
206
UNIDAD IV / ESTADISTICA APLICADA.
Unilateral Izquierdo
Uso de valores P para la toma de decisiones Al probar hipótesis en las que la estadística de prueba es discreta, la región crítica se puede elegir de forma arbitraria y determinar su tamaño. Si
α es demasiado grande, se puede reducir
al hacer un ajuste en el valor crítico. Puede ser necesario aumentar el tamaño de la muestra para compensar la disminución que ocurre de manera automática en la potencia de la prueba (probabilidad de rechazar Ho dado que una alternativa específica es verdadera). Por generaciones enteras de análisis estadístico, se ha hecho costumbre elegir un nivel de significancia de 0.05 ó 0.01 y seleccionar la región crítica en consecuencia. Entonces, por supuesto, el rechazo o no rechazo estricto de Ho dependerá de esa región crítica. En la estadística aplicada los usuarios han adoptado de forma extensa la aproximación del valor P . La aproximación se diseña para dar al usuario una alternativa a la simple conclusión de “rechazo” o “no rechazo”.
La aproximación del valor P como ayuda en la toma de decisiones es bastante natural pues casi todos los paquetes de computadora que proporcionan el cálculo de prueba de hipótesis entregan valores de P junto con valores de la estadística de la prueba apropiada. •
Un valor P es el nivel (de significancia) más bajo en el que el valor observado de la estadística de prueba es significativo.
207
UNIDAD IV / ESTADISTICA APLICADA.
•
El valor P es el nivel de significancia más pequeño que conduce al rechazo de la hipótesis nula Ho.
•
El valor P es el mínimo nivel de significancia en el cual Ho sería rechazada cuando se utiliza un procedimiento de prueba especificado con un conjunto dado de información. Una vez que el valor de P se haya determinado, la conclusión en cualquier nivel α particular resulta de comparar el valor P con α: 1. Valor P ≤ α ⇒ rechazar Ho al nivel α. 2. Valor P > α ⇒ No rechazar Ho al nivel α.
Errores de tipo I y de tipo II Si rechazamos una hipótesis cuando debiera ser aceptada diremos que se ha co metido un error de tipo I , la probabilidad de cometer un error tipo I se denota por el símbolo
α. Por otra parte, si
aceptamos una hipótesis que debiera ser rechazada, diremos que se ha cometido un error de
208
UNIDAD IV / ESTADISTICA APLICADA.
tipo II, la probabilidad de cometer un error tipo II se denota por el símbolo
β. En ambos casos
se ha producido un juicio erróneo. Decisión
Ho es verdadera
Ho es falsa
Aceptar Ho
No hay error
Error tipo II
Rechazar Ho
Error tipo I
No hay error
1. Los errores tipo I y tipo II están relacionados. Una disminución en la probabilidad de uno por lo general tiene como resultado un aumento en la probabilidad del otro. 2. El tamaño de la región crítica, y por tanto la probabilidad de cometer un error tipo I, siempre se puede reducir al ajustar el o los valores críticos. 3. Un aumento en el tamaño muestral n reducirá α y β de forma simultánea. 4. Si la hipótesis nula es falsa, β
es un máximo cuando el valor real del parámetro se
aproxima al hipotético. Entre más grande sea la distancia entre el valor real y el valor hipotético, será menor β. Pasos para establecer un ensayo de hipótesis independientemente de la distribución que s e esté tratando: 1.
Interpretar correctamente hacia que distribución muestral se ajustan los datos del enunciado.
2.
Interpretar correctamente los datos del enunciado diferenciando los parámetros de los estadísticos. Así mismo se debe determinar en este punto información implícita como el tipo de muestreo y si la población es finita o infinita.
3.
Establecer simultáneamente el ensayo de hipótesis y el planteamiento gráfico del problema. El ensayo de hipótesis está en función de parámetros ya que se quiere evaluar el universo de donde proviene la muestra. En este punto se determina el tipo de ensayo
(unilateral o bilateral). 4.
Establecer la regla de decisión. Esta se puede establecer en función del valor crítico, el cual se obtiene dependiendo del valor de α (Error tipo I o nivel de significancia) o en función del estadístico límite de la distribución muestral. Cada una de las hipótesis deberá ser argumentada correctamente para tomar la decisión, la cual estará en función de la hipótesis nula o Ho.
209
UNIDAD IV / ESTADISTICA APLICADA.
5.
Calcular el estadístico real, y situarlo para tomar la decisión.
6.
Justificar la toma de decisión y concluir.
4.3.1 Prueba de hipótesis para la media poblacional. x −μ
σ Z = n Problema: Una muestra aleatoria de 100 muertes registradas en Estados Unidos el año pasado muestra una vida promedio de 71.8 años. Suponga una desviación estándar poblacional de 8.9 años, ¿esto parece indicar que la vida media de hoy en día es mayor que 70 años? Utilice un nivel de significancia de 0.05 Solución: 1. Se trata de una distribución muestral de medias con desviación estándar conocida.
2. Datos:
μ= 70
σ= 8.9 x = 71.8 n =100
α= 0.05 3. Ho : μ = 70 años H1 : μ > 70 años
4. Región critica o regla de decisión Si Z R ≤ 1.645 no se rechaza Ho. Si Z R > 1.645 se rechaza Ho y se acepta H 1. 5. Cálculos:
σ Z =
n
=
89 100 x −μ0
71.8 − 70 = 2.02
210
UNIDAD IV / ESTADISTICA APLICADA.
6. Justificación y decisión: Como 2.02 > 1.645 se rechaza Ho y se concluye con un nivel de significancia del 0.05 que la vida media hoy en día es mayor que 70 años. Problema: Una empresa eléctrica fabrica focos que tienen una duración que se distribuye de forma aproximadamente normal con una media de 800 horas y una desviación estándar de 40 horas. Si una muestra aleatoria de 30 focos tiene una duración promedio de 788 horas, ¿muestran los datos suficiente evidencia para decir que la duración media ha cambiado? Utilice un nivel de significancia del 0.04. Solución: 1. Se trata de una distribución muestral de medias con desviación estándar conocida. 2. os: horas
Dat
μ= 800
σ=
40 horas x = 788 horas n = 30
α = 0.04 3. Ensayo de hipótesis Ho; μ = 800 horas H1; μ1 ≠ 800 horas
211
UNIDAD IV / ESTADISTICA APLICADA.
4. Regla de Decisión: Si –2.052 ≤ ZR ≤ 2.052 No se rechaza Ho Si ZR < -2.052 ó si ZR > 2.052 Se rechaza Ho 5. Cálculos:
x Z
σ
=
40 30
n
−μ0788 − 800 ==−
1.643
6.Justificación y decisión:
−2.052 ≤ -1.643 ≤ 2.052 por lo tanto, no se rechaza Ho y se concluye con un nivel de
significancia del 0.04 que la duración media de los focos no ha cambiado. Problema: Un fabricante de equipo deportivo desarrolla un nuevo sedal sintético que afirma tiene una resistencia media a la tensión de ocho kilogramos con una desviación estándar de 0.5 Kg. Pruebe la hipótesis μ = 8 Kg. Contra la alternativa μ ≠ 8 Kg. si se prueba una muestra aleatoria de 50 sedales y se encuentra que tiene una resistencia media a la tensión de 7.78 Kg. –utilice un nivel de significancia de 0.01 Solución: 1. Se trata de una distribución muestral de medias con desviación estándar conocida.
2.
Datos:
μ= 8 Kg.
σ= 0.5 Kg.
x = 7.8 Kg.
n = 50
α = 0.01 3.
Ho : μ = 8 Kg.
H1 : μ ≠ 8 Kg.
212
UNIDAD IV / ESTADISTICA APLICADA.
4.
Regla de Decisión:
Si –2.58 ≤ ZR ≤ 2. 58 No se rechaza Ho Si ZR < -2.58 ó si ZR > 2.58 Se rechaza Ho 5.
Z
Cálculos:
=
σ n
0 .5 50
x −μ0
7.8 − 8.0
2.83
== −
6. Justificación y decisión: Como Si –2.83 < -2.58 por lo tanto, se rechaza Ho y se concluye que la resistencia promedio a la tensión no es igual a 8 Kg. sino que, de hecho, es menor que 8 Kg. con un nivel de significancia del 0.01 . Problema: Una muestra aleatoria de 64 bolsas de palomitas de maíz pesan, en promedio 5.23 onzas con una desviación estándar de 0.24 onzas. Pruebe la hipótesis de que μ = 5.5 onzas contra al hipótesis alternativa, μ < 5.5 onzas en el nivel de significancia de 0.05. Solución: 1. Se trata de una distribución muestral de medias con desviación estándar desconocida, pero como el tamaño de muestra es mayor a 30 se puede tomar la desviación muestral como un estimador puntual para la poblacional. 2. Datos: μ = 5.5 onzas σ = 0.24 onzas x = 5.23 onzas n = 64 a = 0.05 3. Ensayo de hipótesis Ho; μ= 5.5 onzas H1; μ < 5.5 onzas
4. Regla de decisión: Si ZR -1.645 No se rechaza Ho
213
UNIDAD IV / ESTADISTICA APLICADA.
Si ZR < -1.645 Se rechaza Ho 5. Cálculos:
x −μ0
=
σ Z =
5.25 − 5.5
9
0 .24
n
64
=−
6. Justificación y decisión: Como –9 < -1.645 por lo tanto se rechaza Ho y se concluye con un nivel de significancia del 0.05 que las bolsas de palomitas pesan en promedio menos de 5.5 onzas. Problema: La duración media de una muestra de 100 tubos fluorescentes producidos por una compañía resulta ser 1570 hrs. Con una desviación típica de 120 hrs. Si μ es la duración media de todos los tubos producidos por la compañía, comprobar la hipótesis μ = 1600 hrs. Contra la hipótesis alternativa μ ≠ 1600 hrs. Con un nivel de significancia de (a) 0.05 y (b) 0.01 Solución: a) 1. Se trata de una distribución muestral de medias con desviación estándar conocida. 2. Datos: ∝ = 0.05 n = 100 x = 1570 σ = 120 hrs. 3. Ensayo de hipotesis H0 : μ = 1600 hrs. H1 : μ ≠ 1600 hrs. 4. Regla de decisión Si –1.96 ≤ ZR ≤ 1.96 No se rechaza Ho Si ZR < -1.96 ó si ZR > 1.96 Se rechaza Ho 5. Cálculos Z = 1570 −1600 =−2.50 120
100
214
UNIDAD IV / ESTADISTICA APLICADA.
6. Justificación y decisión Como Si –2.50 < -1.96 por lo tanto, se rechaza Ho y se concluye que La duración media de una muestra de 100 tubos fluorescentes producidos por una compañía no resulta ser 1570 hrs., sino que, de hecho , es menor que 1570 hrs. con nivel de significancia del 0.05 que la duración media de todos los tubos producidos por la compañía no ha cambiado. b) 1. Se trata de una distribución muestral de medias con desviación estándar conocida. 2. Datos: ∝ = 0.01 n = 100 x = 1570 σ = 120 hrs. 3. Ensayo de hipotesis H0 : μ = 1600 hrs. H1 : μ ≠ 1600 hrs. 4. Regla de decisión Si –2.58 ≤ ZR ≤ 2.58 No se rechaza Ho Si ZR < -2.58 ó si ZR > 2.58 Se rechaza Ho 5. Cálculos Z = 1570 −1600 =−2.50 120
100 6. Justificación y decisión Como Si –2.58 ≤ -2.50 ≤ 2.58 como se encuentra dentro de este rango, se acepta Ho (o no se toma ninguna decisión) al nivel de significación del 0.01 Problema: La resistencia a la rotura de los cables producidos por un fabricante tiene una media de 1800 libras y una desviación típica de 100 libras. Mediante una nueva técnica en el proceso de fabricación se aspira a una resistencia pueda ser incrementada. Para ensayar esta aspiración, se ensaya una muestra de 50 cables y se encuentra que su resistencia media es de 1850 libras.¿ Puede mantenerse que, en efecto, hay un aumento de resistencia al nivel de significación del 0.01?
215
UNIDAD IV / ESTADISTICA APLICADA.
Solución: 1. Se trata de una distribución muestral de medias con desviación estándar conocida. 2. Datos: ∝ = 0.01 n = 50
x = 1850 lbs σ = 100 lbs
3. Ensayo de hipotesis H0 : μ = 1800 lbs H1 : μ > 1800 lbs. 4. Regla de decisión Si ZR ≤ − 2..33 No se rechaza Ho Si ZR > 2.33 Se rechaza Ho 5. Cálculos 1850 − 1800 Z == 3 .54
100 50
6. Justificación y decisión Como Si 3.54 > 2.33 por lo tanto, se rechaza Ho y se acepta H 1, por lo tanto se concluye que su resistencia media no es de 1850 libras si no que mayor. Problema: Se ha estudiado la tasa de quemado de un propulsor a chorro. Las especificaciones requieren que la tasa media de quemado sea 40 cm/s. Además, supóngase que sabemos que la desviación estándar de la tasa de quemado es aproximadamente de 2 cm/ s. El experimentador decide especificar una probabilidad de error tipo I
α= 0.05, y el basara la
prueba en una muestra aleatoria de tamaño n = 25. Pruebe la hipótesis de
μ= 40cm/ s y μ≠
40com/ s . Si se prueban veinticinco especímenes, y la tasa de quemado media de muestra que se obtiene es x = 41.25cm/ s
216
UNIDAD IV / ESTADISTICA APLICADA.
1. Se trata de una distribución muéstrales de medias con desviación estándar conocida. 2. datos:
x = 41.25cm/ s s s μ= 40cm/ s s n = σ= 2cm/ s
25
α= 0.05 3. Ensayo de hipótesis H 0 :μ= 40cm/ s s H 1 :μ≠ 40cm/ s s 4. regla de decisión -1.96 ≤ Z ≤ 1.96 se acepta H0 Z<-1.96 ó Z>1.96 se acepta H1 5. cálculos Z = x −μ0
σ
41.25 − 40 = 3.13 =
2 25
n
6. justificación y decisión 3.13 >1.96 se acepta H1 y se concluye que la tasa de quemado media no es igual a 40 cm/s, sino que mas de 40 cm/s. Varianza desconocida.
x Las variables aleatorias X1, X2, ... X n representan una muestra aleatoria de una distribución n( x
−μ) normal con μ y σ² desconocidas. Entonces la variable aleatoria tiene una s distribución t de student con n – 1 grados de libertad. La estructura de la prueba es idéntica a la del caso con σ conocida, con la excepción de que el valor σ en la estadística de prueba se reemplaza por la estimación de S calculada y la distribución normal estándar se reemplaza con una distribución ţ. Como resultado; para la hipótesis bilateral
217
UNIDAD IV / ESTADISTICA APLICADA.
Ho : μ = μ o Hi : μ ≠ μo El rechazo de Ho en un nivel de significancia α resulta cuando una estadística ţ calculada. x −μ0 t s n = Problema: Los científicos han citado al benceno, un disolvente químico de uso común en la síntesis de plásticos, como un posible agente causante de cáncer. Ciertos estudios han demostrado que las personas que trabajan con benceno durante mas de cinco años tienen una incidencia de leucemia 20 veces mayor que la población en general. En consecuencia, el gobierno federal estadounidense ha bajado el nivel máximo permisible de benceno en lugar de trabajo de 10 partes por millón (ppm) a 1 ppm ( información en el Florida Times – Union, 2 de abril de 1984). Suponga que una fabrica de artículos de acero, que expone a sus trabajadores diariamente a benceno, esta siendo investigada por la Administración de Seguridad y Salud Ocupacional (OSHA) de Estados Unidos. Se examinan 20 muestras de aire, tomada durante un periodo de un mes, parar determinar el contenido de benceno. Los análisis produjeron las siguientes estadísticas resumidas: x resumidas: x = 2.1 ppm s = 1.7 ppm ¿La fabrica de artículos de acero esta violando las nuevas normas del gobierno? Pruebe la hipótesis de que el nivel medio de benceno en la planta es mayor que 1 ppm ., utilizando
α=
0.05 Solución: 1. se trata de una distribución muestral de medias con varianza desconocida. 2. datos: x = 2.1 ppm s =1.7 ppm
n
= 20 μ=1 ppm
α= 0.05 3.
Ensayo de hipótesis
218
UNIDAD IV / ESTADISTICA APLICADA.
H0: μ= 1 H1:
μ> 1
4.
Regla de decisión : t > > 1.729 se acepta H1 y se rechaza H 0 t ≤ -1.729 se acepta H0 y se rechaza H1
5.
cálculos : x −μ0 t s n =
Supuesto: La distribución de frecuencia relativa de la población de niveles de benceno para todas las muestras de aire tomadas en la planta de fabricación de artículos de acero es aproximadamente normal. Región de rechazo: para α= 0.05y gl = (n – l) = 19, se rechazara H0 si t > t 0.05 = 1.729 x s 6. 2.89
= 1 .7
−μ0 2.1−1 2.89 t ==
n 20 justificación y decisión. > 1.729 se acepta H1 y se rechaza H0 . se llega a la conclusión de que la planta esta
violando las nuevas normas gubernamentales . Problema: La resistencia al rompimiento de una fibra textil es una variable aleatoria distribuida normalmente. Las especificaciones requieren que la resistencia media al rompimiento deba igualar el valor de 15 psi. Al fabricante le gustaría detectar cualquier desviación significativa respecto a este valor. En consecuencia se desea probar μ=150 psi y psi y μ≠ 150 psi . Con un nivel de significancia de
α= 0.05.
Si una muestra aleatoria de 15 especimenes de prueba se
selecciona y se determinan sus resistencias al rompimiento. La media y la varianza de l a muestra se calculan a partir de los datos de la misma como x =152.18 y s y s2 = 16.63 . 1. se trata de una distribución muestral de medias con varianza desconocida. 2. datos:
219
UNIDAD IV / ESTADISTICA APLICADA.
x =152.18 s2
=16.63
μ=150
n =15
α= 0.05 3. Ensayo de hipótesis H 0 :μ=150 H 1 :μ≠ 150 por ser bilateral
0.
α=
== 0.025
0.05
0.025,(15−1) =−2.145 −t 0.025,(15
t 0.025,(15 0.025,(15 −1) = 2.145 4. regla de decisión
− 2.145 ≤ t ≤ 2.145 se acepta H0 t <−2.145 ó t > 2.145 se acepta H1 5. Cálculos t = x −μ 152.18−150 = 2.07 = s 16.63 n
15
6. justificación y decisión
− 2.145 ≤ 2.07 ≤ 2.145 se acepta H0 y concluiríamos que no hay evidencia suficiente para rechazar la hipótesis de que μ=150 psi
4.3.2 Prueba de hipótesis para diferencias de medias. Problema: Un diseñador de productos está interesado en reducir el tiempo de secado de una pintura tapaporos. Se prueban dos fórmulas de pintura; la fórmula 1 tiene el contenido químico estándar, y la fórmula 2 tiene un nuevo ingrediente secante que debe reducir el tiempo de
220
UNIDAD IV / ESTADISTICA APLICADA.
secado. De la experiencia se sabe que la desviación estándar del tiempo de secado es ocho minutos, y esta variabilidad inherente no debe verse afectada por la adición del nuevo ingrediente. Se pintan diez especímenes con la f órmula 1, y otros diez con la fórmula f órmula 2. Los dos tiempos promedio de secado muéstrales son 121 min. y 112 min. Respectivamente. ¿A qué conclusiones puede llegar el diseñador del producto sobre la eficacia del nuevo ingrediente, utilizando α = 0.05? Solución: 1.
Se trata de una distribución muestral de diferencias de medias
2.
Datos:
σ1 = =σ2 8 x1 =121min x2 =112min n1 = =n2 10
α= 0.05 3.
Ensayo de hipótesis H 0 :μ1 −μ2 = 0 H 1 :μ
4.
μ1 − 2 > 0
Regla de decisión Z ≤1.645 se acepta H 0 Z >1.645 se acepta H 1
5.
Cálculos (121112) − −0 Z == 2.522 2 8 8
221
UNIDAD IV / ESTADISTICA APLICADA.
+ 10 6.
10
Justificación y decisión
Puesto que 2.52 > 1.645, se acepta H1, y se concluye con un nivel de significancia de 0.05 que la adición del nuevo ingrediente a la pintura si disminuye de manera significativa el tiempo promedio se secado. Problema: Se utiliza dos máquinas para llenar botellas de plástico con un volumen neto de 16.0 onzas. Las distribuciones de los volúmenes de llenado pueden suponerse normales, con desviaciones estándar de 0.020 y 0.025 onzas. Un miembro del grupo de ingeniería de calidad sospecha que el volumen neto de llenado de ambas máquinas es el mismo, sin importar si este es o no de 16 onzas. De cada máquina se toma una muestra aleatoria de 10 botellas. ¿Se encuentra el ingeniero en lo correcto? Utilice un nivel de significancia de 0.05. MAQUINA 1 16.03 16.04 16.05 16.05 16.02
16.01 15.96 15.98 16.02 15.99
MAQUINA 2 16.02 15.97 15.96 16.01 15.99
16.03 16.04 16.02 16.01 16.00
Solución: 1.
Se trata de una distribución muestral de diferencias de medias
2.
Datos: σ1 = 0.020;σ2 = 0.025 x1 =16.015; x2 =16.005
n1 = =n2 10;α= 0.05 3.
Ensayo de hipótesis H 0 :μ1 −μ2 = 0 H 1 :μ
μ1 − 2 ≠ 0
222
UNIDAD IV / ESTADISTICA APLICADA.
4.
Regla de decisión −1.96 ≤ ≤ Z
1.96 se acepta H 0
Z <−1.96 o Z >1.96 se acepta H 1
5.
Cálculos Z = (16.015 16.005)− −0 = 0.987 (0.020)2 (0.025)2
+ 10 6.
10
Justificación y decisión
Puesto que −1.96 ≤ ≤ Z 1.96, se acepta H0, y se concluye con un nivel de significancia de 0.05 que las dos máquinas tienen el mismo promedio de llenado. Problema: Existen dos tipos de plasticos apropiados para su uso por un fabricante de componentes electrónicos. La tensión de ruptura de es plástico es un parámetro importante. Se sabe que la desviación estandar es de 1.0 Psi. De una muestra aleatoria de tamaño 10 y 12 para cada pl ástico respectivamente. Se tiene ua media de 162.5 para el plastico 1 y de 155 para el plastico 2. La compañía no adoptara el plastico 1 a menos que la tensión de ruptura de este exceda a la del plastico 2 al menos por 10 Psi. Con base a la información contenidad en la muestra. ¿La compañía debera utilizar el plastico 1?. Utilice un nivel de significancia de 0.05 para llegar a una decisión. Solución: 1.
Se trata de una distribución muestral de diferencias de medias
2.
Datos: σ1 = =σ2
1.0 psi
x1 =162.5 psi
223
UNIDAD IV / ESTADISTICA APLICADA.
x2 =155 psi
=10
n1
n2 =12
α= 0.05 3.
Ensayo de hipótesis H 0 :μ1 −μ2 =10 H 1 :μ
4.
μ1 − 2 >10
Regla de decisión Z ≤1.645 se acepta H 0 Z >1.645 se acepta H 1
5.
Cálculos Z = (162.5 155)−
(1)2
−10 =−5.83
(1)2
10 + 12
. 6.
Justificación y decisión
No existe evidencia suficiente para apoyar el uso del plástico 1 ya que −5.83≤1.645, se acepta H0. Problema: La gerente de planta de una fábrica enlatadora de jugo de naranja está i nteresada en comprar el rendimiento de dos diferentes líneas de producción. Como la línea número 1 es relativamente nueva, sospecha que el número de cajas que se producen al día es mayor que el
224
UNIDAD IV / ESTADISTICA APLICADA.
correspondiente a la vieja línea 2. se toman datos al azar durante diez días para cada línea, encontrándose que x1 = 824.9cajas por día y x2 = 818.6 cajas por día. De la experiencia con la operación de este tipo de equipo se sabe qué
σ12 = 40
y
σ22 = 50.con
un nivele de
significancia de 0.05 Solución: 1. se trata de una distribución muestral de diferencias de medias. 2. datos:
x1 = 824.9cajas; x2 = 818.6
σ12 = 40; σ22 = 50. n1 = n2 = 10 ;
α= 0.05
3. ensayo de hipótesis
H 0 :μ1 =μ2 H 1 :μ1 >μ2 4. regla de decisión Z > 1.645 se acepta H1 Z ≤ -1.645 se acepta H0 5.
(824.9 −818.6) − 0
Cálculos
40
Z=
50
10 + 10
= 2.10
6. justificación y decisión
225
UNIDAD IV / ESTADISTICA APLICADA.
2.10 > 1.645 se acepta H1. se concluye que el numero medio de cajas producidas diariamente por la nueva línea de producción es mayor que el numero medio de caja producidas por la vieja línea.
4.3.3 Prueba de hipótesis para proporciones. Problema: Un constructor afirma que se instalan bombas de calor en 70% de todas las casas que se construyen hoy en día en la ciudad de Richmond. ¿Estaría de acuerdo con esta afirmación si una investigación de casas nuevas en esta ciudad muestra que 8 de 15 tienen instaladas bombas de calor? Utilice un nivel de significancia de 0.10. Solución: 1. Se trata de una distribución muestral de proporciones. 2. Datos:
P = 0.70 p =
8/15 = 0.5333 n
=15
α= 0.10 3. Ensayo de hipótesis Ho; P = 0.70 H1; P ≠ 0.70
4. Regla de Decisión: Si –1.645 ≤ Z ≤ 1.645 No se rechaza Ho Si ZR < -1.645 ó si ZR > 1.645 Se rechaza Ho 5. Cálculos:
226
UNIDAD IV / ESTADISTICA APLICADA.
Z = p − P = 0.533− 0.70 =−1.41 Pq
(0.70)(0.30)
n
15
6. Justificación y decisión : Como –1.645 ≤ -1.41 ≤ 1.645 No se rechaza Ho y se concluye con un nivel de significancia de 0.10 que la afirmación del constructor es cierta. Problema: El fabricante de una patente médica sostiene que la misma tiene un 90 % de efectividad en el alivio de una alergia, por un periodo de 8 hrs. En una muestra de 200 i ndividuos que tenían la alergia, la medicina suministrada alivio a 160 personas. Determinar si la aseveración del fabricante es cierta. El nivel de significancia es 0.01 Solución: 1. Se trata de una distribución muestral de proporciones. 2. Datos:
P = 0.90 p
=160/200 = 0.8 n
= 200
α= 0.01 3. Ensayo de hipótesis H0 : p = 0.9 H1 : p < 0.9 4. Regla de decisión Z < -2.33 se acepta H1 y se rechaza H0 Z ≥ -2.33 se acepta H0 5. Cálculos
Z = p − P = 0.8− 0.90 =−4.71
227
UNIDAD IV / ESTADISTICA APLICADA.
Pq
(0.90)(0.10)
n
200
6. justificación y decisión - 4.71 < - 2.33 se acepta H1 y se rechaza H0 . se concluye que es menor al 90 % de efectividad Problema: Un fabricante de semiconductores produce controladores que se emplean en aplicaciones de motores automovilísticos. El cliente requiere que la fracción de controladores defectuosos en uno de los pasos de manufactura críticos no sea mayor que 0.05, y que el fabricante demuestre esta característica del proceso de fabricación con este nivel de calidad, utilizando α = 0.05. El fabricante de semiconductores toma una muestra aleatoria de 200 dispositivos y encuentra que cuatro de ellos son defectuosos. ¿El f abricante puede demostrar al cliente la calidad del proceso? Solución: 1. Se trata de una distribución muestral de proporciones. 2. Datos: P = 0.05 p = 4/200 = 0.02 n = 200 α = 0.05 3. ensayo de hipótesis H 0 : P = 0.05 H 1 : P < 0.05
4. Regla de decisión: Si ZR ≥ -1.645 No se rechaza Ho Si ZR < -1.645 Se rechaza Ho 5. Cálculos:
228
UNIDAD IV / ESTADISTICA APLICADA.
Z = p − P = 0.02 −0.05 =−1.946 Pq
(0.05)(0.95)
n
200
6. Justificación y decisión: Puesto que –1.946<-1.645, se rechaza Ho y se concluye con un nivel de significancia del 0.05 que la fracción de artículos defectuosos es menor que 0.05.
4.3.4. Prueba de hipótesis para diferencia de proporciones. Problema: Se evalúan dos tipos diferentes de soluciones para pulir, para su posible uso en una operación de pulido en la fabricación de lentes intraoculares utilizados en el ojo humano después de una cirugía de cataratas. Se pulen 300 lentes con la primera solución y, de éstos, 253 no presentaron defectos inducidos por el pulido. Después se pulen otros 300 lentes con la segunda solución, de los cuales 196 resultan satisfactorios. ¿Existe alguna razón para creer que las dos soluciones para pulir son diferentes? Utilice α = 0.01 Solución: 1. Se trata de una distribución muestral de diferencia de proporciones. 2. Datos: p1= 253/300= 0.8433 p2 = 196/300= 0.6533 n1 = n2 = 300 3. Ensayo de hipótesis: Ho; P1 = P2 H1; P1 ≠ P2
229
UNIDAD IV / ESTADISTICA APLICADA.
4. Regla de decision. Si −2.575 ≤ ≤ z 2.575 se acepta Ho Si Z <−2.575 o Z > 2.575 Se acepta H1 5. Cálculos
P = x1 + x2 =
253 196+ 0.7483
=
n1
+n2
300+300 P = = = P 1 P 2 0.7483 q = − =1 P 0.2517
Z = ( p1 − p2 )−( P P 1 − 2 )
1 1 ⎞ ⎜ n1 + n2 ⎟
Pq ⎛
⎝
Z =
⎠
(0.8433−0.6533)−0
= 5.36
⎛ 1 1⎞ (0.7483)(0.2517) ⎜⎝ 300 + 300 ⎟⎠
6. Justificación y decisión : Puesto que 5.36 > 2.575 se rechaza la hipótesis nula y se concluye con un nivel de significancia de 0.01 que los dos fluidos para pulir son diferentes. Problema: Se tomará el voto entre los residentes de una ciudad y el condado circundante para determinar si se debe construir una planta química propuesta. El lugar de construcción está dentro de los límites de la ciudad y por esta razón muchos votantes del condado consideran que la propuesta pasará debido a la gran proporción de votantes que favorecen
230
UNIDAD IV / ESTADISTICA APLICADA.
la construcción. Para determinar si hay una diferencia significativa en la proporción de votantes de la ciudad y votantes del condado que favorecen la propuesta, se realiza una encuesta. Si 120 de 200 votantes de la ciudad favorecen la propuesta y 240 de 500 residentes del condado también lo hacen. ¿Estaría de acuerdo en que la proporción de votantes de la ciudad que favorecen la propuesta es más alto que la proporción?. Utilice un nivel de significancia de 0.025. Solución: 1. Se trata de una distribución muestral de diferencia de proporciones. 2. Datos: p1= 120/200 = 0.60; p2 = 240 / 500 = 0.48 n1 = 200; n2 = 500 3. Ensayo de hipótesis: Ho; P1 = P2 H1; P1 > P2
4. Regla de decision. Si Z ≤1.96 se acepta Ho Si Z >1.96 Se acepta H1 5. Cálculos P = x1 + x2 = 120 n1 + n2
+ 240 = 0.48
200+500
Z = ( p1 − p2)−( P 1 − P 2) =
⎛1
1⎞
Pq⎜ n1 + n2 ⎟⎠
(0.60−0.48)−0
= 2.9
⎛
(0.51)(0.49)⎜ 2001 + 5001 ⎟⎠⎞
⎝⎝
6. Justificación y decisión :
231
UNIDAD IV / ESTADISTICA APLICADA.
Puesto que 2.9 > 1.96 se acepta H1 y se concluye estar d e acuerdo en que la proporción de votantes de la ciudad a favor de la propuesta es más alta que la proporción de votantes del condado..
232
UNIDAD 5 REGRESION Y
CORRELACION.
Objetivo: Comprenderá el concepto de correlación
y
regresión,
los
expresará matemáticamente y los usará para tomar decisiones.
UNIDAD V / REGRESIÓN Y CORRELACIÓN.
5.1 Introducción. A menudo, en la práctica, se requiere resolver problemas que incluyen conjuntos de variables cuando se sabe que existen algunas relaciones inherentes entre ellas. Por ejemplo, en una situación industrial se puede saber que el contenido de al quitrán en el flujo saliente de un proceso químico se relaciona con la temperatura de entrada. Ya que una de las aplicaciones más importantes de la estadística implica la estimación del valor medio de una variable de respuesta y o la predicción de algún valor futuro y con base en el conocimiento de un conjunto de variables
independientes relacionadas, x1 ,x2,..., xk .
5.1.1 Gráficas de los datos. En la grafica de los datos es la interpretación de la información que se ha recopilado a través de un experimento en la cual consiste en la comparación por pares de datos y solo marca cada dato a través de puntos.
Problema: El calor especifico Cp(cal / kgmol ) del Mn3O4varía con la temperatura de acuerdo a la siguiente tabla: Punto
T ( K)
Cp
1
280
32.7
2
650
45.4
3
1000
52.15
4
1200
53.7
5
1500
52.9
6
1700
50.3
Elabore la grafica de los datos que muestra la tabla. Grafica de datos
60 40 20 0 0
500
1000 Temperatura
1500
2000
5.1.2 Variables de regresión independientes. Una de las aplicaciones más importantes de la estadística implica la estimación del valor medio de una variable de respuesta y o la predicción de algún valor futuro de y con base en el conocimiento de un conjunto de variables independientes relacionadas x1, x2,..., xk .
217
UNIDAD V / REGRESIÓN Y CORRELACIÓN.
Por ejemplo, el gerente de un centro de procesamiento de datos podría querer relacionar el tiempo de espera y (la variable dependiente) entre el momento en que se presenta un trabajo a una computadora y el momento en que se completa, con variables tales como el numero y el tamaño de los trabajos que ya están esperando para ejecutarse y el tamaño de los trabajos que se están presentando ( las variables independientes). El objetivo sería crear una ecuación de predicción (o un modelo) que exprese y como una función de las variables independientes. Esto permitiría la gerente predecir y para valores específicos de las variables independientes y, en última instancia, utilizar los conocimientos derivados de un estudio de la ecuación de predicción para instaurar políticas de control del tiempo de espera. Los modelos que se emplean para relacionar una variable dependiente y con las variables independientes x1, x2,..., xk se denominan modelos de regresión o modelos estadísticos lineales porque expresan el valor medio de y para valores dados de x1 ,x2,..., xk como una función lineal de un conjunto de parámetros desconocidos.
Definición La variable por predecir (o por modelar), y , es la variable dependiente (o de respuesta)
Definición Las variables que se utilizan para predecir (o modelar) y se denominan variables independiente y se denotan con los símbolos x1, x2 ,x3, , etcétera.
5.1.3 Regresión lineal simple. En el caso de la regresión lineal simple donde hay una sola variable de regresión independiente x y una sola variable Y, los datos se pueden representar mediante los pares de observaciones
{( x , y );i =1,2,...,n}. i
i
El ejemplo más simple de una aproximación por mínimos cuadrados es el ajuste de una línea recta a un conjunto de parejas de datos observadas: ( x1, y1) , ( x2 , y2 )
,. . .
( xn, yn ). 218
UNIDAD V / REGRESIÓN Y CORRELACIÓN.
La expresión matemática de una línea recta es:
y a ax= 0 + +1 ε En donde a0 y a1 son coeficientes que representan la intersección con el eje de las abscisas y la pendiente, respectivamente y E es el error o residuo entr e el modelo y las observaciones, que se pueden representar reordenando la ecuación como:
E = y−a0 −a1 x Por lo tanto, el error o residuo es la diferencia entre el valor real de y y el valor aproximado a0
+a 1x, predicho por la ecuación lineal. y =a0 +a 1x
Ecuación de la línea recta
Entonces, podríamos escoger un modelo que relacione a y con x trazando una línea resta a través de los puntos de la figura. Semejante modelo deterministico – uno que no contempla errores de predicción – podría ser adecuado si todos los puntos de la figura, quedaran sobre la línea ajustada. Sin embargo, es evidente que esta situación ideal no ocurre para los datos de la tabla. Sin importar como tracemos una línea recta desviaran significativamente de la línea ajustada. La solución al problema anterior es construir un modelo probabilístico que relacione y con x; uno que contemple la variación aleatoria de los puntos de datos a los lados de una línea recta. Un tipo de modelo probabilístico, el modelo de regresión lineal simple, supone que el valor medio de y para un valor dado de x se grafica como una línea recta y que los puntos se desvían de esta línea de medias en una cantidad aleatoria (positiva o negativa) igual a ε , es decir,
y a ax= 0 + +1 ε Donde a0 y a1 son parámetros desconocidos de la porción deterministico (no aleatoria) del modelo. Si suponemos que los puntos se desvían por encima y por debajo de la línea de medias, siendo algunas desviaciones positivas, otras negativas, y con E (ε) = 0 entonces el valor medio de y es
E y E a ax( ) = ( 0 + +1 ε)
= + +a ax E 0 = +a ax0
1
( )ε
1
Por tanto, el valor medio de y para un valor dado de x, representado por el símbolo E (y), * se grafica como una línea recta con ordenada al origen igual a
a
y pendiente igual a
0
a
.
1
219
UNIDAD V / REGRESIÓN Y CORRELACIÓN.
La validez de las inferencias acerca de
a
y
0
a
dependerá de las distribuciones de muestreo de
1
los estimadores, que a su vez dependen de la distribución de probabilidad del error aleatorio, ε; por tanto, primero debemos hacer supuestos específicos respecto a ε. Tales supuestos, que se resumirán a continuación, son básicos para todo análisis de regresión estadístico. Líneas de regresión ajustada. Supuesto I: La media de la distribución de probabilidad de ε es 0. Es decir, la media de los errores a lo largo de una serie infinitamente larga de experimentos es 0 para cada valor de la variable independiente x. Este supuesto implica que el valor medio de y, E ( y) , para un valor dado de x es
E y( )= +a0a x1 Supuesto II: La varianza de la distribución de probabilidad de
ε
es constante para todos los
valores de la variable independiente x. En el caso de nuestro modelo de línea recta, este supuesto significa que la varianza de ε es igual a una constante, digamosσ2 , para todos los valores de x.
Supuesto III: La distribución de probabilidad de ε es normal. Supuesto IV: Los errores asociados a cualesquier dos observaciones distintas son independientes. Es decir, el error asociado a un valor de y en particular no tiene efecto alguno sobre los errores asociados a otros valores de y . Las implicaciones de los tres primeros supuestos pueden apreciarse en la figura siguiente, que muestra las distribuciones de errores para tres valores específicos de x, a saber, x1, x2 y x3 .
Observe que las distribuciones de frecuencia relativa de los errores son normales, con una media de 0 y una varianza constante deσ2. La línea recta de la figura es el valor medio y para un valor dado de x,
220
UNIDAD V / REGRESIÓN Y CORRELACIÓN.
En la práctica, los supuestos no tienen que cumplirse al pie de la letra para que los estimadores de mínimos cuadrados y las estadísticas de prueba (que se describirán más adelante) tengan el grado de con fiabilidad que esperamos de un análisis de regresión.
5.2. Diagrama de dispersión 5.2.1. Tabla de datos Ejemplo: Supongamos que el inventor de un material aislante quiere determinar la magnitud de la compresión que se producirá en un espécimen de 2 pulgadas de espesor cuando se someta a diferentes cantidades de presión. Se prueban cinco trozos experimentales del material bajo diferentes presiones. Los valores de x (en unidades de 10 libras por pulgada c uadrada) y las magnitudes de compresión resultantes y (en unidades de 0.1 pulgada) se presentan en la tabla.
221
UNIDAD V / REGRESIÓN Y CORRELACIÓN.
Tabla Compresión vs. presión para un material aislante Espécimen Presión Compresión X
y
1
1
1
2
2
1
3
3
2
4
4
2
5
5
4
5.2.2. Construcción de diagramas. En la figura se muestra una grafica de los datos llamada diagrama de dispersión. 5 4 3 2 1 0 0
2
4
6
Presión
Supongamos que creemos que el valor de y tiende a aumentar de forma lineal conforme x aumenta.
5.3. Estimación mediante la línea de regresión 5.3.1. Ecuación de la recta como ajuste de datos El método más simple de ajustar una curva a un conjunto de datos es el de trazar los puntos y unirlos con una línea recta. Aunque es una alternativa validad y se utiliza cuando se requiere
222
UNIDAD V / REGRESIÓN Y CORRELACIÓN.
hacer estimaciones rápidas, los resultados son independientes, desde un punto de vista subjetivo, de la persona que traza la recta. Para quitar esta dependencia se usa la regresión lineal o mínimos cuadrados. Ecuación de la línea recta y
=a0 +a1 x Polinomio de segundo grado o cuadrático: y=a0
+a1 x+a2 x2 +e Una extensión útil en la regresión lineal es el caso en que y es una función lineal de dos o más variables. Por ejemplo, y pudiera ser una función lineal de x1 y x2 , de la forma:
y=a0 +a1 x1 +a2 x2
5.3.2. Modelos Algoritmo de la solución 1. Inicio 2. Solicitud de los datos discretos ( tabla de datos encontrados experimentalmente) a los cuales se le va a encontrar la recta que de aproxima mas a ellos. 3. Calcular con base a los datos dados el valor de n.
∑y Encontrar la sumatoria ∑x
4. encontrar la sumatoria 5.
∑xy Encontrar la sumatoria de la potencia ∑x
6. encontrar la sumatoria del producto
2 7. 8. Sustituir los valores encontrados en los pasos 3, 4, 5, 6, 7, en las ecuaciones del método de mínimos cuadrados. 9. Resolver el sistema de ecuaciones para encontrar a las constantes A y B 10. sustituir los valores de A y B en la ecuación de la recta. 11. impresión de los resultados 12. Fin.
223
UNIDAD V / REGRESIÓN Y CORRELACIÓN.
5.4. Métodos de mínimos cuadrados. El significado de mínimos cuadrados consiste en obtener la recta que ajuste a una serie de datos numéricos, con la condición que la suma de los cuadrados de los residuos sea mínima posible.
a) Muestra de datos con un error significativo. b) Ajuste polinomial con oscilaciones que violan el rango de datos. c) Se obtienen resultados más satisfactorios usando el ajuste de mínimos cuadrados. Si queremos escoger la línea recta "de mejor ajuste" para un conjunto de datos, debe mos estimar
a
los parámetros desconocidos
y
a
0
1
del modelo de regresión lineal simple. Estos estimadores
podrían obtenerse empleando el método de máxima verosimilitud pero el método más fácil y el más atractivo desde un punto de vista intuitivo es el método de mínimos cuadrados. Cuando se satisfacen los supuestos de la sección anterior, los estimadores de máxima verosimilitud y de mínimos cuadrados de
a
y
0
a 1
son idénticos.
5.4.1. Estimación de los coeficientes de regresión Ecuación de la línea recta (regresión lineal)
y=a0 +a1 x
a1 = n
∑ ∑ ∑ x y − x i
i
i
yi
n
224
UNIDAD V / REGRESIÓN Y CORRELACIÓN.
a0 = y−a1 x
225
UNIDAD V / REGRESIÓN Y CORRELACIÓN.
UNIDAD V / REGRESIÓN Y CORRELACIÓN.
Problema: Ajústese una línea recta a los valores x y y de la tabla siguiente: i 1 2 3 4 5 6 7
X 1 2 3 4 5 6 7
y 0.5 2.5 2.0 4.0 3.5 6.0 5.5
Solución:
Problema: Las bodegas modernas utilizan vehículos guiados computarizados y automatizados para el manejo de materiales. En consecuencia, la disposición física de la bodega debe diseñarse con cuidado a modo de evitar el congestionamiento de los vehículos y optimizar el tiempo de respuesta. En The Joumal of Engineering for industry (agosto de 1993) se estudió el diseño óptimo de una bodega automatizada. La disposición empleada supone que los vehículos no se bloquean entre sí cuando viajan dentro de la bodega, es decir, que no hay congestionamiento. La validez de este supuesto se verificó simulando (en una computadora) las operaciones de la bodega. En cada simulación se varió el número de vehículos y se registró el tiempo de congestionamiento (el tiempo total que un vehículo bloqueó a otro). Los datos se muestran en la siguiente tabla. Algo que interesa a los investigadores es la relación entre el tiempo de congestionamiento (y) y el número de vehículos (x).
226
Número de Tiempo de congestionamiento Número de vehículos en minutos vehículos
1 2 3 4 5 6 7
0 0 0.02 0.01 0.01 0.01 0.03
8
0.03
Tiempo de congestionamiento en minutos
9 10 11 12 13 14 15
0.02 0.04 0.04 0.04 0.03 0.04 0.05
a) Construya un diagrama de dispersión para los datos. b) Encuentre la línea de mínimos cuadrados que relaciona el número de vehículos (x) con el tiempo de congestionamiento (y). c) Trace la línea de mínimos cuadrados en la gráfica del inciso a. Solución: Tiempo de congestionamiento 0.06 0.05 0.04 0.03 0.02 0.01 0 -0.01 0
y = 0.00319118x -0.00400000
5
10
15
20
Problema: En la tabla siguiente se presentan los alargamientos de un resorte correspondientes a fuerzas de diferente magnitud que lo deforman. Puntos
1
2
3
4
5
Fuerza (kgf) : x
0
2
3
6
7
0.153
0.170
0.225
0.260
Longitud
del
resorte 0.120
(m) : y
UNIDAD V / REGRESIÓN Y CORRELACIÓN.
227
UNIDAD V / REGRESIÓN Y CORRELACIÓN.
Aproxime esta información por el método de mínimos cuadrados, usando regresión lineal.
Solución: 0.300 y = 0.0194x + 0. 1156 R2 = 0.987 5
0.250 0.200 0.150 0.100 0.050 0.000 0
2
4
6
8
Problema: El calor especifico Cp(cal /kgmol ) del Mn3O4varía con la temperatura de acuerdo a la siguiente tabla: Punto
1
2
3
4
5
6
T ( K)
280
650
1000
1200
1500
1700
Cp
32.7
45.4
52.15
53.7
52.9
50.3
Aproxime esta información por el método de mínimos cuadrados. Usando regresión lineal.
Polinomio de segundo grado o cuadrático (regresión polinomial)
228
y a ax a x= + +0
1
2
2
a
yi
a
xi yi a xi2 yi
Problema: Ajuste un polinomio de segundo orden a los datos de las dos columnas del cuadro:
xi
yi
0 1 2 3 4 5
2.1 7.7 13.6 27.2 40.9 61.1
∑ m= 2
152.6
∑ x =15 i
n= 6
∑∑ y
2
i
=15552.6
∑ x y = 585.6 i
i
xi =
6a0 +15a1 +55a2 =152.6 15a0 +55a1 + 225a2 = 585.6
55a0 + 225a1
+979a2 = 2488.8
229
UNIDAD V / REGRESIÓN Y CORRELACIÓN.
70 60 50 40 30 20 10 0
y = 1.853x2 + 2.397x + 2.464 R² = 0.998
0
1
2
3
4
5
6
Regresión lineal múltiple y
=a0 +a1 x1 +a2 x2 Ahora tenemos el conjunto de ecuaciones normales:
∑ ∑ ∑ x +a x = y a ∑ ∑ ∑ x +a x +a x x a ∑ ∑ x +a x x =∑ x y +a ∑ ∑ x = x y
a n0 +a1
1,i
1,i
1,i
2,i
1
i
2
2
2,i
12,i
0
2,i
22,i
2
i
1,i
1
0
2,i
1,i
2,i i
Problema: Veinte tipos de hojas de aceros procesadas en frío tienen diferentes composiciones de cobre y temperaturas de templado. Al medir su dureza resultante se obtuvieron los siguientes valores:
230
UNIDAD V / REGRESIÓN Y CORRELACIÓN.
Se sabe que la dureza depende en forma lineal del contenido de u de cobre en % y de la temperatura del templado v y
=a0 +a1u+a2v
Determine los parámetros a0,a1 y a2 , siguiendo el criterio de los mínimos cuadrados. Solución:
⎛ 12 A :=
⎜
1.2
⎜ ⎝ 13800
1.2
13800
0.1712
1380
1380
795.7
81.258
⎞ ⎟
⎟ 16020000 902230⎠
⎛ 1 0 0 161.336⎞ rref A() =
⎜
010
32.969
⎟
⎜ ⎟ ⎝ 0 0 1 −0.086 ⎠ y := 161.336+ 32.969u − 0.086v
231
UNIDAD V / REGRESIÓN Y CORRELACIÓN.
5.5 Error estándar de estimación Los segmentos de línea verticales representan desviaciones de los puntos respecto a la línea en la siguiente figura. Se puede constatar, desplazando una regla dentro de la gráfica que es posible encontrar muchas líneas para las cuales la suma de las desviaciones (o errores) es igual a 0, pero puede demostrarse que hay una y sólo una línea para la cual la suma de los cuadrados de las desviaciones es mínima. La suma de los cuadrados de las desviaciones se denomina suma de cuadrados del error y se denota con el símbolo SSE. La línea recibe el nombre de línea de mínimos cuadrados, línea de regresión o ecuación de predicción de mínimos cuadrados.
Grafica que muestra las desviaciones de los puntos respectos a una línea recta. Si queremos encontrar la línea de mínimos cuadrados para un conjunto de datos, suponemos que tenemos una muestra de n puntos de datos que se pueden identificar mediante los correspondientes valores de x y y , digamos, (x 1, y 1 ) , (x 2, y 2 ), . . . , (x n , Y n ). El modelo de línea recta para la respuesta y en términos de x es y=
La línea de medias es E y( )= representa como y a axˆ
+a0 a x1 y la línea ajustada, que esperamos encontrar, se
ˆ ˆ
=+
0
+ +a0 a x1 ε
1
.
232
UNIDAD V / REGRESIÓN Y CORRELACIÓN.
Entonces, la suma de los cuadrados de las desviaciones de los valores de y respecto a sus valores estimados para toda las n puntos de datos es 2
n
∑[ y −(aˆ +axˆ )] Para una regresión lineal.
SSE =
0
i
1i
i=1
2
n
⎡⎣ y a
SSE polinomial.
ax a x ⎤⎦ Para una regresión
i=1
En la mayor parte de las situaciones prácticas, l a varianza σ2 del error aleatorio εes desconocida y se debe estimar a partir de los datos de muestra. Puesto que de y respecto de la línea E y a ax( )=
0
σ2 mide la variación de los valores
+ 1 parece intuitivamente
razonable estimar σ2 dividiendo SSE entre un número apropiado. Teorema Sea s2 = SSE /(n− 2). entonces , si se satisfacen los supuestos, la estadística 2
SSE
(n − 2) s2
χ=
=
2 2
σ
σ
Tiene una distribución ji cuadrada con v = (n – 2 ) grados de libertad.
s2 =χ2σ2 n−2 Entonces,
E ( s2) =
σ2 E (χ2 ) n−2
Donde E( χ2 ) = v = (n - 2).
233
UNIDAD V / REGRESIÓN Y CORRELACIÓN.
Por tanto,
σ2 (n − 2) =σ2
E ( s2) =
n−2
Y negamos a la conclusión de que s 2 es un estimador insesgado de σ2 . El procedimiento empleado para calcular SSE puede dar pie a errores de redondeo considerables. En el siguiente recuadro se presentan la fórmula para s2 y un método para calcular SSE.
Estimación de σ2 SSE SSE s2 =
= Grados de libertad para error donde SSE =
n−2
∑( y − yˆ ) = SS −βˆSS i
i
2
yy
xy
SS yy n Donde β=a1 Advertencia: al realizar estos cálculos tal vez se sienta tentado a redondear los valores ˆ
calculados de SS yy,β y SS xy. Asegúrese de conservar por lo menos seis cifras significativas para cada una de estas cantidades a fin de evitar un error importante en el cálculo de SSE.
5.6 Coeficiente de determinación y correlación
234
UNIDAD V / REGRESIÓN Y CORRELACIÓN.
5.6.1 Coeficiente de determinación de la muestra Otra forma de medir la contribución de x a la predicción de y es considerar hasta dónde pueden reducirse los errores de la predicción de y aprovechando la información proporcionada por x.
a) Diagrama de dispersión de los datos b) Supuesto: x no contribuye con información a la predicción de y ; yˆ = y c) Supuesto: x contribuye con información a la predicción de y ; y a ax=
+0
1
Como ilustración, supongamos que una muestra de datos tiene el diagrama de dispersión que se muestra en la figura anterior del inciso a. Si suponemos que x no contribuye con información a la predicción de y, la mejor predicción de y será la media de la muestra, y, que se grafica como una línea horizontal en la figura inciso b. Los segmentos de línea verticales trazados en esa figura son las desviaciones de los puntos respecto de la media y. Observe que la suma de los cuadrados de las desviaciones para el modelo:
∑( y − y) .
yˆ = y es SS yy =
i
2
Supongamos ahora que ajustamos una línea de mínimos cuadrados al mismo conjunto de datos y marcamos las desviaciones de los puntos respecto de la línea como se hace en la figura del inciso c. Compare las desviaciones respecto de las líneas de predicción en los incisos b y c de la figura anterior. Es evidente que:
235
UNIDAD V / REGRESIÓN Y CORRELACIÓN.
1. Si x contribuye con poca o ninguna información a la predicción de y , las sumas de los cuadrados de las desviaciones para las dos líneas,
∑( y − y)
SS yy =
i
2
∑( y − yˆ )
SSE =
i
i
2
2. Si x contribuye con información a la predicción de y , entonces SSE será menor que SSyy. De hecho, si todos los puntos caen en la línea de mínimos cuadrados, entonces SSE = 0. Una forma cómoda de medir qué tan bien se desempeña la ecuación de mínimos cuadrados
yˆ = + a0 a x 1 como predictora de y es calcular la reducción en la suma de los cuadrados de las desviaciones que se puede atribuir a x, expresada como una proporción de SS yy. Esta cantidad, llamada coeficiente de determinación, es SS yy − SSE SS yy En la regresión lineal simple se puede demostrar que esta cantidad es igual al cuadrado del coeficiente de correlación lineal simple r.
Definición: El coeficiente de determinación es SS r 2 = yy −SSE =1− SSE SS yy
SS yy
Este coeficiente representa la proporción de la suma de los cuadrados de las desviaciones de los valores de y respecto de sus valores estimados ( yˆ)que se puede atribuir a una relación lineal y y x . (En una regresión lineal simple, este coeficiente también puede calcularse elevando al cuadrado el coeficiente de correlación r )
236
UNIDAD V / REGRESIÓN Y CORRELACIÓN.
Observe que r 2 siempre está entre 1 y 1, porque r está entre -1 y +1. Por tanto, r 2 = 0.60 significa que la suma de los cuadrados de las desviaciones de los valores de y respecto de sus valores estimados se redujo en 60% al utilizar yˆ , en lugar de y , para predecir y. O bien, en términos más prácticos, r 2 = 0.60 implica que el modelo de línea recta que relaciona a y con x puede explicar (o dar cuenta de) 60% de la variación presente en la muestra de valores de y. Problema: Calcule el coeficiente de determinación para el ejemplo de compresión de aislante. Los datos se repiten en la tabla siguiente: Presión
Compresión
X, 10 libras Y, 0.1 de por pulg 2 pulgada
SS yy
1
1
2
1
3
2
4
2
5
4
yi
∑( y y
SSE =
i
− ˆi )2 =1.10
r 2 =SS yy −SSE = 6.0 1.1− =0.82=82% SS yy
6.0
237
UNIDAD V / REGRESIÓN Y CORRELACIÓN.
(Observe que este valor también podría haberse obtenido elevando al cuadrado el coeficiente de correlación r = 0.904.) Ahora sabemos que al usar la presión x para predecir la compresión y con la línea de mínimos cuadrados yˆ = -0.1 + 0.7x, la suma total de los cuadrados de las desviaciones de los cinco valores de y respecto de sus valores estimados se redujo en 82% gracias al empleo del predictor lineal yˆ . Es decir, 82% de la variación de los valores de compresión de la muestra se puede explicar mediante la línea de mínimos cuadrados.
Interpretación práctica del coeficiente de determinación, r 2 Aproximadamente 100(r 2) % de la suma total de los cuadrados de las desviaciones de los valores y de la muestra respecto de su media y se puede explicar por ( o atribuirse a) el empleo de x para predecir y con el modelo de línea recta. En situaciones en las que un modelo de regresión de línea recta resulta ser un predictor estadísticamente satisfactorio de y, el valor de r 2 puede servir al analista de regresión como guía en la búsqueda de mejores y más útiles modelos. Por ejemplo, Crandall y Cedercreutz (1976) emplean un modelo lineal simple para relacionar el costo del trabajo mecánico (calefacción, ventilación y plomería) en la construcción con el área de piso.
Con base en los datos asociados a la construcción de 26 fábricas y bodegas, se obtuvo la ecuación de predicción de mínimos cuadrados que se indica en la figura siguiente. Se llegó a la conclusión de que el área de piso y el costo mecánico tienen una relación lineal, ya que la estadística t (para probar Ho: a1 =0) produjo un valor de 3.61, el cual es significativo con un a0 tan pequeño como 0.002. Por tanto, el área de piso debe servirnos para predecir el costo mecánico de una fábrica o bodega. Sin embargo, el valor del coeficiente de determinaci ón r 2 fue de 0.35. Esto nos dice que
238
UNIDAD V / REGRESIÓN Y CORRELACIÓN.
sólo 35% de la variación en los costos mecánicos se puede atribuir a las diferencias en el área de piso. Este valor relativamente pequeño de r 2 impulsó a Crandall y Cedercreutz a incluir en el modelo otras variables independientes (por ejemplo, volumen, cantidad de vidrio) en un intento por dar cuenta de una porción significativa del 65% restante de la variación en el costo mecánico que no puede explicarse con el área de piso.
Modelo lineal simple que relaciona el costo con el área de piso.
5.6.2 Coeficiente de correlación de la muestra a
La pendiente de mínimos cuadrados, 1 proporciona información útil sobre la relación o "asociación" lineal entre dos variables y y x. Otra forma de medir la asociación es calcular el coeficiente de correlación r del momento de producto de Pearson. El coeficiente de correlación, que se define en el recuadro, ofrece una medida cuantitativa de la fortaleza de la relación lineal entre x y y en la muestra, como lo hace la pendiente de mínimos cuadrados a1. Sin embargo, a
239
UNIDAD V / REGRESIÓN Y CORRELACIÓN.
diferencia de la pendiente, el coeficiente de correlación r es adimensional. El valor de r siempre está entre -1 y + 1, sin importar en qué unidades se exprese x y y.. Definición : El coeficiente de correlación r del momento de producto de Pearson es una medida de la fortaleza de la relación lineal entre dos variables x y y en la muestra. El coeficiente se calcula ( para una muestra de n mediciones de x y y ) como sigue
SS r=
xy
SS xxSS yy
a
Puesto que tanto r como
1
proporcionan información acerca de la utilidad del modelo, no debe
sorprendemos que las fórmulas mediante las cuales se calculan sean similares. En particular, observe que SS xy aparece en los numeradores de ambas expresiones y que, dado que ambos denominadores siempre son positivos, r y
a
siempre tienen el mismo signo
1
(ambos positivos o bien ambos negativos). Un valor de r cercano o igual a 0 implica poca o ninguna relación lineal entre y y x. En contraste, cuanto más se acerque r a 1 o -1, más fuerte será la relación lineal entre x y y. Y, si r = 1 o r = -1, todos los puntos caerán exactamente en la línea de mínimos cuadrados. Un valor positivo de r implica que y aumenta cuando x aumenta; un valor negativo implica que y disminuye cuando x aumenta.
Problema: En la tabla siguiente .Calcule el coeficiente de correlación r entre la presión x y la compresión y. Presión
Compresión
X, 10 libras por pulg2
Y, 0.1 de pulgada
1
1
240
UNIDAD V / REGRESIÓN Y CORRELACIÓN.
2
1
3
2
4
2
5
4
Solución: SSxy = 7, SSxx =
10, : y
.
Entonces,
SS yy
yi
y el coeficiente de correlación es
7
SS xy r=
= SS xxSS yy
7
=
( )( )10 6
= 0.904 7.746
Por tanto, la presión y la magnitud de la compresión tienen una correlación elevada, al menos para esta muestra de cinco trozos de material aislante. La implicación es que existe una relación lineal positiva fuerte entre estas variables. No obstante, debemos tener cuidado de no precipitamos a conclusiones injustificadas. Por ejemplo, el inventor de un nuevo material aislante podría sentirse tentado a concluir que un aumento en la presión siempre producirá una mayor compresión. La implicación de semejante conclusión es que existe una relación causal entre las dos variables. Sin embargo, una correlación elevada no implica causalidad . Muchos otros factores, como la temperatura y la humedad, podrían contribuir al aumento en el grado de compresión que se produce en los especímenes. Advertencia Una correlación elevada no implica causalidad. Si se observa un valor positi vo o negativo grande del coeficiente de correlación r de la muestra, no es correcto llegar a la conclusión de que un
241
UNIDAD V / REGRESIÓN Y CORRELACIÓN.
cambio en x causa un cambio en y. La única conclusión puede existir una tendencia lineal entre x y y . Tenga presente que el coeficiente de correlación r mide la correlación entre los valores x y los valores y de la muestra, y que existe un coeficiente de correlación lineal similar para la población de la cual se seleccionaron los puntos de datos.
ρ (rho). Como era de
El coeficiente de correlación de población se denota con el símbolo
esperar, ρ se estima con la estadística de muestra correspondiente, r . Por otro lado, en lugar de estimar ρ, podríamos querer probar la hipótesis : H0: ρ = 0 contra Ha: ρ ≠ 0 , es decir, probar la hipótesis de que x no contribuye con información a la predicción de y empleando el modelo de línea recta contra la alternativa de que las dos variables tienen por 10 menos una relación lineal.
ˆ
La única diferencia real entre la pendiente de mínimos cuadrados a
1
y el coeficiente de
correlación r es la escala de medición. Por tanto, la información que proporcionan acerca de la utilidad del modelo de mínimos cuadrados es en cierta medida redundante. Además, la pendiente
a 1
proporciona información adicional sobre la magnitud del incre mento (o decremento)
de y con cada incremento unitario de x. Por esta razón, recomendamos utilizar la pendiente para hacer inferencias acerca de la existencia de una relación lineal positiva o negativa entre dos variables. Para quienes prefieren probar si hay o no una relación lineal entre dos variables empleando el coeficiente de correlación r, bosquejamos el procedimiento en el recuadro.
242
UNIDAD V / REGRESIÓN Y CORRELACIÓN.
243
UNIDAD V / REGRESIÓN Y CORRELACIÓN.
Prueba de hipótesis para la correlación lineal Prueba de un cola Prueba de dos colas
H o :ρ=0 H o :ρ= 0 H 1:ρ>0 H 1 :ρ≠ 0
(ρ<0) rn Estadística de prueba: t =
−
2
1−r 2 Región de rechazo: t>
t
Región de rechazo: t t > α/2
α
(t <−t α) Donde la distribución de t depende de (n – 2) gl . Problema: Es importante que los investigadores científicos en el área de los productos forestales sean capaces de estudiar la correlación entre la anatomía y las propiedades mecánicas de los árboles. De acuerdo con el estudio Quantitative Anatomical Characteristics of Plantation Grown Loblolly Pine (pinus Taeda L.) and Cottonwood (populus deltoides Bart. Ex Marsh.) and Their Relationship to Mechanical Properties que llevó a cabo el Departamento de Silvicultura y
Productos Forestales del Instituto Politécnico y Universidad Estatal de Virginia, un experimento en el que se seleccionaron aleatoriamente 29 pinos loblolly para investigación que produjeron los datos de la tabla siguiente sobre la gravedad específica en gramos /cm 3 y el módulo de ruptura en kilo pascales (kPa). Calcule e interprete el coeficiente de correlación muestra!. Gravedad especifica, x
Modulo de
Modulo de
ruptura, y
Gravedad especifica, x
( g /cm3)
(kPa)
( g /cm3)
(kPa)
0.414 0.383 0.399 0.402 0.442 0.422
29186 29266 26215 30162 38867 37831
0.581 0.557 0.550 0.531 0.550 0.556
85156 69571 84160 73466 78610 67657
ruptura, y
244
UNIDAD V / REGRESIÓN Y CORRELACIÓN.
0.466 0.500 0.514 0.530 0.569 0.558 0.577 0.572 0.548
44576 46097 59698 67705 66088 78486 89869 77369 67095
0.523 0.602 0.569 0.544 0.557 0.530 0.547 0.585
74017 87291 86836 82540 81699 82096 75657 80490
Solución
S xx =0.11273;
S yy =11807324786
S xy =34422.75972
34422.75972
=0.9435 r = (0.11273)(11807324786) Un coeficiente de correlación de 0.9435 indica una buena relación lineal entre X y Y. Como r 2 = 0.8902, podemos decir que aproximadamente 89% de la variación en los valores de Y se explica por una relación lineal con X.
Una prueba de la hipótesis especial
ρ= 0 contra una alternativa apropiada es equivalente a
probar β= 0 para el modelo de regresión lineal simple que utilizan la distribución t con n – 2 grados de libertad o la distribución F con 1 y n - 2 grados de libertad. Sin embargo, si se desea evitar el procedimiento del análisis de varianza y calcular sólo el coeficiente de correlación muestral, se puede verificar que el valor t dado por
b s
SSR
=
s
t = S xx
245
UNIDAD V / REGRESIÓN Y CORRELACIÓN.
También se puede escribir como t = r n
−
2 que, como antes, es un valor de la 1− r 2
estadística T que tiene una distribución t con n - 2 grados de libertad. Problema: Para los datos del ejemplo anterior pruebe la hipótesis de que no hay una asociación lineal entre las variables. Solución:
1. H o : ρ= 0 2. H 1 : ρ≠ 0
3.
α=0.05
4.
Región critica: t <−2.052 y t >
2.052 5. Calculos 0.9435(27) 2
t = 1 −(0.9435 ) =14.79, P < 0.001 6. Decisión Rechazar la hipótesis de no asociación lineal.
Una prueba de la hipótesis más general ρ = ρo contra una alternativa adecuada se lleva a cabo fácilmente a partir de la información muestral. Si X y Y siguen la distribución normal bivariada, la cantidad
⎛1+ r ⎞ ln⎜ ⎟ 2 ⎝1− r ⎠ 1
Es un valor de una variable aleatoria que sigue de manera aproximada la distribución normal con media (1/2) In [(1 + ρ ) / (1- ρ)] y varianza 1/ (n - 3). De esta forma el procedimiento de prueba es calcular
246
UNIDAD V / REGRESIÓN Y CORRELACIÓN.
z = n2−3 ⎢⎢⎣⎡ln⎛⎜⎝11+− rr ⎞⎟⎠− ln⎜⎝⎛⎜11
+−ρρ00 ⎞⎟⎟⎠⎤⎥⎥⎦
n −3 ⎡(1+ r )(1−ρ0 )⎤
=
2
ln⎢⎣(1− r )(1+ρ0 )⎥⎦
y comparar con los puntos críticos de la distribución normal estándar. Problema: Para los datos del ejemplo antes de que acabamos de resolver pruebe la hipótesis nula ρ= 0.9 contra la alternativa de que ρ> 0.9 . Utilice un nivel de significancia de 0.05 Solución: 1.
. H 0 :ρ= 0.9
2.
H 1 :ρ> 0.9
3.
α= 0.05
4. 5.
Región critica : z >1.645 Cálculos
z = 226 ln⎢⎣⎡((11+− 00..94359435))10..91⎤⎥⎦ =1.51 P = 0.0655 6.
Decisión : Hay en realidad alguna evidencia de que el coeficiente de correlación excede 0.9
Relación no lineal.
247
UNIDAD V / REGRESIÓN Y CORRELACIÓN.
Diagrama de dispersión que muestra correlación cero
5.7. Problemas prácticos de ajustes de curvas Problema: Partir de un estudio experimental acerca de la estabilidad de arcilla muy platica, se observo que el contenido de agua para moldeo con densidad optima dependía linealmente de los porcentajes de cal y puzolana mezclado con la arcilla. Se tuvieron así l os resultados que dan abajo. Ajuste una ecuación de la forma: y=a0 +a1u+a2v
Solución:
248
UNIDAD V / REGRESIÓN Y CORRELACIÓN.
⎛7 A :=
⎜
45
62.5
206.4 ⎞
⎟
45
407.5 291.25 1367.85
⎜ ⎟ ⎝ 62.5 291.25 816.25 1789.65⎠ ⎛ 1 0 0 28.692⎞ rref A() =
⎜
010
0.257
⎟
⎜ ⎟ ⎝ 0 0 1 −0.096⎠ y := 28.692+ 0.257u − 0.096v
Problema: Al medir la velocidad (con un tubo de Pitot) en una tubería circular de diámetro interior de 20 cm, se encontró la siguiente información: V ( cm / s )
600
550
450
312
240
R ( cm)
0
3
5
7
8
Donde R es la distancia en cm. medida a partir del centro del tubo. a) Obtenga la curva v = f(R) que aproxima estos datos experimentales
249
UNIDAD V / REGRESIÓN Y CORRELACIÓN.
700 600 500 400 300 y = -5.3472x 2 - 3.0667x + 601.71
200 100 0 0
2
4
6
8
10
b) Calcule la velocidad en el punto R = 4 cm.
Problema: Si aproxima la función dada abajo por un polinomio de segundo grado
250
UNIDAD V / REGRESIÓN Y CORRELACIÓN.
4500 4000 3500 3000 2500 2000 1500 1000 500 0
2 y = -8.8218x - 1412.1x + 39694
0
5
1
1
20
Problema: En la siguiente tabla, r es la resistencia de una bobina en ohms y T la temperatura de la bobina en ºC. Por mínimos cuadrados determine el mejor polinomio lineal que represente la función dada:
100 y = 35.744x - 361.8
90 80 70 60 50 40 30 20 10 0 0
5
10
15
Problema: En una reacción gaseosa de expansión a volumen constante, se observa que la presión del reactor (batch) aumenta con el tiempo de reacción según se muestra en la tabla de abajo. ¿Que grado de polinomio aproxima mejor la función P = f(t) ?
251
UNIDAD V / REGRESIÓN Y CORRELACIÓN.
3.5
3.5
3
3 y = 1.2386x + 0.8702
2.5
y = 0.5234x
2
+ 0.479x + 1.0089
2.5
2
2
1.5
1.5
1
1
0.5
0.5 0
0 0
0.5
1
1.5
0
2
0.5
1
1.5
2
Problema: ajústese una línea recta a los valores x y y de la tabla siguiente:
xi
yi
1 2 3 4 5 6 7
0.5 2.5 2.0 4.0 3.5 6.0 5.5
2
4
Solución: 8 6 4 2 0 0
6
8
252
UNIDAD V / REGRESIÓN Y CORRELACIÓN.
Ejercicios propuestos P1. En cada caso, grafique la línea que pasa por los puntos. a. (0, 2) Y (2, 6) b. (0, 4) Y (2, 6) c. (0,-2) y (-1,-6) d. (0, -4) Y (3, -7) P2. Grafique las siguientes líneas: a. y = 3 + 2x b. y = l + x c. y = - 2 + 3x d. y = 5x e. y = 4 - 2x P3. Dos procesos para el taladrado hidráulico de roca son el taladrado en seco y el taladrado húmedo. En un agujero seco se introduce aire comprimido por las varillas de taladrar para expulsar las partículas e impulsar el martillo; en un aguje ro húmedo se introduce agua a presión. Se realizó un experimento para determinar si el tiempo y que se requiere para taladrar una distancia de cinco pies en roca aumenta con la profundidad x (The American Statistician, febrero de 1991). Los resultados para una porción del experimento se muestran en la siguiente tabla. Profundidad a la que se inicia el taladro x, pies Tiempo para taladrar 5 pies y , minutos 0 25 50 75 100 125 150 175
4.90 7.41 6.19 5.57 5.17 6.89 7.05 7.11
253
UNIDAD V / REGRESIÓN Y CORRELACIÓN.
200 225 250 275 300 325 350 375 395
6.19 8.28 4.84 8.29 8.91 8.54 11.79 12.12 11.02
a)
Elabore un diagrama de dispersión para datos.
b)
Encuentre la ecuación de predicción de mínimos cuadrados.
c)
Grafique la línea de mínimos cuadrados en el diagrama de dispersión
d)
Interprete los valores de a0 y a1
P4. Se realizó un estudio para modelar el desempeño térmico de los tubos con aletas integrales empleados en las industrias de refrigeración y de proceso (Journal of Heat Transfer, agosto de 1990). En el experimento se utilizaron 24 tubos con aletas integrales de fabricación especial, con aletas rectangulares hechas de cobre. Se liberó vapor hacia abajo en cada tubo y se midió el coeficiente de transferencia de calor del lado del vapor (con base en el área superficial exterior del tubo). La variable dependiente en este estudio es la tasa de promoción de la transferencia de calor y, definida como el cociente entre el coeficiente del lado del vapor del tubo con aletas y el coeficiente del lado del vapor de un tubo liso, evaluados a la misma temperatura. En teoría, la transferencia de calor está relacionada con el área de la parte superior del tubo que no está "inundada" por la condensación del vapor. Los datos de la tabla son los valores de proporción de área no inundada (x) y promoción de la transferencia de calor (y) registrados para los 24 tubos con aletas integrales. Proporción de área no inundada, x
Promoción de la transferencia de calor, y
1.93 1.95 1.78 1.64
4.4 5.3 4.5 4.5
254
UNIDAD V / REGRESIÓN Y CORRELACIÓN.
1.54 1.32 2.12 1.88 1.70 1.58 2.47 2.37 2.00 1.77 1.62 2.77 2.47 2.24 1.32 1.26 1.21 2.26 2.04 1.88
3.7 2.8 6.1 4.9 4.9 4.1 7.0 6.7 5.2 4.7 4.2 6.0 5.8 5.2 3.5 3.2 2.9 5.3 5.1 4.6
a) Determine la línea de mínimos cuadrados que relaciona la promoción de la transferencia de calor y con la proporción de área no inundada x. b) Grafique los puntos de datos y trace la línea de mínimos cuadrados como verificación de sus cálculos. c) Interprete los valores de a0 y a1 . P5. La Comisión Federal de Comunicaciones (FCC) de Estados Unidos especifica que las emisiones electromagnéticas radiadas por dispositivos digitales se deben medir en un sitio de prueba de campo abierto. A fin de verificar la aceptabilidad de un sitio de prueba es preciso evaluar la atenuación del sitio (es decir, la pérdida de transmisión desde la entrada de un dipolo de media onda hasta la salida de otro cuando ambos dipolos se colocan sobre el plano de tierra).
255
UNIDAD V / REGRESIÓN Y CORRELACIÓN.
Un estudio realizado en un sitio de prueba en Fort Collins, Colorado, produjo los siguientes datos de atenuación del sitio (en decibeles) y frecuencia de transmisión (en megahertz) para dipolos a una distancia de 3 metros. Frecuencia de Atenuación del sitio y ,dBL Transmisión X, MHZ 50 100 200 300 400 500 600 700 800 900 1000
11.5 15.8 18.2 22.6 26.2 27.1 29.5 30.7 31.3 32.6 34.9
P6. Como parte de un estudio sobre la rapidez de combustión de grafito artificial en un flujo de aire húmedo, se llevo a cabo un experimento con miras a investigar la difusividad del oxígeno a través de una mezcla de vapor de agua (Combustion and Flame, vol. 50, 1983). Se prepararon muestras de mezclas de nitrógeno y oxígeno con una fracción molar de agua de 0.017 a nueve temperaturas distintas, y se midió la difusividad del oxígeno en cada una. Los datos se reproducen en la siguiente tabla. Temperatura
Difusividad de oxigeno
x
Y
1,000
1.69
1,100
1.99
1,200
2.31
1,300
2.65
1,400
3.01
1,500
3.39
1,600
3.79
1,700
4.21
1,800
4.64
256
UNIDAD V / REGRESIÓN Y CORRELACIÓN.
a) Grafique los puntos de datos en un diagrama de dispersión. b) Ajuste un modelo lineal simple que relacione la difusividad media del oxígeno, E ( y) , con la temperatura, x. Interprete las estimaciones de los parámetros del modelo. c) Calcule SSE y S2 P7. El equilibrio termogravimétrico (TG ) es una nueva técnica que se desarrolló para evaluar el comportamiento térmico de los compuestos químicos. Abou El Naga y Salem (1986) compararon la técnica TG con el método estándar de evaluar la estabilidad respecto a la termooxidación de aceite, base y sus mezclas aditivas (por ejemplo, aceites de transformador, de turbina y de transmisión). En cada espécimen de una muestra de 10 aceites base se determinó la cantidad y de compuestos oxidativos formados en el punto de oxidación empleando la técnica TG, así como el porcentaje total de productos de oxidación x empleando el método estándar. Los resultados del experimento se muestran en la siguiente tabla. Aceite Método estándar: base Técnica TG: cantidad de compuestos oxidativos y , % en Total de productos de oxidación peso X, %
1
25.4
2.3
2
27.11
2.5
3
28.0
2.65
4
17.9
1.3
5
18.9
1.45
6
22.9
1.9
7
30.8
3.3
8
18.6
1.4
9
24.4
2.1
10
29.8
2.9
a) Ajuste un modelo lineal simple que relacione la cantidad y de compuestos oxidativas determinados por la técnica TG con el porcentaje total de productos de oxidación x determinados por el método estándar.
257
UNIDAD V / REGRESIÓN Y CORRELACIÓN.
b) Grafique los puntos de datos y la línea de mínimos cuadrados en un diagrama de dispersión. d)
Interprete los valores de a0 y a1
c) Calcule SSE, S2 y s. d) Interprete el valor de s.
258
ANEXOS TABLAS
ANEXOS / TABLAS
APÉNDICE A Tabla de la distribución normal (área bajo la curva normal)
z 0,0 0,1 0,2 0,3 0,4
0,00 0,5000 0,5398 0,5793 0,6179 0,6554
0,01 0,5040 0,5438 0,5832 0,6217 0,6591
0,02 0,5080 0,5478 0,5871 0,6255 0,6628
0,03 0,5120 0,5517 0,5910 0,6293 0,6664
0,04 0,5160 0,5557 0,5948 0,6331 0,6700
0,05 0,5199 0,5596 0,5987 0,6368 0,6736
0,06 0,5239 0,5636 0,6026 0,6406 0,6772
0,07 0,5279 0,5675 0,6064 0,6443 0,6808
0,08 0,5319 0,5714 0,6103 0,6480 0,6844
0,09 0,5359 0,5753 0,6141 0,6517 0,6879
0,5 0,6 0,7 0,8 0,9
0,6915 0,7257 0,7580 0,7881 0,8159
0,6950 0,7291 0,7611 0,7910 0,8186
0,6985 0,7324 0,7642 0,7939 0,8212
0,7019 0,7357 0,7673 0,7967 0,8238
0,7054 0,7389 0,7703 0,7995 0,8264
0,7088 0,7422 0,7734 0,8023 0,8289
0,7123 0,7454 0,7764 0,8051 0,8315
0,7157 0,7486 0,7794 0,8078 0,8340
0,7190 0,7517 0,7823 0,8106 0,8364
0,7224 0,7549 0,7852 0,8133 0,8389
1,0 1,1 1,2 1,3 1,4
0,8413 0,8643 0,8849 0,9032 0,9192
0,8438 0,8665 0,8869 0,9049 0,9207
0,8461 0,8686 0,8888 0,9066 0,9222
0,8485 0,8708 0,8907 0,9082 0,9236
0,8508 0,8729 0,8925 0,9099 0,9251
0,8531 0,8749 0,8944 0,9115 0,9265
0,8554 0,8770 0,8962 0,9131 0,9278
0,8577 0,8790 0,8980 0,9147 0,9292
0,8599 0,8810 0,8997 0,9162 0,9306
0,8621 0,8830 0,9015 0,9177 0,9319
1,5 1,6 1,7 1,8 1,9
0,9332 0,9452 0,9554 0,9641 0,9713
0,9345 0,9463 0,9564 0,9649 0,9719
0,9357 0,9474 0,9573 0,9656 0,9726
0,9370 0,9484 0,9582 0,9664 0,9732
0,9382 0,9495 0,9591 0,9671 0,9738
0,9394 0,9505 0,9599 0,9678 0,9744
0,9406 0,9515 0,9608 0,9686 0,9750
0,9418 0,9525 0,9616 0,9693 0,9756
0,9429 0,9535 0,9625 0,9699 0,9761
0,9441 0,9545 0,9633 0,9706 0,9767
2,0 2,1 2,2 2,3 2,4
0,9772 0,9821 0,9861 0,9893 0,9918
0,9778 0,9826 0,9864 0,9896 0,9920
0,9783 0,9830 0,9868 0,9898 0,9922
0,9788 0,9934 0,9871 0,9901 0,9925
0,9793 0,9838 0,9875 0,9904 0,9927
0,9798 0,9842 0,9878 0,9906 0,9929
0,9803 0,9846 0,9881 0,9909 0,9931
0,9808 0,9850 0,9884 0,9911 0,9932
0,9812 0,9854 0,9887 0,9913 0,9934
0,9817 0,9857 0,9890 0,9916 0,9936
2,5 2,6 2,7 2,8 2,9
0,9938 0,9953 0,9965 0,9974 0,9981
0,9940 0,9955 0,9966 0,9975 0,9982
0,9941 0,9956 0,9967 0,9976 0,9982
0,9943 0,9957 0,9968 0,9977 0,9983
0,9945 0,9959 0,9969 0,9977 0,9984
0,9946 0,9960 0,9970 0,9978 0,9984
0,9948 0,9961 0,9971 0,9979 0,9985
0,9949 0,9962 0,9972 0,9979 0,9985
0,9951 0,9963 0,9973 0,9980 0,9986
0,9952 0,9964 0,9974 0,9981 0,9986
3,0 3,1 3,2 3,3 3,4
0,9987 0,9990 0,9993 0,9995 0,9997
0,9987 0,9991 0,9993 0,9995 0.9997
0,9987 0,9991 0,9994 0,9995 0,9997
0,9988 0,9991 0,9994 0,9996 0,9997
0,9988 0,9992 0,9994 0,9996 0,9997
0,9989 0,9992 0,9994 0,9996 0,9997
0,9989 0,9992 0,9994 0,9996 0,9997
0,9989 0,9992 0,9995 0,9996 0,9997
0,9990 0,9993 0,9995 0,9996 0,9997
0,9990 0,9993 0,9995 0,9997 0,9998
3,5 0,9998 0,9998 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999
z
0,00
0,01
0,02
0,03
0,04
0,05
0,06
0,07
0,08
0,09
260
ANEXOS / TABLAS
-3.4 -3.3 -3.2 -3.1 -3.0
0.0003 0.0005 0.007 0.0010 0.0013
0.0003 0.0005 0.0007 0.0009 0.0013
0.0003 0.0005 0.0006 0.0009 0.0013
0.0003 0.0004 0.0006 0.0009 0.0012
0.0003 0.0004 0.0006 0.0008 0.0012
0.0003 0.0004 0.0006 0.0008 0.0011
0.0003 0.0004 0.0006 0.0008 0.0011
0.0003 0.0004 0.0005 0.0008 0.0011
0.0003 0.0004 0.0005 0.0007 0.0010
0.0002 0.0003 0.0005 0.0007 0.0010
-2.9 -2.8 -2.7 -2.6 -2.5
0.0019 0.0026 0.0035 0.0047 0.0062
0.0018 0.0025 0.0034 0.0045 0.0060
0.0017 0.0024 0.0033 0.0044 0.0059
0.0017 0.0023 0.0032 0.0043 0.0057
0.0016 0.0023 0.0031 0.0041 0.0055
0.0016 0.0022 0.0030 0.0040 0.0054
0.0015 0.0021 0.0029 0.0039 0.0052
0.0015 0.0021 0.0028 0.0038 0.0051
0.0014 0.0020 0.0027 0.0037 0.0049
0.0014 0.0019 0.0026 0.0036 0.0048
-2.4 -2.3 -2.2 -2.1 -2.0
0.0082 0.0107 0.0139 0.0179 0.0228
0.0080 0.0140 0.0136 0.0174 0.0222
0.0078 0.0102 0.0132 0.0170 0.0217
0.0075 0.0099 0.0129 0.0166 0.0212
0.0073 0.0096 0.0125 0.0162 0.0207
0.0071 0.0094 0.0122 0.0158 0.0202
0.0069 0.0091 0.0119 0.0154 0.0197
0.0068 0.0089 0.0116 0.0150 0.0192
0.0066 0.0087 0.0113 0.0146 0.0188
0.0064 0.0084 0.110 0.0143 0.0183
-1.9 -1.8 -1.7 -1.6 -1.5
0.0287 0.0359 0.0446 0.0548 0.0668
0.0281 0.0352 0.0436 0.0537 0.0655
0.0274 0.0344 0.0427 0.0526 0.0643
0.0268 0.0336 0.0418 0.0516 0.0630
0.0262 0.0329 0.0409 0.0505 0.0618
0.0256 0.0322 0.0401 0.0495 0.0606
0.0250 0.0314 0.0392 0.0485 0.0594
0.0244 0.0307 0.0384 0.0475 0.0582
0.0239 0.0301 0.0375 0.0465 0.0571
0.0233 0.0294 0.0367 0.0455 0.0559
-1.4 -1.3 -1.2 -1.1 -1.0
0.0808 0.0968 0.1151 0.1357 0.1587
0.0793 0.0951 0.1131 0.1335 0.1562
0.0778 0.0934 0.1112 0.1314 0.1539
0.0764 0.0918 0.1093 0.1292 0.1515
0.0749 0.0901 0.1075 0.1271 0.1492
0.0735 0.0885 0.1056 0.1251 0.1469
0.0722 0.0869 0.1038 0.1230 0.1446
0.0708 0.0853 0.1020 0.1210 0.1423
0.0694 0.0838 0.1003 0.1190 0.1401
0.0681 0.0823 0.0985 0.1170 0.1379
-0.9 -0.8 -0.7 -0.6 -0.5
0.1841 0.2119 0.2420 0.2743 0.3085
0.1814 0.2090 0.2389 0.2709 0.3050
0.1788 0.2061 0.2358 0.2676 0.3015
0.1762 0.2033 0.2327 0.2643 0.2981
0.1736 0.2005 0.2296 0.2611 0.2946
0.1711 0.1977 0.2266 0.2566 0.2578
0.1685 0.1949 0.2236 0.2546 0.2877
0.1660 0.1922 0.2206 0.2514 0.2843
0.1635 0.1894 0.2177 0.2483 0.2810
0.1611 0.1867 0.2148 0.2451 0.2776
-0.4 -0.3 -0.2 -0.1 -0.0
0.3446 0.3821 0.4207 0.4602 0.5000
0.3409 0.3783 0.4168 0.4562 04960
0.3372 0.3745 0.4129 0.4522 0.4920
0.3336 0.3707 0.4090 0.4483 0.4880
0.3300 0.3669 0.4052 0.4443 0.4840
0.3264 0.3632 0.4013 0.4404 0.4801
0.3228 0.3594 0.3974 0.4364 0.4761
0.3192 0.3557 0.3936 0.4325 0.4721
0.3156 0.3520 0.3897 0.4286 0.4681
0.3121 0.3483 0.3859 0.4247 0.4641
261
ANEXOS / TABLAS
APÉNDICE B Valores críticos de la distribución t
V 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 40 60 120 ∞
α
0.40 0.325 0.289 0.277 0.271 0.267 0.265 0.263 0.262 0.261 0.260 0.260 0.259 0.259 0.258 0.258 0.258 0.257 0.257 0.257 0.257 0.257 0.256 0.256 0.256 0.256 0.256 0.256 0.256 0.256 0.256 0.255 0.254 0.254 0.253
0.30 0.727 0.617 0.584 0.569 0.559 0.553 0.549 0.546 0.543 0.542 0.540 0.539 0.537 0.537 0.536 0.535 0.534 0.534 0.533 0.533 0.532 0.532 0.532 0.531 0.531 0.531 0.531 0.530 0.530 0.530 0.529 0.527 0.526 0.524
0.20 1.376 1.061 0.978 0.941 0.920 0.906 0.896 0.889 0.883 0.879 0.876 0.873 0.870 0.868 0.866 0.865 0.863 0.862 0.861 0.860 0.859 0.858 0.858 0.857 0.856 0.856 0.855 0.855 0.854 0.854 0.851 0.848 0.845 0.842
0.15 1.963 1.386 1.250 1.190 1.156 1.134 1.119 1.108 1.100 1.093 1.088 1.083 1.079 1.076 1.074 1.071 1.069 1.067 1.066 1.064 1.063 1.061 1.060 1.059 1.058 1.058 1.057 1.056 1.055 1.055 1.050 1.045 1.041 1.036
0.10 3.078 1.886 1.638 1.533 1.476 1.440 1.415 1.397 1.383 1.372 1.363 1.356 1.350 1.345 1.341 1.337 1.333 1.330 1.328 1.325 1.323 1.321 1.319 1.318 1.316 1.315 1.314 1.313 1.311 1.310 1.303 1.296 1.289 1.282
0.05 6.314 2.920 2.353 2.132 2.015 1.943 1.895 1.860 1.833 1.812 1.796 1.782 1.771 1.761 1.753 1.746 1.740 1.734 1.729 1.725 1.721 1.717 1.714 1.711 1.708 1.706 1.703 1.701 1.699 1.697 1.684 1.671 1.658 1.645
0.025 12.706 4.303 3.182 2.776 2.571 2.447 2.365 2.306 2.262 2.228 2.201 2.179 2.160 2.145 2.131 2.120 2.110 2.101 2.093 2.086 2.080 2.074 2.069 2.064 2.060 2.056 2.052 2.048 2.045 2.042 2.021 2.000 1.980 1.960
262
ANEXOS / TABLAS
Continuación de valores críticos de la distribución t V
0.02
0.015
1 2 3 4 5
15.895 4.849 3.482 2.999 2.757
6 7 8 9 10 11 12 13 14 15
2.612 2.517 2.449 2.398 2.359 2.328 2.303 2.282 2.264 2.249
0.0075
0.005
0.0025
0.0005
21.205 5.643 3.896 3.298 3.003
63.657 9.925 5.841 4.604 4.032
127.322 14.089 7.453 5.598 4.773
636.590 31.598 12.924 8.610 6.869
2.829 2.715 2.634 2.574 2.527 2.491 2.461 2.436 2.415 2.397
3.707 3.499 3.355 3.250 3.169 3.106 3.055 3.012 2.977 2.947
4.317 4.029 3.833 3.690 3.581 3.497 3.428 3.372 3.326 3.286
5.959 5.408 5.041 4.781 4.587 4.437 4.318 4.221 4.140 4.073
263
ANEXOS / TABLAS
16 17 18 19 20
2.235 2.224 2.214 2.205 2.197
2.382 2.368 2.356 2.346 2.336
2.921 2.898 2.878 2.861 2.845
3.252 3.222 3.197 3.174 3.153
4.015 3.965 3.922 3.883 3.849
21 22 23 24 25 26 27 28 29 30 40 60 120 ∞
2.189 2.183 2.177 2.172 2.167 2.162 2.158 2.154 2.150 2.147 2.125 2.099 2.076 2.054
2.328 2.320 2.313 2.307 2.301 2.296 2.291 2.286 2.282 2.278 2.250 2.223 2.196 2.170
2.831 2.819 2.807 2.797 2.787 2.779 2.771 2.763 2.756 2.750 2.704 2.660 2.617 2.576
3.135 3.119 3.104 3.091 3.078 3.067 3.057 3.047 3.038 3.030 2.971 2.915 2.860 2.807
3.819 3.792 3.768 3.745 3.725 3.707 3.690 3.674 3.659 3.646 3.551 3.460 3.373 3.291
264
ANEXOS / TABLAS
APÉNDICE C Tabla de valores críticos de la distribución ji cuadrada
265
ANEXOS / TABLAS
266
BIBLIOGRAFIA. Chapra, S. y Canales R.; Métodos numéricos para ingenieros. Mc Graw Hill Irwin R. Miller, John E. Freud, Richard Jhonston; Probabilidad y Estadistica para ingenieros; Ed. Prentice Hall; Mendenhall, Sincich; Probabilidad y estadística para ingeniería y ciencias ; Ed. Prentice Hall. Meyer.: Probabilidad y aplicaciones Estadísticas. Ed. Addison-Wesley. Murray Spiegel.; Probabilidad y estadística .;Ed. McGraw Hill. Nieves – Dominguez; Numéricos para ingenieros; Mc Graw Hill Paul L. Meyer; Probabilidad y aplicaciones Estadisticas. Ed. Fondo Educativo Interamericana. Richard I. Levin, David S. Rubin; Estadistica para administradores; Prentice Hall. Walpole , Myers.; Probabilidad y estadística para ingenieros Prentice Hall