Contenido
Unidad I - Estadística Descriptiva ........................................... ................................................................. .................................... .............. 3 1.1 Población y muestra aleatoria ............................................ ................................................................... ............................... ........ 15 1.2 Obtener datos estadísticos ................................................. ....................................................................... ............................... ......... 15 1.3 Medidas de tendencia t endencia central ............................................................... ........................................................................... ............ 17 1.4 Medidas de Dispersión ........................................... ................................................................. .......................................... .................... 22 1.5 Tablas de distribución de frecuencia ......................................... ............................................................... ........................ 24 1.6 Calcular Cuantiles ............................................. .................................................................... ............................................. ........................ 41 1.7 Gráficos ............................................ .................................................................. ............................................ .......................................... .................... 44 1.8 Cajas y alambres .......................................... ................................................................ ............................................ ............................... ......... 45 1.9 Diagrama de Pareto ........................................................... ................................................................................. ............................... ......... 47 Unidad II - Probabilidad ......................................... ............................................................... ............................................ ............................... ......... 49 2.1 Probabilidad de eventos.......................................... ................................................................ .......................................... .................... 49 2.2 Espacio muestral ........................ .............................................. ............................................ ............................................ ........................... ..... 49 2.3 Ocurrencia de eventos .................................................... .......................................................................... .................................. ............ 51 2.4 Permutaciones y combinaciones............................................ ................................................................... ........................... .... 53 2.5 Diagramas de árbol .......................................... ................................................................ ............................................ ........................... ..... 54 2.6 Axiomas de probabilidad............................................ .................................................................. ...................................... ................ 58 2.7 Independencia Independencia y probabilidad condicional ........................................... ....................................................... ............ 66 2.8 Teorema de Bayes ...................................................... ............................................................................ ...................................... ................ 70 Proyecto ........................................... ................................................................. ............................................ ............................................ ........................... ..... 75 Unidad III - Funciones de distribución de probabilidades ..................................... ..................................... 78 3.1 Variables aleatorias y su clasificación.......................................... .............................................................. .................... 78 3.2 Distribuciones de probabilidad discretas ....................... .............................................. ................................... ............ 82 3.3 Distribución de probabilidad Hipergeométrica ................................ ................................................ ................ 85 3.4 Distribución de probabilidad Poisson ........................................... ............................................................... .................... 87 3.5 Distribuciones Distri buciones de probabilidad continuas............................................. continuas......................................................... ............ 92 3.6 Distribución t ............................................... ..................................................................... ............................................ ............................... ......... 97 3.7 Distribución Chi-cuadrada.......................................... ................................................................ .................................... .............. 100 3.8 Distribución F ....................................... ............................................................. ............................................ .................................... .............. 103 3.9 Esperanza matemática. ........................................... ................................................................. ........................................ .................. 104 Unidad IV............................................ .................................................................. ............................................ ............................................ ............................. ....... 121 4.1 Inferencia estadística .................................................. ........................................................................ .................................... .............. 121 4.2 Muestreo estadístico ........................................... .................................................................. ............................................ ..................... 121 4.3 Estimadores ............................................. .................................................................... ............................................. ................................ .......... 124 4.4 Estimación puntual ....................... ............................................. ............................................. ............................................ ..................... 124 4.5 Estimación por intervalo......................................... ............................................................... ........................................ .................. 125 4.6 Errores tipo I y II I I .................................. ........................................................ ............................................ .................................... .............. 135 4.7 Contraste de hipótesis unilateral y bilateral .......................................... .................................................... .......... 135 Unidad V ............................................. ................................................................... ............................................ ............................................ ............................. ....... 142 Regresión y correlación .............................. .................................................... ............................................ .................................... .............. 142 5.1 Control de calidad............................................ .................................................................. ............................................ ......................... ... 142 5.2 Diagrama de dispersión ....................................... ............................................................. ........................................... ..................... 143 5.3 Regresión lineal simple ............................................................. .................................................................................. ..................... 145 5.4 Correlación ........................................... ................................................................. ............................................ .................................... .............. 146 5.5 Determinación y análisis de los coeficientes de correlación y de determinación. .......................................... ................................................................ ............................................ ............................................ ........................................ .................. 147 5.6 Distribución normal bidimensional ............................... ...................................................... ................................. .......... 148
5.7 Intervalos de confianza y pruebas para el coeficiente de correlación. ........... ........... 149 5.8 Errores de medición. ........................................... .................................................................. ............................................ ..................... 150 Unidad IV............................................ .................................................................. ............................................ ............................................ ............................. ....... 161 4.1 Inferencia estadística .................................................. ........................................................................ .................................... .............. 161 4.2 Muestreo estadístico ........................................... .................................................................. ............................................ ..................... 161 4.3 Estimadores ............................................. .................................................................... ............................................. ................................ .......... 164 4.4 Estimación puntual ....................... ............................................. ............................................. ............................................ ..................... 164 4.5 Estimación por intervalo......................................... ............................................................... ........................................ .................. 165 4.6 Errores tipo I y II I I .................................. ........................................................ ............................................ .................................... .............. 175 4.7 Contraste de hipótesis unilateral y bilateral .......................................... .................................................... .......... 175 Unidad V ............................................. ................................................................... ............................................ ............................................ ............................. ....... 182 Regresión y correlación .............................. .................................................... ............................................ .................................... .............. 182 5.1 Control de calidad............................................ .................................................................. ............................................ ......................... ... 182 5.2 Diagrama de dispersión ....................................... ............................................................. ........................................... ..................... 183 5.3 Regresión lineal simple ............................................................. .................................................................................. ..................... 184 5.4 Correlación ........................................... ................................................................. ............................................ .................................... .............. 185 5.5 Determinación y análisis de los coeficientes de correlación y de determinación. .......................................... ................................................................ ............................................ ............................................ ........................................ .................. 186 5.6 Distribución normal bidimensional ............................... ...................................................... ................................. .......... 187 5.7 Intervalos de confianza y pruebas para el coeficiente de correlación. ........... ........... 188 5.8 Errores de medición. ........................................... .................................................................. ............................................ ..................... 189
Unidad I - Estadística Descriptiva
1. Consideraciones Generales
La estadística descriptiva maneja los datos obtenidos para su ordenación y presentación, y hacer resaltar ciertas características de manera que sean mas objetivas u útiles; por ello, investiga los métodos y procedimientos, y establece reglas para que el manejo de los datos sea eficiente, para que la información presentada resulte confiable, exprese en lenguaje sencillo los contenidos para que el mayor numero de personas lo comprenda y puedan establecer comparaciones y obtener conclusiones. Población
La investigación estadística es la operación que se refiere a la recopilación de información sobre una población o colectivo de individuos u objetos que tienen una característica común.
Muestra
Subconjunto propio o parte tomada de una población La Investigación estadística es
la operación que se refiere a la recopilación de información sobre una población o colectivo de individuos, medias u objetos que tienen una característica común, e incluye: a) Señalamiento del elemento de la población que origina la información (unidad de investigación), puede ser: una industria, un hogar, la persona, etcétera; pero en todo caso la unidad debe ser en su definición medible y fácilmente identificable. b) Citar: qué se investiga; cómo se debe realizar, cuándo se llevara a cabo, y en lugar de la investigación que es el dónde. c) La recolección de la información incluye: incluye: ordenarla, filtrarla eliminando posibles errores y analizarla, aplicando los métodos y normas estadísticos. d) La publicación de la información, ya sea para uso propio o ajeno. 2.
Presentación de la Información
Una vez obtenida la información resultante de una investigación estadística, que puede haberse efectuado, por ejemplo, en medicina, para estudiar el comportamiento de enfermos sujetos a un tratamiento específico; en educación, los ensayos orientados a estudiar los campos de actitud y aprendizaje de alumnos sometidos a ciertos procesos educativos; en la agricultura, dirigidos a medir el efecto de un insecticida bajo ciertas condiciones que varían bajo el control del investigador, etcétera. A continuación es necesario escoger la forma de organizarla para su análisis o para su publicación que puede ser en:
Cuadros numéricos Gráficos y Pictogramas
3. Cuadros Numéricos de Información A. Representación tabular
Las líneas horizontales y las columnas verticales deben disponerse de manera que resalten los aspectos que se desean mostrar y las comparaciones que se quieren hacer notar.
Incluirá: a) b) c) d) e)
Título. Donde se indica indica el objeto del cuadro. Columna principal. Lugar donde se anotan las categorías. Encabezado de las columnas, donde se explica el objeto de cada una de ellas. Cuerpo. Lugar donde se supone la información. Notas de pie. Ahí se aclaran algunas operaciones y se indica la fuente de la información.
Problema
El contador de una compañía industrial informa que durante el mes de marzo pasado el total de ventas fue de $11 745 420 y la nomina de pago del mes por departamento fue así: personal administrativo $425 760, personal de ventas y promoción $528 750 y de producción $2 765 450. Elabora el cuadro que se señale: a) Porcentaje de cada departamento con relación al total de la nomina. b) Porcentaje de de cada departamento con relación al total de ventas. Resolución
Nómina de pago por departamento Mes de Marzo Total de ventas en le mes $11 745 420 Departamento Gastos mes
% nómina
% ventas
Administración Ventas Producción
425 760 528 750 2 765 450
11.44 14.21 74.35
3.62 4.50 23.54
Totales
$3 719 960
100.00
31.66
Operaciones que hicimos para llenar el cuadro: Calculamos por interpolación polar. (Razones y Porciones): Nomina: 3 719 960: 100 :: 425 760 : x 3 719 960 x= 425 760 (100) x= 42 576 000 3 719 960 x= 11.44%
3 719 960: 100 :: 528 750 : x 3 719 960 x= 528 750 (100) x= 51 875 000 3 719 960 x= 15.21%
3 719 960: 100 :: 2 765 450 : x 3 719 960 x= 2 765 450 (100) x= 276 545 000 3 719 960 x= 74.34%
Ventas: 11 745 420: 100 :: 425 760 : x 3 719 960 x= 425 760 (100) x= 42 576 000 11 745 420 x= 3.62%
11 745 420: 100 :: 528 750 : x 3 719 960 x= 528 750 (100) x= 51 875 000 11 745 420 x= 4.50%
11 745 420: 100 :: 2 765 450 : x 3 719 960 x= 2 765 450 (100) x= 276 545 000 11 745 420 x= 23.54% Problema
Un representante de la Secretaría de Gobernación ante un sorteo organizado por una casa que vende material deportivo, para entregar tres premios consistentes, cada uno, en un viaje para 2 personas a Rotterdam, Holanda, a la semifinal de la Eurocopa informa: En al primera extracción de un boleto el premio fue con el número de folio 007950 y corresponde a Manuel López Galicia; en la segunda extracción el premio corresponde a el número de folio 015162 para María Roy Martínez; en la tercera extracción el premio fue para el número de folio 008032 para Yolanda Uribe May. Elabora el cuadro correspondiente a esta información. Cuadro de ganadores promoción Deportes Parti Permiso de Gobernación con números S – 0322 – 2000 Sorteo realizado el día 20 de junio del 2000 Número de extracción Número de folio Número del ganador 1 2 3
007950 015162 008032
Premio
Manuel López Galicia Final Eurocopa María Roy Martínez Final Eurocopa Yolanda Uribe May Final Eurocopa
B. Cuadros cronológicos
Se usan para expresar las variaciones cronológicas de población, producción, salarios, etcétera; el periodo que se cita en estos cuadros depende de lo que se desea comprar o mostrar.
Problema
Elabora un cuadro cronológico de ganancias de una fábrica de piezas de motor en el quinquenio 1994-1998 que exprese: a) Las variaciones de cada año en tanto por ciento con base (con relación) al año anterior b) Del año 1998 con base (con relación) al año 1994. Si las ganancias en miles de pesos fueron de 1994 = 575; 1995 = 644; 1996 = 730.94; 1997 = 672.47 1998 = 749.80. Ganancias de la compañía en miles de pesos durante el quinquenio 1994 - 1998 % variación Año Ganancia Base año anterior 1994 575 1995 644 12 1996 730.94 13.5 1997 672.47 -8 1998 749.80 11.49
Base año 1994
30.4
Operaciones Con la interpolación polar 575 : 100 574
:: 644 :: x x= 644 (100) x= 64 400 512 x= 112%
El 112% significa que la ganancia de 1995 fue de 12% más de la obtenida en 1994 (que es el 100%) Para las demás, razonamos en forma semejante. 644 : 100 644
113.4 - 100 730.94 : 100 730.94
92 - 100
:: 730.94 :: x x= 730.94 (100) x= 73 094 644 x= 113.5% = 13.5% :: 672.47 :: x x= 672.47 (100) x= 67 247 730.94 x= 92% = -8%
672.47 : 100 672.47
111.49 - 100 575 : 100 575
130.4 - 100
:: 749.80 :: x x= 749.80 (100) x= 74 980 672.47 x= 111.49% = 11.49% :: 749.80 :: x x= 749.80 (100) x= 74 980 575 x= 130.4% = 30.4%
4. Gráficos y pictogramas
La forma de presentar esta información por medio de ideográficos dependerá del nivel cultural del auditorio a que va dirigido, del lugar de exposición: periódicos, revistas, televisión, escuelas, etcétera, que se deben analizar para escoger el mejor diseño; los métodos más usuales son: Gráficos de líneas, pictogramas o pictográficos, gráficos de barras y gráficos circulares. A. Gráficos de líneas Se usan para representar las distribuciones de frecuencias que estudiaremos posteriormente en apartados en la parte correspondiente; y en series cronológicas. Los gráficos son una representación estadística de utilidad para dar a conocer una idea global sobre un programa en que se aplican procedimientos estadísticos, los datos que proporcionan son aproximados y por ello se debe ser cuidadoso en su elaboración. Si en los gráficos se dibujan simultáneamente varios diagramas, la vista del usuario tiene dificultad para identificarlos, aunque éstos se hayan diferenciado con colores o por diferente tipo de trazado. Además, la cantidad de información que proporciona un gráfico no es tan completa y extensa como la de un cuadro que tiene varias columnas que se leen por separado. Al trazar un gráfico de líneas (diagramas lineales) se tomarán en consideración los conceptos siguientes:
La curva debe trazarse mas gruesa que las coordenadas para que resalte. La “unidad” de medida que se utilice debe destacarse claramente ( no necesariamente de un centímetro ). La longitud se seleccionará de modo que la gráfica resulte balanceada. En notas al pie se citarán conceptos aclaratorios de la curva. El cero de la escala vertical siempre debe colocarse. De ser posible se cita la fuente de información. Se localizan por las coordenadas correspondientes los puntos de interés, y se unen por segmentos de rectas, formándose así una poligonal que es el diagrama de la serie cronológica. Es necesario tener cuidado con la escala de los ejes, pues es posible manejarlos en forma engañosa, como se puede apreciar en el siguiente problema.
Problema
Una compañía industrial trata de vender acciones y su departamento de contabilidad presenta dos gráficas sobre su producción en el periodo de 1994 – 1998. Decide cuál de las dos gráficas presenta los datos con más veracidad.
Es la más veraz Las dos gráficas presentan hechos reales, pero se crearon en los diagramas dos imágenes diferentes para un mismo suceso estadístico alterando los valores del eje vertical y la “unidad”
de la medida en la horizontal. Problema
Consulta de un periódico de circulación nacional y observa el índice UV del día que tú decidas. El índice UV se refiere al daño que los rayos ultravioleta pueden hacer a un humano. Cuando el índice UV está por encima de 9, los rayos UV-B son extremadamente fuertes y la piel sufrirá quemaduras en menos de 15 minutos. Los periodos de quemadura de la piel por exposición al Sol están calculados con base en una piel clara no bronceada; el lapso de tiempo sería un poco más prolongado para aquellos con la piel más oscura.
Tiempo mas de 9 min De 7 – 9 De 4 – 7 De 0 – 4
Exposición al Sol menos de 15 min 20 min 20 min más de una hora
Calificación Extremo 50 Alto Moderado Bajo
Problema
Se cita a continuación una gráfica que señala la tendencia alcista de las tasas de interés internacionales. ¿Qué concluyes?
Ahí permanecerá, excepto que en fecha próxima sea necesario encarecer el dinero para bajar el consumo, y así evitar presiones inflacionarias. B. Pictogramas Un pictograma es la representación de datos estadísticos con símbolos que por su forma sugieren la naturaleza del dato, se utiliza para expresar comparaciones que atraigan la atención general, cualquiera que sea el nivel cultural del lector, su representación no sirve para análisis estadísticos y únicamente permite obtener conclusiones válidas muy generales. Al hacer la representación con un pictograma se debe utilizar figuras del mismo tamaño, las aproximaciones se hacen con fracción de la figura, mitad y hasta cuartos, y la cantidad que representa cada figura se indica con claridad en el encabezado.
Problema
Con motivo del reciente Censo Nacional de Población la información oficial preliminar del INEGI, señala: habitamos la republica Mexicana una población de 97.4 millones de habitantes de los cuales 47.4 millones son hombres y 50 millones son mujeres; de todos éstos, 24.64 millones es población rural, 72.76 millones urbana y dentro de la urbana el 17.79 millones corresponde a la zona urbana del Valle de México. Agrega que la tasa de crecimiento anual fue: en los años 1980 – 1990 el 2.4%; en el quinquenio 1990 – 1995 el 2.1% y de 1995 – 2000 disminuyó a 1.6%; por la tasa de crecimiento ocupamos el sexto lugar en el mundo. Que en el año de 1980 éramos 88.8 millones, en 1990 subimos a 81.2 y en 2000 alcanzamos la de 97.4, ocupando así el onceavo lugar en el mundo. El crecimiento absoluto por estados es en millones de habitantes: Estado de México 3.27; Jalisco 1.02; Puebla 0.94; Baja California 0.83; Nuevo León 0.73; los otros con 9.31. Los más poblados en millones de habitantes son: Estado de México con 13.08; Distrito Federal 8.59; Veracruz 6.90; Jalisco 6.32 y Puebla con 5.07. Representa gráficamente esta información. a) Población en la republica Mexicana: 97.4 millones de habitantes
b) Distribuido así: Aumentó la población de 1990 al 2000, en: 1980 éramos 1990 2000
66.8 81.3 97.4
Del aumento de 97.4 – 81.3 = 16.1 se repartieron así: Estado de México 3.27 Jalisco 1.02 Puebla 0.94 Baja California 0.83 Nuevo León 0.73 Otros Estados 9.31
Estados más poblados (millones de habitantes) Estado de México 13.08 Distrito Federal 8.59 Veracruz 6.90 Jalisco 6.32 Puebla 5.07
Crecimiento: Disminuyó 1980 – 1990 2.4% 1990 – 1995 2.1% 1995 – 2000 1.6%
Podemos Concluir:
Con base en los nacimientos entre 1980 – 1990 de 2.4%, en la actualidad la demanda de estos jóvenes es alta en las escuelas de enseñanza media superior y superior; en cambio, por los nacidos entre 1995 – 2000, apenas grupos de 20 a 25 alumnos. 5. Gráficos de barras
Los gráficos de barras proporcionan más información y permiten una apreciación estadística mejor que los pictogramas con sus figuras más llamativas. Se utilizan para datos nominales, variables cardinales y variables ordinales, Para su elaboración se tomará en cuenta lo siguiente: En el gráfico se evitará que las barras resulten muy anchas o excesivamente altas; se dejará un espacio entre las barras que no sea inferior a la mitad del ancho de ellas; si el gráfico incluye muchas barras, es mejor sustituirlo con un diagrama lineal Problema Una fuente de trabajo y entrada de divisas extranjeras al país, es la venta de la bebida “tequila”
en los mercados de Japón, Alemania, Estados Unidos y otros. La demanda aumenta y la materia prima del “agave”, escasea cada vez más, por ello los industriales del ramo han decidido plantar los próximos 6 años 263 millones de hijuelos de agave para evitar la escasez. Así en el presente año y el próximo de 35 mil en cada uno; en el 2002, 37 mil y en cada uno de los restantes 39 mil. Expresa esta solución con un gráfico de barras.
Estas barras también se pueden disponer en forma horizontal. Problema
El siguiente gráfico de barras expresa las ventas en las tiendas de autoservicio y departamentales en el mes de diciembre de 1990 y los de enero a abril del 2000, inclusive. ¿Qué se puede concluir?
Conclusión:
Hay mucho dinero circulante que no corresponde a nuestra capacidad de producción
Cuando el consumo aumenta y las personas empezamos a “gastar” en cosas innecesar ias,
superfluas y no ahorramos, las autoridades económicas, a fin de evitar presiones inflacionarias, reducen el circulante con un “corto”.
6. Gráficos circulares Se usan para presentaciones gráficas de distribuciones porcentuales, y si se quiere utilizarlas en secuencias cronológicas es necesario dibujar círculos iguales, uno por cada año, señalando en cada uno la correspondiente distribución porcentual. El círculo de 360° tiene un área de 100%; un sector representa un tanto por ciento equivalente a la razón entre el ángulo que forman los radios que limitan el sector y los 360° que son el total de grados de la circunferencia; en la forma siguiente:
Problema
El gas natural es uno de los principales insumos para la generación de electricidad a través de las termoeléctricas; de uso en la industria y en los hogares como combustible. La Secretaría de Energía en el año de 1999 fue de 35 675.1 megawatts, generados así: Termoeléctrica 21 351.1, Hidroeléctrica 9662.8, Carboeléctrica 2600, Nucleoeléctrica 1309, Geotermoeléctrica y eoleoeléctrica 752.1,
el 59.8% el 27.1% el 7.3% el 3.7% el 2.1%
De esas fuentes, la Carboeléctrica resulta contaminante por el uso del carbón como combustible. Representar ésta información en un gráfico circular.
La industria eléctrica demanda mucho gas natural.
A mayor industrialización, que así se espera con los nuevos tratados económicos, mayor número de empleos, mayor demanda de energía eléctrica y encarecimiento del gas natural, industrial y doméstico. Procura que en tu casa, de ser posible, se instale un aparato que capte la energía solar; en países como Japón, Israel y Estados Unidos lo usan con éxito y disponen de pocos meses en que hay “Sol”; hay estados como el de Morelos, Zacatecas y otros muchos en los que el 90%
de días en el año son con Sol
1.1 Población y muestra aleatoria Población
Población; la investigación estadística es la operación que se refiere a la recopilación de información sobre una población o colectivo de individuos u objetos que tienen una característica común. Muestra aleatoria
Es una muestra sacada de una población de unidades, de manera que todo elemento de la población tenga la misma probabilidad de selección y que las unidades diferentes se seleccionen independientemente. 1.2 Obtener datos estadísticos
Datos; señalamientos del elemento de la población que origina la información, puede ser: una industria, hogar, una persona, etc. pero en todo caso, la unidad debe ser en su definición medible y fácilmente identificable. Organización de datos Cualitativos: Si sus valores ( modalidades ) no se pueden asociar naturalmente a un número
(no se pueden hacer operaciones algebraicas con ellos).
Nominales: Si sus valores no se pueden ordenar Sexo, Grupo Sanguíneo, Religión, Nacionalidad, Fumar (Sí/No)
Ordinales: Si sus valores se pueden ordenar Mejoría a un tratamiento, Grado de satisfacción, Intensidad del dolor
Arrojan respuesta categórica.
Miden cualidades
Cuantitativos: Si sus valores son numéricos (tiene sentido hacer operaciones algebraicas con
ellos)
Discretas: Si toma valores enteros Número de hijos, Número de cigarrillos, Número de “cumpleaños”
Continuas: Si entre dos valores, son posibles infinitos valores intermedios.
Altura, Presión intraocular, Dosis de medicamento administrado, edad
Producen respuestas numéricas.
Miden cantidades
Tipos de datos cuantitativos
Discretos:
Si el número de posibles valores que puede tomar es contable (número naturales).
Generalmente resultan de un proceso de conteo
Continuos:
Si sus posibles valores están en el continuo (números reales).
Generalmente resultan de un proceso de medición
Manejo de los datos
a) Citar qué se investiga, como se debe realizar, cuando se llevara a cabo y el lugar de la investigación que es el donde. b) La recolección de la información incluye, ordenarla, eliminar posibles errores y analizarla, aplicando los métodos y normas estadísticas. c) La publicación de la información ya sea para uso propio o ajeno. Presentación de la información. Una vez obtenida la información resultante de una investigación estadística, que puede haberse efectuado, por ejemplo, en medicina, para estudiar el comportamiento de enfermos, sujetos a un tratamiento específico: Se escoge la forma de organizarla para su análisis o publicación puede ser en:
Histogramas Ojivas Polígonos de frecuencias Pictogramas Gráficas de barras o circulares
1.3 Medidas de tendencia central
En los capítulos anteriores, nos referimos a la clasificación, ordenación y presentación de datos estadísticos, limitando el análisis de la información a la interpretación porcentual de las distribuciones de frecuencia. El análisis estadístico propiamente dicho, parte de la búsqueda de parámetros sobre los cuales pueda recaer la representación de toda la información. Las medidas de tendencia central, llamadas así porque tienden a localizarse en el centro de la información, son de gran importancia en el manejo de las técnicas estadísticas, sin embargo, su interpretación no debe hacerse aisladamente de las medidas de dispersión, ya que la representatividad de ellas está asociada con el grado de concentración de la información. Las principales medidas de tendencia central son:
Media aritmética. Mediana Moda.
Media Aritmética Cotidiana e inconscientemente estamos utilizando la media aritmética. Cuando por ejemplo, decimos que un determinado fumador consume una cajetilla de cigarrillos diaria, no aseguramos que diariamente deba consumir exactamente los 20 cigarrillos que contiene un paquete sino que es el resultado de la observación, es decir, dicho sujeto puede consumir 18, un día; 19 otro; 20, 21, 22; pero según nuestro criterio, el número de unidades estará alrededor de 20. Matemáticamente, la media o promedio (también llamada media aritmética) formaliza el concepto intuitivo de punto de equilibrio de las observaciones. Es decir, es el punto medio del recorrido de la variable según la cantidad de valores obtenidos. Se expresa
∑ La media aritmética se define como la suma de los valores observados dividida entre el número de observaciones. Por lo que se vio la mayor densidad de frecuencia está en la parte central de las gráficas, de ahí el nombre de medidas de tendencia central que se da a la media aritmética , la mediana y a la moda . Las medidas de posición son aquellos valores numéricos que nos permiten o bien dar alguna medida de tendencia central, dividiendo el recorrido de la variable en dos, o bien fragmentar la cantidad de datos en partes iguales. La media
Donde n: es el número de observaciones x: el valor de cada observación
x : es la media aritmética, media o x barra
La media es la única de las medidas de tendencia central que puede intervenir en operaciones algebraicas. Ese valor tiene varias propiedades importantes: 1) Si x es una de las variables, su desviación respecto a x es la diferencia x x . La n
suma de estas diferencias es cero.
x
i
x 0
i 1
En toda distribución, la suma de las desviaciones de cada uno de los valores de la variable respecto a la media es cero. 2)
Si se toman una cantidad cualquiera de conjuntos de valores, cada uno con su respectiva media, la media del conjunto general es igual a la suma de cada una de las medias de los diferentes conjuntos.
3) Es posible hallar la media de un conjunto de valores de una variable a partir de tomar la
distancia de las observaciones a un valor cualquiera (pertenezca o no al recorrido de la variable)
4) Si a un conjunto de observaciones de una variable se le realiza una operación
matemática usando un valor constante, entonces la media del nuevo grupo de valores así obtenidos es igual a la aplicación de la misma operación matemática usando ese valor constante sobre la media original.
Media para datos sin agrupar
Dado un conjunto de observaciones x1 , x 2 ,...., xn la media se representa mediante x y se obtiene dividiendo la suma de todos los datos por el número de ellos, es decir:
∑ Problema
Hallar la media aritmética de los siguientes valores: 5, 7, 8, 10, 15.
∑ Problema
Cantidad de cigarrillos consumidos por un fumador en una semana. Lunes: 18 Martes: 21 Miércoles: 22 Jueves: 21 Viernes: 20 Sábado: 19 Domingo: 19 Entonces la media aritmética es. n
x
x1 x2 x n n
x
i 1
n
i
7
x i 1
i
18 21 22 21 20 19 19 7
20
El fumador consume en promedio 20 cigarrillos diarios. Ejercicios
1. Si las notas de un alumno en las distintas asignaturas de un curso durante una evaluación fueron: 7; 5; 6,5; 3,7; 5, 6,2. Hallar la nota media de la evaluación. 2. La media de 6 elementos se sabe que es 10. Sabiendo que cinco de ellos son: 8, 12, 13, 5 y 9, hallar el elemento que falta. Mediana y Moda
La mediana y la moda son medidas de tendencia central que por sus propiedades destacan los valores individuales de un colectivo. A. Mediana La mediana se define como el valor que divide un conjunto de datos previamente ordenados de menos a mayor y es el punto intermedio entre ellos dos. Si el número N de datos es impar, entonces hay un número intermedio; por ejemplo, si se tienen los datos 3, 5, 7, 9, 11 el número 7 es el número intermedio. Si el número N de datos es par, entonces hay dos datos intermedios; por ejemplo, la media de los valores 8, 10, 16, 19, 23, 25, hay dos valores centrales que son 16 y 19, el valor equidistante entre ellos es la mediana: 16 19 2
35 2
17.5 es la mediana
B. Moda En un conjunto de datos de una distribución de frecuencias, la moda es el valor que ocurre con mayor frecuencia; por ejemplo, en los valores 1, 2, 5, 5, 6, 6, 6, 6, 7, 8, 9, 9, 9, la moda es 6. Media Ponderada
Por lo general, en Estadística, los datos se nos presentan agrupados mediante una distribución de frecuencias que hace que no todos los elementos de la serie tengan el mismo peso específico, y eso influye a la hora de calcular la media, por eso se llama media ponderada. Se define como la suma de los productos de cada elemento de la serie por su frecuencia respectiva, dividida por el número de elementos de la serie. Si x1 , x2 ,...., x n son las cantidades c1 , c2 ,...., cn las respectivas ponderaciones, entonces la media ponderada x es: n
x
c1 x1 c 2 x 2 cn x n c1 c2 c n
c x
1 1
i 1 n
c i 1
i
donde c i es la frecuencia o número de veces que se repite un valor. También c i puede ser la ponderación de cada valor xi. Para calcular la media aritmética de una distribución de frecuencias agrupadas consideramos que a todos los valores que hay dentro de un intervalo de clase se les considera de un mismo valor igual al de la marca de clase y las frecuencias son las ponderadas de los valores en correspondencia con las marcas de clase y la suma de las frecuencias es el total de veces que se tiene registro.
∑ ∑ Problema
Durante el mes de octubre de 1981 los salarios recibidos por un obrero fueron:
Salario pesos
en Frecuencia en días
200.000
5
220.000
15
300.000
4
Hallar el salario medio durante ese mes. x
200.000 5 220.000 15 300.000 4 24
Problema
El número de días necesarios por 10 equipos de trabajadores para terminar 10 instalaciones de iguales características han sido: 21, 32, 15, 59, 60, 61, 64, 60, 71, y 80 días. Calcular la media, mediana, moda, varianza y desviación típica. La media: suma de todos los valores de una variable dividida entre el número total de datos de
los que se dispone:
∑ La mediana: es el valor que deja a la mitad de los datos por encima de dicho valor y a la otra
mitad por debajo. Si ordenamos los datos de mayor a menor observamos la secuencia: 15, 21, 32, 59, 60, 60,61, 64, 71, 80.
Como quiera que en este ejemplo el número de observaciones sea par (10 individuos), los dos valores que se encuentran en el medio son 60 y 60. Si realizamos el cálculo de la media de estos dos valores nos dará a su vez 60, que es el valor de la mediana. La moda: el valor de la variable que presenta una mayor frecuencia es 60
1.4 Medidas de Dispersión
La media aritmética, mediana y la moda describen el comportamiento de los datos en una distribución de frecuencias. Estas medidas no proporcionan información sobre la forma en que están distribuidos o dispersos los valores con relación a la tendencia central, y poco informan sobre un dato específico con relación a los otros en la distribución de frecuencias. Estudiaremos la desviación media, la varianza y la desviación estándar, que miden la dispersión. Rango
En toda distribución hay valores extremos, uno menor y otro mayor, la diferencia entre estos valores se llama rango y en el están distribuidos todos los demás valores. Es una medida de dispersión y es la más fácil de obtener. Desviación media
La desviación media y la varianza son medidas de dispersión que tienen relación con la media aritmética, ya que las tres tienen propiedades algebraicas que les permiten su uso en relaciones matemáticas que son la base estructural de los análisis estadísticos; por sus propiedades algebraicos son las medidas de dispersión de más frecuente aplicación y de mayor importancia. La media aritmética de los valores absolutos de las desviaciones de cada uno de los valores de la variable, respecto a la media aritmética, es la desviación media.
Para datos no agrupados, se tiene
| | ∑ Y para datos agrupados
| | ∑ Problema
Calcular la desviación media de la distribución: 9, 3, 8, 8, 9, 8, 9, 18
∑ | | | | | | | | | | | | | | | | || ∑ | Varianza
La varianza aritmética.
es la media aritmética de los cuadrados de desviaciones respecto a la media
La varianza para datos no agrupados se obtiene con:
∑
Para datos agrupados
∑ Problema
Calcula la desviación media DM y la varianza de la serie de números 9,10,2,7,12,6,5,8,12,10
∑ | | ∑ | || | || | || | || | || | || | || | || | || | || ∑
Desviación estándar o típica La desviación estándar o desviación típica, es la raíz cuadrada de la varianza. Desviación estándar
√
La desviación estándar es la más importante de todas las medidas de dispersión ya que incluye más o menos el 68% de los términos de una distribución normal; además, por sus propiedades algebraicas se utiliza con facilidad en el análisis estadístico.
1.5 Tablas de distribución de frecuencia
Elaborar Tabla de distribución de frecuencias Una vez reunidos los datos de un colectivo para obtener a partir de ellos conclusiones, es necesario organizarlos en una tabla de distribuciones de frecuencia. La cual nos representa una función, se clasifican en tres tipos, según el número de observaciones y al número de valores distintos que toma la variable. Distribución de tipo uno.
Son aquellas que constan de un reducido número de observaciones y en consecuencia de un reducido número de valores distintos que toma la variable. Distribuciones de tipo dos.
Son las que el número de observaciones es grande, pero el número de valores distintos que toma la variable son pequeño; en este tipo, se distribuyen o agrupan los resultados disponibles en dos columnas, una para los valores distintos que toma la variable y otra para la frecuencia de cada uno de ellos. Problema.
Para determinar el grado de nutrición de 20 alumnos de secundaria se toma la altura en cm de cada uno de ellos y son: 128 146 136 136 152 140 124 134 142 138 136 120 130 136 132 136 134 142 132 144
Para facilitar su interpretación se ordenan de forma ascendente o descendente, a este proceso se le llama orden de rango . 120 132 136 142 124 134 136 142 128 134 136 144 130 136 138 146 132 136 140 152 Para proceder a organizar los datos se usa la tabla de frecuencia que expresa el número de casos de cada categoría.
Distribución de tipo tres
Si el número de observaciones y el número de valores que toma la variable son grandes para su manejo se agrupan las observaciones en intervalos Li 1 Li , eligiendo entre ellos una amplitud fija o variable, mismos que se anotarán en una primera columna; en la segunda, se tabularán os valores para facilitar su conteo; y en la tercera, se pondrá el número de frecuencia f correspondiente a cada intervalo. Los grupos o categorías que incluye Li 1 Li se llaman intervalos de clase; los valores Li 1 son los límites inferiores y Li los límites superiores de estos intervalos. Clases Li 1 Li
Tabulaciones Frecuencias (f) f i
L0 L1 L1 L2
f 1 f 2 f k
Lk 1 Lk
La frecuencia absoluta o simplemente frecuencia , es el número de veces que se repite la
variable x i ; así f 1 , es el número de veces que se repite la observación x1 , f 2 el número de veces que se repite la observación x 2 , etc.
Problema
En un examen departamental de física se examinaron 50 alumnos con los siguientes resultados;
87 66 73 68 48 37 76 85 74 65 93 77 66 83 68 49 57 38 69 78 89 96 78 97 74 76 68 63 70 81 64 83 67 61 90 77 88 74 75 80 71 73 61 57 72 80 77 85 80 89
Expresamos la tabla de frecuencia, con los datos en forma ascendente.
37 65 72 77 85 38 66 73 77 85 48 66 73 78 87 49 67 74 78 88 57 68 74 80 89 57 68 74 80 89 61 68 75 80 90 61 69 76 81 93 63 70 76 83 96 64 71 77 83 97
Tabla de frecuencias
Clases
Tabulaciones Frecuencias (f)
Li 1 Li
35-39
f i
II
40-44 45-49
2 0
II
50-54
2 0
55-59
II
2
60-64
IIII
4
65-69
IIIII II
8
70-74
IIIII III
8
75-79
IIIII III
8
80-84
IIIII I
6
85-89
IIIII II
6
90-94
II
2
95-100
II
2
Marca de clase.
Una vez hecho todo lo anterior y antes de aplicar a la información los métodos estadísticos, es necesario sustituir cada intervalo por un número, a este número se le llama marca de clase y es el valor central de cada intervalo, es decir la media aritmética de los límites inferior y superior, se obtiene así: Marca de clase = xi Li 1 Li 2
Tabla de frecuencias
Clases
Tabulaciones Marca de clase Frecuencias (f)
Li 1 Li
Mc x i
f i
L0 L1
x1
f 1
x 2
f 2
x k
f k
L1 L2
Lk 1 Lk
Los datos obtenidos los anotamos en la tabla de frecuencias Clases
Tabulaciones
Li 1 Li
Marca de clase mc
Frecuencias (f)
x i
f i
35-39
II
37
2
40-44
0
42
0
45-49
II
47
2
50-54
0
52
0
55-59
II
57
2
60-64
IIII
62
4
65-69
IIIII II
67
7
70-74
IIIII III
72
8
75-79
IIIII III
77
8
80-84
IIIII I
82
6
85-89
IIIII II
87
7
90-94
II
92
2
95-99
II
97
2
Diagrama de frecuencia de puntos
El diagrama de frecuencia de puntos es una información gráfica de cómo están distribuidos los datos sobre el rango (contradominio en el cálculo).
Diagrama de barras
El diagrama de barras es la representación gráfica que se usa cuando se dispone de muchas observaciones pero pocos valores de la variable (distribución de tipo dos). Se elabora señalando en el eje de las x (abscisas) de un sistema de ejes coordenados, los valores de la variable, poniendo sobre ellas unas columnas a escala de las alturas igual a la frecuencia de cada uno de los valores, medidos en el sentido del eje de las y (ordenadas).
Problema
Un grupo de 15 alumnos presenta examen extraordinario de química; un funcionario de la escuela necesita saber cuántos alumnos obtuvieron calificación inferior a 6 y cuántos entre 6 y 8. Para resolver este tipo de problemas, ordenamos las calificaciones en una tabla de frecuencias y contestamos preguntas como “inferior o igual que” y “superior a”. Así:
x
y
0 puntos
0
1 puntos
2
2 puntos
1
3 puntos
3
4 puntos
0
5 puntos
2
6 puntos
3
7 puntos
1
8 puntos
2
9 puntos
1
10 puntos 0
De donde 8 alumnos obtuvieron una calificación menor a 6, y 6 su calificación está entre 6 y 8. Histograma. Datos agrupados
El histograma es la gráfica más usual y se utiliza cuando el número de observaciones y el número de valores que toma la variable son grandes (distribuciones de tipo tres). Los histogramas son una forma de representación de la frecuencias de clase por medio de áreas rectangulares (barras), pero son diferentes a los diagramas de barras cuyas alturas miden el tamaño de la variable y generalmente se dibujan separadas, dejando espacios entre ellas; en cambio, en los histogramas las frecuencias quedan representadas por el área de los rectángulos , no por sus alturas, y las barras necesariamente se dibujan sin dejar espacios entre ellas.
Histograma 30 25 20 15 10
Series1
5 0
Concepto de densidad
La densidad física es un concepto relativo que relaciona el volumen de un cuerpo con su masa. En estadística, por la densidad de frecuencia, se obtiene la frecuencia absoluta o número de casos que hay dentro del intervalo de clase En los histogramas, el eje vertical mide la densidad de frecuencias y el eje horizontal mide los intervalos de clase. Así:
Longitud de los ejes para expresar un histograma
El eje vertical debe ser tres cuartos de la longitud del eje horizontal, el cual se escoge de acuerdo con la necesidad del problema. Problema
Traza el histograma de la distribución de frecuencia agrupadas siguientes:
Clases Li 1 Li
Tabulaciones Frecuencias (f) f i
35-39
II
40-44
2 0
45-49
II
50-54
2 0
55-59
II
2
60-64
IIII
4
65-69
IIIII II
7
70-74
IIIII III
8
75-79
IIIII III
8
80-84
IIIII I
6
85-89
IIIII II
7
90-94
II
2
95-100
II
2
Para trazar el histograma procedemos así: Sobre el eje de las abscisas ponemos a escala los valores de la variable x (los puntajes), por intervalos. Se trazan perpendiculares sobre el eje horizontal de la longitud que sea necesaria
Histogram of C1 Normal 10
Mean
73.46
StDev
13.31
N
8
y c n e u q e r F
6
4
2
0 40
50
60
70
C1
80
90
100
50
Polígonos de frecuencia
El polígono de frecuencia se obtiene uniendo los puntos medios de los intervalos de clase del histograma
Frecuencia acumulada: Ojivas
El cuadro siguiente expresa la distribución de frecuencias agrupadas no acumulativas que se elaboro Clase
Frecuencias
123.5-128.5
4
128.5-133.5
4
133.5-138.5
8
138.5-143.5
21
143.5-148.5
6
148.5-153.5
25
153.5-158.5
21
158.5-163.5
10
163.5-168.5
1
Total
100
La frecuencia acumulada, se obtiene acumulando la frecuencia absoluta. Problema
Con base en el cuadro anterior de distribución de frecuencias agrupadas, obtener dos cuadros; el de frecuencias acumuladas hacia abajo y otro de frecuencias acumuladas hacia arriba, y trazar las ojivas correspondientes. Cuadro A
Frecuencia acumulada de estaturas que expresa el número de alumnos que miden menos de la estatura indicada.
Estatura
Núm. De alumnos
123.5
0
128.5
4
133.5
8
138.5
16
143.5
37
148.5
43
153.5
68
158.5
89
163.5
99
168.5
100
Cuadro B
Frecuencia acumulada de estaturas que expresa el número de alumnos que miden más de la estatura indicada. Estatura Núm. De alumnos 123.5
100
128.5
96
133.5
92
138.5
84
143.5
63
148.5
57
153.5
32
158.5
11
163.5
1
168.5
0
Distribución de frecuencias relativas
Poder organizar la información en una tabla de frecuencias, presentarla en cuadros, marcar los intervalos de clase y hacer las gráficas de frecuencias absolutas, permiten relacionar y comprender los valores de un mismo colectivo. Frecuencia relativa; es el resultado de dividir c/u de las frecuencias absolutas por el tamaño de la muestra.
La frecuencia relativa de una clase se obtiene en tanto por ciento, que es la nueva base, si dividimos la frecuencia de la clase entre el número total de frecuencias y el resultado lo multiplicamos por 100. Frecuencia relativa
L N
100
Para facilitar el cálculo de las frecuencias relativas de cada clase, se usa un factor de corrección que resulta de dividir 100 por el número total de frecuencias. Factor
100
N
Problema
Las autoridades de la secretaria de educación pública deciden que en otra escuela también se tomen las estaturas en cm. De todos los alumnos, pero ahora, de los menores de 17 años, para fines nutricionales. Elabora un cuadro de frecuencias agrupadas que incluya las frecuencias absolutas y las relativas, estas últimas en tanto por ciento. Clase
Frecuencias Relativas en %
123.5-128.5 2
1.638
128.5-133.5 3
2.457
133.5-138.5 8
6.552
138.5-143.5 20
16.380
143.5-148.5 9
7.371
148.5-153.5 8
6.552
153.5-158.5 30
24.570
158.5-163.5 23
18.837
163.5-168.5 15
12.285
168.5-173.5 4
3.276
Total
100.00
122
Factor de corrección factor
100 122
0.819
20.819 1.638
30.819 2.457
Distribuciones porcentuales acumuladas
Los cuadros de frecuencia acumulada porcentuales se obtienen convirtiendo las frecuencias acumuladas en frecuencias relativas o proporcionales de base 100. Frecuencia relativa acumulada; se obtiene dividiendo la frecuencia acumulada entre el tamaño de la muestra. Problema
En el cuadro siguiente la distribución acumulativa de estaturas de un grupo de alumnos, que expresa el número de ellos que midieron, menos de la estatura indicada, agrega la columna correspondiente a las frecuencias relativas y traza la ojiva porcentual. Estatura
Frecuencia acumulada Núm. De Alumnos Relativas en %
128.5
0
0.000
133.5
2
1.886
138.5
5
4.715
143.5
14
13.202
148.5
38
35.834
153.5
45
42.435
158.5
65
61.295
163.5
89
83.927
168.5
103
97.129
173.5
106
100.000
Factor de conversión f actor
100 106
0.943
Se obtienen las frecuencias relativas: 00.943 0.00 20.943 1.886
50.943 4.715
Media para datos agrupados Problema
Calcular la media aritmética de la distribución de frecuencias agrupadas de la tabla de frecuencias.
Clases
Tabulaciones
Li 1 Li
Marca de clase mc
Frecuencias (f) f i
x i
35-39
II
37
2
40-44
0
42
0
45-49
II
47
2
50-54
0
52
0
55-59
II
57
2
60-64
IIII
62
4
65-69
IIIII II
67
7
70-74
IIIII III
72
8
75-79
IIIII III
77
8
80-84
IIIII I
82
6
85-89
IIIII II
87
7
90-94
II
92
2
95-100
II
97.5
2
Se procede de la siguiente manera
Intervalos Marca x
n
f
Frecuencias ( f i )
f i xi
35-39
37
2
74
40-44
42
0
0
45-49
47
2
94
50-54
52
0
0
55-59
57
2
114
60-64
62
4
248
65-69
67
7
469
70-74
72
8
576
75-79
77
8
616
80-84
82
6
492
85-89
87
7
609
90-94
92
2
184
95-100
97.5
2
194
2 0 2 0 2 4 7 8 8 6 7 2 2 50
i
i 1
n
f
x i 74 0 94 0 114 248 469 576 616 492 609 184 194 3670
i
i 1
n
f x i
x
i 1
i
n
f
3670 50
73.4
i
i 1
..\..\..\..\semestre enero 2012\1 media.xlsx
..\..\..\..\semestre enero 2012\2 desviación media.xlsx
1.6 Calcular Cuantiles
Los cuantiles son medidas de posición que se determinan mediante un método que determina la ubicación de los valores que dividen un conjunto de observaciones en partes iguales. Los cuantiles son los valores de la distribución que la dividen en partes iguales, es decir, en intervalos que comprenden el mismo número de valores. Cuando la distribución contiene un número alto de intervalos o de marcas y se requiere obtener un promedio de una parte de ella, se puede dividir la distribución en cuatro, en diez o en cien partes. Los más usados son los cuartiles, cuando dividen la distribución en cuatro partes; los deciles, cuando dividen la distribución en diez partes y los centiles o percentiles, cuando dividen la distribución en cien partes. Los cuartiles, como los deciles y los percentiles, son en cierta forma una extensión de la mediana. Para algunos valores u , se dan nombres particulares a los cuantiles, Q (u): u
Q(u)
0.5
Mediana
0.25, 0,75
Cuartiles
0.1,…,0.99
Deciles
0.01,…,0.99
Centiles
CUARTILES
A fin de conocer los intervalos dentro de los cuales quedan representados proporcionalmente los términos de una distribución, se divide la distribución de frecuencia en 4 partes iguales, cada una contiene igual número de observaciones (el 25% del total). Los puntos de separación de los valores de X se llaman cuartiles.
El primer cuartil corresponde al 25% y se designa con .
El segundo cuartil es que representa el valor de 50% y coincide con la mediana.
El tercer cuartil es representa el 75% de las observaciones que están por debajo de él. Cálculo de cuartiles
1. Ordenamos los datos de menor a mayor. 2. Buscamos el lugar que ocupa cada cuartil mediante la e x p r e s ió n
Problema
Dada la siguiente distribución en el número de hijos (Xi) de cien familias, calcular sus cuartiles.
x i
0
14
14
1
10
24
2
15
39
3
26
65
4
20
85
5
15
100
Primer cuartil
Primera
Segundo cuartil
Primera
Tercer cuartil
Primera
Cálculo de los cuartiles para datos agrupados
En primer lugar buscamos la clase donde se encuentra las frecuencias acumuladas.
, e n l a t a b l a d e
El límite inferior de la clase donde se encuentra el cuartil, es . La suma de las frecuencias absolutas, es N.
La frecuencia acumulada anterior a la clase del cuartil, es
La amplitud de la clase, es . Problema
Calcular los cuartiles en el cuadro de frecuencias agrupadas, en donde se han registrado las alturas de un grupo de alumnos.
Clase 50-60 60-70 70-80 80-90 90-100 100-110 110-120
8 10 16 14 10 5 2 65
8 18 34 48 58 63 65
Cálculo del primer cuartil
Cálculo del segundo cuartil
Cálculo del tercer cuartil
Clase
Frecuencias
121.5-126.5
2
126.5-131.5
3
131.5-136.5
8
136.5-141.5
23
141.5-146.5
27
146.5-151.5
20
151.5-156.5
16
156.5-161.5
3
161.5-166.5
2
Total
Dividimos el total N de las frecuencias acumuladas entre 4 y obtenemos el número de observaciones que hay en el primer cuartil.
El primer cuartil cae en la clase , las tres primeras clases contienen 13 alumnos (sumamos 2+3+8=13) para las 13 que faltan los calculamos por interpolación lineal, así; 1.7 Gráficos
1.8 Cajas y alambres Diagramas de caja
Los diagramas de Caja-Bigotes son una presentación visual que describe varias características importantes, al mismo tiempo, tales como la dispersión y simetría. Para su realización se representan los tres cuartiles y los valores mínimo y máximo de los datos, sobre un rectángulo, alineado horizontal o verticalmente. Es un gráfico que suministra información sobre los valores mínimo y máximo, los cuartiles Q1, Q2 o mediana y Q3, y sobre la existencia de valores atípicos y la simetría de la distribución.
Una gráfica de este tipo consiste en una caja rectangular, donde los lados más largos muestran el recorrido intercuartílico. Este rectángulo está dividido por un segmento vertical que indica donde se posiciona la mediana y por lo tanto su relación con los cuartiles primero y tercero (recordemos que el segundo cuartil coincide con la mediana). Esta caja se ubica a escala sobre un segmento que tiene como extremos los valores mínimo y máximo de la variable. Las líneas que sobresalen de la caja se llaman bigotes. Estos bigotes tienen un límite de prolongación, de modo que cualquier dato o caso que no se encuentre dentro de este rango es marcado e identificado individualmente. Problema
Distribución de edades Utilizamos la ya usada distribución de frecuencias (en tallos y hojas), que representan la edad de un colectivo de 20 personas. 36 25 37 24 39 20 36 45 31 31 39 24 29 23 41 40 33 24 34 40 Ordenar los datos Para calcular los parámetros estadístico, lo primero es ordenar la distribución 20 23 24 24 24 25 29 31 31 33 34 36 36 37 39 39 40 40 41 45
Calculo de Cuartiles Q1, el cuartil Primero es el valor mayor que el 25% de los valores de la distribución. Como N =
; el primer cuartil es la media aritmética de dicho valor y el siguiente:
20 resulta que
Q2, el Segundo Cuartil es, evidentemente, la mediana de la distribución, es el valor de la
variable que ocupa el lugar central en un conjunto de datos ordenados. Como mediana es la media aritmética de dicho valor y el siguiente:
; la
Q3, el Tercer Cuartil, es el valor que sobrepasa al 75% de los valores de la distribución. En
, resulta
nuestro caso, como
Dibujar la Caja y los Bigotes
El bigote de la izquierda representa al colectivo de edades
La primera parte de la caja a (Q1, Q2), La segunda parte de la caja a (Q2, Q3) El bigote de la derecha viene dado por
Información del diagrama Podemos obtener abundante información de una distribución a partir de estas representaciones. Veamos alguna:
La parte izquierda de la caja es mayor que la de la derecha; ello quiere decir que las edades comprendidas entre el 25% y el 50% de la población está más dispersa que entre el 50% y el 75%. El bigote de la izquierda es más corto que el de la derecha; por ello el 25% de los más jóvenes están más concentrados que el 25% de los mayores. El rango ; es decir, el 50% de la población está comprendido en 14,5 años.
1.9 Diagrama de Pareto
El nombre de Pareto fue dado por el Dr. Joseph Juran en honor del economista italiano Wilfredo Pareto. Wilfredo Pareto (Paris 1848 – Turín 1923) economista italiano,
realizó un estudio sobre la riqueza y la pobreza. Descubrió que el 20% de las personas controlaba el 80% de la riqueza en Italia. Pareto observó muchas otras distribuciones similares en su estudio. A principios de los años 50, el Dr. Joseph Juran descubrió la evidencia para la regla de "80-20" en una gran variedad de situaciones. En particular, el fenómeno parecía existir sin excepción en problemas relacionados con la calidad. Una expresión común de la regla 80/20 es que "el 80% de nuestro negocio proviene del 20% de nuestros clientes." Por lo tanto, el Análisis de Pareto es una técnica que separa los "pocos vitales" de los "muchos triviales". Una Gráfica Pareto es utilizada para separar gráficamente los aspectos significativos de un problema desde los triviales de manera que un equipo sepa dónde dirigir sus esfuerzos para mejorar. Definición
El Diagrama de Pareto consiste en un gráfico de barras similar al histograma que se conjuga con una ojiva o curva de tipo creciente y que representa en forma decreciente el grado de importancia o peso que tienen los diferentes factores que afectan a un proceso, operación o resultado.
..\..\..\..\semestre enero 2012\diagrama de pareto.xlsx
Al identificar y analizar un producto o servicio para mejorar la calidad. Cuando existe la necesidad de llamar la atención a los problemas o causas de una forma sistemática. Al analizar las diferentes agrupaciones de datos (ejemplo: por producto, por segmento del mercado, área geográfica, etc.) Al buscar las causas principales de los problemas y establecer la prioridad de las soluciones Al evaluar los resultados de los cambios efectuados a un proceso (antes y después). Cuando los datos puedan agruparse en categorías. En casos típicos, los pocos vitales (pasos, servicios, ítems, problemas, causas) son responsables por la mayor parte en el impacto negativo sobre la calidad. Un equipo puede utilizar la Gráfica de Pareto para varios propósitos durante un proyecto para lograr mejoras.
Para identificar oportunidades para mejorar Para identificar un producto o servicio para el análisis de mejora de la calidad Cuando existe la necesidad de llamar la atención a los problemas o causas de una forma sistemática Para analizar las diferentes agrupaciones de datos Al buscar las causas principales de los problemas y establecer la prioridad de las soluciones Para evaluar los resultados de los cambios efectuados a un proceso comparando sucesivos diagramas obtenidos en momentos diferentes, (antes y después) Cuando los datos puedan clasificarse en categorías Cuando el rango de cada categoría es importante
Los propósitos generales del diagrama de Pareto
Analizar las causas Estudiar los resultados Planear una mejora continua Como fotos de "antes y después" para demostrar que progreso se ha logrado
Unidad II - Probabilidad 2.4 Permutaciones y combinaciones 2.5 Diagramas de árbol 2.6 Axiomas de probabilidad 2.7 Independencia y probabilidad condicional 2.8 Teorema de Bayes.
2.1 Probabilidad de eventos Experimento Aleatorio Definición
Un experimento aleatorio es aquel que proporciona diferentes resultados aun cuando se repita siempre de la misma manera
2.2 Espacio muestral Definición
El conjunto de todos los posibles resultados de un experimento aleatorio recibe el nombre de espacio muestral del experimento. El espacio muestral se denomina con la letra S. Espacio Muestral discreto Definición
Un espacio muestral es discreto si está formado por un conjunto finito (o infinito contable) de resultados. Suceso Definición
Un suceso es un subconjunto del espacio muestral de un experimento aleatorio.
Por ejemplo en el espacio muestral E = {1, 2, 3, 4, 5, 6} del lanzamiento de un dado, los siguientes son eventos: 1. Obtener un número primo A = {2, 3, 5}
2. Obtener un número primo y par B = {2} 3. Obtener un número mayor o igual a 5 C = {5, 6} Problema
Describa el espacio muestral que sea apropiado para un experimento en el que tiramos un par de dados, uno rojo y uno verde. El espacio muestral que proporciona la mayor información consiste en los 36 puntos dados por,
* + Donde
x representa el número en que cayó el dado rojo y representa el número en que cayó el dado verde
Problema
Con respecto al ejercicio anterior describa el suceso A en que el número de puntos obtenidos sea divisible entre 3. Entre 1, 2, 3, 4, 5, 6, sólo 3 y 6 son divisibles entre 3
*+ Problema
Describa un suceso B en que el número de puntos obtenidos con el par de dados sea 7.
dan un total de 7. Por lo que el conjunto solución es * + Entre los posibles resultados, sólo
2.3 Ocurrencia de eventos En función de la relación de probabilidad que se pueda establecer entre los sucesos, estos se clasifican en: Mutuamente excluyentes o disjuntos. Son aquellos sucesos en los que en un mismo experimento aleatorio no es posible que ocurran simultáneamente. La intersección de los conjuntos que los representan es el conjunto vacío. A B
No excluyentes entre sí. Son aquellos sucesos en los que en un mismo experimento aleatorio, en los que la posibilidad de que ocurra uno de ellos no importa que el otro suceso ocurra; es decir pueden ocurrir conjuntamente. La intersección de los conjuntos que los representan, es el conjunto diferente del vacío. A B Problema
Al lanzar una moneda solo puede ocurrir que salga cara o sello pero no los dos a la vez, esto quiere decir que estos eventos son excluyentes. Problema
Experimento aleatorio: se analiza en un momento dado el estado de salud de los habitantes de una comunidad. Consideremos los sucesos siguientes: A: La persona es diabética
B: La persona está sana
C: La persona tiene un problema de salud permanente, tiene una enfermedad crónica D: La persona tiene gripa E: La persona es hipertensa Diga que sucede para los sucesos anteriores si se pide; A B
B D B C A D
Problema
Experimento aleatorio: se observa la escolaridad de las personas de 20 a 60 años de edad de una comunidad. Consideremos los siguientes sucesos. A. Una persona tiene menos de 40 años B. La persona es ingeniero C. La persona es analfabeta D. La persona tiene 40 años o más Que sucede con los sucesos si se pide; A B
B D
B C
A D
2.4 Permutaciones y combinaciones
Permutación y combinación ¿Qué diferencia hay?
Normalmente usamos la palabra "combinación" descuidadamente, sin pensar en si el orden de las cosas es importante. En otras palabras: "Mi ensalada de frutas es una combinación de manzanas, uvas y bananas" : no
importa en qué orden pusimos las frutas, podría ser "bananas, uvas y manzanas" o "uvas, manzanas y bananas", es la misma ensalada.
"La combinación de la cerradura es 472" : ahora sí importa el orden. "724" no funcionaría, ni "247". Tiene que ser exactamente 4-7-2.
Así que en matemáticas usamos un lenguaje más preciso :
Si el orden no importa, es una combinación Si el orden sí importa es una permutación
Permutaciones
Un arreglo de cosas en un orden dado; constituye una permutación. En una permutación el orden es importante. Problema
Se tienen 6 máquinas de escribir y 6 personas para operar las máquinas, ¿de cuántas maneras se pueden asignar las personas a las máquinas? 6 P6 = 6 ! = 6 • 5 • 4 • 3 • 2 • 1 = 720
Problema
¿De cuántas maneras se pueden ordenar las letras A, B, C tomándolas todas a la vez? Solución: 3 P3 = 3 • 2 • 1 = 6
[ABC, BCA, CAB, BAC, CBA, ACB]
Problema
Cinco ciudades se comunican entre sí, según el diagrama
De cuántas formas es posible: a) Viajar desde A hasta E b) Hacer el viaje redondo desde A hasta E
2.5 Diagramas de árbol
Un diagrama de árbol es una herramienta que se utiliza para determinar todos los posibles resultados de un experimento aleatorio. En el cálculo de la probabilidad se requiere conocer el número de elementos que forman parte del espacio muestral, estos se pueden determinar con la construcción del diagrama de árbol. El diagrama de árbol es una representación gráfica de los posibles resultados del experimento, el cual consta una serie de pasos, donde cada uno de los pasos tiene un número finito de maneras de ser llevado a cabo. Se utiliza en los problemas de conteo y probabilidad. Para la construcción de un diagrama en árbol se partirá poniendo una rama para cada una de las posibilidades, acompañada de su probabilidad. Cada una de estas ramas se conoce como rama de primera generación. En el final de cada rama de primera generación se constituye a su vez, un nudo del cual parten nuevas ramas conocidas como ramas de segunda generación, según las posibilidades del siguiente paso, salvo si el nudo representa un posible final del experimento (nudo final). Hay que tener en cuenta que la construcción de un árbol no depende de tener el mismo número de ramas de segunda generación que salen de cada rama de primera generación y que la suma de probabilidades de las ramas de cada nudo ha de dar 1. Existe un principio sencillo de los diagramas de árbol que hace que éstos sean mucho más útiles para los cálculos rápidos de probabilidad: multiplicamos las probabilidades si se trata de ramas adyacentes (contiguas), o bien las sumamos si se trata de ramas separadas que emergen de un mismo punto. A continuación ejemplificaremos cada uno de estos conceptos.
Experimento aleatorio
Lanzar dos monedas al aire. Para conocer el dominio utiliza un diagrama de árbol.
Entonces el dominio es: {(AA), (AS), (SA), (SS)}. Este conjunto se llama espacio muestral y se designa con S, que es, además, el dominio de la función aleatoria; a cada uno de sus resultados se les llama eventos. Ahora determinaremos el espacio muestral de cada uno de los siguientes experimentos aleatorios: 1. Lanzar tres monedas al aire. 2. Lanzar un dado y dos monedas. 3. Las respuestas de un examen, si las preguntas son las siguientes: ( ) Descubrimiento de América. 1. 1810 ( ) Conquista de México. 2. 1492 ( ) Declaración de Independencia. 3. 1521 4. Los hijos varones y mujeres de una familia de tres hijos. 5. Los lugares que ocupan tres personas en una fila de supermercado. Ayudados por un diagrama de árbol, los resultados de las preguntas anteriores serían: 1. Lanzar tres monedas al aire son:
2. Dos monedas y un dado con seis números
3. Resultados de un examen.
4. Hijos varones y mujeres de una familia de tres hijos: varones H, mujeres M.
5. Lugares que ocupan tres personas en una fila de supermercado. Llamaremos P1 = primera persona, P2 = segunda persona y P3 = tercera persona.
2.6 Axiomas de probabilidad Probabilidades: Definiciones y Conceptos
Las Probabilidades pertenecen a la rama de la matemática que estudia ciertos experimentos llamados aleatorios, o sea regidos por el azar, en que se conocen todos los resultados posibles, pero no es posible tener certeza de cuál será en particular el resultado del experimento. Por ejemplo, experimentos aleatorios cotidianos son el lanzamiento de una moneda, el lanzamiento de un dado, extracción de una carta de un mazo de naipes. Más adelante se verá que debemos distinguir entre los conceptos de probabilidades matemáticas o clásicas de las probabilidades experimentales o estadísticas. Postulado 1
La probabilidad de un suceso es un número real no negativo; esto es cualquier subconjunto A de S.
para
Las probabilidades son los valores de una función de conjunto, también conocida como medida de probabilidad, esta función asigna números reales a los diferentes subconjuntos de un espacio muestral S
Postulado 2
Postulado 3
Si es una secuencia finita o infinita de sucesos mutuamente excluyentes de S, entonces P A1 A2 A3 ... P A1 P A2 P A3 ...
Los postulados de probabilidad se aplican sólo cuando el espacio muestral S es discreto
Problema
Un experimento tiene cuatro resultados posibles A, B, C, D que son ME. Explique por qué las siguientes asignaciones de probabilidad no están permitidas. a ) P A 0.12 b) P A
9 120
P B 0.63 P C 0.45 P D 0.20 P B
45 120
P C
27 120
P D
46 120
Teorema
Si A es un suceso en un espacio muestral discreto S, entonces P(A) es igual a la suma de las probabilidades de los resultados posibles que abarcan A.
Problema
Si lanzamos dos veces una moneda balanceada, ¿Cuál es la probabilidad de sacar al menos una cara? C- Cara H-Cruz El espacio muestral es S CC , CH , HC , HH Como la moneda esta balanceada, estos resultados son igualmente posibles y asignamos a cada muestra la probabilidad de
1 4
. Denotemos con A al evento que
sacamos al menos una cara, obtenemos S CC , CH , HC P A PCC PCH P HC
1 4 3
1 4
1 4
4
Problema
Un dado está arreglado de manera que cada número impar tiene el doble de probabilidad de ocurrir que un número par. Encuentre P (G), donde G es el suceso que un número mayor que 3 ocurra en un sólo tiro del dado. Espacio muestral S 1,2, 3, 4, 5, 6 Si asignamos la probabilidad W a cada número par y la probabilidad 2W a cada impar, se tiene 2 W W 2 W W 2 W W 1
y
P (G )
1 9
2 9
1 9
9 W 1
P (G )
W
1 9
4 9
Teorema
Si un experimento puede resultar en cualquiera de N resultados diferentes igualmente probables y si n de estos resultados juntos constituye el evento A, entonces la probabilidad del evento A es P A
n N
.
Problema
Cuál es la probabilidad de que una persona de 25 años de edad llegue a sobrevivir hasta que tenga 40 años, si de acuerdo a una tabla de mortalidad de cada 93 745 persona de 25 años de edad, 87 426 llegan a los 40 años.
n 87 426 N 93 745 P A P( A)
n N Personas que lleguen a los 40 años total de personas de25 años
87426 93745
0.9325 93.25% Problema
En una caja hay 25 tornillos en buen estado y 80 defectuosos. ¿Cuál es la probabilidad de sacar de la caja al azar un tornillo en buen estado? n 25 N 80 25 105 P A P( A)
n N Num de tornillos en buen estado total de tornillos en la caja
25 25 80
25 105
0.2380 23.80% Algunas reglas de probabilidad. Teorema
Si A y A c son eventos complementarios en un espacio muestral S, entonces P A
c
1 P A
Teorema P 0 Para cualquier espacio muestral S. Teorema
Si A y B son eventos en un espacio muestral S y A B, entonces P A P B Teorema 0 P A 1
Para cualquier evento A.
Ley aditiva de la probabilidad Teorema
Si A y B son dos eventos en el espacio muestral S, entonces, la probabilidad de que un suceso u otro ocurran se calcula con las relaciones siguientes. P A B P A P B P A B P A P B P A B
a) Cuando dos sucesos son ME, se tiene que A B se utiliza la primera relación b) Cuando dos sucesos no son ME, se tiene que A B se utiliza la segunda relación c) P A B Se resta para rectificar el doble conteo
Demostración. Si asignamos las probabilidades a, b, c a los eventos ME A B , A B c y Ac B de acuerdo al diagrama de Venn. P A B a b c
a b c 0 a b c a a a b c a a P A P ( B) P( A B) Problema
En una zona de la ciudad, las probabilidades son 0.86, 0.35 y 0.29 de que una familia tenga aparato de televisión a color, un aparato de televisión en blanco y negro, o ambas clases de aparatos respectivamente. ¿Cuál es la probabilidad de que una familia posea cualquiera de las dos o ambas clases de aparatos? A. Familia con televisión a color
B. Familia con televisión blanco y negro P A 0.86
P B 0.35
P A B 0.29
P A B P A P B P A B P A B 0.86 0.35 0.29 P A B 0.92
Problema
Para participar en la rifa de un reloj, los alumnos de primer año compraron 18 boletos; los de segundo grado 12 boletos. Si son 50 boletos en total, ¿Cuál es la probabilidad de que un alumno de primero o segundo gane la rifa? A. Gana un alumno de primer grado B. Gana un alumno de segundo grado El suceso que nos interesa es A B P A B P( A) P( B )
18 50
E A B
12 50
30 50
3 5
, los sucesos A Y B son ME, es decir
0.6
P A B 60%
Ley multiplicativa de la probabilidad
La probabilidad de que ocurran simultáneamente dos sucesos A y B, se obtiene con el producto de sus probabilidades. P A B P( A) P( B)
Para aplicar la ley multiplicativa es necesario revisar si los sucesos involucrados son independientes o dependientes. a) Sucesos independientes Son aquellos en los que la ocurrencia de uno, no afecta la probabilidad de que ocurra el otro. b) Sucesos dependientes Son aquellos en los que la ocurrencia de uno afecta la probabilidad de que ocurra el otro. Problema
Experimento aleatorio: se lanza un dado y se saca una canica de una bolsa; en la bolsa hay tres canicas, una roja, una azul y una verde. ¿Cuál es la probabilidad de que salga un número primo y una canica azul?
Como cualquier resultado que aparezca en el dado no afecta la probabilidad del color de la canica, ni viceversa, se dice que los sucesos son independientes. A: 1,2,3,5 B: Sale canica azul 4 1 4 2 P A B P( A) P( B) 0.22 6 3 18 9 P A B 22% Problema
De un grupo escolar se van a elegir por sorteo a 3 alumnos que se hagan cargo de una ceremonia escolar: en el grupo hay 24 hombres y 12 mujeres, ¿Cuál es la probabilidad de que el grupo de representantes esté conformado de las maneras siguientes? A. Sean tres hombres B. Sean dos hombres y una mujer C. Sean dos mujeres y un hombre D. Sean tres mujeres a) Sean tres hombres P A Se tienen que dar los siguientes sucesos A1 : El primer alumno seleccionado sea hombre P A1
24 36
A2 : El segundo alumno seleccionado sea hombre P A2
23 35
Los sucesos A1 y A2 son dependientes A3 : El tercer alumno seleccionado sea hombre
P A3
22 34
P A P A1 A2 A3 P A1 P A2 P A3
24 23 22 12144 0.2834 36 35 34 42840
P( A)
P( A) 28.34%
b) Sean dos hombres y una mujer B1 : Sale el primer hombre
P ( B1 )
B2 : Sale el segundo hombre
P ( B2 )
24 36 23 35
P ( B3 )
B3 : Sale la mujer
12 34
24 25 12 6624 0.1546 36 35 34 42840
P( B) P( B1 ) P( B2 ) P( B3 ) P( B) 15.46% Problema
Cerca de cierta salida de una carretera, las probabilidades son 0.23 y 0.24, de que un camión parado en un retén tendrá frenos defectuosos o neumáticos muy gastados. También, la probabilidad es 0.38 de que un camión parado en el retén tendrá frenos defectuosos y/o neumáticos muy gastados. ¿Cuál es la probabilidad de que un camión parado en este retén tendrá los frenos defectuosos así como los neumáticos muy gastados? B: Suceso que un camión parado tendrá frenos defectuosos T: Suceso que tendrá neumáticos muy gastados P( B) 0.23
P(T ) 0.24
P( B T ) 0.38
P( B T ) P( B) P(T ) P( B T ) P( B T ) P( B T ) P( B) P(T ) P( B T ) P( B) P(T ) P( B T )
0´23 0.24 0.38 0 09 9%
Problema
Una organización de los consumidores ha estudiado los servicios con garantía proporcionados por las 50 agencias de automóviles nuevos en una cierta ciudad en la tabla siguiente se resumen sus hallazgos. Buen servicio de garantía Mal servicio de garantía En operación por 10 años o más
16
4
20
Menos de 10 años
10
20
30
Total
26
24
50
En operación
a) Si una persona selecciona aleatoriamente una de estas agencias de automóviles nuevos, ¿Cuál es la probabilidad de que seleccione una que proporciona buen servicio de garantía? b) Si una persona selecciona una de las agencias que han operado 10 años o más, ¿Cuál es la probabilidad de que seleccione una agencia que proporcione buen servicio de garantía? G: Denota la selección de la agencia que proporciona buen servicio de garantía. S: Denota el número de elementos en el espacio muestral completo. a)
P (G )
n
16 10
N P (G ) 52%
50
26 50
0.52
b) Para la segunda pregunta, buscamos el espacio muestral reducido que consta de la primera línea de la tabla, esto es, 16+4 =20 agencias. De estas, 16 proporcionan buen servicio de garantía y se tiene P(G / T )
16
20 P(G ) 52%
0.80
2.7 Independencia y probabilidad condicional Probabilidad condicional
La probabilidad condicional se aplica en el cálculo de un evento cuando se sabe que ha ocurrido otro con el cual se relacionan; es decir, los sucesos son dependientes. Sean A y B dos sucesos dependientes tales que
Para expresar la probabilidad de B dado que A ha ocurrido, se expresa De la misma manera si
Para señalar la probabilidad de A dado que B ha ocurrido, se expresa
La probabilidad de se realiza en un mismo espacio muestral, que es un Vamos a considerar
subconjunto del espacio muestral original S. Es decir, el espacio muestral original S se ve modificado por que ya ocurrió el suceso A. Definición
Si A y B son dos sucesos cualquiera en un espacio muestral S y P( A) 0 , la probabilidad condicional de B dado A es P( B / A)
P ( A B ) P ( A)
Problema
Como un ejemplo adicional, supóngase que el espacio muestral es la población de adultos en un pequeño pueblo que han satisfecho los requisitos para graduarse en la escuela. Se deben clasificar de acuerdo con su sexo y si trabajan o no actualmente.
Empleado
desempleado
Total
Hombre
460
40
500
Mujer
140
260
400
total
600
300
900
Se selecciona al azar a uno de estos individuos para que realice un viaje a través de todo el país, con la intención de promocionar las ventajas que se derivan del establecimiento de las nuevas industrias en los pequeños poblados. El interés se muestra en los siguientes eventos: M: se escoge a un hombre.
E: el elegido tiene un empleo.
Al utilizar el espacio muestral reducido E , se encuentra que
Sea el número de elementos de cualquier conjunto A. Utilizando esta notación se puede escribir S
se obtiene del espacio muestra original S. para verificar este
Donde Y resultado, nótese que.
En consecuencia
Igual que antes. Problema
La probabilidad de que un vuelo de programación regular despegue a tiempo es La que llegue a tiempo es encuentre la probabilidad de que un avión en el cual se:
a) llegue a tiempo dado que despego a tiempo, b) despegue a tiempo dado que llego a tiempo. Solución:
a) La probabilidad de que el avión llegue a la hora prevista dado que partió a tiempo es:
b) La probabilidad de que salga a la hora prevista dado que llego a tiempo es:
En el experimento de lanzar un dado se observa que
Esto es . Ahora considérese otro en el cual se sacan dos cartas en sucesión, con remplazo, de un paquete normal, los eventos se definen como: A: la primera carta es un as, B: la segunda carta es de espadas. Puesto que se remplaza la primera carta, el espacio muestral para ambas cartas consisten de 52, en el que hay 4 ases y 13 espadas. Por lo tanto
Y
cuando esto es cierto, se dice que los eventos A
Esto es, independientes.
y B son
La noción de probabilidad condicional permite revaluar la idea de probabilidad de un evento de mayor información; es decir cuando se sabe que otro evento ha ocurrido. La probabilidad es una actualización de la con la base en la certeza de que se ha presentado el evento B. en el problema del avión fue importante conocer la probabilidad de que el vuelo llegara a tiempo. Supóngase que sabe que se vuelo no partió a tiempo, con estos datos adicionales, lo más pertinente es calcular esto es, la probabilidad de que llegue a tiempo, dado que no llego a tiempo. En munchas situaciones las conclusiones que se sacan de las observaciones de la probabilidad condicional más importantes cambian totalmente la situación. En este ejemplo, el cálculo de P lo da
P
Eventos independientes
Cuando A y B son dos eventos con probabilidades positivas, hemos visto que en general la probabilidad condicional del evento B dado el evento A es diferente de la probabilidad del evento B. Sin embargo, cuando se tiene la igualdad: es de especial importancia porque esto quiere decir que el evento B no depende o es independiente del evento A. Es decir, no importa si ocurrió o no el evento A puesto que la ocurrencia o no de A no afecta al evento B.
Si B es independiente de A, entonces A es independiente de B. A y B son independientes si y sólo si
Si A y B son cualesquier eventos en el espacio muestral S, tales que
decimos que A es independiente de B si y solo si
e implica que
Si B es independiente de A, entonces A es independiente de B. A y B son independientes si y sólo si
Problema
Lanzar al aire dos veces una moneda son eventos independientes por que el resultado del primer evento no afecta sobre las probabilidades efectivas de que ocurra cara o sello, en el segundo lanzamiento. Problema
A=evento que un estudiante tenga una tarjeta de crédito de un banco B=evento que un estudiante tenga una tarjeta de crédito para viajes
¿Son los eventos A y B independientes?
Si, son independientes
2.8 Teorema de Bayes
Proyecto
1. ¿Cuántas palabras con código de 3 letras se pueden formar usando las 8 primeras letras del alfabeto. a) Si ninguna letra puede repetirse b) Si se pueden repetir las letras 2. Las 5 finalistas del concurso Señorita Universo son los representantes de Argentina, Bélgica, Estados Unidos, Japón y Noruega. ¿De cuantas maneras pueden elegir los jueces; a) La ganadora y la primera suplente b) La ganadora, la primera y la segunda suplente? 3. ¿Cuántas permutaciones diferentes hay de la palabra statistics?, ¿Cuántas de ellas comienzan y terminan con la letra s? 4. La señorita Jones tiene cuatro faldas, siete blusas y tres suéteres. ¿En cuántas formas puede escoger dos de las faldas, tres de las blusas y uno de los suéteres para llevar en un viaje? 5. ¿Cuántos grupos de 5 o más personas pueden formarse con 10 personas? 6. Una placa consiste en dos letras seguidas por cuatro dígitos, ¿cuántas placas pueden elaborar sí; a) Se pueden repetir las letras y los dígitos b) Si no se pueden repetir? Calcula la permutación o combinación correspondiente a cada una de las situaciones que se dan a continuación. 7. Se elige un comité de 5 personas en el que debe haber 2 arquitectos de 7 que hay en la compañía y 3 ingenieros de los 10 que trabajan ahí. ¿De cuántas formas diferentes han de escoger el comité? 8. ¿De cuantas maneras diferentes se puede formar un comité con un presidente, un secretario y un tesorero, en un club que consta de 15 socios? 9. Experimento aleatorio: se observa la escolaridad de las personas de 20 a 60 años de edad de una comunidad. Consideremos los siguientes sucesos. E. Una persona tiene menos de 40 años F. La persona es ingeniero G. La persona es analfabeta H. La persona tiene 40 años o más Que sucede con los sucesos si se pide;
A B B D B C
A D
10. En un grupo de 200 estudiantes (80 mujeres y 60 hombres), 140 en total son alumnos de tiempo completo y otro de 60, (40 son mujeres y 20 hombres) son de tiempo parcial. Experimento: un estudiante es seleccionado al azar, para esto se definen tres sucesos. A. Estudiante seleccionado de tiempo completo B. Estudiante seleccionado de tiempo parcial C. Estudiante seleccionado sea hombre a) Defina si los sucesos A y B son mutuamente excluyentes o no. b) Defina si los sucesos A y C son mutuamente excluyentes o no. 11. Se analiza en un momento dedo el estado de salud de los habitantes de la ciudad. Consideremos los casos siguientes: A: La persona es diabética B: La persona está sana C: La persona tiene un problema de salud permanente, tiene una enfermedad crónica. D: La persona tiene gripa E: La persona es hipertensa a) b) c) d)
¿Los sucesos A y B son mutuamente excluyentes o no? ¿Si C E son mutuamente excluyentes o no? ¿Qué sucede con los sucesos B y C? ¿Cómo son los sucesos C y D?
12. Una organización de los consumidores ha estudiado los servicios con garantía proporcionados por las 50 agencias de automóviles nuevos en una cierta ciudad en la tabla siguiente se resumen sus hallazgos. Buen servicio de Mal servicio de garantía garantía En operación por 10 años más
16
4
20
20
30
o
En operación Menos de 10 10
años Total
26
24
50
c) Si una persona selecciona aleatoriamente una de estas agencias de automóviles nuevos, ¿Cuál es la probabilidad de que seleccione una que proporciona buen servicio de garantía? d) Si una persona selecciona selecciona una de las agencias agencias que han operado 10 años o más, ¿Cuál es la probabilidad de que seleccione una agencia que proporcione buen servicio de garantía? G: Denota la selección de la agencia que proporciona buen servicio de garantía. S: Denota el número de elementos en el espacio muestral completo. 13. Una urna contiene 75 bolas blancas marcadas, 25 bolas sin marcar, 175 bolas negras marcadas y 125 bolas negras sin marcar. a) Se saca una bola al azar. azar. Calcular la probabilidad probabilidad que sea blanca. b) Se extrae una bola y está marcada. Calcular la probabilidad que sea blanca. 14. En un grupo de 200 estudiantes universitarios 138 están inscritos en un curso de Inglés 115 en uno de mecánica y 91 en ambos, ¿Cuántos de estos estudiantes no están inscritos en uno u otro curso? Trace un diagrama de Venn apropiado y anote los números asociados con las diversas regiones. 15. Un taller sabe que por término medio acuden, por la mañana 3 automóviles con problemas eléctricos, 8 con problemas mecánicos y 3 con problemas de chapas y por la tarde 2 con problemas eléctricos, 3 con problemas mecánicos y 1 con problemas de chapa. Eléctricos Mañana 3 Tarde 2 Total 5
Mecánicos 8 3 11
Chapa 3 1 4
Total 14 6 20
Calcular, P(A), P(B), P(C) , así como la probabilidad de que acuda por la mañana dado que tiene problemas eléctricos Aplique el concepto de probabilidad para resolver el siguiente problema. 16. En una caja hay 100 canicas azules y 300 rojas. ¿Cuál es la probabilidad de sacar al azar una canica azul? Exprese el resultado en tanto por ciento. 17. En la oficina del subdirector de la escuela hay 12 calculadoras, algunas son manuales (M), otras eléctricas (E); además algunas de ellas son nuevas (N) y otras usadas (U), como como se expresa en el cuadro siguiente: siguiente:
M E N 2
3 5
U 2
5 7
4 8 12
a) Una persona entra a la oficina y escoge escoge aleatoriamente una calculadora calculadora y observa que es manual. ¿Cuál es la probabilidad de que sea nueva? b) Si la persona escoge una al azar una eléctrica, ¿Cuál es la probabilidad de que sea usada? 18. Empleando diagramas de Venn y con la definición de conjuntos encontrar el conjunto solución para cada uno de los casos que se dan a continuación. U 1, 2, 3, 4, 5, 6, 7, A 1, 2, 3, 4, 5, B 1, 3, 5, 7, c 2, 5, 6, 7.
a) B A b) C B
c) C B d ) C A
19. Una orquesta de 30 músicos deciden formar dos grupos musicales, uno de clásica y otro de música de salón, el primero con 12 personas y el segundo con 16; si tres de los músicos pertenecen a los dos grupos ¿Cuántos miembros de la orquesta original decidieron no pertenecer a ningún grupo? 20. De un lote de 15 camisas, 4 son defectuosas, si se toman al azar 3 artículos del lote, uno tras otro; calcular la probabilidad de que los tres se encuentren en buen estado. 21. En una escuela de enseñanza media superior, el 20% de los alumnos reprobaron matemáticas, el 25% física y el 5% ambas materias. Si se selecciona un alumno al azar: a) Si reprobó física. ¿Cuál es la probabilidad que haya reprobado matemáticas? b) Si reprobó matemáticas. matemáticas. ¿Cuáles la probabilidad probabilidad de que haya haya reprobado física? c) ¿Cuál es la probabilidad de que haya reprobado reprobado física o matemáticas? matemáticas? 22. En una escuela de enseñanza media superior de la población de alumnos el 40% mide más de 1.50 m, el 25% pesa más de 52 kilos y el 15% mide más de 1.50 m y más de 52 kilos. Si se escoge al azar un alumno: a) Si mide más de 1.50 m, m, calcular la probabilidad probabilidad de que también pese pese más de 52 kg.
Proyecto
1. ¿De cuántas maneras maneras diferentes se puede formar formar un comité con un presidente, presidente, un secretario y un tesorero, en un club que consta de 15 socios? 2. Cinco ciudades ciudades se comunican entre sí, sí, según el diagrama diagrama
De cuántas formas es posible: c) Viajar desde A hasta E d) Hacer el viaje redondo desde A hasta E 3. Use el principio multiplicativo multiplicativo para solucionar el problema problema siguiente. siguiente. De una ciudad A hasta B hay 4 caminos; a su vez, la ciudad B a la C hay 6 caminos, si todos los caminos son diferentes, de cuantas formas es posible:
De cuántas formas es posible: e) Viajar de A hasta C pasando pasando por B f) Hacer el viaje redondo desde desde A hasta C pasando por B g) Hacer el viaje redondo desde A hasta C pasando por B pero si utilizar el mismo camino más de una vez 4. ¿Cuántos números de 3 dígitos se pueden formar con 1, 2, 3 ,4,5 si; a) No se permiten repeticiones b) Se permiten repeticiones 5. Con los dígitos del 0 al 9 se quieren formar números números de cuatro cifras, cifras, sin repetir cifras en ninguno de los números formados.
a) ¿Cuántos se pueden formar? b) ¿Cuántos números son impares? c) ¿Cuántos números son divisibles entre 2? 2? d) ¿Cuántos números son mayores o iguales que 3000? 6. Calcular cuántos números números enteros de de tres cifras se pueden pueden obtener con con los dígitos 2, 3, 5, 7 en los casos siguientes. a) No se permite la repetición de las las cifras en ninguno ninguno de los los números b) Se permite la repetición de las cifras en los números 7. ¿Cuántas diferentes quintas de baloncesto baloncesto pueden pueden formarse con 7 jugadores disponibles para jugar cualquier posición? 8. Un alumno de preparatoria tiene 7 libros de física y 5 de matemáticas. Calcular de cuantas maneras posibles se pueden ordenar 3 libros de física y 2 de matemáticas en un librero. 9. ¿De cuántas maneras maneras diferentes se puede formar formar un comité con un presidente, presidente, un secretario y un tesorero, en un club que consta de 20 socios? 10. ¿Cuántas representaciones diferentes serán posibles formar, si se desea que consten de Presidente, Secretario, Tesorero, Primer Vocal y Segundo Vocal?, sí esta representación puede ser formada de entre 25 miembros del sindicato de una pequeña empresa. 11. Obtenga todas las señales posibles que se pueden diseñar con seis banderines, dos de los cuales son rojos, tres son verdes y uno morado. 12. ¿De cuántas maneras es posible plantar en una línea divisoria de un terreno dos nogales, cuatro manzanos y tres ciruelos? 13. Si un equipo de fútbol soccer femenil participa en 12 juegos en una temporada t emporada,, ¿cuántas maneras hay de que entre esos doce juegos en que participa, obtenga 7 victorias, 3 empates y 2 juegos perdidos? 14. Si se cuenta con 14 alumnos que desean colaborar en una campaña pro limpieza del Tec, cuantos grupos de limpieza podrán formarse si se desea que consten de; a) 5 alumnos alumnos cada cada uno de ellos b) Si entre los 14 alumnos hay 8 mujeres, ¿cuántos ¿cuántos de los grupos grupos de limpieza tendrán a 3 mujeres? c) ¿Cuántos de los grupos de limpieza contarán con 4 hombres hombres por lo menos? 15. En una escuela de enseñanza media superior los alumnos de matemáticas presentan un examen que incluye 16 problemas para resolver 8 de ellos. ¿Cuántos exámenes diferentes de 8 problemas se pueden escoger de esos 16? 16. Un inspector de control de calidad desea seleccionar una parte para la inspección de cada una de cuatro recipientes diferentes que contienen 4, 3, 5 y 4 partes, respectivamente. ¿De cuántas maneras diferentes se pueden escoger las cuatro partes?
17. ¿De cuántas maneras diferentes se pueden contestar todas las preguntas de una prueba de falso o verdadero que consta de 20 preguntas? 18. ¿De cuántas maneras diferentes se pueden presentar al público los cinco jugadores titulares de un equipo de baloncesto? 19. El número de permutaciones de las cuatro letras a, b, c y d es 24, pero ¿cuál es el número de permutaciones si sólo tomamos dos de las cuatro letras o, como usualmente se expresa, si tomamos las cuatro letras dos a la vez? 20. ¿De cuántas maneras puede una sección local de la sociedad Americana de Química programar a tres oradores para tres reuniones diferentes, si todos ellos están disponibles en cualquiera de cinco fechas posibles? 21. ¿De cuántas maneras se pueden colgar, una junto a las otras, dos pinturas de Monet, tres pinturas de Renoir y dos pinturas de Degas en la pared de un museo sin hacer distinción entre las pinturas de los mismos artistas? 22. ¿De cuántas maneras diferentes puede una persona, que reúne datos para una organización de investigación de mercados, seleccionar tres de 20 familias que viven en un complejo departamental dado? 23. ¿En cuántas formas diferentes pueden seis lanzamientos de una moneda, producir dos caras y cuatro cruces? 24. ¿Cuántos comités diferentes, de dos químicos y un físico, se pueden formar con los cuatro químicos y los tres físicos del profesorado de una pequeña universidad?
Unidad III - Funciones de distribución de probabilidades 3.1 Variables aleatorias y su clasificación Introducción Población, elementos y caracteres. Población
Es obvio que todo estudio estadístico ha de estar referido a un conjunto o colección de personas o cosas. Elementos
Las personas o cosas que forman parte de la población se denominan elementos. En sentido estadístico un elemento puede ser algo con existencia real, como un automóvil o una casa, o algo más abstracto como la temperatura, un voto, o un intervalo de tiempo. Población finita: cuando el número de elementos que la forman es finito, por
ejemplo el número de alumnos de un centro de enseñanza, o grupo clase.
Población infinita: cuando el número de elementos que la forman es infinito,
o tan grande que pudiesen considerarse infinitos. Como por ejemplo si se realizase un estudio sobre los productos que hay en el mercado. Hay tantos y de tantas calidades que esta población podría considerarse infinita.
Ahora bien, normalmente en un estudio estadístico, no se puede trabajar con todos los elementos de la población sino que se realiza sobre un subconjunto de la misma. Este subconjunto puede ser una muestra , cuando se toman un determinado número de elementos de la población, sin que en principio tengan nada en común; o una subpoblación , que es el subconjunto de la población formado por los elementos de la población que comparten una determinada característica, por ejemplo de los alumnos del centro la subpoblación formada por los alumnos de 3º ESO, o la subpoblación de los varones. Experimento
Es cualquier proceso de observación o medición Espacio muestral
Es el conjunto de todos los resultados de un experimento, y se le representa con la letra S. Ejemplo
Supongamos el lanzar un dado al aire y observaremos los resultados siguientes S = {1, 2, 3, 4, 5, 6}
S = {6}
Ejemplo
En el lanzamiento de dos monedas tenemos S = {HH, HT, TH, TT}
S = {4}
Ejemplo
Describa un espacio muestral que sea apropiado para un experimento en el que tiramos un par de dados, uno rojo y uno verde. El espacio muestral que proporciona la mayor información consiste en los 36 puntos dados por
*|+ Donde x representa el número en que cayó el dado rojo y y representa el número del dado verde Variables Aleatorias y Distribuciones de Probabilidad
Concepto de variable aleatoria discreta. R
E
x
Sea E el espacio muestral de una experiencia, una variable aleatoria x, es una aplicación que a cada elemento de E (suceso elemental) le hace corresponder un número real. El recorrido de una variable aleatoria es el conjunto de valores que puede tomar. Recorrido
* +
Se dice que una variable aleatoria es discreta si su recorrido es finito. Ejemplo:
Los valores enteros que satisfacen esta desigualdad donde x es la variable, son que son los valores particulares que puede tomar la x.
Variables Aleatorias
Definición
Es aquella que asume diferentes valores a consecuencia de los resultados de un experimento aleatorio. Si S es un espacio muestral con una medida de probabilidad y X es una función de valor real definida sobre los elementos de S, entonces X se llama variable aleatoria. Variable aleatoria discreta
Una variable aleatoria discreta sólo puede asumir cierto número de valores específicos. Si hay 100 empleados en una empresa, la cantidad de los ausentes el lunes, sólo puede ser 0, 1, 2, 3,…, 100. En general, una variable aleatoria discreta x es el resultado de contar algo. Así por definición: Definición
Variable aleatoria discreta (x). Se le denomina variable porque puede tomar diferentes valores, aleatoria, porque el valor tomado es totalmente al azar y discreta porque solo puede tomar valores enteros y un número finito de ellos. Ejemplo El número de hijos de una familia puede ser 0, 1, 2, 3,… pero no 2.5 o 3.48 por lo que
es una variable aleatoria discreta. x Variable que nos define el número de burbujas por envase de vidrio que son generadas en un proceso dado. x0, 1, 2, 3, 4, 5, etc., etc. burbujas por envase xVariable que nos define el número de productos defectuosos en un lote de 25 productos. x0, 1, 2, 3,....,25 productos defectuosos en el lote xVariable que nos define el número de alumnos aprobados en la materia de probabilidad en un grupo de 40 alumnos. x0, 1, 2, 3, 4, 5,....,40 alumnos aprobados en probabilidad Definición; Variable aleatoria continua
Variable aleatoria continua (x). Se le denomina variable porque puede tomar diferentes valores, aleatoria, porque los valores que toma son totalmente al azar y continua porque puede tomar tanto valores enteros como fraccionarios y un número infinito de ellos. Es cuando entre dos valores consecutivos puede haber infinitos valores. Ejemplo La altura H de una persona, que puede ser 1.70, 1.751, 1.80, 1.85,… dependiendo de
la precisión de la medida, es una variable aleatoria continua. Ejemplos:
xVariable que nos define el diámetro de un engrane en pulgadas x5.0”, 4.99, 4.98, 5.0, 5.01, 5.0, 4.96 xVariable que nos define la longitud de un cable o circuito utilizado en un arnés de auto x20.5 cm, 20.1, 20.0, 19.8, 20,6, 20.0, 20.0 xVariable que nos define la concentración en gramos de plata de algunas muestras de mineral x14.8gramos, 12.0, 10.0, 42.3, 15.0, 18.4, 19.0, 21.0, 20.8
3.2 Distribuciones de probabilidad discretas Si se organiza un conjunto de valores posibles de una variable aleatoria discreta, en una distribución de probabilidades, por lógica la distribución se llama distribución de probabilidad discreta . Definición
En teoría de la probabilidad y estadística, la distribución de probabilidad de una variable aleatoria es una función que asigna a cada suceso definido sobre la variable aleatoria la probabilidad de que dicho suceso ocurra. La distribución de probabilidad está definida sobre el conjunto de todos los eventos rango de valores de la variable aleatoria. Cuando la variable aleatoria toma valores en el conjunto de los números reales, la distribución de probabilidad está completamente especificada por la función de distribución, cuyo valor en cada real x es la probabilidad de que la variable aleatoria sea menor o igual que x .
para cada x dentro ,-.
Si X es una variable aleatoria discreta, la función dada por del intervalo X, se llama distribución de probabilidad de X en el intervalo Teorema
Una función puede servir como la distribución de probabilidad de una variable aleatoria discreta x si y sólo si sus valores f(x), satisfacen las condiciones a) b)
, para cada valor dentro de su dominio ∑ , donde la suma se extiende sobre todos los valores dentro de su dominio
Ejemplo
Lanzamos dos dados al aire. Nos interesa encontrar las probabilidades tal como la probabilidad de que la suma de los puntos en los dados es menor que 8. El espacio muestral del experimento, son treinta y seis posibles resultados es; Dado Rojo Dado Verde 1 2 3 4 5 6
1 1,1 2,1 3,1 4,1 5,1 6,1
2 1,2 2,2 3,2 4,2 5,2 6,2
3 1,3 2,3 3,3 4,3 5,3 6,3
El suceso de que la suma es ocho contiene 5 resultados tanto la probabilidad deseadas es .
4 1,4 2,4 3,4 4,4 5,4 6,4
5 1,5 2,5 3,5 4,5 5,5 6,5
6 1,6 2,6 3,6 4,6 5,6 6,6
*+; por lo
Las probabilidades asociadas con todos los valores posibles de x son x 2
P(X=x)
3 4 5 6 7 8 9 10 11 12 2
x F(x)
3
4
5
6
7
8
9
10 11 12
Expresamos estos valores de probabilidad por medio de una función tal que sus valores f(x), sean iguales a para cada x dentro del rango de la variable aleatoria X.
Para el total de obtenido con un par de dados se pueden lograr estos resultados mediante una fórmula.
Sustituimos los valores de x
||
| | || | | || | | || Todos los valores concuerdan con los mostrados en la tabla. Ejemplo
Encuentre una fórmula para la distribución de probabilidad del número total de caras obtenidas en cuatro lanzamientos de una moneda balanceada.
Con base al ejercicio ya visto, y en base a las probabilidades en la tabla, encontramos que
Al observar que los numeradores de estas cinco fracciones 1, 4, 6, 4, 1 son los coeficientes binomiales , encontramos que la fórmula para la distribución de
./././././
probabilidad se puede escribir como
) ( Problema
Verificar si la función dada por distribución de probabilidad de una variable aleatoria discreta.
puede servir como una
Con estos resultados se satisface que
Comprobamos que se cumple la segunda condición
∑
Por lo tanto se cumple con la segunda condición. Ejercicio
Verificar si la función
es una función de probabilidad.
Los valores de la función se pueden representar en una gráfica como lo es el histograma.
3.3 Distribución de probabilidad Hipergeométrica Definición
En teoría de la probabilidad la distribución Hipergeométrica es una distribución discreta relacionada con muestreos aleatorios y sin remplazo. Para obtener una fórmula análoga a la de la distribución Binomial que sea válida para el muestreo sin remplazo, en cuyo caso los ensayos no son independientes. Consideremos un conjunto de N elementos, de los cuales M se consideran como éxitos y los otros como fracasos.
En la binomial, estamos interesados en la probabilidad de obtener x éxitos en n ensayos. Ahora escogemos sin remplazo n de los N elementos contenidos en el conjunto. Hay maneras de escoger x de los M éxitos y de los maneras de escoger fracasos, por lo tanto maneras de escoger x éxitos de los fracasos.
()
( )
( )( )
Puesto que hay maneras de escoger n de los N elementos en el conjunto y suponemos que
()
no todos son posibles, se tiene que la probabilidad de “x éxitos en n ensayos” es:
()( ) ()
Definición
Una variable aleatoria x tiene una distribución Hipergeométrica y se conoce como variable aleatoria Hipergeométrica si y sólo si su distribución de probabilidad está dada por
)() ( ( ) Así que para el muestreo sin remplazo el número de éxitos en n ensayos es una variable aleatoria que tiene una distribución Hipergeométrica con los parámetros n, N y M. Definición
La media y la varianza de la distribución Hipergeométrica son
Problema
En una jaula hay 30 pericos rusos y 20 pericos chinos si extraemos 10 pericos al azar calcular posibilidad de que 3 de ellos hablen chino (característica deseada). N = 50 n = 10 M = 20
X= 3
)() ()() ()() ( ( () () )
Problema
De los 20 hombres y 18 mujeres del salón el 50% réprobo el examen de estadística, si tomamos 10 alumnos al azar encontrar la probabilidad. A) 4 alumnos reprobados B) 3 mujeres reprobadas A) N = 38 n = 10 M = 19 x = 4
B) N = 38 n = 10 M = 9 x = 3
Problema
En un vagón de ferrocarril que acarrea a 60 reses el 20% de ellas están enfermas de vaca loca, si extraemos con propósito de inspección sanitaria una muestra del 10% de las reses ¿calcula la probabilidad de que hayan 2 vacas con dicha enfermedad? N = 60
n=6
M = 12
x=2
Problema
De 60 aspirantes a la UNIVERSIDAD 40 son de Baja California, si seleccionamos 20 aspirantes al azar ¿calcular la probabilidad de que 10 sean de Baja California? N = 60
n = 20
M = 12
x = 10
3.4 Distribución de probabilidad Poisson
Se considera a la distribución de Poisson como una forma límite de la Binomial cuando n tiende a infinito, pero se considera por sí misma como un proceso de Poisson. Ambas distribuciones son discretas, se aplican en procesos físicos, entre otros: En la industria en el control de calidad, en biología para determinar el número de bacterias, en física para calcular las partículas emitidas por una sustancia radiactiva, en las instituciones de seguros para verificar el número de seguros. Características
a. En el proceso que se estudia se identifica una unidad que puede ser: de tiempo, de espacio, de volumen, etc. b. Se contabiliza un cierto número de ocurrencias eventuales para cada unidad c. La VA puede tomar una cantidad infinita pero numerable de valores x 0,1, 2, 3,
Ejemplo :
1) Unidad: un litro Ocurrencia eventual: haya bacterias de cólera. Proceso con distribución de Poisson: calcular el número de bacterias por litro que hay en el agua de una delegación política. 2) Unidad: 24 horas Ocurrencia eventual: robo de vehículos. Proceso con distribución de Poisson: calcular el número de vehículos robados cada 24 horas. 3) Unidad: una página de un libro Ocurrencia eventual: erratas detectadas en el libro Proceso con distribución de Poisson: las erratas por página en un libro de reciente publicación. 4) Unidad: Tinacos de agua con capacidad de 1000 litros. Ocurrencia eventual: Consumo de agua. Proceso con distribución de Poisson: la cantidad de tinacos de agua potable consumidos por las escuelas primarias de la ciudad. Un problema que satisface las anteriores características se resuelve con la distribución de probabilidad de Poisson con la relación x
P x
Donde:
e
x!
donde np
El numero irracional e 2.71828, letra (landa) del alfabeto griego es el parámetro que determina el valor de esta distribución En la práctica real, rara vez se obtienen las probabilidades de Poisson por sustitución directa en la fórmula de la definición. Algunas veces nos referimos a las tablas de probabilidades de Poisson, como la tabla II, pero más a menudo, hoy en día, nos referimos a programas de computadora apropiados. El uso de tablas o computadoras es de especial importancia cuando nos interesan probabilidades relacionadas con varios valores de x. Problema
Si la probabilidad es de 0.005 de que una persona cualquiera que asista a un desfile en un día muy caluroso de verano, ¿Cuál es la probabilidad de que 18 de 3000 personas que asistan al desfile sufran insolación? np 3000 0.005 15
x 18
P x
x
e
x!
p 0.005
18
15
15
18! e
0.0706
La probabilidad de que 18 de 3000 personas que asistan al desfile sufran insolación es del 7.06% Problema
Si el 2% de los libros encuadernados en cierto taller tiene encuadernación defectuosa, use la distribución de Poisson a la distribución Binomial para determinar la probabilidad de que 5 de 400 libros encuadernados en este taller tendrán encuadernaciones defectuosas. x 5 P x
np 400 0.02 8 x e
x!
p 0.02
5
8
5! e
8
0.093
Problema
La contaminación es un problema en la fabricación de discos de almacenamiento óptico. El número de partículas contaminantes que aparecen en un disco óptico tiene una distribución de Poisson y el número promedio de partículas por centímetro cuadrado de superficie del medio de almacenamiento es 0.1. El área de un disco bajo estudio es 100 cm 2. a. Encuentre la probabilidad de encontrar 12 partículas en el área del disco óptico
np 100 0.1 10
x 12
x
P x
e
p 0.1
12
10
x!
10
12! e
0.095
b. Encuéntrese la probabilidad de que no haya partículas contaminantes en el área del disco x e
P x
x!
10
0
10
12! e
4.54 105
Problema
Si la probabilidad de que una persona sufra una reacción dañina al ingerir determinado antibiótico es de 0,001. Calcula la probabilidad de que un total de 3000 pacientes sufran el malestar. a. De exactamente 3 personas x 3
np 3000 0.001 3
P x
x e
3
3
x!
p 0.001
3! e
3
0.2240
b. Más de 2 presenten reacción dañina P0
3
0
0! e
3
1
P1 P2
3
1! e 3
3
1
e
3
3
e
3
2
2! e
3
9 2e
1
P x 2 1
e
3
3
3
e
3
9
0.751 3 2 e
Problema
El número de camiones que llegan en un día cualquiera en un depósito de camiones en cierta ciudad es según se sabe 12. ¿Cuál es la probabilidad de que en un día lleguen menos de 9 camiones a este depósito? Problema
Si una distribución de Poisson es de
P x
0.56 x e 0.74 x!
Calcular P0, P1, P3, P 4 P0 0.4771 , P1 0.2671 ,
P3 0.039 ,
P 4 0.0019
Problema
En una fábrica de ropa, el 10% de las prendas producidas resultan con algún defecto. Calcula la probabilidad de que en un lote de 9 prendas elegidas al azar salgan exactamente 2 defectuosas. x 3
np 90.1 0.9 x
P x
e
x!
P2
0.92 e 0.9 2!
p 0.1
0.1646
Problema
La probabilidad de que un trabajador técnico en computación tenga un sueldo mayor a 10000 pesos mensuales es de 0.001. Calcula la probabilidad en un total de 2000 técnicos que 4 personas reciban exactamente este sueldo. x 4
P x
np 2000 0.001 2 x
e
x!
P2
24 e 2 2!
p 0.001
0.1646
Problema
Los registros muestran que las probabilidad es de 0.00005 de que un automóvil se le reviente un neumático mientras cruza cierto puente. Use la distribución de Poisson para aproximar las probabilidades binomiales que, de 10000 autos que cruzan este puente, a. Exactamente dos tendrán un neumático reventado Al consultar la tabla II, encontramos que para x 2
np 10000 0.00005 0.5
p 0.00005
La probabilidad de Poisson es 0.0758 b. Cuando mucho dos tendrán un neumático reventado
Al consultar la tabla II, encontramos que para x 0,1, y 2
np 10000 0.00005 0.5
p 0.00005
Las probabilidades de Poisson son 0.6065, 0.3033, y 0.0758. Así la probabilidad de que cuando mucho dos de los 10000 autos que cruzan el puente tendrán un neumático reventado es 0.6065 0.3033 0.0758 0.9856
Propiedades de la distribución de Poisson
La media u La varianza 2 Desviación
3.5 Distribuciones de probabilidad continuas Definición
Una función con valores f x , definida sobre el conjunto de todos los números reales, se llama función de densidad de probabilidad de la VAC X si y sólo si
Pa x b
b
a
f x dx
Para cualquiera constantes a y b con a b Donde f(x) es la función de densidad de la distribución probabilística correspondiente. Es la probabilidad de que x tome un valor entre a y b es igual al área que encierra f x con el eje x entre los valores a y b. Hay que estar conscientes de que en el caso de las variables continuas sólo se puede calcular la probabilidad de que un evento caiga dentro de un intervalo, debido a que la exactitud de los instrumentos de medición siempre es relativa y muy lejana a la "exactitud" de los cálculos matemáticos. Por esto, la probabilidad de que la variable aleatoria tome un valor exacto es nula:
P x a
a
a
f x dx 0
Esto se puede explicar de la siguiente manera: si, como ya dijimos, la probabilidad (frecuencia relativa) es igual a la densidad del intervalo por la amplitud del intervalo, entonces no importa qué tan grande sea la densidad de tal intervalo porque, como ya también se dijo, por ser variable continua la amplitud del intervalo tiende a cero y, por tanto, la probabilidad es igual a cero. Características:
Es generada por una variable continua (x).
,...,
Una función de densidad de una VAC X a la función f x que verifica las siguientes propiedades.
Definición
Una función puede servir como una densidad de probabilidad de una VAC X si sus valores f x satisfacen las condiciones: 1.
f x 0 Las probabilidades asociadas a cada uno de los valores que toma x deben
ser mayores o iguales a cero. Dicho de otra forma, la función de densidad de probabilidad deberá tomar solo valores mayores o iguales a cero. La función de densidad de probabilidad sólo puede estar definida en los cuadrantes I y II.
2.
f x dx La sumatoria de las probabilidades asociadas a cada uno de los valores
que toma x debe ser igual a 1. El área definida bajo la función de densidad de probabilidad deberá ser de 1. Cálculo de media y varianza para una distribución continua Media o valor esperado de x. Definición
Supóngase que X es una VAC con una función de densidad de probabilidad f x para x La media de X, denotada por E x o es E x
x f x dx
Donde:
= E(x) = media o valor esperado de la distribución
x = variable aleatoria continua f(x) = función de densidad de la distribución de probabilidad
La varianza de X, denotada por
v x o 2 Desviación estándar es
2
2 x f x dx
Ejemplo: Para la siguiente función,
1 2 x para 0 x 3 f x 9 0 dof
a) Diga si esta función nos define una distribución de probabilidad. b) Si la función define una distribución de probabilidad, entonces, determine su media y desviación estándar. c) Determine la probabilidad de que 1 x 2 .
Solución: Para verificar que la función nos define una distribución de probabilidad, es necesario que cumpla con las características que se habían mencionado .
x sí es una variable continua porque puede tomar cualquier valor entre 0 y 3
f x 0 , lo que se comprueba si damos diferentes valores a x para ver que valores toma f(x), dándonos cuenta de que efectivamente f(x) solo toma valores mayores o iguales a cero.
x
0
f x 0
0.5
1
1.5
1.4
2.1
0.02778
0.1111
0.21778
0.49
0.49
2.7
3
0.81 1
Para comprobar que la sumatoria de las probabilidades que toma cada valor de x es de 1, se integra la función de 0 a 3 como se muestra a continuación:
A= área bajo la función
1
Con las operaciones anteriores comprobamos que la función distribución de probabilidad continua. Cálculo de media y desviación estándar.
Las barras nos indican la evaluación de la integral entre 0 y 3.
La barra nos indica la evaluación de la integral de 1 a 2.
9
x
2
sí nos define una
Con las operaciones anteriores nos damos cuenta que para evaluar probabilidades para variables de tipo continuo, es necesario evaluar la función de densidad de probabilidad en el rango de valores que se desea; que vendría siendo el área que se encuentra entre f(x) y el eje de las x y entre el rango de valores definidos por la variable x. Ejemplo
Suponga que el error en la temperatura de reacción, en oC, para un experimento controlado de laboratorio es una variable aleatoria continua x, que tiene la función de densidad de probabilidad:
x 2 f x 3 0
para 1 x 2 dof
0
∫
Verifique la condición la definición de una distribución de probabilidad continua. Determine la media o valor esperado de la distribución de probabilidad . Encuentre la probabilidad de que .
∫
Solución:
Como la tercera condición es que la sumatoria de las probabilidades asociadas a cada uno de los valores que toma x debe de ser 1, esto se comprueba de la siguiente manera:
3.6 Distribución t
En el uso de la distribución z su uso era para muestras n 30 . En muestras pequeñas n 30 siempre y cuando la distribución de donde proviene la muestra tenga un comportamiento normal. Es una condición importante para utilizar las distribuciones t Student , x , F Fisher . 2
Donde se hará uso y manejo del concepto de grados de libertad, esto con base en la varianza muestral
x s
x
2
i
2
n 1
Supóngase que se toma una muestra de una población normal con media
y
varianza 2 . Si X es el promedio de las observaciones que contiene la muestra x aleatoria, entonces la distribución z es una distribución normal estándar.
n
Supóngase que la varianza de la población 2 es desconocida. Propiedades de las distribuciones t
1. Cada curva t tiene forma de campana con centro en 0. 2. Cada curva t , está más dispersa que la curva normal estándar z. 3. A medida que v aumenta, la dispersión de la curva t correspondiente disminuye. A medida que v , la secuencia de curvas t se aproxima a la curva normal estándar, por lo que la curva z recibe a veces el nombre de curva t con gl Def. normales con variables aleatorias independientes que son todas y desviación estándar . Entonces la variable aleatoria ⁄ tiene una
Sean media
distribución t con v n 1 grados de libertad.
√
La distribución t difiere de la de Z en que la varianza de t depende del tamaño de la muestra y siempre es mayor a uno. Únicamente cuando el tamaño de la muestra tiende a infinito las dos distribuciones serán las mismas. Problema
El valor de t con 10 gl y un área de 0.025 a la derecha es:
Problema
El valor de t con 14 gl tiene un área de 0.025 a la izquierda y por lo tanto un área de 0.0975 a la derecha es, 1 0.975
Problema
Encontrar
Problema
Encontrar
Problema
Un fabricante de focos afirma que us producto durará un promedio de 500 horas de trabajo. Para conservar este promedio esta persona verifica 25 focos cada mes. Si el valor y calculado cae entre –t 0.05 y t 0.05, él se encuentra satisfecho con esta afirmación. ¿Qué conclusión deberá él sacar de una muestra de 25 focos cuya duración fue?:
“Grados de libertad”
Esté se define como el número de valores que podemos elegir libremente, ósea, el número de observaciones menos uno
3.7 Distribución Chi-cuadrada
En realidad la distribución ji-cuadrada es la distribución muestral de S 2 . O sea que si se extraen todas las muestras posibles de una población normal y a cada muestra se le calcula su varianza, se obtendrá la distribución muestral de varianzas. Definición
Si X y S 2 son la media y la varianza de una muestra aleatoria de tamaño n de una población normal con la media y la desviación estándar , entonces
X y S 2 son independientes
La variable aleatoria de libertad.
n 1 S 2 2
tiene la distribución ji-cuadrada con n-1 grados
El estadístico ji-cuadrada esta dado por: P x x 2
2
, v
donde
X 2
n 1S 2 2
donde n es el tamaño de la muestra, s 2 la varianza muestral y 2 la varianza de la población de donde se extrajo la muestra. El estadístico ji-cuadrada también se puede n
x dar con la siguiente expresión: X
x
2
i
i 1
2
Propiedades de las distribuciones ji-cuadrada
1. Los valores de X 2 son mayores o iguales que 0. 2. La forma de una distribución X 2 depende del gl n 1 . En consecuencia, hay un número infinito de distribuciones X 2 . 3. El área bajo una curva ji-cuadrada y sobre el eje horizontal es 1. 4. Las distribuciones X 2 no son simétricas. Tienen colas estrechas que se extienden a la derecha; esto es, están sesgadas a la derecha. 5. Cuando n 2 , la media de una distribución X 2 es n-1 y la varianza es 2 (n-1). 6. El valor modal de una distribución X 2 se da en el valor (n-3).
Para denotar el valor crítico de una distribución X 2 con gl grados de libertad se usa el símbolo X 2 ,v ; este valor crítico determina a su derecha un área de bajo la curva X 2 y sobre el eje horizontal. Por ejemplo para encontrar X 2 0.05, 6 en la tabla se localiza 6 gl en el lado izquierdo y 0.05 a o largo del lado superior de la misma tabla.
Cálculo de Probabilidad El cálculo de probabilidad en una distribución muestral de varianzas nos sirve para saber como se va a comportar la varianza o desviación estándar en una muestra que proviene de una distribución normal. Problema
Suponga que los tiempos requeridos por un cierto autobús para alcanzar un de sus destinos en una ciudad grande forman una distribución normal con una desviación estándar 1 minuto. Si se elige al azar una muestra de 17 tiempos, encuentre la probabilidad de que la varianza muestral sea mayor que 2. Primero se encontrará el valor de ji-cuadrada correspondiente a s 2 2 como sigue:
El valor de 32 se busca adentro de la tabla en el renglón de 16 grados de libertad y se encuentra que a este valor le corresponde un área a la derecha de 0.01. En consecuencia, el valor de la probabilidad es Ps 2 2 .
Problema
Encuentre la probabilidad de que una muestra aleatoria de 25 observaciones, de una población normal con varianza 2 6 , tenga una varianza muestral: a. Mayor que 9.1 b. Entre 3.462 y 10.745 a. Primero se procederá a calcular el valor de la ji-cuadrada:
Al buscar este número en el renglón de 24 grados de libertad nos da un área a la derecha de 0.05. Por lo que la Ps 2 9.1 0.05 Se calcularán dos valores de ji-cuadrada: x 2
n 1 s 2
2
25 13.462 6
13 .847
y
x 2
25 110.745 6
42.98
Aquí se tienen que buscar los dos valores en el renglón de 24 grados de libertad. Al buscar el valor de 13.846 se encuentra un área a la derecha de 0.95. El valor de 42.98 da un área a la derecha de 0.01. Como se está pidiendo la probabilidad entre dos valores se resta el área de 0.95 menos 0.01 quedando 0.94. Por lo tanto la P3.462 s 2 10.745 0.94
Problema
Una compañía óptica compra cristales para fabricar lentes y experiencias anteriores han demostrado que la varianza del índice de refracción de esta clase de cristal es 4 1.26 10 . Para convertir el cristal en lentes de una longitud focal dada, es importante que las distintas piezas de cristal de esta clase se rechaza si la varianza muestral de 18 piezas seleccionadas al azar excede a 2 10 4 . Suponiendo, además, que los valores de las muestras se pueden tratar como si provinieran de una población normal. Problema
Encuentre la probabilidad de que una muestra aleatoria de 23 observaciones de una población normal con varianza igual a 2.4495, tenga una varianza s 2 9.1
3.8 Distribución F
3.9 Esperanza matemática.
Proyecto
1. Determine si las funciones x 2 f ( x) para x 1,2,3,4,5 , 5
f ( x) f ( x)
x 15
x
2
30
para x 1,2,3,4,5 , para x 0,1,2,3,4 ,
y
f ( x)
x 2 5
para x 0,1,2,3,4
pueden servir como una distribución de probabilidad. 2. Construya un histograma de probabilidad para la función 2 4 x x 3 , para f ( x) 6 3 encuentre la media y varianza para esta función.
3. Obtenga el valor esperado y la varianza de la VAD X que tiene la distribución x 2 para x 1,0,1,3 de probabilidad f ( x) 7
4 x 4. Dada la fórmula de distribución de probabilidad, f ( x) para x 0,1,2,3,4
Obtenga:
16
a. Construya el histograma correspondiente. b. La función de distribución. 5. Encuentre la media x y varianza x de la variable aleatoria discreta x . Una grabadora de cinta contiene seis transistores, de los cuales dos están defectuosos. Si se seleccionan al azar dos de estos transistores extraídos de la grabadora e inspeccionados y si x es el número de unidades defectuosas observadas, obtenga a) La distribución de probabilidad de x b) La función de distribución de x c) Trace un histograma de la distribución de probabilidad y una gráfica de la función de distribución. 6. Si en general fallece el 30 % de los pacientes que padecen cierta enfermedad ¿Cuál es la probabilidad de que en un grupo de 5 mueran exactamente 2?
7. Un ingeniero en seguridad de automóviles afirma que uno de 10 accidentes automovilísticos se debe a la fatiga del conductor. Utilizando la fórmula de la distribución binomial ¿Cuál es la probabilidad de que cuando menos de tres de cinco accidentes de automóvil se debe a la fatiga del conductor? 8. Un psicólogo asevera que sólo el 50% de todos los alumnos del último año de preparatoria, capaces de desempeñar trabajos a nivel universitario, asisten en realidad a la universidad. Suponiendo verdadera esta afirmación obtenga las probabilidades de: a) Exactamente 10 asistan a la universidad b) Cuando menos 15 vayan a la universidad c) Cuando mucho cuatro vayan a la universidad 9. Si el 2% de los libros encuadernados en cierto taller tiene encuadernación defectuosa, use la dist. de Poisson para determinar la probabilidad de que 5 de 400 libros encuadernados en este taller tendrán encuadernación defectuosa. 10. Si la probabilidad de que una persona sufra una reacción dañina al ingerir un determinado antibiótico es de 0.001. Calcula la prob. De que de un total de 3000 pacientes sufran el malestar. 11. La probabilidad de que una muestra de aire contenga una molécula rara es 0.01. Si se supone que las muestras son independientes con respecto a la presencia de la molécula rara, ¿Cuál es la probabilidad de que sea necesario analizar exactamente 125 muestras antes de detectar una molécula rara? 12. En la fabricación de las puertas de automóviles, se ha observado que la probabilidad de que una puerta resulte defectuosa es de 5%, ¿Cuál es la probabilidad de que un automóvil elegido al azar tenga a lo más tres puertas defectuosas? Se supone que el modelo del automóvil tiene 5 puertas. 13. El 30% de las piezas de televisión que fabrica una maquinaria recientemente reparada son defectuosas, calcula la probabilidad de que en 8 piezas elegidas al azar se obtenga: a) Una pieza defectuosa. b) Ninguna defectuosa. 14. Si la probabilidad es 0.75 de que el solicitante de una licencia de manejo pasará la prueba de manejo en un ensayo dado, ¿Cuál es la probabilidad de que un solicitante finalmente pase la prueba en el cuarto ensayo?
15. En una fábrica de ropa, el 10% de las prendas producidas resultan con algún defecto. Calcula la probabilidad en base a la distribución de Poisson de que en un lote de 9 prendas elegidas al azar salgan exactamente dos defectuosas. 16. Encuentre la probabilidad de que 7 de 10 personas se recuperaran de una enfermedad tropical si podemos suponer independencia y la probabilidad de que cualquiera de ellos se recuperara de la enfermedad es de 0.8. 17. El número de camiones que llegan en un día cualquiera en un depósito de camiones en cierta ciudad es según se sabe 12. ¿Cuál es la probabilidad de que en un día lleguen menos de 9 camiones a este depósito? 18. La probabilidad de que un trabajador técnico en computación tenga un sueldo mayor a 10000 pesos mensuales es de 0.001. Calcula la probabilidad en un total de 2000 técnicos que 4 personas reciban exactamente este sueldo. 19. Los registros muestran que la probabilidad es de 0.00005 de que un automóvil se le reviente un neumático mientras cruza cierto puente. Use la distribución de Poisson para aproximar las probabilidades binomiales que, de 10000 autos que cruzan este puente, c. Exactamente dos tendrán un neumático reventado d. Cuando mucho dos tendrán un neumático reventado 20. De una población normal con media 51.4 y desviación estándar 6.8 se toma una muestra al azar de tamaño 64. ¿Cuál es la probabilidad de que la media de la muestra: a) Exceda a 52.9 b) Este entre 50.5 y 52.3 c) Sea menor que 50.6 21. Se toma una muestra aleatoria de tamaño 100 de una población infinita con media 75 y varianza 256, ¿con que probabilidad podemos afirmar que el valor de caerá entre 67 y 83?
22. Una compañía fabrica resistores que tienen una resistencia promedio de y una desviación estándar de . La distribución de la resistencia es normal, encuéntrese la probabilidad de que al tomar una muestra de 30 resistores la resistencia promedio de estos será menor que .
23.
Se sabe que la resistencia a la ruptura de cierto tipo de cuerda se distribuye . Si se normalmente con media de 2000 libras y una varianza de selecciona una MA de 100 cuerdas, determine la probabilidad de que en esta muestra:
a) La resistencia media encontrada sea de por lo menos 1958 lbs. b) La resistencia media sea de 2080 lbs. 24. El precio medio de ventas de casa nuevas en una ciudad americana es de $115 000 con una desviación típica de $25 000. Se t oma una muestra aleatoria de 100 casas nuevas de esta ciudad. a. ¿Cuál es la probabilidad de que la media muestral de los precios de venta sea menor de $110 000? 25. Se toma una muestra aleatoria de tamaño 64 de una población normal con . ¿Cuál es la probabilidad de que la media de la muestra
a. Excederá 52.9 b. Caerá entre 50.5 y 52.3 c. Será menor que 50.6? 26. Encuentre la media y la varianza de la varianza de la población finita que consiste de los 10 números 15, 163, 18, 10, 6, 21, 7, 11, 20 y 9. 27. El tiempo que un cajero de un banco atiende a un cliente es una variable aleatoria con media 4.2 y una varianza de 2.56. Si se observa una MA de 74 clientes, encuentre la probabilidad de que el tiempo promedio de los mismos con el cajero sea a) Cuando mucho 3.7 min b) A lo menos 4.5 min c) Menos de 4.5 pero mas de 3.4 min 28. Los parvulitos de un jardín de niños tienen estaturas que están distribuidas de manera normal con respecto a una media de 39 pulgadas y una desviación estándar de 2 pulgadas. Se toma una muestra aleatoria de 30 y se calcula la media muestral . ¿Cuál es la probabilidad de que este valor medio esté entre 38.5 y 40 pulgadas?
29. Una compañía fabrica focos cuya duración es normalmente distribuida con una media igual a 800 hrs. y una desviación estándar de 40 hrs. Encuentre la probabilidad de que una muestra aleatoria de 40 focos se fundan entre 778 y 834 hrs. de uso. Encuentre la probabilidad de que una muestra aleatoria de 40 focos tenga una vida promedio de menos de 775 horas.
30. Una MA de tamaño 81 se toma de una población infinita con la media 128 y la desviación estándar 6.3, ¿con que probabilidad podemos afirmar que el valor que obtenemos para no caerá entre 126.6 y 129.4?
31. Una compañía óptica compra cristales para fabricar lentes y experiencias anteriores han demostrado que la varianza del índice de refracción de esta . Para convertir el cristal en lentes de una clase de cristal es longitud focal dada, es importante que las distintas piezas de cristal de esta clase se rechaza si la varianza muestral de 18 piezas seleccionadas al azar . Suponiendo, además, que los valores de las muestras se excede a pueden tratar como si provinieran de una población normal. 32. Una muestra aleatoria de tamaño 25 de una población normal que tiene la media y la desviación estándar . Si basamos nuestra decisión en la estadística del teorema visto ¿podemos decir que la afirmación dada sustenta la conjetura de que la media de la población es ?
33. Supongamos que el espesor de una parte usada en un semiconductor es su dimensión crítica y el proceso de fabricar estas partes se considera que esta bajo control si la varianza real entre espesor de las partes está dada por una desviación estándar no mayor que 0.60 milésimas de pulgada. Para mantener un control sobre el proceso, periódicamente se toman MA de tamaño 20 y se considera que esta bajo control si la probabilidad de asume un valor que, o igual, al observado de la MA es 0.01 (aun cuando ), ¿Qué se puede concluir sobre el proceso si la desviación estándar de una MA periódica tal es milésimas de pulgadas?
34. Encuentre la probabilidad de que una muestra aleatoria de 25 observaciones, de una población normal con varianza , tenga una varianza muestral:
Mayor que 9.1 Entre 3.462 y 10.745
35. Encuentre la probabilidad de que una muestra aleatoria de 23 observaciones de una población normal con varianza igual a 2.4495, tenga una varianza s 2 9.1 2 36. Encuentre los valores críticos de x que determinan un área de 0.05 en cada cola, si tiene una muestra de 11. 37. Un fabricante de baterías para automóvil garantiza que sus baterías durarán en promedio, 3 años, con una desviación estándar de 1 año. Si 5 de estas baterías tienen duraciones de 1.9, 2.4, 3.5, y 4.2 años.
¿Está el fabricante convencido aún de que sus baterías tienen una desviación estándar de 1 año? 2 38. Encuentre los valores críticos de x que determinan regiones críticas que contienen un área de 0.025 en cada cola. Suponga que el tamaño de la muestra es 10. 39. Una muestra aleatoria de tamaño 25 de una población normal que tiene la media x 47 y la desviación estándar s 7 . Si basamos nuestra decisión en
la estadística del teorema visto ¿podemos decir que la afirmación dada sustenta la conjetura de que la media de la población es 42 ? 40. Para una muestra de 17 y con 0.01encuentre el área a la derecha de 0.01 2 41. Dada una muestra de 30 encontrar la probabilidad de que x caiga entre 14.953 y 50.892. 42. Se toma una muestra de 27 observaciones de una población normal con varianza de 16.8, hallar la probabilidad aproximada de obtener una desviación estándar de la muestra entre 3 y 5.2. 43. Encuentre la probabilidad de t 0.025 t t 0.05 44. Encontrar Pt 2.365 cuando v 7 45. Encontrar Pt 1.318 cuando v 24 46. Encuentre k tal que Pk t 1.761 0.045 , para una muestra aleatoria de tamaño 15 que se selecciona de una distribución normal. 47. Un ingeniero químico afirma que el rendimiento medio de la población de cierto proceso en lotes es 500 gramos por milímetro de materia prima. Para verificar esta afirmación toma una muestra de 25 lotes cada mes. Si el valor de t calculado cae entre t0.05 y t0.05, queda satisfecho con su afirmación. ¿Qué conclusión extraería de una muestra que tiene una media de 518 gramos por milímetro y una desviación estándar de 40 gramos? Suponga que la distribución de rendimientos es aproximadamente aproximadamente normal. 48. Un fabricante de alambre de acero asegura que la fuerza media requerida para romper una clase de alambre dada es de 500 lbs. Para probar esto, se toma una muestra de 25 partes de este tipo de alambre y se somete a tracción, la media y desviación estándar de las fuerzas para romper estas muestras son 465 y s 55 lbs respectivamente, x 465 Suponiendo que los esfuerzos de rotura se puedan considerar como una MA de una población normal con 500 49. Un fabricante de focos afirma que su producto durará un promedio de 500 hrs. de trabajo. Para conservar este promedio esta persona verifica 25 focos cada mes. Si el valor de t calculado cae entre t 0.05 y t 0.05 , el se encuentra satisfecho con esta afirmación. ¿Qué conclusión deberá el sacar de una
muestra que tiene una media x 518 hrs y una desviación estándar de 40 hrs. Asuma que la distribución de los tiempos de vida es aproximadamente normal. normal. 50. Una MA de tamaño 16 proveniente de una población normal tiene una media de 48 y desviación estándar de 5.2. Basándose en la decisión del estadístico t, decir si es razonable indicar que esta información justifica la afirmación de que la media de la población es como mínimo 52.
1. Sea X una variable aleatoria continua que tiene la siguiente función de densidad: 3 x 2 para 0 x 2 c f x 8 0 dof El valor de c para que f(x) sea una función de densidad. Calcular: P(1 x 1.5) Calcular: P(x > 1). 2. Sea X una variable aleatoria continua que mide el avance entre dos automóviles consecutivos elegidos al azar en segundos, su función de distribución del tiempo de avance presenta la forma: k para 0 x 2 f x x 4 0 para x 1 Determinar el valor de k para que f(x) sea una función de densidad legítima. l egítima. Obtener la función de distribución acumulada. Calcular: P(X > 2) y P(2 <. X <. 3) . Obtener el valor medio y la desviación estándar del avance. 3. Determinar el valor valor de la constante constante c tal que f(x) defina defina una función densidad en el intervalo dado y determinar la regla de correspondencia de la función de distribución acumulada correspondiente. correspondiente. a.
,
b.
,
4. Determine y 2 para una variable aleatoria continua que tiene la densidad de probabilidad; x para 0 x 2 f x 2 0 dof 5. Demuestre que f x e x para 0 x Representa una función de densidad de probabilidad Bosqueje una gráfica de esta función e indique el área asociada con la probabilidad que x 1 Calcule la probabilidad de que x 1 6. Para la siguiente función, 1 2 x para 0 x 3 f x 9 0 dof
Diga si esta función nos define una distribución de probabilidad.
Si la función define una distribución de probabilidad, entonces, determine su media y desviación estándar. Determine la probabilidad de que 2 x 3 .
7. Suponga que que el error error en la temperatura de reacción, reacción, en oC, para un experimento controlado de laboratorio es una variable aleatoria continua x, que tiene la función de densidad de probabilidad: x 3 para 1 x 2 f x 3 0 dof
Verifique si esta función nos define una distribución de probabilidad. Determine la media o valor esperado de la distribución de probabilidad. Encuentre la probabilidad de que 0 x 1 .
8. El salario medio de los empleados de una empresa empresa se distribuye según una una distribución normal, con media 5 millones de ptas. y desviación típica 1 millón de ptas. Calcular el porcentaje de empleados con un sueldo inferior a 7 millones de ptas. 9. La renta media media de los habitantes habitantes de un país es de de 4 millones de ptas/año, con una varianza de 1,5. Se supone que se distribuye según una distribución normal. Calcular: a) Porcentaje de la población con una renta inferior a 3 millones de ptas. b) Renta a partir de la cual se sitúa el 10% de la población con mayores ingresos. c) Ingresos mínimo y máximo que engloba al 60% de la población con renta media. 10. La vida media de los habitantes de un país es de 68 años, con una varianza de 25. Se hace un estudio en una pequeña ciudad de 10.000 habitantes: a) ¿Cuántas personas superarán previsiblemente los 75 años? b) ¿Cuántos vivirán menos de 60 años? 11. El consumo medio anual de cerveza de los habitantes de un país es de 59 litros, con una varianza de 36. Se supone que se distribuye según una distribución normal. a) Si usted presume de buen bebedor, ¿cuántos litros de cerveza tendría que beber al año para pertenecer al 5% de la población que más bebe? b) Si usted bebe 45 litros de cerveza al año y su mujer le califica de borracho ¿qué podría argumentar en su defensa?
12. Si Z es una VA con una distribución normal estándar, determine las probabilidades de que esta variable tenga un valor. a) Mayor que 1.14 b) Menor que -0.36 c) Entre -0.46 y -0.09 d) Entre -0.58 y 1.12 e) Entre 0 y 1.28 f) Entre -3.20 y 0 g) A la izquierda de -1.35 h) El área área entre entre -1.5 y 2.1 i) Entre 0.7 y 2.1 13. En un proceso fotográfico, el tiempo de revelado de impresiones se puede considerar como una VA que tiene distribución normal con media 15.40 seg. y Desviación estándar de 0.48 seg. Encuentre las probabilidades de que el tiempo que toma revelar una de las impresiones será a) Al menos 16 seg b) Cuando mucho 14.20 seg c) Cualquier valor valor entre entre 15 y 15.80 15.80 seg seg 14. Supongamos que la cantidad de café instantáneo que una máquina sirve en un frasco de 6 onzas es una VA que tiene distribución normal con desviación estándar 0. 05 onzas. Si sòlo el 3% de los frascos deben contener menos de 6 onzas de café, ¿Cuál debe ser la media del llenado de estos frascos.? 1. El espacio espacio muestral S de la población población de adultos en un pequeño pequeño pueblo pueblo que han satisfecho los requisitos para graduarse en la escuela. Se deben clasificar de acuerdo con el sexo y si trabajan o no actualmente. Empleado Hombre 460 Mujer 140 Total 600
Desempleado 40 260 300 300
Total 500 400 900
Basados en el espacio muestral anterior definir: a. b. c. d.
La probabilidad probabilidad de que sea empleado La probabilidad probabilidad de que sea empleado La probabilidad de que sea hombre y al mismo tiempo sea desempleado Encuentre la probabilidad probabilidad de que se escoge escoge un hombre dado que el elegido tiene empleo
2. Lanzamos un dado. dado. Decir los sucesos sucesos contrarios contrarios de: a. A sacar puntuación puntuació n par b. B sacar menos o igual que tres c. C sacar numero primo)
3. Supóngase que se tiene una caja de fusible que contienen 20 piezas, de las cuales 5 están defectuosas. Si se seleccionan 2 al azar y se sacan de la caja en sucesión sin reemplazo del primero, ¿Cuál es la probabilidad de que ambos fusibles resulten defectuosos? 4. Si se lanza una moneda tres veces y se supone que los resultados posibles son igualmente probables. Si A es el evento de que una cara ocurra en cada uno de los dos primeros lanzamientos, B es el evento que una cruz ocurra en el tercer lanzamiento y C es el evento que exactamente dos cruces ocurren en los tres lanzamientos, demuestre que; a. Los eventos A y B son independientes b. Los eventos B y C son dependientes 5. La siguiente figura es un diagrama de Venn, con probabilidades asignadas a sus diversas regiones. Verifique que A y B son independientes, que B y C son independientes pero que A, B, y C no son independientes. 6. Hay 90 aspirantes para un trabajo en el departamento de noticias de una estación de tv. Algunos son egresados de la universidad y algunos no, algunos de ellos tienen al menos tres años de experiencia y algunos no la tienen, el análisis exacto es; Egresados No egresados Al menos tres años de experiencia 18 9 Menos de tres años de experiencia 36 27 El orden en que el gerente de la estación entrevista a los aspirantes es aleatorio, G es el evento que el primer aspirante entrevistado sea un egresado de la universidad y T es el evento de que el primer aspirante entrevistado tenga al menos años de experiencia, determine cada una de las siguientes probabilidades. a. PG
b. PT / G
c. PG / T
7. Experimento aleatorio: se observa la escolaridad de las personas de 20 a 60 años de edad de una comunidad. Consideremos los siguientes sucesos. I. Una persona tiene menos de 40 años J. La persona es ingeniero K. La persona es analfabeta L. La persona tiene 40 años o más ¿Son los sucesos mutuamente excluyentes o no?
A C ; B D; B C ;
A D
8. En un grupo de 200 estudiantes (80 mujeres y 60 hombres), 140 en total son alumnos de tiempo completo y otro de 60, (40 son mujeres y 20 hombres) son de tiempo parcial. Experimento: un estudiante es seleccionado al azar, para esto se definen tres sucesos. D. Estudiante seleccionado de tiempo completo E. Estudiante seleccionado de tiempo parcial F. Estudiante seleccionado sea hombre c) Defina si los sucesos A y B son mutuamente excluyentes o no. d) Defina si los sucesos A y C son mutuamente excluyentes o no. e) Defina si los sucesos B y C son mutuamente excluyentes o no 9. Se analiza en un momento dedo el estado de salud de los habitantes de la ciudad. Consideremos los casos siguientes: A: La persona es diabética B: La persona está sana C: La persona tiene un problema de salud permanente, tiene una enfermedad crónica. D: La persona tiene gripa E: La persona es hipertensa e) f) g) h)
¿Los sucesos A y B son mutuamente excluyentes o no? ¿Si C E son mutuamente excluyentes o no? ¿Qué sucede con los sucesos B y C? ¿Cómo son los sucesos C y D?
10. Una organización de los consumidores ha estudiado los servicios con garantía proporcionados por las 50 agencias de automóviles nuevos en una cierta ciudad en la tabla siguiente se resumen sus hallazgos. Buen servicio de Mal servicio de garantía garantía En operación por 10 años o más En operación Menos de 10
16
4
20
años
10
20
30
Total
26
24
50
e) Si una persona selecciona aleatoriamente una de estas agencias de automóviles nuevos, ¿Cuál es la probabilidad de que seleccione una que proporciona buen servicio de garantía? f) Si una persona selecciona una de las agencias que han operado 10 años o más, ¿Cuál es la probabilidad de que seleccione una agencia que proporcione buen servicio de garantía? G: Denota la selección de la agencia que proporciona buen servicio de garantía. S: Denota el número de elementos en el espacio muestral completo. 11. Una urna contiene 75 bolas blancas marcadas, 25 bolas sin marcar, 175 bolas negras marcadas y 125 bolas negras sin marcar. c) Se saca una bola al azar. Calcular la probabilidad que sea blanca. d) Se extrae una bola y está marcada. Calcular la probabilidad que sea blanca. 12. En un grupo de 200 estudiantes universitarios 138 están inscritos en un curso de Ingles 115 en uno de mecánica y 91 en ambos, ¿Cuántos de estos estudiantes no están inscritos en uno u otro curso? Trace un diagrama de Venn apropiado y anote los números asociados con las diversas regiones. 13. Un taller sabe que por término medio acuden, por la mañana 3 automóviles con problemas eléctricos, 8 con problemas mecánicos y 3 con problemas de chapas y por la tarde 2 con problemas eléctricos, 3 con problemas mecánicos y 1 con problemas de chapa. Eléctricos Mañana 3 Tarde 2 Total 5
Mecánicos 8 3 11
Chapa 3 1 4
Total 14 6 20
Calcular, P(A), P(B), P(C) , así como la probabilidad de que acuda por la mañana dado que tiene problemas eléctricos 14. En una caja hay 100 canicas azules y 300 rojas. ¿Cuál es la probabilidad de sacar al azar una canica azul? Exprese el resultado en tanto por ciento. 15. En la oficina del subdirector de la escuela hay 12 calculadoras, algunas son manuales (M), otras eléctricas (E); además algunas de ellas son nuevas (N) y otras usadas (U), como se expresa en el cuadro siguiente:
M E N 2
3 5
U 2
5 7
4
8
12
c) Una persona entra a la oficina y escoge aleatoriamente una calculadora y observa que es manual. ¿Cuál es la probabilidad de que sea nueva? d) Si la persona escoge una al azar una eléctrica, ¿Cuál es la probabilidad de que sea usada?
16. Empleando diagramas de Venn y con la definición de conjuntos encontrar el conjunto solución para cada uno de los casos que se dan a continuación. U 1, 2, 3, 4, 5, 6, 7, A 1, 2, 3, 4, 5, B 1, 3, 5, 7, c 2, 5, 6, 7. a) B A b) C B
c) B C d ) B A e) A
c
17. Una orquesta de 30 músicos deciden formar dos grupos musicales, uno de clásica y otro de música de salón, el primero con 12 personas y el segundo con 16; si tres de los músicos pertenecen a los dos grupos ¿Cuántos miembros de la orquesta original decidieron no pertenecer a ningún grupo? 18. De un lote de 15 camisas, 4 son defectuosas, si se toman al azar 3 artículos del lote, uno tras otro; calcular la probabilidad de que los tres se encuentren en buen estado. 19. En una escuela de enseñanza media superior, el 20% de los alumnos reprobaron matemáticas, el 25% física y el 5% ambas materias. Si se selecciona un alumno al azar: d) Si reprobó física. ¿Cuál es la probabilidad que haya reprobado matemáticas? e) Si reprobó matemáticas. ¿Cuáles la probabilidad de que haya reprobado física? f) ¿Cuál es la probabilidad de que haya reprobado física o matemáticas? 20. En una escuela de enseñanza media superior de la población de alumnos el 40% mide más de 1.50 m, el 25% pesa más de 52 kilos y el 15% mide más de 1.50 m y más de 52 kilos. Si se escoge al azar un alumno: b) Si mide más de 1.50 m, calcular la probabilidad de que también pese más de 52 kg.
21. En una zona de una ciudad grande, las probabilidades son 0.86, 0.35, y 0.29 de que una familia tenga un aparato de tv a color, un aparato de tv en blanco y negro, o ambas clases de aparatos respectivamente. ¿Cuál es la probabilidad de que una familia posea cualquiera de los dos o ambas clases? 22. Cerca de cierta salida de la carretera, las probabilidades son 0.23 y 0.24, de que un camión parado en un retén tendrá frenos defectuosos o neumáticos muy gastados. También, la probabilidad es 0.38 de que un camión parado en un retén tendrá frenos defectuosos y neumáticos muy gastados. ¿Cuál es la probabilidad de que un camión parado en este retén tendrá los frenos defectuosos así como los neumáticos muy gastados?
1. El tiempo que un cajero de un banco atiende a un cliente es una variable aleatoria con media 4.2 y una varianza de 2.56. Si se observa una MA de 74 clientes, encuentre la probabilidad de que el tiempo promedio de los mismos con el cajero sea d) Cuando mucho 3.7 min e) A lo menos 4.5 min f) Menos de 4.5 pero más de 3.4 min
2. Los parvulitos de un jardín de niños tienen estaturas que están distribuidas de manera normal con respecto a una media de 39 pulgadas y una desviación estándar de 2 pulgadas. Se toma una muestra aleatoria de 30 y se calcula la media muestral x . ¿Cuál es la probabilidad de que este valor medio esté entre 38.5 y 40 pulgadas? 3. Una compañía fabrica focos cuya duración es normalmente distribuida con una media igual a 800 hrs. y una desviación estándar de 40 hrs. Encuentre la probabilidad de que una muestra aleatoria de 40 focos se fundan entre 778 y 834 hrs. de uso. 4. Una MA de tamaño 81 se toma de una población infinita con la media 128 y la desviación estándar 6.3, ¿con que probabilidad podemos afirmar que el valor que obtenemos para x no caerá entre 126.6 y 129.4? 5. Una compañía óptica compra cristales para fabricar lentes y experiencias anteriores han demostrado que la varianza del índice de refracción de esta clase de cristal es 1.26 10 4 . Para convertir el cristal en lentes de una longitud focal dada, es importante que las distintas piezas de cristal de esta clase se rechaza si la varianza muestral de 18 piezas seleccionadas al azar excede a 4 2 10 . Suponiendo, además, que los valores de las muestras se pueden tratar como si provinieran de una población normal. 6. Una muestra aleatoria de tamaño 25 de una población normal que tiene la media x 47 y la desviación estándar s 7 . Si basamos nuestra decisión en la estadística del teorema visto ¿podemos decir que la afirmación dada sustenta la conjetura de que la media de la población es 42 ?
7. Supongamos que el espesor de una parte usada en un semiconductor es su dimensión crítica y el proceso de fabricar estas partes se considera que esta bajo control si la varianza real entre espesor de las partes esta dada por una desviación estándar no mayor que 0.60 milésimas de pulgada. Para mantener un control sobre el proceso, periódicamente se toman MA de tamaño 20 y se considera que esta bajo control si la probabilidad de s 2 asume un valor que, o igual, al observado de la MA es 0.01 (aún cuando 0.60 ), ¿Qué se puede concluir sobre el proceso si la desviación estándar de una MA periódica tal es s 0.84 milésimas de pulgadas? 8. Un fabricante de baterías para automóvil garantiza que sus baterías durarán en promedio, 3 años, con una desviación estándar de 1 año. Si 5 de estas baterías tienen duraciones de 1.9, 2.4, 3.5, y 4.2 años. ¿Está el fabricante convencido aún de que sus baterías tienen una desviación estándar de 1 año? 9. Encuentre los valores críticos de x 2 que determinan regiones críticas que contienen un área de 0.025 en cada cola. Suponga que el tamaño de la muestra es 10. 10. Una muestra aleatoria de tamaño 25 de una población normal que tiene la media x 47 y la desviación estándar s 7 . Si basamos nuestra decisión en la estadística del teorema visto ¿podemos decir que la afirmación dada sustenta la conjetura de que la media de la población es 42 ? 11. Dada una muestra de 30 encontrar la probabilidad de que x 2 caiga entre 14.953 y 50.892. 12. Se toma una muestra de 27 observaciones de una población normal con varianza de 16.8, hallar la probabilidad aproximada de obtener una desviación estándar de la muestra entre 3 y 5.2. 13. Encontrar Pt 2.365 cuando v 7 14. Encontrar Pt 1.318 cuando v 24 15. Un fabricante de alambre de acero asegura que la fuerza media requerida para romper una clase de alambre dada es de 500 lbs. Para probar esto, se toma una muestra de 25 partes de este tipo de alambre y se somete a tracción, la media y desviación estándar de las fuerzas para romper estas muestras son respectivamente, x 465 y s 55 lbs Suponiendo que los esfuerzos de rotura se puedan considerar como una MA de una población normal con 500 16. Un fabricante de focos afirma que su producto durará un promedio de 500 hrs. de trabajo. Para conservar este promedio esta persona verifica 25 focos cada mes. Si el valor de t calculado cae entre t 0.05 y t 0.05 , el se encuentra satisfecho con esta afirmación. ¿Qué conclusión deberá el sacar de una muestra que tiene una media x 518 hrs y una desviación estándar de 40 hrs. Asuma que la distribución de los tiempos de vida es aproximadamente normal. 17. Una MA de tamaño 16 proveniente de una población normal tiene una media de 48 y desviación estándar de 5.2. Basándose en la decisión del estadístico t,
decir si es razonable indicar que esta información justifica la afirmación de que la media de la población es como mínimo 52.
Unidad IV 4.1 Inferencia estadística
La estadística inferencial se define como la rama de la estadística que proporciona técnicas o procedimientos para analizar, interpretar y tomar decisiones sobre una población, con base en la información que se obtiene de una muestra. Esta generalización de tipo inductivo, se basa en la probabilidad. También se le llama estadística matemática, por su complejidad matemática en relación a la estadística descriptiva. Tiene como objetivo generalizar las propiedades de la población bajo estudio, basado en los resultados de una muestra representativa de la población. El estudio de una población tomando como base las muestras se llama estadística inferencial o inductiva, “Teoría de muestras”.
La Inferencia estadística persigue la obtención de conclusiones sobre la población mediante los datos obtenidos de una muestra, e incluye;
Teoría de la muestra Estimación de parámetros
4.2 Muestreo estadístico
Uno de los propósitos de la estadística inferencial es estimar las características poblacionales desconocidas, examinando la información obtenida de una muestra, de una población. El punto de interés es la muestra, la cual debe ser representativa de la población objeto de estudio. Se seguirán ciertos procedimientos de selección para asegurar de que las muestras reflejen observaciones a la población de la que proceden, ya que solo se pueden hacer observaciones probabilísticas sobre una población cuando se usan muestras representativas de la misma. El tamaño de la muestra debe calcularse utilizando técnicas estadísticas. La selección de la muestra debe hacerse en forma aleatoria. La estimación de las características de la población debe hacerse de acuerdo a las leyes de la estadística. Una aplicación de muestreo que no cumpla con alguno de estos tres requisitos se considera muestreo no estadístico. El muestreo estadístico posee algunas ventajas con respecto al muestreo no estadístico, entre ellas las siguientes:
Permite seleccionar de antemano el nivel de confianza de la prueba, es decir la probabilidad de que las conclusiones obtenidas del muestreo sean correctas. La selección aleatoria impide que los prejuicios o preferencias del auditor favorezcan la selección de algunos elementos de la población en desmedro de otros. Permite limitar el tamaño de la muestra al mínimo necesario, evitando realizar pruebas de auditoría sobre una cantidad mayor de elementos.
Los resultados de la prueba se expresan matemáticamente en términos precisos, permitiendo elaborar recomendaciones sobre una base más objetiva. Permite hacer más defendibles las conclusiones de la prueba.
Una población está formada por la totalidad de las observaciones en las cuales se tiene una cierta observación. Una muestra es un subconjunto de observaciones seleccionadas de una población. Muestras Aleatorias
Cuando nos interesa estudiar las características de poblaciones grandes, se utilizan muestras por muchas razones; una enumeración completa de la población, llamada censo, puede ser económicamente imposible, o no se cuenta con el tiempo suficiente. A continuación se verá algunos usos del muestreo en diversos campos: 1. Política . Las muestras de las opiniones de los votantes se usan para que los candidatos midan la opinión pública y el apoyo en las elecciones. 2. Educación . Las muestras de las calificaciones de los exámenes de estudiantes se usan para determinar la eficiencia de una técnica o programa de enseñanza. 3. Industria . Muestras de los productos de una línea de ensamble sirve para controlar la calidad. 4. Medicina . Muestras de medidas de azúcar en la sangre de pacientes diabéticos prueban la eficacia de una técnica o de un fármaco nuevo. 5. Agricultura . Las muestras del maíz cosechado en una parcela proyectan en la producción los efectos de un fertilizante nuevo. 6. Gobierno . Una muestra de opiniones de los votantes se usaría para determinar los criterios del público sobre cuestiones relacionadas con el bienestar y la seguridad nacional. Errores en el Muestreo
Cuando se utilizan valores muestrales, o estadísticos para estimar valores poblacionales, o parámetros , pueden ocurrir dos tipos generales de errores: el error muestral y el error no muestral. El error muestral se refiere a la variación natural existente entre muestras tomadas de la misma población. Cuando una muestra no es una copia exacta de la población; aún si se ha tenido gran cuidado para asegurar que dos muestras del mismo tamaño sean representativas de una cierta población, no esperaríamos que las dos sean idénticas en todos sus detalles. El error muestral es un concepto importante que ayudará a entender mejor la naturaleza de la estadística inferencial. Los errores que surgen al tomar las muestras no pueden clasificarse como errores muestrales y se denominan errores no muestrales . El sesgo de las muestras es un tipo de error no muestral. El sesgo muestral se refiere a una tendencia sistemática inherente a un método de muestreo que da estimaciones de un parámetro que son, en promedio, menores (sesgo negativo), o mayores (sesgo positivo) que el parámetro real.
El sesgo muestral puede suprimirse, o minimizarse, usando la aleatorización. La aleatorización se refiere a cualquier proceso de selección de una muestra de la población en el que la selección es imparcial o no está sesgada; una muestra elegida con procedimientos aleatorios se llama muestra aleatoria . Los tipos más comunes de técnicas de muestreo aleatorios son el muestreo aleatorio simple, el muestreo estratificado, el muestreo por conglomerados y el muestreo sistemático.
Muestreo Aleatorio Simple
Si una muestra aleatoria se elige de tal forma que todos los elementos de la población tengan la misma probabilidad de ser seleccionados, la llamamos muestra aleatoria simple. El objetivo principal de un diseño muestral es hacer uso eficiente del presupuesto asignado para un estudio obteniendo un estimativo tan preciso como sea posible de una cantidad de la población. El muestreo aleatorio simple es la técnica de muestreo más básica que no sólo asegura una muestra representativa sino que también produce una estimación de la cantidad de una población y una especificación de la precisión. Muchas ramificaciones han evolucionado a partir de este concepto central del muestreo aleatorio simple que permite alcanzar inferencias más precisas para diferentes tipos de poblaciones. Ejemplo 1.1 Suponga que nos interesa elegir una muestra aleatoria de 5 estudiantes en un grupo de estadística de 20 alumnos. 20C5 da el número total de formas de elegir una muestra no ordenada y este resultado es 15,504 maneras diferentes de tomar la muestra. Si listamos las 15,504 en trozos separados de papel, una tarea tremenda, luego los colocamos en un recipiente y después los revolvemos, entonces podremos tener una muestra aleatoria de 5 si seleccionamos un trozo de papel con cinco nombres. Un procedimiento más simple para elegir una muestra aleatoria sería escribir cada uno de los 20 nombres en pedazos separados de papel, colocarlos en un recipiente, revolverlos y después extraer cinco papeles al mismo tiempo. Otro método parea obtener una muestra aleatoria de 5 estudiantes en un grupo de 20 utiliza una tabla de números aleatorios. Se puede construir la tabla usando una calculadora o una computadora. También se puede prescindir de estas y hacer la tabla escribiendo diez dígitos del 0 al 9 en tiras de papel, las colocamos en un recipiente y los revolvemos, de ahí, la primera tira seleccionada determina el primer número de la tabla, se regresa al recipiente y después de revolver otra vez se selecciona la seguida tira que determina el segundo número de la tabla; el proceso continúa hasta obtener una tabla de dígitos aleatorios con tantos números como se desee. Muestreo Simple
Hay muchas situaciones en las cuales el muestreo aleatorio simple es poco práctico, imposible o no deseado; aunque sería deseable usar muestras aleatorias simples para las encuestas nacionales de opinión sobre productos o sobre elecciones presidenciales, sería muy costoso o tardado.
Error Muestral
Cualquier medida conlleva algún error. Si se usa la media para medir, estimar, la media poblacional , entonces la media muestral, como medida, conlleva algún error. Por ejemplo, supongamos que se ha obtenido una muestra aleatoria de tamaño 25 de una población con media : si la media de la muestra es , entonces a la diferencia observada se le denomina el error muestral . Una media muestral puede pensarse como la suma de dos cantidades, la media poblacional y el error muestral; si e denota el error muestral, entonces:
Ejemplo 1.5 Se toman muestras de tamaño 2 de una población consistente en tres valores, 2, 4 y 6, para simular una población "grande" de manera que el muestreo pueda realizarse un gran número de veces, supondremos que éste se hace con remplazo, es decir, el número elegido se remplaza antes de seleccionar el siguiente, además, se seleccionan muestras ordenadas. En una muestra ordenada, el orden en que se seleccionan las observaciones es importante, por tanto, la muestra ordenada (2,4) es distinta de la muestra ordenada (4,2). En la muestra (4,2), se seleccionó primero 4 y después 2. La siguiente tabla contiene una lista de todas las muestras ordenadas de tamaño 2 que es posible seleccionar con remplazo y también contiene las medias muestrales y los correspondientes errores muestrales. La media poblacional es igual a = (2+4+6)/3 = 4. Ver la tabla en la siguiente página. 4.3 Estimadores
El objetivo principal de la estadística inferencial es la estimación, esto es que mediante el estudio de una muestra de una población se quiere generalizar las conclusiones al total de la misma. En los problemas de estimación debemos determinar el valor de un parámetro de un continuo posible de alternativas. Los estadísticos varían mucho dentro de sus distribuciones muestrales, y mientras menor sea el error estándar de un estadístico, más cercanos serán unos de otros sus valores. 4.4 Estimación puntual
Una estimación es puntual cuando se usa un solo valor extraído de la muestra para estimar el parámetro desconocido de la población. Al valor usado se le llama estimador.
La media de la población se puede estimar puntualmente mediante la media de la muestra:
La proporción de la población se puede estimar puntualmente mediante la proporción de la muestra:
̂
La desviación estándar (típica) de la población se puede estimar puntualmente mediante la desviación típica de la muestra, aunque hay mejores estimadores:
Todo nuestro estudio se basa en la normalidad de las distribuciones que empleamos. 4.5 Estimación por intervalo
En inferencia estadística se llama estimación al conjunto de técnicas que permiten dar un valor aproximado de un parámetro de una población a partir de los datos proporcionados por una muestra. Por ejemplo, una estimación de la media de una determinada característica de una población de tamaño N podría ser la media de esa misma característica para una muestra de tamaño n. La estimación se divide en tres grandes bloques, cada uno de los cuales tiene distintos métodos que se usan en función de las características y propósitos del estudio:
Estimación puntual: Método de los momentos; Método de la máxima verosimilitud; Método de los mínimos cuadrados; Estimación por intervalos. o o o
Intervalo de confianza
En estadística, se llama intervalo de confianza a un par de números entre los cuales se estima que estará cierto valor desconocido con una determinada probabilidad de acierto. Formalmente, estos números determinan un intervalo, que se calcula a partir de datos de una muestra, y el valor desconocido es un parámetro poblacional. La probabilidad de éxito en la estimación se representa con 1 - α y se denomina nivel de confianza . En estas circunstancias, α es el llamado error aleatorio o nivel de significación , esto es, una medida de las posibilidades de fallar en la estimación mediante tal intervalo. El nivel de confianza y la amplitud del intervalo varían conjuntamente, de forma que un intervalo más amplio tendrá más posibilidades de acierto (mayor nivel de confianza), mientras que para un intervalo más pequeño, que ofrece una estimación más precisa, aumentan sus posibilidades de error. Estimación para la Media (Normal)
Sabemos que en base a la distribución muestral de medias que se generó en el tema anterior, la formula para el cálculo de probabilidad es la siguiente . Como en
⁄√
este caso no conocemos el parámetro y lo queremos estimar por medio de la media de la muestra, sólo se despejará de la formula anterior, quedando de la siguiente manera.
⁄ √ ⁄ √ De esta formula se puede observar que tanto el tamaño de la muestra como el valor de z se conocerán. Z se puede obtener de la tabla de la distribución normal a partir del nivel de confianza establecido. Pero en ocasiones se desconoce por lo que en esos casos lo correcto es utilizar otra distribución llamada "t" de student si la población de donde provienen los datos es normal.
Estimación t-Student Definición
Si es el valor de la media de una muestra aleatoria de tamaño n de una población normal con la varianza conocida , entonces
⁄ √ ⁄ √ Es un intervalo de confianza de
para la media de la población.
Problema
1. Se encuentra que la concentración promedio de zinc que se saca del agua a partir de una muestra de mediciones de zinc en 36 sitios diferentes es de 2.6 gramos por mililitro. Encuentre los intervalos de confianza de 95% y 99% para la concentración media de zinc en el río. Suponga que la desviación estándar de la población es 0.3. Solución:
. El valor de z para un nivel de confianza
La estimación puntual de es del 95% es 1.96, por lo tanto:
√ √
Para un nivel de confianza de 99% el valor de z es de 2.575 por lo que el intervalo será más amplio:
√ √
El intervalo de confianza proporciona una estimación de la precisión de nuestra estimación puntual. Si es realmente el valor central de intervalo, entonces estima sin error. La mayor parte de las veces, sin embargo, no será exactamente igual a y la estimación puntual es errónea. La magnitud de este error será el valor absoluto de la diferencia entre y , y podemos tener el nivel de confianza de que esta diferencia no excederá √ .
Como se puede observar en los resultados del ejercicio se tiene un error de estimación mayor cuando el nivel de confianza es del 99% y más pequeño cuando se reduce a un nivel de confianza del 95%.
Definición
Si y son los valores de la media y la desviación estándar de una muestra aleatoria de tamaño de una población normal, entonces
x t a / 2,n1
Es un intervalo con
s n
x t a / 2,n1
s n
de confianza para la media de la población.
Se realizo un estudio sobre la utilización del agua en una pequeña ciudad. Para ello se considero una muestra de 25 casa. El número de galones de agua que utilizan por día (1 galón ≡ 0.0037854 m3) fue el siguiente:
Con base en esta información: a) Hallar un intervalo de confianza del 90%
⁄ x t a / 2,n 1
s n
x t a / 2,n1
s n
√ √ Problema
A partir de 860 cuentas, un analista financiero toma una muestra aleatoria de 16 cuentas. Los saldos observados en la muestra son los siguientes: 165, 150, 300, 240, 250, 150, 300, 200, 140, 240, 260, 180, 190, 230, 350,360. Determinar un intervalo de confianza del 90% para estimar el saldo medio de todas las cuentas.
⁄ √ √ Ejercicio
Se selecciono una muestra aleatoria de 25 cuentas por cobrar de un registro que contenía 96 cuentas. La muestra dio una media de x = 2435colones y una desviación típica de S = 335 colones. Obténgase un intervalo de confianza del 99% para estimar la media de las 96 cuentas del registro. Ejercicio
El auditor de una empresa al examinar los registros de facturación mensual, mediante el análisis de una muestra aleatoria irrestricta de 10 f acturas no pagadas encontró que la media aritmética fue de x = $9500 con una desviación típica de s = $327. Construir un intervalo de confianza del 95%para estimar el parámetro poblacional. Ejercicio
Una muestra aleatoria del proceso de producción de 17 bombillos, dio una media de x = 128 horas, con una desviación típica s = 15 horas. Construir un intervalo de confianza del 99% para estimar el promedio de vida útil de todos los bombillos del proceso.
Definición
Si y son los valores de las medias de muestras aleatorias independientes de tamaño de poblaciones normales con las varianzas conocidas , entonces ( x 1 x 2 ) z a / 2
2
2
1
2
n1
Es un intervalo de confianza del de las poblaciones.
n2
1 2 ( x 1 x 2 ) z a / 2
2
2
1
2
n1
n2
para la diferencia entre las dos medias
Definición
Si x1 , x 2 , s1 y s 2 son los valores de las medias y desviaciones estándar de variables aleatorias independientes de tamaño n 1 y n 2 de poblaciones normales con varianzas iguales, entonces ( x1 x 2 ) t a / 2,n1 n2 2 s p
1
n1
1
n2
1 2 ( x1 x 2 ) t a / 2,n n 2 s p 1
2
1
n1
1
n2
Es un intervalo de confianza del 1 100 % para la diferencia entre las dos medias de las poblaciones.
Definición
Si X es una variable aleatoria binomial con los parámetros n y , n es grande y x n
, entonces
z a / 2
(1 ) n
z a / 2
(1 ) n
Es un intervalo de confianza aproximado del 1 100 % para
y
Definición
Si
es una variable aleatoria binomial con los parámetros n
1
y 1 , x 2 es una variable
aleatoria binomial con los parámetros n 2 y 2 , n1 y n2 son grandes,
2
x1 n1
y
x2 n2
, entonces
1
( 1 2 ) z / 2
1 (1 1 ) n1
2 (1 2 ) n2
1 2 ( 1 2 ) z / 2
1 (1 1 ) n1
2 (1 2 ) n2
Es un intervalo de confianza aproximado de 1 100 % para 1 2 . Definición
Si
x n
se usa como un estimador de
,
podemos afirmar con 1 100 % de
confianza que el error es menor que
z / 2
(1 ) n
La estimación de varianzas
Si s 2 es el valor de la varianza de una muestra aleatoria de tamaño de una población normal, entonces (n 1) s
x
2
2
/ 2 , n 1
2
( n 1) s
x
2
2
/ 2, n 1
Es un intervalo de confianza del 1 100 % para 2 .
TEOREMA 11.9 Si
es el valor de la varianza de una muestra aleatoria de tamaño
población normal, entonces
de una
4.6 Errores tipo I y II
El error tipo I se define como el rechazo de la hipótesis nula H o cuando ésta es verdadera. También es conocido como ó nivel de significancia.
El error tipo II ó error ésta es falsa.
se define como la aceptación de la hipótesis nula cuando
Por tanto, al probar cualquier hipótesis estadística, existen cuatro situaciones diferentes que determinan si la decisión final es correcta o errónea. Decisión
Ho es verdadera
Ho es falsa
Aceptar Ho
No hay error
Error tipo II ó
Rechazar Ho
Error tipo I ó
No hay error
Ya se ha mostrado cómo puede estimarse un parámetro a partir de los datos contenidos en una muestra. Puede encontrarse ya sea un sólo número (estimador puntual) o un intervalo de valores posibles (intervalo de confianza). Sin embargo, muchos problemas de ingeniería, ciencia, y administración, requieren que se tome una decisión entre aceptar o rechazar una proposición sobre algún parámetro. Esta proposición recibe el nombre de hipótesis. Este es uno de los aspectos más útiles de la inferencia estadística, puesto que muchos tipos de problemas de toma de decisiones, pruebas o experimentos en el mundo de la ingeniería, pueden formularse como problemas de prueba de hipótesis. Una hipótesis estadística es una proposición o supuesto sobre los parámetros de una o más poblaciones. 4.7 Contraste de hipótesis unilateral y bilateral
Se pueden presentar tres tipos de ensayo de hipótesis que son:
Unilateral Derecho Unilateral Izquierdo Bilateral
Dependiendo de la evaluación que se quiera hacer se seleccionará el tipo de ensayo.
Unilateral Derecho. El investigador desea comprobar la hipótesis de un aumento en el parámetro, en este caso el nivel de significancia se carga todo hacia el lado derecho, para definir las regiones de aceptación y de rechazo.
Ensayo de hipótesis:
Unilateral Izquierdo: El investigador desea comprobar la hipótesis de una disminución en el parámetro, en este caso el nivel de significancia se carga todo hacia el lado izquierdo, para definir las regiones de aceptación y de rechazo. Ensayo de hipótesis:
Bilateral: El investigador desea comprobar la hipótesis de un cambio en el parámetro. El nivel de significancia se divide en dos y existen dos regiones de rechazo. Ensayo de hipótesis:
La hipótesis nula, representada por H o, es la afirmación sobre una o más características de poblaciones que al inicio se supone cierta (es decir, la "creencia a priori"). La hipótesis alternativa, representada por H 1, es la afirmación contradictoria a H o, y ésta es la hipótesis del investigador. Problema
1. Una muestra aleatoria de 100 muertes registradas en Monclova el año pasado muestra una vida promedio de 71.8 años. Suponga una desviación estándar poblacional de 8.9 años, ¿esto parece indicar que la vida media hoy en día es mayor que 70 años? Utilice un nivel de significancia de 0.05. Solución:
a. Se trata de una distribución muestral de medias con desviación estándar conocida. b. Datos:
c. Ensayo de hipótesis
d. Regla de decisión:
e. Cálculos:
⁄ ⁄ √ √ f. Justificación y decisión. Como 2.02 >1.645 se rechaza H o y se concluye con un nivel de significancia del 0.05 que la vida media hoy en día es mayor que 70 años. Problema
2. Una empresa eléctrica fabrica focos que tienen una duración que se distribuye de forma aproximadamente normal con una media de 800 horas y una desviación estándar de 40 horas. Si una muestra aleatoria de 30 focos tiene una duración promedio de 788 horas, ¿muestran los datos suficiente evidencia para decir que la duración media ha cambiado? Utilice un nivel de significancia del 0.04. Solución:
a) Se trata de una distribución muestral de medias con desviación estándar conocida. b) Datos:
c) Ensayo de hipótesis
d) Regla de Decisión:
e) Cálculos:
⁄ ⁄ √ √ f) Justificación y decisión:
Como por lo tanto, no se rechaza H o y se concluye con un nivel de significancia del 0.04 que la duración media de los focos no ha cambiado.
Proyecto
1. Una empresa eléctrica fabrica focos que tienen una duración aproximadamente distribuida de forma normal con una desviación estándar de 40 horas. Si una muestra de 30 focos tiene una duración promedio de 780 horas, encuentre un intervalo de confianza de 96% para la media de la población de todos los focos que produce esta empresa. 2. Se registraron las siguientes mediciones de tiempo de secado en horas de una marca de pintura látex, 3.4, 2.8, 4.4, 2.5, 3.3, 4.0, 4.8, 5.6, 5.2, 2.9, 3.7, 3.0, 3.6, 2.8, 4.8, suponiendo que las distribuciones representan una muestra aleatoria de una población normal. Encuentre los límites de tolerancia para un I de C del 95%. 3. Una muestra de 12 latas de sopa producida por cierta compañía produjo los siguientes pesos netos, medidos en onzas: 11.9
12.2
11.6
12.1
12.1
11.8
11.9
11.8
12.0
12.3
11.8
12.0
Si se supone normalidad en los pesos, construya un intervalo de confianza del 95% para el peso promedio de todas las latas de sopa producidas por la compañía. 4. Un experimentador quiere verificar la variablidad de un equipo diseñado para medir el volumen de una fuente de audio frecuencia, tres mediciones independientes registradas con este equipo fueron 4.1, 5.2, 10.2, estime 2 . 5. Una muestra aleatoria de 100 muertes registradas en Estados Unidos el año pasado muestra una vida promedio de 71.8 años. Suponga una desviación estándar poblacional de 8.9 años, ¿esto parece indicar que la vida media hoy en día es mayor que 70 años? Utilice un nivel de significancia de 0.05 6. En trabajo de laboratorio se desea llevar a cabo comprobaciones cuidadosas de la variabilidad de los resultados que producen muestras estándar. En un estudio de la cantidad de calcio en el agua potable, el cual se efectúa como parte del control de calidad, se analizó seis veces la misma muestra en el laboratorio en intervalos aleatorios. Los seis resultados en partes por millón fueron 9.54, 9.61, 9.32, 9.48, 9.70 y 9.26. Estimar la varianza de los resultados de la población para este estándar, usando un nivel de confianza del 90%. 7. Para tratar de estimar la media de consumo por cliente, en un gran restaurante, se reunieron datos de una muestra de 49 clientes durante un periodo de tres
semanas. Si la media de la muestra es de $ 22.60 dólares, ¿Cuál es el intervalo de confianza de 95% para la media de la población? 8. Se encuentra que la concentración promedio de zinc que se saca del agua a partir de un muestra de mediciones de zinc en 36 sitios diferentes es de 2.6 gramos por mililitro. Encuentre los intervalos de confianza de 96% y 98% para la concentración media de zinc en el río. Suponga que la desviación estándar de la población es 0.3. 9. Los salarios diarios en una industria particular presentan una distribución normal con una media de $13.20 y una desviación estándar de $2.50. Si en esta industria una compañía que emplea a 40 trabajadores les paga en promedio $12.20, ¿puede acusarse a esta compañía de pagar salarios inferiores?, utilice un 0.05 H 0 : 13.20 H A : 13.20
10. Cinco mediciones del contenido de alquitrán de cierta clase de cigarrillos dieron mg . Suponga que los datos son una 14 .5, 14 .2, 14 .4, 14 .3 y 14 .6 cigarrillo
muestra aleatoria de una población normal, demuestre que para un 0.05 de significancia se debe rechazar la hipótesis nula 14.0 en favor de la alternativa 14.0 11. El Instituto Eléctrico Edison publica cifras del número anual de Kilowatt-hora que gastan varios aparatos electrodomésticos. Se afirma que una aspiradora gasta un promedio de 46 kilowatt-hora al año. Si una muestra aleatoria de 12 hogares que se incluye en un estudio planeado indica que las aspiradoras gastan un promedio de 42 kilowatt-hora al año con una desviación estándar de11.9 kilowatt-hora, ¿esto sugiere con un nivel de significancia de 0.05 que las aspiradoras gastan, en promedio, menos de 46 kilowatt-hora anualmente? Suponga que la población de kilowatt-hora es normal. 12. El departamento de seguridad de una fábrica quiere saber si el verdadero tiempo promedio que el guardián nocturno tarda en hacer su ronda es 30 min. Si, en una muestra aleatoria de 32 rondas, el guardián nocturno promedió 30.8 minutos con una desviación estándar de 1.5 minutos, determine si ésta es evidencia suficiente para rechazar la hipótesis nula 30 min a favor de la hipótesis alternativa 30 min . Use un nivel de significancia del 0.01. 13. Una muestra aleatoria de 64 bolsas de palomitas de maíz pesan, en pomedio 5.23 onzas con una desviación estándar de 0.24 onzas. Pruebe la hipótesis de que = 5.5 onzas contra al hipótesis alternativa, < 5.5 onzas en el nivel de significamcia de 0.05. 14. Se sabe que los voltajes de una marca de pilas tamaño C se distribuyen normalmente, se probó una muestra aleatoria de 15 y se encontró que la media
es de 1.4 volts con una desviación estándar de 0.21 volts. En el nivel de significancia de 0.01: a. ¿Indica esto que la media de los voltajes es menor que 1.5 volts? b. Calcular la probabilidad de cometer el error tipo II si el voltaje promedio real de las pilas es de 1.3 volts. 15. Una compañía que produce una parte maquinada para un motor, afirma que tiene una varianza de diámetro no mayor a 0.0002 pulgadas. Una muestra aleatoria de 10 de dichas partes dio una varianza de muestra 0.0003. Si se supone que las medidas del diámetro se distribuyen en forma normal, ¿hay evidencia para refutar lo que afirma el proveedor? Use 0.01. 16. Una compañía que produce una parte maquinada para un motor, afirma que tiene una varianza de diámetro no mayor a 0.0002 pulgadas. Una muestra aleatoria de 10 de dichas partes dio una varianza de muestra s 2 = 0.0003. Si se supone que las medidas del diámetro se distribuyen en forma normal, ¿hay evidencia para refutar lo que afirma el proveedor? Use = 0.05.
Unidad V Regresión y correlación
5.1 Control de calidad
Actualmente, todas las empresas modernas saben que lograr un buen nivel de calidad es fundamental para el éxito de su gestión. La obtención de este objetivo, no solo es importante desde el punto de vista de la competencia, sino también para la satisfacción de las necesidades humanas. Estas necesidades humanas evolucionan constantemente, hay cada día mayor demanda de mejor precisión, más exactitud, intercambiabilidad, confort, etc. y lo que hoy acepta el consumidor, mañana puede rechazarlo, pues esta demanda de la cual estamos hablando, se perfecciona cada día, y toda empresa que no se adapte a este movimiento continuo corre el riesgo de quedar desplazada a corto plazo. Para marchar al compás de este ritmo se hacen necesarios mejores instrumentos, maquinarias, métodos, etc., y lo que es más importante, un mejor aprovechamiento de los mismos, es decir, obtener mejor calidad con la misma cantidad de dinero. Para lograr este objetivo debemos recurrir al control estadístico de calidad, como una de las armas más poderosas para la realización de todas estas ideas. El objetivo de este tema es tener una buena información de las herramientas existentes para el control estadístico de la calidad, pero debemos dejar bien claro que los objetivos de calidad no se logran esgrimiendo solamente estas herramientas estadísticas. Hoy en día, el concepto de Control Total de Calidad, enseña claramente que todos los niveles de la empresa están involucrados en la obtención de la mejor calidad del producto, y que éste objetivo no es, de ninguna manera, responsabilidad exclusiva de los departamentos técnicos especializados en el control estadístico de la calidad, sino de todos los integrantes de la empresa, desde el más humilde empleado, al más importante de los gerentes. Definición de la calidad
Definiremos dos aspectos de la calidad, la Calidad del Diseño y la Calidad del Producto. Entendemos por Calidad del Diseño al grado de concordancia entre el diseño y el fin para el cual fue creado, y por Calidad del Producto, al grado de conformidad entre el producto y su diseño. El objetivo de los métodos estadísticos de control en los procesos.
Podríamos preguntarnos, ¿qué es un producto defectuoso? o más concretamente, ¿qué es un defecto? Definición
Un defecto es el incumplimiento de una característica de calidad respecto de un límite especificado. ¿Qué causa los productos defectuosos?
La variación en los materiales, en las condiciones de la máquina, en los métodos de trabajo y en las inspecciones. Estas variaciones son las causas de los productos defectuosos. Si no existiera ninguna de esas variaciones, todos los productos serían idénticos y no habría variaciones en la calidad, y no existiría la ocurrencia de productos defectuosos y no defectuosos. ¿Son todos los defectos iguales? ¿Debemos tratar a todos los defectos por igual?
El sentido común nos dice que no a las dos preguntas. No es lo mismo un defecto considerado leve como ser una imperfección superficial en la etiqueta de un producto, que una medida fuera de especificaciones en un repuesto para motor de automóviles que lo haga absolutamente inservible. Y consecuentemente, no será el mismo criterio para tolerar la presencia de ambos defectos, y eso dará paso a distintos planes de calidad según el tipo de defecto. Clasificación de los defectos, muestrario de defectos. Defectos críticos: son aquellos que violan leyes, agreden al consumidor o hacen
inservible al producto. Defectos mayores: producen una disminución en el correcto funcionamiento o
utilización del producto y es notado por el consumidor. Defectos menores: producen una disminución leve en el correcto funcionamiento o
utilización del producto, probablemente no lo note el consumidor. Pero si lo nota, el personal calificado de producción y de control de calidad, Cada tipo de defecto será objeto de un estudio acabado por las partes interesadas y deberá finalizar en un muestrario de defectos, debidamente clasificado por tipo de defecto y firmado por las partes involucradas. En todos los casos posibles deberá construirse el muestrario con defectos situados justo en los límites de aceptación o rechazo.
5.2 Diagrama de dispersión
5.3 Regresión lineal simple
5.4 Correlación
5.5 Determinación y análisis de los coeficientes de correlación y de determinación.
5.6 Distribución normal bidimensional
5.7 Intervalos de confianza y pruebas para el coeficiente de correlación.
5.8 Errores de medición.
Proyecto V
7. Obtener el coeficiente r de correlación lineal del producto-momento, así como el diagrama de dispersión si las coordenadas de (X, Y) son:
1, 3, 2, 1, 3, 2, 4, 5, 5, 4 , 6, 8, 7, 6 , 8, 8, 9, 7 8. Obtener el coeficiente r de correlación lineal del producto-momento, así como el diagrama de dispersión si las coordenadas de (X, Y) son:
1, 4, 2, 1, 3, 2, 4, 5, 5, 4 , 6, 8 , 7, 6 , 8, 8, 9, 7 9. En una investigación sobre costos los pares de valores de X , Y son: 3, 2, 5, 4, 6, 3, 7, 4, 8, 6 , 9, 5, 11, 6 , 12 , 6.8 . Traza el diagrama de dispersión, la recta de regresión de Y sobre X que consideres por aproximación como la más adecuada. 10. Se dieron diversas dosis de una sustancia venenosa a grupos de 25 ratones y se observaron los siguientes resultados. Dosis mg x 4 6 8 10 12 14 16
Número de muertes Y 1 3 6 8 14 16 20
a) Encuentre la ecuación de mínimos cuadrados ajustada a estos datos b) Estime el número de muertes en un grupo de 25 ratones que recibieron una dosis de 7 mg de este veneno
11. Éstas son las puntuaciones que obtuvieron 12 estudiantes en el examen semestral y examen final en un curso de estadística. Examen semestral x 71 49 80 73 93 85 58 82 64 32 87 80
Examen final Y 83 62 76 77 89 74 48 78 76 51 73 89
a) Encuentre la ecuación de mínimos cuadrados que nos permitirá predecir la puntuación del estudiante en el examen final en este curso sobre la base de su puntuación en el examen final b) Prediga la puntuación del examen final de un estudiante que recibió 84 en el examen semestral 12. La materia prima que se usa en la producción de una fibra sintética se almacena en un lugar que no tiene control de humedad. Las medidas de la humedad relativa y del contenido de humedad de muestras de al materia prima en 12 días dieron los siguientes resultados. Humedad x 46 53 37 42 34 29 60 44 41 48 33 40
Contenido de humedad y 12 14 11 13 10 8 17 12 10 15 9 13
a) Ajuste una línea de mínimos cuadrados que nos permitirá predecir el contenido de humedad en términos de humedad relativa b) Use los resultados del inciso (a) para estimar el contenido de humedad cuando la humedad relativa es del 38% 13. Los siguientes datos corresponden al cloro residual en una alberca en diversos momentos después de haberse tratado con químicos.
Número de Horas Cloro residual x (partes por millón) y 2 1.8 4 1.5 6 1.4 8 1.1 10 1.1 12 0.9 a) Ajuste una línea de mínimos cuadrados que nos permitirá predecir el contenido de humedad en términos de humedad relativa 14. La tabla siguiente muestra valores de evaluación y el precio de venta de ocho casas, que constituyen una muestra aleatoria de todas las casas vendidas recientemente en cierta área de la ciudad. Valores de valuación x 70.3 102 62.5 74.8 57.9 81.6 110.4 88
Precio de venta Y 114.4 169.3 106.2 125 99.8 132.1 174.2 143.5
a) Ajuste una línea de mínimos cuadrados que nos permitirá predecir el precio de venta en términos de su evaluación 15. La tabla siguiente muestra el alargamiento de varillas de acero de de la misma composición y diámetro cuando se sujetan a varias fuerzas de tensión. Fuerza X 1.2 5.3 3.1 2.2 4.1 2.6 6.5 8.3 7.6 4.9
Alargamiento Y 15.6 80.3 39 34.3 58.2 36.7 88.9 111.5 99.8 65.7
a) Ajuste una línea de mínimos cuadrados que nos permitirá predecir el alargamiento de las varillas de acuerdo a la fuerza establecida 16. Obtener el coeficiente r de correlación lineal del producto-momento, así como el diagrama de dispersión si las coordenadas de (X, Y) son:
1.5, 1, 2, 2.3, 2.5, 1.5, 3, 3, 4, 3, 4, 4.3, 4.5, 4.2 , 5, 5.2 , 6, 5.3, 6, 7.3 (23.3 puntos) 17. Los trabajadores de a las proveedoras de la maquiladora a que nos referimos, piden a los dueños de una maquiladora que para tener mejores condiciones de salud de sus familias necesitan cotizar en el Seguro Social y es necesario cambiar las condiciones de pago. Se conviene en pagar un sueldo base equivalente q un salario mínimo, que por la zona donde están es de 45 pesos, y sobre esta cantidad continuar recibiendo 5 pesos por pieza entregada. El cuadro de percepciones queda así: Piezas 10 15 Pago
20
25
32
35
38
45
95 120 145 170 205 220 235 270
Traza el diagrama de dispersión, la gráfica y expresa la ecuación de la curva correspondiente.
http://www.monografias.com/trabajos27/datos-agrupados/datos-agrupados.shtml De Wikipedia, la enciclopedia libre
CENTILES O PERCENTILES
Los percentiles son, tal vez, las medidas más utilizadas para propósitos de ubicación o clasificación de las personas cuando atienden características tales como peso, estatura, etc. Los percentiles son ciertos números que dividen la sucesión de datos ordenados en cien partes porcentualmente iguales. Estos son los 99 valores que dividen en cien partes iguales el conjunto de datos ordenados. Los percentiles (P1, P2,... P99), leídos primer percentil,..., percentil 99. Datos Agrupados
Cuando los datos están agrupados en una tabla de frecuencias, se calculan mediante la fórmula:
k = 1,2,3,... 99
Dónde: Lk = Límite real inferior de la clase del decil k n = Número de datos Fk = Frecuencia acumulada de la clase que antecede a la clase del decil k . fk = Frecuencia de la clase del decil k c = Longitud del intervalo de la clase del decil k
Otra forma para calcular los percentiles es:
Primer percentil, que supera al uno por ciento de los valores y es superado por el noventa y nueve por ciento restante.
El 60 percentil, es aquel valor de la variable que supera al 60% de las observaciones y es superado por el 40% de las observaciones.
El percentil 99 supera 99% de los datos y es superado a su vez por el 1% restante.
Fórmulas Datos No Agrupados
Si se tienen una serie de valores X1, X2, X3 ... Xn, se localiza mediante las siguientes fórmulas: Para los percentiles, cuando n es par:
Cuando n es impar: Siendo A, el número del percentil. Es fácil ver que el primer cuartil coincide con el percentil 25; el segundo cuartil con el percentil 50 y el tercer cuartil con el percentil 75. 3. EJEMPLO
Determinación del primer cuartil, el séptimo decil y el 30 percentil, de la siguiente tabla: Salarios
No. De
fa
(I. De Clases) Empleados (f1) 200-299
85
85
300-299
90
175
400-499
120
295
500-599
70
365
600-699
62
427
700-800
36
463
Como son datos agrupados, se utiliza la fórmula
Siendo, La posición del primer cuartil.
La posición del 7 decil.
La posición del percentil 30. Entonces,
El primer cuartil: 115.5 – 85 = 30.75 Li = 300, Ic = 100 , fi = 90
El 7 decil:
Posición: 324.1 – 295 = 29.1 Li = 500, fi = 70
El percentil 30 Posición:
138.9 – 85 = 53.9 fi = 90
Estos resultados nos indican que el 25% de los empleados ganan salarios por debajo de $ 334; que bajo 541.57 gana el 57%de los empleados y sobre $359.88, gana el 70% de los empleados. Hay 99 percentiles que se denotan: P 1, P2, P3,......., P98, P99. Así P90, por ejemplo, deja por debajo de él el 90% de los elementos. La fórmula para realizar el cálculo del percentil 45, por ejemplo sería:
P45 l
I 45 N ( f i ) f 100
Ejercicio: De la siguiente serie hallar el primero y el tercer cuartil, el segundo y el séptimo decil y los percentiles 8 y 73.
Resp: Q1 = 34,82; Q3 = 47,36; D2 = 32,85; D7 = 45,83; P8 = 26,94; P73 = 46,75.
Obsérvese que entre los 6 cuantiles calculados, aparecen valores muy parecidos. En particular se dan las siguientes coincidencias:
El segundo cuartil equivale a la mediana El quinto decil y el quincuagésimo percentil se corresponden también con la mediana. Los percentiles P 25 y P75 se corresponden con el primer y tercer cuartil, respectivamente.
Los percentiles son valores que resultan de dividir la población (el N de las observaciones) en cien partes iguales (1% en cada una). Cálculo para datos sin agrupar
El percentil se obtiene identificando el valor que para la variable en cuestión tiene el individuo que ocupa la posición j% Cálculo para datos agrupados Cálculo a partir de la frecuencia relativa
Se debe tener en cuenta que cuando j es un valor entre 1 y 9 inclusive se debe escribir 0,0j en el numerador en lugar de 0,j Percentiles y datos percentiles
La expresión percentil se usa para indicar en una distribución de observaciones, el valor por debajo del cual está situado cierto porcentaje de distribuciones de valores, por ejemplo, al decir que en una distribución de estaturas el 15.28% de los alumnos mide 144.5 o menos, se expresa: P15.28 144 .5 Estamos afirmando que el 15.28% de los alumnos está por debajo de
144.5 cm. de estatura. Se presentan dos problemas relacionados al uso de percentiles:
Obtener el valor de la abscisa x que corresponde a un valor percentil, y Obtener el rango percentil correspondiente a un valor de la abscisa
Solución
1. Si conocemos el valor de x obtenemos el rango percentil
En la gráfica de la ojiva se traza, por el punto x conocido, una paralela al eje de las ordenadas hasta intersectar la ojiva y desde el punto de intersección se traza una paralela al eje de las abscisas y obtenemos el rango percentil P y . 2. Si conocemos el percentil (valor de y) obtenemos el valor de la abscisa x. Se traza por el punto que corresponde al percentil y P y , una paralela al eje de las abscisas hasta intersectar la ojiva; desde el punto de intersección se baja una perpendicular al eje de las x.
Unidad IV 4.1 Inferencia estadística
La estadística inferencial se define como la rama de la estadística que proporciona técnicas o procedimientos para analizar, interpretar y tomar decisiones sobre una población, con base en la información que se obtiene de una muestra. Esta generalización de tipo inductivo, se basa en la probabilidad. También se le llama estadística matemática, por su complejidad matemática en relación a la estadística descriptiva. Tiene como objetivo generalizar las propiedades de la población bajo estudio, basado en los resultados de una muestra representativa de la población. El estudio de una población tomando como base las muestras se llama estadística inferencial o inductiva, “Teoría de muestras”.
La Inferencia estadística persigue la obtención de conclusiones sobre la población mediante los datos obtenidos de una muestra, e incluye;
Teoría de la muestra Estimación de parámetros
4.2 Muestreo estadístico
Uno de los propósitos de la estadística inferencial es estimar las características poblacionales desconocidas, examinando la información obtenida de una muestra, de una población. El punto de interés es la muestra, la cual debe ser representativa de la población objeto de estudio. Se seguirán ciertos procedimientos de selección para asegurar de que las muestras reflejen observaciones a la población de la que proceden, ya que solo se pueden hacer observaciones probabilísticas sobre una población cuando se usan muestras representativas de la misma. El tamaño de la muestra debe calcularse utilizando técnicas estadísticas. La selección de la muestra debe hacerse en forma aleatoria. La estimación de las características de la población debe hacerse de acuerdo a las leyes de la estadística. Una aplicación de muestreo que no cumpla con alguno de estos tres requisitos se considera muestreo no estadístico. El muestreo estadístico posee algunas ventajas con respecto al muestreo no estadístico, entre ellas las siguientes:
Permite seleccionar de antemano el nivel de confianza de la prueba, es decir la probabilidad de que las conclusiones obtenidas del muestreo sean correctas. La selección aleatoria impide que los prejuicios o preferencias del auditor favorezcan la selección de algunos elementos de la población en desmedro de otros.
Permite limitar el tamaño de la muestra al mínimo necesario, evitando realizar pruebas de auditoría sobre una cantidad mayor de elementos. Los resultados de la prueba se expresan matemáticamente en términos precisos, permitiendo elaborar recomendaciones sobre una base más objetiva. Permite hacer más defendibles las conclusiones de la prueba.
Una población está formada por la totalidad de las observaciones en las cuales se tiene una cierta observación. Una muestra es un subconjunto de observaciones seleccionadas de una población. Muestras Aleatorias
Cuando nos interesa estudiar las características de poblaciones grandes, se utilizan muestras por muchas razones; una enumeración completa de la población, llamada censo, puede ser económicamente imposible, o no se cuenta con el tiempo suficiente. A continuación se verá algunos usos del muestreo en diversos campos: 7. Política . Las muestras de las opiniones de los votantes se usan para que los candidatos midan la opinión pública y el apoyo en las elecciones. 8. Educación . Las muestras de las calificaciones de los exámenes de estudiantes se usan para determinar la eficiencia de una técnica o programa de enseñanza. 9. Industria . Muestras de los productos de una línea de ensamble sirve para controlar la calidad. 10. Medicina . Muestras de medidas de azúcar en la sangre de pacientes diabéticos prueban la eficacia de una técnica o de un fármaco nuevo. 11. Agricultura . Las muestras del maíz cosechado en una parcela proyectan en la producción los efectos de un fertilizante nuevo. 12. Gobierno . Una muestra de opiniones de los votantes se usaría para determinar los criterios del público sobre cuestiones relacionadas con el bienestar y la seguridad nacional. Errores en el Muestreo
Cuando se utilizan valores muestrales, o estadísticos para estimar valores poblacionales, o parámetros , pueden ocurrir dos tipos generales de errores: el error muestral y el error no muestral. El error muestral se refiere a la variación natural existente entre muestras tomadas de la misma población. Cuando una muestra no es una copia exacta de la población; aún si se ha tenido gran cuidado para asegurar que dos muestras del mismo tamaño sean representativas de una cierta población, no esperaríamos que las dos sean idénticas en todos sus detalles. El error muestral es un concepto importante que ayudará a entender mejor la naturaleza de la estadística inferencial. Los errores que surgen al tomar las muestras no pueden clasificarse como errores muestrales y se denominan errores no muestrales . El sesgo de las muestras es un tipo de error no muestral. El sesgo muestral se refiere a una tendencia sistemática inherente a un método de muestreo que da estimaciones
de un parámetro que son, en promedio, menores (sesgo negativo), o mayores (sesgo positivo) que el parámetro real. El sesgo muestral puede suprimirse, o minimizarse, usando la aleatorización. La aleatorización se refiere a cualquier proceso de selección de una muestra de la población en el que la selección es imparcial o no está sesgada; una muestra elegida con procedimientos aleatorios se llama muestra aleatoria . Los tipos más comunes de técnicas de muestreo aleatorios son el muestreo aleatorio simple, el muestreo estratificado, el muestreo por conglomerados y el muestreo sistemático.
Muestreo Aleatorio Simple
Si una muestra aleatoria se elige de tal forma que todos los elementos de la población tengan la misma probabilidad de ser seleccionados, la llamamos muestra aleatoria simple. El objetivo principal de un diseño muestral es hacer uso eficiente del presupuesto asignado para un estudio obteniendo un estimativo tan preciso como sea posible de una cantidad de la población. El muestreo aleatorio simple es la técnica de muestreo más básica que no sólo asegura una muestra representativa sino que también produce una estimación de la cantidad de una población y una especificación de la precisión. Muchas ramificaciones han evolucionado a partir de este concepto central del muestreo aleatorio simple que permite alcanzar inferencias más precisas para diferentes tipos de poblaciones. Ejemplo 1.1 Suponga que nos interesa elegir una muestra aleatoria de 5 estudiantes en un grupo de estadística de 20 alumnos. 20C5 da el número total de formas de elegir una muestra no ordenada y este resultado es 15,504 maneras diferentes de tomar la muestra. Si listamos las 15,504 en trozos separados de papel, una tarea tremenda, luego los colocamos en un recipiente y después los revolvemos, entonces podremos tener una muestra aleatoria de 5 si seleccionamos un trozo de papel con cinco nombres. Un procedimiento más simple para elegir una muestra aleatoria sería escribir cada uno de los 20 nombres en pedazos separados de papel, colocarlos en un recipiente, revolverlos y después extraer cinco papeles al mismo tiempo. Otro método parea obtener una muestra aleatoria de 5 estudiantes en un grupo de 20 utiliza una tabla de números aleatorios. Se puede construir la tabla usando una calculadora o una computadora. También se puede prescindir de estas y hacer la tabla escribiendo diez dígitos del 0 al 9 en tiras de papel, las colocamos en un recipiente y los revolvemos, de ahí, la primera tira seleccionada determina el primer número de la tabla, se regresa al recipiente y después de revolver otra vez se selecciona la seguida tira que determina el segundo número de la tabla; el proceso continúa hasta obtener una tabla de dígitos aleatorios con tantos números como se desee. Muestreo Simple
Hay muchas situaciones en las cuales el muestreo aleatorio simple es poco práctico, imposible o no deseado; aunque sería deseable usar muestras aleatorias simples para
las encuestas nacionales de opinión sobre productos o sobre elecciones presidenciales, sería muy costoso o tardado. Error Muestral
Cualquier medida conlleva algún error. Si se usa la media para medir, estimar, la media poblacional , entonces la media muestral, como medida, conlleva algún error. Por ejemplo, supongamos que se ha obtenido una muestra aleatoria de tamaño 25 de una población con media : si la media de la muestra es , entonces a la diferencia observada se le denomina el error muestral . Una media muestral puede pensarse como la suma de dos cantidades, la media poblacional y el error muestral; si e denota el error muestral, entonces:
Ejemplo 1.5 Se toman muestras de tamaño 2 de una población consistente en tres valores, 2, 4 y 6, para simular una población "grande" de manera que el muestreo pueda realizarse un gran número de veces, supondremos que éste se hace con remplazo, es decir, el número elegido se remplaza antes de seleccionar el siguiente, además, se seleccionan muestras ordenadas. En una muestra ordenada, el orden en que se seleccionan las observaciones es importante, por tanto, la muestra ordenada (2,4) es distinta de la muestra ordenada (4,2). En la muestra (4,2), se seleccionó primero 4 y después 2. La siguiente tabla contiene una lista de todas las muestras ordenadas de tamaño 2 que es posible seleccionar con remplazo y también contiene las medias muestrales y los correspondientes errores muestrales. La media poblacional es igual a = (2+4+6)/3 = 4. Ver la tabla en la siguiente página. 4.3 Estimadores
El objetivo principal de la estadística inferencial es la estimación, esto es que mediante el estudio de una muestra de una población se quiere generalizar las conclusiones al total de la misma. En los problemas de estimación debemos determinar el valor de un parámetro de un continuo posible de alternativas. Los estadísticos varían mucho dentro de sus distribuciones muestrales, y mientras menor sea el error estándar de un estadístico, más cercanos serán unos de otros sus valores. 4.4 Estimación puntual
Una estimación es puntual cuando se usa un solo valor extraído de la muestra para estimar el parámetro desconocido de la población. Al valor usado se le llama estimador.
La media de la población se puede estimar puntualmente mediante la media de la muestra:
La proporción de la población se puede estimar puntualmente mediante la proporción de la muestra:
̂
La desviación estándar (típica) de la población se puede estimar puntualmente mediante la desviación típica de la muestra, aunque hay mejores estimadores:
Todo nuestro estudio se basa en la normalidad de las distribuciones que empleamos. 4.5 Estimación por intervalo
En inferencia estadística se llama estimación al conjunto de técnicas que permiten dar un valor aproximado de un parámetro de una población a partir de los datos proporcionados por una muestra. Por ejemplo, una estimación de la media de una determinada característica de una población de tamaño N podría ser la media de esa misma característica para una muestra de tamaño n. La estimación se divide en tres grandes bloques, cada uno de los cuales tiene distintos métodos que se usan en función de las características y propósitos del estudio:
Estimación puntual: Método de los momentos; Método de la máxima verosimilitud; Método de los mínimos cuadrados; Estimación por intervalos. o o o
Intervalo de confianza
En estadística, se llama intervalo de confianza a un par de números entre los cuales se estima que estará cierto valor desconocido con una determinada probabilidad de acierto. Formalmente, estos números determinan un intervalo, que se calcula a partir de datos de una muestra, y el valor desconocido es un parámetro poblacional. La probabilidad de éxito en la estimación se representa con 1 - α y se denomina nivel de confianza . En estas circunstancias, α es el llamado error aleatorio o nivel de significación , esto es, una medida de las posibilidades de fallar en la estimación mediante tal intervalo. El nivel de confianza y la amplitud del intervalo varían conjuntamente, de forma que un intervalo más amplio tendrá más posibilidades de acierto (mayor nivel de confianza), mientras que para un intervalo más pequeño, que ofrece una estimación más precisa, aumentan sus posibilidades de error. Estimación para la Media (Normal)
Sabemos que en base a la distribución muestral de medias que se generó en el tema anterior, la formula para el cálculo de probabilidad es la siguiente . Como en
⁄√
este caso no conocemos el parámetro y lo queremos estimar por medio de la media de
la muestra, sólo se despejará manera.
de la formula anterior, quedando de la siguiente
⁄ √ ⁄ √ De esta formula se puede observar que tanto el tamaño de la muestra como el valor de z se conocerán. Z se puede obtener de la tabla de la distribución normal a partir del nivel de confianza establecido. Pero en ocasiones se desconoce por lo que en esos casos lo correcto es utilizar otra distribución llamada "t" de student si la población de donde provienen los datos es normal.
Estimación t-Student Definición
Si es el valor de la media de una muestra aleatoria de tamaño n de una población normal con la varianza conocida , entonces
⁄ √ ⁄ √ Es un intervalo de confianza de
para la media de la población.
Problema
2. Se encuentra que la concentración promedio de zinc que se saca del agua a partir de una muestra de mediciones de zinc en 36 sitios diferentes es de 2.6 gramos por mililitro. Encuentre los intervalos de confianza de 95% y 99% para la concentración media de zinc en el río. Suponga que la desviación estándar de la población es 0.3. Solución:
. El valor de z para un nivel de confianza
La estimación puntual de es del 95% es 1.96, por lo tanto:
√ √
Para un nivel de confianza de 99% el valor de z es de 2.575 por lo que el intervalo será más amplio:
√ √
El intervalo de confianza proporciona una estimación de la precisión de nuestra estimación puntual. Si es realmente el valor central de intervalo, entonces estima sin error. La mayor parte de las veces, sin embargo, no será exactamente igual a y la estimación puntual es errónea. La magnitud de este error será el valor absoluto de la diferencia entre y , y podemos tener el nivel de confianza de que esta diferencia no excederá √ .
Como se puede observar en los resultados del ejercicio se tiene un error de estimación mayor cuando el nivel de confianza es del 99% y más pequeño cuando se reduce a un nivel de confianza del 95%.
Definición
Si y son los valores de la media y la desviación estándar de una muestra aleatoria de tamaño de una población normal, entonces
x t a / 2,n1
Es un intervalo con
s n
x t a / 2,n1
s n
de confianza para la media de la población.
Se realizo un estudio sobre la utilización del agua en una pequeña ciudad. Para ello se considero una muestra de 25 casa. El número de galones de agua que utilizan por día (1 galón ≡ 0.0037854 m3) fue el siguiente:
Con base en esta información: b) Hallar un intervalo de confianza del 90%
⁄ x t a / 2,n 1
s n
x t a / 2,n1
s n
√ √ Problema
A partir de 860 cuentas, un analista financiero toma una muestra aleatoria de 16 cuentas. Los saldos observados en la muestra son los siguientes: 165, 150, 300, 240, 250, 150, 300, 200, 140, 240, 260, 180, 190, 230, 350,360. Determinar un intervalo de confianza del 90% para estimar el saldo medio de todas las cuentas.
⁄ √ √ Ejercicio
Se selecciono una muestra aleatoria de 25 cuentas por cobrar de un registro que contenía 96 cuentas. La muestra dio una media de x = 2435colones y una desviación típica de S = 335 colones. Obténgase un intervalo de confianza del 99% para estimar la media de las 96 cuentas del registro. Ejercicio
El auditor de una empresa al examinar los registros de facturación mensual, mediante el análisis de una muestra aleatoria irrestricta de 10 f acturas no pagadas encontró que la media aritmética fue de x = $9500 con una desviación típica de s = $327. Construir un intervalo de confianza del 95%para estimar el parámetro poblacional. Ejercicio
Una muestra aleatoria del proceso de producción de 17 bombillos, dio una media de x = 128 horas, con una desviación típica s = 15 horas. Construir un intervalo de confianza del 99% para estimar el promedio de vida útil de todos los bombillos del proceso.
Definición
Si y son los valores de las medias de muestras aleatorias independientes de tamaño de poblaciones normales con las varianzas conocidas , entonces ( x 1 x 2 ) z a / 2
2
2
1
2
n1
Es un intervalo de confianza del de las poblaciones.
n2
1 2 ( x 1 x 2 ) z a / 2
2
2
1
2
n1
n2
para la diferencia entre las dos medias
Definición
Si x1 , x 2 , s1 y s 2 son los valores de las medias y desviaciones estándar de variables aleatorias independientes de tamaño n 1 y n 2 de poblaciones normales con varianzas iguales, entonces ( x1 x 2 ) t a / 2,n1 n2 2 s p
1
n1
1
n2
1 2 ( x1 x 2 ) t a / 2,n n 2 s p 1
2
1
n1
1
n2
Es un intervalo de confianza del 1 100 % para la diferencia entre las dos medias de las poblaciones.
Definición
Si X es una variable aleatoria binomial con los parámetros n y , n es grande y x n
, entonces
z a / 2
(1 ) n
z a / 2
(1 ) n
Es un intervalo de confianza aproximado del 1 100 % para
y
Definición
Si
es una variable aleatoria binomial con los parámetros n
1
y 1 , x 2 es una variable
aleatoria binomial con los parámetros n 2 y 2 , n1 y n2 son grandes,
2
x1 n1
y
x2 n2
, entonces
1
( 1 2 ) z / 2
1 (1 1 ) n1
2 (1 2 ) n2
1 2 ( 1 2 ) z / 2
1 (1 1 ) n1
2 (1 2 ) n2
Es un intervalo de confianza aproximado de 1 100 % para 1 2 . Definición
Si
x n
se usa como un estimador de
,
podemos afirmar con 1 100 % de
confianza que el error es menor que
z / 2
(1 ) n
La estimación de varianzas
Si s 2 es el valor de la varianza de una muestra aleatoria de tamaño de una población normal, entonces (n 1) s
x
2
2
2
/ 2 , n 1
Es un intervalo de confianza del
TEOREMA 11.9 Si
(n 1) s
x / 2 ,
n 1
x
2
2
/ 2, n 1
2
2
( n 1) s
2
(n 1) s
2
2
x / 2 ,
n 1
para 2 .
es el valor de la varianza de una muestra aleatoria de tamaño
población normal, entonces
de una
4.6 Errores tipo I y II
El error tipo I se define como el rechazo de la hipótesis nula H o cuando ésta es verdadera. También es conocido como ó nivel de significancia.
El error tipo II ó error ésta es falsa.
se define como la aceptación de la hipótesis nula cuando
Por tanto, al probar cualquier hipótesis estadística, existen cuatro situaciones diferentes que determinan si la decisión final es correcta o errónea. Decisión
Ho es verdadera
Ho es falsa
Aceptar Ho
No hay error
Error tipo II ó
Rechazar Ho
Error tipo I ó
No hay error
Ya se ha mostrado cómo puede estimarse un parámetro a partir de los datos contenidos en una muestra. Puede encontrarse ya sea un sólo número (estimador puntual) o un intervalo de valores posibles (intervalo de confianza). Sin embargo, muchos problemas de ingeniería, ciencia, y administración, requieren que se tome una decisión entre aceptar o rechazar una proposición sobre algún parámetro. Esta proposición recibe el nombre de hipótesis. Este es uno de los aspectos más útiles de la inferencia estadística, puesto que muchos tipos de problemas de toma de decisiones, pruebas o experimentos en el mundo de la ingeniería, pueden formularse como problemas de prueba de hipótesis. Una hipótesis estadística es una proposición o supuesto sobre los parámetros de una o más poblaciones. 4.7 Contraste de hipótesis unilateral y bilateral
Se pueden presentar tres tipos de ensayo de hipótesis que son:
Unilateral Derecho Unilateral Izquierdo Bilateral
Dependiendo de la evaluación que se quiera hacer se seleccionará el tipo de ensayo.
Unilateral Derecho. El investigador desea comprobar la hipótesis de un aumento en el parámetro, en este caso el nivel de significancia se carga todo hacia el lado derecho, para definir las regiones de aceptación y de rechazo.
Ensayo de hipótesis:
Unilateral Izquierdo: El investigador desea comprobar la hipótesis de una disminución en el parámetro, en este caso el nivel de significancia se carga todo hacia el lado izquierdo, para definir las regiones de aceptación y de rechazo. Ensayo de hipótesis:
Bilateral: El investigador desea comprobar la hipótesis de un cambio en el parámetro. El nivel de significancia se divide en dos y existen dos regiones de rechazo. Ensayo de hipótesis:
La hipótesis nula, representada por H o, es la afirmación sobre una o más características de poblaciones que al inicio se supone cierta (es decir, la "creencia a priori"). La hipótesis alternativa, representada por H 1, es la afirmación contradictoria a H o, y ésta es la hipótesis del investigador. Problema
3. Una muestra aleatoria de 100 muertes registradas en Monclova el año pasado muestra una vida promedio de 71.8 años. Suponga una desviación estándar poblacional de 8.9 años, ¿esto parece indicar que la vida media hoy en día es mayor que 70 años? Utilice un nivel de significancia de 0.05. Solución:
g. Se trata de una distribución muestral de medias con desviación estándar conocida. h. Datos:
i. Ensayo de hipótesis
j. Regla de decisión:
k. Cálculos:
⁄ ⁄ √ √ l. Justificación y decisión. Como 2.02 >1.645 se rechaza H o y se concluye con un nivel de significancia del 0.05 que la vida media hoy en día es mayor que 70 años. Problema
4. Una empresa eléctrica fabrica focos que tienen una duración que se distribuye de forma aproximadamente normal con una media de 800 horas y una desviación estándar de 40 horas. Si una muestra aleatoria de 30 focos tiene una duración promedio de 788 horas, ¿muestran los datos suficiente evidencia para decir que la duración media ha cambiado? Utilice un nivel de significancia del 0.04. Solución:
g) Se trata de una distribución muestral de medias con desviación estándar conocida. h) Datos:
i) Ensayo de hipótesis
j) Regla de Decisión:
k) Cálculos:
⁄ ⁄ √ √ l) Justificación y decisión:
Como por lo tanto, no se rechaza H o y se concluye con un nivel de significancia del 0.04 que la duración media de los focos no ha cambiado.
Proyecto
17. Una empresa eléctrica fabrica focos que tienen una duración aproximadamente distribuida de forma normal con una desviación estándar de 40 horas. Si una muestra de 30 focos tiene una duración promedio de 780 horas, encuentre un intervalo de confianza de 96% para la media de la población de todos los focos que produce esta empresa. 18. Se registraron las siguientes mediciones de tiempo de secado en horas de una marca de pintura látex, 3.4, 2.8, 4.4, 2.5, 3.3, 4.0, 4.8, 5.6, 5.2, 2.9, 3.7, 3.0, 3.6, 2.8, 4.8, suponiendo que las distribuciones representan una muestra aleatoria de una población normal. Encuentre los límites de tolerancia para un I de C del 95%. 19. Una muestra de 12 latas de sopa producida por cierta compañía produjo los siguientes pesos netos, medidos en onzas: 11.9
12.2
11.6
12.1
12.1
11.8
11.9
11.8
12.0
12.3
11.8
12.0
Si se supone normalidad en los pesos, construya un intervalo de confianza del 95% para el peso promedio de todas las latas de sopa producidas por la compañía. 20. Un experimentador quiere verificar la variablidad de un equipo diseñado para medir el volumen de una fuente de audio frecuencia, tres mediciones independientes registradas con este equipo fueron 4.1, 5.2, 10.2, estime 2 . 21. Una muestra aleatoria de 100 muertes registradas en Estados Unidos el año pasado muestra una vida promedio de 71.8 años. Suponga una desviación estándar poblacional de 8.9 años, ¿esto parece indicar que la vida media hoy en día es mayor que 70 años? Utilice un nivel de significancia de 0.05 22. En trabajo de laboratorio se desea llevar a cabo comprobaciones cuidadosas de la variabilidad de los resultados que producen muestras estándar. En un estudio de la cantidad de calcio en el agua potable, el cual se efectúa como parte del control de calidad, se analizó seis veces la misma muestra en el laboratorio en intervalos aleatorios. Los seis resultados en partes por millón fueron 9.54, 9.61, 9.32, 9.48, 9.70 y 9.26. Estimar la varianza de los resultados de la población para este estándar, usando un nivel de confianza del 90%. 23. Para tratar de estimar la media de consumo por cliente, en un gran restaurante, se reunieron datos de una muestra de 49 clientes durante un periodo de tres
semanas. Si la media de la muestra es de $ 22.60 dólares, ¿Cuál es el intervalo de confianza de 95% para la media de la población? 24. Se encuentra que la concentración promedio de zinc que se saca del agua a partir de un muestra de mediciones de zinc en 36 sitios diferentes es de 2.6 gramos por mililitro. Encuentre los intervalos de confianza de 96% y 98% para la concentración media de zinc en el río. Suponga que la desviación estándar de la población es 0.3. 25. Los salarios diarios en una industria particular presentan una distribución normal con una media de $13.20 y una desviación estándar de $2.50. Si en esta industria una compañía que emplea a 40 trabajadores les paga en promedio $12.20, ¿puede acusarse a esta compañía de pagar salarios inferiores?, utilice un 0.05 H 0 : 13.20 H A : 13.20
26. Cinco mediciones del contenido de alquitrán de cierta clase de cigarrillos dieron mg . Suponga que los datos son una 14 .5, 14 .2, 14 .4, 14 .3 y 14 .6 cigarrillo
muestra aleatoria de una población normal, demuestre que para un 0.05 de significancia se debe rechazar la hipótesis nula 14.0 en favor de la alternativa 14.0 27. El Instituto Eléctrico Edison publica cifras del número anual de Kilowatt-hora que gastan varios aparatos electrodomésticos. Se afirma que una aspiradora gasta un promedio de 46 kilowatt-hora al año. Si una muestra aleatoria de 12 hogares que se incluye en un estudio planeado indica que las aspiradoras gastan un promedio de 42 kilowatt-hora al año con una desviación estándar de11.9 kilowatt-hora, ¿esto sugiere con un nivel de significancia de 0.05 que las aspiradoras gastan, en promedio, menos de 46 kilowatt-hora anualmente? Suponga que la población de kilowatt-hora es normal. 28. El departamento de seguridad de una fábrica quiere saber si el verdadero tiempo promedio que el guardián nocturno tarda en hacer su ronda es 30 min. Si, en una muestra aleatoria de 32 rondas, el guardián nocturno promedió 30.8 minutos con una desviación estándar de 1.5 minutos, determine si ésta es evidencia suficiente para rechazar la hipótesis nula 30 min a favor de la hipótesis alternativa 30 min . Use un nivel de significancia del 0.01. 29. Una muestra aleatoria de 64 bolsas de palomitas de maíz pesan, en pomedio 5.23 onzas con una desviación estándar de 0.24 onzas. Pruebe la hipótesis de que = 5.5 onzas contra al hipótesis alternativa, < 5.5 onzas en el nivel de significamcia de 0.05. 30. Se sabe que los voltajes de una marca de pilas tamaño C se distribuyen normalmente, se probó una muestra aleatoria de 15 y se encontró que la media
es de 1.4 volts con una desviación estándar de 0.21 volts. En el nivel de significancia de 0.01: c. ¿Indica esto que la media de los voltajes es menor que 1.5 volts? d. Calcular la probabilidad de cometer el error tipo II si el voltaje promedio real de las pilas es de 1.3 volts. 31. Una compañía que produce una parte maquinada para un motor, afirma que tiene una varianza de diámetro no mayor a 0.0002 pulgadas. Una muestra aleatoria de 10 de dichas partes dio una varianza de muestra 0.0003. Si se supone que las medidas del diámetro se distribuyen en forma normal, ¿hay evidencia para refutar lo que afirma el proveedor? Use 0.01. 32. Una compañía que produce una parte maquinada para un motor, afirma que tiene una varianza de diámetro no mayor a 0.0002 pulgadas. Una muestra aleatoria de 10 de dichas partes dio una varianza de muestra s 2 = 0.0003. Si se supone que las medidas del diámetro se distribuyen en forma normal, ¿hay evidencia para refutar lo que afirma el proveedor? Use = 0.05.
Unidad V Regresión y correlación
5.1 Control de calidad
5.2 Diagrama de dispersión
5.3 Regresión lineal simple
5.4 Correlación
5.5 Determinación y análisis de los coeficientes de correlación y de determinación.
5.6 Distribución normal bidimensional
5.7 Intervalos de confianza y pruebas para el coeficiente de correlación.
5.8 Errores de medición.
Proyecto V
18. Obtener el coeficiente r de correlación lineal del producto-momento, así como el diagrama de dispersión si las coordenadas de (X, Y) son:
1, 3, 2, 1, 3, 2, 4, 5, 5, 4 , 6, 8, 7, 6 , 8, 8, 9, 7 19. Obtener el coeficiente r de correlación lineal del producto-momento, así como el diagrama de dispersión si las coordenadas de (X, Y) son:
1, 4, 2, 1, 3, 2, 4, 5, 5, 4 , 6, 8 , 7, 6 , 8, 8, 9, 7 20. En una investigación sobre costos los pares de valores de X , Y son: 3, 2, 5, 4, 6, 3, 7, 4, 8, 6 , 9, 5, 11, 6 , 12 , 6.8 . Traza el diagrama de dispersión, la recta de regresión de Y sobre X que consideres por aproximación como la más adecuada. 21. Se dieron diversas dosis de una sustancia venenosa a grupos de 25 ratones y se observaron los siguientes resultados. Dosis mg x 4 6 8 10 12 14 16
Número de muertes Y 1 3 6 8 14 16 20
c) Encuentre la ecuación de mínimos cuadrados ajustada a estos datos d) Estime el número de muertes en un grupo de 25 ratones que recibieron una dosis de 7 mg de este veneno
22. Éstas son las puntuaciones que obtuvieron 12 estudiantes en el examen semestral y examen final en un curso de estadística. Examen semestral x 71 49 80 73 93 85 58 82 64 32 87 80
Examen final Y 83 62 76 77 89 74 48 78 76 51 73 89
c) Encuentre la ecuación de mínimos cuadrados que nos permitirá predecir la puntuación del estudiante en el examen final en este curso sobre la base de su puntuación en el examen final d) Prediga la puntuación del examen final de un estudiante que recibió 84 en el examen semestral 23. La materia prima que se usa en la producción de una fibra sintética se almacena en un lugar que no tiene control de humedad. Las medidas de la humedad relativa y del contenido de humedad de muestras de al materia prima en 12 días dieron los siguientes resultados. Humedad x 46 53 37 42 34 29 60 44 41 48 33 40
Contenido de humedad y 12 14 11 13 10 8 17 12 10 15 9 13
c) Ajuste una línea de mínimos cuadrados que nos permitirá predecir el contenido de humedad en términos de humedad relativa d) Use los resultados del inciso (a) para estimar el contenido de humedad cuando la humedad relativa es del 38% 24. Los siguientes datos corresponden al cloro residual en una alberca en diversos momentos después de haberse tratado con químicos.
Número de Horas Cloro residual x (partes por millón) y 2 1.8 4 1.5 6 1.4 8 1.1 10 1.1 12 0.9 b) Ajuste una línea de mínimos cuadrados que nos permitirá predecir el contenido de humedad en términos de humedad relativa 25. La tabla siguiente muestra valores de evaluación y el precio de venta de ocho casas, que constituyen una muestra aleatoria de todas las casas vendidas recientemente en cierta área de la ciudad. Valores de valuación x 70.3 102 62.5 74.8 57.9 81.6 110.4 88
Precio de venta Y 114.4 169.3 106.2 125 99.8 132.1 174.2 143.5
b) Ajuste una línea de mínimos cuadrados que nos permitirá predecir el precio de venta en términos de su evaluación 26. La tabla siguiente muestra el alargamiento de varillas de acero de de la misma composición y diámetro cuando se sujetan a varias fuerzas de tensión. Fuerza X 1.2 5.3 3.1 2.2 4.1 2.6 6.5 8.3 7.6 4.9
Alargamiento Y 15.6 80.3 39 34.3 58.2 36.7 88.9 111.5 99.8 65.7
b) Ajuste una línea de mínimos cuadrados que nos permitirá predecir el alargamiento de las varillas de acuerdo a la fuerza establecida 27. Obtener el coeficiente r de correlación lineal del producto-momento, así como el diagrama de dispersión si las coordenadas de (X, Y) son:
1.5, 1, 2, 2.3, 2.5, 1.5, 3, 3, 4, 3, 4, 4.3, 4.5, 4.2 , 5, 5.2 , 6, 5.3, 6, 7.3 (23.3 puntos) 28. Los trabajadores de a las proveedoras de la maquiladora a que nos referimos, piden a los dueños de una maquiladora que para tener mejores condiciones de salud de sus familias necesitan cotizar en el Seguro Social y es necesario cambiar las condiciones de pago. Se conviene en pagar un sueldo base equivalente q un salario mínimo, que por la zona donde están es de 45 pesos, y sobre esta cantidad continuar recibiendo 5 pesos por pieza entregada. El cuadro de percepciones queda así: Piezas 10 15 Pago
20
25
32
35
38
45
95 120 145 170 205 220 235 270
Traza el diagrama de dispersión, la gráfica y expresa la ecuación de la curva correspondiente.
http://www.monografias.com/trabajos27/datos-agrupados/datos-agrupados.shtml De Wikipedia, la enciclopedia libre
CENTILES O PERCENTILES
Los percentiles son, tal vez, las medidas más utilizadas para propósitos de ubicación o clasificación de las personas cuando atienden características tales como peso, estatura, etc. Los percentiles son ciertos números que dividen la sucesión de datos ordenados en cien partes porcentualmente iguales. Estos son los 99 valores que dividen en cien partes iguales el conjunto de datos ordenados. Los percentiles (P1, P2,... P99), leídos primer percentil,..., percentil 99. Datos Agrupados
Cuando los datos están agrupados en una tabla de frecuencias, se calculan mediante la fórmula:
k = 1,2,3,... 99
Dónde: Lk = Límite real inferior de la clase del decil k n = Número de datos Fk = Frecuencia acumulada de la clase que antecede a la clase del decil k . fk = Frecuencia de la clase del decil k c = Longitud del intervalo de la clase del decil k
Otra forma para calcular los percentiles es:
Primer percentil, que supera al uno por ciento de los valores y es superado por el noventa y nueve por ciento restante.
El 60 percentil, es aquel valor de la variable que supera al 60% de las observaciones y es superado por el 40% de las observaciones.
El percentil 99 supera 99% de los datos y es superado a su vez por el 1% restante.
Fórmulas Datos No Agrupados
Si se tienen una serie de valores X1, X2, X3 ... Xn, se localiza mediante las siguientes fórmulas: Para los percentiles, cuando n es par:
Cuando n es impar: Siendo A, el número del percentil. Es fácil ver que el primer cuartil coincide con el percentil 25; el segundo cuartil con el percentil 50 y el tercer cuartil con el percentil 75. 3. EJEMPLO
Determinación del primer cuartil, el séptimo decil y el 30 percentil, de la siguiente tabla: Salarios
No. De
fa
(I. De Clases) Empleados (f1) 200-299
85
85
300-299
90
175
400-499
120
295
500-599
70
365
600-699
62
427
700-800
36
463
Como son datos agrupados, se utiliza la fórmula
Siendo, La posición del primer cuartil.
La posición del 7 decil.
La posición del percentil 30. Entonces,
El primer cuartil: 115.5 – 85 = 30.75 Li = 300, Ic = 100 , fi = 90
El 7 decil:
Posición: 324.1 – 295 = 29.1 Li = 500, fi = 70
El percentil 30 Posición:
138.9 – 85 = 53.9 fi = 90
Estos resultados nos indican que el 25% de los empleados ganan salarios por debajo de $ 334; que bajo 541.57 gana el 57%de los empleados y sobre $359.88, gana el 70% de los empleados. Hay 99 percentiles que se denotan: P 1, P2, P3,......., P98, P99. Así P90, por ejemplo, deja por debajo de él el 90% de los elementos. La fórmula para realizar el cálculo del percentil 45, por ejemplo sería:
P45 l
I 45 N ( f i ) f 100
Ejercicio: De la siguiente serie hallar el primero y el tercer cuartil, el segundo y el séptimo decil y los percentiles 8 y 73.
Resp: Q1 = 34,82; Q3 = 47,36; D2 = 32,85; D7 = 45,83; P8 = 26,94; P73 = 46,75.
Obsérvese que entre los 6 cuantiles calculados, aparecen valores muy parecidos. En particular se dan las siguientes coincidencias:
El segundo cuartil equivale a la mediana El quinto decil y el quincuagésimo percentil se corresponden también con la mediana. Los percentiles P 25 y P75 se corresponden con el primer y tercer cuartil, respectivamente.
Los percentiles son valores que resultan de dividir la población (el N de las observaciones) en cien partes iguales (1% en cada una). Cálculo para datos sin agrupar
El percentil se obtiene identificando el valor que para la variable en cuestión tiene el individuo que ocupa la posición j% Cálculo para datos agrupados Cálculo a partir de la frecuencia relativa
Se debe tener en cuenta que cuando j es un valor entre 1 y 9 inclusive se debe escribir 0,0j en el numerador en lugar de 0,j Percentiles y datos percentiles
La expresión percentil se usa para indicar en una distribución de observaciones, el valor por debajo del cual está situado cierto porcentaje de distribuciones de valores, por ejemplo, al decir que en una distribución de estaturas el 15.28% de los alumnos mide 144.5 o menos, se expresa: P15.28 144 .5 Estamos afirmando que el 15.28% de los alumnos está por debajo de
144.5 cm. de estatura. Se presentan dos problemas relacionados al uso de percentiles:
Obtener el valor de la abscisa x que corresponde a un valor percentil, y Obtener el rango percentil correspondiente a un valor de la abscisa
Solución
3. Si conocemos el valor de x obtenemos el rango percentil
En la gráfica de la ojiva se traza, por el punto x conocido, una paralela al eje de las ordenadas hasta intersectar la ojiva y desde el punto de intersección se traza una paralela al eje de las abscisas y obtenemos el rango percentil P y . 4. Si conocemos el percentil (valor de y) obtenemos el valor de la abscisa x. Se traza por el punto que corresponde al percentil y P y , una paralela al eje de las abscisas hasta intersectar la ojiva; desde el punto de intersección se baja una perpendicular al eje de las x.