Estadística I
APUNT ES DE ESTA ESTA DÍSTICA I
ESTOS ESTOS APUN TES PERTENECEN PERTENECEN A : ____________ __________________________ ____________________________ ____________________________ ____________________________ ________________ __ M A T R I C U L A ______ _________ ______ ______ _____ __ G R U P O________ O___________ ______ ______ ______ ______ ______ ______ _____ __ L I C E N C I A T U R A EN EN _____ ________ ______ ______ ______ ______ ______ ______ ______ ______ ______ ______ ______ ______ ______ ____ _
Estadística I
CAPITULO 1 INTRODUCCIÓN A LA ESTADÍSTICA ANTECEDENTES Puede decirse que la estadística nació con los primeros Estados, y ésa es precisamente la etimología de la palabra estadística que deriva del término latín status (estado). En efecto, desde la Antigüedad los estados necesitaron recopilar datos sobre sus respectivos dominios y con diversos propósitos: fiscal, militar, agrícola, etc. Aunque estas primitivas estadísticas no tenían una finalidad científica, proporcionaban información numérica útil para el estado, que a partir del conocimiento estadístico del pasado y del presente podía establecer hipótesis sobre el futuro que orientasen su acción política. La palabra estadística la acuño el profesor Gottfried Achenwall (17191772), siendo el Dr. E. A. W. Zimmerman quien introdujo el término en Inglaterra. Su uso lo divulgó Sir John Sinclair en su obra titulada “Statical Account of Scotland 1791-1799” (Informe estadístico sobre Escocia 17911799), la verdadera estadística científica comenzó en el siglo XVII con los trabajos de Pierre Simón Laplace (1749-1827) y de Carl Friedrich Gauss (17771855), quienes obtuvieron importantes resultados a partir de su estudio de la teoría de los errores y la probabilidad. A lo largo del siglo XIX, la estadística se consolidó como disciplina científica, herramienta auxiliar imprescindible para otras ciencias que facilitó importantes descubrimientos. Ya en el siglo XX, los métodos de inferencia estadística incorporaron la formulación matemática de las leyes de la probabilidad. DEFINICIÓN Con el fin de estudiar inteligentemente el tema de la estadística debemos, en primer lugar, comprender lo que el término significa: ESTADÍSTICA.- Es un conjunto de técnicas mediante las cuales se recopilan, organizan y analizan datos con el propósito de tomar decisiones. Es una ciencia que se sirve de conjuntos de datos para obtener, a partir de ellos, conclusiones basadas en el cálculo de probabilidades.
Las aplicaciones de la estadística en el mundo moderno son innumerables y está presente como herramienta auxiliar en todas las ramas de la ciencia, la industria y la economía. La estadística tiene un gran campo de aplicación en diversas áreas de estudio. Dentro de las aplicaciones típicas en el área administrativa económica podemos mencionar: Pruebas de calidad Administración de personal 2
Estadística I
Administración de recursos humanos Cotizaciones Pólizas de garantía Oportunidades de crédito Nivel de competencia Investigación de mercados Registros contables Análisis de proyectos de inversión Seguros de vida Accidentes de trabajo Presupuestos Desempleo Niveles de productividad Bolsa de valores Composición del sector industrial Auditorias Establecimiento de salarios Inventarios Predicciones en el nivel de ventas y demanda de productos. CLASIFICACIÓN DE LA ESTADÍSTICA La estadística se divide en dos áreas: descriptiva e inferencial. 1. Estadística descriptiva:
Incluye las técnicas y herramientas que nos permiten recolectar, organizar, ordenar y resumir un conjunto de datos. Estas técnicas pueden ser de índole distinta: gráficas tabulares o de cálculo. Algunas técnicas son: *Gráficas: Histogramas, polígonos, ojivas. * Tabulares: Distribuciones de frecuencia * Cálculo: Obtener medidas de tendencia central y variación. Ejemplos del uso de la aplicación de la estadística descriptiva:
Calcular el promedio de artículos en inventario por mes Presentar gráficamente el comportamiento de ventas mensuales en una empresa Determinar cuál de dos fábricas presenta una mayor variación en el número de artículos producidos diariamente Calcular el salario medio de un grupo de trabajadores Representar gráficamente como está segmentado el mercado de consumidores de acuerdo con marcas de refresco Determinar cuál es la falla más frecuente que se presenta en un grupo de máquinas Clasificar un grupo de trabajadores de acuerdo con: la edad, productividad, salarios, etc. 3
Estadística I
2. Estadística inferencial: Comprende aquellas técnicas que nos permiten obtener y deducir conclusiones acerca de una población basándose en resultados del estudio de una muestra, con la finalidad de tomar decisiones. Debido a que estas decisiones normalmente se toman en condiciones de incertidumbre se requiere el uso de conceptos de probabilidad. Algunas técnicas son:
Distribución de muestreo Intervalos de confianza Pruebas de hipótesis Análisis de regresión y correlación Pruebas Xi cuadrada
Ejemplos de aplicación de la estadística inferencial: Se puede estimar la respuesta de los consumidores acerca de una campaña publicitaria Se puede predecir los porcentajes de votantes que registrará cada partido político en una elección Estimar cuantas de las declaraciones anuales de los contribuyentes contienen errores o datos falsos Predecir el % de artículos defectuosos que se encuentran en un embarque Encontrar si existe alguna relación entre la productividad de los trabajadores con respecto a una nueva política de trabajo
TAREA: DAR TRES EJEMPLOS DE APLICACIÓN DE LA ESTADÍSTICA DESCRIPTIVA Y DOS DE LA ESTADÍSTICA INFERENCIAL.
DESCRIPCIÓN Y RESUMEN DE DATOS Los datos estadísticos se obtienen mediante un proceso que comprende la observación o medición de conceptos como: ingresos anuales de una comunidad, calificaciones de exámenes, cantidad de café por sobre, resistencia a la ruptura de ciertos materiales, porcentaje de azúcar en cereales, etc. Tales conceptos reciben el nombre de variables, ya que producen valores que tienden a mostrar un cierto grado de diferencia al efectuar mediciones sucesivas. 4
Estadística I
Dependiendo de la naturaleza de los datos a medir, las variables se pueden clasificar de la siguiente manera:
Cualitativas Variables Cuantitativas
Continuas Discretas
Las variables cualitativas (o nominales) permiten arreglar los datos en categorías por ejemplo: contar cuantos profesores, ingenieros, administradores, contadores hay en un grupo de personas; determinar si un producto es de buena, mala o regular calidad; clasificar a los obreros como calificados o no calificados, etc. Las variables cuantitativas cuantitativas se determinan mediante valores numéricos por ejemplo: las ganancias anuales de una empresa, la producción diaria de petróleo, el tiempo requerido para rellenar un formulario gubernamental o el valor de un inventario. Las variables cuantitativas de dividen a su vez en dos tipos: continuas y discretas. Se denominan continuas cuando pueden asumir cualquier valor dentro de un determinado intervalo, por ejemplo: . El peso de un producto . La temperatura del día . La altura de una persona . Los litros de gasolina vendidos en un día Las variables discretas por el contrario, sólo pueden asumir ciertos valores dentro de un intervalo, es decir números enteros, por ejemplo: . Número de latas en una caja . Número de máquinas en reparación . Número de pedidos al día . Cantidad de facturas en un archivero . Número de clientes de una compañía . Número de piezas defectuosas producidas por una máquina
TAREA: PROPORCIONAR 5 EJEMPLOS DE VARIABLE CUALITATIVA, 5 DE VARIABLE CUANTITATIVA CUANTITATIVA DISCRETA DISC RETA Y 5 DE VARIABLE CUANTITATIVA CUANTITATIVA CONTINUA.
5
Estadística I
CAPITULO 2 ESCALAS DE MEDICIÓN Una escala de medición nos permite realizar la medición y clasificación de los datos a estudiar y está directamente relacionada con el tipo de variable a medir. Existen cuatro tipos de escala de medición: 1. Nominal 2. Ordinal 3. De intervalo 4. De razón 1.- Escala nominal.- Representa el nivel mínimo de medición y se utiliza para variables de tipo cualitativo y consiste en categorizar solamente el tipo de dato en algún grupo o con algún nombre. Por ejemplo:
1 2 3 4
Variable.- Marca de zapato deportivo Marca Nike Adidas New Balance Concord
Número de pares 12 50 45 15
Otros ejemplos: Sexo (masculino, femenino), religión (católico, protestante, testigo, etc.) 2.- Escala ordinal.- Permite además de categorizar los datos, darles un orden de acuerdo con el grado en el que posean determinado atributo. Por ejemplo: Variable.- Calidad de un producto 1 2 3
Calidad
Número de productos
Excelente Buena Regular
56 30 20 6
Estadística I
Otros ejemplos: Nivel socioeconómico (bajo, medio, alto); complexión (delgada, media, gruesa). 3.- Escala de intervalo.- Se utiliza para variables de tipo cuantitativo y permite además de darle un orden, medir numéricamente las diferencias que existen entre los datos. Es importante mencionar que no tiene un cero absoluto, es decir, que sí una variable tiene el valor de cero no indica que haya ausencia de la característica medida. Por ejemplo: Variable.- La edad en años cumplidos Edad *
1 2 3 4
0 -10 11-20 21-30 Más de 30
Número de personas
25 30 48 5
(*) En este caso 0 años no significa que no tengan edad, sino que no han cumplido aún un año (Cero Relativo). Otros ejemplos: La temperatura del día (00 no indica que no haya temperatura), calificación de desempeño del empleado (0 no indica que no exista desempeño, sino tal vez un mal desempeño), saldo promedio de una tarjeta de crédito (0 no significa que no tenga saldo). 4.- Escala de razón.- Tiene las propiedades de una escala por intervalos, con la excepción de que si posee un cero absoluto, es decir, el cero indica ausencia total de la característica medida. Por ejemplo: Variable.- Número de artículos defectuosos en embarques Número de defectuosos
1 2 3 4
0-20 21-40 41-60 Más de 60
artículos Cantidad de embarques
10 5 1 0
Otros ejemplos: Velocidad de un automóvil, cantidad de cafeína en un producto, número de de cajas de cigarrillos en exhibición.
7
Estadística I
DISTRIBUCIONES DE FRECUENCIA Es una tabla de resumen en la cual se agrupan en clases o categorías los posibles valores de una variable y se registra el número de observaciones (frecuencia) que corresponde a cada clase. Las variables pueden ser cualitativas (nominales) o cuantitativas (numéricas), y si son cuantitativas, las clases de la distribución pueden ser de punto o de intervalo. Ejemplos: Variable Cualitativa Sexo (clase o categoría)
Número de alumnos (frecuencia)
Masculino Femenino Total
25 15 40
Variable Cuantitativa Distribución de punto Edad (Clase)
Número de alumnos (frecuencia)
18 19 20 21 22 23 Total
4 10 5 1 10 10 40
Variable Cuantitativa Distribución por intervalo De extremo cerrado Edad (clase)
18-20 21-23 Total
Número de alumnos (frecuencia)
19 21 40
Variable Cuantitativa Distribución por intervalo De extremo abierto Edad (clase)
Menos de 20 20 o más Total
Número de alumnos (frecuencia)
14 26 40 8
Estadística I
CONSTRUCCIÓN DE UNA DISTRIBUCIÓN DE FRECUENCIAS POR INTERVALO Una distribución de frecuencias se puede definir como: como: La tabulaciòn, o el registro por marcas, del número de veces que se presenta una cierta medición de una característica, dentro de la muestra o población que se está examinando. Para ejemplificar el procedimiento de construcción se tomará el siguiente ejemplo: La siguiente es una lista de los salarios diarios a destajo para los 30 obreros que laboran en una fábrica.
24 28 31 32 25
28 24 28 32 28
30 31 28 28 27
33 26 25 26 27
26 29 26 24 29
30 30 26 32 30
Procedimiento: 1.- Calcular el rango: r ango: RANGO= DATO MAYOR – DATO MENOR (A este procedimiento también se le conoce como Amplitud, Gama o Recorrido, que es la medida más simple de dispersión). RANGO= 33 – 24 = 9 2.- Determinar el número de clases con la fórmula siguiente, redondeando a un valor entero que no sea menos a 4 ni mayor a 15: Número de clases =
Número de datos
# Clases = (30) 1/2 = 5.47 -> 5 Criterio de redondeo > ó = 0.5 hacia arriba y < 0.5 hacia abajo 3.- Determinar el intervalo de clase: Intervalo= (Rango + 1) / Número de clases Intervalo= (9+1) = 2 5 El resultado se debe redondear según la resolución de datos, si son enteros a enteros, si tienen un decimal a un decimal, etc. 4.- Construir la tabla de distribución, anotando para cada clase el límite inferior, superior y frecuencia (número de datos que incluye). En algunos casos se debe agregar una clase más a las calculadas para que todos los datos estén en alguna clase (sucede generalmente cuando el intervalo fue redondeado hacia abajo en el paso anterior)
9
Estadística I
Número de clase
Salario Limite inferior
Salario Limite superior
Frecuencia
1 2 3 4 5 Total
24 26 28 30 32
25 27 29 31 33
5 7 8 6 4 30
FRECUENCIA RELATIVA Y ACUMULADA Clase
Limite inferior
1 2 3 4 5
Limite superior
24 26 28 30 32
25 27 29 31 33
Frecuencia absoluta
5 7 8 6 4
Frecuencia relativa
Frecuencia acumulada
16.7 % 23.3% 26.7% 20.0% 13.3%
5 12 20 26 30
Frecuencia relativa acumulada
16.7% 40.0% 66.7% 86.7% 100%
Marca de clase
25 27 29 31 33
(Nota: Marca de clase: Xc= Limite inferior + Intervalo) 2
TAREA: LOS DATOS QUE SE DAN A CONTINUACIÓN CORRESPONDEN A LA LONGITUD LONGI TUD MEDIA EN PIES PARA UNA MUESTRA DE 23 LANCHAS PESQUERAS:
66 93 69 73 57
65 66 61 77 56
96 96 51 89 55
80 75 84 69 78
71 61 58
CONSTRUYA UNA DISTRIBUCIÓN DE FRECUENCIA FRECUENCIAS S COMPLETA PARA EL PROBLEMA
10
Estadística I
¿Población o Muestra? Cuando no es posible trabajar con todos los datos de la población es necesario trabajar con una muestra representativa. Los expertos en estadística recogen datos de una muestra y utilizan esa información para hacer inferencias sobre la población que representa esa muestra. Así, una población es un todo y una muestra es una u na fracción o segmento de ese todo.
La estadística reclama una muestra lo más grande posible a fin de asegurar la máxima protección. Como resultado, el tamaño de la muestra apropiado para un análisis, no se decide sobre la base de un cálculo estadístico fijo, sino que por lo general hay que tomar en cuenta dos factores: 1. El aspecto económico ; o sea, ¿cuánto costará tomar cada lectura? 2. La exactitud estadística que se requiere ; es decir, ¿qué error se puede permitir en la determinación de los valores de las medidas de dispersión y de tendencia central de la distribución?. Por lo tanto, se debe buscar una compensación entre los aspectos económicos y estadístico. Un profesionista capaz es aquel que puede llevar a la práctica los conocimientos de la estadística, la lectura de la información y el cálculo de los datos obtenidos, para con ello permitir que la toma de decisiones sea más eficiente y la probabilidad de error disminuya. La experiencia que se tenga del proceso de que se trate y el sentido común del personal interesado, juega un papel importante en estas decisiones. Heriberto Romo muestra una tabla muy práctica con margen de error de +/- 5%, para determinar tamaños de muestra: Tamaño del universo Tamaño de la muestra 10 20 50 100 200 500 1000 2000 5000 10 000 100 000 1 000 000 50 000 000
10 19 44 79 131 216 275 319 353 366 378 380 380
Fuente: Galindo Càceres Jesús (Coord.) “Técnicas de investigación en Sociedad, Cultura y comunicación” México Ed. Pearson 1988, 528 pp
11
Estadística I
CAPITULO 3 REPRESENTACIONES GRÁFICAS. Gráficas para variables cualitativas. Gráfica de barras.- Se anotan sobre uno de los ejes las categorías y sobre el otro eje la frecuencia (conteo) dibujando una barra para cada categoría.
Ejemplos: Profesión (clase)
Número de Personas (frecuencia) Médico Médic o 25 Contador Conta dor 10 Administra Admini strador dor 40 Ingeniero 50 Abogado Aboga do 25 Total
150
% de Personas
Grados
Grados acumulados
16.7 6.7 26.7 33 33.3 16.7
60° 24° 96° 120° 60°
60° 84° 180° 300° 360°
100.1
12
Estadística I
Histograma 60
50
50 a i c n e u c e r F
40
40 25
30 20
25 10
10 0
Médico
Contador
Adm inistrador
Ingeniero
Abogado
25
No de personas
10
No de personas
40
No de personas
50
No de personas
25
No de personas
Profesión
Gráfica de Pastel (Pay).(Pay).- La circunferencia es dividida de acuerdo con el % de frecuencia (frecuencia relativa) que corresponda a cada categoría sobre la base de d e 360° de la circunferencia. c ircunferencia.
Abogado. 16.70%
Médico. 16.70% Contador. 6.70%
Ingeniero. 33.30%
Médico
Contador
Administrador. 26.70%
Administrador
Ingeniero
Abogado
13
Estadística I
TAREA: Construya una distribución de frecuencias para los alumnos de su grupo por género (hombres y mujeres) y represéntelos gráficamente. Construya la distribución de frecuencias y las gráficas para la pregunta 7 del problema 6 de los ejercicios de la página 19 y 20. GRÁFICAS PARA VARIABLES CUANTITATIVAS. Histograma.- El histograma es la forma más común para la presentación de datos clasificados. Es una gráfica a base base de barras sin espacios intermedios de una distribución de frecuencias. Se construye fabricando sobre el eje horizontal los límites inferiores de clase y sobre el eje vertical la frecuencia absoluta o frecuencia relativa. La escala vertical o eje Y generalmente comienza en cero, mientras que el eje X o la escala horizontal puede iniciarse con cualquier número adecuado que convenga como punto de partida para iniciar las clases. Histograma de frecuencia absoluta 9
8
8 s o r e r b o e d o N
7
7
6
6
5
5
4
4 3 2 1 0 salario salario salario
24
26
26
28
28
30
30
32
32
34
5 7 8 6
salario
4
salario
salarios
14
Estadística I
Histograma de frecuencia relativa 30.00%
26.70% 23.30%
25.00% s o r e r b o e d %
20%
20.00%
16.70% 13.30%
15.00% 10.00% 5.00% 0.00%
24
26
26
28
28
30
30
32
32
34
16.70%
salario
23.30%
salario
26.70%
salario
20%
salario
13.30%
salario Salario
Polígono de Frecuencia.- Es una gráfica de líneas de una distribución de frecuencia, en el eje horizontal se anota las marcas de clase y en el eje vertical la frecuencia absoluta o relativa. (El polígono de frecuencia también puede formarse colocando un punto sobre la mitad de la cúspide de cada rectángulo del histograma y luego uniendo dichos puntos por medio de una línea). Representan curvas útiles para describir los datos. s 10 o r 8 e r b 6 o e 4 d o 2 N
8
7
6
5
4
0
0 0
23
0 23 25
25 27
27 29
29 31
31 33
33 35
Salario
Los polígonos poseen ciertas ventajas: 1. El polígono de frecuencias es más sencillo que su histograma correspondiente. 2. Bosqueja con más más claridad un perfil del patrón patrón de datos.
15
Estadística I
3. El polígono se vuelve cada vez más más suave y parecido a una curva conforme aumentemos el número de clases y el número de observaciones. Un polígono como el que se acaba de describir (suavizado mediante el aumento de datos y de clases puntuales) se conoce como curva de frecuencia . Los histogramas y los polígonos de frecuencia son similares Ojiva.- Es una gráfica de líneas de la frecuencia acumulada , sobre el eje horizontal se anota los límites inferiores de clase y sobre el eje vertical la frecuencia acumulada o relativa acumulada. (Muchas de éstas tienen el aspecto de una “S”). Nos permite permite ver cuántas observaciones están están por encima de ciertos valores, en lugar de hacer un mero registro del número de elementos que hay dentro de los intervalos. Ojiva porcentual (frecuencia relativa acumulada) 120% 100%
100% 87%
80%
76% 76% 76% 76% 76% 76% 76% 76% 76% 76% 7 76% 6% 66.70%
s o r e 60% r b O e d 40% %
52% 52% 52% 52% 52% 52% 52% 52% 5 52% 2% 40.00%
20%
17%
0%
0% 0
0.00% 24
26
28
29
30
31
32
34
-20% Salario
Uso de ojiva (interpolación) ¿Qué porcentaje de trabajadores ganan menos de $29? R= 52% ¿Qué porcentaje de trabajadores ganan más de $31? R= 100-76=24%
16
Estadística I
TAREA: Resuelve los siguientes ejercicios.
1.- Del problema de las lanchas pesqueras: aa)) Construya las gráficas de histogramas, polígonos y ojivas. bb)) Usando la ojiva ¿cuántas de las lanchas de la muestra mide menos de 75 pies? cc)) Si un artículo del reglamento para construcción de las lanchas especifica que por lo menos el 20% debe medir más de 90 pies, usando la ojiva responda si se está cumpliendo con esta disposición. 2.- A continuación se muestra un registro de un superintendente sobre el tiempo muerto en minutos sobre una muestra de los turnos de operación: 60 80 113 102 110
72 66 121 116 99
126 101 93 114 139
110 75 87 107 108
91 93 119 113 128
115 129 111 119 84
112 105 97 100 99
aa)) Construya una tabla de distribución de frecuencia absoluta, relativa, acumulada, relativa acumulada y marca de clase. bb)) Dibuje los histogramas, polígonos y ojivas. 3.- Los registros de una empresa sobre el número de trabajadores que han llegado tarde diariamente durante el último mes se reportan a continuación: 2 0 4 15 18
3 11 10 12 16
12 5 2 0 12
8 7 7 3 6
15 5 9 7 8
2 9 11 9 3
aa)) Construya una tabla de distribución de frecuencia absoluta, relativa, acumulada, relativa acumulada y marca de clase. bb)) Dibuje los histogramas, polígonos y ojivas.
17
Estadística I
4.- De los registros escolares sobre el porcentaje de alumnos que reprueban su primer examen se tomó una muestra aleatoria de 40 grupos de diversas licenciaturas y los resultados fueron: fueron: 20 3 10 12
5 8 12 12 16
12 9 25 18
8 12 12 14
6 4 16 13
9 15 24 32
15 23 18 18 20
35 14 10 26
20 11 6 14
6 5 3 18
aa)) Construya una tabla de distribución de frecuencia absoluta, relativa, acumulada, relativa acumulada y marca de clase. bb)) Dibuje los histogramas, polígonos y ojivas para frecuencias absolutas. 5.- Los registros de tránsito sobre el número de accidentes automovilísticos en la ciudad durante las primeras 6 semanas de este año indican lo siguiente: 1ª semana 2ª semana 3ª semana 4ª semana 5ª semana 6ª semana
5
Número de accidentes por día. 22 12 16 40
10
8
22
8
16
14
8
11
6
14
10
8
9
14
12
4
18
14
13
21
17
28
8
26
14
5
30
26
35
12
16
18
7
18
26
34
15
aa)) Construya una tabla de distribución de frecuencia absoluta, relativa, acumulada, relativa acumulada y marca de clase. bb)) Dibuje los histogramas, polígonos y ojivas solo de frecuencias relativas. 6.- Se realizó una encuesta para conocer la opinión de la gente sobre algunos de los temas que ha tratado el actual gobierno, algunas de las preguntas fueron: 11.. 22.. 33.. 44..
Edad. Sexo: M (asculino) F (emenino). Ingreso mensual. ¿Cómo considera que el gobierno manejó el asunto de la liquidación del SME? (1) Bien
(2) Regular
(3) Mal
18
Estadística I
55.. ¿Está de acuerdo que será bueno para el país el grabar las medicinas con el IVA? (1) Si
(2) No
66.. ¿Está de acuerdo con la legalización de autos chocolates? (1) Si
(2) No
77.. ¿Cómo califica el desempeño del gobierno de Felipe Calderón? (1) Excelente
(2) Bueno
(3) Regular
(4) Malo
De las encuestas se tomó una muestra de 35 personas con la siguiente información. Pregunta Persona
1 Edad
2 Sexo
3 Ingreso
4 SME
5 Medicina
6 7 Legalización Calif.
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29
25 42 18 26 48 52 40 36 21 36 42 58 19 26 32 18 42 47 45 32 22 26 29 40 35 36 22 28 16
M M M F M M M F M F F F F M F M F M M M M M F F M F F F F
3400 5200 2300 3600 5800 6800 12500 8450 4150 6850 8900 2680 4600 5800 11000 3240 8600 2450 2600 8500 3200 2800 1600 2400 4650 3220 1450 3620 1100
2 2 3 1 2 2 2 3 1 1 1 3 2 3 1 1 1 1 2 2 2 3 3 1 1 2 3 3 2
2 1 2 2 2 2 2 2 1 2 1 1 2 2 2 2 2 2 2 1 2 2 2 2 2 1 1 2 2
2 1 1 1 2 2 2 2 1 2 1 2 1 2 2 1 1 1 2 2 2 2 2 1 2 2 1 2 2
3 2 2 1 2 2 3 4 3 4 4 1 1 2 2 2 1 3 2 2 2 2 2 2 1 1 2 2 3 19
Estadística I
30 31 32 33 34 35 aa)) bb)) cc)) dd)) ee))
35 M 3680 1 2 2 1 42 M 5700 2 2 1 4 48 F 6800 2 1 2 2 65 F 1850 3 2 2 1 52 M 7400 1 2 2 3 32 M 3650 1 2 1 2 Realiza una distribución de frecuencias para cada pregunta. Identifica para cada pregunta el tipo de variable y la escala de medición que se usa. Construye una gráfica de pastel para la pregunta 2. Construye un histograma de frecuencia relativa para la pregunta 3. Construye una ojiva de frecuencia relativa para la pregunta 1.
El análisis exploratorio de datos Es una técnica que permite revisar muchos datos y resumirlos con rapidez usando algo tan sencillo como la aritmética básica y unos cuantos diagramas simples. Una de las técnicas más útiles es: La gráfica de tallo y hoja. Ejemplo: Calificaciones en el primer examen parcial: 79 78 78 67 76 87 85 73 99 84 72 66 57 94 84 72 51 48 61 82 93 100 89 72 Para producir una gráfica de tallo y hoja: 1. Hacer una lista vertical de los tallos 2. Dibujar una línea vertical a la derecha de los tallos 3. Listar las hojas 4. Ordenar las las hojas en cada renglón renglón 0 5. Girar en 90 la gráfica, obteniéndose algo que se parece a los histogramas.
TAREA: Hac er el diagrama de t allo y hoja de los TAREA: problemas 2 y 3 de la página 17
20
Estadística I
CAPITULO 4 MEDIDAS DE TENDENCIA CENTRAL (MTC) El objetivo de las medidas de tendencia central es calcular un valor que sea representativo del grupo de datos bajo estudio. ¿Por qué se les llama de tendencia central? Porque el valor calculado es muy similar (tiende) a los valores que estarían en medio (parte central) del grupo de datos ordenados. Las medidas de centralización o de tendencia central son valores que tienden a situarse en el centro de un conjunto de datos ordenados según su magnitud. Para usos industriales, las dos medidas de tendencia central más utilizadas con la media y la mediana. Principales MTC: a. Media simple b. Media aritmética (promedio) c. Mediana d. Moda ¿Cómo se calculan las MTC? Dependiendo como se tengan los datos que se van a procesar: 1) Datos sin agrupar: agrupar: Se calculan a partir de los valores individuales de los datos, es decir, se debe conocer cada uno de los valores. 2) Datos agrupados: agrupados: Se calculan a partir de una tabla de distribución de frecuencias (resumen), es decir, los datos ya han sido procesados previamente en una distribución y no se cuenta con los valores individuales. 1) CALCULO DE MTC PARA DATOS SIN AGRUPAR a) Media simple: La media simple es el guarismo intermedio entre la observaciòn menor y la mayor. Por definición: Media simple= Observaciòn mayor + Observaciòn menor 2 b) Media aritmética: Es la medida de localización más frecuentemente utilizada, especialmente en el campo de la comprobación de hipótesis estadísticas. Fórmulas: x N ( población) i
21
Estadística I
x x n ( muestra ) i
media aritmética
de población .
media aritmética de una muestra . xi Sumatoria de valores x1 x2
x
N número de datos en la población . n número de datos en la muestra . c) Mediana: La mediana es el valor que ocupa el valor central de toda la distribución de frecuencias (es el valor que divide a la distribución por la mitad). Esto es, la mitad de los casos caen por debajo de la mediana y la otra mitad se ubica por encima de ella. La mediana es una medida de tendencia central propia de los niveles de medición ordinal, por intervalos y de razón. Primeramente se deben ordenar los datos (en forma ascendente o descendente) y después se ubica el valor que esté exactamente en la parte central de la lista ordenada. Puede ser que existan dos valores centrales, en cuyo caso se debe calcular un promedio entre ellos. d) Moda. Se define como el dato que más se repite en el grupo, es decir, el de mayor frecuencia. Si solo existe un valor de moda, se dice que los datos tienen una distribución UNIMODAL, si hay dos valores distintos de moda, entonces es BIMODAL y si hay más de dos será MULTIMODAL (o POLIMODAL), También pueden existir casos donde no haya moda. Ejemplo: Calcule las MTC en datos sin agrupar para las horas extra laboradas a la semana por una muestra de 16 empleados tomados de una empresa, cuyos registros fueron: 2 2.5 3 4 2.5 2 2.5 3 3 1.5 2 3.5 1.5 1 2.5 2.5
TAREA: Resuelve los siguientes ejercicios.
1. Calcule las medidas medidas de tendencia central del problema los salarios diarios a destajo para los 30 obreros de la página 9. 2. Calcule las medidas de tendencia central del problema de las lanchas pesqueras de la página 10.
22
Estadística I
2) CALCULO DE MTC PARA PARA DATOS AGRUPADOS. aa)) Media Aritmética.
f X ( población ) f ci
i
i
f X x (muestra) f i
ci
i
fi frecuencia absoluta de cada clase. Xci marca de cada clase.
bb)) Mediana.
Med Linf med f aA
f c
L inf med
2
f i
f aA
f c
( I )
Límite Inferior de clase mediana .
Frecuencia acumulada de la clase anterior a la mediana.
Frecuencia absoluta de la clase mediana .
I Intervalo de clase. Clase Mediana primer clase cuya frecuencia acumulda sea mayor o igual a la mitad de los datos .
23
Estadística I
cc)) Moda.
Mod L inf mod
Linf mod
Límite
d 1 d 1 d 2
( I )
Inferior de clase Modal .
d 1
d 2
diferencia entre la frecuencia absoluta de la clase Modal y la siguiente.
diferencia entre la frecuencia absoluta de la clase Modal y la anterior .
I Intervalo de clase. Clase Modal
clase con mayor frecuencia absoluta más datos
TAREA: 1. Calcule las MTC MTC para el problema de los salarios en datos agrupados: Clase 1 2 3 4 5
L inf 24 26 28 30 32
L sup 25 27 29 31 33
f 5 7 8 6 4
fa 5 12 20* 26 30
Xc 25 27 29 31 33
2. Calcule las MTC para el problema problema 4 de los registros escolares sobre el porcentaje de alumnos que reprueban su primer examen en datos agrupados de la página 18. 3. Calcule las MTC para el problema 5 de los registros de tránsito sobre el número de accidentes automovilísticos en datos agrupados de la página 18.
24
Estadística I
CAPITULO 5 PERCENTILES
Un percentil es una medida que señala los valores, no necesariamente en una localización central. Un percentil da información acerca de cómo se distribuyen los valores sobre el intervalo, desde el menor hasta el mayor. Para valores que no tienen muchos valores repetidos el p-ésimo (se dice “peésimo”) percentil divide los datos en dos partes. Más o menos el p por ciento de los elementos tienen valores menores que el p-ésimo percentil. Aproximadamente el (100 –p) por ciento de los elementos tienen valores mayores que el p-ésimo percentil. Este percentil se define como sigue: Percentil El p-ésimo percentil es un valor tal que por lo menos un p por ciento de los elementos tienen dicho valor o menos y, al menos (100 –p) por ciento de los elementos tienen este valor o más.
Cálculo del p-ésimo percentil 1. Ordenar los datos de manera ascendente ascendente 2. Calcular un índice i i = (p/100) n
En donde p es el percentil de interés y n es la cantidad de elementos. 3. (a) Si i no es entero, se redondea. El valor entero inmediato mayor que i indica la posición del p-ésimo percentil (b) Si i sí es entero, el p-ésimo percentil es el promedio de los valores de los datos ubicados en los lugares i e i+1. Ejemplo: Ejemplo: 1. Determinar el 85º. percentil de los siguientes datos: 2210 2255 2350 2380 2390 2420 2440 2450 2550 2630 2825 2. De los mismos mismos datos calcule el 50º. percentil CUARTILES Con frecuencia se dividen los datos en cuatro partes, cada una con aproximadamente la cuarta parte (25% de los elementos). A los puntos de división se les llama cuartiles y se definen como sigue: Q1 = Primer cuartil ó 25% percentil Q2 = Segundo cuartil ó 50% percentil (mediana ) Q3 = Tercer cuartil ó 75% percentil Ejemplo: 3. Determinar el segundo cuartil (o la mediana) mediana) de los siguientes datos: 2210 2255 2350 2380 2390 2420 2440 2450 2550 2630 2825 4. Determinar de los mismos datos Q1 y Q3. 5. De los problemas 2 y 3 de la página 17 determine los valores de Q1, Q2 y Q3.
25
Estadística I
CAPÍTULO 6 MEDIDAS DE VARIACIÓN (DISPERSIÓN) El objetivo de las medidas de variación es determinar que tanta similitud o diferencia (variación) existe entre los datos bajo estudio. Las medidas de dispersión dan idea de la separación de los datos numéricos alrededor de un valor medio. Las dos medidas de dispersión de mayor utilidad son la desviación estándar y la amplitud (“range”). Las medidas de variación se calculan en base al valor de la media aritmética y entre las principales podemos mencionar: a) Desviación media (DM) b) Varianza y desviación estándar ( o típica) c) Coeficiente de variación 1) DATOS SIN AGRUPAR a) Desviación media.Es un promedio de las diferencias absolutas que existe entre cada dato del grupo con respecto a su media aritmética. DM
M Xi ( población)
DM
x X i (muestra)
N
M Xi
n
Diferencia absoluta ( positiva) entre la media y cada dato.
b) Varianza y desviación estándar.Son las medidas de variación más importantes en estadística y valoran la diferencia al cuadrado que existe entre cada dato y la media, para eliminar los efectos que ocasionan datos extremosos (valores que son muy altos o muy bajos con respecto al resto del grupo). La desviación estándar o típica es el promedio de desviación de las puntuaciones con respecto a la media. La varianza es la desviación estándar elevada al cuadrado.
2
M Xi N ( población ) 2
Varianza
s2
x X i n 1 ( muestra ) 2
26
Estadística I
Desviación Estándar o Típica
s
2
( población )
2 s ( muestra )
c) Coeficiente de variación.Es útil para comparar la variación de dos grupos de datos cuyos valores sean de distinta naturaleza. Se expresa como un porcentaje de la magnitud de la desviación estándar con respecto a su propia media aritmética. Cv M 100 ( población)
Cv xs 100 (muestra) Ejemplo: Determine las medidas de variación en datos sin agrupar para el problema de las horas extra. x 2.44 2 Xi x Xi x Xi 2 2.5 3 1.5 2.5 2 1.5 1 3 2.5 2 2.5 4 3 3.5 2.5 ∑
0.44 0.06 0.56 0.94 0.06 0.44 0.94 1.44 0.56 0.06 0.44 0.06 1.56 0.56 1.06 0.06 9.24
0.1936 0.0036 0.3136 0.8836 0.0036 0.1936 0.8836 2.0736 0.3136 0.0036 0.1936 0.0036 2.4336 0.3136 1.1236 0.0036 8.9376
27
Estadística I x Xi DM 916.24 0 . 5775 hrs n x Xi 2 2 8 . 9376 s hrs 0 . 5958 (var) 15 n 1 s 0 . 5958 0 . 7719 hrs ( DE ) 100 31 .63 % Cv xs 100 0 .27719 . 44 2
2) DATOS AGRUPADOS a) Desviación media
fi M Xci DM ( población ) fi fi x Xci DM fi ( muestra ) fi frecuencia absoluta de cada Xci Marca de cada clase.
clase.
b) Varianza y desviación estándar.
2
fi M Xci ( población ) fi 2
Varianza
s
2
fi x Xci fi 1 ( muestra ) 2
28
Estadística I
2
( población )
Desviación estándar
s
2
s ( muestra )
c) Coeficiente de variación.
M 100 ( población ) Cv xs 100 (muestra ) Cv
Ejemplo: Salarios (datos agrupados). Clase L inf L sup f Xc M Xci
f M Xci
M Xci 2
fi M Xci
1 2 3 4 5
19 12.6 1.6 13.2 16.8
14.44 3.24 0.04 4.84 17.64
72.2 22.68 0.32 29.04 70.56
24 26 28 30 32
Total
25 27 29 31 33
5 7 8 6 4 30
25 27 29 31 33
3.8 1.8 0.2 2.2 4.2
63.2
2
194.8
$28.80 (datos agrupados previament e calculada ) DM 6330.2 $2.11 2 2 194.8 30 6.49 pesos
2 6.49 $2.55 Cv M 100 282..5580 100 8.85 %
29
Estadística I
TAREA: 1. El departamento de transito de la ciudad de Irapuato está preocupado por la velocidad a la que los conductores manejan en un tramo de la carretera principal. Los datos de la velocidad de 45 conductores en Km / hr son los siguientes: 15 32 45 46 42 39 68 47 18 31 48 49 56 52 39 48 69 61 44 42 38 52 55 58 62 58 48 56 58 48 47 52 37 64 29 55 38 29 62 49 69 18 61 55 49 Calcule: a. Las medidas de tendencia central y de dispersión de los datos no agrupados b. Las medidas de tendencia central y de dispersión de los datos agrupados c. El departamento de transporte informa que a nivel nacional, no más más del 10% de los conductores excede 55 Km / hr ¿Se comportan los conductores del municipio de Irapuato de acuerdo con las afirmaciones del Departamento de Transporte acerca de los patrones de manejo? 2. El administrador de un hospital ordenó un estudio del tiempo que un paciente debe esperar antes de ser tratado por el personal de la sala de urgencias. Los datos que se presentan a continuación fueron tomados durante un día normal: Tiempo de espera (minutos)
12 13 21 20 24 11 17 16 18 25
26 16 7 14 25 27 15 29 5 13
a) Organice los datos en un ordenamiento ascendente ¿Qué comentario puede hacer con respecto al tiempo de espera a partir del ordenamiento? b) Calcule las medidas medidas de tendencia central de los datos sin agrupar c) Calcule las medidas de variación de los los datos agrupados d) A partir de una ojiva, establezca cuánto tiempo debe suponerse que el 75% de los pacientes aguarden en la sala de espera.
30
Estadística I
DETECCIÓN DE VALORES ATÍPICOS A veces un conjunto de datos tiene uno o más elementos con valores demasiado grandes o demasiado pequeños. a los valores extremos como éstos se les llama valores atípicos. atípicos. Las personas con experiencia en estadística, toman sus precauciones al identificar los valores atípicos y los revisan uno a uno cuidadosamente. Un valor atípico puede ser un elemento para el cual se haya anotado su valor en forma errónea. También También puede ser uno que por error error se incluyó en el conjunto de datos y debe eliminarse. Para identificarlos de acuerdo con el “Teorema de Chebysev” se puede aplicar una regla empírica que dice que casi todos elementos están a menos menos de tres desviaciones estándar estándar de la media media (z). De esta manera nos aseguramos la validez de los valores de datos antes de efectuar una serie de pruebas. Ejemplo: 1. Calcule los valores de z para los siguientes datos: datos: Muestra
Desviación respecto a la mediana
Valor de z _
( x - xi) / s
_
( x - xi)
46 54 42 46 32 Por consiguiente, los valores de z muestran que los datos anteriores _______ hay valores atípicos. 2. Se tiene la muestra de tamaño tamaño 5 con los valores de datos: datos: 10, 20, 12, 17 y 16. Determine el valor de z para cada uno de los siguientes valores. 3. Se tiene una muestra con media de 500 y desviación estándar de 100 ¿Cuál es el valor z de cada uno de los siguientes valores: 520, 650, 500, 450 y 280? 4. Los siguientes datos son salarios anuales para para una muestra muestra de gerentes de tienda. Los datos están en miles de pesos. 33.7 45.1 39.5 48.8
45.4 37.7 42.9 31.3
44.0 43.9 51.0 51.2
47.5 48.3 35.6 43.2
59.6 53.0 41.5 54.4
a) Calcule la media y la desviación estándar estándar b) Un gerente de Monterrey gana $28 000. 00 al año. Calcule el valor de z para este gerente y diga si cree que este salario debe considerarse como valor atípico. c) Calcule los valores de z para salarios de $30 000.00, $45 000.00, $60 000.00 y $75 000.00 ¿Debe considerarse atípico alguno de ellos?
31
Estadística I
ASIMETRÍA Y LA CURTOSIS. Las medidas de distribución nos permiten identificar la forma en que se separan o aglomeran los valores de acuerdo a su representación gráfica. Estas medidas describen la manera como los datos tienden a reunirse de acuerdo con la frecuencia con que se hallen dentro de la información. Su utilidad radica en la posibilidad de identificar las características de la distribución sin necesidad de generar el gráfico . Sus principales medidas son la Asimetría y la
Curtosis. 1. Asimetría Esta medida nos permite identificar si los datos se distribuyen de forma uniforme alrededor del punto central (Media aritmética). La asimetría presenta tres estados diferentes, cada uno de los cuales define de forma concisa como están distribuidos los datos respecto al eje de asimetría.
Se dice que la asimetría es positiva cuando la mayoría de los datos se encuentran por encima del valor de la media aritmética, la curva es Simétrica cuando se distribuyen aproximadamente la misma cantidad de valores en ambos lados de la media y se conoce como asimetría negativa cuando la mayor cantidad de datos se aglomeran en los valores menores que la media 2. Curtosis Cuando medidos la curtosis de una distribución, estamos midiendo qué tan puntiaguda es. Es un indicador de lo plana o picuda que es es una curva. Mide cuan 'puntiaguda' es una distribución respecto de un estándar. Este estándar es una forma acampanada denominada 'normal', y corresponde a una curva de gran importancia en Estadística. Esta medida determina el grado de concentración que presentan los valores en la región central de la distribución. Por medio del Coeficiente de Curtosis, podemos identificar si existe una gran concentración de valores (Leptocúrtica), una concentración normal (Mesocúrtica) ó una baja concentración (Platicúrtica).
32
Estadística I
CAPITULO 7
PROBABILIDAD
Jacob Bernoulli (1654-1705), Abraham de Moivre (1667-1754), el reverendo Thomas Bayes (1702-1761) y Joseph Lagrange (1736-1813) desarrollaron fórmulas y técnicas para el cálculo de la probabilidad. En el siglo XIX, Pierre Simón, marqués de Laplace (1749-1827), unificó todas estas ideas y compiló la primera teoría general de probabilidad. La teoría de la probabilidad fuè aplicada con éxito en las mesas de juego y, lo que es más importante a la resolución de problemas sociales y económicos. Históricamente se han desarrollado tres enfoques para definir y calcular la probabilidad: a) Clásico (axiomático) b) Frecuencia relativa c) Subjetivo Enfoque clásico.La probabilidad se determina de la siguiente manera: Si existen N(A) resultados que son favorables a un evento de un total de N(S) resultados posibles, y todos los resultados son igualmente probables y mutuamente excluyentes, entonces la probabilidad de que ocurra el evento (A) está dada por:
P ( A)
N ( A) N ( S )
Se dice que dos resultados son mutuamente excluyentes si no pueden ocurrir simultáneamente, es decir; que al ocurrir uno de ellos automáticamente la ocurrencia del otro se anula.
33
Estadística I
Ejemplos de probabilidad clásica: 1. Lanzar una moneda.
P sol
1 2
0 .5 50 %
Favorable que caiga sol. 2. Lanzar un dado. Favorable que caigan 3 puntos.
P 3 ptos
1 6
0.1667 16.67%
Probabilidad favorable que caigan más de 4 puntos.
P Más puntos
2 6
0.3333 33.33%
3. Lanzar dos dados. Probabilidad de que caigan 3 puntos. Dado A: 6 resultados. Dado B: 6 resultados. 6*6=36
P 3 puntos
2 36
0.05 5.55%
34
Estadística I
4. ¿Cuál es el número más más probable que salga? 1
2
3
4
5
6
1
1,1
1,2
1,3
1,4
1,5
1,6
2
2,1
2,2
2,3
2,4
2,5
2,6
3
3,1
3,2
3,3
3,4
3,5
3,6
4
4,1
4,2
4,3
4,4
4,5
4,6
5
5,1
5,2
5,3
5,4
5,5
5,6
6
6,1
6,2
6,3
6,4
6,5
6,6
El número 7.
P 7
6 36
0.166 16.67%
5. Si se lanzan 3 monedas monedas ¿cuál es la probabilidad de que caigan 2 soles? 1 2 3
A A A
P 2 soles
A A S 3 8
A S S
A S A
S S S
S S A
S A A
S A S
0.375 37.5%
35
Estadística I
FRECUENCIA RELATIVA. La probabilidad se determina con base en la proporción de veces que se registra un resultado favorable a un evento de un total de observaciones registradas. No hay implícita ninguna suposición previa de igualdad de probabilidades. Ejemplo:
A continuación se muestra una distribución de frecuencias para las comisiones mensuales que obtuvieron un grupo de 300 vendedores.
Comisión Mensual 0-5,000 >5,000-10,000 >10,000-15,000 >15,000-20,000 >20,000
No. de vendedores 15 25 35 125 100 300
Determine la probabilidad de que al elegir un vendedor, este obtenga una comisión: aa)) Mayor a $10,000. bb)) Mayor a $20,000. cc)) De $10,000 ó Menor
P comisión P comisión P comisión
260 10 ,000 300 0 .8667 86 .67 % 20 ,000 100 0 .3333 33 .33 % 300 40 10 ,000 300 0 .1333 13 .33 %
SUBJETIVO.
La probabilidad esta determinada por el grado de confianza que una persona tiene en que un evento en particular ocurra, basándose en la evidencia que tiene disponible. (Es ampliamente usado).
36
Estadística I
EXPRESIONES DE VALORES DE PROBABILIDAD. La probabilidad es un valor que varia en un rango de 0 á 1 (0 á 100%). Si el valor es cero esto indica que es imposible que el evento ocurra, pero si es uno indica que el evento es seguro que ocurra.
0
P A 1
La probabilidad de que un evento ocurra más la probabilidad de que no ocurra debe ser igual a uno. (100%)
P A P A' 1
1 P A ' P A ' 1 P A P A
P(A)= Probabilidad de que ocurra “A”. P (A’)= Probabilidad de que no ocurra “A”.
REGLAS DE PROBABILIDAD PARA COMBINACIÓN DE EVENTOS. Regla de la suma (adición). Cuando se quiere calcular la probabilidad de que un evento (A) u otro (B) ó ambos (A y B) ocurran entonces se aplica la regla de la suma, en la cual se pueden dar dos casos dependiendo si los eventos son ó no mutuamente excluyentes. P A ó B P A P B P AB Eventos No mutuamente excluyente s. P A ó B P A P B Eventos mutuamente excluyente s.
Ejemplo: 1 2 3 4 5
Grupo Hombre Hombre Hombre Mujer Mujer
Edad 30 años 32 40 45 20 37
Estadística I
aa)) ¿Probabilidad de que sean mujeres ó mayores de 30 años?
P mujer P 30 P mujer y 30 25 35 15 54 0 .8 80 %
bb)) P 30
P 1 5
A
30 P 40 15 25 0 . 4 40
ó 40 B
%
cc)) Sea hombre ó tenga >35 años.
P Hombre P 35 años P Hombre, 35 años 35 53 25 54 80% dd)) Sea mujer ó >40 años.
Pmujer P 40 años Pmujer , 40 años 52 53 15 45 80% ee)) Sea un hombre >40 años.
P Hombre, 40 años 25 40% ff)) Sea hombre ó mujer.
P Hombre P mujer 53 25
5 5
100 %
gg)) Tenga >20 años y <28 años. P 20 0
años
y
P
28 años
38
Estadística I
Otro Ejemplo:
En una fábrica hay un total de 130 técnicos que trabajan en tres departamentos distintos: 30 en Almacén. 65 en Mantenimiento. 35 en Producción.
Depto. Calif. Almacén 20 Mantenimiento 40 Producción 20 Total 80
No Calif. 10 25 15 50
Total 30 65 35 130
En cada departamento existen técnicos calificados y no calificados. En almacén 20 calificados, en mantenimiento 40 y en producción 20. En base a estos datos determine la probabilidad de: aa)) De que al elegir a un técnico este sea No calificado y trabaje en almacén. 10 Pno calificado y Palmacén 130 0.07 7.7%
bb)) Calificado y trabaje en producción. 20 P calificado y P producción 130 0.15 15.38%
cc)) Calificado ó trabaje en mantenimiento.
P calificado P mantenimie nto P calificado 80 65 40 130 130 130 105 0 .80 80 % 130
y mantenimie nto
dd)) No calificado ó no trabaje en almacén.
P no calificado P no almacén P no calificado 50 40 110 130 100 130 130 130 0 . 84 84 .61 %
y no almacén
ee)) Trabaje en mantenimiento ó no sea calificado.
P mantenimie nto P no calificado Pmantenimie nto y no calificado 65 50 25 90 130 130 130 130 0.69 69 % ff)) No trabaje en producción y no sea calificado. 35 Pno producción y Pno calificado 130 0.2692 26.92%
39
Estadística I
gg)) Trabaje en mantenimiento. 65 P mantenimie nto 130 0.5 50 %
hh)) No trabaje en almacén.
P no almacén
100 130
0.76 77 %
ii)) Trabaje en almacén ó producción. 30 35 65 Palmacén P producción 130 130 130 0.5 50%
DIAGRAMAS DE VENN EN PROBABILIDAD. Estos diagramas se utilizan para representar de forma gráfica las probabilidades en la combinación de eventos que se presentan en la regla de la suma. Los eventos se representan mediante círculos, dentro de los cuales se anotan los valores de probabilidad o bien el número de elementos que pertenecen al evento, y en un rectángulo se encierran todos los eventos y elementos que intervienen en el problema. Algunos de los diagramas más representativos se ilustran a continuación:
A
P(A ó B)
B
A
B
P (AB)
40
Estadística I
A
P (A’) Ejemplo:
A
B .3
.1
.2 .4
Nota: La suma de probabilidades es igual a la unidad. Calcule la probabilidad de los siguientes eventos: aa)) bb)) cc)) dd)) ee)) ff)) gg)) hh)) ii))
P(A)= 0.4 P(B)= 0.5 P(A ó B)= 0.6 P(AB)= 0.3 P(A’)= 0.6 P(A’ ó B)= 0.9 P(A’ B)= 0.2 P(A’ ó B’)= 0.7 P(A’ B’)= 0.4
41
Estadística I
Regla de la Multiplicación. Para determinar la probabilidad conjunta de dos eventos: P(A B), que pueden ocurrir simultáneamente ó en sucesión se utiliza la regla de multiplicación la cual difiere según los eventos sean dependientes ó independientes: P(A B)= B)= P(A) P (B) eventos independientes. P(A B)= B)= P(A) P (B/A) eventos dependientes. P(A B)= Probabilidad conjunta de que ocurran A y B. P(A)= Probabilidad de que ocurra A. P (B)= Probabilidad de que ocurra B. P (B/A)= Probabilidad de que ocurra B dado (si es que) ocurre A. Probabilidad Condicional. Ejemplo: En una caja existen 10 refacciones, 8 en buen estado y 2 defectuosas. Si se extraen 2 piezas de la caja, determine la probabilidad de que: aa)) Ambas sean defectuosas. P Ambas sean defectuosas P1 def . y 2def . 102 102 P 1 def .P
2 def . 1 def
2 10
1 9
2 90
4 100
0.04 4% con reemplazo.
2.22% sin reemplazo.
bb)) La primera sea defectuosa y la segunda en buen estado. P 1 def . y 2 buen P def .P buen def
102 108
2 10
8 9
16 90
16 100
0 .16 16 %
17 . 77 % sin
con reemplazo .
reemplazo .
cc)) Una pieza esta defectuosa y otra en buen estado. Resuelva el problema suponiendo primero que la primera pieza es devuelta antes de extraer la segunda (con reemplazo) y vuelva a resolver suponiendo que la primera pieza no es devuelta (sin reemplazo). con reemplazo. Pdef . y otra bien
P1 def . y 2 buen
32 P 100
P1 buen y 2 def . 108 102
0.32 32%
sin reemplazo P 1def .P
buen def
16 100 16 100
102 89 1690 17.77%
P buen P buen 108 92 1690 17.77% def
Pr obabilidad total
35.55%
42
Estadística I
ÁRBOL DE PROBABILIDAD.
Es un diagrama que nos permite determinar probabilidades conjuntas P (AB), es decir ilustrar las operaciones para la regla de multiplicación. Se construye en base a círculos denominados nodos que se unen a través de líneas denominadas ramas ramas.. En los nodos se anotan las probabilidades conjuntas y sobre las ramas las probabilidades individuales de los eventos. Ejemplifíquese sobre el problema anterior (de las refacciones). Con reemplazo. Pbuena 0.8
Pbuena 0.8
0.8
.64
P1 buena y 2 buena
.16
P1 buena y 2 def
.16
P1 def y 2 buena
0.04
P1 def y 2 def
Pdef 0.2
1
Pbueno 0.8
0.2 Pdef 0.2
1° Refacción
Pdef 0.2
2° Refacción
NOTA:: Es más útil en eventos dependientes. NOTA
43
Estadística I
Sin reemplazo.
P 7
buena
9
1 buena
Pbueno 0.8
0.8
0 . 7778
.6222
P1 buena y 2buena
.1778
P1 buena y 2 def
2 9 P def 1 buena 0 .2222 1
P 8
9
buena
1 def
. 8889
.1778
P1 def y 2 buena
.0222
P1 def y 2 def
0.2 Pdef 0.2
1° Refacción
P 1
def
9
1 def
. 1111
2° Refacción
44
Estadística I
TAREA: 1. De los 300 estudiantes de una Universidad: 170 son de Contaduría, 70 son de Administración, 40 son de Comercio y el resto son de Mercadotecnia. En cada carrera hay alumnos que cuentan con beca: 50 de Administración, 30 de Contaduría, 10 de Comercio y 15 de Mercadotecnia. Determine la probabilidad de que al elegir un estudiante: a) Sea de Comercio y tenga beca b) Sea de Contabilidad o tenga beca c) Sea de Administración o no tenga beca d) No sea de Mercadotecnia o tenga beca e) Sea de Comercio o no tenga beca 2. De 100 personas que solicitaron un puesto en una compañía 40 ya tenían experiencia. De los 100, había 30 que tenían certificado profesional y de ellos sólo 20 tenían experiencia. Si se elige a un solicitante del grupo determine la probabilidad de que a) Tenga certificado y experiencia b) Tenga experiencia o certificado c) Tenga certificado o no tenga experiencia 3. En una urna se tienen 50 canicas: 10 rojas 25 azules 15 blancas. De las rojas hay 5 veteadas, mientras que de las azules 10 y de las blancas 8. Si se saca una canica de la urna determine la probabilidad de que: a) Sea azul o este veteada b) Sea azul o blanca c) No sea azul d) Sea blanca o este veteada Si se sacan dos canicas sin reemplazo, determine la probabilidad de que: e) Ambas sean rojas f) La primera sea blanca y la segunda azul g) La primera esté veteada y la segunda no. 4. La probabilidad de que una máquina produzca tuercas hexagonales aceptables es del 90%. Si las piezas producidas son independientes encuentre la probabilidad de que: a) Dos piezas seguidas que no sean aceptables aceptables b) Una pieza aceptable y una no aceptable, aceptable, en ese orden. c) Una pieza aceptable y una no aceptable, en cualquier orden.
45