Análisis Probabilístico
2
CARRERAS PROFESIONALES
CIBERTEC
A ná l is is Pr o ba b i lís t ic o
3
ÍNDICE Presentación
5
Red de contenidos
6
UNIDAD DE APRENDIZAJE 1 – Estadística descriptiva La estadística
10
Población y muestra
11
Variables
11
Tablas de distribución de frecuencias
12
Medidas de tendencia central
15
Medidas de Posición
18
Medidas de dispersión
20
Cálculo de Estadísticos Descriptivos con Excel
21
Ejercicios propuestos
26
UNIDAD DE APRENDIZAJE 2 – Probabilidades Análisis combinatorio
44
Permutaciones
44
Combinaciones
44
Probabilidad clásica
45
Probabilidad condicional
46
Ejercicios Propuestos
47
Distribución Binomial
56
Distribución de Poisson
58
Relación entre la Distribución Binomial y la Distribución Normal
59
Distribución normal
60
Distribución normal estándar
62
Distribución muestral de medias
63
Distribución muestral de proporciones
64
Ejercicios Propuestos
65
UNIDAD DE APRENDIZAJE 3 – Análisis de regresión y correlación Análisis de regresión
82
Regresión lineal simple
83
Método de mínimos cuadrados
84
CIBERTEC
CARRERAS PROFESIONALES
4
Análisis de correlación
84
Ejemplo de Aplicación
85
Análisis de Regresión con Excel
87
Ejercicios Propuestos
90
Tabla de distribución binomial
95
Tabla de distribución de Poisson
99
Tabla de distribución normal estándar
CARRERAS PROFESIONALES
101
CIBERTEC
A ná l is is Pr o ba b i lís t ic o
5
Presentación El avance de las Tecnologías de Información y Comunicación (TIC’s) ha hecho que, en la actualidad, todo profesional esté en constante contacto con información de naturaleza estadística. Es más, muchas veces es necesario que cualquier profesional de cualquier área tenga que realizar alguna medición estadística para poder tener una idea acerca de la marcha de una empresa, o para tomar una decisión organizacional o, finalmente, para proyectar datos a futuro. El presente curso ofrece, al futuro profesional, las herramientas estadísticas necesarias para organizar, calcular, evaluar e interpretar información estadística, haciendo énfasis en los fundamentos para realizar dichos procesos. Así, se estudian los fundamentos teóricos y prácticos de la Estadística Descriptiva e Inferencial, haciendo énfasis en la lógica de sus diferentes métodos y técnicas de trabajo y los recursos de los que disponen para calcular y obtener las soluciones a los problemas planteados. Además, se adquiere destreza en la interpretación y manejo de las definiciones, teoremas y fórmulas estadísticas. En la primera parte del curso, se exponen las herramientas metodológicas para el análisis de cuadros estadísticos. La segunda parte comprende la aplicación de la teoría de probabilidades y de los modelos de distribución probabilística. Finalmente, en la tercera etapa, se desarrollan modelos predictivos de regresión lineal simple que permiten contar con una herramienta, estadísticamente confiable, para la toma de decisiones. En las sesiones de clase, el curso se desarrolla en forma teórico – práctica; por lo que las mismas tendrán exposiciones dialogadas sobre los fundamentos de los temas que se tratarán y la resolución de ejercicios, dándole mayor énfasis a esta última parte y al análisis e interpretación de resultados.
CIBERTEC
CARRERAS PROFESIONALES
6
Red de Contenidos
Estadística I
Estadística Descriptiva
Regresión y Correlación
Probabilidad
Muestras
Tablas
Regresión Lineal Simple
Correlación
Análisis Probabilidades
Tendencias Centrales
Posición y Dispersión
Probabilidad simple y condicional
CARRERAS PROFESIONALES
Distribuciones de Probabilidad
CIBERTEC
A ná l is is Pr o ba b i lís t ic o
7
La estadística como ciencia nos proporciona un conjunto de métodos, técnicas o procedimientos para:
1. RECOPILAR
2. ORGANIZAR
3. PRESENTAR
4. ANALIZAR
Un conjunto de datos con el fin de describirlos o de realizar generalizaciones válidas con una medida de confiabilidad (probabilidad) para tomar decisiones.
CIBERTEC
CARRERAS PROFESIONALES
8
CARRERAS PROFESIONALES
CIBERTEC
A ná l is is Pr o ba b i lís t ic o
9
UNIDAD DE APRENDIZAJE
1 ESTADÍSTICA DESCRIPTIVA LOGRO DE LA UNIDAD DE APRENDIZAJE
Al término de la unidad, el alumno, trabajando de manera individual, calcula e interpreta estadísticas de tendencia central, de posición y de dispersión, sobre la base de un conjunto de datos no agrupados o agrupados en una Tabla de Distribución de Frecuencias.
TEMARIO
La Estadística
Población y muestra
Variables y sus tipos
Tablas de distribución de frecuencias
Medidas de tendencia central
Medidas de posición
Medidas de dispersión
ACTIVIDADES PROPUESTAS
Los alumnos, trabajando de manera individual, construyen, calculan e interpretan tablas de distribuciones de frecuencias, medidas de tendencia central, medidas de posición y medidas de dispersión, tanto para datos discretos como para datos continuos.
CIBERTEC
CARRERAS PROFESIONALES
10
1. LA ESTADÍSTICA La Estadística es una ciencia, parte de la matemática aplicada, que trata acerca de la recolección, organización, presentación, análisis e interpretación de datos obtenidos en un estudio; con la finalidad de facilitar la toma de decisiones. La Estadística se aplica a cualquier campo de la ciencia. Asimismo, se divide en dos grandes grupos de trabajo: Estadística Descriptiva Estadística Inferencial
1.1. Estadística Descriptiva Es la rama de la Estadística que se dedica a establecer diferentes métodos y procedimientos que permitan la recolección, organización, descripción, visualización y resumen de un conjunto de datos. Los datos pueden ser resumidos numérica o gráficamente.
1.2. Estadística Inferencial Es la rama de la Estadística que proporciona técnicas para estimar (predecir o hacer inferencia) alguna característica de una “población” a partir de los resultados obtenidos en una “muestra”. La inferencia estadística siempre tiene cierto grado de incertidumbre. En el recuadro adjunto, proporcione tres ejemplos de aplicación de la Estadística Descriptiva y tres ejemplos de aplicación de la Estadística Inferencial.
CARRERAS PROFESIONALES
CIBERTEC
A ná l is is Pr o ba b i lís t ic o
11
2. POBLACIÓN Y MUESTRA Definimos la POBLACIÓN o UNIVERSO de un proceso estadístico a la totalidad de elementos entre los cuales se presenta determinada característica susceptible de ser estudiada. Estos elementos pueden ser personas, objetos, etc. Definimos la MUESTRA como una parte o un subconjunto de la población que se está estudiando. Esta muestra se selecciona con el propósito de obtener información, acerca de toda la población, utilizando técnicas de inferencia estadística.
En el recuadro adjunto, proporcione tres ejemplos de población con su respectiva muestra.
3. VARIABLES Es todo valor o característica (magnitud, número, vector, etc.) de un elemento que forma parte de la muestra y/o población, que es susceptible de ser medido, utilizando algún instrumento de medición. La determinación de la(s) variables(s) contesta a la pregunta: ¿QUÉ ESTOY ESTUDIANDO?
3.1. Variables cuantitativas Son aquellas variables que son susceptibles de ser representadas numéricamente (indican cantidad). Las variables cuantitativas se denominan DISCRETAS cuando la cantidad de valores posibles que puede tomar la variable es finita; es decir, cuando están formadas solamente por una parte entera. Las variables cuantitativas se denominan CONTINUAS cuando la cantidad de valores posibles que puede tomar la variable es infinita; es decir, cuando están formadas por una parte entera y una parte decimal.
CIBERTEC
CARRERAS PROFESIONALES
12
3.2. Variables cualitativas Son aquellas variables que indican alguna cualidad, atributo o categoría del elemento estudiado. Se caracterizan porque por sí mismos no proporcionan valores numéricos. Las variables cualitativas se denominan ORDINALES cuando los datos proporcionados por la variable son susceptibles de ser ordenados a través de una jerarquía. Las variables cualitativas se denominan NOMINALES cuando no es posible ordenar los datos bajo una determinada regla.
4. TABLAS DE DISTRIBUCIÓN DE FRECUENCIAS Cuando los datos son recolectados, estos se deben ordenar y clasificar. Para realizar esta tarea, los datos se pueden clasificar utilizando cuadros estadísticos y gráficos estadísticos. Las Tablas de Distribución de Frecuencias permiten la organización y presentación de un conjunto de datos de acuerdo con la variable estudiada. Se utilizan principalmente cuando los datos son cualitativos o uno de los datos es cualitativo y el otro es cuantitativo. En estas tablas, el ordenamiento de los datos se realiza en función a algunos parámetros básicos que forman parte del contenido. Estos parámetros son las Frecuencias Absolutas (fi); Frecuencias Absolutas Acumuladas (Fi); Frecuencias Relativas (hi) y Frecuencias Relativas Acumuladas (Hi).
CARRERAS PROFESIONALES
CIBERTEC
A ná l is is Pr o ba b i lís t ic o
13
4.1. Tabla de Distribución de Frecuencias para datos discretos Se utilizan cuando la variable es cuantitativa discreta. Se caracteriza porque no hay que formar intervalos (no es necesario agrupar los datos)
EJEMPLO: A continuación, se muestra el número de hijos de 36 familias de Lima: 2
3
4
5
1
2
3
2
1
0
2
1
5
3
1
2
3
2
2
4
3
5
2
0
2
1
3
1
1
4
2
3
4
5
1
0
SOLUCIÓN: La variable de estudio (X) es el número de hijos de 36 familiares. Luego, construyendo la Tabla de Distribución de Frecuencias, se tiene lo siguiente:
X
fi
Fi
hi
Hi
0
3
3
0,0833
0,0833
1
8
11
0,2222
0,3055
2
10
21
0,2778
0,5833
3
7
28
0,1944
0,7777
4
4
32
0,1111
0,8888
5
4
36
0,1111
0,9999
≈1
36
4.2. Tabla de Distribución de Frecuencias para datos continuos Se utilizan cuando la variable es cuantitativa continua. Se caracteriza porque se requieren formar intervalos. Estas tablas introducen un nuevo parámetro denominado MARCA DE CLASE (mi) que permite agrupar los datos en intervalos. Para formar los intervalos, se sigue la Regla de Sturges:
a)
Determinar el número de intervalos (K): K 1 + 3.3Log(n)
b)
Hallar el rango (R) de los datos: R = Xmáx - Xmín
c)
Determinar la amplitud (A) de los intervalos: A = R / K
d)
Construir los intervalos: Li
CIBERTEC
Ls
1er. Intervalo: Li :
Xmin
Ls :
Xmin + A
2do. Intervalo: Li :
Xmin + A
Ls :
Xmin + 2A
CARRERAS PROFESIONALES
14
3er. Intervalo: Li :
Xmin + 2A
Ls :
Xmin + 3A
4to. Intervalo:
Xmin + 3A
Ls :
Xmin + 4A
Li :
Y así, sucesivamente, hasta llegar al último intervalo. e) Determinar la Marca de clase (mi) de cada intervalo: mi = (LI + LS)/2. La marca de clase es el valor representativo del intervalo (Valor medio). f)
Hallar las frecuencias absolutas (fi) de cada intervalo, contabilizando el número de datos de la muestra que pertenecen a cada intervalo.
g) Las frecuencias absolutas acumuladas (Fi), así como las frecuencias relativas (hi y Hi) se hallan de la misma forma que para una distribución de frecuencias de variables cuantitativas discretas.
EJEMPLO: Los siguientes datos son los puntajes obtenidos por 50 estudiantes en un examen:
33
50
61
69
80
35
52
64
71
81
35
53
65
73
84
39
54
65
73
85
41
55
65
74
85
41
55
66
74
88
42
57
66
76
89
45
59
66
77
91
47
48
60
68
78
97
60
67
77
94
En el ejercicio, construir la tabla de frecuencias. SOLUCIÓN: Aplicando la Regla de Sturges, encontramos que K ≥ 6,61 → K = 7 El rango de los datos está dado por R = 97 – 33 = 64 Luego, la amplitud de los intervalos está dado por A = (64/7) = 9,143 Finalmente, construyendo la Tabla de Distribución de Frecuencias, se tiene lo siguiente: Intervalos
mi
fi
Fi
hi
Hi
[ 33 – 42,143 >
37,5715
7
7
0,14
0,14
[ 42,143 – 51,286 >
46,7145
4
11
0,08
0,22
[ 51,286 – 60,429 >
55,8575
9
20
0,18
0,40
[ 60,429 – 69,572 >
65,0005
11
31
0,22
0,62
[ 69,572 – 78,715 >
74,1435
9
40
0,18
0,80
[ 78,715 – 87,858 >
83,2865
5
45
0,10
0,90
[ 87,858 – 97 ]
92,4295
5
50
0,10
1
50
XXX
1
XXX
Total
CARRERAS PROFESIONALES
CIBERTEC
A ná l is is Pr o ba b i lís t ic o
4.3
15
¿Cómo interpretar los datos de una tabla? Cada uno de los datos de la tabla permite obtener cierta información, dependiendo de su ubicación.
De acuerdo a la tabla mostrada extraemos algunos datos que se pueden interpretar como ejemplo:
f5: Existen 16 trabajadores cuyo sueldo está entre los 58 y 66 soles diarios
f5: Existen 16 trabajadores cuyo sueldo promedio es de 62 soles diarios
F3: Hay 7 trabajadores que tienen un sueldo promedio menor o igual a 46 soles
F3: Existen 38 trabajadores cuyo sueldo es mayor a 46 soles en promedio
h2: El 4,4% de los trabajadores tiene un sueldo promedio de 38 soles diarios
h4: El 22,2% de los trabajadores tiene un sueldo que oscila entre 50 y 58 soles
H6: El 91% de los trabajadores tiene un sueldo menor a 74 soles diarios
H6: El 9% de los trabajadores gana de 74 soles diarios a más.
5. MEDIDAS DE TENDENCIA CENTRAL Los valores determinados como medidas de tendencia central son aquellos valores que se toman como referencia para señalar y/o analizar el comportamiento de un conjunto de datos. Estos valores tienen por objetivo reemplazar a todo un conjunto de datos dentro de los análisis y cálculos estadísticos. Los más utilizados son la Media Aritmética, la Mediana y la Moda
5.1. Media Aritmética Es la medida de tendencia central más usada y la más conocida. Se define como la suma de todas las observaciones (datos) dividida entre el número de observaciones. Constituye el valor representativo de los datos si es que entre ellas no hay valores extremos que influyen negativamente, sucediendo lo mismo si los datos son muy dispersos. En algunos casos, la Media Aritmética o Promedio se suele interpretar como aquel valor que se atribuiría a cada término, si la suma de
CIBERTEC
CARRERAS PROFESIONALES
16
todos los valores de las observaciones estuviera dividida en partes iguales entre todos los elementos de la muestra. El cálculo de la Media Aritmética se muestra en el siguiente cuadro:
Para datos no agrupados (sin tabla)
X
Donde:
X
xi
xi mi fi hi
n
: : : :
Para datos agrupados (en tablas) Discretos Continuos
X
x .f
i i
n
x .h i
i
X
m .f
X
m .h
i i
n i
i
Valor observado Marca de clase Frecuencia absoluta Frecuencia relativa
Además, hay que tener en cuenta la siguiente propiedad de la Media Aritmética: Cuando se tiene un conjunto “p” formado por “r” subconjuntos, los cuales tienen una media X1, X2, X3, …., Xr y una cantidad de elementos igual a n1, n2, n3, …, nr respectivamente; entonces, la medida aritmética de todo el conjunto “p” se puede calcular de la siguiente manera:
Xp
X1n1 X 2n2 X3n3 ... Xr nr n1 n2 n3 ... nr
5.2. Mediana Es el valor que divide a un conjunto de datos ordenados en dos partes iguales. Para datos no agrupados, el cálculo de la mediana se realiza mediante la siguiente regla:
Si el número de datos es impar, la mediana es el valor central del conjunto de datos.
Si el número de datos es par, la mediana es el promedio aritmético de los datos centrales.
Para datos agrupados, el cálculo de la Mediana se realiza de la siguiente manera:
n / 2 Fj 1 Me L j A j fj
CARRERAS PROFESIONALES
CIBERTEC
A ná l is is Pr o ba b i lís t ic o
Donde:
17
Lj : Fj : Fj-1 : Aj
:
Límite inferior del intervalo que contiene a la mediana Frecuencia absoluta del intervalo que contiene a la mediana Frecuencia absoluta acumulada del intervalo anterior al que contiene a la mediana Amplitud del intervalo que contiene a la mediana
5.3. Moda Es el valor que más se repite (más frecuente) dentro de un conjunto de datos. La desventaja de la moda radica en que en un conjunto de datos puede existir más de un valor que indique la moda. Para datos no agrupados, el cálculo de la moda se realiza con un conteo de los datos y analizando cuál de ellos es el que más se repite (presenta una fi más alta) Para datos agrupados, el cálculo de la Moda se realiza de la siguiente manera:
f j f j 1 Mo L j A j ( f j f j 1) ( f j f j 1) Donde:
Lj fj
: :
Límite inferior del intervalo modal Frecuencia absoluta del intervalo modal fj – 1 : Frecuencia absoluta del intervalo anterior al intervalo modal fj + 1 : Frecuencia absoluta del intervalo siguiente al intervalo modal
EJEMPLO DE APLICACIÓN Los datos que a continuación se muestran son las edades de las personas que han acudido a un policlínico solicitando exámenes de despistaje de cáncer. 63 43 64 59
89 53 72 60
36 70 52 67
49 57 51 57
56 62 62 67
64 43 60 61
59 68 71 67
35 62 61 51
78 26 55 81
53
64
76
44
73
56
62
63
60
Construir la tabla de distribución de frecuencias y calcular las medidas de tendencia central. SOLUCIÓN: Los datos requieren ser agrupados en una Tabla de Distribución de Frecuencias. Escogemos una agrupación en 8 intervalos iguales. Entonces, la siguiente tabla resultante es la siguiente:
CIBERTEC
CARRERAS PROFESIONALES
18
Intervalos
mi
fi
Fi
hi
Hi
[ 26 – 34 > [ 34 – 42 >
30 38
1 2
1 3
0,022 0,044
0,022 0,066
[ 42 – 50 >
46
4
7
0,089
0,154
[ 50 – 58 > [ 58 – 66 >
54 62
10 16
17 33
0,222 0,356
0,376 0,732
[ 66 – 74 > [ 74 – 82 >
70 78
8 3
41 44
0,178 0,067
0,910 0,977
[ 82 – 90 ] Total
86
1 45
45
0,022 1
1
Luego, calculamos las medidas de tendencia central. a)
Para el cálculo de la Media Aritmética, se tiene lo siguiente:
X
(30x1) (38x2) ( 46x 4) (54x10) (62x16) (70x8) (78x3) (86x1) 45
X 60,044 Este resultado indica que hay 60 personas en promedio que acuden a un policlínico solicitando exámenes de despistaje de cáncer. b)
Para la Mediana, observamos que ésta se encuentra en el quinto intervalo, por lo que el cálculo es el siguiente:
45 / 2 17 Me 58 8 60,750 16 Este resultado indica que el 50% de las personas acuden a solicitar exámenes de despistaje de cáncer es de 60,7 a menos. c)
Para la Moda, observamos que esta se encuentra en el quinto intervalo, por lo que el cálculo es el siguiente:
16 10 61,429 Mo 58 8 (16 10) (16 8) Este resultado indica que la frecuencia con que más solicitan exámenes de despistaje de cáncer es 61 personas.
6. MEDIDAS DE POSICIÓN Se denomina PERCENTIL “k” (k = 1,2,3,...,99) a la medida de posición que determina un valor numérico que denotaremos por Pk, que deja por debajo de sí el k por 100 de los datos ordenados. Así, el percentil 25 (P25) deja por debajo de sí el 25% de datos de la serie que se trate; el percentil 50 (P50) deja por debajo de sí el 50% de datos; el percentil 85 (P85) deja por debajo de sí el 85% de datos de la serie que se trate o que es lo mismo, deja por encima el 15% de los datos de la serie.
CARRERAS PROFESIONALES
CIBERTEC
A ná l is is Pr o ba b i lís t ic o
19
El cálculo de percentil se realiza por interpolación de la siguiente manera:
n k Fj 1 100 PK LPk A fj Donde:
LPk : fi : Fi-1 : A
:
Límite inferior del intervalo que contiene a Pk Frecuencia absoluta del intervalo que contiene a Pk Frecuencia acumulada absoluta del intervalo inmediatamente anterior al intervalo que contiene a Pk Amplitud del intervalo
Se denomina CUARTIL a cada uno de los tres percentiles P25, P50, P75. El cuartil uno (denotado por Q1) es igual a P25; el cuartil dos (denotado por Q2) es igual al percentil P50 (que es la mediana); y el cuartil tres (denotado por Q3) es igual al percentil P75. Se denomina DECIL a cada uno de los nueve percentiles P10, P20, P30, P40, P50, P60, P70, P80, P90 que dividen a todo el conjunto de datos en 10 partes iguales.
EJEMPLO DE CÁLCULO DE PERCENTIL Para los 45 ingresos (en dólares) quincenales por horas extras tabulados en la distribución de frecuencias de 8 intervalos, los datos recopilados fueron los siguientes: 63 43 64 59
89 53 72 60
36 70 52 67
49 57 51 57
56 62 62 67
64 43 60 61
59 68 71 67
35 62 61 51
78 26 55 81
53
64
76
44
73
56
62
63
60
Calcule los siguientes percentiles: P10, P25, P50, P75 y P90. SOLUCIÓN: En este caso, primero vamos a construir la tabla de distribución de frecuencias y luego calcularemos los percentiles solicitados La Tabla de Distribución de Frecuencias resultante es la siguiente: Intervalos [ 26 – 34 > [ 34 – 42 > [ 42 – 50 > [ 50 – 58 > [ 58 – 66 > [ 66 – 74 > [ 74 – 82 > [ 82 – 90 ] Total CIBERTEC
mi 30 38 46 54 62 70 78 86
fi 1 2 4 10 16 8 3 1 45
Fi 1 3 7 17 33 41 44 45 ----
hi 0,022 0,044 0,089 0,222 0,356 0,178 0,067 0,022 1
Hi 0,022 0,066 0,154 0,376 0,732 0,910 0,977 1 ----
CARRERAS PROFESIONALES
20
Luego, calculamos los percentiles solicitados:
a)
P10
45 10 3 100 42 8 45 4
Este resultado indica que hay un 10% de personas que perciben un ingreso quincenal por horas extras de 45 dólares o menos.
b)
P25
45 25 7 100 50 8 53,4 10
Este resultado indica que hay un 25% de personas que perciben un ingreso quincenal por horas extras de hasta 53,4 dólares
c)
P50
45 50 17 100 58 8 60,75 16
Este resultado indica que hay un 50% de personas que perciben un ingreso quincenal por horas extras de 0,75 dólares o menos.
d)
P75
45 75 33 100 66 8 66,75 8
Este resultado indica que hay un 75% de personas que perciben un ingreso quincenal por horas extras de 66,75 dólares o menos. También puede indicar que hay un 25% de personas que ganan más de 66,75 dólares por ingresos quincenales en horas extras.
e)
P90
45 90 33 100 66 8 73,5 8
Este resultado indica que hay un 90% de personas que perciben un ingreso quincenal por horas extras de 73,5 dólares o menos. También puede indicar que hay un 10% de personas que ganan más de 73,5 dólares por ingresos quincenales en horas extras.
7. MEDIDAS DE DISPERSIÓN O VARIABILIDAD Son aquellas medidas que se utilizan para analizar el grado de heterogeneidad de un conjunto de datos. El grado de variabilidad de la información disponible es muy importante en todo análisis estadístico, pues de esto depende el grado de confiabilidad de las estimaciones que se puedan establecer.
CARRERAS PROFESIONALES
CIBERTEC
A ná l is is Pr o ba b i lís t ic o
21
Las medidas de variabilidad que estudiaremos son la varianza o variancia, la desviación estándar y el coeficiente de variación. Cabe mencionar que para comparar la dispersión de dos conjuntos de datos es preferible utilizar el coeficiente de variación.
7.1. Varianza o Variancia Es una medida de dispersión que se define como la esperanza del cuadrado de la desviación de dicha variable respecto a su media. La varianza se calcula de acuerdo con la siguiente tabla: Para datos agrupados (en tablas)
Para datos no agrupados (sin tablas)
X V
2
i
Discretos
X .f nX V
n X
2
n* = n – 1 n* = n
2
2
i
i
n*
n*
Donde:
Continuos
m .f nX V
2
2
i
i
n*
si se trata de una muestra (n: tamaño de la muestra) si se trata de una población (n: tamaño de la población)
7.2. Desviación Estándar Es la medida de dispersión más utilizada en Estadística Descriptiva, ya que para conocer con detalle un conjunto de datos, no basta con conocer las medidas de tendencia central, sino que necesitamos conocer también la desviación que representan los datos en su distribución respecto de la media aritmética de dicha distribución. La Desviación Estándar es una medida de dispersión que nos indica cuánto tienden a alejarse los valores concretos del promedio de una distribución, es decir, la Desviación Estándar de un conjunto de datos es una medida de cuánto se desvían los datos con respecto a su media. La Desviación Estándar se calcula como la raíz cuadrada de la varianza.
S V 7.3. Coeficiente de Variación Es una medida de dispersión útil para comparar dispersiones que se encuentran en distintas distribuciones, pues es una medida invariante ante cambios de escala. El Coeficiente de Variación siempre es menor que 1 pero mayor que 0 y se suele expresarse como porcentaje. Para calcular el Coeficiente de Variación, se emplea la siguiente fórmula:
S CV x100 X CIBERTEC
CARRERAS PROFESIONALES
22
EJEMPLO DE CÁLCULO DE DISPERSIÓN Si en una empresa A de 100 trabajadores el sueldo promedio es 500 soles, con una varianza de 900 soles, y en la empresa B el coeficiente de variación de los sueldos es del 5.6%, ¿qué podría afirmar acerca de la dispersión de los sueldos de las empresas A y B? SOLUCIÓN: Como se trata de dos poblaciones diferentes, entonces requerimos el coeficiente de variación para poder compararlas. Para la empresa A:
X 500 V 900 S 30
30 x100 6% 500
Entonces: CV Para la empresa B:
CV 5,6%
Por lo tanto, podemos afirmar que, en la empresa A, los sueldos son más dispersos que en la empresa B. Igualmente, podemos afirmar que en la empresa B los sueldos son más homogéneos que en la empresa A.
8. DIAGRAMAS BOXPLOT (DIAGRAMAS DE CAJA) El nombre original del gráfico introducido por Jhon Tukey en 1977 es Box and whisker plot, es decir, diagrama de caja y bigote. Esta gráfica consiste en un rectángulo (caja) de cuyos lados superior e inferior se derivan respectivamente, dos segmentos: uno hacia arriba y uno hacia abajo (bigotes). La caja y los bigotes están ubicados paralelos a un eje rotulado. Para conocer las partes de un diagrama boxplot consideremos la gráfica siguiente, la cual muestra la opinión de los estudiantes que llenaron el instrumento de opinión.
CARRERAS PROFESIONALES
CIBERTEC
A ná l is is Pr o ba b i lís t ic o
1. 2. 3.
4. 5. 6.
7.
23
Límite superior: Es el extremo superior del bigote. Las opiniones por encima de este límite se consideran atípicas. Tercer cuartil (Q3): Es el percentil 75. Por debajo de este valor se encentran como máximo el 75% de las opiniones de los estudiantes. Mediana: Coincide con el segundo cuartil. Divide a la distribución en dos partes iguales. De este modo, 50% de las observaciones están por debajo de la mediana y 50% está por encima (es el percentil 50). Primer cuartil (Q1): Es el percentil 25. Por debajo de este valor se encuentra como máximo el 25% de las opiniones de los estudiantes. Límite inferior: Es el extremo inferior del bigote. Las opiniones por debajo de este valor se consideran atípicas. Valores atípicos: Opiniones que están apartadas del cuerpo principal de datos. Pueden representar efectos de causas extrañas, opiniones extremas o en el caso de la tabulación manual, errores de medición o registro. Se colocan en la gráfica con asteriscos (*) o puntos (.) según se alejan menos o más del conjunto de datos. Media aritmética: Originalmente no forma parte del boxplot, sin embargo, se suele considerar su inclusión para dar una idea del valor general representativo.
Para la determinación de los valores característicos del diagrama, se deben tomar las siguientes consideraciones: Rango Intercuartílico = Q3 – Q1 Límite interior inferior = Límite del bigote inferior = Q1 - 1,5RI Límite interior superior = Límite del bigote superior = Q3 + 1,5RI Límite exterior inferior = Q1 - 3RI Límite exterior superior = Q3 + 3RI Los límites interiores son barreras hasta las cuales se “permiten” datos de la muestra (en la gráfica son los puntos 1 y 5), por estar muy cerca del resto. Estos son los límites que definen los extremos de los bigotes. De sobrepasar esta barrera se le considera valor atípico. Los límites exteriores indican cuándo un dato se aleja en exceso del resto y, siendo también atípico, se le considera fuera del límite exterior permitido y se dice que es aún más atípico.
CIBERTEC
CARRERAS PROFESIONALES
24
Para la interpretación de los diagramas boxplot se deben tener las siguientes consideraciones: -
-
-
Mientras más larga la caja y los bigotes, más dispersa es la distribución de datos. La distancia entre las cinco medidas descritas en el boxplot (sin incluir la media aritmética) puede variar, sin embargo, hay que recordar que la cantidad de elementos entre una y otra es aproximadamente la misma. Entre el límite inferior y Q1 hay igual cantidad de opiniones que de Q1 a la mediana, de ésta a Q3 y de Q3 al límite superior. Se considera aproximado porque pudiera haber valores atípicos, en cuyo caso la cantidad de elementos se ve levemente modificada. La línea que representa la mediana indica la simetría. Si está relativamente en el centro de la caja la distribución es simétrica. Si por el contrario se acerca al primer o tercer cuartil, la distribución pudiera ser sesgada a la derecha (asimétrica positiva) o sesgada a la izquierda (asimétrica negativa respectivamente. Esto suele suceder cuando las opiniones de los estudiantes tienden a concentrase más hacia un punto de la escala. La mediana puede inclusive coincidir con los cuartiles o con los límites de los bigotes. Esto sucede cuando se concentran muchos datos en un mismo punto. Pudiera ser este un caso particular de una distribución sesgada o el caso de una distribución muy homogénea.
Finalmente, consideremos el siguiente ejemplo: La siguiente tabla muestra los resultados de un ensayo clínico en dos grupos de pacientes: grupo de tratamiento y grupo de control. Estos datos constituyen los niveles de concentración de medicamente según sexo, concentración inicial del medicamento y concentración final.
CARRERAS PROFESIONALES
CIBERTEC
A ná l is is Pr o ba b i lís t ic o
25
En esta primera gráfica observamos los valores iniciales de concentración de medicamento en los dos grupos de estudio. De esta gráfica podemos señalar que las dos distribuciones son similares aunque, debido a que la caja de control es más pequeña, podemos afirmar que los datos del grupo de control están más concentrados, mientras que en el grupo de tratamiento los datos son más dispersos; además de que en el grupo de control se identificó un dato atípico.
En la segunda gráfica observamos los valores iniciales de concentración de medicamento en los dos grupos de estudio pero desagregado por sexo. De esta gráfica podemos señalar que en el grupo de control las mujeres presentan una mayor dispersión que los hombres. También se observa que tanto en hombres como en mujeres, la distribución es más simétrica en el grupo de control. Además se identificaron tres casos extremos: en el grupo control se encontraron dos datos atípicos para el caso de los hombres y en el grupo de tratamiento se encontró un dato atípico para el caso de las mujeres.
CIBERTEC
CARRERAS PROFESIONALES
26
En la tercera gráfica observamos los valores de concentración de medicamento en cada grupo de estudio pero desagregado por niveles inicial y final. De esta gráfica podemos señalar que el grupo de control tiene una distribución más asimétrica que el grupo de tratamiento en ambas fases del estudio (inicial y final). También se puede observar que en el grupo de control se aprecia cierta evolución en la concentración del medicamento, pero la evolución es mayor en el grupo de tratamiento. Además se identificaron tres casos extremos: en el grupo control se encontró un dato atípico para el caso de la fase inicial y en el grupo de tratamiento se encontró dos datos atípicos para el caso de la fase final.
En la cuarta y última gráfica observamos los valores de concentración de medicamento en cada grupo y fase pero dividido por género (hombres y mujeres). De esta gráfica podemos señalar que en los hombres la dispersión ha aumentado en el grupo de control, mientras que en el grupo de tratamiento ha disminuido desde la fase inicial hacia la fase final del estudio; sin embargo en el grupo de las mujeres la dispersión ha disminuido en el grupo de control, mientras que en el grupo de tratamiento ha variado ligeramente. También se puede observar que comparativamente entre la fase inicial y la fase final, la simetría se ha mantenido solamente en el grupo de control de las mujeres, mientras que en el grupo de control de los hombres la distribución se ha vuelto más asimétrica al igual que en el grupo de tratamiento de las mujeres.
CARRERAS PROFESIONALES
CIBERTEC
A ná l is is Pr o ba b i lís t ic o
27
9. CÁLCULO DE ESTADÍSTICOS DESCRIPTIVOS CON EXCEL En el software Microsoft Excel se tienen herramientas para poder calcular todos los estadísticos estudiados. Aquí mostraremos un conjunto de pantallas con su respectiva explicación, que permitirá mostrar cómo se realiza este proceso. En la pantalla mostrada se aprecia un conjunto de datos clasificados en 4 variables. El primer paso que se debe realizar es activar la opción de análisis de datos en Excel ya que al momento de la instalación esta opción no aparece habilitada. Este proceso se realiza en la pestaña Archivo del menú principal.
Menú Archivo
Variables
Datos
CIBERTEC
CARRERAS PROFESIONALES
28
Cuando seleccionamos el menú archivo, nos aparecerá la siguiente pantalla. Luego nos dirigimos a la pestaña “Opciones”
Pestaña Opciones
Seguidamente se abrirá la pantalla de “Opciones de Excel” en donde seleccionaremos la opción “Complementos” “Herramientas para Análisis” y “Complementos de Excel”. Luego nos dirigimos a la opción “Ir…” y nos aparecerá un panel.
1
2
3
4
CARRERAS PROFESIONALES
CIBERTEC
A ná l is is Pr o ba b i lís t ic o
29
En ese panel seleccionamos la opción “Herramientas para análisis” y nos dirigimos a “Aceptar”.
1
2
Cuando aceptamos esta configuración, regresamos a la pantalla principal de Excel y nos debe aparecer, en el menú de “Datos” la herramienta “Análisis de Datos”. Seleccionamos esta opción y en la pantalla que se apertura elegimos la opción de “Estadística Descriptiva”.
1
3
CIBERTEC
2
4
CARRERAS PROFESIONALES
30
En la pantalla de Estadística Descriptiva seleccionamos el rango de datos que queremos analizar, luego elegimos la opción “Resumen de estadísticas”, “
1
3
2
Finalmente, obtendremos los resultados de los estadísticos descriptivos para cada una de las variables analizadas.
Queda como ejercicio para cada alumno investigar con mayor detalle, el significado de los estadísticos: Error típico, Curtosis y Coeficiente de Asimetría.
CARRERAS PROFESIONALES
CIBERTEC
A ná l is is Pr o ba b i lís t ic o
31
Actividades propuestas A.- Conceptos básicos de estadística 1.
Ud. es el encargado de realizar un estudio de mercado para la empresa de comercialización de zapatos para bebe “PUJLLAY SAC” en la ciudad de TOWN CENTER para conocer las preferencias en el calzado de bebe de la población, así como el precio que estarían dispuestos a pagar por el producto. Para el efecto, Usted tomó una muestra aleatoria de 800 mujeres con hijos menores de 3 años en diferentes distritos de la ciudad y aplicó una encuesta de opinión. Algunos de los resultados que se obtuvieron son los siguientes: a) El 75% de los encuestados prefiere adquirir zapatillas para bebé. b) Los encuestados, en promedio, pueden pagar 47 soles por un calzado para bebé. c) El color que más prefieren los encuestados para el calzado de bebe es el blanco. d) Al menos un tercio de las encuestadas compra zapatos de bebe dos veces al año. De acuerdo al enunciado identifique la población, la muestra, las variables y sus respectivos tipos.
2.
La empresa de estudios de mercado “BestDate SAC” se encargó de realizar un estudio sobre las preferencias de los adolescentes del Cono Norte de Lima acerca de sus preferencias musicales y el tiempo que dedican a escuchar radio. Para el estudio se aplicó una encuesta a 500 adolescentes y se obtuvo lo siguiente: a) EL 30% de los encuestados prefiere escuchar el género “Salsa” y el 35% prefiere escuchar “Reguetón”. b) El 50% de los encuestados escucha radio por lo menos 1 hora al día. Determine la población y la muestra e identifique las variables de estudio.
3.
Se realizó un estudio para establecer las posibilidades que tenía el candidato X de ganar las elecciones municipales en el distrito A. Se encuestaron a 200 personas y se obtuvo lo siguiente: a) El 40% de los habitantes del distrito X no ha decidido aún su voto. b) El 23,5% indicó que votaría por el candidato X. c) El principal problema a resolver por el nuevo alcalde es el de la delincuencia, tal como lo indicaron el 75% de los encuestados. d) El 25% de los habitantes del distrito vive hace más de 5 años en dicha zona. Determinar: la población, la muestra, las variables y los tipos de variables.
4.
Una popular cadena de comida peruana “Pacha Mama” ubicada en 10 estados del sur de Estados Unidos, con un total de 356 establecimientos; recientemente ha experimentado un marcado cambio en sus ventas, como consecuencia de una campaña publicitaria bastante exitosa. Para saber con certeza cuál de los cambios realizados influyen en los incrementos de sus ventas, contrata los servicios de una empresa de estudios de mercado que toma una muestra de 60 establecimientos y encuentra los siguientes resultados: El 98.5% asegura que la sazón del pukapicante ha mejorado. El 60% afirma que la atención es más rápida en el pedido de los juanes. El 95% cambió la entrada por ceviche. Al 5% no le agrada los picantes mexicanos. El 100% consume picantes peruanos. El 96% de las personas consume lomo saltado a pesar que su precio se incrementó en $5.00. El promedio de consumo personal en estos establecimientos fue de $82.00.
CIBERTEC
CARRERAS PROFESIONALES
32
De acuerdo a los datos anteriores determine la población, la muestra y las variables con sus respectivos tipos y además indique el tipo de estimación utilizada. 5.
Aceros Arequipa ha estado buscando los factores que influyen en las ventas de varas de acero (en millones de toneladas) que realiza en la ciudad de Lima. Tomo una muestra de 300 establecimientos en diferentes partes de Lima y Callao y después de realizar un estudio de mercado, la administración de la empresa obtuvo los siguientes resultados: Del total de encuestados el 27% dejo de comprar dicho producto. El 90% de encuestados afirman que el producto mantiene su calidad. El 32% no consume solamente el producto. El 56% afirma que el producto se encuentra escaso en el mercado, y de los que afirman esto el 84% compran otro producto. El 95% de los consumidores paga por las varillas de ½ pulgadas entre $ 6.20 y $ 7.05 dólares. Además se encontró que el precio fijado en la ciudad de Lima de $ 6.10 no se respeta, y por esta razón, existe un desabastecimiento del 90% en la ciudad del Callao. De acuerdo a los datos anteriores determine la población, la muestra y las variables con sus respectivos tipos y además indique el tipo de estimación utilizada.
6.
Una empresa dedicada a la fabricación de conservas de pescado tiene planeado introducir al mercado conservas de trucha. Para ello, le encargó a una empresa investigadora de mercado la realización de un estudio mediante el que le interesaba averiguar, entre otras cosas, la aceptación del nuevo producto y el precio que las personas estarían dispuestas a pagar. La encuesta fue realizada en Lima y se entrevistaron a 250 personas. De los encuestados, el 67% estarían dispuestos a consumir el nuevo producto. Además, se concluyó que el precio del producto debería oscilar entre S/. 3,50 y S/. 5,50. Determine lo siguiente: 1.1. La población y la muestra del estudio. 1.2. Las variables y sus respectivos tipos.
7.
Un empresario tiene la idea de implementar la venta de chicha morada en envase no retornable. Piensa, en un principio que debe analizar la posibilidad de lanzar su producto en lugares que sean cálidos durante gran parte del año. Para ello, realiza un estudio de factibilidad en Piura e Iquitos. En Piura, el 90% de los 250 encuestados está dispuesto a consumir el nuevo producto. En cambio, en Iquitos, el 85% de los 300 encuestados muestra esta disposición. También, obtuvo información acerca de la utilidad que conseguiría. En Piura, lograría un promedio de S/. 1,5 de utilidad por producto y; en Iquitos, un promedio de S/. 2. Determine lo siguiente: a) La población y la muestra del estudio. b) Las variables y sus respectivos tipos. c) Si tuviese que elegir entre una de las dos ciudades para llevar a cabo su proyecto, ¿cuál debería elegir? Justifique.
8.
La empresa XYZ realizó un estudio en la ciudad de Lima sobre las principales marcas de cerveza vendidas por el consorcio ABC, compuesto por los supermercados S y W. El estudio se realizó en Julio del 2012 y se entrevistaron a un total de 1200 consumidores elegidos al azar, 500 en el supermercado S y 700 en el supermercado W. Algunas de las informaciones se proporcionan a continuación: Las marcas de cerveza que se vendieron en el mes de agosto en estos supermercados fueron Cristal, Pilsen, Cuzqueña, y Bremen. El 30% de los consumidores son de condición media alta. Tres personas que consumen no tienen preferencia por una marca en particular. El 10% consume sólo la marca Bremen. El 15% de los que prefieren Pilsen viven en el Callao o en zonas aledañas. El 45% afirmó no tener problemas en consumir cualquier marca de cerveza.
CARRERAS PROFESIONALES
CIBERTEC
A ná l is is Pr o ba b i lís t ic o
33
Uno de los entrevistados pertenece a la clase media baja y prefiere cerveza en lata. Doscientos consumidores del mercado S y 80 del supermercado W afirmaron que la cerveza en lata presenta mejor sabor que en Six pack y que en envase retornable. Uno de los objetivos del estudio era estimar la verdadera cantidad de dinero promedio que los consumidores gastan mensualmente en cerveza. De acuerdo con el enunciado identifique la población, la muestra del estudio y las variables del estudio con su respectiva tipificación. Además indiqué qué otro ítem se podría considerar como consulta a los entrevistados para mejorar el estudio. 9.
La empresa XXX produce, entre otros productos, aceites y mantequilla para consumo humano. Dicha empresa encargó realizar un estudio sobre las preferencias de las personas de clase media de la ciudad de Lima acerca de dichos productos. Para el estudio se tomó una muestra aleatoria de 600 personas, y se obtuvo lo siguiente: 9.1. El 35% de los encuestados prefiere los productos “diet”. 9.2. El 55% de los encuestados prefería los aceites vegetales. 9.3. El 13% de los encuestados no supo diferenciar la mantequilla de la margarina. 9.4. Una persona dijo que no consumía ningún tipo de mantequilla. De acuerdo con el enunciado identifique la población, la muestra del estudio y las variables del estudio con su respectiva tipificación. Además indiqué qué otro ítem se podría considerar como consulta a los entrevistados para mejorar el estudio.
10. Se realizó un estudio en el distrito XXX donde el principal objetivo era establecer la viabilidad de emprender un negocio de alquiler de computadoras. Era importante determinar si los habitantes del distrito poseían computadoras personales en casa o utilizaban las cabinas de Internet. El estudio arrojó, entre otros resultados, lo siguiente: a) El 80% de los 400 encuestados no poseen computadoras personales. b) El 20% afirmó que le interesaría alquilar por días alguna computadora personal. c) El 35% de los habitantes del distrito XXX tienen conocimientos de Microsoft Office. De acuerdo con el enunciado identifique la población, la muestra del estudio y las variables del estudio con su respectiva tipificación. Además indiqué qué otro ítem se podría considerar como consulta a los entrevistados para mejorar el estudio. 11. Una empresa realiza una encuesta sobre el uso de cajeros automáticos en un distrito con una población de 50000 personas. De las 1200 personas encuestadas se tiene la siguiente información: a) El 60% de los habitantes del distrito usa la red de cajeros Unibanca. b) La edad promedio de los encuestados fue 38 años. c) El 72% de los usuarios afirmó que únicamente los utiliza para retirar dinero. d) El 5% de los encuestados afirmó haber sido asaltado al utilizar el cajero. De acuerdo con el enunciado identifique la población, la muestra del estudio y las variables del estudio con su respectiva tipificación. 12. Se realizó un estudio para establecer las posibilidades que tenía el candidato X de ganar las elecciones municipales en el distrito A. Se encuestaron a 200 personas y se obtuvo lo siguiente: a) El 40% de los habitantes del distrito X no ha decidido aún su voto. b) El 23,5% indicó que votaría por el candidato X. c) El principal problema a resolver por el nuevo alcalde es el de la delincuencia, tal como lo indicaron el 75% de los encuestados. d) El 25% de los habitantes del distrito vive hace más de 5 años en dicha zona. De acuerdo con el enunciado identifique la población, la muestra del estudio y las variables del estudio con su respectiva tipificación.
CIBERTEC
CARRERAS PROFESIONALES
34
B.- Construcción de Tablas de Frecuencia 1.
A continuación se muestra el número de artículos defectuosos producidos durante los 30 días de un mes por una fábrica: 2 1 1
4 2 2
3 3 3
1 0 2
2 2 1
0 0 2
4 1 2
3 2 4
1 3 3
2 2 2
Construya el cuadro de distribución de frecuencias correspondiente. 2.
El peso en gramos de 30 objetos de un mismo tipo son los siguientes: 21,3
15,8
18,4
22,7
19,6
15,8
26,4
17,3
11,2
23,9
26,8
22.7
18,0
20,5
11,0
18,5
23,0
24,6
20,1
16,2
18,3
21,9
12,3
22,3
13,4
17,9
12,2
13,4
15,1
19,1
Construye una distribución de frecuencias de 6 intervalos de clase. 3.
En una compañía el sueldo mínimo de 200 empleados es de $ 150. Si se sabe que 20 empleados ganan al menos $150, pero menos de $180, 60 ganan menos de $210, 110 gana menos de $240, 180 ganan menos de $270 y el 10% restante de empleados ganan a lo más $300; reconstruir la distribución y graficar su polígono de frecuencias.
4.
El consumo mensual de agua (en metros cúbicos) de ochenta familias, se tabuló en una distribución de frecuencias simétricas de 7 intervalos de amplitud iguales a 3, siendo las marcas de clase del cuarto intervalo igual 19. Si las frecuencias del primer y tercer intervalo son iguales al 5% y 15% del total respectivamente, y además, la quinta frecuencia porcentual acumulada es 85% del total. Reconstruya la distribución. Los puntajes de una prueba de aptitud se tabularon en una distribución de frecuencias de 6 intervalos de igual amplitud. Se tienen las marcas de clase: m2 = 40 y m4 = 80. Además, las frecuencias obtenidas fueron: h1 = h6 ; h3 = h5 ; h4 = 0,25; h2 = h4 - h1 ; h3 = h1 +0,10 y F6 = 60. Complete la distribución de frecuencias.
5.
6.
Los datos que se muestran a continuación corresponden a las edades de 50 beneficiarios de un programa de asistencia social del gobierno: 81
53
67
60
80
64
56
54
91
61
66
88
67
65
97
72
74
65
73
69
43
54
76
70
86
68
82
75
79
60
41
87
76
97
70
45
60
45
65
56
92
72
82
80
52
65
50
58
70
76
Construir una tabla de distribución de frecuencias. 7.
En una compañía, el sueldo mínimo de 200 empleados es de $ 150. Si se sabe que 20 empleados ganan al menos 150$, pero menos de $ 180; 60 ganan menos de 210$; 110 gana menos de $240; 180 ganan menos de $270; y el 10% restante de empleados ganan a lo más $ 300. Reconstruya la tabla de distribución.
CARRERAS PROFESIONALES
CIBERTEC
A ná l is is Pr o ba b i lís t ic o
8.
35
A continuación se muestran los tiempos (en segundos) que una máquina transportadora se demora en trasladar 40 paquetes: 44.0
56.8
46.5
48.7
36.3
42.5
32.4
46.6
35.5
39.3
45.3
56.6
43.7
37.6
42.3
45.6
33.5
47.8
32.8
42.6
57.0
43.9
36.8
45.7
34.9
48.6
35.7
43.2
39.1
38.8
440
33.4
35.8
46.0
36.8
32.7
38.2
37.1
45.2
39.2
Construya un cuadro de distribución de frecuencias de 5 intervalos de igual amplitud. 9.
El siguiente conjunto de datos se refiere a los sueldos mensuales (en dólares) de 40 empleados de una empresa: 440
560
335
587
613
400
424
466
565
393
453
650
407
376
470
560
321
500
528
526
570
430
618
537
409
600
557
432
591
428
440
340
558
460
560
607
382
671
512
492
Construya una tabla de distribución de frecuencias pertinente. 10. A fin de decidir cuántos mostradores de servicio se necesitarán en las tiendas, una cadena de supermercados quiso obtener información acerca del tiempo (en minutos) requerido para atender a los clientes. Se registraron los siguientes tiempos: 3,6
1,3
0,8
1,3
1,1
0,8
1,0
0,3
0,9
0,7
3,1
2,2
1,6
1,9
0,4
5,1
1,8
0,3
1,1
0,6
0,7
1,1
1,9
2,1
0,3
0,8
1,0
1,4
1,1
0,5
1,2
0,6
0,8
1,7
0,2
Construya una tabla de frecuencias e interprete los valores de f2, m3 y H4. 11. El tiempo en minutos que demoran 30 alumnos de la sección en terminar de contestar esta pregunta es como se ve en la tabla: 3,36
4,28
2,32
3,12
3,86
2,92
2,08
3,26
2,42
4,00
2,12
2,68
2,18
4,28
2,22
3,96
3,36
2,12
4,14
2,02
2,82
3,96
2,42
4,24
3,22
4,02
2,68
3,86
2,92
3,56
Construya una tabla de distribución de frecuencias donde se clasifiquen estos datos e interprete los resultados obtenidos en m4, f1, F2, h4, H3.
CIBERTEC
CARRERAS PROFESIONALES
36
12. Ud. realizó un estudio del rendimiento de 20 estudiantes de inglés frente al examen de suficiencia TOEFL. Las notas que alcanzaron los estudiantes fueron: 104
86
108
95
102
70
98
78
96
110
100
102
80
92
98
94
82
89
100
75
Elabore la Tabla de Distribución de Frecuencias adecuada e interprete f4; F3; H2; h2 13. En la empresa proveedora de computadoras “MICOMPU”, Ud. es el encargado de llevar el control diario de la producción del área de ensamblaje. La Gerencia Técnica le solicita un informe sobre la cantidad de computadoras diarias ensambladas por los 20 técnicos a su cargo. Esta cantidad (por cada trabajador) se muestra en la siguiente tabla: 4
4
2
5
2
3
5
4
5
4
6
2
3
4
4
5
4
6
5
4
Construya la Tabla de Distribución de Frecuencias adecuada. Si la empresa decide dar una bonificación de 10% de su salario a los técnicos que hayan ensamblado 5 o más computadoras diarias, ¿qué porcentaje de trabajadores se verán beneficiados? 14. La siguiente Tabla muestra la cantidad de hijos que tienen una muestra de 50 pacientes en edad fértil que han recurrido a la consultoría psicológica para controlar el stress post operatorio en el Hospital “2 de Mayo” de Lima Metropolitana. xi
fi
0
8
1
Fi
4 5
Hi
13
2 3
hi
0,4 7
0,8 46 0,04
6
1
TOTAL Reconstruya la Tabla de Distribución de Frecuencias.
CARRERAS PROFESIONALES
CIBERTEC
A ná l is is Pr o ba b i lís t ic o
37
15. En la siguiente tabla de frecuencias de amplitudes iguales, se observa el promedio del curso de Estadística (sobre 20) de 400 ALUMNOS menores de 20 años. Puntajes
mi
[ 02
-
>
[ 05
-
>
[
-
>
[
-
>
[
-
>
[
-
]
fi
Fi
hi
Hi
24 40% 74% 60
20
Total Complete la siguiente tabla de frecuencias. 16. Ripgam S.A., fabricante de componentes electrónicos desea estudiar las horas de vida de cierto tipo de batería que fabrica en una de sus líneas de producción. A continuación se presenta las horas de vida registradas de una muestra aleatoria representativa de 50 baterías de una de sus líneas de producción. Horas de Vida [
115
mi
-
>
[
-
>
[
-
>
[
-
>
[
-
>
[
-
]
f
F
hi
Hi
3 130
12 0.28 17 49
Totales Reconstruya la Tabla de Distribución de Frecuencias.
C.- Cálculo de Medidas de Tendencia Central
1.
El sueldo promedio de 200 empleados de una empresa es S/1200. Se proponen dos alternativas de aumento: a) S/. 75 a cada uno, b) 15% de su sueldo más 10 soles a cada uno. Si la empresa dispone a lo más de S/. 94 000 para pagar sueldos, ¿cuál alternativa es más conveniente?
CIBERTEC
CARRERAS PROFESIONALES
38
2.
Un proveedor de servicios de Internet, en una Universidad, ha llevado a cabo un estudio para evaluar la frecuencia de uso de este servicio en las dos facultades que existen. Se realizó una encuesta a fines de julio de 2012 en ambas facultades evaluándose el número de horas de uso del servicio de Internet y el gasto (nuevos soles) por el uso de dicho servicio. Se obtuvo los siguientes resultados: Facultad A Estudiantes Gasto 20 2,5 30 3,8 140 6,0 150 7,8 50 9,6 10 11,5 400
Minutos/día de Internet Menos de 20 [ 20 - 40> [ 40 - 60> [ 60 - 80> [ 80 - 100> [100 - 120] Total
Facultad B Estudiantes Gasto 7 2,6 10 3,5 20 6,4 35 8,1 65 10,1 23 12,3 160
Efectúe un análisis comparativo sobre el tiempo de uso del servicio de Internet de los estudiantes de ambas facultades. Utilice las medidas estadísticas necesarias. 3.
En la siguiente tabla se muestra la distribución de frecuencias de las edades de personas que asisten a los eventos deportivos los fines de semana en la ciudad de Lima. Si los intervalos tienen amplitudes iguales y además f1 = f4 , halle e interprete la media, mediana y la moda. Intervalos [
-
[
-
[
-
[
-
mi
fi
hi
pi
Fi
Hi
Pi
> 24
>
0.40
> 42
32
0.80
]
Total 4.
En la siguiente tabla se muestra la distribución del consumo de snacks que se realiza los fines de semana en los multi-cines del centro de Lima. Si los intervalos tienen amplitudes iguales; y además se cumple que: f 3 =2(f1 +2) y 3f3 =2f2 = 6f5. Halle la media, mediana y la moda. Intervalos (soles) [
4
-
>
[
-
>
[
- 22
>
[
-
>
[
-
]
mi
CARRERAS PROFESIONALES
fi
hi
pi
Fi
Hi
Pi
mifi 70
450
CIBERTEC
A ná l is is Pr o ba b i lís t ic o
5.
39
Las ganancias diarias de los establecimientos de un Centro Comercial se presentan en una tabla de frecuencias con 6 intervalos de amplitudes iguales a 36. La ganancia mínima es de $6, el 50% de los establecimientos ganan más de $25.58 diarios. Calcule las medidas de tendencia central. Interprete sus resultados. Ganancias (en miles de Soles) [
6.
6
mi
fi
-
>
a
[
-
>
2a
[
-
>
[
-
>
[
-
>
[
-
]
hi
Fi
Hi
120
0.15
0.25 304 0.93
En el restaurante 5 tenedores “LA OLIVA” Ud, se encuentra haciendo un análisis estadístico para determinar cuánto dinero están dispuestos a gastar los clientes en una Cena Navideña familiar para 4 personas con el fin de realizar sus proyecciones para las próximas fiestas de fin de año. La Tabla de Distribución de Frecuencias que se ha construido es una tabla de 6 intervalos de igual amplitud, como se muestra a continuación: Gastos (en Soles)
mi
[
-
>
[
-
>
[
-
>
[
-
>
[
-
>
[
-
]
fi
hi
20
a
Fi
Hi
0.3 97.5
0.6 a+0.15
127.5 200
Totales Halle el valor de la mediana y la moda. 7.
Con el fin de diseñar estrategias de mejora en la enseñanza, el Consorcio Educativo “EDUCATEL” se propone realizar un estudio sobre el rendimiento académico en el área de matemática. Para ello, selecciona a 100 estudiantes los cuales los divide en 4 grupos: X, Y, Z y W. Después de realizar los exámenes respectivos, se encuentra que el promedio general es de 72 (calificación sobre 100). Los puntajes medios de los grupos Y, Z y W, fueron 75, 62 y 80, respectivamente. Por un descuido administrativo, las calificaciones del grupo X se extraviaron; pero se sabe que en el grupo Y está el 40% del total de alumnos, en el grupo Z el 25% del total y en el grupo W habían 15 alumnos más que en el grupo X. En base a esta información, determine la nota promedio del grupo X.
CIBERTEC
CARRERAS PROFESIONALES
40
8. Una tabla de distribución simétrica de frecuencias de 5 intervalos contiene la siguiente información: El valor mínimo es 45. La marca de clase del segundo intervalo es 59. Además se determinó que F5 = 60; H4 = 0,90; h3 = 0,40. Determine e interprete la media, la mediana y la moda de la distribución. 9.
Las bonificaciones semanales (en dólares) obtenidas por un grupo de vendedores de una empresa de seguros se tabularon en una Tabla de Distribución de Frecuencias Simétrica de 5 intervalos de la cual se tiene la siguiente información: F5 = 200; h3 = 0.35 y f1 = 35. Si la menor bonificación es de 20 dólares y la mayor es de 60 dólares. Construya la Tabla de Distribución de Frecuencias adecuada con todos sus indicadores y calcule e interprete la mediana y la moda de la distribución de frecuencias.
10. La siguiente tabla muestra los resultados de una encuesta de sondeo realizada por un operador de telefonía celular a los adolescentes de los distritos de Los Olivos y San Miguel referente al uso del sistema prepago de telefonía celular. El estudio se refirió al tiempo de uso del sistema telefónico y al gasto de los adolescentes en tarjetas prepago. Tiempo de Uso (en minutos) [0 – 40>
a) b)
Los Olivos Gastos en Adolescentes tarjetas (S/.) 30 10
San Miguel Gastos en Adolescentes tarjetas (S/.) 25 12
[40 – 80>
50
15
20
20
[80 – 120>
85
20
40
25
[120 – 60>
25
30
55
30
[160 – 200>
10
50
15
55
[200 – 240]
10
60
5
80
Total
210
160
¿En cuál de los distritos el gasto de los adolescentes en tarjetas prepago es mayor? ¿En qué distrito el tiempo que los adolescentes hacen uso del sistema de telefonía celular es menor?
11. El 40% de los sueldos de los empleados de una empresa es mayor o igual a 50 soles pero menor de 60 soles; el 30% mayor o iguales a 60 soles pero menor de 70 soles; el 15% de los empleados tienen como mínimo sueldos de 70 soles pero menores de 80 soles; y los sueldos del 15% restante son mayores o iguales a 80 soles pero como máximo 100 soles. Halle la media aritmética de los sueldos de los empleados. 12. El quinto ciclo de una facultad de ingeniería tiene tres secciones. La sección A tiene 45 alumnos y la nota promedio en el curso de matemática fue de 13. La sección B tiene 40 alumnos y la nota promedio en el mismo curso fue de 12. Por último, la sección C tiene 35 alumnos y la media aritmética de las notas en el curso de matemática fue de 15. Halle el promedio final del quinto ciclo de la mencionada facultad de ingeniería. 13. Una institución educativa tiene 20 profesores. La edad promedio de los profesores casados, que son 12, es de 36 años. La edad promedio de todos los profesores de la institución es 30 años. Calcule la edad promedio de los profesores solteros. 14. En una empresa el sueldo promedio de 60 trabajadores administrativos es 1200 soles. Por incremento del costo de vida se presentan dos alternativas de aumento. La primera propuesta es un aumento de 180 soles a cada trabajador y la segunda es un aumento de 10% de sus sueldos más 12 soles. ¿Cuál de las dos propuestas conviene más a los trabajadores a fin de mejorar su ingreso promedio? Justifique su respuesta.
CARRERAS PROFESIONALES
CIBERTEC
A ná l is is Pr o ba b i lís t ic o
41
D.- Cálculo de Medidas de Posición y Dispersión 1.
La siguiente Tabla de Distribución de Frecuencias muestra los resultados (sobre 100 puntos) de las evaluaciones para un puesto de trabajo. Intervalos (puntos) [ 26 – 34 > [ 34 – 42 > [ 42 – 50 > [ 50 – 58 > [ 58 – 66 > [ 66 – 74 > [ 74 – 82 > [ 82 – 90 ] Total a) b) c) d) e)
2.
mi
fi
Fi
hi
Hi
30 38 46 54 62 70 78 86
1 2 4 10 16 8 3 1 45
1 3 7 17 33 41 44 45
0,022 0,044 0,089 0,222 0,356 0,178 0,067 0,022 1
0,022 0,066 0,154 0,376 0,732 0,910 0,977 1
¿Qué porcentaje de datos está por debajo de 71? ¿Qué porcentaje de datos está por encima de 38? ¿Por debajo de que valor se encuentra el 27% de los datos? ¿Por encima de qué valor se encuentra el 65% de los datos? ¿Qué porcentaje de datos se tiene entre 52 y 75?
Un encargado de compras ha obtenido muestras de lámparas incandescentes de dos proveedores. En su propio laboratorio ha probado ambas muestras con respecto a la duración de su vida útil, obteniendo los siguientes resultados: Vida útil en horas [ 700 900 > [ 900 1100 > [ 1100 1300 > [ 1300 1500 ] a) b)
3.
Muestra Empresa A Empresa B 10 3 16 36 26 12 8 3
Cuál de las Empresas proveen mejores lámparas. ¿En cuál de las Empresas se presenta una mayor homogeneidad en su duración?
Los sueldos en soles de los ejecutivos de dos empresas A y B se dan en la siguiente tabla de frecuencias.
a) b) c)
Sueldos (en miles de Soles)
Empresa A
Empresa B
1–3
6
8
3–5
7
10
5–7
9
12
7–9
4
6
9 – 11
2
1
¿Qué porcentaje de los empleados gana por encima de la media en la empresa A? ¿En qué empresa los sueldos son más homogéneos? Si todos los trabajadores de la empresa A reciben un aumento del 25% de sus sueldos, ¿Cuál será el nuevo sueldo promedio?
CIBERTEC
CARRERAS PROFESIONALES
42
4.
Ud. es contratado por la compañía artística “REQUIEM”, para analizar los costos de los vestuarios de las dos áreas con que cuenta la compañía: Música: Formada por 8 músicos cuyos gastos en soles son: 42, 48, 48, 50, 56, 62, 65, 70 Teatro: Formada por 12 actores cuyos consumos se muestran en la siguiente tabla:
a) b)
Consumo en soles
N° de actores
[40 , 45[
2
[45 , 50[
3
[50 , 55[
5
[55 , 60]
1
¿Cuál de las áreas tiene el mayor consumo promedio? Justifique su respuesta. ¿Cuál de las áreas tiene el consumo más disperso? Justifique su respuesta.
5.
El Centro de Idiomas “NOW” tiene dos secciones A y B para el ciclo introductorio formadas por cinco estudiantes cada una. La sección A tiene un promedio de notas de 89.8 con una varianza de 24. En la sección B, las notas de los estudiantes son las siguientes: 84, 86, 86, 92, 95. ¿En qué sección las notas son más dispersas?
6.
Clasificaron los sueldos en soles de los obreros de las empresas, obteniéndose los siguientes resultados: EMPRESA A
EMPRESA B
Sueldos
Nro. de Obreros
Sueldos
Nro. de Obreros
[110 , 120>
20
[105 , 115>
30
[120 , 130>
30
[115 , 125>
50
[130 , 140>
20
[125 , 135>
30
[140 , 150>
10
[135 , 145>
10
¿En cuál de las empresas los sueldos son más homogéneos? 7.
La empresa comercializadora de equipamiento minero “EL SOL SAC” cuenta con 4 departamentos dentro de su estructura interna: Ventas, Sistemas, Ingeniería y Contabilidad. Las remuneraciones semanales (en nuevos soles) en cada departamento son las siguientes: Ventas
Sistemas
Ingeniería
Contabilidad
Media
750
693
550
720
Desviación estándar
50
72
44
36
N° empleados
150
110
140
100
a) b) 8.
Calcule el promedio de remuneraciones de toda la empresa. ¿En cuál de los departamentos las remuneraciones son más homogéneas?
El Ministerio de Transportes y Comunicaciones realizó una serie de mediciones de ruido en las calles más congestionadas de Lima. En la Av. Alfonso Ugarte se obtuvo un promedio de 75 decibeles de ruido con una varianza de 125. En la Av. Tacna, los niveles de ruido (en decibeles) medidos en 5 determinadas horas fueron 68; 79; 82; 76 y 83. ¿En qué avenida el nivel de ruido es más disperso?
CARRERAS PROFESIONALES
CIBERTEC
A ná l is is Pr o ba b i lís t ic o
9.
43
Se ha medido las calificaciones de un grupo de estudiantes de estadística (población) clasificados por género. Los resultados se dan en la tabla que sigue:
a) b)
Calificaciones
Hombres
Mujeres
[05, 08[
4
10
[08, 11[
10
19
[11, 14[
26
50
[14, 17[
40
15
[17, 20]
20
6
¿En qué grupo se tiene a personas con calificación más heterogénea? Aquellas personas con calificaciones mayores a 16.5 se exonerarán de la siguiente práctica calificada, ¿Cuántas personas en cada grupo se beneficiarán?
10. A continuación se muestra las calificaciones que obtuvieron en dicha evaluación dos colegios del mismo grado. Colegio A (de Piura) y Colegio B (de Cusco). Calificaciones
Colegio A
Colegio B
[ 05 08 >
4
10
[ 08
11 >
10
19
[ 11
14 >
26
50
[ 14
17 >
40
15
[ 17
20 ]
20
6
A continuación se muestran algunos resultados estadísticos acerca de ambos grupos: Colegio A
a) b) c)
Promedio
14.36
Mediana
14.75
Varianza
9.6804
Colegio B
8.6904
¿Cuál de los colegios tiene calificaciones más homogéneas? ¿Cuál de los colegios tiene mayor rendimiento? ¿Qué porcentaje de alumnos de cada colegio tienen un puntaje mínimo de 15?
11. Dos empresas A y B se disputan la buena pro de un proyecto de construcción. Para determinar al postor, estas empresas presentan los puntajes obtenidos en licitaciones anteriores. La empresa A presenta los puntajes obtenidos en 6 licitaciones, sobre 20 puntos: 17, 14, 15, 16, 18 y 15. La empresa B presenta la siguiente tabla calificada sobre 100 puntos: NOTA
CANTIDAD DE LICITACIONES
[ 70 – 74 [
1
[ 74 – 78 [
2
[ 78 – 82 [
3
[ 82 – 86 [
1
Determine cuál de las empresas tiene el puntaje más homogéneo CIBERTEC
CARRERAS PROFESIONALES
44
12. Una ONG dedicada a la investigación de problemas sociales tiene 4 áreas de trabajo: Contabilidad, Relaciones Internacionales, Proyectos y Proyección Social. Las remuneraciones mensuales (en nuevos soles) en cada área son las siguientes: Contabilidad Remuneración Media Desviación estándar N° empleados a) b)
1250 150 8
Relaciones Internacionales 1500 250 5
Proyectos 1750 100 12
Proyección Social 1300 200 25
Calcule el promedio de remuneraciones de toda la empresa. ¿En cuál de los departamentos las remuneraciones son más homogéneas?
13. Los sueldos de 150 trabajadores de una empresa tienen un coeficiente de variación del 5% en el mes de agosto. Para el mes de septiembre hay un aumento a cada trabajador del 20% de su sueldo más una bonificación de $60 y el coeficiente de variación baja a 4%. Halle la media y la desviación estándar de los sueldos del mes de agosto. ¿Cuánto dinero adicional necesita la empresa para pagar todos los sueldos del mes de septiembre? 14. La distribución de los sueldos (en dólares) de los empleados de dos empresas A y B se tabuló en 3 intervalos de igual amplitud en cada caso, siendo las frecuencias absolutas del primero al tercero de 10, 30, 30 y de 30, 50, 20 respectivamente en A y B. Si los sueldos mínimo y máximo son de 50 y 200 en A y de 60 y 240 en B. a) ¿En qué empresa los sueldos son más homogéneos? b) Sí un empleado de A y otro de B ganan cada uno $130. ¿Quién de ellos está mejor considerado en su centro de trabajo? 15. Las puntuaciones de un test aplicado a un grupo de estudiantes, se tabularon en una distribución de frecuencias de 6 intervalos de igual amplitud de manera que la marca de clase del segundo intervalo es 25 y el límite superior del quinto intervalo es 60. Si las frecuencias en porcentajes del primer al cuarto intervalo son respectivamente 15, 20, 35, 14 y si el 94% de las puntuaciones son menores que 60. a) Determine la distribución de frecuencias de las puntuaciones. b) ¿Qué porcentaje de estudiantes tienen entre 38 y 53 puntos? 16. En una prueba de aptitud mental, la menor y mayor puntación fueron 50 y 200, respectivamente. Los puntajes (sin decimales) se tabularon en una distribución de frecuencias simétrica de 5 intervalos de igual amplitud, donde el 20% de los casos son menores de 95 y el 70% de los casos son menores que 140. Halle el intervalo centrado en la mediana donde se encuentran el 50% de los puntajes. 17. El consumo mensual de agua (en metros cúbicos) de una muestra de 225 viviendas se tabuló en una distribución de frecuencias simétrica de cinco de amplitud iguales. Si el consumo mínimo es de 35 m3, el consumo promedio de 45m3, y si 1/3 de la muestra consume al menos 43m3 pero menos de 47m3 ¿Qué porcentaje de la muestra consume al menos 47 m3? ¿Cuántos metros cúbicos como mínimo consumen el 60% de las viviendas? 18. Una prueba de conocimientos tipo A se calificó sobre 20 puntos dando una media de 12 y una desviación estándar de 2 puntos. mientras que una prueba de aptitud tipo B se calificó sobre 100 puntos, con una media de 70 y una desviación estándar de 5. a) ¿En cuál de las dos pruebas los puntajes son más homogéneos? b) Si Juan tiene 14 en A y Luis 73 en B, ¿quién tiene mejor rendimiento?
CARRERAS PROFESIONALES
CIBERTEC
A ná l is is Pr o ba b i lís t ic o
45
19. Un conjunto habitacional está conformado por tres edificios de departamentos. De estos edificios, se tiene los siguientes datos respecto al consumo mensual de electricidad de cada uno de los edificios: Edificio 1 : Tiene 12 departamentos que gastan en promedio 45 soles con una desviación estándar de 10 soles. Edificio 2 : Tiene 9 departamentos cuyos consumos en soles son 38, 42, 56, 60, 43, 52, 41, 44, 53. Edificio 3 : Los consumos se dan en la siguiente tabla:
a) b) c)
Consumo en soles
Departamentos
[30, 40[
1
[40, 50[
4
[50, 60[
4
[60,70]
2
¿Cuál de los edificios tiene menor consumo promedio de electricidad? ¿Cuál es el consumo promedio en todo el conjunto habitacional? ¿En cuál de los edificios el consumo es más disperso?
20. Una empresa de estudios de mercado ha realizado un trabajo, para estudiar, entre otras variables el pago mensual por alquiler de departamentos (con características similares) en los distritos A y B. La información recogida fue la siguiente: Pago mensual por alquiler (en $)
Número de Departamentos (Dist. A)
Número de Departamentos (Dist. B)
[350 , 400[
10
9
[400 , 450[
35
36
[450 , 500[
70
60
[500 , 550[
40
75
[550 , 600[
25
90
[600 , 650[
15
24
[650 , 700]
5
6
Con esta información, se calcularon los siguientes valores para el Distrito A:
a) b)
Medida Estadística
Valor (en soles)
Media Aritmética
500
Moda
476,92
Variancia
4773,87
Primer Cuartil
457,14
Segundo Cuartil
489,29
Realice un análisis comparativo de las distribuciones de montos mensuales por alquileres de departamentos de los dos distritos. Se considera que un distrito es más residencial cuando el pago mensual por alquiler es más del 40% de los datos observados. ¿Cuál de los dos distritos se podría considerar más residencial?
CIBERTEC
CARRERAS PROFESIONALES
46
Resumen Una manera de averiguar cuál es la variable de un estudio estadístico es preguntarnos lo siguiente: ¿Qué es lo que estoy estudiando? Una misma variable estadística puede tener distintas clasificaciones: puede ser cualitativa o cuantitativa. Los estadígrafos o parámetros provenientes de variables cualitativas se representan mediante proporciones (porcentajes); en cambio, los que provienen de variables cuantitativas se representan, por lo general, mediante promedios. Mostrar la información a través de una Tabla de Distribución de Frecuencias permite, a simple vista, sacar algunas conclusiones respecto al conjunto de datos que estamos estudiando. Las Tablas de Distribución de Frecuencias tienen como principal función facilitar el cálculo de los estadísticos o parámetros adecuados. Las Tablas de Distribución de Frecuencias se pueden elaborar para datos discretos y para datos continuos. En la actualidad, gracias a los distintos softwares existentes, el cuadro estadístico ha pasado a ser una herramienta de referencia para elaborar gráficos. El promedio es, por lo general, la medida que mejor representa los datos. Si los datos son muy dispersos o encontramos valores extremos es posible que el promedio no sea representativo de los mismos. En este caso es mejor utilizar la mediana. Cuando el cálculo de las medidas de tendencia central se hace sobre la base de cuadros de distribución de frecuencias, los resultados son aproximados. Cuando la variable de estudio es ordinal, las medidas de tendencia central que se utilizan son la MEDIANA y la MODA. Cuando la variable de estudio es escalar, las medidas de tendencia central que se utilizan son la MEDIA, la MEDIANA y la MODA. Cuando en una distribución de frecuencias la MEDIA, MEDIANA y MODA tienen el
mismo valor, se dice que es una DISTRIBUCIÓN SIMÉTRICA.
Las medidas de posición son útiles para establecer valores mínimos o máximos que se deben lograr como pautas para mejorar el rendimiento de la producción, de las personas, etc. Una mayor dispersión de datos implica una menor concentración de los mismos y viceversa. Una mayor homogeneidad en los datos equivale a una menor dispersión de los mismos y viceversa.
CARRERAS PROFESIONALES
CIBERTEC
A ná l is is Pr o ba b i lís t ic o
47
A mayor coeficiente de variación, mayor dispersión y, por lo tanto, menos homogeneidad de los datos. El Coeficiente de Variación nos permite determinar la representatividad del promedio de un conjunto de datos, pues si es menor del 50% podemos considerar al promedio como representativo de los datos. En caso contrario, se considera que los datos son muy dispersos y, por lo tanto, no es recomendable utilizarlos en un estudio estadístico.
Bibliografía
ANDERSON, DAVID R. 2008 Estadística para administración y economía. Editorial Thomson (519.5 ANDE 2008)
WEIERS, RONALD 2006 Introducción a la estadística para negocios. México, D.F.: Thomson (519.5 WEIE)
MOYA CALDERON, RUFINO 2005 Estadística descriptiva. Conceptos y aplicaciones. Ed. San Marcos. (519.4 MOYA/E)
CÓRDOVA ZAMORA, MANUEL 2003 Estadística descriptiva e Inferencial. Ed. Moshera. (519.5 CORD 2003)
CIBERTEC
CARRERAS PROFESIONALES
48
CARRERAS PROFESIONALES
CIBERTEC
A ná l is is Pr o ba b i lís t ic o
49
UNIDAD DE APRENDIZAJE
2 ANÁLISIS PROBABILÍSTICO LOGRO DE LA UNIDAD DE APRENDIZAJE
Al término de la unidad, el alumno, trabajando de manera individual, calcula e interpreta probabilidades simples y condicionales, sobre la base de un conteo de posibilidades o sobre la base de un modelo de distribución de probabilidad que va de acuerdo con determinadas condiciones de dependencia o independencia estadística.
TEMARIO
Análisis combinatorio
Probabilidad clásica
Probabilidad condicional
Distribución Binomial
Distribución de Poisson
Distribución normal estándar
Distribución muestral de medias y muestral de proporciones
ACTIVIDADES PROPUESTAS
Los alumnos, trabajando de manera individual, calculan e interpretan casos de análisis combinatorio y probabilidades clásicas, condicionales y distribuciones de probabilidad.
CIBERTEC
CARRERAS PROFESIONALES
50
1. ANÁLISIS COMBINATORIO Para poder empezar el estudio de las probabilidades, es necesario conocer en primera instancia las diferentes formas de poder combinar los diferentes elementos que tiene un conjunto de datos. Así, el Análisis Combinatorio, es el conjunto de procedimientos que permiten determinar el número de resultados de un experimento sin necesidad de conocer todos los resultados que de él se originan. El análisis combinatorio se basa en los dos principios básicos: el principio de la adición y el principio de la multiplicación.
1.1. Principio de la adición Dados dos experimentos A y B, el número de maneras posibles que puede ocurrir el experimento A o B está dado por lo siguiente:
n(A o B) = n(A) + n(B) Donde: n(A) : n(B) :
Nro. de formas distintas que puede ocurrir el experimento A Nro. de formas distintas que puede ocurrir el experimento B
1.2. Principio de la multiplicación Dados dos experimentos A y B, el número de maneras posibles que puede ocurrir el experimento A y B está dado por lo siguiente:
n(A y B) = n(A) x n(B)
2. PERMUTACIONES Una permutación de un conjunto de elementos es un arreglo de los mismos siguiendo un orden establecido, es decir, el cambio en el orden establecido SI genera casos diferentes. El número de permutaciones posibles de “n” elementos, todos distintos, agrupados en sub grupos de “r” elementos diferentes es:
Prn
n! n r !
Algunos ejemplos en los que se aplican las permutaciones son los números que se pueden formar con 3 cifras; la combinación de colores para hacer una camiseta; las formas en que se pueden ordenar personas en una fila, etc.
3. COMBINACIONES Una combinación de un conjunto de elementos es una selección de tales elementos sin tener en cuenta el orden, es decir, el cambio en el orden de los elementos NO genera un caso diferente.
CARRERAS PROFESIONALES
CIBERTEC
A ná l is is Pr o ba b i lís t ic o
51
El número de combinaciones de “n” elementos tomados de “r” en “r” (sub grupos de “r” elementos) es:
Cnr
n! r! n r !
Algunos ejemplos en los que se aplican las combinaciones son el número de apretones de mano en una reunión; seleccionar a los invitados de una fiesta; seleccionar preguntas para un examen a partir de un banco de preguntas, seleccionar subgrupos de personas a partir de un grupo más grande, etc.
4. PROBABILIDAD CLÁSICA La probabilidad es un número real que expresa la confianza o incertidumbre en la ocurrencia de un evento cuyo resultado no se puede predecir con certeza.
4.1. Definición clásica de probabilidad Si un experimento aleatorio se puede realizar de “n” maneras posibles y mutuamente excluyentes; y nA de ellos tiene una característica A, entonces la probabilidad que se obtenga un resultado con característica A es:
P( A )
nA nT
Donde: P(A) = Probabilidad de ocurrencia del Evento A nA = Número de posibilidades que poseen la características A nT = Número de posibilidades que se puede dar el Experimento A Para calcular los valores nA y nT es necesario utilizar las técnicas de conteo estudiadas (combinaciones y permutaciones), así como el principio de la adición y el principio de la multiplicación.
4.2. Definición axiomática de probabilidad Sea un experimento aleatorio E con espacio muestral Ω y A un evento cualquiera de Ω. El número real P(A) es llamado probabilidad de ocurrencia del evento A si satisface las siguientes condiciones: 0 ≤ P(A) ≤ 1 P(Ω) = 1 Si A y B son mutuamente excluyentes, entonces: P(A U B) = P(A) + P(B)
CIBERTEC
CARRERAS PROFESIONALES
52
4.3. Propiedades y teoremas básicos de probabilidades Dados tres eventos A, B y C contenidos en el espacio muestral Ω se cumple: P() = 0 P(A U B) = P(A) + P(B) – P(A ∩ B) P(A’) = 1 – P(A) P(AUBUC)=P(A)+P(B)+P(C)–P(A∩B)–P(A∩C)– P(B∩C)+P(A∩B∩C)
5. PROBABILIDAD CONDICIONAL Si A y B son dos eventos de un espacio muestral Ω, entonces la probabilidad condicional que ocurra el evento A dado que (si se sabe que) ocurrió el evento B es:
P( A / B)
P( A B) n( A B) P(B) n(B)
Para la fórmula planteada, la probabilidad condicional se da cuando la ocurrencia de un evento A depende de la ocurrencia de otro evento B. Es decir es la probabilidad que ocurra el evento A dado que ocurrió el evento B. Para resolver las probabilidades condicionales se pueden usar Tablas Cruzadas (para variables excluyentes) o Diagramas de Venn-Euler (para variables no excluyentes).
Cuando se aplica la Probabilidad Condicional hay que tener en cuenta el teorema de la multiplicación de probabilidades. Por este teorema, si dados tres eventos A, B y C contenidos en el espacio muestral Ω se cumple:
P(A ∩ B) = P(A).P(B / A) = P(B).P(A / B)
P(A ∩ B ∩ C) = P(A).P(B / A) .P(C / A ∩ B)
CARRERAS PROFESIONALES
CIBERTEC
A ná l is is Pr o ba b i lís t ic o
53
Actividades propuestas A.- Técnicas de Conteo 1.
¿Cuántos comités diferentes de 3 hombres y 4 mujeres pueden formarse con 8 hombres y 6 mujeres?
2.
Se ha comprado una caja de focos que contiene 2 de 25 vatios, 3 de 50 vatios y 4 de 100 vatios. Si se escogen 3 de ellos, ¿cuántos incluirán uno de cada potencia?
3.
¿De cuántas formas pueden ordenarse 5 personas en un sofá si tienen solamente tres asientos?
4.
En una clínica, trabajan 18 enfermeras. a. ¿Cuántas guardias diferentes de 3 enfermeras pueden formarse? b. ¿Cuántas guardias diferentes de 3 enfermeras pueden formarse si dos ellas no pueden trabajar juntas?
5.
¿De cuántas maneras se puede confeccionar una bandera de franjas de 3 colores, si se tiene tela de 5 colores distintos? Y ¿si una de las franjas tiene que ser azul?
6.
¿De cuántas maneras se pueden colocar 10 chicas en una fila, de manera que dos chicas en particular queden juntas?
7.
Una persona tiene 15 amigos. ¿De cuántas maneras puede invitar a 6 de ellos si existen 2 parejas de casados y van siempre juntos a cualquier reunión? Además indicar de cuántas maneras se pueden invitar a 8 de ellos si existen dos personas que no deben estar en la misma reunión.
8.
En el colegio “LOS HÉROES” se desea reorganizar la formación de los alumnos de Kinder para tener un mejor control del comportamiento y la disciplina. El salón de Kinder cuenta con 5 niñas y 5 niños los cuales deben ser distribuidos en una formación de 2 filas de 5 alumnos cada uno. a) ¿De cuántas maneras se pueden colocar a los niños en la formación? b) Si se desea que los niños y las niñas se ubiquen en filas diferentes, ¿de cuántas maneras se pueden colocar a los alumnos en la formación?
9.
¿De cuántas formas pueden seleccionarse 6 preguntas de un total de 10?
10. Diez amigos se encuentran en una fiesta. ¿Cuántos saludos de mano se intercambian si cada amigo estrecha la mano a todos los demás sólo una vez? 11. En una biblioteca, hay 8 libros de geometría, 14 de álgebra, 10 de física y 5 de química. ¿De cuántas maneras un estudiante debe seleccionar cuatro libros si estos deben ser de diferentes materias? 12. En la organización vecinal “MI BARRIO” los 20 miembros de la institución se dividirán en tres comités de trabajo: Reglamento, Presupuesto y Actividades. Los comités de Reglamento y de Presupuesto tendrán 8 miembros cada uno y el comité de Actividades tendrá 4 miembros. ¿De cuántas maneras se pueden asignar los miembros a esos comités?
CIBERTEC
CARRERAS PROFESIONALES
54
13. En un ómnibus que posee 37 asientos (en 8 filas de cuatro asientos cada una con un pasillo en el medio y al final 5 asientos juntos), se desea ubicar 25 pasajeros. a. ¿De cuántas formas se pueden ubicar? b. ¿De cuántas formas se pueden ubicar si deciden no ocupar los 5 últimos asientos? c. ¿De cuántas formas se pueden ubicar los pasajeros si viajan 5 amigos que deciden ir juntos en los últimos asientos? d. ¿De cuántas formas se pueden ubicar si ocupan los 18 asientos que poseen ventanilla? e. ¿De cuántas formas se pueden ubicar si 10 de los pasajeros están enfermos y deben viajar en asientos que poseen ventanilla? 14. De cuántas formas pueden ordenarse 7 libros en un estante sí: a) Es posible cualquier ordenación. b) Tres libros determinados deben estar juntos. c) Dos libros determinados deben ocupar los extremos. 15. Cuántos números de 5 dígitos pueden formarse con los 10 dígitos del sistema decimal si están permitidas las repeticiones. 16. Para la celebración de aniversario del Club Deportivo “LOS EUCALIPTOS”, se desean formar la mayor cantidad de equipos posibles. Cada equipo deberá confeccionarse una camiseta con tres franjas horizontales o verticales con los colores del Club (Azul, Verde y Rojo). a) ¿Cuántos equipos se pueden formar, para que cada uno tenga una camiseta diferente? b) Si se desea que todos los equipos tengan una camiseta con la franja del centro de color rojo, ¿cuántos equipos se pueden formar? 17. Un entrenador de volley dispone de 6 jugadoras veteranas y de 5 novatas para hacer la alineación de su equipo. Si las jugadoras pueden jugar en cualquier posición, ¿cuántas alineaciones se podrán hacer, si en el equipo necesariamente debe haber 3 jugadoras veteranas y 3 novatas? 18. En la empresa de comercialización de electrodomésticos “POWER HOUSE” se cuenta con un staff de 12 vendedores. Ud. es el responsable de la conformación de los equipos de vendedores, los cuales deben de formarse con criterios de empatía y trabajo en equipo. a) ¿De cuántas maneras se pueden formar 3 equipos de vendedores de tal manera que los tres vendedores más antiguos lideren cada uno los equipos formados? b) ¿De cuántas maneras se pueden formar 4 equipos de vendedores en los que se asegure que dos vendedores nunca estén en el mismo equipo de trabajo, para evitar problemas de empatía? 19. El asta de bandera de un barco tiene tres posiciones en las que se pueden colocar una bandera en cada una. Si el barco lleva cuatro banderas diferentes para hacer señales. Cuantas señales diferentes se pueden hacer: Con una bandera; con dos banderas; con todas las banderas. 20. De un grupo de 10 hombres y 15 mujeres; se quiere formar grupos de 5 personas de tal forma que: a) Exista dos hombres en cada grupo. b) Los grupos estén formados sólo de igual sexo. 21. Un niño tiene 8 bolas blancas y 2 bolas negras y las alinea al azar ¿De cuántas formas se pueden alinear para que las de color negro queden juntas? ¿De cuántas formas se pueden alinear para que las de color negro ocupen posiciones de los extremos?
CARRERAS PROFESIONALES
CIBERTEC
A ná l is is Pr o ba b i lís t ic o
55
22. Un equipo de fútbol dispone de 3 arqueros, 8 defensas, 6 mediocampistas y 5 delanteros. ¿De cuántas maneras puede formar su equipo titular si se sabe que en él debe emplear 1 arquero, 4 defensas, 4 mediocampistas y 2 delanteros? 23. Un vendedor de automóviles acaba de recibir un embarque de 15 unidades último modelo, de los cuales 10 son del modelo “TITAN” y 5 son del modelo “SPACE”. ¿De cuántas maneras se pueden vender 4 de estos automóviles, si al menos uno debe ser del modelo “SPACE”? 24. Se diseña un circuito que debe tener 9 resistencias numeradas de 1 al 9 conectadas en serie. Si se instalan 5 resistencias de la marca A y 4 de la marca B. ¿cuál es la probabilidad que las resistencias de la marca A: a) Ocupen las cinco primeras posiciones del circuito. b) Se encuentren en el centro del circuito. 25. ¿Cuántas cantidades diferentes de dinero pueden formarse con; una moneda de 50 céntimos, una moneda de 1 sol, una moneda de 5 soles, un billete de 10 soles, un billete de 50 soles, y un billete de 100 soles? B.- Probabilidad Clásica 1.
Con 7 abogados y 4 médicos se van a formar comités de 6 personas. Halle la probabilidad de que se forme un comité en el cual se incluya lo siguiente: a. Exactamente 2 médicos. b. Por lo menos 2 abogados. c. Como máximo 3 médicos.
2.
Tenemos 2 urnas, en la primera hay 2 bolas blancas y 3 bolas negras; en la segunda urna hay 4 bolas blancas y 1 bola negra. a. Si se extrae una bola de cada urna, halle la probabilidad de que las bolas extraídas sean blancas. b. Si se juntan las bolas de las dos urnas y se extraen dos bolas, calcule la probabilidad que éstas sean del mismo color.
3.
Se lanza un dado (no cargado) tres veces, cuál es la probabilidad de que: a. La suma de los puntos obtenidos sea 3 ó 4. b. La suma de los puntos obtenidos sea mayor que 4.
4.
De un grupo de personas, el 30% practica fútbol y el 40% juega ajedrez. De los futbolistas el 50% juega ajedrez. Si se elige aleatoriamente a una persona. ¿Cuál es la probabilidad que no practique fútbol ni ajedrez?
5.
Una empresa que ofrece servicios de soporte informático cuenta con 5 profesionales que sólo manejan Visual Basic, 4 manejan sólo Unix y 3 que manejan Windows NT. Una compañía le solicitó que envíen un equipo de tres personas. Calcule la probabilidad que el equipo esté formado por las siguientes personas: a. Una persona que maneje sólo VB, otra Unix y la otra Windows NT. b. Personas que sólo manejan una sola especialidad. c. Personas que sólo manejen Windows NT.
6.
Una urna A contiene 3 bolas rojas y 3 bolas negras, mientras que la urna B contiene 4 bolas rojas y 6 negras. Si una bola es extraída aleatoriamente de cada urna. ¿Cuál es la probabilidad de que las bolas sean del mismo color?
CIBERTEC
CARRERAS PROFESIONALES
56
7.
De 20 personas que contrajeron cierta enfermedad al mismo tiempo y que fueron llevadas a una misma sala de hospital, 15 se recuperan completamente en 3 días; al cabo de los cuales, se escogen aleatoriamente 5 personas para un chequeo. a. ¿Cuál es la probabilidad que las cinco personas sean dadas de alta? b. ¿Cuál es la probabilidad que exactamente cuatro sean dadas de alta? c. ¿Cuál es la probabilidad que ninguno sea dado de alta?
8.
Ocho parejas de casados se encuentran en un salón. Si se escogen 2 personas al azar, halle la probabilidad de que se cumpla lo siguiente: a. Que sean esposos. b. Que una sea mujer y el otro sea hombre.
9.
En una caja, hay 7 bolas rojas y 3 verdes. Se sacan dos bolas al azar de una en una. Halle la probabilidad de que la primera sea roja y la segunda también si es que no hay reposición.
10. Ocho ejecutivos de una empresa llegan diariamente a su oficina en un automóvil y lo aparcan en una de las tres playas de estacionamiento con que cuentan. Si los estacionamientos son escogidos al azar, ¿cuál es la probabilidad de que en un día determinado se tenga 5 automóviles en un estacionamiento, dos en otro y el restante en el otro? 11. En una oficina donde se ensamblan computadoras, en una mesa hay 20 chips de los cuales 6 están malogrados. Primero llega el Sr. Gates y recoge 8 chips y más tarde llega el Sr. Apple y se lleva los restantes. Halle la probabilidad de que solamente uno de ellos se haya llevado todos los chips defectuosos. 12. La probabilidad de que Juan asista a una cita es 1/2 y de que María asista a la misma cita es 5/14. Si la probabilidad de que al menos uno de los dos asista a la cita es 5/7, calcular la probabilidad de que: a. Ninguno de los dos asista a la cita. b. Sólo uno de ellos asista a la cita. 13. Un lote contiene n objetos. La probabilidad de que al menos uno sea defectuoso es 0.06, mientras que la probabilidad de que al menos dos sean defectuosos es 0.04. Calcular la probabilidad de que: a. Todos los objetos sean no defectuosos. b. Exactamente un objeto sea defectuoso. 14. Se dispone de 11 historias clínicas, pertenecientes a pacientes masculinos y femeninos agrupados por su nivel de hemoglobina.
a. b.
Estado
M (masculino)
F (femenino)
Total
A (Anémico)
5
3
8
N (Normal)
1
2
3
Total
6
5
11
¿Cuál es la probabilidad de extraer una historia correspondiente a un paciente anémico y que sea mujer? Si se extraen al azar 3 historias médicas, ¿cuál es la probabilidad que correspondan a pacientes que tienen el mismo estado?
CARRERAS PROFESIONALES
CIBERTEC
A ná l is is Pr o ba b i lís t ic o
57
15. Una caja contiene 5 fichas de $10 cada una, 3 de $30 cada una y 2 de $50 cada una. Si se escogen 3 fichas al azar y a la vez, calcule la probabilidad de que la suma de los valores sea de $ 70. 16. En la multinacional “NETWORLD”, Ud. es uno de los nuevos operadores seleccionados para trabajar en el NOC (Network Operation Center). Si Ud. sabe que en el NOC existen 80 computadoras, de las cuales 50 tienen SO Windows Vista y 30 tienen SO Linux. La mitad de las computadoras tiene acceso a Internet y la otra mitad no tiene acceso a Internet. Además se sabe que el 60% de las computadoras con SO Windows Vista no tiene acceso a Internet. Si Ud. tiene la posibilidad de escoger una de las computadoras al azar: a. ¿Cuál es la probabilidad que tenga SO Windows Vista y además tenga acceso a Internet? b. ¿Cuál es la probabilidad que tenga SO Linux y no tenga acceso a Internet? 17. Doscientas personas están distribuidas de acuerdo a su sexo y lugar de procedencia de la siguiente manera: 130 son hombres, 110 son de la capital y 30 son mujeres y de provincias. Si se eligen dos personas al azar calcular la probabilidad de que: a. Ambos sean hombres y de provincias. b. Al menos uno de los dos sea mujer. 18. En una municipalidad hay 5 regidores del partido A, 4 regidores del partido del B y 3 regidores del partido del C. El alcalde de dicha comuna necesita a tres regidores para auditar los trabajos de alcantarillado que se realizan en una zona del distrito por una empresa que ganó por licitación y que debe entregar la obra terminada en 30 días a partir de hoy. El alcalde en forma democrática sortea los nombres de dichos regidores, pone sus nombres en 12 papeles, y los coloca en una urna. a. Si saca los papeles uno tras de otro sin reposición, leyendo el nombre de dicho regidor. ¿Cuál es la probabilidad de que los tres sean del partido A? b. Si saca los tres papeles a la vez, y lee los tres nombres ¿Cuál es la probabilidad de que los tres sean de distintos partidos? 19. De 80 personas encuestadas, se encontró que 3/4 son solteras, 3/8 son mujeres y uno de cada 10 hombres son casados. a. Si se elige al azar una persona encuestada, halle la probabilidad de que sea hombre y soltero. b. Si se eligen al azar dos personas encuestadas, halle la probabilidad de que ambos sean mujeres y casadas. 20. De un total de 12 personas (8 hombres y 4 mujeres) se va formar una comisión conformada por tres personas. a. ¿Cuál es la probabilidad que la comisión esté conformada íntegramente por personas del mismo sexo? b. ¿Cuál es la probabilidad que sólo haya una mujer entre las personas elegidas? 21. En una clase de tutoría de Estadística hay 6 varones y 3 mujeres. Si deben elegirse 7 personas. a. Calcule la probabilidad que en el grupo haya exactamente 5 hombres. b. Calcule la probabilidad que hayan más hombres que mujeres. 22. Un vendedor tiene 10 autos nuevos de diferentes modelos: 3 del modelo CENIT, 3 del modelo AZOR y 4 del modelo WAX. a. ¿Cuál es la probabilidad de vender dos autos del mismo modelo? b. ¿Cuál es la probabilidad de vender un auto de cada modelo?
CIBERTEC
CARRERAS PROFESIONALES
58
23. Un comerciante tiene 15 artículos, de los cuales 5 tienen algún tipo de defecto. Un cliente pide 3 artículos que no tengan defectos. Si el comerciante escoge al azar y de una sola vez 5 artículos, ¿cuál es la probabilidad de que con las 5 unidades escogidas satisfaga el pedido del cliente? 24. En una caja hay 10 chips de los cuales 3 son defectuosos. Se seleccionan 3 chips uno después de otro (sin reposición), halle la probabilidad que los chips sean defectuosos. 25. Un lote contiene 8 artículos buenos y 4 defectuosos. Si se extraen al azar 3 artículos a la vez, calcular la probabilidad de obtener por lo menos un defectuoso. 26. Una urna contiene 20 fichas similares de las cuales 10 son rojas, 6 son azules, y 4 son verdes. Si se extraen 10 fichas al azar y a la vez, calcular la probabilidad de que: a. Cinco fichas sean rojas. b. Cinco sean rojas, 3 azules; y 2 sean verdes. 27. Un comerciante tiene 12 unidades de cierto artículo de los cuales 4 tiene algún tipo de defecto. Un cliente pide para comprar 3 de tales artículos pero que no tengan defectos. Si el comerciante escoge al azar y de una sola vez 4 de tales artículos, ¿cuál es la probabilidad de que con las 4 unidades escogidas satisfaga el pedido del cliente? 28. En un estante de una tienda se tienen 4 bombillas quemadas y 6 buenas, un cliente desea comprar 4 de éstas y deben estar en buen estado; el dueño de la tienda saca 6 bombillas al azar y a la vez colocándolas en la mesa del mostrador. a. ¿Cuál es la probabilidad que el cliente compre bombillas en buen estado? b. ¿Cuál es la probabilidad que el cliente compre por lo menos una bombilla quemada? 29. Un lote de 20 artículos tiene 4 defectuosos y 16 no defectuosos. a) Si se divide en 4 sub lotes de 5 artículos cada uno. Calcular la probabilidad de que en cada sub lote exista un artículo defectuoso. b) Si se desea formar un sub lote de 5 artículos. Calcular la probabilidad que en el sub lote existan 4 artículos defectuosos.
C.- Probabilidad Condicional 1.
De 6 alumnos de ingeniería y 4 de ciencias se deben seleccionar dos de ellos para hacer cierta tarea, ¿Cuál es la probabilidad de que la selección esté formada por uno de ciencias y otro de ingeniería si un determinado alumno de ciencias no puede hacer pareja con 2 de ingeniería?
2.
La probabilidad de que Juan asista a una cita es ½ y de que María asista a la misma cita es 5/14. Si la probabilidad de que al menos uno de los dos asista a la cita es 5/7, calcula la probabilidad de que: a. Ninguno de los dos asista a la cita.. b. Solo uno de ellos asista a la cita. c. Asista María si se sabe que Juan asistió. d. Asista Juan si se sabe que María no asistió.
3.
Una caja contiene 16 pernos de los cuales 8 no tiene defectos, 5 tiene defectos leves, y 3 tiene defectos graves. Si se eligen 3 pernos al azar y de una sola vez, calcular la probabilidad de que los tres no tengan defectos leves.
4.
Si: P(A) = 5/8 ; P(B) = 3/4 y P(A/B) = 2/3 , calcular P(A/BC).
CARRERAS PROFESIONALES
CIBERTEC
A ná l is is Pr o ba b i lís t ic o
59
5.
En una muestra de 240 Loretanos se encontró que el 60% sufre alguna enfermedad, el 30% tienen al menos 30 años, y el 20% son menores de 30 años y sanos. Si uno de tales loretanos es escogido al azar, cuál es la probabilidad de que: a. Sufra alguna enfermedad y tenga al menos 30 años. b. Sufra alguna enfermedad si tiene al menos 30 años.
6.
Una persona se presenta a dos puestos de trabajo A y B. La probabilidad que lo llamen de ambos trabajos es de 10%. La probabilidad que no lo llamen de ningún trabajo es de 50%. La probabilidad que lo llamen del trabajo B es de 30%. a. Calcule la probabilidad que lo llamen sólo del trabajo A. b. Calcule la probabilidad que lo llamen de A, dado que no lo llamaron de B.
7.
En cierta escuela profesional, el 20% de los estudiantes desaprobaron matemática, el 10% estadística y el 8% desaprobaron ambas asignaturas. Se necesita seleccionar un estudiante al azar. a. Si desaprobó estadística, ¿Cuál es la probabilidad de que desaprobara matemáticas? b. Si desaprobó matemáticas, ¿Cuál es la probabilidad de que desaprobara estadística? c. ¿Cuál es la probabilidad de que desaprobara matemática o estadística?
8.
Un país está dividido en tres regiones: A, B y C. El 5% de la población de la región A es analfabeta; en tanto que el 8% de la población de la región B también lo es. En la región C el porcentaje de analfabetos es del 12%. Si del total de la población el 25% pertenece a la región A; el 35% a la región B y el resto a la región C, determinar: a. La probabilidad de que al elegir a una persona de dicho país esta sea analfabeta. b. Si la persona elegida resultó analfabeta, ¿Cuál es la probabilidad que provenga de la región C?.
9.
En una oficina del poder judicial se disponen de 200 expedientes procedentes de juzgados civiles y penales agrupados de acuerdo a su estado dentro de los procesos legales (ingresados, por sentenciar, sentenciados). Expedientes Civiles Ingresados
Total
55
85
35
Por sentenciar Sentenciados
Expedientes Penales
17
42
Total a. b.
Si se escoge al azar un expediente por sentenciar, ¿cuál es la probabilidad que sea un expediente penal?. Hallar la probabilidad de escoger un expediente ya sentenciado si se sabe que forma parte de los expedientes civiles.
10. Cierta empresa se presenta a dos licitaciones X y Y con las siguientes opciones de ganar: la probabilidad que pierda en las dos licitaciones es de 30%; mientras que la probabilidad de ganar solamente una licitación es de 60%. Además, la probabilidad de ganar solamente en X es de 40%. a. Calcule la probabilidad de ganar ambas licitaciones. b. Calcule la probabilidad que gane la licitación Y si se sabe que no ganó X. 11. La probabilidad de que un postulante a un trabajo de programador conozca solamente Visual Basic es 0.3, en tanto de que conozca Visual Basic y Pascal es 0.4. También se sabe que el 15% no conoce ninguno de estos dos lenguajes. ¿Cuál es la probabilidad que conozca Pascal pero no Visual Basic?
CIBERTEC
CARRERAS PROFESIONALES
60
12. De 80 personas encuestadas, se encontró que 3/4 son solteras, 3/8 son mujeres y uno de cada 10 hombres son casados. a. Si se elige al azar una persona encuestada y resulta ser casada, calcular la probabilidad de que sea un hombre. b. Si se eligen al azar dos personas encuestadas y resultan ser del mismo sexo, calcular la probabilidad de que ambos sean hombres. 13. Del primer examen de estadística resulta que el 40% de los alumnos está en el cuarto superior. Se estima en 70% los alumnos que no estarán en el cuarto superior del segundo examen y una probabilidad de 3/4 que un alumno no esté en el cuarto superior del segundo examen si estuvo en el cuarto superior del primer examen. Si se elige al azar un alumno de este curso, calcular la probabilidad de que esté: a. En el 4to. superior del 2do. examen y no en el 4to. superior del 1er. Examen. b. En el cuarto superior del segundo examen si no estuvo en el cuarto superior del primero. 14. En una muestra de 480 huanuqueños se encontró que el 60% sufre alguna enfermedad, el 30% tienen al menos 20 años, y el 20% son menores de 20 años y sanos. Si dos de tales huanuqueños son escogidos al azar, a. ¿Cuál es la probabilidad de que los dos sufran alguna enfermedad y tengan al menos 20 años? b. ¿Cuál es la probabilidad de que uno de ellos sufra alguna enfermedad? 15. En una universidad, el 70% de los estudiantes son de Ciencias y el 30% de Letras; de los estudiantes de Ciencias, el 60% son varones y los de Letras son varones el 40%. Si se elige aleatoriamente un estudiante, calcule la probabilidad que sea un estudiante: a. Varón, si es de Ciencias. b. Ciencias, si es varón. c. Ciencias y varón. 16. Suponga que en una oficina hay 100 calculadoras de las cuales 60 son eléctricas y las otras son manuales. Además, hay 70 máquinas nuevas mientras que las otras son usadas. Hay 30 máquinas nuevas y manuales. Si se escoge una máquina al azar: a. ¿Cuál es la probabilidad de que sea eléctrica? b. ¿Cuál es la probabilidad de que sea manual si se sabe que es usada? 17. La probabilidad de que un vuelo de programación regular despegue a tiempo es 83%, de que llegue a tiempo es 82% y de que despegue y llegue a tiempo es 78%. Encuentre la probabilidad que un avión: a. Llegue a tiempo dado que no despegó a su hora. b. Despegue a tiempo dado que llegó a su hora. 18. Un hombre tiene dos carros A y B que tienen problemas de arranque. La probabilidad de que ambos arranquen es 0,1 ; la probabilidad de que arranque B y no A es 0,2 ; la probabilidad de que ninguno de ellos arranque es 0,4. Halle la probabilidad de que: a. El carro A arranque. b. Arranque A dado que B no arrancó. 19. La probabilidad de que un alumno apruebe Estadística es de 2/3 y la probabilidad de que apruebe Matemática es 4/9. Si la probabilidad de aprobar al menos una de estas materias es 4/5. ¿Cuál es la probabilidad de que apruebe ambos cursos?
CARRERAS PROFESIONALES
CIBERTEC
A ná l is is Pr o ba b i lís t ic o
61
20. Una empresa tiene la siguiente información acerca de la preferencia del distrito X sobre tres de sus productos A, B y C. - El 50% prefiere el producto A. - El 37% prefiere el producto B. - El 30% prefiere el producto C. - El 12% prefieren A y B. - El 8% prefieren sólo A y C. - El 5% sólo prefieren B y C. - El 15% prefieren solamente C. Si se escoge al azar a una persona del distrito X, determinar la probabilidad: a. Que no prefiera a ninguno de sus productos. b. Que prefiera el producto A si se sabe que también prefiere al producto 21. Un grupo de jóvenes acudieron a una fiesta y presentaron las siguientes características: 36% usaban anteojos, 38% llevaban saco, 40% usaban corbata, 18% usaban anteojos y saco, 14% usaban saco y corbata, 14% usaban anteojos y corbata, 10% usaban anteojos, saco y corbata. Determine la probabilidad que al escoger un estudiante al azar: a. Use anteojos y saco pero no corbata. b. No use ni anteojos, ni saco, ni corbata. c. Use corbata si se sabe que usa anteojos. 22. En el mercado laboral, últimamente tienen gran demanda aquellos profesionales con conocimientos avanzados. Se sabe que el 15% de los que solicitan empleo sólo tienen conocimientos de Visual Basic, el 10% sólo conoce Lenguaje C y el 5% sólo conoce Pascal. El 30% no tiene conocimiento de estas tres herramientas de programación. También, se sabe que el 35% tiene experiencia solamente en dos de los tres lenguajes de programación. a. Halle la probabilidad de que al entrevistar a un postulante a un puesto de programador, este conozca Visual Basic, Lenguaje C y Pascal. b. Halle la probabilidad de que un postulante conozca los 3 lenguajes si se sabe que conoce al menos uno. 23. Un alumno de Cibertec está llevando Matemática, Estadística y Contabilidad. Por experiencias anteriores, se sabe que la probabilidad de aprobar Matemática es 0,7; el de Estadística 0,55; el de Contabilidad 0,5; el de Matemática y Estadística 0,3; el de Matemática y Contabilidad 0.35; el de Estadística y Contabilidad 0,3 y los tres a la vez 0,2. Calcule la probabilidad de que el alumno: a. Apruebe sólo un curso. b. Apruebe por lo menos dos cursos. c. No apruebe algún curso. 24. En una ciudad, el 70% de los adultos escuchan radio, el 40% lee periódico y el 10% ve televisión; entre los que escuchan radio el 30% lee periódicos y el 4% ve televisión. El 50% de los que ven TV lee el periódico y sólo el 2% de la población total lee periódico, ve TV y escucha radio. Si se elige una persona al azar, calcule la probabilidad: a. Que sólo realice una de las tres actividades. b. Sabiendo que lee periódico, que vea televisión. c. Escuche radio o vea TV.
CIBERTEC
CARRERAS PROFESIONALES
62
6. DISTRIBUCIÓN BINOMIAL Un Distribución Binomial es aquella que cumple con el experimento de Bernoulli. Para que un experimento sea considerado un Experimento de Bernoulli debe cumplir las siguientes condiciones:
El experimento tiene solamente dos resultados posibles denominados “Éxito” y “Fracaso”. La probabilidad de “Éxito” se mantiene constante cada vez que se realiza el experimento.
Algunos ejemplos en que se presenta un experimento de Bernoulli son los siguientes:
“Lanzar una moneda” “Llegar a tiempo a una reunión” “Escoger una persona capacitada en Estadística” “Aprobar el curso de Matemática”
Función de Probabilidad
Función de Distribución de Probabilidad
CARRERAS PROFESIONALES
CIBERTEC
A ná l is is Pr o ba b i lís t ic o
63
En la gráfica de la página anterior se puede apreciar el comportamiento de la función de probabilidad y de la función de distribución de probabilidad para algunos valores de n (número de veces que se repite el experimento) y p (probabilidad de éxito). Esta Distribución Binomial se utiliza cuando estamos interesados solamente en conocer el número total de “Éxitos” en un proceso de “n” ensayos DISCRETOS al margen del orden en que se presenten. Entonces, la distribución Binomial se aplica cuando:
El experimento tiene solo dos resultados posibles denominados “Éxito” y “Fracaso”. El experimento se repite “n” veces. La probabilidad de éxito se mantiene constante en cada una de las veces que se realiza la prueba.
La función de probabilidad para la Distribución Binomial es la siguiente:
PX k / B : n, Donde:
X n K
= = = =
C 1 n
k
n k
k
Variable aleatoria Probabilidad de éxito del experimento de Bernoulli Número de pruebas de Bernoulli Número de eventos discretos con “éxito” dentro de las “n” pruebas
Adicionalmente, en la Distribución Binomial se tienen en cuenta los siguientes parámetros: Valor Esperado: Varianza:
E(x) = n. V(x) = n..(1 – )
Para la resolución de casos de Distribución Binomial, se recomienda considerar los siguientes pasos:
PASO 1.- Leer el enunciado, determinar la variable y concluir si se trata un experimento de Bernoulli.
PASO 2.- Determinar la probabilidad de éxito (π) de la variable y la cantidad de veces (N) que se repite el experimento.
PASO 3.- Enunciar la función de distribución de probabilidad de acuerdo a “éxito” identificado y teniendo en cuenta si la pregunta hace referencia a = , < , > , ≥ , ≤
PASO 4.- Calcular la probabilidad ya sea empleando la fórmula o empleando las Tablas de Probabilidades.
CIBERTEC
CARRERAS PROFESIONALES
64
7. DISTRIBUCIÓN DE POISSON Un experimento aleatorio es una Distribución de Poisson si es que dicho experimento expresa la probabilidad de un número k de eventos discretos que ocurren en una frecuencia media conocida (denominada parámetro λ) o intervalo continuo. El factor λ constituye el valor promedio de ocurrencias de eventos para el intervalo en que está definida la variable aleatoria. Algunos ejemplos en donde se presenta la distribución de Poisson son los siguientes:
Cantidad de vehículos que llegan a un grifo durante una hora. Cantidad de llamadas que llegan a una central telefónica por cada turno. Cantidad de manchas de pintura en un mural por cada m2. Cantidad de bacterias en cada cm3 de agua. El número de servidores web accedidos por minuto. Número de consultas a una base de datos por día.
Función de Probabilidad
Función de Distribución de Probabilidad
CARRERAS PROFESIONALES
CIBERTEC
A ná l is is Pr o ba b i lís t ic o
65
En la gráfica de la página anterior se puede apreciar el comportamiento de la función de probabilidad y de la función de distribución de probabilidad para algunos valores del parámetro λ. E eje horizontal representa el número de eventos “k”.
La función de probabilidad para la Distribución de Poisson es la siguiente:
e .k PX k / P : k! Donde: X = Variable aleatoria λ = Valor promedio de ocurrencias para el intervalo en que está definida la variable K = Número de eventos comprendidos en la frecuencia del parámetro λ
Adicionalmente, en la Distribución de Poisson, se tienen en cuenta los siguientes parámetros: Valor Esperado: Varianza:
E(x) = λ V(x) = λ
Para la resolución de casos de Distribución de Poisson, se recomienda considerar los siguientes pasos:
PASO 1.- Leer el enunciado, determinar la variable y concluir si esta presenta un promedio de ocurrencias en una unidad de medida (Parámetro λ).
PASO 2.- Leer la pregunta y calcular el valor del parámetro λ en la unidad de medida establecida en la pregunta. (Recordar que la base de medida del enunciado no necesariamente es la misma que el de la pregunta).
PASO 3.- Enunciar la función de distribución de probabilidad teniendo en cuenta si la pregunta hace referencia a = , < , > , ≥ , ≤
PASO 4.- Calcular la probabilidad ya sea empleando la fórmula o empleando las Tablas de Probabilidades.
8. RELACIÓN ENTRE LA DISTRIBUCIÓN BINOMIAL Y LA DISTRIBUCIÓN DE POISSON Cuando N tiende a infinito y es tal que el producto entre ambos parámetros tiende a ser igual al parámetro λ; entonces, la distribución de la variable aleatoria Binomial se puede aproximar, a una distribución de Poisson. Para esto, la equivalencia de parámetros es la siguiente:
n En la práctica, esta aproximación se suele utilizar cuando es pequeño y el valor de n es muy grande.
CIBERTEC
CARRERAS PROFESIONALES
66
9. DISTRIBUCIÓN NORMAL La distribución normal, también llamada distribución de Gauss o distribución gaussiana, es la distribución de probabilidad que aparece con más frecuencia en estadística y probabilidades por las siguientes razones:
Su función de densidad (función matemática de la distribución) es simétrica y con forma de campana, lo que favorece su aplicación como modelo a gran número de variables estadísticas. Es límite (aproximación) de otras distribuciones. Se relaciona con multitud de resultados ligados a la teoría de las probabilidades gracias a sus propiedades matemáticas.
CARRERAS PROFESIONALES
CIBERTEC
A ná l is is Pr o ba b i lís t ic o
67
Algunos ejemplos de áreas en donde se aplica la Distribución Normal son los siguientes:
Parámetros de mercadeo y de opinión Tendencias electorales Efectos fisiológicos ocasionados por fármacos, virus, etc. Características de consumo de cierto producto por un grupo de individuos Caracteres psicológicos como el cociente intelectual Rendimiento y Ancho de banda en redes LAN y WAN Nivel de ruido en Telecomunicaciones Determinación del tiempo de vida de equipos industriales
La Distribución Normal tiene una función de densidad continua:
f ( x)
Donde:
X μ σ
= = =
1 2
1 x 2 e
2
dx
Variable aleatoria Media Aritmética Desviación Estándar
En las gráficas siguientes se aprecia el comportamiento de la Distribución Normal para diferentes valores de media (µ) y desviación estándar (σ) Función de Densidad de Probabilidad
CIBERTEC
CARRERAS PROFESIONALES
68
Función de Distribución de Probabilidad
Para poder trabajar una distribución normal es necesario realizar un proceso de normalización. La normalización de una distribución normal consiste en el proceso de estandarización de una variable aleatoria “X” con media igual a μ y desviación estándar igual a σ, a un nuevo valor estándar Z (variable normalizada) de media 0 y desviación estándar 1.
X ~ N(μ , σ)
Z ~ N(0 , 1)
Este proceso de normalización se realiza utilizando las fórmulas que dependen del tipo de Distribución Normal utilizada.
10. DISTRIBUCIÓN NORMAL ESTÁNDAR La Distribución Normal Estándar nos permite calcular la probabilidad de ocurrencia de una variable aleatoria que sigue una distribución normal cualquiera. Para el proceso de normalización de dicha variable aleatoria se utiliza la siguiente fórmula:
z
x
Este proceso de transformación permite el uso de tablas estadísticas previamente elaboradas, en las cuales se tienen los valores de probabilidad de la variable normalizada Z. Con esto, el cálculo de la probabilidad resulta más práctico, sencillo y rápido.
CARRERAS PROFESIONALES
CIBERTEC
A ná l is is Pr o ba b i lís t ic o
69
Para este caso de distribución es recomendable seguir los siguientes pasos:
PASO 1.- Leer el enunciado, determinar la variable y la existencia de los datos: Media Aritmética (μ) y Desviación Estándar (σ). Recordar que la información de cantidad (N) no interviene para este proceso.
PASO 2.- Escribir la función de probabilidad de acuerdo a la variable y la cantidad solicitada en la pregunta, teniendo en cuenta si la interrogante hace referencia a “mayor que” o “menor que”.
PASO 3.- Normalizar la función de acuerdo a la fórmula y de acuerdo a los datos del ejercicio.
PASO 4.- Graficar la función normalizada y calcular la probabilidad empleando la Tabla de Distribución Normal.
11. DISTRIBUCIÓN MUESTRAL DE MEDIAS Una distribución muestral de medias se presenta cuando una MUESTRA aleatoria de tamaño “n” es extraída de una POBLACIÓN que posee distribución normal con media µ y desviación estándar σ. Se utiliza cuando queremos conocer el comportamiento de una población a partir del estudio de una muestra. Si una muestra aleatoria de tamaño "n" es extraída de una población con distribución dada, con media y desviación estándar , entonces la distribución de la variable aleatoria con media muestral X se aproxima cada vez más a una distribución normal cuando "n" tiende al infinito; es decir:
X N (μX , σ X ) Así, la distribución de la variable aleatoria para una distribución muestral de medias se realiza de la siguiente manera:
Z
( X ) n
Los pasos a seguir para analizar este caso de probabilidad son los siguientes:
PASO 1.- Leer el enunciado, determinar la variable y la existencia de los datos: Media Aritmética (μ), Desviación Estándar (σ) y Tamaño de Muestra (n).
PASO 2.- Leer la pregunta y escribir la función de probabilidad de acuerdo a la variable y la cantidad solicitada, teniendo en cuenta si la pregunta hace referencia a “mayor que” o “menor que”.
PASO 3.- Verificar si la función de probabilidad hace referencia a un valor cercano a la Media Aritmética (μ).
PASO 4.- Normalizar la función de acuerdo a la fórmula y de acuerdo a los datos del ejercicio.
PASO 5.- Graficar la función normalizada y calcular la probabilidad empleando la Tabla de Distribución Normal.
CIBERTEC
CARRERAS PROFESIONALES
70
12. DISTRIBUCIÓN MUESTRAL DE PROPORCIONES Si una muestra aleatoria de tamaño "n" es extraída de una población con distribución dada, con proporción poblacional , entonces la distribución de la variable aleatoria de una proporción muestral (p) se aproxima cada vez más a una distribución normal cuando "n" tiende a infinito; es decir:
p N (p, p ) Así, la distribución de la variable aleatoria para una distribución muestral de medias se realiza de la siguiente manera:
Z
X (1 ) n
Nótese que representa la probabilidad de éxito de un experimento de Bernoulli. Cuando la muestra “n” es pequeña, es necesario introducir un “factor de corrección de continuidad” igual a ±1/2n. Así, cuando se presenta este caso, se tiene:
X 1 2n Z (1 ) n Donde el factor de corrección (1/2n) se aplica de la siguiente manera: - Si (X< K) o (X≤K), entonces se aplica –(1/2n) - Si (X> K) o (X≥K), entonces se aplica +(1/2n) Los pasos a seguir para analizar este caso de probabilidad son los siguientes:
PASO 1.- Leer el enunciado, determinar la variable y la existencia de los datos: proporción poblacional (π) y tamaño de la muestra (n).
PASO 2.- Leer la pregunta y escribir la función de probabilidad de acuerdo a la variable, teniendo en cuenta si la pregunta hace referencia a >, < , ≥ , ≤ y además indicando una valor de probabilidad que indique una proporción.
PASO 3.- Realizar la corrección por aproximación, según sea el caso.
PASO 4.- Normalizar la función de acuerdo a la fórmula y de acuerdo a los datos del ejercicio.
PASO 5.- Graficar la función normalizada y calcular la probabilidad empleando la Tabla de Distribución Normal.
CARRERAS PROFESIONALES
CIBERTEC
A ná l is is Pr o ba b i lís t ic o
71
Actividades propuestas A.- Distribución Binomial 1.
Si X denota el número de caras en un solo lanzamiento de 4 monedas, calcule lo siguiente: a. P (X = 3) b. P (X < 2) c. P ( X 2) d. P (1 < X 3)
2.
Si se lanzan 6 monedas al mismo tiempo, halle la probabilidad de obtener lo siguiente: a. Dos o más caras. b. Menos de 4 caras. c. Por lo menos 4 caras. d. Calcule el valor esperado y la varianza de X.
3.
Un estudiante de la escuela de negocios tiene la certeza de aprobar 1 asignatura cualquiera con probabilidad 0.8. Si lleva 6 asignaturas. ¿Cuál es la probabilidad de que apruebe menos de dos o más de cuatro asignaturas?
4.
Se sabe que el 40% de las personas que se presentan a un empleo son altamente capacitadas en el manejo de Visual Basic. Si 25 personas se presentan a un empleo: a. ¿Cuál es la probabilidad de que 10 sean altamente capacitadas en VB? b. ¿Cuál es la probabilidad de que por lo menos 2 sean altamente capacitadas en el manejo de Visual Basic?
5.
Una computadora no funciona el 20% de las veces que se prende. ¿Cuál es la probabilidad de que en 10 intentos: a. No funcione exactamente 5 veces. b. No funcione por lo menos dos veces. c. Funcione exactamente 4 veces.
6.
La Municipalidad de Lima Metropolitana, mediante una nueva Ordenanza Municipal, ha comunicado una nueva normativa sobre el uso del cinturón de seguridad, con lo que pretende disminuir las muertes por accidentes de tránsito. Se ha observado que el 10% de los conductores todavía no usan el cinturón de seguridad, y de acuerdo a la nueva ordenanza se le multará al conductor con la retención del brevete y una multa equivalente a 50% de una UIT. Por otra parte, la Policía Nacional del Perú va a realizar el operativo “Salva tu Vida” en una zona de Lima. Si en cada operativo se intervienen a 10 conductores, ¿cuál será la probabilidad que no más de 3 de ellos tengan que ser multados por no cumplir con dicha ordenanza municipal?
7.
Suponga que la máquina A produce el doble de artículos que la máquina B. Se sabe que el 6% de los artículos que produce la máquina A son defectuosos, mientras que el 3% de los artículos producidos por la máquina B son defectuosos. Suponga que se junta la producción diaria de estas máquinas y se toma una muestra aleatoria de 10 artículos. Calcule la probabilidad de obtener exactamente 3 artículos defectuosos.
8.
Suponga que los motores de un avión de cierta marca, que operan independientemente, tienen una probabilidad de falla de 0,1. Suponga que un avión efectúa un vuelo exitoso si al menos la mitad de sus motores operan normalmente. Determine cuál avión, uno con cuatro y otro con seis motores, tiene mayor probabilidad de efectuar un vuelo exitoso.
CIBERTEC
CARRERAS PROFESIONALES
72
9.
Se ha elaborado un examen de selección múltiple consistente en 10 preguntas. Hay 5 respuestas posibles para cada pregunta. Suponga que ninguno de los estudiantes que va a rendir el test asistió a clases o que no estudió para el examen. El profesor que toma el examen ha establecido que para aprobar debe contestar correctamente al menos 6 preguntas. ¿Cuál es la probabilidad de aprobar?
10. Se sabe que la probabilidad de que falle un sensor de temperatura de una incubadora es de 0,35. En un hospital se han instalado dos incubadoras de los modelos A y B, la incubadora A posee 6 sensores y la incubadora B posee 9 sensores. Suponga que una incubadora realiza una medición correcta de la temperatura de un bebé si al menos los dos tercios de sus sensores funcionan correctamente. ¿Cuál de los modelos de incubadoras elegiría? 11. Una máquina produce cierto tipo de piezas, de las cuales un promedio de 5% es defectuosa. En una muestra aleatoria de cinco piezas. Cuál es la probabilidad de obtener: a. Exactamente una pieza defectuosa. b. Por lo menos una pieza defectuosa. 12. El Instituto Nacional del Niño se encuentra probando dos nuevos modelos de incubadoras para recién nacidos basadas en sensores electrónicos de temperatura. Las especificaciones del fabricante afirman que la probabilidad de que falle un sensor es de 0,35. En el hospital se han instalado dos incubadoras de los modelos A y B, la incubadora A posee 6 sensores y la incubadora B posee 9 sensores. Suponga que una incubadora realiza una medición correcta de la temperatura de un bebé si al menos los dos tercios de sus sensores funcionan correctamente. Basando solamente en criterios estadísticos; ¿cuál de los modelos de incubadoras elegiría el Instituto Nacional del Niño? Justifique su respuesta. 13. En una población de drosophila, el 20% tienen mutación de alas. Si se escogen 6 moscas aleatoriamente de la población. a. ¿Cuál es la probabilidad que dos tengan mutación? b. ¿Al menos uno tenga mutación? c. ¿Qué menos de 5 tengan mutación? d. ¿Cuál es el número esperado de moscas con mutación de alas? 14. Un tratamiento para cierta enfermedad produce una cura en 75% de los casos. Se seleccionan 6 pacientes aleatoriamente. Calcule la probabilidad de que: a. Todos estén curados. b. Ninguno esté curado. c. Exactamente cuatro estén curados. d. Al menos cuatro estén curados. 15. Se conoce que los tornillos producidos por una cierta compañía son defectuosos con probabilidad 0.01, independientemente uno del otro. La compañía vende los tornillos en paquetes de 10 y garantiza que no más de uno de los 10 tornillos es defectuoso. Si se vende uno de estos paquetes. ¿Cuál es la probabilidad que este sea reemplazado por la compañía? 16. Una empresa ha instalado bombas de agua de una determinada marca en edificios de departamentos, 10% de los cuales presentan fallas luego del primer año de uso. Si se inspeccionan 15 bombas de agua de dicha marca en edificios de departamentos que han sido instalados hace más de un año. ¿Cuál es la probabilidad que más de 5 de las bombas presenten fallas?
CARRERAS PROFESIONALES
CIBERTEC
A ná l is is Pr o ba b i lís t ic o
73
17. Ud. es contratado como programador senior por la empresa “TEXTILES ANDINOS” para diseñar el software integrado de facturación, balance, compras y salarios de la empresa. Durante el desarrollo del software se deben realizar pruebas de verificación para constatar que el programa funciona perfectamente. Ud detecta que la probabilidad de que el software genere un error de proceso es de 0,02%. Si los usuarios del software son 100. a. Calcule la probabilidad de que menos de 10 usuarios reporten un error de proceso. b. Calcule la probabilidad de que exactamente 7 usuarios reporten un error de proceso. 18. Dos equipos de fulbito: “Mi Barrio FC” y “Trome Sport” se preparan para su partido del fin de semana en el campeonato de tercera división. Los entrenadores de ambos equipos saben que, según las estadísticas, los delanteros de “Mi Barrio FC” tienen una efectividad de gol de 40%; mientras que la efectividad de gol de “Trome Sport” es de 60%. Los entrenadores estiman que en el encuentro “Mi Barrio FC” efectuará 10 disparos directos al arco; mientras que “Trome Sport” efectuará solamente 7 disparos directos al arco. a. ¿Cuál es la probabilidad que “Trome Sport anote 2 goles como máximo? b. ¿Cuál es la probabilidad que “Mi Barrio FC” anote más de 3 goles? c. ¿Cuál es la probabilidad que el partido quede 0 a 0? 19. El 90% de los tubos de ensayo soportan una temperatura mayor a 80ºC; suponga que 10 de estos tubos se someten a una prueba a temperaturas mayores de 80ºC. Determine la probabilidad que 3 de estos tubos quede inutilizables. 20. El director de control de calidad en una fábrica de ensamblaje de automóviles está realizando su inspección mensual de las transmisiones automáticas en la planta. En este procedimiento, 10 transmisiones se sacan de la línea de producción y se verifica si no tienen defectos de fabricación. En general sólo 5% de las transmisiones presentan defectos (suponga que los defectos ocurren independientemente en varias transmisiones). ¿Cuál es la probabilidad de que la muestra del director de control de calidad contenga más de 2 transmisiones con defectos de fabricación? 21. La probabilidad de fallar durante el vuelo para cada uno de los seis motores de un avión es 0,0005. Suponiendo que los seis motores trabajan independientemente, determine la probabilidad que en un vuelo determinado: a. No ocurra ninguna falla del motor. b. No ocurra más de una falla. c. Ocurra exactamente dos fallas. 22. De todas las personas que han pasado una prueba de aptitud a un trabajo en los últimos años, 90% han tenido éxito desempeñando ese trabajo, ¿Cuál es la probabilidad de que cinco de seis solicitantes que han pasado la prueba recientemente tengan éxito en el trabajo? ¿Cuál es la probabilidad que por lo menos cinco tengan éxito? 23. Cierto tubo de televisión tiene una probabilidad de 0,3 de funcionar más de 400 horas. Si se prueban 15 tubos: a. Hallar la posibilidad que exactamente 0, 4, 9 de ellos funcionen más de 400 horas. b. ¿Cuántos tubos espera encontrar que funcionen por lo menos 400 horas? c. ¿Cuál es el número de tubos más probable que funcionen por lo menos 400 horas? 24. Suponga que el 20% de las solicitudes de préstamo en un banco son aceptadas. Si se elige al azar a 8 personas que solicitaron el préstamo, Calcule la probabilidad que: a. A 2 de ellas se le acepte el préstamo. b. A por lo menos 5 se le acepte el préstamo. c. Se le acepte el préstamo a más de 6 personas si se sabe que se le ha aceptado a por lo menos 2.
CIBERTEC
CARRERAS PROFESIONALES
74
B.- Distribución de Poisson 1.
El jefe de producción de la Empresa “CLOCK”, se encuentra revisando el tiempo de reparación de los relojes de los clientes por parte de los técnicos. Se determinó que un técnico luego de identificar la falla demora en promedio 5 minutos en reparar un reloj. Calcule la probabilidad de que el técnico pueda reparar 3 relojes en el lapso de 10 minutos, luego de haber determinado las fallas.
2.
Uno de los problemas de la banca es la irresponsabilidad de las empresas que pagan con cheques para ser cobrados después de 24 horas de ser emitidos. Todos los días un banco recibe en promedio 6 cheques sin fondo, ¿Cuál es la probabilidad de que dicho Banco reciba 10 cheques sin fondos en dos días consecutivos?
3.
En la playa “Las Olas” los salvavidas se encuentran preparándose para sus actividades en la temporada veraniega. Ellos saben que en temporada veraniega el 5% del total de bañistas son asistidos por dificultades en la playa. Si se escogen al azar 200 bañistas, ¿cuál es la probabilidad que al menos 7, pero menos de 13 hayan sido asistidos por los salvavidas?
4.
Una cajera de un supermercado puede atender en promedio a dos clientes por minuto. Calcule la probabilidad para que: a. Pueda atender a 5 clientes en el lapso de dos minutos. b. Pueda atender por lo menos a dos clientes en el lapso de un minuto.
5.
Los accidentes de trabajo que se producen por semana en una fábrica, siguen la ley de Poisson, de tal manera que la probabilidad que haya 5 accidentes es 16/15 de la probabilidad de que haya 2 accidentes: a. Halle el parámetro de la distribución de Poisson. b. La probabilidad de que no haya accidentes en tres semanas.
6.
Una de cada cinco veces que se llegó a un puente levadizo, éste se encontraba levantado por lo que se tuvo que detener el auto para luego continuar el camino. a. Calcule la probabilidad de que en las siguientes siete aproximaciones al puente este no se halle levantado. b. ¿Cuál es el número de veces que se espera encontrar el puente levantado?
7.
Una empresa dedicada a la fabricación de tarjetas integradas, ha estimado que la probabilidad de falla de la tarjeta integrada de un computador es 0.12. Si se ensamblaran en forma aleatoria 50 computadoras con dichas tarjetas. ¿Cuál es la probabilidad que 15 computadoras tengan problemas por tarjetas integradas?
8.
Una compañía de seguros se encuentra preocupada por los incrementos de accidentes automovilísticos ocurridos en los últimos años. Después de realizar estudios a este problema se halla que el 0.05% de la población fallece cada año por este tipo de accidente. ¿Cuál es la probabilidad de que la compañía tenga que pagar a más de 3 de los 10 mil asegurados contra tales accidentes en un año determinado?
9.
El Bureau of Printing and Engraving of United States es una oficina gubernamental que tiene la función de imprimir el papel moneda de su país. Debido a su gran responsabilidad esta oficina tiene una frecuencia extraordinariamente pequeña de errores de impresión: apenas 0,05% de los billetes contienen errores como para que no se permita su circulación. ¿Cuál es la probabilidad de que de un lote de 10000 billetes, diez de ellos contengan errores como para que no puedan circular?
CARRERAS PROFESIONALES
CIBERTEC
A ná l is is Pr o ba b i lís t ic o
75
10. El gerente de control de calidad de las galletas Marilyn’s está inspeccionando un lote recién horneado de galletas con hojuelas de chocolate. Si el proceso de producción está bajo control, el número promedio de hojuelas por galleta es 6,0. ¿Cuál es la probabilidad de que en cualquier galleta en particular que se inspeccione se encuentren exactamente cinco hojuelas? 11. Suponga que cierto alimento produce una reacción alérgica en un 0,01% de una población grande. Si 100 000 personas comen este alimento diario en promedio: a. ¿Cuál es la probabilidad de que 5 de ellos sean, alérgicos a este alimento? b. ¿Cuál es el número esperado de personas con reacción alérgica? 12. Suponga que cierta enfermedad rara afecta al 0,1% de la población grande. Se escogen aleatoriamente a 5000 personas de esta población y son sometidos a un examen para detectar la enfermedad. a. ¿Cuál es el número esperado de personas con dicha enfermedad? b. ¿Cuál es la probabilidad que exactamente 10 personas queden afectadas por la enfermedad? 13. Una máquina controlada por computador que realiza bordados en casacas impermeables puede realizar en promedio 1 bordado en el lapso de 90 segundos. En un momento determinado se produce un corte de fluido eléctrico y la máquina empieza a trabajar con su energía de reserva la cual le permite operar durante 6 minutos. Si al momento del corte de fluido eléctrico, en la línea de producción todavía quedan 7 casacas por bordar; ¿cuál es la probabilidad que pueda bordar más de 3 pero por lo menos 6 casacas impermeables? Justifique su respuesta. 14. En una compañía, el sistema queda suspendido a razón de 2 veces por mes. Determine la probabilidad de que: a. En dos meses, el sistema quede suspendido por lo menos 4 veces. b. En dos meses, el sistema quede suspendido más de 5 veces, si se sabe que luego de un mes el sistema ya quedó suspendido una vez. 15. Se ha observado que el promedio de ventas del producto “A” en una empresa es de 3 unidades por hora. Si se supone que las ventas son independientes una de otra, y si X representa el número de ventas cada 20 minutos ¿Cuál es la probabilidad que: a. En el intervalo de 20 minutos no se realice venta alguna b. Se realice al menos 2 ventas, en el intervalo de 20 minutos 16. En promedio, cada hora cinco personas realizan transacciones en el mostrador de servicios especiales. Suponiendo que la llegada de estas personas es independiente e igualmente probable, a. ¿Cuál es la probabilidad de que más de 3 personas efectúen transacciones en una hora específica? b. Si en el transcurso de una hora, más de tres personas ya han efectuado transacciones, ¿Cuál es la probabilidad que sean menos de seis las personas que efectúan transacciones en dicha hora? 17. En una intersección cruzan, en promedio, 5 autos en 10 segundos. El semáforo de dicha intersección mantiene la luz verde durante 15 segundos. Si en un momento determinado llegan al semáforo 8 autos y justo en ese instante la luz cambia a verde, ¿Cuál es la probabilidad que dos autos no logren cruzar la intersección? 18. Los analistas de Estudios de Mercado estiman que en promedio un encuestador reporta 1 encuesta falsa de cada 15 que realiza con tal de completar su trabajo. Si a un encuestador se le da la tarea de realizar en un mañana 81 encuestas; determine la probabilidad de que este encuestador traiga más de 10 encuestas falsas.
CIBERTEC
CARRERAS PROFESIONALES
76
19. La compañía COMESA está utilizando un nuevo proceso en la fabricación de hojalata, donde ha disminuido la cantidad de imperfecciones producidas por un proceso electrolítico continuo. En la inspección del proceso, se ha identificado 0.2 imperfecciones en promedio por minuto. ¿Cuál es la probabilidad de identificar al menos dos imperfecciones en 15 minutos? 20. Un sistema puede atender en promedio a 2 operadores simultáneos en una hora. Sin embargo el sistema colapsa cuando es requerido por más de 3 operadores simultáneamente en una hora. a. ¿Cuál es la probabilidad que el sistema colapse? b. Si se define X: Número de veces que el sistema colapsa en 24 horas, determine la distribución de probabilidades de X. 21. Como una forma de hacer control de calidad en una empresa comercializadora de puertas de madera, el dueño exige que antes de salir de la fábrica cada puerta labrada sea revisada en busca de imperfecciones en la superficie de la madera. El encargado de control de calidad encontró que el número medio de imperfecciones por cada puerta labrada es 0,5. El dueño decidió que todas las puertas con dos o más imperfecciones sean rechazadas y sean devueltas para su reparación. ¿Cuál es la probabilidad de que una puerta labrada falle la inspección y sea devuelta para su reparación? 22. Ud. es un auditor de software que es contratado para verificar el buen funcionamiento de un nuevo software de análisis crediticio de la cooperativa “SANTA MARIA”. El programador en jefe ha estimado que la probabilidad de que en el software se genere un bucle que interrumpa los procesos de cálculo de crédito es de 0,025. Si en total 40 son los analistas de crédito que utilizarán este nuevo software, halle la probabilidad que menos de cuatro analistas reporten un bucle en el proceso. 23. Un cajero automático está programado para atender en promedio a dos movimientos de los clientes por minuto. Calcule la probabilidad que: a. Pueda atender a 4 movimientos de los clientes en el lapso de dos minutos. b. Pueda atender por lo menos a tres movimientos de los clientes en el lapso de un minuto. 24. El número de casos admitidos de emergencia en cierto hospital es de 3 en 1 hora es una variable aleatoria con distribución de Poisson con λ = 3. Determine que en cierta hora: a. Ningún caso de emergencia sea admitido. b. Más de tres casos de emergencia sean admitidos 25. Una empresa dedicada a la fabricación de tarjetas integradas, ha estimado que la probabilidad de falla de la tarjeta integrada de un computador es 0.12. Si se ensamblaran en forma aleatoria 50 computadoras con dichas tarjetas. ¿Cuál es la probabilidad que 15 computadoras tengan problemas por tarjetas integradas? 26. Un departamento de reparación de maquinaria recibe en promedio cinco solicitudes de servicio por hora. ¿Cuál es la probabilidad de que se reciban menos de tres llamadas en una hora elegida al azar? 27. Suponga que un libro de 585 páginas contiene 43 errores tipográficos. Si estos errores se distribuyen aleatoriamente a través del libro. ¿Cuál es la probabilidad que 10 páginas, seleccionadas al azar, no contengan errores? 28. En la elaboración de hojalatas por una empresa X, se identifican 0.2 imperfecciones en promedio por minuto. Determine la probabilidad de identificar al menos 2 imperfecciones en 5 minutos.
CARRERAS PROFESIONALES
CIBERTEC
A ná l is is Pr o ba b i lís t ic o
77
29. Cierta enfermedad puede ocurrir 1 vez por cada cien mil habitantes. Calcule la probabilidad de que en una ciudad con 500 000 habitantes todos estén sanos. 30. Un laboratorio afirma que cierto medicamento para combatir la depresión causa efectos secundarios en una proporción de 5 de cada 100 pacientes. Para contrastar esta afirmación, otro laboratorio elige al azar a 5 pacientes a los que se les aplica dicho medicamento. ¿Cuál es la probabilidad que al menos dos tengan efectos secundarios? 31. En un concurso de lanzamiento de dardos, la probabilidad que un competidor acierte en un lanzamiento es 0.08. Si dicho competidor realiza 200 lanzamientos, ¿cuál es la probabilidad que acierte más de 20 lanzamientos? 32. La probabilidad de que una persona sufra una reacción alérgica a un determinado medicamento es 0,001. Determine la probabilidad de que un total de 2 000 personas que han tomado el medicamento, a. Exactamente 3 tengan reacción alérgica. b. Más de dos personas tengan reacción alérgica. c. Halle el número esperado de personas con reacciones alérgicas y su varianza. 33. Suponga que la probabilidad de que un motor falle en un vuelo de rutina entre dos ciudades es 0,005. Use la aproximación de Poisson a la distribución Binomial para encontrar aproximadamente la probabilidad de que: a. Por lo menos una falla en 1 000 vuelos. b. Por lo menos dos fallas en 1 000 vuelos. 34. La probabilidad de que se haga una soldadura defectuosa en una conexión dada es 10-4. Considere un sistema de 5x104. conexiones soldadas independientemente. a. ¿Cuál es la distribución de probabilidad del número de uniones defectuosas en el sistema? ¿Cuáles son los parámetros? b. Utilice, una aproximación, a la verdadera distribución, para calcular la probabilidad de que no se presenten defectos en el sistema. C.- Distribución Normal Estándar 1.
Los pesos de las impresoras marca ZZ se distribuyen normalmente con media 1,5 kg. y desviación estándar 0,3 kg. Determine lo siguiente: a. La probabilidad de que una impresora elegida al azar pese menos de 1,3 Kg. b. El porcentaje de impresoras que pesan entre 1,4 y 1,65 Kg. c. Si la producción de impresoras es de 5 000, ¿Cuántas pesan más de 1,75 Kg?
2.
El tiempo que demora “cargar” un sistema se distribuye normalmente con media 20 seg. y desviación estándar de 2,5 seg. Determine lo siguiente: a. La probabilidad de que el sistema se demore en cargar menos de 18 seg. b. El porcentaje de veces que el sistema se demora en cargar más de 21 seg.
3.
En una planta de ensamblaje de computadoras se hace un estudio sobre la productividad de los trabajadores y se encuentra que la probabilidad de que ensamblen menos de 45 computadoras por día es de 0,31. Además, la probabilidad de que ensamblen más de 64 computadoras por día es de 0,08. Calcular la media de la producción media diaria y la desviación estándar.
CIBERTEC
CARRERAS PROFESIONALES
78
4.
Una empresa comercializadora de software tiene un promedio de ventas trimestral, con distribución normal, de 500 unidades con una desviación estándar de 50. Si la empresa decide fabricar 600 unidades para el siguiente trimestre; ¿Cuál es la probabilidad de que no pueda atender todas las solicitudes de compra debido al agotamiento del stock?
5.
Uno de los resultados de mayor importancia, encontrados en un estudio en cabinas de Internet, fue que el tiempo semanal utilizado por los usuarios para comunicarse con familiares y amigos vía Internet se distribuía normalmente. En el distrito A, el tiempo promedio semanal de uso es igual a 100 minutos con desviación estándar de 25 minutos. En el distrito B, el tiempo promedio semanal de uso es igual a 115 minutos con desviación estándar de 16 minutos. Si se considera más rentable el negocio cuando los usuarios se comunican con familiares y amigos vía Internet usando un mínimo 130 minutos semanales. ¿En cuál de los distritos un inversionista pondría un negocio de cabinas de Internet?
6.
Del aeropuerto al centro de la ciudad se puede llegar mediante dos caminos. Si se viaja por el camino A, el tiempo está distribuido normalmente con media 27 minutos y varianza de 25 minutos. Si se viaja por el camino B, el tiempo está distribuido normalmente con media 25 minutos y desviación estándar de 12 minutos. ¿Por cuál camino es preferible ir al centro de la ciudad si se dispone de 30 minutos?
7.
La presión sanguínea media en hombres de 20 a 25 años de edad es 123 unidades con desviación típica de 13,7 unidades. Si se selecciona al azar uno de estos hombres, calcule la probabilidad de que su presión sanguínea esté comprendida entre 120 y 128 unidades. Suponga una distribución normal.
8.
En la embotelladora “SUDAMERICA” han adquirido una nueva máquina envasadora de cerveza la cual es capaz de ajustar el volumen medio de líquido que se desea envasar, manteniendo la desviación estándar en 6 mililitros. a. Si la máquina se configura para envasar botellas con una media de 600 mililitros, ¿Cuál es la probabilidad de que la máquina envase botellas con más de 602 mililitros? b. ¿A qué valor de media debe ajustarse la máquina embotelladora, para que el 15,87% de las botellas tengan un volumen mayor a 600 mililitros?
9.
El INEI, de acuerdo a sus estimaciones, ha determinado que el gasto promedio mensual por alimentos para familias de cuatro personas en una gran ciudad es de $420, con una desviación estándar de $80. Suponiendo que los gastos mensuales por alimentos estén distribuidos en forma normal, ¿qué porcentaje de estos gastos son inferiores a $350?
10. Se ha encontrado que el tiempo de servicio que se requiere por persona en una caja bancaria tiene una distribución aproximadamente normal con media de 130 segundos y varianza de 2025 segundos. a. Calcule la probabilidad de que se requiera menos de 100 segundos b. ¿Cuál es el tiempo mínimo que utilizan el 20% de las personas que más se demoran? 11. En un estudio experimental sobre la reproducción de los conejos, un biólogo se da cuenta que la media reproductiva de un grupo de conejos es 60 con una desviación estándar de 5 conejos. Si se asume que la distribución es normal, ¿cuál es la probabilidad (en porcentaje) de que en la próxima camada de conejos nazcan más de 65 conejos? 12. Una empresa naviera después de realizar estudios de mercado encontró, que uno de los parámetros no está tomando en cuenta el peso promedio de la carga. Por tal motivo realiza cambios en los costos de embarques de los conteiners que serán transportados de continente a continente, para ello, ha establecido parámetros de peso en sus cargas de envío vía marítima. Suponga que los pesos de los grupos electrógenos a gasolina CARRERAS PROFESIONALES
CIBERTEC
A ná l is is Pr o ba b i lís t ic o
79
marca Honda que se envían desde Japón para ser entregadas en Perú, siguen una distribución normal con media de 78kg. y una desviación estándar de 10kg. Si el 95% de los pesos de estos motores se encuentran entre a y b. Halle los valores de a y b, si estos son simétricos respecto a la media. 13. El bar “Un par más” ha instalado una máquina automática para la venta de cerveza. La máquina puede regularse de modo que la cantidad media de cerveza por vaso sea la que se desea; sin embargo, en cualquier caso esta cantidad tendrá una distribución normal con una desviación estándar de 5,9 mililitros. a. Si el nivel se ajusta a 304,6 mililitros, ¿qué porcentaje de los vasos contendrán menos de 295,7 mililitros? b. ¿A qué nivel medio debe ajustarse la máquina para que sólo el 2,28% de los vasos contengan menos de 295,7 mililitros? c. ¿A qué nivel medio debe ajustarse la máquina para que el 84,13% de los vasos contenga menos de 313,6 mililitros? 14. La cevichería “El buen pez”, ubicada en la Costa Verde se encuentra estimando la cantidad de cerveza que deberá pedir a su concesionario para tener la suficiente cantidad diaria de cerveza en esta temporada playera. La cevichería sabe, de veranos anteriores, que el consumo de cerveza tiene una desviación estándar de 350 ml. ¿Cuál debe ser la cantidad promedio de consumo de cerveza en mililitros para que el 39,743% de los clientes tenga un consumo mayor a 1966 ml? 15. Se está construyendo un grupo de 100 casas en la urbanización San Borja. El material empleado en las redes de desagüe es tal que el 9,512% de las tuberías de desagüe tiene periodos de duración que exceden los 15 años y que el 62,556% tienen períodos de duración que exceden los 9 años. Considerando que la distribución de probabilidad de los periodos de duración de estas tuberías es normal, determínese la media y la varianza de esta distribución. 16. Una nueva empresa de servicios informáticos desea instalar el Sistema Operativo Linux, con la intención de ahorrar costos en la compra de software licenciado. Usted es contratado para asesorar la decisión que deberá tomar la empresa. Según información de los proveedores, el Linux CONECTIVA tiene un rendimiento promedio de 18,000 horas con una desviación estándar de 5,000 horas; mientras que el Linux CENTOS tiene un rendimiento promedio de 20,000 horas con una desviación estándar de 3,000 horas. ¿Cuál es el Sistema Operativo Linux que elegiría, si la empresa desea que el rendimiento total de las computadoras debe ser como mínimo 22,000 horas? Justifique su respuesta. 17. Los sueldos de los trabajadores de una empresa transnacional se distribuyen normalmente con una media de 2 240 soles y una desviación estándar de 510 soles. ¿Cuántos trabajadores tiene la empresa si hay 84 personas que ganan entre 2100 soles y 2500 soles? 18. Una máquina automática para el llenado de paquetes de café puede regularse de modo que la cantidad media de arroz llenado sea la que se desee. Si la cantidad de café depositada se distribuye normalmente con una varianza igual a 100 gr² ¿Cuál debe ser el valor de la regulación media de modo que sólo el 1% de los paquetes tengan un peso inferior a 990 gr? 19. El tiempo que se requiere para reparar cierto tipo de transmisión automotriz en un taller mecánico tiene distribución normal con media 45 minutos y varianza de 64 minutos. El gerente de servicio planea hacer que se inicie la reparación de la transmisión de los automóviles de los clientes, diez minutos después de que se recibe el vehículo y le dice
CIBERTEC
CARRERAS PROFESIONALES
80
al cliente que el vehículo estará listo en una hora. ¿Cuál es la probabilidad que el gerente esté equivocado? 20. Una fábrica de neumáticos hace una prueba para medir la duración de sus llantas y verificó que la duración de las llantas tenía distribución normal, con media 48000 Km., y desviación estándar de 2000 Km. a. Calcular la probabilidad que una llanta escogida al azar dure entre 45000 Km. y 50000 Km. b. El fabricante quiere garantizar que la llanta durará por lo menos “N” Km., ¿Cuál deberá ser el valor de “N” para que la probabilidad de que se equivoque sea menor o igual a 5,05%? c. Las llantas se venden asegurando que duran más de 45000 Km. ¿Cuál es la probabilidad que de 5 llantas vendidas, exactamente tres tengan una duración menor a la asegurada? 21. Los tiempos de vida de las baterías para automóvil marca WV tiene distribución normal con media de 6750 h. y una varianza de 250000 h2. Según el tiempo de vida de las baterías, estás son clasificadas de la manera siguiente: de clase A, si el tiempo de vida es menor de 6000 h.; de clase B, si el tiempo de vida está comprendido entre las 6 000 y 7 400 h.; y de clase C, si el tiempo de vida es mayor de 7400 h. a. Determine el porcentaje de baterías de cada clase que son fabricadas. b. Si las baterías se transportan en cajas de 10 unidades, ¿Qué porcentaje de cajas tendrá más de una batería de clase A? 22. Las estaturas de 1000 estudiantes están distribuidas normalmente con una media de 174,5 cm. y una desviación estándar de 6,9 cm. Suponiendo que las estaturas se redondean a la media de centímetros más cercano, determine cuántos de estos estudiantes se espera que: a. Tengan estaturas menores de 160cm. b. Tengan estaturas entre 171,5 y 182cm. c. Tengan estaturas mayores o iguales a 188 cm. 23. La empresa SONY está modificando el proceso de fabricación de CD-ROM. La gerencia sabe que el diámetro de los CD-ROM producidos sigue una distribución normal con media de 12 cm. y desviación estándar igual a 0.5 cm. Para que un CD-ROM sea considerado como no defectuoso, su diámetro debe estar entre 11.75 y 12.25 cm. Si se tomará al azar 12 CD-ROM para hacer un ensayo de control de calidad ¿Qué probabilidad existe de que hayan exactamente 5 defectuosos? 24. La medición del diámetro de contacto de la rosca de una unión se distribuye normalmente con media 0,4008 pulg. y una desviación estándar 0,003 pulg. ¿Cuál es la probabilidad que una rosca tenga medidas entre 0,40002 y 0,40013 pulg? 25. El número de días entre la facturación y el paso de las cuentas corrientes de crédito en una tienda de departamentos grande tiene una distribución aproximadamente normal con una media de 18 días y una varianza de 16 días. ¿Qué proporción de las facturas será pagada? a. Entre 12 y 18 días b. Entre 20 y 23 días c. En menos de 8 días d. ¿Dentro de cuántos días estará pagado el 99,5% de las facturas? e. ¿Entre cuáles dos valores simétricamente distribuidos alrededor de la media recaerá el 98% de las facturas?
CARRERAS PROFESIONALES
CIBERTEC
A ná l is is Pr o ba b i lís t ic o
81
D.- Distribuciones Muestrales 1.
Las lámparas que fabrica cierta empresa tienen una vida de 800 hrs. y una desviación típica de 60 hrs. Halle la probabilidad de que una muestra aleatoria de 16 lámparas tengan una vida media entre 769 y 810 hrs.
2.
Las cuentas por cobrar de un bróker de seguros tienen un promedio de S/. 6,000; con una desviación estándar de S/. 1,200. Con el fin de evaluar a sus trabajadores, el supervisor de la aseguradora selecciona una muestra aleatoria de 36 cuentas por cobrar. Si el supervisor encuentra que el promedio de cuentas por cobrar de la muestra es mayor a S/. 6,500 soles, significará que el bróker no ha cumplido con las metas mínimas trazadas por lo que será cambiado a un área de menor responsabilidad. ¿Cuál es la probabilidad que el bróker sea cambiado de área?
3.
Se ha determinado que el 60% de los estudiantes de una universidad grande fuman cigarrillos. Se toma una muestra aleatoria de 800 estudiantes. Calcule la probabilidad de que la proporción de la muestra de la gente que fuma cigarrillos sea menor que 0.55.
4.
Mary Bartel, auditora de una gran compañía de tarjetas de crédito sabe que el saldo promedio mensual de un cliente dado es $112 y la desviación estándar es $ 56. Si Mary audita 50 cuentas seleccionadas al azar, encuentre la probabilidad que el saldo promedio mensual de la muestra sea entre $100 y $130.
5.
Las estaturas de los estudiantes de los colegios de la Molina están distribuidas aproximadamente en forma normal con una media de 174,5 centímetros y una desviación estándar de 12,9 centímetros. Si se extrae una muestra aleatoria de 25 estudiantes. Halle la probabilidad que sus estaturas sean mayores a 180 centímetros.
6.
En la fábrica de productos dietéticos “LIGHT” una máquina envasa un frasco de pastillas dietéticas en una media de 50 segundos con una desviación estándar de 5 segundos. Si se desea producir una cantidad de 5000 frascos. ¿Cuántos frascos requerirán un tiempo de máquina comprendido entre 48 y 53 segundos?
7.
Calvin Ensor, presidente de la General Telephone Corp., está molesto por el número de teléfonos producidos por su empresa que tienen auriculares defectuosos. En promedio, 110 teléfonos al día son devueltos por este problema, con una desviación estándar de 64. El señor Ensor ha decidido que ordenará la cancelación del proceso al menos que pueda estar 80% seguro de que en promedio no se devolverán más de 120 teléfonos al día durante los siguientes 48 días. ¿Terminará ordenando la cancelación del proceso?
8.
Estudios recientemente realizados determinaron que hay una probabilidad de 0,40 de que un sistema quede infectado por un virus a través de Internet. De un grupo de 50 computadoras conectadas a Internet, ¿Cuál es la probabilidad de que por lo menos 23, pero no más de 25, queden infectadas?
9.
La empresa minera AUREX SA dedicada a la recuperación y concentración de Oro y Plata, está realizando una modernización de su planta concentradora. Para esto, envía a su ingeniero mecánico-eléctrico a Canadá a realizar la compra de 5 000 electrodos en forma de planchas, que serán usadas en la recuperación de Oro por un proceso de electro deposición. Si el ingeniero después de observar las bondades de dichos electrodos, y confirmar que el 10% de las planchas tienen algún tipo de defecto, ordena la compra. ¿Cuál es la probabilidad, que al tomar una muestra de 400 planchas de su pedido, encuentre entre el 8% y el 12% de planchas defectuosas?
CIBERTEC
CARRERAS PROFESIONALES
82
10. En un centro comercial, se sabe por experiencias anteriores que el 45% de los clientes utiliza su tarjeta de crédito para efectuar sus pagos por las compras realizadas en alguna de las tiendas. Si en un día cualesquiera 75 personas realizan compras en el centro comercial. ¿Cuál es la probabilidad que más de 30, pero menos de 40 personas paguen con tarjeta de crédito? Justifique su respuesta. 11. Una empresa eléctrica fabrica focos que tienen una duración que se distribuye aproximadamente en forma normal, con media de 800 horas y desviación estándar de 40 horas. Halla la probabilidad de que una muestra aleatoria de 16 focos tenga una vida promedio entre 775 horas y 820 horas. 12. Se sabe que la probabilidad de falla de la tarjeta integrada de un computador es 0,12. Si se compran 50 computadoras, halle la probabilidad de que queden inutilizadas más de 15 computadoras. 13. Ciertos tubos fabricados por una compañía tienen una duración media de 800 horas y una desviación estándar de 60 horas. Halle la probabilidad de que una muestra al azar de 196 tubos, tomada entre ellos, tenga una duración media entre 790 y 810 horas. 14. En la empresa “COMPULINE UNLIMITED” Ud. es el Gerente Técnico encargado de organizar, y supervisar las actividades relacionadas con el ensamblaje y el mantenimiento de computadoras de los clientes de la empresa. Según los reportes de los proveedores de Fuentes de Alimentación, Ud. sabe que la probabilidad de encontrar una Fuente de Alimentación defectuosa en el último lote de importación es de 3%. Si Ud. y el equipo de técnicos a su cargo tienen que ensamblar 200 computadoras para un cliente importante que las requiere en el menor tiempo posible, calcule: a. La probabilidad de que todas las Fuentes de Alimentación de todas las computadoras se encuentre en buen estado. b. Si el dentro del contrato de ensamblaje existe una cláusula que indica que la probabilidad de falla por Fuente de Alimentación debe ser menor a 0.03, ¿Cuántas computadoras como máximo deben tener fallas por Fuente de Alimentación? 15. Según los reportes de ventas del 2012, las ventas mensuales de una tienda de artículos deportivos están distribuidas normalmente con media 6000 dólares y desviación estándar de 1000 dólares. Si se escoge una muestra aleatoria de 6 meses, ¿Cuál es la probabilidad que el promedio mensual de la muestra esté comprendido entre 5800 dólares y 6100 dólares? 16. Una firma de pedidos por correo sabe por experiencias anteriores que de las circulares que envía por correo, el 10% tendrá respuesta. Suponga que se envían 20 circulares como prueba de mercado en una región geográfica. Además, suponiendo que se puede aplicar la tasa de respuestas del 10% en la nueva región: a. Calcule la probabilidad de que menos del 20% de la gente responda. b. Calcule la probabilidad de que contesten entre el 25% y 35% de la gente. 17. Un sistema está formado por 100 componentes que funcionan independientemente. La probabilidad de que cualquier componente falle durante el periodo de operación es igual a 0,10. Si el sistema sí funciona al menos con 85 componentes, calcule la probabilidad de que no funcione el sistema. 18. Una empresa multinacional tiene una población de 250 vendedores. Estos vendedores tienen un nivel medio de ventas de 5200 dólares con una desviación estándar de 1200 dólares. Si se seleccionan al azar una muestra de 20 vendedores, ¿Cuál es la probabilidad de que su nivel de ventas esté comprendido entre 5000 y 5800 dólares?
CARRERAS PROFESIONALES
CIBERTEC
A ná l is is Pr o ba b i lís t ic o
83
19. Un jugador peruano de fútbol acierta 3 de 5 disparos penales. Suponiendo que durante toda su carrera realiza 120 lanzamientos, determine la probabilidad de que anote por lo menos 45 goles. 20. El 85% de las planchas de acero con un nuevo revestimiento de aluminio y un nuevo tratamiento térmico, genera una mejora ante la corrosión de las sales de mar. En los laboratorios navales, un barco es revestido con 20 planchas de este tipo, simulando diferentes tipos de mares y diferentes tipos de salinidad. Si T es el tiempo de vida promedio estimado para estas planchas mejoradas, ¿Cuál es la probabilidad que a lo más el 25% de estas planchas no lleguen al tiempo (T) de vida promedio estimado? 21. Los sueldos de los trabajadores de una empresa transnacional se distribuyen normalmente con una media de 2 240 soles y una desviación estándar de 510 soles. ¿Cuántos trabajadores tienen la empresa si hay 84 personas que ganan entre 2100 soles y 2500 soles? 22. Suponga que los pesos de los pasajeros que viajan por el bus metropolitano siguen una distribución normal con media 72 Kg. y desviación estándar 25 Kg. ¿Cuál es la probabilidad de que el peso total de una muestra al azar de 100 pasajeros exceda en promedio los 80 Kg? 23. Una máquina automática para el llenado de paquetes de café puede regularse de modo que la cantidad media de arroz llenado sea la que se desee. Si la cantidad de café depositada se distribuye normalmente con una varianza igual a 100 gr² ¿Cuál debe ser el valor de la regulación media de modo que sólo el 1% de los paquetes tengan un peso inferior a 990 gr? 24. Según un sondeo publicitario, se sabe que el 40% de las personas prefieren consumir una determinada marca de cerveza. ¿Cuál es la probabilidad que en una muestra de 144 personas, el porcentaje de personas que prefieran dicha marca de cerveza sea mayor a 65%? 25. Los pesos de un grupo de personas de cierta ciudad se distribuyen normalmente con media igual a 65 Kg. y varianza igual a 25 Kg. Determine Ud. la probabilidad que el peso promedio de 36 personas elegidas al azar, este comprendido entre 62 Kg. y 73 Kg. 26. El tiempo que se requiere para reparar cierto tipo de transmisión automotriz en un taller mecánico tiene distribución normal con media 45 minutos y varianza de 64 minutos. El gerente de servicio planea hacer que se inicie la reparación de la transmisión de los automóviles de los clientes, diez minutos después de que se recibe el vehículo y le dice al cliente que el vehículo estará listo en una hora. ¿Cuál es la probabilidad que el gerente esté equivocado? 27. La medición del diámetro de contacto de la rosca de una unión se distribuye normalmente con media 0,4008 pulgadas y una desviación estándar 0,003 pulgadas. ¿Cuál es la probabilidad que una rosca tenga medidas entre 0,40002 y 0,40013 pulgadas? 28. Determine Ud. la probabilidad de que en una muestra de 120 lanzamientos de una moneda, el número de caras esté comprendido entre el 40% y el 60%.
CIBERTEC
CARRERAS PROFESIONALES
84
Resumen En el análisis combinatorio, una conjunción (y) implica una multiplicación; en cambio, una disyunción (o) implica una suma. Debemos utilizar permutaciones si queremos cambiar, ordenar, arreglar, colocar, situar, ubicar, etc. un conjunto de datos. Debemos utilizar combinaciones si debemos combinar, escoger, seleccionar, elegir, etc. Para el análisis estadístico, por lo general, no es necesario saber “cuáles” son los elementos de un experimento, sino “cuántos” elementos son. Una probabilidad se puede interpretar como el porcentaje de veces que va a ocurrir un determinado evento. La probabilidad NUNCA puede ser mayor que uno. Los eventos tienen un comportamiento similar al de los conjuntos. Por ello, los diagramas de Venn-Euler son bastante útiles en el cálculo de probabilidades. En probabilidad condicional, uno de los eventos actúa como condicionante y es un evento que se expresa como que ya ocurrió. Si dos eventos no pueden ocurrir simultáneamente (eventos mutuamente excluyentes), entonces su probabilidad condicional es cero. Si queremos calcular la probabilidad de ocurrencia simultánea o sucesiva de una serie de eventos, debemos utilizar el teorema de multiplicación de probabilidades. En una distribución Binomial y una distribución de Poisson, se debe tener en cuenta que la variable por estudiar debe ser discreta. Para un proceso Binomial, se debe tener en cuenta la muestra por estudiar y la probabilidad de éxito. Para un proceso de Poisson, se debe tener en cuenta la ocurrencia de eventos discretos en un intervalo continuo. Cuando la cantidad de eventos es muy grande, la Distribución Binomial puede aproximarse a la Distribución de Poisson. En una distribución normal, se debe tener en cuenta que la variable que se estudia debe ser continua. Para una distribución normal estándar, se debe tener en cuenta la media promedio y la desviación estándar. Si la población es normal, los teoremas sobre distribuciones muestrales se cumplen cualquiera que sea el tamaño de la muestra.
CARRERAS PROFESIONALES
CIBERTEC
A ná l is is Pr o ba b i lís t ic o
85
Bibliografía
MOYA CALDERON, RUFINO 2007 Probabilidad e inferencia estadística. Editorial San Marcos. (519.5 MOYA 2007)
ANDERSON, DAVID R. 2008 Estadística para administración y economía. Editorial Thomson (519.5 ANDE 2008)
DEVORE, JAY L. 2005 Probabilidad y estadística para ingeniería y ciencias. Editorial Thomson (519.5 DEVO 2005)
WEIERS, RONALD 2007 Introducción a la estadística para negocios. México, D.F.: Thomson (519.5 WEIE)
MITACC MEZA, MÁXIMO 1996 Tópicos de estadística descriptiva y probabilidad. Ed. San Marcos. (519.5 MITA 1996)
CÓRDOVA ZAMORA, MANUEL 2003 Estadística descriptiva e Inferencial. Ed. Moshera. (519.5 CORD 2003)
CIBERTEC
CARRERAS PROFESIONALES
86
CARRERAS PROFESIONALES
CIBERTEC
A ná l is is Pr o ba b i lís t ic o
87
UNIDAD DE APRENDIZAJE
3 ANÁLISIS DE REGRESIÓN LINEAL Y CORRELACIÓN LOGRO DE LA UNIDAD DE APRENDIZAJE
Al término de la unidad, el alumno, trabajando de manera individual, construye una ecuación de regresión lineal simple que asocie dos variables con un grado de explicación estadísticamente significativa, mediante la aplicación del método de los mínimos cuadrados.
TEMARIO
Análisis de regresión
Regresión lineal simple
Método de mínimos cuadrados
Análisis de correlación
ACTIVIDADES PROPUESTAS
Los alumnos elaboran ecuaciones de regresión lineal y calculan su nivel de confiabilidad para la predicción de los datos. Los estudiantes estiman datos con la ayuda de la ecuación de regresión.
CIBERTEC
CARRERAS PROFESIONALES
88
1. ANÁLISIS DE REGRESIÓN El objetivo del análisis de regresión es el de establecer una relación cuantitativa entre dos o más variables seleccionadas. Trata de establecer un modelo estadístico que permite predecir, explicar o estimar el valor de una variable (dependiente) en función de otras variables (independientes). El modelo que se establezca puede tener la forma de la ecuación de una recta (modelo lineal), de la ecuación de una parábola, de la función logarítmica, de la función exponencial, etc. Asimismo, según el número de variables independientes, el modelo de regresión puede ser de dos tipos: Simple: Cuando solamente existe una variable independiente. Múltiple: Cuando existe más de una variable independiente. Para establecer cuál es el modelo que se utilizará, es conveniente elaborar un Diagrama de dispersión.
1.1 Diagramas de dispersión Son diagramas que utilizan el sistema cartesiano para mostrar los valores de dos variables para todo un conjunto de datos. Estos datos se representan en una gráfica como un conjunto de puntos, relacionando el valor de una variable (eje X) con su valor correspondiente en la otra variable (eje Y). Los diagramas de dispersión permiten determinar el tipo de correlación que puede existir en las dos variables analizadas. Asimismo, la correlación puede ser lineal positiva (cuando las dos variables guardan una relación directa), lineal negativa (cuando las los variables guardan una relación inversa) o nula (cuando las variables no están correlacionadas.
CARRERAS PROFESIONALES
CIBERTEC
A ná l is is Pr o ba b i lís t ic o
89
2. REGRESIÓN LINEAL SIMPLE Este análisis implica realizar un conjunto de cálculos matemáticos para establecer un modelo matemático que permita explicar a la variable Y (dependiente) en función de la variable independiente X.
En un gráfico de dispersión, como se aprecia, se intenta determinar un ajuste de todos los puntos hacia una línea recta. El análisis de regresión tiene los siguientes supuestos: Cada valor de las variables X e Y se distribuye normalmente. Las medias de las distribuciones normales (de cada valor de X e Y) se encuentran sobre la recta de regresión. Las desviaciones estándar correspondientes son iguales. Los valores de Y son estadísticamente independientes. El modelo de regresión lineal simple tiene la forma:
Y = a + b.X Donde los coeficientes “a” y “b” son los siguientes: a b
→ intercepto con el eje Y o la variación de Y que no es explicada por X → es la pendiente de la recta o el valor que varía Y cuando X aumenta en una unidad.
CIBERTEC
CARRERAS PROFESIONALES
90
3. MÉTODO DE MÍNIMOS CUADRADOS Para calcular estos coeficientes, se utiliza el método de mínimos cuadrados. Este método requiere la obtención de los parámetros SC(X), SC(Y) y SP(XY); a partir de los cuales se obtendrán los coeficientes “a” y “b”.
X
X n
Y
y
X SC( X) X n
Y n
2
2
SP( XY ) XY
b
SP( XY ) SC( X)
y
SC( Y ) Y
Y
2
2
n
X Y
y
n
a y bx
3.1. Error Estándar de Estimación (SXY) Al realizar la estimación de la variable dependiente Y utilizando la recta de regresión, es obvio esperar que el resultado no sea exacto. La diferencia encontrada entre el valor “real” y el valor obtenido con la ecuación de regresión se le denomina error. Por lo tanto, se define el Error Estándar de Estimación (SXY) como la desviación promedio de todas las observaciones con respecto a la recta de regresión. Este Error de Estimación se calcula de la siguiente manera:
S XY
SC( Y ) b2SC( X) n2
4. ANÁLISIS DE CORRELACIÓN El análisis de correlación consiste en la aplicación de un grupo de técnicas estadísticas que nos permiten medir el nivel de intensidad de la relación que puede existir entre dos variables. Este análisis ayuda en el proceso estadístico de determinar si esas dos variables están o no fuertemente relacionadas. Para determinar el nivel de intensidad de la relación entre las dos variables estudiadas, se utiliza el Coeficiente de Correlación de Pearson (r), cuyo valor está comprendido entre –1 y 1. El valor del coeficiente “r” se calcula a través de la siguiente fórmula:
CARRERAS PROFESIONALES
CIBERTEC
A ná l is is Pr o ba b i lís t ic o
91
r
SP( XY ) [SC( X)][SC( Y )]
La interpretación del Coeficiente de Pearson se muestra en la siguiente Tabla: Si Si Si Si Si
r = 0, no existe relación lineal. r = 1, existe una correlación positiva perfecta. 0 < r < 1, existe una correlación positiva. r = -1, existe una correlación negativa perfecta. -1 < r < 0, existe una correlación negativa.
Como se puede observar, cuando r tiende a 1, diremos que la relación entre las variables es bastante intensa y además directa; en cambio, si el valor de r es cercano a –1, la relación también es muy intensa pero inversa. Por otra parte, si el valor de r se acerca a cero, podemos afirmar que no existe ninguna correlación. Una vez que se ha establecido el modelo de regresión, nos tenemos que hacer una pregunta final: ¿qué tan confiables son las predicciones que se hagan a través del modelo obtenido? Para determinar esto, tendremos que calcular el Coeficiente de Determinación (r2). Este coeficiente nos indica el porcentaje en que la variación de la variable dependiente es “explicada” por la variable independiente. Dicho de otra manera, el Coeficiente de Determinación nos indica el nivel de confiabilidad que se debe tener para los resultados estimados con la ecuación de regresión. Los valores de este coeficiente se encuentran comprendidos entre 0 y 1 y mientras más cercano se encuentre de 1, el modelo será más confiable. Su cálculo se realiza de la siguiente manera:
b 2 [SC( X)] r SC( Y ) 2
5. EJEMPLO DE APLICACIÓN En la siguiente tabla, se muestran las ventas que tuvo una empresa en 10 años pasados. Sobre la base de esta información, se pide determinar lo siguiente: a) La recta de regresión y el error estándar de estimación. b) El coeficiente de correlación y el coeficiente de determinación. c) El estimado de ventas que esta empresa tuvo en el año 2001. AÑO 1991 1992 1993 1994 1995 1996 1997 1998 1999 2000
CIBERTEC
VENTAS 0.2 0.4 0.5 0.9 1.1 1.5 1.3 1.1 1.7 1.9
CARRERAS PROFESIONALES
92
SOLUCIÓN: Primeramente, es necesario determinar cuál de las variables es independiente (X) y cuál es dependiente (Y). Seguidamente, se realizan los primeros cálculos para determinar los promedios y las sumatorias. (Ver cuadro adjunto)
Luego, se realizan los cálculos correspondientes al análisis de regresión:
N
SC( X)
i1
N
SC( Y )
i1
i1
b
2
N Y 10,62 2,884 i1 Yi2 14,12 N 10
N
SP( XY)
2
N X 199552 82,5 i1 X i2 39820285N 10
N N X Y 19955x10,6 i1 i1 X i Yi 21166,8 14,5 N 10
SP( XY) 14,5 0,176 SC( X) 82,5
a Y bX 1,06 (0,176x1995,5) 350,148 Después, la recta de regresión está dada por lo siguiente:
Y 350,148 0,176X
CARRERAS PROFESIONALES
CIBERTEC
A ná l is is Pr o ba b i lís t ic o
93
También, el Error Estándar de Estimación será el siguiente:
SC( Y) b 2 SC( X) 2,884 (0,176) 2 82,5 0,202633 N2 10 2
S XY
Para el análisis de regresión, el coeficiente de correlación y el coeficiente de determinación están dados por lo siguiente:
r
SP( XY)
SC( X)SC( Y)
14,5
0,94003
82,5x2,884
r 2 0,94003 0,88366 2
De acuerdo a los valores de “r”, el valor 0,88366 nos indica que la ecuación es confiable. Finalmente, la estimación de ventas (en millones de dólares) para el año 2001 es como sigue:
Y 350,148 0,176X Y 350,148 0,176(2001) Y 2,028 5.
ANÁLISIS DE REGRESIÓN CON EXCEL Para explicar cómo se hace un análisis de Regresión en Excel, utilizaremos el siguiente ejemplo: En primer lugar, seleccionamos los datos que queremos evaluar, considerando que siempre debe estar la variable “X” en la columna izquierda y la variable “Y” en la columna derecha. En el conjunto de datos, en donde se aprecian las dos variables, nos dirigimos al menú “Insertar” y luego en la parte de Gráficos seleccionamos Dispersión y luego el primer casillero correspondiente a la Dispersión sólo con marcadores.
1
2
3
CIBERTEC
CARRERAS PROFESIONALES
94
Al realizar esta selección obtendremos la pantalla mostrada en la imagen inferior, en donde nos mostrará el diagrama de dispersión que relaciona a las dos variables analizadas:
En la gráfica, se selecciona cualquiera de los datos en el diagrama de dispersión (en la gráfica son los puntos rojos), se hace click derecho y se selecciona la opción “Agregar línea de tendencia”. Esto nos permitirá abrir la pantalla mostrada. En dicha pantalla seleccionamos los ítems señalados del 1 al 3. Luego indicamos “cerrar”.
1
2
3
4
CARRERAS PROFESIONALES
CIBERTEC
A ná l is is Pr o ba b i lís t ic o
95
Seguidamente aparecerá en la pantalla el mismo diagrama de dispersión con la recta de regresión ajustada, la ecuación de regresión y=ax + b y el coeficiente de determinación R2.
En el menú “Diseño”, “Formato” y “Presentación”, el usuario puede mejorar la presentación de su gráfica, pudiendo quedar de la siguiente manera:
CIBERTEC
CARRERAS PROFESIONALES
96
Actividades Propuestas 1.
El continuo aumento en el precio del petróleo en los últimos años ha originado un aumento, también continuo, en los costos para el industrial que tiene que transportar sus bienes terminados al mercado. Para abatir los costos de transporte, el industrial ha sustituido los medios usuales de transporte por otros más baratos; por ejemplo flete ferroviario en lugar de carga aérea. En un estudio hecho en una compañía para estudiar los costos de transporte aéreo, se seleccionaron al azar 9 facturas de transporte aéreo utilizado para enviar mercancía, para estimar la relación entre el costo por unidad transportada y la distancia recorrida. Los resultados se encuentran en la tabla siguiente: Distancia recorrida (por 100 Km.) Costo por unidad transportada a) b) c)
2.
13
27
15
9
11
21
$49
$93
$159
$115
$66
$90
$139
Encuentre Ud. la ecuación de regresión lineal simple para estimar el costo de transporte (por unidad transportada) a partir de la distancia recorrida. Estime Ud. el costo medio de transporte por unidad para una carga que se enviará a 1700km. ¿Qué tan confiable es dicha ecuación? Justifique estadísticamente su respuesta.
La corporación José R. Lindley está embotellando la bebida Aquarius Frugos que está entrando al mercado capitalino, y desea evaluar la campaña publicitaria promocional. El departamento de mercadeo preguntó a un grupo de consumidores: ¿Cuántas botellas de tamaño personal Aquarius había comprado la semana anterior?; y ¿Cuántos anuncios Aquarius había escuchado o leído la semana anterior? En la siguiente tabla se muestra las respuestas de 7 encuestados para esas preguntas:
a. b. c. 3.
6
Número de anuncios
13
15
12
11
10
14
16
Cantidad de botellas compradas
11
14
9
4
7
13
15
Encuentre Ud. la ecuación de regresión lineal simple que permita relacionar estadísticamente las variables cantidad de anuncios y cantidad de botellas compradas. Estime Ud. el número de botellas personales que comprará una persona que ha visto 18 anuncios. ¿Qué tan confiable es dicha ecuación? Justifique estadísticamente su respuesta.
Se hace un estudio para determinar la relación entre las edades de un gran grupo de máquinas en una fábrica y la eficiencia de las máquinas .Las siguientes son las edades (en años) y un índice compuesto de eficiencia para una muestra aleatoria de ocho de estas máquinas.
a. b.
Edad (x)
2
4
11
9
4
6
7
8
Eficiencia (y)
90
65
25
40
80
60
35
50
Halle la ecuación de regresión y el coeficiente de correlación. ¿Cuál es la mejor estimación de la eficiencia de una máquina de 10 años?
CARRERAS PROFESIONALES
CIBERTEC
A ná l is is Pr o ba b i lís t ic o
4.
97
La cadena de comida “Inca Wasi”, ha experimentado grandes fluctuaciones en sus ingresos en los últimos años. Durante este tiempo, la empresa ha empleado numerosas técnicas de publicidad, por lo que les resulta difícil determinar qué estrategias son las que han tenido mayor influencia en las ventas. El departamento de mercadeo ha estudiado una variedad de relaciones y cree que los gastos mensuales en carteleras publicitarias pueden ser significativos. Se muestreó la información de 7 meses de publicidad y se determinó lo siguiente: Gastos mensuales en carteleras publicitarias (x $1000)
15
16
22
24
30
31
32
Ingresos mensuales de ventas (x $10000)
34
44
48
52
57
69
90
a) Encuentre Ud. la ecuación de regresión lineal que permita relacionar estadísticamente las variables gastos mensuales en carteleras publicitarias e ingresos de ventas. b) Estime Ud. los ingresos mensuales por un mes en donde el gasto en carteleras publicitarias fue de $35000. c) ¿Qué tan confiable es dicha ecuación? Justifique estadísticamente su respuesta. 5.
El jefe de redacción de un gran diario metropolitano ha estado tratando de persuadir al dueño para que mejore las condiciones de trabajo en el taller de prensa. Está convencido, de que el nivel de ruido cuando las prensas están funcionando, produce niveles nocivos de tensión y ansiedad. Hace poco hizo que se administrara un test psicológico durante el cual los trabajadores del taller fueron puestos en cuartos con diversos niveles de ruido y luego se sometieron a un test que mide el estado de ánimo y los niveles de ansiedad. La siguiente tabla muestra el índice de su grado de nerviosismo y el nivel de ruido a que fueron expuestos. (1 es un nivel bajo y 10 es un nivel alto).
a. b. 6.
Nivel de ruido
4
3
1
2
6
7
2
3
Grado de nerviosismo
39
38
16
18
41
45
25
38
Desarrolla la ecuación de regresión lineal simple y determina el coeficiente de correlación. Determine el grado de nerviosismo que cabe esperar cuando el nivel de ruido es 5.
Una empresa de ensamblaje de teléfonos celulares está alistando un nuevo lote de equipos para su venta en el mercado nacional. Los directivos de la empresa saben que a medida que sus lotes de importación crecen, los equipos que llegan con desperfectos técnicos también aumentan. El siguiente cuadro muestra la cantidad de teléfonos defectuosos de acuerdo a la cantidad de equipos importados. Cantidad de equipos en un lote
1000
1500
2500
3000
4500
5000
7000
Cantidad de equipos defectuosos
12
15
26
35
42
62
80
a. b.
Si la empresa decide importar un lote de 10000 nuevos teléfonos. ¿Cuál es el porcentaje esperado de equipos en mal estado? ¿Qué tan confiable es dicha ecuación? Justifique estadísticamente su respuesta.
CIBERTEC
CARRERAS PROFESIONALES
98
7.
Se ha diseñado una prueba para mostrar a los supervisores de una compañía, sobre los riesgos de sobre supervisar a sus trabajadores. Un trabajador de la línea de ensamblaje tiene a su cargo una serie de tareas complicadas. Durante el desempeño del trabajador, un inspector lo interrumpe constantemente para ayudarlo a terminar las tareas. El trabajador después de terminar su trabajo, recibe una prueba psicológica diseñada para medir la hostilidad del trabajador hacia la autoridad (una alta puntuación significa una hostilidad baja). A ocho distintos trabajadores se le asignaron las tareas y luego se les interrumpió con propósitos de asistencia de instrucción un número variable de veces y sus calificaciones correspondientes en la prueba de hostilidad se revelan en la siguiente tabla. Número de veces de interrupción al trabajador
5
10
10
15
15
20
20
25
Calificación del trabajador en la prueba de hostilidad
58
41
45
27
26
12
16
3
a) b)
8.
Desarrolle la ecuación de regresión lineal entre el número de veces de interrupción y la calificación de la prueba. Pronostique la calificación esperada de la prueba si el trabajador es interrumpido 18 veces.
Una empresa de ensamblaje de teléfonos celulares está alistando un nuevo lote de equipos para su venta en el mercado nacional. Los directivos de la empresa saben que a medida que sus lotes de importación crecen, los equipos que llegan con desperfectos técnicos también aumentan. El siguiente cuadro muestra la cantidad de teléfonos defectuosos de acuerdo a la cantidad de equipos importados. Cantidad de equipos en un lote
1000
1500
2500
3000
4500
5000
7000
Cantidad de equipos defectuosos
12
15
26
35
42
62
80
Si la empresa decide importar un lote de 10000 nuevos teléfonos, ¿Cuál es el porcentaje esperado de equipos en mal estado? 9.
Durante los partidos recientes de tenis, un jugador ha observado que sus lanzamientos no han sido totalmente eficaces porque sus oponentes le han regresado algunos de ellos. Algunas de las personas con las que juega son bastante altas, así que se ha estado preguntando si la altura de su oponente podría explicar el número de lanzamientos no regresados durante un partido. Los siguientes datos se sacaron de cinco partidos recientes. Altura del oponente (H) pies
6,1
5,9
5.8
5.7
5,5
5.4
5,2
5.1
5,0
Lanzamientos no regresados(L)
18
15
12
10
8
7
6
5
3
¿Cuál es su mejor estimación del número de lanzamientos no regresados para su partido de mañana con un oponente de 6.0 pies de altura? ¿Qué tan confiable es dicha ecuación?
CARRERAS PROFESIONALES
CIBERTEC
A ná l is is Pr o ba b i lís t ic o
99
10. Debido a la demanda de sus publicaciones y del fuerte incremento de la competencia desleal e informal, la editorial Vinces Vives ha tomado la decisión de preparar algunos libros de uso popular en la educación primaria. Tomando como único parámetro la cantidad de páginas de dicho libro. Se toma una muestra de siete (07) libros, anotando el precio de venta que debería tener por la cantidad de páginas que tendría dicho libro. En la siguiente tabla se recopilan dichos datos. Precio ($)
12.00
12.50
13.80
15.40
17.50
18.00
20.00
Número de Páginas
175
240
280
320
380
420
500
Determine la ecuación de regresión lineal y el coeficiente de correlación entre el precio y el número de páginas. ¿Cuántas páginas debería tener un libro cuyo precio se estima en $ 22.30?
Resumen El Análisis de Regresión Lineal Simple es un método estadístico que permite establecer un modelo estadístico que permita encontrar una relación cuantitativa entre dos variables. Este modelo sigue la ecuación de una recta: Y = a + bX Se debe tener cuidado en definir la variable independiente y la variable dependiente para tener una correcta regresión. No necesariamente los puntos de dispersión pueden asegurar la trayectoria de la ecuación de regresión lineal. El Error Estándar de Estimación mide la desviación promedio de todas las observaciones con respecto a la recta de regresión. El análisis de correlación permite medir el grado de intensidad de la relación que existe entre dos variables. Este análisis ayuda en el proceso estadístico a determinar si dos variables están o no fuertemente relacionadas. El Coeficiente de Correlación de Pearson (r) se utiliza para determinar el nivel de intensidad de la relación entre las dos variables estudiadas. Su valor está comprendido entre –1 y 1. El Coeficiente de Determinación (r2) nos indica el nivel de confiabilidad que se debe tener para los resultados estimados con la ecuación de regresión. Los valores de este coeficiente se encuentran comprendidos entre 0 y 1.
CIBERTEC
CARRERAS PROFESIONALES
100
Bibliografía
ANDERSON, DAVID R. 2008 Estadística para administración y economía. Editorial Thomson (519.5 ANDE 2008)
MOYA CALDERON, RUFINO 2007 Probabilidad e inferencia estadística. Editorial San Marcos. (519.5 MOYA 2007)
WEIERS, RONALD 2009 Introducción a la estadística para negocios. México, D.F.: Thomson (519.5 WEIE)
CARRERAS PROFESIONALES
CIBERTEC
A ná l is is Pr o ba b i lís t ic o
10 1
TABLA DE DISTRIBUCIÓN BINOMIAL
P [X k / B: n,k]
CIBERTEC
CARRERAS PROFESIONALES
102
TABLA DE DISTRIBUCIÓN BINOMIAL
P [X k / B: n,k]
CARRERAS PROFESIONALES
CIBERTEC
A ná l is is Pr o ba b i lís t ic o
10 3
TABLA DE DISTRIBUCIÓN BINOMIAL
P [X k / B: n,k]
CIBERTEC
CARRERAS PROFESIONALES
104
TABLA DE DISTRIBUCIÓN BINOMIAL
P [X k / B: n,k]
CARRERAS PROFESIONALES
CIBERTEC
A ná l is is Pr o ba b i lís t ic o
10 5
TABLA DE DISTRIBUCIÓN DE POISSON
P [X k / P: ]
CIBERTEC
CARRERAS PROFESIONALES
106
TABLA DE DISTRIBUCIÓN DE POISSON
P [X k / P: ]
CARRERAS PROFESIONALES
CIBERTEC
A ná l is is Pr o ba b i lís t ic o
10 7
TABLA DE DISTRIBUCIÓN NORMAL ÉSTANDAR
CIBERTEC
CARRERAS PROFESIONALES
108
TABLA DE DISTRIBUCIÓN NORMAL ÉSTANDAR
CARRERAS PROFESIONALES
CIBERTEC