UNIVERSIDAD TECNOLÓGICA DEL PERÚ Vicerrectorado de Investigación
"ESTADÍSTICA APLICADA" TINS Básicos
ADMINISTRACIÓN DE EMPRESAS, ADMINISTRACIÓN DE NEGOCIOS INTERNACIONALES, MARKETING EMPRESARIAL
TEXTOS DE INSTRUCCIÓN BÁSICOS (TINS) / UTP
Lima - Perú
ESTADÍSTICA APLICADA
© ESTADÍSTICA II Desarrollo y Edición:
Vicerrectorado de Investigación
Elaboración del TINS:
Ing. Estadístico Nilton Horacio Machicao Bejar
Diseño y Diagramación:
Julia Saldaña Balandra
Soporte académico:
Instituto de Investigación
Producción:
Imprenta Grupo IDAT
Queda prohibida cualquier forma de reproducción, venta, comunicación pública y transformación de esta obra.
2
ESTADÍSTICA APLICADA
“El
presente
material
contiene
una
compilación
de
contenidos de obras de Estadística publicadas lícitamente, resúmenes de los temas a cargo del profesor, constituye un material auxiliar de enseñanza para ser empleado en el desarrollo de las clases de nuestra institución.
Este material es de uso exclusivo de los alumnos y docentes de la Universidad Tecnológica del Perú, preparados para fines didácticos en aplicación del artículo inc. C y el Art.43 inc. A; del Decreto Legislativo 822; Ley sobre Derechos de Autor”
3
ESTADÍSTICA APLICADA
4
ESTADÍSTICA APLICADA
PRESENTACIÓN La Matemática, ciencia de la más alta jerarquía, en el concierto de las Ciencias, desde los albores de la civilización sigue siendo la base del desarrollo científico, tecnológico y humanístico de nuestro mundo. La Estadística como conjunto de conocimientos de la Matemática, se erige en el espacio del pensamiento probabilístico, permite la sistematización análisis de datos y la síntesis de resultados en el tratamiento de datos; conduce a la validación de resultados y facilita la producción de informes paramétricos, obtenidos en diferentes sucesos ocurridos en el acontecer de los actos del hombre. De allí que, en la formación académica de profesionales, se debe demandar el estudio de la Estadística en la convicción de dotar a sus estudiantes con un instrumento matemático analítico pertinente a la necesidad que plantea un determinado ejercicio, problema o proyecto en el campo de la política, la economía, la antropología de una sociedad, envueltos en la dinámica de la naturaleza y la cultura. En este marco, se ha desarrollado el presente texto de instrucción, dirigido a estudiantes de Administración; para la Asignatura de Estadística Aplicada, basado en una selección de temas, contenidos en diferentes fuentes bibliográficas, apropiados para la formación de profesionales en tecnología blanda. El texto en mención plasma la preocupación institucional de innovación de la enseñanza-aprendizaje en educación universitaria, que en acelerada continuidad promueve la producción de materiales educativos, actualizados en concordancia a las exigencias de estos tiempos. Comprende 6 unidades de instrucción de carácter aplicativo, matizado por ejercicios y problemas: La unidad I comienza con una exposición sobre las técnicas de conteo o análisis combinatorio que es la base para entender a las probabilidades y sus propiedades y luego se expone acerca de la independencia de eventos y los teoremas de probabilidad total y de Bayes. En la unidad II trata de las variables aleatorias discretas y continuas, función de probabilidad, esperanza matemática, variancia y sus propiedades.
5
ESTADÍSTICA APLICADA
La unidad III trata de las principales distribuciones de probabilidades tanto discretas y continuas, como Bernoulli, Binomial, Hipergeométrica, Poisson, Normal y Normal Estándar. La unidad IV trata de las distribuciones muestrales, el teorema del límite central, distribución Chi-cuadrado, “t” de Student y “F” de Snedecor. La unidad V trata de la inferencia estadística, tema importante para la toma de decisiones en medio de incertidumbre, se divide en dos partes como son la estimación de parámetros y las pruebas de hipótesis. La unidad VI trata del análisis de regresión lineal múltiple, el análisis de variancia y el coeficiente de determinación que nos permitirá saber si nuestros datos se adecuan o no a nuestro modelo. Además al final se presenta un apéndice con las principales tablas estadísticas y la bibliografía. Al finalizar estas líneas, el reconocimiento institucional al profesor Nilton Machicao Bejar, que habiendo trabajado con denuedo ha hecho posible éste texto de instrucción, como expresión de su destacada labor profesional y académica. VICERRECTORADO DE INVESTIGACIÓN
6
ESTADÍSTICA APLICADA
ÍNDICE GENERAL
Unidad I TEORÍA DE PROBABILIDADES......................................................
11
Unidad II VARIABLES ALEATORIAS .............................................................
37
Unidad III DISTRIBUCIÓN DE PROBABILIDADES .........................................
61
Unidad IV DISTRIBUCIONES MUESTRALES ..................................................
79
Unidad V INFERENCIA ESTADÍSTICA ...........................................................
107
Unidad VI ANÁLISIS DE REGRESIÓN MÚLTIPLE ..........................................
135
TABLAS ESTADÍSTICAS…………………………………………………. 163 BIBLIOGRAFÍA ................................................................................
7
183
ESTADÍSTICA APLICADA
8
ESTADÍSTICA APLICADA
DISTRIBUCIÓN TEMÁTICA CLASE N° 1
2
3
4 5 6 7 8
9 10
11
12 13
TEMA Técnicas de conteo, Principio de Multiplicación y Adición, Variaciones, Permutaciones y Combinaciones Probabilidades: Definiciones básicas . Experimento, Experimento Aleatorio, Espacio Muestral, Evento o Suceso Aleatorio, Definición de probabilidad de un evento. Propiedades. Reglas de Probabilidades de la Unión , suceso complementario. Probabilidad Condicional, Multiplicación de probabilidades, Independencia de eventos. Partición de eventos, Probabilidad Total y Teorema de Bayes. Probabilidad Total – Teorema de Bayes. PRÁCTICA CALIFICADA Nº1 Variable aleatoria. Función de Probabilidad. Función de Distribución. Distribución de variable Discreta . Distribución de Variable Continua. Esperanza Matemática o valor esperado, Propiedades . Varianza, Propiedades. Distribución de probabilidades. Distribuciones Discretas: Distribución Bernoulli, Distribución Binomial. PRÁCTICA CALIFICADA Nº 2 Distribución de Poisson y Distribución Hipergeométrica.
SEMANA 1
2
3
4 5 6 7
8
9 10
EXAMEN PARCIAL Distribuciones Continuas: Distribución Normal. Distribución Normal Estandar. Manejo de la Tabla Z . PD: Distribución Muestral: T. Límite Central. Distribuciones Muestrales: Distribución de Promedios Muestrales, Teorema del Limite Central PRÁCTICA CALIFICADA Nº 3 Distribución de Proporciones Muestrales. Distribución Chi-Cuadrado, Manejo de la Tabla χ2
9
11
12 13
ESTADÍSTICA APLICADA
CLASE N° 14
15
16
17 18 19
TEMA Distribución “t” de Student, Distribución “F” de Snedecor. Manejo de las tablas “t” y “F”. PRÁCTICA CALIFICADA Nº4 Inferencia Estadística. Estimación de Parámetros y Estimación por Intervalos para la Media y la Variancia Poblacional. Prueba de Hipótesis. Tipos de Errores. Error Tipo I y Error Tipo II. Prueba de Hipótesis para la Media y Variancia Poblacional PRÁCTICA CALIFICADA Nº 5 Análisis de Regresión Lineal Múltiple. Coeficiente de Determinación Múltiple. Análisis de varianza (ANVA). Repaso EXAMEN FINAL
10
SEMANA 14
15
16
17 18 19
ESTADÍSTICA APLICADA
UNIDAD I TEORÍA DE PROBABILIDADES
En la asignatura anterior se ha definido a la ESTADÍSTICA como la ciencia del conocimiento humano, que se ocupa de la colección, representación, análisis y extracción de conclusiones para toda una población, en base a datos proporcionados por muestras aleatorias. La ESTADÍSTICA es una matemática aplicada, que nace de la preocupación de los gobernantes y es base de toma de decisiones en medio de incertidumbre. La Estadística, como un método de toma de decisiones, debe evaluar la confiabilidad y riesgos existentes en todo proceso de estimación. Esto es posible gracias a la teoría de probabilidades, base de la teoría Estadística, que permite generar indicadores de confiabilidad o riesgo. El término probabilidad frecuentemente es relacionado con posibilidad y azar, es decir, probabilidad es la posibilidad de que ocurra algo, por ejemplo, si la probabilidad que un estudiante elegido al azar apruebe Estadística es 0.02, esto significaría que es bien remota o poco posible que apruebe. Para entender bien a la teoría de probabilidades o cálculo de probabilidades es importante tener un buen dominio de las técnicas de conteo o análisis combinatorio, es por ello que comenzare exponiendo este tema.
TÉCNICAS DE CONTEO O ANÁLISIS COMBINATORIO PRINCIPIO DE MULTIPLICACIÓN Si un experimento puede ocurrir de “n” maneras diferentes y otro experimento puede ocurrir de “m” maneras diferentes, el número total de maneras diferentes en que pueden ocurrir ambas simultáneamente es:
“nxm”
11
ESTADÍSTICA APLICADA
EJEMPLOS 1.
Se lanzan 2 monedas simultáneamente. ¿Cuántos resultados posibles hay? SOLUCIÓN: La primera moneda tiene 2 posibilidades de caer: cara(c) o sello(s) La segunda moneda tiene 2 posibilidades de caer c o s Entonces por el principio de multiplicación hay, 2x2 = 4, resultados posibles, es decir: cc, cs, sc y ss.
2.
Al lanzar simultáneamente un dado y una moneda. ¿Cuántos resultados posibles hay? SOLUCIÓN: El dado tiene 6 posibilidades: 1,2,3,4,5 ó 6 La moneda tiene 2 posibilidades: c ó s Entonces por el principio de multiplicación hay, 6x2 = 12, resultados posibles.
COROLARIO Si se ejecutan “n” experimentos con m1 , m2 , m3 , . . . , mn resultados posibles respectivamente, entonces, el número total de resultados posibles es:
m1 x m2 x m3 x … x mn EJEMPLO ¿De cuántas maneras diferentes pueden caer si lanzamos 3 monedas? SOLUCIÓN: Como cada moneda puede caer de 2 maneras diferentes, entonces las tres pueden caer de 2x2x2 = 23 = 8 maneras diferentes. Es decir: ccc, ccs, csc, css, scc, scs, ssc y sss
12
ESTADÍSTICA APLICADA
PRINCIPIO DE ADICIÓN Si un experimento puede ocurrir de “n” ó “m” maneras diferentes, entonces dicho experimento puede ocurrir de: “n + m” maneras diferentes. EJEMPLO Un estudiante para ir a la UTP puede hacerlo en la combi A, combi B, combi C o a pie. ¿De cuántas maneras diferentes puede asistir a la UTP? SOLUCIÓN: Como puede tomar cualquiera de las 3 combis, tiene 3 posibilidades o puede ir a pie, tiene una posibilidad, entonces por el principio de adición, tiene 3 + 1 = 4 maneras diferentes de ir a la UTP. VARIACIÓN Dado “n” objetos una variación de estos “n” objetos tomados de “r” en “r”, es un arreglo de “r” de estos objetos, en el cual el orden tiene importancia. El número total de variaciones esta dado por:
Donde “n” y “r” son enteros y positivos; r ≤ n Recordar: 1) n! = nx(n-1)!x(n-2)!x(n-3)!x · · · X3x2x1 , ∀ n entero y positivo 2) 0! = 1
EJEMPLO Hallar el número de formas que se puede confeccionar una bandera de franjas de 3 colores, si se tiene tela de 5 colores distintos. SOLUCIÓN: Si consideramos franjas verticales, tenemos: n = 5 y r = 3, como el orden importa, entonces, nos piden:
V35 =
5! 5 x 4 x3x 2 x1 = = 60 (5 − 3)! 2 x1
13
ESTADÍSTICA APLICADA
PERMUTACIÓN (Pn) Cuando n=r la variación recibe el nombre de permutación de “n” elementos, es decir:
Pn = Vnn =
n! n! = = n! , puesto que 0! = 1, entonces: (n − n)! 0!
EJEMPLO ¿De cuántas maneras diferentes pueden sentarse 5 personas en una banca? SOLUCIÓN: Siempre que en un arreglo se use la totalidad de elementos a la vez se trata de una permutación, como en este caso. P5 = 5! = 120 PERMUTACIONES CIRCULARES (PC) En este tipo de agrupaciones no hay primero, ni último elemento, por encontrarse todos en una línea cerrada. El número de permutaciones de “n” elementos tomados alrededor del círculo es:
EJEMPLO ¿De cuántas maneras diferentes se pueden sentar 5 personas en una meza redonda? SOLUCIÓN: Pc = (5 – 1)! = 4! = 24 PERMUTACIONES CON REPETICIÓN El número total de permutaciones de “n” elementos repetidos n1 , n2, n3, . . . ,nk veces es:
14
ESTADÍSTICA APLICADA
Donde: n1 + n2 + n3 + . . . + nk = n EJEMPLO ¿Cuántas palabras diferentes pueden formarse con las letras de la palabra MISSISSIPPI? SOLUCIÓN: Como M=1, I=4, S=4, P=2 y n = 11, entonces:
P111 , 4, 4, 2 =
11! = 34650 1!·4!·4!·2!
COMBINACIÓN Dados “n” objetos, una combinación de los “n” objetos tomados de “r” en “r” es un arreglo de “r” de estos objetos, en el cual el orden no es importante. El número total de combinaciones esta dado por:
Donde “n” y “r” son enteros y positivos; r ≤ n
EJEMPLO ¿Cuántos comités de 3 personas pueden formarse de un grupo de 9 personas?
15
ESTADÍSTICA APLICADA
SOLUCIÓN: Como n = 9 y r = 3 y el orden no importa, entonces:
C 39 =
9! 9 x8 x7 x6! = = 64 (9 − 3)! x3! 6! x3x 2 x1
El número total de comités de 3 personas que pueden formarse con 9 personas es 64.
EJERCICIOS RESUELTOS 1. De entre 5 ejemplares de un texto de Matemática, 3 de Administración y 2 de Contabilidad; hay que escoger un ejemplar de cada texto. Calcular el número de formas diferentes para hacerlo. SOLUCIÓN: El texto de Matemática puede escogerse de 5 maneras diferentes. El texto de Administración puede escogerse de 3 maneras diferentes. El texto de Contabilidad puede escogerse de 2 maneras diferentes. Entonces, por el principio de multiplicación hay, 5x3x2 = 30 formas diferentes de escoger un ejemplar de cada texto. 2.
¿De cuántas maneras diferentes pueden caer si lanzamos 2 dados y una moneda? SOLUCIÓN: Por el principio de multiplicación: Cada dado puede caer de 6 formas diferentes y la moneda de 2 formas diferentes; entonces: 6x6x2 = 72.
3.-
En el último campeonato mundial de fútbol participaron 32 países donde los premios fueron medallas de oro, plata y bronce. ¿De cuántas formas pueden distribuirse las medallas? SOLUCIÓN: Número de países = n = 32 Número de medallas = r= 3 Como el orden es importante, se trata de una variación, entonces existen
16
ESTADÍSTICA APLICADA
32! 32 x31x30 x 29! = = 32 x31x30 = 29760 formas diferentes de 29! 29" distribuirse las 3 medallas entre los 32 países. V332 =
Observe que también puede usarse el principio de multiplicación. 4.
¿Cuántos collares diferentes se pueden formar con 7 perlas diferentes? SOLUCIÓN: Como los collares tienen forma circular, es decir no hay ni primer ni última perla, se trata de una permutación circular, entonces: (7 − 1)! 6! 720 Pc = = = = 360 2 2 2 Observe que: A, B, C, D, E, F, G es igual a: G, F, E, D, C, B, A Por este motivo se ha dividido entre 2.
5.
Una sociedad científica está formada por 25 personas y es necesario elegir al presidente, al vicepresidente, al secretario y al tesorero. ¿De cuántas formas se puede efectuar esta elección si cada miembro de la sociedad puede ocupar sólo un cargo? SOLUCIÓN: Número de científicos = 25 El presidente puede ser cualquiera de los 25 científicos, el vicepresidente cualquiera de los 24 restantes, el secretario cualquiera de los 23 restantes y el tesorero cualquiera de los 22 científicos que quedan, entonces por el principio de multiplicación, hay 25x24x23x22 = 303600 formas diferentes de realizar esta elección.
6.
Kattia, Dajana y 10 amigos se encuentran reunidos. ¿De cuántas maneras diferentes pueden sentarse en una banca si las 2 amigas siempre deberán permanecer juntas? SOLUCIÓN: Una primera forma seria: Katty-Dajana A1 A2 A3 A4 A5 A6 A7 A8 A9 A10 , esto es: P11 = 11!, como las dos amigas pueden intercambiar posiciones se tiene que multiplicar por 2, es decir el resultado seria: 2!x 11! = 79833600.
17
ESTADÍSTICA APLICADA
7.
Se encuentran reunidos 16 cachimbos en la UTP de los cuales 10 son varones. Se desea formar un comité de 9 cachimbos. ¿De cuántas maneras se puede formar el comité, si debe haber necesariamente 4 damas en el comité? SOLUCIÓN: Como hay 6 damas, entonces pueden integrar el comité 4, 5 y hasta 6 damas. 1º Cuando integran 4 damas habrá 5 varones en el comité: C 46 xC 510 = 3780 2º Cuando integran 5 damas habrá 4 varones en el comité: C 56 xC 410 = 1260 3º Cuando integran 6 damas habrá 3 varones en el comité: C 66 xC 310 = 120 El número total de maneras será: 3780 + 1260 + 120 = 5160. Observación: Se trata de combinación puesto que el orden no importa.
8.
Los ingleses suelen dar varios nombres a sus hijos. ¿De cuántas formas se puede dar un nombre a un niño si el número total de nombres es 300 y le dan no más de 3 nombres? SOLUCIÓN: En este caso el orden importa, entonces se tratará de variaciones, como le dan no mas de 3 nombres, esto significa que el nombre puede estar compuesto de uno, dos ó tres nombres, esto es:
V1300 + V2300 + V3300 = 26820600
18
ESTADÍSTICA APLICADA
EJERCICIOS PROPUESTOS 1.
De entre 10 ejemplares de un texto de Matemática, 8 de Administración y 5 de Contabilidad; hay que escoger un ejemplar de cada texto. Calcular el número de formas diferentes para hacerlo.
2.
¿De cuántas maneras diferentes pueden caer si lanzamos 2 dados y 3 monedas?
3.
En el último campeonato mundial de fútbol que participó Perú fue el año 1982, en el cual participaron 24 países donde los premios fueron medallas de oro, plata y bronce. ¿De cuántas formas pueden distribuirse las medallas?
4.
¿Cuántos collares diferentes se pueden formar con 10 perlas diferentes?
5.
Una sociedad científica está formada por 20 personas y es necesario elegir al presidente, al vicepresidente y al secretario. ¿De cuántas formas se puede efectuar esta elección si cada miembro de la sociedad puede ocupar sólo un cargo?
6.
Lizbeth, Rocío, Zaida y 9 amigos se encuentran reunidos. ¿De cuántas maneras diferentes pueden sentarse en una banca si las 3 amigas siempre deberán permanecer juntas?
7.
Se encuentra reunidos 20 cachimbos en la UTP de los cuales 15 son varones. Se desea formar un comité de 8 cachimbos. ¿De cuantas maneras se puede formar el comité, si debe haber necesariamente 4 damas en el comité?
8.
Los ingleses suelen dar varios nombres a sus hijos. ¿De cuántas formas se puede dar un nombre a un niño si el número total de nombres es 50 y le dan no más de 4 nombres?
9.
Vanesa, Juanita y 8 amigos se encuentran reunidos. ¿De cuántas maneras diferentes pueden sentarse en una banca si las 2 amigas nunca deberán permanecer juntas?
10.
Yovana, Pamela, Lizeth y 12 amigos se encuentran reunidos. ¿De cuántas maneras diferentes pueden sentarse en una banca si las 3 amigas nunca deberán permanecer juntas?
19
ESTADÍSTICA APLICADA
11.
¿De cuántas maneras diferentes pueden sentarse los 2 primeros estudiantes que llegan a un aula de 20 carpetas?
12.
Un estudiante posee 10 monedas de distintos valores. ¿Cuántas sumas diferentes de dinero puede formar con las 10 monedas?
13.
Sarita tiene seis amigos. ¿De cuántas maneras puede invitar a por lo menos uno de ellos a cenar?
14.
Los números de las placas de los automóviles, están formados por 2 letras y 4 cifras. Hallar el número total de placas que se puedes confeccionar.
15.
Un comité estudiantil de 12 personas debe ser formado, entre 100 cachimbos(60 hombres y 40 mujeres), 80 estudiantes intermedios(50 hombres y 30 mujeres), 70 estudiantes avanzados(46 hombres y 24 mujeres) y 40 graduados(28 hombres y 12 mujeres). Encuentre el número total de diferentes comités que se pueden formar bajo cada una de los siguientes requerimientos: a) b) c) d) e)
16.
No se imponen restricciones a la formación del comité. Siete estudiantes deben ser hombres y 5 mujeres. El comité debe contener el mismo número de estudiantes de cada clase. El comité debe contener 2 hombres y una mujer de cada clase. El presidente del comité debe ser graduado y hombre.
En la siguiente figura se representa el plano de una ciudad :
B
A Un caminante desea trasladarse del punto A hasta el punto B por el camino más corto, es decir, desplazarse todo el tiempo o bien de izquierda a derecha, o bien de abajo hacia arriba . ¿Por cuántos caminos puede llegar desde A hasta B?.
20
ESTADÍSTICA APLICADA
17.
Una contraseña para acceder a una computadora consiste de 6 caracteres que pueden ser letras (26) o números (10). a) ¿Cuántas contraseñas distintas se pueden formar? b) ¿Cuántas contraseñas distintas se pueden formar conteniendo sólo números? c) ¿Cuántas contraseñas distintas se pueden formar si deben tener por lo menos una letra?.
18.
Ocho atletas compiten en la final olímpica de los 110 metros con vallas. Asumiendo que ellos cruzan la meta en distintos instantes. ¿Cuántas maneras distintas hay para entregar las medallas de oro, de plata y de bronce?.
19.
Una señora tiene 8 amigas y desea invitar a 5 de ellas a una fiesta. ¿De cuántas maneras puede hacerlo si dos de ellas están enojadas entre sí y no pueden ser invitadas juntas?.
20.
Suponga que un artículo es comercializado por dos empresas A y B. La empresa A tiene 5 tiendas y la empresa B tiene 8 tiendas, a través de las cuales se vende dicho artículo. ¿De cuántas maneras diferentes puede un cliente comprar un artículo?.
21.
Un grupo de 7 personas deben participar en una serie de charlas a llevarse a cabo en dos días sucesivos. En el primer día deben participar 3 personas, y en el segundo día las 4 personas restantes. ¿ De cuántas maneras diferentes se puede organizar las charlas del primer día?.
22.
En el siguiente diagrama A, B, C, D, E y F denotan islas y las líneas de unión son puentes. Un hombre empieza en A y camina de isla en isla, se detiene para almorzar cuando no puede continuar caminando sin tener que cruzar el mismo puente dos veces. Hallar el número de maneras de cómo puede hacer su recorrido antes de ir a almorzar.
21
ESTADÍSTICA APLICADA
PROBABILIDADES EXPERIMENTO Un experimento es cualquier proceso de ensayo y observación. EXPERIMENTO ALEATORIO Es cualquier experimento real o hipotético que pueda dar lugar a varios resultados sin que sea posible anunciar con certeza cuál de estos resultados va a ser observado. A estos experimentos también se les conoce como no determinísticos. EJEMPLOS 1. Lanzamiento de una moneda balanceada. En este caso los resultados posibles serán: cara ( c ) o sello ( s ). 2.
Lanzamiento de un dado no cargado (insesgado). En este caso los resultados posibles serán: 1, 2, 3, 4, 5 ó 6.
CARACTERÍSTICAS DEL EXPERIMENTO ALEATORIO (O ESTOCÁSTICO) 1. Se tiene varios resultados posibles. 2. Estos resultados tienen cierta incertidumbre de aparecer, es decir, no podemos afirmar con certeza cual de los resultados va a ser observado. ESPACIO MUESTRAL ( S ) Es el conjunto de todos los resultados posibles de un experimento aleatorio. Para los ejemplos anteriores, tenemos: S = ⎨c , s ⎬ ⇒ n(S) = 2 y S = ⎨1, 2, 3, 4, 5, 6 ⎬ ⇒ n(S) = 6 EVENTO ( E ) Es un subconjunto del espacio muestral. EJEMPLO Si se lanza un dado, un evento seria que salgan números pares, es decir: E = ⎨2, 4, 6 ⎬ ⇒ n(E) = 3
22
ESTADÍSTICA APLICADA
PROBABILIDAD La probabilidad de un evento es la razón entre el número de casos favorables y el número total de casos posibles; es decir: número de elementos del evento entre número de elementos del espacio muestral. Es decir:
EJEMPLOS 1. ¿Cuál es la probabilidad de que salga cara al lanzar una moneda? SOLUCIÓN: P= 2.
n( E ) 1 = n( S ) 2
¿Cuál es la probabilidad de que salga el 2 al lanzar un dado? SOLUCIÓN: P=
n( E ) 1 = n( S ) 6
PROPIEDADES Sean los eventos A , B Y C , entonces: 1. 0 ≤ P(A) ≤ 1 2. P(S) = 1 3. P(∅) = 0 4. P(AUB) = P(A) + P(B) Si: A ∩ B = ∅ 5. P(AUB) = P(A) + P(B) – P(A ∩ B) Si: A ∩ B ≠ ∅ 6. P(AUBUC) = P(A) + P(B) + P(C) – P(A ∩ B) – P(A ∩ C) – P(B ∩ C) + P(A ∩ B ∩ C) 7. P(A′)= 1 – P(A)
23
ESTADÍSTICA APLICADA
EJERCICIOS RESUELTOS 1.
Se lanzan dos monedas. ¿Cuál es la probabilidad de que ambas salgan cara?
SOLUCIÓN: Como S = {(C,C), (C,S), (S,C), (S,S) } 1 favorable: ( C,C), entonces: P = 4 2.
y hay un solo caso
Se lanzan 2 dados al azar y se quiere hallar la probabilidad de que la suma de los puntos obtenidos sea igual a 10. SOLUCIÓN: Por el principio de multiplicación: n(S) = 6x6 = 62 = 36 y sea el evento, suma de puntos igual a 10, es decir, (4,6), (6,4) y (5,5) entonces: n(E) = 3 Luego: p=
3.
3 1 = 36 12
Se tiene una baraja de 52 cartas. ¿Cuál es la probabilidad de que la primera que se saque sea de espadas? SOLUCIÓN: Como n(s) = 52 y hay 13 espadas, es decir: n(E) = 13, entonces: 13 P= 52
4.
El vicerrector académico informa que de 200 desaprobados, 30 son de Matemática, 50 de Estadística y 10 de Métodos Cuantitativos. ¿Cuál es la probabilidad de que un estudiante elegido azar desapruebe Estadística? SOLUCIÓN: En este caso: n(S) = 200 y hay 50 casos favorables, entonces: 50 1 = P= 200 4
24
ESTADÍSTICA APLICADA
5.
Una urna contiene bolillas numeradas del 1 al 5. Se sacan sucesivamente al azar las 5 bolillas (sin reposición). Hallar la probabilidad de que juntando los números de cada bolilla según el orden de extracción resulte el número 53412.
SOLUCIÓN: El espacio muestral es: n(S) = 5! = 120 y hay un solo caso favorable, entonces: 1 1 P= = 5! 120 6.
Una urna contiene 8 bolillas rojas y 10 bolillas verdes. Se sacan al azar y de una vez 6 bolillas, ¿cuál es la probabilidad de que todas ellas sean verdes? SOLUCIÓN: Como el orden no importa se trata de combinaciones, entonces: C 610 5 = 0,011312217 P = 18 = 442 C6
7.
Se tiene 5 pares de zapatos mezclados y cada par es distinto de los demás. Si se eligen 2 zapatos al azar, hallar la probabilidad de que correspondan a un mismo par. SOLUCIÓN: Como el orden no importa, se trata de una combinación, es decir: n(S) = C 210 = 45 y hay 5 casos favorables, entonces: 5 1 p= = 45 9
8.
Los eventos A y B son mutuamente excluyentes, si P(A) = 0.25 y P(B) = 0.15. ¿Cuál es la probabilidad de que ocurra A o B? SOLUCIÓN: Sabemos que P(AUB) = P(A) + P(B) P(AUB) = 0.25 + 0.15 = 0.40.
25
Si: A ∩ B = ∅ , entonces:
ESTADÍSTICA APLICADA
EJERCICIOS PROPUESTOS 1.
Se lanzan tres monedas. ¿Cuál es la probabilidad de que todas salgan sello?
2.
Se lanzan 2 dados al azar y se quiere hallar la probabilidad de que la suma de los puntos obtenidos sea igual a 8.
3.
Se tiene una baraja de 52 cartas. ¿Cuál es la probabilidad de que la primera que se saque sea el as de corazones?
4.
El vice-rector académico informa que de 500 desaprobados, 80 son de Matemática, 125 de Estadística y 30 de Métodos Cuantitativos. ¿Cuál es la probabilidad de que un estudiante elegido azar desapruebe Matemática? Una urna contiene 10 bolillas numeradas del 0 al 9. Se sacan sucesivamente al azar 5 bolillas (sin reposición). Hallar la probabilidad de que juntando los números de cada bolilla según el orden de extracción resulte el número 20957.
5.
6.
Una urna contiene 10 bolillas negras y 12 bolillas rojas. Se sacan al azar y de una vez 5 bolillas, ¿cuál es la probabilidad de que todas ellas sean negras?
7.
Se tiene 8 pares de zapatos mezclados y cada par es distinto de los demás. Si se eligen 2 zapatos al azar, hallar la probabilidad de que correspondan a un mismo par.
8.
Los eventos A y B son mutuamente excluyentes, si P(A) = 0.40 y P(B) = 0.35. ¿Cuál es la probabilidad de que no ocurra ni A ni B?
9.
Se desea entrevistar a un grupo de empleados de la UTP con respecto a un plan de pensiones, se efectuaran entrevistas detalladas a cada uno de los empleados seleccionados en una nuestra aleatoria. Estos se clasificaron como sigue: CLASIFICACIÓN Vigilantes Mantenimiento Docentes Secretarias
Nº DE EMPLEADOS 16 14 50 20
26
ESTADÍSTICA APLICADA
¿Cuál es la probabilidad de que la primera persona seleccionada: a) sea docente o secretaria? b) sea vigilante o de mantenimiento? c) no sea vigilante? 10.
El directorio de la empresa MACHI SAC está formado por seis hombres y tres mujeres. Se desea seleccionar un comité de tres miembros, en forma aleatoria, para que recomienden a un nuevo presidente de la empresa. a) ¿Cuál es la probabilidad de que sean mujeres los tres miembros del comité? b) ¿Cuál es la probabilidad de que sean hombres los tres miembros del comité?
11.
Se lanzan cuatro monedas. ¿Cuál es la probabilidad de que todas salgan cara?
12.
Se lanzan cuatro monedas. ¿Cuál es la probabilidad de que salgan dos sellos?
13.
Se lanzan 2 dados al azar y se quiere hallar la probabilidad de que la suma de los puntos obtenidos sea a lo más 10.
14.
Se lanzan 2 dados al azar y se quiere hallar la probabilidad de que la suma de los puntos obtenidos sea por lo menos 4.
15.
Una urna contiene 8 bolillas numeradas del 1 al 8. Se sacan sucesivamente al azar 4 bolillas. Hallar la probabilidad de que juntando los números, de cada una, en el orden de extracción resulte el número 7656.
16.
Una urna contiene 6 bolillas blancas y 10 bolillas rojas. Se sacan al azar 7 bolillas de una vez, hallar la probabilidad de que todas sean rojas.
17.
En una carrera de autos participan los competidores A, B, C y D. Se sabe que uno de ellos necesariamente debe de ganar. Si la probabilidad de que gane A es el doble de la de B, la de B es la mitad de C y la de D es el triple de A, ¿Cuál es la probabilidad que gane D?.
27
ESTADÍSTICA APLICADA
18.
De 100 estudiantes, 48 llevan Matemática, 32 Estadística y 40 Administración; 16 Matemática y Estadística ,13 Administración y Estadística , 20 Matemática y Administración, y 22 ninguno de los 3 cursos . Si se elige un estudiante al azar, ¿Cuál es la probabilidad de que lleve?: a) Solo Estadística. b) Solamente Matemática o Administración. c) Solamente Estadística y Administración.
19.
Se tienen 6 libros, de los cuales uno es de economía y otro es de estadística. Si los libros se ordenan aleatoriamente de izquierda a derecha, hallar la probabilidad que: a) Los libros de economía y estadística estén juntos. b) Uno de los libros (economía y estadística) esté al inicio (primera posición desde la izquierda) o que los libros de economía y estadística no estén juntos.
20.
En una reunión de 30 personas, ¿cuál es la probabilidad de que, por lo menos dos de ellas, cumplan años el mismo día?
21.
Suponga que en una clase de 50 estudiantes, 30 alumnos opinan que el profesor es claro, 8 alumnos opinan que el material bibliográfico es deficiente, 35 alumnos opinan que el sistema de evaluación es exigente, 5 alumnos opinan que el profesor es claro y que el material bibliográfico es deficiente, 22 alumnos opinan que el profesor es claro y que el sistema de evaluación es exigente, 3 alumnos opinan que el material bibliográfico es deficiente y que el sistema de evaluación es exigente, y 5 alumnos opinan que el profesor no es claro, que el material bibliográfico no es deficiente y que el sistema de evaluación no es exigente. Si se elige al azar un alumno, hallar la probabilidad que: a) El alumno opine que el sistema de evaluación es exigente o que el material bibliográfico es deficiente. b) El alumno opine que el sistema de evaluación es exigente o que: el profesor es claro y el material bibliográfico es deficiente.
22.
Una empresa tiene dos maneras A y B de presentar un nuevo producto al mercado. Si presenta el producto de la manera A la probabilidad de que el producto sea exitoso es 0.44 y si lo presenta de la manera B la probabilidad de éxito se reduce a 0.29. La probabilidad de que el producto fracase con ambas maneras de presentación es 0.37. ¿Cuál es la probabilidad de que el producto sea exitoso con ambas formas de presentación?
28
ESTADÍSTICA APLICADA
23.
Se desea hallar la probabilidad de sacar por lo menos una vez el 6 al lanzar un dado 4 veces.
24.
Se desea hallar la probabilidad de sacar dos seis por lo menos una vez al lanzar dos dados 24 veces.
25.
Se tiene una baraja de 40 cartas, donde hay 4 ases. Se reparten éstas entre 4 personas, ¿qué probabilidad hay de que a cada una le toque un as?
26.
En una reunión de 30 personas,¿Cuál es la probabilidad de que, por lo menos dos de ellas, cumplan años el mismo día?
PROBABILIDAD CONDICIONAL Si A y B son dos eventos de un espacio muestral S; entonces, la probabilidad condicional de que ocurra el evento A dado que el evento B ya ocurrió esta dado por:
∀ P(B) ≠ 0 También se cumple que:
∀ P(A) ≠ 0 MULTIPLICACIÓN DE PROBABILIDADES Si A, B y C son tres eventos de un espacio muestral S; entonces, se cumple que: 1.
P(A∩B) = P(A) P(B/A) P(A∩B) = P(B) P(A/B)
29
ESTADÍSTICA APLICADA
2.
P(A∩B∩C) = P(A)P(B/A)P(C/A∩B) P(A∩B∩C) = P(B)P(A/B)P(C/A∩B) P(A∩B∩C) = P(C)P(A/C)P(B/A∩C) P(A∩B∩C) = P(A)P(C/A)P(B/A∩C) P(A∩B∩C) = P(B)P(C/B)P(A/B∩C) P(A∩B∩C) = P(C)P(B/C)P(A/B∩C) P(A∩B∩C) = P(A∩B)P(C/A∩B) P(A∩B∩C) = P(A∩C)P(B/A∩C) P(A∩B∩C) = P(B∩C)P(A/B∩C)
INDEPENDENCIA DE EVENTOS INDEPENDENCIA DE DOS EVENTOS Dos eventos A y B son independientes si:
Dos eventos son independientes si la ocurrencia de uno de ellos no afecta la ocurrencia del otro evento. Es decir, también se cumplen que: P(A/B) = P(A) y P(B/A) = P(B)
INDEPENDENCIA DE TRES EVENTOS Tres eventos A, B y C de un espacio muestral S son mutuamente independientes si cumplen las siguientes condiciones: 1. 2. 3. 4.
P(A ∩ B) = P(A)P(B) P(A ∩ C) = P(A)P(C) P(B ∩ C) = P(B)P(C) P(A∩B∩C) = P(A)P(B)P(C)
PARTICIÓN DE EVENTOS Los eventos A1 , A2 , A3 , · · · , AK forman una partición del espacio muestral S, si cumplen las siguientes condiciones: 1. 2. 3.
Ai ≠ ∅ ∀ i = 1, 2, 3, · · · , k Ai ∩ Aj = ∅ ∀ i ≠ j , i , j = 1, 2, 3, · · · , k A1 ∪ A2 ∪ A3 ∪ · · · ∪ AK = S
30
ESTADÍSTICA APLICADA
TEOREMA DE PROBABILIDAD TOTAL Sean los eventos A1 , A2 , A3 , · · · , AK , los cuales forman una partición del espacio muestral S, y sea B otro evento cualquiera de S; entonces, se cumple que:
TEOREMA DE BAYES Sean los eventos A1 , A2 , A3 , · · · , AK , los cuales forman una partición del espacio muestral S, y sea B otro evento cualquiera de S; entonces, se cumple que:
EJERCICIOS RESUELTOS 1. Suponga que P(A) = 0.35 y P(B/A) = 0.25 . Hallar P(A ∩ B). SOLUCIÓN: Sabemos que P(A∩B) = P(A) P(B/A) entonces, P(A∩B) = (0.35)(0.25) = 0.0875 2.
En un lote de 15 artículos se tiene 4 defectuosos. Si se eligen al azar y sin reemplazo tres artículos, hallar la probabilidad que los 3 artículos elegidos sean defectuosos. SOLUCIÓN: Sea Di = {el i-ésimo artículo es defectuoso}, entonces: P(D1∩ D2∩D3) = P(D1)P(D2)P(D3) 4 4 3 2 = 0.00879121 P(D1∩ D2∩D3) = ( )( )( ) = 15 14 13 455
31
ESTADÍSTICA APLICADA
3.
Una urna contiene 10 bolillas rojas, 8 negras y 12 azules. Si se eligen al azar y sin reemplazo 3 bolillas, hallar la probabilidad que las 3 bolillas sean negras. SOLUCIÓN: Sea Ni = {la i-ésimo bolilla es negra}, entonces: P(N1∩ N2∩N3) = P(N1)P(N2)P(N3) 2 8 7 6 P(N1∩ N2∩N3) = ( )( )( ) = = 0.013793103 30 29 28 145
4.
En una urna hay 15 bolillas numeradas del 1 al 15. Si se van sacando una a una al azar sin reposición, ¿cuál es la probabilidad de que la bolilla número 5 salga precisamente en la quinta extracción? SOLUCIÓN: La probabilidad de que la bolilla Nº 5 no salga en la primera vez es 14/15; la probabilidad de que tampoco salga la segunda vez es 13/14; tampoco la tercera vez es 12/13; tampoco la cuarta vez es 11/12 y la probabilidad de que si salga en la quinta vez es 1/11. Luego la probabilidad buscada es: P=
5.
1 14 13 12 11 1 · · · · = = 0.066666666 15 14 13 12 11 15
Se lanza una moneda 3 en cada uno de los dos que caiga sello en el exactamente dos sellos los eventos A y B son dependientes.
veces. Sea el evento A de que caiga cara primeros lanzamientos, B es el evento de tercer lanzamiento y C de que caigan en los tres lanzamientos, compruebe que independientes mientras que B y C son
SOLUCIÓN: El espacio muestral para este experimento seria: S = {ccc, ccs, csc, css, scc, scs, ssc, sss} De acuerdo al enunciado los eventos serian: A = {ccc, ccs } B = {ccs, css, scs, sss} C = {css, scs, ssc}
32
ESTADÍSTICA APLICADA
Para que A y B sean independientes debe cumplirse: P(A∩B) = P(A)P(B) Como A∩B = {ccs}, entonces: P(A∩B) = 1/8 ; P(A) = 2/8 = ¼ y P(B) = 4/8 = ½ Luego: P(A∩B) = P(A)P(B) 1 11 1 1 = · ⇒ = es decir A y B son independientes. 8 8 8 42 Para que B y C sean dependientes debe cumplirse: P(B∩C) ≠ P(B)P(C) Como B∩C = {css, scs}, entonces: P(B∩C) = 1/4 ; P(B) = 1/4 P(C) = 3/8
y
Luego; como: P(B∩C) ≠ P(B)P(C) 1 3 1 13 ≠ · ⇒ ≠ es decir B y C son dependientes. 4 16 4 28 6.
El equipo de la UTP juega el 70% de sus partidos en la noche, y el 30% durante el día. El equipo gana el 50% de sus partidos nocturnos y el 90% de los diurnos. De acuerdo con un diario de hoy día, la UTP ganó ayer. ¿Cuál es la probabilidad de que el partido se haya jugado en la noche?. SOLUCIÓN: De acuerdo a los datos se tiene que: P(juegue de noche) = 0.70 P(juegue de día) = 0.30 P(gane/juegue de noche) = 0.50 P(gane/juegue de día) = 0.90 Entonces por el teorema de Bayes: P(juegue de noche/gane) = P( jueguedenoche)·P( gane / jueguedenoche) P( jueguedenoche)·P( gane / jueguedenoche)·P( jueguededia)·P( gane / jueguededia)
33
ESTADÍSTICA APLICADA
Reemplazando: P(juegue de noche/gane) =
0.70·0.50 0.35 = = 0.564516129 0.70·0.50 + 0.30·0.90 0.62
EJERCICIOS PROPUESTOS 1.
Suponga que P(A) = 0.50 y P(B/A) = 0.40 . Hallar P(A ∩ B).
2.
En un lote de 18 artículos se tiene 5 defectuosos. Si se eligen al azar y sin reemplazo tres artículos, hallar la probabilidad que los 3 artículos elegidos no sean defectuosos.
3.
Una urna contiene 6 bolillas rojas, 8 negras y 10 azules. Si se eligen al azar y sin reemplazo 3 bolillas, hallar la probabilidad que las 3 bolillas sean azules.
4.
En una urna hay 25 bolillas numeradas del 1 al 25. Si se van sacando una a una al azar sin reposición, ¿cuál es la probabilidad de que la bolilla número 10 salga precisamente en la décima extracción?
5.
Se lanza una moneda 3 veces. Sea el evento A de que caiga sello en cada uno de los dos primeros lanzamientos, B es el evento de que caiga cara en el tercer lanzamiento y C de que caigan exactamente dos caras en los tres lanzamientos, analice si los eventos A y B y B y C son independientes y/o dependientes.
6.
El equipo de la “U” juega el 20% de sus partidos en la noche, y el 80% durante el día. El equipo gana el 60% de sus partidos nocturnos y el 90% de los diurnos. De acuerdo con un diario de hoy día, la “U” ganó ayer. ¿Cuál es la probabilidad de que el partido se haya jugado de día?.
34
ESTADÍSTICA APLICADA
7.
El profesor MACHI esta enseñando Estadística en la UTP durante varios años. Se sabe que el 80% de los estudiantes terminaron los ejercicios propuestos por el profesor. Determino que de los estudiantes que cumplen con sus trabajos , 90% aprueban el curso. De aquellos estudiantes que no lo hacen así, 60% será aprobado. Juanita tomó Estadística durante el último semestre con el profesor MACHI y aprobó el curso. ¿Cuál es la probabilidad de que si haya hecho sus trabajos?
8.
El vice-rector de investigación de la UTP necesita rentar automóviles en tres agencias: el 60% de la agencia A, el 30% de la agencia B y el 10% de la agencia C. Si el 9% de los vehículos de la agencia A necesitan afinación, el 20% de las unidades de la agencia B necesitan también afinación y el 6% de los autos de la agencia C necesitan asimismo afinación. ¿Cuál es la probabilidad de que un automóvil rentado al vice-rector de investigación de la UTP necesitará afinación?
9.
Suponga que en un lote de 20 artículos se tiene 5 defectuosos. Si se eligen al azar y sin reemplazo 3 artículos, hallar la probabilidad que: a) Los 3 artículos elegidos no sean defectuosos. b) El segundo articulo elegido sea defectuoso y que el tercero no sea defectuoso. c) El tercer artículo elegido sea defectuoso, si el primero no fue defectuoso.
10.
Suponga que 3 máquinas A, B y C producen respectivamente, el 50%, 30% y 20% del número total de artículos producidos por una empresa, y que los porcentajes de unidades defectuosas producidas por estas máquinas son: 3%, 4% y 5% respectivamente. Si se elige un artículo al azar y es no defectuoso, hallar la probabilidad que haya sido producido por la máquina A.
35
ESTADÍSTICA APLICADA
UNIDAD II VARIABLES ALEATORIAS En el análisis estadístico de una variable casi siempre se desea conocer el valor que tomaría en el futuro, este valor no siempre se puede predecir con certeza; por ejemplo al rector de la UTP le interesa saber el número de estudiantes que abandonan la universidad por ciclo o semestre, en estos casos, el análisis resulta mas sencillo si se establece cual es el comportamiento probabilístico de dicha variable para así poder establecer una metodología para estimar su comportamiento futuro. VARIABLE ALEATORIA Una variable aleatoria es una función que tiene como dominio a un espacio muestral y como rango a un subconjunto de los números reales. Una variable aleatoria es una función “X” que le asigna un número real a cada uno de los elementos del espacio muestral. VARIABLE ALEATORIA DISCRETA Cuando el número de posibles valores de la variable es un número finito o infinito numerable. FUNCIÓN DE PROBABILIDAD Sea “X” una variable aleatoria discreta, la función f(x) es llamada función de probabilidad si cumple las siguientes condiciones: 1. 2. 3.
f(xi) = P(X= xi) ≥ 0 0 ≤ f(xi) ≤ 1 ∑ f ( xi ) = 1
EJEMPLO Sea el experimento aleatorio que consiste en lanzar una moneda 2 veces. Analice si la variable aleatoria número de caras constituye una función de probabilidad. SOLUCIÓN: Sea el espacio muestral del experimento: S = {cc, cs, sc, ss}
37
ESTADÍSTICA APLICADA
Sea la variable aleatoria: Entonces x = 0, 1 y 2 X1 = 0, x2 = 1 y x3 = 2
x = número de caras
f(x1) = P(X=x1) = P(X=0) = P(ss) = ¼ f(x2) = P(X=x2) = P(X=1) = P(cs) + P(sc) = 1/4 +1/4 = 2/4 = ½ f(x3) = P(X=x3) = P(X=2) = P(cc) = 1/4 Como los f(xi) están comprendidos entre 0 y 1; y además: 3 1 2 1 1+ 2 +1 4 f ( x i ) = f ( x1 ) + f ( x 2 ) + f ( x 3 ) = + + = = =1 ∑ 4 4 4 4 4 i =1 Entonces f(xi) si es una función de probabilidad; esto es:
⎧1 / 4; x = 0 F(x) ⎨ ⎩1 / 2 y 2; x = 1 Gráfica de f(x):
FUNCIÓN DE PROBABILIDAD ACUMULATIVA Sea “x” una variable aleatoria discreta con función de probabilidad f(x); luego, la función de probabilidad acumulativa o función de distribución de la variable aleatoria “x” es:
F(x) = P(X ≤ xi) =
38
∑ f (x ) i
ESTADÍSTICA APLICADA
PROPIEDADES 1. F(X) = 0 ∀ x < m, donde m es el menor valor de los xi 2. F(X) = 1 ∀ x ≥ M, donde M es el mayor valor de los xi 3. 0 ≤ F(X) ≤ 1 4. F(X) es una función creciente Del ejemplo anterior:
⎧0; x < 0 ⎪1 / 4;0 ≤ x < 1 ⎪ F(x)= ⎨ ⎪3 / 4;1 ≤ x < 2 ⎪⎩1; x ≥ 2 Gráfica de F(x):
ESPERANZA MATEMÁTICA Sea “x” una variable aleatoria discreta con función de probabilidad f(x); entonces, la Esperanza Matemática o valor esperado o media de la variable aleatoria “x” es:
E(x) = ∑ x
i
f ( xi )
PROPIEDADES 1. E(c) = 0 ; ∀ c = constante 2. E(cx) = cE(x) ; ∀ c = constante 3. E(cx + m ) = cE(x) + m ; ∀ c y m = constantes 4. E(ax + by) = aE(x) + bE(y) ; ∀ a y b = constantes
39
ESTADÍSTICA APLICADA
Del ejemplo anterior: E(X) = 3
∑x i =1
i
1 2 1 0+2+2 4 f ( x i ) = x1 f ( x1 ) + x 2 f ( x 2 ) + x 3 f ( x 3 ) = 0· + 1· + 2· = = =1 4 4 4 4 4
VARIANCIA O VARIANZA Sea “x” una variable aleatoria discreta con función de probabilidad f(x); entonces, la Variancia o Varianza de la variable aleatoria “x” es:
Var(X) = V(X) = σ x2 = E[xi –E(X)]2 Es decir:
V(X) =
∑ (x
i
− E ( x)) 2 f ( x i )
También:
V(X)= E(x2) – [E(x)]2 PROPIEDADES ∀ c = constante 1. V(c) = 0 ; 2. V(cx) = c2V(x) ; ∀ c = constante 3. V(ax + b) = a2V(x) ; ∀ a y b = constantes 4. Si “x” e “y” son variables aleatorias independientes V(ax + by) = a2V(x) + b2V(y) ∀ a y b = constantes Del ejemplo anterior: V(X) = ∑ ( x i − E ( x)) 2 f ( x i ) ; se sabe que E(X) = 1 V(X) = (x1 – E(X))2f(x1) + (x2 – E(X))2f(x2) + (x3 – E(X))2f(x3) V(X) = (0 – 1)2 ·
1 2 1 1 + ( 1 – 1 )2 · + ( 2 – 1 )2 · = 4 4 4 2
40
ESTADÍSTICA APLICADA
También: V(X) = E(x2) – [E(x)]2 E(X2) = 3
∑x i =1
2 i
1 2 1 6 3 f ( x i ) = x12 f ( x1 ) + x 22 f ( x 2 ) + x 32 f ( x 3 ) = 0 2 · + 12 · + 2 2 · = = 4 4 4 4 2
Entonces: V(X) =
3 2 3 1 −1 = −1= 2 2 2
EJERCICIOS RESUELTOS 1.
Se lanzan 3 monedas y se desea analizar la variable aleatoria número de sellos. Obtenga su función de probabilidad y su grafica. SOLUCIÓN: El espacio muestral S para este caso es: S = {ccc, ccs, csc, css, scc, scs, ssc, sss} La variable aleatoria: x = número de sellos X = 0, 1, 2, 3 x1 = 0 ; x2 = 1 ; x3 = 2 ; x4 = 3 f(x1) = P(X = x1) = P(X = 0) = P(ccc) =
1 8
3 8 3 f(x3) = P(X = x3) = P(X = 2) = P(css) + P(scs) + P(ssc) = 8 1 f(x4) = P(X = x4) = P(X = 3) = P(sss) = 8
f(x2) = P(X = x2) = P(X = 1) = P(ccs) + P(csc) + P(scc) =
Se observa que cumple las condiciones de una función de probabilidad.
⎧1 / 8; x = 0,3 f(x) = ⎨ ⎩3 / 8; x = 1,2
41
ESTADÍSTICA APLICADA
Gráfica de f(x):
2.
Una urna contiene 12 bolillas numeradas del 1 al 12. Se saca una bolilla al azar y se quiere analizar la variable aleatoria número de divisores del número obtenido. Encuentre su función de probabilidad. SOLUCIÓN: Sea la variable aleatoria: x = número de divisores del número obtenido. El espacio muestral S consta de cualquiera de las 12 bolillas, es decir: S = {1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12} Como la bolilla 1 tiene 1 divisor, la bolilla 2 tiene 2 divisores, la bolilla 3 tiene 2 divisores, la bolilla 4 tiene 3 divisores, la bolilla 5 tiene 2 divisores, la bolilla 6 tiene 4 divisores, la bolilla 7 tiene 2 divisores, la bolilla 8 tiene 4 divisores, la bolilla 9 tiene 3 divisores, la bolilla 10 tiene 4 divisores, la bolilla 11 tiene 2 divisores y la bolilla 12 tiene 6 divisores; entonces: X = 1, 2, 3, 4, 6 f(1) = 1/12 , f(2) = 5/12 , f(3) = 2/12 , f(4) = 3/12 , f(6) = 1/12
⎧1 / 12; x = 1,6 ⎪5 / 12; x = 2 ⎪ f ( x) = ⎨ ⎪1 / 6; x = 3 ⎪⎩1 / 4; x = 4
42
ESTADÍSTICA APLICADA
3.
Una urna contiene 12 bolillas numeradas del 1 al 12. Se saca una bolilla al azar y se quiere analizar la variable aleatoria número de divisores del número obtenido. Encuentre su función de probabilidad acumulativa y su gráfica. SOLUCIÓN: Del ejercicio anterior ya conocemos su función de probabilidad, entonces:
⎧0; x < 1 ⎪1 / 12;1 ≤ x < 2 ⎪ ⎪⎪6 / 12;2 ≤ x < 3 F ( x) = ⎨ ⎪8 / 12;3 ≤ x < 4 ⎪11 / 12;4 ≤ x < 6 ⎪ ⎪⎩1; x ≥ 6
Gráfica de F(x):
4.
Se lanza una moneda 3 veces y se desea analizar la variable aleatoria número de sellos. Calcule e interprete su esperanza matemática y varianza.
43
ESTADÍSTICA APLICADA
SOLUCIÓN: Del ejercicio 1 su función de probabilidad es:
⎧1 / 8; x = 0,3 f ( x) = ⎨ ⎩3 / 8; x = 1,2 Entonces: E(x) =
∑x
i
f ( xi )
E(x)= 4
∑x i =1
i
1 3 3 1 0 + 3 + 6 + 3 12 3 f ( x i ) = x1 f ( x1 ) + x 2 f ( x 2 ) + x3 f ( x 3 ) + x 4 f ( x 4 ) = 0· + 1· + 2· + 3· = = = 8 8 8 8 8 8 2
Si este experimento lo repetimos varias veces, esperamos que en promedio el número de sellos sea 3/2. Cálculo de la varianza: V(X) = E(x2) – [E(x)]2 E(X2)= 4
∑x i =1
2 i
1 24 1 3 3 f ( xi ) = x12 f ( x1 ) + x 22 f ( x 2 ) + x32 f ( x3 ) + x 42 f ( x 4 ) = 0 2 · + 12 · + 2 2 · + 3 2 · = =3 8 8 8 8 8
9 3 = 4 4 Este valor nos indica que hay poca dispersión cuando se analiza el número de sellos al lanzar una moneda 3 veces. Entonces: V(x) = 3 – ( 3/2 )2 = 3 -
5.
Sea “x” una variable aleatoria discreta con probabilidad: f(x) = c(x + 2) ; x = 1, 2, 3, 4, 5 Hallar el valor de “c”.
función
SOLUCIÓN: Como f(x) es una función de probabilidad, entonces se cumple que:
∑ f (x ) = 1 i
f(1) + f(2) + f(3) + f(4) + f(5) = 1 c(3) + c(4) + c(5) + c(6) + c(7) = 1 1 25c = 1 ⇒ c = 25
44
de
ESTADÍSTICA APLICADA
EJERCICIOS PROPUESTOS 1.
Se lanzan 4 monedas y se desea analizar la variable aleatoria número de caras. Calcule y grafique f(x) y F(x), además halle e interprete a su esperanza matemática y varianza.
2.
Una urna contiene 15 bolillas numeradas del 1 al 15. Se saca una bolilla al azar y se quiere analizar la variable aleatoria número de divisores del número obtenido. Calcule y grafique f(x) y F(x), además halle e interprete a su esperanza matemática y varianza.
3.
Se lanzan 3 monedas y se desea analizar la variable aleatoria número de sellos. Obtenga su función de probabilidad acumulativa y su gráfica. Además halle a su coeficiente de variabilidad.
4.
Una urna contiene 12 bolillas numeradas del 1 al 12. Se saca una bolilla al azar y se quiere analizar la variable aleatoria número de divisores del número obtenido. Calcule e interprete su esperanza matemática, varianza y coeficiente de variabilidad.
5.
Se lanzan dos dados y se desea estudiar la variable aleatoria suma de resultados. Calcule y grafique f(x) y F(x), además halle e interprete a su esperanza matemática y varianza.
6.
Sea “x” una variable aleatoria discreta probabilidad: f(x) = cx ; x = 1, 2, 3, 4, 5 Hallar el valor de “c”.
con
función
de
7.
Sea “x” una variable aleatoria discreta probabilidad: f(x) = cx2 ; x = 1, 2, 3, 4, 5 Hallar el valor de “c”.
con
función
de
8.
Sea “x” una variable aleatoria discreta probabilidad: f(x) = c · 2x ; x = 1, 2, 3, 4 Hallar el valor de “c”.
con
función
de
9.
Se lanzan dos dados y se desea estudiar la variable aleatoria “x” suma de resultados. Si además se cumple que: z = 2x + 5. Calcule E(z) y V(z).
45
ESTADÍSTICA APLICADA
10.
Dado que la variable aleatoria discreta “x” tiene por función de probabilidad acumulativa:
⎧0; x < 1 ⎪1 ⎪ ;1 ≤ x < 4 ⎪3 ⎪⎪ 1 F(x)= ⎨ ;4 ≤ x < 6 ⎪2 ⎪5 ⎪ 6 ;6 ≤ x < 10 ⎪ ⎪⎩1; x ≥ 10 Hallar: a) P(2< x ≤ 6); b) P(x = 4); c) Su función de probabilidad. 11.
Dado que la variable aleatoria discreta “x” tiene por función de probabilidad acumulativa: ⎧0; x < −1 ⎪1 ⎪ ;−1 ≤ x < 1 ⎪4 ⎪⎪ 1 F(x)= ⎨ ;1 ≤ x < 3 ⎪2 ⎪3 ⎪ 4 ;3 ≤ x < 5 ⎪ ⎪⎩1; x ≥ 5
Hallar: a) P(x ≤ 3); d) P(x ≥ 1); 12.
b) P(x = 3); e) P(-0.4< x < 4);
c) P(x < 3); f) P(x = 5).
Una urna contiene cuatro bolillas con los números 1, 2, 3 y 4, respectivamente. Si se toma dos bolas de la urna sin sustitución y se define la variable aleatoria “x” como la suma de los números de las dos bolillas extraídas, determine: a) La función de probabilidad de “x” y su gráfica. b) La función de distribución de “x” y su gráfica.
46
ESTADÍSTICA APLICADA
13.
Una moneda está cargada y de este modo hay tres veces mayor probabilidad de que caigan caras que sellos. En tres lanzamientos independientes de la moneda determine: a) La distribución de probabilidad de x, el número total de caras; b) La probabilidad de que cuanto mucho caigan dos caras.
14.
Una caja contiene 10 artículos, de los cuales 2 son defectuosos. Si se eligen al azar y sin reemplazo 3 artículos y se define la variable aleatoria número de artículos buenos elegidos, hallar f(x) y F(x) y sus gráficas, además calcule e interprete a su esperanza matemática y varianza.
15.
Suponga que se han recibido 3 cajas (A, B y C) con 4 artículos cada una. La caja A contiene un artículo defectuoso, la caja B contiene 2 artículos defectuosos y en la caja C no hay artículos defectuosos. Si se elige al azar un artículo de cada caja y se define la variable aleatoria “x” como el número de artículos buenos elegidos. Hallar f(x) y F(x) y sus gráficas, además calcule e interprete a su esperanza matemática y varianza.
VARIABLE ALEATORIA CONTINUA Si el número de valores posibles de la variable en estudio es un conjunto no numerable. Es decir, la variable toma infinitos valores. FUNCIÓN DE PROBABILIDAD Sea “X” una variable aleatoria continua, la función f(x) es llamada función de probabilidad o de densidad si cumple las siguientes condiciones: 1.
0 ≤ f(x) ≤ 1 ; ∀ x ∈ ℜ
2.
∫
∞
−∞
f ( x)dx = 1
Nota: Sea el evento: A = {x / a ≤ x ≤ b} ; entonces: P(A) = P(a ≤ x ≤ b) =
∫
b
a
f ( x)dx
47
ESTADÍSTICA APLICADA
EJEMPLO Suponga que el tiempo de producción de un artículo (minutos) es una variable aleatoria “x” que tiene como función de densidad:
x ; 18
0≤x≤6
f(x) = 0 ;
de otro modo (d.o.m.)
Verificar si f(x) es una función de densidad y hallar la probabilidad de que el tiempo de producción de un artículo elegido al azar sea menor de 4 minutos. SOLUCIÓN: Debe de cumplirse que:
∫
∞
−∞
f ( x)dx = 1
x 1 6 1 x2 = = dx xdx ∫0 18 18 ∫0 18 2 6
6
= 0
1 62 02 1 ( − ) = (18) = 1 18 18 2 2
Lo cual verifica que f(x) si constituye una función de densidad.
La probabilidad pedida equivale a:
x 1 x2 P( x < 4 ) = P( 0 < x < 4) = ∫ dx = 0 18 18 2 2 1 4 16 4 = = = 0.44444444 18 2 36 9 4
Gráfica de f(x):
48
4
= 0
ESTADÍSTICA APLICADA
FUNCIÓN DE PROBABILIDAD ACUMULATIVA Sea “x” una variable aleatoria continúa con función de densidad f(x); luego, la función de probabilidad acumulativa o función de distribución de la variable aleatoria “x” se define como:
F(x) = P(X ≤ x) = PROPIEDADES 1. F(-∝) = 0 2. F(+∝) = 1 3. 0 ≤ F(X) ≤ 1 ; ∀ x ∈ ℜ 4. F(X) es una función creciente dF ( x) 5. f(X) = dx 6. P(a ≤ x ≤ b) = F(b) – F(a) Del ejemplo anterior: F(x) = P(X ≤ x) =
F(x) =
∫
x
0
∫
x
−∞
f ( x)dx
x 1 x2 dx = 18 18 2
x
= 0
1 x2 x2 = 18 2 36
⎧0; x < 0 ⎪ 2 ⎪x F ( x) = ⎨ ;0 ≤ x ≤ 6 ⎪ 36 ⎪⎩1; x > 6 Gráfica de F(x):
49
∫
x
−∞
f ( x)dx
ESTADÍSTICA APLICADA
ESPERANZA MATEMÁTICA Sea “x” una variable aleatoria continua con función de densidad f(x); entonces, la Esperanza Matemática o valor esperado o media de la variable aleatoria “x” es:
E(x) =
∫
∞
xf ( x)dx
−∞
PROPIEDADES 1. E(c) = 0 ; ∀ c = constante 2. E(cx) = cE(x) ; ∀ c = constante 3.E(cx + m ) = cE(x) + m ; ∀ c y m = constantes 4. E(ax + by) = aE(x) + bE(y) ; ∀ a y b = constantes Del ejemplo anterior: E(x) = E(x) =
∫
∞
∫
6
−∞
0
xf ( x)dx
x 1 6 1 x3 x· dx = ∫ x 2 dx = 18 18 0 18 3
6
= 0
1 6 3 216 = =4 18 3 54
VARIANCIA O VARIANZA Sea “x” una variable aleatoria continua con función de probabilidad f(x); entonces, la Variancia o Varianza de la variable aleatoria “x” es:
Var(X) = V(X) = σ x2 = E[x – E(X)]2 Es decir: ∞
V(X) = ∫−∞ [ x − E ( x)] 2 f ( x)dx También:
V(X)= E(x2) – [E(x)]2
50
ESTADÍSTICA APLICADA
PROPIEDADES 1.V(c) = 0 ; ∀ c = constante 2. V(cx) = c2V(x) ; ∀ c = constante 3. V(ax + b) = a2V(x) ; ∀ a y b = constantes 4. Si “x” e “y” son variables aleatorias independientes V(ax + by) = a2V(x) + b2V(y) ∀ a y b = constantes Del ejemplo anterior: V(x) = E(x2) – [E(x)]2 Como E(x) = 4 Entonces: E(x2) =
∫
6
0
x2
x 1 6 1 x4 dx = ∫ x 3 dx = 18 18 0 18 4
6
= 0
64 1296 = = 18 18 x 4 72
Luego: V(x) = 18 – ( 4 )2 = 18 – 16 = 2
EJERCICIOS RESUELTOS 1.
Suponga que el tiempo de producción de un artículo (minutos) es una variable aleatoria “x” que tiene como función de densidad:
⎧5 − x ;2 ≤ x ≤ 4 ⎪ f ( x) = ⎨ 4 ⎪⎩0; d .o.m. Hallar la probabilidad de que el tiempo de producción de un artículo elegido al azar sea menor de 3 minutos. SOLUCIÓN: Sea la variable aleatoria: x = tiempo de producción de un artículo Nos piden:
5− x 1 3 1 x2 dx = ∫ (5 − x)dx = (5 x − ) P(x < 3) = P( 2 ≤ x < 3) = ∫ 2 4 4 2 4 2 1 9 4 1 5 1 5 5 P(x < 3 ) = [15 − 10 − ( − ) = (5 − ) = ( ) = = 0.625 4 2 2 4 2 4 2 8 3
51
3 2
ESTADÍSTICA APLICADA
2.
Sea “x” una variable aleatoria continua con función de densidad:
⎧cx;0 ≤ x ≤ 6 f ( x) = ⎨ ⎩0; d .o.m. Si además se cumple que: y = 20 + 4x Hallar: a) El valor de “c”. b) La mediana de “x”. c) E(y) y V(y) SOLUCIÓN: a)
Debe de cumplirse que:
∫
6
0
b)
cxdx = c·
x2 2
6
∫
∞
−∞
f ( x)dx = 1
= c(18 − 0) = 1 ⇒ 18c = 1 ⇒ c =
0
1 18
Para calcular al valor de la mediana debe de cumplirse: me 1 ∫−∞ f ( x)dx = 2 en nuestro caso:
1 x 2 me 1 me 2 1 x ∫0 18 dx = 18 2 0 = 18 2 = 2 ⇒ me2 = 18 ⇒ me = 18 = 3 2 me
c)
3.
Del ejemplo sabemos que: E(x) = 4 y V(x) = 2 Entonces, por propiedades: E(y) = E(20+4x) = E(20)+E(4x) = 20+4E(x) = 20 + 4(4) = 36 V(y) = V(20+4x) = V(20)+V(4x) = 0+ 42 V(x) = 16(2) = 32
Si la función de distribución del ejercicio 1 es: F(x) =
− 16 + 10 x − x 2 (compruébalo) 8
52
ESTADÍSTICA APLICADA
Determine: P( x < 3 ) SOLUCIÓN: Por la propiedad 6 de F(X): P( x < 3 ) = P( 2 < x < 3 ) = F(3) – F(2) =
* F(3) =
− 16 + 30 − 9 5 = 8 8
y F(2) =
5 5 -0= 8 8
− 16 + 20 − 4 =0 8
EJERCICIOS PROPUESTOS 1.
Suponga que el tiempo de producción de un artículo (minutos) es una variable aleatoria “x” que tiene como función de densidad:
⎧5 − x ;2 ≤ x ≤ 4 ⎪ f ( x) = ⎨ 4 ⎪⎩0; d .o.m. Verificar si f(x) es una función de densidad y hallar la probabilidad de que el tiempo de producción de un artículo elegido al azar sea por lo menos de 3 minutos. 2.
Sea “x” una variable aleatoria continua con función de densidad:
⎧c( x + 1);2 < x < 4 f ( x) = ⎨ ⎩0; d .o.m. Si además se cumple que: y = 10 + 5x Hallar: a) El valor de “c”. b) E(x) y V(x) c) E(y) y V(y)
53
ESTADÍSTICA APLICADA
3.
Si la función de distribución del ejercicio 1 es: − 16 + 10 x − x 2 F(x) = 8 Determine: P( x > 3 )
4.
La función de densidad de la variable aleatoria continua “x” está dada por: ⎧1 ⎪ ;2 < x < 7 f ( x) = ⎨ 5 ⎪⎩0; d .o.m. a) b)
Demuestre que el área situada debajo de la curva (sobre el eje x) es igual a 1. Determine P(3< x < 5).
5,
Si la función de densidad de la variable aleatoria continua “x” está dada por: ⎧1 ⎪ ( x + 1);2 < x < 4 f ( x) = ⎨ 8 ⎪⎩0; d .o.m. Hallar: a) P(x < 3.2); b) P(2.9 < x < 3.2).
6.
Si la función de densidad de la variable aleatoria x está dada por:
⎧6 x(1 − x);0 < x < 1 f ( x) = ⎨ ⎩0; d .o.m. Hallar: a) P(x > ½); b) La función de distribución de esta variable aleatoria; c) El valor de la mediana de la variable x. 7.
Si la función de densidad de la variable aleatoria “x” está dada por: ⎧cx 2 + x;0 < x < 1 f ( x) = ⎨ ⎩0; d .o.m.
54
ESTADÍSTICA APLICADA
Hallar: a) El valor de “c”. b) La función de distribución de esta variable aleatoria “x” y trace su gráfica; c) P(0 ≤ x ≤ ½). 8.
Si la función de densidad de la variable aleatoria “x” está dada por: ⎧− .kx;−1 < x < 0 ⎪ f ( x) = ⎨kx;0 ≤ x < 1 ⎪0; d .o.m. ⎩
Hallar: a) El valor de “k”. b) La función de distribución de esta variable aleatoria “x” y trace su gráfica; c) P(- ½ < x < ½). 9.
Si la función de densidad de la variable aleatoria “x” está dada por ⎧ x;0 < x < 1 ⎪ f ( x) = ⎨2 − x;1 ≤ x < c ⎪0; d .o.m. ⎩ Hallar: a) El valor de “c” b) La función de distribución de “x”. c) P(0.8 < x < 0.6c).
10.
Obtenga la función de distribución de la variable aleatoria “x” cuya función de densidad está dada por: ⎧x ⎪ 2 ;0 < x ≤ 1 ⎪ ⎪⎪ 1 ;1 < x ≤ 2 f ( x) = ⎨ 2 ⎪3 − x ;2 < x < 3 ⎪ 2 ⎪ ⎪⎩0; d .o.m.
Trace asimismo las gráficas de las funciones de densidad y de distribución.
55
ESTADÍSTICA APLICADA
11.
Si la función de distribución de la variable aleatoria “x” está dada por:
⎧0 : x < −1 ⎪x +1 ⎪ F ( x) = ⎨ ;−1 ≤ x < 1 2 ⎪ ⎪⎩1; x ≥ 1 Hallar: a) P(- ½ < x < ½); b) P(2 < x < 3), c) La densidad de probabilidad de esta variable aleatoria “x” y utilícela para volver a determinar la probabilidad del inciso a). 12.
Si la función de distribución de la variable aleatoria “x” está dada por:
⎧0; x < 0 ⎪x ⎪ ;0 ≤ x < 1 ⎪ F ( x) = ⎨ 2 ⎪ x − 1 ;1 ≤ x < 1.5 ⎪ 2 ⎪1; x ≥ 1.5 ⎩ Hallar: a) P(0.4 < x ≤ 1.3) b) P( x > 0.5) c) La función de densidad de la variable “x”. 13.
Si la función de distribución de la variable aleatoria “x” está dada por: ⎧0; x < −2 ⎪x + 4 ⎪ F ( x) = ⎨ ;−2 ≤ x < 2 8 ⎪ ⎪⎩1; x ≥ 2 Hallar: a) P(x = -2); b) P( x = 2); c) P(-2 < x <1); d) P(0 ≤ x ≤ 2).
56
ESTADÍSTICA APLICADA
14.
La cantidad real de café (en gramos) en un recipiente de 230 gramos llenado por cierta máquina es una variable aleatoria cuya función de densidad está dada por:
⎧0; x ≤ 227.5 ⎪1 ⎪ f ( x) = ⎨ ;227.5 < x < 232.5 ⎪5 ⎪⎩0; x ≥ 232.5 Determine la probabilidad de que un recipiente de 230 gramos llenado por esta máquina contendrá: a) Cuanto mucho 228.65 gramos de café. b) Entre 229.34 y 231.66 gramos de café. c) Cuanto menos 229.85 gramos de café. 15.
El retraso o adelanto (en minutos) de un vuelo de Lima a Juliaca es una variable aleatoria “x” cuya función de densidad está dada por:
⎧ 1 (36 − x 2 );−6 < x < 6 ⎪ f ( x) = ⎨ 288 ⎪⎩0; d .o.m. donde los valores negativos son indicativos de que el vuelo llega adelantado y los valores positivos señalan que el vuelo llega retrasado. Determine las probabilidades de que uno de estos vuelos llegará a) Cuando menos dos minutos antes. b) Cuando menos un minuto retrasado. c) Entre uno y tres minutos antes. d) Exactamente cinco minutos tarde.
57
ESTADÍSTICA APLICADA
16.
Suponga que las ventas diarias de un establecimiento (decenas de miles de soles) es una variable aleatoria “x” con función de densidad: ⎧x − 2 ⎪ 3 ;2 ≤ x < 4 ⎪ ⎪6 − x ;4 ≤ x < 6 f(x)= ⎨ ⎪ 6 ⎪0; d .om ⎪ ⎩ Si se elige aleatoriamente un día: a) Hallar la probabilidad de que las ventas del establecimiento sea mayor de 22,000 soles pero no mayor de 45,000 soles b) Hallar la media, variancia y el coeficiente de variabilidad de las ventas diarias. c) Si la utilidad neta diaria es definida por la función Y=0.2X–0.5, hallar la media y la variancia de la utilidad neta diaria. d) Hallar la función de probabilidad acumulativa de “x”.
17.
Suponga que el tiempo de vida (en miles de horas) de los tubos fluorescentes de 30 w. de cierta marca, es una variable aleatoria “x” que se distribuye según la siguiente función de densidad: ⎧k (2 x − 2);1 ≤ x < 3 ⎪ f ( x) = ⎨k (10 x − 2);3 ≤ x ≤ 6 ⎪0; d .o.m. ⎩
a) b)
c)
d)
Determine el valor de “k” y la función de probabilidad acumulativa . Utilizando la función de distribución acumulativa hallada en (a), halla la probabilidad que un fluorescente que haya durado dos mil horas, dure no más de 2500 horas adicionales. Determine el tiempo de vida esperado y el coeficiente de variabilidad de la distribución del tiempo de vida. ¿Qué nos indican? Halle el valor del percentil 70. Interprete.
58
ESTADÍSTICA APLICADA
18.
El tiempo total, medido en unidades de 100 horas, que un adolescente escucha un estéreo durante un año, es una variable aleatoria “x” cuya función de densidad de probabilidad es: ⎧ x;0 < x < 1 ⎪ f ( x) = ⎨2 − x;1 ≤ x < 2 ⎪0; d .o.m. ⎩
a) b)
c)
d) e)
Halla la función de probabilidad acumulativa. Para un año en particular, ¿cuál es la probabilidad que un adolescente utilice entre 50 a 125 horas?. Utilizar lo determinado en la pregunta anterior. Si se eligen aleatoriamente 4 adolescentes, ¿cuál es la probabilidad que por lo menos 2 escuchen su estéreo menos de 25 o más de 175 horas anuales? Halla el coeficiente de variabilidad. ¿Qué nos indica? Si y = 60x + 40, halle la variancia de y.
59
ESTADÍSTICA APLICADA
UNIDAD III DISTRIBUCIONES DE PROBABILIDADES En esta unidad estudiaremos algunas de las distribuciones de probabilidades que son usadas con mayor frecuencia en estudios estadísticos. DISTRIBUCIONES DISCRETAS PRUEBA DE BERNOULLI Una prueba o ensayo de Bernoulli es aquella en la que su espacio muestral consta sólo de 2 resultados posibles; éxito (E) y fracaso (F), donde a la probabilidad de éxito denotaremos “p” y a la probabilidad de fracaso “q” o “1 – p”, ya que p + q = 1. Si esta prueba la repetimos varias veces, la probabilidad de éxito se mantiene constante y las pruebas son independientes. EJEMPLO: Lanzamiento de una moneda balanceada. Observe que su espacio muestral consta de solo dos resultados posibles: cara(c) o sello(s). Si nos interesa el número de caras, su probabilidad de éxito será 1/2, es decir p = 1/2 y q = 1 – p = 1/2.
DISTRIBUCIÓN DE BERNOULLI Una variable aleatoria discreta “x” sigue una distribución de Bernoulli si su función de probabilidad está dada por:
f(x) = pxq1-x ; x = 0 , 1 Donde “x” es el número de éxitos. Además su media y variancia están dadas por:
E(x) = μx = p
y
2 V(x) = σ x = pq
61
ESTADÍSTICA APLICADA
Note que esta distribución es usada para una sola prueba de Bernoulli o cuando elegimos al azar un solo elemento de una población. Para dos o mas pruebas de Bernoulli o para una muestra al azar con reemplazo usamos: DISTRIBUCIÓN BINOMIAL Una variable aleatoria discreta “x” tiene una distribución binomial si su función de probabilidad está dada por: n x n− x f(x) = C x p q ; x = 0, 1, 2, 3, · · · , n
Donde “x” es el número de éxitos en “n” pruebas de bernoulli o el tamaño de una muestra aleatoria con reemplazo. Además su media y variancia están dadas por:
E(x) = μx = np
y
2 V(x) = σ x = npq
EJEMPLO Se lanza una moneda 10 veces y se desea hallar la probabilidad de obtener exactamente 4 caras. SOLUCIÓN: Sea la variable aleatoria: x = número de caras Para un solo lanzamiento la probabilidad de éxito es 1/2, esta probabilidad se mantiene constante en los otros lanzamientos, como “n” es 10, entonces: f(x) = C xn p x q n− x ; x = 0, 1, 2, 3, · · · , n 10− x 10 x f(x) = C 10 = C 10 ; x = 0, 1, 2, 3, · · · , 10 x (0.5) (0.5) x (0.5)
Nos piden: P(x = 4) = f(4) = C410 (0.5)10 = 0.205078125
62
ESTADÍSTICA APLICADA
DISTRIBUCIÓN HIPERGEOMÉTRICA Una variable aleatoria discreta “x” tiene una distribución hipergeométrica si su función de probabilidad está dada por:
C xA ·CnB− x f ( x) = ; x= 0, 1, 2, 3, · · · , n CnN Donde “x” es el número de éxitos de una muestra aleatoria de tamaño “n” sin reemplazo, tomado de una población de tamaño N. A es el número de elementos que tienen una determinada característica, definida como éxito, y B los elementos que no tienen dicha característica, definida como fracaso, donde A + B = N. Además su media y variancia están dadas por:
nA E(x) = μx = N
y
2 V(x) = σ x =
nAB N − n ( ) N 2 N −1
IMPORTANTE
n < 0.05 , entonces se N A puede aproximar a la distribución binomial, en donde p = N Si el tamaño de la población(N) es grande y
EJEMPLO Como parte de un estudio de la contaminación del aire, un inspector decide examinar la emisión de gases de seis de los 24 camiones de carga de una compañía. Si cuatro de los camiones de la compañía emiten cantidades excesivas de contaminantes, ¿cuál es la probabilidad de que ninguno de ellos sea incluido en la muestra del inspector? SOLUCIÓN: Sea x = número de camiones que contaminan N = 24, A = 4, B = 20 y n = 6
63
ESTADÍSTICA APLICADA
Entonces: f(x) =
C xA ·C nB− x C x4 ·C620− x = C nN C624
Nos piden: f(0) =
C04 ·C620 = 0.288 C624
DISTRIBUCIÓN DE POISSON Una variable aleatoria discreta “x” tiene una distribución de Poisson si su función de probabilidad está dada por:
e − μ ·μ x f ( x) = ; x = 0,1, 2, 3, x! Donde: x = número de éxitos obtenidos en un periodo de tiempo o unidad de evaluación.
μ = λt λ= t=
razón media de ocurrencia por periodo de tiempo o unidad de evaluación. periodo de tiempo o unidad de evaluación.
Además su media y variancia están dadas por:
E(x) = μx = μ
2 V(x) = σ x = μ
y
IMPORTANTE La probabilidad de éxito es pequeña y constante, los números de éxitos son independientes. Se puede aproximar la distribución binomial a la Poisson cuando el tamaño de la muestra “n” es grande y la probabilidad de éxito “p” pequeña ( p < 0.1); es decir cuando np < 5; para esto considere:
μ = np (t = n y λ = p) 64
ESTADÍSTICA APLICADA
EJEMPLO Se sabe que durante ciertas horas las llamadas telefónicas a la UTP están distribuidas al azar según un proceso de Poisson, con un promedio de 3 llamadas por minuto. Se desea hallar la probabilidad de que transcurran 4 minutos sin llamadas. SOLUCIÓN: Sea x = número de llamadas λ=3 t=4 μ = 3·4 = 12
e − μ ·μ x e −12 ·12 x Entonces: f(x) = = x! x! Nos piden: f(0) =
e −12 ·12 0 = e −12 = 0.000006144 0!
EJERCICIOS PROPUESTOS 1.
Demuestre que la media y la varianza de la distribución de Bernoulli son “p” y “pq” respectivamente.
2.
Se lanza una moneda 15 veces y se desea hallar la probabilidad de obtener: a) Exactamente 7 caras. b) Por lo menos 2 caras. c) A lo mas 14 caras.
3.
Como parte de un estudio de la contaminación del aire, un inspector decide examinar la emisión de gases de cinco de los 20 camiones de carga de una compañía. Si tres de los camiones de la compañía emiten cantidades excesivas de contaminantes, ¿cuál es la probabilidad de que dos camiones estén contaminando?
65
ESTADÍSTICA APLICADA
4.
Se sabe que durante ciertas horas las llamadas telefónicas a la UTP están distribuidas al azar según un proceso de Poisson, con un promedio de 5 llamadas por minuto. Se desea hallar la probabilidad de que en 2 minutos haya exactamente 3 llamadas y de que en 2 minutos haya 8 llamadas.
5.
Suponga que el 30% de los créditos otorgados por un banco tienen cuotas vencidas. Si se eligen al azar y con reemplazo 10 créditos, determinar: a) La probabilidad que por lo menos dos créditos tengan cuotas vencidas. b) La media y el coeficiente de variabilidad.
6.
Una urna contiene 9 bolillas verdes y 11 azules. Si se sacan al azar 5 bolillas sin reemplazo, hallar: a) La probabilidad de que una sea de color verde. b) La probabilidad de que al menos 2 sean de color verde. c) La probabilidad de que a lo mas 4 sean de color verde.
7.
Una urna contiene 8 bolillas blancas, 10 negras y 12 rojas. Se sacan al azar y sin reemplazo 7 bolillas, determinar: a) La probabilidad que a lo mas 6 sean rojas. b) La probabilidad que por lo menos 2 sean negras.
8.
Suponga que “x” tiene una distribución de Poisson si P(x = 3) = 2/3 P(x = 1). Calcular P( x > 1).
9.
En una población grande el 16 % de los miembros son zurdos. En una muestra aleatoria de tamaño 10, encontrar la probabilidad de que exactamente dos o más sean zurdos.
10.
En un estudio sobre la efectividad de un insecticida contra cierto insecto, se roció en un área grande de tierra. Posteriormente, se examinó el área en relación con los insectos vivos, seleccionando lotes cuadrados al azar y contando el número de insectos vivos por lote cuadrado. Experiencias anteriores han demostrado que el número promedio de insectos vivos por lote cuadrado después de haber rociado el insecticida es de 0.5. Si el número de insectos vivos por lote se distribuye según Poisson, hallar:
66
ESTADÍSTICA APLICADA
a) b) c)
11.
¿Cuál es la probabilidad de que un lote cuadrado contenga uno o más insectos vivos?. Si la evaluación se hizo en unos 10000 lotes, ¿cuántos lotes tendrían un insecto vivo?. ¿Cuál es la probabilidad de encontrar tres insectos en dos lotes?.
Los resultados de una encuesta a un aula de 30 alumnos indica lo siguiente : 10 alumnos aceptaron dar el examen el día sábado. 5 alumnos aceptaron dar el examen el día domingo. 7 alumnos aceptaron dar el examen en Navidad. Al resto le era indiferente cuando dar el examen. Si se elige una muestra de 10 alumnos, ¿Cuál es la probabilidad de elegir más de 6 alumnos que le sean indiferente la fecha del examen?.
12.
En una estación telefónica se recepcionan llamadas a una razón promedio de 4 llamadas cada 5 minutos. Si se elige al azar un periodo de 2 minutos, hallar la probabilidad que se recepcionen por lo menos 3 llamadas.
13.
El gerente de crédito de un banco recibe 12 solicitudes de crédito, de las cuales 3 tienen documentación incompleta, por lo que serán devueltas a los clientes. Si se eligen 5 solicitudes al azar y sin reemplazo, hallar: a) La probabilidad de devolver por lo menos 3 solicitudes de crédito. b) La media, varianza y coeficiente de variabilidad.
14.
El gerente de crédito de un banco recibe 10 solicitudes de crédito, de las cuales 4 tienen documentación incompleta, por lo que serán devueltas a los clientes. Si se eligen 5 solicitudes al azar y con reemplazo, hallar: a) La probabilidad de devolver por lo menos 3 solicitudes de crédito. b) La media, varianza y coeficiente de variabilidad.
67
ESTADÍSTICA APLICADA
15.
Un fabricante de piezas de automóviles garantiza que una caja de sus piezas contendrá como máximo 2 defectuosos. Si la caja contiene 20 piezas y la experiencia ha demostrado que ese proceso de fabricación produce 5% de piezas defectuosas. ¿Cuál es la probabilidad de que una caja satisfaga la garantía?.
16.
Un estudiante no se ha preparado absolutamente nada para un examen (cosa muy corriente en algunos estudiantes) el cual contiene 20 preguntas de verdadero, falso. Decide lanzar al aire una moneda para responder, anota verdadero si la moneda sale cara y falso si la moneda sale sello. Hallar: a) La probabilidad de que apruebe el examen, si para ello debe contestar correctamente el 70% de las preguntas. b) La probabilidad de que conteste por lo menos la mitad de las preguntas correctamente.
17.
Una empresa fabrica mesas de billar y sospecha que el 2% de su producción está defectuosa en alguna firma. Si ésta sospecha es correcta. Encuentre la probabilidad de que en una muestra de 9 mesas: a) Haya por lo menos una defectuosa. b) A lo mas 2 mesas sean defectuosas.
18.
Si el 3% de los focos fabricados por una empresa son defectuosas. Hallar la probabilidad de que en una muestra de 50 focos: a) No resulte ningún defectuoso. b) Resulte 5 defectuosos. c) Resulte a lo más 2 defectuosos. d) Resulte por lo menos 3 defectuosos.
19.
A una construcción llegan camiones de carga a una razón media de 2.8 camiones/hora. Hallar la probabilidad de tener por lo menos 3 camiones que llegan en: a) Un lapso de 30 minutos. b) Un lapso de 45 minutos. c) Un lapso de una hora. d) Un lapso de dos horas. e) Un lapso de tres horas.
68
ESTADÍSTICA APLICADA
20.
Una compañía de seguros contra accidentes de tránsito sabe que el 0.005% de la población fallece por accidente de tránsito. ¿Cuál es la probabilidad de que la compañía tenga que pagar a sus 10000 asegurados que tiene este año? a) A mas de 3 asegurados. b) A lo mas a 3 asegurados. c) Exactamente a 3. d) A por lo menos 2 asegurados.
69
ESTADÍSTICA APLICADA
DISTRIBUCIONES CONTINUAS DISTRIBUCIÓN NORMAL Una variable aleatoria continua “x” tiene una distribución normal con media μ y varianza σ2, si su función de probabilidad es: 1 x−μ
f(x) =
− ( 1 e 2 2π σ
σ
)2
; -∝ < x < ∝
GRÁFICA:
CARACTERÍSTICAS: 1. Tiene una forma acampanada. 2. Es asintótica con respecto al eje horizontal. 3. Es simétrica con respecto a su media μ.
DISTRIBUCIÓN NORMAL ESTÁNDAR Sea “x” una variable aleatoria continua que tiene una distribución normal x−μ con media μ y varianza σ2, entonces la variable aleatoria Z =
σ
tiene una distribución normal con media cero ( 0 ) y varianza uno ( 1 ) y su función de probabilidad está dada por: z2
f(z) =
1 −2 e 2π
;
70
-∝ < z < ∝
ESTADÍSTICA APLICADA
GRÁFICA:
CARACTERÍSTICAS: 1. Tiene una forma acampanada. 2. Es asintótica con respecto al eje horizontal. 3. Es simétrica con respecto a su media 0.
USO DE LA TABLA Z Haciendo uso de la tabla “z” compruebe las siguientes probabilidades: 1.
P(z < 2.37) = 0.9911
2.
P(z > 3.24) = 1 – 0.9994 = 0.0006
71
ESTADÍSTICA APLICADA
3.
P(z < - 1.53) = 0.0630
4.
P(z > - 2.08) = 1 – 0.0188 = 0.9812
5.
P(1.66 < z < 2.69) = 0.9964 – 0.9515 = 0.0449
72
ESTADÍSTICA APLICADA
6.
P(-0.45 < z < 3.25) = 0.9994 – 0.3264 = 0.6730
7.
P(-1.23 < z < 0) = 0.5 – 0.1093 = 0.3907
8.
P(-2.76 < z < -1.94) = 0.0262 – 0.0029 = 0.0233
73
ESTADÍSTICA APLICADA
EJERCICIOS RESUELTOS 1.
El costo de producción de un determinado artículo tiene una distribución normal con una media de 20 soles y una varianza de 4 soles2. Si se elige al azar un artículo, ¿cuál es la probabilidad de que su costo de producción sea a lo más de 18 soles? SOLUCIÓN: Sea x = costo de producción Donde: x ∼ N( μ = 20 ; σ2 = 4 ) por lo cual σ = 2
Nos piden: P( x ≤ 18 ) como z =
P( x ≤ 18 ) = P(
x−μ
σ
P( x ≤ 18 ) = P( z ≤ 2.
x−μ
σ ≤
∼ N(0,1)
18 − μ
σ
) , reemplazando:
18 − 20 ) = P( z ≤ −1) = 0.1587 2
Las llamadas que se registran en la UTP tienen una distribución normal con una media de 2 minutos y una variancia de 1 minuto. Hallar la probabilidad de que una llamada tenga una duración comprendida entre 3 y 4 minutos. SOLUCIÓN: Sea x = número de llamadas Donde: x ∼ N( μ = 2 ; σ2 = 1 ) por lo cual σ = 1 Nos poden:
3− μ
x−μ
4−μ
3−2 4−2
P(3 < x < 4) = P (
<
<
74
) = P(
ESTADÍSTICA APLICADA
3.
El tiempo que le dedican los estudiantes para aprender Estadística es una variable aleatoria que tiene una distribución normal con una media de 20 horas y una varianza de 9 horas2. Si se elige al azar a un estudiante, ¿cuál es la probabilidad de que haya estudiado a lo más 14 horas?. SOLUCIÓN: Sea x = tiempo de estudio o número de horas. Donde: x ∼ N( μ = 20 ; σ2 = 9 ) por lo cual σ = 3 Nos piden: P(x ≤ 14 ) = P (
4.
x−μ
σ
≤
14 − 20 ) = P( z ≤ −2) = 0.0228 3
Suponga que el costo de producción de una calculadora tiene una distribución normal con una media de 50 soles y una varianza de 16 soles2. Si se elige una calculadora al azar, hallar la probabilidad que su costo de producción sea por lo menos de 45 soles. SOLUCIÓN: Sea x = costo de producción de una calculadora Donde: x ∼ N( μ = 50 ; σ2 = 16 ) por lo cual σ = 4
Nos piden: P(x ≥ 45) = P ( 5.
x−μ
σ
≥
45 − 50 ) = P ( z ≥ −1.25) = 1 − 0.1056 = 0.8944 4
El tiempo de incapacidad por enfermedad de las secretarias de la UTP en un mes, tiene una distribución normal con una media de 120 horas y una desviación estándar de 25 horas. Si Rosita se enferma, hallar la probabilidad de que el tiempo de ausencia a la UTP esté comprendida entre 60 y 90 horas. SOLUCIÓN: Sea x = tiempo de incapacidad Donde: x ∼ N( μ = 120 ; σ = 25 )
75
ESTADÍSTICA APLICADA
Nos piden: P(60 < x < 90) = 60 − 120 x − μ 90 − 120 P( < < ) = P (−2.40 < z < −1.20) 25 25 σ P(60 < x < 90) = 0.1151 – 0.0082 = 0.1069
EJERCICIOS PROPUESTOS 1.
Use la tabla Z para calcular las siguientes probabilidades: a) P(z < -3.96) b) P(z < 1.77) c) P(z > 3.04) d) P(z > -2.88) e) P(1.43 < z < 3.69) f) P(-2.34 < z < 1.71) g) P(-3.07 < z < -1.68)
2.
Use la tabla Z para hallar el valor de “m” en: a) P(z < m) = 0.9 b) P(z > m) = 0.1 c) P(-1.24 < z < m) = 0.8 d) P(-m < z < m) = 0.99 e) P(-m < z < m) = 0.68
3.
Si “x” se distribuye en forma normal con una media de 12 y una desviación estándar de 3, calcule las siguientes probabilidades: a) P(x < 15) b) P(x > 10) c) P( 9 < x < 13) d) P(2 < x < 5) e) P( -3 < x < 10)
4.
Si “x” se distribuye en forma normal con una media de 10 y una desviación estándar de 2, calcule el valor de “m” si: a) P(x > m) = 0.95 b) P(m < x < 10) = 0.2 c) P(-m < x – 10 < m) = 0.99
5.
El costo de producción de un determinado artículo tiene una distribución normal con una media de 30 soles y una varianza de 9 soles2. Si se elige al azar un artículo, ¿cuál es la probabilidad de que su costo de producción sea por lo menos de 27 soles?
76
ESTADÍSTICA APLICADA
6.
Las llamadas que se registran en la UTP tienen una distribución normal con una media de 4 minutos y una variancia de 2 minutos. Hallar la probabilidad de que una llamada tenga una duración comprendida entre 2 y 5 minutos.
7.
El tiempo que le dedican los estudiantes para aprender Estadística es una variable aleatoria que tiene una distribución normal con una media de 25 horas y una varianza de 4 horas2. Si se elige al azar a un estudiante, ¿cuál es la probabilidad de que haya estudiado por lo menos 20 horas?.
8.
Suponga que el costo de producción de una calculadora tiene una distribución normal con una media de 40 soles y una varianza de 9 soles2. Si se elige una calculadora al azar, hallar: a) La probabilidad que su costo de producción sea por lo menos de 42 soles. b) La probabilidad que su costo de producción sea a lo más de 36 soles. c) La probabilidad que su costo de producción difiera de la media poblacional en menos de 5 soles.
9.
El tiempo de incapacidad por enfermedad de las secretarias de la UTP en un mes, tiene una distribución normal con una media de 100 horas y una desviación estándar de 16 horas. Si Yuli se enferma, hallar la probabilidad de que el tiempo de ausencia a la UTP esté comprendida entre 80 y 95 horas.
10.
Si el largo de una varilla se distribuye en forma normal con una media de 10 y una varianza de 2. Y una varilla se considera aceptable si tiene una longitud mayor de 11 pulgadas. a) Hallar el porcentaje de varillas aceptables. b) ¿Cuál es la probabilidad de que si se seleccionan al azar 4 varillas, 3 de ellas presenten una longitud aceptable?
11.
El número de horas que un estudiante necesita para aprender un tema de estadística es una variable aleatoria que tiene una distribución normal. Si el 84.13% de los estudiantes emplean mas de 3 horas y sólo el 2.28% mas de 9 horas. Calcule usted la media y la varianza.
77
ESTADÍSTICA APLICADA
12.
Una fábrica se dedica al llenado de botellas de un agua de mesa. La capacidad de las botellas se distribuyen en forma normal con una media de un litro y una desviación estándar de 1.1litros. Se rechazan las botellas con capacidad inferior a 0.99litros o superior a 1.1litros. La fábrica realiza una inspección consistente en elegir 20 botellas al azar y si encuentra más de 2 botellas rechazables, despiden al jefe de producción. ¿Qué probabilidad tiene el jefe de producción de perder su puesto de trabajo?
78
ESTADÍSTICA APLICADA
UNIDAD IV DISTRIBUCIONES MUESTRALES La estadística trabaja con datos que fueron obtenidas de muestras aleatorias y de éstas obtenemos valores estadísticos o estimadores de las cuales necesitamos saber cuál es su comportamiento probabilístico para poder realizar un análisis estadístico y a su vez nos permitirá establecer los niveles de confiabilidad y de riesgo.
DISTRIBUCIÓN MUESTRAL Es una función de probabilidad asociada a un estimador, que se genera con todas las muestras aleatorias de tamaño “n” que se puedan obtener de una población. Por ejemplo x , x1 − x 2 y S2 son estimadores o valores estadísticos, mas cada una de ellas tiene una determinada distribución de probabilidad particular.
DISTRIBUCIÓN DE PROMEDIOS MUESTRALES Es una función de probabilidad que se forma con los promedios muestrales que se obtienen a partir de todas las muestras aleatorias de tamaño “n” que se puedan extraer de una población. TEOREMA Si de una población de tamaño “N” que tiene una media μx y varianza σ2x se extraen muestras aleatorias de tamaño “n” y en cada muestra n
calculamos su promedio x =
∑x i =1
i
, entonces la media y varianza de la
n
variable x son: a)
Si las muestras son con reemplazo o la población es infinita:
μx = μx
σ = 2 x
y
79
σ x2 n
ESTADÍSTICA APLICADA
b)
Si las muestras son sin reemplazo:
μx = μx
y
σ x2 =
σ x2 N − n n
(
N −1
)
OBSERVACIÓN: σ2 n < 0.05 entonces σ x2 = x con o sin reemplazo. Si N n
DISTRIBUCIÓN DE PROMEDIOS MUESTRAES SI LA VARIABLE EN ESTUDIO SE DISTRIBUYE EN FORMA NORMAL Sea “x” una variable aleatoria que tiene una distribución normal con media μx y varianza σ2x. Si de esta distribución se extraen muestras aleatorias de tamaño “n” y en cada muestra calculamos su promedio n
x=
∑x i =1
i
, entonces la variable x se distribuye en forma normal con una n media μ x y varianza σ x2 .
Entonces:
Z=
x − μx
σx
∼ N(0,1).
TEOREMA DEL LÍMITE CENTRAL Sea “x” una variable aleatoria que tiene una distribución con media μx y varianza σ2x. Si de esta distribución se extraen muestras aleatorias de n
tamaño “n” y en cada muestra calculamos su promedio x =
∑x i =1
i
, n entonces si el tamaño de muestra es grande ( n ≥ 30 ), la variable aleatoria x se distribuye en forma aproximadamente normal con una media μ x y varianza σ x2 .
80
ESTADÍSTICA APLICADA
Entonces:
Z=
x − μx
σx
∼ aproximadamente N(0,1)
DISTRIBUCIÓN DE DIFERENCIAS DE PROMEDIOS MUESTRALES TEOREMA Si de 2 poblaciones de tamaños N1 y N2 normales e independientes que se distribuyen con medias μ1 y μ2 , y varianzas σ21 y σ22 , se extraen muestras aleatorias de tamaños n1 y n2 , respectivamente; entonces, la variable aleatoria x1 − x 2 tiene una distribución normal con media μ x1 − x2 y varianza σ x21 − x2 . a)
Si las muestras son con reemplazo:
μ x − x = μ1 - μ2 1
b)
σ
y
2
2 x1 − x2
σ 12
=
n1
+
σ 22 n2
Si las muestras son sin reemplazo:
μ x − x = μ1 - μ2 1
σ x2 − x = 1
2
σ 12 N1 − n1 n1
y
2
(
N1 − 1
)+
σ 22 N 2 − n2 n2
(
N2 −1
)
Entonces: Z =
x1 − x 2 − μ x1 − x 2
σ x −x 1
∼ N(0,1)
2
OBSERVACIÓN: Si las poblaciones no tienen distribuciones normales, entonces se puede usar el teorema del límite central siempre y cuando n1 y n2 sean mayores o iguales que 30.
81
ESTADÍSTICA APLICADA
DISTRIBUCIÓN DE PROPORCIONES MUESTRALES Si de una población distribuida Binomialmente con probabilidad de éxito p, se extrae una muestra aleatoria de tamaño n, entonces se puede mostrar que la media de X: número de éxitos en la muestra, es μ = np y que su varianza es σ2 = npq. En consecuencia la proporción muestral tiene media pq . Entonces: por el Teorema del Limite Central, cuando n p, y varianza n es grande se tiene:
z=
X − np pˆ − p = npq pq n
Fórmulas de aproximación Normal a la Binomial. Si X es una Binomial con parámetros n y p, entonces:
i)
ii)
iii)
P( X = k ) ≅ P (k − .5 < X < k + .5) = P (
k + .5 − np k − .5 − np
P(a < X < b ) = P(a + .5 < X < b − .5) = P(
b − .5 − np a + .5 − np
P(a ≤ X ≤ b ) = P(a − .5 < X < b + .5) = P(
b + .5 − np a − .5 − np
EJERCICIOS RESUELTOS 1.
Suponga que una empresa produce un determinado artículo de acuerdo a un proceso con una media de 950 gramos y una varianza de 1600 gramos2. Si se eligen al azar y con reemplazo 36 artículos, hallar la probabilidad que el promedio muestral sea por lo menos 965 gramos. SOLUCIÓN: Sea la variable aleatoria: x = peso de los artículos (gramos) x ∼ ?(μx = 950 , σ2x = 1600)
y n = 36 82
ESTADÍSTICA APLICADA
Entonces, como el muestreo es con reemplazo: σ2 1600 1600 40 = μ x = μ x = 950 y σ x2 = x = ⇒ σx = n 36 36 6 Nos piden: P ( x ≥ 965) Como n ≥ 30 , aplicamos el Teorema del Límite Central. Esto es: P ( x ≥ 965) = P (
x − μx
σx
≥
965 − μ x
σx
) , reemplazando:
965 − 950 ) = P( z ≥ 2.25) , haciendo uso de la 40 6 tabla “z”: P ( x ≥ 965) = 1 - P(z ≤ 2.25) = 1 – 0.9878 = 0.0122 P ( x ≥ 965) = P ( z ≥
2.
Las estaturas de 1000 estudiantes tienen una media de 170 centímetros y una varianza de 16 centímetros2. Si se eligen al azar y sin reemplazo una muestra de tamaño 32, hallar la probabilidad que el promedio muestral sea a lo mas 172 centímetros. SOLUCIÓN: Sea la variable aleatoria: x = estatura de los estudiantes (centímetros) x ∼ ?(μx = 170 , σ2x = 16) y n = 32 Entonces, como el muestreo es sin reemplazo:
μ x = μ x = 170
y σ = 2 x
σ x2 N − n n
(
N −1
)=
16 1000 − 32 ( ) = 0.484484484 32 1000 − 1
⇒ σ x = 0.696049196 Nos piden: P( x ≤ 172) Como n ≥ 30 aplicamos el Teorema del Límite Central.
83
ESTADÍSTICA APLICADA
Esto es: P( x ≤ 172) = P(
x − μx
σx
P( x ≤ 172) = P ( z ≤
3.
≤
172 − μ x
σx
) reemplazando:
172 − 170 ) = P( z ≤ 2.87) = 0.9979 (ver tabla z) 0.696049196
El tiempo de duración de un foco se distribuye en forma normal con una media de 10000 horas y una varianza de 100 horas2. Si se selecciona una muestra al azar con reemplazo de tamaño 16, hallar la probabilidad que su promedio esté comprendido entre 9980 y 10010 horas. SOLUCIÓN: Sea la variable aleatoria: x = tiempo de duración de los focos (horas) x ∼ N(μx = 10000, σ2x = 100)
y n = 16
Entonces, como el muestreo es con reemplazo:
μ x = μ x = 10000
σx =
y σ = 2 x
σ x2 n
=
10000 , entonces: 16
10000 100 = = 25 16 4
Nos piden: P(9980 < x < 1010) estandarizando: P(9980 < x < 1010) = P (
9980 − 10000 x − μ x 10010 − 10000 < < ) σx 25 25
P(9980 < x < 1010) = P(-0.80 < z < 0.40) = 0.6554 – 0.2119 = 0.4435
84
ESTADÍSTICA APLICADA
4.
Suponga que dos máquinas A y B producen bolsas de azúcar de iguales características. La máquina A produce bolsas con una media de 970 gramos y una varianza de 256 gramos2, y la máquina B produce bolsas con una media 980 gramos y una varianza 144 gramos2. Si se eligen al azar y con reemplazo 36 bolsas producidas por A y 64 bolsas producidas por B, hallar la probabilidad que la diferencia de los promedios muestrales sea a lo más 8 gramos. SOLUCIÓN: Sean las variables aleatorias: xA = peso de las bolsas producidas por la máquina A (gr.) xB = peso de las bolsas producidas por la máquina B (gramos) xA ∼ ?(μA = 970 , σ2A = 256) xB ∼ ?(μB = 980 , σ2B = 144)
y nA = 36 y nB = 64
Entonces, como el muestreo es con reemplazo: μ x A − xB = μA - μB = 970 – 980 = -10 y
σ A2
σ B2
σ x2
=
σx
= 3.059593
A1 − x B
A − xB
nA
+
nB
=
256 144 + = 9.361111 , entonces: 36 64
Nos piden: P = P( x A − x B ≤ 8) = P(−8 ≤ x A − x B ≤ 8) Como nA ≥ 30 y nB ≥ 30, aplicamos el Teorema del Límite Central. Esto es: P = P(
− 8 − (−10) 8 − (−10) ≤ ( x A − x B − μ x A − xB ) / σ x A − xB ≤ ) 3.059593 3.059593
P = P(0.65 ≤ z ≤ 5.88) = 1 – 0.7422 = 0.2578 5.
Según reportes del centro nacional para estadísticas de salud, alrededor del 20 % de la población masculina adulta de los Estados Unidos es obesa. Se elige al azar una muestra de 150 hombres adultos en los Estados Unidos. ¿Cuál es la probabilidad de que:
85
ESTADÍSTICA APLICADA
a) Haya a lo más 25 personas obesas? b) Haya más de 22 pero menos de 35 obesos? c) Haya por lo menos un 25% de obesos en la muestra? SOLUCIÓN: Sea X el número de personas obesas en la muestra. Usando aproximación normal a la Binomial se tiene que: a)
25.5 − 30 ⎞ ⎛ P( X ≤ 25) ≅ P( X < 25.5) = P⎜ Z < ⎟ = P(Z < −0.91) = 0.1814 24 ⎠ ⎝
b)
34.5 − 30 ⎞ ⎛ 22.5 − 30 P(22 < X < 35) ≅ P(22.5 < x < 34.5) = P⎜
c)
P( pˆ ≥ .25) = P( X ≥ 37.5) = P( Z >
37.5 − 30 ) 24
= P(Z>1.53) = 1-P(Z<1.53) = 1 - 0.9730 = 0.0630. EJERCICIOS PROPUESTOS 1.
Suponga que una empresa produce un determinado artículo de acuerdo a un proceso con una media de 500 gramos y una varianza de 49 gramos2. Si se eligen al azar y con reemplazo 50 artículos, hallar la probabilidad que el promedio muestral sea a lo mas 505 gramos.
2.
Las estaturas de 1200 estudiantes tienen una media de 168 centímetros y una varianza de 20 centímetros2. Si se eligen al azar y sin reemplazo una muestra de tamaño 40, hallar la probabilidad que el promedio muestral esté comprendido entre 166 y 175 centímetros.
3.
El tiempo de duración de un foco se distribuye en forma normal con una media de 100000 horas y una varianza de 80 horas2. Si se selecciona una muestra al azar con reemplazo de tamaño 25, hallar la probabilidad que su promedio esté comprendido entre 99985 y 100025 horas.
86
ESTADÍSTICA APLICADA
4.
Suponga que dos máquinas A y B producen bolsas de azúcar de iguales características. La máquina A produce bolsas con una media de 980 gramos y una varianza de 200 gramos2, y la máquina B produce bolsas con una media 990 gramos y una varianza 100 gramos2. Si se eligen al azar y con reemplazo 40 bolsas producidas por A y 50 bolsas producidas por B, hallar la probabilidad que la diferencia de los promedios muestrales sea por lo menos 6 gramos.
5.
Suponga que una máquina ha sido programada para producir artículos cuyos pesos tienen una distribución con una media de 250 gramos y una varianza de 625 gramos2. Si se eligen al azar 49 artículos, hallar la probabilidad que su promedio sea por lo menos 255 gramos y la probabilidad que su promedio esté comprendido entre 243 y 256 gramos, considerando: a) Una muestra con reemplazo. b) Una muestra sin reemplazo tomada de un lote de 400 artículos.
6.
En un estudio para comparar los pesos promedios de niños y niñas de una escuela primaria, se tomó una muestra aleatoria de 40 niños y 45 niñas. Se sabe que los pesos tanto de niños como de niñas tienen una distribución normal con medias de 50 y 46 kilos, y con varianzas de 70 y 75 kilos2 respectivamente, hallar la probabilidad de que el promedio de los pesos de los niños sea al menos 5 kilos más grande que el peso de las niñas.
7.
De dos máquinas que embolsan café automáticamente, se han extraído 64 bolsas al azar de cada máquina. Ambas máquinas embolsan con idénticas medias y varianzas de 6 y 10 respectivamente, hallar la probabilidad que ambos promedios muestrales difieran en por lo menos 2.
8.
Suponga que la UTP tiene 200 profesores, 50 de los cuales tienen el grado de doctor. Dos muestras con reemplazo de tamaño 32 son elegidas al azar y en forma independiente, y se registran a los que tienen doctorado, hallar la probabilidad que las dos muestras difieran en por lo menos 6 doctorados.
9.
Suponga que en un distrito de Lima hay aproximadamente 8000 adultos, donde el 20% compra usualmente una revista A. Si se elige una muestra aleatoria de tamaño 225, hallar la probabilidad
87
ESTADÍSTICA APLICADA
que la proporción muestral de personas que compran la revista A, sea mayor de 0.17. 10.
Suponga que en un establecimiento la proporción de clientes que opinan que la atención ofrecida es buena es π. Determinar el mínimo tamaño de la muestra requerida, si se desea que: a) La proporción muestral difiera de la proporción poblacional en no mas de una cantidad “d”, con una probabilidad “1 - α “. b) La desviación estándar de la proporción muestral sea no mayor a “d”. c) El coeficiente de variabilidad de “p” sea no mayor a “d”.
[ ]
DISTRIBUCIÓN CHI – CUADRADO χ (2m )
Una variable aleatoria “x” tiene una distribución Chi – Cuadrado con “m” grados de libertad, si su función de probabilidad o de densidad es:
f(x) = f ( x) =
1 m 2
x
m −1 2
e
−x 2
,x>0
2 Γ( ) m 2
Donde: Γ(x) es la función gamma, definida por: ∞
Γ( x) = ∫ y x −1e − y dy 0
GRÁFICA:
, x>0
f(x)
χ2(m)
CARACTERÍSTICAS: 1. Su variable toma sólo valores positivos. 2. Presenta un sesgo o asimetría a la derecha. 3. Es asintótica con respecto al eje horizontal en su parte positiva.
88
ESTADÍSTICA APLICADA
4. 5.
A medida que los grados de libertad aumentan (m>30), la distribución presenta menor sesgo. Para “m” grados de libertad su media y varianza son “m” y “2m” respectivamente.
TEOREMA Sea “x” una variable aleatoria que tiene una distribución normal con media μx y varianza σ x2 , entonces se cumple que: (n − 1) S 2
σ
2 x
~ χ (2n −1)
TABLA CHI – CUADRADO Compruebe las siguientes probabilidades: 1.
P( χ (29) < 19.023) = 0.975
2.
P( χ (210) > 7.267) = 1 − 0.30 = 0.70
89
ESTADÍSTICA APLICADA
3.
P(14.578 < χ (220) < 28.412) = 0.9 − 0.2 = 0.7
4.
P(4.168 < χ (29 ) < 10.656) = 0.7 − 0.1 = 0.6
5.
P(29.336 < χ (230) < 40.256) = 0.9 − 0.5 = 0.4
90
ESTADÍSTICA APLICADA
[ ]
DISTRIBUCIÓN “t” DE STUDENT t (m )
Una variable aleatoria “x” tiene una distribución “t” de Student con “m” grados de libertad, si su función de probabilidad es:
f (x) =
m +1 ) 1 2 2 m x π m Γ ( ) (1 + ) 2 m
Γ(
; -∝ < x < ∝ m +1 2
GRÁFICA:
CARACTERÍSTICAS: 1. Tiene una forma ligeramente acampanada. 2. Es simétrica con respecto a su media cero. 3. Es asintótica con respecto al eje “x”. 4. Se aproxima cada vez mas a la distribución normal estándar, a medida que los grados de libertad sean mayores de 30. m 5. Para “m” grados de libertad su media y varianza son “0” y “ ” m−2 respectivamente. TEOREMA Sea “x” una variable aleatoria que tiene una distribución normal con media μx y varianza σ2x. Si de la distribución de “x” se extrae una x − μx muestra aleatoria de tamaño “n”; entonces la variable aleatoria t = Sx tiene una distribución “t” de Student con (n – 1) grados de libertad, donde: a)
Si la muestra es con reemplazo:
b)
Si la muestra es sin reemplazo:
91
S x2 S = n 2 x
S x2 =
S x2 N − n ( ) n N −1
ESTADÍSTICA APLICADA
TEOREMA Sean “x1” y “x2” dos variables aleatorias independientes con distribuciones normales de medias μ1 y μ2 y varianza común σ2. Si de estas distribuciones se extraen muestras aleatorias de tamaños “n1” y “n2” , respectivamente; entonces la variable aleatoria ( x 1 − x 2 ) − ( μ1 − μ 2 ) t= tiene una distribución “t” de Student con (n - 2) S x1 − x 2 grados de libertad, donde: a)
Si el muestreo es con reemplazo: ⎛1 1 ⎞ S x21 − x 2 = S p2 ⎜⎜ + ⎟⎟ ⎝ n1 n 2 ⎠
b)
Si el muestreo es sin reemplazo:
⎛ 1 ⎛N −n ⎞ 1 S x21 − x 2 = S p2 ⎜⎜ ⎜⎜ 1 1 ⎟⎟ + ⎝ n1 ⎝ N 1 − 1 ⎠ n2
⎛ N 2 − n2 ⎜⎜ ⎝ N2 −1
⎞⎞ ⎟⎟ ⎟ ⎟ ⎠⎠
y
(n1 − 1) S12 + (n2 − 1) S 22 n1 + n2 − 2 es la varianza ponderada, que es el estimador de la varianza común σ2. S p2 =
TABLA “t” DE STUDENT Compruebe las siguientes probabilidades:
1.
P( t(8) < 2.306) = 0.975
92
ESTADÍSTICA APLICADA
2.
P( t(20) > -1.325) = 1 – 0.1 = 0.9
3.
P( -1.310 < t(30) < 2.457 ) = 0.99 – 0.10 = 0.89
4.
P( -0.527 < t(75) < 0.846) = 0.8 – 0.3 = 0.5
93
ESTADÍSTICA APLICADA
5.
P(0.849 < t(50) < 1.299) = 0.9 – 0.8 = 0.1
[
DISTRIBUCIÓN F DE SNEDECOR F( n ,m )
]
Una variable aleatoria “x” tiene una distribución “F” con “n” y “m” grados de libertad, si su función de probabilidad es: n
f ( x) =
n
Γ( n +2m )( mn ) 2 x 2
−1
Γ( n2 )Γ( m2 )(1 + nxm )
n+m 2
; si: x > 0
GRÁFICA: f(x)
F(n,m)
CARACTERÍSTICAS: 1. Su variable está definida sólo para valores positivos. 2. Presenta un sesgo o asimetría positiva o a la derecha. 3. Es asintótica en su parte positiva con respecto al eje positivo. 4. A medida que los grados de libertad aumentan ( n > 30 , m > 30 ) la distribución presenta menor sesgo, es decir la distribución se hace mas simétrica.
94
ESTADÍSTICA APLICADA
5.
Para “n y m” grados de libertad su media y varianza son:
m para m > 2 m−2
y
2m 2 (n + m − 2) n(m − 2) 2 (m − 4)
para m > 4
PROPIEDAD RECÍPROCA Si “x” es una variable aleatoria que tiene una distribución “F” con “ n y m” grados de libertad, se cumple que:
F (1 − α , n, m) =
1 F (α , m, n)
TEOREMA Sean “x1” y “x2” dos variables aleatorias independientes distribuidas en forma normal con medias: μ1 y μ2 y varianzas: σ 12 y σ 22 respectivamente. Si de ambas poblaciones “x1” y “x2” se extraen muestras aleatorias de tamaños “n1” y “n2” ; entonces, la variable:
S12 σ 22 tiene una distribución F con “n1 – 1” y “n2 – 1” grados de S 22 σ 12 libertad F=
TABLA “F” DE SNEDECOR Compruebe las siguientes probabilidades: 1.
P[F(6 , 13) < 2.92] = 0.95
95
ESTADÍSTICA APLICADA
2.
P[F(14, 10) > 4.60 ] = 1 – 0.99= 0.01
3.
P[F(27, 4) <13.88 ] = 0.99
4.
P[F(9, 5) > 4.77 ] = 1 – 0.95 = 0.05
96
ESTADÍSTICA APLICADA
5.
P[F(32, 15) < 3.19 ] = 0.99
EJERCICIOS RESUELTOS 1.
Suponga que el tiempo de atención por cliente en una tienda tiene una distribución normal con una desviación estándar de 4 minutos. Si se elige una muestra aleatoria de 25 clientes: a) Hallar la probabilidad que su variancia sea menor de 12 minutos2. b) Hallar la probabilidad que su variancia sea mayor de 10 minutos2. c) Hallar el valor de “m” tal que P( S2 < m ) = 0.7 SOLUCIÓN: Sea x = tiempo de atención por cliente(minutos) x ∼ N(μx = ?, σx = 4) a) P ( S 2 < 12) = P (
y n = 25
(n − 1) S 2
σ
2
= P ( χ (224 ) <
b) P ( S 2 > 10) = P(
σ
= P ( χ (224 ) >
(n − 1) x12
σ2
) , reemplazando:
24 x12 ) = P( χ (224 ) < 18) = 0.1970 16
(n − 1) S 2 2
<
>
(n − 1) x10
σ2
)
24 x10 ) = P( χ (224) > 15) = 0.9208 16 97
ESTADÍSTICA APLICADA
c) P(S2 < m) = 0.7
P(
(n − 1) S 2
σ
2
P( χ (224 ) <
<
(n − 1)m
σ2
) = 0.7
24m ) = 0.7 16
P ( χ (224 ) < 1.5m) = 0.7 de la tabla: 1.5m = 27.096, entonces:
m = 18.064 2.
Suponga que los pesos de las calculadoras producidas por una empresa tienen una distribución normal con una variancia de 16 gramos2. Si se elige una muestra aleatoria de 20 calculadoras, hallar: a) La probabilidad que su desviación estándar sea por lo menos de 3 gramos. b) La probabilidad que la desviación estándar sea a lo mas de 5 gramos. c) El valor de m tal que P ( S2 < m ) = 0.8 SOLUCIÓN: Sea x = peso de una calculadora(gramos) x ∼ N(μx = ?, σ2x = 16)
y n = 20
a) P ( S ≥ 3) = P( S 2 ≥ 9) = P( = P( χ (219 ) ≥
(n − 1) S 2
σ
2
≥
(n − 1) x9
σ2
) , reemplazando:
19 x9 ) = P ( χ (219 ) ≥ 10.6875) = 0.9339 16
b) P ( S ≤ 5) = P( S 2 ≤ 25) = P( = P ( χ (219 ) ≤
(n − 1) S 2
σ
2
≤
(n − 1) x 25
σ2
)
19 x 25 ) = P( χ (219 ) ≤ 29.6875) = 0.9441 16
98
ESTADÍSTICA APLICADA
c) P(S2 < m) = 0.8
P(
(n − 1) S 2
σ
2
P ( χ (219 ) <
<
(n − 1)m
σ2
) = 0.8
19m ) = 0.8 16
P ( χ (219 ) < 1.1875m) = 0.8 de la tabla: 1.1875m = 23.9, entonces:
m = 20.1263
3.
Suponga que los pesos de los alumnos de la UTP tienen una distribución normal con una media de 70 kg. y una variancia de 10 kg2. Si se eligen al azar 50 alumnos, hallar: a) b)
la probabilidad que su variancia esté comprendida entre 8 y 12 kg2. el valor de “m” tal que: P( s2 > m) = 0.3
SOLUCIÓN: Sea x = peso de un alumno de la UTP(kilogramos) x ∼ N(μx = 70, σ2x = 10) y n = 50 (n − 1) x8 (n − 1) S 2 (n − 1) x12 a) P (8 < S 2 < 12) = P( ) < < 2 2 2
σ
σ
σ
reemplazando:
P(
49 x8 < χ (249 ) 10
= 49 x12 < ) = P(39.2 < χ (249 ) < 58.8) = 0.8406 − 0.1596 = 0.681 10
b) P(S2 > m) = 0.3 (n − 1) S 2 (n − 1)m P( > ) = 0.3 2 2
σ
P( χ (249 ) P ( χ (249 )
σ
49m > ) = 0.3 10 > 4.9m) = 0.3 de la tabla: 4.9m = 53.67, entonces:
m = 10.9531
99
ESTADÍSTICA APLICADA
4.
Suponga que para analizar el tiempo de atención por cliente en un establecimiento con 1000 clientes, se tomó una muestra aleatoria sin reemplazo de 24 atenciones con la cual se obtiene un tiempo promedio de 10 minutos y una variancia de 2 minutos2. Si se toma otra muestra sin reemplazo de tamaño 24 hallar la probabilidad que el promedio muestral difiera de su media poblacional en menos de un minuto. SOLUCIÓN: Sea x = tiempo de atención (minutos) N = 1000, n = 24, x = 10 y S2 = 2 P ( x − μ < 1) = P (−1 < x − μ < 1)
−1 x − μ 1 < < ) Sx Sx Sx Como el muestreo es sin reemplazo, entonces: = P(
S x2 =
S x2 N − n ( ) , reemplazando: n N −1
S x2 =
2 1000 − 24 ( ) = 0.081414748 , entonces: S x = 0.285333 , luego: 24 1000 − 1
P( x − μ < 1) = P(
1 −1 < t ( 23) < ) 0.285333 0.285333
= P(−3.5047 < t ( 23) < 3.5047) = 0.99905 − 0.00095 = 0.9981 5.
Suponga que una maquina produce diariamente 5000 artículos, y que para analizar los pesos de tales artículos se eligieron al azar y sin reemplazo 25 unidades producidas en un día, obteniéndose un peso promedio de 450 grs y una variancia de 20 grs2 . Si se toma otra muestra sin reemplazo de tamaño 25, hallar la probabilidad que el promedio muestral difiera de su media poblacional en mas de 6 grs. SOLUCIÓN: Sea x = peso de los artículos (gramos) N = 5000, n = 25, x = 450 y S2 = 20
100
ESTADÍSTICA APLICADA
P ( x − μ > 6) = 1 − P ( x − μ ≤ 6)
= 1 − P ( − 6 ≤ x − μ ≤ 6) = 1 − P(
−6 x−μ 6 ≤ ≤ ) Sx Sx Sx
Como el muestreo es sin reemplazo, entonces:
S x2 =
S x2 N − n ( ) , reemplazando: n N −1
S x2 =
20 5000 − 25 ( ) = 0.796159231 , entonces: S x = 0.89228 , luego: 25 5000 − 1
P ( x − μ > 6) = 1 − P (
−6 6 < t ( 24 ) < ) 0.89228 0.89228
= 1 − P(−6.7243 < t ( 24 ) < 6.7243) = 0.00000059
6.
Suponga que dos máquinas A y B producen un mismo artículo y que los tiempos de producción (minutos) tienen distribuciones normales con medias: μA = 1430, μB =1410 y variancias 2 2 σ A = 625 , σ B = 900 , respectivamente. Si se eligen al azar 31 artículos producidos por la máquina A y 25 artículos producidos por la máquina B, hallar la probabilidad que la variancia de B sea a lo mas 2.7216 veces la variancia de A. SOLUCIÓN: Sean xA = tiempo de producción de la máquina A XB = tiempo de producción de la máquina B XA ∼ N(μx = 1430, σ2x = 625) XB ∼ N(μx = 1410, σ2x = 900)
y nA = 31 y nB = 25
Entonces:
P ( S B2 < 2.7216 S A2 ) = P(
S B2 < 2.7216) S A2 101
ESTADÍSTICA APLICADA
Como F =
F=
S12 σ 22 , entonces: S 22 σ 12
S A2 σ B2 900S A2 S B2 σ A2 625S B2 = ~F y = = ~F(24,30) F (30,24) S B2 σ A2 625S B2 S A2 σ B2 900S A2
P ( S B2 < 2.7216 S A2 ) = P(
625S B2 625 x 2.7216 S B2 < 2 . 7216 ) = ( < ) P 900 900S A2 S A2
= P ( F( 24,30 ) < 1.89) = 0.95
EJERCICIOS PROPUESTOS 1.
Hallar las siguientes probabilidades, para 30 grados de libertad: a) P ( χ2 > 18.493 ) b) P ( 20.599 < χ2 < 43.773 )
2.
Hallar las siguientes probabilidades, para 12 grados de libertad: a) P ( χ2 > 9.034 ) b) P ( 7.807 < χ2 < 18.549 )
3.
Calcular: a) P( χ2(10) < 7.267 ) b) P( χ2(29) > 42.557 ) c) P( 36.755 < χ2(42) < 54.090 )
4.
Hallar las siguientes probabilidades, para 11 grados de libertad : a) P ( χ2 > 19.675 ) b) P ( 3.816 < χ2 < 21.92 ) c) m si P ( m < χ2 < 12.899 ) = 0.25
5.
Hallar “m” tal que : P( χ (229 ) > m ) = 0.8
6.
Suponga que el tiempo de atención por cliente en una tienda tiene una distribución normal con una desviación estándar de 2 minutos. Si se elige una muestra aleatoria de 21 clientes: a) Hallar la probabilidad que su variancia sea menor de 5 minutos2.
102
ESTADÍSTICA APLICADA
b) d)
Hallar la probabilidad que su variancia sea mayor de 2 minutos2. Hallar el valor de m tal que P( S2 < m ) = 0.6
7.
Suponga que los pesos de los alumnos de la UTP tienen una distribución normal con una media de 70 kg. Y una variancia de 16 kg2. Si se eligen al azar 25 alumnos, hallar: a) la probabilidad que su variancia este comprendida entre 12 y 20 kg2. b) el valor de “k” tal que : P( s2 > k) = 0.4
8.
Suponga que el tiempo de duración de los tubos fluorescentes tienen una distribución normal con una media de veinte mil horas y una variancia de 5.76 horas2 . Si se elige al azar una muestra de 36 fluorescentes, hallar: a) La probabilidad que su variancia sea por lo menos de 3.69 horas2. b) La probabilidad que su variancia esté comprendida entre 3 y 7 horas2. c) La probabilidad que su desviación estándar sea a lo mas 4.53 horas. d) El valor de “k” tal que : P( s2 < k ) = 0.4
9.
Si t es una variable aleatoria que tiene una distribución “t” de Student con 29 g. l. , hallar : a) P ( t > -1.699 ) b) P ( -2.045 < t < 1.311 )
10.
Hallar las siguientes probabilidades, para 19 grados de libertad: a) P( -1.328 < t < 2.093) b) P( 0.861 < t < 1.729 )
11.
Si: n = 15
a) Hallar P( -2.145 < t < 2) b) Hallar k si P( k < t < 1.761 ) = 0.875
12.
Si: n = 15
a) Hallar P( -2.145 < t < 2) b) Hallar k si P( k < t < 1.761 ) = 0.875
13.
Si: n = 49, calcular “m” tal que : P(t > m ) = 0.8
103
ESTADÍSTICA APLICADA
14.
Si “t” es una variable aleatoria que tiene una distribución “t” de Student con 29 g.l. , hallar : a) P ( t > -1.699 ) b) P ( -2.045 < t < 1.311 ) c) m si P ( m < t < 2.045 ) = 0.875
15.
Suponga que una máquina produce diariamente 200 artículos, y que para analizar los pesos de tales artículos se eligieron al azar 36 unidades producidas en un día, obteniéndose un peso promedio de 120 gramos y una desviación estándar de 5 gr. Si se toma otra muestra de tamaño 36, hallar la probabilidad que el promedio muestral supere a su media poblacional en menos de 3 gramos.
16.
Suponga que una máquina produce diariamente 500 artículos, y que para analizar los pesos de tales artículos se eligieron al azar y sin reemplazo 16 unidades producidas en un día , obteniéndose un peso promedio de 250 gr. y una variancia de 12 gr2. Si se toma otra muestra, sin reemplazo, de tamaño 16 , hallar la probabilidad que el promedio muestral supere a su media poblacional en menos de 3 gramos.
17.
Suponga que una máquina produce diariamente 1000 artículos, y que para analizar los pesos de tales artículos se eligieron al azar y sin reemplazo 25 unidades producidas en un día, obteniéndose un peso promedio de 450 grs y una variancia de 200 grs2. Si se toma otra muestra, sin reemplazo, de tamaño 25, hallar la probabilidad que el promedio muestral supere a su media poblacional en menos de 6 grs.
18.
Calcular: a) P(F(31,4) < 13.83) b) P(F(28,14) < 2.32) c) P(F(52,8) < 5.06) d) P(F(26,20) < 2.07) e) P(F(35,25) < 1.89)
19.
Suponga que dos máquinas A y B producen un mismo artículo y que los tiempos de producción (minutos) tienen distribuciones normales con medias μA = 1430, μB =1410 y variancias σ A2 = 625 , σ B2 = 900 , respectivamente. Si se eligen al azar 31 artículos producidos por la máquina A y 25 artículos producidos por la máquina B, hallar:
104
ESTADÍSTICA APLICADA
a) P ( S B2 < 2.7216 S A2 ) b) P (2.7216 <
S B2 < 3.5568) S A2
S B2 c) “m” tal que: P(m < 2 < 3.5568) = 0.98 SA 20.
Suponga que dos máquinas A y B producen un mismo artículo y que los pesos por artículo (gramos) tienen distribuciones normales con medias: μA = 550, μB = 565 y variancias σ A2 = 144 , σ B2 = 256 , respectivamente. Si se eligen al azar 21 artículos producidos por la máquina A y 31 artículos producidos por la máquina B, hallar: a) P ( S B2 < 3.6267 S A2 )
S A2 b) P (1.08563 < 2 < 1.4344) SB S B2 c) “m” tal que: P(m < 2 < 4.9245) = 0.94 SA
105
ESTADÍSTICA APLICADA
UNIDAD V INFERENCIA ESTADÍSTICA La inferencia estadística es la parte de la estadística que se ocupa del análisis, interpretación de resultados y de la generalización de los resultados para toda una población en base a datos tomados de una muestra aleatoria extraída de esa población. La inferencia estadística se divide en dos partes, la estimación de parámetros y las pruebas de hipótesis. ESTIMACIÓN DE PARAMETROS Son las aproximaciones de los parámetros a partir de datos captados en muestras aleatorias y de acuerdo a ciertos procedimientos establecidos por indicadores que son llamados “estimadores, valores estadísticos o estadígrafos” ESTIMADOR O VALOR ESTADÍSTICO O ESTADIGRAFO Un estimador es cualquier función de las observaciones de una muestra aleatoria, cuya finalidad es obtener una estimación o aproximación del valor de un parámetro. Por ejemplo el promedio muestral x estima a su parámetro poblacional μ y la variancia muestral S2 estima a su parámetro poblacional σ2. Es decir x ∼ μ y S2 ∼ σ2. PROPIEDADES DE LOS ESTIMADORES Para que los estimadores sean buenos, es decir confiables, se deben de cumplir las siguientes propiedades: ESTIMADORES INSESGADOS Un estimador es insesgado si su esperanza matemática es igual a su parámetro. Si el estimador no es insesgado, entonces a la diferencia entre la esperanza matemática y el parámetro se le llama sesgo o error del estimador. Por ejemplo x es un estimador insesgado ya que E( x ) = μ también S2 es un estimador insesgado ya que E(S2) = σ2. 107
ESTADÍSTICA APLICADA
ESTIMADORES CONSISTENTES Un estimador es consistente si al tomar un tamaño de muestras aleatorias cada vez más grandes, su valor se aproxima cada vez más a su parámetro. ESTIMADORES EFICIENTES Un estimador insesgado es eficiente con respecto a otros estimadores insesgados si su variancia es más pequeña. ESTIMADORES SUFICIENTES Un estimador es suficiente si es una función de todas las observaciones de la muestra aleatoria, la cual se capto para estimar a su parámetro.
TIPOS DE ESTIMACIÓN ESTIMACIÓN PUNTUAL La estimación es puntual cuando el parámetro es estimado por un único valor. ESTIMACIÓN POR INTERVALOS La estimación es por intervalos cuando el parámetro no es estimado por un único valor, sino por un conjunto de valores contenidos en un intervalo. La técnica de la estimación por intervalos consiste en asociar a cada muestra aleatoria un intervalo que se sospecha que debe contener al parámetro, a este se le denomina intervalo de confianza. INTERVALOS DE CONFIANZA PARA LA MEDIA DE UNA DISTRIBUCIÓN NORMAL A) Si la variancia poblacional σ2 es conocida:
P ( x − Z tabσ x < μ < x + Z tabσ x ) = 1 − α Donde: Ztab = Z
B)
α
(1− ) 2
Si la variancia poblacional σ2 no es conocida:
P ( x − t tab S x < μ < x + t tab S x ) = 1 − α Donde: ttab = t
α
(1− , n −1) 2
108
ESTADÍSTICA APLICADA
PARA LA VARIANCIA DE UNA DISTRIBUCIÓN NORMAL A)
Si la media poblacional μ es conocida:
P(
Nσ 2
χ2
<σ2 <
α
(1− , N ) 2
B)
Nσ 2
χ 2α
( ,N ) 2
Si la media poblacional μ no es conocida:
P(
(n − 1) S 2
χ2
<σ < 2
(n − 1) S 2
α
(1− , n −1) 2
Donde:
χ 2α
) = 1−α
( , n −1) 2
α = nivel de significación 1-α = nivel de confianza
PARA LA DIFERENCIA NORMALES A)
) = 1−α
DE
MEDIAS
Si las variancias poblacionales σ 12
DE
DISTRIBUCIONES
y σ 22 son conocidas:
P (( x1 − x 2 ) − Z tabσ x1 − x 2 < μ1 − μ 2 < ( x1 − x 2 ) + Z tabσ x1 − x 2 ) = 1 − α Donde: Ztab = Z
B)
α
(1− ) 2
Si las variancias poblacionales σ 12 homogéneas:
y σ 22 no son conocidas pero
P (( x1 − x 2 ) − t tab S x1 − x 2 < μ1 − μ 2 < ( x1 − x 2 ) + t tab S x1 − x 2 ) = 1 − α Donde: ttab = t
α
(1− , n1 + n2 − 2 ) 2
109
ESTADÍSTICA APLICADA
PRUEBAS DE HIPÓTESIS En muchos trabajos de investigación es necesario decidir si se acepta o se rechaza un enunciado o supuesto acerca de un parámetro; al enunciado o supuesto se le llama hipótesis y al procedimiento para tomar decisiones se le llama prueba de hipótesis. PRUEBA DE HIPÓTESIS Es un procedimiento de decisión estadística que establece la metodología a seguir para la aceptación o rechazo de una hipótesis, sobre la base de las evidencias contenidas en un conjunto de observaciones de una muestra aleatoria. Se plantean dos tipos de hipótesis, la hipótesis planteada (Hp) o hipótesis nula (H0) y la hipótesis alternante (Ha), ambas hipótesis no deben de tener nada en común, es decir son mutuamente excluyentes. Los investigadores generalmente enuncian como sus hipótesis nulas lo contrario de lo que creen que es verdad, con la esperanza de que los procedimientos de demostración los conduzcan a rechazarlas. Por ejemplo, si deseamos probar que el rendimiento académico promedio de los estudiantes de la UTP es mejor que el de otra universidad u otras universidades, podríamos formular en la hipótesis nula de que no hay diferencias en los rendimientos académicos.
TIPOS DE ERRORES Como para realizar una prueba de hipótesis, nos basamos en muestras aleatorias, al tomar nuestras decisiones podríamos cometer algunos errores, es decir podríamos tomar decisiones incorrectas. Error Tipo I Este error lo cometemos cuando rechazamos una hipótesis nula siendo esta verdadera. A la probabilidad de cometer el error tipo I se le denomina nivel de significación (α), es decir: P(Error Tipo I) = α Al complemento de α se le denomina nivel de confianza, es decir: 1-α = nivel de confianza.
110
ESTADÍSTICA APLICADA
Error Tipo II Este error lo cometemos cuando aceptamos una hipótesis nula siendo esta falsa. A la probabilidad de cometer el error tipo II se le simboliza por β, es decir: P(Error Tipo II) = β El valor de β se determina en base a la distribución real o verdadera de la variable en estudio. Al complemento de β se le denomina potencia de la prueba, es decir: 1-β = potencia de la prueba.
SUPUESTOS PARA REALIZAR UNA PRUEBA DE HIPÓTESIS 1. Las observaciones son extraídas de poblaciones que tienen distribuciones normales 2. Las muestras aleatorias pertenecen a poblaciones independientes. 3. Los tamaños de las muestras son grandes.
PROCEDIMIENTO PARA REALIZAR UNA PRUEBA DE HIPÓTESIS A)
Prueba de hipótesis para la media poblacional μ I)
Plantear las hipótesis Puede haber tres posibilidades: H0 : μ = μ1 ;
μ ≥ μ1
Ha : μ ≠ μ1 ;
μ < μ1
μ ≤ μ1
;
;
μ > μ1
II)
Establecer el nivel de significación (α) y tamaño de la muestra(n)
III)
Elección de la prueba estadística Existen dos posibilidades: Si la variancia poblacional σ2 es conocida, se usa: Z =
x−μ
σx
Si la variancia poblacional σ2 no es conocida, se usa: t =
111
x−μ Sx
ESTADÍSTICA APLICADA
IV) Establecimiento de las zonas de aceptación de la hipótesis nula. Estas zonas o regiones de aceptación de H0 dependen de la hipótesis alternante, es decir:
• Si la variancia poblacional σ2 es conocida Caso I :
Prueba de 2 colas o bilateral. cuando Ha : μ ≠ μ1
Caso II :
Prueba de 1 cola o unilateral izquierda. cuando Ha : μ < μ1
112
ESTADÍSTICA APLICADA
Caso III :
•
Prueba de 1 cola o unilateral derecha. cuando Ha : μ > μ1
Si la variancia poblacional σ2 no es conocida, entonces en lugar de Ztab se obtiene ttab
V) Calculo de la prueba estadística VI) Decisión estadística y conclusiones El valor de la prueba estadística calculada la ubicamos en la grafica del cuarto paso y dependiendo donde se ubique aceptaremos o rechazaremos a la hipótesis nula. B)
Prueba de hipótesis para la variancia poblacional σ2 I) Plantear las hipótesis Puede haber tres posibilidades: H0 : σ2 = σ 12 ;
σ2 ≥ σ 12
; σ2 ≤ σ 12
Ha : σ2 ≠ σ 12 ;
σ2 < σ 12
; σ2 > σ 12
II) Establecer el nivel de significación (α) y tamaño de la muestra(n) III) Elección de la prueba estadística Existe solo una posibilidad:
χ2 =
(n − 1) S 2
σ2 113
ESTADÍSTICA APLICADA
IV) Establecimiento de las zonas de aceptación de la hipótesis nula Estas zonas o regiones de aceptación de H0 dependen de la hipótesis alternante, es decir: Caso I : Prueba de 2 colas o bilateral. cuando Ha : σ2 ≠ σ 12
Caso II: Prueba de 1 cola o unilateral izquierda. cuando Ha : σ2 < σ 12
114
ESTADÍSTICA APLICADA
Caso III:Prueba de 1 cola o unilateral derecha. cuando Ha : σ2 > σ 12
V)
Calculo de la prueba estadística
VI) Decisión estadística y conclusiones El valor de la prueba estadística calculada la ubicamos en la grafica del cuarto paso y dependiendo donde se ubique aceptaremos o rechazaremos a la hipótesis nula. C)
Prueba de hipótesis poblacionales
para
la
homogeneidad
de
variancias
Los pasos a seguir son los mismos que los casos anteriores, donde el estadístico a usar es la prueba:
F=
D)
S12 σ 22 S 22 σ 12
Prueba de hipótesis para la diferencia de medias poblacionales Los pasos a seguir son los mismos que los casos anteriores, donde el estadístico a usar es la prueba:
•
Si las variancias poblacionales son conocidas Z =
x1 − x 2 − μ x1 − x 2
σ x −x 1
115
2
ESTADÍSTICA APLICADA
•
Si las variancias poblacionales no son conocidas pero homogéneas: t=
•
( x1 − x 2 ) − (μ1 − μ 2 ) S x1 − x 2
Si las variancias poblacionales no son conocidas pero heterogéneas:
t* =
( x 1 − x 2 ) − ( μ1 − μ 2 ) S x1 − x 2
Donde:
S
2 x1 − x 2
S12 S 22 = + ; si el muestreo es con reemplazo n1 n2
⎛ S 2 ⎛ N − n ⎞ S 2 ⎛ N − n2 S x21 − x 2 = ⎜⎜ 1 ⎜⎜ 1 1 ⎟⎟ + 2 ⎜⎜ 2 ⎝ n1 ⎝ N 1 − 1 ⎠ n2 ⎝ N 2 − 1 reemplazo
116
⎞⎞ ⎟⎟ ⎟ ; si el muestreo es sin ⎟ ⎠⎠
ESTADÍSTICA APLICADA
EJERCICIOS RESUELTOS 1.
Con la finalidad de estudiar el tiempo que necesita una cajera para atender a los clientes de una tienda de auto-servicios, se tomó una muestra de 16 clientes, encontrándose un tiempo promedio de servicios de 4.2 minutos, con una desviación estándar de 1.2 minutos. a) b)
Calcular e interpretar un intervalo del 95% de confianza para el tiempo medio de servicios a los clientes. Calcular e interpretar un intervalo del 90% de confianza para la variancia de los tiempos de servicios de caja.
SOLUCIÓN: Sea x = tiempo de atención a los clientes (minutos) Tenemos que: n = 16, x = 4.2 , S = 1.2 a)
Se tiene que: 1 - α = 0.95, entonces: α = 0.05 Como la variancia poblacional σ2 no es conocida, usaremos:
P ( x − t tab S x < μ < x + t tab S x ) = 1 − α Donde: ttab = t
S x2 =
α
(1− , n −1) 2
= t(0.975,15) = 2.131
S 2 (1.2) 2 = = 0.09 , entonces: S x = 0.3 n 16
Reemplazando:
P (4.2 − 2.131x0.3 < μ < 4.2 + 2.131x0.3) = 0.95 P(3.5607 < μ < 4.8393) = 0.95 Tenemos un 95% de confianza de que la verdadera media poblacional del tiempo de atención al cliente esta comprendido entre 3.5607 y 4.8393 minutos.
117
ESTADÍSTICA APLICADA
b)
En este caso: 1 - α = 0.90, entonces: α = 0.10 Como la media poblacional μ no es conocida:
P(
(n − 1) S 2
χ2
(n − 1) S 2
<σ < 2
χ 2α
α
(1− , n −1) 2
) = 1−α
( , n −1) 2
Para α = 0.10 los chi-cuadrados tabulares para 15 g.l. son:
χ (20.95,15) = 24.996
y
χ (20.05,15) = 7.261
Reemplazando:
15 x1.44 15 x1.44 P( <σ2 < ) = 0.90 24.996 7.261 P(0.8641< σ2 < 2.9748) = 0.90 Tenemos un 90% de confianza de que la verdadera variancia poblacional de los tiempos de atención al cliente esta comprendido entre 0.8641 y 2.9748 minutos2. 2.
Una compañía produce focos pequeños de 1.5 voltios y desea analizar la variabilidad del proceso de producción. Se tomo una muestra aleatoria de 16 focos, y se obtuvo una media de la duración igual a 120 horas y un coeficiente de variabilidad igual al 25%. Halle el intervalo de confianza del 98% para la variancia poblacional. SOLUCIÓN: Sea x = duración de los focos de 1.5 voltios (horas) Tenemos que: n = 16, x = 120 , c.v. = 25% Como 1 - α = 0.98, entonces: α = 0.02 Como la media poblacional μ no es conocida:
P(
(n − 1) S 2
χ2
<σ < 2
(n − 1) S 2
α
(1− , n −1) 2
χ 2α
( , n −1) 2
118
) = 1−α
ESTADÍSTICA APLICADA
Para α = 0.02 los chi-cuadrados tabulares para 15 g.l. son:
χ (20.99,15) = 30.578
y
χ (20.01,15) = 5.229
S x100 = 25% = 0.25 ⇒ S = 30 y S2 = 900 x
Sabemos que: c.v. = Reemplazando:
15 x900 15 x900 P( <σ2 < ) = 0.98 30.578 5.229 P(441.4939< σ2 < 2581.7556) = 0.98 Tenemos un 98% de confianza de que la verdadera variancia poblacional de la duración de los focos de 1.5 voltios esta comprendido entre 441.4939 y 2581.7556 horas2. 3.
Suponga que las notas de los alumnos de Administración se distribuyen en forma normal con una desviación estándar de 3; se seleccionaron al azar 20 alumnos, registrándose una nota promedio de 14 y una variancia de 4. Calcule e interprete: a) b)
Un intervalo del 98% de confianza para su verdadera media. ¿Con un riesgo del 1%, se puede concluir que la nota media de los alumnos es superior de 12?
SOLUCIÓN: Sea x = nota de los alumnos Tenemos que: σ = 3, n = 20, x = 14 , S2 = 4 ⇒ S = 2 a)
Se tiene que: 1 - α = 0.98, entonces: α = 0.02 Como la variancia poblacional σ2 es conocida, usaremos:
P ( x − Z tabσ x < μ < x + Z tabσ x ) = 1 − α Donde: Ztab = Z
σ x2 =
α
(1− ) 2
σ2 n
=
= Z(0.99) = 2.325
(3) 2 = 0.45 , entonces: σ x = 0.6708 20
119
ESTADÍSTICA APLICADA
Reemplazando:
P(14 − 2.325 x0.6708 < μ < 14 + 2.325 x0.6708) = 0.98 P(12.44 < μ < 15.56) = 0.98 Tenemos un 98% de confianza de que la verdadera media poblacional de las notas de los alumnos de Administración esta comprendido entre 12.44 y 15.56. b)
Nos piden que realicemos una prueba de hipótesis para la verdadera media de las notas con un nivel de significación de 0.01. I)
H0 : μ ≤ 12 Ha : μ > 12
II)
α = 0.01 y n = 20
III)
Como se conoce a la variancia poblacional, se usara:
IV)
Como Ha : μ > 12 Se trata de una prueba de 1 cola o unilateral derecha.
120
ESTADÍSTICA APLICADA
V)
Calculo del estadístico Z
Z cal =
VI)
x−μ
σx
=
14 − 12 = 2.9815 0.6708
Como Z calculado esta en la zona de rechazo de la H0 , entonces no se acepta hipótesis nula.
En conclusión, existe evidencia estadística de que la verdadera nota media de los alumnos de Administración es mayor de 12, con un nivel de significación de 0.01. 4.
La Dirección General de Transito del Perú usa decenas de focos para semáforos cada año. La marca que ha sido usada hasta ahora tiene una vida media de 1000 horas y una desviación estándar de 90 horas. Es ofrecida una nueva marca a la Dirección a un precio muy inferior al que ha estado pagando. Se decide que se debe comprar la nueva marca, a menos que su vida media sea menor de 1000 horas. Posteriormente, son probadas 100 focos de esta nueva marca, dando un promedio de 990, suponiendo que la variancia de la nueva marca es la misma que la antigua: a) b)
Encuentre e interprete según enunciado un intervalo del 95% de confianza para la vida media de la nueva marca. ¿Qué recomendaría a la Dirección General de Transito para un nivel de significación del 5%?.
SOLUCIÓN: Sea x = duración de los focos (horas) Para la marca antigua tenemos: μ = 1000 y σ = 90 Para la nueva marca tenemos: N = 100 , x = 990 y σ = 90 a)
Se tiene que: 1 - α = 0.95, entonces: α = 0.05 Como la variancia poblacional σ2 es conocida, usaremos:
P ( x − Z tabσ x < μ < x + Z tabσ x ) = 1 − α 121
ESTADÍSTICA APLICADA
Donde: Ztab = Z
σ x2 =
σ2 n
=
α
(1− ) 2
= Z(0.975) = 1.96
(90) 2 = 81 , entonces: σ x = 9 100
Reemplazando:
P(990 − 1.96 x9 < μ < 990 + 1.96 x9) = 0.95 P(972.36 < μ < 1007.64) = 0.95 Tenemos un 95% de confianza de que la verdadera media poblacional del tiempo de duración de los focos para semáforo esta comprendido entre 972.36 y 1007.64 horas. b)
Nos piden que realicemos una prueba de hipótesis para la media de la duración de los focos con un nivel de significación de 0.05. I)
H0 : μ ≥ 1000 Ha : μ < 1000
II)
α = 0.05 y n = 100
III)
Como se conoce a la variancia poblacional, se usara: Z=
x−μ
σx
IV) Como Ha : μ < 1000 Se trata de una prueba de 1 cola o unilateral izquierda.
122
ESTADÍSTICA APLICADA
V)
Calculo del estadístico Z
Z cal =
x−μ
=
σx
990 − 1000 = −1.11111 9
VI) Como Z calculado esta en la zona de aceptación de la H0, entonces se acepta hipótesis nula. En conclusión, existe evidencia estadística suficiente de que los focos tienen una duración media verdadera de por lo menos de 1000 horas, por lo tanto se recomendaría a la Dirección General de Transito que compren a la nueva marca de focos, con un nivel de significación del 5%. 5.
Se diseña la dimensión de una determinada pieza de 5 cm. para que dicha pieza encaje con otra. Por experiencia se sabe que la variancia del proceso es de 0.0064 cm2. Si una muestra aleatoria de 49 piezas presenta una media de 5.05 cm: a)
¿Cuál es el intervalo de confianza del 99% para la verdadera media de la longitud de las piezas?
b)
¿Se debe aceptar que la media de la longitud de la pieza es igual a 5 cm.?
Use 1% de error. SOLUCIÓN: Sea x = longitud de las piezas (centímetros) Tenemos que: σ2 = 0.0064 ⇒ σ = 0.08, n = 49, x = 5.05
a)
Se tiene que: 1 - α = 0.99 ⇒ α = 0.01 Como la variancia poblacional σ2 es conocida, usaremos:
P ( x − Z tabσ x < μ < x + Z tabσ x ) = 1 − α Donde: Ztab = Z
α
(1− ) 2
= Z(0.995) = 2.575
123
ESTADÍSTICA APLICADA
σ x2 =
σ2 n
=
0.0064 = 0.0001306 , entonces: σ x = 0.01143 49
Reemplazando:
P(5.05 − 2.575 x0.01143 < μ < 5.05 + 2.575 x0.01143) = 0.99 P(5.0206 < μ < 5.0794) = 0.99 Tenemos un 99% de confianza de que la verdadera media poblacional de la longitud de las piezas esta comprendido entre 5.0206 y 5.0794 cm. b)
Nos piden que realicemos una prueba de hipótesis para la verdadera media de la longitud de las piezas con un nivel de significación de 0.01. I)
H0 : μ = 5 Ha : μ ≠ 5
II)
α = 0.01 y n = 49
III)
Como se conoce a la variancia poblacional, se usara:
IV) Como Ha : μ ≠ 5 Se trata de una prueba de 2 colas o bilateral.
124
ESTADÍSTICA APLICADA
V)
Calculo del estadístico Z
Z cal =
x−μ
σx
=
5.05 − 5 = 4.37445 0.01143
VI) Como Z calculado esta en la zona de rechazo de la H0 , entonces no se acepta hipótesis nula. En conclusión, existe evidencia estadística suficiente para afirmar que la verdadera media de la longitud de las piezas no es de 5 cm., con un nivel de significación del 1%.
EJERCICIOS PROPUESTOS 1.
Con la finalidad de estudiar el tiempo que necesita una cajera para atender a los clientes de una tienda de auto-servicios, se tomó una muestra de 25 clientes, encontrándose un tiempo promedio de servicios de 3.5 minutos, con una desviación estándar de 1.2 minutos. a) Calcular e interpretar un intervalo del 90% de confianza para el tiempo medio de servicios a los clientes. b) Calcular e interpretar un intervalo del 95% de confianza para la variancia de los tiempos de servicios de caja.
2.
Una compañía produce focos pequeños de 1,5 voltios y desea analizar la variabilidad del proceso de producción. Se tomo una muestra aleatoria de 20 focos, y se obtuvo una media de la duración igual a 100 horas y un coeficiente de variabilidad igual al 15%. Halle el intervalo de confianza del 95% para la desviación estándar poblacional.
125
ESTADÍSTICA APLICADA
3.
Suponga que las notas de los alumnos de Administración se distribuyen en forma normal con una desviación estándar de 5; se seleccionaron al azar 16 alumnos, registrándose una nota promedio de 15 y una variancia de 4. Calcule e interprete: a) Un intervalo del 99% de confianza para su verdadera media. b) Un intervalo del 98% de confianza para su verdadera variancia. c) ¿Con un riesgo del 5%, se puede concluir que la nota media de los alumnos es superior de 14?
4.
La Dirección General de Transito del Perú usa decenas de focos para semáforos cada año. La marca que ha sido usada hasta ahora tiene una vida media de 1000 horas y una desviación estándar de 90 horas. Es ofrecida una nueva marca a la Dirección a un precio muy inferior al que ha estado pagando. Se decide que se debe comprar la nueva marca, a menos que su vida media sea menor de 1000 horas. Posteriormente, son probadas 120 focos de esta nueva marca, dando un promedio de 990, suponiendo que la variancia de la nueva marca es la misma que la antigua: a) Encuentre e interprete según enunciado un intervalo del 98% de confianza para la vida media de la nueva marca. b) ¿Qué recomendaría a la Dirección General de Transito para un nivel de significación del 1%?. c) Si la verdadera vida media de la nueva marca es de 950 horas. ¿Se estaría cometiendo algún error en la prueba realizada en b)?. ¿De que tipo? Justifique su respuesta.
5.
Se diseña la dimensión de una determinada pieza de 5 cm. para que dicha pieza encaje con otra. Por experiencia se sabe que la variancia del proceso es de 0.0081 cm2. Si una muestra aleatoria de 49 piezas presenta una media de 4.95 cm.: a) ¿Cuál es el intervalo de confianza del 98% para la verdadera media de la longitud de las piezas? b) ¿Se debe aceptar que la media de la longitud de la pieza sea por lo menos de 3 cm.? Use 5% de error. c) Si se selecciona una muestra de 36 piezas. ¿Qué valores debe tomar el estimador para aceptar la hipótesis nula en b)?
126
ESTADÍSTICA APLICADA
6.
Una fábrica que produce barras de acero está interesada en saber el contenido de carbono que existen en las barras. Se tomo una muestra al azar de 10 barras obteniéndose una variancia de 1296 y una media de 188. a) Halle un intervalo con un 95% de confianza para el contenido promedio de carbono de las barras de acero de la fábrica. b) Halle un intervalo con un riesgo del 1% para la verdadera variancia de carbono en las barras de acero de la fábrica. c) Con un riesgo del 10% se puede afirmar que la variancia del contenido de carbono es diferente de 1290.
7.
Un proceso de ensamblaje está planeado como una actividad que demora 20 minutos. Estudios anteriores revelan una desviación estándar de 6 minutos para la ejecución del ensamble. Una muestra aleatoria de la realización de 9 ensambles dio como resultado un tiempo medio de 24.3 minutos por ensamble. Calcule e interprete: a) Un intervalo del 90% de confianza para la verdadera media del tiempo de ejecución del ensamble. b) Un intervalo del 95% de confianza para la verdadera media del tiempo de ejecución del ensamble.
8.
Un saco de patatas fue muestreado para analizar su calidad y se seleccionaron 11 patatas, registrándose el peso de cada una, con los siguientes resultados: 17, 15, 10, 11, 12, 15, 9, 19, 13, 11, 14. Calcule e interprete un intervalo del 98% de confianza para la media poblacional.
9.
Puede mostrarse que las observaciones tomadas de cargamentos de un cierto producto químico se distribuye normalmente alrededor de la densidad media verdadera y con una desviación estándar de 0.005 g/cm3. ¿Qué tamaño de muestra es necesario para estimar la verdadera densidad media, si se desea tener un error de estimación que no exceda a 0.002 g/cm3 para un intervalo de confianza del 95%?
10.
En una muestra de 14 pernos la estimación de la desviación estándar poblacional de la longitud del perno fue de 0.021 pulgadas. ¿Cuales son los límites del intervalo del 98% de confianza para la verdadera variancia poblacional? ¿Qué suposiciones deben hacerse para hallar el intervalo de confianza?
127
ESTADÍSTICA APLICADA
11.
Una fabrica que produce piezas de alta precisión y periódicamente chequea la longitud de las piezas producidas para analizar su variabilidad. Con tal fin se selecciono una muestra aleatoria simple de 9 piezas y se obtuvo los siguientes resultados maestrales:
∑ X1= 13, 05
y
∑ X2 = 24, 92
Sabiendo que la longitud se distribuye normalmente, halle e interprete un intervalo de 90% para la verdadera variancia del proceso. 12.
Un fabricante de pilas para linterna afirma que la vida media de su producto excederá de 30 horas. Una compañía desea comprar una cantidad muy grande de pilas siempre y cuando la afirmación sea cierta. Se prueba una muestra al azar de 36 pilas, y se encuentra que la vida media de la muestra es de 31 horas. Si la población de pilas tiene una desviación estándar de 5 horas: a) Encuentre el intervalo del 99% de confianza para la verdadera vida media de ese producto. Interprete según el enunciado. b) A un nivel a = 0,10. ¿Qué recomendaría al Gerente de la compañía? c) ¿Para que valores de a la compañía no adquirirá las pilas?
13.
Un Agrónomo tiene semillas de una nueva variedad de maíz, las cuales son sembradas en 6 parcelas de características homogéneas. Los rendimientos en toneladas por hectáreas fueron los siguientes: ∑ X 1 = 36 ∑ ( X 1 − X ) 2 = 32 a)
b)
c)
Hallar los límites de confianza para el verdadero rendimiento promedio de la variedad de maíz con el 95% de confianza. Interprete sus resultados. Si el Agrónomo sostiene que la variedad de maíz sometida a experimentación tiene un rendimiento medio diferente de 4 ton/Ha.. y con la información obtenida se puede aceptar lo que afirma el Agrónomo? ( Use α = 0.05) ¿Se puede afirmar que la variabilidad del rendimiento de la variedad de maíz en mención es a lo más 2 (Ton/Ha)?. Use α = 0.01
128
ESTADÍSTICA APLICADA
14.
En una muestra de 25 paquetes distribuidos por una compañía se encontró un promedio de 350 Kg. y una variancia de 2500 Kg. ¿Existen bases para afirmar que el lote de 25 paquetes excederán la capacidad de los camiones de transporte que se sabe que es de 8000 Kg? Use α = 0.05
15.
Una empresa de transportes desconfía de la afirmación de que la vida útil promedio de ciertos neumáticos es al menos de 28000. Para verificar la afirmación, se colocan 28 neumáticos en sus camiones y se obtiene una vida útil promedio de 27 250 millas, con una desviación estándar de 1 348 millas. ¿Qué puedes concluir con esos datos? a un nivel de significación de 0.01?.
16.
Un fabricante de pernos ha tenido últimamente quejas de sus clientes sobre las dimensiones de los pernos , ya que presentaban una excesiva variabilidad. El productor afirma que la desviación estándar es a lo más 0.3 y desea comprobar lo anterior mediante una muestra. Se selecciona una muestra aleatoria simple de 20 pernos y obtiene los siguientes resultados:
∑x a) b)
2 i
∑x
= 36
i
= 10
¿ Es correcto lo que afirma el productor? . (Use α = 0.01). ¿Para qué valores del estimador se aceptará la hipótesis planteada en la pregunta a?
17.
Una máquina que produce tuercas es detenida periódicamente de modo que el diámetro de las turcas producidas puede ser analizado . En este caso interesa la variabilidad de los diámetros de las tuercas. Suponga que una muestra aleatoria simple de 30 tuercas proporciona una variancia muestral del diámetro igual a 3.4 milímetros. Si la variancia del diámetro debe ser de 8 milímetros o menos para aceptar la producción de la máquina. a) ¿Existe evidencia significativa para rechazar dicha producción?. (Use α = 0.02). b) Si la variancia verdadera es de 9 milímetros 2. ¿Qué tipo de error se cometió?. Justifique su respuesta.
18.
Se a propuesto dos métodos para determinar el contenido de humedad de la semilla del fríjol y en ambos se han empleado muestra de tamaño 21. El método I es más fácil de aplicar , pero parece más variable que el II .
129
ESTADÍSTICA APLICADA
Basándose en los siguientes resultados :
∑ (x 21
j =1
a)
b)
19.
1j
2
− x 1 ) = 340
∑ (x 21
j =1
− x 2 ) = 240 2
2j
Encuentre un intervalo de 90% de confianza para la verdadera razón de variancias del modo : entre el método II. Interprete según el enunciado. ¿A que conclusión llegaría Ud. a un nivel de significación α=0.05?
Se requiere determinar si existe menos variabilidad en el plateado realizado por la compañía 1 que el efectuado por la compañía 2. Con tal motivo se tomaron una muestra de tamaño 12 de los trabajos efectuados por la compañía 1 y otra de tamaño 15 de los trabajos desempeñados de la compañía 2, los cuales produjeron las siguientes desviaciones estándares : S1=0.035 mil. y S2=0.062 mil. a) Encuentre un intervalo de confianza de 90% para la verdadera razón de variancia b)
σ 12 . Interprete según σ 22
enunciado. ¿A qué conclusión llegaría Ud. a un nivel de significación α=0.05?
20.
Para probar la afirmación de que la resistencia de un alambre eléctrico puede reducirse en más de 0.005 ohmios , mediante aleaciones, 32 valores obtenidos de alambre ordinario produjeron un promedio de 0.136 ohmios , y 32 valores obtenidos con el alambre fabricado a base de aleaciones produjeron un promedio de 0.083 ohmios . Suponiendo que la desviación estándar de la resistencia para ambos tipos de alambre son iguales a 0.005 ohmios. a) Halle un intervalo de confianza del 95% para la verdadera diferencia de medias μ1-μ2. Interprete según enunciado. b) ¿Apoyaría Ud. la afirmación a un nivel de significación α=0.05?.
21.
Se utilizaron dos máquinas A y B, para llenar botellas que se supone deben contener un volumen neto de 5.65 litros. El proceso de llenado de máquina A tiene una desviación estándar de 0.015 litros y el proceso de llenado de la máquina B tiene
130
ESTADÍSTICA APLICADA
una desviación estándar de 0.016 litros . Ha surgido la preocupación de si las dos máquinas están realizando el mismo trabajo. El ingeniero de control afirma que debido al estrecho acuerdo entre las desviaciones estándar y en razón a otras mediciones las máquinas se están llenando con la misma cantidad. Se toma una muestra aleatoria de cada máquina obteniéndose los siguientes resultados: Máquina A
Máquina B
nA = 20
nB = 25
X A = 5.6345 a) b)
22.
X B = 5.634
Encuentre un intervalo de 98% para la verdadera diferencia de medidas μx- μy. Interprete según enunciado. ¿Está Ud. de acuerdo con el ingeniero de control a un nivel α=0.05?.
Una empresa ganadora desea comprar dos marcas de alimento: A y B, y decide experimentar con ellos antes de realizar la compra definitiva. El alimento A fue proporcionado a 10 animales seleccionados aleatoriamente, mientras que el alimento B a 6 animales obteniéndose los siguientes resultados de incremento de pesos:
xA = 4 10
∑ (x i =1
a)
b)
c)
A1
xB = 5 6
∑x
− x A ) x A! = 60
i =1
2
− nB − x B
2
= 32
Probar si existe diferencias significativas entre los incrementos medios de pesos producidos por los alimentos a un nivel α=0.02. Sugerencia: pruebe si existe homogeneidad de variancias. Si realmente μA- μg=2. ¿ está Ud. cometiendo algún tipo de error según la conclusión establecida en (a)?. ¿Cuál de los errores sería? Encuentra un intervalo del 98% de confianza para la verdadera diferencia de media μA- μg.
131
ESTADÍSTICA APLICADA
23.
Un centro de investigación condujo un experimento para determinar los efectos de la marihuana sobre la sexualidad. Se seleccionaron 11 hombres jóvenes en buen estado de salud que habían fumado marihuana por lo menos 4 días a la semana un mínimo de 6 semanas, sin usar otra droga en ese período. Se usó un grupo de control de otros 10 jóvenes que jamás habían fumado marihuana, para hacer la comparación. La medida de la sexualidad fue el nivel de hormona masculina testosterona en la sangre (en unidades de hormona testosterona) Grupo que ha fumado marihuana (1)
Grupo que jamás ha fumado marihuana (2) 10
∑x
x1 = 420
i =1
2i
= 7283
10
∑ (x
S1 = 12.22
i =1
a) b)
24.
2i
− x 2 ) 2 = 1822.1
¿Son homogéneas las varianzas? Use α=0.10 El uso de la marihuana desminuye en promedio, el impulso sexual? Use α=0.10. (Considere el resultado de a).
Se sabe que la máquina de empacar de una firma de cereales de secados verte el cereal seco en cajas de tamaño económico con una desviación estándar de 0.6 onzas. Se lleva a cabo verificaciones constantes de los pesos netos de las cajas para mantener el ajuste de la maquinaría que controla el peso neto. Dos muestras tomadas en dos días presentan la siguiente información: n1=30
n2=35
x1 = 18.87onzas
x 2 = 21.9onzas
Utilice α= del 5% en todos los siguientes casos: a) ¿Se puede afirmar que en el primer día, la máquina estaba ajustada para llenar 20 onzas o más?. b) ¿Se puede afirmar que en el segundo día la máquina estaba ajustada para llenar más de 20 onzas?.
132
ESTADÍSTICA APLICADA
c)
25.
Se puede verificar que no existe ningún cambio en el ajuste de la máquina en el primer y segundo día.
Un fabricante de motores desea determinar si los combustibles que se distribuyen en el mercado cumplen con los requerimientos. Para ello se tomaron muestras de ambos combustibles los siguientes resultados para el impulso específico (en libras/seg) Combustibles n A 21 B 25
Promedio 340.5 348.5
Variancia 19.2 7.7
Uno de los requerimientos para que el fabricante acepte un combustible es que la variancia del impulso específico sea a lo más de 11 ( lib/seg)2 a) ¿Cumplirá el combustible A con el requerimiento del fabricante? Use α=0.05 b) ¿Para que valores del estimador no existirá evidencia para rechazar la Hp. en (a)? c) ¿Con que nivel de significación se aceptaría la Hp. en (a)? d) ¿Se puede concluir, para α= 10% que el impulso específico medio del combustible B es superior en 10 lib/seg o más que el impulso específico del combustible A? e) Si la verdaderas medias del impulso específico de los combustibles A y B son μA = 350 lib/seg y μB = 360 lib/seg. ¿se cometió algún error en (d)? 26.
Al analizar muestras de tejido hepático de 16 ratas se obtuvo que tenia en promedio un contenido de 5.2 mgrs de glucógeno/100 mgrs de tejido)2. Si se asume que el contenido de carbohidratos (glicógeno) se distribuye normalmente. a) Calcule e interprete un intervalo del 90% de confianza para la media del contenido de carbohidrato. b) ¿Se puede afirmar que la media del contenido de carbohidrato es igual a 4.6 mgrs de glicógeno/100 mgrs de tejido? Use α = 0.10
27.
Dos tipos de botellas de vidrio son adecuados para su utilización en una embotelladora de bebidas gaseosas. La resistencia a la presión interna de un envase es una característica de calidad importante. Se sabe que las desviaciones estándar de las resistencias para cada tipo de botella de vidrio es igual a 3.0 psi.
133
ESTADÍSTICA APLICADA
Se tomaron muestras de cada tipo y se obtuvieron los siguientes resultados: Tipo 1
Tipo 2
n1 = 16
n2 = 16
x1 = 175.8 psi
x 2 = 181.3 psi
La compañía no utilizará el tipo de botella 2 a no ser que su resistencia a la presión en promedio exceda a la de tipo 1 en, por lo menos 5 psi . ¿Utilizará el tipo 2, con base en los datos muestrales? Use α = 0.05. 28.
Una tienda tiene dos planes de crédito disponibles para sus clientes con cuenta corriente. La administración de la tienda desea recopilar información acerca de cada plan y estudiar las diferencias entre los dos planes. Se seleccionó una muestra de 25 clientes del plan A y de 50 clientes del plan B, con los siguientes resultados en miles de unidades monetarias acerca del saldo mensual.
a) b)
Plan
n
A B
25 50
Promedio 202.5 297.0
Desviación estándar 40.500 38.178
Halle e interprete un intervalo del 98% de confianza para la desviación estándar del plan B. ¿Hay evidencias muestrales para afirmar que existen diferencias entre los saldos mensuales promedio de los planes? Use α = 0.05.
134
ESTADÍSTICA APLICADA
UNIDAD VI ANÁLISIS DE REGRESIÓN MÚLTIPLE El análisis de regresión consiste en emplear métodos que nos permitan determinar la relación funcional entre las variables en estudio; de forma tal que nos permita predecir el valor de una variable utilizando los valores que correspondan a las otras variables. Por ejemplo al rector de la universidad le interesa conocer cual es el desempeño profesional de sus egresados, es decir, de que depende que los egresados de la UTP tengan éxito, al vice-rector de investigación le interesa saber que temas o trabajos son los que los estudiantes quieren realizar, al decano de la facultad de Administración le interesa saber de que depende, que sus alumnos tengan un buen rendimiento académico, a los profesores nos interesa saber por que motivos desaprueban los estudiantes, etc. Podemos observar que en estos ejemplos están involucradas varias variables, las cuales son estudiadas mediante el análisis de regresión, dejo a los profesores para que discutan con sus alumnos cuales serian las variables dependientes y cuales las independientes. REGRESIÓN LINEAL MÚLTIPLE El análisis de regresión se usa por explicar o modelar la relación funcional entre una variable Y , llamada respuesta, rendimiento o variable dependiente, y una o más variables predictoras, o independientes o explicativas X 1 ,K , X k . Cuando k = 1 , se tiene el caso de regresión lineal simple, si k > 1 , se tiene el caso de regresión múltiple. La respuesta debe ser una variable continua pero las variables explicativas pueden ser continuas, discretas o categóricas aunque se deja el manejo de variables explicativas categóricas para otro curso. Los análisis de la regresión tienen varios posibles objetivos los cuales incluyen: 1. 2. 3.
La predicción de observaciones futuras. La valoración del efecto de, o relación entre, variables explicativas y la respuesta. Una descripción general de estructura de los datos.
135
ESTADÍSTICA APLICADA
Es importante entender cómo los datos fueron recogidos. ¿Son los datos de observación o experimentales? ¿Hay falta de respuesta? ¿Hay valores perdidos? ¿Qué representa los datos en cifras?, representadas las variables cualitativas. ¿Cuáles son las unidades de medida? Cuidado con errores en la entrada de datos. Modelo de Regresión Lineal Múltiple El modelo de regresión lineal múltiple con k variables predoctoras x1, x2 , … xk, es de la siguiente forma: y = β0 + β1x1 +β2x2 + . . . +βkxk +ε Donde: x1, x2 , … xk , son variables independientes, fijadas y medidas sin error. β0 ,β1 ,β2 , . . . βk son parámetros desconocidos. A β0 se le conoce con el nombre de intercepto, y a los β1,β2, . . . βk se les llaman coeficientes de regresión poblacional. ε es una variable aleatoria no correlacionada y no observable tal que: E(ε) = 0 y V(ε) = σ2 • •
β0 es la media de “y” cuando x1 = x2 = . . . = xk = 0 βj , para j = 1, 2, . . . , k indica el cambio promedio en la variable dependiente “y” por unidad de cambio de “x j” , cuando las demás variables independientes permanecen constantes.
ESTIMACIÓN DE LOS PARÁMETROS βJ Para encontrar los estimadores de los coeficientes de regresión se aplica el método de los mínimos cuadrados a partir de una muestra aleatoria de tamaño n. ECUACIÓN DE LA LINEA DE REGRESIÓN MÚLTIPLE MUESTRAL
136
ESTADÍSTICA APLICADA
Donde: A b0 se le conoce con el nombre de intercepto muestral, y a los b1,b2, b3 , . . . bk se les llaman coeficientes de regresión muestral y e es el término del error o perturbación aleatoria. TEOREMA Las estimaciones de mínimos cuadrados de los coeficientes de regresión múltiple están dadas por: B = (XTX)-1XTY Donde XT es la transpuesta de X y (XTX)-1 es la inversa de XTX Además:
X=
1 1 . 1
⎛ y1 ⎞ ⎜ ⎟ ⎜y ⎟ Y =⎜ 2⎟ M ⎜ ⎟ ⎜y ⎟ ⎝ n⎠
XTX=
x11 x12 …x1k x21 x22 …x2k . . . . . xn1 xn2 …xnk
y
⎛ ∧ ⎞ ⎜ β0 ⎟ ⎜ ∧ ⎟ ⎜β ⎟ B=⎜ 1 ⎟ ⎜M ⎟ ⎜ ∧ ⎟ ⎜ βk ⎟ ⎝ ⎠
n ∑x1 ∑x2 … ∑xk 2 ∑x1 ∑ x1 ∑x1x2 ... ∑x1 xk ∑x2 ∑ x2x1 ∑ x 22 ... ∑x2xk . ........................ ∑xk
∑ xkx1
∑xkx2 ... ∑ x k2
137
ESTADÍSTICA APLICADA
⎛∑ y ⎞ ⎟ ⎜ ⎜ ∑ x1 y ⎟ ⎟ ⎜ X T Y = ⎜ ∑ x2 y ⎟ ⎟ ⎜ ⎟ ⎜L ⎜⎜ x y ⎟⎟ ⎝∑ k ⎠ COEFICIENTE DE DETERMINACION: R2 Mide la proporción de la variación total que es explicada por un modelo de regresión. El coeficiente de determinación se usa como un indicador del grado de bondad de ajuste, de un modelo de regresión, es decir si el modelo estimado proporciona una buena explicación del comportamiento de la variable en estudio o variable dependiente. Este coeficiente es calculado del siguiente modo: R2 =
Donde:
SCR SCT
SCR = suma de cuadrados de regresión SCT = suma de cuadrados total SCT = SCR + SCE
Donde:
SCE = suma de cuadrados del error SCE = YTY - βˆ T X T Y 2 SCR = βˆ T X T Y − nY
ESTIMACION DE σ POR MAXIMA VEROSIMILITUD
σˆ =
Y T Y − BT X T Y n
138
ESTADÍSTICA APLICADA
Se debe de tener en cuenta que los resultados de las: βˆi ∀ i = 0, 1, 2, . . . , k son combinaciones lineales de las n variables aleatorias independientes yi , tales que las βˆi tienen distribuciones normales. Además se cumple que: E ( βˆi ) = β i ∀ i = 0, 1, 2, . . . , k
V ( βˆi ) = ciiσ 2
∀ i = 0, 1, 2, . . . , k
Donde: cij es el elemento del i-ésimo renglón y la j-ésima columna de la matriz ( X T X ) −1 donde i y j toman los valores 0, 1, 2, . . . , k También:
nσˆ 2
σ2
~ χ (2n − k −1)
;
nσˆ 2
σ2
y βˆi
son independientes
Al combinar todos estos resultados, tenemos que la definición de la distribución “t” de Student nos conduce a: TEOREMA Con las suposiciones del análisis de regresión lineal múltiple:
βˆi − β i
t=
σˆ
∀ i = 0, 1, 2, . . . , k
n cii n − k −1
Son valores de variables aleatorias que tienen la distribución “t” de Student con n - k -1 grados de libertad. PRUEBAS DE HIPÓTESIS Estas pruebas acerca de parámetros se realizan para medir la adecuación del modelo. Tal como se vio anteriormente, una prueba de hipótesis requiere que los términos del error εi del modelo de regresión tengan una distribución normal e independiente con media cero y variancia σ2. 139
ESTADÍSTICA APLICADA
PRUEBA PARA LA SIGNIFICACION DE UNA REGRESION La prueba de la significación de una regresión sirve para determinar si existe una relación lineal entre la variable dependiente “y” y un conjunto de variables independientes x1 , x2 , x3 , . . . , xk . H0 : β1 = β2 = . . . = βk = 0 Ha : Al memos una de las βj es diferente de cero Rechazar H0 implica que al menos una de las variables independientes contribuye de manera significativa al modelo. El estadístico para probar esta hipótesis es el “ F” definido por:
SCR FC = k SCE n− p Donde: p = número de parámetros Se rechazara H0 si el valor calculado de F es mayor que el Ftabular = F(α, k, n-p) CUADRO DE ANALISIS DE VARIANCIA (ANVA) Fuente de variación Regresión Error o residual Total
•
Suma de cuadrados SCR SCE SCT
Grados de libertad k n - p n -1
Cuadrado medio CMR CME
Fc CMR/CME
Cuando se rechaza H0 se tiene que realizar pruebas individuales para los βj , estas pruebas se realizan con el estadístico “t” de Student.
140
ESTADÍSTICA APLICADA
EJERCICIOS RESUELTOS 1.
Los siguientes datos muestran el número de habitaciones, el número de baños y los precios a los que se vendieron hace poco 8 casas de una muestra aleatoria de un distrito de Lima:
Nº de Habitaciones (x1) 3 2 4 2 3 2 5 4 a) b)
Nº de Baños (x2)
Precio (y) (en dólares)
2 1 3 1 2 2 3 2
78 800 74 300 83 800 74 200 79 700 74 900 88 400 82 900
Estime la ecuación de regresión lineal múltiple y prediga el precio de venta de una casa de tres habitaciones con dos baños. Pruebe la hipótesis nula β1 igual a $ 3500 contra la hipótesis alternante β1 mayor de $ 3500 para un nivel de significación de 0.05.
SOLUCIÓN: a) Sustituyendo
∑x
1
= 25, ∑ x 2 = 16, ∑ x12 = 87, ∑ x1 x 2 = 55, ∑ x 22 = 36
y n=8 en la matriz XTX, se obtiene:
T
X X =
8 25 16
25 87 55
16 55 36
Después, la inversa de esta matriz puede obtenerse a través de cualquiera de las diferentes técnicas; aplicando una basada en el método de la adjunta, tenemos que:
107 1 (XTX) -1 = . -20 84 -17
-20
-17
32
-40
-40
71
141
ESTADÍSTICA APLICADA
donde 84 es el valor de X T X , el determinante de XTX.
∑ y = 637000, ∑ x y = 2031100 y ∑ x
Al sustituir
1
2
y = 1297700
T
X Y, se obtiene: ⎛ 637000 ⎞ ⎜ ⎟ X Y = ⎜ 2031100 ⎟ ⎜1297700 ⎟ ⎝ ⎠ T
y por último, reemplazando en: B = (XTX)-1XTY
107 -20 B=
1 84
-20
32
-17
-17
637000
-40
-40
2031100
71
1297700
5476100
=
1 84
347200 63700
=
65191.7 4133.3 758.3
Entonces la ecuación de regresión lineal múltiple estimada es:
yˆ = b0 + b1x1 + b2x2 Reemplazando:
yˆ = 65191.7 + 4133.3x1 + 758.3x2
142
en
ESTADÍSTICA APLICADA
Esta ecuación nos permite predecir el precio de venta de una casa de tres habitaciones(x1) con dos baños(x2). Esto es: yˆ = 65191.7 + 4133.3(3) + 758.3(2) = 79108.2 Es decir una casa con 3 habitaciones y dos baños tienen un precio de 79 100 dólares aproximadamente. b)
Para probar la hipótesis pedida procedemos del siguiente modo: I)
H0 : β1 = 3500 Ha : β1 > 3500
II)
α = 0.05 y n = 8
III)
El estadístico de prueba es el “t” de Student
βˆ1 − β1
t=
σˆ
Donde: σˆ = YTY =
8
∑y i =1
2 i
n c11 n − k −1
Y T Y − BT X T Y n
= 78800 2 + 74300 2 + ... + 82900 2 = 50907080000
BTXTY = 50906394166
σˆ =
50907080000 − 50906394166 = 292.8 8
βˆ1 − β1
Entonces: t =
σˆ
=
4133.3 − 3500 32 8 84
n c11
= 2.77
292.8 n − k −1 8 − 2 −1 Como este valor es mayor al estadístico tabular(2.015), entonces debe de rechazarse hipótesis nula, por lo que concluimos que en promedio cada habitación adicional suma más de 3500 dólares al precio de venta de una casa de ese tipo, con un nivel de significación del 5%.
143
ESTADÍSTICA APLICADA
2.
Una embotelladora de bebidas gaseosas analiza las rutas de servicio de las máquinas expendedoras en su sistema de distribución. Le interesa predecir el tiempo necesario para que el representante de ruta atienda las máquinas expendedoras en una tienda. Esta actividad de servicio consiste en abastecer la máquina con productos embotellados y algo de mantenimiento o limpieza. El ingeniero industrial responsable del estudio ha sugerido que las dos variables mas importantes que afectan el tiempo de entrega “y” son la cantidad de cajas de producto abastecido “x1” y la distancia caminada por el representante “x2”. El ingeniero ha reunido 25 observaciones de tiempo de entrega, que se presentan a continuación:
Nº de Observación 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 a) b)
Tiempo de entrega(min) y 16.68 11.50 12.03 14.88 13.75 18.11 8.00 17.83 79.24 21.50 40.33 21.00 13.50 19.75 24.00 29.00 15.35 19.00 9.50 35.10 17.90 52.32 18.75 19.83 10.75
Cantidad de cajas x1 7 3 3 4 6 7 2 7 30 5 16 10 4 6 9 10 6 7 3 17 10 26 9 8 4
Distancia (pies) x2 560 220 340 80 150 330 110 210 1460 605 688 215 255 462 448 776 200 132 36 770 140 810 450 635 150
Estime la ecuación de regresión lineal múltiple Construya el cuadro de ANVA y calcule R2.
144
ESTADÍSTICA APLICADA
SOLUCIÓN: a) Sustituyendo ∑ x1 = 219, ∑ x2 = 10232, ∑ x12 = 3055, ∑ x1 x2 = 133899, ∑ x22 = 6725688 y n=25 en la matriz XTX, se obtiene 25 219 10232 219 3055 133899 10232 133899 6725688
T
X X =
la inversa de esta matriz la obtenemos a través del método de la adjunta; esto es:
(XTX) -1 =
0.11321518
-0.00444859
-0.00008367
-0.00444859
0.00274378
-0.00004786
-0.00008367
-0.00004786
0.00000123
Al sustituir
∑ y = 559.60, ∑ x y = 7375.44 y ∑ x 1
2
y = 337072.00
en XTY, se obtiene: ⎛ 559.60 ⎞ ⎜ ⎟ X Y = ⎜ 7375.44 ⎟ ⎜ 337072.00 ⎟ ⎝ ⎠ T
y por último, reemplazando en: ⎛ 2.34123115 ⎞ ⎜ ⎟ B = (X X) X Y = ⎜1.61590712 ⎟ ⎜ 0.01438483 ⎟ ⎝ ⎠ T
-1
T
Entonces la ecuación de regresión lineal múltiple estimada es:
yˆ = b0 + b1x1 + b2x2 145
ESTADÍSTICA APLICADA
Reemplazando:
yˆ = 2.34123115 + 1.61590712x1 + 0.01438483x2
b) CUADRO DE ANALISIS DE VARIANCIA (ANVA) Fuente de variación Regresión Error o residual Total
Suma de cuadrados 5550.8166 233.7260 5784.5426
Grados de libertad 2 22 24
Cuadrado medio 2775.4083 10.6239
Fc 261.24
Donde: R2 = 0.9596
•
Efectúe las pruebas de hipótesis correspondientes.
EJERCICIOS PROPUESTOS 1.
Los siguientes datos muestran el número de habitaciones, el número de baños y los precios a los que se vendieron hace poco 10 casas de una muestra aleatoria de un distrito de Lima:
Nº de Habitaciones (x1) 3 2 4 2 3 2 5 4 5 3
Nº de Baños (x2) 2 1 3 1 2 2 3 2 2 3
Precio (y) (en dólares) 78 800 74 300 83 800 74 200 79 700 74 900 88 400 82 900 84 600 80 200
Estime la ecuación de regresión lineal múltiple y prediga el precio de venta de una casa de cuatro habitaciones con tres baños.
146
ESTADÍSTICA APLICADA
2.
Los siguientes datos constan del nivel de ventas que obtuvo la empresa “MACHI SAC” durante cuatro meses del presente año; los gastos de publicidad por televisión; y los gastos por publicidad en periódicos (todo en miles de dólares):
GASTOS PUBL.-TV 4 7 9 12
GASTOS PUBL.-RADIO 1 2 5 8
VENTAS 7 12 17 20
Determine la ecuación de regresión lineal múltiple estimada y prediga el nivel de ventas de un mes en el cual se piensa invertir 15 y 10 mil dólares en publicidad de televisión y radio respectivamente. 3.
Los datos siguientes se refieren a las utilidades semanales (en miles de soles) de 5 restaurantes, sus aforos (en decenas) y el tránsito diario en promedio (en miles de automóviles) que pasan por sus ubicaciones:
AFORO 2 3 1 4 4
TRANSITO DIARIO 1 2 1 3 2
UTILIDAD NETA SEMANAL 3 4 2 5 2
Analice la información y calcule la línea de regresión múltiple estimada.
147
ESTADÍSTICA APLICADA
4.
Los siguientes datos muestrales los proporciona una compañía de mudanzas sobre los pesos de seis envíos, las distancias que se desplazaron y el daño que se provocó:
Peso Distancia Daño (1000 libras) (1000 millas) (dólares) x1 X2 y 4.0 1.5 160 3.0 2.2 112 1.6 1.0 69 1.2 2.0 90 3.4 0.8 123 4.8 1.6 186 a) Suponiendo que la regresión es lineal, estime β0 , β1 y β2. b) Utilice los resultados del inciso a) para estimar el daño cuando un cargamento que pesa 2400 libras es desplazado una distancia de 1200 millas. 5.
Los datos siguientes se refieren a las utilidades semanales en promedio (en miles de dólares) de cinco restaurantes, sus aforos y el tránsito diario en promedio (en miles de automóviles) que pasan por sus ubicaciones: Aforo x1 120 200 150 180 240
Tránsito Utilidad neta Semanal diario y x2 19 23.8 8 24.2 12 22.0 15 26.2 16 33.5
a) Suponiendo que la regresión es lineal, estime β0 , β1 b) Utilice los resultados del inciso a) para predecir semanal neta en promedio de un restaurante capacidad de asientos de 210 en un sitio donde diario promedio es de 14000 automóviles.
148
y β 2. la utilidad son una el tránsito
ESTADÍSTICA APLICADA
6.
Los siguientes datos constan de las calificaciones que obtuvieron 10 estudiantes en un examen, su coeficiente intelectual y el número de horas que estudiaron para el examen: Coeficiente Número de horas Calificaciones Intelectual de estudio y x1 x2 112 5 79 126 13 97 100 3 51 114 7 65 112 11 82 121 9 93 110 8 81 103 4 38 111 6 60 124 2 86 a) Suponiendo que la regresión es lineal, determine β0 , β1 y β2. b) Prediga la calificación de un estudiante con un coeficiente intelectual de 108 que estudió seis horas para presentar el examen.
7.
Los datos siguientes se recolectaron para determinar la relación existente entre dos variables de proceso y la dureza de cierto tipo de acero: Dureza Contenido de cobre Temperatura de (Rockwell 30-T) (porcentual) recocido(0F) x2 y x1 78.9 0.02 1000 55.2 0.02 1200 80.9 0.10 1000 57.4 0.10 1200 85.3 0.18 1000 60.7 0.18 1200 Ajuste una línea recta por el método de mínimos cuadros y utilícela para determinar la dureza promedio de este tipo de acero cuando el contenido de cobre es del 0.14% y la temperatura de recocido es 11000F.
149
ESTADÍSTICA APLICADA
8.
Los que siguen son datos a cerca de la efectividad porcentual de un analgésico y las cantidades de tres medicamentos distintos (en miligramos) presentes en cada cápsula:
Medicamento A Medicamento B Medicamento C x1 x2 x3 15 15 15 15 30 30 30 30 45 45 45 45
20 20 30 30 20 20 30 30 20 20 30 30
10 20 10 20 10 20 10 20 10 20 10 20
Efectividad porcentual y 47 54 58 66 59 67 71 83 72 82 85 94
Suponiendo que la regresión es lineal, determine los coeficientes de regresión. 9.
Supóngase que el gerente de ventas de una gran compañía distribuidora de partes para automóviles, desea calcular desde abril las ventas anuales totales de una región. Según las ventas regionales, también pueden estimarse las ventas totales las ventas totales de la compañía. Si, con base en la experiencia, se encuentra que los estimados de abril de las ventas anuales son razonablemente exactos, entonces en los años futuros podría utilizarse el pronóstico de abril para revisar los planes de producción y mantener el inventario correcto en las tiendas al menudeo. Varios factores parecen estar relacionados con las ventas, incluyendo en número de tiendas al menudeo en la región que almacena las partes comercializadas por la compañía, el número de automóviles registrados en la zona hasta abril 1, y el ingreso personal total para el primer trimestre del año. Finalmente se seleccionaron cinco variables independientes como las más importantes (de acuerdo con el gerente de ventas). Después se recopilaron datos para un año reciente. También se registraron las
150
ESTADÍSTICA APLICADA
ventas anuales totales en ese año según cada región. Obsérvese en la tabla anexa que para la región 1 se tuvieron 1739 tiendas al menudeo que almacenan las partes de auto de la empresa, que hubo 9270000 automóviles registrados en la región hasta el 1 de abril, y que las ventas para ese año fueron por $ 37702000(dólares).
Ventas anuales (mdd) y
Número de tiendas de menudeos x1
Número de automóviles registrados (millones) x2
Ingreso personal (mmdd) x3
Antigüedad promedio de los automóviles (años) x4
Número de supervisores x5
37.702 24.196 32.055 3.611 17.625 45.919 29.600 8.114 20.116 12.994
1739 1221 1846 120 1096 2290 1687 241 649 1427
9.27 5.86 8.81 3.81 10.31 11.62 8.96 6.28 7.77 10.92
85.4 60.7 68.1 20.2 33.8 95.1 69.3 16.3 34.9 15.1
3.5 5.0 4.4 4.0 3.5 4.1 4.1 5.9 5.5 4.1
9.0 5.0 7.0 5.0 7.0 13.0 15.0 11.0 16.0 10.0
Nota: mdd indica millones de dólares, y mmdd, miles de millones de dólares. a) b) c)
Estime la ecuación de regresión lineal múltiple. Realice la prueba de hipótesis para los coeficientes de regresión con un nivel de significación de 0.05. Calcule e interprete al coeficiente de determinación.
10. El administrador de un nuevo programa paralegal en Seagate Techinical Collage desea estimar el promedio de calificaciones en dicho programa. Consideró que el promedio de calificaciones en bachillerato (GPA, de grade Point Average), la puntuación en expresión oral en el examen de Aptitud Académica Superior (SAT, de Scholastic Aptitude Test), y las calificaciones de matemática en el SAT, serían buenos preeditores (o elementos de predicción) del GPA paralegal. Los datos para nueve estudiantes son:
151
ESTADÍSTICA APLICADA
Estudiante 1 2 3 4 5 6 7 8 9
GPA Expresión oral Matemáticas GPA Bachillerato SAT SAT Paralegal 3.25 480 410 3.21 1.80 290 270 1.68 2.89 420 410 3.58 3.81 500 600 3.92 3.13 500 490 3.00 2.81 430 460 2.82 2.20 320 490 1.65 2.14 530 480 2.30 2.63 469 440 2.33
a) Estime la ecuación de regresión lineal múltiple. b) Realice la prueba de hipótesis para los coeficientes de regresión con un nivel de significación de 0.05. c) Calcule e interprete al coeficiente de determinación. 11.
El señor Mike Wilde es presidente de sindicato de profesores del Distrito escolar de Otsego. Al prepararse para futuras negociaciones, a Mike le gustaría investigar la estructura de los sueldos de personal docente en el distrito. Considera que existen tres factores que afectan el pago laboral de un profesor, años de experiencia, una calificación de la efectividad en la enseñanza (asignada por el director) y si el profesor tiene o no grado de maestría. Una muestra aleatoria de 20 profesores dio como resultado los siguientes datos:
152
ESTADÍSTICA APLICADA
Sueldos (mdd), y 21.1 23.6 19.3 33.0 28.6 35.0 32.0 26.8 38.6 21.7 15.7 20.6 41.8 36.7 28.4 23.6 31.8 20.7 22.8 32.8 *
Años de Experiencia x1 8 5 2 15 11 14 9 7 22 3 1 5 23 17 12 14 8 4 2 8
Calificación del director x2 35 43 51 60 73 80 76 54 55 90 30 44 84 76 68 25 90 62 80 72
Maestría * x3 0 0 1 1 0 1 0 1 1 1 0 0 1 0 1 0 1 0 1 0
1= si,0=no
Nota: mdd indica miles de dólares. a)
b)
c)
d)
Determine la ecuación de regresión. ¿Qué sueldo estimaría usted para un profesor con cinco años de experiencia, una calificación de 60 dada por el director, y sin maestría? Realice una prueba global de hipótesis para determinar si algunos de los coeficientes de regresión netos difieren de cero. Utilice el nivel de significación de 0.05. Realice una prueba de hipótesis para los coeficientes de regresión. ¿Consideraría eliminar cualesquiera de las variables independientes? Use el nivel de significancia 0.05 Si su conclusión para la parte (c) fue suprimir una o más variables independientes, efectué de nuevo el análisis sin esas variables.
153
ESTADÍSTICA APLICADA
12.
El gerente de ventas distrital de un importante fabricante de automóviles está estudiando las ventas. Específicamente le gustaría determinar qué factores afectan el número de autos vendidos en una distribuidora. Para investigar, selecciona al azar 12 distribuidores. De ellos obtiene el número de vehículos vendidos el último mes, los minutos de publicidad radiofónica comprados en dicho periodo, el número de vendedores de tiempo completo empleados en la distribuidora, y si ésta se localiza en la ciudad o no. La información es la siguiente:
Automóviles vendidos el último mes y
127 138 159 144 139 128 a)
b)
c)
d)
Publicidad x1
18 15 22 23 17 16
Fuerza de ventas x2
Ciudad x3
Automóviles vendidos el último mes y
Publicidad x1
10 15 14 12 12 12
Si No Si Si No Si
161 180 102 163 106 149
25 26 15 24 18 25
Fuerza de ventas x2
14 17 7 16 10 11
Determine la ecuación de regresión. ¿Cuántos autos esperaría que se vendieran en una distribuidora con 20 vendedores, que paga 15 minutos de publicidad y se localiza en una ciudad? Realice una prueba global de hipótesis para determinar si alguno de los coeficientes de regresión neta es diferente de cero. Sea α = 0.05. Efectúe una prueba de hipótesis para los coeficientes de regresión individuales. ¿Consideraría eliminar alguna de las variables independientes? Sea α = 0.05. Si su conclusión en la parte (c) fue suprimir una o más de las variables independientes, efectúe de nuevo el análisis sin esas variables
154
Ciudad x3
Si Si No Si No Si
ESTADÍSTICA APLICADA
13.
Las tiendas de Fran's Convenience Marts están localizadas en el área metropolitana de Erie, Pennsylvania. A Fran, la dueña, le agradaría la extensión a otras comunidades del noroeste de Pennsylvania y el suroeste de NuevaYork, tales como Jamestown, Corry, Meadville y Warren. Como parte de su presentación al banco local, le gustaría entender mejor los factores que hacen que una tienda en particular sea lucrativa. La propietaria debe hacer todo el trabajo sola, así que no podrá analizar todos sus establecimientos. Selecciona al azar una muestra de 15 tiendas y registra el promedio de las ventas diarias (Y), la superficie de piso (área), el número de lugares de estacionamiento, y el ingreso económico medio de familias en esa región para cada establecimiento. La información de la muestra se presenta enseguida.
Tiendas en muestra
Ventas diarias
Área de tiendas
Lugares de estacionamiento
Ingreso (mdd)
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
$1840 1746 1812 1806 1792 1825 1811 1803 1830 1827 1764 1825 1763 1846 1815
532 478 530 508 514 556 541 513 532 537 499 510 490 516 482
6 4 7 7 5 6 4 6 5 5 3 8 4 8 7
44 51 45 46 44 46 49 52 46 46 48 47 48 45 43
Nota : mdd indica miles de dólares. a) b) c)
Determine la ecuación de regresión. ¿Cuál es el valor de R2? Comente acerca de tal valor. Realice una prueba global de hipótesis para determinar si alguna de las variables independientes es diferente de cero.
155
ESTADÍSTICA APLICADA
d) e)
14.
Realice pruebas individuales de hipótesis para determinar si se pueden suprimir variables independientes. Si se eliminan variables, vuelva a calcular la ecuación de regresión y R2.
El señor Steve Douglas fue contratado como gerente en entrenamiento por una importante empresa financiera. Como primer proyecto, se le pidió que estudiara la utilidad bruta en la industria química.¿Qué factores afectan las utilidades en esa industria? Steve selecciona al azar una muestra de 16 compañías y obtiene datos respecto a la cantidad de empleados, el número de dividendos consecutivos pagados de acciones comunes, el valor total del inventario al inicio del presente año y la ganancia bruta de cada empresa. Sus descubrimientos son:
Compañía 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
Ganancia bruta (mdd) y 2800 1300 1230 1600 4500 5700 3150 640 3400 6700 3700 6440 1280 4160 3870 980
Número de Dividendos empleados consecutivos x1 x2 140 65 130 115 390 670 205 40 480 810 120 590 440 280 650 150
Nota : mdd indica miles de dólares.
156
12 21 42 80 120 64 43 14 88 98 44 110 38 24 60 24
Inventario Inicial (mdd) x3 1800 320 820 76 3600 8400 508 870 5500 9875 6500 9130 1200 890 1200 1300
ESTADÍSTICA APLICADA
a)
b)
c)
d)
15.-
Determine la ecuación de regresión. La Master Chemical Company emplea 220 personas, ha pagado 64 dividendos consecutivos de acciones comunes y tiene un inventario valuado en $1 500000 (dólares) al principio del año. ¿Cuál es la ganancia bruta calculada? Realice una prueba global de hipótesis para determinar si alguno de los coeficientes de regresión neta es diferente de cero. Efectúe una prueba de hipótesis para los coeficientes de regresión individuales. ¿consideraría eliminar alguna de las variables independientes? Si su conclusión para la parte (c) fue eliminar una o más variables independientes, haga de nuevo el análisis sin considerar esas variables.
El Times Observer es un diario en Metro City. Como muchos periódicos de la ciudad, dicha publicación está pasando por difíciles tiempos financieros. La gerente de circulación está estudiando otros periódicos en ciudades semejantes de Estados Unidos y Canadá. Está particularmente interesada en saber qué variables se relacionan con el número de suscripciones al diario. Ha podido obtener la siguiente información de muestra acerca de 25 periódicos de ciudades similares. Se utilizó la siguiente notación: Suscr = Número de subscripciones (en miles). Pobl = Población metropolitana (en miles). Public = Presupuesto de publicidad del periódico (en cientos de dólares). Ingr = Ingreso familiar medio en el área metropolitana (en miles de dólares)
Diario
Suscr
Pobl
Public
Ingr
Diario
Suscr
Pobl
Public
Ingr
1 2 3 4 5 6 7 8 9 10 11 12 13
37.95 37.66 37.55 38.78 37.67 38.23 36.90 38.28 38.95 39.27 38.30 38.84 38.14
588.9 585.3 566.3 642.9 624.2 603.9 571.9 584.3 605.0 676.3 587.4 576.4 570.8
13.2 13.2 19.8 17.6 17.6 15.4 11.0 28.6 28.6 17.6 17.6 22.0 17.6
35.1 34.7 34.8 35.1 34.6 34.8 34.7 35.3 35.1 35.6 34.9 35.4 35.0
14 15 16 17 18 19 20 21 22 23 24 25
38.39 37.29 39.15 38.29 38.09 37.83 39.37 37.81 37.42 38.83 38.33 40.24
586.5 544.0 611.1 643.3 635.6 598.9 657.0 595.2 520.0 629.6 680.0 651.2
15.4 11.0 24.2 17.6 19.8 15.4 22.0 15.4 19.8 22.0 24.2 33.0
35.5 34.9 35.0 35.3 34.8 35.1 35.3 35.1 35.1 35.3 34.7 35.8
157
ESTADÍSTICA APLICADA
a) b) c)
16.
Determine la ecuación de regresión. Realice una prueba global de hipótesis para determinar si algunos coeficientes de regresión neta no son iguales a cero. Efectúe una prueba para los coeficientes individuales. ¿Consideraría eliminar algunos de ellos?
El Toledo Blade (Ohio) hizo recientemente una campaña indicando que tenía vacantes para mensajeros. "Despierte ante las oportunidades", decía el anuncio. "Con una ruta Blade, usted trabajará cerca de sólo una hora al día en la mañana, cuando tenga tiempo". El anuncio continuaba con una lista de las siguientes rutas de mensajería. La ganancia semanal promedio (en dólares) es la variable dependiente, y el número de clientes diarios, así como el de clientes de domingo, son las variables independientes.
Ruta Greenwood Oswald Neveda Forsythe Idaho Valleywood Oak Hill Burbank Burke Glen Penelope
a)
b)
Ganancia semanal promedio
Número de clientes diarios
Número de clientes de domingo
$47.00 70.00 24.00 30.00 25.00 44.00 26.00 19.50 33.20 35.00
66 98 32 42 34 60 40 30 46 48
78 117 45 51 44 76 40 30 57 61
Determine la ecuación de regresión. ¿Cuánta ganancia calcularía para una ruta que tiene 50 clientes diarios y 100 de domingo? ¿Se puede concluir que las dos variables explican toda la variación en la utilidad semanal?
158
ESTADÍSTICA APLICADA
17.
Un departamento de hipotecas en un gran banco está estudiando sus préstamos recientes. De particular interés es conocer cómo factores tales como el valor de la casa (en miles de dólares), el nivel de educación y la edad de quien encabeza la familia, el pago actual de hipoteca al mes (en dólares) y el sexo de tal persona (masculino = 1, femenino =0), se relacionan con el ingreso familiar. ¿Son estas variables mecanismos efectivos de predicción del ingreso para el hogar? Se obtiene una muestra al azar de 25 préstamos recientes:
Ingreso (millones de dólares)
Valor (millones de dólares)
Años de educación
Edad
Pago de hipoteca
Sexo
$40.3 39.6 40.8 40.3 40.0 38.1 40.4 40.7 40.8 37.1 39.9 40.4 38.0 39.0 39.5 40.6 40.3 40.1 41.7 40.1 40.6 40.4 40.9 40.1 38.5
$190 121 161 161 179 99 114 202 184 90 181 143 132 127 153 145 174 177 188 153 150 173 163 150 139
14 15 14 14 14 14 15 14 13 14 14 15 14 14 14 14 15 15 15 15 16 13 14 15 14
53 49 44 39 53 46 42 49 37 43 48 54 44 37 50 50 52 47 49 53 58 42 46 50 45
$230 370 397 181 378 304 285 551 370 135 332 217 490 220 270 279 329 274 433 333 148 390 142 343 373
1 1 1 1 0 0 1 0 0 0 1 1 0 0 1 1 1 0 1 1 0 1 1 0 0
159
ESTADÍSTICA APLICADA
a) b) c)
d) e)
18.
Determine la ecuación de regresión. ¿Cuál es el valor de R2? Comente acerca del mismo. Realice una prueba global de hipótesis para determinar si algunas de las variables independientes son diferentes de cero. Efectúe pruebas individuales de hipótesis para establecer si se pueden eliminar algunas de las variables independientes. Si se suprimen variables, vuelva a formular la ecuación de regresión y R2.
El señor Fred G. Hire es el gerente de recursos humanos del Centro Médico St. Luke. Como parte de su reporte anual al presidente de dicha institución se le pidió presentar un análisis de los empleados a sueldo. Debido a que hay más de 1000 trabajadores, no tiene e! personal para reunir información respecto a cada uno de los laborantes en cuestión, así que selecciona una muestra aleatoria de 30. Por cada trabajador registra el pago laboral mensual, los meses de servicio en St. Luke, el sexo (1= masculino, 0= femenino), y si el empleado tiene un puesto técnico ó de oficina. Los que hacen trabajos técnicos se codifican como 1, y los que realizan actividades de escritorio, como 0.
160
ESTADÍSTICA APLICADA
Empleado en la muestra
Salario mensual (en dólares)
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30
$1769 1740 1941 2367 2467 1640 1756 1706 1767 1200 1706 1985 1555 1749 2056 1729 2186 1858 1819 1350 2030 2550 1544 1766 1937 1691 1623 1791 2001 1874
a)
b)
Tiempo de servicio
93 104 104 126 98 99 94 96 124 73 110 90 104 81 106 113 129 97 101 91 100 123 88 117 107 105 86 131 95 98
Edad
Sexo
Trabajo
42 33 42 57 30 49 35 46 56 23 67 36 53 29 45 55 46 39 43 35 40 59 30 60 45 32 33 56 30 47
1 1 1 1 1 1 1 0 0 0 0 0 0 0 1 0 1 0 1 1 1 1 0 1 1 0 0 0 1 1
0 0 1 1 1 1 0 1 0 1 1 1 0 0 0 1 1 1 1 1 0 0 0 1 1 1 0 1 1 0
Determine la ecuación de regresión usando el sueldo como la variable dependiente, y las otras cuatro variables como variables independientes. ¿Cuál es el valor de R2? Comente respecto a este valor.
161
ESTADÍSTICA APLICADA
c)
d) e)
Realice una prueba global de hipótesis para determinar si algunas de las variables independientes son diferentes de cero. Realice una prueba individual para determinar si se puede eliminar alguna de las variables independientes. Vuelva a establecer la ecuación de regresión utilizando sólo las variables independientes que son significativas. ¿Cuánto más gana al mes un hombre que una mujer? ¿Hay alguna diferencia si el empleado tiene un puesto técnico o uno de oficina?
162
ESTADÍSTICA APLICADA
TABLAS ESTADÍSTICAS
TABLA 1: DISTRIBUCIÓN NORMAL TABLA 2: DISTRIBUCIÓN t DE STUDENT TABLA 3: DISTRIBUCIÓN χ2 TABLA 4: DISTRIBUCIÓN F TABLA 5: PROBABILIDADES BINOMIALES TABLA 6: PROBABILIDADES DE POISSON TABLA 7: TABLA DE NÚMEROS AL AZAR
“Tus padres y tus profesores son tus fieles y desinteresados amigos: ¡Aprovéchalos! por que no podrán acompañarte por mucho tiempo”.
163
ESTADÍSTICA APLICADA
164
ESTADÍSTICA APLICADA
165
ESTADÍSTICA APLICADA
166
ESTADÍSTICA APLICADA
167
ESTADÍSTICA APLICADA
Z 168
ESTADÍSTICA APLICADA
169
ESTADÍSTICA APLICADA
170
ESTADÍSTICA APLICADA
171
ESTADÍSTICA APLICADA
172
ESTADÍSTICA APLICADA
173
ESTADÍSTICA APLICADA
174
ESTADÍSTICA APLICADA
175
ESTADÍSTICA APLICADA
176
ESTADÍSTICA APLICADA
177
ESTADÍSTICA APLICADA
178
ESTADÍSTICA APLICADA
179
ESTADÍSTICA APLICADA
180
ESTADÍSTICA APLICADA
181
ESTADÍSTICA APLICADA
182
ESTADÍSTICA APLICADA
BIBLIOGRAFÍA
Devore, Jay (1999). Probabilidad para Ingeniería y Ciencias. México, D.F. Reprotló. S.A. de C.V. 697p. Freund, John; Walpole, Ronald (1990). Estadística Matemática con Aplicaciones. Prentice-Hall Hispanoamericana. S.A. EDITORIAL. 617p. Mason, Robert†; Lind, Douglas; Marchal, William (2001). Estadística para Administración y Economía. México, D.F. ALFAOMEGA GRUPO EDITOR, S.A. de C.V. 785p.
Montgomery, Douglas; Runger, George (2002). Probabilidad y Estadística. México, D.F. EDITORIAL LIMUSA, S.A. de C.V. 819p.
Montgomery, Douglas; Peck, Elizabeth; Vining Geoffrey (2002). Regresión Lineal. México, D.F. GRUPO PATRIA CULTURAL, S.A. de C.V. 567p. Miller, Irwin; Freund, John; Johnson, Richard (1992). Probabilidad y Estadística para Ingenieros. México, D.F. Prentice-Hall Hispanoamericana. S.A. 624p. Rubio Donet, Jorge. Estadística Aplicada. Perú. 179p.
Dr. Edgar Acuna http://math.uprm.edu/~edgar UNIVERSIDAD DE PUERTO RICO RECINTO UNIVERSITARIO DE MAYAGUEZ
“Estudia que la meta que te has trazado se logra estudiando”
183