Curso: Análisis de Datos para la Gerencia Profesor: Tomás Minauro La Torre Preguntas de Repaso
Pr eg unta 1
Se realiza una encuesta entre los clientes de un restaurante de comida rápida para determinar su preferencia por las hamburguesas o los sándwiches de pollo. De 200 encuestados seleccionados, 75 eran niños y 125 eran adultos. 120 preferían las hamburguesas y 80 los de pollo. 55 de los niños prefiere hamburguesas. Calcular: 1. 2. 3. 4. 5. 6. 7. 8. 9.
La probabilidad de que una pers ona s eleccionada elecci onada al azar azar es un adulto. adulto. L a probabilida probabili dad d de que una pers ona s eleccionada elecci onada al azar azar es un u n adulto adulto o un niño. L a probabilida probabili dad d de que una pers ona s eleccionada elecci onada al azar azar es un u n niño y prefi ere el pollo. L a probabilida probabili dad d de que una pers ona s eleccionada elecci onada al azar azar es un u n adulto adulto y prefi ere el pollo. L a probabilidad probabili dad de que una pers ona s eleccionada elecci onada al azar azar es un niño ni ño o prefi ere hamburguesa. S i asumimos as umimos que s abemos abemos que la la pers ona es un niño. L a probabilidad probabilidad de que es es te individuo indivi duo prefiere hamb hamburg urg uesa. S i asumimos asu mimos que sab s abem emos os que una pers ona prefiere prefi ere poll pollo. o. La probab probabilidad ilidad de que es es te individuo indi viduo es un adult adulto. o. S i asumimos que s abem abemos os que una pers ona prefiere prefi ere hamburg hamburg uesa ues a. La probabilidad probabilidad de que es es te individuo indivi duo es es un niño. C on todos todos los res r esult ultad ados os anteriores anterior es,, elab elabore ore un breve texto texto con una recomendación.
Pr eg unta 2
En una planta de envasado de carne, la máquina A procesa el 60% de la producción de la planta, mientras que la máquina B, el 40% restante. Del total de la producción, el 4% de los paquetes están sellados inadecuadamente. inadecuadam ente. Además, el 5% de los paquetes que son de la máquina A, est án sellados inadecuadamente. a) S i s e sele s elecc cciona iona un paquet paquete e al al aza azar, r, ¿ cuál es la probabilidad probabilidad de de que es es te adecuad adecuada amente mente s ellado? ellado? b) S i s elecci elecci onamos onamos al aza azarr un paquete paquete que NO está es tá bien s ella ellado, do, ¿ cuál es la probabilidad probabilidad de que haya s ido proces proc esad ado o en la la máquina máquina A? A? c) S i s elecc eleccionamos ionamos al azar un paquet paquete e que fue proces ado ado en la máquina máquina A, A , ¿ cuál es la probabilidad probabili dad de que NO esté es té bien s ellado? ellado? d) S i s elecc eleccionamos ionamos al azar azar un paquet paquete e que fue proces ado ado en la la máquina máquina B , ¿ cuál es es la probabilidad probabili dad de que SI S I es té bien s ellado? ellado? e) S i s elecc eleccionamos ionamos al azar un paquet paquete e que fue proces ado ado en la máquina máquina B , ¿ cuál es la probabilidad probabili dad de que no es té bien s ellado? ellado? f) S i s eleccionamos elecci onamos al azar azar un paquete paquete que S I está es tá bien s ellado, ellado, ¿ cuál es la pro probabilidad babilidad de que haya haya si do proces ado en la la máquina máquina B ? g ) C on todos los res ultados ultados anterior es , ¿ qué s e puede pu ede recomendar r ecomendar a los dir ectiv os de la planta? planta?
Curso: Análisis de Datos para la Gerencia Preguntas de Repaso
Prof. Tomás Minauro La Torre Pág. 2
Pr eg unta 3
La caja de ahorro municipal utiliza con frecuencia la investigación para medir qué tan conscientes están los clientes de los productos, comprobar el nivel de satisfacción y las actitudes relacionadas con los mismos. A veces, resulta ventajoso ofrecer paquetes financieros especiales a grupos de clientes determinados. En este caso, se diseñó un paquete financiero para clientes jubilados, de 55 años o más de edad, que se ubicaran por arriba del promedio del mercado. Los estudios de mercado habían dado un porcentaje de aceptación de 30%. Si se extrae una muestra de 200 clientes y se les pregunta su intención de adquirir el producto: a) ¿ E n qué proporción de las muestras s e tendrá entre 25% y 35% de clientes que manifies tan s u intención de adquiri r el producto? b) ¿ Dentro de qué límites s imétricos del porcentaje de clientes que manifies tan s u intención de adquiri r el producto caerá el 98.50% de los porcentajes de mues tra? c) ¿ Cuál es la probabilidad de obtener un porcentaje de muestras de clientes que manifi estan s u intención de adquiri r el producto que s ea inferior a 23%? d) ¿ Cuál es la probabilidad de obtener un porcentaje de muestras de clientes que manifi estan s u intención de adquiri r el producto que s ea s uperi or a 33%? e) ¿ Qué es más probable que ocurra: i. más de 35% de clientes que manifi estan su intención de adquirir el producto con una mues tra de 200 o ii. más de 33% en una muestra de 300? E xplique. Pr eg unta 4
Un productor de jugo de naranja compra todas las naranjas de los 150 agricultores que siembran este cítrico en un valle cercano al norte de la ciudad de Lima. Se estima que la cantidad de jugo extraída de cada una de estas naranjas, tiene una distribución aproximadamente normal con una media de 5.80 onzas con una desviación estándar de 0.55 onzas. a. ¿ Cuál es la probabilidad de que una naranja s elecci onada aleatori amente conteng a: i. E ntre 4.50 y 5.55 onzas . ii. E ntre 5.80 y 6.70 onzas . b. ¿ 65% de las naranjas contendrán al menos cuántas onzas de jug o? c. ¿ Cuál es el valor de los cuartiles ? Interprete s us res ultados. Suponga que selecciona una muestra de 50 naranjas. d. ¿ Cuál es la probabilidad de que la media de la muestra sea ig ual o menor que 5.85 onzas ? e. ¿ E ntre que valores , s imétricamente dis tribuidos alrededor de la media caerán el 85% de las medias maestrales? f. ¿ 65% de las medias mues trales es tarán por arr iba de qué valor?
Suponga que selecciona otra muestra de 25 naranjas. g . ¿ Cuál es la probabilidad de que la media de la mues tra s ea ig ual o menor que 5.85 onzas? h. ¿ E ntre que valores , s imétricamente dis tribuidos alrededor de la media caerán el 85% de las medias maestrales? i. ¿ 65% de las medias muestrales estarán por arriba de qué valor?
Curso: Análisis de Datos para la Gerencia Preguntas de Repaso j.
Prof. Tomás Minauro La Torre Pág. 3
¿ S on diferentes los res ultados de las preg untas b, f e i? ¿ S on diferentes los res ultados de las preg untas d y g ? ¿ S on diferentes los resultados de las preg untas e y h? E xplique el por qué en cada cas o.
Pr eg unta 5
El Director de un Colegio Secundario en un distrito tradicional de la ciudad, quiere asegurarse de que no más del 5% de sus estudiantes faltan al colegio más de 10 días de clases en un año. Una muestra aleatoria de 145 estudiantes de una población de 800 mostró que 12 estudiantes faltaron más de 10 días de clases el año pasado. El director utilizará esta información para tomar decisiones. 1. ¿ E l parámetro de interés para el director es la proporción de es tudiantes en la muestra que reconocen haber faltado más de 10 días al año? E xplique su res puesta. 2. ¿ Cuál es el valor del parámetro poblaci onal de interés para el dir ector? 3. ¿ Puede concluir el director, con un ni vel de confianza del 95% que no más del 5% de los estudiantes del C oleg io han faltado más de 10 días el año pas ado? 4. Preocupado por los r esultados toma otra muestra de 145 cons umidores potenciales y se obtiene nuevamente 12 que faltaron más de 10 días de clas es el año pasado, ¿ Cómo modifica es to su i nferencia? ¿ Dis minuye el ries g o y/o aumenta s u precis ión? Pr eg unta 6
El rector de una universidad afirmó que la promoción que entraba este año parecía ser más grande que las que entraron en años anteriores, pero que su puntuación media del SAT es más bajo que en años anteriores. Él tomó una muestra de 50 de los estudiantes que ingresan este año y descubrió que su puntuación media SAT es 1501 con una desviación estándar de 83.80. Los registros de la universidad indican que la puntuación media SAT de los estudiantes que ingresaron a la universidad en años anteriores es 1.520. El Rector quiere saber si su inquietud tiene algún fundamento a. b. c. d. e. f. g .
¿ Cuál es el parámetro que le interes a obtener al rector? ¿ Cuál es la población que le interes a estudiar al rector? ¿ Cuáles s on las hipótesis para este estudio? ¿ Cuál es la definic ión de error tipo I? ¿ Cuál es la definic ión de error tipo II? ¿ Cuál es el nivel de s ig nificaci ón más adecuado para este estudio? ¿ Cuál s erí a el nivel más bajo de s ig nific ación en el que la hipótesis nula todavía puede s er rechazado? h. Con estos res ultados , ¿ podemos decir que la evidenci a demues tra más allá de toda duda que la puntuación media S A T de la promoción entrante este año es menor que las de años anteriores ? E xplique s u respuesta. i. Con es tos res ultados , ¿ el rector puede concluir que la media s áb puntuación de la promoción entrante de este año es menor que en años anterior es utilizando un nivel de s ig nific ación de 0.10? E xplique su res pues ta.
C on estos r esultados, ¿ el rector puede lleg ar a la conclusi ón de que exis ten pruebas s uficientes para demostrar que la puntuación media SA T de la promoción entrante es te año es menor que en años anteriores con no más de un 10% de probabilidad de rechazar por error la hipótesi s nula que es verdadera?
Curso: Análisis de Datos para la Gerencia Preguntas de Repaso
Prof. Tomás Minauro La Torre Pág. 4
Pr eg unta 7
Se trata de una cadena de supermercados que opera con más de 20 locales en diferentes distritos de la ciudad. El gerente de operaciones decidió una venta de fin de estación, se trata de un bono de descuento del 30% en una serie de productos que se utilizan para realizar una parrilla. El bono permitía al portador comprar productos de una lista de auspiciadores con dicho descuento. Como se trata de un descuento importante, se espera que las personas que hagan uso del bono, compren también artículos adicionales, suficientes para compensar el descuento correspondiente. Para medir el impacto del cupón, se han registrado todos los compradores que utilizaron el bono. Al final del período de promoción se seleccionó una muestra de 75 de estos compradores. Lo más importante es saber si la compra media total está por encima de un mínimo calculado para dicho fin. Se ha calculado que esta cifra debe ser de 285 soles, por lo menos, para que la promoción se pueda considerar un éxito.
Cantidad Media
299.50
Mediana
286.71
Moda
150.00
Desviación estándar
49.67
Mínimo
145.00
Máximo
585.00
Los datos se procesaron y los resultados son los que aparecen en la tabla. ¿Puede considerarse que ha sido un éxito la promoción?
Pr eg unta 8
Después de una extensa campaña de publicidad, el gerente de una empresa desea estimar la proporción de clientes potenciales que reconocen un nuevo producto. Se toma una muestra de 120 consumidores potenciales y se encuentra que 54 reconocen este producto. El gerente utilizará esta información para tomar decisiones. a. ¿ E l parámetro de interés para el adminis trador es la proporción de clientes potenciales en la mues tra que reconoce el nuevo producto? E xplique su res pues ta. b. ¿ Cuál es el valor del parámetro poblacional de interés para el gerente? c. ¿ Cómo podemos dis minuir el tamaño del error s in aumentar la muestra? d. ¿ Qué crees que opine la g erencia de tu s ug erencia en (3)? ¿ Cr ees que cons idere s atis factori o el método propues to? e. Pr eocupado por s us res ultados toma otra muestra de otros 120 cons umidores potenciales y s e obtiene nuevamente 54 que reconoc en el nuevo producto, ¿ Cómo modifica esto su inferencia? ¿ Dis minuye el ries g o y/o aumenta s u precis ión? Pr eg unta 9
Una compañía farmacéutica está considerando la comercialización de un nuevo anestésico local. El tiempo en el que hace efecto la anestesia que actualmente la compañía farmacéutica está produciendo tiene una distribución normal con una media de 7.4 minutos con una desviación estándar de 1.2 minutos. El componente activo del nuevo anestésico es tal que su tiempo en hacer efecto debe ser también una distribución normal con la misma desviación estándar, pero el tiempo medio puede ser inferior. Si es inferior, la compañía farmacéutica comercializará el nuevo anestésico; de lo contrario, continuará produciendo el fármaco más antiguo. Una muestra de tamaño 36 se traduce en una media muestral de 7.1. Para ayudar a tomar la decisión se hará una prueba de hipótesis. a) ¿ Cuál es el parámetro que le interes a obtener a la compañía? b) ¿ Cuáles s on las hipótesis para este análisis ? c) ¿ Cuál es la definic ión de error tipo I?
Curso: Análisis de Datos para la Gerencia Preguntas de Repaso
Prof. Tomás Minauro La Torre Pág. 5
d) ¿ Cuál es la definic ión de error tipo II? e) ¿ Cuál es el nivel de s ig nific ación más adecuado para es te estudio? f) ¿ Cuál s erí a el nivel más bajo de s ig nific ación en el que la hipótesis nula todavía puede s er rechazado? g ) ¿ Cuánto debe s er el valor de dic ho promedio mues tral para NO rechazar la hipótesis nula? h) Con estos res ultados , ¿ podemos decir que la evidenci a demuestra más allá de toda duda que el tiempo en el que hace efecto el nuevo anes tésic o es menor que el que actualmente comerci aliza la empresa? E xplique s u respues ta. i) ¿ Cuál es s u conclus ión con res pecto al nuevo anestésico que s e está cons iderando para reemplazar al actual? Pr eg unta 10
Un desarrollador de software desea utilizar el número de descargas (en miles) para la versión de prueba de un nuevo shareware para predecir la cantidad de ingresos (en miles de dólares) que puede hacer con la versión completa final. En la página siguiente, tenemos la salida de una regresi ón lineal simple junto con los gráficos de residuales y de probabilidad normal obtenidos a partir de un conjunto de datos de 30 diferentes sharewares que ha desarrollado: ¿ Cuál es una correcta interpretaci ón del coefi ci ente de la pendiente? ¿ Cuál es una predicción de los i ng res os cuando el número de des carg as es de 30 miles ? ¿ Cuál es una correcta interpretaci ón del coefi ci ente de determinación? ¿ Cuál es el error típico de es timación? ¿ Cuál es la des viación es tándar alrededor de la línea de reg res ión? ¿ Cuál de los s upues tos parece haber sido violado? ¿ Cuál es la hipótesis nula para probar s i exis te una relación lineal entre los ing res os y el número de des cargas? h) ¿ Cuáles s on los límites inferior y s uperi or de la es timación del intervalo de confianza del 95% para la media del cambio en los ing res os como res ultado de un aumento del 1 por mil en el número de des carg as ?
a) b) c) d) e) f) g )
Estadísticas de la regresión
Coeficiente de correlación múltiple Coeficiente de determinación R^2 R^2 ajustado Error típico Observaciones
0.869141 0.755407 0.746671 44.476491 30
ANÁLISIS DE VARIANZA Grados de libertad
Regresión Residuos Total
Suma de cuadrados
1 171062.919 28 55388.4309 29 226451.35 Coeficientes Error típico
Intercepción Descargas
-95.0614 3.7297
Promedio de los cuadrados
171062.919 1978.158
Estadístico t
F
86.476
P Value
4.67E-10
Probabilidad Inferior 95% Superior 95% Inferior 99% Superior 99%
26.9183 -3.531478585 0.001452415 -150.201038 0.4011 9.298678634 4.67E-10 2.908084
-39.921762 -169.443728 -20.6790722 4.551316 2.62135543 4.83804457
Curso: Análisis de Datos para la Gerencia Preguntas de Repaso
Prof. Tomás Minauro La Torre Pág. 6
Pr eg unta 11
Una clínica para bajar de peso quiere utilizar el análisis de regresión para construir un modelo para la pérdida de peso de un cliente (medida en libras). Dos variables que se cree que afecta a la pérdida de peso son tiempo en el programa y la hora de la sesión (mañana, tarde o noche). Estas variables se describen a continuación: Y = pérdida de peso (en libras) X1 = Tiempo en el programa de pérdida de peso (en meses) X2 = 1 si la sesión de la mañana, 0 si no X3 = 1 si la sesión de la tarde, si no 0 (nivel de base = sesión de noche) Se recogieron y se utilizan para ajustar el modelo datos para 12 clientes en un programa de pérdida de peso en la clínica. El modelo es: Y = β0 + β1X1 + β2X2 + β3X3 + ε La salida de Microsoft ® Excel se encuentra en la siguiente página: a. ¿ Cuál es elemento de estudio para es te análisis ? b. ¿ Cuál es la hipótesi s nula que se tiene que probar para determinar si la relación lineal entre la pérdida de pes o (Y ) y el tiempo en el prog rama (X1) es s ig nificativa? c. ¿ Cuánto es el cambio medio en la pérdida de peso (Y ) por cada aumento de un mes en el tiempo en el prog rama de (X1) al asi s tir a la s esión en la tarde? d. ¿ Cuánto es el cambio medio en la pérdida de pes o (Y ) por cada aumento de un mes en el tiempo en el prog rama de (X1) al as is tir a la s esión en la mañana? e. ¿ Cuánto es el cambio medio en la pérdida de pes o (Y ) por cada aumento de un mes en el tiempo en el prog rama de (X1) al asi s tir a la s esión en la noche? f. ¿ Cuál de las s ig uientes afirmaci ones es compatible con el anális is de la mues tra? J us tifi que su res pues ta. A . Hay pruebas suficientes (en α = 0,05) para indicar que hay relación entre la pérdida de peso (Y ) y el mes en el prog rama de (X1). B . Hay pruebas suficientes (en α = 0,05) para indicar que la relación entre la pérdida de peso (Y ) y el mes en el prog rama de (X1) depende de la hora de la s esión. C. Hay pruebas suficientes (en α = 0,10) para indicar que la hora de la sesión afecta a la pérdida de pes o (Y).
Curso: Análisis de Datos para la Gerencia Preguntas de Repaso
Prof. Tomás Minauro La Torre Pág. 7
D. No hay pruebas suficientes (en α = 0,10) para indicar que la relación entr e la pérdida de pes o (Y ) y el mes en el prog rama de (X1) depende de la hora de la s esión. Estadísticas de la regresión
Coeficiente de correlación múltiple Coeficiente de determinación R^2 R^2 ajustado Error típico Observaciones
0.744891525 0.554863384 0.44357923 9.058829287 15
ANÁLISIS DE VARIANZA Grados de libertad
Regresión Residuos Total
3 12 15
Suma de
cuadrados los cuadrados
1227.4905 984.7487 2212.2392
Coeficientes Error típico
Intercepción X1 X2 X3
0.08974 6.22538 2.21727 11.82330
Promedio de
14.12712 2.43473 18.14153 3.17778
409.16350 82.06239
Estadístico t
F
4.9860053
P Value
P Value
0.0135071
Inferior 95% uperior 95% Inferior 99% uperior 99%
0.00635261 0.9950358 -30.690595 2.55690722 0.0251442 0.920558 0.12222080 0.9047471 -37.309720 3.72061109 0.0029236 4.899503
0.103585 -43.062088 11.796402 -1.211601 2.483568 -53.196740 19.929815 2.116632
43.241576 13.662361 57.631284 21.529968
Pr eg unta 12
Una empresa de construcción desea determinar si el tamaño de la casa (Tamaño) está relacionado con el ingreso familiar (Ingreso), tamaño de la familia (Familia), y la educación del jefe de hogar (Escuela). La superficie de la Propiedad se mide en cientos de pies cuadrados, el ingreso se mide en miles de dólares, y la educación está en años de escolaridad. El constructor selecciona al azar 50 familias y corre la regresión múltiple con Excel. La salida obtenida se ofrece al final de la pregunta a) ¿ Qué fracción de la variabilidad en el tamaño de la cas a, s e explica por el ing res o, tamaño b) c)
d) e) f) g )
de la familia y la educación? ¿ A lg unas de las v ariables independientes en el modelo s on sig nificativas al nivel de 5%? Cuando el cons tructor utilizó un modelo de reg res ión lineal simple con tamaño de la casa como la variable dependiente y la educación como variable independiente, obtuvo un valor de R 2 de 23,0%. ¿ Qué porcentaje adicional de la variación total en el tamaño de la casa se ha explicado mediante la inclusión de tamaño de la familia y el ingreso en la reg resi ón múltiple? ¿ Cuál de los s ig uientes valores para el niv el de si g nific ación es la más pequeña para el que cada variable explicativa s ea estadís ticamente s ig nifi cativo indivi dualmente? ¿ Cuál de los s ig uientes valores para el nivel de sig nificaci ón es el más pequeño para el que el modelo de reg res ión en s u conjunto es s ig nific ativo? ¿ Cuál es el tamaño de la cas a predicho de una pers ona que tiene un ing res o anual de $ 40,000, que tiene una familia de 4 miembros , y tiene un total de 13 años de escolaridad? ¿ Cuál s ería la g ananci a míni ma anual que tendrí a que hacer una pers ona con una familia de 4 miembros y 16 años de educación para predecir una cas a de 10.000 pies c uadrados?
Curso: Análisis de Datos para la Gerencia Preguntas de Repaso
Prof. Tomás Minauro La Torre Pág. 8
h) Un individuo en la muestra tenía un ingreso anual de $ 100.000, una familia de 10
miembros, y una educación de 16 años. Este individuo era dueño de una casa con una s uperficie de 7.000 metros cuadrados. ¿ Cuál es el error de es te miembro de la mues tra? i) A un nivel de si g nific ancia 0.01, ¿ a qué conclus ión debe llegar el cons truc tor res pecto a la inclus ión del ing res o en el modelo de reg res ión? j) E n el nivel de s ig nificancia de 0.01, ¿ a qué conclus ión debe lleg ar el constructor r especto a la inclusión de la variable Es cuela en el modelo de reg res ión? Resumen Estadísticas de la regresión
Coeficiente de correlación múltiple Coeficiente de determinación R^2 R^2 ajustado Error típico Observaciones
0.864919539 0.748085809 0.731656623 5.13772577 50
ANÁLISIS DE VARIANZA Grados de libertad
Regresión Residuos Total
Suma de cuadrados
3 3605.7736 46 1214.2264 49 4820.0000 Coef ic ient es E rror típi co
Intercepción Ingresos Familia Escuela
-1.6335 0.4485 4.2615 -0.6517
5.8078 0.1137 0.8062 0.4319
Promedio de los cuadrados
F
1201.924533 45.533954 26.396226
E st adís ti co t
-0.2812597 3.9445910 5.2859092 -1.5089141
P V al ue
0.77977257 0.00027090 0.00000335 0.13815922
P Value
8.1115E-14
I nf eri or 95% S uperi or 95% I nf eri or 99% S uperior 99%
-13.323995 0.219634 2.638704 -1.521070
10.056995 0.677366 5.884296 0.217670
-17.239137 0.142987 2.095230 -1.812221
13.972137 0.754013 6.427770 0.508821