Estadísticabásica
CUADERNILLO
UNIDAD ACADEMICA UNIVESISTARIA LA PAZ ESTADÍSTICAS BÁSICAS ³CUADERNILLO´ INTEGRANTES: Audelo Rebollar Karla Estrada Olvera Nallely Haydee Ramírez Ortiz Gerardo San Vicente Fernández Gabriela
1 [ESTADISTICA BASICA]
Estadísticabásica
CUADERNILLO TEMARIO UNIDAD
1
2
TEMAS
Estadística descriptiva.
SUBTEMAS 1.1 Definición Definición y campo de la estadística. 1.2 Pl Planteamiento anteamiento de un caso específico. 1.3 Organización de datos. 1.4 Medidas de tendencia centrall. centra 1.5 Medidas de dispersión. 1.6 Aplicación en el caso específico.
Distrib istribu uciones mué uéstra stralles. 2.1 Introd 2.1 Introdu ucción. 2.2 Distrib istribu ución muestra estrall de la media con varianza conocida. 2.3 Teorema de dell límite límite centrall. centra 2.4 Distrib istribu ución muestra estrall de la proporción. 2.5 Distrib istribu ución muestra estrall de la diferencia de medias y de diferencia de proporciones. 2.6 Distrib istribu ución muestra estrall de la media con varianza desconocida. 2.7 Distrib istribu ución muestra estrall de la diferencia de medias. 2.8 Distrib istribu ución muestra estrall de la varianza. 2.9 Distrib istribu ución muestra estrall de la razón de varianzas. 2.10 2. 10 Ap Aplicación en el caso específico.
2 [ESTADISTICA BASICA]
Estadísticabásica
CUADERNILLO 3
Teoría de la estimación. 3.1 Introd 3.1 Introdu ucción. 3.2 Estimación y propiedades de los estimadores. 3.3 Estimación por intervallo. interva 3.4 Interva ntervallo de confianza para la media con varianza conocida y desconocida. 3.5 Interva ntervallo de confianza para una proporción y diferencia de proporciones. 3.6 Interva ntervallo de confianza para diferencias de medias con varianza conocida y desconocida. 3.7 Interva ntervallo de confianza para una varianza. 3.8 Interva ntervallo de confianza para una razón de varianzas. 3.9 Aplicación en el caso específico.
4
Pr uebas de hipótesis. 4.1 Conceptos 4.1 Conceptos de la teoría de pr ueba de hipótesis. 4.2 Errores tipo I y II. II. 4.3 Pr ueba de hipótesis para una media con varianza conocida y desconocida. 4.4 Pr ueba de hipótesis para una proporción y diferencia de proporciones. 4.5 Pr ueba de hipótesis para diferencia de medias con varianzas conocidas y desconocidas. 4.6 Pr ueba de hipótesis para una varianza 4.7 Pr ueba de hipótesis para una razón de varianzas. 4.8 Pr ueba de bondad de aju aj uste. 4.9 Aplicación en el caso 3
[ESTADISTICA BASICA]
Estadísticabásica
CUADERNILLO ESTADISTICA: La estadística es la ciencia cuyo uyo objetivo es reu reunir información cuantitativa rel relacionada a individu individuos, gr upos, series de hech echos, entre otros. Gracias al anál análisis de estos datos se pueden dedu deducir algunos significados precisos o algunas previsiones para el f uturo. La estadística, en general general, es la ciencia que que trata la recopil recopilación, la organización, la presentación, el anál análisis y la interpretación de datos numéricos con el fin de real realizar una toma de decisiones más efectiva. ³Ciencia ³Ciencia que que se ocu ocupa del del estu estudio de fenómenos de tipo gené genérico, normal normalmente compl complejos y enmarcados en un universo variabl variable, mediante el empl empleo de model modelos de redu reducción de la información y de anál análisis de val validación de los resul resultados tados en términos de representatividad´. La información puede ser numérica, alfabé fabética o simból simbólica. Consta de las fases de recogida de información, de anál análisis y de presentación e interpretación de los resul resultados tados y elaboración de métodos.
IMPORTANCIA La estadística resul resulta ta muy útil til no sól sólo para recopil recopilar y describir datos, sino tambié también para interpretar l interpretar la información obtenida, que que puede ser aprovech aprovechada para demostrar la evolu evolución ción de un fenómeno a travé través de cierto tiempo. En México, México, el Instit I nstitu uto Nacional acional de Estadística y Geografía Geografía (INE (INEGI) se encarga de recabar información recabar información estadística y geográfica de todo el país, en diferentes áreas y contex contextos. Los datos que que publica sirven para dar a conocer a cualquier lquier persona la situ situación en la que que se encu encuentra el área de donde se obtu obtuvo la información. Al gobierno le son muy úti ú tilles para tomar decisiones, por ejempl ejemplo, para saber qué acciones se deben impl implementar en tal tal o cual zona del del país, conocer los avances que que se han registrado o como herramienta para la evalu evaluación ación de un proy proyecto. Los métodos estadísticos se util tilizan prácticamente en investigaciones de todas las áreas de conocimiento; tanto en el ámbito acadé académico, como en el profesional profesional y laboral aboral.
4 [ESTADISTICA BASICA]
Estadísticabásica
CUADERNILLO DIVISIÓN DE LA ES TADÍSTICA La Estadística para su mejor estu estudio se ha dividido en dos grandes ramas: la Estadística Descriptiva y la la Inferencial nferencial.
Estadística Descriptiva: La f unción descriptiva de la estadística se enfoca en la presentación y clasificación de los datos obtenidos de la pobl población que que se anal analiza.
Estadística Inferencial nferencial: Esta apl aplicación de la estadística busca plantear y resol resolver probl problemas específicos y/o y/o hacer previsiones a partir de los datos de una muestra.
La estadística descriptiva describe datos. La estadística Inferencial nferencia l infiere con esos datos, entendiendo inferir como la predicción de un resul resultado. tado.
CONCEP TOS BÁSICOS: onjunto de todos los elementos que que presentan una característica Población: Conju comú común determinada, observabl observable y medibl medible. Por ejempl ejemplo, si el elemento es una persona, se pueden estu estudiar las características edad, peso, nacional nacionalidad, sex sexo, etc. Los elementos que que integran una pobl población pueden corresponder apersonas, objetos o gr upos (por ejemp por ejempllo, famil familias, las manzanas de una cosech cosecha, empl empleados de una empresa, etc.) etc.). individuo o unidad estadística es cada uno de los elementos que que Individuo: Un individu que un individu componen la pobl población. Nota que individ uo en estadística puede ser distinto a un individu individuo como persona. Por ejempl ejemplo, en los censos económicos se obtienen datos de los negocios. En este caso cada negocio, que que está formado por varias personas, es un individu individuo de la pobl población. mayoría de los estu estudios estadísticos se real realiza, no a partir de toda la Muestra: La may pobl población, sino de un subconju bconjunto o parte de ésta, llamado llamado muestra, partiendo del del supuesto de que que este sub conju conjunto presenta el mismo comportamiento y características que que la pobl población. En general general el tamaño de la muestra es mucho menor al tamaño de la pobl población. 5 [ESTADISTICA BASICA]
Estadísticabásica
CUADERNILLO que se desean anal analizar, obtenidos Muestreo: Es el proceso de recabar los datos que de una proporción redu reducida y representativa de la pobl población. llama variabl variable a una característica que que se observa en una pobl población Variable: Se llama o muestra, y a la cual se desea estu estudiar. La variabl variable puede tomar diferentes val valores dependiendo de cada individu individuo. Las variabl variables se pueden clasificar en cuantitativas y cualitativas: a) Variabl ariable cuantitativa: se expresa en val valores numéricos. Dentro de ella, lla, se subdividen en: variables expresadas con val valores enteros. Ej. N° Discreta: Se tratan de variabl de hijos de una Famil amilia, n° de alumnos lumnos de un curso. Continu ontinua: son val valores que que pueden tomar cualquier lquier val valor dentro de un interval intervalo. Ej. Peso, estatu estatura, sueldos. quella lla que que describe cualidades. No son numéricas b) Variabl ariable cualitativa: es aque y se subdividen en:
Nominal ominal: son variabl variables presentadas sin orden ni jerar quía. quía. Ej. Estado civil civil, preferencia por u por una marca, sex sexo, lugar lugar de de residencia. Ordinal rdinal: son variabl variables organizadas de acu acuerdo con una clasificación. Ej. grado de estu estudios, días de la semana, cal calidad de la atención, nivel nivel socioeconómico.
6 [ESTADISTICA BASICA]
Estadísticabásica
CUADERNILLO DATOS AGRUPADOS Ordenamiento de datos en arregl arreglos de datos y distribu distribuciones de frecu frecuencias Una ordenación de datos es una de las formas más sencill sencillas as de presentar los: organiza los val valores en orden ascendente o descendente. La ordenación de datos ofrece varias ventajas con respecto a los datos sin procesar:
Podemos identificar l identificar los val valores may mayor y or y menor rápidamente
Es fácil fácil dividir l dividir los datos en secciones
Podemos ver si ver si algunos val valores aparecen más de una vez en el arregl arreglo
Podemos observar l observar la distancia entre val valores sucesivos de los datos
DATOS AGRUPADOS Para ilustrar lustrar el método de datos agr upados, observaremos la tabl tabla 1, que que muestra los rendimientos anu anuales de ACCIONES ACCIONES de una empresa a lo largo de un periodo de 30 años expresados en tanto porciento y corregidos por el nivel nivel de inf lación. Para resu resumir estos mir estos datos, podríamos cal calcular ular s su media y varianza. La tarea de interpretar los datos de la tabl tabla 1 pueda hacerse más fácil fácil si se redu reduce la cantidad de información que que ha de ser asimi ser asimillada, agr upando las observaciones. TABLA 1 Rendimientos Rendimientos anu anuales en tanto porciento y corregidos por el nivel nivel de inf lación de unas ordinarias en un periodo de 30 años.
7 [ESTADISTICA BASICA]
Estadísticabásica
CUADERNILLO 1.1 TABLA 1
-3,2
17,4
-13,4 -1 3,4
-9,9
20,4
15, 5,1 1
2,7
-1,6 -1 ,6
41,0
20,8
6,1 6, 1
-21,8
20,9
53,4
10,3 10 ,3
15, 5,1 1
-13,8 -1 3,8
-34,8
24,6
31,1
-1,,0 -1
10,3 10 ,3
-1,5 -1 ,5
28,3
17,2
3,6
26,0 26, 0
-13, -1 3,0 0
10,6 10 ,6
18,2
1.2 TABLA 2. Subdivisión de los rendimientos de la tabl tabla 1 en clases
Rendimiento corregido por el Número Número de nivell de inf lación nive (frec frecu uencias encias))
recu uencias Acumul uladas adas años Frec
-39,95% a -19,95%
2
2
-19,95% a 0,05%
8
10
11
21
20,05% a 40,05%
7
28
40,05% a 60,05%
2
30
0,05% a 20,05%
Los subinterval bintervalos en los que que se han dividido el conju conjunto de datos, reciben el nombre de clases, y el número de observaciones de cada clase se llama llama frecu frecuencia. Para cada clase particul particular, ar, la frecu frecuencia acu acumulada ulada es el número total total de observaciones que que hay en esa clase y en las anteriores.
8 [ESTADISTICA BASICA]
Estadísticabásica
CUADERNILLO
EJERCICIO
f M Venta en Frecuencia Marca dólares de clase
fM
f
10-20
1
15
15
225
20-30
8
25
200
5000
30-40
10
35
350
12250
40-50
9
45
405
18225
50-60
8
55
440
24200
60-70
4
65
260
16900
70-80
2
75
150
11250
f M=1820
=88050
f =42
a) Encu Encuentre la media aritmé aritmética
b) Determine Determine la varianza
2096.428571-1 96.42857 1-1877.4889= 877.4889= 218.93
C) Encu Encuentre la desviación estándar de la muestra
S= S=
9 [ESTADISTICA BASICA]
Estadísticabásica
CUADERNILLO DISTRIBUCIONES MUÉS TRALES Las muestras aleatorias obtenidas de una pobl población son, por natu natural raleza propia, impredecibl impredecibles. No se esperaría que que dos muestras aleatorias del del mismo tamaño y tomadas de la misma pobl población tenga la misma media muestral estral o que que sean compl completamente parecidas; puede esperarse que que cualquier lquier estadístico, como la media muestral estral, cal calculado ulado a partir de las medias en una muestra aleatoria, cambie su val valor de or de una muestra a otra, por ello, llo, se quiere quiere estu estudiar la distribu distribución de todos los val valores posibl posibles de un estadístico. Tales distribu distribuciones serán muy importantes en el estu estudio de la estadística Inferencial nferencia l, por que que las inferencias sobre las pobl poblaciones se harán usando estadísticas muéstra uéstralles. Como el anál análisis de las distribu distribuciones asociadas con los estadísticos muéstra uéstralles, podremos ju juzgar la confiabil confiabi lidad de un estadístico muestral estral como un instr umento para hacer inferencias sobre un parámetro pobl poblacional acional desconocido. Como los val valores de un estadístico, tal tal como x, varían de una muestra aleatoria a otra, se le puede considerar como una variable aleatoria con su correspondiente distribu distribución de frecu frecuencias. La distribu distribución de frecu frecuencia de un estadístico muestral estral se denomina distribución general, la distribu distribución muestral estral de un estadístico es la de todos sus muestral . En general val valores posibl posibles cal calculados ulados a partir de muestras del del mismo tamaño. Suponga que que se han sel seleccionado muestras aleatorias de tamaño 20 en una pobl población grande. Se cal calcula ula la madia muestral estral x para cada muestra; la col colección de todas estas medias muéstra uéstralles recibe el nombre de distribu distrib ución muestral estral de medias.
10 [ESTADISTICA BASICA]
Estadísticabásica
CUADERNILLO Suponga que que se eligen muestras aleatorias de tamaño 20, de una pobl población grande, y se cal calcula ula la deviación estándar de cada una. La col colección de todas estas desviaciones estándar muéstra uéstralles se llama llama distribu distribución muestral estral de la desviación estándar, y lo lo podemos ver en ver en la sigu siguiente figu figura:
EJEMPLO 1 Una pobl población normal normal tiene
a) Calcule ule la probabil probabilidad de tener un val valor entre or entre 75 y 90
=80 =80
Z=
.7142=0 42=0.2611 .2611 =0.71
=14
P (75
Z=
=0.1368 0.2611+0 .2611+0..1368=39.79%
11 [ESTADISTICA BASICA]
Estadísticabásica
CUADERNILLO b) Halle lle la probabil probabilidad de tener un val valor de 75 0 menor =80 =80
=14
0.5 + .1368 = .6368 1 - .6368 = .3632 =36.32%
P (75
c) Calcule ule la probabil probabilidad de tener un val valor entre or entre 75 y 70
=80 =80 =14
P (75
Z=
=.2611 =.2611
.2611 .2611 - .1368= .1243 =12.43%
12 [ESTADISTICA BASICA]
Estadísticabásica
CUADERNILLO EJEMPLO 2 La media de la pobl población normal normal, es 60 y la l a desviación=1 desviación= 12. Se toma una muestra aleatoria de 9. Calcule ule la probabil probabilidad de que que la media muestral estral. a) Sea may mayor qu or que e 63 x=60 =60
P (x>63) 63)
==.75
=56
Z=
.5 + 2734 = .7734
1 - .7734 = 0.2266 = 22.66%
b) Menor que que 56 P (x>56) 56)
=
Z=
.05 + .0398 = .539 1 - .5398 = .460 .4602= 46.02%
13 [ESTADISTICA BASICA]
Estadísticabásica
CUADERNILLO c) Este entre 56 y 63 P (56
14 [ESTADISTICA BASICA]
Estadísticabásica
CUADERNILLO
DISTRIBUCIÓN MUES TRAL DE LA PROPORCIÓN Uno de los objetivos de la estadística es conocer acerca del del comportamiento de parámetros pobl poblacional acionales tal tales como: la media (), (), la varianza ( 2) o la proporción (p ). Para ello llo se extrae una muestra aleatoria de la pobl población y se cal calcula ula el val valor de un estadístico correspondiente, por ejempl ejemplo, la media muestral estral (X ), la varianza muestral estral. Y es el conju conjunto de todas las muestras posibl posibles del del mismo tamaño extraídas de una pobl uéstralles posibl población, ju junto con el conju conjunto de todas las proporciones muéstra posibles del del mismo tamaño extraídas de una pobl población, ju junto con el conju conjunto de todas las proporciones muéstra uéstralles. La distribu distribución muestral estral de proporciones es la adecu adecuada para dar respu respuesta a estas situ situaciones. Esta distribu distribución se genera de igu igual manera que que la distribu distribución muestral estral de medias, a excepción de que que al extraer l traer las muestras de la pobl población se cal calcula ula el estadístico proporción (p=x/ p=x/n n en donde "x" es el número de éxitos éxitos u observaciones de inter és y "n" el tamaño de la muestra) estra) en lugar lugar del del estadístico media.
15 [ESTADISTICA BASICA]
Estadísticabásica
CUADERNILLO EJEMPLO 2 Se elige una muestra de 2000 electores potencial potenciales en el estado de México; México; se encontró que que 1550 550 planearon botar por el gobernador actu actual. ¿Cuá ¿Cuál es la probabil probabi lidad de que que el gobernador sea elegido presidente de la repú república? En una encu encuesta previa se determino que que el 80% de la pobl población total total del del padrón votante elegiría a dich dicho candidato
P= .80 .80
= .775
n= 2000 q= .225
16 [ESTADISTICA BASICA]
Estadísticabásica
CUADERNILLO DISTRIBUCIÓN MUES TRAL DE DIFERENCIA DE MEDIAS MEDI AS Suponga que que se tienen dos pobl poblaciones distintas, la primera con media 1 y desviación estándar segunda con media 1, y la segu 2 y desviación estándar 2. Más aún, se elige una muestra aleatoria de tamaño n1 de la primera pobl población y una muestra independiente aleatoria de tamaño n2 de la segu segunda pobl población; se cal calcula ula la media muestral estral para cada muestra y la diferencia entre dich dichas medias. La col colección de todas esas diferencias se llama llama distribu distribución muestral estral de las diferencias entre medias o la distribu distrib ución muestral estral del del estadístico
La distribu distribución es aprox aproximadamente normal normal para n1 30 y n2 30. Si las pobl poblaciones son normal normales, entonces la distribu distrib ución muestral estral de medias es normal normal sin importar los tamaños de las muestras.
17 [ESTADISTICA BASICA]
Estadísticabásica
CUADERNILLO EJEMPLO De una pobl población se toma una muestra de 40 observaciones. La media muestral estral es de 102 102 y la l a desviación estándar de 5. De otra pobl población se toma una muestra de 50 observaciones y la l a media muestral estral es ahora 99 y la l a desviación estándar es 6. Calcule ule el val valor estadístico or estadístico de la pr ueba. Supongo que que las medias pobl poblacional acionales son igu iguales a las varianzas.
= 102
= 99
=5
=6
=
=
=
= 31.13
=
.5+.4945=0.9945 .1-0.9945=.0055
18 [ESTADISTICA BASICA]
Estadísticabásica
CUADERNILLO DISTRIBUCION DE PROBABILIIDAD T DE
STUDENT
DISTRIBUCIÓN DE PROBABILIDAD Con respecto a una variabl variable aleatoria es una f unción que que asigna a cada suceso definido sobre la variabl variable aleatoria la probabil probabi lidad de que que dich dicho suceso ocu ocurra. La distribu distribución de probabil probabilidad está definida sobre el conju conjunto de todos los eventos rango de val valores de la variabl variable aleatoria. Cuando Cuando la variabl variable aleatoria toma val valores en el conju conjunto de los números real reales, la distribu distribución de probabil probabilidad está compl completamente especificada por la f unción de distribu distribución, cuyo uyo val valor en cada real real x es la probabil probabilidad de que que la variabl variable aleatoria sea menor o igu igual que que x .
³T´ DE STUDEN T Permite decidir si dos variabl variables aleatorias normal normales y con la misma varianza tienen medias diferentes. Dada la ubicu bicuidad de la distribu distrib ución normal normal puede apl aplicarse en numerosos contex contextos, para comprobar si la modificación en las condiciones de un proceso (humano (humano o natu natural) ral) esencial esencialmente aleatorio produ producen una elevación o disminu disminución de la media pobl poblacional acional. Esto opera decidiendo si una diferencia en la media muestral estral entre dos muestras es estadísticamente significativa, y entonces poder afirmar que que las dos muestras corresponden a distribu distribuciones de probabil probabi lidad de media pobl poblacional acional distinta, o por el contrario afirmar que que la diferencia de medias puede deberse a oscil oscilaciones estadísticas. La eficacia aumenta con el número de datos del del que que constan las dos muestras, en concreto del del número de grados de libertad conju conjunto de las dos muestras, este número viene siendo N i i el tamaño muestral estral, es decir, el número de datos en cada muestral estral.
19 [ESTADISTICA BASICA]
Estadísticabásica
CUADERNILLO EJEMPLOS 1.- Suponga que que los datos sigu siguientes se sel seleccionan al azar de una pobl población de val valores normal normalmente distribu distribuidos y real realicen un interval intervalo de confianza del del 95% 95%para cal calcular ular lla media pobl poblacional acional. 40,51 ,51,43,48,44,57,54,39,42,48,45,39 y 43
=
=
= 45.61
=
Límite
superior
Límite
inferior
20 [ESTADISTICA BASICA]
Estadísticabásica
CUADERNILLO (42.12, 49.03)
2.2.-Si se supone que que X esta normal normalmente distribu distribuida util tiliza la sigu siguiente información para cal calcular ular un interval intervalo de confianza de 90% para estimar la media pobl poblacional acional.
313, 320 320, 319, 340 340, 325, 310, 10, 321 321, 329, 317, 311, 11, 307, 318.
= 319.16
=
= 82.87
= 9.10
=319.16
=82.87 =9.10
gl= n-1 gl= 12-1= -1=11
1-.9 1-.90% 0%= = 0.2/ .2/2=0.05
21 [ESTADISTICA BASICA]
Estadísticabásica
CUADERNILLO IC=3 IC=31 19.1 9.16+ (1.796 (1.796)) (2.6269 (2.6269))
S =
=2.6269
319.1 9.16 + 4.71 4.7179=323.8779Límite Superior 319.1 9.16 ± 4.71 4.7179=314.4421Límite Inferior (314.4, 323.8)
3.3.-Si una muestra aleatoria de 27 Artícul rtículos os produ produce = 128.4 y S= 20.6, cual es el interval intervalo de confianza de 98% 98% para la media pobl poblacional acional. Suponga que que X esta normal normalmente distribu distribuida para la pobl población. ¿Cuá ¿Cuál es la estimación puntu ntual?
= 128.4
S= 20.6 = 4.53
gl= n-1 gl= 27-1 27-1= = 26
= 1-.98 1-.98% %= 0.02/2=0.01 22
[ESTADISTICA BASICA]
Estadísticabásica
CUADERNILLO
=3.96
IC= IC= 128.4+ 28.4+ (2.479 (2.479)) (3.96 (3.96)) S =
128.4 + 9.81 9.8168=1 68=138.21 38.21Límite Superior 128.4 ± 9.81 9.8168=11 68=118.58 8.58 Límite Inferior (118.58, 138.21)
INTERVALO DE CONFIANZA PARA ES TIMAR P Si el estadístico S es la proporción de ³éxitos ³éxitos ³en una muestra de tamaño, obtenida de una pobl población binomial binomial en la que que p es la proporción de éxitos éxitos es decir la probabil probabi lidad de éxito, éxito, entonces los limites de confianza para p están dados por la proporción de éxitos éxitos en la muestra de tamaño N. Usando los val valores de p obtenidos, ve que que los limites de confianza para la proporción pobl poblacional acional están dados por: P
Zc
Si el muestreo se efectu efectuó de una pobl población finita o de una pobl población infinita con reempl reemplazamiento y están dados por: 23 [ESTADISTICA BASICA]
Estadísticabásica
CUADERNILLO P Zc Si el muestreo se hizo sin el reempl reemplazamiento de una pobl población de tamaño finito Np. Para cal calcular ular estos límites de confianza se puede usar e sar el estimado muestral estral P que que por l por lo general general, mostrara ser satisfactorio ser satisfactorio si N es may mayor o igu igual a 30.
INTERVALOS DE CONFIANZA PARA DIFERENCIAS Y SUMAS SUM AS Si S1 y S2 son dos estadísticos muéstra uéstralles con distribu distribuciones de muestreo aprox aproximadamente normal normales, entonces los límites de confianza se puede usar para sar para la diferencia de los parámetros pobl poblacional acionales correspondientes a S1 y S2 están dados por: S1 y S2
zc s1 - s2
EJEMPLO Una compañía tex textil til produ produce pantal pantalones para hombre, los pantal pantalones se confeccionan y venden con corte regul regular ar o con corte de bota. En un esf uerzo por estimar la proporción del del mercado de sus pantal pantalones para hombre en el centro de la ciu ciudad que que prefiere pantal pantalones con corte de bota, el anal analista toma una muestra aleatoria de 212 ventas de pantal pantalones de las 2 tiendas de venta al público de la ciu ciudad sol solo 34 de las ventas f ueron de pantal pantalones de corte de bota. Constr uya uya un interval intervalo de confianza de 90% para estimar la proporción de la pobl población en toda la ciu ciudad que que prefieren pantal pantalones con corte de bota.
N=21 =212 P= .16
W
=
24 [ESTADISTICA BASICA]
Estadísticabásica
CUADERNILLO
=
W
=
P (A)= (A)=
=.1 =.16
P= IC w=P
ZW P
IC=. IC=.1 16
.16+0.4 +0.41 1=.2 .16-0.4 -0.41 1=.11 =.11
PROBLEMAS Use la información sobre cada una de las sigu siguientes muestras para cal calcular ular el interval intervalo de confianza para estimar la proporción de la pobl población. a) b) c) d)
n= 44 n= 300 n= 1,150 n= 95
.51 .51 ; cal calcule ule un interval intervalo de confianza del del 99% 99% .82 ; cal calcule ule un interval intervalo de confianza del del 95% 95% ule un interval .48 ; cal calcule intervalo de confianza del del 90% .32 ; cal calcule ule un interval intervalo de confianza del del 88% 88%
a) n=44
=
=.51 =.51
=
=.51 =.51 ; Calcule ule un Interval ntervalo de Confianza del del 99% 99%
=0.075
IC= IC= .51 .51
p= IC =
Z
(2.57) 2.57) (0. (0.075) 75)
IC= IC= .51+ .51+ 0. 0.192= 0.70 Limite Superior IC= IC= .51.51- 0. 0.192=0.31Limite Inferior (.31 .31, .70) .70) Gráfica de distribución Normal, Media=44, Desv.Est.=0.51 0.8
25
0.7
[ESTADISTICA BASICA]
0.6 d 0.5 a d
.495
.495
Estadísticabásica
CUADERNILLO
b) n=300 n=300 P=.82; cal calcule ule un interval intervalo de confianza de 95% 95%
P=
=.82 =.82
P=
IC= IC= .82
=.022 n= 44
p= IC =
Z
(1.96 (1.96)) (0. (0.022) 22)
IC= IC= .82+ .82+ .043= .863 Limite Superior IC= IC= .82.82- .043=.777Limite Inferior
(.77, .86) G á No
ca de d s
al
edia=300 De
buc ó n E
=0 82
0 5
0 4
d a d s n
e D
0 3 475
475
95
0 2
0 1
0 0 297
298
2 99
300
301
302
303
X
| c)n=11 n=115 50
=.48 =.48
P=
P=.48;
=
P=
IC= IC= .48
cal calcule ule
.014
un
interval intervalo
p= IC =
de
confianza
de
90%
Z
(1.65 (1.65)) (0. (0.014 014) G á ca de d s No
al
buc ón
edia=1150 De
E
=0 48
09
26
08 07
[ESTADISTICA BASICA]
0 d a d s
05
45
45
Estadísticabásica
CUADERNILLO IC= IC= .48+ .48+ 0. 0.023= .503 Limite Superior IC= IC= .48.48- 0. 0.023=.45Limite Inferior (.45, 50)
d) n=95
P=
P=.32; cal calcule ule un interval intervalo de confianza de 88% 88%
=.32 =.32
=
P=
IC= IC= .32
p= IC =
.047
Z
(1.56 (1.56)) (0. (0.047) 47)
IC= IC= .32+ .32+ 0. 0.073= .393Limite Superior IC= IC= .32.32- 0. 0.073=.247Limite Inferior (.24, 39) 39)
Gráfica de distribución Norma l
ia=95, Desv.Est.=0.32
1.4 1.2 1.0 d a 0.8 d i s n e D 0.6
88 %
0.4
.44
.44
0.2 0.0
94.0
94.5
95.0 X
95.5
96.0
EJERCICIOS
27 [ESTADISTICA BASICA]
Estadísticabásica
CUADERNILLO Use la sigu siguiente información para cumpl mplir interval intervalo de confianza del del 90%, 0%, 95% 95% y 99% 99% para estimar la media pobl poblacional acional de los sigu siguientes datos que que proviene de una pobl población normal normal mente distribu distribuida datos son: 12.3, 11.6, 11.6, 11.9, 11.9, 12.8, 12.5, 11.4, 11.4, 12, 11.7, 11.7, 11.8, 11.8, 12.3.
=
= 0.43
=10-1= 10-1=9
t=1.833
=12.0 2.03+ (1.833 (1.833)) (0. (0.13) =12.0 2.03 + 0.23 0.23 =12.26L.S =12.0 2.03 ± 0.23 0.23 =11.8 L.I
(11.8, (11.8, 12.2) 2.2)
=10-1= 10-1=9
[ESTADISTICA BASICA]
28
Estadísticabásica
CUADERNILLO
t=2.262
=12.0 2.03+ (2.262 (2.262)) (0. (0.13) =12.0 2.03 + 0.29 0.29 = 12.32 L.S =12.0 2.03 ± 0.29 0.29 = 11.74 L.I
(11.7, (11.7, 12.32) 2.32)
=10-1= 10-1=9
t=3.250
=12.0 2.03+ (3.25 (3.250) 0) (0. (0.13) 29
[ESTADISTICA BASICA]
Estadísticabásica
CUADERNILLO
=12.0 2.03 + 0.42 0.42 = 12.45 L.S =12.0 2.03 ± 0.42 0.42 = 11.61 L.I
(11.6 (11.61 1, 12.45) 2.45)
EJERCICIO 2: Use la sigu siguiente información para cal calcular ular el interval intervalo de confianza para cal calcular ular lla proporción pobl poblacional acional. a) n= 284 =.71 =.71 90% de confianza =.48 95% b) n=1 n=1250 250 =.48 95% de confianza a)n=284 =.71 =.71
=
=.71 =.71
=.026
(1.65 (1.65)) (0. (0.026) 26)
=.71 =.71 + 0. 0.042 = 0.752 =.71 =.71 ± 0. 0.042 = 0.668 (0.66, (0.66, 0.75) .75)
30 [ESTADISTICA BASICA]
Estadísticabásica
CUADERNILLO
b)n=1 n=1250 250 =.48
=
=.48
=0.014
(1.96 (1.96)) (0. (0.014 014)
=.48+ =.48+ 0. 0.027 = 0.50 =.71 =.71 ± 0. 0.027 = 0.45 (o.45, 0.05
PRUEBA DE HIPÓ TESIS. Es importante recordar que que las hipótesis siempre son proposiciones sobre la pobl población o distribu distribución bajo estu estudio, proposiciones sobre la muestra .Por lo 31 [ESTADISTICA BASICA]
Estadísticabásica
CUADERNILLO general general, el val valor de or dell parámetro de la pobl población especificado en la hipótesis nula ula se determina en una de tres maneras diferentes: 1. Puede Puede ser resul resultado tado de la experiencia pasada o del del conocimiento del del proceso, entonces el objetivo de la pr ueba de hipótesis usualmente es determinar si ha cambiado el val valor de or dell parámetro. 2. Puede Puede obtenerse a partir de alguna teoría o model modelo que que se rel relaciona con el proceso bajo estu estudio. En este caso, el objetivo de la pr ueba de hipótesis es verificar l verificar la teoría o model modelo 3. Cuando Cuando el val valor de or dell parámetro proviene de consideraciones externas tal tales como las especificaciones de diseño o ingeniería, o de obl obligaciones contractu contract uales. En esta situ situación, el objetivo usual de la pr ueba de hipótesis es probar el cumpl mplimiento de las especificaciones. Los procedimientos de pr ueba de hipótesis dependen del del empl empleo de la información contenida en la muestra aleatoria de la pobl población de inter és.
TIPOS DE PRUEBAS DE TIPOS HIPÓTESIS Se pueden presentar dos tipos de pr uebas de hipótesis que que son: 1. De dos col colas, o bil bilateral ateral. 2. De una col cola, o unil nilateral ateral. Este último último puede ser de ser de col cola derech derecha o izqu izquierda. ierda. La hipótesis es una afirmación sobre un parámetro de la pobl población, Como la media, la varianza o la desviación estándar. La hipótesis inicial inicial que que se define sobre la pobl población se llama llama hipótesis nula; ula; pero si rech rechazamos esa hipótesis nula ula debemos tener una hipótesis alternativa, la cual tomaremos si la hipótesis inicial inicial o nula ula es fal falsa. El proceso de revisión de la hipótesis para determinar si se considera Verdadera o fal falsa se llama llama Pr ueba de Hipótesis. Una pr ueba de hipótesis es una regl regla que que especifica
32 [ESTADISTICA BASICA]
Estadísticabásica
CUADERNILLO 1. Para que que val valores de la muestra se toma la decisión de que que H0 es Verdadera. 2. Para que que val valores de la muestra se rech rechaza H0 y se acepta H1 como Verdadera.
CONCEP TOS BÁSICOS PARA EL PROCEDIMIEN TO DE PRUEBA DE HIPÓTESIS HIPÓTESIS ES TADÍSTICA: Al intentar alcanzar una decisión, es útil til hacer hipótesis (o conjetu conjeturas) ras) sobre la pobl población apl aplicada. Tales hipótesis, que que pueden ser o ser o no ciertas, se llaman llaman hipótesis estadísticas. Son, en general general, enu enunciados acerca de las distribu distribuciones de probabil probabilidad de las pobl poblaciones.
HIPÓTESIS NULA. En muchos casos formul formulamos amos una hipótesis estadística con el único propósito de rech rechazar la o inval invalidar la. Así, si queremos queremos decidir si una moneda está tr ucada, formul formulamos amos la hipótesis de que que la moneda es buena (o sea p = 0,5, donde p es la probabil probabi lidad de cara) cara). Ana Anallógicamente, si deseamos decidir si un procedimiento es mejor que que otro, formul formulamos amos la hipótesis de que que no hay diferencia entre ellos llos (o sea. Que Que cualquier lquier diferencia observada se debe simpl simplemente a f luct luctu uaciones en el muestreo de la misma pobl población) ación). Tales hipótesis se suelen llamar llamar h hipótesis nula ula y se denotan por Ho. Para todo tipo de investigación en la que que tenemos dos o más gr upos, se establ establecerá una hipótesis nula. ula. La hipótesis nula ula es aque quella lla que que nos dice que que no existen diferencias significativas entre los gr upos. Por ejempl ejemplo, supongamos que que un investigador cree que que si un gr upo de jóvenes se somete a un entrenamiento intensivo de natación, éstos serán mejores nadadores que que aque quellos llos que que no recibieron entrenamiento. Para demostrar su hipótesis toma al azar una muestra de jóvenes, y tambié también al azar los distribuy distrib uye e en dos gr upos: uno que que llamaremos llamaremos experimental perimental, el cual recibirá entrenamiento, y otro que que no recibirá entrenamiento alguno, al que que llamaremos llamaremos control control. La hipótesis nula ula señal señalará que que no hay diferencia en el desempeño de la natación entre el gr upo de jóvenes que que recibió el entrenamiento y el que que no lo recibió. 33 [ESTADISTICA BASICA]
Estadísticabásica
CUADERNILLO Una hipótesis nula ula es importante por varias por varias razones: que se acepta o se rech Es una hipótesis que rechaza segú según el resul resultado tado de la investigación. El hech echo de contar con una hipótesis nula ula ayuda yuda a determinar si existe una diferencia entre los gr upos, si esta diferencia es significativa, y si no se debió al azar. No toda investigación precisa de formul formular ar hipótesis nula. ula. Recordemos que que la hipótesis nula ula es aque quella lla por la cual indicamos que que la información a obtener es contraria a la hipótesis de trabajo. Al formul formular ar esta hipótesis, se pretende negar la variabl variable independiente. Es decir, se enu enuncia que que la cau causa determinada como origen del del probl problema f luct luctú úa, por tanto, por tanto, debe rech rechazarse como tal tal.
OTRO EJEMPLO: Hipótesis: el aprendizaje de los niños se rel relaciona directamente con su edad.
HIPÓTESIS ALTERNATIVA. Toda hipótesis que que difiere de una dada se llamará llamará una hipótesis alternativa. Por ejempl ejemplo: Si una hipótesis es p = 0,5, hipótesis alternativa podrían ser p = 0,7, p " 0,5 ó p > 0,5. 0,5. Una hipótesis alternativa a la hipótesis nula ula se denotará por H1 por H1.. Al responder a un probl problema, es muy conveniente proponer otras hipótesis en que que aparezcan variabl variables independientes distintas de las primeras que que formul formulamos. amos. Por quedas inú llar diferentes tanto, para no perder tiempo en búsquedas inútil tiles, es necesario hallar hipótesis alternativas como respu respuesta a un mismo probl problema y elegir entre ellas llas cuáles y en qué orden vamos a tratar su comprobación.
34 [ESTADISTICA BASICA]
Estadísticabásica
CUADERNILLO
EJEMPLO 1 Un desarroll desarrollador ador considera dos ubicaciones alternativas para un centro comercial comercial regional regional dado que que el ingreso domestico de la comu comunidad es una consideración importante en la sel selección del del sitio, el desarroll desarrollador ador desea probar la hipótesis nula ula de que que no existe ningu ninguna diferencia entre los montos de ingreso domestico medio de las dos comu comunidades. En consonancia con esta hipótesis se supone que que la desviación estándar del del ingreso domestico tambié también es igu igual en las dos comu comunidades. En una muestra de hogares de la primera comu comunidad el ingreso anu anual promedio es de con una desviación estándar . En una muestra de hogares de la segu segunda comu comunidad y . Pr uebe la hipótesis nula ula al nivel nivel de significancia de 5%.
Gr fi Nor
de di stribuc tri buciión l, M dia=0 , Des .Est.=1.96
0.20
0.15 d a d i s n
e D
1.96
1.96
0.10
0.05
0.00
-5.0
-2.5
0.0
2.5 X
5.0
7.5
1.74
35 [ESTADISTICA BASICA]
Estadísticabásica
CUADERNILLO
=
=1.74
=
Se acepta la hipótesis nula y se rechaza la hipótesis alternativa
EJEMPLO 2
Una muestra aleatoria de N1= N1=12 estu estudiantes de informática tiene un promedio de cal calificación media de 2.70 2.70 (donde ( donde A=4) =4) con una desviación estándar de .40 .40 en el caso de los estu estudiantes de ingeniería en sistemas una muestra aleatoria de N=2 10 estu estudiantes tiene un promedio de cal calificación media de 2.90 2.90 con una desviación estándar de .30 .30 se supone que que los val valores de cal calificación sigu sigue una distribu distribución normal normal ,pr ueba la hipótesis nula ula de que que el promedio de cal calificación de las 2 categorías de estimación no es diferente con un nivel nivel de significancia de .5% .5%
0.4
bución Gráfica de distri bución
T, df=20 df=20
0.3
d a d i s n 0.2 e D
0.1
2.086
2.086
0.0
-4
-3
-2
-1 1.30
0
1
2
3
4
X
.05/2=.0 2=.025 gl=
36 [ESTADISTICA BASICA]
Estadísticabásica
CUADERNILLO
=
= -1.3 -1.30 0
=
Se acepta la hipótesis nula y se rechaza la hipótesis alternativa
EJEMPLO 3 El representante de un gr upo comu comunitario le informa al posibl posible desarroll desarrollador ador de un centro comercial comercial al sur de la ciu ciudad, el ingreso promedio por hogar en la zona es de 45000 45000.. Supongamos que que puede sumirse que, que, para el tipo de zona del del que que se trata, el ingreso hogar tiene una distribu distribución aprox aproximadamente normal normal y que que puede aceptarse que que la desviación estándar es igu igual a 2000, 000, con base a un estu estudio anterior. A partir de una muestra aleatoria de 15 hogares se determina que que el ingreso domestico medio es x=44000 =44000.. Pr uebe la hipótesis nula ula µ =45000 =45000 establ estableciendo los limites críticos de la media muestral estral en términos de pesos y con un nivel nivel de significancia del del 5% a) Pr uebe la hipótesis del del probl problema con la variabl variable normal normal estándar Z como estadística de pr ueba b) Pr ueba de hipótesis del del probl problema con la variabl variable normal normal t como estadística de pr ueba
a) H0 µ1- µ2= µ2=0 0 H1 µ1- µ2 µ20 0 n=45000 n=45000
r fi
45000 45000 45000 45000
de di s tri T, df 14
i
n
0.4
0.3
=2000 =2000 i
x=44000 =44000
s n 0.2 e D
0.1
37 [ESTADISTICA BASICA]
0.0
-4
-3
-2
-1 46012.13
0 X
1 2 43987.87
3
4
Estadísticabásica
CUADERNILLO n=1 n=15
=0.5= .95/ .95/2= .475 tabl tabla )
45000+(1 45000+(1.96 .96)) (
13=4601 13 45000+101 45000+1012. 2.1 3=46012. 2.1 13=43987.87 45000-101 45000-1012. 2.1
b) Gr
fi
a de distri
gl= 15-1= -1=14
T,
i
n
df 14
0.4
=1 - .05% = .95/ .95/2 =0.475 Z=1.96tabl .96tabla 0.3
.05/2=0 2=0.025 =2.1 =2.1415tabl 5tabla
d a
d i
s n 0. 2 e D
ICM )
44000+( 44000+(2. 2.1 1415) (
44000+110 44000+1107.65= 7.65=110 1107.65 7.65
0.1
0.0
-4
-3
-2
-1 45107.65
0 X
1
2
42892.35
44000-110 44000-1107.65=42892.35 7.65=42892.35
EJEMPLO 4 El sal salario medio semanal semanal de una muestra de n1=30 =30 empl empleados de una gran empresa manu manufactu facturera es x1=28 x1=280 0, por una distribu distribución estándar de 14 pesos. En otra gran empresa una muestra aleatoria n2=40 n2=40 empl empleados tiene un sal salario medio de x2=270 2=270 pesos, con una desviación estándar de 10 pesos. Pr uebe la hipótesis de que que no existe diferencia entre los montos sal salarial ariales semanal semana les medio de las dos empresas con un nivel nivel de significancia del del 5%. 38 [ESTADISTICA BASICA]
3
4
Estadísticabásica
CUADERNILLO n=30 n=30 x1=28 x1=280 0 S=1 S=14 n2=40 n2=40 x2=270 2=270 =10
Z=
µ µ
S²=
²
= =3.49
=
² =
²
²
=
=
=140.94
×
Gr Nor
fi l,
i n a de di stri di 3.49, s . st. 2.86
0.14 0.12 0.10 d a 0.08 d i s n e D 0.06
3.49
(no s
c pt l hipot s is)
0.04 0.02 0.00
- 5. 0
- 2. 5
0.0
- 1.96
2.5
5. 0 X
7.5 1.96
10.0
12.5
39 [ESTADISTICA BASICA]
Estadísticabásica
CUADERNILLO
EJEMPLO 5 En una muestra aleatoria de n1=10 focos en un promedio de vida de los focos x1=4 x1=4000 000 horas horas S1=200 =200 horas. horas. Para otra marca de focos de cuya uya vida útil til tambié también se presu presume que que sigu sigue una distribu distribución normal normal, una muestra aleatoria de n2= 8 focos tiene una media muestral estral de X2=4300 X2=4300 horas y una desviación estándar muestral estral de 250 250 pr uebe la hipótesis de que que no existe ningu ninguna diferencia entre el cicl ciclo medio de vida útil til de las 2 marcas de focos con un nivel nivel de significancia del del 1% n1=10 x1=4 x1=4000 000 S1=200 =200 n2=8 x2=4300 2=4300 S2=250 S2=250
t=
S²=
µ µ
²
² =
²
²
=
=
=49843.75 40
[ESTADISTICA BASICA]
Estadísticabásica
CUADERNILLO
²
² Gráfica de distribución
T, df=16
105.9 105.90 0
t=( t=(4000-43 000-43000) 000) (0)= (0)=
= -2.83
.01/2 01/2 =0.005 005 gl= 10+8 10+8-2=1 2=16 =2.921 =2.921
×
0.4
0.3 d a d i s n 0.2 e D
0.1
2.83
0.0 4
3
2
1 2.94
0 X
1 2.94
2
3
EJERCICIO 1 Un especial especialista en administración de hospital ospitales dice que que el número de empl empleados de tiempo compl completo de un hospital ospital se puede estimar al contar el número de camas de hospital ospital. Una investigadora de campo de servicios de salu salud d decidió crear un model modelo de regresión para pronosticar el número de empl empleados de tiempo compl completo de un hospital ospital respecto al número de camas por lo que que real realizo una encu encuesta en 12 y obtu obtuvo los datos que que se presentan en secu secuencia segú según el número de camas.
41 [ESTADISTICA BASICA]
4
Estadísticabásica
CUADERNILLO Hospital
N° de Camas
Empleados de
Tiempo
1
23
69
529 529
1584
2
29
95
841 841
2755
3
29
102
841
2958
4
35
118
1225
4130
5
42
126
1764
5292
6
46
125
2116
5750
7
50
138
2500
6900
8
54
178
2916
9612
9
64
156
4096
9984
10
66
184
4356
12144
11
76
176
5776
13376
12
78
225
6084
7550
[ESTADISTICA BASICA]
42
Estadísticabásica
CUADERNILLO
Gráficas de resi duos duos para empleado empleados s Gráfica de probabilidad normal
vs. ajust es
99
e j a t n e c r o P
20
90 o u d i s e
50
R
10
10 0 10 20
1 40
20
0
20
40
100
150
200
Residuo
Valor ajustado
Hist o grama
vs. o rden
3 20 a i c n e u c e r F
o u d i s e
2
R
1
10 0 10 20
0 20
10
0
10
20
30
Residuo
1
2
3
4
5
6
7
8
9
10
11 12
Orden de observación
ANALISIS DE REGRESION La regresión estadística o regresión a la media es la tendencia de una medición extrema a presentarse más cercana a la media en una segu segunda medición. La regresión se util tiliza para predecir una medida basándonos en el conocimiento de otra.
EJERCICIO 1 43 [ESTADISTICA BASICA]
Estadísticabásica
CUADERNILLO Un especial especialista en administración de hospital ospitales dice que que el número de empl empleados de tiempo compl completo de un hospital ospital se puede estimar al contar el número de camas de hospital ospital. Una investigadora de campo de servicios de salu salud d decidió crear un model modelo de regresión para pronosticar el número de empl empleados de tiempo compl completo de un hospital ospital respecto al número de camas por lo que que real realizo una encu encuesta en 12 y obtu obtuvo los datos que que se presentan en secu secuencia segú según el N° de Camas
Hospital
Empleados de
Tiempo
1
23
69
529 529
1584
2
29
95
841 841
2755
3
29
102
841
2958
4
35
118
1225
4130
5
42
126
1764
5292
6
46
125
2116
5750
7
50
138
2500
6900
8
54
178
2916
9612
9
64
156
4096
9984
10
66
184
4356
12144
11
76
176
5776
13376
12
78
225
6084
7550
número de camas.
44 [ESTADISTICA BASICA]
Estadísticabásica
CUADERNILLO
G r fi c s de r e s i duos par par Gr fi c
e mpl e
dos
d e p r obab ilida ilida d n o rm l
vs
jus jus t e s
99
e
j t n e
r o P
20
90 o u d i s
50
e
R
10
10 0 -10 -20
1 -40
-20
0
20
40
100
150
200
Residuo
Va or jus j ustt do
ist o g r m
vs o rd en
3 20 i
c
n
o u d i s
2
e
u
c e
r F
e
R
1
10 0 -10 -20
0 -20
-10
0
10
Residuo
EJERCICIO
20
30
1
2
3
4
5
6
7
8
9
10
11 12
Ord Or den de obser vación
2
Un anal analista toma una muestra de 10 embar ques ques recientes por una compañía que que registro la distancia en mill millas as y tiempo de entrega al medio díamás cercano a partir del del momento en que que el embar que que estu estuvo listo para su cargo. 45 [ESTADISTICA BASICA]
Estadísticabásica
CUADERNILLO Elabora el diagrama de dispersión y considere si el anál análisis de regresión lineal ineal parece apropiado. Embar que que muestreado 1 2 3 4 5 6 7 8 9 10 Distancia en mill millas as (x) = 825 215 107 1070 550 550 480 480 920 920 1350 350 325 670 670 1215 Tiempo de entrega (y)= (y)= 3.5 1.0 4.0 4.0 2.0 2.0 1.0 3.0 3.0 4.5 1.5 3.0 3.0 5.0 5.0 Embarque
X
Y
1
825
3.5
680625
2887.5
12.25
2
215
1.0
46225
215
1
3
1070
4.0
1144900
4280
16
4
550
2.0
302500
1100
4
5
480
1.0
230400
480
1
6
920
3.0
846400
2760
9
7
1350
4.5
1822500
6075
20.25
8
325
1.5
105625
487.5
2.25
9
670
3.0
448900
2010
9
10
1215
5.0
1476225 1476225
6075
25
46 [ESTADISTICA BASICA]
Estadísticabásica
CUADERNILLO
Se sel seleccionaron al azar las sigu siguientes observaciones de muestra: a) Establ Establezca la ecu ecuación de regresión b) Obtenga el val valor de or de cuando =7
47 [ESTADISTICA BASICA]
Estadísticabásica
CUADERNILLO c) Determine el error estándar de estimación d) Determine el interval intervalo de confianza de 95% 95% para el val valor medio pronosticado cuando =7 e) Obtenga el coeficiente de determinación suponiendo una rel relación directa entre las variabl variables f ) Cuá Cuál es el coeficiente de correl correlación
a)
Y
x 4 5 3 6 10
4 6 5 7 7
xy 16 30 15 42 70
16 25 9 36 100
16 36 25 49 49
48 [ESTADISTICA BASICA]
Estadísticabásica
CUADERNILLO
b )
þ
þ
= 6.30 6.3082
c )
d )
=0.9920 .9920
[ESTADISTICA BASICA]
49
Estadísticabásica
CUADERNILLO
þ
= 3.1 3.182
t
(3.1 3.1, 9.4) 9.4)
e )
f )
=0.5658
REGRESION LINEAL MUL TIPLE Es evidente que que lo más económico y rápido para model modelar e ar el comportamiento de una variabl variable Y es usar u sar una sol sola variabl variable preeditora y usar usar u un model modelo lineal ineal. Pero 50 [ESTADISTICA BASICA]
Estadísticabásica
CUADERNILLO algunas veces es bastante obvio de que que el comportamiento de Y es imposibl imposible que que sea explicada en gran medida por so por sollo una variabl variable. Por ejemp or ejempllo, es imposibl imposible tratar de explicar e icar el rendimiento de un estu estudiante en unex nexamen, teniendo en cuenta sol solamente el número de horas que que se preparó para ella. lla. Claramente, Claramente, el promedio acadé académico del del estu estudiante, la carga acadé académica que que lleva, lleva, el año de estu estudios, son tres de las muchas otras variabl variables que que pueden explicar su rendimiento. Tratar de explicar el comportamiento de Y con más de una variabl variable preeditora usando una f uncional ncional linea lineall es el objetivo de regresión lineal ineal múltip últiplle. Frecu recuentemente, uno no es muy famil familiar con las variabl variables que que están en j en ju uego y basa susconclu sconclusiones siones sol solamente en cál cálculos ulos obtenidos con los datos tomados. Es decir, si ocu ocurre que que el coeficiente de determinación R 2 sal sale bajo (digamos menor de un 30%) , considerando además que que su val valor no or no se ha visto afectado por datos por datos anormal anormales, entonces el model modelo es pobre y para mejorar lo hay tres alternativas que que frecu frecuentemente se usan: a) Transformar Transformar la variabl variable preeditora, o la variabl variable de respu respuesta Y, o ambas y usar usar luego luego un model modelo lineal ineal. b) Usar Usar regresión regresión pol polinómica con una variabl variable preeditora. c) Conseg Consegu uir más variabl variables preeditoras y usar usar u una regresión lineal ineal múltip últiplle. En el primer caso, se puede perder el tiempo tratando de encontrar la transformación másadecu másadecuada y se podría caer en ³overfitting ´, ´, es decir, que satisface demasiado la tendencia encontrar un model modelo demasiado optimista, que de los datos tomados pero que que es pobre para hacer predicciones acer predicciones debido a que que tiene una varianza grande. En el segu segundo caso el aju ajuste es más rápido, pero es bien fácil fácil caer en ³overfitting´ y, además se pueden crear muchos probl problemas de cál cálculo ulo ya que que pueden surgir prob rgir probllemas de col colineal inealidad, es decir re decir rellación lineal ineal entre los términos del del model modelo pol polinomio. El tercer caso es tal tal vez la alternativa más usada y conveniente. Tiene bastante anal analogía con el caso simpl simple, pero requ requiere iere el uso uso de vectores y matrices. En el sigu siguiente ejempl ejemplo se mostrará el uso uso interactivo de las tres alternativas a travé través de seismodel seismodelos de regresión y servirá como un ejempl ejemplo de motivación para introdu introducirnos en regresiónl regresión lineal ineal múltip últiplle 51 [ESTADISTICA BASICA]
Estadísticabásica
CUADERNILLO En la tabl tabla se presentan datos muéstra uéstralles rel relativos a números de horas de estu estudio f uera durante un periodo de 3 semanas de algunas de 1 curso de estadística y a sus cal calificaciones en el examen final final de ese periodo. Elabore un diagrama de dispersión para estos datos y observe si cumpl mplen con los sigu siguientes datos.
Estudiante muestreado
1
2
3
4
5
6
7
8
Horas de Estu Est udio dio(x) (x)
20
16
34
23
27
32
18
22
52 [ESTADISTICA BASICA]
Estadísticabásica
CUADERNILLO Calificación En examen amen(y) (y)
64
61
84
1156
529
70
88
92
72
77
192
400
256
729
1024
324
484
1280
976
2856
1610
2376
2994
1296
1694
4096
3721
7056
4900
7744
6464
5184
5929
a) Determine la línea de regresión de mínimos centrados de los datos y trácela en el diagrama. b) Calcule el error estándar de la estimación. c) Use la ecuación de regresión para estimar la calificación en el examen de un estudiante que dedico 30 horas al estudio de la materia que curso. d) Elabore el intervalo de confianza del 90% para estimar la calificación media de los estudiantes que dedicaron 30 horas al estudio en curso. e) Calcule el coeficiente de determinación y el coeficiente de correlación, interprete los coeficientes calculados.
53 [ESTADISTICA BASICA]
Estadísticabásica
CUADERNILLO
54 [ESTADISTICA BASICA]
Estadísticabásica
CUADERNILLO
þ
55 [ESTADISTICA BASICA]
Estadísticabásica
CUADERNILLO
56 [ESTADISTICA BASICA]
Estadísticabásica
CUADERNILLO
INTERPRETACION
EL 86.02% DE LOS ALUMNOS QUE ESTUDIAN 30 HRS PASAN EL EXAMEN.
57 [ESTADISTICA BASICA]