INSTITUTO TENOLOGICO DE LA PAZ.
Memoria de estadística inferencial I Desarrollo de las unidades del curso.
Hirales Geraldo Jorge. 10/12/2013
Portada.
Nombre: Hirales Geraldo Jorge.
Carrera: Ingeniería industrial.
Maestro: Leiva Arango Isidro José
Escuela: Instituto tecnológico de la paz.
Grado y grupo: 3-B
La paz B.C.S.
Índice.
Unidad 1…………………………. …………………………. Distribuciones fundamentales para el muestreo.
Unidad 2……………………………Estimaciones.
Unidad 3………………………………………………………….. Pruebas de hipótesis.
Unidad 4……………………………………… …………………………………………….. …….. Prueba de bondad de ajuste. a juste.
Unidad 5……………………………………… ………………………………………….. ….. Regresión lineal simple y múltiple.
UNIDAD 1 Conceptos básicos:
Estadística descriptiva: recopila, ordena, agrupa, analiza y representa datos. Estadística Inferencial: infiere en muestras en base a N para la toma de decisiones. Parámetro: medida para describir cualquier característica con respecto a la población. Estadístico: medida para describir cualquier característica con respecto a la muestra. Parámetro
Estadístico
=media poblacional =Desviación poblacional
x =media muestral s =desviación muestral
2 =Varianza poblacional
s 2 =varianza muestral
TIPOS DE MUESTREO Muestreo probabilístico Los métodos de muestreo probabilísticos son aquellos que se basan en el principio de equiprobabilidad. Es decir, aquellos en los que todos los individuos tienen la misma probabilidad de ser elegidos para formar parte de una muestra y, consiguientemente, todas las posibles muestras de tamaño n tienen la misma probabilidad de ser seleccionadas. Sólo estos métodos de muestreo probabilísticos nos aseguran la representatividad de la muestra extraída y son, por tanto, los más recomendables. Dentro de los métodos de muestreo probabilísticos encontramos los siguientes Tipos: 1.- Muestreo aleatorio simple: El procedimiento empleado es el siguiente: 1) se asigna un número a cada individuo de la población y 2) a través de algún medio mecánico (bolas dentro de una bolsa, tablas de números aleatorios, números aleatorios generados con una calculadora u ordenador, etc.) se eligen tantos sujetos como sea necesario para completar el tamaño de muestra requerido. Este procedimiento, atractivo por su simpleza, tiene poca o nula utilidad práctica cuando la población que estamos manejando es muy grande.
2.- Muestreo aleatorio sistemático: Este procedimiento exige, como el anterior, numerar todos los elementos de la población, pero en lugar de extraer n números aleatorios sólo se extrae uno. Se parte de ese número aleatorio, que es un número elegido al azar, y los elementos que integran la muestra son los que ocupa los lugares i, i+k, i+2k, i+3k,...,i+(n-1)k, es decir se toman los individuos de k en k, siendo k el resultado de dividir el tamaño de la población entre el tamaño de la muestra: k= N/n. El número i que empleamos como punto de partida será un número al azar entre 1 y k. El riesgo este tipo de muestreo está en los casos en que se dan periodicidades en la población ya que al elegir a los miembros de la muestra con una periodicidad constante (k) podemos introducir una homogeneidad que no se da en la población. Imaginemos que estamos seleccionando una muestra sobre listas de 10 individuos en los que los 5 primeros son varones y los 5 últimos mujeres, si empleamos un muestreo aleatorio sistemático con k=10 siempre seleccionaríamos o sólo hombres o sólo mujeres, no podría haber una representación de los dos sexos. 3.- Muestreo aleatorio estratificado: Trata de obviar las dificultades que presentan los anteriores ya que simplifican los procesos y suelen reducir el error muestral para un tamaño dado de la muestra. Consiste en considerar categorías típicas diferentes entre sí (estratos) que poseen gran homogeneidad respecto a alguna característica (se puede
estratificar, por ejemplo, según la profesión, el municipio de residencia, el sexo, el estado civil, etc.). Lo que se pretende con este tipo de muestreo es asegurarse de que todos los estratos de interés estarán representados adecuadamente en la muestra. Cada estrato funciona independientemente, pudiendo aplicarse dentro de ellos el muestreo aleatorio simple o el estratificado para elegir los elementos concretos que formarán parte de la muestra. En ocasiones las dificultades que plantean son demasiado grandes, pues exige un conocimiento detallado de la población. (Tamaño geográfico, sexos, edades,...). La distribución de la muestra en función de los diferentes estratos se denomina afijación, y puede ser de diferentes tipos: Afijación Simple: A cada estrato le corresponde igual número de elementos muéstrales. Afijación Proporcional: La distribución se hace de acuerdo con el peso (tamaño) de la población en cada estrato. Afijación Óptima: Se tiene en cuenta la previsible dispersión de los resultados, de modo que se considera la proporción y la desviación típica. Tiene poca aplicación ya que no se suele conocer la desviación.
4.- Muestreo aleatorio por conglomerados: Los métodos presentados hasta ahora están pensados para seleccionar directamente los elementos de la población, es decir, que las unidades muéstrales son los elementos de la población. En el muestreo por conglomerados la unidad muestral es un grupo de elementos de la población que forman una unidad, a la que llamamos conglomerado. Las unidades hospitalarias,
DIFERENCIAS ENTRE PROPORCIONES POBLACIONALES VS PROPORCIONES MUESTRALES Formulas factor de continuidad y corrección: P
x N Pq n
( P 1 P ) 2
P 1q1 n1
P 2 q2
N n
n2
N 1
Proporción muestral:
p
x n
Cota de error de la producción:
E P 2
E
Pq 2
n
n
Pq 2
E 2
Problemas.
1. Estudios realizados demuestran que el uso de gasolina para autos compactos vendidos en estados unidos esta normalmente distribuidos con una media de 25 y una varianza de 4.5 ¿Qué porcentaje de autos compactos recorre 30 millas por galón o más? P=? Formula: Z
Z
x M 0.5
30 25.5 4.5
0.5
1
30
M 25.5
A( Z ) A(1) 0.5 0.3413 0.158
68% 0.341
Z 1
0.341
Z 1
Z 1
2. Se toma como muestra aleatoria de n=36 de una distribución de con una M=75 y con una =12. a) La distribución muestral de la media x será aproximadamente _80__ con una M=_75__ y = __2___ b) Para hallar la probabilidad de que la media muestral x exceda de 80, anote el evento de interés__0.62%___
USO DE t DE ESTUDENT. Formulas: Con 2 conocida con
n 30 Z
conocida.
x n
Con 2 desconocida con
x n 30 t s x n
(
s
desconocida. x
n
)
2
1
n 1 =grados de libertad (gl,D,v, df)
DISTRIBUCIÓN MUESTRAL DE LA PROPORCIÓN MUESTRAL. Formulas: Z
x x n
N n N 1
2 np npq npq
Z
p P p
pq n
N n N 1
Problemas:
1. Muestras aleatorias de tamaño n se seleccionaron en poblaciones binomiales con parámetros P poblacionales dados aquí. Encuentre la media y la desviación estándar de la distribución muestral p en cada caso para n=100 y P=0.3; n=400 y P=0.1 ? ?
np 100(0.3) 30 (400)(0.1) 40
npq (100)(0.3)(0.7) 4.56 (400)(0.1)(0.9) 6
DEFINICIÓN DE LA DISTRIBUCIÓN DE LA MEDIA MUESTRAL. Supongamos que cada una de nuestras muestras consta de 10 ingenieros industriales de 25 años de edad que viven en una ciudad de 100 mil habitantes (una población infinita, de acuerdo con nuestro tratamiento). Al calcular la altura media y la desviación estándar de esa altura, para que cada uno de estos ingenieros, rápidamente observaran que la media y la desviación estándar de la muestra serian diferentes. Una distribución de probabilidad de todas las medias posibles de las muestras, es una distribución de las medias de las muestras. Los estadísticos la conocen como distribución de muestreo de la media. Sugerencia El conocimiento de la distribución de muestreo permite a los estadísticos planear muestras de tal forma que los resultados sean significativos. Como sabemos que resulta caro recabar y analizar muestras grandes, por eso nosotros como ingenieros siempre procuramos obtener las muestras más pequeñas que proporcionen un resultado confiable.
Problemas: 1. La hall corporation fabrica grandes sistemas de computo y siempre se
ocupado con la confiabilidad de sus unidades de procesamiento centros de sistemas 666. De hecho la experiencia pasada ha mostrado que el tiempo improductivo mensual de los CPU 666 promedio 41min. Con la desviación estándar de 8 min. El centro de cómputo de una gran universidad estatal mantiene una instalación formada por 6 CPU del sistema 666 James Kitchen, el director del centro siente que se proporciona un nivel satisfactorio de servicio a la comunidad universitaria si el tiempo improductivo promedio de las 6 CPU es menor de 50 min. Al mes. ¿Dado cualquier mes cual es la probabilidad se sienta satisfecho con la red de servicio? 41m 8 min min n 6 p ( x 50) Z
x 50 41 2.755 area 0.497 0.5 0.997 99 .7% 8 6
n
patentes se fija para dar apoyo a 2. El costo de las prescripciones de investigaciones yn desarrollo de estos medicamentos, que se pueden tardar hasta 20 años. Sin embargo una mayoría de personas de cierto país dice que los costos de medicamento de patentes (66%), los costos de hospital (64%) y las visitas de médicos (55%) son irracionalmente altos. Suponga que se toma una muestra aleatoria de 1000 adultos. Se la p (proporción muestral) la proporción de adultos que dicen que los precios de medicinas con recetas son irracionalmente altos. ¿Cuál es la probabilidad de que
p exceda de 68%? p ( p 0.68)
Datos: n 1000 p =660 (66%) Z
p P
660 680
pq
(680)(320)
n
1000
P=680
1.335
3. Utilizar las tablas de áreas bajo la curva normal entre los valores dados: Z 0.3 y Z 1.56 =0.1179
=0.4406----------0.4406-0.1179=0.3227= 32.27%
Z 1.3 y Z 1.74 =0.4032
=0.4591-----------0.4032+0.4591=0.8623=86.23%
4. Se diseño un nuevo sistema para el control de inventario de un pequeño
fabricante, con el propósito de reducir el mismo para un motor eléctrico en particular, a menos de 3 000 motores por día. Se llevo a cabo un muestreo de inventario en reserva al final de cada uno de 8 días, seleccionados aleatoriamente; los resultados son los que se muestran en la siguiente tabla. Numero de motores 2905
2895
2725
3005
2835
2835
3065
2605
Utilizando la distribución de muestreo respectivo señale o indique mediante una grafica si hay evidencia que señale el promedio del numero de motores en el inventario es menor que 3 000 utilizando un coeficiente de confianza de 95% y un nivel de significancia de 5% Datos: n 8 0.05
2
0.025 3000 gl n 1 7
Condición: p( x 3000 ) x 2858 .75 2859 s 146 .76 t
x 2859 3000 2.7172 146 146 .76 s n
8
Aumento la confianza y disminuyo la significancia, si hay suficiente evidencia a la pregunta.
0.05
t 1.9
t 2.7172
5. Los costos variables, principalmente de la mano de obra, hacen que los
precios de la construcción varíen de una con respecto a otra. Un constructor necesita tener una ganancia media arriba de 8500 DLL para alcanzar una ganancia mensual establecida como meta. Las ganancias por cada una de las 5 construcciones más recientes del constructor, son de 8760 DLL, 6370 DLL, 9620 DLL, 8200DLL y 10350DLL, respectivamente. ¿Proporcionan los datos evidencia que indique que el constructor estaba trabajando al nivel de ganancia deseado con un nivel de significancia de 0.05 ? Datos: n 5 0.05 8500 gl n 1 5 1 4 Condición: p( x 8500 )
t
x 8660 s 1520 .148
x 8660 8500 0.2353 1520 .148 s n
5
0.95
El nivel de significancia t 2.13
Se encuentra entre 40% y 45% t 0.2353
DISTRIBUCIÓN DE MUESTREO DE LA DIFERENCIA DE MEDIAS.
Formulas: Z
x1 x 2 1
2
n1
x
x 2
1
2
22
S 1
n2
n1
2
S 2
n2
Para muestras pequeñas: t
=
x1 x2
2 2 n1 n2
x1 x2 1 n1
x1 x2
1 n2
1 n1
n2
Estimador ponderativo de la desviación:
(n1 1) s (n2 1) s 2 1
n1 n2 2
2 2
n
n
i 1
i 1
n
1
1
( xi x1 ) 2 i 1
n1 1
( xi x1 ) 2 ( xi x 2 ) 2 n1 n2 2 n
2
( xi x 2 ) 2 i 1
n2 1
Problemas:
1. Se seleccionaron dos muestras aleatorias independientes de las
poblaciones: n1 80
n2 80
Los parámetros de las poblaciones y las medias muéstrales así como las variables de 2 muéstrales se indican en la tabla: Población
Parámetros y estadísticos Media poblacional Varianza poblacional Tamaño de la muestra Media muestral Varianza muestral
1 1
2 2
1
2
80 11.6 27.9
80 9.7 38.4
Observe los datos y por intuición diga si los datos proporcionan Suficiente evidencia para que M 1 M 2 y realice la prueba utilizando un nivel de significación de 0.10 y sacar conclusiones:
Condición: 1 2
Z
x1 x 2 S 1
2
n1
11 .6 9.7
S
27 .9
n2
80
2 2
38 .4
2.087
80
0.90
z 1.29 z 2.08
Conclusión: si existe suficiente evidencia de que si hay un incremento de la madia poblacional 1 con respecto a la 2. Con nivel d e significancia de 0.10
DISTRIBUCIÓN DE MUESTREO CON RESPECTO A 2 PROPORCIONES POBLACIONALES. p1 p 2
Z
p1 q1 n1
P
p1
p2 q2
x1 n1
p 2
x2 n2
n2
x1 x2 n1 n2
p 1 p 2
Z
1
p q
n1
1
n2
Problemas: 1. El administrador de un hospital conjetura que el porcentaje de cuentas
hospitalarias no pagadas, aumento durante el año anterior; los registros del hospital muestran que las cuentas de 48 de 1284 personas admitidas en el mes de abril no habían liquidado después de 90 días; este número es similar a las 34 cuentas de 1002 pacientes admitidas durante el mismo mes del año anterior ¿con estos datos hay suficiente evidencia que indique un incremento en el porcentaje de cuentas liquidadas después de más de 90 días? Utilice nivel de significancia de 0.10 Datos:
n1 1284 n2 1002 x1 48 x2 48 48 x2 34 x1 0.034 q 1 p 0.965 p1 0.037 p2 n2 1002 n1 1284
P
Z
48 34 x1 x2 0.035 n1 n2 1284 1002
0.037 0.034 1 1 1284 1002
0.387
(0.035)(0.965)
Z
0.037 0.034 (0.037)(0.965) 1284
0.385
(0.034)(0.966)
Z 0.385
0.90
Z 1.29
1002
La significancia aumento, por lo tanto los datos no son suficientes para indicar que la proporción de cuentas excede al % correspondiente al año anterior.
2. Un fabricante modifico una línea de producción para reducir el promedio de la fracción de defectuosos. Para determinar si la modificación fue efectiva, el fabricante saco una muerta aleatoria de 400 artículos antes de la modificación de la línea de producción, y otra muestra aleatoria de 400 artículos después de tal cambio. Los porcentajes de defectuosos en las muestras eran: antes 5.25%, después 3.5%, lleve a cabo la prueba y saque sus conclusiones, si la modificación no pudiera incrementar la fracción de defectuosos, utilice un nivel de significancia de 0.05. Datos: n1 400 n2 400
0.90 Z 1.65
x1 21 x2 14
p1 0.0525 p2 0.035
P
Z
x1 x2 n1 n2
21 14 400 400
0.04375 q 0.95625
0.0525 0.035 (0.0525 )(0.9475 ) 400
(0.035 )(0.965 )
Nuestra significancia aumentó.
400
1.2
Z 1.2
DISTRIBUCIÓN DE MUESTREO PARA LA PROPORCIÓN POBLACIONAL.
Parte de Z
x
Z
p p
n
pq n
Problemas:
1. Aproximadamente uno de cada 10 favorece el refresco de cola de marca A. Después de una campaña de promoción en una región de ventas dadas, se seleccionaron aleatoriamente 200 bebedores de ese producto, de los consumidores en el área del mercado, y se les entrevisto para determinar la efectividad de la campaña. El resultado de la encuesta mostro que un total de 26 personas expresaron su preferencia a la bebida de la marca A. ¿Son los datos suficientes para indicar un aumento en la aceptación de la marca en la región? Nivel de significancia de 0.10: Datos: n1 200
p p1 Z
26 200 1 10
0.13
Z 1.29
0.10
p p
0.13 0.10
pq
(0.10)(0.10)
n
200
Conclusión: Significancia disminuyo: Hay suficiente evidencia.
1.4121 Z 1.4142
DISTRIBUCIÓN DE MUESTRA PARA UNA VARIANZA PROPORCIONAL (CHI-CUADRADA) X 2 Problemas:
1. Un fabricante de cemento afirmo que el concreto preparado con su producto tendría una resistencia a la compresión relativamente estable y que, medida en KNC 2 se ubicaría en una
amplitud de 40. Una muestra de 10 mediciones arrojo
una media x 312 y una varianza 2 195 . ¿Son suficientes los datos para rechazar la afirmación del fabricante? Datos: n1 10 gl n 1 9 2 10
c2
(10 1)(95) 100
17.55
Regla de decisión:
16.91
c2 2 17.55 16 .91 Si, aumento confiabilidad y disminuyo significancia.
PRUEBAS DE LA RAZÓN DE VARIANZA: DISTRIBUCIÓN DE MUESTREO (ENTRE DOS VARIANZAS)
f DE FISHER.
Problemas. 1. La variabilidad en la cantidad de impurezas presentes en un lote de
productos químicos, utilizado para un proceso particular, depende del tiempo que tarda el proceso. Un fabricante que emplea 2 líneas de producción 1 y 2 hizo un pequeño ajuste al proceso 2 con la esperanza de reducir la variabilidad, así como la cantidad media de impurezas en los productos químicos. Muestras de n1 25 y n2 25 , mediciones de 2 lotes produjeron los siguientes medias y varianzas. 2 x1 3.2 y S 1 1.04
2 x 2 3.0 y S 2 0.51
¿Presentan los datos evidencia suficiente para indicar que las variaciones de proceso son menores para el 2? Nivel de significación 0.10
Formulas: Fc
s12
(razón de varianzas) s22
2 2 (numerador) s1 s2 (numerador)
s 22 s12 v1 gl n1 1
gl 25
v2 gl n2 1 gl 24 Fc
1.04 0.05
1.70 (Teórica)
2.03
Se redujo el nivel de significancia f 1.70 fc 2.03
UNIDAD 2. Intervalos. Formulas: Intervalo de confianza para x Z
n
2
S S x Z n n 2
x Z 2
cuando
S
x t
2
n
2
Intervalo de confianza para
y conocido n 30
x Z
n
2
cuando
y desconocidos
x t
2
S n
2
Intervalo de confianza para proporción poblacional p Z
p q
2
n
P p Z
p q n
2
p q
p t
n
2
P p t 2
p q n
Diferencias de 1 2 (Muestras) poblacionales x1 x 2 Z 2
12 n1 S 12
x1 x 2 t
n1
2
n1
2
n2
S 22
1
x1 x 2 t Sp
22
n1
2
1 2 x1 x 2 t
n2
1 2 x1 x 2 Z
12
2
S 12 n1
22 n2
S 22 n2
1
1 1 1 2 x1 x 2 t Sp n2 n1 n2 2
Estimador ponderativo------ Sp
Varianza diferente
Varianza igual
(n1 1) s12 (n2 1) s22 n1 n2 2
Diferencias entre proporciones poblacionales p1 q1
p1 p 2 t Sp
n1
2
n 1S 2 X 2 h sup erior
2
p 2 q 2 n2
n 1S 2 X 21 h inf erior
p q p q 2 P 1 P 2 p1 p 2 t Sp 1 1 2 n2 n1 2
Para la varianza
n 1S 2 X 2 h
n 1S 2 X 21 hi
12 S 12 S 12 1 f V V S 22 f V 1V 2 22 S 22 1 2
Para la desviación Para la razón de varianza
Cota del Error máximo permisible
E Z
n
2
E Z 2
Pq n
Determinación del tamaño de la muestra 2
n
Z 2 2
E 2
Determinación del tamaño de la muestra para proporciones n
Z 2 h Pq E 2
INTERVALOS DE CONFIANZA PARA LA MEDIA POBLACIONAL. Problemas:
1. Encuentre un intervalo de confianza (1 ) 100% para una media poblacional en los siguientes casos: a) Cuando 0.01 n 38 x 34 s 2 12 s 3.42 z 2.58
Al 99% con área de 0.4950
2
x Z
x Z
n
2
n
2
34 ( 2.58 )
3.46 38
34 (2.58 )
3.46 38
32 .55 35 .44
b) 0.10 n 65 x 1049 s 2 51 Al 90% con área de 0.45
z 1.65 2
1049 (1.65 )
7.1414 61
1049 (1.65 )
7.1414 61
1047 .49 1050 .5
2. Una muestra aleatoria de n=6 observaciones de una población normal generó los siguientes datos: 3.7, 6.4, 8.1, 8.8, 4.9, 5.0 0.10 n 6 x 6.15 s 2 3.95 s 1.98 gl n 1 6 1 5
a. Encontrar un intervalo de confianza al 90% para x t 2
S n
x t
6.15 (2.02 )
2
1.98
4.5 7.78
6
S n
6.15 (2.02 )
1.98
0.90
6
t 2.02 2
t 2.02 2
3. Se encuentra que la concentración promedio de Zinc que se saca del agua a partir de una muestra de mediciones de zinc en 36 sitios diferentes es de 2.6g/ml, encuentre los intervalos de confianza de 95% y 99% para la concentración media de zinc en el sitio. Su póngase que 0.3 a. 0.3 b. ¿Qué tan grande se requiere una muestra si queremos tener 95% de confianza de que nuestra estimación de difiera al menos de 0.05 Datos: n 36 x 2.6 g / ml 2 0.09 0.3
x Z
n
2
x Z 2
n
0.95
z 1.96
Al 95% con área de 0.475
2
2.6 (1.96)
0 .3 36
2.6 (1.96)
z 1.96
z 1.96
2
0 .3 36
2
2.50 2.69
Al 99% z 2.58 2
2.6 ( 2.58 )
0.3 36
2.6 (2.58 )
0.3 36
2
n
1.96
0.3 36
0.098
0.098
pero al ser intervalo-- 2
Para obtener muestra máxima al 95%: 2
n
2
E 2
(1.96 ) 2 (0.3) 2 (0.5) 2
2
2
Z 2 1.96 (0.3) 2 n De: E Z 36 E 0 . 098 n 2 despejar
Z S 2
z 2.58
z 2.58
Para determinar la muestra: Calcular: E Z
0.99
2.47 2.73
138
2
0.5
INTERVALOS DE CONFIANZA PARA LA DIFERENCIA DE MEDIAS. Problemas:
1.Los siguientes datos representan el número de artículos producidos por el método 1 y método 2. Método 1 103
94
110
Método 2 97 82
87
123
92
98
175
88
118
Calcule un intervalo de confianza del 90% para la diferencia entre los tiempos de proporción de duración promedio de los 2 métodos. Metodo 1 Metodo 2 n1 5
n2 7
x 98.4
x 110.7
S 1 8.73
S 2 32.18
2
S
1
gl 7 5 12 gl 12 2 10
2
76.21 21 103.5
x1 x 2 t 2
S 12 n1
S 22 n2
98.4 110 .7 1.81
1 2 x 1 x 2 t 2
76 .21 1035 .55 5
7
12.3 23.13 1 2 12.3 23.12 35.42 1 2 10.8
S 12 n1
S 22 n2
1 2 98.4 110 .7 1.81
76 .21 1035 .55 5
7
INTERVALO DE CONFIANZA PARA LA PROPORCIÓN POBLACIONAL. Problemas:
Problemas: 1. En una muestra aleatoria de 500 familias que se tienen televisiones en una ciudad “x” se encuentran que 340 están suscritas en mega cable, se encuentra
un intervalo de confianza de 99% para la proporción real en familias que están suscritas a mega cable.
n 500 x 300 p
x
340
n 500 99%
p Z
0.68
p q 2
n
p 0.68 2.58
0.680.32 500
0.626 p 0.7338
¿Qué tan grande se sugiere que sea una muestra si queremos tener un 99% de confianza de que muestra estimación “P” este entre 0.02? Z 2 p q 2.58 2 0.68 0.32 2 n 3621 E 2 0.022
E Z
p q 2
n
2.58
0.680.32 500
0.05 E
0.05 2
0.2
INTERVALO DE CONFIANZA PARA LA DIFERENCIA DE PROPORCIONES. Problemas:
1.Encontrar el intervalo de confianza para la diferencia entre dos proporciones poblacionales con un coeficiente de confianza de 0.95.
p 0.73
n x
1 1
p 0.67
0.73
n 620.5 x
1 1
850 569.5 p1 q1
p1 p 2 t Sp 2
n1
p 2 q 2 n2
p q p q 2 P 1 P 2 p1 p 2 t Sp 1 1 2 n n 1 2 2
0.73 0.27 0.67 0.33 0.73 0.27 0.67 0.33 .73 .67 1.96 P 1 P 2 .73 .67 1.96
850
850
0.016 p1 p2 0.104
0.16
0.104
0.67
0.73
850
850
INTERVALOS DE CONFIANZA PARA LA RAZÓN DE VARIANZAS. Problemas:
Dados los siguientes datos obtener un intervalo de confianza para la razón de varianzas:
n n
1 2
10 8
v v 1.04
90% 2
S S
1 2 2
S 12
1 2
n 1 10 1 9 n2 1 8 1 7
0.51 1
2 2
S f V 1V 2
0.05
12 2 2
S 12 S 22
f V 1V 2
0.95
2
1.04 1 1 1.04 2 3.29 0.5541 0 . 51 3 . 68 0 . 51 2
6.70
INTERVALOS DE CONFIANZA PARA LA VARIANZA. Problema:
Dados los siguientes datos, obtener un intervalo de confianza para la varianza con la distribución de Chi 2 n 10 gl 9 s 2 195 0.05
Al 95% X 2 19 2
n 1S 2 X 2 h sup erior
10 1195 19
0.99
2
2
n 1S 2 X 21 h inf erior
10 1195 2.7
92.3 2 650
2
X
(1 ) 2
2.7
X 2 2 19
UNIDAD 3 Prueba de hipótesis. Ho: Hipotesis nula Ha: Hipotesis alternativa No existe No hay riesgo No hay verificación 0.95
I (B)
Región
Si hay evidencia aceptada
Si hay significación -1.96
≠ -
+1.96
Re ión de rechazo
Si hay riesgo
+
Error de tipo I (∞) Rechazar (Ho) Error de tipo II (B) Aceptación (Ho) Prueba unilateral o de una cola pero superior 1ra
2do
0.95
0.95
I (∞) 0.5000
∞=0.05
0.4500
0.4500 1.65 (+)
0.5000
-1.65 I (-)
Prueba unilateral o de una cola pero superior Una hipótesis estadística Una hipótesis estadística: es una aseveración o conjetura con respecto a una o más poblaciones.
La verdad o falsedad de una hipótesis estadística nunca se sabe con absoluta incertidumbre a menos que examinemos toda la población. Esto, por supuesto, sería poco práctico en l mayoría de las situaciones. En su lugar, tomamos una muestra aleatoria de la población de interés y utilizamos los datos contenidos en esta muestra para proporcionar evidencia que apoye o no la hipótesis. La evidencia de la muestra que es inconsistente con la hipótesis que se establece conduce al rechazo de esta, mientras que la evidencia que la apoya conduce a su aceptación. Debe quedar claro que el diseño de un procedimiento que decisión se debe hacer con la idea en mente de la probabilidad de una conclusión errónea. Debemos acostumbrarnos a comprender “Que la aceptación de una hipótesis simplemente implica que los datos no dan suficiente evidencia para rechazarla”. Por otro lado, el rechazo implica que la evidencia muestra la recluta. Dicho de otra forma el rechazo significa que hay una pequeña probabilidad de obtener la información muestra observada cuando, la hipótesis es verdadera. Hipótesis Nula: Esta se refiere a cualquier hipótesis que deseamos probar y se denota (Ho). El rechazo de la hipótesis nula conduce a la aceptación de una hipótesis alternativa, que se denota (HA). Una hipótesis nula con respecto a un parámetro poblacional siempre se establecerá de modo que especifique un valor exacto del parámetro mientras que la hipótesis alternativa permite la probabilidad de varios valores.
PRUEBA DE HIPOTESIS PARA LA MEDIA CUANDO 2 ES CONOCIDA. n ≥ 30= Ƶ
Ho: M=Mo 02 Analiza si es una prueba
Desconocidas 0 ó t= estudent
Dos extremos
Un extremo
Ho: M=Mo
Ho: M≤Mo
HA: M≠Mo
HA: M>Mo , HA: M
Establecer tu nivel de significancia HA: M
(1)
(2)
-Ƶ∞/2
(3)
-Ƶ∞/2
Ƶ∞/2
+Ƶ∞/2
Estadístico de prueba. Ƶ=
X M O n
t
X M S n
Regla de decisión / Región de Rechazo
Dos extremos
Un extremo
Ƶc>Ƶ∞/2
Ƶc>Ƶ∞/2
tc>t∞/2 Ƶc<Ƶ∞/2 tc
tc>t∞/2 gl= n-1
HA: M>Mo
Ƶc<Ƶ∞/2 tc
Problemas:
Problemas: 1. Una empresa eléctrica fabrica focos que tienen una duración que se distribuyen de forma aproximadamente con una media de 800 hrs, 0=40 hrs. Pruebe la hipótesis de que la Mo= 800 contra la M≠800 si una muestra aleatoria de 30 focos tiene una duración promedio de 788 hrs. Utilice un nivel de significancia de ∞=.04
Datos M: 800 hrs
media poblacional
O: 40 hrs Ho: M=800 HA: M≠800
n: 30 X
: 788 media muestral
∞= 0.04
Ho: M=800
HA= M≠800
Un Extremo
Dos Extremo
0.96 =
=0.02
= 0.4800
=
0.4800
=-0.02 Ƶc=-1.64
2.06 1.64
=0.02
Zc=
X M 788 800 = = -1.64 40 O
30
n
Regla de decisión Zc> Z 2 1.64 >2.06
NO
Zc< Z 2 -1.64<-2.06 NO Se acepta Ho 3. Proporciona los datos evidencias suficiente que señale una diferencia en el incremento medio diagnostico para PNB, hechas por ejecutivos de corporaciones y analistas del mercado accionario realice la prueba con ∞=0.10
obtenga el valor de P aproximado para la prueba interprete. Encuentre un intervalo de confianza de 90% para la diferencia entre las predicciones del producto nacional Bruto (PNB) promedio de los ejecutivos de corporaciones y analistas de mercado accionario. n1=5 n1=5 =3.44 X =3.44 S=0.41 S=0.41 S2= 0.1681 S2= 0.1681
∞=0.10
gl= n1+n2-2 gl= 5+5-2 gl= 8 -
t∞=1.40
Porque nada más es una cola
Ho: M1-M2 =Do
HA: HA M1-M2
n 1S 12 n 2 1S 12 n1 n 2 2
5 10.1681 5 10.0961
Sp
552
Sp= 0.36
t=
X 1 X 2 Do 3.44 3.68 0 Sp
1
n1
=
1
0.36
n2
1 5
1
= 1.05
5
Regla de decisión región de rechazo tc
-1.05<-1.40 NO Se acepta Ho ó
gl=8 1.40
No se rechaza
0.20 .889
P= 0.889 B) 0.10
1
2
n1
C) X 1 X 2 t Sp
3.44-3.68-(1.86)(0.36) -0.66
1 n2 1 5
M 1 M 2 X 1 X 2 t 1 5
1
2
n1
1
n2
(0.36)
1 5
1 5
PRUEBA DE HIPOTESIS PARA UN PROPORCIÓN POBLACIONAL. 1.- establece tu hipotesis o Ho: P=Po 1. Ho: P=Po Un extremo
2 colas
Unilateral
Bilateral
2.- HA: P>Po ó HA: P≠Po HA: P
+ Ƶ∞
Ƶ ∞/2
ESTADISTICO DE PRUEBA 4.- Ƶ=
P Po Poqo n
tc=
P Po Poqo n
5.- REGIÓN DE RECHAZO O REGLA DE DECISIÓN Un extremo Zc> Z Tc > t Zc< -Z
Dos colas
Ƶ ∞/2
Ƶ∞-
Problemas: 1. Aproximadamente uno de cada 10 consumidores favorecen el refresco de colo marca A. Después de una campaña de promoción en una región de ventas dada, se seleccionaron aleatoriamente bebedores de ese producto de los consumidores en el área del mercado, y se les entrevisto para determinar la efectividad de la campaña. El resultado de la encuesta mostro que un total de 26 personas expreso su preferencia para la bebida marca “A”. ¿Son los datos
suficientes para indicar un aumento en la aceptación de la marca A en la región. Datos n= 200 1
P=
10
P =
0.10
26 200
0.13
∞= 0.05
0.95 ∞=0.05 0.5000
0.4500 1.65
Ho: P=0.10 un extremo HA: P>.10
Ƶ
P Po Po qo
0.13 0.10 (0.10)(0.90)
n
1.41
200
REGLA DE DECISION Zc > Z∞
1.41 > 1.65 No Se Acepta Ho
0.92
0.5000
0.4200
∞= 0.08
Z= 1.41
2. Una muestra aleatoria de n=1400 observaciones de una población binomial produjo 529. a) Que escogerá como Ho (hipótesis nula) y como H A (hipótesis alternativa). Si la hipótesis de investigación es que “P” difiere de 0.4 P≠0.4
b) Implica la hipótesis alternativa del inciso anterior una prueba de un extremo o 2 extremos. c) Es esta evidencia suficiente para indicar que “P” difiere de 0.4. realice la prueba con Datos N= 1400 X= 529
p
529
1400 p 2 0.4
0.37 0.90
0.10
0.05
0.05
-1.65
Zc
p p
0.37 0.4
p0 q0
0.40.62
n
1400
Zc Z
2 Zc 1.65 2.3 1.65
2.3
Se rechaza hipótesis nula
1.65
PRUEBA DE UNA HIPÓTESIS PARA UNA DIFERENCIA DE PROPORCIONES POBLACIONALES. Ho : (P1 – P2) = Do H A : (P1 – P2) > Do H A : (P1 – P2) < Do
) ̂ √ (
Se seleccionaron muestras aleatorias independientes n1 = 140 observaciones de 2 poblaciones binomiales, respectivamente. El numero de éxitos en las muestras y los parámetros poblacionales se muestran en la tabla siguiente y parámetros. Estadístico y parámetro Tamaño de la muestra No exitosos Parámetro Binomial
1 140 74 P1
2 140 81 P2
a) Supóngase que no tiene una medida preconcedida acerca de cuál de los parámetros P1 o bien P2 es el mayor, y que solamente quiere detectar una diferencia entre los dos parámetros si existe. ¿Qué tendría que escoger como HA para una prueba estadística? ¿Qué para la Ho? b) Implica su HA en el inciso a) una prueba de 1 o de 2 colas c) Lleve a cabo la prueba y saque conclusiones 0.05 n1 = 140
n2 = 140
X1 = 74
X2 = 81
0.52 0.57 0 0.84 0.520.48 0.570.43 140 0.025
140
-1.96
1.96 Regla de decisión
Se acepto hipótesis nula
-0.84
0.84
UNIDAD 4
PRUEBAS DE BONDAD DE AJUSTE Y PRUEBAS NO PARAMÉTRICAS PRUEBA DE X PARA BONDAD DE AJUSTE 2
La hipótesis más sencilla acerca de las probabilidades multinomiales de las celdas es la que especifica los valores numéricos para cada una de ellas. Por ejemplo: Si en el experimento multinomial intervienen K= 4 celdas, podríamos querer probar la hipótesis nula como: Ho:P1=0.2 Ho:P2=0.4 Ho:P3=0.1Ho:P4=0.3 Contra la hipótesis alternativa de que por lo menos 2 de las probabilidades de las celdas difieren de los valores especificados de la hipótesis nula. Teorema Una prueba de bondad de ajuste entre las frecuencias observadas y esperadas se basa en la cantidad de las 5 frecuencias observadas menos las observadas al cuadrado.
∑
∑
Donde es un valor de una variable aleatoria, cuya distribución muestral se aproxima muy de cerca con la distribución . La prueba se basa en que tan buen ajuste tenemos entre la frecuencia de ocurrencia de las observaciones en una muestra observada y las frecuencias esperadas que se obtienen a partir de la distribución hipotética.
Ejemplo: supóngase que los clientes pueden escoger entre 3 marcas de leche en un supermercado. En un estudio para determinar si hay preferencia para una marca, se registran los resultados de una muestra de n=300 compras de leche. Se muestran los datos en la tabla siguiente:
Marca 1
Marca 2
Marca 3
Fo
Fe
Fo
Fo
78
100
117
Fe 100
105
Fe 100
¿Con los datos hay evidencia suficiente que indique preferencia por una a más marcas? Ho:P1= P2 = P3 H A:P1≠ P2 FE=np =
()
µ=np
0.95
0.05
P= 5.99
Se acepta Ho *Si existe suficiente evidencia que indique a un nivel de significancia de 0.95. Concluimos que las 3 marcas de leche no tienen la misma preferencia.
Ejercicio: Los funcionarios de una comunidad en particular, buscan un programa federal con el cual esperan que aumenten los niveles de ingresos locales. Como justificación, los pobladores de la ciudad afirman que la distribución de los ingresos locales difiere sustancialmente de la di stribución nacional y que los ingresos tienden a ser menores de lo esperado. Se clasificaron y se compararon los ingresos de una muestra aleatoria de 2000 familias, con los porcentajes nacionales que se muestran en la tabla siguiente: Datos de los Ingresos
Ingreso
Porcentajes Nacionales
Salario en la ciudad
Más de $50,000
2
27
$25,000 hasta $50,000
16
193
$20,000 hasta $25,000
13
234
$15,000 hasta $20,000
19
322
$10,000 hasta $15,000
20
568
$5,000 hasta $10,000
19
482
Menos de $5,000
11
174
Total
100
2000
Es esta suficiente evidencia para indicar que la distribución de los ingresos por familia de la ciudad difieren e la distribución nacional. α=0.05
Ho:P1= P2 = P3=P4= P5= P6= P7 H A:P1≠ P3
Se rechaza H o Si existe suficiente evidencia aα=0.05 que los ingresos difieren de los de la ciudad.
A= 0.5
12.6
ANÁLISIS JI-CUADRADA PRUEBA DE INDEPENDENCIA ji-cuadrado En una prueba de independencia el único número que el investigador controla directamente es el tamaño total de la muestra. Se extrae una muestra de tamaño n de la población y cada objeto se clasifica según las dos variables que se estudian. Ni las frecuencias de cada celda, ni los totales de fila y columna se conocen de antemano. El investigador no fija previamente ningún conjunto, es decir, son aleatorios. El planteamiento de las Hipótesis será: H 0 : A y B son independientes H 1 : A y B no son independientes
Independencia significa que el conocimiento del nivel de clasificación de un objeto respecto a la característica A no tiene nada que ver con su nivel respecto a la característica B. Para expresar esta idea matemáticamente utilizamos las probabilidades dadas en la siguiente tabla: Tabla 2. Tabla de contingencia 2 x 2 con proporciones o probabilidades
Variable 1 (A) Si No Total Variable 2 Si p 11 p 12 p 1. No p 21 p 22 p 2. (B) 1 Total p .1 p .2
Se sabe que, para que dos sucesos sean independientes, la probabilidad de que ocurran ambos a la vez debe ser igual al producto de las probabilidades de que cada suceso ocurra individualmente. P[A y B] = P[A]P[B] O p 11 = p .1 p 1.
La relación debe cumplirse para cada celda. Por tanto, la hipótesis nula de independencia se expresa matemáticamente como
i = 1, 2 H 0 : p ij = p i. P .j j = 1, 2 i = 1, 2 H 1 : p ij ? p i. P .j j = 1, 2 Comparamos el número de observaciones en cada celda con el número esperado, si H 0 es cierta. Si estos números difieren poco, no hay razón para rechazar H 0 ; si hay una gran discrepancia entre los valores observados y esperados, entendemos esto como evidencia de que H 0 no es cierta. Entonces se calcula el valor esperado así:
E ij = np ij Ê 11 =
n 1. n .1 ________________________ n
total fila marginal x total comlumna margina _________________________ tamaño de la muestra
La pregunta es la siguiente: ¿son estas diferencias demasiado grandes como para que se deban únicamente al azar? Para responderla necesitamos un estadístico cuya distribución de probabilidad sea conocida bajo la hipótesis de que H0 es cierta. El estadístico en cuestión es:
Prefijamos un nivel de significancia en 0.05 Si el valor p es pequeño (es menor de 0.05); podemos rechazar H 0 Para que las pruebas de Ji-cuadrado sean válidas, es necesario que las muestras sean grandes. Es decir que las frecuencias esperadas no sean menores de 5. Si esto no se cumple, puede utilizarse una prueba para pequeñas muestras llamada prueba exacta de Fischer para contrastar independencia. EJEMPLO Se realiza una investigación para determinar si hay alguna asociación aparente entre la altura de los estudiantes de posgrado y el
éxito en sus clases, a juicio de sus profesores. Se selecciona una muestra aleatoria consistente en 500 estudiantes. Se clasifica a cada estudiante de acuerdo a dos criterios, la altura y el éxito. La tabla de contingencia generada es la siguiente:
Mayor altura que el promedio poblacional
Exito
Si No
Si 162 38 200
No 263 425 37 75 300 500
Comparamos el número de observaciones en cada celda con el número esperado, si H 0 es cierta:
Datos utilizados para contrastar asociación entre altura y éxito en las clases. Las frecuencias esperadas aparecen entre paréntesis :
Mayor altura que el promedio poblacional
Exito
Si No
Si 162 (170) 38 (30) 200
No 263 (255) 37 (45) 300
425 75 500
Para saber si las diferencias entre valores halladoz y valores esperados es significativa entonces aplicamos el estadistico ji-cuadrado:
A partir de la tabla Ji-cuadrado vemos que:
y Como 4.18 está entre 3.84 y 5.02, el valor p está entre 0.025 (0.975) 0.05 (0.950). El valor p es pequeño, es menor de 0.05. Podemos rechazar H 0 y concluir que la sobretalla y el éxito en las clases no son independientes.
TABLAS DE CONTINGENCIA
El término “tabla de contingencia” se refiere a que las tablas construidas se usan para contrastar una asociación o relación entre dos variables. Las tablas de contingencia son una forma de presentar datos categóricos, con dos o mas niveles. Las tablas de contingencia 2 x 2, aparecen cuando cada una de las dos variables se estudia en dos niveles. Cada observación del conjunto de datos cae exactamente en una celda. El análisis de datos se basa en el examen del número de observaciones que caen dentro de cada categoría . También son llamadas tablas tetracóricas, o tablas de conteo.
Variable 1 Si Variable 2
No
Total
Si
n 11 n 12 n 1.
No
n 21 n 22 n 2.
Total n .1 n .2 n
La notación cuando estamos en frente de un conteo de frecuencias es: n 11 = número de observaciones dentro de la celda en la fila 1 y la columna 1. n 12 = número de observaciones dentro de la celda en la fila 1 y la columna 2. n 21 = número de observaciones dentro de la celda en la fila 2 y la columna 1.
n 22 = número de observaciones dentro de la celda en la fila 2 y la columna 2. n 1. = n 11 + n 12 = número de observaciones en la fila 1 n 2. = n 21 + n 22 = número de observaciones en la fila 1 n .1 = n 11 + n 21 = número de observaciones en la fila 1 n .2 = n 12 + n 22 = número de observaciones en la fila 1 n = número total de observaciones
PRUEBAS NO PARAMÉTRICAS Se denominan pruebas no paramétricas aquellas que no presuponen una distribución de probabilidad para los datos, por ello se conocen también como de distribución libre ( distribution free). En la mayor parte de ellas los resultados estadísticos se derivan únicamente a partir de procedimientos de ordenación y recuento, por lo que su base lógica es de fácil comprensión. Cuando trabajamos con muestras pequeñas (n < 10) en las que se desconoce si es válido suponer la normalidad de los datos, conviene utilizar pruebas no paramétricas, al menos para corroborar los resultados obtenidos a parti r de la utilización de la teoría basada en la normal. En estos casos se emplea como parámetro de centralización la mediana, que es aquel punto para el que el valor de X está el 50% de las veces por debajo y el 50% por encima.
PRUEBA DE KOLMOGOROV-SMIRNOV. El uso de la Estadística es de gran importancia en la investigación científica. Casi todas las investigaciones aplicadas requieren algún tipo de análisis estadístico para que sea posible evaluar sus resultados. En al gunos casos, para resolver un problema de carácter empírico, es preciso llevar a cabo un análisis bastante complejo; otras veces, basta con efectuar un análisis muy simple y directo. La elección de uno u otro tipo de análisis estadístico depende del problema que se plantee en el estudio así como de la naturaleza de los datos. Desde este punto de vista, la Estadística constituye un instrumento de investigación y no un producto final de esta última. El trabajo coherente, las acciones integradas, la no extrapolación de elementos de un lugar a otro, el verdadero diagnóstico de la realidad han de ser prácticas permanentes en el accionar del investigador y el estadístico aplicado. Dentro de la estadística se aplican en la investigación los tests o dócimas paramétricos y no paramétricos, el presente trabajo esta dedicado al estudio de dos pruebas no paramétricas que por su importancia merecen ser tratadas de forma independiente, ellas son las pruebas de Kolmogorov-Smirnov para una y dos muestras. Entre los tests no paramétricos que comúnmente se utilizan para verificar si una distribución se ajusta o no a una distribución esperada, en particular a la distribución normal se encuentran el test de Kolmogorov-Smirnov. El test de
Kolmogorov-Smirnov es bastante potente con muestras grandes. El nivel de medición de la variable y su distribución son elementos que intervienen en la selección del test que se utilizará en el procesamiento posterior. De hecho, si la variable es continua con distribución normal, se podrán aplicar técnicas paramétricas. Si es una variable discreta o continua no normal, solo son aplicables técnicas no paramétricas pues aplicar las primeras arrojaría resultados de dudosa validez.
Desarrollo DÓCIMA DE UNA MUESTRA DE KOLMOGOROV-SMIRNOV. Premisas La única premisa que se necesita es que las mediciones se encuentren al menos en una escala de intervalo. Se necesita que la medición considerada sea básicamente continua. Además dicha prueba es aplicable cualquiera sea el tamaño de la muestra.
Potencia-Eficiencia La prueba de una muestra de K-S puede en todos los casos en que se aplique ser más poderosa que su prueba alternativa, la prueba de c 2 ( ji-cuadrado.
Características de la dócima La prueba de K-S de una muestra es una dócima de bondad de ajuste. Esto es, se interesa en el grado de acuerdo entre la distribución de un conjunto de valores de la muestra y alguna distribución teórica específica. Determina si razonablemente puede pensarse que las mediciones muéstrales provengan de una población que tenga esa distribución teórica. En la prueba se compara la distribución de frecuencia acumulativa de la distribución teórica con la distribución de frecuencia acumulativa observada. Se determina el punto en el que estas dos distribuciones muestran la mayor divergencia. Hipótesis Ho: La distribución observada se ajusta a la distribución teórica. F(x) = Ft(x) para todo x. H1: La distribución observada no se ajusta a la distribución teórica. También: F(x) ¹ Ft(x) para algún x F(x): es función desconocida
Ft(x): es la función teórica. Esta puede ser por ejemplo la función normal con cierta media y varianzas conocidas.
Estadígrafo y distribución muestral D = máxima Sn(x): es la función de distribución empírica.
Ejemplo El entrenador de salto de un grupo de atletas, desea conocer con vistas al procesamiento de los datos por el obtenidos sobre salto de una muestra aleatoria de atletas de esa especialidad en un CVD, si las mediciones realizadas por él están distribuidas normalmente. Los datos son los siguientes: Salto_Largo 1 1.60 2 1.65 Ho: Los datos están distribuidos normalmente 3 1 .55 H1: Los datos no están distribuidos normalmente. 4 1.62 5 1.64 6 1.70 7 1.71 8 1.68 9 1.66 10 1.67 11 1.65 12 1.68 13 1.69 14 1.70
Salidas de la dócima
Conclusiones: No se rechaza a Ho, por tanto la distribución de los datos es normal. Técnicas adicionales a la dócima Tabla de frecuencias Histograma.
Estadígrafos que deben acompañar a los estadígrafos de la dócima 1-Tabla de frecuencias.
Técnicas auxiliares para respaldar los resultados obtenidos en la conclusión. 1-Histogramas.
Dócima de Kolmogorov-Smirnov para dos muestras independientes. Estructura de la base de datos Normalmente la estructura que tiene la base de datos es la de utilizar una variable para entrar los resultados de la medición y la otra donde se particione a estos resultados en los dos grupos.
Premisas La única premisa que se necesita es que las mediciones se encuentren al menos en una escala ordinal. Adicionalmente se necesita que la medición considerada sea básicamente continua.
Potencia-Eficiencia Comparada ante la alternativa paramétrica de la t de student para dos muestras independientes (o el modelo de Análisis de Varianza clasificación simple para dos muestras), cuando las premisas paramétricas se cumplen, tiene una potencia eficiencia de cerca del 96%, que tiende a decrecer ligeramente a medida que se aumentan los tamaños de muestra. Existen autores que plantean1 "que la dócima de Kolmogorov-Smirnov, para muestras muy pequeñas es más potente que la dócima de la U de MannWhitney, pero que para muestras de tamaño grande ocurre lo contrario.
Características de la dócima La dócima de Kolmogorov-Smirnov está construida, teniendo como base detectar las discrepancias existentes entre las frecuencias relativas acumuladas de las dos muestras objeto de estudio. Lo anterior propicia que esta dócima pueda advertir diferencias no tan solo entre los promedios, sino que éstas sean debidas a la dispersión, o la simetría o la oblicuidad. Esta característica la hace distintiva de aquellas en que solamente se ocupan de analizar las diferencias entre los promedios. La dócima admite que los tamaños de las muestras no sean iguales.
Hipótesis Las hipótesis de esta dócima, expresadas en palabras son: Ho: Las distribuciones poblacionales son iguales. H1: Las distribuciones poblacionales son distintas.
Ahora bien se recomienda en general hacer el enunciado de las hipótesis de forma tal que indique en un mayor grado la característica que va a ser docimada.
Estadígrafo y distribución muestral. Designemos por T1 y por T2 las tablas de distribución de frecuencias relativas acumuladas, particionadas en k categorías. Donde el primer subíndice corresponde al número de la muestra y el segundo al orden de la clase.
TABLA1
TABLA2
DIFERENCIAS
Clase Frecuencia relativa acumulada
Frecuencia relativa acumulada
Diferencia de las
1
p11
p21
p11-p21
2
p12
p22
p12-p21
...
...
...
...
I
p1i
p2i
p1i-p2i
...
...
...
...
k
p1k
p2k
p1k-p2k
Frecuencias
Se analiza entonces en la columna de las diferencias de las frecuencias, en qué clases se obtiene el valor máximo. Se tendrá entonces en símbolos: El estadígrafo de esta dócima se designa por χ2 y para tamaños de muestra suficientemente grandes, está
distribuido según chi-cuadrado con dos grados los de libertad. En símbolos:
Goodman , ha demostrado que si los tamaños de muestra son pequeños la dócima se comporta conservadoramente.
Salidas de la dócima
Las salidas usuales de la dócima son tres:
Máxima diferencia negativa. Donde se muestra cuál es la m ayor diferencia negativa alcanzada. Máxima diferencia positiva. Donde se muestra la mayor dif erencia positiva alcanzada. Valor de la probabilidad para dos colas.
Es necesario señalar que las dos primeras opciones suministran información en los casos en que sea conveniente realizar una dócima unilateral, además de reflejar información acerca de lo que está ocurriendo en la dócima.
Técnicas adicionales a la dócima Existe un grupo de técnicas adicionales a la dócima, las que hemos dividido en los siguientes grupos.
Estadígrafos que deben acompañar a los estadígrafos de la dócima. Entre ellos se encuentran:
Tamaños en cada una de las muestras (casos válidos en el análisis)
Media aritmética de cada una de las muestras.
Desviación estándar de cada una de las muestras.
Técnicas auxiliares para respaldar los resultados obtenidos en la conclusión
Diagrama de caja y bigotes de cada una de las muestras.
Histograma de cada una de las muestras.
Ejemplo Se muestran las pérdidas en peso (medidos en kilogramos), de dos grupos de personas que han sido sometidas a dos tipos diferentes de medicamentos, designado por Grupo1 y Grupo2. Los resultados obtenidos se muestran en la siguiente tabla: GRUPO1 (n1=10) GRUPO2 (n2=12 5.49
3.76
3.08
4.22
4.13
4.17
5.03
5.03
7
4.85
6.03
2.09
4.45
4.45
5.13
3.58
4.26
3.86
4.62
4.13 4.4 2.81
Salida de la dócima La salida básica de la dócima muestra los valores máximos positivos, máximos negativos y el valor de probabilidad, los que se muestran a continuación.
máxima diferencia negativa
medición
perdida de peso 0
máxima diferencia positiva
valor de probabilidad
0.4666667
p > .10
Según podemos observar, no existen diferencias significativas entre los resultados de la medición realizada a los dos grupos.
Estadígrafos que deben acompañar a los estadígrafos de la dócima. Resulta conveniente incluir también, además de los mencionados en la tabla anterior, el tamaño en cada una de las muestras, así como la media aritmética de cada una de ellas y su desviación estándar. Las que se muestran en la siguiente tabla. Tamaños de muestra Media aritmética Desviación. Estándar GRUPO 1 10
4.73900
.8235661
GRUPO 2 12
3.945834
.8235661
Técnicas auxiliares para respaldar los resultados obtenidos en la conclusión Las técnicas que ha continuación se mencionan es conveniente su utilización:
Diagramas de Caja y Bigotes. El siguiente diagrama muestra los resultados obtenidos tomando como promedio la mediana, el rango intercuartílico para la caja y el máximo-mínimo para los bigotes.
En este diagrama observamos que aunque en la segunda muestra ha existido una disminución en el valor mediano, las diferencias no son significativas. Obsérvese que en la segunda muestra se ha producido una disminución en la dispersión y los máximos y mínimos han sido reducidos.
Histogramas A continuación se muestran los histogramas de las dos muestras. Los que pueden proporcionar una mayor idea del proceso ocurrido.
PRUEBA ANDERSON-DARLING
La prueba de Anderson-Darling es una prueba no paramétrica sobre si los datos de una muestra provienen de una distribución específica. La fórmula para el estadístico A determina si los datos (observar que los datos se deben ordenar) vienen de una distribución con función acumulativa
donde
El estadístico de la prueba se puede entonces comparar contra las distribuciones del estadístico de prueba (dependiendo que se utiliza) para
ar el P-valor. La prueba de Anderson-Darling es una prueba estadística que permite determinar si una muestra de datos se extrae de una distribución de probabilidad. En su forma básica, la prueba asume que no existen parámetros
a estimar en la distribución que se está probando, en cuyo caso la prueba y su conjunto de valores críticos siguen una distribución libre. Sin embargo, la prueba se utiliza con mayor frecuencia en contextos en los que se está probando una familia de distribuciones, en cuyo caso deben ser estimados los parámetros de esa familia y debe tenerse estos en cuenta a la hora de ajustar la prueba estadística y sus valores críticos. Cuando se aplica para probar si una distribución normal describe adecuadamente un conjunto de datos, es una de las herramientas estadísticas más potentes para la detección de la mayoría de las desviaciones de la normalidad.
UNIDAD 5
REGRESIÓN LINEAL SIMPLE Y MÚLTIPLE La regresión lineal o ajuste lineal es un método matemático que modela la relación entre una variable dependiente Y , las variables independientes X i y un término aleatorio ε. Este modelo puede ser expresado como:
: variable dependiente, explicada o regresando. : variables explicativas, independientes o regresores. : parámetros, miden la influencia que las variables explicativas tienen sobre el regresando. donde es la intersección o término "constante", las son los parámetros respectivos a cada variable independiente, y es el número de parámetros independientes a tener en cuenta en la regresión. La regresión lineal puede ser contrastada con la regresión no lineal.
REGRESIÓN LINEAL SIMPLE Sólo se maneja una variable independiente, por lo que sólo cuenta con dos parámetros. Son de la forma: Donde
es el error asociado a la medición del valor
supuestos de modo que igual a un y con
y siguen los
(media cero, varianza constante e ).
Análisis Dado el modelo de regresión simple, si se calcula la esperanza (valor esperado) del valor Y , se obtiene:
Derivando respecto a
y
e igualando a cero, se obtiene:
Obteniendo dos ecuaciones denominadas ecuaciones normales que generan la siguiente solución para ambos parámetros:
La interpretación del parámetro Yi incrementará en
es que un incremento en Xi de una unidad,
PRUEBA DE HIPÓTESIS EN LA REGRESIÓN LINEAL SIMPLE Para probar hipótesis acerca de la pendiente y la ordenada en el origen del modelo de regresión, debe hacerse la suposición adicional de que el termino del error εi esta normalmente distribuido. Por lo tanto, se supone que los errores εi son NID (0,σ2). Después se pueden probar estas suposiciones mediante el análisis de residuos.
Supongamos que el experimentador desea probar la hipótesis de que la pendiente es igual a un cierto valor , por ejemplo β1,0. Las hipótesis apropiadas son:
(1-22) En donde se ha especificado la hipótesis alterna de dos extremos. Ahora bien, como las εi son NID(0,σ2) se concluye que las yi son NID(β0 + β1 xj , σ2). Por lo tanto,
es una combinación lineal de variables aleatorias
independientes normalmente distribuidas. En consecuencia,
es N(β1,
es independiente de MSE. Entonces, como resultado de la suposición de normalidad, la estadística: σ2/Sxx). Además
(1-23) Tiene una distribución t con n – 2 grados de libertad si H0 : β1 = β1,0 es verdadera. Se rechaza H0:β1 = β1,0 si:
(1-24) En donde t0 se calcula usando la Ecuación (1-23). Puede utilizarse un procedimiento similar para probar hipótesis acerca de la ordenada en el origen. Para probar: H0: β0 = β0,0 H1: β0 ≠ β0,0
(1-25)
Se usa el estadístico:
(1-26) Y se rechaza la hipótesis nula si . Un caso especial muy importante de la hipótesis (1-22) es: H0: β1 = 0 H1: β1 ≠ 0
(1-27)
Esta hipótesis se relaciona con la significación de la regresión. No rechazar H0: β1 = 0 equivale a concluir que no existe una relación lineal entre x y y . En otras palabras, el mejor estimador de yi para cualquier valor de xj es ŷj = . En muchos casos esto puede indicar que no hay una relación causal entre x y y , o que la relación real no es lineal. El procedimiento para probar H0β1 = 0 se
puede deducir usando dos enfoques. El primero consiste en descomponer la suma total de cuadrados corregida de y :
(1-28) Los dos componentes de Syy miden, respectivamente, la variabilidad de yi explicada por la recta de regresión y la variación residual, no explicada por la recta de regresión.
se conoce como la suma de
cuadrados del error o residual y se denomina suma de cuadrados de regresión. Por lo tanto, la Ecuación (1-28) se transforma en: Syy = SSR + SSE
De la Ecuación calcular SSR es:
(1-29)
se obtiene que la fórmula para
(1-30)
Tabla 1-2 Análisis de variancia para probar la significancia de la regresión Grados de Libertad
Media de Cuadrados
F0
Regresión
1
MSR
MSR/MSE
Error o residual
n – 2
MSE
Fuente de Variación
Suma de cuadrados
Total
Syy
n – 1
Syy tiene n – 1 grados de liberta, y SSR y SSE tienen, respectivamente 1 y n –
2 grados de libertad. Es posible mostrar que , que ,y que SSE y SSR son independientes. Por lo tanto, si H0β1 = 0 es verdadera, la estadística
(1-31) Tiene una distribución y se rechaza H0 si F0 > . Usualmente el procedimiento para realizar la prueba se acomoda en una tabla de análisis de variancia, tal como aparece en la Tabla 1-2. La prueba de significancia de la regresión también puede deducirse a partir de la Ecuación 1-23 con β1,0 = 0, es decir:
(1-32) Elevando al cuadrado esta ecuación se obtiene:
(1-33) Nótese que en la Ecuación 1-33 es igual a F0 en la Ecuación 1-31. En general, el cuadrado de una variable aleatoria t con f grados de libertad tiene
una distribución F con 1, y f grados de libertad en el numerador y denominador, respectivamente. Por lo tanto, la prueba usando t0 equivale a la prueba basada en F0 . Ejemplo 1-2: Se prueba la significancia de la regresión del Ejemplo 1-1. El modelo ajustado es ŷi = - 0.2879 + 0.4566 x y Syy se calcula con:
La suma de cuadrados de regresión es:
Tabla 1-3 Análisis de variancia para el Ejemplo 1-2 Suma de cuadrados
Grados de Libertad
Media de Cuadrados
F0
Regresión
119.26
1
119.26
140.80
Error
8.47
10
0.847
Total
127.73
11
Fuente de Variación
Por lo tanto, la suma de cuadrados del error es:
El análisis de variancia para probar H0:β1 = 0 se presenta en la Tabla 1-3. Puesto que F.01,1,10 = 10.0, se rechaza H0 y se concluye que β1 ≠ 0. Nótese
que la media de cuadrados del error de la Tabla 1-3 proporciona estimación para σ2 de acuerdo con la Ecuación 1-21. Análisis de Residuos
Al ajustar cualquier modelo lineal, el análisis de residuos del modelo de regresión es necesario para determinar la idoneidad del ajuste por mínimos cuadrados. Resulta útil examinar una gráfica de probabilidad normal, una gráfica de los residuos contra los valores ajustados y una gráfica de los residuos contra cada variable de regresión. Además, los residuos deben graficarse contra variables potencialmente importantes que no fueron incluidas en el modelo. Cualquier estructura en dicha gráfica indicaría que el modelo puede mejorarse agregando este factor. En la Fig. 1-2 se muestra una gráfica de probabilidad normal de los residuos del modelo de regresión lineal simple del Ejemplo 1-1. Esta gráfica no indica alguna violación seria a la suposición de normalidad. En las Figs. 1-3 y 1-4 aparecen las gráficas de los residuos contra los valores ajustados ŷj y contra los niveles de la variable de regresión, rapidez de mezclado xj, respectivamente. Estás gráficas no revelan mayor dificultad, por lo que se concluye que el modelo de regresión lineal simple es adecuado para ajustar los datos de la impureza de la pintura.
Figura 1-2. Gráfica de probabilidad normal para los residuos del Ejemplo 1 -1.
Figura 1-3. Gráfica de los residuos contra ŷj para el Ejemplo 1-1.
Figura 1-4. Gráfica de los residuos contra xj para el Ejemplo 1-1
CALIDAD DEL AJUSTE EN REGRESIÓN LINEAL SIMPLE A menudo, los modelos de regresión se adecúan a los datos cuando no se conoce la relación funcional real. Naturalmente, es importante saber si el orden del modelo tentativamente supuesto es correcto. En esta sección se describe una prueba para la validez de esta suposición. En la Figura 1-5 se ilustra el peligro de usar un modelo de regresión que no se ajusta adecuadamente a la relación funcional real. Obviamente, en esta situación hipotética debe utilizarse un polinomio de grado mayor o igual a dos. Como resultado se ha obtenido un modelo muy deficiente.
Figura 1-5. Un modelo de regresión en el que se observa falta de ajuste. A continuación, se presenta una prueba de “bondad de ajuste” del modelo de
regresión. A pesar de que se usa una sola variable independiente, la generalización para k variables de regresión es directa. Las hipótesis que se desea probar son: H0: El modelo se ajusta adecuadamente a los datos H1: El modelo no se ajusta a los datos La prueba consiste en descomponer la suma de cuadrados del error o residual en los siguientes dos componentes: SSE = SSPE + SSLOF En donde SSPE es la suma de cuadrados atribuibles un error experimental “puro” y SSLOF es la suma de cuadrados atribuibles a la falta de ajuste del modelo. Para calcular SSPE se necesitan varias observaciones de y para al menos un nivel de x . Supongamos que se tienen n observaciones, tal que:
Se observa que existen m niveles distintos de x . La contribución a la suma de cuadrados del error puro, por ejemplo en xi , es: (1-34) La suma total de cuadrados del error puro se obtiene sumando la Ecuación 1 34 sobre todos los niveles de x:
Hay grados de libertad asociados con la suma de cuadrados del error puro. La suma de cuadrados de la falta de ajuste simplemente es:
Con n – 2 – ne = m – 2 grados de libertad. La estadística para probar la falta de ajuste resulta ser:
(1-35) Y se rechaza la hipótesis de idoneidad del modelo H0 si F0 > Fα,m – 2,n – m. Esta prueba puede introducirse fácilmente en el análisis de variancia dirigida a la significación de la regresión. Si la hipótesis nula de la adecuación del modelo se rechaza, el modelo debe ser abandonado y buscarse otro que resulte más apropiado. Si H0 no se rechaza, no existe una razón aparente para dudar de la adecuación del modelo y, a menudo, MSPE y MSLOF se combinan para estimar σ2.
Ejemplo 1-3: Supongamos que se tienen los siguientes datos: x
1.0
1.0
2.0
3.3
3.3
4.0
4.0
4.0
4.7
5.0
y
2.3
1.8
2.8
1.8
3.7
2.6
2.6
2.2
3.2
2.0
x
5.6
5.6
5.6
6.0
6.0
6.5
6.9
y
3.5
2.8
2.1
3.4
3.2
3.4
5.0
Se calculan las cantidades Syy = 10.97, Sxy = 13.62, Sxx = 52.53, = 2.847 y = 4.382. El modelo de regresión es ŷ = 1.708 + 0.260x, y la suma de cuadrados de regresión es SSR = Sxy = (0.260)(13.62) = 3.541. La suma de cuadrados del error puro se calcula como sigue: Nivel de x
∑(yi -
)2
Grados de libertad
1.0
0.1250
1
3.3
1.8050
1
4.0
0.1066
2
5.6
0.9800
2
6.0
0.0200
1
Totales
3.0366
7
El análisis de variancia se presenta en la siguiente Tabla 1-4. No es posible rechazar la hipótesis de que el modelo tentativo describe adecuadamente los datos porque F .25,8,7 = 1.70. Se ponderan las medias de cuadrados del error puro y de la falta de ajuste para formar la media de cuadrados del denominador con el fin de probar la significación de la regresión. Se debe concluir que β1 = 0 porque F .05,1,15 ≠ 4.54.
Tabla 1-4 Análisis de variancia para el Ejemplo 15-4 Suma de Cuadrados
Grados de Libertad
Medias de Cuadrados
F0
Regresión
3.541
1
3.541
7.15
Residuo
7.429
15
0.4952
(Falta de ajuste)
4.3924
8
0.5491
(Error Puro)
3.0366
7
0.4338
Total
10.970
16
Fuente de Variación
1.27
Una buena práctica consiste en usar el modelo de menor orden que describa adecuadamente los datos, al ajustar un modelo de regresión a los datos experimentales. La prueba de falta de ajuste te puede ser útil en este aspecto. Sin embargo, siempre es posible ajustar un modelo de orden n – 1 cuando se tienen n puntos muestrales. El experimentador no debe considerar el uso de un modelo que está “saturado”, o sea, aquel que prácticamente tiene el mismo número de variables de regresión y observaciones de y . Coeficiente de Determinación
(1-36) La cantidad se conoce como coeficiente de determinación y se usa mucho para juzgar la adecuación del modelo de regresión. Es evidente que 0 < R2 ≤ 1. A menudo se menciona informalmente a R2 como la proporción de variabilidad de los datos explicada por el modelo de regresión. Si la variable de regresión x es aleatoria, de manera, que x y y puedan considerarse variables aleatorias conjuntamente distribuidas, entonces R constituye la correlación simple entre x y y . Sin embargo, el concepto de correlación entre x e y no está definido si x no es una variable aleatoria. Para los datos del Ejemplo 1-1 se tiene que R2 = SSR/Syy = 119.26/127.73 =0.9337. Así, 93.37% de la variabilidad de los datos es explicada por el modelo.
La estadística R2 debe usarse con cuidado porque siempre es posible hacerla igual a uno agregando, simplemente, el suficiente número de términos al modelo. Por ejemplo, es posible obtener un ajuste “perfecto” de n puntos ajustando un polinomio de grado n – 1. Asimismo, R2 siempre aumenta si se agrega una variable al modelo, aunque esto no significa que necesariamente el nuevo modelo sea superior al anterior. A menos que la suma de cuadrados del error del nuevo modelo se reduzca en una cantidad igual que la media de cuadrados del error original, el nuevo modelo tendrá una media de cuadrados del error mayor que el original. Esto es consecuencia de la pérdida de un grado de libertad residual. Por lo tanto, el nuevo modelo será en realidad peor que el original.
ESTIMACIÓN Y PREDICCIÓN POR INTERVALO EN REGRESIÓN LINEAL SIMPLE Además de los estimadores puntuales de la pendiente y la ordenada en el origen, es posible obtener estimaciones por intervalos de estos parámetros. Si las εi son independientes y normalmente distribuidas, entonces:
y Tienen distribución t con n – 2 grados de libertad. Así, un intervalo de confianza del 100(1 – α) % sobre β1 está dado por:
(1-37) Similarmente, un intervalo de confianza del 100(1 – α) % para β1 está dado por:
(1-38) Como ilustración, se obtiene un intervalo de confianza de 95% para β1 con los
datos del Ejemplo 1-1 usando la Ecuación 1-37.
O bien, Por lo tanto, este intervalo es 0.3709 ≤ β1 ≤ 0.5423.
Se puede construir un intervalo de confianza para la respuesta meida a un valor específico x = x0. Éste es un intervalo de confianza para E (y | x0 ) y a menudo se le conoce como intervalo de confianza para la recta de regresión. Como E (y x0) = + β1 (x0 - ), puede obtenerse un estimador puntual de E(y x0) del modelo ajustado mediante:
Resulta claro que Además:
Porque Cov
porque
y
son insesgados.
. Asimismo, ŷ0 tiene distribución normal
porque y también lo están. Por lo tanto, un intervalo de confianza del 100(1 – α) %para la recta de regresión real en x = x0, puede calcularse mediante:
(1-39) Nótese que la amplitud del intervalo de confianza para E(y | x0) es función de x0. La amplitud es mínima en
y se hace más grande a medida que
aumenta. Ejemplo 1-3: Se desea construir un intervalo de confianza de 95% para la recta de regresión de los datos del Ejemplo 1- 1. Ya que ŷ = -0.2879 + 0.4566x0, el intervalo de confianza de 95% es:
Los valores predichos y los límites de confianza del 95% para x0 = xi, i = 1, 2, . . ., 12 aparecen en la siguiente Tabla 1-5. Para mostrar el uso de esta tabla, el intervalo de confianza del 95% para la recta de regresión real en x0 =26 es:
O bien:
Tabla 1-5 Límites de confianza para el Ejemplo 1-3
ŷ0
Límites del intervalo de confianza de 95%
20
8.8441
±1.11
22
9.7573
±0.97
24
10.6705
±0.84
26
11.5837
±0.73
28
12.4967
±0.65
30
13.4101
±0.60
32
14.3233
±0.60
34
15.2365
±0.65
36
16.1497
±0.73
38
17.0629
±0.84
x0
40
17.9761
±0.97
42
18.8893
±1.11
El modelo ajustado y el intervalo de confianza del 95% de la recta de regresión real se presentan en la Fig. 1-6.
Figura 1-6. Modelo ajustado e intervalo de confianza de 95% para el Ejemplo 13. Otro concepto útil en la regresión en la regresión lineal simple es el de intervalo de predicción. Ésta es una estimación por intervalo del promedio de k observaciones futuras a un valor particular de x = x0. Para ilustrar este concepto, supongamos que el analista del Ejemplo 1-1 desea construir una estimación por intervalo de la impureza promedio de los siguientes cuatro lotes de pintura procesada con una rapidez x0 = 34. Es inadecuado usar un intervalo de confianza porque hace referencia a la impureza media real (una constante desconocida) y no a futuras observaciones de la variable aleatoria. Sea y0j la j -ésimas observación futura de la respuesta en x0. El promedio de estos valores es:
Nótese que se predice una sola observación futura si k = 1. El mejor predictor del valor futuro
es
. La variable aleatoria:
Tiene distribución normal con media cero y variancia:
Porque es independiente de ŷ0. Por lo tanto, el intervalo de predicción del 100(1 – α) % para la media de k observaciones futuras en x 0 es:
(1-40) Notemos que el intervalo de predicción tiene una amplitud mínima en x 0 =
y
aumenta a medida que se incrementa. Además, si k = 1, la Ecuación 140 proporciona un intervalo de predicción para una sola observación futura en x 0. Comparando las Ecuaciones 1-39 y 1-40 se observa que el intervalo de predicción en x 0 es siempre más ancho que el intervalo de confianza en x 0. Esto es consecuencia de que el intervalo de predicción depende tanto del error propio del modelo ajustado como del error asociado con las futuras observaciones. Se pueden usar los datos del Ejemplo 1-1 para ilustrar la construcción de un intervalo de predicción. El intervalo de predicción del 95% de la impureza promedio de los siguientes dos lotes de pintura producida en x 0 = 34 es:
Este cálculo produce . Por lo tanto, el intervalo de predicción del 95% para k = 2 en x0 = 34 es 13.6495 ≤ ≤ 16.8235.
REGRESIÓN LINEAL MÚLTIPLE La regresión lineal permite trabajar con una variable a nivel de intervalo o razón. De la misma manera, es posible analizar la relación entre dos o más variables a través de ecuaciones, lo que se denomina regresión múltiple o regresión lineal múltiple. Constantemente en la práctica de la investigación estadística, se encuentran variables que de alguna manera están relacionadas entre sí, por lo que es posible que una de las variables puedan relacionarse matemáticamente en función de otra u otras variables. Maneja varias variables independientes. Cuenta con varios parámetros. Se expresan de la forma:6 (13) Donde
es el error asociado a la medición del valor
supuestos de modo que igual a un y con
y siguen los
(media cero, varianza constante e ).
PRUEBA DE HIPÓTESIS EN REGRESIÓN LINEAL MÚLTIPLE A menudo el experimentador desea probar hipótesis que se refieren a los parámetros del modelo de regresión lineal múltiple. Esto requiere la suposición adicional de que los errores sean NID(0,σ2). Una consecuencia directa de esta suposición es que las observaciones yj son
.
Consideremos probar si la regresión es significativa. En la regresión lineal múltiple esto se logra probando las hipótesis:
Al menos una i
(1-55)
El rechazo de H0 en esta ecuación implica que al menos una variable en el modelo contribuye significativamente al ajuste. El procedimiento para probar la Ecuación 1-55 es una generalización del procedimiento usado para probar la regresión lineal simple. La suma total de cuadrados Syy se descompone en la suma de cuadrados de regresión y en la suma de cuadrados del error:
Y si H 0:βi = 0 es verdadera,
~
, en donde el número de grados de libertad para χ2 es igual al número de variables de regresión en el modelo. También se puede mostrar que ~ y que SSE y SSR son independientes. Por lo tanto el procedimiento para probar H 0:βi = 0 consiste en calcular:
(1-56) Y rechazar H0 si F0 > Fα,k,n-k-1. Usualmente el procedimiento se resume en una tabla de análisis de variancia como la que aparece en la Tabla 1-9. A continuación, se obtiene la fórmula para calcular la suma de cuadrados de regresión SSR.
Tabla 1-9 Análisis de variancia para la significancia de la regresión lineal múltiple Suma de Cuadrados
Grados de Libertad
Media de Cuadrados
F0
Regresión
SSR
k
MSR
MSR/MSE
Error o residuo
SSE
n – k – 1
MSE
Total
Syy
n – 1
Fuente de Variación
Así, puesto que Syy = SSE + SSR, se observa que la suma de cuadrados de regresión es: (1-57)
Ejemplo 1-5: Considere los datos del ejemplo 1-4. El modelo ajustado es ŷ = 30.866667 + 0.877203(x1 – 18) + 0.455918(x2 – 28). A partir de X´y se observa que S1y = 345 y que S2y = 63. La suma total de cuadrados es:
Y usando la Ecuación 1-47 la suma de cuadrados de regresión es:
En la Tabla 1.10 aparece el análisis de variancia. Se concluye que al menos una variable contribuye significativamente a la regresión porque F.01,2,12 = 6.93.
Tabla 1-10 Análisis de variancia para la significancia de la regresión del Ejemplo 1-5 Suma de cuadrados
Grados de libertad
Media de cuadrados
F0
Regresión
331.36
2
165.68
16.80
Error
118.37
12
9.86
Total
449.73
14
Fuente de variación
Con frecuencia es importante probar hipótesis con respecto a los coeficientes de regresión individuales. Tales pruebas son útiles para valorar cada variable de regresión en el modelo. Por ejemplo, el modelo puede ser más efectivo si se le introducen variables adicionales o, quizá, si se desecha una o más variables que se encuentran en el mismo. Introducir variables al modelo de regresión siempre provoca que la suma de cuadrados de regresión aumente y que la del error disminuya. Debemos decidir si el incremento en la suma de cuadrados de regresión es suficiente para garantizar el uso de la variable adicional en el modelo. Además si se agrega
una variable poco importante al modelo, puede incluso aumentar la media de cuadrados del error disminuyendo así la utilidad del modelo. El estimador de mínimos cuadrados distribución de:
es una variable aleatoria. Además, la
~ Es porque es una comprobación lineal de las observaciones yj . Por lo tanto, la variancia del coeficiente de regresión es igual a σ2 veces el (i + 1)-ésimo elemento de la diagonal de ( X´X)-1, es decir, Cii . Así, cada coeficiente de regresión tiene la propiedad distribucional. ~
Las hipótesis para probar la significancia de cualquier coeficiente individual, por ejemplo βi, son:
(1-58) La estadística apropiada para probar la Ecuación 1-58 es:
(1-59) Y H 0:βi =0 se rechaza si engañosa porque usualmente las
. Sin embargo, esta prueba puede ser , no son independientes. En otras palabras,
por lo regular habrá elementos Cij que no sean cero. Esto implica que las no son independientes y, en consecuencia, las pruebas t de la Ecuación 1-59 tampoco lo serán. El resultado puede ser que βi aparenta ser significativo solo porque su
estimador no es independiente de , y βi , en realidad es significativo. Se requiere un procedimiento en el que pueda determinarse la contribución a la suma de cuadrados de regresión de un parámetro (por ejemplo, otros parámetros
), dado que
( j = i ) ya se encuentran en el modelo.
En otras palabras, se desea valorar la introducción de una variable de regresión xi al modelo que originalmente no incluía dicho término. Puede usarse la prueba de significación de regresión general para lograr esto.
Aunque antes se estudio la prueba de significación de regresión general, a continuación, se presenta para el contexto actual. Supongamos que el modelo es y = Xβ + , y que el vector β puede descomponerse como se muestra a continuación:
En donde β1 es un vector (r x 1) y β2 es un vector [( p – r )]. Se desea probar la hipótesis: H 0: β1 = 0 H 1: β1 ≠ 0
(1-60)
El modelo puede expresarse mediante:
(1-61) En donde X1, representa las columnas de X asociadas con β1 y X2 presenta las columnas de X asociadas con β2. Se sabe que en el modelo completo (el que incluye tanto a β1 como a β2) También:
.
( p grados de libertad) Y:
SSR( β ) se conoce como suma de cuadrados de regresión debida a β. Para determinar la contribución de los términos de β1 a la regresión, debe ajustarse el modelo suponiendo que la hipótesis Ho: β1 = 0 es verdadera. El modelo reducido se determina usando la Ecuación 1-61 en la forma: (1-62)
El estimador de mínimos cuadrados de β2 es ( p – r grados de libertad)
y (1-63)
La suma de cuadrados de regresión debida a β1, ajustado por la presencia de β2 que ya se encuentra en el modelo, es:
(1-64) Esta suma de cuadrados tiene r grados de libertad. A menudo, se denomina es “suma de cuadrados extra” debida a β1. Ahora bien, independiente de MSE , y la hipótesis nula β1 = 0 puede probarse mediante la estadística:
(165) Si F0 > Fα,r,n– p se debe rechazar H0 y concluir que al menos uno de los parámetros en β1 no es cero. Este procedimiento es extremadamente útil. Si ya se tienen algunas variables en un modelo de regresión, la introducción de β, al
modelo más reciente puede valorarse calculando:
Ejemplo 1-6: Se usan los datos del Ejemplo 1-5 para ilustrar la prueba de significación de regresión general. El modelo de regresión es: ŷ = 30.86667 + 0.877203(x1 – 18) + 0.455918(x2 – 18)
Se desea probar la hipótesis nula H 0: β1 = 0 contra H 1: β1 = 0. Usando la notación de la prueba de significación de regresión general esto implica que:
Observe que β1 = β1 es un vector (1 x 1) (por lo tanto r = 1 y β2 es un vector (2 x 1). La suma de cuadrados de regresión del modelo completo es:
Nótese que este resultado no es igual a la suma de cuadrados de regresión calculada en el Ejemplo 1.5 porque SSR (β) incluye la contribución a la regresión debida a la ordenada en el origen. Asimismo, SSR (β) tiene p = 3 grados de libertad. La media de cuadrados del error con n – p = 15 – 3 = 12 grados de libertad es:
Para probar H 0: β1 = 0 es necesario determinar
.
Ésta se determina ajustando el modelo reducido . Se encuentra que ŷ = 30.866667 + 0.114964 ( x2 – 28) y, como resultado,
Con p – r = 2 grados de libertad. Por lo tanto, la suma de cuadrados para β1 ajustado por β2 es:
Con r – 1 grados de libertad. Usando la Ecuación 1.65 la estadística para realizar la prueba es:
Y se concluye que β1 = 0 porque F.01,1,12 = 9.33. Por lo tanto, xi contribuye
significativamente al modelo.