UNIVERSIDAD NACIONAL DE CAJAMARCA “Norte de la Universidad Peruana”
FACULTAD DE INGENIERÍA
20
15
10
5
0 11
1
12
14
Mg. Miguel Miguel Angel Angel Macetas Hernández
16
17
19
UNIVERSIDAD NACIONAL DE CAJAMARCA “Norte de la Universidad Peruana”
FACULTAD DE INGENIERÍA ESTIMACIÓN DE PARÁMETROS 1.1. Estimación puntual Para estimar los parámetros de una población, es necesario disponer de algunos datos que provengan de dicha población. Cualquier muestra de observaciones proporciona cierto conocimiento acerca de la población de la cual proviene. Para medir el error muestral es necesario que dicha muestra sea ALEATORIA. Desde el punto de vista algebraico, el estimador de un parámetro es una función de las observaciones muestrales t (x1, x2 ,.. ,........ xn ) , que puede ser lineal, cuadrática, etc. Ejemplos: X
S
2
1 n
x
i
funcion lineal de las observaciones X
1
x n
ˆ
2
i
2
X funcion cuadratica de las observacionesS
2
ˆ
El resultado numérico que se obtiene es la estimación del parámetro, en tanto que la expresión matemática (o algebraica) es el estimador del parámetro. Puede haber varios estimadores del mismo parámetro, de los cuales se pretende elegir el mejor, en base a las características o propiedades que se requiera del mismo. 1.2. Propiedades de los estimadores a) Insesgado o no v iciado: Un estimador se dice Insesgado si su esperanza esperanza es igual al parámetro. Es decir: es insesgado E ( ) ˆ
ˆ
Por el contrario, el estimador se dice
viciado si
su esperanza es distinta al parámetro.
E ( ) es viciado ˆ
b)
ˆ
Consistente: Un estimador se dice consistente si converge al parámetro, es decir, si su distribución se concentra alrededor del parámetro a medida que aumenta el tamaño tamaño de la muestra, muestra, de forma tal que el error de muestreo tiende a desaparecer. Es decir:
ˆ
es un estimador consistent e de
P ˆ
1 ,
para n ,
si :
arbitrariamente pequeño
Si un estimador estimador es insesgado (o asintóticamente asintóticamente insesgado), será consistente si su variancia tiende a cero. Es decir: E ( ) ˆ
o bien : c)
E ( ) ˆ
V ( )0 ˆ
V ( )0 ˆ
ˆ
es consistent e
ˆ
es consistent e
Eficiente: Decimos que un estimador no viciado es eficiente si es de mínima variancia. varianc ia. O sea, el estimador se dice eficiente si su variancia es menor que la de cualquier otro estimador del mismo parámetro. Es decir:
Si es un estimador no viciado de , entonces es eficiente si ˆ
2
Mg. Miguel Miguel Angel Angel Macetas Hernández
ˆ
* ˆ
:
UNIVERSIDAD NACIONAL DE CAJAMARCA “Norte de la Universidad Peruana”
FACULTAD DE INGENIERÍA V ( )V ( ˆ
ˆ
*
V ( ) ˆ
),
o sea,
V (
ˆ
*
1
)
Eficiencia relativa:
Dados dos estimadores no viciados del mismo parámetro, se dice que es más eficiente aquél que tiene menor variancia. Es decir: Sean
1 y
2
dos estimadores de
,
decimos que V ( 1 )
1
es mas eficiente que
2
; si V ( 1 )
V ( 2 )
1
V ( 2 )
d)
Suficiente: Un estimador se dice suficiente si contiene (o absorbe) toda la informaci ón proporcionada por la muestra, en lo que respecta al parámetro.
e) Invariancia: Un estimador se dice invariante cuando una función del mismo es un buen estimador de la es invariante
función del parámetro. Es decir:
g
( ) g
Métodos de estimación puntual 1.-Método de los muestrales.
momentos:
Consiste en estimar los momentos poblacionales a través de los momentos
2.-Método de los Mínimos Cuadrados: Consiste en encontrar estimadores de los parámetros de forma tal que minimicen la suma de los cuadrados de los desvíos. Con este método se obtienen estimadores no viciados y consistentes, pues el mismo garantiza mínima variancia y suma de desvíos igual a cero. 3.-Método de Máxima Verosimilitud : Consiste en encontrar estimadores de los parámetros de forma tal que maximicen la función de probabilidad de la muestra. Para ello, es imprescindible conocer la distribución de la variable en la población. Este método proporciona los mejores estimadores, que gozan excelentes propiedades: Insesgado (o bien, asintóticamente insesgado), Consistente, Eficiente, Suficiente, Invariantes y de distribución asintóticamente Normal. Pasos a seguir p ara obtener los estim adores de m áxim a verosim ilitud n
Primero se obtiene la función de probabilidad de la muestra
f x1 , x 2 ,..... xn f xi , también i 1
llamada función de verosimilitud y su expresión está dada en términos de los parámetros y de las observaciones. Comúnmente se la simboliza con
L X ,
, donde
X es
el vector aleatorio que
representa a la muestra (o valores observados) y es el parámetro que se quiere estimar. Luego se pretende hallar el valor de
que
maximice a L X , valor que también maximiza al
logaritmo de la función : ln L X , , (ya que el logaritmo es una función monótona creciente). Por lo tanto, el segundo paso es aplicarle logaritmo a la función de probabilidad de la muestra ( o de verosimilitud) con el fin de simplificar la derivada. Se sabe que una función continua y derivable alcanza su valor máximo en un punto para el cual se anula su derivada. Si la función de probabilidad de la muestra satisface este requisito, entonces el tercer
3
Mg. Miguel Angel Macetas Hernández
UNIVERSIDAD NACIONAL DE CAJAMARCA “Norte de la Universidad Peruana”
FACULTAD DE INGENIERÍA paso es derivar la función obtenida ln L X respecto del parámetro , y luego hallar el valor de ,
(o la expresión de ) para el cual se satisface:
L X ,
0.
Inconvenientes:
El método de máxima verosimilitud asegura que los estimadores obtenidos son los de mínima variancia, pero no indica cual sea esta variancia. El método de máxima verosimilitud asegura que los estimadores obtenidos son los que asignan máxima probabilidad a la muestra, pero obviamente se admite que dicha muestra sea posible de obtener aún con diferentes valores del parámetro.
Estas son razones por las cuales la estimación puntual se torna impracticable (sin interés práctico), y se prefiere la estimación por intervalos, ya que provee de más información.
Estimación por Intervalos Consiste en encontrar un conjunto de números reales que conforman posibles valores del parámetro. La estimación por intervalo se realiza utilizando un nivel de confianza, que simbolizamos con 1- y que representa la probabilidad de que dicho intervalo contenga al verdadero valor del parámetro . La construcción del intervalo de confianza consiste en hallar los l ímites inferior y superior en función de la muestra obtenida. Para su obtención es necesario conocer la distribución del estimador del parámetro (distribución que obviamente dependerá del parámetro .). Generalmente se
construye una nueva variable en la cual intervienen el estimador y el parámetro , dicha variable
recibe el nombre de estadística de prueba y la simbolizamos g( , ) .
Su ventaja reside en que la distribución de la estadística de prueba ya no depende del parámetro siendo una distribución standard con los valores de probabilidad tabulados correspondiente a un gran número de valores posibles de la variable. Construcción de los intervalos de confianza 3.1.1. Intervalo de Confianza para la media en poblaciones normales Sea (X1, X2,..., Xn) una muestra aleatoria extraída de una población normal, luego, i = 1... n : X ~ N( , ) . Por lo tanto tenemos que: X1 , X2 , ... , Xn iid N( , ).
X
1 n
X ~ N ( ,
i
)
n
a) Si 2 es conocido, entonces el intervalo para se obtiene
X z 1 P z n 2
4
Mg. Miguel Angel Macetas Hernández
2
y
X n
~ N 0,1
UNIVERSIDAD NACIONAL DE CAJAMARCA “Norte de la Universidad Peruana”
FACULTAD DE INGENIERÍA siendo z/2: el valor de la variable normal standarizada que está superado con una probabilidad De dicha expresión se obtiene que:
X z
n
2
X z
con el (1 )% de confianza
n
2
/2.
b) Si 2 es desconocido, se utiliza su estimador S 2 y la distribución :
X s
~ t n 1
n
Entonces el intervalo para se obtiene de :
P t 1, 2 n
X
t 1, 1 2 n
s n
siendo tn-1,/2 el valor de la variable t-student con n grados de libertad, superado con probabilidad /2 De dicha expresión se obtiene que : X t n 1, . 2
s n
s
X t n 1, .
con el (1 )% de confianza
n
2
Intervalo de Confianza para la proporción Sean X1 , X2 , ... , Xn iid Bi ( p ) . X = Xi ~ B ( n , p ) . Para n suficientemente grande, la variable binomial se distribuye aproximadamente normal ,
aproximadamente : X ~ N np
pq
donde
n
h
,
npq
h
y
1
n
X i ~ N p,
pq
n
es un valor desconocido puesto que no se conoce el valor del parámetro p, por lo
tanto se utiliza el estimador del desvío aproximadamente normal:
s h
h p h(1 h )
h
h (1
h)
, obteniendo la siguiente distribución, que es
n
~ N 0,1
n
Dicha aproximación es buena para muestras de tamaño suficientemente grandes, y el mínimo tamaño de muestra depende del valor de h. W.G. Cochran da una regla práctica para ser utilizada en la búsqueda de intervalos de confianza del 95%, correspondientes a la proporción poblacional p. Proporción empírica h 0.5 0.4 o 0.6 0.3 o 0.7 0.2 0 0.8 0.1 o 0.9 0.05 o 0.95
Tamaño mínimo de muestra n 30 50 80 200 600 1400
Para estos valores de n se obtiene una buena aproximación Normal válida para la construcción de intervalos del 95% de confianza.
5
Mg. Miguel Angel Macetas Hernández
UNIVERSIDAD NACIONAL DE CAJAMARCA “Norte de la Universidad Peruana”
FACULTAD DE INGENIERÍA h z
h(1 h) 2
p
n
h(1 h)
h z
2
con el (1-).100% de confianza
n
Intervalo de Confianza para la diferencia de medias de dos poblaciones normales independientes Sean ( X1 , X2 , ... , Xn ) y ( Y1 , Y2 , ... , Ym ) dos muestras aleatorias extraídas de poblaciones normales , luego : i = 1 .. n : X i ~ N(x, x ) . j = 1 .. m : Y j ~ N(y, y ).
X1 , X2 , ... , X n
Por lo tanto tenemos que
Y1 , Y2 , ... , Y m X Y
1
n 1
m
x
X i ~ N ( x , Y i ~ N ( y ,
iid N( y, y ) con Xi independiente de Y j
)
n
y
)
m
con X e Y independientes
2 2 y x X Y ~ N x y ; n m
Entonces
iid N( x, x )
X Y x y 2 x
2 2 y x y
N 0,1
~
2 y
n
a) Si
m
son conocidos, el intervalo de confianza para
x y
se obtiene de la siguiente
manera: 2
2
X Y z
b) Si
2 2 y son x y
x
n
2
y
m
x y
desconocidos pero iguales
ˆ
S A 2
2 x
2 y
X Y x y
n
2
2
y
con el (1-).100% de confianza
m
, entonces el estimador de ambos es
2
y
nm2
Luego, como :
2
X Y z
n 1S x m 1S y 2
2
2
2
x
1 1 n m
~
ˆ
2
x y
1 1 S A2 n m
t n m 2
S A
el intervalo de confianza para
se obtiene de la siguiente manera :
x y
X Y t 2, g . S A
1
n
1
m
x y
X Y t 2, g . S A
con el (1-).100% de confianza , siendo g = n+m-2
6
Mg. Miguel Angel Macetas Hernández
1
n
1
m
UNIVERSIDAD NACIONAL DE CAJAMARCA “Norte de la Universidad Peruana”
FACULTAD DE INGENIERÍA Nota: Para n y m suficientemente grandes,
t nm2
D
0,1
N
Distribución de la diferencia de proporciones muestrales de dos poblaciones independientes X1 , X2 , ... , Xn
iid Bi(p1)
Y1 , Y2 , ... , Ym
iid Bi(p2)
Sean
h1
1
n
X i
1
h2
y
m
con Xi independiente de Y j
i , j
Y j
Luego, h1 y h2 son independientes y se distribuyen aproximadamente normal :
p1 q1
h1 ~ N p1 ,
p1q1
p2 q2
n
h1
m
h2
p 2 q 2
y h2 ~ N p 2 ,
p1q1
h1 h2 ~ N p1 p 2 ;
donde
n
n
n
independientes
p 2 q 2
m
es desconocido, ya que no se conocen los parámetros p1 y p2 . Luego se
utiliza el estimador de este desvío:
S ( h
1 h2
h
)
ˆ
1 h2
h1 (1 h1 ) n
h2 (1 h2 ) m
h1 h2 ( p1 p2 )
obteniendo la siguiente distribución aproximadamente normal
h1 (1 h1 ) n
h2 (1 h2 )
~ N ( 0,1)
m
válida para muestras suficientemente grandes. Los intervalos de confianza para h1 h2
z S 2
h
1
h2
p
1
p1 p 2
serán de la forma :
p2
h1 h 2
z S 2
h
1
h2
con el (1-).100% de confianza
Intervalo de Confianza para la variancia en poblaciones normales Sean
X1 , X2 , ... , Xn
X 2 ~ n2 i i 1 n
iid N( , ). Entonces Xi X 2 i 1 n
y
X i X 2 n 1 S x 2 Como 2 i 1
X i
~ N ( 0,1)
i 1,.... n
2
~ n1
2
n
tenemos que:
( n 1). S ( x )
Basado en esta información, sabemos que:
7
Mg. Miguel Angel Macetas Hernández
2
2
~ n1
UNIVERSIDAD NACIONAL DE CAJAMARCA “Norte de la Universidad Peruana”
FACULTAD DE INGENIERÍA 2 ( n 1).S (2 x ) 2 P n 1;1 2 n 1; 2 1 2 de donde se obtiene el intervalo de confianza para 1
2
n 1; 2
2
2
2
1
(n 1).S (2 x )
(n 1).S (2 x )
2
2
n 1;1 2
( n 1).S (2 x )
n 1; 2
2
n 1;1 2
con el (1-).100% de confianza .
Distribución del cociente de variancias muestrales de poblaciones normales independientes X1 , X2 , ... , Xn iid N(x, x );
Y1 , Y2 , ... , Ym iid N(y, y ) con Xi independiente de Y j
i,j
Luego se deduce que: x x 2 ( n 1). S 2 ( x ) 2 i ~ n 1 2 x i 1 x n
y y 2 ( n 1). S 2 j ( y ) 2 ~ m1 2 y j 1 y m
y
Por ser independientes resulta que : (n
2
2 x
1) S ( x ) 2
(n
S ( x )
1) 2
( m 1) S y
2 y
y análogamente se deduce que :
S (2 y ) S 2 x
2 x 2
2
S y
.
2
y
2
~ F n
1,m 1
x
( m 1)
.
~ F m 1, n 1
y
Basado en esta información, sabemos que: P F m1,n1;1 2 2 S 1 ( y ) x que equivale a: P 2 . 2 F m1,n 1; 2 1 S x F m1,n 1; 2 y
2
2
S ( y ) 2
S x
2 x 2
.
F m1,n1;
y
2 1
de donde se obtienen los intervalos de confianza para los cocientes de las v ariancias
2
x
2
y
8
Mg. Miguel Angel Macetas Hernández
2
y y
2
x
UNIVERSIDAD NACIONAL DE CAJAMARCA “Norte de la Universidad Peruana”
FACULTAD DE INGENIERÍA 2
S ( x ) 2
1
.
F m1, n1;
S
y
2
2
2
2 y
2
con el (1-).100% de confianza
2
y
S ( y )
F m1, n1;
. F m1,n 1;
S
y
1
.
S x
S ( x )
2
2
S ( y )
2
2 x 2
2
2
S x
x
. F m1,n 1;
con el (1-).100% de confianza
2
Aplicaciones del Teorema Central del Límite Intervalo de confianza para la media en poblaciones de distribución desconocida Si la distribución de X no se conoce, pero se trata de una muestra suficientemente grande, se aplica el Teorema Central del Límite y así se obtienen los intervalos para a)
si se conoce 2 X z . x X z . x con el (1 )% de confianza 2
con
x
x
2
en poblaciones infinitas y
n
x
x
N n
n
N 1
en poblaciones finitas
b)
si no se conoce 2 X z .S x X z .S x con el (1 )% de confianza 2
con S x x ˆ
2
S x S x N n en poblaciones infinitas y S x en poblaciones finitas n n N 1
Intervalo de confianza para la diferencia de medias en poblaciones de distribución desconocida Si las distribuciones de X y de Y no se conocen, pero se trata de muestras suficientemente grandes, se aplica el Teorema Central del Límite y así se obtienen los intervalos para la diferencia entre las medias poblacionales usando la distribución Normal: a) si se conocen las variancias poblacionales 2
2
X
Y
z
2
.
x
n
2
2
y x
m
y
X
Y
z
2
.
x
y
con el (1-).100% de confianza
n
m
b) si no se conocen las variancias poblacionales, pero se las supone iguales, entonces 1
X
Y
z
2
. S A
1
n
1
m
x
y
X Y
z
2
. S A
1
con el (1-).100% de confianza
n
m
c) si no se conocen las variancias poblacionales, y tampoco puede suponérselas iguales, entonces 2
2
X
Y
9
z
2.
S x n
S y
m
2
2
x
y
X
Y
z
S x 2
n
Mg. Miguel Angel Macetas Hernández
S y
m
.
con el (1-).100% de confianza
UNIVERSIDAD NACIONAL DE CAJAMARCA “Norte de la Universidad Peruana”
FACULTAD DE INGENIERÍA PRUEBAS DE HIPÓTESIS
Definición: Hipótesis estadística es un supuesto acerca de la distribución de una variable aleatoria. Podemos especificar una hipótesis dando el tipo de distribución y el valor del parámetro (o valores de los parámetros) que la definen. Ejemplos: 1. X está normalmente distribuida con 100 y 10 . 2. Y es una variable binomial con p = 0.25 Frecuentemente (en la práctica), la distribución poblacional está implícita, y la hipótesis estadística sólo especifica el valor del parámetro.
Ejemplos : 3. La tasa media salarial es $185.. 4. La proporción de productos defectuosos en cierto proceso es inferior a 0.05, o sea p < 0.05. Una hipótesis estadística puede considerarse como un conjunto de hipótesis elementales. Al respecto, una hipótesis estadística puede ser simple o compuesta . Una hipótesis simple es una especificación del valor de un parámetro, como en el ejemplo (3). En cambio, una hipótesis compuesta contiene más de un valor del parámetro, como en el ejemplo (4), y se la considera constituida por el conjunto de todas las hipótesis simples compatibles con ella. Con el objeto de probar la validez de tales hipótesis, se lleva a cabo un experimento, y la hipótesis formulada es desechada si los resultados obtenidos del experimento son improbables bajo dicha hipótesis. Si los resultados no son improbables, la hipótesis no es desechada por falta de evidencia. Una hipótesis compuesta es considerada verdadera (lo cual significa que no será rechazada o desechada) cuando alguna de las hipótesis simples que la componen pueda considerarse verdadera. Ejemplo : Supongamos que queremos probar la hipótesis de que la probabilidad de obtener un as al arrojar un dado, es de 1/6 , y con tal fin arrojamos un dado 600 veces . Si se obtienen 600 ases , este resultado es improbable bajo la hipótesis supuesta, lo cual nos lleva a rechazarla pues la evidencia indica que ella es falsa . Si se obtienen 100 ases , este resultado no sería improbable bajo la hipótesis supuesta, y sin duda la hipótesis no será rechazada , por falta de evidencia. Obteniendo resultados como éstos, la intuición y el sentido común son suficientes para tomar una decisión. Sin embargo, en la práctica los experimentos no conducen a conclusiones tan obvias, de donde surge la necesidad de un método para probar la hipótesis, y esto implica establecer reglas de decisión . El hecho de rechazar una hipótesis no significa que ésta sea falsa, como tampoco el no rechazarla significa que sea verdadera. La decisión tomada no esta libre de error. A este respecto, consideraremos dos tipos de error que pueden ser cometidos, y que los denominaremos error de tipo I y error de tipo II, y que consisten en: Error I :Rechazar una hipótesis que es verdadera . Error II : No rechazar una hipótesis que es falsa . La forma de medir estos errores es mediante la probabilidad. Simbolizaremos con a la probabilidad de rechazar una hipótesis verdadera, y con a la probabilidad de no rechazar una hipótesis falsa; por lo tanto = P( rechazar H / H es verdadera ) y = P( no rechazar H / H es falsa ) Es deseable que estas dos probabilidades de error sean pequeñas. Una forma cómoda de especificar lo que se requiere de un procedimiento de prueba es concentrar la atención en dos conjuntos posibles de valores del parámetro, es decir, en dos hipótesis estadísticas, a las cuales llamaremos hipótesis nula designada por H0 e hipótesis alternativa designada por H1 . La prueba de hipótesis es un procedimiento de toma de decisiones , relacionada principalmente con la elección de una acción entre dos posibles . Por lo tanto, cada hipótesis (nula y alternativa) la asociaremos con una de las acciones. Esta designación, en principio, es arbitraria, pero típicamente la hipótesis nula
10
Mg. Miguel Angel Macetas Hernández
UNIVERSIDAD NACIONAL DE CAJAMARCA “Norte de la Universidad Peruana”
FACULTAD DE INGENIERÍA corresponde a la ausencia de una modificación en la variable investigada, pudiendo considerar que nulifica el efecto de un tratamiento , y por lo tanto se especifica de una forma exacta : H0 : = 0 ; en tanto que la hipótesis alternativa generalmente indica una variación de valores que prevalecería si la variable sufre alguna modificación, pudiendo pensar que el tratamiento fue efectivo , por lo cual esta hipótesis (alternativa) se especifica de manera más general :
H1: 0 ó H1 : > 0 ó H1 : < 0. Observemos que en general la hipótesis alternativa es compuesta. Raramente la hipótesis alternativa es una hipótesis simple, como por ejemplo: H1 : = 1 , sino que, normalmente ésta es el complemento de la hipótesis nula .
ERRORES Y RIESGOS DE LA PRUEBA La práctica de probar la hipótesis nula contra una alternativa, sobre la base de la información de la muestra, conduce a dos tipos posibles de error, debido a fluctuaciones al azar en el muestreo. Es posible que la hipótesis nula sea verdadera pero rechazada debido a que los datos obtenidos en la muestra sean incompatibles con ella ; como puede ocurrir que la hipótesis nula sea falsa pero no se la rechace debido a que la muestra obtenida no fuese incompatible con ella . Cuadro de decisiones y errores Estado Naturaleza Decisión Rechazar Ho No Rechazar H o
Ho es verdadera
error I – incorrecto
Ho es falsa Correcto
error II - incorrecto
Correcto
Las probabilidades de cometer errores de tipo I y II se consideran los "riesgos" de decisiones incorrectas. Así, la probabilidad de cometer un error de tipo I se llama nivel de significación de la prueba y se simboliza con . . . = P( error I ) = P( rechazar H o / H0 es verdadera ) y la probabilidad de cometer un error de tipo II se designa por . Entonces : = P( error II ) = P( no rechazar H o / Ho es falsa )
Prueba de hipótesis simple contra alternativa única Consideremos el caso de una hipótesis nula simple contra una hipótesis alternativa también simple.
H0 : =
0
; H1 : =
1
Sea la variable aleatoria X con distribución conocida : X ~ f(x , ) , y sea f ( x1 , x2 ,...., xn , ) un
estimador de . Entonces, la estadística de prueba tiene distribución conocida siempre que se conozca el valor del parámetro . Luego, dicha distribución queda completamente definida suponiendo verdadera la hipótesis nula H0 : = 0. Las reglas de decisión sobre el rechazo o no de H o se establecen respecto a la amplitud de y el resultado particular de la muestra. Se clasifica la amplitud de en dos subconjuntos que son : R = región de rechazo o región crítica que contiene los resultados menos favorables a H o , y A = región de aceptación o región de no rechazo que contiene los resultados más favorables a H o . De esta forma, si R rechazamos H o y si A no rechazamos Ho . El valor de que separa R de A se denomina valor critico de la estadística de prueba, y se representa por c .
11
Mg. Miguel Angel Macetas Hernández
UNIVERSIDAD NACIONAL DE CAJAMARCA “Norte de la Universidad Peruana”
FACULTAD DE INGENIERÍA Si suponemos 1 > 0
, entonces :
P (eI ) P ( c / o )
P (eII ) P ( c / 1 ) 0
1
P (eI ) P ( c / o ) P (rech. H o / H o es verdadera) f o ( ).d
c c P (eII ) P ( c / 1 ) P (no rech. H o / H o es falso) f 1 ( ).d
donde f o ( ) y f 1 ( ) son las funciones de densidad del estimador del parámetro
o
, según sea = 0
= 1 respectivamente.
UBICACION DE LA REGION CRÍTICA Fijado el nivel de significación
P (rech. H o
/
H o es verdadera )
,debemos dividir (separar) el
recorrido de en dos subconjuntos disjuntos : R = región de rechazo (o región crítica) y A = región de no rechazo (o de aceptación) , siendo A el complemento de R . Luego, se verifica que : P ( R / H es verdadera) P ( R / ) Dónde ubicamos esta región crítica R ? Dada nuestra preocupación de cometer un error de tipo II , deberemos escoger para R una ubicación donde la probabilidad de este error sea mínima : o
o
P (eII ) P ( no rech. H o / H o es falso) minimo
lo cual equivale P ( Ao / H o es falso) minimo ˆ
La región de aceptación A es el complemento de la región de rechazo R , y la ubicación de R depende de la naturaleza de la hipótesis alternativa H . Caso I
H o : o
H 1 : o
0
c
1
A
R c
para
1 o : P ( A / 1 ) P ( c / 1 ) f 1 ( / 1 ).d ˆ
ˆ
ˆ
Caso II
12
x
Mg. Miguel Angel Macetas Hernández
ˆ
UNIVERSIDAD NACIONAL DE CAJAMARCA “Norte de la Universidad Peruana”
FACULTAD DE INGENIERÍA
H o : o H 1 : o
1
0
para
1 o : P ( A / 1 ) P ( c / 1 ) f 1 ( / 1 ).d ˆ
ˆ
ˆ
ˆ
c
Caso III
0
0 H : o
H 1 :
o
o
1
0
c2
para
1 o : P ( A / 1 ) P (c1 c 2 / 1 ) f 1 ( / 1 ).d ˆ
ˆ
ˆ
ˆ
c1
PASOS A SEGUIR PARA PROBAR UNA HIPOTESIS 1. Formular las hipótesis de acuerdo con el problema. 2. Escoger un nivel de significación () dependiendo de los costos de cometer errores de tipo I y tipo II. 3. Escoger el estimador del parámetro cuya distribución por muestreo sea conocida en el supuesto de que la hipótesis nula sea verdadera, es decir, se conoce f o ; o sea f dado que o . ˆ
ˆ
4. Establecer la regla de decisión, que depende de la forma de la hipótesis alternativa y del nivel de significación. Esto se refiere a hallar los valores críticos. 5. En base a una muestra seleccionada al azar, calcular el valor del estadístico. Luego, comparar con el valor crítico (o los valores críticos). 6. Decidir si rechazar o no la hipótesis nula. Observaciones : Sólo se toma en cuenta el error de tipo I . Por lo tanto, el test es significativo si se rechaza la hipótesis nula , pues en este caso se conoce la probabilidad de haber cometido un error. En función de esto, se deberá decidir cuál de las hipótesis debe ser la nula y cuál la alternativa, como también cuál debe ser el nivel de significación.
13
Mg. Miguel Angel Macetas Hernández
UNIVERSIDAD NACIONAL DE CAJAMARCA “Norte de la Universidad Peruana”
FACULTAD DE INGENIERÍA CASOS PARTICULARES DE PRUEBAS DE HIPÓTESIS Prueba de hipótesis de la media en po blaciones no rmales Sea ( X1 , X2 , ... , X n ) una muestra aleatoria extraída de una población normal, luego, i = 1 .. n : X ~ N( , ) . Por lo tanto tenemos que: X1 , X2 , ... , Xn iid N( , ).
X
1 n
X i ~ N ( ,
H0 : = 0
vs
n
X
) ,
~
N (0
, 1)
n
H1 : 0 X 0
Si la hipótesis nula H0 es verdadera, entonces = 0 y por lo tanto
~ N (0 , 1)
n
Como la prueba es bilateral, se rechazará la hipótesis nula tanto como cuando se tenga evidencia de que la media poblacional sea mayor que el valor postulado como cuando se tenga evidencia de que sea menor que el valor postulado. Luego, se calculan dos valores críticos ( zc1 y zc2) para la variable pivotal o estadístico de prueba, que son los valores de la distribución Normal que dejan una probabilidad de por debajo y por encima respectivamente: zc1 es tal que ( zc1) = y zc2 es tal que ( zc2) = 1- z o
Se estandariza el valor observado de la media muestral decisión : si zo > zc2 zo < zc1 si zc1 < zo < z c2
x obs
0
del cual dependerá la
n
Se rechaza H0 No se rechaza H0
Prueba de hipótesis de com paración de medias de dos p oblacion es norm ales independientes. Sean ( X1 , X2 , ... , X n ) y ( Y1 , Y2 , ... , Y m ) poblaciones normales, luego: i = 1 .. n : X i ~ N(x, x )
dos muestras aleatorias extraídas de
j = 1 .. m : Y j ~ N(y, y ).
Por lo tanto tenemos que
X Y
1
n 1
m
X i ~ N ( x , Y i ~ N ( y ,
x n
y m
) )
con X eY independientes
Entonces
2 2 y x X Y ~ N x y ; n m
X Y ( x x2 n
14
Mg. Miguel Angel Macetas Hernández
y2 m
y )
~ N 0 ; 1
UNIVERSIDAD NACIONAL DE CAJAMARCA “Norte de la Universidad Peruana”
FACULTAD DE INGENIERÍA H0 : x = y
vs
H1 : x y
Si la hipótesis nula H0 es verdadera, entonces x = y
X Y
y por lo tanto
2 x
n
2
~ N 0 ; 1
y
m
Como la prueba es bilateral, se rechazará la hipótesis nula cuando se tenga evidencia de que las medias poblacionales difieren entre sí. Luego, se calculan dos valores críticos ( zc1 y zc2) para la variable pivotal o estadístico de prueba, que son los valores de la distribución Normal que dejan una probabilidad de por debajo y por encima respectivamente: zc1 es tal que (zc1) = y zc2 es tal que (zc2) = 1- Se estandariza el valor observado de la diferencia entre las medias muestrales
z o
x obs
y obs 2
2
x
n
y
m
del cual dependerá la decisión : si zo > zc2 zo < zc1 si zc1 < zo < zc2
Se rechaza H0 No se rechaza
H0
Prueba de hipótesis de la proporción Sean X1 , X2 , ... , X n iid Bi ( p ) . Momentos se demuestra que :
A través de las propiedades de la Función Generatriz de
X = Xi ~ B ( n , p ) .
Para n suficientemente grande, la variable binomial se distribuye aproximadamente normal , aproximadamente : X ~ N( n.p ,
npq ) .
De donde se deduce que la proporción muestral
h
X n
X i
también tiene una
n
distribución aproximadamente normal : h
1
X i ~ N p, n
pq
n
,
h p
pq
~ N 0 , 1
n
H0 : p = p0
vs
H1 : p p0
Si la hipótesis nula H0 es verdadera, entonces
p = p0
h p 0
y por lo tanto
p 0 (1 p 0 )
~ N 0 , 1
n Como la prueba es bilateral, se rechazará la hipótesis nula tanto como cuando se tenga evidencia de que la proporción poblacional sea mayor que el valor postulado como cuando se tenga evidencia de que sea menor que el valor postulado. Luego, se calculan dos valores críticos (zc1 y zc2) para la variable pivotal o estadístico de prueba, que son los valores de la distribución Normal que dejan una probabilidad de por debajo y por encima respectivamente: zc1 es tal que (zc1) = y zc2 es tal que (zc2) = 1- hobs p 0 Se estandariza el valor observado de la proporción muestral z o del cual dependerá p 0 (1 p 0 )
n la decisión :
15
zo < zc1 si zo > zc2 si zc1 < zo < zc2
Se rechaza H0 No se rechaza
Mg. Miguel Angel Macetas Hernández
H0
UNIVERSIDAD NACIONAL DE CAJAMARCA “Norte de la Universidad Peruana”
FACULTAD DE INGENIERÍA Prueba de hipótesis de com paración de propo rcion es de do s pob laciones independientes X1 , X2 , ... , X n
iid Bi(p1)
Y1 , Y2 , ... , Y m
iid Bi(p2) 1
Luego, h1 y h2
Xi
1
Y j n m son independientes y se distribuyen aproximadamente :
h1
Sean
con Xi independiente de Y j i j h2
y
h1 ~ N p1 ,
p1 q1
n
y h2 ~ N p 2 ,
p 2 q 2
m
p q p q h1 h2 ~ N p1 p 2 ; 1 1 2 2 n m
h1 h2
p1 q1 n
p1 p 2
p 2 q 2
~ N 0 ; 1
m
H0 : p1 = p2 vs
H1 : p1 p2
Si la hipótesis nula H0 es verdadera, entonces
p1 = p2
h1 h2
p (1 p) ˆ
donde p
n.h1
ˆ
m.h2
nm
1 1 n m
~ N 0 ; 1
ˆ
es la proporción de éxitos (total) .
Como la prueba es bilateral, se rechazará la hipótesis nula cuando se tenga evidencia de que las proporciones poblacionales sean diferentes. Luego, se calculan dos valores críticos (zc1 y zc2) para la variable pivotal o estadístico de prueba, que son los valores de la distribución Normal que dejan una probabilidad de por debajo y por encima respectivamente: zc1 es tal que ( zc1) = y zc2 es
tal que ( zc2) = 1- Se estandariza el valor observado de la diferencia entre las proporciones muestrales
z o
h1obs h2obs
1 1 p(1 p) n m ˆ
del cual dependerá la decisión :
ˆ
zo < zc1 si zo > zc2 si zc1 < zo < zc2
16
Mg. Miguel Angel Macetas Hernández
Se rechaza H0 No se rechaza H0
UNIVERSIDAD NACIONAL DE CAJAMARCA “Norte de la Universidad Peruana”
FACULTAD DE INGENIERÍA Prueba de hipótesis de la variancia en po blaciones no rmales Sean
X1 , X2 , ... , X n
iid N( , )
X i X i 1 n
Entonces :
2 2
~ n 1 n
( xi x ) 2
2
La variancia muestral está definida como
X i X i 1 n
2
H0 : 2 = 20 vs
2
~ n 1
S ( x )
(n 1) S (2 x )
i 1
de donde se obtiene que
n 1
~ n21
2
H1 : 2 20 2
2
Si la hipótesis nula H0 es verdadera, entonces =
0
y por lo tanto
(n 1).S (2 x ) 2
~ n21
0
Como la prueba es bilateral, se rechazará la hipótesis nula tanto como cuando se tenga evidencia de que la variancia poblacional sea mayor que el valor postulado como cuando se tenga evidencia de que sea menor que el valor postulado. Luego, se calculan dos valores críticos (2c1 y 2c2) para la variable pivotal o estadístico de prueba, que son los valores de la distribución 2n-1 que dejan una probabilidad de por debajo y por encima respectivamente : 2c1 es tal que P(2n-1 < 2c1) = y 2c2 es tal que
P(2n-1 > 2c2) = . Se calcula el valor observado de la estadística de prueba o variable pivotal que relaciona la variancia o2
muestral con la poblacional
2 (n 1).S obs
del cual dependerá la decisión :
2
0 si si
2o > 2c2 2o < 2c1 2c1 < 2o < 2c2
Se rechaza H0 No se rechaza H0
Prueba de hipótesis de com paración d e variancias de pob laciones norm ales independientes X1 , X2 , ... , Xn iid N(x, x) Luego :
17
X 1
x
X i
x
x x
,......,
~ N (0,1)
X n
x
x
, Y1 , Y2 , ... , Y m iid N(y, y) con Xi independiente de Y j i 1.....n
y
iid N (0,1) y
Y i
Y 1
y
y
y
y
~ N (0,1) j 1.....m
,......,
Mg. Miguel Angel Macetas Hernández
Y m
y
y
iid N 0,1
UNIVERSIDAD NACIONAL DE CAJAMARCA “Norte de la Universidad Peruana”
FACULTAD DE INGENIERÍA (n 1).S (2 x )
2 x
~ n21
(n 1).S (2 y )
y
2 y
~ m2
1
que por ser independientes resulta que el cociente : (n
1) S (2 x )
2 x ( n
(m
S (2 x )
1)
1) S (2 y )
2 y ( m
H0 : 2x = 2y vs
S (2 y )
2
.
y
2
~ F n 1,m 1
x
1)
H1 : 2x 2y 2
Si la hipótesis nula H0 es verdadera, entonces x =
2
y
y por lo tanto
S 2 ( x ) S (2 y )
~ F n1,m1
Como la prueba es bilateral, se rechazará la hi pótesis nula cuando se tenga evidencia de que las variancias poblacionales difieren entre sí. Luego, se calculan dos valores críticos ( F c1 y F c2) para la variable pivotal o estadístico de prueba, que son los valores de la distribución F -Snedecor con n-1 y m-1 grados de libertad, que dejan una probabilidad de por debajo y por encima respectivamente F c1 es tal que P( F n-1;m-1< F c1) = y F c2 es tal que P( F n-1;m-1> F c2) = . Se calcula el valor observado de la estadística de prueba o variable pivotal del cociente de las variancias muestrales
F o
S (2 x ) obs
S (2 y ) obs
del cual dependerá la decisión : F o < F c1 si F o > F c2 si F c1 < F o < F c2
Se rechaza H0 No se rechaza H0
Prueba de hipótesis de la media en po blaciones no rmales con variancia desconocida. Sean
(X1
, X2 , ... , X n ) una muestra aleatoria extraída de una población normal, luego i=1,.,n
Xi ~ N( , ). Por lo tanto tenemos que X1 , X2 , ... , Xn iid N( , ). de donde se deduce que:
X ~ N ,
X que implica ~ N (0,1) n
n n
X i X i 1
y
2
2
~ n 1 2
(n 1)S (2 x )
2
~ n21
Como X y S (x) son independientes, lo son también
X n
y
(n 1) S (2 x ) 2
, de distribución normal
y chi cuadrado respectivamente. Luego, realizando el cociente entre ellas, obtenemos :
18
Mg. Miguel Angel Macetas Hernández
UNIVERSIDAD NACIONAL DE CAJAMARCA “Norte de la Universidad Peruana”
FACULTAD DE INGENIERÍA X S ( x )
~
t n
1
n
H0 : = 0
vs
H1 : 0 X
Si la hipótesis nula H0 es verdadera, entonces = 0 y por lo tanto
0
S ( x )
~
t n 1
n
Como la prueba es bilateral, se rechazará la hipótesis nula cuando se tenga evidencia de que la media poblacional sea mayor que el valor postulado como cuando se tenga evidencia de que sea menor que el valor postulado. Luego, se calculan dos valores críticos (tc1 y tc2) para la variable pivotal o estadístico de prueba, que son los valores de la distribución t-Student con n-1 grados de libertad que dejan una probabilidad de por debajo y por encima respectivamente: tc1 es tal que P(tn-1 < tc1) = y tc2 es tal que P(tn-1 > tc2) = . Se estandariza el valor observado de la media muestral
t o
x obs
0
del cual dependerá la
S ( x ) n
decisión : si to > tc2 to < tc1 si tc1 < to < tc2
Se rechaza H0 No se rechaza H0
: Nota
Para tamaños grandes de muestra, esta distribución tiende a la distribución normal con parámetros =0 y =1 . X
0
S ( x )
~
N (0,1)
n
n
Prueba de hipótesis de com paración de medias de dos p oblacion es no rmales independ ientes, con variancias desco no cidas pero supuestamente iguales. y (Y1 , Y2 , ... , Y m ) dos muestras aleatorias extraídas de Sean (X1 , X2 , ... , X n ) poblaciones normales independientes con igual variancia . Entonces x y
luego , i=1..n ,
Xi ~ N(x, )
y
i=1..m ,
Y j ~ N(y, ).
Por lo tanto tenemos que
X1, X2, ... , Xn iid N(x, );
Y1, Y2, ... , Ym iid N(y, ). con Xi independiente de Y j
De la distribución normal de las variables X e Y, se deduce que: 2 2 X Y ~ N ; , y por lo tanto y x n m
como también
19
Mg. Miguel Angel Macetas Hernández
X Y ( x y )
1 n
1 m
~ N (0,1)
UNIVERSIDAD NACIONAL DE CAJAMARCA “Norte de la Universidad Peruana”
FACULTAD DE INGENIERÍA ( n 1) S (2 x )
2
~ n21
(m 1) S (2 y )
y
2
~ m2 1
(n 1) S (2 x )
resulta
que por ser independientes:
(m 1) S (2 y ) 2
~
2
n m 2
Luego, realizando el cociente, obtenemos: X
Y ( x
(n 1) S (2 x )
y )
2 ( m 1) S ( y )
( n m 2)
donde
(n 1) S (2 x )
(m 1) S (2y )
( n m 2)
H0 : x = y
vs
(m 1) S (2 y )
(n m 2)
n
1 m
H1 : x y
X Y
1
es el estimador de la variancia común 2, y lo simbolizaremos con S2A
Si la hipótesis nula H0 es verdadera, entonces x = y
(n 1) S (2 x )
~ t nm2
~ t n 1 n
y por lo tanto X
o bien
m 2
1
S A .
m
Y
1
n
1
~ t n m 2
m
Como la prueba es bilateral, se rechazará la hipótesis nula cuando se tenga evidencia de que las medias poblacionales sean diferentes. Luego, se calculan dos valores críticos (tc1 y tc2) para la variable pivotal o estadístico de prueba, que son los valores de la distribución t-Student con n+m-2 grados de libertad que dejan una probabilidad de por debajo y por encima respectivamente : tc1 es tal que P(tn+m-2 < tc1) = y tc2 es tal que P(tn+m-2 > tc2) = . Se estandariza el valor observado de la diferencia entre las medias muestrales
z o
x obs S A .
cual dependerá la decisión : si si
to > tc2 to < tc1 tc1 < to < tc2
: Nota
y obs
1
1
n
del
m
Se rechaza H0 No se rechaza H0
Para tamaños grandes de muestra, esta distribución tiende a la distribución normal con parámetros =0 y =1 . X S A .
20
Y
1 n
1
~ N (0,1)
m
Mg. Miguel Angel Macetas Hernández
( n m )