Resumen Prob. y Estadística
Juan Pablo Martí
PROBABILIDAD Y ESTADÍSTICA UNIDAD I: Introducción a la estadística y al análisis de datos Medidas de tendencia central: Media: Media muestral: n
x=
x1 + x 2 +
L
+ xn
=
∑1 x i=
n
n
i
x
La media aritmética puede considerarse como el “punto de equilibrio” de los datos. Es la mejor medida de tendencia central en conjuntos numéricos carentes de valores extremos. Media poblacional: N
µ =
∑1 x
i
i=
N
donde N es el número de observaciones (sólo cuando éste es finito). Mediana:
Es el punto donde la muestra se divide en dos partes iguales. En una muestra ordenada en forma creciente, es el dato central si el número de observaciones es impar, o es el promedio de los dos valores centrales si el número de observaciones es par. Impar x n +1 ~x = 2 x 2 ) + x (( n / 2 )+1) (n / Par 2 Es la mejor medida de tendencia central en conjuntos numéricos donde aparecen valores extremos. Moda:
La moda es la observación que se presenta con mayor frecuencia en la muestra. Puede existir más de una moda. Es la mejor medida de tendencia central para datos cualitativos. Medidas de variabilidad: Rango: r = máx (x i ) − mín ( xi )
Es una medida sencilla de la variabilidad de los datos. Entre mayor sea el rango, más variabilidad tendrá la muestra.
U.T.N. F.R.M.
-1-
Probabilidad y Estadística
Resumen Prob. y Estadística
Juan Pablo Martí
Varianza y Desviación Estándar: Varianza y Desviación Estándar muestrales: n
2
s =
∑1 (x
− x)
i
2
i=
n −1
La varianza es la suma de los cuadrados de las desviaciones respecto de la media de cada dato, dividido la cantidad de muestras menos uno. El cuadrado elimina las cancelaciones por signos opuestos. La Desviación Estándar es la raíz cuadrada positiva de la varianza. n
s=
∑1 (x
2
− x)
i
i=
n −1
xσ 1 n−
Como el cálculo manual de la varianza es tedioso, existe un método abreviado más práctico: n x ∑ i n 2 i =1 ∑ xi −
2
s =
2
n
i =1
n −1
Varianza y Desviación Estándar poblacionales: N
2 σ =
N
σ =
∑1 (x
∑1 (x
i
− µ)
2
i=
N 2
i
− µ)
i=
N
xσ n
Coeficiente de Variación: cv =
s x
El coeficiente de variación es un número que representa a la desviación estándar como fracción de la media. Sirve para comparar la variabilidad de distintas muestras, incluso con valores y unidades de medida diferentes. Medidas de posición: Cuartiles:
Son los puntos intermedios que resultan de dividir un conjunto ordenado de observaciones en 4 partes iguales. El primer cuartil ( q1 ) es un valor que tiene aproximadamente la cuarta parte de las observaciones iguales o por debajo de él y las tres cuartas partes restantes iguales o por encima. El segundo cuartil ( q 2 ) corresponde a U.T.N. F.R.M.
-2-
Probabilidad y Estadística
Resumen Prob. y Estadística
Juan Pablo Martí
la mediana. El tercer cuartil ( q3 ) tiene aproximadamente las tres cuartas partes de las observaciones iguales o por debajo de él y la cuarta parte restante iguales o por encima. Si más de un valor satisface la definición de un cuartil, se utiliza el promedio de ellos como cuartil. Rango Intercuartílico:
RIC = q3 − q1 El rango intercuartílico es menos sensible a los valores extremos que el rango total. Percentiles:
El 100k − ésimo percentil p k es un valor tal, que al menos el 100 k % de las observaciones están en el valor o por debajo de él, y al menos el 100(1 − k )% están en el valor o por encima de él. Procedimiento de cálculo:
1) Encontrar i = n.k . Si nk no es un entero, entonces i es el siguiente entero más grande. Si nk es entero, i es igual a nk + 0,5 . 2) El percentil p k será el valor de la muestra ubicada en la posición i (si la posición tiene una parte decimal de 5 décimos, el percentil es el promedio entre ) x (nk ) y x (nk +1) Correspondencia:
q1 = p 0 , 25 , q 2 = p 0 ,50 = ~ x , q 3 = p 0 , 75
Deciles:
Son los puntos intermedios que resultan de dividir un conjunto ordenado de observaciones en 10 partes iguales. Correspondencia:
~ d 1 = p 0 ,10 , d 2 = p 0 , 20 ,…, d 5 = p 0 , 50 = q 2 = x ,…, d 9 = p 0, 90
Representación gráfica: Diagrama de puntos:
El diagrama de puntos es una gráfica muy útil para visualizar un conjunto pequeño de datos; por ejemplo, de unas 20 observaciones. La gráfica permite distinguir a simple vista la tendencia central de los datos y su variabilidad.
16,0 16,5 17,0 17,5 18,0
Diagrama de tallo y hoja:
El diagrama de tallo y hojas es una buena manera de obtener una presentación visual informativa del conjunto de datos donde cada número está formado al menos por dos U.T.N. F.R.M.
-3-
Probabilidad y Estadística
Resumen Prob. y Estadística
Juan Pablo Martí
dígitos. Para construirlo, los números se dividen en dos partes: un tallo, formado por uno o más de los dígitos principales, y una hoja, la cual contiene el resto de los dígitos. En general debe escogerse un número relativamente pequeño de tallos en comparación con la cantidad de observaciones. Lo usual son entre 5 y 20 tallos. Tallo
Hoja
12 13 14 15 16 17 18 19
Frecuencia
103 413535 29583169 471340886808 3073050879 8544162106 0361410 960934
3 6
8
12 10 10 7 6
Distribución de frecuencias:
La distribución de frecuencias ofrece un resumen más compacto de los datos. Primero debe dividirse el rango de los datos en intervalos llamados intervalos de clase o celdas, los cuales deben tener el mismo ancho cuando sea posible. El número de clases es arbitrario, aunque es una buena opción aproximarlo a la raíz cuadrada de la cantidad de observaciones. Intervalo de clase
110 ≤ x < 130 130 ≤ x < 150 150 ≤ x < 170 170 ≤ x < 190 190 ≤ x < 210
Conteo
||||| | ||||| ||||| |||| ||||| ||||| ||||| ||||| || ||||| ||||| ||||| || ||||| |||||
Frecuencia
Frecuencia relativa
Frecuencia relativa acumulada
6 14 22 17 10
0,1375 0,1750 0,2750 0,2125 0,2
0,1375 0,3125 0,5875 0,8 1
Histograma: Frecuencia 20 15 10 5 Valor de la 120 140 160 180 200 Variable
Ojiva: Frecuencia 70 65
40 35 30 25 20 15 10
U.T.N. F.R.M.
Valor de la Variable
-4-
Probabilidad y Estadística
Resumen Prob. y Estadística
Juan Pablo Martí
Gráfico de caja:
Los límites de la caja son el primer y el tercer cuartil. La línea media de la caja es la mediana. Los límites del bigote son: b1 = q1 − 1,5.RIC y b2 = q 3 + 1,5.RIC Luego: l1 = q1 − 3.RIC y l 2 = q 3 + 3.RIC Los valores entre b1 y l1 y b2 y l 2 son valores atípicos y se representan con puntos rellenos. Los valores más allá de l1 o l 2 , son valores atípicos extremos y se representan con puntos vacíos.
b1
q1
q2
q3
b2
120 140 160 180 200
UNIDAD 2: Probabilidad Espacio muestral: Observación: Cualquier registro de información, ya sea numérico o categórico Experimento: Cualquier proceso que genere un conjunto de datos. ESPACIO MUESTRAL: Es un conjunto de todos los resultados posibles de un experimento
estadístico. Se representa con la letra S Punto muestral: Es cada resultado en un espacio muestral. Eventos: EVENTO: Es un subconjunto en un espacio
muestral.
Complemento:
El complemento de un evento A con respecto a S es el subconjunto de todos los elementos de S que no están en A . Representamos el complemento de A con A′ o A Intersección:
La intersección de dos eventos A y B , denotada mediante el símbolo A ∩ B , es el evento que contiene a todos los elementos que son comunes a A y a B
U.T.N. F.R.M.
-5-
Probabilidad y Estadística
Resumen Prob. y Estadística
Juan Pablo Martí
Unión:
La unión de dos eventos A y B , denotada mediante el símbolo A ∪ B , es el evento que contiene a todos los elementos que pertenecen a A o a B o a ambos. Eventos mutuamente excluyentes:
Dos eventos A y B son mutuamente excluyentes o disjuntos si A ∩ B = Ο/ ; es decir, si A y B no tienen elementos en común. Propiedades: 1. 2. 3. 4. 5. 6.
A∩Ο / =Ο / A∪Ο / = A A ∩ A′ = Ο / A ∪ A′ = S S′ = Ο / Ο /′=S
7.
( A′)′
8.
( A ∩ B )′
= A′ ∪ B ′
9.
( A ∪ B )′
= A′ ∩ B ′
=Ο /
Conteo de puntos de la muestra: Regla de la multiplicación:
Si una operación se puede llevar a cabo de n1 formas, y si para cada una de éstas se puede realizar una segunda operación en n 2 formas, entonces las dos operaciones se pueden ejecutar en n1 .n2 formas. Permutaciones:
Una permutación es un arreglo de todo o parte de un conjunto de objetos en un espacio muestral. El número de permutaciones de n objetos distintos es n ! El número de permutaciones de n objetos distintos tomados de r a la vez es: n
Pr =
n!
(n − r )!
nPr
El número de combinaciones de n objetos distintos tomados de r a la vez es: n
n
U.T.N. F.R.M.
C r = =
n!
r !.(n − r )! r
-6-
nCr
Probabilidad y Estadística
Resumen Prob. y Estadística
Juan Pablo Martí
Probabilidad de un evento:
La probabilidad de un evento A es la suma de los pesos de todos los puntos muestrales en A . Por tanto:
0 ≤ P ( A) ≤ 1
P(Ο / )=0
P(S ) = 1
Si un experimento puede tener como resultado cualquiera de N diferentes resultados igualmente probables, y si exactamente n de éstos resultados corresponden al evento A , entonces la probabilidad del evento A es: P ( A) =
n N
Reglas aditivas:
Si A y B son cualesquiera dos eventos, entonces: P( A ∪ B ) = P( A) + P (B ) − P ( A ∩ B )
Si A y B son dos eventos mutuamente excluyentes, entonces: P( A ∪ B ) = P( A) + P( B )
Para tres eventos A , B y C : P ( A ∪ B ∪ C ) = P( A) + P(B ) + P(C ) − P( A ∩ B ) − P( A ∩ C ) − P( B ∩ C ) + P( A ∩ B ∩ C )
Probabilidad condicional:
La probabilidad de que un evento B ocurra, cuando se sabe que ya ocurrió algún evento A se llama probabilidad condicional. La probabilidad condicional de B , dado A es: P (B | A ) =
P (B ∩ A ) P( A )
si P( A) > 0
Reglas multiplicativas:
Si en un experimento pueden ocurrir los eventos A y B , entonces: P( A ∩ B ) = P( A).P( B | A)
Para tres eventos A , B y C : P( A ∩ B ∩ C ) = P( A).P(B | A).P(B | A ∩ C )
Eventos independientes:
Dos eventos A y B son independientes si y sólo si cumplen ALGUNA de las siguientes condiciones: 1. P(B | A) = P(B ) y P( A | B ) = P( A) 2. P( A ∩ B ) = P( A).P(B )
U.T.N. F.R.M.
-7-
Probabilidad y Estadística
Resumen Prob. y Estadística
Juan Pablo Martí
Teorema de la probabilidad total:
Si los eventos B1 , B2 , , Bk constituyen una partición del espacio muestral S tal que P (Bi ) ≠ 0 para i = 1, 2, , k , entonces para cualquier evento A de S : L
L
P ( A) =
k
∑1 P(B
i
∩ A) =
i=
k
∑1 P(B ).P(A | B ) i
i
i=
Partición del es acio muestral
B2
B1
S B3 B4
A Bk
Bn
Regla de Bayes:
Si los eventos B1 , B2 , P(Bi ) ≠ 0 para i = 1, 2,
, Bk constituyen una partición del espacio muestral S donde , entonces para cualquier evento A en S tal que P( A) ≠ 0 : , k P( B ∩ A) P(Br ).P ( A | Br ) para r = k = 1,2, , k P(Br | A) = k r ∑ P(Bi ∩ A) ∑ P(Bi ).P( A | Bi ) L
L
L
i =1
i =1
UNIDAD 3: Variables aleatorias y distribuciones de probabilidad Concepto de variable aleatoria:
Una variable aleatoria es una función que asocia un número real con cada elemento del espacio muestral. Utilizaremos la letra mayúscula X para denotar una variable aleatoria, y su correspondiente minúscula x para uno de sus valores. Cada valor posible de X representa un evento que es un subconjunto del espacio muestral para el experimento dado. Si un espacio muestral contiene un número finito de posibilidades, o infinito numerable, se llama espacio muestral discreto. En cambio, si contiene un número infinito no numerable de posibilidades, se llama espacio muestral continuo. Distribuciones discretas de probabilidad:
Para la variable aleatoria discreta X , f (x ) es una función de probabilidad, función masa de probabilidad o distribución de probabilidad, si se cumple para todo x que: 1. f (x ) ≥ 0
U.T.N. F.R.M.
-8-
Probabilidad y Estadística
Resumen Prob. y Estadística 2.
Juan Pablo Martí
∑ f (x) = 1 x
3. f (x ) = P( X = x )
La distribución acumulada F , con distribución de (x ) de una variable aleatoria discreta X probabilidad f (x ) es: F (x ) = P( X ≤ x ) =
) para − ∞ < x < ∞ ∑ f (t t ≤x
Gráficas de la distribución de probabilidad y de la distribución acumulada
(x ) F (x ) f
0 1 2 3 x 4 5
0 1 2 3 4 5 x
Distribuciones continuas de probabilidad:
Una variable aleatoria continua tiene una probabilidad cero de tomar exactamente cualquiera de sus valores. Trataremos el cálculo de probabilidades para varios intervalos de variables aleatorias, no importa si incluimos o no alguno de los extremos. Para la variable aleatoria continua X , f (x ) es una función densidad de probabilidad o función densidad, si se cumple para todo x ∈ R que: 1. f (x ) ≥ 0 2.
∫
∞
−∞
(x ).dx = 1 f
3. P(a < X < b) =
∫
b
a
(x ).dx f
Entonces ahora, gráficamente, la probabilidad de un intervalo continuo es el área bajo la curva de la función densidad. La distribución acumulada F , con función densidad (x ) de una variable aleatoria continua X f (x ) es:
(x ) = P( X ≤ x ) = F
∫
x
−∞
f (t ).dt para − ∞ < x < ∞
De aquí concluimos que:
U.T.N. F.R.M.
-9-
Probabilidad y Estadística
Resumen Prob. y Estadística
Juan Pablo Martí
(x ) = P(a < X (b ) − F (a ) ⇒ f < b ) = F
(x ) dF dx
UNIDAD 4: Esperanza matemática Media de una variable aleatoria:
Sea X una variable aleatoria con distribución de probabilidad f (x ) , la media o valor esperado de X es para: X discreta:
∑ x. f (x )
µ ( X )= = E
x
X continua:
( X )= µ = E
∫
∞
( x ).dx x. f
−∞
La media o valor esperado es el resultado promedio que podemos esperar del experimento a largo plazo. Generalizando para g ( X ) , función de variable aleatoria: X discreta:
∑ g (x). f (x)
)] = µ [g ( X ) = E g ( X X continua:
∫
)] = µ [g ( X ) = E g ( X
∞
−∞
( x ).dx g ( x ). f
Varianza:
Sea X una variable aleatoria con distribución de probabilidad f , la varianza (x ) y media µ de X es para: X discreta: 2
2 ( X − µ ) σ = E
=
)2 . f (x ) ∑ (x − µ x
X continua:
[
2
]= ∫
2 ( X − µ ) σ = E
∞
−∞
(x − µ )2 . f (x ).dx
La raíz cuadrada positiva de la varianza, es la desviación estándar σ de X . Fórmula alternativa de cálculo: 2 2 σ (X 2 ) − µ = E
También se pueden generalizar las fórmulas anteriores para g ( X ) función de variable aleatoria, reemplazándola por la variable.
U.T.N. F.R.M.
- 10 -
Probabilidad y Estadística
Resumen Prob. y Estadística
Juan Pablo Martí
Propiedades de la media y la varianza:
1. E (c ) = c c = ctte 2. E (a. X ) = a.E ( X ) a = ctte 3. E ) ± h( X )] = E )] ± E )] [g ( X [g ( X [h( X 2 1. σ (c ) = 0 c = ctte 2 2 2. σ (a. X ) = a 2 .σ ( X ) a = ctte 2 2 2 3. σ ) ± h( X )] = σ )] + σ )] [g ( X [g ( X [h( X
Teorema de Chebyshev:
La probabilidad de que cualquier variable aleatoria X tome un valor dentro de k desviaciones 2 estándar de la media es al menos 1 − 1 k , es decir:
) ≥1− .σ .σ − k < X < µ + k P(µ
1 2
k
UNIDAD 5: Distribuciones de probabilidad discreta Distribución binomial:
Un experimento consiste en pruebas repetidas, cada una con dos posibles resultados que se pueden etiquetar como éxito o fracaso. El proceso de Bernoulli:
Se habla de un proceso de Bernoulli cuando: 1. El experimento consiste en n pruebas que se repiten. 2. Cada prueba tiene dos resultados posibles: éxito o fracaso. 3. La probabilidad de un éxito ( p ) permanece constante en cada prueba. 4. Las pruebas que se repiten son independientes. El número X de éxitos en n experimentos de Bernoulli se denomina variable aleatoria binomial. La distribución de probabilidad de ésta variable aleatoria discreta se llama distribución binomial, y sus valores se denotarán como b( x; n, p ) , pues dependen del número de pruebas y de la probabilidad de éxito en cada prueba dada. Un experimento de Bernoulli puede tener como resultado un éxito con probabilidad p y un fracaso con probabilidad q = 1 − p . Entonces la distribución de probabilidad de la variable aleatoria binomial X (el número de éxitos en n pruebas independientes) es: n x n− x b( x; n, p ) = . p .q x = 0,1,2, , n x L
La media y la varianza de la distribución binomial b( x; n, p ) son: µ = n. p
U.T.N. F.R.M.
2 y σ = n. p.q
- 11 -
Probabilidad y Estadística
Resumen Prob. y Estadística
Juan Pablo Martí
Distribución hipergeométrica:
En el caso de la distribución binomial, se requiere independencia entre las pruebas. Como resultado, si se aplica la binomial a tomar muestras de un lote de artículos, el muestreo se debe efectuar con reemplazo de cada artículo después de que se observe. Por otro lado, la distribución hipergeométrica no requiere independencia y se basa en el muestreo que se realiza sin reemplazo. Experimento hipergeométrico:
1. Se selecciona sin reemplazo una muestra aleatoria de tamaño n de N artículos. 2. k de los N artículos se pueden clasificar como éxitos y N se clasifican como − k fracasos. El número X de éxitos de un experimento hipergeométrico se denomina variable aleatoria hipergeométrica. La distribución de probabilidad de ésta variable aleatoria discreta se llama distribución hipergeométrica, y sus valores se denotarán como h( x; N , n, k ) , pues dependen del número de éxitos ( k ) en el conjunto N del que seleccionamos n artículos. La distribución de probabilidad de la variable aleatoria hipergeométrica X (el número de éxitos de una muestra aleatoria de tamaño n que se selecciona de N artículos de los que k se denominan éxito y N fracaso) es: − k − k k N . x n x − , n, k ) = x = 0,1,2, h( x; N N n
,n
L
, n, k La media y la varianza de la distribución hipergeométrica h( x; N ) son: −n n.k N k k 2 µ y σ = = ⋅n⋅ 1 − N N N −1 N Si n << N , podemos tomar la distribución de artículos de manera binomial, reemplazando en su media p =
k N
Distribución geométrica:
Si pruebas independientes repetidas pueden tener como resultado un éxito con probabilidad p y un fracaso con probabilidad q = 1 − p , entonces la distribución de probabilidad de la variable aleatoria X (el número de la prueba en el que ocurre el primer éxito) es: g ( x; p ) = p.q x −1
x = 1,2,3,...
La media y la varianza de una variable aleatoria que sigue la distribución geométrica son: µ =
U.T.N. F.R.M.
1 p
2 y σ =
- 12 -
1− p p
2
Probabilidad y Estadística
Resumen Prob. y Estadística
Juan Pablo Martí
Distribución de Poisson y proceso de Poisson:
Los experimentos que dan valores numéricos de una variable aleatoria X , que es el número de resultados que ocurren durante un intervalo dado o en una región específica, se llaman experimentos de Poisson. Un experimento de Poisson se deriva del proceso de Poisson y posee las siguientes propiedades: 1. El número de resultados que ocurren en un intervalo o región específica es independiente del número que ocurre en cualquier otro intervalo o región del espacio disjunto. Esto quiere decir que el proceso de Poisson no tiene memoria. 2. La probabilidad de que ocurra un solo resultado durante un intervalo muy corto o en una región pequeña es proporcional a la longitud del intervalo o al tamaño de la región y no depende del número de resultados que ocurren fuera de éste intervalo o región. 3. La probabilidad de que ocurra más de un resultado en tal intervalo corto o que caiga en tal región pequeña es insignificante. El número X de resultados que ocurren durante un experimento de Poisson se llama variable aleatoria de Poisson y su distribución de probabilidad se llama distribución de Poisson. El número medio de resultados se calcula como µ .t donde t es el tiempo o región de interés. = λ La distribución de probabilidad de la variable aleatoria de Poisson, que representa el número de resultados que ocurren en un intervalo dado o región específica que se denota con t es:
)= .t p( x; λ
e
.t − λ
)x .(λ .t x = 0,1,2,.... x!
2 La media y la varianza de la distribución de Poisson p(x; λ .t ) tienen el valor µ .t = σ = λ
Distribución de Poisson como forma limitante de la Binomial:
Sea X una variable aleatoria binomial con distribución de probabilidad b(x; n, p ) . Cuando n → ∞ , p → 0 y µ = np permanece constante, entonces: b( x; n, p ) → p( x; µ )
UNIDAD 6. Algunas distribuciones continuas de probabilidad Distribución uniforme continua:
La función densidad de la variable aleatoria uniforme continua X en el intervalo [A; B] es:
1 A≤ x≤ B ( x; A, B ) = B − A f 0 en cualquier otro caso La media y la varianza de la distribución uniforme son: µ =
A+ B
2
(B − A)2 y σ = 12 2
Distribución normal: 2 La función densidad de la variable aleatoria normal X , con media µ y varianza σ , es:
U.T.N. F.R.M.
- 13 -
Probabilidad y Estadística
Resumen Prob. y Estadística
Juan Pablo Martí
1
)= n( x; µ , σ para
2
−
2
e
1 x − µ 2 σ
2.π .σ
−∞ < x < ∞
Una vez que se especifican µ y σ , la curva normal queda determinada por completo. Propiedades de la curva normal:
1. La moda ocurre en el punto máximo de la curva, o sea en x = µ 2. La curva es simétrica alrededor del eje vertical x = µ 3. La curva tiene sus puntos de inflexión en x = µ , es cóncava hacia abajo dentro del ± σ intervalo, y cóncava hacia arriba fuera de él. 4. Cuando x → ∞ , la curva tiende a cero de manera asintótica 5. El área total bajo la curva es igual a 1 Distribución normal estándar:
Como sería muy difícil calcular, e incluso tabular todos los valores de la función respecto de cada valor de los parámetros, existe una transformación de la variable que la estandariza para poder calcular los valores de la probabilidad con una sola tabla. Dicha transformación es la siguiente: z=
x − µ
σ
´
, σ n( x; µ ) = n( z;0,1) Los valores de la distribución para la variable z están tabulados y son fáciles de encontrar. Aproximación normal a la binomial: 2 Si X es una variable aleatoria binomial con media µ = n. p y varianza σ = n. p.q , entonces la forma limitante de la distribución de:
= Z
− n. p X
n. p.q
conforme n → ∞ , es la distribución normal estándar n( z;0,1) . Se puede aproximar siempre que p no sea cercana a 0 o a 1. Para realizar ésta aproximación, debemos tener en cuenta que el valor de X a usar, va a ser 0,5 unidades más grande o más chico que el valor discreto que estamos buscando, dependiendo de si es el primer valor o el último del intervalo. Ésta aproximación será buena siempre que se cumpla alguna de éstas condiciones: que n sea muy grande que n sea pequeño o grande, pero que p sea razonablemente cercana a ½ que np y nq sean mayores o iguales a 5 Distribución exponencial:
La variable aleatoria continua X tiene una distribución exponencial, con parámetro β , si su función densidad está dada por:
U.T.N. F.R.M.
- 14 -
Probabilidad y Estadística
Resumen Prob. y Estadística
Juan Pablo Martí
x 1 − β e x>0 f (x ) = β 0 x≤0
donde β >0 La media y la varianza de la distribución exponencial son: 2 2 µ = β = β y σ Relación con el proceso de Poisson:
La distribución de Poisson se utiliza para calcular cantidades de eventos en un intervalo de tiempo, espacio, etc. La distribución exponencial se utiliza para calcular tiempos, espacios, etc. de esos intervalos. Ambas se relacionan en base a sus parámetros, donde: λ =
1 β
Distribución logarítmica normal:
La variable aleatoria continua X tiene una distribución logarítmica normal si la variable 2 aleatoria Y . La función = ln ( X ) tiene una distribución normal con media µ y varianza σ densidad de X resulta que es: [ln ( x )− µ ]2 − 2 1 e (2.σ ) x≥0 (x ) = 2.π f .σ .x 0 x<0 La media y la varianza de la distribución logarítmica normal son: 2 µ +σ
(x ) = e E
2
+σ .(eσ − 1 y Var (x ) = e 2.µ
2
2
UNIDAD 7: Funciones de variables aleatorias. Combinaciones lineales de variables aleatorias. Propiedades Reproductivas: Distribución normal:
Si X 1 , X 2 ,..., X n son variables aleatorias independientes que tienen distribuciones normales 2
2
2
con medias µ respectivamente, entonces la variable 1 , µ 2 ,..., µ 1 , σ 2 ,..., σ n y varianzas σ n aleatoria Y = a1 . X 1 + a 2 . X 2 +
L
+ a n . X n
tiene una distribución normal con media µ 1 + a 2 .µ 2 + Y = a1 .µ
L
+ a n .µ n
y varianza U.T.N. F.R.M.
- 15 -
Probabilidad y Estadística
Resumen Prob. y Estadística
2
σ Y
= a1
2
Juan Pablo Martí
2 2 2 .σ 1 + a 2 .σ 2 +
L
+ an
2
2 .σ n
Distribución ji cuadrada:
Si X 1 , X 2 ,..., X n son variables aleatorias mutuamente independientes que tienen, respectivamente, distribuciones ji cuadrada con v1 , v 2 ,..., v n grados de libertad, entonces la variable aleatoria = X Y 1 + X 2 +
tiene una distribución ji cuadrada con v = v1 + v 2
+
L
L
+ X n + vn
grados de libertad.
Distribuciones normales idénticas estandarizadas:
Si X 1 , X 2 ,..., X n son variables aleatorias independientes que tienen distribuciones normales 2 idénticas con media µ y varianza σ , entonces la variable aleatoria 2
X i − µ = ∑ Y i =1 σ n
tiene una distribución ji cuadrada con v = n grados de libertad.
UNIDAD 8: Distribuciones fundamentales de muestreo y descripción de datos. Muestreo aleatorio:
Para eliminar cualquier tipo de sesgo, se realizan muestreos aleatorios. Cualquier función de las variables aleatorias que forman una muestra aleatoria se llama estadística. Distribuciones muestrales:
Como una estadística es una variable aleatoria que depende sólo de la muestra observada, debe tener una distribución de probabilidad. La distribución de probabilidad de una estadística se llama distribución muestral. La distribución muestral de una estadística depende del tamaño de la población, del tamaño de las muestras y del método de elección de las muestras. Distribuciones muestrales de medias:
Consideraremos la distribución de las medias muestrales X , en muestras de tamaño n , de una 2 población normal con media µ y varianza σ . La media y varianza de ésta distribución muestral de medias serán: 2
µ = µ = y σ x X
U.T.N. F.R.M.
- 16 -
2 σ
n
Probabilidad y Estadística
Resumen Prob. y Estadística
Juan Pablo Martí
Si la población no es normal, pero la muestra es grande ( n ≥ 30 ), la distribución de X será aún aproximadamente normal. Teorema del límite central:
Si X es la media de una muestra aleatoria de tamaño n tomada de una población con 2 media µ y varianza finita σ , entonces la forma límite de la distribución de = Z
X − µ
σ n
conforme n → ∞ , es la distribución normal estándar n(z;0,1) . La aproximación normal para X por lo general será buena si v sin importar la forma de la población. Si n < 30 , la aproximación es buena sólo si la población no es muy diferente de una distribución normal. Si se sabe que la población es normal, la distribución de X seguirá una distribución normal exacta, no importa que tan pequeño sea el tamaño de la muestra.
Distribución muestral de la diferencia entre dos promedios:
Si se extraen al azar muestras independientes de tamaño n1 y n2 de dos poblaciones, 2
2
discretas o continuas, con medias µ 1 y µ 2 , y varianzas σ 1 y σ 2 , respectivamente, entonces la distribución muestral de las diferencias de las medias, X 1 − X 2 está distribuida aproximadamente de forma normal con media y varianza dadas por: 2
2
µ = µ 1 − X 2 = 1 − µ 2 y σ X X 1 − X 2
2
σ σ 1 2 +
n1
n2
De aquí Z =
( X 1 − X 2 ) − (µ 1 − µ 2) 2
σ 1 n1
2
+ σ 2 n2
es aproximadamente una variable normal estándar. Las consideraciones respecto del tamaño de las muestras y la exactitud de la aproximación son similares a la distribución de medias. Distribución muestral de la varianza:
Si S 2 es la varianza de una muestra aleatoria de tamaño n que se toma de una población 2 normal que tiene varianza σ , entonces la estadística 2
χ =
U.T.N. F.R.M.
(n − 1).S 2 2
σ
n
=
∑1 i=
- 17 -
(X − X )2 i
2 σ
Probabilidad y Estadística
Resumen Prob. y Estadística
Juan Pablo Martí
tiene una distribución ji cuadrada con v = n − 1 grados de libertad. Distribución t de Student:
En muchos escenarios experimentales, el conocimiento de σ ciertamente no es más razonable que el conocimiento de la media de la población µ . Una estadística natural a considerar para tratar con las inferencias sobre µ es T =
− µ X
S
n
Para tamaños de muestra menores que 30, es útil trabajar con ésta distribución exacta de T , ya que para n ≥ 30 , dicha distribución no difiere mucho de la normal estándar.
UNIDAD 9: Problemas de estimación de una y dos muestras. Inferencia estadística.
La inferencia estadística se puede dividir en dos áreas principales: estimación y prueba de hipótesis. Métodos clásicos de estimación:
ˆ de una Una estimación puntual de algún parámetro θ de la población es un solo valor θ ˆ . No se espera que un estimador realice la estimación del parámetro poblacional estadística Θ sin error. Estimador insesgado:
ˆ es un estimador insesgado del parámetro θ si: Se dice que una estadística Θ
(Θˆ ) = θ µ ˆ =·E Θ
Varianza de un estimador puntual:
Si consideramos todos los posibles estimadores insesgados de algún parámetro θ , el de menor varianza se llama estimador más eficiente de θ .
~
Un ejemplo es la comparación entre la media muestral X y la mediana muestral X . Se ~ puede demostrar que X es más eficiente, y por lo tanto mejor estimador de µ , que X . Estimación por intervalo:
Es improbable que incluso el estimador insesgado más eficiente estime el parámetro poblacional con exactitud. Hay muchas situaciones en las que es preferible determinar un intervalo dentro del cual esperaríamos encontrar el valor del parámetro. Tal intervalo se llama intervalo de estimación.
ˆL < θ ˆU que se calcula a partir de la muestra seleccionada, que Existe un intervalo θ < θ se llama intervalo de confianza, para el cual:
U.T.N. F.R.M.
- 18 -
Probabilidad y Estadística
Resumen Prob. y Estadística
Juan Pablo Martí
(
)
ˆ L < θ ˆ U = 1 − α <Θ PΘ ˆU se denominan ˆL y θ donde 1 − α es el coeficiente de confianza y los extremos θ límites de confianza inferior y superior. Una sola muestra: estimación de la media. Intervalo de confianza de µ con σ conocida:
Si x es la media de una muestra aleatoria de tamaño n de una población con varianza 2 σ conocida, un intervalo de confianza del (1 − α ).100% para µ está dado por x − zα / 2.
σ
<
n
µ < x + zα / 2.
σ n
donde zα / / 2 a la derecha. 2 es el valor de z que deja un área de α Si se utiliza x como una estimación de µ , podemos tener una confianza de
(1 − α ).100% de que el error no excederá de
zα / 2.
σ n
Si se utiliza x como una estimación de µ , podemos tener (1 − α ).100% de confianza de que el error no excederá una cantidad específica e cuando el tamaño de la muestra es: 2
z 2 .σ n = α / e
Intervalo de confianza de µ con σ desconocida:
Si x y s son la media y la desviación estándar de una muestra aleatoria de tamaño n 2 de una población normal con varianza σ , desconocida, un intervalo de confianza del (1 − α ).100% para µ es x − t / 2. α
s n
<
µ < x + t / 2. α
s n
donde t con v = n − 1 grados de libertad, que deja un área de α / 2 / 2 es el valor de t α a la derecha. Error estándar de una estimación puntual.
El error estándar de un estimador es su desviación estándar.
U.T.N. F.R.M.
- 19 -
Probabilidad y Estadística
Resumen Prob. y Estadística
Juan Pablo Martí
Dos muestras: estimación de la diferencia entre dos medias. 2
2
1 − µ 2 con σ 1 y σ 2 conocidas: Intervalo de confianza para µ
Si x1 y x2 son las medias de muestras aleatorias independientes de tamaño n1 y n2 de 2
2
poblaciones con varianzas conocidas σ 1 y σ 2 , respectivamente, un intervalo de confianza del (1 − α ).100% para µ 1 − µ 2 está dado por 2
( x1 − x 2 ) − zα / 2 .
2
σ σ 1 2 +
n1
2
<
n2
µ 1 − µ 2 < ( x1
− x 2 ) + z α / 2.
2
σ σ 1 2 +
n1
n2
donde zα / / 2 a la derecha. 2 es el valor de z que deja un área de α Si el intervalo contiene el valor 0, significa que los parámetros comparados no difieren significativamente. 2 2 1 − µ 2 con σ = σ pero desconocidas: Intervalo de confianza para µ 1 2
Si x1 y x2 son las medias de muestras aleatorias independientes de tamaño n1 y n2 , respectivamente, de poblaciones aproximadamente normales con varianzas iguales pero desconocidas, un intervalo de confianza del (1 − α ).100% para µ 1 − µ 2 está dado por
(x1 − x 2 ) − t α / 2 .s p .
1 n1
+
1 n2
<
µ 1 − µ 2 < ( x1
− x 2 ) + t α / 2 .s p .
1 n1
+
1 n2
donde s p es la estimación de unión de la desviación estándar poblacional, dada por:
(n1 − 1).s1 2 + (n2 − 1).s 2 2 sp = n1 + n2 − 2 y donde t con v = n1 + n2 − 2 grados de libertad, que deja un área α / 2 es el valor de t de α / 2 a la derecha. Si el intervalo contiene el valor 0, significa que los parámetros comparados no difieren significativamente. 2 2 1 − µ 2 con σ ≠ σ y desconocidas: Intervalo de confianza para µ 1 2 2
2
Si x1 y s1 , x 2 y s 2 , son las medias y varianzas de muestras pequeñas independientes de tamaño n1 y n2 , respectivamente, de distribuciones aproximadamente normales con varianzas desconocidas y diferentes, un intervalo de confianza aproximado del (1 − α ).100% para µ 1 − µ 2 es
U.T.N. F.R.M.
- 20 -
Probabilidad y Estadística
Resumen Prob. y Estadística
( x1 − x 2 ) − t α / 2.
s1
2
+
n1
s2
Juan Pablo Martí
2
<
n2
µ 1 − µ 2 < ( x1
− x 2 ) + t α / 2.
s1
2
n1
+
s2
2
n2
donde t con α / 2 es el valor de t 2 s1 n 1
v=
+
2 s2
2
n2
(s 2 n )2 (s 2 n )2 1 1 + 2 2 (n1 − 1) (n2 − 1) grados de libertad, que deja un área de α / 2 a la derecha. Si el intervalo contiene el valor 0, significa que los parámetros comparados no difieren significativamente. Una sola muestra: estimación de una proporción:
Un estimador puntual de la proporción p en un experimento binomial está dado por la estadística Pˆ = X / n , donde X representa el número de éxitos en n pruebas. Estimaremos a p a través de pˆ . Para n suficientemente grande, Pˆ está distribuida de forma aproximadamente normal con media y varianza 2
µ = p y σ pˆ Pˆ
=
pq n
Si pˆ es la proporción de éxitos en una muestra aleatoria de tamaño n , y qˆ = 1 − pˆ , un intervalo de confianza aproximado del (1 − α ).100% para el parámetro binomial p está dado por pˆ − zα / 2.
pˆ .qˆ n
ˆ + zα / 2 . < p< p
pˆ .qˆ n
donde zα / / 2 a la derecha. 2 es el valor de z que deja un área de α Cuando n es pequeña y la proporción desconocida p se considera cercana a 0 o a 1, el procedimiento anterior no es confiable. Para estar seguro, se debe requerir que n. pˆ o n.qˆ sea mayor o igual que 5. Si se utiliza pˆ como una estimación de p , podemos tener (1 − α ).100% de confianza de que el error no excederá una cantidad específica e cuando el tamaño de la muestra es aproximadamente: n=
U.T.N. F.R.M.
z
2
. pˆ .qˆ
/ 2 α
e
2
- 21 -
Probabilidad y Estadística
Resumen Prob. y Estadística
Juan Pablo Martí
Si se utiliza pˆ como una estimación de p , podemos tener una confianza de al menos (1 − α ).100% de que el error no excederá una cantidad específica e cuando el tamaño de la muestra es: n=
z
2
/ 2 α
4.e 2
Dos muestras: estimación de la diferencia entre dos proporciones:
Deseamos estimar la diferencia entre dos parámetros binomiales p1 y p2 . Un estimador puntual de la diferencia entre las dos proporciones, p1 − p 2 está dado por la estadística Pˆ1 − Pˆ2 , que está distribuida de forma aproximadamente normal con media y varianza
µ Pˆ − Pˆ 1
2
= p1 − p 2
2 y σ Pˆ1 − Pˆ2
=
p1 .q1 n1
+
p 2 .q 2 n2
Si pˆ 1 y pˆ 2 son las proporciones de éxitos en muestras aleatorias de tamaño n1 y n2 , respectivamente, qˆ1 = 1 − pˆ 1 y qˆ 2 = 1 − pˆ 2 , un intervalo de confianza aproximado del (1 − α ).100% para la diferencia de dos parámetros binomiales p1 − p2 está dado por
( pˆ 1 − pˆ 2 ) − zα / 2 .
pˆ 1 .qˆ1 n1
+
pˆ 2 .qˆ 2 n2
ˆ 1 − pˆ 2 ) + zα / 2 . < p1 − p 2 < ( p
pˆ 1 .qˆ1 n1
+
pˆ 2 .qˆ 2 n2
donde zα / / 2 a la derecha. 2 es el valor de z que deja un área de α Si el intervalo contiene el valor 0, significa que los parámetros comparados no difieren significativamente. Una sola muestra: estimación de la varianza:
Si s 2 es la varianza de una muestra aleatoria de tamaño n de una población normal, un 2 intervalo de confianza del (1 − α es ).100% para σ
(n − 1).s 2 2 χ α / 2
2
< σ <
(n − 1).s 2 2 χ 1−α / 2
2 2 2 donde χ / 2 y χ 1−α / 2 son valores de χ con v = n − 1 grados de libertad, que dejan áreas de α / 2 y 1 − α / 2 , respectivamente, a la derecha. α
Dos muestras: estimación de la razón de dos varianzas: 2
2
Si s1 y s2 son varianzas de muestras independientes de tamaño n1 y n2 , respectivamente, de 2
2
poblaciones normales, entonces un intervalo de confianza del (1 − α ).100% para σ 1 σ 2 es s1 s2 U.T.N. F.R.M.
2 2
.
1
f / 2 (v1 , v 2 ) α
2
<
σ 1 2
<
σ 2 - 22 -
s1 s2
2 2
. f / 2 (v 2 , v1 ) α
Probabilidad y Estadística
Resumen Prob. y Estadística
Juan Pablo Martí
donde f / 2 (v1 , v2 ) es un valor de f con v1 = n1 − 1 y v2 = n2 − 1 grados de libertad que deja α / 2 a la derecha y f un área de α / 2 (v 2 , v1 ) es un valor similar con v2 = n2 − 1 y v1 = n1 − 1 α grados de libertad.
UNIDAD 10: Pruebas de hipótesis de una y dos muestras Hipótesis estadísticas: conceptos generales:
Una hipótesis estadística es una afirmación o conjetura con respecto a una o más poblaciones. >> La aceptación de una hipótesis simplemente implica que los datos no dan suficiente evidencia para rechazarla. >> El rechazo implica que la evidencia muestral la refuta. El rechazo significa que hay una pequeña probabilidad de obtener la información muestral observada cuando, de hecho, la hipótesis es verdadera. Hipótesis nula y alternativa:
La Hipótesis nula es la que deseamos probar. Se denota con H 0 y siempre se establece con una igualdad con el parámetro poblacional. El rechazo de la hipótesis nula conduce a la aceptación de una Hipótesis Alternativa, que se denota con H 1 y se establece con una desigualdad (<, > o simplemente ≠ ) respecto del parámetro poblacional. Prueba de una hipótesis estadística: Estadística de prueba: La estadística de prueba es la variable que utilizaremos para tomar la decisión. Ésta dependerá
mucho de los datos, ya que si queremos calcular la media poblacional y tenemos el valor de la varianza poblacional, utilizaremos Z , en cambio si no poseemos este último valor, utilizaremos . T Regiones:
El proceso de inferencia en una prueba de hipótesis no difiere mucho del concepto de intervalos de confianza. Nuestra región crítica será la que esté fuera de nuestro intervalo, que ahora se llamará región de aceptación, y el parámetro α , parte del nivel de confianza, será ahora el nivel de significancia, también llamado tamaño de la región crítica. El último valor que observamos al pasar de la región de aceptación a la crítica se llama valor crítico. Errores:
Existen dos tipos de errores que podemos cometer al aceptar o rechazar la hipótesis nula. Éstos son: Error tipo I:
Es rechazar la hipótesis nula cuando es verdadera. La probabilidad de que ocurra un error tipo I es α . Error tipo II:
Es aceptar la hipótesis nula cuando es falsa.
U.T.N. F.R.M.
- 23 -
Probabilidad y Estadística
Resumen Prob. y Estadística
Juan Pablo Martí
La probabilidad de que ocurra un error tipo II es β . Los parámetros α y β se relacionan inversamente, es decir, cuando uno aumenta, el otro disminuye. También ambos tienen relación con el tamaño de la muestra, ya que si lo aumentamos, los valores de α y β disminuirán. Propiedades de los errores:
1. Los errores tipo I y tipo II están relacionados. Una disminución en la probabilidad de uno por lo general tiene como resultado un aumento en la probabilidad del otro. 2. El tamaño de la región crítica, y por lo tanto la probabilidad de cometer un error tipo I, siempre se puede reducir al ajustar el o los valores críticos. 3. Un aumento en el tamaño muestral n reducirá α y β de forma simultánea. 4. Si la hipótesis nula es falsa, β es un máximo cuando el valor real de un parámetro se aproxima al valor hipotético. Entre más grande sea la distancia entre el valor real y el valor hipotético, será menor β . Potencia de una prueba:
La potencia de una prueba es la probabilidad de rechazar H 0 dado que una alternativa específica es verdadera. Ésta potencia se calcula como 1 − β . Para producir una potencia deseable, se debe aumentar α o n . Pruebas de una y dos colas:
Una prueba de cualquier hipótesis estadística, donde la alternativa es unilateral, como H = θ 0 : θ 0
H = θ 0 : θ 0
o quizá H > θ 1 : θ 0
H < θ 1 : θ 0
se denomina prueba de una sola cola. Una prueba de cualquier hipótesis alternativa donde la alternativa es bilateral, como = θ H 0 : θ 0 ≠ θ H 1 : θ 0
se llama prueba de dos colas. Uso de valores P para la toma de decisiones:
El valor P es la probabilidad de que el valor del estadístico de prueba calculado con los datos del problema se encuentre en la región crítica. Esto se usa para darle menor nivel de significancia a la decisión tomada, que uno que pudiera haberse preestablecido (generalmente α = 0,05 o α = 0,01 ). El valor P es el nivel (de significancia) más bajo en el que el valor observado de la estadística de prueba es significativo. Pasos principales de una prueba de hipótesis:
1. Establecer la hipótesis nula H = θ 0 : θ 0
U.T.N. F.R.M.
- 24 -
Probabilidad y Estadística
Resumen Prob. y Estadística
Juan Pablo Martí
2. Elegir una hipótesis alternativa apropiada H 1 a partir de una de las alternativas: θ < θ > θ ≠ θ 0 , θ 0 o θ 0. 3. Elegir un nivel de significancia de tamaño α . 4. Seleccionar la estadística de prueba apropiada y establecer la región crítica (Si la decisión se basa en un valor P , no es necesario establecer la región crítica). 5. Calcular el valor de la estadística de prueba a partir de los datos de la muestra. 6. Decisión: Rechazar H 0 si la estadística de prueba tiene un valor en la región crítica (o si el valor P calculado es menor o igual que el nivel de significancia α que se desea); en cualquier otro caso, no rechazar H 0. Elección del tamaño de la muestra para probar medias:
Cuando conocemos el valor en el que se desvía la media verdadera de la población respecto de la media hipotética (valor δ ), podemos estimar el tamaño de la muestra necesario para no rechazar la hipótesis nula: 2 (zα + z β )2 .σ
n=
donde zα =
a − µ 0
σ n
y z β =
δ σ n
2 δ
− z α .
En el caso de una prueba de dos colas: n≅
2 (zα / 2 + z β )2 .σ 2 δ
Cuando tenemos la diferencia entre dos medias, el tamaño de las muestras n = n1 n=
U.T.N. F.R.M.
= n2
será:
2 2 (zα + z β )2 . σ 1 + σ 2 ) 2 δ
- 25 -
Probabilidad y Estadística