Apuntes del curso de Procesos Estocásticos Curso dictado en la UNEFA- Núcleo San Tome Departamento de Ingeniería de Sistemas Revisión: 25/enero/2008
Autor: Prof. José Loreto Romero Palma
Prefacio El presente material surgió originalmente para ser utilizado como texto principal de consulta para el curso de Procesos Estocásticos de la carrera de Ingeniería de Sistemas que dicto en la UNEFA. Aún cuando existe abundante bibliografía y material disponible en Internet sobre este tema, considero que existen sobradas razones para justificar la elaboración de estos apuntes. En primer lugar, los libros que versan sobre el tema están pensados para un público matemáticamente más maduro, generalmente para estudiantes a nivel de postgrado.
Sin mencionar que, por ser estos libros muy
especializados, son demasiado escasos en las librerías venezolanas. Por otro lado, navegar a través del Internet en búsqueda de bibliografía en línea puede resultar una tarea hercúlea para el estudiante de pregrado cuya primera exposición al tema es ésta. En fin, la bibliografía existente es muy dispersa, escasa y no adecuada a las necesidades del estudiante de ingeniería de sistemas, por lo cual considero que este texto viene a llenar un vacío. El aporte original en el presente tratamiento del tema es el énfasis en la simulación estocástica. Incorporar el aspecto de la verificación empírica del método científico en la exposición de un tema de la matemática, que es una ciencia netamente teórica, puede parecer un disparate. No obstante, se piensa que este enfoque puede rendir muchos dividendos, sobre todo instruccionales. Con los abundantes ejemplos de simulación en código R se pretende familiarizar al estudiante con un lenguaje de programación de libre distribución que está adquiriendo cada vez más relevancia en el mundo de la investigación estocástica. Por otro lado, con la exposición del alumnado a herramientas de software libre se pretende hacer un modesto aporte hacía el logro de la soberanía tecnológica nacional. El texto esta organizado en seis capítulos. En el primer capítulo se da un repaso de la teoría de las probabilidades y se pretende explicar de una vez qué son las simulaciones estocásticas y para qué sirven. El segundo capitulo es quizás el más abstracto de todo el texto. Comienza con la definición de lo que es un proceso estocástico y prepara todo el andamiaje conceptual para caracterizar sus tipos y propiedades. En el tercer capitulo se aborda el estudio de las caminatas aleatorias y el problema de la ruina del jugador. En el cuarto y quinto capitulo se tratan los procesos de Poisson, tanto el homogéneo como otras variantes que se obtienen a partir de éste modificando un poco los axiomas i
que lo definen. Por último, en el sexto capítulo, se tratan las cadenas de Markov de parámetro discreto. El nivel de conocimientos previo requerido por parte del alumno equivale al de un estudiante que haya cursado alguna asignatura de probabilidad elemental y los respectivos cursos de matemáticas del ciclo básico de ingeniería, que abarcan temas de cálculo diferencial, integral, series y ecuaciones diferenciales. Compensar las fallas en el proceso de aprendizaje de la teoría de las probabilidades e introducir una mayor rigurosidad de estos temas a fin de preparar al alumno para el resto del contenido es justamente el objetivo del primer capítulo.
Este primer capítulo esta intencionalmente
redactado en un lenguaje más formal – es una suerte de “bautismo por fuego” para templar a mis alumnos en su proceso de formación como futuros profesionales. En compensación incluyo como apéndice una sección con tips sobre demostraciones matemáticas (las cuales surgen en buena parte de los problemas propuestos) y sobre una miscelánea de otros temas matemáticos tales como las antes mencionadas series. Dicha sección esta libremente inspirada en la obra de Polya titulada “Como Resolverlo” y con ella se pretende motivar al alumno para dejar de ser un mero calculista que solo sabe aplicar las fórmulas que le son dadas y convertirse en un analista de sistemas que entiende cabalmente los conceptos matemáticos y que sabe cuando y cuales herramientas aplicar para resolver problemas de la vida real. Mi recomendación general al estudiante es estudiar detenidamente los problemas resueltos y la implementación de las simulaciones en el texto para posteriormente realizar los problemas propuestos. Desde una perspectiva más amplia, el contenido de este texto esta enmarcado dentro de un componente importante en el pensum de la ingeniería de sistemas y de las ciencias de la computación.
Me refiero al conglomerado de materias tales como
investigación de operaciones, matemáticas discretas, probabilidades y estadística, métodos numéricos y simulación y modelos matemáticos.
A mi juicio, dicho
componente es medular para la formación integral de un analista de sistemas, quién debe apuntar más allá de ser un simple tecnócrata operario de TICs (Tecnologías de Información y Comunicación). Más bien – y esto es algo que le cuesta trabajo entender a las personas no iniciadas en el tema – el analista de sistemas debe estar en capacidad de analizar cualquier sistema, sea éste una empresa, una red de tráfico vehicular, la economía nacional o la sociedad. Con las materias de este componente se pretende dotar al estudiante de herramientas para el análisis matemático de los sistemas, cuyo fin ii
ulterior es el de apoyar la toma racional de decisiones y permitir medir el desempeño del decisor en aras de lograr progresivamente un mayor bienestar colectivo. En un país como Venezuela, es verdaderamente acuciante capacitar profesionales con estas destrezas; nuestro desarrollo como nación depende de ello. Quiero en estas líneas agradecer a los profesores y autores que de manera directa o indirecta contribuyeron en mi propia formación.
En particular, extiendo mis
agradecimientos a Luis A. Azocar Bates, quien fue mi profesor en la Universidad Nacional Abierta, así como también a mis colegas y compañeros docentes, Elaine J. Pérez Bracho, José T. Gomez Barreto y Rafael A. Rofriguez Toledo, quienes además han contribuido con importantes sugerencias en la redacción de este material. Debo incluir palabras de reconocimiento y de agradecimiento a mis alumnos de la UNEFA, quienes han contribuido también con sugerencias y a quienes este libro está dedicado. Aspiro inculcar en ellos una pasión por los temas de la investigación de operaciones y el modelamiento matemático para que sean ellos mismos los que sigan investigando, formándose y siempre estando a la vanguardia en esta Era de la Información. Que su nivel de conocimientos rebase muchas veces el mío propio, que éstos sirvan al bienestar de nuestra nación y que ésta reconozca la importancia del saber que ellos portan son mis deseos.
iii
Tabla de contenido Prefacio .............................................................................................................................. i Capitulo 1- Preeliminares sobre teoría de probabilidades y simulaciones ........................ 1 1.1
Experimento aleatorio. Espacio muestral. Eventos elementales. Probabilidad ............................................... 1
1.2
Variable aleatoria. Distribución de probabilidad. Tipos de variables aleatorias. Densidad de probabilidad. ... 3
1.3.
Valores esperados: esperanza y varianza. ...................................................................................................... 6
1.4.
Función característica y función generatriz. Propiedades y tablas. ................................................................ 7
Tabla 1.1. Leyes de probabilidad discretas más frecuentes y sus características..................................................... 10 Tabla 1.2. Leyes de probabilidad continuas más frecuentes y sus características.................................................... 12 1.5.
Variables aleatorias bidimensionales y n-dimensionales.
Función de distribución conjunta. Función de
densidad conjunta...................................................................................................................................................... 14 1.6.
Variables aleatorias independientes y su caracterización. Covarianza. Distribución de la suma de dos o
más variables aleatorias independientes. Convolución. ............................................................................................ 17 Ejemplo para las secciones 1.5 y 1.6......................................................................................................................... 21 1.7.
Introducción a la simulación estocástica mediante el lenguaje R. ................................................................. 25
Problemas Propuestos ................................................................................................ 32 Capitulo 2- Introducción a los procesos estocásticos.
Terminología y nociones
preeliminares .................................................................................................................. 35 2.1.
Definición y ejemplos de procesos estocásticos. ........................................................................................... 35
2.2.
Probabilidad y esperanza condicional. Definiciones y propiedades. ............................................................ 38
2.3.
Caracterización de los procesos aleatorios: valor medio y núcleo de covarianza. ........................................ 43
2.4.
Incrementos independientes y estacionarios. Procesos estacionarios ......................................................... 45
2.5.
Algunos tipos de procesos aleatorios: caminata aleatoria, martingalas, procesos de Markov, procesos de
Poisson, procesos de Wiener .................................................................................................................................... 48
Problemas Resueltos .................................................................................................. 51 Problemas Propuestos ................................................................................................ 53 Capitulo 3- Procesos estocásticos basados en el proceso de Bernoulli y caminatas aleatorias ........................................................................................................................ 57 3.1
El proceso de Bernoulli .................................................................................................................................. 57
3.2
La cantidad de éxitos. Caminatas aleatorias basadas en procesos de Bernoulli. ........................................ 58
3.3.
La cantidad de ensayos hasta r éxitos: más sobre las caminatas aleatorias basadas en procesos de
Bernoulli. .................................................................................................................................................................... 60 3.5.
La ruina del jugador........................................................................................................................................ 63
3.6.
Duración promedio del juego y otras consideraciones sobre el problema de la ruina del jugador ................ 70
Problemas Resueltos .................................................................................................. 76 Problemas Propuestos ................................................................................................ 79 Capitulo 4- El proceso de Poisson homogéneo .............................................................. 82 4.1
El proceso de Poisson como caso límite de la caminata aleatoria binomial. ................................................. 82
Tabla 4.1. Calculo de las probabilidades de recibir k llamadas en 3 minutos mediante aproximaciones sucesivas por medio del modelo Binomial........................................................................................................................................ 83
iv
4.2.
Derivación axiomática del proceso de Poisson.............................................................................................. 87
4.3.
Procesos de Poisson espaciales.................................................................................................................... 93
4.4.
Distribución del tiempo inter-eventos. ............................................................................................................ 98
4.5.
La distribución uniforme de los tiempos de ocurrencia de sucesos en un proceso de Poisson................... 102
Problemas Resueltos ................................................................................................ 109 Problemas Propuestos .............................................................................................. 113
v
vi
Capitulo 1- Preeliminares probabilidades y simulaciones 1.1
Experimento Probabilidad
aleatorio.
Espacio
sobre
muestral.
teoría
Eventos
de
elementales.
El objetivo fundamental de la teoría de la probabilidad es la descripción matemática de experimentos aleatorios, que son procesos cuyos resultados no se pueden predecir con exactitud. Las dificultades en manejar matemáticamente algo que es por naturaleza impredecible se superan si abordamos la identificación de todos los resultados posibles que puede arrojar un experimento aleatorio. Con esto habremos definido el espacio muestral. El espacio muestral es un conjunto, en el sentido matemático de la palabra, y sus elementos constituyentes son los resultados posibles del experimento aleatorio, que también se conocen como eventos elementales.
Usualmente se denota el espacio
muestral mediante la letra griega omega mayúscula (Ω) y los eventos elementales mediante la omega minúscula con algún subíndice (ωi si Ω es un conjunto numerable) para distinguirlos entre sí. Para mantener la consistencia en la notación, se aclara que por evento elemental se entiende cada resultado posible del experimento aleatorio (los elementos constituyentes de Ω) o los subconjuntos unitarios de Ω formados por los elementos de Ω correspondientes.
Es de notar que la colección de eventos
elementales, bajo la acepción de subconjuntos unitarios, forman una partición de Ω: su unión es el conjunto Ω y son mutuamente disjuntos dos a dos. Los eventos elementales se pueden componer mediante uniones para formar eventos, que son subconjuntos del espacio muestral.
La colección de eventos del espacio
muestral es un álgebra de conjuntos, porque es cerrada bajo uniones finitas y complementos. En términos más sencillos, si A y B son dos eventos, A ∪ B y A son eventos también. A ∪ B es el evento que se verifica cuando se verifica el evento A o el evento B y A es el evento que se verifica cuando no se verifica A.
(
)
Como
A ∩ B = A ∪ B , el álgebra de eventos es cerrada bajo las intersecciones finitas también. Denotaremos por ℑ la clase de todos los eventos, o álgebra del espacio muestral.
1
Por razones que van más allá del alcance teórico de este recuento, es preciso exigir una condición adicional sobre ℑ: Si
{An } ⊂ ℑ
es una sucesión numerable de eventos,
entonces su unión infinita también es un evento – ∞
∪ An ∈ ℑ .
n =1
Un álgebra que satisface esta condición más fuerte se denomina σ-álgebra. ejemplo,
{∅, Ω}
Por
y ℘(Ω ) (se lee “partes de omega”, que es la clase de todos los
subconjuntos posibles de Ω) son σ-álgebras.
En resumen, se ha asociado a un
experimento aleatorio un conjunto de resultados posibles y una estructura matemática para definir todos los eventos posibles. A modo de ejemplo, si el experimento aleatorio consiste en escoger al azar una persona y observar su día de cumpleaños, para definir el espacio muestral debemos identificar cada día del año de una forma conveniente. Se podría asociar el 1 al primero de enero, el 2 al segundo de enero y así sucesivamente. Descartando el caso de las personas nacidas el 29 de febrero, el espacio muestral esta definido por el conjunto de números naturales del 1 al 365 y Ω = {1,2,…,365} . Podemos observar que el espacio muestral es un conjunto numerable y finito. Si estamos interesados en el evento “la persona es nacida en el mes de enero”, este evento se podría definir como E = {1,2,…,31}. Análogamente, si estamos interesados en el evento “la persona es de signo acuario en el zodiaco” (21 de enero al 19 de febrero), este se definiría por A = {21, 22,…, 50} . Las bases matemáticas de la teoría de probabilidades moderna se deben a elaboraciones sobre la teoría de la medida, que primordialmente se ocupa de cómo asignar cantidades numéricas a cada conjunto de una σ-álgebra. En nuestro caso esto es muy oportuno porque nos preocupa asociar probabilidades a eventos, y las probabilidades son valores numéricos que cuantifican el grado de certidumbre sobre la ocurrencia de algún evento en la realización de un experimento aleatorio.
En el
lenguaje de la teoría de la medida, la probabilidad es una medida, o función que le asigna a cada conjunto de una σ-álgebra un valor real positivo o nulo:
2
Definición (Axiomas de Kolmogorov): Sea (Ω,ℑ) un espacio muestral con su respectiva σ-álgebra de eventos.
Una función P: ℑ→[0,1] es una medida de probabilidad si
satisface las condiciones siguientes: a. P(Ω)=1 b. Si
{An } ⊂ ℑ
es una sucesión de conjuntos disjuntos dos a dos, entonces
⎛∞ ⎞ ∞ P ⎜ ∪ An ⎟ = ∑ P (An ) ⎝ n =1 ⎠ n =1 Esta es la propiedad de σ-aditividad. En este caso se dice que (Ω,ℑ,P) es un espacio de probabilidad.
1.2 Variable aleatoria. Distribución de probabilidad. Tipos de variables aleatorias. Densidad de probabilidad. El concepto de variable aleatoria es substancial y de mucha utilidad en el estudio matemático de los fenómenos aleatorios porque es un mecanismo para “traducir” los objetos del espacio muestral, que no necesariamente se identifican de forma numérica, a elementos de algún conjunto numérico. Esto facilita enormemente la cuantificación en el estudio de la aleatoriedad, y conlleva eventualmente a establecer características importantes que resumen numéricamente el comportamiento del fenómeno aleatorio, como la esperanza y la varianza.
Definición (Variable Aleatoria): Sea (Ω,ℑ,P) un espacio de probabilidad. La variable aleatoria X(ω) es una función X: Ω→ R que asigna a cada elemento del espacio muestral un valor real. Adicionalmente, la variable aleatoria es una función medible,
{
}
porque deber verificar que ω X (ω ) < α ∈ ℑ . Aún cuando esta característica de las variables aleatorias como funciones medibles no se menciona en los textos elementales de probabilidades con los que probablemente estudiaste esta materia, se incluye en la definición anterior porque es justamente esta
3
característica la que posibilita el cálculo de probabilidades asociadas a intervalos reales, la definición de funciones de distribución de probabilidad y consecuentemente, la función de densidad de probabilidad.
La variable aleatoria traduce eventos en el espacio muestral a intervalos o subconjuntos numéricos con la finalidad de calcular la probabilidad asociada a estos subconjuntos numéricos. Es decir, convierte la medida de probabilidad de eventos a distribuciones de probabilidad en conjuntos numéricos, definiendo así la llamada función de distribución de probabilidad:
Definición (Función de Distribución de Probabilidad): Sea (Ω,ℑ,P) un espacio de probabilidad y X(ω) una variable aleatoria definida sobre este espacio. La función de distribución F(x) de una variable aleatoria se define como sigue:
F (x ) = P {X ≤ x} = P {ω X (ω ) ≤ x}
Habiendo hecho esta definición, se esclarece el comentario anterior sobre la propiedad
{
}
de la variable aleatoria como función medible - si ω X (ω ) < α ∉ ℑ , dicho evento no tendría probabilidad asociada y por lo tanto se indefiniría la función de distribución de probabilidad, porque solo tienen probabilidad aquellos eventos definidos en ℑ. Entre algunas propiedades de la función de distribución de probabilidad, que también se denomina a veces función acumulada de probabilidad, se mencionan: i. F es una función creciente que toma valores en [0,1]. ii. F(-∞)=0 y F(∞)=1. Según la naturaleza del conjunto de valores que toma X, se tienen dos tipos de variables aleatorias.
Las variables aleatorias discretas se caracterizan por ser el
conjunto de valores de X finito o por lo menos numerable. Si el conjunto de valores de X es infinito e innumerable, X es una variable aleatoria continua. Esta distinción es muy importante porque determina la forma en que definimos las probabilidades puntuales: para una variable aleatoria discreta, P{X=x} es un valor positivo si x esta dentro del
{
rango de valores donde el evento ω X (ω ) = x
}
asume probabilidad positiva.
En
cambio, si X es una variable continua, P{X=x} es invariablemente igual a cero para 4
cualquier valor x porque si X toma valores en un conjunto infinito, ninguna probabilidad puntual puede ser distinta de cero. Cuando X es una variable aleatoria, podemos definir su función de probabilidad del modo usual:
p(x ) = P {X = x} = P {ω X (ω ) = x} La función de probabilidad de una variable discreta es mayor o igual a cero para todo x y verifica que la suma de las probabilidades puntuales a través del conjunto imagen de X es igual a uno:
∀x ∈ R p(x ) ≥ 0 y
∞
∑ p (x ) = 1
x = −∞
A veces, p(x) se denota por px, para enfatizar la naturaleza discreta de la variable aleatoria (si p tiene un subíndice, los valores posibles de X son numerables). Si X es una variable continua, no tiene sentido hablar de probabilidades puntuales porque todas son iguales a cero. Se define entonces la función de densidad de probabilidad f, que se corresponde a la derivada Radon-Nikodym de la función de distribución. Una variable aleatoria que tiene asociada una tal función de densidad se denomina absolutamente continua, y dicha función de densidad f(x) verifica lo siguiente: x
f (x ) ≥ 0 para todo x y F (x ) = ∫ f (t )dt −∞
Es de notar que en el caso continuo, f(x) no representa una probabilidad puntual, pues ya hemos establecido que las probabilidades puntuales son necesariamente iguales a cero; en cambio f(x) puede asumir valores positivos. Una vez establecidas las definiciones básicas de variable aleatoria, distribución de probabilidad, función de probabilidad y función de densidad de probabilidad, es preciso mencionar que en la teoría de la probabilidad se estudian diversas distribuciones o leyes de probabilidad que pretenden modelar una amplia gama de fenómenos aleatorios. El estudiante que haya cursado cualquier curso elemental de probabilidades conoce algunas de estas leyes de probabilidad y sus características más importantes. En las tablas 1.1 y 1.2 se describen las leyes de probabilidad más usuales.
5
1.3.
Valores esperados: esperanza y varianza.
Dos características importantes de una variable aleatoria son su tendencia central y su dispersión media con respecto a la tendencia central.
Ambas están dadas por la
esperanza y la varianza respectivamente. La esperanza matemática de una variable aleatoria, también conocida como momento de orden uno o valor medio, se define del siguiente modo:
E [X ] =
∞
∫ xdF (x )
−∞
Para el caso de la variable absolutamente continua se tiene que su esperanza es:
E [X ] =
∞
∫ x ⋅ f (x )dx
−∞
en donde los límites de integración se definen convenientemente según el espacio de valores donde f(x) es positiva.
La esperanza matemática de una variable aleatoria
discreta con función de probabilidad p(x) se define como: ∞
E [ X ] = ∑ x ⋅ p (x ) k =0
en donde, una vez más, los límites de integración se definen de forma conveniente. El valor esperado de una variable aleatoria, su media poblacional, frecuentemente se designa mediante la letra μ del alfabeto griego.
A continuación se enuncian sin
demostración algunas propiedades importantes de la esperanza: •
Si X es una variable aleatoria degenerada (que asume un valor constante C con probabilidad uno), entonces E[X]=C.
•
Sea C una constante y X una variable aleatoria, entonces E[CX]=C⋅E[X].
•
Sea X una variable aleatoria y sea Y=h(X) otra variable aleatoria que es función de X. entonces, el valor esperado de Y es: ∞
E [Y ] = E [h( X )] = ∫ h( x )dF (x ) −∞
observando que los límites de integración se redefinen de acuerdo a los límites de integración para la variable X y en atención a la función h. Si la variable X es discreta, Y también lo es y su esperanza se define mediante una sumatoria.
6
La varianza, que indica el grado de dispersión de una variable aleatoria respecto a su media, también es un valor esperado. De hecho, la varianza de una variable aleatoria X es el valor esperado de la diferencia cuadrática de X respecto a su media y en su cálculo interviene la fórmula anterior:
[
]
2
∞
V [X ] = E ( X − μ ) = 2
∫ ( X − μ ) dF (x )
−∞
Algunas de sus propiedades notables son: •
Para toda variable aleatoria X, V[X] ≥ 0
•
Si C es una constante, V [CX ] = C 2V [X ] .
•
Si A es una constante, V [X + A] = V [X ] .
•
V [X ] = E X 2 − E 2 [ X ] .
[ ]
Esta última formula es particularmente útil para el
cálculo de la varianza. Finalmente, como última nota en este aparte, se menciona la cota de Tchebyschev, que involucra la esperanza y la varianza de una variable y es de utilidad para acotar de forma muy aproximada ciertas probabilidades cuando no se tiene ningún conocimiento sobre la ley de probabilidad de una variable aleatoria. Este resultado se da en sus dos formas sin demostración:
P[ X − μ ≥ ε ] ≤
1.4.
V [X ]
ε
2
[
]
y, recíprocamente, P X − μ < ε > 1 −
V [X ]
ε2
Función característica y función generatriz. Propiedades y tablas.
El interés en la Estadística de la función generatriz de una variable discreta y la función característica de una variable discreta o continua radica en el cálculo de los momentos y en el cálculo de las distribuciones muestrales, siendo estas particularmente útiles para el cálculo de la suma de n variables aleatorias independientes e idénticamente distribuidas. Otro caso donde son de utilidad es cuando se tiene una composición de variables aleatorias de distintas distribuciones- ahí entonces se puede deducir la ley de
7
probabilidad de la variable compuesta a través del análisis de su función característica o generadora. La función característica de una variable aleatoria X tiene una definición bastante sencilla: es la esperanza de eiuX, en donde u es una variable real. Se tiene, pues: ∞
ϕ X (u ) = E [e iuX ] = ∫ e iux dF (x ) −∞
Como
e iuX = cos ux + i ⋅ sen ux , esta función es integrable para cada u y
consecuentemente, ϕ(u) posee una parte real y una parte imaginaria. ϕX(u) también es conocida como la transformada de Fourier de F(x). Si la variable X es absolutamente continua, entonces ∞
ϕ X (u ) = ∫ e iux f ( x )dx , con los límites de integración definidos donde f(x) sea positiva. −∞
Si X es una variable aleatoria discreta, se tiene por definición que ϕ X (u ) =
∑e
iux
p( x ) ,
con los límites de la sumatoria definidos en aquellos puntos donde la función de probabilidad p(x) sea positiva. Las funciones características de algunas variables aleatorias discretas y continuas más comunes se dan en las tablas 1.1 y 1.2.
Es importante recalcar que la función
característica depende del parámetro u, por lo tanto, cuando se hable de su derivada de orden k subsecuentemente, se refiere a la diferenciación con respecto a u. Por los momentos se indican algunas propiedades de la función característica que son de utilidad, aclarando que en lo sucesivo omitimos el subíndice X en ϕX(u) para ganar claridad tipográfica. Sea X una variable aleatoria con función característica ϕ (u), entonces:
ϕ (0) = 1 ϕ (t ) ≤ 1
[ ]
E Xk =
ϕ (k ) (0) ik
Esta última propiedad es particularmente útil, podemos calcular el momento de orden k de una variable X derivando k veces su función característica, evaluándola en cero y
8
dividiendo entre ik. Generalmente, en este tipo de cálculos surgen indeterminaciones de tipo 0/0 que se pueden resolver mediante el respectivo límite y la regla de L’Hospital. Otra propiedad interesante de la función característica es que existe una correspondencia unívoca entre ésta y la ley de probabilidad de la variable aleatoria subyacente. Existen varias fórmulas de “inversión” que sirven a tales efectos, como el teorema de Levy. Dichas formulas se establecen en lo que sigue sin demostración 1: Sean F(x) y ϕ (u) la función de distribución y la función característica de una variable aleatoria X respectivamente. Si x1 y x2 son dos puntos de continuidad de F(x) se tiene:
F (x 2 ) − F (x1 ) = lim T →∞
1 2π
e − iux1 − e − iux2 ϕ (u )du ∫ iu −T T
Como consecuencia de este teorema, se tienen los siguientes resultados: Si X es discreta, entonces p X (x ) = lim T →∞
1 2T
T
∫e
− iux
ϕ (u )du .
−T
En el caso continuo, la función de densidad de X es dada por f X (x ) =
1 2π
∞
∫e
− iux
ϕ (u )du .
−∞
Por último es importante notar, aún adelantándose a la exposición de la independencia estocástica y la convolución de variables aleatorias, que la función característica sirve para obtener la distribución de una suma de variables independientes.
Esto se
desprende del hecho de que el valor esperado de un producto de variables aleatorias independientes es igual al producto de los valores esperados de las variables respectivas, pero este punto se tratará en mayor detalle posteriormente. En el caso en que la variable aleatoria X sea discreta y tome valores positivos, se puede definir su función generatriz del siguiente modo:
[ ]
∞
g (u ) = E u X = ∑ p(k )u k k =o
Siempre y cuando u este dentro del radio de convergencia de dicha serie infinita. Algunas propiedades notables de la función generatriz son las siguientes:
1
RIOS, pp. 96-97
9
i.
p(k ) =
g (k ) (0 ) , para k = 0,1,2,… k!
ii. E [X ( X − 1)… ( X − k + 1)] = g (k ) (1), para k = 1,2,… . La expresión E [X ( X − 1)… ( X − k + 1)] se conoce como momento factorial de orden k para la variable X. Como la función característica la función generatriz determina unívocamente la ley de probabilidad de una variable aleatoria y también sirve a efectos de determinar la distribución de la suma de variables aleatorias independientes.
Las funciones
generatrices de diversas variables aleatorias discretas se dan en la tabla 1.1.
Tabla 1.1. Leyes de probabilidad discretas más frecuentes y sus características
Bernoulli
– En un ensayo de Bernoulli se observa un éxito con probabilidad p o un fracaso con probabilidad q=1-p.
0 ≤ p ≤1
Función de probabilidad:
⎧1 − p p X (x ) = ⎨ ⎩p
x=0 x =1
Valores esperados:
para x ∈ {0 ,1}
E [X ] = p
V [X ] = pq
Función generadora y función característica:
g (z ) = q + pz
ϕ X (u ) = q + pe iu
Binomial-
Es la suma de n variables aleatorias de Bernoulli independientes e idénticamente distribuidas con parámetro p. Representa también el número de éxitos en n ensayos independientes.
0 ≤ p ≤ 1, q = 1 − p, n ∈ N + Función de probabilidad:
⎧⎛ n ⎞ x n − x ⎪⎜ ⎟ p q p X (x ) = ⎨⎜⎝ x ⎟⎠ ⎪0 ⎩
Valores esperados:
x ∉ {0,…, n}
Función generadora y función característica:
g (z ) = (q + pz )
n
10
E [X ] = np
x ∈ {0,…, n}
(
ϕ X (u ) = q + pe iu
)
n
V [X ] = npq
Geométrica-
La variable aleatoria geométrica es el número de ensayos de tipo Bernoulli que se requieren hasta observar el primer éxito.
0 ≤ p ≤ 1, q = 1 − p
Función de probabilidad:
Valores esperados:
⎧ pq x −1 p X (x ) = ⎨ ⎩0
E [X ] =
x ∈N+ x ∉N+
1 p
V [X ] =
q p2
Función generadora y función característica:
pz g (z ) = 1 − qz
ϕ X (u ) =
pe iu
1 − qe iu
Binomial Negativa- La variable aleatoria binomial negativa representa el número de ensayos hasta observar la r-ésima ocurrencia de un éxito (r es un número fijo). Función de probabilidad:
Valores esperados:
⎧⎛ x − 1⎞ r x −r ⎟p q ⎪⎜ p X (x ) = ⎨⎜⎝ r − 1 ⎟⎠ ⎪ 0 ⎩
E [X ] =
x≥r
r p
V [X ] =
rq p2
x
Función generadora y función característica:
⎛ pz ⎞ ⎟⎟ g (z ) = ⎜⎜ ⎝ 1 − qz ⎠
r
⎛ pe iu ϕ X (u ) = ⎜⎜ iu ⎝ 1 − qe
⎞ ⎟ ⎟ ⎠
r
Poisson- La variable aleatoria Poisson representa el número de eventos que ocurren en un instante de tiempo de amplitud fija cuando la tasa media de eventos en ese intervalo de tiempo es λ Función de probabilidad:
⎧ −λ λ x ⎪e p X (x ) = ⎨ x! ⎪ 0 ⎩
Valores esperados:
E [X ] = λ
x ∈N ≥ 0
V [X ] = λ
x<0
Función generadora y función característica:
g (z ) = e λ (z −1)
ϕ X (u ) = e λ (e
iu
)
−1
11
Tabla 1.2. Leyes de probabilidad continuas más frecuentes y sus características
Uniforme – Es la variable aleatoria continua uniformemente distribuida sobre un intervalo (a,b). La probabilidad de que la variable aleatoria uniforme se encuentre dentro de algún subintervalo de (a,b) es proporcional a la amplitud de dicho subintervalo. Función de densidad:
Valores esperados:
⎧ 1 ⎪ f X (x ) = ⎨ b − a ⎪⎩ 0
a+b E [X ] = 2
a
2 ( b − a) V [X ] =
12
en caso contrario
Función característica:
ϕ X (u ) =
e iub − e iua iu (b − a )
Normal- El número de éxitos en n ensayos independientes de Bernoulli obedece aproximadamente una ley Normal a medida que n tiende a infinito. Según el teorema central del límite, toda suma n variables independientes e idénticamente distribuidas es normal cuando n tiende a infinito. La ley normal modela adecuadamente una amplia gama de fenómenos aleatorios porque generalmente, las desviaciones de una variable con respecto a un punto central se deben a la suma de una cantidad indefinidamente grande de perturbaciones aleatorias idénticamente distribuidas e independientes entre sí. σ,μ ∈ R σ > 0
Función de densidad:
Valores esperados:
⎛ 1 ⎛ x − μ ⎞2 ⎞ exp⎜ − ⎜ f X (x ) = ⎟ ⎟ ⎜ 2 σ σ 2π ⎠ ⎟⎠ ⎝ ⎝
E [X ] = μ
1
Función característica:
⎛ ⎝
⎞ ⎠
ϕ X (u ) = exp⎜ iuμ − u 2σ 2 ⎟
12
1 2
V [X ] = σ 2
Exponencial-
La variable aleatoria exponencial juega un papel análogo en el caso continuo a la geométrica y representa el tiempo que transcurre hasta que falla un componente. Como la geométrica, la variable aleatoria exponencial tiene la propiedad de no poseer memoria: el haber esperado una cantidad de tiempo determinado sin que haya ocurrido la falla o el suceso en cuestión no condiciona el tiempo adicional de espera en el futuro. El único parámetro de esta distribución λ esta relacionado con la tasa media de eventos por unidad de tiempo y tiene la restricción de ser un valor positivo. Función de densidad:
⎧λe − xλ f X (x ) = ⎨ ⎩0
Valores esperados:
E [X ] =
x>0 en caso contrario
1
λ
V [X ] =
1
λ2
Función característica:
iu ⎞ ⎛ ϕ X (u ) = ⎜1 − ⎟ λ⎠ ⎝
−1
Gamma- La variable aleatoria gamma representa el tiempo de espera hasta la r-ésima ocurrencia de un fallo o evento cuando los eventos ocurren independientemente entre sí con una tasa promedio de λ por unidad de tiempo, con los tiempos inter-eventos distribuidos exponencialmente con el mismo parámetro. Un caso especifico de la gamma es la distribución de Erlang, que representa la suma de r variables aleatorias independientes distribuidas exponencialmente (en este caso, r es un número entero positivo). La distribución ji-cuadrado, la Weibull y la exponencial también se pueden definir como casos particulares de la gamma. Las restricciones sobre los parámetros son λ, r > 0 Función de densidad:
⎧ λ (λx )r −1 e −λ x ⎪ f X (x ) = ⎨ Γ(r ) ⎪ 0 ⎩
Valores esperados:
x>0
E [X ] =
r
λ
V [X ] =
r
λ2
en caso contrario
Función característica:
⎛ ⎝
ϕ X (u ) = ⎜1 −
iu ⎞ ⎟ λ⎠
−r
Nota: La función Γ(r) es la función gamma, que se define a continuación: ∞
Γ(r ) = ∫ u r −1e − u du, r > 0 0
Esta función tiene las siguientes propiedades: i. Γ n + 1 = nΓ n , n > 0 ii.
( ) ( ) Γ(n + 1) = n! si n es un entero positivo
13
1.5.
Variables aleatorias bidimensionales y n-dimensionales. distribución conjunta. Función de densidad conjunta.
Función de
Sucede muy comúnmente que estamos interesados en investigar las relaciones que hay entre dos o más características de los individuos de una población- esto da pie a la definición de las variables aleatorias bidimensionales y, de forma más general, a las ndimensionales. Este concepto pretende dar respuestas a preguntas tales como: ¿Cuál relación existe entre la estatura y el peso corporal de cada persona? ¿Existe algún vínculo entre el grado de desarrollo tecnológico y el porcentaje de la población que son científicos en un país? Es importante recalcar que las variables aleatorias conjuntas se refieren a dos o más características que se observan simultáneamente en cada individuo de una población; están, pues, asociadas al mismo espacio muestral (ver Fig. 1.1). Así por ejemplo, si estamos interesados en comparar las destrezas matemáticas de estudiantes de uno y otro liceo a partir de las notas de matemática de una muestra de veinte alumnos de cada liceo, no se puede instituir en base a esto una variable aleatoria bidimensional porque los alumnos no provienen de la misma población (dos liceos) ni tampoco un par de notas se refieren al mismo individuo.
Definición (Variable aleatoria bidimensional y n-dimensional): Sea (Ω,ℑ,P) un espacio de probabilidad y X=X(ω) e Y= X(ω) dos variables aleatorias definidas sobre ese mismo espacio probabilizado. El par (X,Y) constituye una variable aleatoria bidimensional, a veces denominada vector aleatorio.
Análogamente, si X1=X1(ω), …, Xn=Xn(ω) son n
variables aleatorias definidas sobre el mismo espacio, entonces ( X 1 ,
, X n ) es una
variable aleatoria n-dimensional (vector aleatorio n-dimensional).
Fig. 1.1 – Las variables aleatorias conjuntas están asociadas al mismo espacio muestral. 14
Como en el caso unidimesional, las variables aleatorias multidimensionales (ndimensionales) son discretas o continuas y poseen función de distribución y función de probabilidad o función de densidad de probabilidad según sea el caso. Los vectores aleatorios son discretos si el producto cartesiano X 1 ×
× X n es un conjunto finito o
numerable; en caso contrario, el vector aleatorio es continuo. Sin más preámbulos, se especifican seguidamente las particularidades salientes de los vectores aleatorios: Función de probabilidad conjunta en caso discreto: Al vector aleatorio discreto
(X1 ,
, X n ) se asocia una función de probabilidad p(x1 ,…, x n ) que representa la
{
respectiva probabilidad P ω X 1 (ω ) = x1 , … , X n (ω ) = x n
}
definida en el espacio
probabilizado y que cumple las siguientes condiciones: i.
p(x1 ,…, x n ) ≥ 0 para todo (x1 , ∞
ii.
, xn )
∞
∑ p(x1,…, x n ) = 1
∑
x1 = −∞
x 2 = −∞
La segunda condición establece que la masa de probabilidad total sumada a través de la región de valores donde p(x1 ,…, x n ) > 0 es igual a uno.
Como en el caso
unidimensional, esta condición es de hecho la que caracteriza a cualquier función de probabilidad o de densidad. Función de densidad de probabilidad conjunta (caso continuo): Al vector aleatorio continuo ( X 1 ,
, X n ) se asocia una función de densidad de probabilidad f (x1 ,…, x n )
que, asumiendo valores positivos en alguna región R del espacio n-dimensional, cumple las siguientes condiciones: i. f (x1 ,…, x n ) ≥ 0 para todo (x1 , ii.
∫
∫ f (x ,…, x )dx …dx 1
R
n
1
n
, xn )
=1
Función de distribución de probabilidad conjunta: Un vector aleatorio
(X1 ,
, Xn )
basado en un espacio de probabilidad (Ω,ℑ,P) tiene una función de distribución conjunta definida del siguiente modo:
FX1,…, X n (x1,
, x n ) = P {ω X 1 (ω ) ≤ x1, … , X n (ω ) ≤ x n }
15
Calculándose esta expresión mediante sumatorias o integrales múltiples según sea el vector aleatorio discreto o continuo respectivamente.
Las expresiones para los
momentos de los vectores aleatorios se obtienen de forma análoga al caso unidimensional. Cabe destacar por último la expresión para la función característica de un vector aleatorio: Función característica conjunta: Sea
(X1 ,
, X n ) un vector aleatorio basado en un
espacio de probabilidad (Ω,ℑ,P). Su función característica conjunta esta dada por:
ϕ X1,…, X n (u1, , u n ) = E [exp i (u1 X 1 +
+ u n X n )] =
∫ exp i (u1 x1 +
∫
+ u n x n )f (x1,…, x n )dx1 … dx n
R
Ha de entenderse la última integral de esta expresión como una sumatoria en el caso en que ( X 1 ,
, X n ) sea un vector aleatorio discreto.
Como último punto en este aparte, cabe observar que cada una de las variables aleatorias X i que conforman el vector aleatorio
(X1 ,
, X n ) está asociada a un
mismo espacio probabilizado, por lo cual cada una de estas variables tiene su propia función de probabilidad (de densidad de probabilidad, si es continua). En el contexto de las variables aleatorias multidimensionales, la función de probabilidad (o de densidad) de cada variable aleatoria por separado se conoce como función de probabilidad (densidad) marginal y se obtiene a partir de la función de probabilidad conjunta sumando (o integrando) a través de las variables aleatorias restantes. Así por ejemplo, si tenemos el vector aleatorio ( X ,Y ) con su función de probabilidad conjunta p(x, y ) (o función de densidad f (x, y ) si
( X ,Y )
es continua), podemos
obtener la función de probabilidad marginal del siguiente modo:
p X (x ) =
∑ p(x, y )
y ∈Rango Y
(o f X (x ) =
∫ f (x, y )dy si ( X,Y ) es continua) Rango Y
En el caso de variables aleatorias de más de dos dimensiones, tendremos sumatorias o integrales múltiples, a fin de sumar a través de las variables aleatorias restantes.
16
1.6.
Variables aleatorias independientes y su caracterización. Covarianza. Distribución de la suma de dos o más variables aleatorias independientes. Convolución.
El análisis de las relaciones entre las variables aleatorias de un modelo probabilístico tiene mucho que ver con el concepto de la independencia entre variables aleatorias. Intuitivamente, decimos que dos variables aleatorias son independientes si el resultado observado de una variable no afecta la ocurrencia del valor observado en la otra variable. Otra manera intuitiva de abordar la idea es considerando que si dos variables aleatorias son independientes, la distribución de probabilidades de una de ellas permanece igual a través de todos los posibles valores que asuma la otra variable, lo cual guarda relación directa con la posibilidad de factorizar la función de probabilidad conjunta como el producto de las respectivas funciones de probabilidad marginales. A modo de ilustrar, se considera el siguiente ejemplo: en una población, se observa la raza o grupo étnico de cada persona conjuntamente con su nivel de inteligencia medida a través del coeficiente intelectual.
Si el nivel de inteligencia de un individuo es
independiente de su grupo racial u origen étnico, se observará que las proporciones de individuos inteligentes, normales y subnormales permanecerán iguales sin importar el grupo racial o étnico considerado.
Valga este ejemplo para señalar otro aspecto
importante sobre las relaciones de dependencia entre variables aleatorias: la estadística se limita a discernir si ciertos niveles de una variable van acompañados por ciertos niveles de otra variable- las técnicas estadísticas clásicas no permiten discernir sobre las relaciones de causalidad de unas variables sobre otras. En nuestro ejemplo, si encontrásemos que el origen racial no es independiente del nivel de inteligencia de un individuo, no por esto pudiésemos concluir que ciertas razas son “más inteligentes” que otras o dicho de otro modo, que el origen racial de un individuo explica su bajo o alto coeficiente intelectual. Más bien, en este caso, el investigador debería evaluar si el instrumento de medición de la inteligencia está o no diseñado de forma sesgada para favorecer a los individuos de cierta raza por sobre los individuos de otras razas. En todo caso, si la dependencia estocástica es equivalente a la causalidad, eso es algo que debe responderse fuera del ámbito probabilístico. Otro error común en cuanto al concepto probabilístico de independencia, por lo menos en base a la experiencia docente del autor,
es aquel de señalar dos eventos
17
mutuamente excluyentes como aquellos que son independientes entre sí. De hecho, se da justamente lo contrario: si dos eventos son mutuamente exclusivos, la ocurrencia de uno determina la no ocurrencia del otro, por lo cual jamás pueden considerarse eventos independientes.
Es importante aclarar todos estos puntos en torno a la noción de
independencia estocástica porque un aspecto importante en el análisis de los procesos estocásticos es determinar si el estado del proceso en un instante de tiempo es independiente de su estado en otro instante.
Como se verá, la suposición de la
independencia entre los estados del sistema en distintos instantes de tiempo simplifica bastante el análisis del proceso estocástico. Seguidamente se dan algunas caracterizaciones de la independencia de las variables aleatorias conjuntamente distribuidas: i. Caracterización de la independencia en términos de sus funciones de probabilidad Un conjunto de variables aleatorias conjuntamente distribuidas se dice ser independiente si y solo si su función de probabilidad conjunta se puede factorizar como el producto de las funciones de probabilidad de cada variable:
p(x1,…, x n ) = p X1 (x1 ) ⋅
⋅ p X n (x n )
Si el vector aleatorio es continuo, se intercambia “función de probabilidad” por “función de densidad” en esta caracterización. ii. Caracterización de la independencia en términos de sus funciones de distribución Para toda n-pla de valores (x1 ,
FX1,…, X n (x1,
, x n ) , se tiene que
, x n ) = FX1 (x1 ) ⋅ … ⋅ FX n (x n )
iii. Caracterización de la independencia en términos de la esperanza matemática Para toda n-pla de funciones (g1 ,
, g n ) donde existan los respectivos valores
esperados en la siguiente ecuación:
E [g1 ( X 1 ) ⋅ …⋅ g n ( X n )] = E [g1 ( X 1 )] ⋅ … ⋅ E [g n ( X n )]
18
En palabras: la esperanza del producto de variables aleatorias conjuntamente distribuidas es igual al producto de los valores esperados de cada variable. De esta caracterización de independencia se deduce que la varianza de la suma de variables aleatorias conjuntamente distribuidas e independientes es igual a la
[
]
[ ]
[ ]
suma de las respectivas varianzas: V X 1 + … + X n = V X 1 + … + V X n
iv. Caracterización de la independencia en términos de su función característica La función característica de un vector aleatorio conjuntamente distribuido es igual al producto se las funciones características de cada variable aleatoria respectiva cuando estas son independientes. Dicha caracterización se infiere de la propiedad anterior para el valor esperado del producto de variables aleatorias independientes.
ϕ X1,…, X n (u1, , u n ) = ϕ X1 (u1 ) ⋅ … ⋅ ϕ X n (u n ) Esta caracterización de independencia es muy útil. Permite por ejemplo concluir que la suma de n variables exponenciales idénticamente distribuidas e independientes es una variable aleatoria gamma Según las distintas caracterizaciones de independencia vistas, se tiene que dos variables aleatorias, o son independientes o no lo son. Pero si hemos de establecer un grado o la magnitud de la dependencia entre dos variables, una medida sería la covarianza, cuya definición es:
cov [X ,Y ] = E [( X − E [X ])(Y − E [Y ])] = E [X ⋅ Y ] − E [X ] ⋅ E [Y ] Es de notar que si dos variables aleatorias X e Y son independientes, las esperanzas en la expresión del extremo derecho de estas igualdades se cancela- consecuentemente, si dos variables aleatorias son independientes, su covarianza es cero, aunque no podemos establecer de modo general la implicación contraria. La covarianza puede ser negativa o positiva, sin embargo, a fin de acotar la covarianza y establecer comparaciones entre los grados de dependencia de dos o más pares de variables aleatorias se define a partir de la covarianza el coeficiente de correlación:
19
ρ [X ,Y ] =
cov[X ,Y ]
V [X ] ⋅ V [Y ]
el cual se puede demostrar que está acotado entre -1 y 1 2. En realidad, el coeficiente de correlación mide el grado de linealidad en la relación de dos variables. Si ρ es -1, se tiene que entre X e Y existe una relación lineal decreciente perfecta: una variable se puede expresar como función afín de la otra y si una variable crece, la otra decrece. En cambio ρ=1 representa una relación lineal creciente perfecta: una variable aleatoria es función afín de la otra y ambas decrecen o crecen simultáneamente. Si ρ es cero, no existe ninguna relación de linealidad entre una y otra variable, pero como ya se dijo anteriormente, esto no implica necesariamente que las variables en cuestión sean independientes. Dicho sea de paso, existen otras medidas de correlación un tanto más robustas que no toman la linealidad en cuenta, como por ejemplo el coeficiente de correlación de rango de Spearman y el coeficiente de correlación de rango τ de Kendall entre otros 3. El concepto de independencia entre dos variables y sus caracterizaciones en términos de la esperanza matemática de su producto tienen como consecuencia un método sencillo para obtener la distribución de probabilidad de la suma de dos o más variables aleatorias. Se puede demostrar que si X e Y son dos variables aleatorias continuas e independientes entonces su función de densidad está dada por:
f X +Y (y ) =
∞
∫ f X (x ) ⋅ fY (y − x )dx
−∞
Para el caso continuo, la función de probabilidad de X+Y para dos variables independientes es:
p X +Y (y ) = ∑ p X (x ) ⋅ pY (y − x ) x
Integrales como la de arriba se denominan bajo el nombre de convolución. En algunos textos de matemáticas la convolución de dos funciones f y g se escribe f∗g, de modo que f X +Y (y ) = f X ∗ fY . El cálculo de tales integrales (o sumatorias en el caso discreto) puede resultar algo tedioso- es de este punto de donde las funciones características 2
Ver la demostración del Teorema 7.11 en MEYER, p. 145
3
Ver el capitulo 9 de SPIEGEL.
20
derivan su importancia. Ya que la esperanza del producto de dos variables aleatorias independientes es igual producto de sus respectivas esperanzas, se tiene que:
[
] [
] [ ] [ ]
E e iu ( X +Y ) = E e iuX ⋅ e iuY = E e iuX ⋅ E e iuY y en consecuencia
ϕ X +Y (u ) = ϕ X (u ) ⋅ ϕY (u ) . En base a esta fórmula, se puede
determinar la distribución de la suma de variables aleatorias independientes observando la función característica de la suma. Con este resultado, se explica fácilmente porqué la suma de variables exponenciales independientes de idéntico parámetro tiene una distribución gamma, por ejemplo. Esta formula será de utilidad en el análisis de ciertos procesos estocásticos.
Ejemplo para las secciones 1.5 y 1.6 A fin de consolidar tu aprendizaje de los conceptos expuestos en las secciones anteriores sobre variables multidimensionales e independencia, considera el problema a continuación: Se lanzan dos dados y en atención al resultado, se definen las dos variables aleatorias siguientes-
X – representa la suma de las dos caras resultantes en el lanzamiento de los dados. Y – es una variable aleatoria dicotómica que asume el valor de 1 si la cara del primer dado es divisible entre 2 o 3, y 0 si no lo es. Determina la función de probabilidad conjunta de la variable aleatoria bidimensional (X,Y ) así como la funciones de probabilidad marginales de X y de Y. Adicionalmente, indica si las dos variables aleatorias en cuestión son mutuamente independientes. Solución: Primero, debemos identificar el espacio muestral subyacente al experimento aleatorio asociado al lanzamiento de los dos dados. Dicho espacio muestral se puede definir (o modelar, si prefieres) mediante el siguiente conjunto de pares ordenados:
21
Ω = {(d1, d 2 ) d1, d 2 ∈ N, 1 ≤ d1, d 2 ≤ 6} En palabras, Ω es el conjunto de todos los pares ordenados de números tal que cada número representa una de las posibles seis caras del dado respectivo. Dicho conjunto tiene 36 elementos y asumiendo que los dados son justos y que el lanzamiento de un dado no condiciona el lanzamiento del otro, cada uno de estos 36 eventos elementales del espacio muestral tiene una probabilidad asociada de 1 36 . Traducción al castellano: los posibles resultados de lanzar dos dados son equiprobables. A partir de este conjunto Ω definimos las dos variables aleatorias como en el enunciado del problema. Estas variables pueden considerarse como características numéricas que estarán asociadas a cada evento elemental o individuo de la población. En conjunto, se esquematiza todo esto en una tabla:
i
ωi
X (ω i )
Y (ω i )
i
ωi
X (ω i )
Y (ω i )
i
ωi
X (ω i )
Y (ω i )
1
(1,1)
2
0
13
(3,1)
4
1
25
(5,1)
6
0
2
(1,2)
3
0
14
(3,2)
5
1
26
(5,2)
7
0
3
(1,3)
4
0
15
(3,3)
6
1
27
(5,3)
8
0
4
(1,4)
5
0
16
(3,4)
7
1
28
(5,4)
9
0
5
(1,5)
6
0
17
(3,5)
8
1
29
(5,5)
10
0
6
(1,6)
7
0
18
(3,6)
9
1
30
(5,6)
11
0
7
(2,1)
3
1
19
(4,1)
5
1
31
(6,1)
7
1
8
(2,2)
4
1
20
(4,2)
6
1
32
(6,2)
8
1
9
(2,3)
5
1
21
(4,3)
7
1
33
(6,3)
9
1
10
(2,4)
6
1
22
(4,4)
8
1
34
(6,4)
10
1
11
(2,5)
7
1
23
(4,5)
9
1
35
(6,5)
11
1
12
(2,6)
8
1
24
(4,6)
10
1
36
(6,6)
12
1
Observamos que la v.a. X asume valores entre 2 y 12 (11 posibles valores), mientras que Y asume dos posibles valores- 0 y 1. Para obtener las probabilidades conjuntas, construimos una tabla de 11 columnas (cada columna representa un posible valor de X ) y 2 filas (los dos posibles valores de Y ). En cada celda, se indica la probabilidad 22
respectiva con que ocurre el valor (x,y). Estas probabilidades se obtienen a partir de la tabla anterior. Por ejemplo, el par ( X ,Y ) = (8,1) ocurre 4 veces en 36 casos. Por lo tanto su probabilidad es igual a 4 36 y este valor es el que colocamos en la celda respectiva. Para variables aleatorias bidimensionales discretas, dicha tabla se conoce como tabla de contingencia: X
Y
2
3
4
5
6
7
8
9
10
11
12
0
1/36
1/36
1/36
1/36
2/36
2/36
1/36
1/36
1/36
1/36
0
1
0
1/36
2/36
3/36
3/36
4/36
4/36
3/36
2/36
1/36
1/36
A esta tabla de contingencia podemos agregarle las respectivas funciones de probabilidad marginales (que son f X (x ) y fY (y ) ) totalizando las probabilidades de las celdas y de las columnas: X 2 Y
f X (x )
0
3
4
5
6
Totales
7
8
9
10
11
1/36 1/36 1/36 1/36 2/36 2/36 1/36 1/36 1/36 1/36
1
0
12
fY (y )
0
12/36
1/36 2/36 3/36 3/36 4/36 4/36 3/36 2/36 1/36 1/36
1/36 2/36 3/36 4/36 5/36 6/36 5/36 4/36 3/36 2/36 1/36
24/36 1
Con las funciones de probabilidad marginales de X e Y podemos verificar si estas variables son independientes.
Recordemos que una de las definiciones o
caracterizaciones de independencia requiere que la función de probabilidad conjunta sea factorizable por las respectivas funciones de probabilidad marginales, es decir, que se cumpla p(x, y ) = p X (x ) ⋅ pY (y ) para todo x,y. Si tomamos, por ejemplo, x=3 e y=0, tenemos
p(x, y ) = p(3, 0) =
1 , 36
pero p X (x ) ⋅ pY (y ) =
12 2 1 y claramente se tiene que ⋅ = 36 36 54 23
p(x, y ) ≠ p X (x ) ⋅ pY (y ) y por lo tanto X e Y no son independientes. Han podido considerarse otras instancias de x e y, pero bástese que no se cumpla
p(x, y ) = p X (x ) ⋅ pY (y ) para una instancia para que el par X,Y no sea independiente. Este resultado tiene una lectura intuitiva: para que la suma X sea 2, es necesario que D1 no sea divisible entre 2 o 3. Por otro lado, para que X sea 12, es necesario que D1 sea divisible entre 2 y 3, porque tanto D1 como D2 son necesariamente iguales a 6. Por lo tanto, vemos que la divisibilidad de D1 por 2 o 3 condiciona la suma X; de hecho, se observa que para distintos valores de X las proporciones de las probabilidades conjuntas para los casos Y=0 o Y=1 son distintas. Todo esto confirma que X e Y son mutuamente dependientes, aunque el grado de dependencia no es total. Otra cosa que seguramente habrás notado es la razón por la cual las funciones de probabilidad individuales de X y de Y se denominan funciones de probabilidad marginales: siendo totales de columnas y de filas, se especifican en los márgenes de la tabla de contingencia.
24
1.7.
Introducción a la simulación estocástica mediante el lenguaje R.
El uso de la teoría de la probabilidad para deducir algunas propiedades de un modelo aleatorio entraña cierta dificultad- se presenta casos en donde el análisis teórico de un matemático experimentado sobre alguna situación que involucra el azar es errado. además
nuestra
formación
teórica
sobre
las
probabilidades
es
Si
deficiente
(lamentablemente este es el caso más común), entonces esto dificulta aún más el abordaje de ciertos problemas.
Pero teniendo una computadora, contamos con un
instrumento epistemológico que nos permite obtener conocimiento sobre el modelo aleatorio de forma experimental- este es el objetivo fundamental de la denominada simulación. La simulación, como la programación misma, es un arte. No existe un procedimiento mecánico para hacer simulaciones.
Lo que se requiere del analista es determinar
detalladamente las reglas y la secuencia de acciones que rigen el comportamiento de los componentes del sistema a simular. Se deben establecer bien las relaciones de dependencia entre los componentes y deslindar aquellos comportamientos de componentes que son independientes de los demás comportamientos. Esta secuencia de acciones y comportamientos conforma un ciclo, análogo a una partida de un juego. Como en las simulaciones se pretende determinar las probabilidades o los valores esperados, se deben realizar muchas iteraciones de estos ciclos para ver cual es su comportamiento “a la larga”. Es en este punto donde estriba el poder del computador como instrumento epistemológico- el computador realiza esta miríada de cálculos rápidamente, obteniendo la probabilidad o el valor esperado deseado a través de la fuerza de computo bruto. Existen diversos lenguajes o paquetes para la investigación estocástica. Entre estos, se escogió el lenguaje R como el principal para desarrollar los ejemplos y trabajos prácticos de este curso. El lenguaje R es un sistema para el análisis estadístico y gráfico, a la vez un entorno de programación y aplicación basado en el lenguaje S desarrollado por los Laboratorios AT&T Bell 4. Uno de los atractivos principales de R es que se distribuye libremente 5 bajo los términos de la GNU General Public License. 4
PARADIS, p. 3 Los binarios para la instalación de R, con la documentación correspondiente se pueden descargar a través de http://cran.r-project.org/
5
25
Aunado a esto, existen muchos programas en S disponibles a través del Internet que se pueden ejecutar directamente bajo R 6.
El lenguaje R, siendo un lenguaje de
programación orientado a objetos, incorpora sentencias básicas de bucles y condicionamiento junto con herramientas sofisticadas de alto nivel para el análisis estadístico, lo cual le da una enorme flexibilidad. Por todas estas razones, el lenguaje R tiene cada vez más preponderancia en el mundo académico y
en la investigación
estocástica. A modo de ilustrar lo que es una simulación, se comienza con un ejemplo extraído de un concurso en un programa de televisión británico que consiste en lo siguiente: el concursante se encuentra ante tres puertas entre las cuales debe escoger una. Detrás de una de las puertas se encuentra un carro y detrás de cada una de las otras dos un apestoso animal (una cabra). El trato es el siguiente, el animador (que sabe donde se encuentra el carro) abre una puerta obviamente diferente a la que el jugador escogió y a la que contiene el carro, revelando una flamante cabra.
Luego se le pregunta al
concursante si desea abrir otra puerta o mantiene su elección. ¿Que es más ventajoso para el concursante? ¿Cuál es la probabilidad de ganar si el jugador cambia de puerta? Muchas personas, inclusive matemáticos, concluyen erróneamente que no es particularmente más ventajoso cambiar de puerta razonando que una vez que el animador abre una de las puertas que no contiene el carro, las probabilidades de ganar o perder son iguales (1/2) si se cambia de puerta o no. Sin embargo, un análisis cuidadoso de las probabilidades demuestra que la probabilidad de ganar cambiando de puerta es de 2/3. Se deja como tarea verificar esto de forma teórica. En lo que sigue nos interesa más bien simular la situación.
Para esto debemos especificar lo más
detalladamente posible la secuencia de pasos en cada juego:
6
Consultar en http://stat.cmu.edu/S/
26
El Juego de Monty Hall
•
•
•
•
•
Primero, se esconde el carro detrás de una de las tres puertas (al azar). El jugador selecciona una de las tres puertas (escoge al azar) El animador (Monty Hall), sabiendo donde está el carro, escoge una puerta que no sea la que optó el concursante ni la que contiene el carro y la abre, revelando que hay una cabra detrás de esa puerta. Si queda una sola puerta elegible con esas condiciones, Monty la escoge. De lo contrario, si hay dos puertas elegibles, Monty escoge cualquiera de las dos al azar. Como en la simulación queremos determinar la probabilidad de ganar si el concursante cambia de puerta, hacemos que el jugador opte una segunda vez por la puerta que no seleccionó la primera vez ni por la puerta que acaba de abrir Monty. Si la segunda puerta que escogió el concursante es igual a la puerta detrás de la cual estaba el carro el concursante gana.
Este ciclo se repite un número N arbitrariamente elevado de veces a fin de determinar la proporción de veces que el concursante gana. Según la ley de los grandes números, si el número de iteraciones es lo bastante elevado, esta proporción se acercará a la probabilidad verdadera de 2/3.
A continuación se indica el código en R para esta
simulación junto con el resultado arrojado por la misma, que es de 0.6688, lo cual como se podrá apreciar, se acerca bastante a 2/3. #simulación del concurso de Monty Hall #problema descrito en el aparte 1.7. de los apuntes del curso #"Procesos Estocásticos", dictado en la UNEFA San Tomé #Autor: Prof. José L. Romero P. fecha: 10/8/2007 #-----------------------------------------------------cnt<-0 puertas=c(1,2,3) N=10000 for (i in 1:N) { puerta.premio=sample(puertas,size=1,replace=TRUE) primera.puerta.jugador=sample(puertas,size=1,replace=TRUE) otras.puertas=setdiff(puertas,union(puerta.premio,primera.puerta.jugador)) ifelse((length(otras.puertas)==1),monty.abre.puerta<-otras.puertas, monty.abre.puerta<-sample(otras.puertas,size=1,replace=TRUE)) segunda.puerta.jugador=setdiff(puertas,union(primera.puerta.jugador, monty.abre.puerta)) if (segunda.puerta.jugador==puerta.premio) cnt<-cnt+1 } cat("La probabilidad de ganar en N=",as.character(N)," ensayos del juego es ", cnt/N,".\n")
La probabilidad de ganar en N=10000 ensayos del juego es 0.6688.
27
Otro ejemplo de cómo determinar probabilidades mediante simulaciones se desarrolla a partir del siguiente problema:
El Encuentro Dos hombres de negocios deciden encontrarse en algún lugar entre las 10 y 11am, cada uno acordando no esperar más de 10 minutos por el otro. ¿Cuál es la probabilidad de que se encuentren si cada uno llega independientemente del otro y en cualquier instante aleatorio en el lapso de esa hora?
Para comenzar, denotemos por X e Y el instante de tiempo dentro de una hora a la cual llega cada empresario respectivamente.
Según la última parte del enunciado que
establece que “cada uno llega independientemente del otro y en cualquier instante aleatorio en el lapso de esa hora”, se desprende que tanto X como Y son variables aleatorias continuas independientes y uniformemente distribuidas entre 0 y 60 (se trabajará el problema en base al lapso de 60 minutos). Para que los empresarios se encuentren, la diferencia en valor absoluto de los tiempos de llegada de uno y otro debe ser menor o igual a 10 minutos.
{
}
Es decir, se quiere calcular P X −Y ≤ 10 .
Claramente, esta diferencia en valor absoluto varia entre 0 y 60 minutos, pero aún no se ha determinado la distribución de probabilidad de X − Y .
Se supone que en este nivel, debes haber podido realizar el análisis del problema hasta ese punto, aunque quizás no sepas como proceder a partir de ahí- es precisamente en ayudar a dilucidar este tipo de situaciones en que radica la valía de una simulación. Para el problema en cuestión, esta va a consistir básicamente en generar una distribución empírica de un número suficientemente grande de valores X − Y basados en números aleatorios uniformemente distribuidos según lo expuesto en el análisis previo. Sin más preámbulos, se da el código de la simulación en R a continuación: 28
#Problema: dos personas deciden encontrarse entre las 10 y 11am, acordando #que quien llegue primero no esperará más de 10 minutos por el otro.
Si ambas
#personas llegan al azar independientemente de la otra, determinar la #probabilidad de que se encuentren.
(Problema en el aparte 1.7 del texto)
#Solución por simulación: #(Autor: Prof. José L. Romero P. - 18/08/2007) N=1000000 #¿cual es la distribución de |X-Y| si X e Y son Unif(0,60) e independientes? x<-abs(runif(n=N,min=0,max=60)-runif(n=N,min=0,max=60)) obhist=hist(x,br=60,right=FALSE,plot=FALSE) pdf(file="encuentro.pdf") plot(obhist,freq=FALSE, main="Histograma de frecuencia",ylab="denisdad de probabilidad empírica") abline(a=(60/1800),b=-1/1800,col="red") legend(x=25,y=0.033,legend="Función de densidad teorica",fill="red") #¿cual es la probabilidad requerida? plot.new() x<-as.integer(x<=10) probabilidad<-mean(x) text(0,1,"Cálculo mediante simulación de los valores requeridos", adj=c(0,0),cex=1.1) text(0,0.9,paste("Probabilidad de que las dos personas se encuentren: ", probabilidad),adj=c(0,0),cex=0.8) lines(c(0,1),c(0.98,0.98))
Dicha simulación generó la siguiente salida- el histograma …
29
y la probabilidad teórica:
¿Cómo lo hizo y que significa la línea roja en el histograma? En primer lugar, se genero una muestra de N=1000000 de valores X − Y aleatorios. Seguidamente, se graficó el histograma de frecuencias con los métodos “hist” y “plot” de R.
Esto generó un
histograma como el de la página anterior, sin la línea roja aún. Obsérvese que los rectángulos son levemente irregulares, pero sus alturas decrecen en forma sorprendentemente regular y lineal. La línea roja, como función de densidad teórica, parece ajustarse bien, por lo menos intuitivamente, a lo observado. En este punto nos damos cuenta que la función de densidad de X − Y debe ser un segmento de recta decreciente entre 0 y 60 como la línea roja en el grafico. Un análisis más profundo revela lo siguiente: La función de densidad de probabilidad de X − Y esta dada por
f X −Y (d ) = 2 ⋅
60 −d
∫ 0
1 60
2
dt =
60 − d , donde d asume valores entre 0 y 60. 1800
La motivación de dicha fórmula viene de notar que el evento correspondiente a “la diferencia X − Y es exactamente igual a d” se verifica para X ∈ [0,60 − d ], Y = X + d (suponiendo X mayor o igual a Y), la integral viene a representar la masa de probabilidad total para cada uno de estos casos. El factor de 2 a la izquierda de la integral se debe a que X ≥ Y o Y ≥ X . Dicha función evidencia ser una función de densidad legítima pues su integral a través de los valores posibles de d es igual a uno: 60
∫ f X −Y (z )dz = 0
60 − z z z 2 60 = − =1 dz ∫ 1800 30 3600 0 0
60
Observando el código R de la simulación, se evidencia que el segmento lineal rojo trazado sobre el histograma de frecuencias empíricas se corresponde a la función lineal
f X −Y (d ) , a partir de la cual se puede calcular fácilmente la probabilidad deseada:
30
10
P { X − Y ≤ 10} = ∫ f X −Y (z )dz = 0
z z 2 10 1 1 11 − = − = = 0,3055 30 3600 0 3 36 36
Como se puede ver, el resultado de la simulación (0,305779) se corresponde con bastante exactitud al resultado teórico. En este curso se hará un uso intensivo de simulaciones como estas para apoyar los resultados sobre los procesos estocásticos deducidos teóricamente.
La discusión
detallada sobre la sintaxis del lenguaje R o las técnicas de simulación per se son marginales a los objetivos principales de curso- por esto incluyo un breve apéndice sobre lenguaje R y la documentación disponible como anexo de este material.
Lo
importante es que sigas con detenimiento la exposición de cada uno de los ejemplos de implementación de simulaciones y trates de compaginar esto con el desarrollo teórico de cada problema. Así mismo, te invito a dilucidar cualquier otro aspecto teórico de la teoría de la probabilidad y de los procesos estocásticos por ti mismo implementando simulaciones.
31
Problemas Propuestos
1)
Define, en tus propias palabras, los siguientes conceptos: a) Espacio muestral b) Evento c) Variable aleatoria d) Función de distribución de probabilidad e) Función de probabilidad f)
2)
Función de densidad
Define el espacio muestral asociado al siguiente experimento aleatorio: Un lote contiene 10 artículos, 3 de los cuales son defectuosos. Se extrae un artículo a la vez de este lote, sin reemplazo, hasta haber obtenido todos los artículos defectuosos y se observa la cantidad de artículos que quedan en el lote.
3)
Un jugador italiano expresó su sorpresa a Galileo por observar que al jugar con tres dados, la suma 10 aparece con más frecuencia que la 9. Según el jugador los casos favorables al 9 y al 10 serían respectivamente: Casos favorables a 9:
Casos favorables a 10:
1
2
6
1
3
6
1
3
5
1
4
5
1
4
4
2
2
6
2
2
5
2
3
5
2
3
4
2
4
4
3
3
3
3
3
4
Pero Galileo, en su libro Considerazione sopra il giuoco dei dadi, vio que estas combinaciones no se pueden considerar igualmente probables. Explica por qué y calcula las correspondientes probabilidades. mediante una simulación?
32
¿Como dilucidarías el problema
4)
Define “independencia entre eventos” y “eventos mutuamente excluyentes”. ¿Cuál es la diferencia entre estos dos conceptos?
5)
En una línea de producción de una fábrica en China se produce cierto tipo de artículo y de esta producción, el 10% de los artículos salen defectuosos. Debido a la naturaleza del proceso de fabricación, esta probabilidad es constante para cada artículo individual en la línea de producción. Un inspector de calidad visita la fabrica y toma una muestra aleatoria de 4 artículos. ¿Cuál es la probabilidad de que encuentre uno o más artículos defectuosos?
6)
En la republica Bolivariana de Venezuela se producen en promedio 200 casos de corrupción administrativa semanalmente, según un proceso de Poisson. De estos casos de corrupción, solo el 1% concluye en cárcel para los culpables. ¿Cuál es la probabilidad de que en la próxima semana se produzcan 2 o más delitos de corrupción punibles?
7)
Sea T el tiempo de vida en horas de un componente distribuido exponencialmente con tiempo de vida promedio de 5 horas. Calcula las siguientes probabilidades: a) P [T > 3] b) P [T = 5] c) P [4 ≤ T < 6]
8)
Dos bolas idénticas se distribuyen en tres urnas numeradas. Este experimento aleatorio tiene 6 resultados posibles cuyas probabilidades se dan respectivamente (cada elemento en los vectores de resultados representan la cantidad de bolas en la urna correspondiente): Resultado
Probabilidad
Resultado
Probabilidad
(2,0,0)
1/9
(0,1,1)
2/9
(1,1,0)
2/9
(0,2,0)
1/9
(1,0,1)
2/9
(0,0,2)
1/9
Elabora un programa en R que calcule de forma aproximada la probabilidad de observar el resultado (2,0,0).
Dicho programa debe simular el experimento
33
aleatorio descrito un numero N suficientemente grande de veces y estimar dicha probabilidad mediante la proporción de veces que se obtiene el resultado (2,0,0) con respecto al número total de ensayos N. 9)
Se efectúa un curioso duelo con pistolas entre tres personas, cada uno con una determinada probabilidad de acertar el tiro según se indica a continuación: participante A : 0,3
participante B : 1
participante C: 0,5
En este duelo, comienza el participante A, luego le toca el turno a B y por ultimo a C. Comienza la ronda nuevamente en el mismo orden hasta que quede un solo hombre en pié, eliminando sucesivamente a aquellos que reciban un tiro. El participante A debe escoger entre dos estrategias al comienzo del duelo: disparar a B o disparar al aire. Si dispara al aire, no elimina a nadie. Tocándole el turno a B, este elimina a C y cuando le toque el turno a A nuevamente, este tiene una probabilidad de 0,3 de eliminar a B y así ganar el duelo. Si le dispara primero a B, podría eliminarlo e intercambiar disparos indefinidamente con C hasta eliminarlo.
¿Cuál es la probabilidad de que A gane el duelo si emplea esta
segunda estrategia? ¿Es menor o mayor que la probabilidad de ganar disparando al aire la primera vez? Determina esta probabilidad analíticamente y mediante una simulación en R.
34
Capitulo 2- Introducción a los procesos estocásticos. Terminología y nociones preeliminares 2.1.
Definición y ejemplos de procesos estocásticos.
Los procesos estocásticos son básicamente fenómenos cuyo comportamiento se desarrolla en el tiempo y se rige por las leyes de las probabilidades 7. Ejemplos de tales fenómenos son: el movimiento browniano de una partícula, el crecimiento de una población tal como una colonia bacterial, el tamaño de una cola en una estación cliente/servidor, la recepción de una señal en presencia de ruido o perturbaciones, los precios de un bien en un lapso de tiempo, las fluctuaciones de fortuna en un juego de azar, etc. Existen caracterizaciones de procesos estocásticos cuya variable no es el tiempo, sino la ubicación espacial. Ejemplos de estos procesos estocásticos espaciales son la distribución geográfica de especies de plantas o animales y es estudio de epidemias, donde el contagio de una enfermedad en un sitio depende de su proximidad con otros sitios infectados. El interés principal de este curso es más bien sobre los procesos estocásticos temporales y no sobre los espaciales. Otro concepto relacionado es el de series cronológicas- estas se refieren a las observaciones, o realizaciones en el tiempo de un proceso estocástico implícito y son objeto de estudio para los economistas principalmente. Habiendo hecho la suposición que una serie cronológica (correspondiente a los precios de una acción en la bolsa de valores, por ejemplo) es una realización de un proceso estocástico, los investigadores tratan de inferir estadísticamente a partir de las observaciones, las leyes que gobiernan el proceso a fin de predecir ciclos o valores futuros. Para efectos matemáticos, un proceso estocástico es una sucesión de variables aleatorias, cada una de las cuales describe el estado del sistema en un instante de tiempo dado. Esta definición es adecuada porque abarca los siguientes aspectos: 1) el 7
La palabra “estocástico” es de origen griego, proviene de “stokhos”, que significa objetivo, o
blanco en el juego de dardos.
“Stokhastikos”, como adjetivo, alude a apuntar bien, a quién es
hábil para conjeturar. El adjetivo “estocástico” fue incorporado al lexico matemático en 1953- no está del todo claro como adquirió la acepción pertinente a “aleatorio” usada
hoy en día
(REBOLLEDO, 5)
35
estado del sistema en un tiempo determinado es variable, y su variabilidad se debe a mecanismos aleatorios, 2) la variable aleatoria del estado del sistema es una función que depende del tiempo y en consecuencia, su distribución está determinada por el instante de tiempo que se considere, 3) si se consideran los estados de un sistema en distintos instantes de tiempo conjuntamente, se puede conceptuar un proceso estocástico como un vector aleatorio n-dimensional. Resumiendo: Definición (Proceso estocástico) – Un proceso estocástico es una sucesión o conjunto de variables aleatorias
{X (t ), t ∈ T }
definidas sobre un espacio de probabilidad común
(Ω,ℑ,P) . En esta definición, t es el parámetro de tiempo, el cuál toma valores en un conjunto T denominado conjunto índice. Según sea T un conjunto numerable o no, el proceso estocástico será de parámetro discreto o continuo, respectivamente. Usualmente, el valor ínfimo de T es 0, pues se analizarán los procesos estocásticos a partir de un instante de tiempo 0. Los procesos estocásticos de parámetro discreto se denotan por
{X i , i = 0,1,2,…} . Las variables aleatorias
X (t ) toman valores en un espacio medible
llamado espacio de estados (state-space en ingles). Si se tiene un proceso estocástico y se fija algún ω ∈ Ω , la función t → X t (ω ) se llama trayectoria del proceso estocástico X. Para aclarar un poco estos conceptos, considérese el siguiente ejemplo: se cuenta el número de personas que entran a un banco entre las 9 y 10 am. Definimos el conjunto índice como el conjunto de todos los posibles instantes de tiempo entre las 9 y 10am- el proceso estocástico es por lo tanto de parámetro continuo. Considerando que estamos interesados en la cantidad de personas que han entrado en cierto instante de tiempo, definiríamos el espacio de estados como el conjunto de todos los valores enteros no negativos. Por último, si consideramos una realización del proceso estocástico antes descrito para un día especifico, digamos el 29 de agosto de este año, tendríamos una trayectoria del proceso. Dado un conjunto finito de n índices en T {t1,…, t n } ,
( X (t1 ),…, X (t n ))
es un vector
aleatorio n-dimensional que genera la función de distribución en R n dada a continuación:
36
Ft1,…,tn (x1,…, x n ) = P {X (t1 ) ≤ x1 ,…, X (t n ) ≤ x n } Tales funciones de distribución se conocen como las funciones de distribución finitodimensionales del proceso estocástico y generalmente, un proceso estocástico se determina conociendo todas sus funciones de distribución finito dimensionales, aunque esto no es siempre cierto, como se evidencia en el siguiente contraejemplo- Sea
Ω = [0,1] y P la distribución uniforme en [0,1], de modo que el experimento básico consiste en escoger un número al azar en [0,1]. Sobre este espacio de probabilidades se definen dos procesos: a.
{X (t ), t ∈ [0,1]} definido por X (t,ω ) = 0 para todo t,ω.
b.
{Y (t ), t ∈ [0,1]} definido por
⎧0 X (t ,ω ) = ⎨ ⎩1
si t ≠ ω si t = ω
Y(t) se puede considerar como un proceso que da un salto discontinuo en un instante de tiempo aleatorio marcando la ocurrencia de algún evento en ese instante, tal como por ejemplo una explosión. Se puede ver intuitivamente que ambos procesos X e Y tienen las mismas funciones de distribución finito dimensionales y sin embargo, no son el mismo proceso. En la práctica, es muy difícil, sino imposible, obtener las funciones finito-dimensionales para todo conjunto de índices {t1 ,…, t n } y todo n, por lo cual se definen las funciones de distribución de primer y segundo orden. La función de distribución de primer orden se corresponde a la distribución de la variable aleatoria en un tiempo determinado:
Ft0 (x 0 ) = P {X (t 0 ) ≤ x 0 } Si estamos interesados en relacionar el comportamiento de un proceso estocástico en dos instantes de tiempo utilizamos la función de distribución de segundo orden:
Ft1,t 2 (x1, x 2 ) = P {X (t1 ) ≤ x1, X (t 2 ) ≤ x 2 }
37
2.2.
Probabilidad y esperanza condicional. Definiciones y propiedades.
Las nociones de probabilidad y esperanza condicional juegan un papel importante dentro del estudio de los procesos estocásticos.
Seguramente el lector esta
familiarizado con las nociones de probabilidad condicional relativas a eventos y de algunos resultados consecuentes como el teorema de la probabilidad total y el teorema de Bayes- estas nociones generalmente se exponen en las primeras partes de cualquier curso elemental de probabilidades.
Repasando, la probabilidad condicional de que
ocurra un evento A conociendo la ocurrencia de un evento B es:
P (A B ) =
P (A ∩ B ) , la cual tiene sentido si la probabilidad de B es no-nula. P (B )
Esta noción se puede extender al condicionamiento de una variable Y por otra variable X si X e Y son discretas.
P (Y = y n X = x m ) =
P (Y = y n ∩ X = x m ) p X ,Y (x m , y n ) = , P(X = xm ) p X (x m )
[2.1]
donde p X ,Y es la función de probabilidad conjunta del par aleatorio ( X,Y ) . La variable aleatoria discreta que tiene tal función de probabilidad se denota por Y X = x m . Se recalca que Y X = x m es una variable aleatoria que asume valores y n con las probabilidades condicionales indicadas arriba. Además, si X e Y son independientes,
Y X = x m e Y tienen la misma distribución. Siendo Y X = x m una variable aleatoria, tiene su esperanza matemática asociada, que es:
E [Y X = x m ] =
∑ y ⋅ P (Y = y X = x m ) , que está definida para p X (x m ) no nulo. sobre y
A medida que x m varia a través del espacio de probabilidad inducido por X, la esperanza anterior asume los valores correspondientes por lo cual se puede considerar la esta como una función dependiente de las instancias particulares de X:
f (α ) = E [Y X = α ] =
∑ y ⋅ P (Y = y X = α ) sobre y
38
[2.2]
La expresión 2.2 se lee “esperanza condicional de Y dado que X vale α”. Como α representa los posibles valores que toma la variable aleatoria X, se tiene que f ( X ) es una variable aleatoria también.
f ( X ) , mejor denotada por E [Y X ] , es de hecho la
esperanza condicional de la variable aleatoria Y condicionada por X. Se enfatiza que
E [Y X ] es una variable aleatoria, lo cual le puede parecer a primera vista extraño al
lector si está acostumbrado a considerar el valor esperado como una característica numérica de la distribución. No obstante, para que esta definición nos sea de utilidad en el estudio de los procesos estocásticos, debemos de generalizarla aún más: Definición (Esperanza condicional de Y dadas
X 1 , … , X n ): Sean X 1 , … , X n
variables aleatorias que toman valores en un conjunto E y sea Y otra variable aleatoria. La esperanza condicional de Y dada la sucesión X 1 , … , X n es:
E [Y X 1 , … , X n ] = f ( X 1 , … , X n ) , donde f esta definida para cualquier vector α 1 , … , α n , con α i ∈ E por
f (α 1 ,…, α n ) = E [Y X 1 = α 1,…, X n = α n ] =
∑ y ⋅ P (Y = y X 1 = α1,…, X n = α n ) sobre y
Esta
definición
de
esperanza
condicional
se
puede
extender
al
caso
de
condicionamiento por variables aleatorias continuas si consideramos la función de densidad de probabilidad condicional en vez de la función de probabilidad dada en la ecuación 2.1. En efecto
fY
X1,… X n
(y x1,…, x n ) =
f X1,…, X n ,Y (x1,…, x n , y )
[2.3]
f X1,… X n (x1,…, x n )
La consecuente redefinición de la esperanza condicional para el caso de las
X 1 , … , X n continuas es dada a partir de:
g (α 1 ,…, α n ) = E [Y X 1 = α 1,…, X n = α n ] =
∫ y ⋅ f (y α1,…,.α n )dy
[2.4]
sobre y
39
La esperanza condicional comparte muchas de las propiedades de la esperanza matemática que se trata en los cursos elementales de probabilidad, tales como:
Propiedad 1: E [c1Y1 + … + c nYn X 1,…, X m ] = c1E [Y1 X 1,…, X m ] + … + c n E [Yn X 1,…, X m ] Propiedad 2:
Si Y puede escribirse como función de X 1 , … , X n , es decir Y = f ( X 1 , … , X n ) , entonces E Y X 1 , … , X n = Y
[
]
Propiedad 3: Como E [Y X1 , … , X n ] es una variable aleatoria, esta tiene esperanza y es E [E [Y X 1 , … , X n ]] = E [Y ]
Propiedad 4: Para n, m ≥ 1 se tiene E [ E [Y X 1 , … , X n + m ] X 1 , … , X n ] = E [Y X 1 , … , X n ] Propiedad 5: Sean X 1 , … , X n y Y1 , … ,Ym dos conjuntos de variables aleatorias tales que si se conoce los valores de uno se puede determinar los valores del otro, entonces, para cualquier Y se tiene E Y X 1 , … , X n = E Y Y1 , … , Ym .
[
Propiedad 6:
]
[
[
]
]
[
]
Si X e Y son independientes, entonces E X Y = E [X ] y E Y X = E [Y ] , casi
siempre. Los conceptos de probabilidad y esperanza condicional son imprescindibles para caracterizar los diversos tipos de procesos aleatorios- es a través de las probabilidades y la esperanza condicional que se definen las relaciones de dependencia (o de independencia) entre los estados de un proceso aleatorio en distintos instantes de tiempo. Además, la esperanza condicional y las probabilidades condicionales permiten abordar problemas como el que se enuncia a continuación:
40
El Ladrón de Bagdad El Ladrón de Bagdad se encuentra en un calabozo con tres puertas. Una de las puertas conduce a un túnel que luego de un día de camino regresa al mismo punto de partida. Otra de las puertas conduce a un túnel similar al anterior cuya travesía toma tres días. La tercera puerta conduce a la libertad. Asumiendo que el Ladrón escoge cualquiera de las tres puertas con igual probabilidad y que cada vez que escoge una puerta se le ha olvidado que hay detrás de cada puerta, encuentre la cantidad de días en promedio que el Ladrón pasará encerrado en el calabozo desde el momento en que primero escoge entre las tres puertas hasta que haya escogido la puerta que lo lleva a la libertad. Cada vez que el Ladrón de Bagdad escoge una de las tres puertas constituye un ensayo de Bernoulli con 1/3 probabilidad de éxito, entendiendo por éxito abrir la puerta que conduce a la libertad. Un primer abordaje del problema nos motiva a considerar el número de ensayos N que realiza el ladrón antes de conseguir su libertad, lo cual sería una variable aleatoria geométricamente distribuida. Pero aclarando que N representa el número de ensayos fallidos antes de escoger la puerta hacia la libertad, por lo cual su función de probabilidad y su valor esperado son los que se dan a continuación:
pN (n ) = pq n para n = 0,1,2,… ∞
∞
∞
∞
n =0
n =1
n =1
n =0
E [N ] = ∑ npq n = p∑ nq n = pq ∑ nq n −1 = pq ∑ nq n −1 = pq ⋅ pq
1
(1 − q )
2
=
∂ ⎛ 1 ⎞ ⎜ ⎟= ∂q ⎜⎝ 1 − q ⎟⎠
q 1 2 = 2, ya que p = , q = p 3 3
La variable geométrica difiere un poco de la indicada en la tabla 1.1 porque en este contexto, la variable aleatoria de interés es el número de ensayos fallidos antes de conseguir el primer éxito. En cambio en la tabla 1.1, se plantea la variable geométrica como el número total de ensayos efectuados hasta conseguir el primer éxito.
En
aquellos ensayos fallidos, el ladrón escoge una puerta que adiciona 1 día de
41
permanencia en el calabozo u otra puerta que adiciona 3 días de permanencia en el calabozo. Por lo tanto la variable de interés es
SN = X 1 + … + X N Donde N es la variable aleatoria geométricamente distribuida que se mencionó anteriormente y los X i son cada uno variables aleatorias independientes de tipo Bernoulli con
P {X i = 1} = P {X i = 3} =
1 2
En términos de esperanzas condicionales, estamos interesados en encontrar E [ E [SN N ] ] = E [E [X 1 + … + X N N ] ]
Habida cuenta que E [SN N ] es una variable aleatoria, que los X i son variables aleatorias independientes con igual esperanza y que a su vez son independientes de N, se tiene que: E [ E [SN N ] ] = E [E [X 1 + … + X N N ] ] = E [N ] ⋅ E [X i ] =
q ⎛ 1 1⎞ ⋅ ⎜1 ⋅ + 3 ⋅ ⎟ = 2 ⋅ 2 = 4 2⎠ p ⎝ 2
La cantidad esperada de días que el Ladrón de Bagdad permanecerá en el calabozo antes de salir libre es de cuatro días. Veamos si la simulación confirma el resultado hallado analíticamente: #Simulación del problema del Ladrón de Bagdad #Problema discutido en el aparte 2.2 del texto #Autor: José L. Romero P. Fecha: 23/08/2007 N <- 100000 #el siguiente código genera un vector de tamaño N #de la cantidad de días que el ladrón pasa en la cueva #por simulación x <- NULL for (i in 1:N) { total.dias <- 0 dia.i <- sample(c(0,1,3),1,replace=TRUE) while (dia.i!=0) { total.dias <- total.dias+dia.i dia.i <- sample(c(0,1,3),1,replace=TRUE) } x<-c(x,total.dias) }
42
#el siguiente código es equivalente al anterior, observando que #la cantidad de ensayos de puertas es una variable aleatoria #geométrica con probabilidad de exito igual a 1/3. La cantidad #de diás que se adicionan en cada ensayo no exitoso en 1 o 3, con #igual probabilidad para ambos valores. x <- NULL for (i in 1:N) { x<-c(x,sum(sample(c(1,3),rgeom(1,p=1/3),replace=TRUE))) } cat("Cantidad esperada de días en el calabozo: ",mean(x)) Cantidad esperada de días en el calabozo:
4.012
2.3. Caracterización de los procesos aleatorios: valor medio y núcleo de covarianza. Para caracterizar completamente un proceso estocástico se requiere conocer sus funciones de distribución finito-dimensionales. Sin embargo, existen características de los procesos aleatorios que resumen, por lo menos parcialmente, su comportamiento. En el caso de la variable aleatoria que estudiamos en los cursos de probabilidades, la esperanza y la varianza juegan este papel.
De forma análoga, para los procesos
estocásticos se tiene la función de valor medio y el núcleo de covarianza.
Definición (Función de valor medio): Sea
{X (t ), t ∈ T }
un proceso estocástico.
Su
función de valor medio se denota por m X (t ) y se define por:
m X (t ) = E [X (t )] = ∫ xf X (t ) (x )dx Ω
donde f X (t ) (x ) es la función de densidad de primer orden del proceso. Es de notar que
m X (t ) es una función determinista, dependiente a lo sumo del instante de tiempo t.
Definición (Núcleo de covarianza): Sea
{X (t ), t ∈ T }
un proceso estocástico con
segundo momento finito. Su núcleo de covarianza, denotado por K (s, t ) , se define como:
K (s, t ) = Cov [X (s ), X (t )] = E [( X (s ) − m X (s ))( X (t ) − m X (t ))] 43
Muchos procesos surgen como función de un número finito de variables aleatorias. Por ejemplo, supóngase que X (t ) representa la posición de una partícula en movimiento rectilíneo no acelerado con velocidad constante.
X (t ) se define en función de una
posición inicial X 0 y una velocidad V de la siguiente forma
X (t ) = X 0 + V ⋅ t Si X 0 y V son variables aleatorias, X (t ) es en efecto un proceso estocástico. Su función de valor medio y su núcleo de covarianza se calculan a continuación:
m X (t ) = E [X (t )] = E [X 0 + V ⋅ t ] = E [X 0 ] + t ⋅ E [V ] K (s, t ) = Cov [X (s ), X (t )] = E [( X (s ) − m X (s ))( X (t ) − m X (t ))]
= E [( X 0 + sV − E [X 0 ] − sE [V ])( X 0 + tV − E [X 0 ] − tE [V ])]
[
= E ( X 0 − E [X 0 ]) + (s + t ) ⋅ ( X 0 − E [X 0 ])(V − E [V ]) + st (V − E [V ]) 2
= V [X 0 ] + (s + t )Cov [X 0 ,V ] + st ⋅V [V ]
2
]
Observamos que para calcular la función de valor medio y el núcleo de covarianza no se requiere conocer la ley de probabilidad conjunta de X 0 y V – basta con conocer los valores esperados, las varianzas y la covarianza de X 0 y V.
Mediante este ejemplo
tomado de la física se aclaran aún más las ideas expuestas hasta ahora. La trayectoria del proceso aleatorio sería el desplazamiento de una partícula ω determinada (su gráfica de movimiento). Tanto la trayectoria como la función de valor medio y el núcleo de covarianza son características deterministas del proceso estocástico en el sentido en que solo dependen de los instantes de tiempo considerados.
44
2.4.
Incrementos independientes y estacionarios. Procesos estacionarios
Frecuentemente, es más natural describir un proceso estocástico a través de una caracterización de cómo este evoluciona en el tiempo, pues los incrementos, o cambios de estado de un proceso generalmente poseen propiedades más sencillas que las variables mismas de la secuencia aleatoria. Primero debemos definir qué entendemos por “incremento”: Definición (Incremento): Dado un proceso aleatorio
{X (t ), t ∈ T } ,
un incremento
representa la evolución o cambio de estado de un proceso en un lapso de tiempo, lo cual se expresa matemáticamente por
X (t + Δt ) − X (t ) para t, Δt ∈ T Para un proceso de parámetro discreto, incremento se refiere a como cambia el proceso en un paso de tiempo ( Δt = 1 ), siendo m-incremento el cambio del proceso en m pasos de tiempo. Consideremos un proceso estocástico {X (t ), t ∈ T } de tiempo continuo y una colección de parámetros en T linealmente ordenados, t1 ,…, t n , que satisface t1 < … < t n . Se dice que X (t ) es un proceso con incrementos independientes si las variables aleatorias
X (t 2 ) − X (t1 ), …, X (t n ) − X (t n −1 ) son independientes. Algunos autores definen los incrementos independientes con condiciones más fuertes: Si el conjunto de parámetros temporales tiene un mínimo t 0 , también debemos suponer la independencia de X (t 0 ), X (t1 ) − X (t 0 ), …, X (t n ) − X (t n −1 )
en un proceso con
incrementos independientes. Usualmente se define t 0 = 0 porque el instante cuando comenzamos a observar el proceso aleatorio es el instante cero.
Incluso por
convención, se asume que X (t 0 ) = 0 , ya que en el instante cero no ha sucedido nada (el estado inicial de un proceso aleatorio en el instante cero es cero y los incrementos sucesivos determinan cuán lejos se desvía el proceso aleatorio con respecto a ese cero).
45
Definiendo los incrementos como una sucesión de variables aleatorias independientes
Y (t 0 ) = X (t 0 ), Y (t i ) = X (t i ) − X (t i −1 ) para i ≥ 1 , se hace evidente (por lo menos intuitivamente) que si conocemos las distribuciones de Y (t 0 ),Y (t1 ),…,Y (t n ) podemos determinar la distribución conjunta de X (t 0 ), X (t1 ),…, X (t n ) . Esto se puede verificar mediante la función característica conjunta y la propiedad de independencia de los incrementos. Por una parte, según esto último:
ϕY (t0 ),…,Y (tn ) (u 0 , , u n ) = ϕY (t0 ) (u 0 ) ⋅ … ⋅ ϕY (tn ) (u n )
[2.5]
Por otra parte, se tiene [2.6]:
ϕY (t0 ),…,Y (tn ) (u 0 , , u n ) =
E [exp i (u 0 X (t 0 ) + u1 ( X (t1 ) − X (t 0 )) +
+ u n ( X (t n ) − X (t n −1 )))] =
E [exp i ((u 0 − u1 )X (t 0 ) + (u1 − u 2 )X (t1 ) +
ϕ X (t0 ),…, X (tn ) (u0 − u1, , u n −1 − u n , un )
+ (u n −1 − un )X (t n −1 ) + u n X (t n −1 ))] =
Mediante la siguiente transformación de los parámetros de la función característica :
z0 = u 0 − u1,…, z n −1 = u n −1 − u n , zn = u n o equivalentemente
u 0 = z0 + z1 + … zn , u1 = z1 + z 2 + … + zn , …, u n = zn Podemos combinar las ecuaciones 2.5 y 2.6 en una sola:
ϕ X (t0 ),…, X (tn ) (z 0 , , z n ) =
ϕ X (t0 ) (z 0 + z1 + … z n ) ⋅ ϕ X (t1 )− X (t0 ) (z1 + … + z n ) ⋅ … ⋅ ϕ X (tn )− X (tn −1 ) (z n )
[2.7]
Esto implica que en efecto, la ley de probabilidad conjunta de la secuencia aleatoria
{X (t ), t ∈ T }
se determina a partir de las leyes de probabilidad de los incrementos
respectivos. Otro concepto de importancia para la clasificación de los procesos estocásticos es el de incrementos estacionarios y el de la estacionariedad. Básicamente, la estacionariedad de un fenómeno aleatorio se refiere a que el mecanismo que lo produce permanece invariante en el tiempo. Un proceso es de incrementos estacionarios si la distribución de probabilidad de los incrementos X (t1 + h ) − X (t1 ) y X (t 2 + h ) − X (t 2 ) es igual para 46
valores positivos cualesquiera de t1, t2 y h. De esta definición se puede colegir que la distribución de los incrementos estacionarios solo depende de la amplitud del intervalo de tiempo h. La idea de estacionariedad se puede extender a la secuencia de variables aleatorias que conforman el proceso estocástico en sí. Sea T un conjunto de índices de linealmente ordenados tal que la suma de dos miembros cualesquiera de T también pertenece a T y consideremos un proceso estocástico {X (t ), t ∈ T } definido sobre ese conjunto de índices temporales. Se dice que {X (t ), t ∈ T } es un proceso estrictamente estacionario de orden n si la distribución conjunta de un par de vectores aleatorios de dimensión n arbitraria ( X (t1 ), X (t 2 ),…, X (t n )) y ( X (t1 + h ), X (t 2 + h ),…, X (t n + h )) es la misma para todo t1 , t 2 , … , t n y h en T.
Un proceso estocástico es estrictamente
estacionario si es estrictamente estacionario de orden n para todo entero positivo n. Esta condición plantea que un proceso estrictamente estacionario está en equilibrio probabilístico y que los instantes particulares en los cuales se observan el proceso no tienen relevancia. En particular, la distribución de X(t) es la misma para todo t. Un proceso {X (t ), t ∈ T } es débilmente estacionario o estacionario en el sentido amplio si tiene momentos finitos de segundo orden, si m X (t ) = m es constante para todo t y si
Cov [X (t ), X (t + h )] = E [X (t )X (t + h )] − E [X (t )]E [X (t + h )] = E [X (t )X (t + h )] − m 2
Depende solo de h para todo t. Todo proceso estrictamente estacionario es también débilmente estacionario pero lo contrario no es cierto.
47
2.5. Algunos tipos de procesos aleatorios: caminata aleatoria, martingalas, procesos de Markov, procesos de Poisson, procesos de Wiener Con esta terminología, se está en condiciones de definir algunos tipos de procesos estocásticos. El primer tipo de proceso que vamos a definir es el ruido blanco: Un proceso estocástico de parámetro discreto constituido por una secuencia de variables aleatorias independientes e idénticamente distribuidas Z0,Z1, … , Zn, … se conoce como ruido blanco. Si adicionalmente E [Z i ] = 0 , el proceso estocástico se denomina ruido blanco con media cero. El proceso es ruido blanco simétrico si además, la distribución de los Zi, es simétrica, como por ejemplo la uniforme, la normal o la tStudent. Si en base a un proceso de ruido blanco Z0,Z1, … , Zn, … definimos el siguiente proceso: n
Sn = S0 + ∑ Z i i =1
con alguna condición inicial S 0 = s 0 o si S0 tiene alguna distribución especifica, el proceso correspondiente
{St , t = 0,1, 2,…}
es una caminata aleatoria.
Los Zi se
denominan los pasos o incrementos de la caminata aleatoria; para que {St , t = 0,1, 2,…} sea efectivamente una caminata aleatoria, {Z t , t =1, 2,…} debe ser un proceso de ruido blanco. Este tipo de procesos se discutirá con más detalle en el próximo capitulo. Un proceso de parámetro discreto {X t , t = 0,1, 2,…} es una martingala si satisface las siguientes dos propiedades:
[ ] E [X n +1
i. E X n < ∞ ii.
X 0 , X 1,…, X n ] = X n
La primera de estas condiciones es más bien para facilitar un poco las matemáticas en el manejo de las martingalas y la segunda si resume en esencia lo que es la martingalaestablece que el valor esperado del próximo estado futuro del proceso dado toda su historia pasada es simplemente el estado actual del proceso. En el contexto del juego de apuestas, el proceso de martingala se denomina a veces “juego justo”, ya que sirve para modelar la riqueza de un jugador en el tiempo cuando la ganancia o perdida esperada en cada turno es cero. En realidad, el término “martingala” proviene del un 48
nombre francés que aludía a una estrategia de juego consistente en duplicar las apuestas hasta ganar con seguridad 8. Un proceso de Markov
{X (t ), t ∈ T }
es aquel cuyos estado futuro solo depende del
estado presente y no del pasado. Los procesos de Markov verifican la propiedad de Markov, que establece que
P {X (t n +1 ) ∈ A X (t n ) = an , …, X (t 0 ) = a0 } = P {X (t n +1 ) ∈ A X (t n ) = an }. En los procesos de Markov, el estado actual del proceso incorpora toda la información que necesitamos para estimar el estado futuro y la probabilidad de un comportamiento futuro no se altera si incorporamos información sobre el pasado del proceso.
Un
proceso de Markov con espacio de estado finito o numerable se denomina cadena de Markov, que se estudiará posteriormente en este curso. Antes de definir el proceso de Poisson, es preciso definir lo que es un proceso de conteo (o counting process en inglés), del cual el proceso de Poisson es una instancia particular. Un proceso de conteo {N (t ), t ∈ T } es aquel cuyo espacio de estados es el conjunto de números naturales y con él se pretende modelar la cantidad de eventos discretos que han ocurrido en un tiempo t. Se enuncia, pues, la siguiente definición: Definición (Proceso de Poisson homogéneo): Un proceso de conteo {N (t ), t ≥ 0} es un proceso de Poisson con tasa media constante (o intensidad) λ si cumple las condiciones a continuación: i.
{N (t ), t ≥ 0} tiene incrementos estacionarios e independientes.
ii. Para dos instantes de tiempo s y t
tales que s < t , la cuenta de eventos
N (t ) − N (s ) acaecidos en el intervalo de tiempo (s, t ) es distribuida según la ley de Poisson con media λ (t − s ) . A saber:
P {N (t ) − N (s ) = k } = e −λ (t −s )
(λ (t − s ))k k!
Existen conjuntos alternativos de suposiciones que conllevan al proceso de Poisson. No obstante, las condiciones que dan origen a un proceso de Poisson se verifican con
8
QUIDEL, p. 440
49
mucha frecuencia- de ahí la enorme importancia de los procesos de Poisson. Ejemplos de procesos de Poisson son: fallas de componentes eléctricos, decaimiento de partículas radioactivas, llamadas recibidas en una central telefónica, etc. Por último, mencionamos el proceso de Wiener, nombrado en honor a N. Wiener, quien fue entre los primeros en considerar matemáticamente el fenómeno del movimiento Browniano.
El movimiento Browniano consiste en lo siguiente: una partícula que
inicialmente se encuentra en determinada posición (por definición se asume X (0 ) = 0 ) es sometida a innumerables y continuos impactos en su entorno, gracias a lo cual está en constante y perpetuo movimiento. El desplazamiento de la partícula en un intervalo de tiempo
(s, t ) ,
el cual es amplio comparado con el tiempo medio entre impactos,
puede ser considerado como la suma de un número indeterminadamente grande de pequeños desplazamientos, por lo cual parece razonable suponer, en virtud del Teorema Central del Límite, que X (t ) − X (s ) es normalmente distribuido. Más aún, es razonable suponer que los desplazamientos en dos intervalos de tiempo de la misma longitud son idénticamente distribuidos, ya que se supone que el entorno de la partícula esta en equilibrio.
El hecho de que el desplazamiento de la partícula se deba a
impactos muy frecuentes e irregulares se traduce matemáticamente estableciendo que los desplazamientos en lapsos de tiempo no coincidentes son independientes entre sí, ya que el número y la magnitud de los impactos en cada intervalo de tiempo es independiente del otro intervalo.
En consecuencia, los incrementos del proceso de
Movimiento Browniano son independientes y estacionarios. Resumiendo, tenemos la siguiente definición para el proceso de Wiener: Definición (proceso de Wiener): Un proceso estocástico de parámetro continuo
{X (t ), t ≥ 0} es un proceso de Wiener si: i. {X (t ), t ≥ 0} tiene incrementos estacionarios e independientes. ii. Para cada t >0 , X (t ) es normalmente distribuido. iii. Para cada t >0, E [ X (t )] = 0 . iv. X (0 ) = 0
50
Problemas Resueltos 1)
Demostrar que si X e Y son variables aleatorias discretas e independientes tales que X ~ Binomial (m, p ) e Y ~ Binomial (n, p ) , entonces
n ⎞ ⎛ X X + Y = s ~ Hipergeomé trica⎜ n + m, s , ⎟ n+m⎠ ⎝ Solución: La suma X+Y de dos variables aleatorias binomiales e independientes es una variable aleatoria binomial:
(
ϕ X +Y (u ) = ϕ X (u ) ⋅ ϕY (u ) = q + pe iu Específicamente,
) (q + pe ) = (q + pe ) m
X + Y ~ Binomial(m + n, p ) .
{
iu m + n
iu n
Por lo tanto, la probabilidad
}
condicional P X = x X + Y = s es:
P {X = x X + Y = s} =
P {X = x, X + Y = s} P {X = x,Y = s − x} = P {X + Y = s} P {X + Y = s}
⎛ n ⎞ x n − x ⎛ m ⎞ s − x m −s + x ⎛ n ⎞ ⎛ m ⎞ ⎟ ⎜⎜ ⎟⎟ ⎜⎜ ⎟p q ⎜⎜ ⎟⎟ p q ⎜⎜ x ⎠ ⎝ s − x ⎟⎠ x⎠ s − x ⎟⎠ ⎝ ⎝ ⎝ = = ⎛m + n⎞ ⎛ m + n ⎞ s n + m −s ⎟⎟ ⎜⎜ ⎟⎟ p q ⎜⎜ ⎝ s ⎠ ⎝ s ⎠ para x = 0,1,…, s y s = 0,1,…, m + n . Se evidencia entonces que
n ⎞ ⎛ X X + Y = s ~ Hipergeomé trica⎜ n + m, s , ⎟ n+m⎠ ⎝ 2)
Sea {X (t ), t ≥ 0} un proceso aleatorio con incrementos independientes y función de valor medio m X (t ) = E [X (t )] finita. Si 0 < t1 < … < t n < t n +1 , demuestrar que
E [X (t n +1 ) X (t1 ),…, X (t n )] = X (t n ) + m X (t n +1 ) − m X (t n ) Solución: Para este problema se utilizarán las seis propiedades de la esperanza condicional (ver sección 2.2) y la independencia de los incrementos.
51
E [X (t n +1 ) X (t1 ),…, X (t n )] =
E [X (t n ) + X (t n +1 ) − X (t n ) X (t1 ),…, X (t n )] =
(propiedad 1)
X (t n ) + E [X (t n +1 ) − X (t n ) X (t1 ),…, X (t n )] =
(propiedad 2)
E [X (t n ) X (t1 ),…, X (t n )] + E [X (t n +1 ) − X (t n ) X (t1 ),…, X (t n )] =
X (t n ) + E [X (t n +1 ) − X (t n )] = (por independencia de los incrementos y por las propiedades 5 y 6)
X (t n ) + m X (t n +1 ) − m X (t n ) 3)
{X n , n = 1,2, …} una sucesión de variables aleatorias independientes con valor medio E [X n ] = 0 para todo n. Se define la sucesión {S n , n = 1,2, …} como
Sea
n
Sn = ∑ X i i =1
Demuestra que {S n , n = 1,2, …} es una martingala. Solución:
[
]
Se pretende demostrar que E S n +1 S1 = a1 , S 2 = s 2 ,…, S n = an = an . Teniendo en
cuenta
la
independencia
de
la
sucesión
{X n , n = 1,2, …}
y
que
Sn +1 = S n + X n +1 , se puede escribir: E [S n +1 S1 = a1,S 2 = s 2 ,…, S n = an ] =
E [S n + X n +1 S1 = a1, S 2 = s 2 ,…, S n = an ] =
E [S n S1 = a1, S 2 = s 2 ,…, S n = an ] + E [X n +1 S1 = a1, S 2 = s 2 ,…, Sn = an ] =
(por la propiedad 1 de la esperanza condicional)
an + E [X n +1 ] = (la sucesión Sn es determinada por la sucesión Xn y por la independencia de los
Xn, se puede aplicar la propiedad 6) an + 0 = an (ya que E [X n ] = 0 para todo n)
52
Problemas Propuestos 1)
Supóngase que pedidos de cantidades variables N de artículos arriban diariamente a un almacén según la siguiente distribución de probabilidades: n: P(N=n):
10
11
12
13
14
15
0.05
0.15
0.30
0.30
0.15
0.05
La probabilidad de que un artículo en particular sea defectuoso
es de 0.10,
independientemente de la presencia de defectos en los otros artículos. Calcula el valor esperado de artículos X que se reciben en un día. 2)
Demuestra que si X e Y son variables aleatorias discretas e independientes distribuidas según la ley de Poisson con parámetros λ1 y λ 2 respectivamente, entonces
⎛ λ1 X X + Y = s ~ Binomial ⎜⎜ s, ⎝ λ1 + λ 2 3)
⎞ ⎟⎟ ⎠
Demuestra que si X ~ Poisson (λ ) y si Y X = x ~ Binomial (x, p ) , entonces
Y ~ Poisson (λp ) . 4)
Demuestra que si X ~ Geométrica (p ) , entonces
P {X = m + n X > m} = P {X = n} Esto confirmaría la propiedad de “falta de memoria” de la distribución geométrica: la información que no hubo éxitos en m pruebas (X>m) es olvidada si se realizan más pruebas (X=m+n). 5)
Considérese el proceso aleatorio X (t ) = At + B donde A es una variable aleatoria que toma los valores 3 y 4 con probabilidades 1 4 y 3 4 , respectivamente y B es una variable aleatoria con función de probabilidad P {B = 1} = P {B = 2} = 1 2 . A y B son variables aleatorias independientes. Obtén la función de valor medio y el núcleo de covarianza del proceso aleatorio. 53
6)
Sea
X (t ) = At + B un proceso aleatorio para el cual A y B son variables
[ ]
[ ]
aleatorias independientes, de esperanza cero y E A 2 = σ A2 , E B 2 = σ B2 .
¿Es
{X (t )} un proceso estacionario? 7)
Considera el proceso X (t ) = A cos ω t + Bsen ω t donde ω ∈ [0,1] , A y B son variables aleatorias no correlacionadas, de esperanza 0 y varianza 1. Demuestra que este proceso es débilmente estacionario.
8)
Demuestra que los incrementos de una caminata aleatoria son independientes y estacionarios.
9)
Sea S0 = 0 y S n = X 1 +
+ X n , donde X 1, X 2 ,… son variables aleatorias
independientes con esperanza 0 y varianza σ 2 (caminata aleatoria simétrica). Calcula la función de valor medio y el núcleo de covarianzas del proceso {S n }. 10)
Sea
{Z n , n ∈ N}
un proceso de ruido blanco con Z n ~ Normal(μ = 1,σ = 2) .
Encuentra las siguientes probabilidades: a) P {Z i > 5} b) P {− 3 < Z i < 5} c) P {Z i = 1} 11)
Demuestra que el valor esperado de un incremento en una martingala es necesariamente igual a cero.
12)
(La cadena de Ehrenfest) Motivado por problemas relacionados con la mecánica estadística T. Ehrenfest describió un experimento con 2 urnas, dentro de las cuales están distribuidas N moléculas. En cada paso del experimento, se escoge al azar una molécula, esta es removida de la urna en la cual se encuentra y es colocada en la otra urna. Así, si se escoge una molécula de la urna A, esta es removida de A y colocada en B y viceversa. El estado del proceso está determinado por el
54
número de moléculas presentes en la urna A a cada paso del experimento. Justifica que el proceso estocástico {X n , n ∈ N} definido por
Xn = cantidad de moléculas presentes en la urna A al instante n, n ∈ N, es una cadena de Markov. Dar su espacio de estados. 13)
Sea
{X n , n ∈ N} un proceso estocástico de parámetro discreto tal que
X 0 = 1,
0 < p < 1 y P [X t +1 = X t + 1 X t ] = p X t , P [X t +1 = X t X t ] = 1 − p X t . Demuestra que {X n , n ∈ N} es una cadena de Markov pero no una martingala. 14)
Demuestra que un proceso de ruido blanco con parámetro discreto no tiene incrementos independientes.
15)
Determina las condiciones bajo las cuales un proceso de ruido blanco es una martingala.
16)
Determina las condiciones bajo las cuales una caminata aleatoria es una martingala.
17)
La martingala, como estrategia de apuestas, consiste en doblar la apuesta si uno pierde y retirarse del juego cuando se gana. El jugador sigue esta estrategia: apuesta inicialmente 1 unidad, luego 2, luego 4 y así continua doblando su apuesta hasta que gane. Supóngase que en cada jugada tiene igual probabilidad de ganar o perder. a) Modela la ganancia de un jugador que emplee esta estrategia planteando un proceso estocástico y definiendo su espacio de estados. b) Demuestra que el jugador siempre se retira del juego con una ganancia de 1 unidad a su favor con probabilidad 1 (ie. casi siempre) c) Explica por que no se permite esta estrategia de apuestas en los casinos modernos (i.e. el croupier se niega a recibir apuestas de aquellos que aparentemente practican esta estrategia)
18)
Escribe un programa en R que simule y represente una trayectoria de un proceso de movimiento Browniano en dos dimensiones.
55
19)
Considera el proceso no determinista: x n = r ⋅ x n −1 (1 − x n −1 ), x 0 = 0,01 . Mediante un programa en R, investiga el comportamiento a la larga de dicho proceso (para valores de n grandes) utilizando valores para r de 2,7 3 y 3,5 respectivamente. Indica tus hallazgos y analiza las implicaciones de los mismos. (Este ejemplo de sistema caótico se debe a Robert May en su estudio de crecimiento poblacional)
56
Capitulo 3- Procesos estocásticos basados en el proceso de Bernoulli y caminatas aleatorias 3.1
El proceso de Bernoulli
El proceso de Bernoulli es un proceso estocástico de parámetro discreto cuya estructura es muy sencilla: en cada paso, se observa la ocurrencia o no ocurrencia de un determinado evento cuya probabilidad se mantiene constante y el en cual cada observación es independiente de todas las observaciones anteriores. El proceso de Bernoulli es en efecto un proceso estocástico de tipo ruido blanco.
Ejemplos de
procesos de Bernoulli son: a. Un inspector de calidad verifica si los productos de una línea de ensamblaje son defectuosos observando una secuencia de productos. Si el i-ésimo producto es defectuoso, registra X i = 1 , de lo contrario anota X i = 0 . Si los defectos se deben a causas aleatorias
de modo que la presencia de defectos en un
producto es independiente de la presencia de defectos en los otros productos, y si además, la proporción p de artículos defectuosos se mantiene constante a través de todas las observaciones, {X i , i ≥ 1} es un proceso de Bernoulli. b. Se monta una alcabala policial en un determinado punto y se paran a todos los conductores que por ella transitan para verificar si portan armas, conducen un vehículo robado o presentan alguna otra irregularidad.
Bajo condiciones
similares a las del ejemplo anterior, si la probabilidad de que un conductor presente alguna irregularidad es constante e independiente entre los conductores que van transitando por la alcabala, la situación descrita se puede modelar adecuadamente mediante un proceso de Bernoulli. En todos estos casos, las variables constituyentes del proceso de Bernoulli representan experimentos aleatorios con dos posibles resultados- éxito o fracaso. En un proceso de Bernoulli, las variables aleatorias constituyentes son idénticamente distribuidas e independientes entre sí.
Este modelo estocástico básico da pié a otros tipos de
procesos estocásticos que se describirán a continuación.
57
3.2
La cantidad de éxitos. Caminatas aleatorias basadas en procesos de Bernoulli.
Si en un proceso de Bernoulli {X i , i ≥ 1} , observamos la cantidad de éxitos ocurridos en el n-ésimo ensayo y los n-1 ensayos anteriores, se define un nuevo proceso aleatorio que es una caminata aleatoria, pues lo que sucede en cada observación se puede modelar mediante la secuencia aleatoria {S i , i ≥ 1} definida como: n
Sn = ∑ X i
[3.1]
i =1
Fig. 3.1
En el capitulo anterior se sugirió que la caminata aleatoria es un proceso con incrementos independientes y estacionarios (ver problema propuesto N° 7 de ese capitulo). Este hecho tiene algunas implicaciones importantes que sería conveniente resaltar:
58
[3.2]
A partir de un instante n dado , la cantidad de éxitos que se registren en los próximos m ensayos de un proceso de Bernoulli ( Sn + m − Sn ) es independiente de la cantidad de éxitos registrados en los n-1 ensayos anteriores.
[3.3]
Más aún, por ser los incrementos estacionarios, la probabilidad de que en las próximas m observaciones se tenga s éxitos solo depende de m y es igual a la probabilidad de que, observando desde el principio los m ensayos, se tenga s éxitos. Matemáticamente: P {S n +m − S n = s S1, S 2 ,…, Sn } = P {Sm = s} .
Podemos calcular el valor esperado y la varianza de Sn sin haber determinado aún su distribución de probabilidad, pues valiéndonos de la definición de Sn como una suma de n variables aleatorias independientes e idénticamente distribuidas según la Ley de Bernoulli: n ⎡n ⎤ n E [Sn ] = E ⎢∑ X i ⎥ = ∑ E [X i ] = ∑ p = np i =1 ⎣ i =1 ⎦ i =1 n ⎡n ⎤ n V [Sn ] = V ⎢∑ X i ⎥ = ∑V [X i ] = ∑ pq = npq i =1 ⎣ i =1 ⎦ i =1
El siguiente tema en nuestra ocupada agenda es determinar las respectivas probabilidades P {Sm = s} , es decir, la distribución de probabilidad de los {S i , i ≥ 1} . Existen diversas maneras de deducir esto- la vía más directa para nosotros es recurrir a nuestro extenso conocimiento sobre las funciones características. En efecto, como los
{Si , i ≥ 1}
son esencialmente sumas de variables aleatorias de tipo Bernoulli con igual
parámetro p y mutuamente independientes, se tiene que:
(
ϕ Sn (u ) = ϕ X1 + X 2 +… + X n (u ) = ϕ X i (u )n = q + pe iu
)
n
Esta función característica se corresponde a la función característica de una Binomial con n ensayos. Con esto demostramos el siguiente teorema:
59
Teorema 3.1: Si
{Si , i ≥ 1}
es una caminata aleatoria basada en experimentos de
Bernoulli, la distribución de cada S n es binomial y se tiene que ⎛n⎞ P {S n = s} = ⎜⎜ ⎟⎟ p s q n −s , para 0 ≤ s ≤ n ⎝s⎠
En la práctica, la fórmula del teorema 3.1, en conjunción con las observaciones hechas en la 3.2 y 3.3 son de mucha utilidad para el cálculo de probabilidades referentes a los estados de una caminata aleatoria basada en el proceso de Bernoulli. Llegados a este punto te sugiero que revises los problemas resueltos correspondientes.
3.3.
La cantidad de ensayos hasta r éxitos: más sobre las caminatas aleatorias basadas en procesos de Bernoulli.
Si en una sucesión {X i , i ≥ 1} de variables aleatorias independientes e idénticamente distribuidas según la ley de Bernoulli (un proceso de Bernoulli) nos referimos a la cantidad de ensayos hasta ocurrir r éxitos (r es fijo), tenemos otro proceso aleatorio basado en un proceso de Bernoulli en el cual la secuencia de variables aleatorias representa los instantes o ensayos en los cuales ocurren los éxitos sucesivos. Intentemos esquematizar esto matemáticamente.
Si por ejemplo tenemos una
trayectoria de un proceso de Bernoulli como esta: x1 = 0, x 2 = 0, x 3 = 1, x 4 = 0, x 5 = 1, … , la trayectoria del proceso que estamos definiendo sería t 1 = 3, t 2 = 5, … , porque el primer éxito ocurre al tercer ensayo y el segundo éxito ocurre al quinto ensayo. De forma general, si {T i , i ≥ 1} es el proceso que estamos definiendo, entonces, en función de la secuencia aleatoria {X k , k ≥ 1}, Ti (ω ) será igual al índice k de aquella secuencia donde ocurre el i-ésimo éxito. ¿Qué podemos decir sobre el comportamiento de esta secuencia aleatoria? En primer lugar, debe ser una secuencia estrictamente creciente, porque si el i-ésimo éxito ocurre en el ensayo Ti , el siguiente éxito necesariamente ocurre después y se tiene que Ti +1 > Ti para cualquier i. De modo intuitivo, constatamos que los incrementos de este
proceso son independientes y estacionarios (esto se puede demostrar). 60
El
razonamiento de ello es a grandes rasgos el siguiente: el mecanismo subyacente que produce la secuencia {T j , j ≥ 1} es el proceso de Bernoulli
{X i , i ≥ 1},
que es una
sucesión de variables independientes cuyo parámetro p es invariante en el tiempo. Además, si el incremento Ti +1 − Ti = n, con n>0, es porque después del Ti -ésimo éxito ocurren n-1 fracasos sucesivos, luego de los cuales ocurre el Ti +1 -ésimo éxito. La probabilidad de ello es q n −1 p . En otras palabras, los incrementos se distribuyen según la ley de probabilidad geométrica. Tratemos de esquematizar lo enunciado hasta ahora:
Teorema 3.2: Si {T j , j ≥ 1} representa un proceso estocástico que caracteriza el número de ensayos de Bernoulli hasta el j-ésimo éxito, entonces P {Tk +1 − Tk = n T1 ,…,Tk } = P {Tk +1 − Tk = n} = q n −1 p
Este teorema establece que los incrementos son estacionarios, ya que la anterior probabilidad no depende de k.. Además, por lo dicho sobre la independencia de los incrementos se puede parafrasear en el siguiente teorema, que se da sin demostración:
Teorema 3.3: Sea {T j , j ≥ 1} un proceso estocástico como en el teorema 3.2, entonces, para k ∈ N + y n ≥ k , se tiene que si Tk ≥ n ⎧ 0 P {Tk +1 = n T1 ,T2 ,…,Tk } = P {Tk +1 = n Tk } = ⎨ n −1−Tk p si Tk < n ⎩q
Esto además demuestra que el proceso estocástico {T j , j ≥ 1} goza de la propiedad de Markov. Antes de proceder, aclaremos de una vez que asumimos que T0 = 0 porque con el 0-ésimo éxito ocurre en el 0-ésimo ensayo con probabilidad uno. Ahora surge la pregunta: ¿Cómo se distribuyen los
{T j , j ≥ 1}?
Si has leído atentamente esta
exposición, muy probablemente ya lo hayas adivinado:
61
Teorema 3.4: Sea {T j , j ≥ 1} un proceso estocástico como en el teorema 3.2, entonces, n − 1⎞ k n −k para n = k, k + 1,… se tiene que P {Tk = n} = ⎛⎜ ⎜ k − 1⎟⎟ p q ⎝ ⎠
Este último teorema establece que cada Tk en la secuencia aleatoria {T j , j ≥ 1} se distribuye según la ley binomial negativa. Existen varias formas de demostrar esto- la más expedita para nosotros es tomar en cuenta que este proceso es después de todo una caminata aleatoria; cada variable Tk
es una sumatoria de k incrementos
independientes e idénticamente distribuidos, es decir: Tk = (Tk − Tk −1 ) + (Tk −1 − Tk −2 ) + … + (T1 − T0 )
Como damos por hecho que los incrementos se distribuyen todos según la misma ley geométrica, entonces la función característica de Tk es:
⎛ pe iu ϕTk (u ) = ⎜⎜ iu ⎝ 1 − qe
⎞ ⎟ ⎟ ⎠
k
la cual corresponde a la función característica de la binomial negativa y por lo tanto (véase tabla 1.1 del capítulo 1): ⎧⎛ n − 1⎞ k n − k ⎟p q ⎪⎜ pTk (n ) = ⎨⎜⎝ k − 1⎟⎠ ⎪ 0 ⎩
62
n≥k n
3.5.
La ruina del jugador
Consideremos un juego donde en cada apuesta, un jugador gana un BF con probabilidad p y pierde un BF con probabilidad 1-p. Claramente, la fortuna del jugador luego de n apuestas se puede modelar mediante una caminata aleatoria {Fn , n ∈ N} , donde n
Fn = ∑ X i i =0
es la suma de n+1 variables aleatorias independientes e idénticamente distribuidas, teniéndose que X 0 = X es la fortuna inicial del jugador (antes de apostar) y los X i sucesivos son los incrementos en BF luego la respectiva apuesta, cuya distribución de probabilidad viene dada por: P {X i = 1} = p
y
P {X i = −1} = 1 − p = q
Supóngase además que el jugador, partiendo de un capital inicial X, juega contra un adversario que dispone de un capital Y (el adversario puede ser la “casa” u otro jugador), de modo que en cada partida, si el jugador gana 1 BF, el adversario pierde la misma cantidad y vice-versa . Para colocar las cosas más en perspectiva, entre el jugador y la casa, siempre hay un capital total de T = X + Y BF, por ser la sumatoria de la ganancia de los participantes igual a cero (en términos de la Teoría de Juegos, se trata de un juego de suma cero 9). Asumamos que este juego de suma cero termina cuando alguno de los participantes se arruina, lo cual ocurre cuando la fortuna del jugador alcanza los T BF, en cuyo caso se arruinó la casa, o la fortuna del jugador llega a 0 BF, en cuyo caso se arruinó él. Los estados 0 y T de la fortuna del jugador se denominan barreras absorbentes, porque una vez que la trayectoria toca alguno de esos estados, jamás sale de ellos. Una pregunta interesante en torno a este juego es la siguiente: partiendo de un capital inicial de X BF, ¿cual es la probabilidad de que el jugador se arruine? Para abordar esta pregunta, comencemos por la siguiente definición: 9
Los juegos en los que los intereses de los jugadores son diametralmente opuestos se llaman de
suma cero. El término “suma cero” se deriva de los juegos de salón tales como el poker en el que la riqueza ni se crea ni se destruye. Así pues, un jugador gana dinero siempre a expensas de los otros jugadores (DAVIS, p. 28)
63
Sea R X la probabilidad de ruina del jugador partiendo de un capital inicial X siendo 1 ≤ X ≤ T − 1 . Además, se define R 0 = 1 y RT = 0 . R X es lo que se quiere hallar y establecemos la siguiente relación:
R X = pR x +1 + qR x −1
[3.4]
Dicha relación se motiva en el siguiente razonamiento: si la fortuna del jugador es X, luego de un turno, habrá ganado 1 BF con probabilidad p (en cuyo caso su fortuna será de X + 1 ) o habrá perdido 1 BF con probabilidad q (en cuyo caso continua el juego con X − 1 BF). Si lo anterior no es lo suficientemente claro aún, definamos R X como una
probabilidad condicional y procedamos simbólicamente:
R X = P (ruina {Fn = X }) y
{X n +1 = 1} , {X n+1 = −1} son eventos disjuntos y mutuamente
complementarios (son una partición de Ω). Luego: P (ruina ∩ {Fn = X }) =
P (ruina ∩ {Fn = X }∩ ({X n +1 = 1}∪ {X n +1 = −1})) = P (ruina ∩ {Fn = X }∩ {X n +1 = 1}) + P (ruina ∩ {Fn = X }∩ {X n +1 = −1}) =
[3.5]
Por otro lado, utilizando en 3.2 la propiedad de las probabilidades condicionales que establece que P (A ∩ B ) = P (A B )P (B ) P (ruina {Fn = X } )P {Fn = X } =
P (ruina {Fn = X }∩ {X n +1 = 1} )P ({Fn = X }∩ {X n +1 = 1}) +
P (ruina {Fn = X }∩ {X n +1 = −1})P ({Fn = X }∩ {X n +1 = −1}) = P (ruina {Fn = X }∩ {X n +1 = 1} )P {Fn = X }P {X n +1 = 1} +
P (ruina {Fn = X }∩ {X n +1 = −1})P {Fn = X }P {X n +1 = −1} =
[3.6]
La última igualdad en 3.6 se debe a la independencia entre X n +1 y Fn . Aunado a eso,
{Fn
= X } ∩ {X n +1 = 1} = {Fn +1 = X + 1} y {Fn = X } ∩ {X n +1 = −1} = {Fn +1 = X − 1} .
Por lo
tanto, factorizando las respectivas expresiones en 3.6 por P {Fn = X } y recordando que P {X n +1 = 1} = p y P {X n +1 = −1} = q , concluimos que:
P (ruina {Fn = X }) = p ⋅ P (ruina {Fn +1 = X + 1}) + q ⋅ P (ruina {Fn +1 = X − 1}) → R X = pR X + 1 + qR X −1
64
Con lo anterior se demuestra la validez de la ecuación 3.4. Ecuaciones como esta denominan ecuaciones en diferencias, sobre las cuales es oportuno hacer una breve digresión.
Las ecuaciones en diferencias se refieren a ecuaciones que involucran
secuencias, o funciones definidas para valores enteros.
Si una secuencia an está
definida explícitamente en función de su argumento entero n, determinar su valor en n es un asunto trivial.
Sin embargo, a veces las secuencias se definen de forma
recursiva, relacionando an con términos anteriores como an −1 en la misma ecuación. Por ejemplo, la ecuación 3.7: an = α ⋅ an −1 + β
[3.7]
es una ecuación en diferencias lineal de primer orden y generaliza las denominadas progresiones aritméticas/geométricas que el estudiante seguramente vio en bachillerato. Observa además el parecido de esta terminología con la terminología de las ecuaciones diferenciales, que también se clasifican según su orden y según la linealidad. Si te interesa profundizar más sobre este tema puedes consultar la bibliografía anexa 10. Por lo demás te recomiendo resolver los problemas propuestos correspondientes al final de este capitulo referentes a la solución de la ecuación 3.7, que es el resultado que se utilizará seguidamente. Retomando el problema de la ruina del jugador, se puede expresar la ecuación 3.4 de la probabilidad de ruina, que es una ecuación en diferencias lineal de segundo orden, como una ecuación en diferencias lineal de primer orden. Teniendo en cuenta que p + q = 1, tenemos
R X +1 − R X =
q (R X − R X −1 ) p
[3.8]
A partir de la ecuación 3.8 y mediante la formula de sucesión an = r ⋅ an −1 hallada en el problema propuesto N° 5, es fácil comprobar que
R X − R X −1
⎛q⎞ = ⎜⎜ ⎟⎟ ⎝p⎠
X −1
(R1 − R0 )
[3.9]
Con respecto a este resultado, se observan dos inconvenientes: 1) todavía se desconoce R1 y 2) Podríamos resolver la ecuación en diferencias resultante, pero el
10
Ver NEUMAN
65
término al lado derecho de 3.9 depende de X (no es una constante β). Para solventar esta situación utilizamos la propiedad telescópica de las series:
RT − R0 =
T
∑ R X − R X −1
X =1
⎛q⎞ = ∑ ⎜⎜ ⎟⎟ X =1⎝ p ⎠ T
X −1
(R1 − R0 )
El panorama tiende a aclararse porque R 0 y RT son conocidos: R 0 = 1 y RT = 0 . Por lo tanto: T −1 ⎛q⎞ − 1 = RT − R0 = (R1 − R0 ) ∑ ⎜⎜ ⎟⎟ X = 0⎝ p ⎠
X
[3.10]
Si p = q = 1 2 , entonces de 3.7 se deduce que (R1 − R0 ) = − Si p ≠ q se tiene que (R1 − R0 ) =
1 T
1 − (q p )
(q p)T
La última igualdad se deduce de la serie
[3.11a] [3.11b]
−1
n
∑ xi
(ver problema propuesto N° 7).
i =0
Para calcular en definitiva el valor de la probabilidad de ruina, volvemos a emplear la propiedad telescópica de las sumas, pero esta vez con miras a hallar R X : X X ⎛q⎞ R X − R0 = ∑ Ri − Ri −1 = ∑ ⎜⎜ ⎟⎟ i =1 i =1 ⎝ p ⎠
⎛q⎞ R X = R0 + ∑ ⎜⎜ ⎟⎟ i =1 ⎝ p ⎠ X
i −1
i −1
(R1 − R0 ) X −1
(R1 − R0 ) = 1 + (R1 − R0 )∑ ⎛⎜⎜ q ⎞⎟⎟ i =0 ⎝ p ⎠
→
i
Nuevamente, si p = q = 1 2 , se tiene:
RX = 1−
X T−X = T T
[3.12a]
Si p ≠ q , entonces es fácil verificar que:
RX = 1 +
66
1 − (q p )
(q p )T
X
−1
=
(q p)T − (q p )X (q p )T − 1
[3.12b]
La deducción de las ecuaciones 3.12a y 3.12b quizás parezca un tanto tortuosa. Nuevamente, aunque la simulación no sea un sucedáneo del todo equivalente a deducir este tipo de resultados analíticamente, nos ayuda a confirmar la validez del los resultados anteriores.
Planteamos en lenguaje R un programa para simular la
probabilidad de ruina de un jugador con un capital inicial entre 0 y 10, para distintas probabilidades p de ganar en cada turno tomando valores entre 0,1; 0,2; … ; 0,9: #simulador de caminata aleatoria- problema de la ruina de un jugador #Autor: Prof. José L. Romero P. fecha:29/7/2007 #-----------------------------------------------------#Ruina: función que arroja 1 si el resultado de una caminata aleatoria #es ruina, 0 en caso contrario. # argumentos: a=capital inicial del jugador, # c=capital total # p=probabilidad de ganar 1 en cada turno Ruina = function (a,c,p) { j=a #asigna capital inicial while ((j!=0)&(j!=c)) j=j+sample(c(-1,1),1,replace=TRUE,c(1-p,p)) if (j==0) 1 else 0 } #Probabilidad_ruina : función que arroja la probabilidad de ruina para: # a=capital inicial del jugador # c=capital total # p=probabilidad de ganar 1 en cada turno Probabilidad_ruina = function (a,c,p) { cnt=0 for (i in 1:1000) cnt=cnt+Ruina(a,c,p) cnt/1000 } #Vector_empírico: función que arroja un vector correspondiente a las #probabilidades de ruina para cada capital inicial entre 0 y c Vector_empírico = function (c,p) { x=NULL for (i in 0:c) x=c(x,Probabilidad_ruina(i,c,p)) x } #Vector_teórico: función que arroja un vector correspondiente a las #probabilidades (teoricas) de ruina para cada capital entre 0 y c Vector_teórico = function (c,p) { x=NULL if (p==0.5) { for (i in 0:c) x=c(x,(c-i)/c)} else { r=(1-p)/p for (i in 0:c) x=c(x,(r^i-r^c)/(1-r^c)) } x } #A continuación se generan los gráficos para distintos valores de p, #exportandolos a un archivo .pdf llamado "Ruinadeljugador"
67
pdf(file="Ruinadeljugador.pdf") for (prob in seq(0.1,0.9,by=0.1)) { plot(x=c(0:10,0:10),y=c(Vector_teórico(10,prob),Vector_empírico(10,prob)), xlab="capital inicial",ylab="probabilidad de ruina", main="Comparación entre probabilidades empiricas y teóricas", sub=paste("p=",as.character(prob)),type="p", col=c(rep("red",times=11),rep("blue",times=11))) if (prob<=0.5) {xleyenda=2; yleyenda=0.3} else {xleyenda=6; yleyenda=0.5} legend(x=xleyenda,y=yleyenda,fill=c("red","blue"), legend=c("teórica","empírica")) }
Se muestran a continuación algunos gráficos que comparan las probabilidades de ruina halladas mediante simulación y mediante las formulas 3.12a y 3.12b:
68
La primera gráfica corresponde a las probabilidades de ruina para distintos niveles de capital inicial (entre 0 y 10) con una probabilidad p de ganar en cada turno igual a 0,6. En este caso, la fórmula de la probabilidad de ruina que aplica es la 3.12b. La segunda gráfica es similar pero con un valor p igual a 0,5. La fórmula que aplica es en este caso la 3.12a.
69
3.6.
Duración promedio del juego y otras consideraciones sobre el problema de la ruina del jugador
Pueden hacerse otras preguntas en torno al juego descrito en la sección anterior. Una de ellas es: ¿Cuántos turnos dura, en promedio, el juego? Recordemos que el juego termina cuando alguno de los jugadores se arruina (el jugador o la casa). Si el capital total es finito, supondremos que el juego siempre terminará en una cantidad finita de partidas, aún cuando es posible concebir, por ejemplo, una trayectoria del juego donde las partidas resulten +1,-1,+1,-1, ad infinitum. La finitud de la duración del juego no es algo que se pretende demostrar formalmente aquí- el autor solo se limita a señalar la evidencia empírica: el programa de la simulación en R anterior, en donde se simulan series de 1000 partidas para cada nivel de capital inicial del jugador, eventualmente termina. Quizás a modo de apología, téngase en cuenta además que el objetivo básico que nos trazamos en este curso es que puedas complementar la verificación formal con la verificación empírica, o valerte de la investigación empírica para inferir hechos que no estás en capacidad de demostrar formalmente. Volviendo a la pregunta que planteamos en esta sección: ¿cuál es la duración promedio del juego?, debemos especificar aún más: ¿cuál es la duración promedio del juego, partiendo de un capital inicial X? Si, como en la sección anterior, el jugador tiene un capital inicial de X y su oponente un capital inicial de Y, y entre los dos un capital total T = X + Y que no se altera, sabemos que el juego termina cuando el capital del jugador
sea 0 o T. Podemos ahora responder parcialmente la pregunta: la duración del juego partiendo de un capital inicial de 0 o de T es igual a cero. Partiendo de cualquier suma de dinero distinta entre 0 y T, el juego puede durar una cantidad aleatoria e indeterminada de partidas. Denotemos por T x duración del juego partiendo de un capital X y aclaremos desde ya que T x no es un proceso estocástico- es una variable aleatoria que resume un aspecto del juego, visto éste como una trayectoria de un proceso estocástico. Estamos interesados en determinar el promedio de la duración del juego, es decir, nos interesa hallar: D x = E [T x ]
[3.13]
A tal fin, vamos a proceder como lo hicimos en la sección anterior, partiendo de la siguiente ecuación en diferencias: 70
para 0 < x < T , con D0 = DT = 0
D x = pD x +1 + qD x −1 + 1
[3.14]
Las condiciones de extremos en la expresión 3.14 son simplemente la formulación matemática de lo dicho anteriormente sobre un juego en donde el jugador comienza con un capital de 0 o T. Nos interesa más bien entender en que se basa la ecuación 3.14 en sí. La clave de este asunto es escindir el juego en dos etapas: 1) la variable X 1 que pudiendo valer +1 o -1 representa el resultado para el jugador del primer turno y 2) el resto del juego. Partiendo de un capital inicial x, si en el primer turno el jugador gana 1, el resto del juego continua como si se partiera de un capital inicial de x+1. Si por el contrario el jugador pierde 1 en el primer turno, debe continuar con un capital de x-1. En ambos casos, como ha transcurrido un turno se adiciona en uno la cuenta de turnos y por lo tanto las esperanzas condicionales de T x dado el resultado X 1 del primer turno son : E [T x X 1 = +1] = D x +1 + 1
[3.15]
E [T x X 1 = −1] = D x −1 + 1
Las ecuaciones en 3.15 se utilizan ahora en el desarrollo de la ecuación 3.13: D x = E [T x ] = ∑ b ⋅ P {T x = b} = b
∑ b ⋅ (P {Tx = b ∩ X 1 = +1 } + P{Tx = b ∩ X 1 = +1 }) = b
∑ b ⋅ (P {Tx = b ∩ X 1 = +1 } + P{Tx = b ∩ X 1 = +1 }) = b
∑ b ⋅ (p ⋅ P {Tx = b
X 1 = +1 }+ q ⋅ P {T x = b X 1 = −1 }) =
b
p∑ b ⋅ P {T x = b X 1 = +1 } + q ∑ b ⋅ P {T x = b X 1 = −1 } = b
[3.16]:
Justificación
de la ecuación 3.14
b
p ⋅ E [T x X 1 = +1] + q ⋅ E [T x X 1 = −1]= p ⋅ (D x +1 + 1) + q (D x −1 + 1) = p ⋅ D x +1 + q ⋅ D x −1 + 1
71
Habiendo fundamentado la ecuación 3.14, procederemos a resolverla de la misma forma que lo hicimos con la probabilidad de ruina en la sección anterior, transformándola primero a una forma más amena: q (D x − D x −1 ) − 1 p p
D x +1. − D x =
[3.17]
Esta forma se parece mucho a la ecuación 3.8, salvo por el sumando de c, lo cual conlleva a abordarla mediante una ecuación en diferencias finitas como la 3.7 (ver problema propuesto N° 6). Desde el principio señalamos que deben considerarse dos casos: p = q y p ≠ q . Entonces se tiene: Para p ≠ q : x x ⎛q⎞ ⎛q⎞ 1 − (q p ) 1 − (q p ) = ⎜⎜ ⎟⎟ (D1 − D0 ) − D x +1 . − D x = ⎜⎜ ⎟⎟ (D1 − D0 ) − p(1 − q p ) ⎝ p ⎠ p−q ⎝p⎠ x
x
[3.18a]
Para p = q : D x +1. − D x = (D1 − D0 ) −
x = (D1 − D0 ) − 2 x p
[3.18b]
Vamos a abordar primero el caso en que p ≠ q , que parece ser el más sencillo. Como en el problema de la ruina del jugador, no conocemos D1 − D0 . Una vez más, aplicando la propiedad telescópica de las series:
0 = DT − D0 =
T −1
∑ Dk +1
k =0
k ⎛q⎞ 1 − (q p ) → − Dk = ∑ ⎜⎜ ⎟⎟ (D1 − D0 ) − p−q k =0 ⎝ p ⎠ T −1
k
T ⎛ ⎛ T 1 ⎞T −1 ⎛ q ⎞ 1 ⎞ 1 − (q p ) → ⎟⎟ ∑ ⎜⎜ ⎟⎟ = ⎜⎜ D1 − D0 + ⎟⎟ = ⎜⎜ D1 − D0 + p−q ⎝ p − q ⎠k = 0 ⎝ p ⎠ p − q ⎠ 1− q p ⎝ k
D1 − D0 =
(
T
p 1 − (q p )
T
)
−
1 p−q
Teniendo D1 − D0 , se desarrolla D x por series telescópicas según la fórmula 3.18a:
72
x −1 x −1 ⎛q⎞ 1 − (q p ) Dx = Dx − D0 = ∑ Dk +1 − Dk = ∑ ⎜⎜ ⎟⎟ (D1 − D0 ) − = p−q k =0 k =0 ⎝ p ⎠ k
k
k ⎛ ⎛ −x 1 ⎞ x −1 ⎛ q ⎞ T ⎟⎟ ∑ ⎜⎜ ⎟⎟ = ⎜ + ⎜⎜ D1 − D0 + ⎜ p 1 − (q p )T p−q ⎝ p − q ⎠ k =0 ⎝ p ⎠ ⎝
(
T 1 − (q p )
x
(
)
(p − q )(1 − (q p)T )
−
)
⎞ 1 − (q p )x x ⎟ − = ⎟ 1− q p − p q ⎠
x p−q
[3.19a]
La ecuación 3.19a permite calcular la duración promedio del juego partiendo de un capital x y en el caso p ≠ q .
A riesgo de parecer repetitivos, vamos a calcular
seguidamente la duración promedio del juego en el caso p = q . Primero obtenemos la fórmula para D1 − D0 :
0 = DT − D0 =
T −1
T −1
k =0
k =0
∑ Dk +1 − Dk =
∑ (D1 − D0 ) − 2k = T (D1 − D0 ) − T (T − 1) →
D1 − D0 = T − 1 Y enchufando esta expresión en la fórmula 3.18b desarrollada en series telescópicas:
Dx = Dx − D0 =
x −1
∑ Dk +1 − Dk =
k =0
x (T − 1) − x (x − 1) = x (T − x )
x −1
x −1
k =0
k =0
∑ (D1 − D0 − 2k ) = ∑ (T − 1 − 2k ) = [3.19b]
Si te interesa ver una forma alternativa de deducir las formulas para la duración promedio del juego o la probabilidad de ruina del jugador puedes consultar las secciones 14 y 15 del libro de “Procesos Estocásticos” de la UNA. También es posible deducir estas fórmulas mediante los métodos de resolución de ecuaciones en diferencias de segundo orden. En lo tangente a las fórmulas 3.19a y 3.19b, se deja al lector como ejercicio la verificación empírica mediante una simulación en lenguaje R (ver problema propuesto N° 13).
73
En estas notas dejamos por fuera otros aspectos interesantes sobre las caminatas aleatorias unidimensionales.
Tampoco mencionamos siquiera a las caminatas
aleatorias de dos o mas dimensiones. Algunas fuentes bibliográficas (ver por ejemplo http://en.wikipedia.org/wiki/Random_walk) definen a las caminatas aleatorias de un modo más especifico que la definición que nosotros hemos empleado a lo largo del presente texto. Para estos autores, una caminata aleatoria es una trayectoria en el espacio para la cual: •
Hay un punto de partida.
•
Los pasos son de longitud constante.
•
La dirección en que se toma cada paso es aleatoria: ninguna dirección es más probable que las otras.
A fin de exponer algunos resultados cuyas demostraciones no se incluirán en el presente
texto,
incluimos
unos
ejemplos
gráficos
de
caminatas
aleatorias
bidimensionales: Fig. 3.2 – Ejemplos de caminatas aleatorias bidimensionales Fig. 3.2a - Caminata aleatoria en dos dimensiones Fig. 3.2b - Caminata aleatoria en dos con incrementos de longitud unitaria.
dimensiones con incrementos infinitesimales.
La fig. 3.2b, que representa la trayectoria de una caminata aleatoria bidimensional con incrementos infinitesimales, es en realidad la trayectoria de un proceso de movimiento browniano. Con un poquito de imaginación, podemos imaginarnos que el movimiento browniano en tres dimensiones modela adecuadamente el comportamiento del humo en un ambiente sin corrientes de aire, o el de una tinta vertida en un vaso de agua. 74
Fig. 3.3 – Tres caminatas aleatorias tridimensionales.
En el contexto de este tipo de caminatas aleatorias donde las direcciones en que se toman los pasos son equiprobables, existen varios resultados 11: [3.20] Si no hay barreras absorbentes, la probabilidad de retornar al punto de origen en una caminata aleatoria de una o dos dimensiones es uno. En cambio, en tres dimensiones, la probabilidad de un retorno eventual al punto de partida es estrictamente menor que uno- es de hecho aproximadamente igual a 0,65 12. [3.21] El valor esperado de la distancia máxima al punto de partida, luego de una caminata de n pasos, es asintóticamente igual a
2n π . Matemáticamente, si
M n = max S k , entonces lim E [M n ] = 2n π 1≤ k ≤ n
11
n →∞
El lector interesado puede consultar el Capítulo 12 sobre caminatas aleatorias en el libro
“Introduction to Probability” de Grinstead y Snell. 12
GRINSTEAD, pp. 475-478.
75
Problemas Resueltos Sección 3.1 y 3.2 Para las preguntas 1 a 4, asuma que {S i , i ≥ 1} se refiere a una caminata aleatoria basada en un proceso de Bernoulli con probabilidad de éxito en cada ensayo igual a p. Calcular lo siguiente: 1)
P{S7 − S3 = 2}
Solución: En virtud de lo comentado en el [3.2] y según el teorema 3.1, se tiene: ⎛ 4⎞ P{S7 − S3 = 2} = P{S 4 = 2} = ⎜⎜ ⎟⎟ p 2 q 2 = 6 p 2 q 2 ⎝ 2⎠
2)
P {S3 = 2, S5 = 4, S11 = 7}
Solución: P {S3 = 2, S5 = 4, S11 = 7} = P {S3 = 2, S5 − S3 = 2, S11 − S5 = 3}
Los incrementos en la probabilidad anterior son todos independientes entre sí, de modo que la expresión anterior es igual a: P {S3 = 2}⋅ P {S5 − S3 = 2}⋅ P {S11 − S5 = 3} = ⎛ 3⎞ ⎛ 2⎞ ⎛6⎞ P {S3 = 2}⋅ P {S 2 = 2}⋅ P {S 6 = 3} = ⎜⎜ ⎟⎟ p 2 q ⋅ ⎜⎜ ⎟⎟ p 2 ⋅ ⎜⎜ ⎟⎟ p 3q 3 = 45 p 7 q 4 ⎝ 2⎠ ⎝ 2⎠ ⎝ 3⎠
Se entiende que las probabilidades en P {S3 = 2}⋅ P {S2 = 2}⋅ P {S6 = 3} se refieren a variables S i consideradas por separado e independientes unas de otras, es decir, S 3 , S 2 y S 5 no se refieren a la misma trayectoria de la caminata aleatoria.
3)
P{S3 = 2, S5 = 4, S6 = 3}
Solución: De igual forma que en el problema anterior: P {S3 = 2, S5 = 4, S 6 = 3} = P {S3 = 2} ⋅ P {S 2 = 2} ⋅ P {S1 = −1}
Pero la probabilidad P{S1 = −1} en la expresión anterior es igual a cero, porque los incrementos en una caminata aleatoria basada en un proceso de Bernoulli siempre son positivos. Por lo tanto, la probabilidad P{S3 = 2, S5 = 4, S6 = 3} es igual a cero.
76
4)
E [S3S5 ]
Solución: E [S3S5 ] = E [S3 ⋅ (S3 + S5 − S3 )] = E [S3S3 ] + E [S3 (S5 − S3 )]
Pero por la independencia de los incrementos, la expresión anterior es equivalente a: E [S3S3 ] + E [S3 (S5 − S3 )] = V [S3 ] + E 2 [S3 ] + E [S3 ] ⋅ E [S5 − S3 ] =
3pq + (3p ) + 3p ⋅ 2 p = 3pq + 15p 2 2
Sección 3.3
Para las preguntas 5 y 6, asumamos que {T j , j ≥ 1} caracteriza a los tiempos hasta los respectivos j-ésimos éxitos, donde cada ensayo se basa en un proceso de Bernoulli con probabilidad de éxito igual a p. Calcular lo siguiente: 5)
P {T2 = 3,T3 = 6}
Solución: P {T2 = 3,T3 = 6} = P {T2 = 3,T3 − T2 = 3} = P {T2 = 3}⋅ P {T3 − T2 = 3} = ⎛ 3 − 1⎞ 2 3−2 3−1 ⎟⎟ p q ⋅ q p = 2 p 3q 3 ⎜⎜ ⎝ 2 − 1⎠
Téngamos en cuenta que T2 es binomial negativa y T3 − T2 es geométricamente distribuida. 6)
E [T6 T1,T2 ,T3 ]
Solución: En lo sucesivo téngase en cuenta las propiedades 1 a 6 de la esperanza condicional que aparecen en la sección 2.2:
{T j , j ≥ 1})
E [T6 T1,T2 ,T3 ] = E [T6 T3 ] =
(propiedad de Markov de
E [T6 − T3 + T3 T3 ] = E [T6 − T3 T3 ] + E [T3 T3 ] =
(propiedad 1 de la esperanza condicional)
E [T6 − T3 ] + T3 =
(Teorema 3.2 y propiedad 2)
3 + T3 p
( T6 − T3 es binom. negativa con r=3)
77
En el último paso se ha podido proceder de E [T6 − T3 ] = E [T6 ] − E [T3 ] y calcular las esperanzas de las respectivas binomiales negativas.
78
Problemas Propuestos 1)
Una fábrica produce recipientes cuya capacidad se verifica al finalizar el proceso de producción, y se consideran defectuosos aquellos cuya capacidad está por debajo de los 0,975 lt. o por encima de 1,025 lt. Pruebas estadísticas sugieren que la capacidad de un recipiente producido tiene distribución normal con media 1 lt. Y varianza 0,01. Define el proceso aleatorio de Bernoulli que modele esta situación. ¿Cuáles suposiciones deben hacerse sobre el proceso de fabricación para que el modelo de Bernoulli sea adecuado?
2)
Sea {S i , i ≥ 1} el número de éxitos en un proceso de Bernoulli con probabilidad de éxito p. Calcula E [Sn +m Sn ].
3)
Sea {S i , i ≥ 1} el número de éxitos en un proceso de Bernoulli con probabilidad de éxito p. Calcula P{S 7 = 4, S8 = 7}
4)
Calcula P {T2 = 4,T3 = 5,T6 = 8}
5)
Calcula P {T7 = 3,T8 = 12}
6)
Encuentra una solución para la siguiente ecuación general en diferencias de primer orden: an = r ⋅ an −1 . Asume que se conoce el valor inicial de la secuencia a0 .
7)
Demuestra que la solución para la siguiente ecuación general en diferencias de primer orden dada en 3.4 ( an = α ⋅ an −1 + β ), es: a n = a 0 + nβ an = α n a0 + β
si α = 1 1−α n 1−α
si α ≠ 1
79
8)
Utiliza la propiedad telescópica de las series para demostrar que n
∑ xi = i =0
9)
1 − x n +1 si x ≠1 1− x
Desde donde está situado, un borracho está a solo un paso de caer a un precipicio. El borracho camina de forma aleatoria: toma un paso hacia el precipicio con probabilidad de 1 3 un paso alejándose del precipicio con probabilidad de 2 3 . ¿Con qué probabilidad se escapa el borracho de caer al precipicio?
10)
Un ludopata varado en Margarita tiene solo 20 BF y necesita conseguir 20 BF adicionales para tomar el ferry de regreso a casa, pero siente pena de llamar a su esposa para que le envíe más dinero. Decide jugar a la ruleta (de la cual no es muy aficionado) y considera dos estrategias: apostar los 20 BF a números negros todos de una vez o apostar 1 BF a un número negro cada vez hasta que haya completado o perdido los 20 BF que tenía.
Compara los méritos de ambas
estrategias. (Nota: una ruleta tiene 38 números de los cuales 18 son negros, en cada turno de ruleta se gana lo que se apuesta con probabilidad p = 18 38 o se pierde con probabilidad q = 20 38 ) 11)
En el contexto del problema anterior, supóngase adicionalmente que el jugador decide apostar 1 BF a la vez, y cada turno en la ruleta toma aproximadamente 2 minutos. ¿Cuánto tiempo durará en promedio el jugador hasta terminar el juego? ¿Crees que el jugador pueda emprender el viaje en ferry a su casa esa misma tarde si comienza a jugar al mediodía?
12)
Justifica detalladamente y haciendo referencia a las definiciones y propiedades sobre las probabilidades y esperanzas condicionales, cada uno de los pasos en la justificación de la ecuación 3.14 dados en el desarrollo 3.16 del texto.
13)
En el problema del jugador, si p = q , ¿Cuál es el nivel de capital inicial x que maximiza la duración promedio del juego?
80
14)
Verifica mediante una simulación en R las formulas 3.19a y 3.19b referentes a la duración promedio del juego. Para el caso en que p ≠ q , asuma que p = 1 3 . En ambos casos asuma un capital total T = 10 .
15)
Un hombre se embriaga perdidamente en su casa y le da de beber a su mascota, un canario, que se emborracha también. El hombre suelta el canario, que sale volando de su jaula según un movimiento Browniano en tres dimensiones, tras lo cual sale de su casa también, de modo que su deambular por la ciudad es una caminata aleatoria en dos dimensiones.
¿Cuál es la probabilidad de que el
hombre borracho eventualmente regrese a su casa? ¿Cuál es la probabilidad de que el canario se pierda y jamás regrese a su jaula? 16)
Verifica mediante una simulación en lenguaje R la fórmula 3.21 referente a la máxima distancia alcanzada desde el origen en una caminata aleatoria unidimensional.
81
Capitulo 4- El proceso de Poisson homogéneo 4.1
El proceso de Poisson como caso límite de la caminata aleatoria binomial.
En el capitulo anterior estudiamos la evolución aleatoria de procesos cuyos cambios de estado ocurren en instantes de tiempo discretos, que se suponen regularmente espaciados pero cuya ubicación temporal no esta del todo determinada, o no es relevante.
Hablábamos entonces de ensayos (procesos de Bernoulli) o pasos (en las
caminatas aleatorias); aunque no especificábamos los instantes de tiempo precisos en los cuales ocurría cada ensayo o paso porque sencillamente no era relevante. Sin embargo, en muchos fenómenos reales no podemos considerar que los eventos de un proceso ocurren o no en instantes discretizados de tiempo.
En estos casos, los
procesos de Bernoulli no son modelos adecuados. Consideremos por ejemplo una central telefónica en la cual se han recibido 270 llamadas en un periodo de tres horas (180 minutos). Consecuentemente, se reciben en promedio 1,5 llamadas por minuto y basándonos en esta evidencia, deseamos calcular la probabilidad de recibir 0, 1, 2 o más llamadas en los próximos 3 minutos. Podríamos dividir el lapso de 3 minutos en 9 subintervalos de 20 segundos cada uno y si suponemos que las probabilidades de que ocurran llamadas en cada subintervalo permanecen constantes, esto nos conduce a aproximar las probabilidades buscadas mediante la distribución binomial. Nuestra aproximación consiste en considerar cada uno de los nueve subintervalos como ensayos de Bernoulli en los cuales observamos una llamada telefónica (éxito) o ninguna (fracaso), con probabilidad de éxito p = (1,5) ⋅ (20 60) = 0,5 . Pero un poco de reflexión nos hace concluir que cuando mucho,
este modelo es una aproximación bastante inexacta de la situación, porque estamos ignorando la posibilidad de que ocurran dos o más llamadas en cada subintervalo de 20 segundos y el uso del modelo de Bernoulli supone una dicotomía en cada ensayo: o ocurre una llamada o no ocurre ninguna. No obstante, para minimizar la probabilidad de que ocurra dos o más llamadas en cada subintervalo de tiempo, podríamos subdividir el lapso de 3 minutos en una mayor cantidad de subintervalos más cortos. Podemos también observar si las probabilidades calculadas tienden hacia algún valor a medida que tenemos una mayor cantidad de 82
intervalos: hicimos el ejercicio de calcular las probabilidades de recibir k llamadas en un lapso de 3 minutos manteniendo el número promedio de llamadas ( E [X ] = np = 1,5 ) constante.
En la tabla de abajo, se muestra en las celdas respectivas dichas
probabilidades aproximadas mediante la distribución de Bernoulli:
Tabla 4.1. Calculo de las probabilidades de recibir k llamadas en 3 minutos mediante aproximaciones sucesivas por medio del modelo Binomial Variable aleatoria: X=número de llamadas recibidas en un lapso de 3 minutos. ⎛n⎞ Ley de probabilidad binomial: P ( X = k ) = ⎜⎜ ⎟⎟ p k (1 − p )n − k ⎝k ⎠
k 0 1 2 3 4 5 6 7 8 9 10 11 ≥12
n= 9 p= 0,5
n= 72 p= 0,0625
n= 576 p= 0,0078125
n= 4608 p= 0,0009766
n= 36864 p= 0,000122
0,001953125000
0,009592502052
0,010914422300
0,011084598051
0,011105945532
0,017578125000
0,046044009851
0,049501631849
0,049929450459
0,049982856317
0,070312500000
0,108970823313
0,112060780760
0,112426675593
0,112472105506
0,164062500000
0,169510169598
0,168826478100
0,168731595889
0,168719600910
0,246093750000
0,194936695038
0,190428291242
0,189884897133
0,189817275337
0,246093750000
0,176742603501
0,171535405654
0,170914968993
0,170837865192
0,164062500000
0,131575049273
0,128538998200
0,128172304053
0,128126660829
0,070312500000
0,082704316686
0,082415330680
0,082369633187
0,082363787168
0,017578125000
0,044798171538
0,046155829879
0,046307756878
0,046326487969
0,001953125000
0,021237651692
0,022936580377
0,023136274752
0,023161044515
0,000000000000
0,008919813711
0,010240189822
0,010401146391
0,010421197602
0,000000000000
0,003351687576
0,004148852856
0,004249930784
0,004262581064
0,000000000000
0,001616506172
0,002297208282
0,002390767836
0,002402592061
En la tabla superior, los valores de n y de p se multiplican y se dividen respectivamente por un factor de 8 en forma sucesiva, de modo que n tiende a infinito y p tiende a cero, pero np permanece constante. Observamos que las probabilidades respectivas se “estabilizan” alrededor de ciertos valores- no varian mucho más a medida que seguimos aumentando el número n de ensayos. Esto nos motiva a formular la siguiente pregunta: ¿Cuál es la ley de probabilidad hacia la cual tiende la binomial a medida que n → ∞ y
p → 0 de modo que np permanece constante, digamos np = λ ? En los cálculos siguientes se determina la respuesta exacta a esta pregunta.
83
Considerando pues la función de probabilidad binomial: ⎛n⎞ n! n −k n −k P ( X = k ) = ⎜⎜ ⎟⎟ p k (1 − p ) = p k (1 − p ) = ( ) k k n − k ! ! ⎝ ⎠
[4.1]
k factores
n (n − 1)(n − 2 ) k!
(n − k + 1) p k (1 − p )n −k
Defínase λ = np , de modo que p =
λ y λ 1− p = 1− . n
n
Sustituyendo en la ecuación 4.1 todos los términos que involucren p por sus expresiones equivalentes en λ obtenemos: n (n − 1)(n − 2 ) = k!
P (X = k )
=
λk ⎛
λ⎞ ⎜1 − ⎟ k! ⎝ n ⎠
n −k
(n − k + 1) ⎛ λ ⎞ k ⎛1 − λ ⎞ n −k ⎟ n⎠
⎜ ⎟ ⎜ ⎝n⎠ ⎝
n (n − 1)(n − 2 ) (n − k + 1) n ⋅n ⋅ ⋅n
[4.2]
k factores
= =
λk ⎛
n −k
λk ⎛
n
λ⎞ ⎜1 − ⎟ k! ⎝ n ⎠
⎛ ⎛ 1⎞ ⎛ 2⎞ ⎜⎜1 ⋅ ⎜1 − ⎟ ⋅ ⎜1 − ⎟ ⋅ ⎝ ⎝ n⎠ ⎝ n⎠
λ⎞ ⎛ λ⎞ ⎜1 − ⎟ ⎜ 1 − ⎟ k! ⎝ n ⎠ ⎝ n ⎠
−k
⎛ k −1⎞⎞ ⋅ ⎜1 − ⎟⎟ n ⎠ ⎟⎠ ⎝
⎛ ⎛ 1⎞ ⎛ 2⎞ ⎜⎜1 ⋅ ⎜1 − ⎟ ⋅ ⎜1 − ⎟ ⋅ ⎝ ⎝ n⎠ ⎝ n⎠
⎛ k −1⎞⎞ ⋅ ⎜1 − ⎟⎟ n ⎠ ⎟⎠ ⎝
Ahora tomando el limite de la expresión 4.2 cuando n → ∞ y p → 0 de modo que
np = λ permanece constante, obtenemos lo siguiente: P ( X = k ) = lim lim n →∞ n →∞ p →0
p →0
=
λk k!
λk ⎛
n
λ⎞ ⎛
−k
λ⎞ ⎛ ⎛
1⎞ ⎛ 2⎞ ⎜1 − ⎟ ⎜1 − ⎟ ⎜⎜1 ⋅ ⎜1 − ⎟ ⋅ ⎜1 − ⎟ ⋅ k! ⎝ n ⎠ ⎝ n ⎠ ⎝ ⎝ n ⎠ ⎝ n ⎠
⎛ k −1⎞⎞ ⋅ ⎜1 − ⎟⎟ n ⎠ ⎟⎠ ⎝
[4.3]
e −λ
Ya que, según lo recordado en nuestra clase de sexto grado de primaria cuando estudiamos limites: n
lim n →∞
84
⎛ λ⎞ −λ ⎜1 − ⎟ = e , ⎝ n⎠
⎛ λ⎞ ⎜1 − ⎟ lim n⎠ n →∞ ⎝
−k
=0 y
⎛
c⎞
⎜1 − ⎟ = 1 lim n⎠ n →∞ ⎝
De esta forma demostramos el siguiente teorema: Teorema 4.1- (Ley de las probabilidades Pequeñas)
Sea X una variable aleatoria
discreta distribuida según la ley binomial con parámetros n y p respectivos. Si n → ∞ y
p → 0 de forma que np permanece constante y np → λ , entonces, bajo estas condiciones: −λ lim P ( X = k ) = e n →∞ p →0
λk k!
Este resultado es muy importante por varias razones. Una razón es que nos permite calcular aproximadamente las probabilidades asociadas a la distribución binomial para un número n muy grande de ensayos y una probabilidad p de éxito casi nula.
El
estudiante que haya intentando calcular probabilidades binomiales que involucran números combinatorios elevadísimos que multiplican potencias de p que tienden a cero sabrá apreciar la valía de esta aproximación. Es por esto que el resultado anterior se conoce como la Ley de las Probabilidades Pequeñas.
De la misma forma que el
Teorema de DeMoivre-Laplace (una variante de la Ley de los Grandes Números) aproxima mediante la distribución normal las probabilidades binomiales cuando n → ∞ y p no tiende a cero o a uno, la Ley de las Probabilidades Pequeñas aproxima las probabilidades binomiales bajo las condiciones ya citadas mediante una distribución de probabilidad que el estudiante seguramente ha identificado ya: la distribución de Poisson.
Como regla práctica, se puede confiar en esta aproximación si n ≥ 100 ,
p ≤ 0,01 y np ≤ 20 13. Como se indica en la Tabla 1.1, la variable aleatoria Poisson representa el número de eventos que ocurren en un instante de tiempo de amplitud fija cuando la tasa promedio de eventos en ese intervalo de tiempo es λ. Su función de probabilidad es: ⎧ λ x −λ ⎪ e p X (x ) = ⎨ x! ⎪ ⎩ 0
13
x ∈N≥ 0 x<0
DEVORE, p. 131.
85
Se le sugiere al estudiante demostrar que en efecto, la distribución de Poisson es una distribución de probabilidad válida (Problema Propuesto N° 1).
De hecho, esto se
realiza expresando e λ como una serie de Taylor. Históricamente, la ley de probabilidad de Poisson está asociada al estudio de la cantidad de eventos de cierto tipo que ocurren entre una población muy numerosa cuando la frecuencia del fenómeno es muy rara, como por ejemplo, la cantidad de personas en una ciudad de 10 millones de habitantes que padecen de una enfermedad muy rara que afecta en promedio a uno entre cada millón de individuos en una población.
Siméon-Denis Poisson (1781-1840) formuló en 1837 la distribución
homónima en conexión con largas series de observaciones de eventos que ocurren raramente. Por ejemplo, una de tales series dadas era la distribución de frecuencias del número de bajas anuales en cada cuerpo de la caballería del ejercito Prusiano debidas a patadas de caballos 14. La distribución de frecuencias de el número de bajas anuales de esta serie fue la siguiente: Muertes Frecuencia
0
1
2
3
4 o más
109
65
22
3
1
Si suponemos que las probabilidades de k muertes accidentales por patadas de caballo se mantienen constantes en el tiempo y a través de todos los cuerpos de la caballería del ejercito Prusiano, estos datos nos permitirían calcular las frecuencias relativas (que se asemejan a dichas probabilidades), dividiendo las frecuencias absolutas respectivas entre el número total de observaciones, o sea n=200. Si en base a estas probabilidades calculamos el número promedio de muertes anuales en cada cuerpo de caballería, obtenemos una estimación del parámetro λ, que resulta ser igual a 0,61.
Con el
parámetro λ, calculamos las probabilidades respectivas según la ley de distribución de Poisson y con estas probabilidades, calculamos las frecuencias absolutas que cabría esperarse según este modelo teórico. Todo esto se resume en la siguiente tabla:
14
RIETZ, p. 39
86
Muertes
0
1
2
3
4 o más
Observaciones de frecuencias absolutas (evidencia empírica) Frecuencias absolutas Frecuencias relativas Promedio de muertes
109
65
22
3
1
0,545
0,325
0,110
0,015
0,005
λˆ = 0 ⋅ 0,545 + 1 ⋅ 0,325 + 2 ⋅ 0,110 + 3 ⋅ 0,015 + 4 ⋅ 0,005 = 0,61
Observaciones esperadas según el modelo de Poisson Probabilidades esperadas Frecuencias absolutas esperadas
0,543
0,331
0,101
0,021
0,004
108,6
66,2
20,2
4,2
0,6
Como se puede observar, la ley de probabilidad de Poisson modela de forma bastante fiel el fenómeno estudiado.
4.2.
Derivación axiomática del proceso de Poisson.
Llegados a este punto, podemos entender que la ley de distribución de Poisson se adecua a una amplia gama de fenómenos aleatorios de la vida real porque es un caso límite del modelo Binomial, que también se asoma en muchas situaciones. De hecho, la distribución de Poisson, junto con la normal y la binomial, son las tres distribuciones principales de la teoría de las probabilidades, debido a su universalidad y grandes ramificaciones por todo el corpus teórico 15. Sin duda, la distribución de Poisson merece un análisis profundo por sus propios meritos. Surgen dos preguntas: ¿Cómo sabemos si se reúnen las condiciones para aplicar el modelo de Poisson a un determinado fenómeno real?
¿Como relacionamos la distribución de Poisson y los procesos
estocásticos? Intentamos dar una respuesta a la primera pregunta haciendo algunas consideraciones sobre la distribución binomial, a partir de la cual la distribución de Poisson surge como caso límite.
15
En efecto, para que la binomial sirva de modelo adecuado de un
FELLER, p. 156
87
determinado fenómeno, debemos verificar que las probabilidad p de éxito se mantenga constante a través de todos los ensayos y que los ensayos se realizan de forma independiente entre sí. Si consideramos que la distribución de Poisson es un caso límite de la binomial, entonces se vislumbra una respuesta a la segunda pregunta. En efecto, supóngase que estamos interesados en contar la cantidad de eventos de cierto tipo que han sucedido hasta un instante de tiempo t .
Para tal fenómeno,
hacemos las siguientes suposiciones: 1)
La ocurrencia adicional de eventos a partir de ese instante es independiente de la cantidad de eventos acaecidos hasta entonces (los ensayos de Bernoulli son independientes entre sí). Más precisamente, para intervalos de tiempo disjuntos (no superpuestos), las cantidades de eventos que ocurren en cada intervalo son independientes entre sí. Esto es una manera de decir que el proceso de Poisson es un proceso con incrementos independientes.
2)
Se verifica que la tasa promedio de eventos, expresada como un cociente de la cantidad de eventos en promedio que suceden en un lapso de tiempo fijo, es constante (la probabilidad de éxito p en cada ensayo de Bernoulli es constante). Por lo tanto, dos intervalos de tiempo de igual amplitud tendrán la misma distribución de probabilidades, en cuanto a la cantidad de eventos que sucede en cada intervalo, sin importar cuan distantes en el tiempo sean esos intervalos uno del otro.
Según la terminología del capitulo 2, el proceso de Poisson es un
proceso con incrementos estacionarios. 3)
Según las deducciones que culminan en la fórmula 4.3, vemos que subdividiendo el número de ensayos del modelo binomial en lapsos temporales de amplitud infinitesimalmente pequeña, de modo que la probabilidad de ocurrencia de dos o más eventos en cada lapso temporal sea casi nula y manteniendo constante el promedio de eventos que suceden a lo largo del lapso temporal total, la distribución de probabilidad de eventos que suceden en un intervalo de tiempo es la distribución de Poisson.
La Ley de las Probabilidades Pequeñas es una posible vía para definir el proceso de Poisson. A continuación vamos a tomar otra vía más rigurosa- planteamos un conjunto de axiomas o condiciones que debe cumplir el proceso y verificamos que necesariamente, esto conduce a la distribución de Poisson.
Antes definimos la
terminología mediante la cual denotaremos formalmente el proceso de Poisson: 88
El proceso aleatorio de Poisson es una colección de variables aleatorias indexadas por
{
}
un parámetro temporal continuo: Z (t ) t ≥ 0 .
Para cada instante t, Z (t ) denota la
cantidad de eventos de cierto tipo que se producen en el lapso de tiempo [0, t ) , por lo cual Z (t ) es un proceso de conteo y representa una cantidad entera. Planteamos a continuación los postulados que debe satisfacer un proceso de conteo
{Z (t ) t ≥ 0}
para definirse como un proceso de Poisson. Como se verá, estos
postulados no son del todo distintos a las tres suposiciones que acabamos de hacer. Axioma 1: Para intervalos de tiempo disjuntos (no superpuestos), las cantidades de eventos que ocurren en cada intervalo son independientes entre sí- El proceso de Poisson es un proceso con incrementos independientes. Axioma 2: Defínase Z (x + Δt ) − Z (x ) como la cantidad de eventos que ocurren en un intervalo de tiempo
[x, x + Δt )
y Z (y + Δt ) − Z (y ) como la
cantidad de eventos que ocurren en otro intervalo de tiempo [y , y + Δt ) , siendo ambos intervalos de tiempo de la misma amplitud.
Z (x + Δt ) − Z (x )
y
Entonces,
Z (y + Δt ) − Z (y ) tendrán la misma distribución de
probabilidades- El proceso de Poisson es un proceso con incrementos estacionarios. Axioma 3: Considérese una subdivisión de un intervalo de tiempo de longitud unitaria en N subintervalos, cada uno de longitud Δt = 1 N .
Para N
suficientemente grande, las probabilidades de que se produzcan cero o un evento en cualquiera de esos subintervalos son respectivamente:
P{Z (t + Δt ) − Z (Δt ) = 0} = P0 (Δt ) = 1 − λΔt + o(Δt )
[4.4a]
P{Z (t + Δt ) − Z (Δt ) = 1} = P1 (Δt ) = λΔt + o(Δt )
[4.4b]
donde o(Δt ) es una cantidad de un orden de magnitud mucho más pequeña que Δt de modo que lim
Δt → 0
o(Δt ) = 0. Δt 89
Obsérvese que las probabilidades P0 (Δt ) y P1 (Δt ) son complementarias, de modo que la probabilidad que se produzcan dos o más eventos en un lapso de tiempo infinitesimalmente corto es despreciable. En lo anterior, λ es un parámetro constante que representa la cantidad promedio de eventos que se producen en un intervalo de tiempo de longitud unitaria:
E [Z (1)] = E [N ⋅ Z (Δt )] = N ⋅ E [Z (Δt )] = N ⋅ (λΔt + o (Δt )) = 1 (λΔt + o(Δt )) = λ Δt El parámetro λ también se conoce como intensidad de flujo. Axioma 4: Se impone la siguiente condición inicial: P{Z (0) = 0} = P0 (0) = 1 . Esto equivale a decir que P1 (0) = P2 (0) =
¨= 0 .
A partir de estos cuatro axiomas, pretendemos deducir la función de probabilidad de las variables
aleatorias
{Z (t ) t ≥ 0},
a
P{Z (t ) = n} = Pn (t ) .
saber:
Comencemos
considerando P0 (t + Δt ) - la probabilidad de que ocurran cero eventos en el lapso de tiempo [0, t + Δt ) . Para que suceda tal cosa, debe acontecer que se produzcan cero eventos en [0, t ) y cero eventos en [t, t + Δt ) . En virtud del axioma 1, estos sucesos son independientes, pues [0, t ) y [t, t + Δt ) no son intervalos de tiempo superpuestos. Por otro lado, en virtud del Axioma 2, la probabilidad de que se produzcan cero eventos en el intervalo de tiempo [t, t + Δt ) es igual a la probabilidad de que se produzcan cero eventos en el intervalo de tiempo
[0, Δt ) ,
pues el proceso es de incrementos
estacionarios. En suma, tenemos lo siguiente:
P0 (t + Δt ) = P0 (t ) ⋅ P0 (Δt ) = P0 (t ) ⋅ (1 − λΔt + o(Δt ))
Ø
P0 (t + Δt ) − P0 (t ) = P0 (t )(− λΔt + o(Δt )) y que por lo tanto, tomando la derivada de P0 (t ) :
P0 ' (t ) = lim
Δt →0
P0 ' (t ) = −λ P0 (t ) 90
P0 (t + Δt ) − P0 (t ) ⎛ − λΔt + o(Δt ) ⎞ = lim P0 (t )⎜ ⎟ = −λ ⋅ P0 (t ) Δt →0 Δt Δt ⎝ ⎠
Ø
Integrando esta ecuación diferencial sencilla y tomando en cuenta el Axioma 4 que establece una condición inicial- P {Z (0) = 0} = P0 (0) = 1 , deducimos finalmente que:
P0 (t ) = e −λt
[4.5]
Ahora procederemos a calcular Pn (t ) para n ≥ 1 . De manera análoga al razonamiento recién expuesto, calculamos primero Pn (t + Δt ) , tomando en cuenta que para producirse n eventos en el intervalo de tiempo [0, t + Δt ) , debe ocurrir alguno de estos dos sucesos, que son mutuamente excluyentes: 1) que se produzcan n-1 eventos en el intervalo [0, t ) y 1 evento en el intervalo [t, t + Δt ) , o 2) se producen n eventos en [0, t ) y ningún evento en [t, t + Δt ) . De modo que:
Pn (t + Δt ) = Pn −1 (t ) ⋅ P1 (Δt ) + Pn (t ) ⋅ P0 (Δt ) = Pn −1 (t ) ⋅ (λΔt + o(Δt )) + Pn (t ) ⋅ (1 − λΔt + o(Δt )) Y de modo similar a como hicimos los cálculos precedentes, podemos encontrar la derivada de Pn (t ) :
Pn ' (t ) = λ (Pn −1 (t ) − Pn (t ))
Ø Pn ' (t ) + λPn (t ) = λPn−1 (t )
[4.6]
La ecuación 4.6 es una ecuación diferencial lineal de orden uno no-homogénea. Una fórmula para resolver tales ecuaciones diferenciales es la siguiente 16: La
solución
a
la
ecuación
diferencial no
homogénea
y '+ p(x )y = q (x ) viene dada por
[
y = e − ∫ p ( x )dx C +
∫ q (x )e ∫
p ( x )dx
dx
]
Donde C es una constante que depende del valor de y en un punto dado (condición inicial). Sustituyendo los términos correspondientes en la formula anterior, recordando que en este caso la variable independiente es t (no x) y teniendo en cuenta el Axioma 4 que establece las condiciones iniciales P1 (0) = P2 (0) =
16
¨ = 0 , procedemos a resolver la 4.6:
ORELLANA, M., TORRES, E., GONZALEZ, J., MIRANDA, G., pp. 84-86
91
P n (t ) = e − λ t ⋅
∫λ
⋅ P n −1 (t ) ⋅ e λ t dt
[4.7]
Conociendo P0 (t ) podemos hallar algunos de los Pn (t ) para n ≥ 1 : P1 (t ) = e − λ t ⋅
∫ λ ⋅e
P 2 (t ) = e − λ t ⋅
− λt λt ∫ λ ⋅ λ te e dt =
P 3 (t ) = e − λ t ⋅
∫λ ⋅
−λt
e λ t dt = (λ t )e − λ t
(λ t )2 2
(λ t )2 2
e − λ t e λ t dt =
e − λt
(λ t )3 6
e − λt
.... n No debe costarnos mucho trabajo deducir que en general, P n (t ) = e − λ t ⋅ (λ t ) . n!
Claro está, esto se puede demostrar por el método de inducción, lo cual se deja como ejercicio propuesto para el estudiante (problema propuesto N° 15). Recuerde que si se quiere demostrar cierta premisa An para todo n ≥ 0 , el método de inducción consiste en demostrar que A0 es cierto y que An ⇒ An +1 . En resumen, hemos visto en esta primera parte del presente capitulo las condiciones o premisas bajo las cuales se produce un proceso estocástico de Poisson homogéneo. La palabra homogéneo se refiere a que la intensidad de flujo λ es una constante en el tiempo, esto queda establecido por el Axioma 2 referente a los incrementos estacionarios. Estamos en condiciones de volver a plantear la definición de un proceso de Poisson homogéneo, con la esperanza de que el estudiante tenga ahora una mayor comprensión del asunto:
92
Definición (Proceso de Poisson homogéneo): Un proceso de conteo {N (t ), t ≥ 0} es un proceso de Poisson homogéneo con tasa media constante (o intensidad) λ si cumple las condiciones a continuación: i.
{N (t ), t ≥ 0} tiene incrementos estacionarios e independientes.
ii.
Para dos instantes de tiempo s y t
tales que s < t , la cuenta de eventos
N (t ) − N (s ) acaecidos en el intervalo de tiempo (s, t ) es distribuida según la ley de Poisson con media λ (t − s ) . A saber:
P {N (t ) − N (s ) = k } = e −λ (t −s )
(λ (t − s ))k k!
Esta vez, esperamos que el estudiante entienda cuales son las condiciones que dan origen a tales procesos, porqué el número de eventos que se producen en un intervalo de tiempo es distribuido según Poisson, y las razones por las cuales este proceso surge con mucha frecuencia en el estudio de ciertos fenómenos aleatorios.
4.3.
Procesos de Poisson espaciales.
Las condiciones o postulados axiomáticos que dan origen al proceso de Poisson se pueden extrapolar a la definición de otro tipo de proceso de Poisson si se cambia la dimensión temporal por la dimensión espacial. De este modo, cuando hablamos de lapsos de tiempo en los axiomas 1 a 4, ahora hablaremos de distancias, áreas o volúmenes en el caso en que el proceso se desarrolla en una, dos o tres dimensiones espaciales respectivamente. Los eventos de tipo Poisson, en vez de estar distribuidos sobre la recta temporal (porque se suceden en el tiempo), se conceptúan más bien como puntos distribuidos sobre una superficie o un volumen.
A modo de ejemplo,
imagínate que estamos viendo colonias de bacterias a través del microscopio:
93
Fig. 4.1 – Colonias de bacterias vistas a través de un microscopio. Los puntos oscuros representan bacterias. El plato de Petri ha sido subdividido en pequeños cuadrantes cuya cuenta de bacterias se indican mediante los números en cada cuadrante.
En base a lo observado en la figura 4.1, podemos contar cuantos cuadrantes contienen determinado número de bacterias, lo cual nos da las frecuencias absolutas empíricas (hay n = 34 observaciones).
Acto seguido calculamos el promedio (estimado) de
bacterias por cada cuadrante, lo cual nos permite calcular las frecuencias relativas teóricas (ajustadas al modelo de Poisson) y de ahí, multiplicando dichas frecuencias relativas teóricas por el número total de observaciones, determinamos las frecuencias absolutas teóricas que cabria esperarse si el fenómeno en cuestión fuese realmente un proceso de Poisson. Todo lo dicho se resume en la siguiente tabla:
94
Tabla 4.1 – Ajuste de las observaciones de la Fig. 4.1 a un proceso de Poisson espacial
k 0
Frecuencia absoluta (empírica) 3
Frecuencia relativa teórica (obtenida mediante promedio estimado) 0,11682726
Frecuencia absoluta teórica (redondeando decimales) 4
1
9
0,250835
9
2
10
0,26927876
9
3
6
0,19271911
7
4
4
0,10344482
4
5
2
0,06689505
2
Promedio estimado
λˆ =
(0 ⋅ 3 + 1 ⋅ 9 + 2 ⋅ 10 + 3 ⋅ 6 + 4 ⋅ 4 + 5 ⋅ 2) ≈ 2,1471 34
Si asumimos que las frecuencias absolutas empíricas son lo bastante aproximadas a las frecuencias absolutas teóricas, entonces el modelo de Poisson parece ser adecuado para describir el fenómeno de las colonias de bacterias observadas en el plato de Petri. La verificación de la bondad de ajuste se realiza matemáticamente mediante técnicas de inferencia estadística que verás en cursos posteriores.
Por ahora dejemos la
verificación de bondad de ajuste a un lado y abordemos las implicaciones que se desprenden de ser este fenómeno un proceso de Poisson. Por ejemplo, el axioma 4 establecería que en un área o volumen nulo hay cero bacterias con certeza total.
Esto tiene bastante sentido- las bacterias necesitan cierta cantidad
mínima de espacio para desarrollarse y en un espacio de área nula no puede haber bacterias. Los axiomas 1 y 2 establecerían que en áreas no superpuestas de igual tamaño, las cantidades de bacterias en cada área son variables independientes e idénticamente distribuidas.
Esto quiere decir que la cantidad de bacterias observadas
en una esquina del plato Petri es independiente de la cantidad de bacterias observadas en otra esquina. Más aún, tienen la misma distribución probabilística, lo cual quiere decir que las condiciones requeridas para el desarrollo de las actividades bacteriales son iguales en toda el área del plato Petri.
Por ejemplo, colocar un sustrato más
nutritivo para las bacterias en alguna esquina del plato Petri haría que las bacterias se concentrasen en ese sector- se estaría violando la condición de estacionariedad de las superficies no superpuestas de igual tamaño y el fenómeno ya no sería un proceso de Poisson homogéneo.
Dicho de otro modo, los axiomas 1 y 2 parecen indicar que los
95
eventos en un proceso de Poisson se distribuyen uniformemente en el tiempo (o el espacio en este caso), pero esto es una cuestión que abordaremos posteriormente. Por último, el axioma 3 plantea la existencia de un parámetro λ que representa la cantidad promedio de eventos que se producen en un intervalo de tiempo de longitud unitaria y que permanece constante en el tiempo. En el caso de un proceso de Poisson espacial homogéneo como el que estamos tratando, λ viene a representar la cantidad promedio de bacterias por cuadrante (de área unitaria) observados en el plato de Petri. Otra consideración importante en el estudio de los procesos de Poisson espaciales es la distancia entre un punto y su vecino más cercano. Se da a continuación un teorema que especifica la distribución de la distancia : Teorema 4.2- (Distribución de la distancia al vecino más cercano en la distribución de partículas según un proceso de Poisson espacial 17)
Sea D la distancia entre una
partícula y su vecino más cercano en una distribución de partículas en el plano según un proceso de Poisson espacial con tasa promedio de l partículas por unidad de área, entonces la función de densidad de D es:
fD (y ) = 2λπy ⋅ e −λπy
2
[4.8a]
En el caso en que las partículas se distribuyen en el espacio tridimensional con una tasa promedio de l partículas por unidad de volumen, entonces la función de densidad de D es:
fD (y ) = 4λπy
2
4 − λπy 3 ⋅e 3
[4.8b]
Primero, obsérvese que P { D > y } denota la
Demostración: (caso bidimensional)
probabilidad de que un circulo de radio y y área π y 2 contenga cero partículas por lo tanto
{( ) }
P { D > y } = P N πy 2 = 0 = e −πλy
17
PARZEN, pp. 32-33
96
2
Ahora bien, el evento
{D > y}
es complementario al evento
{D ≤ y } ,
de donde
podemos obtener la expresión para la función de distribución de probabilidad de D:
FD (y ) = P { D ≤ y } = 1 − P { D > y } = 1 − e − πλy
2
Y si derivamos con respecto a y obtenemos la función de densidad:
fD (y ) = FD' (y ) = 2λπy ⋅ e −πλy
2
La función de densidad de D para el proceso de Poisson tridimensional se obtiene mediante un procedimiento similar. Observando la forma funcional 4.8a (el caso tridimensional es parecido) nos damos cuenta que D sigue una distribución de Weibull 18, cuya función de densidad se caracteriza por dos parámetros a y b:
f ( x ;α , β ) =
α α −1 x ⋅e βα
⎛x −⎜⎜ ⎝β
α
⎞ ⎟⎟ ⎠
para x ≥ 0 , cuya esperanza y varianza son:
1⎞ ⎛ E [D ] = β ⋅ Γ⎜1 + ⎟ y V [D ] = β 2 α⎠ ⎝
2 ⎛ ⎛ 2⎞ ⎛ ⎛ 1 ⎞ ⎞ ⎞⎟ ⎜ ⋅ Γ⎜1 + ⎟ − ⎜⎜ Γ⎜1 + ⎟ ⎟⎟ ⎜ ⎝ α ⎠ ⎝ ⎝ α ⎠⎠ ⎟ ⎠ ⎝
G es, como sabemos, la archiconocida función gamma cuya definición y propiedades se dan en la Tabla 1.2. Todo encaja a la perfección si
18
α =2yβ =
1
πλ
.
DEVORE, p. 176
97
4.4.
Distribución del tiempo inter-eventos.
Una forma alternativa de estudiar un proceso de Poisson es mediante la observación de los tiempos que transcurren entre eventos sucesivos, en contraposición a observar la cantidad de eventos que se producen en un lapso de tiempo de longitud fija, como hemos venido haciendo hasta ahora. ilustrar
esto,
supóngase
que
Para
estamos
interesados en estudiar el proceso asociado a la llegada de carros a una intersección donde hay semáforo.
Consideremos que se produce un
evento cuando un carro pasa por el área rayada de alguna de las cuatro intersecciones que estamos estudiando. Hasta ahora hemos estudiado el proceso en atención al número de eventos que se producen en un lapso de tiempo de longitud fija, lo cual en nuestro ejemplo se traduce a que el analista recopila pacientemente las estadísticas de cuantos carros pasan por la intersección a determinadas horas del día (digamos, de 9 a 10 a.m.) todos los días (Fig. 4.2). En la figura a la izquierda, w representa el día en los cuales se toman las observaciones y Nw representa el número de carros que pasaron por la intersección desde las 9 a 10am
en
Cuando
ha
cada
fecha
terminado
observaciones,
el
correspondiente. de
analista
recopilar comienza
las a
resumir la información a fin de verificar si se trata efectivamente de un proceso Poisson.
Primero
calcula
el
de
número
promedio de carros que pasan por la intersección ( λˆ ), lo cual realiza sumando los Nw y dividiendo entre el número de días Fig. 4.2. Anotación de observaciones
98
observados.
De forma semejante a como se ha planteado en los ejemplos anteriores, nuestro valeroso analista ajusta las observaciones a un modelo de Poisson y verifica la bondad de ajuste de este modelo con respecto a las observaciones. Ahora bien, supóngase que en vez de tomar las observaciones de este modo instalamos un dispositivo electrónico en la intersección que registre el tiempo (en segundos) que transcurre entre llegadas sucesivas de carros a la intersección (Fig. 4.3).
A partir de un instante 0,
comenzaríamos a cronometrar el tiempo inter-llegada de los carros. Naturalmente, esto generaría una trayectoria del siguiente proceso estocástico:
{T
n
n ∈N +
}
Fig. 4.3. Observación de los tiempos entre llegadas de carros en una intersección.
{
La secuencia aleatoria Tn n ∈ N +
} es de parámetro discreto, porque n denota el
tiempo transcurrido entre la llegada del n ésimo vehiculo y el n-1 ésimo vehiculo. Sin embargo,
cada una de estas variables debe tener una distribución continua.
{
Supongamos pues que Tn n ∈ N +
} es
una secuencia de variables mutuamente
independientes e idénticamente distribuidas según una distribución exponencial con
99
parámetro l (ver problema propuesto N° 18). La función de densidad de probabilidad para cada Tn es entonces:
fTn (t ) = λe − λt ,
λ ,t > 0
Si estamos interesados en conocer la probabilidad de esperar t segundos o menos hasta que pase el próximo carro en la intersección, dicha probabilidad podrá calcularse mediante la función de distribución de probabilidad acumulada de la exponencial:
P (Tn ≤ t ) = 1 − e − λt ,
λ ,t > 0
Recordemos además que si los Tn son exponencialmente distribuidos, cabría esperar en promedio 1 λ segundos (o cualquier otra unidad de tiempo conveniente) entre llegadas sucesivas de carros porque E [Tn ] = 1 λ . Obsérvese que mientras mayor es l menor es, en promedio, el lapso de tiempo transcurrido entre dos llegadas sucesivas de carros. Por esta razón, l es conocida como la intensidad o frecuencia del tráfico (ver
{
}
sección 4.2 en la descripción del axioma 3). En base a Tn n ∈ N + podemos definir
{
}
una caminata aleatoria Sn n ∈ N + del siguiente modo: n
S n = ∑ Ti i =1
Cada Sn representa el tiempo de espera que transcurre hasta la llegada del n ésimo vehiculo. ¿Se puede deducir de algún modo la distribución de probabilidad de los S n ? Teniendo en cuenta que Sn es una suma de n variables independientes e idénticamente distribuidas, se puede deducir mediante el uso de la función característica o el desarrollo de las convoluciones que Sn es una variable distribuida según la ley de Erlang (ver tabla 1.2, distribución Gamma). Por lo tanto, su función de densidad es:
fSn (t ) =
100
λ
(n − 1)!
(λt )n −1 e −λt ,
λ ,t > 0
La pregunta crucial es: Si N(t) es un proceso de conteo que representa la cuenta de vehículos que han pasado por la intersección hasta el instante de tiempo t, ¿Cómo se distribuye N(t) si los tiempos inter-arribos son independientes e idénticamente distribuidos según la ley exponencial? Veamos: {N (t ) = n} representa el suceso que se produce cuando pasan exactamente n vehículos por la intersección en el transcurso de [0, t ] segundos.
Este suceso es
equivalente al siguiente: “El tiempo hasta que pasa el n ésimo vehiculo es menor que t y el siguiente vehiculo (el n+1 ésimo) llega después de t”.
Entonces tenemos una
equivalencia entre los siguientes dos sucesos (que se debe demostrar en el problema propuesto N° 19:
{N (t ) = n} ≡ {Sn ≤ t } − {Sn +1 ≤ t }
[4.8]
Por ser ambos sucesos equivalentes, sus probabilidades son iguales y se tiene que: t
P {N (t ) = n} = P {Sn ≤ t } − P {Sn +1 ≤ t } = ∫ 0
λ
(n − 1)!
(λx )
n −1
e
− λx
λ
t
dx − ∫ 0
n!
(λx )n e −λx dx
Integrando por partes la expresión en el extremo derecho tenemos: t
P {N (t ) = n} = ∫ 0
λ
(n − 1)!
(λx )
n −1
e
− λx
dx + e
− λt
(λt )n n!
t
−∫ 0
λ
(n − 1)!
(λx )
n −1
e
− λx
dx = e
− λt
(λt )n n!
que se corresponde a la función de probabilidad de Poisson.
Acabamos de establecer que cuando los tiempos de espera inter-eventos son exponencialmente distribuidos con el mismo parámetro lambda (la misma intensidad de tráfico), el proceso resultante es un proceso de Poisson. Se puede demostrar también, aunque no se hará en esta exposición, que los tiempos inter-eventos de un proceso de Poisson homogéneo son exponencialmente distribuidos con el mismo parámetro lambda. Esta caracterización del proceso de Poisson tiene una consecuencia de capital importancia práctica para nosotros: para simular un proceso de Poisson, debemos generar una secuencia de números aleatorios exponencialmente distribuidos. La suma acumulada de dicha secuencia representará entonces los tiempos exactos en que suceden los eventos de tipo Poisson. 101
4.5. La distribución uniforme de los tiempos de ocurrencia de sucesos en un proceso de Poisson. En las caracterizaciones del proceso de Poisson homogéneo que hemos planteado, se ha insinuado que los axiomas 1 y 2 referentes a la independencia y estacionariedad de los incrementos causan una distribución uniforme y completamente aleatoria de los sucesos en la dimensión temporal (o espacial, si se quiere). De hecho, el proceso de Poisson homogéneo se conoce como el proceso completamente aleatorio ya que distribuye los sucesos sobre el intervalo temporal infinito [0, ∞ ) de la misma forma en que se distribuyen puntos sobre un intervalo finito bajo la distribución uniforme. Vamos a ilustrar mediante un ejemplo lo que se pretende establecer. Supóngase que en un horizonte de 0 a 30 unidades de tiempo observamos un proceso de Poisson y que además, en esa “ventana de tiempo” ocurrieron exactamente 31 sucesos de cierto tipo, tal como se muestra en la gráfica a continuación (Fig. 4.4). Adicionalmente, el suceso N° 32 ocurrió después del instante de tiempo t=30.
Fig. 4.4. Una realización de un proceso de Poisson observada en el horizonte de tiempo de 0 a 30.
El resultado que se pretende establecer es el siguiente: si distribuimos 31 puntos de forma aleatoria y según la distribución uniforme sobre el intervalo temporal de 0 a 30, el resultado que vamos a observar es muy similar al de la Fig. 4.4:
Fig. 4.5. Distribución de 31 puntos sobre el intervalo [0,30] según la distribución uniforme.
102
Es instructivo ojear el código en R que genera estas gráficas: #Los eventos en un proceso de Poisson se aglomeran #y además, el proceso de poisson distribuye los puntos en un #horizonte de tiempo como la distribución uniforme. #Autor: Prof. José L. Romero P. fecha: 31/7/2007 #-----------------------------------------------------#Se simula un proceso de Poisson desde 0 a tmax unidades de tiempo tiempos.de.llegada=NULL tiempo=0 alfa=1; tmax=30*alfa while (tiempo
En este programa estamos incorporando la lección más importante aprendida en el aparte anterior: si quieres simular los tiempos de los eventos en un proceso de Poisson, obtenlos
recordando
que
el
tiempo
entre
eventos
sucesivos
se
distribuye
exponencialmente. En efecto, esto es lo que se realiza en la primera parte del código, donde se generan los “tiempos de llegada” dentro de una ventana temporal entre 0 y tmax.
Viendo las dos gráficas, podrás notar lo siguiente: 1)
La distribución de los puntos en una gráfica y en otra no son idénticas, pero son muy similares. Esto se debe a que el mecanismo aleatorio que las genera es idéntico en una y en otra, resultado que pretendemos demostrar matemáticamente en lo que sigue.
103
2)
Hay cierta tendencia en ambas figuras a que los puntos se aglomeren unos muy cercanos a otros. De hecho, hay algunos puntos que casi coinciden (son aquellos círculos más “oscuros” de lo normal). En la realización del proceso de Poisson esto tiene una explicación muy sencilla: la distancia (tiempo) que media entre dos sucesos consecutivos es distribuida exponencialmente, como se demostró en la sección anterior. La distribución exponencial es muy sesgada hacia la izquierda, de modo que es más frecuente tener distancias entre puntos muy cortas. Lo mismo ocurrirá con la distribución uniforme, pues como se va a demostrar, se trata del mismo fenómeno aleatorio.
Previo a la demostración, vamos a introducir una idea que quizás no te sea familiar: el concepto de lo que es un estadístico de orden.
Supongamos que tenemos una
secuencia de k variables aleatorias idénticamente distribuidas e independientes entre sí. En el ámbito de la inferencia estadística, tal secuencia se conoce como muestra aleatoria, porque se supone que las variables se corresponden a observaciones hechas a una población. Para hacer inferencias a partir de una muestra , componemos los valores de la misma para calcular lo que se conoce como estadístico, que no es más que una función (multivariada) de la muestra.
Los estadísticos de orden son
simplemente un ordenamiento de menor a mayor de los elementos de la muestra. Así, para una secuencia de k variables aleatorias U1, U 2 ,…,U k , los estadísticos de orden
U (1), U (2 ),…,U (k ) se obtienen ordenando la secuencia original según su magnitud, de modo que siempre se cumple que: U (1) ≤ U (2 ) ≤ … ≤ U (k ) . En particular, estaremos interesados en conocer cual es la función de densidad conjunta de los estadísticos de orden basados en una muestra aleatoria tomada de una población uniformemente distribuida en el intervalo [0,T ] :
fU(1) ,U( 2 ) ,…,U( k ) (t1, t 2 ,…, t k ) =
k! Tk
cuando
0 ≤ t1 ≤ t 2 ≤ … ≤ t k ≤ T
[4.9]
El término 1 T k al lado derecho de la ecuación proviene del hecho de ser los
U1, U 2 ,…,U k uniformemente distribuidos en el intervalo [0,T ] y de ser mutuamente independientes (la función de densidad conjunta es la productoria de las respectivas funciones de densidad). 104
El termino k! proviene de observar que hay k! posibles
ordenamientos (o permutaciones, si se quiere) de los elementos de la secuencia
U1, U 2 ,…,U k y todos generan la misma secuencia U (1), U (2 ),…,U (k ) . Por otro lado, supongamos que N (T ) = k , lo que equivale a decir que hasta el instante de tiempo T, han ocurrido exactamente k sucesos de tipo Poisson. Más precisamente, dado que N (T ) = k , la probabilidad (condicional) de que en cada uno de los subintervalos [t1 , t1 + Δt1 ], …, [t k , t k + Δt k ] del intervalo [0,T ] ocurra exactamente un suceso y fuera de estos subintervalos no ocurra ningún suceso es:
λΔt1e −λΔt1 ⋅ … ⋅ λΔt k e −λΔtk ⋅ e −λ (T − Δt1 −…−Δtk ) e
Esta
− λT
probabilidad
(λT ) ⋅
k
=
Δt1 ⋅ … ⋅ Δt k ⋅ k!
[4.10]
Tk
k!
se
puede
expresar
en
función
de
los
instantes
S1 < S 2 < … < S k < T en que se producen los k sucesos, de modo que:
P (t1 ≤ S1 ≤ t1 + Δt1,…, t k ≤ Sk ≤ t k + Δt k N (T ) = k ) Δt1 ⋅ … ⋅ Δt k
=
k! Tk
[4.11]
La notación “delta-t” en los subintervalos [t1, t1 + Δt1 ], …, [t k , t k + Δt k ] se utilizó con el propósito expreso de que intuyas que la expresión a la izquierda de 4.11 es una función de densidad conjunta (condicional) si hacemos tender los Δt i a cero (recordemos que la función de densidad es la derivada de la función de distribución de probabilidad). Con todo esto, tenemos en definitiva que:
fS1,S2 ,…,Sk (t1, t 2 ,…, t k N (T ) = k ) =
k! Tk
cuando
0 ≤ t1 ≤ t 2 ≤ … ≤ t k ≤ T
[4.12]
Y esto es exactamente igual a la expresión en 4.9. Como quien no quiere la cosa, hemos demostrado el siguiente teorema:
105
{N (t ), t ≥ 0} un proceso de Poisson homogéneo con parámetro condición N (T ) = k , los tiempos en que ocurren los k sucesos de
Teorema 4.3- Sea lambda. Bajo la
Poisson S1 < S 2 < … < S k son variables aleatorias con la misma distribución que los estadísticos de orden correspondientes a k variables aleatorias independientes
U1, U 2 ,…,U k distribuidas uniformemente en el intervalo [0,T ] Con esta información, vamos a echar un segundo vistazo al problema del encuentro visto en la sección 1.7.
Recordemos que el problema era determinar con cual
probabilidad se encuentran dos personas si el tiempo de llegada de cada uno es uniformemente distribuido en el lapso de una hora e independiente del otro y además el que llega primero no espera mas de 10 minutos (1/6 de hora) por el otro. No es que hayamos abordado el problema mal en aquella oportunidad, pero ahora, mediante una simulación e interpretando el teorema 4.3, lo haremos de nuevo. Simulando los tiempos de ocurrencia de eventos en un proceso de Poisson con una tasa lambda arbitraria (en la simulación realizamos corridas con distintos valores de lambda), consideramos solo los casos en los cuales el segundo suceso haya sucedido antes de la hora y el tercero después de la hora. Esto redunda en que se cumple la hipótesis del teorema, a saber, que han sucedido dos eventos de tipo Poisson en el lapso de una hora, o N (1) = 2 . El teorema 4.3 nos asegura que bajo esta condición, los tiempos de ocurrencia de los dos sucesos 0 < S1 < S 2 < 1 se distribuyen igual que los estadísticos de orden correspondientes a dos variables aleatorias independientes y uniformemente distribuidas entre 0 y 1. La tesis del teorema es la que nos permite calcular la probabilidad requerida: tan solo tenemos que calcular la proporción de casos de la simulación (que cumplen la hipótesis) donde el tiempo de ocurrencia del segundo evento dista en menos de 10 minutos (1/6 de hora) del tiempo del primer evento. Cabe preguntarse si el valor del parámetro del proceso de Poisson no afecta el resultado.
El siguiente código simuló N=10000 corridas en las cuales ocurrían
exactamente dos sucesos de Poisson en una hora para cada λ ∈ {2, 4, 6, 8,10}. Sorprendentemente, las probabilidades no varían según el valor de lambda y en conjunto, no difieren mucho del valor teórico calculado en la sección 1.7 (que era de
0,3055 ). 106
> N=10000 > for (lambda in seq(from=2,to=10,by=2)) { + cnt=0 + muestra=NULL + while (cnt1)) { + muestra=c(muestra,x[2]-x[1]) + cnt=cnt+1 + } + } + cat("lambda=",lambda,"probabilidad=", + mean(as.integer(muestra<1/6)),"\n") + } lambda= 2 probabilidad= 0.3078 lambda= 4 probabilidad= 0.306 lambda= 6 probabilidad= 0.3082 lambda= 8 probabilidad= 0.2967 lambda= 10 probabilidad= 0.3069 > Para darle más sustento empírico al asunto, se obtuvo un histograma de frecuencias contrastando las densidades empíricas con la función de densidad teórica (la línea roja). Dicho gráfico se incluye en la Fig. 4.6: llama la atención la similitud entre este y el de la sección 1.7. Por supuesto, el abordaje que se le hizo a este problema en la sección 1.7 es más natural y más directo que el que hicimos ahora. Pero con esto se pretendía trabase mayor conocimiento intuitivo sobre lo que establece el teorema 4.3 y sobre las condiciones necesarias para su validez. Se vuelve a recalcar que el valor particular del parámetro lambda no esta entre estas condiciones necesarias.
107
Fig. 4.5- Densidades empírica y teórica para el problema del encuentro en la sección 1.7. Las implicaciones del teorema 4.3 se pueden enlazar con todo lo que hemos visto hasta ahora del proceso de Poisson homogéneo, en particular, las consideraciones que hicimos para los procesos de Poisson espaciales.
De hecho, las condiciones de
estacionariedad e independencia de los incrementos, que caracterizan al proceso de Poisson homogéneo implican que en cualquier punto de una determinada área existe igual probabilidad de ocurrir un suceso que en otro lugar.
En la terminología del
teorema 4.3 diríamos que el proceso de Poisson espacial distribuye puntos sobre un área o volumen uniformemente. Por otro lado, vista la relación entre la uniforme y la exponencial que se da en el proceso de Poisson, cuando se distribuyen puntos en el espacio de forma completamente aleatoria y uniforme, ocurre cierto aglutinamiento. ¿Quizás por eso es que las estrellas y otros cuerpos celestes forman conglomerados como galaxias y constelaciones?
108
Problemas Resueltos 1)
Cierta enfermedad no contagiosa afecta en promedio a una persona de cada mil en la población. ¿Cuál es la probabilidad de que ocurran al menos dos casos, ningún caso y exactamente un caso en un pueblo de 3000 habitantes? Solución: Como la enfermedad es no contagiosa, su presencia en cualquier habitante del pueblo es independiente del resto de las personas.
Por lo tanto un modelo
razonable de la situación es suponer que se trata de 3000 ensayos de Bernoulli con probabilidad de éxito de 0,001. Usamos en este caso la aproximación de Poisson con parámetro λ = np = 3 , de donde obtenemos:
P {X = 0} = e − λ = e −3 = 0,0498 P {X = 1} = e − λ ⋅ λ = 3e −3 = 0,1494 P {X = 2} = 1 − (P {X = 0} + P {X = 1}) = 0,8008 2)
{N (t ), t ≥ 0} un proceso de Poisson homogéneo Calcular P {N (2.5) = 15, N (3.2 ) = 19, N (4.5) = 32} . Sea
con parámetro λ = 8 .
Solución: El evento cuya probabilidad deseamos calcular se puede escribir como
P {N (2.5) = 15, N (3.2 ) − N (2.5) = 4, N (4.5) − N (3.2 ) = 13} y sabemos que una de las características del proceso de Poisson es la de poseer incrementos estacionarios e independientes, de donde la probabilidad que deseamos calcular es:
P {N (2.5) = 15}⋅ P {N (0.7 ) = 4}⋅ P {N (1.3) = 13} = e −8(2.5+0.7+1.3) ⋅
2015 ⋅ 5.6 4 ⋅ 10.413 17!⋅4!⋅13!
= 2.34 ⋅ 10 −6
109
3)
Los clientes llegan a la sucursal de un banco de acuerdo con un proceso de Poisson homogéneo de intensidad λ. Se sabe que en el intervalo [0,T ] ha llegado exactamente un cliente. Determina cuál es la distribución de la variable aleatoria X que representa el instante en el que llega el cliente, condicionada a la información de la que disponemos. Solución: Para determinar completamente la distribución de la variable aleatoria X, basta con determinar el valor del parámetro lambda, pues se sabe que
{X (t ), t ≥ 0} es
un proceso de Poisson homogéneo. Una forma de abordar el problema sería así:
λ representa la cantidad de eventos, en promedio, que ocurren en una unidad de tiempo. En base a la evidencia, ocurrió un evento en T unidades de tiempo. Por lo tanto, para estimar λ en base a esta información podríamos utilizar una regla de tres: 1 es a T como λ es a 1, de donde λ = 1 T .
Este planteamiento podría no parecer lo bastante “científico”, por lo cuál hablaremos brevemente de un procedimiento de la inferencia estadística llamado estimación puntual por el método de la máxima verosimilitud. Básicamente, dicho método consiste en determinar el estimador (valor) del parámetro como aquel que maximiza la verosimilitud, o probabilidad, de observar determinado valor de la muestra.
En nuestro caso, la probabilidad de observar 1 suceso en todo el
intervalo [0,T ] es:
P {X (T ) = 1} = e −λT ⋅
λT 1
Encontrar el valor de λ que maximiza esta probabilidad es equivalente a encontrar el valor de λ que maximiza el logaritmo neperiano de dicha probabilidad, porque el logaritmo es una función monótona creciente. Por lo tanto, tenemos que:
110
∂ λT ⎞ ∂ ∂ ⎛ (− λT + ln λ + lnT ) = −T + 1 ln P {X (T ) = 1} = ln ⎜ e −λT ⋅ ⎟= ∂λ ⎝ 1 ⎠ ∂λ λ ∂λ e igualando dicha derivada a cero (para hallar el punto crítico), se tiene que
λ = 1 T , como habíamos concluido antes. 4)
Considere la confección de Galletas “La Abuela”, en la que el número de pasas en cada galleta de avena es una variable aleatoria de tipo Poisson con un promedio de 1,5 pasas por galleta. a) ¿Cuál es la probabilidad de tener una o más pasas en una galleta de avena seleccionada al azar? b) En vista de que los clientes han protestado, la Abuela ha dado instrucciones a sus empleados que desechen las galletas de avena sin pasas. ¿Cual es la esperanza matemática y la varianza del número de pasas por galleta en las galletas restantes? Solución: Sea X el número de pasas de una galleta escogida al azar, donde
P {X = k } = e −1,5 Por
lo
1,5 k . k!
tanto,
P {X = 0} = e −1,5 = 0,2231
y
en
consecuencia,
P {X ≥ 1} = 1 − P {X = 0} = 0,7769 , lo cual responde a la primera parte de la pregunta. Esta probabilidad de 0,7769 será considerada como la probabilidad total en la distribución de pasas en las galletas remanentes, que contendrán como mínimo 1 pasa. Por lo tanto, la distribución de probabilidad (truncada) de la cantidad de pasas en las galletas con por lo menos una pasa será:
⎧ −1,5 1,5 k ⎪ para k ≥ 1 P {X ' = k } = ⎨e 0,7769 ⋅ k! ⎪⎩ 0 caso contrario De ahí, la esperanza de X’ es ∞
E [X '] = ∑ e −1,5 k =1
∞ 1,5 k 1,5 1,5 k ⋅k = = 1,9308 e −1,5 ∑ 0,7769 ⋅ k! 0,7769 k = 0 k!
111
Y para calcular la varianza:
[
]
∞
E X ' 2 − X ' = E [X ' ( X '−1)] = ∑ e −1,5 k =1
= e −1,5
2 ∞ 1,5 1,5 k − 2 1,5 k 1,5 2 −1,5 1,5 = = e ∑ ∑ 0,7769 k = 2 (k − 2)! 0,7769 k =0 k! 0,7769
[ ]
De donde E X ' 2 =
[ ]
∞ 1,5 k 1,5 k ⋅ k (k − 1) = ∑ e −1,5 ⋅ k (k − 1) 0,7769 ⋅ k! 0,7769 ⋅ k! k =2
2
∞
1,5 2 + 1,9308 = 4,8269 y finalmente: 0,7769
V [X '] = E X ' 2 − E 2 [X '] = 4,8269 − 1,9308 2 = 1,0989
112
Problemas Propuestos 1)
Demuestra que la siguiente función es una función de probabilidad y deduce la esperanza matemática y la varianza de la variable aleatoria correspondiente: ⎧ λ x −λ ⎪ e p X (x ) = ⎨ x! ⎪ ⎩ 0
2)
x ∈N≥ 0 x<0
Sea p(x; λ ) la función de probabilidad de Poisson con parámetro lambda. Demuestra la siguiente fórmula de recursión: p(x + 1; λ ) =
3)
λ x +1
p(x; λ )
El número de partículas emitidas de una fuente radioactiva durante un periodo de tiempo es una variable aleatoria con distribución de Poisson y la probabilidad de que no haya emisiones es de 1 3 . calcula la probabilidad de tener 2 o más emisiones en ese lapso de tiempo.
4)
Considérese el torneo de fútbol americano que se efectúa entre los 28 equipos que constituyen la Liga Nacional de Fútbol (NFL) donde nos interesa el número de anotaciones (touchdowns) de cada equipo por juego. En base a la siguiente tabla, que muestra la estadística de frecuencias del número de anotaciones por equipo por juego, ajusta el número de anotaciones a una variable aleatoria distribuida según Poisson. En base a este ajuste, ¿consideras que la distribución de Poisson es un modelo matemático adecuado para este fenómeno? Número de anotaciones por equipo y juego
Número de veces observada (frecuencia absoluta)
0 1 2 3 4 5 6 7 o más
35 99 104 110 62 25 10 3
Totales
448
113
5)
Supóngase que en un recipiente que contiene 10.000 partículas, la probabilidad de que se escape una es de 0,0004 y cada escape ocurre de forma independiente. ¿Cuál es la probabilidad de que en ese recipiente ocurran 5 o más escapes?
6)
Supóngase que una operadora de tele-mercadeo recibe una llamada con probabilidad 0,01 y ninguna llamada con probabilidad 0,99 en un segundo. Utiliza la aproximación de Poisson para calcular la probabilidad de que la operadora no reciba llamadas si se ausenta durante 5 minutos para tomarse un café y compárala con la probabilidad binomial correspondiente.
7)
En un artículo publicado en una revista médica especializada se reporta que para un paciente diabético, insulina-dependiente de edad entre 30 y 40 años, la probabilidad anual de contraer retinopatía diabética (ceguera) es de 0,0067. En un grupo de 1000 pacientes con estas condiciones, ¿Cuál es la probabilidad de que se den 4 o más casos de ceguera causada por diabetes el próximo año?
8)
En un hospital, se le hicieron pruebas a 3741 recién nacidos de los cuales 30 resultaron HIV-positivos. En una muestra aleatoria de 500 pacientes tomados de esta población, ¿cuál es la probabilidad de que exactamente 10 de ellos resulten HIV-positivos? Justifica el uso de la distribución hipergeométrica para encontrar dicha probabilidad y aproxima esta probabilidad mediante la función de Poisson.
9)
Supóngase que el 1,5% de las familias en Caracas tienen un ingreso anual por encima de los 30.000,00 Bs. F. Calcula la probabilidad de que al seleccionar una muestra aleatoria de 60 familias caraqueñas, a lo sumo 2 tienen ingresos superiores a los 30.000,00 Bs. F.
10)
Al transmitir números binarios de n dígitos mediante un componente electrónico, se introducen errores en la transmisión de cada bit de forma independiente y aleatoria con una probabilidad constante p = 0.0002 . Si se transmiten 1000 números binarios de 64 bits cada uno por microsegundo, determina:
114
a)
¿Cuál es la probabilidad de transmitir un número de 64 bits con cero, uno o más errores?
b)
¿Cuál es la probabilidad de que se transmitan exactamente diez números incorrectamente en el transcurso de un microsegundo?
11)
En una manufactura de botellas de vidrio pueden encontrarse partículas extrañas en el vidrio fundido. Si una de tales partículas se encuentra en el vidrio de una botella, dicha botella es defectuosa y debe ser descartada. Suponemos que estas partículas se encuentran distribuidas en el vidrio fundido de forma uniforme y aleatoria, y que en promedio, se tienen 30 partículas por cada 100 kg. de vidrio fundido y que se requiere 1 kg. de vidrio fundido para fabricar cada una de las botellas. Determina que porcentaje de las botellas deben ser descartadas. (Ayuda: la respuesta no es 30%)
12)
En un consultorio médico llegan en promedio 15 pacientes diarios según un proceso de Poisson.
¿Cuántos pacientes deben ser admitidos diariamente a
consulta si la gerencia desea estar segura con un 85% de confianza de no dejar de atender pacientes en un día? 13)
{
}
Considera un proceso de Poisson homogéneo N (t ) t > 0 . Demuestra que para
s < t , N (s ) N (t ) = n es una variable aleatoria Binomial con n ensayos y probabilidad de éxito s t .
14)
{
}
Considérese un proceso de Poisson homogéneo N (t ) t > 0 con tasa l. Calcule su núcleo de covarianza K (s, s + t ) con s, t > 0 .
15)
n Demuestra por el método de inducción completa que P n (t ) = e − λ t ⋅ (λ t ) , n!
partiendo de la ecuación 4.7 dada en este capitulo. 16)
Como ejemplo de una distribución aleatoria de puntos en el espacio, se da a continuación una tabla basada en estadísticas referentes a la cantidad de impactos de bombas volantes alemanas tipo V-2 sobre Londres durante la segunda guerra
115
mundial.
El área total expuesta a bombardeo se subdividió en 576 áreas
pequeñas de 1 4 km 2 cada una, registrando el número de áreas N k en que hay exactamente k impactos.
k
0
1
2
3
4
5 o más
Total
Nk
229
211
93
35
7
1
576
a) ¿Cuántos impactos de bombas volantes se registraron en total, según la estadística anterior? b) Determina el promedio de impactos por área de 1 4 km 2 . c) Determina el ajuste de impactos por área de 1 4 km 2 a una distribución de Poisson y verifica que el modelo de Poisson se ajusta bastante bien a este fenómeno. d) Según las condiciones que dan origen al proceso de Poisson, interpreta y deduce las implicaciones de que el fenómeno descrito sea un proceso de Poisson. 17)
En el bosque de Nunca Jamás, los árboles se distribuyen según un proceso Poisson espacial homogéneo en dos dimensiones a razón de 50 árboles por hectárea. ¿Cuál es la distancia promedio entre un árbol y el árbol más cercano?
18)
{
Sea Tn n ∈N +
} una
secuencia de variables mutuamente independientes e
idénticamente distribuidas según una distribución exponencial con parámetro l. ¿Qué
tipo
de
proceso
estocástico
{T
es
n
}
n ∈N + ? ¿Es estrictamente
estacionario? ¿Es débilmente estacionario? Razona tu respuesta. 19)
Supóngase que los tiempos entre eventos de un proceso (que llamaremos incrementos) son mutuamente independientes e idénticamente distribuidos y defínase una caminata aleatoria
{S
n
}
n ∈ N + del modo usual como la suma de n
incrementos positivos independientes. Sea {N (t ) = n} el suceso siguiente: “Hasta el momento t, han ocurrido exactamente n eventos”.
116
Utiliza el álgebra de
conjuntos y los axiomas básicos de la probabilidad para demostrar la siguiente equivalencia: P {N (t ) = n} = P {Sn ≤ t } − P {Sn +1 ≤ t }. 20)
{
}
Considérese un proceso de Poisson homogéneo N (t ) t > 0 secuencia aleatoria
{S
n
n ∈ N+
} son
con tasa l y la
los tiempos de ocurrencia de eventos
asociados a este proceso de Poisson.
Calcula
P {S3 ≤ x N (t ) = 10}, con
0≤ x ≤t. 21)
Realiza una simulación por computadora de un proceso de Poisson con intensidad promedio de 2 sucesos por unidad de tiempo. Utilizando dicha simulación estima: a)
P {N [2,4 ] = 2}, donde N [2,4 ] representa la cantidad de sucesos ocurridos en el intervalo [2,4] .
b)
22)
P {3 ≤ S3 ≤ 5} , donde S3 es el instante en que ocurre el tercer suceso.
Un vendedor de perrocalientes observa que aún cuando sus clientes asiduos no llegan en intervalos de tiempo regulares, no obstante arriban según un proceso de Poisson con una tasa de llegada promedio de un cliente por minuto. Un día le dice a un amigo que le haga guardia en su carrito de perro calientes mientras el se ausenta por 5 minutos. A su regreso, el amigo le dice que en los cinco minutos llegaron 4 clientes. “Descríbemelos por alguna característica única a cada uno y te diré el momento en el cual llegaron”, le respondió el perrero.
Calcula la
probabilidad de que el perrero pueda identificar correctamente los tiempos de llegada de cada cliente si para cada cliente indica un intervalo de dos minutos dentro del cual se asegura que ese cliente llegó.
117