CAPITULO 6
SELECCION DEL TAMAÑO DE LA
MUESTRA 6.1
Análisis de resultados de la simulación
La mayoría de los sistemas estudiados a través de la simulación tienen un comportamiento estocástico en sus datos iniciales (ejemplo: el proceso de arribo de la entidades) y en algunos de sus componentes internos (ejemplo: tiempos de servicio en las instalaciones). La relación entre los varios componentes internos de un sistema pueden estar también sujeto a cambio (ejemplo: la probabilidad de que una entidad siga una cierta ruta) Los modelos de simulación convierten las influencia estadísticas que ellos reciben en la forma de insumos y procesos internos, en datos estadísticos lo cual constituye sus resultados. Desde el punto de vista del análisis de los resultados, la simulación es simplemente otro método de muestreo muestreo y análisis estadístico. estadístico. El objetivo de este capítulo es la de proveer conceptos rudimentarios relacionados con el papel del análisis estadístico en la simulación y demostrar las aplicaciones de esos conceptos a través de ejemplos numéricos.
6.2
La importancia del Análisis de resultados de la simulación
Los estudios de simulación pueden realizarse por alguno de los siguientes propósitos: 1. Para determinar las características (media, (media, varianza, mínimo, máximo, etc.) de ciertas variables para condiciones iniciales dadas., valor de los parámetros, y configuraciones del modelo para analizar y comprender el comportamiento de un sistema existente o para predecir el comportamiento de un sistema futuro en la etapa de diseño del sistema. 2. Para comparar las características características (media, varianza, mínimo, máximo, máximo, etc.) de ciertas variables bajo varias condiciones de datos iniciales, valor de los parámetros, y configuración del modelo. La manipulación de estos factores y la comparación de sus efectos para cada escenario simulado puede resultar en determinar las condiciones bajo las cuales el sistema opera satisfactoriamente. El último intento del analista puede ser mejorar el desempeño de un sistema sistema existente o diseñar un sistema sistema futuro.
La mayoría de los sistemas estudiados con la simulación son estocásticos. La simulación por naturaleza es, por lo tanto, un proceso de muestreo estadístico, un proceso de estimación y un proceso de análisis. Como en el caso de un estudio analítico, la elección del tiempo de muestreo y el tamaño de la muestra afectan a la calidad de las estimaciones de los parámetros de la población para la cual la muestra es tomada. Contradictoriamente, para decidir sobre el tamaño de la muestra, es necesario tener algún conocimiento acerca de los parámetros.
Un análisis sistemático sistemático de los resultados resultados de la simulación simulación es un componente componente esencial para cualquier estudio de simulación. Es por los resultados, después de todo, que son construidos los modelos de simulación. Muchos usuarios de la simulación, sin embargo, tienden a ignorar la importancia de analizar apropiadamente el resultado de los programas de simulación. De hecho, muchos usuarios de la simulación sacan conclusiones de sus estudios de simulación basado en el resultado únicamente de una sola corrida de simulación con una longitud de tiempo de corrida arbitraria.
6.3
Tipos de simulación con respecto al análisis de los resultados
Sistemas que no terminan: Son aquellos que su operación no tienen un fin durante un horizonte de tiempo razonable. Algunos ejemplo de sistemas que no terminan son; una red de comunicación, el cuarto de emergencias de un hospital, u n centro de computo, una intersección vial, etc. Además, algunos sistemas que aparentemente si terminan actualmente no los son. Una f abrica, por ejemplo, que cierra al final de cada día y abre el próximo día puede ser correctamente visto como un sistema que no termina, siempre que se considere el flujo y la posición de las partes de los diversos inventarios implicados, implicados, ya que la condición inicial cada día, es la condición final del día anterior. La mayoría de los sistemas que no terminan no siempre alcanzan el estado estacionario. El comportamiento del estado estacionario es típicamente el interés de la mayoría de los estudios de los sistemas que no terminan.
Sistemas que terminan: Son aquellos que típicamente inician de un estado inactivo o vació y terminan con algunas de estas dos condiciones. La terminación de tales sistemas ocurre ya sea después de cierto lapso de tiempo o en el tiempo de ocurrencia de cierto evento. Un banco que inicia sus operaciones en la mañana con un estado vació cierra después de 8 horas es un ejemplo de un sistema que termina que es controlado por el tiempo Algunos ejemplos de sistemas que terminan cuya operación termina cuando un evento acontece son;:una compañía constructora que ha ganado un contrato para construir un hospital, una armadora de camiones que ha recibido una orden para construir 5 autobuses, la falla de un instrumento complicado, una batalla entre dos grupos, etc. Los sistemas que terminan pueden o no alcanzar el estado estacionario (si tienen alguno) antes de que su operación termine. Si tienen estado estacionario, entonces en ciertas situaciones deben ser tratados como sistemas que no terminan. Por ejemplo, si estamos interesados en encontrar el número de asientos que se requieren en un área de espera de una estética, estaremos interesados en conocer si el sistema tiene estado estacionario para basar nuestra decisión del estado del sistema. Es probable que ocurra que la estética no alcance el estado estacionario antes de que llegue la hora de cerrar. En este caso se puede extender la simulación más allá del fin natural de la operación del sistema con el fin de obtener datos suficientes para propósitos de estimación En muchas ocasiones, especialmente cuando su terminación es controlada por un evento, los sistemas que terminan no alcanzan el estado estacionario antes de su terminación. En tales casos
se deben de realizar varias corridas independientes. El método de replicas independientes, puede ser aplicado para analizar estadísticamente este tipo de sistemas que terminan.
6.4
Intervalos de Confianza
La exactitud de una estimación estadística es siempre expresada sobre un interv alo en lugar de un valor fijo. Estos intervalos son únicamente estimaciones; ellos pueden o no contener el valor verdadero del parámetro que esta siendo estimado. El grado de confianza en el intervalo que actualmente contiene el parámetro esta representado por una probabilidad, generalmente referida como nivel de confianza, y el intervalo en si mismo es llamado intervalo de confianza. Para un nivel dado de confianza, un intervalo de confianza menor es considerado que sea mejor que uno mas grande. De igual forma, para un dado intervalo, un alto nivel de confianza indica una mejor estimación. Consecuentemente, usando una muestra de datos dada, un analista puede crear muchos intervalos de confianza con diversos niveles de confianza (ejemplo: entre mayor sea el nivel de confianza, mas ancho es el intervalo de confianza correspondiente). En la practica, sin embargo, el analista a priori acepta un nivel de significancia y se adhiere a el. La elección del tamaño de la m uestra también afecta el intervalo y el nivel de confianza. Generalmente, para un dado nivel de confianza, entre mayor sea el tamaño de la muestra, menor será en intervalo de confianza. En otras palabras, para especificar el tamaño de la muestra es necesario conocer el intervalo y nivel de confianza de los parámetros que v an a ser estimados.
6.4.1 Estimación de la media de la población Los valores promedios de las variables en los modelos de simulación son medidas frecuentemente importantes, y en la mayoría de los estudios es el foco del análisis. El tiempo promedio de espera en la cola, el tiempo promedio en el sistema, la longitud promedio de la cola, y el tiempo promedio entre salidas son algunos ejem plos de estimaciones de promedios frecuentemente usadas. Generalmente, los dos valores mas importantes reportados en un resultado de simulación para un __
variable son la media y la desviación estándar σ . Si una observación individual de una variable aleatoria son denotadas por X 1,X 2 ,X 3,......X n para n observaciones ( ejemplo: el tiempo de espera en el sistema para n entidades), la media y la varianza de la muestra son calculadas usando las siguientes ecuaciones: __
X =
x1 + x2 + ..... + xn n
2
__ − x σ = ∑ i n − 1 i =1 2
1
n
Considerando que las variables aleatorias con independientes una de otra y están idénticamente __
distribuidas, la distribución de la media de las variables anteriores x , es normal ( para una muestra suficientemente grande, ejemplo: superior a 30). Esto se cumple debido al teorema del Lím ite Cen tr al , el cual estipula que para una muestra de tamaño suficientemente grande (sin importar la distribución de las muestras individuales), la distribución de la media muestral es normal si las muestras individuales son independientes de las otras y están idénticamente distribuidas. Por lo tanto, la variable aleatoria Z esta distribuida normalmente con media cero y una desviación estándar de uno (distribución no rm al estánd ar ), donde Z esta definida como __
Z =
x − µ
σ
σ = __
x
__
x
σ n
donde µ es la media de la población que se intenta estimar, y es la desviación estándar de la población de las variables aleatorias. Así mismo, con una probabilidad de 1- , el intervalo entre dos valores simétricos dados por la tabla de la distri bu ción no rm al estánd ar para el valor correspondiente de contendrá a Z. La relación del intervalo de confianza puede ser escrita como:
P − Z α 2
≤ Z ≤ Z α = 1 − α 2
Sustituyendo el valor de Z en la expresión anterior y haciendo algunos arreglos, se deriva para los intervalos de confianza de la población la siguiente expresión:
Z α σ __ Z α σ __ P x − 2 ≤ µ ≤ x + 2 = 1 − α n n Debido a que la desviación estándar de la población generalmente no es conocida, y debido como la desviación estándar de la muestra ,S, sirve como un estimador razonable para , S será usado en adelante en lugar de . Debe mencionarse que típicamente no menos de 30 muestras independientes deben ser usadas para la d i s t r i b u c i ón n o r m a l para justificar el uso de la distribución normal para los cálculos de los
intervalos de confianza y otras aplicaciones relacionadas que usan la anterior relación estadística. Cuando una muestra es menor de que 30, la distribución t-student deberá ser usada.
Mitad del ancho del int ervalo = ma =
( tn−1,α / 2 ) s n
donde t n −1,α / 2 es un factor que puede ser obtenido de l a tabla de la distribución t-student
Ejemplo #1 Además de proveer un ejemplo numérico para los intervalos de confianza, este ejemplo también sirve para demostrar que la independencia de los datos no esta limitada a la terminación del sistema. Suponga que una gasolinera esta localizada a un costado de carretera que conecta las ciudades A y B. El administrador de la gasolinera ordena vía telefónica la gasolina de ambas ciudades. El tiempo entre órdenes para la ciudad A esta uniformemente distribuido entre 5 y 9 horas, y el tiempo entre ordenes para la ciudad B esta uniformemente distribuido entre 10 y 14 horas. El tiempo de traslado de las pipas de gasolina de la ciudad A a la gasolinera esta normalmente distribuida con media de 7 horas y una desviación estándar de 0.5 horas, y el tiempo de traslado de las pipas de gasolina de la ciudad B a la gasolinera esta normalmente distribuida con media de 12 horas y una desviación estándar de 2 horas. Considere que inmediatamente después de realizar la orden, una pipa es enviada a la gasolinera. Simulando el sistema para el arribo de 100 pipas a la gasolinera, nos gustaría determinar un de intervalo de confianza del 95% para la media del tiempo entre el arribo de las pipas a la gasolinera. Recuerde que 30 o mas observaciones independientes son suficientes para justificar el uso de la distribución normal. Por lo que una muestra de 100 observaciones es suficiente. El valor de Z de la tabla de la distribución normal para 1-/2=1.0.95=0.05. Por lo que un valor de Z de 1.96 que corresponde a 10.05/2=0.975 se obtiene de la tabla para este ejemplo. Así, usando los valores de generados __
simulando el sistema de una media x de 4.37 y una desviación estándar S de 2.39, tenemos;
4.37 −
(1.96)(2.39) 100
≤ µ ≤ 4.37 +
3.9 ≤ µ
(1.96)(2.39) 100
≤ 4.83
El intervalo de [3.9, 4.83] es un intervalo de confianza del 95% para el tiempo entre arribos promedio de las pipas a la gasolinera. Simulando este modelo para un a muestra de tamaño grande demuestra que el hecho de que una muestra de 100 es suficientemente grande, como resultado de corridas con tamaño de muestra mas grandes no existen indicios de variaciones mayores de los valores de la media y de la desviación estándar en relación con los valores obtenidos con la muestra de tamaño 100. No obstante, incrementar el tamaño de la muestra incrementará el valor del denominador en la relación del intervalo de confianza, y aún si la desviación estándar permanece sin cambio, un intervalo de confianza menor resultará. Esto
simplemente indica que para un dado nivel de confianza, una muestra de tamaño mas grande provee estimaciones mas ajustadas de los parámetros de la población. Note en este ejemplo que puede argumentarse que a largo plazo el tiempo entre arribos de las pipas a la gasolinera es la suma de las tasas promedio de salida de las pipas de las ciudades, y es independiente del tiempo de viaje de las pipas.( ejemplo, eventualmente cada pipa que abandona las ciudades llega a la gasolinera independientemente del tiempo de viaje). Este es definitivamente un argumento legítimo. La siguiente relación provee el tiempo promedio entre arribos de las pipas a la gasolinera:
1 1 = 0.226 Pipas / hora Tiempo promedio entre arribo a la gasolinera = + + + 5 9 10 14 2 2 Por lo que el tiempo promedio entre arribos a la gasolinera es de
1 0.226
= 4.42 Horas
Nótese que la estimación de la simulación para la media anterior basada en una muestra de 100 horas ha sido 4.37 horas, lo cual sustenta el argumento anterior.
Ejemplo #2 Se desea determinar la media o el número promedio de clientes que llegan a cortarse el pelo a una estética el sábado por la mañana. Maricó dueño de la estética, la abre a las 8:00 a.m. y la cierra a las 12:00 p.m. del mismo día. Para determinar el valor exacto para el verdadero promedio de clientes µ a los que se les corta el pelo el sábado por la mañana, se desea calcular el promedio basado en el numero de cortes realizados todas las mañanas de los sábados en la estética. No deseando trabajar mucho, se decide realizar una estimación de verdadera media µ, trabajando los próximos 12 sábados por la m añana registrando el numero de clientes que se cortan el pelo entre las 8:00 a.m. y l as 12:00 p.m.
Numero de cortes observados en 12 sábados Observación
Numero cortes
1
21
2
16
3
8
4
11
5
17
de
6
16
7
6
8
14
9
15
10
16
11
14
12
10
Media
de
13.67
la
__
muestra x 4.21
Desviación estándar de la muestra s
Considere ahora que los datos del ejemplo de la estética son independientes y están normalmente distribuidos, y 95% de nivel de confianza. Dado que:
P= nivel de confianza =0.95 =
nivel de significancia =0.05
n= tamaño de la muestra __
x =13.67 cortes S= 4.21 cortes De la tabla de la distribución t-student, se tiene que t n −1,α / 2 = t 11,0.025 =2.201. El mitad del ancho es calculado de la manera siguiente:
ma =
(t11,0.025 ) S (2.201)4.21
=
n
12
= 2.67
cortes
Los límites inferior y superior con un intervalo de confianza del 95% son calculados como sigue: __
Límite inferior =
− ma =13.67-2.67=11.00 cortes
__
Límite superior =
+ ma =13.67+2.67=16.34 cortes
Se puede asegurar con un 95% de confianza que la verdadera pero desconocida media se encuentra entre 11 y 16.34 cortes (11.00 µcortes 16.34).
El ancho del intervalo indica le exactitud del punto estimado. Es deseable tener un intervalo pequeño con alta confianza (generalmente 90% o mayor). El ancho de intervalo de confianza es afectado por la variabilidad del sistema y el número de observaciones realizadas (tamaño de la muestra). Se puede observar de la ecuación de la mitad del ancho que, para un dado nivel de confianza, la mitad del ancho se encogerá si (1) el tamaño de la muestra n se incrementa o (2) la variabilidad en el resultado del sistema (desviación estándar S) es reducida. Dado que se tiene poco control sobre la variabilidad del sistema, nos resignamos a incrementar el tamaño de la muestra (mas réplicas) para incrementar la exactitud de nuestras estimaciones.
6.4.2 Estimación de la proporción La proporción es otra figura de interés en la mayoría de los estudios de simulación. Algunos ejemplos de proporciones son los valores fraccionales tales como el porcentaje de las partes que no pasan una prueba de control de calidad, el porcentaje de carros que dan vuelta a la izquierda en una intersección, y las ventas perdidas como porcentaje del numero total de negociaciones demandadas. Una proporción puede representar el porcentaje de uno de los posibles tipos de resultados en un número de pruebas. Refiriéndose a los resultados como el éxito y fracaso como probabilidades de p y 1- p , respectivamente, puede ser definida una variable aleatoria la cual toma los valores de 0 (falla) o 1 (éxito). Esta variable aleatoria binaria tiene una distribución Bernoulli para la cual la media es p y la varianza p(1-p). Para una muestra de tamaño n la relación del numero de éxitos a __
el total del numero de pruebas, p , es el estimador para p y esta normalmente distribuido si n es mayor que 10, np>5 , y n(1-p)>5. La siguiente ecuación puede expresarse como:
P − Z α ≤ 2
__
p − p p(1 − p) n
≤ Z α = 1 − α 2
A diferencia del intervalo de confianza para la media, el intervalo de confianza p puede no ser __
encontrado por un simple reordenamiento de la ecuación anterior. Si se sustituye p por p en el denominador (una buena aproximación para cuando n es grande), se obtiene el siguiente intervalo de confianza:
__ P p − Zα 2
__
__
p(1 − p) n
__ __
≤ p ≤ p+ Z α 2
__
= 1− α
p(1 − p) n
Debido a que el tamaño de la muestra en una simulación es generalmente grande para cumplir con los requerimientos de la distribución normal usado para llegar a la anterior ecuación, el únicos factores limitantes en el uso de la ecuación anterior son las condiciones que np>5 y que n(1-p)>5 . Si estas condiciones no son reunidas en un cierto experimento, entonces un intervalo de confianza mas preciso puede ser construido sobre el numero promedio de éxitos (en lugar de la proporción e éxitos) usando la distribución Binomial. La proporción puede ser entonces estimada dividiendo el estimado del numero total de éxitos entre el numero total de pruebas. Muchos libros de estadística presentan el proceso para elaborar los intervalos de confianza para variables aleatorias distribuidas binomialmente.
Ejemplo #3 Suponga que la red de actividades de un proyecto, representa las actividades requeridas para elaborar una unidad de un producto. Considérese que el f abricante esta interesado en encontrar un intervalo de confianza con un 96% para la proporción de productos que toman 15 días o menos para ser producidos, basado en la producción de 500 unidades. La simulación arroja como resultado que en promedio 38 unidades de 500 les tomo producirlas 15 días o menos. En otras palabras, la proporción es de 38/500=0.076, o 7.6% de la producción total (además note que esta proporción es relativamente cercana al valor del 7% que se obtiene de la tabla de la distribución normal). Usando la relación correspondiente para el intervalo de confianza y la proporción anterior, tenemos:
1−α
= p(.076 − 1.96
.076(1 − 0.76) 500
≤ p ≤ 0.76 + 1.96
.076(1− 0.76) 500
lo cual produce
0.053 ≤ p ≤ 0.099 Este intervalo se puede interpretar de la manera siguiente: Se tiene un 95% de confianza de que el tiempo de producción para aproximadamente del 5 al 10 por ciento de los productos en 15 menos días.
6.4.3 Estimación de la Diferencia entre Medias Frecuentemente es útil simular un sistema bajo dos diferentes escenarios (ejemplo, un sistema de un solo servidor y otro de dos servidores) y comparar sus medias de alguna medida de efectividad (ejemplo, el tiempo de espera del cliente) en cada escenario. Si la diferencia entre las dos medias es significativa, se recomienda la alternativa que indica la medida mas deseable de desempeño.
De acuerdo a la teoría estadística clásica, si dos variables aleatorias independientes están normalmente distribuidas, entonces la variable aleatoria que representa su suma o sus diferencias también esta distribuida de forma normal. Considere que las medias de las muestras de cada __
escenario simulado (dígase,
__
y y ) están normalmente distribuidas (ejemplo, considerando que
aplica el teorema del límite central), entonces la diferencia entre medias también estará normalmente distribuido con la siguiente media y varianza de la población: __
__
E[ x − y ] = µ x − µ y __
__
Var[ x − y ] = S
2 x
+ S y = 2
S 2 x n x
+
S 2 y ny
La consideración de la normalidad conduce a la siguiente ecuación:
__ __ ( x − y) − ( µ x − µ y ) P − Z α ≤ Z α = 1 − α ≤ 2 2 S 2 x S y 2 + n x ny Una simple transformación de la anterior ecuación da como resultado el siguiente intervalo de confianza:
__ __ P ( x − y ) − Zα 2
S 2 x n x
+
S
2 y
ny
__
≤ µ x − µ y ≤ ( x−
__
y ) + Z α 2
S 2 x nx
2
+
S y ny
= 1− α
Ejemplo #4 Problema de confiabilidad, considere un instrumento en el cual cuatro componentes principales son usados. Los componentes A y B están en serie y los componentes C y D trabajan en paralelo. El sistema falla cuando cualquiera de los componentes A o B fallan, o cuando ambos componentes C y D fallan. Dado que los años de operación antes de falla para cada componente están exponencialmente distribuidos con una media de 10 años, se desea simular el instrumento para encontrar la longitud de tiempo esperada antes de l a falla. Suponga que el ingeniero de diseño esta considerando una alternativa de diseño en la cual el componente D( el cual sirve como de unidad de respaldo para el componente C)) es eliminado, pero un nuevo componente C es usado, el cual tiene una vida de operación exponencialmente distribuida con media de 30 años( 3 veces el promedio de vida del otro componente). Aunque el nuevo componente cuesta mas que el costo total de los dos componentes que reemplaza, el diseño simplificado reduce los costos de ensamble y otros costos relacionados. El ingeniero, esta, sin embargo, preocupado sobre la confiabilidad del componente bajo la nueva configuración de diseño. Por consecuencia, el diseñador esta interesado en simular el componente bajo ambos escenarios para encontrar un intervalo de confianza del 95% para la diferencia entre la vida
esperada del componente bajo la configuración de diseño sobre la base de 100 replicas para cada escenario. La vida del componente bajo el diseño original y el nuevo diseño se denotan por x y y respectivamente, entonces la siguiente información es obtenida para las dos salidas de la simulación: __
x =4.9Sx=3.47
__
, y y =4.04
Sy=4.18
Note que el tamaño de la muestra para ambos escenarios es de 100. Sustituyendo estos valores en la ecuación para los intervalos de confianza entre las medias, produce el siguiente intervalo de confianza:
-0.21µx-µy1.93
este intervalo indica que el diseño original puede tener una m ejor confiabilidad.
6.5
Selección del tamaño de la muestra
La elección del tamaño de la muestra depende del grado de precisión que se espere del resultado. Este grado de precisión esta representado por el intervalo de confianza, esto es, la característica de un intervalo de confianza deseado puede conducir a la determinación del propio tamaño. Paradójicamente, para encontrar los parámetros de la población necesarios para el tamaño de la muestra, el modelo debe ser primero simulado. En otras palabras, para encontrar el tamaño de la muestra (que afecta la longitud de la simulación) dados el deseado intervalo y nivel de confianza, primero se debe simular el modelo para u na longitud de corrida arbitraria para estimar la desviación estándar de la variable aleatoria. El valor de la desviación estándar es requerido en la relación del intervalo de confianza. El valor del tamaño de la muestra es entonces calculado usando estas estimaciones iniciales de la desviación estándar y la amplitud deseada del intervalo de confianza.
6.5.1 Tamaño de la muestra basado en la media de la población Dado un intervalo de confianza para la media de una cierta variable en el sistema que esta siendo simulada, un analista pudiera desear encontrar el tamaño apropiado del tamaño de la muestra para realizar un experimento de simulación que produce las características de los intervalos de confianza. Si se denota a d como la mitad del ancho del tamaño del intervalo de confianza (ejemplo; la mitad del ancho de la diferencia entre los límites inferior y superior), entonces de acuerdo a la definición de los intervalos de confianza tenemos
P [ x - d ≤ µ ≤ x + d ] = 1 - α
La anterior ecuación asume que el intervalo de confianza es simétrico alrededor de la media. Comparando esta ecuación con la ecuación de los intervalos de confianza para la media, la siguiente relación es obtenida:
d = Z α /2
S n
Ahora podemos derivar el tamaño de la muestra de la ecuación anterior
(
S Z α /2 ) n= 2 d
2
Note que la desviación estándar de la población debe de ser conocida para determinar el tamaño de la muestra: En raros ocasiones y para ciertas variables en el modelo la información sobre la desviación estándar puede ser obtenida usando datos históricos. En la mayoría de las ocasiones, sin embargo, no hay datos históricos aplicables disponibles. Como se menciono previamente, la alternativa es correr el modelo para una muestra de tamaño arbitrario elegida. El producto de esta simulación piloto puede proveer un estimado (tal ves uno burdo) de el valor de la desviación estándar para la variable en cuestión. Este estimado puede entonces ser usado en la ecuación anterior para él calculo del tamaño de la m uestra
Debe ser notado que el tamaño de la muestra puede ser estimado independientemente de la desviación estándar de la población si el tamaño del intervalo de confianza es expresado en términos del número de la desviación estándar de la población de la variable aleatoria. Por ejemplo, si se desea que d sea 2/10 de la desviación estándar de la población, entonces substituyendo el valor de d en la ecuación del tamaño de la muestra produce lo siguiente;
( S Z α /2 )2 n= ( 2S /10 )2
n = 25Z 2α / 2
Note que los cálculos del tamaño de la muestra anterior requieren únicamente el valor de la variable estándar normal para un dado nivel de confianza. Sin embargo, debido a que d esta expresado en términos de una desviación estándar desconocida, el tamaño actual del intervalo de confianza no es conocido en este caso.
Ejemplo #5 Basado en el problema #1, suponga que una estación de gasolina esta localizada en la autopista que conecta dos ciudades A y B. El administrador de la estación ordena de gasolina desde las dos ciudades. El intervalo de tiempo entre las órdenes a la ciudad A se distribuye uniformemente entre 5 y 9 horas. El intervalo entre órdenes a la ciudad B esta uniformemente distribuido entre 10 y 14 horas. El tiempo del viaje de los camiones de gasolina desde la ciudad A se distribuye normalmente con media de 7 horas y una desviación estándar de .5 de hora. El tiempo del viaje de los camiones de gasolina desde la cuidad B se distribuye normalmente con media de 12 horas y una desviación estándar de 2 horas.
Asuma que inmediatamente después de que se realiza la orden de gasolina, un camión es enviado a la estación de gasolina. Se desea estimar el tiempo promedio entre arribos de los camiones a la estación de gasolina tal que la probabilidad sea 0.95 de que nuestras estimaciones este dentro de .1 hora de la media de la población. Para obtener una estimación para la desviación estándar de la población usada en la formula del tamaño de la muestra, se tomará el resultado de una simulación realizada como una prueba piloto con una muestra de 100, como se especificó es este ejemplo.
De acuerdo al resultado de la simulación piloto, se obtuvo un a desviación estándar del tiempo del sistema de 2.39 horas.
n=
[ (2.39) (1.96)]2 (0.1 )
2
= 2194
Ejemplo #6 Tomando como base el ejemplo #2 de la estética de Maricó, se desea estimar el ´’
numero de replicas n
necesarias para ser capaz de acertar con un 95% de confianza de que la
__
media de la muestra que se calcule este fuera por a lo máximo 2.0 cortes de pelo (d=2.0) de la verdadera media µ. Basado en muestra inicial de 12 observaciones, se sabe que S=4.21 cortes. ’ Ahora se calcula n como sigue: Dado que:
P= nivel de confianza =0.95 =
nivel de significancia =0.05
d= 2.0
S= 4.21 cortes De la última fila de la tabla t-student, se encuentra que Z 0.025 = t ∞ ,0.025 =1.96. Usando la ecuación ’
previa para n se obtiene que; 2
2
( t0.025 ) s ( 1.96) 4.21 n' = = = 17.02 d 2.0
observaciones
Dado que ya se tienen 12 observaciones, el experimento requiere 6 corridas adicionales para obtener las observaciones necesarias. __
Se ha expresado la cantidad de error objetivo e en el punto de estimación
como un valor
absoluto (d=ma). En el ejemplo de la estética, se selecciono un valor absoluto de d=2.0 cortes como el valor objetivo. Sin embargo, algunas veces en mas conveniente trabajar en términos de la desviación relativa (error relativo dr) donde ma = dr |µ|. Esto permite hablar del porcentaje de error en nuestro punto de estimación en lugar del error absoluto. El porcentaje de error es la desviación relativa (el error relativo) multiplicada por 100 (esto es, 100*dr por ciento). Para aproximar el __
numero de repeticiones necesarias para obtener un punto de estimación x con cierto porcentaje de error, se requiere únicamente cambiar el denominador de la ecuación usada anteriormente. Obteniéndose la siguiente ecuación
( Zα / 2 ) s ´ n = __ dr (1 + dr )
2
donde dr denota la desviación relativa (error relativo). La parte dr/(1+dr ) del denominador es un __
ajuste requerido para obtener el valor deseado dr debido que se usa x para estimar µ. ( ver el capítulo 6 de Law y Kelton para detalles). Lo interesante de este enfoque es que podemos seleccionar un porcentaje deseado sin tener conocimiento previo de la magnitud del v alor de µ. Como un ejemplo, digamos que después de registrar el numero de cortes de pelo en la estética en 12 sábados (n=12 repeticiones del experimento), se desea determinar el numero aproximado requerido para estimar el numero promedio de cortes de pelo realizados por día con un porcentaje de desviación (error) de 17.24 por ciento y un nivel de confianza del 95%. Se aplica la ecuación usando una la media y la desviación estándar de la muestra de la tabla dad a Dado que:
P= nivel de confianza =0.95 =
nivel de significancia =0.05
Z2/n = Z0.025 =1.96 de la tabla de la distribución normal dr = 0.1714
__
x =13.67 cortes S= 4.21 cortes
( Zα / 2 ) s ´ n = __ dr (1 + dr )
2
2
( 1.96 ) 4.21 = = 17.02 observaciones 0.1714 13.67 (1 + 0.1714)
Por esto n’ 18 observaciones
La única ventaje real de estimar el número de repeticiones por adelantado es que puede ahorrar tiempo con respecto al enfoque de prueba y error de verificar de forma repetida el mitad del ancho y volver a realizar repeticiones hasta que el nivel de confianza requerido es alcanzado.
6.5.2 Tamaño de la muestra basado en la proporción Dado un intervalo de confianza deseado para la proporción de una cierta ocurrencia en el sistema que esta siendo simulado, un analista puede desear encontrar un tamaño de muestra apropiado para realizar un experimento de simulación que produzca las características de ese intervalo de confianza. Considerando que el intervalo de confianza es simétrico alrededor de la p roporción de la población, y denotando un medio del tamaño del intervalo de confianza por d, entonces de acuerdo a la definición de los intervalos de confianza tenemos;
P [ p - d ≤ p ≤ p + d ] = 1 - α
d = Z α /2
p ( 1 - p ) n
Resolviendo la ecuación anterior para n produce la siguiente formula para el tamaño de muestra;
n = Z
2
α /2
p ( 1 - p ) 2
d
Note que en la anterior ecuación debe ser conocida p promedio para calcular el tamaño de la muestra. Una corrida de simulación piloto de una longitud arbitraria puede prove er de nueva cuenta una estimación para este parámetro. Un enfoque más confiable, sin embargo, es tomar ventaja del hecho de que valor máximo posible de este termino en el tamaño de:
p ( 1 - p )
es 0.25, cuando p promedio es igual a 0.5. Sustituyendo el máximo valor de este término en el tamaño de la muestra provee la siguiente ecuación, la cual generalmente produce un tamaño de muestra que es mayor de lo necesario; 2
n = Z α /2 4 d 2
La ventaja principal de la ecuación anterior es que es independiente de los parámetros de la población; por lo que libera al usuario de realizar la corrida de simulación piloto.
Ejemplo #7
Basado en el ejemplo #1 para una red de actividades la cual representa las actividades requeridas para hacer una unidad de un producto, considere que se desea determinar la proporción de productos que son producidos en 15 días o menos tal que la probabilidad es 0.95 que la estimación este dentro de 0.03 de la actual proporción de las unidades del producto. 2
2
n = Z α /2 4 d 2
n=
( 1.96 ) 4 0.03
2
= 1067
Este calculo indica que al menos 1067 entidades deben ser especificadas para reunir las especificaciones para los intervalos de confianza sobre la proporción de las unidades de los productos.
6.5.3 Tamaño de la muestra basado en la diferencia de las Medias Dados los intervalos de confianza deseados y un nivel de significancia para las diferencias entre las dos medias de cierta va riable, donde cada media esta asociada con una dif erente condición del modelo, se desea encontrar el tamaño de muestra apropiado para realizar un experimento de simulación que produzca las características deseadas de los intervalos de confianza. Considere que los intervalos de confianza son simétricos alrededor de las diferencias en las medias de la población, y denote un medio del intervalo de confianza por d, tenemos;
P ( x - y ) - d ≤ µ x - µ y ≤ ( x + y )+ d = 1 - α
Comparando la anterior relación con la de la de los intervalos de confianza para la diferencia entre medias, se obtiene la ecuación siguiente;
2
2
n = Z α /2
S x + S y n x n y
Usando el mismo tamaño en ambas muestras, se obtiene la siguiente ecuación para la simulación del tamaño de muestra;
n=
Z
2
α /2 ( S
d
2 x 2
+ S 2 y )
Por lo anterior, la simulación para uno de los dos escenarios de modelación debería generar estimaciones de las medias basados en el anterior tamaño de muestra que resulta de las características deseadas del intervalo de confianza.
Como se discutió en el caso del intervalo de confianza para diferencias entre medias, usar la misma corriente de números aleatorios y el mismo tamaño de muestra para las corridas de la simulación piloto de los dos escenarios (se intenta proveer estimaciones para las desviaciones estándar) es preferible en el anterior proceso.
Ejemplo #8 Basado en el ejemplo #3, suponga que se desea determinar el tamaño de la muestra para los dos escenarios de simulación para el problema que a continuación se describe. Asúmase que el tamaño de la muestra será tan grande que permita un intervalo de confianza de un 95% con una amplitud de 0.5 de año (d=0.25) para la diferencia entre las dos medias de la v ida del instrumento. Dados los valores de la desviación estándar para una corrida piloto, la cual se baso en 100 observaciones para cada uno de los dos escenarios, así;
La desviación estándar de la primer media es igual a 3.74 y La desviación estándar de la segunda media es igual a 4.18 y f ueron obtenidas en una simulación piloto.
2
2
2
(1.96 ) [( 3.74 ) + (4.18 ) ] n= = 503 2 0.25
Esto significa que cada escenario debe ser al menos simulado 503 repeticiones para proveer la amplitud deseada para el intervalo de confianza sobre la diferencia entre la vida de las medias.
6.6
Técnicas de reducción de varianza
Generalmente, conforme el tamaño de la muestra estadística crece, la varianza de la muestra decrece. Como se mostró en las formulas del intervalo de confianza, la precisión de la estimación depende de la varianza de la muestra (el cuadrado de la desviación estándar). No es muy deseable tomar tamaños de muestra grandes en la simulación de sistemas de gran escala, sin embargo, debido a que puede tomar muchas horas para su ejecución en el estudio de varios escenarios del modelo. Las técnicas de reducción de varianza son recomendadas para reducir el tamaño requerido de muestra y aún lograr una varianza relativamente pequeña. Estas técnicas fueron especialmente populares cuando las computadoras eran lentas y caras. Para un dado tamaño de muestra, el uso de los resultados de las técnicas de reducción de varianza es lograr una mejor precisión en la estimación. Dicho de otra manera, dada una requerida precisión en la estimación, los analistas requieren un tamaño de muestra menor si ellos usan una técnica de reducción de varianza en sus estudios de simulación. Métodos como muestreo
estratificado, muestreo correlacionado, variantes anti-éticas, y la ruleta Rusa han sido desarrollados para la reducción de varianza. Debe de ser mencionado que las técnicas de reducción de varianza, cuando se usan de forma incorrecta, pueden generar resultados con efectos adversos (ejemplo: pudieran incrementar la varianza). Estas técnicas no tienen mucha utilidad para modelos pequeños y sencillos para los cuales el tamaño de muestra grande generalmente no toma mucho tiempo para ser ejecutados, y para modelos de gran escala es difícil usarlos apropiadamente. Debido a estos inconvenientes, y debido al incremento en la velocidad y disponibilidad de las computadoras, en la actualidad las técnicas de reducción de varianza no son muy usadas. (Para lecturas futuras sobre este tema de la reducción de varianza en la simulación ver Law and Kelton, 1991; Moy, 1971, Pristker, 1986; Wilson, 1984.)
Problemas Propuestos Problema 1 Se desea estimar el peso promedio de los sacos que son llenados por un nuevo instrumento en una industria. Se conoce que el peso de un saco que se llena con este instrumento es una va riable aleatoria con distribución normal. Si se supone que la desviación típica del peso es de 0,5 kg. Determine el tamaño de muestra aleatoria necesaria para determinar una probabilidad igual a 0,95 de que el estimado y el parámetro se diferencien modularmente en menos de 0,1 kg.
Problema 2 De una población de 1 176 adolescentes de una ciudad X se desea conocer la aceptación por los programas humorísticos televisivos y para ello se desea tomar una muestra por lo que se necesita saber la cantidad de adolescentes que de ben entrevistar para tener una inf ormación adecuada con error estándar menor de 0.015 al 90 % de confiabilidad.
Problema 3 La altura de los jóvenes andaluces se distribuye según una ley normal de media desconocida y 2 varianza 25 cm . Se ha seleccionado una muestra aleatoria y con una confianza del 95% se ha construido un intervalo para la media poblacional cuya amplitud es de 2.45 cm. a. b.
¿Cuál ha sido el tamaño de la muestra seleccionada? Determine el límite superior y el inferior del intervalo de confianza si la muestra tomada dio una altura media de 170 cm.
Problema 4 Un fabricante de reproductores de discos compactos utiliza un conjunto de pruebas amplias para evaluar la función eléctrica de su producto. Todos los reproductores de discos compactos deben pasar todas las pruebas antes de venderse. Una muestra aleatoria de 500 reproductores tiene como resultado 15 que fallan en una o más pruebas. Encuentre un intervalo de confianza de 90% para la proporción de los reproductores de discos compactos de la población que no pasan todas las pruebas.
Problema 5
En una muestra de 400 pilas tipo B fabricadas por la Compañía “Dura por Siempre”, se encontraron 20 defectuosas. Si la proporción p de pilas defectuosas en esa muestra se usa para estimar P , que vendrá a ser la proporción verdadera de todas las pilas defectuosas tipo B fabricadas por la “Dura por Siempre”, encuentre el máximo error de estimación ε tal que se pueda tener un 95% de confianza en que P dista menos de ε de p.
Problema 6 En un estudio de 300 accidentes de automóvil en una ciudad específica, 60 tuvieron consecuencias fatales. Con base en esta muestra, construya un intervalo del 90% de confianza para aproximar la proporción de todos los accidentes automovilísticos que en esa ciudad tienen consecuencias fatales.
Problema 7 Se lleva a cabo un experimento en que se comparan dos tipos de motores, A y B. Se mide el rendimiento en millas por galón de gasolina. Se realizan 50 experimentos con el motor tipo A y 75 con el motor tipo B. La gasolina que se utiliza y las demás condiciones se m antienen constantes. El rendimiento promedio de gasolina para el motor A es de 36 millas por galón y el promedio para el motor B es 24 millas por galón. Encuentre un intervalo de confianza de 96% sobre la diferencia promedio real para los motores A y B. Suponga qu e las desviaciones estándar poblacionales son 6 y 8 para los motores A y B respectivamente.
Problema 8 Una compañía de taxis trata de decidir si comprar neumáticos de la marca A o de la B para su flotilla de taxis. Para estimar la diferencia de las dos marcas, se lleva a cabo un experimento utilizando 12 de cada marca. Los neumáticos se utilizan hasta que se desgastan, dando como resultado promedio para la marca A 36,300 kilómetros y para la marca B 38,100 kilómetros. Calcule un intervalo de confianza de 95% para la diferencia promedio de las dos marcas, si se sabe que las poblaciones se distribuyen de forma aproximadamente normal con desviación estándar de 5000 kilómetros para la marca A y 6100 kilómetros para la marca B.
Problema 9 En una muestra aleatoria de 500 familias que tienen televisores en la ciudad de Hamilton, Canadá, se encuentra que 340 están suscritas a HBO. ¿Qué tan grande se requi ere que sea una muestra si se quiere tener 95% de confianza de que la estimación de P esté dentro de 0.02?
Problema 10 Una legisladora estatal desea encuestar a los residentes de su distrito para conocer qué proporción del electorado conoce la opinión de ella, respecto al uso de fondos estatales para pagar abortos. ¿Qué tamaño de muestra se necesita si se requiere un confianza del 95% y un error máximo de estimación de 0.10?
Problema 11
El director de personal quiere comparar la efectividad de dos métodos de entrenamiento para trabajadores industriales a fin de efectuar cierta operación de montaje. Se divide un número de operarios en dos grupos iguales: el primero recibe el método de entrenamiento 1, y el segundo, el método 2. Cada uno realizará la operación de montaje y se registrará el tiempo de trabajo. Se espera que las mediciones para ambos grupos tengan una desviación estándar aproximadamente de 2 minutos. Si se desea que la estimación de la diferencia en tiempo medio de montaje sea correcta hasta por un minuto, con una probabilidad igual a 0.95, ¿cuántos trabajadores se tienen que incluir en cada grupo de entrenamiento?
Problema 12 Determinar un límite de confianza con 95% de confianza para la media de una distribución normal con varianza de 9 y usando una media de 100 valores con media igual a 5. Qué tan grande debe ser n si deseamos obtener un intervalo de confianza cercano al 100%, de longitud d=0.4?
Problema 13 El fabricante de una patente médica sostiene que la misma tiene un 90% de efectividad en el alivio de una alergia, por un periodo de 8 hrs. En una muestra de 300 individuos que tenían alergia, la medicina suministrada alivió a 240 personas. Determinar si la aseveración del fabricante es correcta.
Investigaciones: Obtenga al menos 2 documentos de las referencias bibliográficas listadas que tratan con la validación y la verificación y escriba un ensayo corto comparando y contrastando las diversas filosofías y enfoques al tópico de validación y verificación.
Compare y contraste los diferentes lenguajes de simulación en sus capacidades para ayudar al modelador el la siempre ardua tarea de d epuración y verificación..
Referencias Bibliográficas
A. M. Law and D. W. Kelton. Simulation Modeling and Analysis. Industrial Engineering and Management Science. McGraw-Hill Inc., 2nd edition, 1991. B. Concebís, “Discrete Systems Simulation”, Mc Graw-Hill, 1994 Banks, J., Carson, J.S., II, and Goldsman, D., "Discrete-Event Computer Simulation," Handbook of Statistical Methods for Engineers and Physical Scientists, 2nd ed., (H.M. Wadsworth, Ed.), McGraw-Hill, New York, 1998.
J. Banks, J. S. Carson, and B. L. Nelson. Discrete-event system simulation. Prentice-Hall, Inc., Upper Saddle River, New Jersey 07458, 2nd edition, 1996. Christos Alexopoulos, Andrew F. Seila, “Advanced Methods for Simulation Output Analysis”, Proceedings of the 1998 Winter Simulation Conference,D.J. Medeiros, E.F. Watson, J.S. Carson and M.S. Manivannan, eds Ch. Harrel,B. Ghosh, yR. Borden, Simulation using ProModel , Mc Graw-Hill, 2003 Second edition Law, A.M., y W.D. Kelton [1991], Simulation Modeling & Análisis, 2nd ed., McGraw-hill, New York. Lawrence Leemis,” Simulation Input Modeling,”Proceedings of the 1999 Winter Simulation ConferenceP. A. Farrington, H. B. Nembhard, D. T. Sturrock, and G. W. Evans, eds. S. Ross, “Simulación, Pearson”, 1999 segunda edición.