3. TEORIA DE LA ESTIMACION.
3.1 Introducción.
"La imaginación, impaciente por remontarse a las causas, se complace en crear hipótesis y a menudo deforma los hechos para plegarlos a su labor: en tales casos, las hipótesis son peligrosas. Pero cuando sólo se las considera como medios para conectar entre sí los fenómenos a fin de descubrir sus leyes, cuando, procurando no atribuirles realidad, se las rectifica continuamente con ayuda de nuevas observaciones, entonces pueden llevarnos a las causas verdaderas o, por lo menos, ponernos en condiciones de inferir de los fenómenos observados aquellos que, dadas las circunstancias, han debido originarlos Pierre Simon de Laplace Ensayo filosófico sobre las probabilidades (de las diversas formas de acercarse a la certeza) 1795
Podemos decir que la inferencia estadística se basa en las conclusiones a la que se llega por la ciencia experimental basándose en información incompleta. En la terminología estadística, el procedimiento inductivo implica el hacer inferencias acerca de una población adecuada ó universo a la luz de lo averiguado en un subconjunto aparte o muestra. La inferencia estadística se refiere a los procedimientos mediante los cuales se pueden hacer tales generalizaciones ó inducciones. Es importante por todo lo dicho anteriormente, que el proceso de la inferencia científica, implica el grado más elevado de cooperación entre la estadística y el estudio experimental.
En la informática es importante tener las herramientas necesarias para hacer inferencias, de la información recabada, y así poder dimensionar el problema al que nos enfrentamos al realizar un sistema, o poder en determinado momento realizar una auditoría informática. La inferencia estadística se puede dividir en dos áreas principales: Estimación Pruebas de Hipótesis Trataremos estas dos áreas por separado una en este capítulo, 3.2Estimación y propiedades de los estimadores El objetivo principal de la estadística inferencial es la estimación, esto es que mediante el estudio de una muestra de una población queremos generalizar nuestras conclusiones al total de la misma. Estimadores puntuales Una Estimación puntual de algún parámetro de la población θ es un valor estimado de θ, no esperamos que un estimador realice la estimación del parámetro poblacional sin errores, en realidad esperamos que no esté muy alejado. Para una muestra específica es posible obtener un estimado más cercano de µ utilizando la media de X como un estimador. Para saber si un estimador es eficiente deberemos imponer ciertas propiedades para identificarlos estos criterios son: Estimador insesgado: Se dice que un estadístico Θ es un estimador insesgado del parámetro θ si: µθ=E[Θ] =θ
Varianza mínima: Entre todos los estimadores de θ que son insesgado, se selecciona el que tenga la varianza mínima V(Θ)=0 Convergente: Si el estimador de θ, tiende a θ, se dice que es un estimador convergente Si un estimador cumple con las propiedades anteriores se dice que es un buen estimador de θ.
3.3Estimación por intervalo. Se llama intervalo de confianza en estadística a un intervalo de valores alrededor de un parámetro muestral en los que, con una probabilidad o nivel de confianza determinado, se situará el parámetro poblacional a estimar. Si α es el error aleatorio que se quiere cometer, la probabilidad será de 1 − α. A menor nivel de confianza el intervalo será más preciso, pero se cometerá un mayor error. Para comprender las siguientes fórmulas, es necesario conocer los conceptos de variabilidad del parámetro, error, nivel de confianza, valor crítico y valor α. Un intervalo de confianza es, pues, una expresión del tipo [θ1, θ2] ó θ1 ≤ θ ≤ θ2, donde θ es el parámetro a estimar. Este intervalo contiene al parámetro estimado con una determinada certeza o nivel de confianza 1-α. Al ofrecer un intervalo de confianza se da por supuesto que los datos poblacionales se distribuyen de un modo determinado. Es habitual que lo hagan mediante la distribución normal. 3.4Intervalo de confianza para la media con varianza conocida y desconocida.
Para construir un intervalo de confianza recurriremos a la siguiente definición: Intervalo nde confianza de 1-α cuando la δ es conocida y el tamaño de muestra (n) es mayor a 30 x-Zα σ/√n ≤μ≤x+Zα σ/√n
Como se menciona en la definición este intervalo se usara cuando una muestra es grande (n>=30), y se conoce su σ, pero en algunos casos la muestra es pequeña y se desconoce su desviación por lo cual tendremos que recurrir a la siguiente definición de intervalo:
Intervalo de confianza de 1-α cuando la σ es desconocida y el tamaño de muestra (n) es menor a 30 x-t∝/2sn≤μ ≤ x+tα/2 s/√n •
Con ν grados de libertad (n-1)
Ahora apliquemos estos dos intervalos a nuestro caso en estudio la canasta Nochebuena como recordamos en el capítulo 1. Tenemos que el tiempo estándar es µ=9.58 y la desviación estándar es σ=1.1919 Tomando la maquina 13 y construyamos su intervalo de confianza con la muestra que a continuación se muestra: TIEMPO PRODUCCION
10.13 9.84 8.54 8.78 8.77 8.12 8.57
8.02 7.76 8.51 8.02 7.97 7.96 8.04
7.91 7.68 8.04 9.23 8.98 8.39 9.9
9.12 9.49 8.89 9.25 9.89 9.35 10.36
9.65 10.32 9.25 12.63 8.57 8.04 9.49
Su para metros son: n=35 x=8.956
s=1.0129 Como es una muestra grande más de 30 tomaremos la fórmula para grandes muestras, y con una confiabilidad del 99% partiendo del supuesto que no conocemos el proceso. Para una confiabilidad del 99% el valor Zα/2=2.576, entonces (este valor como se recordara de su curso anterior se obtiene de las tabla, unas tablas similares a las que se vieron en el curso anterior se encuentran en el anexo, tabla a ). Entonces el intervalo se encuentra así: 8.956-2.576*1.1919135≤μ≤8.956+2.376*1.1919135
Realizando los cálculos el resultado es el siguiente: 8.43705315≤μ≤9.47494685
Estos valores si los graficáramos nos quedarían de la siguiente manera
Como se observa en el peor de los casos el tiempo de producción de la maquina es mejor que el tiempo estándar por lo que podemos decir que es una buena elección si se programa.
Tomemos otra máquina pero ahora con una muestra pequeña esto es menor a 30, tomemos la maquina 14. Y construyamos su intervalo de confianza con la muestra que a continuación se muestra: TIEMPO PRODUCCI ON
9.64 10.26 10.52 10.14 9.56 11.01 10.36 10.38 10.37
Sus parámetros son: n= 9 x=10.249
s= 0.441 Utilizaremos una confiabilidad del 99% partiendo del supuesto que no conocemos el proceso.
Para una confiabilidad del 99% y con υ=9-1=8 el valor tα/2= 3.3554, entonces (este valor como se recordara de su curso anterior se obtiene de las tabla, unas tablas similares a las que se vieron en el curso anterior se encuentran en el anexo, tabla b), entonces el intervalo se encuentra así: 10.249-3.3554*0.4419≤μ≤10.249+3.3554*0.4419
Realizando los cálculos el resultado es el siguiente: 9.7557562≤μ≤10.7422438 Estos valores si los graficáramos nos quedarían de la siguiente manera Como se observa en la grafica el mejor de los casos el tiempo de producción de la maquina es mayor que el tiempo estándar por lo que podemos decir que es una mala elección si se programa.
3.5 Intervalo de confianza para una proporción. En muchos análisis debemos obtener proporciones, probabilidades, índices, tasas, tales como la proporción de unidades defectuosas de un proceso, la probabilidad de que un artículo falle, o algún elemento se descomponga. En estos casos es razonable suponer que el análisis de cada elemento es similar a la realización de un experimento de Bernoulli, o que el total de eventos sigue una distribución binomial. El problema que queremos resolver es encontrar un intervalo de confianza para el parámetro q de la distribución binomial,
que representa la verdadera proporción de cierto tipo de eventos. El estimador de la proporción poblacional p es la proporción muestral definida como P = X/n, donde X se distribuye binomial con los parámetros (n,p). Entonces el intervalo de confianza para una proporción es: Si P es la proporción de observaciones que pertenecen a una clase de interés en una muestra aleatoria de tamaño n, entonces un intervalo de confianza para una confiabilidad de 1-α , para la verdadera proporción P de la población que pertenece a esta clase es: p-Zα/2*(p*(1-p))/n≤P ≤ p+ Z∝/2*(p*(1-p))/n
Recordemos que en el capitulo anterior, determinamos que el tiempo promedio de producción es de 9.5838, y la proporción que encontramos fue de .4545. Para este tema tomaremos la maquina 15, cuya muestra a continuación se presenta: TIEMPO PRODUCCION
9.64 10.26 10.52 10.14 9.56 11.01 10.36 10.38 10.37 12.86
11.77 11.19 10.38 11.59 10.59 9.64 10.13 10.29 9.8 10.13
10.19 10.23 10.13 11.97 10.13 9.84 8.54 8.78 8.77 8.12
8.57 8.02 7.76 8.51 8.02 7.97 7.96 8.04 7.91 7.68
Si contamos cuantas veces se produjo por debajo del tiempo promedio de 9.5838, encontramos que: X=15 y que en total se tuvieron 40 mediciones, lo nos permite encontrar p como sigue p=1540=0.375
Con estos datos podremos construir un intervalo de confianza para la proporción, y escogiendo una confiabilidad del 99%. Para poder construirlo necesitaremos el valor de Zα/2=2.576 (como se recordara de su curso anterior este valor se obtiene de las tablas normal estándar inversa, tablas que se encuentran en el anexo, tabla a), aplicando la formula encontramos: 0.375-2.576*0.375*(1-.0375)/40≤p≤0.375+2.576*0.375*(1-0.375)/40
Realizando las operaciones el intervalo nos resulta: 0.1778≤p≤0.5721
Con estos resultados y observando que la proporción poblacional, que se obtuvo en el capitulo anterior, podemos concluir que es una maquina regular porque la proporción muestral es menor a la proporción poblacional, aunque esta última proporción esta dentro del intervalo de confianza.
3.2 Intervalo
de confianza para una varianza.
Recordando lo que se comento en el capitulo anterior en la sección 2.7, sabemos que la distribución muestral de la varianza es una distribución chi cuadrada, con parámetro: χ2= n-1 S2 σ2
Y con ν=n-1 grados de libertad Por lo que: El intervalo de confianza para una varianza, con una confiabilidad de 1-α es : n-1s2χα22≤σ2≤n-1s2χ1-α22
Retomemos los datos de la maquina 14, de la sección 3.4, en donde teníamos una muestra de tamaño n=35, y una desviación muestral de s=1.0129 y por lo tanto una varianza muestral de s2=1.026 que provenía de una población con varianza σ2=1.421. Para realizar el cálculo necesitamos los valores de chi cuadrada de cada lado que como usted vio en el curso de Probabilidad se obtiene de tablas (tablas similares encontrará en el anexo, tabla c), si tomamos una confiabilidad del 99% dado que desconocemos el proceso entonces tendremos y ν=35-1=34 entonces: χ1-α22=16.50
Y
χα22=58.96
Por lo que el intervalo de confianza de la varianza, con un nivel de confiabilidad del 99% resultaría:
0.592≤σ2≤2.114
Como se puede usted dar cuenta como la varianza poblacional se encuentra dentro del intervalo podemos decir que es una buena máquina para trabajar dado que su varianza si pertenece a la población en estudio. En muchos casos esto intervalos nos podrán permitir estudiar al proceso desde diferentes puntos de vista, tanto desde la media como parámetro dimensional, lo que nos permitirá saber que tanto se deba ajustar el proceso para que esté bajo control , como de la varianza como para averiguar el grado de homogeneidad de los datos alrededor de la media, este parámetro nos permitirá hacer suposiciones sobre el estado del proceso, si requiere mantenimiento o una supervisión más estricta o no, y finalmente las proporciones la cual nos permitirá analizar desde el punto de vista de a productividad si algún elemento del proceso es más productivo que otro o simplemente que tan productivo es cada elemento. En la practica un Lic. En informática tendrá que recurrir a estos intervalos para estudios los elementos del sistema, y así poder desarrollarlo más eficientemente o si se encuentra en una área de soporte técnico le da la posibilidad de determinar los parámetros de control de todos los elementos del sistema.