Probabilidad y Estadísticas
Página 1 de 64
1. ESTADÍSTICA DESCRIPTIVA ¿Qué es la estadística? Como recolección de datos numéricos: datos ordenados según algún criterio. Como ciencia: Estudia fenómenos en masa, buscando sus características generales. A partir de un hecho particular se analizan una cantidad de casos particulares, donde se aprecia una regularidad o estabilidad en el comportamiento. El propósito de la estadística es precisamente hallar las regularidades de los fenómenos en masa, regularidades que además de servir para describir un fenómeno pueden utilizarse con fines de predicción. Significado Fin Como recolección de datos numéricos Descripción Búsqueda de Como ciencia regularidades La estadística elabora técnicas y métodos que nos ayuden a tomar decisiones. MATERIA PRIMA (datos numéricos o categorías)PRODUCTO (información útil o conclusiones). INDEC (Instituto Nacional de Estadísticas y Censos) Hasta 1968 no había nada unificado respecto a la estadística oficial, eran todas leyes de organismos nacionales, provinciales y municipales. Resolviendo este problema se promulga una ley. Estadística Descriptiva e Inferencial Estadística descriptiva: ciencia que se dedica a descubrir las regularidades dentro de un conjunto de datos. Obtiene, resume y transforma datos para interpretar la información. Proceso de inducción: con la información de la muestras se conocen las características de la población. Es la mas conocida de las ciencias estadísticas. Estadística Inferencial: es la parte de la Estadística que nos permite extraer conclusiones de una población a partir del análisis de una "parte" de ella (a la cual denominamos muestra aleatoria). El conjunto de estos puede analizarse de la misma forma que la muestra. Describir el propio conjunto de observaciones ↔ predecir que pasa en la población. Conceptos básicos de la estadística Unida de análisis: es el objeto al cual se le desea obtener la información. Pueden ser naturales (personas, maestros) o artificiales como el tiempo (día, semana, año). Población o universo [P]: conjunto de unidades de análisis que satisfacen a una definición común y en los que interesa analizar una o varias características. Debe estar perfectamente definida en tiempo y espacio (responder a QUIEN, CUANDO y DONDE). A la cantidad de elementos que conforma la población la llamaremos [N]. Muestra aleatoria [M]: es una parte o subconjunto de la población, para obtener información sobre esta. Se saca un grupo dentro de toda la población. Al tamaño de la muestra la simbolizaremos con [n]. Variable: es la cualidad o cantidad medible que se estudia de las unidades de análisis y que varían de una unidad a otra. Niveles de medición Resumen
Probabilidad y Estadísticas
Página 2 de 64
Normal: en este nivel se tienen dos o más categorías del ítem o variable. Las categorías NO tienen orden o jerarquía. Lo que se mide es colocado en una u otra categoría, lo que indica que solamente diferenciamos respecto de una o más características. Los números aquí no se manipulan automáticamente. Ordinal: en este nivel se tienen varias categorías, pero estas además mantienen un orden de mayor a menor. Las etiquetas o símbolos de las categorías SI indican jerarquía. No se aplican las operaciones aritméticas simples. Por intervalo: además de haber orden y jerarquía entre categorías, se establecen los intervalos iguales en la medición. Las distancias entre categorías son todas las mismas a lo largo de toda la escala. Hay intervalos constantes, una unidad de medida. Ej.: Temperatura. El cero de la medición, es un cero arbitrario, no es real (se asigna arbitrariamente a una categoría el valor de cero y a partir de esta se construye la escala). De razón: aparte de las características del nivel por intervalos, el cero es real, es absoluto. Cero absoluto implica que hay un punto en la escala de intervalo, agrega la existencia de un origen real que indica la ausencia de la propiedad medida por la variable. SE DEBE INDICAR EL NIVEL DE MEDICIÓN E ITEMS. Relación de variables 1. Indicar la manera de codificar codificar los datos en cada ítem y variable. variable. 2. Codificar los datos (colocar un valor valor numérico que que los identifique). La codificación se puede hacer antes (precodificado) o después (a posteriori). La codificación es necesaria para poder cuantitativamente analizar los datos (análisis estadístico) Tipo de variables Cualitativas: son las medidas en escala nominal u ordinal (mide una cualidad). Cuantitativas: las medidas en escala de intervalos o razón. • Discretas: cuando solo pueden asumir valores sobre números enteros. Ej.: alumnos. • Continuas: cuando puede asumir cualquier valor sobre los números reales. Ej.: peso. Dato u observación: es el valor que toma la variable para cada unidad de análisis y se obtiene mediante algún método de captación. Etapas de una investigación estadística a) Planeamiento: se analiza analiza el problema definiendo definiendo conceptos y variables, se hace operable a los conceptos, se elige el procedimiento de recolección, se prepara el plan de tabulación y codificación, pruebas experimentales. b) Ejecución: se recolectan recolectan los datos a través del organismo que realiza la investigación u otro organismo (primario o secundario), luego estos datos son procesados: se comprueba su calidad, se codifican (símbolo a cada categoría), se tabulan y se analizan (utilizando estadística descriptiva), se miden los cambios de las variables y sus relaciones. Métodos de relevamiento Muestra: permite estudiar el universo de intereses, con una parte de los elementos que componen a dicho universo. Debe ser representativa de la población. Su uso va en Resumen
Probabilidad y Estadísticas
Página 3 de 64
aumento porque con personal entrenado se reducen los errores ajenos al muestreo. Características: cumple con la condición de universabilidad y puede no ser simultánea. Censo: la información se obtiene de la totalidad de la población (diferencia con la muestra) cumple con la universabilidad (censa a todos los elementos) y simultaneidad (en un tiempo determinado). La información se obtiene tal como se necesita, para fines estadísticos (diferencia con el registro administrativo). Registro administrativo: es un proceso de recolección por el cual un servicio administrativo obtiene información para sus propios fines. f ines. Esta información puede ser usada con fines estadísticos y se obtiene tal como esta disponible para los fines administrativos, que no siempre coinciden con fines estadísticos, para eso se deberían hacer las modificaciones necesarias. Presentación de datos Texto: para pocos datos y cuando se necesita resaltar cosas importantes. Cuadros: permite gran cantidad de información pero de fácil lectura. Los cuadros complejos están formados por títulos, encabezados, su cuerpo, notas al pie, fuente. NO deben ser largos y las variables deben estar ordenadas. Gráficos: permiten tener una visión de conjunto más rápida que la de los números y se recuerdan más fácilmente. La representación gráfica puede ser geométrica (de gran exactitud) o de símbolos alusivos para impresionar. Las partes del grafico son: titulo, diagrama, variable, escala, fuente. Existen distintos tipos, entre ellos tenemos: t ravés del tiempo. • Grafico de línea: para la variación de la variable a través • De barras: cada barra representa un valor, para pocos datos. • De sectores: un círculo representa a la población y se divide en sectores que representan la participación. • Mapas estadísticos: es un artificio grafico para mostrar datos o información cuantitativa sobre una base geográfica. Permite representar simultáneamente variables cuantitativas con su correspondiente distribución geográfica. Tratamiento de variables cualitativas La primer operación a realizar con variables cualitativas es contabilizar el número de casos que pertenecen a cada una de las categorías de la variable. Estas medidas permiten comparaciones entre diversos grupos, basándose esencialmente en el tamaño de los mismos. De fundamental utilidad cuando las medidas son medidas nominal u ordinal. Proporciones: número de casos en una categoría dividido por el número total de casos. Pi = Ni / N
Porcentajes: se obtienen multiplicando a las proporciones por 100. Pi = ( Ni / N ) *100 Razones: la razon de un numero A con respecto a un numero B se define como A dividido B. La cantidad que presede se pone en el numerador y la que sigue en el denominador. Ej.: No repetidores/repetidores cada “tantos” no repetidores hay “tantos” repetidores. R = A / B
Observe que, a diferencia de la proporción, la razón es un número que puede ser mayor que 1. Las proporciones representan un caso particular de las razones, en las que el denominador es el número total de los casos y el numerador es una fracción del total. En las proporciones el numerador siempre es una cantidad que está contenida en el denominador.
Resumen
Probabilidad y Estadísticas
Página 4 de 64
Tratamiento de variables cuantitativas Nos ocuparemos de métodos para el resumen de datos medidos en escalas de intervalo o razon. Sí los datos medidos en escala de intervalo o de razón (variables cuantitativas) han de resumirse de igual modo, hay que tener en cuenta si la variable es discreta o continua. Dicho resumen, consiste en organizar tablas que resuman los datos originales o valores observados. Tablas para datos agrupados en serie de frecuencias Una tabla de distribución de frecuencias es una tabla que presenta en forma ordenada a los distintos valores de una variable y sus correspondientes frecuencias. Definimos como frecuencia al número de veces que se presenta cada valor de la variable. Ejemplo: En una planta procesadora de alimentos se observó, durante 30 días laborables, el número de interrupciones (por día de trabajo) debidas a fallas mecánicas. Los resultados que se obtuvieron son los siguientes:
Las frecuencias relativas no son mas que proporciones, ya que representan la importancia relativa de cada valor de la variable en el total de casos. En la columna (4) sumarnos los días acumulados hasta cada uno dejos valores de la variable Finalmente, en la columna (5) efectuarnos el cociente entre los valores de la columna (4) dividido por el total de días, lo que nos indica el peso relativo de los casos acumulados hasta cada uno de los valores de la variable, y llamamos a esta columna frecuencia relativa acumulada. Nota: las frecuencias relativas “fri” y relativas acumuladas “Fri” suelen expresarse en porcentajes. Representación grafica Para representar gráficamente se utiliza un par de ejes coordenados. En el eje de abscisas se representara la variable estudiada y en el eje de ordenadas a las correspondientes frecuencias (absolutas o relativas). El grafico de bastones es la representación grafica de las frecuencias de una variable discreta, cuyas abscisas son los valores de la variable y cuyas ordenadas son las frecuencias relativas o absolutas.
Resumen
Probabilidad y Estadísticas
Página 5 de 64
A estos gráficos se los denomina gráficos escalonados
Tablas para datos agrupados en intervalos de clase Intervalos de clase: subdivisiones o intervalos en que se ha dividido el dominio o campo de variabilidad de la variable, de modo tal que cada intervalo estará compuesto tramos del recorrido de la variable. Limites de clases: valores que definen los extremos de un intervalo. Por lo tanto, tendremos, para cada intervalo, un límite inferior que lo simbolizaremos L i y un límite superior que lo simbolizaremos Ls. La amplitud del intervalo vendrá dada por la diferencia entre el límite superior y el límite inferior. Amplitud: la llamamos h, siendo: Amplitud de intervalos: h = Ls – Li. Además, al punto medio de cada intervalo lo llamaremos marca de clase y lo simbolizaremos con m i. Cuando los datos se agrupan en intervalos, el problema fundamental es pensar en una amplitud adecuada para los mismos. Generalmente, se aconseja entre 10 y 15 la cantidad razonable de intervalos, de modo que no haya tantos como para que no sea manejable la tabla, ni tan pocos como para que la amplitud sea tan grande que nos haga perder mucha precisión en nuestro trabajo. Para calcular la amplitud del intervalo se busca primero la amplitud o rango de la variable, es decir, la diferencia entre el mayor y el menor de los valores que toma la variable y, luego, el resultado se divide por la cantidad de intervalos que se quieren formar. Rango de la variable: R = máx(xi) - mín(xi) Amplitud del intervalo: h = R / cantidad de intervalos Cantidad de intervalos: Cantidad de intervalos: R/ k-->amplitud/cantidad de intervalos. Nota: Cuando escribimos un intervalo (Li - Ls], el símbolo "]" indica que el valor que le precede está contenido en dicho intervalo; el símbolo "(" indica que el valor que le sucede no está contenido en el intervalo. Representación Gráfica Para representar gráficamente una distribución de frecuencias para datos agrupados usamos el histograma y el polígono de frecuencias. Histograma: es la representación, en un sistema de coordenadas cartesianas ortogonales, de la distribución de frecuencias (absolutas o relativas) de una variable Resumen
Probabilidad y Estadísticas
Página 6 de 64
agrupada en intervalos, mediante un gráfico de superficies. Sobre el eje de las abscisas se presentan los intervalos y se levanta, sobre cada uno de ellos, un rectángulo cuya área es igual a la respectiva frecuencia. Polígono de frecuencias: es una línea poligonal obtenida en un histograma uniendo los puntos medios de los lados superiores de los rectángulos. Los lados extremos crean dos intervalos hipotéticos con frecuencia cero, colocando cada uno de ellos en ambos extremos del histograma, y con amplitud igual a la del intervalo posterior y anterior, respectivamente. Ojiva: es la representación gráfica de las frecuencias acumuladas (relativas o absolutas) de una variable agrupada en intervalos, mediante una línea poligonal obtenida uniendo los puntos que tienen, por abscisas, los limites superiores del intervalo y, por ordenadas, las respectivas frecuencias acumuladas. A este gráfico también s lo conoce como polígono de frecuencias acumuladas.
2. MEDIDAS CARACTERÍSTICAS Medidas de tendencia central Son promedios. Cuando nos referimos a ellos como medidas de tendencia central; éstas son medidas que nos dan idea de cual es el centro de distribución de datos. Media aritmetica Es el numero que se obtiene al dividir la suma de todas las observaciones por la cantidad de observaciones sumadas. La simbolizamos con x Cálculo de la media aritmética para datos agrupados en series de frecuencia: j
∑ x . fa i
x =
i
i =1 j
∑ fa
i
i =1
Donde el subíndice i se usa para indicar los distintos valores que toma la variable y j es la cantidad de valores distintos q toma la variable j
∑ x . fa i
x =
i
i =1
n
Cuando calculamos la media aritmetica, multiplicamos a cada valor de la variable por su correspondiete frecuencia, decimos que la media está “ponderada”. j
x =
∑ x . fr i
i
i =1
En este caso, el ponderador nos está indicando la importancia “relativa” de cada valor de la variable sobre el total de las observaciones. Cálculo de la media aritmética para datos agrupados en intervalos de clase: En este caso, emplearemos la fórmula anterior pero, en lugar de multiplicar tos valores de la variable por la frecuencia absoluta (en el numerador), multiplicaremos las marcas de clase por la frecuencia absoluta. Estamos suponiendo, entonces, que la frecuencia del intervalo corresponde en su totalidad a la marca de clase. Obviamente, en realidad esto no es asi, por lo tanto, en este caso, estamos obteniendo una media aritmética “aproximada”.Si tuviéramos los datos sin agrupar, obtendríamos una media aritmética exacta Resumen
Probabilidad y Estadísticas
Página 7 de 64 j
∑ m . fa i
x =
i
i =1 j
∑ fa
, mi es la marca de clases.
i
i =1
Propiedades de la media aritmética • La media aritmética es un valor mínimo valor observado de la misma. • La unidad de medida de la media aritmética es igual a la unidad de medida de la variable. • Si la variable toma siempre el mismo valor, la media aritmética es igual a dicho valor. • La suma de los desvíos de cada valor de la variable a la media aritmética es igual a 0. Esta propiedad demuestra el efecto compensador que tiene este promedio respecto a la distribución de los datos, ∑ ( xi − x ) = 0 Para datos no agrupados ∑ ( xi − x ) fai = 0 Para series de frecuencias y ∑ (mi − x ) fai = 0 Para datos agrupados. • Si a los valores de una variable se les suma o se les resta una constante, la media aritmética de la nueva variable es igual a la media aritmética de la variable anterior más o menos dicha constante. • Si a los valores de una variable se los multiplica por una constante, la media aritmética de la nueva variable es igual a la media aritmética de la variable anterior multiplicada por dicha constante. Mediana Si todos los valores observados de la variable se ordenan en sentido creciente (o decreciente), la mediana es el valor de la variable que ocupa el lugar central, es decir, el que deja a un lado y a otro el mismo número de observaciones. Para su obtención se considerará la forma en que están disponibles los datos. Para simbolizar la mediana utilizaremos xɶ . Cálculo de la mediana para datos no agrupados: Si el número de observaciones es par, se toma como mediana a la media aritmetica de los dos valores centrales. Para los franceses no existe la mediana cuando la cantidad es par. Para par xɶ =
xn / 2 + xn / 2+1
2
Para impar xɶ =
x( n +1)
2
EI subíndice de x indica la posición que ocupa ese valor de la variable; una vez ordenados los datos. Cálculo de la mediana para datos agrupados como serie de frecuencias: Determinación Analítica El problema consiste en hallar el valor de la variable que corresponde a la observación central. Veamos el cálculo de la mediana para el número de interrupciones en la planta procesadora de alimentos. La primera operación que hay que realizar es obtener las
Resumen
Probabilidad y Estadísticas
Página 8 de 64
Fai. La segunda operación es calcular n/2, El tercer paso es localizar la primera frecuencia acumulada mayor que la de n/2. Determinación Gráfica Utilizando el gráfico de distribución de frecuencias absolutas acumuladas, calculamos la mediana de la siguiente forma: a) Ubicamos el resultado de hacer n/2 sobre el eje de ordenadas (Fa i). b) Trazamos una línea horizontal, a la altura de dicho valor, hasta tocar el gráfico. c) Luego, bajamos hasta el eje de abscisas. El punto que encontrarnos, es el valor correspondiente a la mediana.
Calculo de la mediana para datos agrupados en intervalos de clase Determinación Analítica: No puede obtenerse exactamente el valor de la mediana porque se desconocen las observaciones individuales de la variable. xɶ = Li +
n / 2 − fa(i −1) fai
Siendo: Li: el límite Inferior del intervalo correspondiente a la frecuencia absoluta acumulada acumulada que contiene a la cantidad n/2. Fa(i+1): la frecuencia absoluta acumulada hasta el intervalo anterior al que contiene a la mediana. fai: la frecuencia absoluta del intervalo en el que ubicamos a la mediana. hi: la amplitud del intervalo en el que se encuentra la mediana. Observación Si definimos como fractiles a aquellos valores de la variable que fraccionan a la distribución en partes iguales, es decir, en partes que contienen la misma cantidad de datos, la mediana resulta ser un fractil. Diríamos entonces: “la mediana es el fractil f ractil que divide a la distribución en dos partes iguales, siendo la mitad de los datos menor o igual que ella y la otra mitad mayor o igual que ella”. Existen otros fractiles que dividen a la distribución en 4, 10 y 100 partes iguales. Se conocen con el nombre de cuartiles, deciles y percentiles. • Cuartiles: Son 3 y dividen a los datos en 4 partes iguales. Se simbolizan Q1, Q2 y Q3. Por ejemplo, el cuartil 1 deja por debajo el 25% de las observaciones y el 75% restante por encima, mientras que el cuartil 2 coincide con la mediana, ya que deja a cada lado el 50% de las observaciones. • Deciles: Son 9 y dividen a los datos en 10 partes iguales. Se simbolizan D 1, D2, .., D9. Por ejemplo, el decil 1 deja por debajo el 10% de las observaciones y el 90% restante por encima. • Percentiles: Son 99 y dividen a los datos en 100 partes iguales. Se simbolizan P1, P2,…, P99. Por ejemplo, el percentil 1 deja por debajo el 1% de las observaciones y el 99% restante por encima, Resumen
Probabilidad y Estadísticas
Página 9 de 64
Para calcular cualquiera de los fractiles, se emplea la misma metodología que para el cálculo de la mediana: siempre se debe determinar, en primer lugar, el intervalo al cual pertenece la medida, ya que los distintos parámetros que aparecen en la fórmula se refieren a este intervalo. Q j = Li +
( j / *)n − fa(i −1) fai
hi
j=1,2,3 * si Es CUARTIL vale 4, si es DECIL vale 10 si es PERCENTIL vale 100. Determinación Gráfica: Este procedimiento gráfico puede utilizarse para cualquiera de los fractiles. Representamos la ojiva y luego determinamos, sobre el eje de ordenadas, el valor que nos interesa; por ejemplo, para el caso de la mediana, determinamos n/2. La abscisa de este punto en la gráfica de la ojiva es la mediana. Modo El modo es el valor de la variable que más veces se repite, o _sea,_el valor que presenta mayor frecuencia. En el caso del modo no existe una fórmula general para expresarlo. Lo simbolizaremos con xˆ . Veamos cómo se encuentra el modo para los distintos tipos de disposición de los datos. Si los mismos están en forma de serie simple, la determinación del modo es prácticamente inmediata. Por ejemplo, si x = 1,2, 2, 2, 4, 5, entonces x = 2. Cálculo del modo para datos agrupados como serie de frecuencias: En este caso, el modo se obtiene con extrema rapidez: en la distribución de frecuencias se observa cuál es la frecuencia absoluta mayor y el modo será el valor de la variable correspondiente a dicha frecuencia. El modo también puede obtenerse gráficamente, observando el gráfico de frecuencias absolutas para datos sin agrupar: Cálculo del modo para datos agrupados en intervalos de clase: Una aproximación del mismo se obtiene mediante la siguiente expresión: xˆ = Li +
d 1 d1 + d 2
hi
Siendo: Li: límite inferior del intervalo de clase al que corresponde l absoluta, que llamaremos el “intervalo modal”, d1: diferencia absoluta entre la frecuencia absoluta del intervalo de mayor frecuencia o intervalo modal y la frecuencia absoluta del intervalo anterior. d2: diferencia absoluta entre la frecuencia absoluta del intervalo de mayor frecuencia o intervalo modal y la frecuencia absoluta del intervalo posterior. hi: amplitud del intervalo modal. Nota: Esta fórmula es aplicable solamente en caso de que todos los intervalos tengan la misma amplitud. Comparación entre Las distintas medidas de tendencia central de uso más frecuente Al exponer los principales promedios -media aritmética, mediana y modo- hemos aplicado los mismos ejemplos para el cálculo de cada uno de ellos. Si tomamos el Resumen
Probabilidad y Estadísticas
Página 10 de 64
ejemplo de los montos de ventas del establecimiento comercial, podemos apreciar ias diferencias entre los distintos promedios calculados. Recordemos cuáles fueron dichos valores: x = $6070, xɶ = $6400 y xˆ =$6880. Puede observarse que, para una misma distribución, rara vez coinciden tos valores obtenidos mediante los tres promedios. Si la distribución es unimodal y simétrica, estas tres medidas coinciden. Para una distribución asimétrica, la media se aleja de la moda hacia el lado de la cola más larga, con la mediana entre ellas. Lo vemos gráficamente;
En nuestro caso x < xɶ < xˆ por tratarse de una distribución asimétrica a izquierda. Nos preguntamos entonces: ¿cuándo conviene usar una u otra de las medidas de tendencia central estudiadas? A continuación vamos a resumir las características de cada uno de los tres promedios considerados, así como sus ventajas e inconvenientes. Media Aritmética: La medía aritmética es el centro de gravedad de la distribución. El punto x es el punto de equilibrio de la figura que representa la distribución. La media aritmética es un valor de la variable que depende de todas las observaciones, porque en su cálculo intervienen todas ellas. Por lo tanto, la presencia de un valor observado anormalmente grande o anormalmente chico influye sensiblemente en el valor del promedio, lo cual, evidentemente, es un inconveniente de la media aritmética. Frente a esto, tiene la ventaja de utilizar toda la informacion. recogida. En Estadística se trabaja ffrecuentemente recuentemente con muestras. Con una muestra no puede obtenerse el valor exacto de un promedio de la población, sólo se obtiene una estimación de él. Una condición esencial de cualquier promedio es que su valor en la muestra no varíe mucho al pasar de una muestra a otra, es decir, que el promedio calculado sea lo más estable posible. Esta condición de la máxima estabilidad la posee la media aritmética. Finalmente, la media aritmética por venir definida mediante una expresión algebraica, puede someterse a cálculos matemáticos necesarios para deducir cuestiones importantes. Mediana: Por definición, sabemos que la mediana es el valor de la variable que deja a un lado y a otro el mismo número de observaciones, bajo el supuesto de que los datos están ordenados en sentido creciente o decreciente. En la gráfica, la ordenada correspondiente a la mediana divide el área total en dos partes iguales. Para determinar el valor de la mediana, no es necesario conocer el valor de todas las observaciones, sólo es preciso saber el valor de la observación central y que las restantes son mayores o menores que ésta. No se utiliza, pues, toda la información recogida para su cálculo, lo cual es un inconveniente. En cambio, tiene la ventaja de Resumen
Probabilidad y Estadísticas
Página 11 de 64
que los valores observados anormalmente grandes o anormalmente pequeños no influyen en ei promedio. Otra ventaja es que puede obtenerse con datos incompletos, por ejemplo, en las distribuciones de frecuencias con intervalos de clase que comienzan con un intervalo "menos de ..." o finalizan con intervalos "más de ...". Un serio inconveniente es que la mediana no viene definida mediante una expresión matemática. La fórmula de aproximación es, simplemente, un aditicio que se utiliza en el caso de las distribuciones para datos agrupadas en intervalos de clase. En consecuencia, no puede someterse al cálculo algebraico para deducir cuestiones importantes de comportamiento. Modo: Como ya vimos, es el valor más frecuente, es decir, el punto donde se concentra el mayor número de observaciones. En la gráfica, el modo es el punto de la variable al cual le corresponde la altura máxima de la curva. Este promedio tampoco utiliza toda la información, pues basta con saber tan solo cuál valor de la variable es el más frecuente. Esto hace, al Igual que en el caso de la mediana, que este promedio no se vea afectado por los valores anormalmente grandes o anormalmente pequeños, Tampoco el modo se define algebraicamente y, por ello, no puede utilizarse para obtener deducciones matemáticas. El modo es un promedio muy interesante cuando existe, en la distribución, una clara y decidida tendencia a que los valores se concentren alrededor de un solo valor. Una vez vistas las propiedades de cada promedio separadamente, conviene repasar algunas cuestiones que afectan a todos ellos. Recordemos, primeramente, que un promedio tiene por objeto obtener un valor de la variable alrededor del cual se distribuyen las observaciones. Esta condición se cumple muy bien en las distribuciones simétricas o moderadamente asimétricas. Si la distribución de la variable es de este tipo, los tres promedios (media aritmética, mediana y modo) son perfectamente representativos del conjunto de observaciones. En este caso, es difícil señalar una preferencia de uno sobre otro desde el punto de vista de su representatividad. Si tomamos en cuenta las restantes propiedades, el mejor promedio es la media aritmética por sus propiedades matemáticas y de estabilidad en el muestreo. Si la distribución es fuertemente asimétrica, es decir, tiene forma de “J” o de “L”, entonces la mediana es el promedio más apto.
Si la distribución tiene forma de "U", los tres promedios tienen poca fuerza representativa. Generalmente, las distribuciones de esta forma suelen ser difíciles de tratar desde el punto de vista de los promedios.
Resumen
Probabilidad y Estadísticas
Página 12 de 64
Nota: recuerde siempre que el tipo de distribución que presentan los datos es importante para la selección del promedio mas adecuado. En caso de duda, seguir siempre la misma regla: emplear la media aritmetica. Media geometrica La simbolizamos con xg y se calcula como: xg =
n
x1.x2 ...xn
Si los datos están agrupados, la expresión de cálculo es la siguiente: xg =
n
fa
fan
fa
x1 1 .x2 2 ....xn
donde m es la cantidad de valores muéstrales distintos, o reemplazando los x i, por las marcas de clase mi, si los datos están agrupados en intervalos. Este tipo de promedio se utiliza, generalmente, cuando los valores de la variable crecen de acuerdo a una progresión geométrica. Media Armónica La simbolizaremos con xa , de n observaciones de una variable se calcula como: xa =
n n
∑1/ x
i
i =1
Si los datos están agrupados, la calculamos así n
∑ fa
i
xa =
i =1 n
∑1/ x
i
i =1
O reemplazamos los xi por mi si tenemos intervalos de clases. Se utiliza generalmente, para promediar valores que provienen de resultados de un cociente entero entre variables. Medidas de dispersión Medidas de dispersión absoluta Rango "R" Se define como la diferencia entre el valor máximo y el valor mínimo que toma la variable. Descuidando por completo los valores intermedios. Podría suceder que un valor observado estuviese accidentalmente desplazado. En este caso, el rango sería exagerado y la dispersión aparecería distorsionada. Resumen
Probabilidad y Estadísticas
Página 13 de 64
Rango entre Fractiles Es una medida que se define como la diferencia entre un par de fractiles. De alguna manera, evita el inconveniente de los valores extremos que presenta el rango. Por ejemplo: si consideramos el 1°y el 3°cuartil, se define el rango intercuartílico R1 = Q3Q1. Desviación media Se define como el promedio de los valores absolutos de los desvíos: m
Para serie simple DM =
m
∑ x − x i
Para serie agrupada DM =
i =1
n
∑ x − x
fai
i
i =1 m
∑ fa
i
i =1
Si los datos están agrupados en intervalos, debemos cambiar x i por mi en la fórmula anterior. A xi − x se le llama desvíos de la variable respecto de la media aritmética. Debemos trabajar con valor absoluto pues, de lo contrario, la desviación media resultaría igual a cero para cualquier variable xi. Comparada con el rango, esta medida utiliza una cantidad mayor de información, pero su cálculo resulta engorroso. Observación: La desviación media es mínima si se calcula respecto de la mediana. Variancia La simbolizaremos con S 2 variancia muestral. La calculamos así: • Para datos no agrupados: n
∑ ( x − x )
2
i
2
S = •
i =1
n
Para series de frecuencia n
∑ ( x − x ) . fa 2
i
2
S =
i
i =1 n
∑ fa
i
i =1
•
Para intervalos de clase k
∑ (m − x ) . fa 2
i
2
S =
i
i =1 n
∑ fa
i
i =1
Esta medida toma en cuenta, para su calculo, todos los valores de la variable, pero tiene como inconveniente que no esta expresada en la misma unidad de medida que la variable sino en el cuadrado de la misma. En este caso, la variancia muestral, tal como la hemos definido es un buen estimador de la variancia poblacional cuando el tamaño de la muestra n es mayor o igual que 30 (aproximadamente). Si n < 30, resulta mejor estimador la llamada variancia muestral corregida que, para el caso de datos no agrupados, se define así: Resumen
Probabilidad y Estadísticas
Página 14 de 64 n
∑ ( x − x )
2
i
2 S =
i =1
n −1
Desviación Típica (S) Raiz cuadrada de la variancia para obtener la misma unidad de estudio. Se calcula con: n
∑ ( x − x )
2
i
S = + S2 = +
para datos no agrupados
i =1
n
fórmula de trabajo de S: n
∑ ( x − x )
2
i
fai
i =1
S=
n
∑ fa
i
i =1
Desarrollamos el cuadrado del binomio n
∑ ( x
2 i
S=
− 2 xi x + x ) fai
i =1 n
∑ fa
i
i =1
Aplicamos propiedad distributiva n
∑ x
2 i
S=
n
∑ fa
i
i =1
∑ x fa
fai
i =1 n
n
i
− 2x
∑ fa
i
i =1
∑ fa
i
i =1 n
n
∑x
2 i
i
+x
2 i =1 n
∑ fa
=
i
i =1
n
2 i
2
i =1 n
∑ fa
i
i =1
∑x
fai − 2x + x
2
=
fai
i =1 n
∑ fa
−x
2
i
i =1
Propiedades de la desviación típica • Si a los valores de una variable se les suma o resta una constante, la desviación típica no se ve afectada por dicha transformación. Gráficamente, al sumar (o restar) una constante a la variable, la curva se traslada con todo hacia la derecha (o hacia la izquierda) sobre el eje x, sin alterar su forma. • Si a los valores de una variable se los multiplica por una constante, la desviación típica se ve afectada por dicha transformación. Gráficamente, al multiplicar por una constante, la curva que representa el polígono de frecuencias suavizado altera su forma. Observaciones: • Supongamos que, de una población, se sacan muestras de tamaño cada vez más grande, por lo tanto, el número de intervalos aumenta y, cuando ese número se hace infinitamente grande, ocurre que: - La poligonal que limita superiormente al histograma tiende a ser una curva, o sea, el polígono de frecuencias se va suavizando, pues los segmentos que lo determinan son cada vez más cortos, tiende a ser una curva que denominaremos curva de frecuencias y representa una función que llamaremos función de densidad de probabilidad. El área encerrada entre la curva y el eje x tiende a valer uno. - La poligonal que limita superiormente al diagrama de frecuencias acumuladas, es decir, la ojiva, tiende a una curva y se llama curva de distribución • La medía muestral ( x ) permite estimar a la media poblacional que simbolizaremos µ y la variancia muestral(S2) permite estimar a la variancia poblacional. Si el tamaño n es Resumen
Probabilidad y Estadísticas
Página 15 de 64
menor que 30, preferimos la variancia muestral corregida (S 2i) para estimar la variancia poblacional.
• Cuando la función de densidad de probabilidad (curva continua que aproxima a los histogramas de áreas) de una variable (que, en este caso, llamaremos variable aleatoria) tiene forma de campana simétrica se llama curva normal o de Gauss. En esta distribución se cumple: - x = es el eje de simetría de la curva. - El área entre la curva y el eje, desde µ- σ hasta µ+σ es 0.68 (contiene el 68% de las observaciones, aproximadamente). - El área entre la curva y el eje, desde µ-2 σ c hasta µ+2 σ es 0.95 (contiene el 95% de las observaciones, aproximadamente).
Diagrama de tallo y hojas En general, en un experimento que involucra una variable aleatoria continua, la función de densidad f(x) se desconoce y sólo se asume su forma. Para aproximar la forma de la distribución, se usa actualmente el gráfico denominado diagrama de tallo y hojas. Éste es realizado automáticamente cuando se ejecuta el procedimiento estadístico Explorar Datos de la mayoría de los paquetes estadísticos. Para ejemplificar la elaboración de un diagrama de tallo y hojas, considérense los datos de la tabla siguiente que representan las duraciones de 40 baterías de automóvil similares. Las mismas estaban garantizadas para durar 3 años:
Primero, se divide cada observación en dos partes que consisten en un tallo y una hoja, de tal forma que el primero represente el dígito que es el entero y la hoja corresponda a la parte decimal del número. En otras palabras, para el número 3.7 el dígito 3 se designa como el tallo y el dígito 7 como la hoja. Los cuatro tallos: 1, 2, 3 y 4 quedan listados consecutivamente en el lado izquierdo de la línea vertical de la tabla que se Resumen
Probabilidad y Estadísticas
Página 16 de 64
muestra a continuación. Las hojas se escriben en el lado derecho de la línea, en contraposición al valor de tallo apropiado.
Entonces, la hoja 6 del número 1.6 se escribe a la altura del tallo 1, la hoja 5 del número 2.5 se escribe a la altura del tallo 2, y asi sucesivamente. La cantidad de hojas registradas para cada tallo se resume en la columna de frecuencia. Medidas de dispersión relativas Toda medida de variación absoluta tiene significación solamente con relación al promedio respecto del cual se midieron las desviaciones. La medida de variación relativa más usada es el llamado coeficiente de variación (que a veces, se expresa como porcentaje): CV =
S x
CV =
S x
.100
para porcentaje
El coeficiente de variación es un número abstracto, una medida de variación relativa de los datos que se estudian que puede compararse con valores similares procedentes de otras distribuciones. Medidas de asimetría y de curtosis Medidas de asimetría La asimetría o sesgo de una distribución se refiere a la falta de simetría. Si la curva de frecuencias (el polígono de frecuencias suavizado) de una distribución tiene una “cola más larga” a la derecha del máximo central que a la izquierda, se dice que la distribución está sesgada a la derecha o que tiene sesgo positivo. Si es lo contrario, se dice que está sesgada a la izquierda o que tiene sesgo negativo.
Si la distribución es unimodal y simétrica, estas tres medidas coinciden. Para una distribución asimétrica, la media se aleja de la moda hacia el lado de la cola más larga, con la mediana entre ellas. Estas relaciones las vimos gráficamente en el punto 2.1.4. Luego, podríamos medir la asimetría haciendo: Cuanto mayor sea la diferencia, negativa o positiva, tanto más asimétrica será la distribución (a la derecha o a la izquierda). Esta medida presenta dos inconvenientes: • Es una medida absoluta, o sea, que el resultado se expresa en las unidades originales de la variable en estudio. Resumen
Probabilidad y Estadísticas •
Página 17 de 64
La misma cantidad absoluta de asimetría tiene un significado diferente para distintas series con distintos grados de variabilidad. Luego, esta medida puede adimensionarse dividiéndola por una medida de dispersión, como la desviación típica. Así definimos: SP1 =
x − xˆ S
1°coeficiente de sesgo de Pearson
Utilizando la relación para distribuciones moderadamente asimétricas x − xˆ ≈ 3.( x − xɶ ) resulta: SP 2 =
3.( x − xɶ ) S
2°coeficiente de sesgo de Pearson
Esta medida vale 0 para una distribución simétrica, es negativa para una distribución asimétrica a la izquierda y positiva para una distribución asimétrica a la derecha. Aplicaciones: Se cree que la asimetría positiva es producida por fuerzas multiplicadores. Las distribuciones asimétricas negativas son muy raras y a menudo es difícil ofrecer una explicación racional de su existencia. Medidas de curtosis Es el grado de agudeza o apuntamiento de una distribución. Al coeficiente de curtosis lo simbolizamos con CC y lo definimos de la manera siguiente: Los tres tipos de curtosis son: • Distribución leptocúrtica: presenta un elevado grado de concentración alrededor de los valores centrales de la variable. • Distribución platicúrtíca: presenta un reducido grado de concentración alrededor de los valores centrales de la variable. • Distribución mesocúrtica: presenta un grado de concentración medio alrededor de los valores centrales de la variable (el mismo que presenta una distribución normal).
Cuando la amplitud de una variable se aproxima al infinito, y para una curva completamente plana, CC se aproxima a 0. Para mesocúrtica CC = 0,263, platicúrtíca CC = menor a 0,623; leptocúrtica CC = mayor a 0,263. Coeficiente de Curtosis percentílico CC =
Q3 − Q1
2( P90 − P10 )
3. PROBABILIDAD Importancia del tema y breve reseña histórica Resumen
Probabilidad y Estadísticas
Página 18 de 64
Los jugadores siempre han recurrido a las probabilidades para realizar sus apuestas a lo largo de la historia escrita. Pero fue recién en el siglo XVII cuando un noble francés, puso en tela de juicio el fundamento matemático del éxito y del fracaso en las mesas de juego. La teoría de la probabilidad fue aplicada con buenos resultados a las mesas de, juego y, lo que es aún más importante para nuestro estudio, con el tiempo también se aplicó a otros problemas socioeconómicos. En la actualidad, la teoría matemática de la probabilidad constituye el fundamento de las aplicaciones estadísticas, tanto en la investigación social como en la toma de decisiones. La probabilidad forma parte de nuestra vida diaria. En las decisiones de carácter personal y gerencial, enfrentamos la incertidumbre y nos valemos de la teoría de la probabilidad, sin importar si admitimos o no el empleo de una cosa tan refinada. Triangulo de pascal El triángulo de Pascal es un triángulo de números enteros, infinito y simétrico Se empieza con un 1 en la primera fila, y en las filas siguientes se van colocando números de forma que cada uno de ellos sea la suma de los dos números que tiene encima. Se supone que los lugares fuera del triángulo contienen ceros, de forma que los bordes del triángulo están formados por unos. Aquí sólo se ve una parte; el triángulo continúa por debajo y es infinito. Nos permite obtener los resultados de los números combinatorios sin necesidad de realizar operaciones muy complicadas: Los números del triángulo de Pascal coinciden con los números combinatorios. El número combinatorio C nm (n sobre m) se encuentra en el triángulo en la fila n+1, en el lugar m+1. El número combinatorio C nm (n sobre m) que representa el número de grupos de m elementos que pueden hacerse de entre un conjunto de n (por ejemplo, (4 sobre 2) nos da el número de parejas distintas que podrían hacerse en un grupo de cuatro personas), se encuentra en el triángulo en la fila n+1, en el lugar m+1. 1
1 1 1 2 1 1 3 3 1 1 4 6 4 1 1 5 10 10 5 1 ...
Podemos saber que el número de parejas posibles que decíamos antes es 6 si miramos el tercer número de la quinta fila. Esto hace que el triángulo sea útil como representación de estos números, y proporciona una buena forma de intuir sus propiedades. Por el contrario, a la fórmula de los números combinatorios se le puede dar el carácter de fórmula general del triángulo para saber, sin necesidad de construir todas las filas anteriores, cuál es el número que ocupa un lugar determinado:
Resumen
Probabilidad y Estadísticas
Página 19 de 64
Relación de la Probabilidad con las partes de la Estadística El estudio de las probabilidades es una herramienta fundamental, sin la cual no podemos introducirnos en el estudio de la Estadística Inferencial. La Probabilidad y la Estadística son dos campos ajenos entre sí pero relacionados de las Matemáticas. Se dice que la Probabilidad es el vehículo de la Estadística, es decir, si no fuera por las leyes de la probabilidad, la teoría de la estadística no sería posible. Observe la diferencia: la Probabilidad pregunta sobre la posibilidad de que ocurra algo específico (una muestra) cuando se conocen las posibilidades (es decir, se conoce la población). Por otra parte, la Estadística pide extraer una muestra, describirla (Estadística Descriptiva) y luego hacer inferencias sobre la población, con base en la información que se obtuvo de la muestra (Estadística Inferencial). LAS PROBABILIDADES SE EXPRESAN COMO FRACCIONES O COMO DECIMALES ENTRE O Y 1 O COMO PORCENTAJES. Asignar una probabilidad de O significa que algo nunca ocurrirá, mientras que una probabilidad de 1 indica que algo sucederá siempre. Conceptos básicos de probabilidad Evento o Suceso En la teoría de la probabilidad, un evento o suceso es uno o varios de los resultados posibles que se pueden obtener al hacer una experiencia. Simbología: S Experimento Aleatorio En la teoría de la probabilidad, se le llama experimento a la actividad que produce un evento. Simbología: E Luego, podemos decir que un experimento aleatorio es un proceso que presenta las siguientes características: • Es posible repetir cada experimento indefinidamente, sin cambiar esencialmente las condiciones. • Aunque, en general, no podemos indicar cuál será un resultado particular, podemos describir el conjunto de todos los resultados posibles del experimento. • A medida que el experimento se repite, los resultados individuales parecen ocurrir en forma caprichosa, Sin embargo, cuando el experimento se repite un gran número de veces, aparece un modelo definido de regularidad. Esta regularidad hace posible la construcción de un modelo matemático preciso, con el cual podemos analizar el experimento. Características esenciales de un experimento aleatorio: • Constancia de las condiciones en que se realiza. • Conocimiento de todos los resultados posibles. • Regularidad de resultados cuando el número de observaciones tiende a infinito. • Sus resultados están influidos por el azar. Espacio Muestral
Resumen
Probabilidad y Estadísticas
Página 20 de 64
El conjunto de todos los resultados posibles de un experimento recibe el nombre de espacio muestral. Luego, estamos en condiciones de decir que todo subconjunto del espacio muestral es un suceso. Simbología: A, B, C, ..., o bien, A1,A3, A4, Sucesos compatibles e incompatibles o sucesos mutuamente excluyentes Se dice que dos eventos son mutuamente excluyentes o incompatibles si uno y sólo uno de ellos puede tener lugar a la vez. Como ejemplo tomamos el lanzamiento de una moneda, puede salir “cara” o “seca”, pero NUNCA LOS DOS. Por ello, los eventos "lado cara" y "lado seca" en un lanzamiento individual de la moneda son mutuamente excluyentes. He aquí la pregunta decisiva que es preciso formular al decidir si los eventos son mutuamente excluyentes: "¿Pueden presentarse al mismo tiempo?". Si la respuesta es afirmativa, los eventos no son mutuamente excluyentes; en este caso, decimos que son compatibles. Si la respuesta es negativa, concluimos que los sucesos son incompatibles o mutuamente excluyentes. Cuando una lista de los eventos que pueden resultar de un experimento incluye todos los resultados posibles, se dice que es colectivamente exhaustiva. Distintos enfoques en la definición de probabilidad Enfoque clásico o "a priorí" La probabilidad clásica define la probabilidad de que un evento o suceso ocurra como: N°de resultados favorables al evento Probabilidad de un suceso = ————————————————————————— N°total de resultados posibles igualmente probables Ésta también se conoce como la definición de Laplace. Debemos recalcar que, a fin de que sea válida la fórmula anterior, cada uno de los resultados posibles debe tener la misma probabilidad y ser sucesos mutuamente excluyentes. Decimos que es “a priori” porque no es necesario que realicemos experimentos para hacer nuestras afirmaciones de probabilidad sino que, por el contrario, hallamos las probabilidades basándonos en el razonamiento lógico, antes de efectuar el experimento. El enfoque clásico supone un mundo que no existe en la realidad; descarta situaciones que son muy poco probables pero que podrían presentarse. Enfoque de frecuencia relativa o "a posteriorí" Define la probabilidad como la proporción de las veces que un evento sucede a la larga, cuando las condiciones son estables. Este método utiliza, como probabilidades, las frecuencias relativas de ocurrencias pasadas: determinamos la frecuencia con que algo ha sucedido en el pasado y, mediante esa cifra, predecimos la probabilidad de que vuelva a suceder en el futuro. Vemos que el nombre de probabilidad a posteriori, que también se le da, tiene su explicación porque en este enfoque necesitamos la experimentación previa para poder determinar el valor de la probabilidad de un evento. Así pues, cuando usamos la frecuencia relativa para establecer las probabilidades, la cifra de éstas será más exacta a medida que aumentemos el número de observaciones. Resumen
Probabilidad y Estadísticas
Página 21 de 64
Podemos decir: para un suceso cualquiera A, si llamamos con f (A) a la cantidad de veces que ocurre A en n pruebas repetidas de un experimento E, la probabilidad de A será: P ( A) = lim n →∞
f ( A) n
Este límite es "límite en probabilidad" y significa que debemos hallar el resultado del cociente f(A) / n cuando el número de pruebas u observaciones es lo más grande posible. Enfoque subjetivo Las probabilidades subjetivas se basan en las creencias e ideas del que realiza la evaluación de las mismas. En efecto, podemos definir la probabilidad subjetiva como aquella que un individuo asigna a un evento, basándose en la evidencia disponible. Las asignaciones de probabilidad subjetiva se dan frecuentemente cuando los eventos ocurren una sola vez y, a lo máximo, unas cuantas veces. Las decisiones sociales y administrativas de nivel superior se ocupan de situaciones específicas y singulares, y no de una larga serie de situaciones idénticas, por lo cual, en este nivel, los ejecutivos se apoyan constantemente en las probabilidades subjetivas. Enfoque axiomático Sea un experimento aleatorio E, S el espacio muestral asociado con él y A un suceso cualquiera de S, la probabilidad de A, que simbolizamos P(A), es un número real que cumple con los siguientes axiomas: • Axioma de probabilidad 1: O =P(A) = 1 • Axioma de probabilidad 2: P(S) = 1 • Axioma de probabilidad 3: Si A y B son dos sucesos mutuamente excluyentes, entonces P(A u fi) = P(A) + P(B). • Axioma de probabilidad 4: Si A1, A2, ..., Ai, ..., son sucesos mutuamente excluyentes, entonces P(ui=1°°A) = P(A¿ + P(AZ) + . .. + P(A) + ... Algunas probabilidades especiales La mayor parte de los gerentes que utilizan las probabilidades se interesan en dos situaciones: a) caso en que ocurra uno u otro evento. b) La situación donde ocurran dos o más eventos. Algunos símbolos, definiciones y reglas de uso común
Diagramas de Venn En estos diagramas, el espacio muestral se representa íntegramente por medio de un rectángulo y los eventos o sucesos se representan con las partes del mismo. Si dos eventos son mutuamente excluyentes, sus partes del rectángulo no se superpondrán, según se aprecia en la figura (a). Si dos eventos son no mutuamente excluyentes, sus partes del rectángulo se superpondrán, como se observa en la figura (b).
Resumen
Probabilidad y Estadísticas
Página 22 de 64
Probabilidad del suceso contrario Con A simbolizaremos al suceso contrario de A, es decir, aquel que consiste en que no ocurra el suceso A. Luego: P( A) = 1− P( A) P ( A) + P( A) = P ( S ) = 1
Probabilidad del suceso imposible La probabilidad del suceso imposible es igual a O, es decir: P (∅) = 0 , o bien: si A = ∅ " P(A) = O (la recíproca es falsa). Probabilidad de un suceso contenido en otro (En B todos los de A mas otros) Si un suceso A está contenido en otro suceso B, luego la probabilidad de A es menor o igual que la probabilidad de B. Es decir: Si A ⊆ B, luego P(A) ≤ P(B) Tengamos presente que, al contener el suceso B al suceso A, el suceso B está constituido por todos los puntos muestrales de A y otros que le son propios. Regla de adición para eventos no mutuamente excluyentes o compatibles Si dos eventos son no mutuamente excluyentes, es posible que ambos ocurran juntos. Probabilidad de que ocurran juntos: P ( A ∪ B ) = P ( A + B ) = P (AoB ) = P (A ) + P (B ) − P (A ∩ B )
Probabilidad condicional e independencia Probabilidad condicional P(A/B) se lee “A dado B” o “A condicional B” Deberíamos saber si el suceso A ocurrió o no. Este ejemplo indica la necesidad de presentar el siguiente concepto importante: Sean A y B dos sucesos asociados con un experimento E, indiquemos con P(B/A) a la probabilidad condicional del suceso B dado que A ha ocurrido.
Resumen
Probabilidad y Estadísticas
Página 23 de 64
Cada vez que calculamos P(B/A), estamos esencialmente calculando P(B) con respecto al espacio muestral reducido de A, en vez del espacio muestral original S. Consideremos el diagrama de Venn de la figura anterior. Cuando calculamos P(B), nos preguntamos qué tan probable es que estemos en B, sabiendo que debemos estar en S y, cuando evaluamos P(B/A), nos preguntamos qué tan probable es que estemos en 6, sabiendo que debemos estar en A. Esto es, el espacio muestral se ha reducido de S a A. Para calcularlo P( A / B) =
P( A ∩ B) P( B)
Y
P ( B / A) =
P( A ∩ B) P( A)
. Se diferencia que P(A/B) es distinto a
P(B/A). Si A y B son sucesos aleatorios, deseamos definir un cierto valor que permita determinar la probabilidad condicional del evento A dada previamente la ocurrencia del suceso B: P(A/B). Dado el conocimiento de que B ocurrió, A sólo puede ocurrir juntamente con B. Parece razonable definir la probabilidad condicional proporcional a P(AB) y, teniendo en cuenta que P(B/B) = 1 , podemos establecer la siguiente definición: Dados dos sucesos, siendo ninguno de ellos el suceso imposible, se define la probabilidad de ocurrencia del suceso A sujeta a la previa aparición del suceso B como: P( A / B) =
P( AB) P( B )
con
P( B ) ≠ 0
La fórmula de probabilidad condicional admite ser generalizada a n sucesos, aleatorios. Por ejemplo, para n = 3 resulta: P ( A3 / A1 , A2 ) =
P ( A1 A2 A3 ) P ( A1 A2 )
Para n sucesos se deduce que: P ( A1 A 2 ...An ) = P ( A1 ) * P ( A2 / A1 ) * P (A 3 / A 2A1 ) *...*P (A n / A1 ...A n−1 )
Esta fórmula se la conoce bajo el nombre de ley del producto o ley multiplicativa. Sucesos independientes Dados los sucesos aleatorios referidos al mismo espacio muestral, ninguno de los cuales es el evento imposible diremos que son independientes si se verifica alguna de estas condiciones: P(A/B) = P(A) o P(B/A) = P(B) En consecuencia, la aparición de uno de ellos es independiente de la presencia o ausencia del otro. Cuando los sucesos son independientes, la ley del producto toma la forma: P(AB) = P(A) * P(B) Resumen: Luego, si dos sucesos son mutuamente excluyentes, la probabilidad de la alternativa es la suma de las probabilidades. Si dos sucesos son independientes, la probabilidad de la aparición simultanea es el producto de las probabilidades: P(AB)=P(A) * P(B) Resumen
Probabilidad y Estadísticas
Página 24 de 64
Teorema Dados dos sucesos aleatorios A y B referidos a un mismo experimento, si ambos son independientes, entonces no son mutuamente excluyentes. Demostración: Para que A y B sean mutuamente excluyentes, se debería verificar que P(AB) = 0.Pero P(AB) = P(A) * P(B), pues ambos son independientes. Dicho producto valdrá cero si alguno (o ambos sucesos) es el suceso imposible, en cuyo caso carece de sentido hablar de independencia. Luego P(AB) ≠ 0, lo que implica que ambos sucesos no son mutuamente excluyentes.
Partición del espacio muestral Decimos que los sucesos A 1,A2, ..., Ak representan una partición del espacio muestral S si: a) Ai ∩ A j = ∅; ∀i ≠ j b) ∪ik =1 Ai = S c) P( Ai ) > 0; ∀i En otras palabras, cuando se efectúa el experimento E, ocurre uno y sólo uno de los sucesos Ai. También se suele decir que los sucesos A i completan el espacio muestral S.
Teorema de Bayes Planteemos la siguiente situación en un proceso de producción. Tres máquinas, A1 , A2 y A3, producen un mismo tipo de pieza mecánica. El ingeniero de Control de Calidad sabe, por experiencia, cuál es la proporción de piezas que pueden resultar defectuosas por día. Las piezas que producen las tres máquinas se depositan en un lugar común y ahí se mezclan. Al final de cada jornada laboral, se prueba una muestra de piezas para verificar si la proporción de defectuosas está dentro de la tolerancia. (Los ensayos son de tipo destructivo.) Cierto día, se observa un porcentaje de defectuosas superior a la tolerancia; se sospecha que alguna de las máquinas está fallando. Revisar una máquina implica pararla y desarmarla, lo cual lleva consigo un costo para la fábrica, tanto porque se para la producción de esa máquina como porque, además, revisarla tiene un costo. Luego, sería importante conocer cuál de las tres máquinas es más probable que esté fallando. Describamos cuáles son los sucesos: A1 "la pieza es producida por la máquina 1" Resumen
Probabilidad y Estadísticas
Página 25 de 64
A2 "la pieza es producida por la máquina 2" A3 "la pieza es producida por la máquina 3" B: "la pieza producida es defectuosa" Luego, habiéndose observado pieza defectuosa, nos preguntamos: "¿cuál es la probabilidad de que la haya producido la máquina 1 , la 2 o la 3?. En símbolos, queremos hallar: PíAJB), P(AJB) y P(A3/B). La idea de obtener tas posibilidades posteriores (a posteriori), con limitada información disponible, se atribuye al reverendo Thomas Bayes, y a la fórmula básica de la probabilidad condicional bajo dependencia se le llama teorema de Bayes. El teorema de Bayes ofrece un poderoso método estadístico para evaluar nueva información y revisar nuestras estimaciones precedentes (basadas en escasa información solamente) sobre la probabilidad de que las cosas se hallen en uno u otro estado. Si se usa correctamente, el teorema hace innecesario reunir grandes cantidades de datos durante largos períodos a fin de tomar decisiones basadas en las probabilidades. Sean los sucesos A 1, ...A2, An una partición del espacio muestral S (o sea, dos de ellos no pueden ocurrir simultáneamente, pero uno de ellos debe ocurrir) y sea B un suceso aleatorio en S. Luego, P(B) = P(B/A1) * P(A1) + ... + P(B/An) * P(An) por la fórmula de probabilidad total. Este teorema es conocido bajo el nombre de fórmula de Bayes. Las probabilidades P(B/Ai) y P(Ai) reciben el nombre de probabilidades a priori o previas ya que, generalmente, se pueden conocer antes de que obtengamos información alguna del experimento mismo. A menudo, dichas probabilidades son arbitrarias y/o subjetivas. Las probabilidades P(A/B) se llaman probabilidades a posteriori porque se determinan después de que se conocen los resultados del experimento. Retomamos nuestro ejemplo introductorio. Se conocen las proporciones de piezas que produce cada máquina, es decir, sabemos que: P(A 1) = 0,30, P(A2) = 0,45 y P(A3) = 0,25 Además, el ingeniero sabe, por experiencia y por conocimiento de las características de cada máquina, la probabilidad de pieza defectuosa de cada una. Es decir: P(B/A 1) = 0,02, P(B/A2) = 0,04 y P(B/A3) = 0,03 Luego, aplicando la formula de Bayes obtenemos: P ( A1 / B ) =
P ( A1 ) * P ( B / A1 ) 3
∑ P ( A ) * P (B / A ) j
j
J =1
=
0,02*0,30 0, 02 * 0, 30 + 0, 04 * 0, 45 + 0, 03 *0, 25
≅ 0,19
Análogamente: P( A2 / B) ≅ 0, 57 y P( A3 / B ) ≅ 0, 24 . Luego concluimos que es más probable que la máquina 2 haya producido pieza defectuosa, por lo que comenzaremos revisando esta máquina. Observemos que: P ( A / B1 ) + P ( A / B2 ) + P ( A / B3 ) = 0,19 + 0,57 + 0, 24 = 1
4. VARIABLES ALEATORIAS UNIDIMENSIONALES Variables aleatorias y distribuciones de probabilidad Concepto de variable aleatoria Resumen
Probabilidad y Estadísticas
Página 26 de 64
Una variable aleatoria es una función que asocia a cada elemento del espacio muestral un número real. Una variable aleatoria se llama variable aleatoria discreta si se puede contar o enumerar su conjunto de resultados posibles. Cuando una variable aleatoria puede tomar valores en una escala continua, se le llama variable aleatoria continua.
Experimento aleatorio Término que se utiliza para describir cualquier proceso mediante el cual se generan varias observaciones al azar. Espacio muestral En el que se consideran cada uno de los posibles resultados, por ejemplo cuando se verifican tres componentes electrónicos, puede escribirse: S = {NNN.NND,NDN,DNN,NDD,DND,DDN,DDD} donde N significa "no defectuoso" y D "defectuoso". Si un espacio muestral contiene un número finito de posibilidades, o una infinita numerable, se le llama espacio muestral discreto. Si un espacio muestral contiene un número infinito de posibilidades igual al número de puntos en un segmento de recta, se le llama espacio muestral continuo. Ejemplo: Sea el experimento aleatorio E = arrojar dos monedas al aire. El espacio muestral asociado es: S = {(C,C), (C,S), (S,C), (S,S)} Definimos la variable aleatoria X como el número de caras que se obtienen. Luego, los posibles valores de X son; O, 1 y 2. A éstos los llamaremos el rango de /a va-riable aleatoria X: R,= {0,1,2} Distribuciones discretas de probabilidad Una variable aleatoria discreta asume cada uno de sus valores con una cierta probabilidad. Al conjunto de los posibles valores y las respectivas probabilidades de una variable aleatoria discreta se te llama distribución de probabilidad, es decir la distribución de probabilidad de la v.a. X es el conjunto de pares ordenados (x,f(x)). A la función f(x) se le llama función de probabilidad o función de cuantía. Definición El conjunto de pares ordenados (x,f(x)) es una distribución de probabilidad de la variable aleatoria discreta X si se cumple: a) f ( x ) ≥ 0∀x (Condición de no negatividad.) b) ∑ f ( x) = 1 (Condición de cierre.) No cualquier función que se dé será una función de probabilidad. Para que io sea, debe cumplir con las condiciones a) y b), es decir, debe cumplir la condición de no negatividad y la condición de cierre. Función de distribución o de probabilidades acumuladas Hay muchos problemas en los cuales se desea calcular la probabilidad de que el valor observado de una variable aleatoria X sea menor que o igual a algún número real x. Si Resumen
Probabilidad y Estadísticas
Página 27 de 64
se escribe F ( x ) = P ( X ≤ x ) para cada número real x, se define que F(x) es la función de distribución o de probabilidades acumuladas de la variable aleatoria X. Definición La función de distribución o de probabilidades acumuladas F(x) de una variable aleatoria discreta X, cuya distribución de probabilidad es f(x), es:
∑ f (t )
F ( x) = P ( X ≤ x ) =
−∞< x <∞
t≤x
Debe notarse, en forma muy particular, el hecho de que la distribución acumulada se define no sólo para los valores que asume la variable aleatoria dada, sino para todos los números reales. Distribuciones continuas de probabilidad Cualquier valor del intervalo. Una variable aleatoria continua tiene una probabilidad cero de asumir cualquiera de sus valores exactamente. Consecuentemente, su distribución de probabilidad no puede darse en forma tabular. Por ejemplo, en las alturas de las personas, de 1,69 m a 1,71 m hay infinitos valores. No se representa como tabla pero sí puede tener una fórmula. La misma, necesariamente, debe ser una función de los valores numéricos de la variable continua X y, como tal será expresada por la notación funcional f(x). Al tratar con variables continuas, f(x) por lo general se llama función de densidad de probabilidad (f.d.p.) o, simplemente, función de densidad de X. Una función de densidad de probabilidad se construye de tal manera que el área comprendida bajo su curva es igual a 1.
∫
+∞
−∞
f ( x )dx = 1
La probabilidad de que X asuma un valor entre a y b es igual al área sombreada bajo la función de densidad, entre las ordenadas x = a y x = b y, utilizando el cálculo integral, esta área está dada por: P ( a < X < b)
∫
b
a
f ( x)dx
Función de densidad de probabilidad La función f(x) es una función de densidad de probabilidad para la variable aleatoria continua X, definida en el conjunto de los números reales, si: a) f ( x) ≥ 0∀ ∈ R b)
∫
+∞
−∞
f ( x )dx = 1 b
c) P(a < X < b) = ∫a f ( x)dx f(x)dx , si x es V.A.C. Vernos que, para un valor particular de la variable x0, P(X = x0) = 0. pues no existe intervalo de integración. Función de distribución o de probabilidades acumuladas Resumen
Probabilidad y Estadísticas
Página 28 de 64
La función de distribución o de probabilidades acumuladas F(x) de una variable aleatoria continua X, con una función de densidad f(x), es: F ( x ) = P ( X ≤ x) =
x
∫
−∞
f (t )dt −∞ < x < ∞
Como una consecuencia inmediata de la definición, se pueden escribir los dos resultados siguientes: a) P(a ≤ X ≤ b) = P(a < X < b) = F(b) - F(a) b) f(x) = dF(x) / dx ; si la derivada existe Principales valores característicos de una variable aleatoria Suponemos que conocemos a toda la población. Valor esperado o esperanza matemática de una variable aleatoria Para obtener el valor esperado de una variable aleatoria discreta, multiplicamos cada valor que ésta puede asumir por la probabilidad de ocurrencia de ese valor, y luego sumarnos los productos. Definición: Sea X una variable aleatoria cualquiera, simbolizaremos con E ( x) = µ al valor esperado o esperanza matemática de X:
Observación: Para una V.A. X usaremos p(x) o f(x) para designar a la función de probabilidad o función de cuantía de X. Podemos decir, entonces, que la media aritmética tiende a la esperanza matemática cuando aumentamos el tamaño de la muestra, es decir, cuando nos vamos aproximando al conocimiento de la población completa. Variancia y desviación típica de una variable aleatoria Variancia Sea X una variable aleatoria, definamos la variancia de X, que se denota con V(X) o σ x2 , como sigue: V ( X ) = E[ X − E ( X )] 2
La raíz cuadrada positiva de V(X) se llama desviación estándar de X y se designa con σ x
σ x = V ( X )
Observaciones: • El número V(X) está expresado en unidades cuadradas de X, Esto es, si X se mide en hs, entonces V(X) está expresada en hs 2. Ésta es una razón para considerar la desviación estándar, ya que ésta se expresa en las mismas unidades que X. • Otra medida posible podría haber sido E|X - F(X)|. Por diferentes razones, una de las cuales es que X2 es una función "con mejor comportamiento" que |X|, se prefiere la variancia. • Sí interpretamos a E(X) como el centro de una masa unitaria distribuida sobre una recta, podemos interpretar a V(X) como el momento de inercia de esa masa respecto a un eje perpendicular a través del centro de la misma. Resumen
Probabilidad y Estadísticas •
Página 29 de 64
V(X), como se definió en la ecuación anterior, es un caso especial del concepto más general siguiente: "el k-ésimo momento de la variable aleatoria X respecto a k su esperanza se define como µ k = E[ X − E ( X )] ”. Evidentemente, para k = 2 obtenemos la variancia.
Propiedades del valor esperado de una variable aleatoria Propiedad 1: Si X = C, donde C es una constante, entonces E(X)=C Demostración: +∞ +∞ E ( X ) = ∫ Cf ( x) dx = C ∫ f ( x)dx = C . Algunas veces esta variable aleatoria se llama −∞ −∞ degenerada. Propiedad 2: Si Y = a + X, donde a es una constante, entonces E(Y) = a + E(X). Parecido a la media aritmética. Propiedad 3: Supongamos que C es una constante y X es una variable aleatoria. Entonces, E(C*X) = C*E(X). Parecido a la media aritmética. Demostración: E (C * X ) =
∫
+∞
−∞
Cxf ( x)dx = C
∫
+∞
−∞
xf ( x)dx = C * E ( X )
Propiedad 4: Sean X e Y dos variables aleatorias cualesquiera, entonces E(X+Y) = E(X) + E(Y). Observaciones: • Combinando las propiedades 2, 3 y 4 observarnos el siguiente hecho importante: si Y = a * X +b, donde a y b son constantes, entonces E(Y) = a * E(X) + b. En palabras, la esperanza de una función lineal es esa misma función lineal de las esperanzas. Esto no es cierto, a menos que esté implicada una función lineal, y es un error común creer que sea de otro modo. 1/2 • En general, es difícil obtener expresiones para E(1/X) o E(X ), por ejemplo, en términos de 1/E(X) o [E(X)]1/2. Sin embargo, hay algunas desigualdades que son muy fáciles de derivar. Propiedad 5: Sean X1,…, Xn variables aleatorias, entonces E(X1 + ... + Xn) = E(X1) + ... + E(Xn). Definición previa 1: Dadas dos variables aleatorias discretas X e Y se define su distribución conjunta por una tabla de contingencia (o tabla de probabilidades a doble entrada) de la siguiente forma:
Donde pij = p( xi ∩ yi ) representa la probabilidad conjunta de los sucesos (X = x i) y (Y = yi). Definición previa 2: Dada la distribución conjunta de dos variables aleatorias discretas X e Y, se dice que X e Y son variables aleatorias independientes si sólo si pij = p ( xi ∩ yi ) = p( xi ). p( yi ) , Para todo i, para todo j. Propiedad 6: Resumen
Probabilidad y Estadísticas
Página 30 de 64
Sean X e Y dos variables aleatorias independientes, entonces E(X*Y)=E(X)-E(Y). Teorema El cálculo de V(X) se simplifica usando: V ( X ) = E ( X 2 ) − [ E ( X )] 2
Propiedades de la variancia de una variable aleatoria Hay varias propiedades importantes, en parte análogas a las expuestas para la esperanza de una variable aleatoria, que se mantienen para la variancia. Propiedad 1: Si X = C, donde C es una constante, luego V(X) = V(C) = 0. Es bastante obvio que, si tenemos una constante, su variabilidad es nula. Propiedad 2: Si C es una constante, V(X+C) = V(X). Demostración: V(X+C) = E(X+C) – [E(X+C)]2 = E[(X+C)-E(X)-C]2 = E[X-E(X)]2 = V(X) Propiedad 3: Si C es una constante, V(C*X) = C * V(X). Propiedad 4: SI X e Y son dos variables aleatorias independientes, entonces V(X+Y) = =V(X} + V(Y). Observación: es importante establecer que, en general, la variancia no es aditiva como lo es el valor esperado. Con la suposición adicional de independencia, la aditividad de variancias es válida. Además, la variancia no posee la propiedad de linealidad que dimos para la esperanza, es decir: V(a*X+b) ≠ a * V(X)+ b. En su lugar, tenemos V(a*X+b) = a2* V(X). Propiedad 5: Sean X1, …, Xn n variables aleatorias independientes de dos a dos, entonces V(X1+…+Xn) =V(X1)+…+V(Xn) Desigualdad de Chebyshev Si conocemos la distribución de probabilidades de una variable aleatoria (la f.d.p. en el caso continuo o la probabilidad puntual en el caso discreto), podemos calcular E(X) y V(X), si existen. Sin embargo, lo recíproco no es verdadero. Nunca la probabilidad va a ser exacta, pero si en una cota inferior y en otra superior. Sin embargo, resulta que, aunque no podemos evaluar tales probabilidades (a partir de un conocimiento de E(X) y lV(X)), es posible dar una cota superior (o inferior} muy útil para las mismas. Este resultado está contenido en lo que se conoce como la desigualdad de Chebyshev. Desigualdad de Chebyshev Sea X una variable aleatoria con E ( X ) = µ y sea k un número real cualquiera mayor o forma equivalente: igual que 1, entonces: P( X − µ ≥ k *σ ) ≤ 1/ k 2 en P( X − µ < k *σ ) ≥ 1 − 1/ k 2
Esta ultima forma indica, especialmente, cómo la variancia mide el "grado de concentración" de probabilidad próxima a E ( X ) = µ . Podemos expresarla en palabras diciendo: dado un número k mayor o igual que 1 y un conjunto de n observaciones, al menos (1 - 1/k2) .100 % de las observaciones caen dentro de k desviaciones estándares de la media. Esta desigualdad es válida tanto para una muestra como para una población. Cuando se trabaja con una muestra aleatoria, se utiliza S en lugar de σ y x en lugar de µ . Si n < 30, conviene utilizar S' en lugar de S. Resumen
Probabilidad y Estadísticas
Página 31 de 64
5. DISTRIBUCIONES DE PROBABILIDAD DISCRETAS Distribución discreta uniforme Es aquella en la cual la variable aleatoria asume cada uno de sus valores con idéntica probabilidad. Es la más simple de todas las distribuciones discretas de probabilidad. Teorema La media y la variancia de la distribución uniforme discreta f(x) están dadas por: k
∑ x
i
µ =
i =1
k
k
y σ 2 =
∑ ( x − µ )
2
i
i =1
k
EI proceso aleatorio de Bernoulli Por ejemplo, una línea de producción se prueban cada uno de los artículos para ver si son defectuosos o no. Los intentos o ensayos repetidos son Independientes y la probabilidad de éxito permanece constante. Este proceso se conoce como proceso de Bernoulli. Cada intento se llama experimento de Bernoulll. Propiedades Estrictamente hablando, el proceso de Bernoulli debe tener las siguientes propiedades: • El experimento consiste en un solo intento, • Los resultados del intento pueden clasificarse como éxito o fracaso. Luego, la distribución de probabilidad de la v.a. y (variable aleatoria de Bernoulli) se puede presentar en forma tabular de la manera siguiente: Distribución de probabilidades de y: y p(y) 0: fracaso; q: probabilidad de fracaso 1: éxito; p: probabilidad de éxito Donde: p + q = 1, por lo tanto, q = 1 - p 0 q 1 p Esperanza y variancia de la variable aleatoria de Bemoulli Esperanza matemática de y E ( y ) =
∑ y. p( y ) = 0 * q + 1* p = p
y∈R y
Variancia de y V ( y ) = σ y2 = E ( y 2 ) − [ E ( y )]2 =
∑y
2
p ( y ) − p 2 = 02 * q + 1* p − p 2 = p − p 2 = p (1 − p ) = p .q
V ( y ) = p.q
Desviación típica de y D ( y ) = σ y = + V ( y ) = + p.q
Distribución binomial El número X de éxitos en n experimentos de Bernoulli recibe el nombre de variable aleatoria binomial, La distribución de probabilidad de esta variable aleatoria discreta se llama distribución binomial y sus valores se representan por B(x;n,p), dado que estos últimos dependen del número de intentos y de la probabilidad de éxito en un intento determinado. La función de probabilidad de la variable aleatoria binomial X, el número de éxitos en n experimentos independientes, es: n x n x x=0,1,2,…,n. P ( X = x ) = ( x ) p .q − Donde n es el número de observaciones, p es la probabilidad de éxito, q es la probabilidad de fracaso y p + q = 1. Las características del modelo binomial son: Resumen
Probabilidad y Estadísticas
Página 32 de 64
• El experimento consiste en n intentos repetidos. • Los resultados de cada uno de los intentos pueden clasificarse como éxito o como fracaso, • La probabilidad de éxito, representada por p, permanece constante para todos los intentos. • Los intentos repetidos son independientes. Por ejemplo, si n = 4 y p = 1/4, la distribución de probabilidad de X, es decir, el número de artículos defectuosos que pueden obtenerse en una muestra de cuatro artículos, puede escribirse corno: x 4 4 x P ( X ) = ( x )(1/ 4) .(3 / 4) − x = 0,1,2,3,4 Función de distribución o de probabilidades acumuladas x0
F ( xo ) = P ( X ≤ x0 ) =
∑ p(x) 0
Ésta se aplica en cualquier situación de tipo industrial donde se presentan las características siguientes: • El resultado de un proceso es dicotómico, • Los resultados posibles son independientes, y • La probabilidad de éxito es constante de una observación a otra. Esperanza y variancia de la variable aleatoria binomial Teorema La esperanza matematica y la variancia de la distribución nominal estan dadas por: E ( x ) = µ = p.q y V ( x ) = σ 2 = n. p.q Asimetría de la distribución binomial Es posible predecir la asimetría de toda distribución binomial en función del valor de sus parámetros, especialmente, de la probabilidad de éxito p. Resulta: a) Si p<1/2, n >30 entonces la distribución binomial será asimétrica a derecha. b) Si p>1/2, n > 30 entonces tal distribución resultará asimétrica a izquierda. c) Si p = 1/2, entonces esta distribución resulta simétrica, sin importar el tamaño de muestra n. Experimentos multinomiales Si cada prueba u observación tiene más de 2 resultados posibles, entonces el experimento binomial se convierte en un experimento multinomial. Para derivar la fórmula general se procede como en el caso binomial. Dado que los intentos son independientes, cualquier orden especificado que produzca x 1 resultados para E1, x2 para E2, …, xk para Ek ocurrirá con una probabilidad p x1 p2x ... p xk . El número total de órdenes que producen resultados similares para los n intentos es igual al número de particiones de n intentos en k grupos con x 1 en el primer grupo, x2 en el segundo, ..., y xk en el grupo k. Esto puede realizarse en: 1
(
n x1 , x2 ,..., xn
) = x ! x 1
2
k
n! 2
!...xn !
maneras, Dado que todas las particiones son mutuamente excluyentes y ocurren con igual probabilidad, se obtiene la distribución multinomial al multiplicar la probabilidad para un orden especifico por el número total de particiones. Distribución multinomial Resumen
Probabilidad y Estadísticas
Página 33 de 64
Si en un experimento aleatorio determinado cada observación puede resultar en k resultados distintos, con probabilidades p 1, p2,..., pk respectivamente, entonces la distribución de probabilidades de las v.a. x1, x2, ..., xk, que representan el número de ocurrencias para los resultados en n observaciones independientes, viene dada por: p( x1 , x2 ,..., xn ) = ( x1 , x2 ,..., xn ) = p11 p22 ... p nn n
x
x
x
Distribución hipergeométrica El esquema del tipo de experimentos aleatorios donde se puede aplicar una distribución hipergeométrica es similar al de la binomial. La diferencia radica en que en la binomial las distintas observaciones eran independientes, mientras que en la hipergeométrica son dependientes. Las características de un experimento aleatorio donde se puede aplicar el modelo hipergeométrico son las siguientes: • La población posee N elementos, de los cuales N 1 son de una clase determinada y N 2 son de otra clase, tal que N 1 + N2 = N. Ambas clases son mutuamente excluyentes y exhaustivas. • Se extrae una muestra de n elementos sin reemplazo. Luego, la función de probabilidad de la distribución hipergeométrica viene dada P ( X = x) N1 , N 2 , N n
( )( ) donde x = 0,1,2,...,n y = ( ) N1 x
N 2 n− x
N1 + N 2 n
N1 + N2 = N
Esperanza y variancia de la variable aleatoria hipergeométrica Teorema La esperanza matemática y la variancia de la distribución hipergeométrica están dadas por: E ( x ) = µ = n
N 1 N
y V ( x ) = σ 2 =
N N − n N1 n 1− 1 N − 1 N N
Distribución de Poisson Se denominan experimentos de Poisson a aquellos que describen el comportamiento de una variable aleatoria que representa el número de resultados observados, con una determinada característica, durante un intervalo de tiempo dado o en una unidad de espacio específica. Un experimento de Poisson surge del proceso de Poisson y tiene las siguientes características: • El número de resultados que ocurren en un intervalo de tiempo o región específicos es independiente del número que ocurre en cualquier otro intervalo disjunto de tiempo o espacio. De esta manera, se dice que el proceso de Poisson no tiene memoria. • La probabilidad de que un resultado sencillo ocurra en un intervalo de tiempo muy corto o en una región pequeña es proporcional a la longitud del intervalo de tiempo o al tamaño de la región, y no depende del número de resultados que ocurren fuera de este intervalo o región. • La probabilidad de que más de un resultado ocurra en ese intervalo de tiempo tan corto o en esa región tan pequeña es despreciable. El número X de resultados que ocurren en un experimento de Poisson se llama variable aleatoria de Poisson y su distribución de probabilidad recibe el nombre de distribución de Poisson. Distribución de Poisson Resumen
Probabilidad y Estadísticas
Página 34 de 64
La función de probabilidad de la variable aleatoria de Poisson X, que representa el número de resultados que ocurren en un intervalo de tiempo dado o de espacio, es: p( x; λ t ) =
e
− λ t
(λ t )
x !
x
x=0,1,2…
Donde λ es el número promedio de resultados por unidad de tiempo o espacio y e = 2.71828... Esperanza y variancia de la variable aleatoria de Poisson Teorema La media y la variancia de la distribución de Poisson tienen, ambas, el valor λ V ( X ) = σ 2 = λ E ( X ) = λ = V ( X ) = σ 2 ⇒ σ x = λ
La distribución de Poisson como límite de la binomial Cuando n → ∞ , p → 0 y n.p permanece constante la distribución Binomial se aproxima a la de Poisson. De aquí que, si n es grande y p es cercana a O, la distribución de Poisson puede utilizarse con µ = n. p para aproximar distribuciones binomiales. Si p es cercana a 1, se puede utilizar la distribución de Poisson para aproximar a la distribución binomial, intercambiando lo que se definió como un éxito por un fracaso, cambiando de esta manera p por un valor cercano a 0. Teorema Sea X una variable aleatoria bínomial con distribución de probabilidad B(n,p). Cuando n → ∞ , p → 0 y µ = n. p permanece constante: se aproxima a la de Poisson. Aplicación de las distribuciones de probabilidad al muestreo de aceptación En los problemas que vimos, donde se usaba la distribución binomial, la probabilidad' de éxito p se suponía conocida. Imaginemos ahora que no se conoce p y, en base a resultados muéstrales, se quieren hacer inferencias con respecto a p. Supongamos que se reciben grandes lotes de artículos manufacturados, digamos lotes de 500 artículos, y se desea rechazar y devolver al fabricante aquellos lotes que contengan una proporción alta de artículos defectuosos. Digamos que el comprador sólo aceptará lotes que no contengan una proporción mayor de p = 0.05 artículos defectuosos. Luego, siendo p la proporción de artículos defectuosos en el lote: Si p ≤ 0,05 El lote es aceptado. Si p > 0,05 El lote es rechazado. Luego, se determina un plan de muestreo que consiste en establecer un tamaño de muestra n que será la cantidad de artículos que se inspeccionarán del lote. También se selecciona de antemano un número a que representa el número de defectuosos que se está dispuesto a aceptar. Siendo X el número de artículos defectuosos en la M n: Si X ≤ a Se acepta el lote. Si X > a Se rechaza el lote y se devuelve al fabricante. Los ingenieros de control de calidad caracterizan la bondad de un plan de muestreo mediante el cálculo de la probabilidad de aceptar un lote para distintos valores de la proporción de defectuosos. La representación gráfica del resultado se denomina curva característica de operación del plan de muestreo. Un buen plan de muestreo debe dar probabilidades altas de aceptar lotes con una baja proporción de defectuosos y probabilidades bajas de aceptar lotes con una alta proporción de defectuosos. Resumen
Probabilidad y Estadísticas
Página 35 de 64
6. DISTRIBUCIONES DE PROBABILIDAD CONTINUAS Distribución uniforme o rectangular Definición Supongamos que X es una v.a. continua que toma todos los valores en el intervalo [a, b], donde a y b son finitos. Si la función de densidad de probabilidad está dada por: 1 f ( x ) = b − a 0
a ≤ x ≤ b, con a b Para cualquier otro valor
Diremos que x está distribuida uniformemente en el [a, b]. Función de Densidad de Probabilidad f(x) debe cumplir las siguientes condiciones para ser una función de densidad de probabilidad: a) f(x)≥0 ∀ x ∈ R ∞ b) ∫−∞ f ( x)dx = 1 Si queremos calcular, por ejemplo,
P x ≥
a+b
hacemos:
2
∫
b a +b
2
1 b−a
dx = 1/ 2
a y b son los extremos de los intervalos. Función de Distribución F ( x) =
x−a b−a
(después de integrar)
0 X
b E ( x) = V ( X ) =
Distribución normal o de Gauss
a+b
2
( a − b)
2
12
Es la distribución más importante en la Estadística. Esto se debe, principalmente, a las siguientes razones: a) La distribución normal constituye una muy buena aproximación de otras distribuciones de probabilidad discretas y continuas. b) Muchas variables que se observan en la vida diaria siguen una distribución normal, Podemos citar: el peso, la estatura, el cociente intelectual de las personas. c) Independientemente de la distribución de probabilidades que tenga una población, si Resumen
Probabilidad y Estadísticas
Página 36 de 64
extraemos muestras aleatorias y hallamos luego la distribución muestral de los estadísticos, muchos de ellos serán normales. Función de Densidad de Probabilidad Si x ∈ R y tiene una distribución normal, su f.d.p. es la siguiente: f ( x) =
1
σ 2π
−
e
1 x − µ
2
2 σ
La notación x ~ N ( µ,σ) se lee: "x es una v.a. normal con esperanza µ y desviación típica σ ". µ ∈ R y σ ∈ R + Recordemos también que, para una v.a. continua, las probabilidades se calculaban integrando la función de densidad de probabilidad en el intervalo de interés, es decir: En el caso
P ( x ∈ [ a, b ]) = P(a ≤ x ≤ b ) =
b
1
a
σ 2π
∫
−
e
1 x − µ
2 σ
∫
b
a
f ( x )dx
de la distribución normal:
2
dx =
1
b
σ 2π
∫ e
−
1 x − µ
2 σ
a
2
dx
Estos valores se encuentran en la tabla de probabilidades normales del apéndice Algunas características de la distribución normal: • Toda el área bajo la curva es igual a 1. Esto es obvio si pensamos que, por ser una f.d.p., la ley normal o de Gauss verifica las condiciones de la misma, que según ya vimos eran: a) Condición de no negatividad: f(x)≥0 ∀x ∈ R ∞ b) Condición de cierre: ∫−∞ f ( x)dx = 1 Esta última condición es la que nos permite afirmar que el área bajo la curva es igual a 1. • La distribución tiene forma de campana simétrica, por eso vulgarmente se habla de "campana de Gauss". El punto máximo es la ordenada de µ, que además coincide con la mediana y con el modo, por tratarse de una distribución simétrica, • El eje x es asíntota de la curva, es decir, a partir de µ la curva se extiende indefinidamente hacia la izquierda y hacia la derecha, tendiendo al eje x pero sin tocarlo nunca. En la práctica, a una distancia 3 σ de µ (hacia la derecha y hacia la izquierda), el valor de f (x) es muy próximo a 0. • El eje de simetría de la curva es x = µ (es decir, la vertical que pasa por µ). • Los valores de µ y σ determinan, respectivamente, la ubicación de la curva sobre el eje x y la forma de la misma. • La curva tiene sus puntos de inflexión en x = µ ± σ; es cóncava hacia abajo si µ - σ < x < µ + σ y es cóncava hacia arriba en cualquier otro punto. Distribución normal típica o estándar Sea z una v.a. normal tipificada o estandarizada, la f.d.p. de z es:
f ( x) =
1
σ 2π
Resumen
1
e
− z
2
2
; z ∈ R
Probabilidad y Estadísticas
Página 37 de 64
Para hacer el traspazo de: f ( x) =
1
σ 2π
−
e
1 x − µ
2 σ
2
a f ( x) =
1
σ 2π
1
e
− z
2
2
se
usa: Si X
~N ( µ ; σ ) Z~N(0;1)
E (z) = 0 y V(Z)=1 A esta transformación a veces se la llama proceso de tipificación de la variable Las tablas son para Z, donde Z(0;1), si es otro distinto hay que hacer la transformación para poder usarlas Todos los valores x entre xt y x2 de la primera distribución tienen sus correspondientes valores z entre z, y z2 en la segunda distribución. Por lo tanto, las áreas sombreadas son equivalentes. Luego, con una so!a tabla (la de la distribución normal típica) resolvemos nuestro problema de cálculo de probabilidades. Ejemplo de Uso de la Tabla Reproducimos una parte de la tabla P (Z ≤ z1) z 0,00 0,01 0.02 0.03 0.0 0.1 0.2 0,3 0.6985 0.4 0.5
Gráficamente:
Veremos cuatro casos: Caso 1: En una distribución normal típica, encontrar probabilidades para determinados valores de la variable. Caso 2: En una distribución normal típica, encontrar valores de la variable para determinadas probabilidades, Caso 3: En una distribución normal cualquiera, encontrar probabilidades para determinados valores de la variable, Caso 4: En una distribución normal cualquiera, encontrar valores de la variable para determinadas probabilidades. LOS EJEMPLOS DE LOS CASOS ESTAN EN EL LIBRO PAGINAS 174 A 177 Resumen
Probabilidad y Estadísticas
Página 38 de 64
Propiedades a) Linealidad: Si x ~ N (µ;σ) y tenemos, además, una v.a, y = a * x + b, luego: y ~ N (a * µ + b , a * σ). b) Reproductividad: Si x1 ~ N (µ1;σ1) y x2 ~ N (µ2;σ2), y x1 y x2 son variables independientes entonces y=x 1+ x2 resulta con distribución: y ~ N ( µ1 + µ 2 ; σ 12 + σ 22 ) Aproximación de la distribución binomial a la normal Al aumentar el tamaño de la muestra, la distribución binomial se acerca a la forma lisa y acampanada. Si X es aproximadamente normal, su valor se puede transformar en un valor de Z aplicando la fórmula: Z =
X − n. p n. p .q
Corrección de continuidad: por ejemplo, P (X = 3) = 0. Por lo tanto, en este
caso deberá cambiarse por P (2.5 ≤ X' ≤ 3.5), o sea, que la probabilidad de que la variable binomial sea 3 es equivalente a la probabilidad de que la variable aleatoria continua esté entre 2,5 y 3.5,P (a ≤ X ≤ b) s P (a - 0.5 ≤ X´≤ b + 0.5), donde X´es una variable normal transformada. Vamos a ver ahora cómo la aproximación de la binomial a la normal es mejor a medida que n crece. Supongamos que x ~ B (10,0.5) y se desea hallar la P (2 ≤ x ≤4) = 0.0439 + 0.1172 + 0.2051 = 0.3662. Para la aproximación normal de la binomial debemos primero hacer la corrección de continuidad: P (2 ≤x ≤ 4) = P (2 - 0.5 ≤ x' ≤ 4 + 0.5) Entonces, si x ~ B (10,0,5): E(x)=n.p = 10*0.5 = 5 σ ( x) = n. p.q = 2, 5 = 1,58 Z =
X − n. p n. p .q
⇒ Z 1 =
1, 5 − 5 1,58
= −2,22
y Z 2 =
4,5 − 5 1,58
= −0,32
P (-2.22 ≤ z ≤ -0,32) = 0,3745 -0,0132 = 0,3613 En general, a medida que aumenta el tamaño de n la aproximación resulta mejor, es decir, los valores de probabilidad que se obtienen con la aproximación son más cercanos a los valores que resultan de aplicar directamente la distribución binomial Distribución exponencial Definición Se dice que una variable aleatoria continua X que toma todos los valores no i negativos tiene una distribución exponencial con parámetro a > 0 si su f.d.p. está dada por: a.e − ax f ( x ) = 0
X>0 Para cualquier otro valor
Representación Gráfica
Resumen
Probabilidad y Estadísticas
Página 39 de 64 ∞
Se puede probar que: ∫0 f ( X )dx = 1 La distribución exponencial desempeña un papel importante en la descripción de una gran clase de fenómenos, especialmente en el área de la teoría de la confiabilidad de equipos electromecánicos. Función de Distribución X f (t )dt = 1 − e −α X X ≤0 f ( x ) = ∫0 Para cualquier otro valor Esperanza y variancia 0 E X a ( ) = 1/
V ( X ) = 1/ a 2
La distribución exponencial tiene una propiedad importante. Considerando cualesquiera u, v > 0, tenemos: Por lo tanto:
P( X > u + v / X > u ) =
P( X > u + v ) P( X > u )
=
e −α (u + v ) e
−α u
=e
−α v
P( X > u + v / X > u ) = P( X > v)
Generalmente, a las distribuciones que cumplen con esta propiedad se les dice que "no tienen memoria".En otras palabras, la información de ningún éxito es "olvidada" en lo que se refierea cálculos subsecuentes Distribución chi-cuadrado Definición Una variable aleatoria continua X tiene una distribución chi-cuadrado, con v grados de libertad, si su función de densidad es la siguiente:
1 v / 2 −1 − x / 2 X e v / 2 v Γ 2 ( / 2) f ( x ) = 0
X ≤0
Para cualquier otro caso
Donde v es un entero positivo y dónde Γ (v / 2) es el valor de la función gamma para v/2, estando la función gamma definida por: Γ=
∫
∞
0
t v −1e −t dt
Con v>o Esta distribución juega un papel vital en la Inferencia estadística La media
µ = v
La variancia σ 2 = 2v
Distribución t de Student
Resumen
Probabilidad y Estadísticas
Página 40 de 64
La mayoría de las veces no se tiene la suerte suficiente como para conocer la variancia de la población de la cual se seleccionan las muestras aleatorias. Para muestras de tamaño n > 30, se proporciona una buena estimación de a 2 al calcular un valor de S2. ¿Qué le ocurre entonces al estadístico ( X − µ ) / (σ / n ) del Teorema Central del Límite si se reemplaza σ2 por S2? Si el tamaño muestral es pequeño, los valores de S 2 fluctúan considerablemente de muestra en muestra y la distribución de la variable aleatoria ( X − µ ) / ( S / n ) se desvía en forma apreciable de una distribución normal estándar. Ahora se está tratando con la distribución de un estadístico que recibe el nombre de T, donde: para n<30 Al derivar la distribución muestral de T, se asumirá que la muestra aleatoria se seleccionó de una población normal. Se puede expresar entonces: T =
( X − µ ) / (σ / n ) 2
2
=
S / σ
Donde Z es: Z =
T =
Z V /(n − 1)
X − µ S / n
X − µ
σ / n
Tiene la distribución normal estándart y V =
( n − 1) S
2
σ 2
tiene una distribución chi-cuadrado con v = n -1 grados de libertad. Ai muestrear poblaciones normales, puede demostrarse que X x y S2 son independientes y, en consecuencia, lo son Z y V. Valores característicos E(tn-1) = 0 para n>1 V(tn-1) = n/(n-2), para n>2. Obsérvese que si n < 1 la distribución T-Student carece de esperanza matemática, y si n < 2, carece de varianza. Teorema Sea Z una variable aleatoria normal estándar y V una variable aleatoria chi-cuadrado con v grados de libertad. Si Z y V son independientes, entonces la distribución de la variable aleatoria T, donde: T =
Z V / v
está dada por; h(t ) =
Γ [ (v + 1) / 2]
t 2
Γ (v / 2) π v
v
1 +
− ( v +1) / 2
−∞ < t < ∞
y se conoce como distribución t con v grados de libertad. Los grados de libertad como una medición de la información muestral Se sabe que, cuando una muestra aleatoria se toma de una distribución normal, la variable aleatoria:
Resumen
Probabilidad y Estadísticas
Página 41 de 64 n
∑
( X i − µ )2
σ 2
i =1
Tiene una distribución x 2 con n grados de libertad. Es muy simple observar que, en las mismas condiciones, la variable aleatoria: ( n − 1)S
2
σ2
n
=
∑
2 ( xi − x )
i =1
σ 2
Tiene una distribución c2 con n -1 grados de libertad. Se puede indicar que, cuando m no se conoce y se considera la distribución de: n
∑ i =1
2 ( xi − x )
σ 2
Existe un grado de libertad menos, o se pierde un grado de libertad en la estimación de µ (es decir, cuando µ es reemplazada por x ). Cuando los datos (los valores en la muestra) se utilizan para calcular la media, hay 1 grado de libertad menos en la información utilizada para estimar σ2. Aproximaciones entre distribuciones continuas 1 Aproximación de la distribución T-Student por la distribución Normal: si n>30 se cumple que tn-1 se distribuye aproximadamente como una normal típica Z 2 Aproximación de la distribución Chi-cuadrado por la distribución Normal: a) Para cálculos de probabilidades: si n>30 se cumple que la distribución Chi-cuadrado con n-1 grados de libertad se distribuye aproximadamente como una normal con esperanza matemática n-1 y desvío standard [2.(n-1)] 1/2 b) Para cálculos de percentiles: si n>30 el percentil p de la distribución Chi-cuadrado con n-1 grados de libertad se puede aproximar por la expresión 1/2.[z p + (2.n-3)1/2 ] 2 .
7. DISTRIBUCIONES EN EL MUESTREO El muestreo estadístico El muestreo estadístico es un enfoque sistemático para seleccionar unos cuantos elementos (una muestra) de un grupo de datos (una población), a fin de hacer algunas inferencias sobre el total. Razones del muestreo Probar el producto íntegramente lo destruye a menudo, además de ser innecesario. Para averiguar las características de un todo, basta muestrear una parte de él. Podemos mencionar entre las principales razones para realizar el muestreo a las siguientes: a)Ensayos de tipo destructivo. b)Imposibilidad de conocer todas las unidades elementales que componen la población. c) Tiempo que insume analizar la población completa cuando su tamaño es muy grande. d)Alto costo que a veces implica relevar los datos. Censo y muestra En ocasiones, es posible y práctico examinar a todas las personas o miembros de la población que deseamos describir. A esto lo llamamos enumeración completa o censo. Recurrimos al muestreo cuando no es posible contar o medir cada elemento de la población. Los estadísticos usan la palabra "población" para designar no
Resumen
Probabilidad y Estadísticas
Página 42 de 64
sólo a las personas, sino a todos los elementos, que han sido escogidos para ser estudiados. Estadísticos y parámetros Desde el punto de vista matemático, podemos describir las muestras y poblaciones mediante medidas como la media, la mediana, el modo y la desviación estándar. Cuando estos términos describen las características de una muestra, se les llama estadísticos. Cuando describen las características de una población, reciben el nombre de parámetros. El estadístico es una característica de la muestra; el parámetro es una característica de la población. Para ser Definición
Población: P Grupo de elementos
Muestra: M Parte o porción de la
Medidas
"Parámetros"
"Estadísticos"
Símbolos
Tamaño de la población: N Media poblacional:µ Desviación estándar
Tamaño de la muestra: n Media muestral: x Desviación estándar de la muestra: S
Muestreo de juicio y muestreo probabilístico Se dispone de dos métodos para seleccionar las muestras de poblaciones: muestreo no aleatorio o de juicio y muestreo aleatorio o probabilístico. En el muestreo probabilístico, todos los elementos de la población tienen posibilidad de figurar en la muestra. En el muestreo de juicio, se usan el conocimiento y la opinión personal para identificar los elementos de la población que van a incluirse en la muestra. Una muestra seleccionada por muestreo de juicio se basa en el conocimiento de la población por parte de alguien. Por ejemplo, un analista económico sabrá, por experiencia, qué acciones deben tenerse en cuenta para conocer el movimiento de las tasas de inversión en el mundo. En ocasiones, el muestreo de juicio sirve de muestra piloto para decidir cómo seleccionar después una muestra aleatoria. Nos ahorra, además, el análisis estadístico que es indispensable efectuar para tomar muestras probabilísticas. El muestreo de juicio es más adecuado y da buenos resultados, aun cuando no sea posible medir su validez. Pero, si en un estudio se aplica este método y se pierde un grado significativo de "representatividad", habrá que pagar un alto precio por la comodidad. Puede decirse que una gran ventaja del muestreo aleatorio es que permite aplicar métodos de Inferencia estadística a los datos, mientras que el muestreo de juicio no lo permiten. Generalmente, una muestra pequeña no arroja buenos resultados No podemos estar seguros sin más información completa o sin una investigación realizada basándonos en encuestas estadísticamente bien realizadas. Sin embargo, sí podemos estar alertas ante el riesgo que corremos cuando no pedimos información complementaria. La persona que conoce el problema del muestreo estadístico puede estar alerta para no dejarse convencer rápidamente y solicitar más información. Distintos tipos de muestreo aleatorio Muestreo aleatorio simple En el muestreo aleatorio simple, se seleccionan las muestras mediante métodos que permiten a
Resumen
Probabilidad y Estadísticas
Página 43 de 64
cada muestra posible tener igual probabilidad de ser seleccionada y a cada elemento de la población entera tener igual probabilidad de quedar incluido en la muestra. Por finita entendemos la población que posee un tamaño formulado o limitado, es decir, hay un número entero (N) que nos indica cuántos elementos existen en la población. La población infinita es aquella en que, teóricamente, es imposible observar todos los elementos. Así pues, en la práctica emplearemos la expresión "población infinita" cuando hablemos de una población que no puede ser enumerada en un período razonable. De este modo, usaremos el concepto teórico de "población infinita" como una aproximación de una gran población finita. Cómo hacer el muestreo aleatorio La forma más fácil de seleccionar una muestra al azar consiste en usar números aleatorios, los cuales pueden generarse con una computadora programada para mezclar números o con una tabla de números aleatorios. Empleo de una tabla de números aleatorios a) Pasamos de la parte superior a la parte inferior de las columnas, comenzando con la columna de la izquierda, y leemos sólo los dos primeros dígitos de cada renglón. Es decir que leemos la tabla por columnas. b) Si llegamos a la parte inferior de la última columna de la derecha y todavía no obtuvimos nuestros 10 números deseados de dos dígitos de 99 y menos, podemos volver al inicio (la parte superior de la columna de la izquierda) y comenzar a leer los dígitos tercero y cuarto de cada número. Muestreo sistemático En el muestreo sistemático, los elementos se seleccionan de la población con un intervalo uniforme, que se mide en el tiempo, en el orden o en el espacio. Si quisiéramos entrevistar a todo vigésimo estudiante de un campus universitario, por ejemplo, escogeríamos un punto aleatorio de arranque en los primeros veinte nombres en el directorio del alumnado, y luego seleccionaríamos cada vigésimo nombre. En este caso veinte es el llamado intervalo de muestreo. En general, este valor SE simboliza con k y se calcula como el cociente entre el tamaño de la población y el tamaño de la muestra, es decir, k = N/n. Características del muestreo sistemático El muestreo sistemático difiere del muestreo aleatorio simple en que cada elemento tiene iguales posibilidades de ser seleccionado, pero cada muestra no tiene esa misma probabilidad. Deficiencias del muestreo sistemático En el muestreo sistemático, se corre el riesgo de introducir un error en el proceso muestral. El muestreo sistemático tiene también sus ventajas. Aun cuando no sea apropiado si los elementos presentan un patrón secuencial, tal vez requiera menos tiempo y, algunas veces, cuesta menos que el simple método de muestreo aleatorio. Muestreo estratificado Para aplicar el muestreo estratificado, dividimos la población en grupos homogéneos relativos, llamados estratos. Después recurrimos a uno de dos métodos posibles: seleccionamos al azar, en cada estrato, un número especificado de elementos correspondiente a la proporción del estrato de la población total, o bien extraemos un número igual de elementos de cada estrato y damos un peso a los resultados, de acuerdo con la proporción del estrato en la población total. En uno y otro método, el muestreo estratificado garantiza que todos los elementos de la población tengan una Resumen
Probabilidad y Estadísticas
Página 44 de 64
posibilidad de ser seleccionados. El muestreo estratificado es adecuado cuando la población ya está dividida en grupos de diferentes tamaños, y queremos reconocer ese hecho. La ventaja de las muestras estratificadas estriba, pues, en que, cuando se diseñan bien, reflejan más exactamente las características de la población de donde se extrajeron que otras clases de muestreo. Muestreo por conglomerados En el muestreo por conglomerados, dividimos la población en grupos o conglomerados y luego seleccionamos una muestra aleatoria de ellos. Suponemos que esos conglomerados son representativos de la población entera. Por ejemplo, si un equipo de investigación de mercados está tratando de determinar, por muestreo, el número promedio de televisores por familia en una gran ciudad, podría utilizar un mapa de la misma para dividir el territorio en manzanas, y luego seleccionar cierto número de manzanas (conglomerados) para realizar entrevistas. Cada familia que habita en esas manzanas será entrevistada. Un procedimiento bien diseñado de muestreo por conglomerados puede producir una muestra más precisa, a un costo mucho menor, que la de un simple muestreo aleatorio. Comparación entre los distintos tipos de muestreo El muestreo sistemático, el muestreo estratificado y el muestreo por conglomerados se proponen aproximar al muestreo aleatorio simple] Todos son métodos que han sido ideados para lograr mayor precisión, un ahorro y un manejo físico sencillo. Definición: Sea X una variable aleatoria con cierta distribución de probabilidades y sean X 1,..., Xn n variables aleatorias independientes, cada una con la misma distribución que X, llamamos entonces a (X 1,…,Xn) muestra aleatoria de la variable aleatoria X. Establezcamos de una manera más informal lo anterior: una muestra aleatoria de tamaño n de una variable aleatoria X corresponde a n mediciones repetidas de X, hechas básicamente en las mismas condiciones. Por ejemplo, supóngase que la variable aleatoria que se considera es X = "número de llamadas que llegan a una central telefónica el miércoles entre las 4 PM y las 5 PM". A fin de obtener una muestra aleatoria de X, posiblemente deberíamos elegir n miércoles al azar y anotar el valor de X 1,…Xn. Tendríamos que estar seguros de que todos los miércoles son miércoles "típicos". Por ejemplo, podríamos no incluir un miércoles particular si coincide con Navidad. Distribuciones en el muestreo La distribución de probabilidad de todas las medias posibles de las muestras es una distribución de medias muéstrales. A esto, los estadísticos lo llaman distribución muestral de la media. También podríamos tener una distribución de muestreo de una proporción. Hemos tomado un extenso número de dichas muestras. Si graficamos una distribución de probabilidad de las proporciones posibles en todas ellas, veremos una distribución de las proporciones muéstrales. En Estadística, a esto se le llama distribución muestral de la proporción Descripción de las distribuciones de muestreo Toda distribución de probabilidad (y, por lo mismo, cualquier distribución de muestreo) puede describirse, en parte, mediante su media y su desviación estándar. Va tabla pag 200 Resumen
Probabilidad y Estadísticas
Página 45 de 64
En general, la distribución muestral de un estadístico se podrá describir mediante la media y la desviación estándar.
Concepto de error estándar En vez de usar "la desviación estándar de la distribución de las medias muéstrales" para describir una distribución de las medias muéstrales, los estadísticos hablan del error estándar de la media. De manera análoga, la "desviación estándar de la distribución de las proporciones muéstrales" se abrevia en el error estándar de la proporción. Error por muestreo debido al azar, es decir, existen diferencias entre cada muestra y la población, lo mismo que entre varias muestras, debido exclusivamente a los elementos que seleccionamos de ellas en forma aleatoria. La desviación estándar de la distribución de las medias muéstrales mide el grado en que esperamos que las medias de las diferentes muestras varíen por este error accidental en el proceso de muestreo. Por consiguiente, la desviación estándar de la distribución de un estadístico muestral recibe el nombre de error estándar del estadístico. Tamaño del error estándar El error estándar indica no sólo el tamaño del error accidental que se ha cometido, sino además la exactitud que seguramente alcanzaremos si usamos un estadístico muestral para estimar un parámetro de la población. Sin embargo, algún cuidado deberá, tenerse para asegurarnos de obtener, en realidad, una muestra aleatoria. Distribuciones teóricas de muestreo En la terminología estadística, la distribución de muestreo que obtenemos al tomar todas las muestras de determinado tamaño es una distribución teórica de muestreo. Los expertos en Estadística han desarrollado fórmulas para estimar las características de estas distribuciones muéstrales teóricas, haciendo innecesario reunir grandes números de muestras. En la generalidad de los casos, basta extraer una sola muestra de la población, calcular sus estadísticos y, a partir de ellos, inferir algo sobre los parámetros de la población entera. Distribución en el muestreo Distribución en el muestreo de la media La primera, que corresponde a la parte (a) de la figura, muestra una distribución de la población, suponiendo que la misma está constituida por todas las medidas de los espesores de láminas de acero fabricadas por una compañía. La distribución de dichos espesores tiene una media µ y una desviación estándar σ. Supóngase que, de alguna manera, podemos tomar todas las muestras posibles de tamaño 10 procedentes de la población (en realidad, habría demasiadas para poder incluirlas a todas). A continuación, calculamos la media y la desviación estándar de Resumen
Probabilidad y Estadísticas
Página 46 de 64
cada una de estas muestras, representadas en la parte (b) de la figura. En consecuencia, cada muestra tendrá su propia media y su propia desviación estándar. Ninguna de las medias muéstrales individuales será la misma que la media de la población: tenderán a estar cerca de ésta, pero rara vez serán exactamente ese valor. En el último paso, produciremos una distribución de todas las medias de cada muestra que pueda tomarse. Esta distribución, denominada distribución muestra! de las medias, es ilustrada en la parte (c) de la figura. Dicha distribución de la media muestral tendrá su propia media y su propia desviación o error estándar. Distribución de la población: Representa los espesores de todas las láminas de acero fabricadas por la compañía. Tiene: µ= media de la distribución. σ = desviación estándar de la distribución. Si, de alguna manera, pudiéramos tomar todas las muestras posibles de determinado tamaño en esta distribución de la población y calcular su media y desviación estándar, algunas de las posibles distribuciones podrían representarse gráficamente como sigue.
Distribuciones muéstrales de frecuencia: Estas son algunas de las posibles distribuciones muéstrales. Cada una es una distribución discreta y tiene: x = su propia media aritmética S = su propia desviación estándar
Ahora bien, si pudiéramos tomar las medias de todas las distribuciones muéstrales y producir una distribución de las mismas, la representación gráfica sería la que sigue a continuación. Distribución de muestreo de la media: Representa a todas las medias muéstrales y tiene µ x =media de la distribución muestral de las media σ x = error estándar de la media (desviación estándar de la distribución muestral de las medias) Valores característicos de la media a) El valor esperado de la media muestral es igual a la esperanza de la población de la cual se seleccionaron las muestras aleatorias. Resumen
Probabilidad y Estadísticas
Página 47 de 64 E ( X ) = µ
b) La desviación estándar de la media muestral es igual a la desviación estándar de la población, dividida por la raíz cuadrada del tamaño de la muestra. Sin reposición D( X ) = σ / n Con reposición D( X ) = σ /
n*
N − n N − 1
El incremento en el tamaño de la muestra conduce a una distribución de muestreo más normal. Teorema del límite central La relación existente entre la forma de la distribución de la población y la forma de la distribución muestral de la media recibe el nombre de teorema del límite central. Este teorema es, acaso, el más importante de todos en la Inferencia Estadística; garantiza que la distribución muestral de la media se acerque a la distribución normal a medida que crece el tamaño de la muestra. Los estadísticos recurren a la distribución normal como una aproximación de la distribución muestral siempre que el tamaño de la muestra sea 30, por lo menos, pero la distribución muestral de la media puede ser casi normal con las muestras que tengan incluso la mitad de ese tamaño. La importancia del teorema del límite central radica en que nos permite usar el estadístico muestral para hacer inferencias sobre los parámetros de la población, sin conocer nada sobre la forma de la distribución de probabilidades de esa población, salvo la información que logremos recabar de la muestra. Teorema del límite central Si x es la variable aleatoria que resulta al seleccionar muestras de tamaño n de una población cualquiera y calcular sus medias aritméticas, entonces la distribución de x es aproximadamente normal cuando n → ∞ , siendo: E ( X ) = µ y σ x = σ / n Donde µ es la esperanza de la población y σ es la desviación típica de la misma. Relación entre el tamaño de la muestra y el error estándar Conforme decrece el error estándar, aumenta la precisión con que la media muestral puede emplearse para estimar la media de la población. Un estadístico diría lo siguiente: "el aumento de la precisión no justifica el incremento adicional en el costo del muestreo". En términos estadísticos, rara vez conviene extraer muestras excesivamente grandes. Distribución en el muestreo de la proporción Con frecuencia, es necesario hacer una estimación de una proporción de población. Por ejemplo: la estimación del porcentaje de artículos defectuosos en un lote, el porcentaje de personas que miran un programa de TV, el porcentaje de personas desocupadas en un área geográfica determinada, etc. A la proporción de la población la designaremos con: π = k/N Siendo: k: el número de elementos que poseen el rasgo o característica en estudio. N: el número total de unidades de la población. El estadístico que generalmente se utiliza para estimar la proporción de la población es la proporción de la muestra: p = x/n Siendo: Resumen
Probabilidad y Estadísticas
Página 48 de 64
x: el número de unidades de la muestra que poseen la característica en estudio. n: el tamaño de la muestra. Muestreo con reposición Obedece a una ley de probabilidad binomial E ( p ) = π ( para los dos casos) σ p = [π (1 − π )] / n Muestreo sin reposición Obedece a una ley de probabilidad hipergeométrica. σ p = [π (1 − π )] / n * ( N − n ) /( N − 1) (por el factor de corrección de la población finita) Pero, si la muestra es pequeña con relación a la población (n < 5% de N), el factor de corrección se aproxima a 1 y puede calcularse σp sin él. Por lo tanto, para un n suficientemente grande, es válido el teorema central del límite, p ~ N(π, σp) donde Z = (p - π ) I σp ~ N(0,1) Regla empírica La aproximación normal es buena cuando n. π y n (1 - π) son > 5. Distribución en el muestreo de la variancia Si consideramos como variable aleatoria al estadístico S 2, nos interesa calcular su esperanza, o sea, E(S2). A S2 lo escribimos de la siguiente manera: S
2
∑ ( x − µ ) = i
Aplicando la esperanza
2
− n( x − µ )
2
n
= 1/ n
E ( S 2 ) = σ 2 − σ 2 / n = (n *σ 2 − σ 2 ) / n = [(n − 1) / n ]σ 2 2
2
∑ ( x − µ ) i
2
− n ( x − µ )
2
2
Vemos que E(S ) ≠σ . Para que S sea un buen estimador de σ2, más adelante veremos que uno de los requisitos que debe cumplir es que sea insesgado, o sea ⌢
( )
E θ = θ
Analizaremos esta situación en nuestra fórmula: a) Si n es grande (n > 30): Si n → ∞ ⇒ (n − 1) / n = 1 − 1/ n → 1∴ talque.E ( S 2 ) = σ 2 b) Si n es chico (n < 30), se haría necesario corregir el sesgo ya que: Si n → ∞ ⇒ (n − 1) / n = 1 − 1/ n → 1∴ talque.E ( S 2 ) = σ 2 Para corregir el sesgo, establecemos la siguiente fórmula: ∑ ( xi − x )2 2 E = σ n − 1
A la variancia así definida (es decir, con n - 1 en el denominador) la llamaremos variancia muestral corregida y la simbolizaremos S'2. En lugar de hallar la distribución muestral de S 2 o S'2, es conveniente hallar la distribución muestral de una variable aleatoria relacionada: n * S 2 ( n − 1) S ´2
σ 2
Que se distribuye como
2 n −1
Resumen
σ 2
Probabilidad y Estadísticas
Página 49 de 64
∑ ( x − µ )
2
i
2
σ
2
~
2 n
Pero, si en el cálculo de c no conocemos el valor de m, lo podemos estimar usando el promedio muestral, y nos queda: 1 2
σ
∑ ( x − x )
2
i
~
2 n −1
(*)
Los grados de libertad son n - 1 porque hemos impuesto la condición de que µ = x y, al imponer una condición, tenemos un grado de libertad menos. Haciendo: S 2
2
S´ =
∑ ( x − x ) =
2
⇒ n * S 2 = ∑ ( xi − x ) 2
i
∑
n ( xi − x ) 2 n −1
⇒ ( n − 1) * S´2 = ∑ ( xi − x )2
Y reemplazando en (*) nos queda:
n*S
2
2
σ
~
( n − 1) * S´2 2
σ
2 n −1
~
2 n −1
8. ESTIMACIÓN DE PARÁMETROS Cuando estimamos parámetros, hacemos inferencias respecto de las características de la población a partir de la información contenida en las muestras. Se pueden realizar dos tipos de estimaciones:
Realizamos una estimación puntual si, a partir de las observaciones de la muestra, se calcula un solo valor como estimación de un parámetro de población desconocido. Podemos advertir que una estimación puntual tiene como inconveniente que no nos da ningún margen de error y, por lo tanto, no podemos decir nada sobre la confiabilidad de la estimación. La estimación puntual es mucho más útil si se le agrega la información adicional de la estimación del error que puede haber. Esta información adicional nos la da el cálculo de un intervalo de confianza: La estimación por intervalo de confianza nos permite encontrar un intervalo que comprenda a un parámetro de una población, midiendo el error de dos formas: por la amplitud del intervalo y por la probabilidad de que el intervalo cubra al verdadero parámetro de la población. Estimación puntual Si, a partir de las observaciones de una muestra, se calcula un solo valor como estimación de un parámetro de población desconocido, el procedimiento se llama estimación puntual, ya que se utiliza como estimación un solo punto del conjunto de todos los posibles valores. Para poder utilizar la información que se tenga de la mejor manera posible, se necesita identificar los estadísticos que sean buenos estimadores. Hay cuatro propiedades que debe cumplir un buen estimador Resumen
Probabilidad y Estadísticas
Página 50 de 64
Estimador insesgado ⌢ θ estimador de θ es una variable aleatoria y, por lo tanto, tiene una distribución de probabilidad con su media y variancia. Entonces, se puede definir un estimador insesgado diciendo: ⌢ Si se utiliza un estadístico muestral θ para estimar el parámetro de población θ , se dice ⌢ ⌢ que θ es un estimador insesgado de θ si E (θ ) = θ O sea que, es de esperar que, si se toman muchas muestras de igual tamaño, a partir de la ⌢ misma población, y si de cada una se obtiene un valor de θ , la media de todos los valores ⌢ de θ ha de estar muy cerca de θ . Estimador eficiente Si se utilizan dos estadísticos como estimadores del mismo parámetro, entonces aquél cuya distribución muestral tenga menos error típico es un estimador más eficiente que el otro. El mas eficiente es el que tenga menor error típico. Conclusión: Es natural que un estimador con un error estándar menor (con menos variación) tenga mayores probabilidades de producir una estimación más cercana al parámetro que estamos queriendo estimar Estimador consistente ⌢ Si θ es un estimador muestral calculado a partir de una muestra de tamaño n y si θ es ⌢ el parámetro de población que se va a estimar, entonces θ es un estimador consistente de θ si para todo número positivo y arbitrariamente pequeño e se tiene: ⌢ P { θ − θ ≤ e } → 1 cuando n → ∞ ⌢
Es decir, la probabilidad de que θ esté a menos de cierta distancia e del parámetro θ tiende a 1 al tender n a infinito. Por ejemplo, se sabe que la media muestral y la variancia son estimadores consistentes. Pero, un estadístico muestral puede ser un estimador sin consistencia. Por ejemplo, si el valor de la primera observación, o la media entre la primera y última observación, de una muestra se utilizara para estimar la media de la población, tal estimador no sería consistente porque no tiende a acercarse más y más al valor de la población cuando se aumenta el tamaño de la muestra. Algunos autores llaman a esta propiedad congruencia del estimador. Estimador suficiente Un estimador suficiente del parámetro θ es el que agota toda la información pertinente sobre 6 que se pueda disponer en la muestra. La media muestral, la proporción muestral y la forma corregida de la variancia muestral son estadísticos que satisfacen los criterios o propiedades de "buenos" estimadores. En el siguiente cuadro presentamos un resumen de parámetros y estimadores puntuales: Población: P Parámetros
Muestra: M Estadísticos (estimadores
µ 2 σ σ π
x
S2 o S'2 S o S´´ P
Resumen
Probabilidad y Estadísticas
Página 51 de 64
Estimación por intervalos de confianza El procedimiento de determinar un intervalo [l i;ls] que comprenda a un parámetro de población θ con cierta probabilidad 1 - α se llama estimación por intervalo de confianza. Esta probabilidad indica, pues, la confianza que tenemos de que la estimación por intervalo comprenda al parámetro de la población; una probabilidad mayor significa más confianza en la estimación. Los niveles de confianza más utilizados son: 0.90, 0.95 y 0.99, es decir, 90, 95 y 99%. A (1 - α) se lo denomina el coeficiente o nivel de confianza de la estimación. Por lo que ya vimos en la distribución en el muestreo de la media, hay una probabilidad de aproximadamente el 95.50% de que la media de una muestra se encuentre dentro de dos errores estándares positivos y negativos de la media de la población.
Analizaremos intervalos de confianza para la media poblacional, la proporción poblacional y la variancia poblacional. Intervalo de confianza para la media poblacional n Distinguiremos diferentes casos según • La distribución de la población (si es normal o no). • La desviación típica de la población (si es conocida o no). • El tamaño de la muestra (si es pequeña o grande). 1) Si la población es normal y... a) ... σ es conocido El intervalo de confianza para µ es ( x − z1σ / n ; x + z1σ / n ) donde z1 = z1−α / 2 Colocaremos la variable, por ejemplo z, y como subíndice el área que ésta deja por debajo, por ejemplo zα es el valor de la variable tipificada normal que deja por debajo un área α, es decir, que la P (z ≤ zα) = α. Gráficamente:
Resumen
Probabilidad y Estadísticas
Página 52 de 64
Representando gráficamente la P {-z1< z < z1} = 1 - α, tenemos:
Luego, el intervalo para la media poblacional de una población normal con variancia conocida es: σ x z ± 1− α n 2 Corrección: En el caso en que las muestras se tomen sin reposición de una población finita de tamaño N, debe emplearse el factor de corrección finita y el intervalo será:
σ N − n σ N − n . ; x + z α . x − z1− α 1 − N N − − 1 1 n n 2 2 Tamaño óptimo de la Muestra: z.
σ n
=e
Donde z = z1−α / 2 ,
Determina el error del muestreo, nos indica la precisión de la estimación. Pero z depende del valor de α y, al hacer mayor el coeficiente de confianza 1 - α, el valor de z será mayor y, por lo tanto, el error e aumentará. Esto se puede regular aumentando el tamaño de la muestra, con lo que el error disminuirá. Si
z
σ n
=e⇒
n=z
2
n=
σ e
⇒
2
z .σ e
2
b) ... σ es desconocido Si o es desconocido, no podemos utilizar z = y lo reemplazamos por z =
x − µ
σ / n
x − µ
σ / n
Pero esta variable del denominador es diferente para cada media de la muestra. La distribución t de Student es adecuada para las inferencias relacionadas con la media cuando no se conoce σ y la población está normalmente distribuida, cualquiera fuese el tamaño de la muestra. Sin embargo, a medida que aumenta el tamaño de la muestra, la distribución t se acerca en su forma a la normal. (Una ~ t puede ser aproximada por una normal cuando n ≥ 30.) Luego, según sea el valor de n, tendremos dos casos diferentes: b1) Si a es desconocido y n > 30 Resumen
Probabilidad y Estadísticas
Página 53 de 64
Se utiliza la distribución normal como aproximación de t . Entonces, en este caso el intervalo de confianza para µ será: S S P x − z α x z µ ≤ ≤ + α = 1 − α − 1− 1 n n 2 2 b2) Si o es desconocido y n pequeño (generalmente < 30) Para estimar σ debemos utilizar el desvío estándar muestral corregido S´=
∑ ( x − x )
2
i
n −1
Por lo tanto, el intervalo de confianza para µ será:
S´ S´ P x − t α ≤ µ ≤ x + t α = 1 − α 1− 1 − n n 2 2 o bien:
S
n −1
P x − tn −1
≤ µ ≤ x + tn−1
= 1 − α − n 1 S
2) Si la población no es normal y... a) ... σ conocido, el intervalo de confianza para m será:
P x − z
σ
α
2 P x − t α 1− 2 1−
b)
σ
= 1 − α n n 2 σ σ ≤ µ ≤ x + t α = 1 − α − 1 n n 2 ≤ µ ≤ x + z
1−
α
si n >30 si n < 30
... σ desconocido y n > 30, el intervalo de confianza para µ será:
P x − z1
S n
≤ µ ≤ x + z1
S
= 1 − α , donde z1 = z1−α / 2 . Se utiliza el teorema central del
n
límite y Z como una aproximación de t. c) Cuando la muestra es pequeña y se supone que la población no está normalmente distribuida y σ es desconocido, no se puede utilizar ni la distribución normal ni la t de Student para construir un intervalo de confianza para µ, debiendo recurrirse en este caso a la desigualdad de Chebyshev para obtener una aproximación del intervalo de confianza. Intervalo de confianza para la proporción poblacional El procedimiento para estimar una proporción poblacional es similar al de estimar una media poblacional, o sea: a) Debemos encontrar la proporción de la muestra p, que es un estimador puntual de π y posee las propiedades de un buen estimador. b) Debemos calcular el error estándar de la proporción, o sea, σp.
Resumen
Probabilidad y Estadísticas
Página 54 de 64 σ p =
π (1 − π ) N − n .
n
σ p =
(Sin reposición)
N − 1
π (1 − π )
(Con reposición)
n
Pero si σp es desconocido y el muestreo es con reposición y, a su vez, depende de π, que es el parámetro que deseamos estimar, dicha expresión no nos sirve y debemos estimar σp a través de los valores muéstrales. S p =
p(1 − p) n
(Estimación insesgada cuando n es grande; n ≥ 30)
Cuando se hace muestreo sin reposición, el desvío estándar debe ser calculado con el factor de corrección finito: S p =
p(1 − p) N − n
N − 1
n
Debería tenerse en cuenta que, cuando Sp, una estimación puntual de σp, es usada para obtener una estimación del intervalo de una proporción poblacional Π, el tamaño de la muestra deberá ser suficientemente grande a fin de usar la distribución normal. De otro modo, deberá usarse la distribución binomial. Si n. Π y n(1- Π) > 5 se usa la distribución normal Intervalo de Confianza para Π: E ( p ) = π
y σ p =
π (1 − π ) n
Los límites de confianza para el caso de ser n suficientemente grande son: p (1 − p ) p (1 − p ) ; p + z1−α / 2 . p − z1−α / 2 . n n
Si el muestreo es sin reposición sobre una población finita de N elementos, entonces los límites de confianza para p resultan ser: p (1 − p ) N − n p (1 − p ) N − n . ; p + z1−α / 2 . . p − z1−α / 2 . n N n N − − 1 1
Determinación del Tamaño óptimo de Muestra e = z. σp determina el error de muestreo, o sea, la diferencia entre una proporción muestral p y la proporción poblacionalπ.Reemplazando, si σ p =
π (1 − π ) n
π (1 − π )
⇒ e = z.
n
⇒n=
z12−α / 2π (1 − π ) e
2
Cuando no tenemos a π usamos información del pasado y si no, suponemos π /2 Intervalo de confianza para la variancia poblacional Habíamos visto que: nS
2
2
σ
~ χ n2−1
Resumen
Probabilidad y Estadísticas
Página 55 de 64
Como 2 es una distribución asimétrica, entonces, para determinar su intervalo de confianza para σ2, fijado 1-α, debemos establecer la probabilidad siguiente: P {a ≤ χ n2−1 ≤ b} = 1 − α y después de operar y utilizar la tabla de χ 2 obtenemos: σ 2 1 . n S 1 n.S 2 ≤ ≤ 2 ≤σ ≤ 2 P 2 = P 2 = 1 − α χ χ χ χ α α 1−α ;n −1 n.S 1− α ; n−1 ; n −1 ; n −1 2 2 2 2 2
2
2
Observación: el intervalo de confianza del desvío poblacional es: 2 2 n.S n.S ≤σ ≤ P = 1 − α 2 2 χ χ α 1− α ;n −1 ;n −1 2 2
9. PRUEBA DE HIPÓTESIS Conceptos básicos de las pruebas de hipótesis En el procedimiento denominado prueba de hipótesis trataremos de determinar cuándo es razonable concluir, a partir del análisis de una muestra aleatoria, que la población entera posee determinada propiedad, y cuándo no es razonable llegar a tal conclusión. Tales decisiones se denominan decisiones estadísticas. Las desviaciones "grandes" se conocen como desviaciones significantes, ya que el hecho de que éstas ocurran significa que se necesita alguna otra razón que explique los resultados del muestreo. Una hipótesis estadística es una afirmación o conjetura acerca de una o más poblaciones. Pueden definirse como explicaciones tentativas del fenómeno investigado, formuladas a manera de proposiciones. La prueba de hipótesis estadística es el proceso que permite tomar una decisión con respecto a una hipótesis. Para que una hipótesis sea digna de tomarse en cuenta para la investigación científica deben existir técnicas adecuadas para probarla. Al formular una hipótesis, tenemos que analizar si existen técnicas o herramientas de la investigación (instrumentos para recolectar datos, diseños, análisis estadísticos o cualitativos, etc.) para poder verificarla, si es posible desarrollarlas y si se encuentran a nuestro alcance. Las dos hipótesis presentes en un proceso de toma de decisión se denominan hipótesis nula e hipótesis alternativa. Cuando estamos probando hipótesis acerca del valor de un parámetro, la hipótesis nula, por lo general, es una afirmación sobre un valor específico del parámetro. Ésta se denomina así porque es el "punto inicial" de la investigación (en su interpretación se suele decir "no hay diferencia con el valor supuesto del parámetro θ0", de ahí el nombre de hipótesis nula). Se simboliza con H0, La hipótesis alternativa es una afirmación que especifica que el parámetro de la población tiene un valor diferente al proporcionado en la hipótesis nula. Se simboliza con H1. Hipótesis estadística de estimación: Son diseñadas para evaluar la suposición de un investigador respecto al valor de algún parámetro de población. En este caso, se calcula un estadístico muestral (que estime correctamente al parámetro de población de nuestra hipótesis) y se compara el estadístico con el parámetro que propone la hipótesis. Resumen
Probabilidad y Estadísticas
Página 56 de 64
Hipótesis estadística de correlación: El sentido de estas hipótesis es el de traducir una correlación entre dos o más variables en términos estadísticos. Por ejemplo, si decimos: "quienes obtienen puntuaciones más altas en el examen de Algebra tienden a tener las puntuaciones más elevadas en el examen de Estadística". Esto ocurre en la correlación mas no en la relación de causalidad, en donde sí importa el orden de las variables. Hipótesis estadística de diferencia de parámetros: En este tipo de hipótesis se compara un mismo parámetro entre dos o más poblaciones. Es decir, un investigador tiene una suposición que luego convierte en hipótesis de investigación y, a continuación, en hipótesis estadística. Nosotros presentaremos en este texto solamente hipótesis estadísticas de estimación. Errores de decisión: errores tipo I y II Al tomar una decisión sobre una hipótesis, se pueden cometer dos tipos de errores: • Error tipo I: Es aquel que se comete cuando se rechaza una hipótesis que debería ser aceptada. La probabilidad de cometerlo se designa con α= P(EI) = P(Rechazar H0 /H0 es Verdadero). • Error tipo II: Es aquel que se comete cuando se acepta una hipótesis que debería ser rechazada. La probabilidad de cometerlo se designa con β = P(EII) = P(Aceptar H0 / H0 es Falsa). • Tengamos presente que, cuando se realizan tests de prueba estadísticos, estamos sacando conclusiones sobre una población basándonos en información extraída a partir de una muestra. Al error tipo I actualmente se lo llama falso positivo; ocurre cuando no existe realmente diferencia en el valor del estadístico que plantea la H 0. El error tipo II o falso negativo se comete cuando efectivamente hay diferencia en la población, pero el test estadístico de muestra no da significativo, llevando a una conclusión falsa de no efecto o no relación. Para explicarlo brevemente, un verdadero efecto permanece sin ser descubierto. La única forma de reducir al mismo tiempo ambos tipos de errores es incrementar el tamaño muestral. Si n es fijo: α decrece β crece (y viceversa) Si n crece: α y β decrecen. Llamamos nivel de significación, y lo denotaremos por a, a la probabilidad máxima con la que se puede cometer un error del tipo I en el ensayo de una hipótesis. En general se toma α = 0.01 o a = 0.05. El α máximo, cuando se permite que el valor crítico θO + c varíe, también se denomina extensión del test. Cuando se establece un procedimiento de prueba para investigar estadísticamente la factibilidad de una hipótesis enunciada, existen muchos factores que deben ser considerados. Aceptando que se ha hecho un enunciado claro del problema y que las hipótesis asociadas se han expresado en términos matemáticos, dichos factores son: a)La naturaleza del experimento que producirá los datos debe ser definida. Resumen
Probabilidad y Estadísticas
Página 57 de 64
b)La prueba estadística debe ser seleccionada. Esto es, el método para analizar los datos debe ser seleccionado. c)La naturaleza de la región crítica debe ser establecida. d)El tamaño de la región crítica (α) debe ser elegido. e)Cuando menos para un valor de θ, distinto del valor de θ especificado por H0, deberá asignársele un valor a β(θ). Esto es equivalente a establecer qué diferencia debe detectarse entre el valor supuesto del parámetro y el valor verdadero, y con qué probabilidad debemos confiar en detectarlo. f) El tamaño de la muestra (esto es, el número de veces que se efectuarán las observaciones o el número de observaciones) debe ser determinado. Clasificación de los ensayos o pruebas de hipótesis θ = θ1 →≠ θ 0 ..... Bilateral(a ) θ = θ1 →> θ 0 .....Unilateral..Derecha (b1 ) θ = θ1 →< θ 0 .....Unilateral..Izquierda (b2 )
Error tipo I y II La cantidad η= 1 - β se llama potencia del test sería la probabilidad de no cometer error tipo II. Podemos resumirlo en el siguiente cuadro:
En el gráfico anterior se observa claramente que, a medida que uno crece, el otro decrece. En la práctica se procede de la manera siguiente: primero se escoge α, luego determinamos c y por último calculamos β. Si b resulta tan grande como para que la potencia η= 1 - β sea pequeña, se debe repetir la prueba escogiendo un η mayor. Resumen
Probabilidad y Estadísticas
Página 58 de 64
Prueba de hipótesis para la media poblacional µ con σ conocida (n > 30; el teorema central del límite es válido) Se utilizan las fórmulas del apéndice para realizar los cálculos.
Pasos de un test de hipótesis
Se considera apropiado en este momento resumir los diferentes pasos a seguir en un procedimiento para prueba de hipótesis: a) Establecer la hipótesis nula H0 de que θ = θ0. b) Seleccionar una hipótesis alternativa apropiada H 1 de una de las alternativas posibles: θ < θ 0, θ > θ 0 o θ ≠ θo. c) Seleccionar un nivel de significación de tamaño α. d) Seleccionar el estadístico de prueba apropiado y establecer la región crítica. (Si la decisión se va a basar en un valor P no es necesario establecer la región crítica.) e) Calcular el valor del estadístico de prueba de los datos muéstrales. f) Decidir rechazar H0 si el estadístico de prueba tiene un valor en la región crítica (o si el valor calculado de P es menor o igual que el nivel de significación deseado α); de otra forma, no rechazar H 0. Prueba de hipótesis acerca de una proporción de población En este caso, nos interesamos en verificar un supuesto acerca de la proporción de éxitos en la población: 71. Luego, desearíamos probar la hipótesis Π = π 0 con la proporción de la muestra p como estadística de prueba.
Recordemos que: E ( p ) = π y σ p = La estadística de la prueba es z =
π (1 − π ) n p − π 0
σ p
∼
N (0,1)
Planteamos los tres casos como hicimos con la media poblacional. Y utilizamos las fórmulas del apéndice. Prueba de hipótesis acerca de la variancia de una población Utilizamos las fórmulas del apéndice
10. REGRESIÓN Y CORRELACIÓN. ASOCIACIÓN ENTRE VARIABLES MEDIDAS A NIVEL DE INTERVALO O DE RAZÓN Resumen Si de cada unidad estadística efectuamos dos mediciones entonces queda defini da una población bivariable. Resumen
Probabilidad y Estadísticas
Página 59 de 64
Dada una población bivariable (X;Y) pueden ocurrir tres casos al respecto: 1) Que no exista ninguna relación entre ellas. 2) Que exista una relación funcional entre ambas. 3) Que no exista una relación funcional entre X e Y, pero que sí podamos ver una cierta dependencia estadística (no matemática, es decir más débil) entre esas dos variables. En materia de predicción, a pesar de que los valores de Y pueden ser estimados mediante una línea de regresión a mano alzada, la precisión de nuestras predicciones es mejor si usamos una línea de regresión de mínimos cuadrados, definida como una línea que mejor ajusta los datos minimizando la variación en Y. Usando la fórmula que define la línea de regresión de mínimos cuadrados Y = a + b X. El coeficiente r de Pearson es una estadística que mide la asociación lineal entre X e Y. Podemos obtener mayor información sobre la asociación entre variables medidas en escala intervalar o de razón que para las variables medidas en escala norminal u ordinal. Introducción Para analizar las relaciones entre varias variables. Dispersiogramas o diagramas de dispersión En Excel: ASISTENTE PARA GRAFICOS XY DISPERSIÓN Los dispersiogramas o diagramas de dispersión son una técnica de representaciones gráficas que funcionan de una forma análoga a la de una tabla bivariada o de doble entrada, ya que permite al investigador tener una rápida percepción de importantes aspectos de la relación. Para construir el dispersiograma, comience dibujando un sistema de ejes coordenados. La variable X (variable independiente) sobre el eje de horizontal y la variable Y(esta última se supone que es la variable dependiente). Luego ubique sus puntos datos en el sistema de ejes coordenados dibujado. La relación (X;Y) se marca con puntos. El modelo de relación entre las variables puede verse más claro si dibujamos una línea recta tan cercana a los puntos cuanto sea posible. Esta línea de resumen que se ha dibujado en el diagrama de dispersión recibe el nombre de recta de regresión. Para comprobar la existencia de una relación recordemos que dos variables están asociadas si las distribuciones de Y cambian para las distintas condiciones de X. La existencia de una asociación es reforzada por el hecho de que la línea de regresión forma un ángulo no nulo con el eje X.Si estas dos variables no estuvieran asociadas, las distribuciones condicionales de Y no cambiarían y la recta de regresión sería paralela al eje X. La dirección de la relación puede verse observando el ángulo de la línea de regresión con respecto al eje X. Para simplificar las cosas y por falta de tiempo para desarrollar más contenidos en esta parte vamos a suponer que entre las variables existe una relación lineal. Los puntos observados en el dispersiograma deben formar un modelo que puede aproximarse mediante una línea recta. Regresión y predicción Un último uso del diagrama de dispersión es para predecir valores de casos en una variable a partir de su valor en la otra variable. Prolongando la línea de regresión podemos hacer esto: sobre el eje X se levanta una recta parelela al eje Y en el punto que queremos. Esta intersección entre la recta y la regresión da el valor de Y´. Resumen
Probabilidad y Estadísticas
Página 60 de 64
El valor predictivo en Y, que simbolizaremos Y´ para distinguir nuestras predicciones de Y de los valores observados de Y. Por supuesto que esta técnica para calcular Y' es limitada. La limitación más seria de esta técnica de predicción informal es que Y' puede cambiar de valor, dependiendo del grado de aproximación a los puntos que tenga la recta que dibujamos. Una forma de eliminar esta fuente de error podría ser encontrar la línea recta que mejor ajusta a los puntos observados y por lo tanto que mejor describe la relación entre las dos variables. Recordemos nuestro criterio para trazar la línea de regresión a mano alzada era que dicha línea toque todos los puntos o se acerque lo más posible a ellos. Dentro de la distribución condicional de Y, podemos buscar un punto en torno del cual la variación se minimiza. Este punto de mínima variación no es otro que la media de la distribución condicional de Y. Vimos que la media de cualquier distribución de datos es el punto en torno al cual la desviación de los valores, al cuadrado, es mínima.
∑ ( X
2
i
− X ) = Minimo
Luego, si se ajusta la línea de regresión, ésta pasa por cada una de las medias de las distribuciones condicionales de Y, con lo cual podemos tener una línea recta que sea lo más cercana posible a todos los valores. Una línea como esta minimizará las desviaciones de los valores de Y porque contendrá todas las medias condicionales de Y, y la media de cualquier distribución es el punto de variación mínima. Las medias condicionales se encuentran sumando todos los valores Y para cada valor de X y luego dividiendo por la cantidad de valores sumados. Ecuación de la recta
Y= a + bX
Donde: Y = valor en la variable dependiente a = ordenada al origen, punto donde la línea de regresión corta al eje Y b = la pendiente de la recta de regresión, es la cantidad de aumento que se produce en promedio en Y por una unidad de aumento en X X = valor de la variable independiente Esta fórmula describe la recta de regresión de "mínimos cuadrados", o la recta de regresión que mejor ajusta el modelo de los puntos datos. Esta fórmula introduce dos nuevos conceptos: 1. La ordenada al origen, Y, es el punto en el cual la recta de regresión corta al eje Y. 2. La pendiente b de la recta de regresión de mínimos cuadrados es la cantidad de cambio producido en la variable dependiente Y por una unidad de cambio en la variable independiente X. Piense en la pendiente de la recta de regresión como una medida del efeto de la variable X en la variable Y, A medida que el efecto de X en Y disminuye, disminuye la asociación entre las variables y el valor de la pendiente b disminuye. Si las dos variables no están relacionadas, la recta de regresión de mínimos cuadrados será paralela al eje de abcisas, y b será igual a 0, la recta no tendría pendiente. El cálculo de a y b b=
∑ ( X − X )(Y − Y ) ∑ ( X − X ) 2
El numerador de esta fórmula es proporcional a la llamada covariación de X e Y, la cual se expresa mediante la fórmula siguiente: COV ( X ;Y ) =
∑ ( X − X )(Y − Y )
Resumen
n
Probabilidad y Estadísticas
Página 61 de 64
Es una medida de cómo X e Y varían juntos, y su valor reflejará tanto la dirección como la fuerza de la relación entre ambas variables. En lugar de la fórmula de b anterior usaremos otra que es más accesible: b=
n
∑ XY − ( ∑ X )( ∑ Y ) n∑ ( X ) − ( ∑ X ) 2
2
donde: b = la pendiente n = número de casos ∑ X = la sumatoria de los valores de X ∑ XY = sumatoria de los productos cruzados ∑ Y = la sumatoria de los valores de Y ∑ X 2 = la sumatoria de los cuadrados de X Es fácil de aplicar si se utiliza una tabla con rótulos: X, Y, X2, Y2, XY En Cálculo Diferencial, b es La derivada de la íunción Y = a + b.X con respecto a X dY
La aproximación por incrementos nos da
dX ∆Y
Calculo de a
∆ X
=b
=b
a = Y − bX
Luego la ecuación completa de la recta de regresión en nuestro caso, resulta: Y = a + bX .Esta fórmula puede utilizarse para estimar o predecir valores en Y para cualquier valor dado de X. Podemos decir que cuanto más se ajusten los puntos a la recta de regresión de mínimos cuadrados, más seguros estaremos de nuestras predicciones de Y en Dicho en otras palabras, designar las variables como dependientes o independientes se refiere aquí al significado matemático o funcional de dependencia; no implica dependencia estadística ni esquema causa-efecto. Supuestos del modelo de regresión En regresión, una relación funcional no significa que, dado un valor de X, el valor de Y deba ser a + b. X, sino más bien que la esperanza matemática de Y es a + b.X. El más común de los modelos de regresión (el llamado modelo tipo I) está basado en cuatro supuestos: 1. La variable X se mide sin error. Por esto decimos que los valores de X son "fijos", o sea que la variable X es conocida por el observador. Esto significa que solamente Y, la variable dependiente, es una variable aleatoria. X no varía al azar sino que está bajo control del observador y por lo tanto es una variable estadística. 2.El valor esperado de Y para un determinado valor de X está descrito por la función lineal: µ y = α + β X
Esto equivale a suponer que la relación entre X e Y es lineal y que la esperanza matemática de los errores ei de las Yi es cero, o sea que: E( εi) = 0, para todo i. 3. Para cualquier valor dado xi, las observaciones Yi son variables aleatorias que se distribuyen independiente y normalmente. Es decir que el error aleatorio ei de cada Resumen
Probabilidad y Estadísticas
Página 62 de 64
observación Yi, es una variable aleatoria normalmente distribuida con esperanza matemática cero. En símbolos: εi ~ N(0;σ), E(εi, ε j)=0 4. La varianza de la distribución condicional de Y dado que X = x o, se representa por σY/X=x0 y se la llama directamente varianza de la distribución condicional de Y dado que X = x0. Se supone que esta medida es constante, cualquiera que sea el valor de X y es un valor al que representaremos directamente por σ2Y/X, llamándola varianza de la regresión. Esta propiedad se llama a veces homoscedasticidad. El coeficiente de correlación r de Pearson Como una medida de la asociación entre dos variables de razón o de intervalo, los investigadores casi exclusivamente confían en una medida llamada r de Pearson o coeficiente de correlación. El coeficiente de Pearson varía entre -1 y +1. 0 indica que no hay asociación, +1 indica una relación perfecta positiva y -1 indica una relación perfecta negativa. La fórmula de cálculo de r es la siguiente:
∑ ( X − X )(Y − Y ) ∑ ( X − X ) . ∑ (Y − Y )
r =
2
2
Observe que el numerador de esta fórmula es proporcional a la covariación de X e Y , como ocurría en la fórmula de b. Para simplificar los cálculos preferimos la fórmula siguiente: r =
∑ XY − ∑ X ∑ Y − ( ∑ X ) ) − ( n∑ Y − ( ∑ Y ) ) n
( n∑ X
2
2
Este valor indica una relación moderada positiva entre las variables. Interpretación del coeficiente de determinación r 2 El coeficiente r no nos permite una interpretación integral de los valores que se encuentran entre -1 y +1. Podemos realizar una interpretación más directa, afortunadamente, calculando el llamado coeficiente de determinación, que no es más que r 2. Recordemos el concepto del principio de variación mínima, expresado como:
∑ (Y − Y )
2
= Minimo
Si predecimos la media de Y para cada caso, cometeremos la menor cantidad de errores de predicción que si predecimos cualquier otro valor de Y Concretamente, se pueden encontrar dos sumatorias diferentes y luego comparar con la variación total para construir un estadístico que indique el cambio en la predicción. La primera suma, llamada la variación explicada, representa la mejoría en nuestra habilidad para predecir Y cuando X es tenida en cuenta Variación Explicada:
∑ (Y ´−Y )
2
Luego el resultado puede ser comparado con la variación total en Y, expresada por la Variación Total
∑ (Y − Y )
2
A medida que una de estas sumas aumenta en valor, la otra disminuye. Esta comparación mejora nuestra habilidad para predecir Y a partir del conocimiento de X. Matemáticamente lo mostramos así:
Resumen
Probabilidad y Estadísticas 2
r
Página 63 de 64 (Y ´−Y ) variación explicada / variación total = ∑ ∑ (Y − Y )
2
=
2
r2 indica en qué medida el conocimiento de X nos ayuda a predecir o entender o explicar a Y. La proporción de variación total en Y que no es explicada por X se puede encontrar restando el valor de r2 de 1. Es decir que dicha expresión representa la llamada variación residual, resultando: Variación residual = 1 – r 2. La variación no explicada normalmente es atribuida a la influencia de la combinación de otras variables, a la medida del error, y los cambios aleatorios. Como usted podrá ver, la variación explicada y no explicada guardan una relación reciprocada cada una con la otra. Cuanto más fuerte es la relación lineal entre X e Y, cuanto mayor es el valor de la variación explicada, menor es la variación no explicada. En el caso de una relación perfecta (r = +1 o r = -1), la variación no explicada será igual a 0 y r2 = 1. Esto indica que X explica toda la variación en Y y que podemos predecir Y a partir de X sin error. Por otra parte, cuando X e Y no están relacionadas linealmente (r = 0), la variación explicada será igual a 0 y r 2 será 0 también. El test de significatividad de Pearson para r Cuando la relación medida por el coeficiente r de Pearson está basada en datos que provienen de una muestra aleatoria, se deberá probar la significatividad estadística de r. El parámetro poblacional es simbolizado por ρ (rho), y la distribución de muestreo apropiada es la distribución t- de Student. Para realizar este test, debemos realizar algunas suposiciones: 1. Debemos suponer que ambas variables tienen distribución normal. 2. La relación entre las dos variables es lineal en cuento a su forma. 3. Homoscedasticidad, significa que la variancia de Y es uniforme para todos los valores de X. Luego realizaremos el test de significatividad en 5 pasos: Paso 1: Suposiciones • Muestra aleatoria • Nivel de medición intervalar o de razón • Distribución bivariada normal • Relación lineal entre X e Y • Homoscedasticidad • Distribución en el muestreo normal Paso 2: Fijando la hipótesis nula H 0: ρ =0 contra H1: ρ 0 Paso 3: Seleccionando la distribución en el muestreo y estableciendo la región crítica Suponiendo la hipótesis nula de no relación en la población, la distribución en el muestreo de todas las muestras posibles de r es aproximada por la distribución t de Student. El número de grados de libertad es (n-2) Tomando α = 0.05, resulta t(crítico) = ± 2.228 Paso 4: Realizando el test estadístico t(obtenido) =
Resumen
r
n−2 2
1 − r