Módulo Autoformativo
JOSÉ MIGUEL CUBILLOS MUNCA
Escuela Superior de Administración Pública Programa de Administración Pública Territorial
FUNDAMENTACIÓN
E stadistica 1
Núcleo
Estadistica 1
Unidad 2 Población, Muestra y Variable
31
2
32
Población, Muestra y Variable
Estadistica 1 OBJETIVOS
*
El estudiante estará en capacidad de identificar dentro de un problema social, las variables internas y externas que lo afectan.
*
El estudiante podrá delimitar la población y la muestra necesarias para abordar un problema de investigación.
INTRODUCCIÓN Aunque para muchos autores los conceptos de población, muestra y variable se limitan a unos renglones o en el mejor de los casos a una hoja, en este módulo se les ha dedicado todo un capítulo, ya que la claridad en su determinación es primordial para lograr un trabajo estadístico consistente. Muchos esfuerzos investigativos fracasan cuando no se ha delimitado claramente la población o cuando se ha tomado una muestra que no resulta adecuada para el propósito a indagar o que no responde al tamaño u otras características de la población. Además, cuando pretendemos estudiar las ciencias sociales como en nuestro caso, nos encontramos con el hecho de que las fórmulas son insuficientes para determinar los tamaños de las muestras adecuados, y además con que las variables de tipo cuantitativo y ordinal resultan insuficientes e incluso inadecuadas para estudiar algunos fenómenos. El hecho de la medición, exige mucha claridad conceptual, ya que no se limita a la cuantificación de datos sino que exige determinar el tipo de variable que será útil para el propósito investigativo. Hay que tener en cuenta hechos como que el investigador que realiza la medición no es un simple observador sino que puede influir en el comportamiento del objeto observado. Las investigaciones de tipo etnográfico y de investigación- acción son muy críticas en este aspecto. Para iniciar esa discusión se ha agregado un texto complementario que aborda un poco la epistemología de la medición. Al igual que en capítulo anterior se pretende que el estudiante haga la lectura y el trabajo propuesto en forma autónoma y que lleve los resultados a discusión en la sesión de grupo. Dependiendo de la organización de las horas de tutoría, se podrían trabajas los dos capítulos en el mismo encuentro.
33
2
34
Población, Muestra y Variable
Estadistica 1 Población, Muestra y Variable En trabajos de descripción, explicación o predicción, cualquiera que sea la fuente de los datos y cualquiera que sea el nivel crítico de nuestro trabajo afirmamos, generalizamos, extendemos a toda una población los resultados de una muestra. Aún en los juicios que hacemos en nuestra vida diaria acerca de personas, grupos humanos, efectos de programas, salud pública, delincuencia, drogadicción, clientelismo, violencia, etc., sólo contamos con una muestra aveces de tamaño muy pequeño. De ahí muchos errores de juicio. Los trabajos que incluyen todos los componentes de una población, no una muestra de ella, se llaman censos. Por razones de tiempo, costo y confiabilidad los censos se sustituyen por muestras. La razón de ser de las muestras se basa en el razonamiento de tipo inductivo, según el cual, a partir de casos podemos inferir la norma general, además, salvo las excepciones triviales, las cosas no se comportan de forma caótica sino que tienden a un orden. Por ello, cuando estamos frente a fenómenos demasiado multiformes, numerosos, extensos e inaccesibles, nos podemos conformar con las muestras. * ¿Como tiene un médico la seguridad de que el medicamento que prescribe va a resultar efectivo en su paciente? ¿el medicamento ya ha sido probado con todas las personas? Y cuando es un medicamento nuevo, que ya se experimentó en animales, y aunque ello no implica con total certeza que funcionará en personas, tampoco pudo ser probado en todos los animales. Comente con sus compañeros y escriba las conclusiones.
Una población de estudio está determinada por sus características definitorias. Por lo tanto, el conjunto de elementos que posea esta característica se denomina población o universo. Población de la investigación o de estudio es la totalidad del fenómeno a estudiar, donde las unidades de población poseen una característica común, la que se estudia y da origen a la población de datos de la investigación. Por ejemplo, si se quiere de terminar cual es el nivel de ingreso promedio de los habitantes de un municipio, tendremos una población de estudio que son las personas en edad y capacidad de trabajar, y una población de datos que serán los montos de los ingresos de cada persona de la población de estudio. De estas personas seleccionamos un grupo al cual le registraremos el monto de sus ingresos, obteniendo entonces una muestra. Entonces, una población es el conjunto de todas las cosas que concuerdan con una serie determinada de especificaciones. Cuando seleccionamos algunos elementos con la intención de averiguar algo sobre una población determinada, nos referimos a este grupo de elementos como muestra. Por supuesto, esperamos que lo que averiguamos en la muestra sea cierto para la población en su conjunto. La exactitud de la información recolectada depende en gran manera de la forma en que fue seleccionada la muestra.
Población de estudio es el conjunto de todos los entes a los cuales se les pueden aplicar las conclusiones de la investigación. Población de datos es el conjunto de las mediciones de una caracterís-tica en cada elemento de la población de estudio.
35
2
Población, Muestra y Variable
Cuando no es posible medir cada uno de los individuos de una población, se toma una muestra representativa de la misma. La muestra descansa en el principio de que las partes representan al todo y, por tal, refleja las características que definen la población de la que fue extraída, lo cual nos indica que es representativa. Por lo tanto, la validez de la generalización depende de la validez y tamaño de la muestra. Si usted desea saber mucho más... Leyes del método de muestreo. El método de muestreo se basa en ciertas leyes que le otorgan su fundamento científico, las cuales son: Ley de los grandes números: si en una prueba, la probabilidad de un acontecimiento o suceso es P, y si éste se repite una gran cantidad de veces, la relación entre las veces que se produce el suceso y la cantidad total de pruebas (es decir, la frecuencia F del suceso) tiende a acercarse cada vez más a la probabilidad P. Cálculo de probabilidades: La probabilidad de un hecho o suceso es la relación entre el número de casos favorables (p) a este hecho con la cantidad de casos posibles, suponiendo que todos los casos son igualmente posibles. El método de establecer la probabilidad es lo que se denomina cálculo de probabilidad. De estas dos leyes fundamentales de la estadística, se infieren aquellas que sirven de base más directamente al método de muestreo: * *
*
Ley de la regularidad estadística: un conjunto de n unidades tomadas al azar de un conjunto N, es casi seguro que tenga las características del grupo más grande. Ley de la inercia de los grandes números: esta ley es contraria a la anterior. Se refiere al hecho de que en la mayoría de los fenómenos, cuando una parte varía en una dirección, es probable que una parte igual del mismo grupo, varíe en dirección opuesta. Ley de la permanencia de los números pequeños: si una muestra suficientemente grande es representativa de la población, una segunda muestra de igual magnitud deberá ser semejante a la primera; y, si en la primera muestra se encuentran pocos individuos con características raras, es de esperar encontrar igual proporción en la segunda muestra.
Tipos de muestras. Muestreo aleatorio simple: la forma más común de obtener una muestra es la selección al azar, es decir, cada uno de los individuos de una población tiene la misma posibilidad de ser elegido. Si no se cumple este requisito, se dice que la muestra es viciada. Para tener la seguridad de que la muestra aleatoria no es viciada, debe emplearse para su constitución una tabla de números aleatorios.
36
Estadistica 1 Muestreo estratificado: una muestra es estratificada cuando los elementos de la muestra son proporcionales a su presencia en la población. La presencia de un elemento en un estrato excluye su presencia en otro. Para este tipo de muestreo, se divide a la población en varios grupos o estratos con el fin de dar representatividad a los distintos factores que integran el universo de estudio. Para la selección de los elementos o unidades representantes, se utiliza el método de muestreo aleatorio. Muestreo por cuotas: se divide a la población en estratos o categorías, y se asigna una cuota para las diferentes categorías y, a juicio del investigador, se selecciona las unidades de muestreo. La muestra debe ser proporcional a la población, y en ella deberán tenerse en cuenta las diferentes categorías. El muestreo por cuotas se presta a distorsiones, al quedar a criterio del investigador la selección de las categorías. Muestreo intencionado: también recibe el nombre de sesgado. El investigador selecciona los elementos que a su juicio son representativos, lo que exige un conocimiento previo de la población que se investiga. Muestreo mixto: se combinan diversos tipos de muestreo. Por ejemplo: se puede seleccionar las unidades de la muestra en forma aleatoria y después aplicar el muestreo por cuotas. Muestreo tipo: la muestra tipo (Master Simple) es una aplicación combinada y especial de los tipos de muestra existentes. Consiste en seleccionar una muestra «para ser usada» al disponer de tiempo, la muestra se establece empleando procedimientos sofisticados; y una vez establecida, constituirá el módulo general del cual se extraerá la muestra definitiva conforme a la necesidad específica de cada investigación.
Existen algunos requisitos que debe cumplir la muestra para que sea de utilidad, lo cual hace más relevante el tipo de muestreo, el tamaño y el procedimiento para recoger el dato. Por ello debemos dar respuesta a los siguientes interrogantes: ¿la manera de obtener la información es la más adecuada? ¿Los datos que tomamos si se refieren a la característica que se mide? ¿Es la muestra representativa de la población? ¿Se puede confiar plenamente en el dato? ¿Es aleatoria la muestra?.
Nos debemos asegurar que el ente que genera la información no la altere a voluntad por disimular alguna falencia personal o de grupo, por esnobismo, orgullo, prejuicio, tendencia a dar respuestas agradables y a responder lo que se considera aceptable por el grupo social. Ejemplo, si le preguntamos a una dama por el número de vestidos que hay en su armario, probablemente tenderá a aumentar el número. Si se indaga a una persona acerca de cuantas cervezas se tomó el ultimo día que salió de rumba, para determinar el promedio de consumo de cerveza por persona, tal vez esta tienda a decir que tomo mucho menos. El ejemplo más típico es el del ingreso, ya que es una tendencia muy generalizada el mentir acerca del nivel de ingresos.
37
2
Población, Muestra y Variable
Respecto a la representatividad de la muestra se debe considerar tanto el número como lo exhaustiva que sea, es decir que represente a todos los grupos de la población de estudio. Por ejemplo, no es representativa una muestra de 30 estudiantes para determinar la preferencia por las carreras universitarias en Colombia: No es representativa por el número. No es representativa una encuesta de preferencia electoral para presidente de la república en Colombia, aplicada telefónicamente, ya que se estaría excluyendo un grupo considerable de la población como es la mayoría de la rural y la urbana marginal que no tienen servicio telefónico.
La aleatoriedad busca evitar el sesgo de la muestra. Aleatorio significa al azar, es decir que cada elemento de la población tiene la misma probabilidad de ser incluido dentro de la muestra. Por ejemplo, cuando se pretende determinar la preferencia por el color del automóvil y para tomar la muestra recogemos la información del color de 200 autos particulares que pasan el lunes a las 10 AM por el puente de Matatigres al sur de Bogotá D.C., no es aleatoria, por que los autos de personas que nunca se movilizan por el sur no tendrían la misma probabilidad de ser tomados dentro de la muestra.
LAS VARIABLES Una vez que alcanzamos un conocimiento relativamente amplio del tema que se va a investigar, debemos dedicarnos a aislar, dentro del problema, los factores más importantes que en él intervienen. Por ejemplo: si se trata de un problema de comercialización, los aspectos fundamentales que deberemos estudiar serán la oferta y la demanda, las motivaciones del consumidor, la distribución, la publicidad y otros factores semejantes. Gracias a estos factores, estaremos en condiciones de construir el marco teórico dentro del que se inserta el fenómeno de nuestro interés. En aquellos casos en que sea posible llegar a un grado de aislamiento de los factores involucrados en el problema, resulta útil realizar un esquema de variables que nos permitirá organizar mejor nuestro marco teórico. Se pueden definir como todo aquello que vamos a medir, controlar y estudiar en una investigación o estudio. Por lo tanto, es importante, antes de iniciar una investigación, que sepamos cuáles son las variables que vamos a medir y la manera en que lo haremos. Es decir, las variables deben ser susceptibles de medición.
38
Variable es cualquier característica o cualidad de la realidad que es susceptible de asumir diferentes valores, ya sea cuantitativa o cualitativamente. Las variables pueden ser definidas conceptual y operacionalmente. La definición conceptual es de índole teórica, mientras que la operacional nos da las bases de medición y la definición de los indicadores. Es decir, que puede variar. Aunque para un objeto determinado pueda tener un valor fijo. Por ejemplo: una mesa; no puede ser, en sí, una variable. Pero, si nos referimos a la altura de una mesa, estamos en presencia de una variable. O sea, que esa cualidad de la mesa (la altura) puede asumir diferentes valores. No quiere decir que la altura de una mesa determinada deba variar, sino que el concepto genérico «altura de una mesa» puede variar de un caso a otro. Las variaciones pueden también producirse para un mismo objeto, y no sólo entre diferentes objetos. Por ejemplo: el caudal de un río.
Estadistica 1 El tiempo es siempre considerado una variable. También podemos decir que una variable es todo aquello que vamos a medir, controlar y estudiar en una investigación o estudio. Las variables pueden ser definidas conceptual y operacionalmente. Además de la definición de variables que aparece a continuación, complementaremos con una discusión que se presenta en la lectura complementaria del capítulo acerca de la medición. Para definir las variables, nos podemos basar en los indicadores, que constituyen el conjunto de actividades o características propias de un concepto. Por ejemplo, si hablamos de inteligencia, podemos decir que está compuesta por una serie de factores como la capacidad verbal, capacidad de abstracción, etc. Cada factor puede ser medido a través de indicadores. En otras palabras, los indicadores son algo específico y concreto que representan algo más abstracto o difícil de precisar. No todos los indicadores tienen el mismo valor. Es decir, aunque haya varios indicadores para un mismo fenómeno, habrá algunos más importantes que otros, y por lo general cualquier indicador que se tenga está basado en una probabilidad de que realmente represente al fenómeno.
Algunos criterios para escoger los indicadores: Se debe tener el menor número de indicadores de una variable, siempre y cuando éstos sean realmente representativos de la misma. Se deben poseer formas de medición específicas para cada indicador. Hay que tener en cuenta que los indicadores sólo poseen una relación de probabilidad con respecto a la variable. En la práctica, muchas de las características que nos interesan estudiar no son tan simples... Resulta muy sencillo medir y comparar la variable «cantidad de hijos que posee una persona», pero nos enfrentamos con una dificultad mayor si pretendemos conocer el «rendimiento de un estudiante». Cuando nos hallamos frente a variables complejas que resumen o integran una multiplicidad de aspectos diversos, debemos recurrir a subdividir o descomponer la variable en cualidades más simples y fáciles de medir. A estas sub - cualidades que en conjunto integran la variable se las denomina dimensiones de la misma. Dimensión es un componente significativo de una variable, que posee una relativa autonomía. Así, el patriarcalismo de una sociedad es una síntesis de un cierto tipo de organización familiar, determinados va-
39
2
Población, Muestra y Variable
lores individuales y pautas definidas de organización económica. Un ejemplo más simple: el tamaño de un objeto está determinado por su altura, largo y ancho. Cuando hablamos de «relativa autonomía», hacemos referencia a que las dimensiones pueden presentar diferentes valores unas de otras, pero siempre dentro de ciertos límites de congruencia. Si el largo de un objeto se modificara al variar su altura, no estaríamos en presencia de dos dimensiones de una misma variable, sino frente a dos variables diferentes, una de las cuales influye sobre la otra. Una misma cualidad puede considerarse como una variable en sí o como una dimensión de una variable mayor, según el enfoque y los propósitos que guíen cada investigación, pues se trata de definiciones de carácter instrumental que el científico realiza de acuerdo con la naturaleza del problema planteado. Si nos interesa conocer y distinguir a las personas de acuerdo a su nivel socio - económico, podemos descomponer esta variable en dos dimensiones: el nivel social y el nivel económico. Pero, si estamos estudiando el ingreso de las familias, debemos manejar el concepto «nivel económico» como una variable en sí y nos veremos en la necesidad de descomponerla en algunas de las dimensiones que la integran. Una calidad intervienen como variable en una investigación cuando nos es útil relacionarla como un todo con otra u otras variables. En cambio, debemos tomarla sólo como una dimensión cuando su sentido como cualidad aislada sea poco significante y deba agruparse con otras cualidades para poder ser relevante. Cada una de las variables y dimensiones que hemos aislado debe ser definida con la mayor rigurosidad posible, asignándole un sentido unívoco y claro para evitar que se originen ambigüedades, distorsiones e innecesarias discusiones sobre la terminología.
40
Clases de variables. Cualitativas. Sobre ellas no se construye una serie numérica. Por ejemplo: colores. Cuantitativas. Admiten una escala numérica de medición. Ejemplo: el índice de inflación. Categóricas. Tienen la característica de que todos los miembros de una categoría se consideran iguales en lo que se refiere a esa variable. Por ejemplo: las mujeres. Estas variables se subdividen en nominales y ordinales. Nominales. Los valores que pueden asumir sirven para clasificarlos pero no para ordenarlos. Ejemplo: Nombre del Barrio. En caso de usarse números, sólo se adoptan como nombres o identificaciones. Ordinales. Los valores que puede asumir la variable son categorías que conllevan un juicio de valor que exige comparar a los diferentes elementos de la muestra con respecto a esta variable con el objeto de establecer un orden. Es decir que los datos se organizan a través de las relaciones de igualdad, mayor o menor.
Estadistica 1 Medidas. Se pueden asignar numerales a las personas u objetos basándose en que poseen cantidades de alguna característica o propiedad. Experimentales o manipuladas. Cuando los investigadores establecen condiciones experimentales, crean o producen variables. Luego de haber precisado los factores que intervienen en un problema, de haberlos definido y analizado hasta determinar el tipo de condicionamiento que los une, habremos obtenido un conjunto de variables relacionadas entre sí de una cierta manera. Debemos entonces organizar estas relaciones observadas de modo tal que podamos construir un esquema coherente que exprese el cuadro general del problema. Una variable independiente es aquella que, dentro de la relación establecida, no depende de ninguna otra, aunque pudiera estar dependiente si estudiáramos otro problema. Son las condiciones manipuladas por el investigador a fin de producir ciertos efectos. La variable independiente es aquella propiedad de un fenómeno a la que se le va a evaluar su capacidad para influir, incidir o afectar a otras variables. La variable independiente por manipulación es la que el investigador aplica según su criterio, se hace en estudios de carácter experimental. Todo aquello que el experimentador manipula, debido a que cree que existe una relación entre ésta y la variable dependiente. La variable independiente asignada o seleccionada es la que el investigador no puede modificar, no es manipulable, pero se desea saber si influye sobre la variable dependiente.
La variable dependiente puede ser definida como los cambios sufridos por los sujetos como consecuencia de la manipulación de la variable independiente por parte del experimentador. Por ejemplo, si el investigador sostiene la hipótesis de que si administra una determinada droga a un grupo de niños, el grado de aprendizaje de éstos se incrementará. En este caso, la variable independiente estará representada por la droga manipulada por el experimentador, y la variable dependiente será el grado de aprendizaje de los niños. Al hablar de variables independientes y dependientes, debemos tener cuidado de no caer en el error de afirmar que la variable dependiente es causada por la variable independiente. A este tipo de conclusiones se puede llegar en muy contadas situaciones. En ciencias sociales, es conveniente hablar de relaciones entre variables, y no de causas. Una variable es interviniente cuando resulta un factor que interviene entre dos variables modificando o alterando con su propio contenido las relaciones que existen entre esos dos elementos. Por ejemplo: Variable A: alimentación que se recibe en la infancia (variable independiente). Variable B: nivel de inteligencia posterior de la persona (variable dependiente). Variable C: nivel socio - económico (variable interviniente que influye a A). Conviene analizar si la variable interviniente aparece a partir de la variable independiente, es decir, es posterior a ella y con anterioridad a la variable independiente, o si actúa como factor concerniente en la relación de variables. Es normal que una variable no sólo afecte a otra más, sino a varias simultáneamente, así como que una variable dependiente sea influida por dos, tres o más variables independientes.
41
2
Población, Muestra y Variable
Además de estas tres posiciones básicas que las variables pueden adoptar al relacionarse entre sí, existe una cuarta posibilidad que se refiere a las dos características del universo que ejercen una influencia de tipo difuso y general sobre todo el conjunto de los hechos considerados. Las variables contextuales indican el ámbito general donde se desarrollan los fenómenos que se estudian. Por ejemplo: los valores presentes en una sociedad, el tipo de estructura económica. La variable antecedente es la que se supone como «antecedente» de otra. Ejemplo: para realizar el aprendizaje se supone un grado mínimo de inteligencia. Por lo tanto, la variable inteligencia es antecedente de la variable aprendizaje. Una variable continua es aquella que puede asumir cualquier valor numérico y que puede cambiar en cualquier cantidad. Entre uno y otro valor existen infinitas posibilidades intermedias. Por ejemplo: la altura de una persona, el peso de un objeto, el rendimiento de un estudiante. Una variable discreta es aquella que tiene valores numéricos enteros previamente establecidos, los cuales no pueden cambiarse arbitrariamente. Cuando estas posiciones intermedias carecen de sentido, pues la variable se modifica de «a saltos» entre un valor y otro, y no en forma paulatina. Por ejemplo: la cantidad de hijos que puede tener una persona, el número de países que intervienen en una conferencia. Sin embargo, sí tiene sentido, y se emplea usualmente, calcular promedios sobre estas variables. Un caso particular de las variables discretas, es la variable dicotómica, que es aquella que sólo admite dos posibilidades: muerto/vivo; hombre/mujer. Las variables inter son aquellas que estudian simultáneamente varios grupos de sujetos. Las comparaciones se establecen entre (inter) los grupos. Las variables intra son aquellas que pueden estudiar al mismo grupo en diferentes
42
períodos. O sea, las comparaciones se establecen dentro de un mismo grupo. Las variables extrañas son todas aquellas que el investigador no controla directamente, pero que pueden influir en el resultado de su investigación. Deben ser controladas, hasta donde sea posible, para asegurarnos de que los resultados se deben al manejo que el investigador hace de la variable independiente, más no a variables extrañas, no controladas. En otras palabras, una variable extraña es una independiente no relacionada con el propósito del estudio, pero que puede presentar efectos sobre la variable dependiente. Por tal razón, un estudio bien diseñado es aquel que nos asegura que el efecto sobre la variable dependiente sólo puede atribuirse a la variable independiente y no a variables extrañas. Ejemplo: si deseamos evaluar el efecto de determinado método de enseñanza, podemos considerar que la inteligencia es una variable extraña. Otro ejemplo: si parte de la investigación consiste en la aplicación de pruebas psicológicas, y en el momento de la aplicación hay mucho ruido o se corta la luz, estas alteraciones pueden considerarse como variables extrañas.
Estadistica 1
Si usted desea saber un poco más revise esto... Algunos métodos para realizar el control de variables son los siguientes: Eliminación. Cuando sabemos que existe una variable extraña que puede alterar los resultados de la investigación, podemos controlarla mediante la eliminación. Constancia de condiciones. Si, por ejemplo, en un estudio experimental deseamos estudiar dos o más grupos de sujetos, éstos se deben someter exactamente a las mismas condiciones, tanto físicas como de lugar, manteniendo, de esta manera, constantes las circunstancias bajo las cuales se investiga. Balanceo. Cuando tenemos una variable extraña puede influir de manera definitiva en nuestro estudio y, si no la podemos eliminar ni igualar las condiciones de los grupos, deberemos recurrir al balanceo. Este mecanismo distribuye en forma equitativa la presencia de la variable extraña entre los grupos. Contrabalanceo. En algunas investigaciones se pide a los sujetos que respondan varias veces a un mismo estímulo o a varios estímulos diferentes. Esta serie de respuestas puede provocar en los mismos dos reacciones: por un lado, fatiga, porque los sujetos se cansan de estar respondiendo; por otro lado, aprendizaje, ya que después de presentar 2 o 3 veces el mismo estímulo el sujeto ya sabe cómo responder. Para evitar estos problemas, los grupos se pueden subdividir en subgrupos para que los efectos de la fatiga y/o aprendizaje queden anulados. Aleatorización. Este método de control es uno de los más sencillos y más utilizados en ciencias sociales, sobre todo cuando se llevan a cabo estudios experimentales. Se parte del postulado de que si la selección y distribución de sujetos en grupos de control fueron hechas al azar, podemos inferir que las variables extrañas, desconocidas por el investigador, se habrán repartido también al azar en ambos grupos, y así quedarán igualadas.
43
2
Población, Muestra y Variable
Lectura Complementaria.4 “Un Aporte a la Discusión sobre el Status Metodológico de las Variables y Escalas de Medición Introducción La ciencia moderna trajo consigo la observación sistemática, y con ella la medición. La medición en este contexto se transformó en una herramienta que, en algunos sentidos, adquirió suficiente trascendencia como para dirimir lo que era científico de lo que no lo era. Fue tal vez el positivismo el movimiento filosófico que más fuertemente estimuló y defendió el acto de observar, y en consecuencia de medir, como manera de deslindar el conocimiento científico de la metafísica. Así, las ciencias sociales, apegadas en sus inicios a los métodos etnográficos, esencialmente cualitativos, se orientaron en la búsqueda de técnicas y procedimientos que les posibilitaran la medición y, por ende, el estatuto de verdadera ciencia. La medición se transforma así en un acto propio de la ciencia, en detrimento de la reflexión u otras formas de producción de conocimiento. No obstante, surgen dificultades de la ciencia positiva para la resolución de nuevos emergentes, las que traen consigo discusiones y debates acerca del lugar que le cabe a la medición. El presente trabajo tiene por objeto aportar algunos elementos de juicio que contribuyan al esclarecimiento del concepto de medición y, desde allí, a la discusión sobre la naturaleza de las variables y sus escalas. La Naturaleza de la Medición Definir el acto de medir trae no pocas dificultades. Así, para Galtung (1965) la medición es un proceso de clasificación de unidades de análisis según alguna característica elegida; en tanto que Carmines y Zeller (1979) la definen como un
44
proceso de vincular conceptos abstractos con indicadores empíricos, proceso que supone una previa planificación de operaciones, tanto de clasificación como de cuantificación. En ambas definiciones se pondera el acto clasificatorio como la operación sine qua non de la medición. Para Hempel (1979) la asignación de clases como acto lógico, significa dividir un conjunto o clase de objetos en subclases. Los objetos clasificables constituyen los elementos o miembros del conjunto, en tanto que el universo del discurso es el conjunto mismo. Si bien las clasificaciones más elementales refieren a objetos concretos, también son susceptibles de clasificación las entidades abstractas. La pregunta que cabe ante esta afirmación de Hempel es, cómo se puede dar cuenta de objetos inobservables, o cómo no caer en cuestiones metafísicas. Como respuesta posible se puede invocar a Carmines y Zeller (1979) cuando dicen que medir implica vinculación de elementos inobservables, los conceptos, con elementos obser-
4
Aníbal R. Bar. Maestría en Epistemología y Metodología de la Investigación. Facultad de Humanidades. Universidad Nacional del Nordeste 3500 Resistencia (Chaco) República Argentina. Publicado en Cinta de Moebio No. 7. Marzo 2000. Facultad de Ciencias Sociales. Universidad de Chile. http://rehue.csociales.uchile.cl/publicaciones/ moebio/07/frames03.htm
Estadistica 1 vables, los indicadores empíricos. Dicho de otro modo, siendo que las leyes y conceptos no son estructuras posibles de medida en forma directa, sí lo son sus manifestaciones. Hasta qué punto las manifestaciones del fenómeno «muestran» lo que prescriben sus leyes es una cuestión que suscita continuos debates no sólo en el plano de la epistemología, sino en el de la propia disciplina. Otras concepciones refieren a qué tipo de cosa es lo que se mide. Así, Russell (1938), la significa como un método que permite establecer correspondencias entre magnitudes de un mismo género, y ciertas clases de números (integrales, racionales o reales). Campbell (1938) supone que medir es asignar numerales a las propiedades de los sistemas materiales según las leyes que presiden esos atributos. Stevens (1951) concibe el acto de medir como la atribución de numerales a los objetos o sucesos conforme con leyes o reglas. En las dos primeras definiciones la medición se centra en operaciones sobre las variables, en tanto que en la de Stevens, al igual que la de Galtung, sobre las unidades de análisis. Independientemente del concepto de medición, dicho acto sólo es posible a través de la operacionalización de las variables. Al respecto dice Hempel (1979), que para que los principios del operacionalismo permitan las construcciones teóricas de la ciencia excluyendo aquellas sin significado experiencial, deberá caracterizarse con precisión el tipo de oraciones que pueden usarse para dar cuenta de sentidos posibles de los términos no observacionales significativos sobre la base del vocabulario observacional. Hempel supone que esto propendería a una especificación de los conceptos y procedimientos lógico-matemáticos y evitaría la noción psicologista de operación mental. De todas maneras, la convención sigue siendo la única forma de asumir cuáles son las operaciones válidas y cómo deberán de interpretarse los resultados de los tests.
Samaja (1993), concibe a los indicadores como procedimientos aplicados a ciertas dimensiones relevantes de variables con el objetivo de realizar la medición. En este concepto aparecen nuevamente los dos elementos citados por Carmines y Zeller (1979), los conceptos y los indicadores empíricos, pero a diferencia de estos últimos, no asimila el indicador empírico con la dimensión observable. Samaja no concibe la presencia de dimensiones observables, sino dimensiones o conceptos inobservables a los cuales los procedimientos los tornan en tal. Posiblemente el diseño de dichos procedimientos se realiza en la planificación de operaciones previas a que aluden Carmines y Zeller en su definición. Las Escalas y los Niveles de Medición Se ha dicho que la medición, según distintas concepciones, se realiza sobre las unidades de análisis o sobre las variables, pero, es esta última la que posibilita la división en clases, ya que la primera es constante. Tanto para las escalas cualitativas como cuantitativas existen operaciones clasificatorias, o sea ubicación de las unidades de análisis en clases. Por ejemplo, dada una población puede decirse cuáles de los individuos son solteros, casados, divorciados o cualquiera otra categoría de la variable «estado civil». Para las mismas personas también se pueden estimar los valores, agrupados por intervalos de, estatura, peso, nivel de ingresos, o cualquiera otra variables expresada en cantidades.
45
2
Población, Muestra y Variable
Como se advierte en los ejemplos citados, la clasificación es un acto propio de la medición. Ahora bien, ambos casos difieren en los modos en que se manifiesta la variable. En el caso de «estado civil», el acto queda restringido a clasificar las unidades de análisis que muestran tal o cual característica; en los demás casos se puede estimar objetivamente no sólo la presencia o ausencia de determinado atributo, sino también la intensidad con que la propiedad se manifiesta, propiedad que se asume en cantidades. Entre las formas de clasificar variables por referencia al tipo de escala o nivel de medición, se hallan aquellas basadas en criterios de calidad-cantidad. No existe acuerdo pleno entre los autores acerca de las categorías de dicho sistema. Así, Bancroft (1976) y Cortada de Kohan (1994), conciben variables cualitativas, cuantitativas discretas y cuantitativas continuas. Incluyen entre las primeras a las que pueden ser divididas en clases separadas, mutuamente excluyentes; diferenciando éstas en dos categorías, sin ordenamiento o con él. Ambos autores consideran a las escalas como cuantitativas cuando éstas se expresan numéricamente, y cuando dicha expresión numérica no refiere sólo a orden. Estas escalas son discretas cuando sus valores asumen números enteros, y continuas cuando pueden tener cualquier valor en un ámbito finito de valores continuos. Lison (1976), no refiere directamente a variables, pero sí a clases de datos (escalas). Distingue tres clases de datos, de medición, de enumeración y de seriación. Define a los primeros como determinaciones cuantitativas acerca de propiedades susceptibles de variar de manera continua. El autor afirma que los datos de enumeración resultan de contar individuos y que dicha operación debe desarrollarse necesariamente por unidades discretas. Por último, concibe a los datos de seriación como observaciones en la que los objetos son clasificados por orden de mérito, sin que puedan darse valores exactos para el criterio adoptado.
46
Esta última clasificación no incluye a las variables discretas entre las de naturaleza cuantitativa. Lison las concibe en clases de datos diferentes, datos de medición, las cuantitativas continuas, y datos de enumeración, las discretas. Si se analiza los trabajos de Bancroft y Cortada de Kohan, se observa que ambos autores indican las mismas clases de gráficos para representar variables cualitativas y discretas. Formas de representación coincidentes no constituyen una casualidad, sino un rasgo común que debiera indagarse. Contar y medir no significan lo mismo, en tanto que lo primero alude al acto de determinar frecuencias en que se presentan ciertas unidades de análisis de un nivel inferior; lo segundo refiere a variaciones cuantitativas de las propiedades. Lo que aquí se sostiene es que las variables discretas no son variables cuantitativas y que operan en diferentes niveles de integración modificándose sólo en su dimensión numérica. Un ejemplo podría ser el que se cita a continuación, para la unidad de análisis «individuo», las variables que lo describen podrían ser, «estatura», «sexo», y «número de glóbulos rojos por mililitro de sangre». La variable «estatura» es cuantitativa y se expresa en escalas continuas de centímetros o metros; la variable «sexo» es cualitativa y se muestra en alguna de sus dos categorías, masculino o femenino.
Estadistica 1 Según Samaja (1993), las variables del nivel de anclaje pueden comportarse como unidades de análisis de nivel subunitario; esto es que tanto «estatura» como «sexo», podrán transformarse, previa entificación y objetivación en unidades de análisis. Por ejemplo el concepto de sexo (variable) podría transformarse en órganos sexuales o conducta sexual observable (unidades de análisis); o estatura (variable), en registro de estaturas (unidad de análisis). Lo que ocurre con la variable «número de glóbulos rojos por mililitro de sangre» es distinto; dicho atributo se convertiría, en el nivel subunitario, en «glóbulos rojos». En las dos primeras variables debió resignificarse el sentido a los efectos de la objetivación, en tanto que en la tercera se asumió una diferencia de mero número. Cuando se elabora una tabla de frecuencias para cualquier variable, se «introduce» sin advertirse, una nueva variable, esto es el número de veces que se presenta cierta unidad de análisis. Esta variable que puede describir tanto al nivel de anclaje, como a entidades de nivel superior (nivel supraunitario), es más ni menos, una variable discreta. En las variables discretas se cuenta dos veces, una, cuando se obtiene el número de veces con que se presenta el elemento al que refiere la variable, y otra cuando se cuentan las unidades de análisis. Resumidamente, puede decirse que las variables discretas son frecuencias de unidades de análisis cuya única propiedad común es justamente el número de veces que cierto objeto se presenta, independientemente de su naturaleza. Según Bateson (1997), el número es diferente que la cantidad, y esta diferencia es básica para cualquier clase de teorización en ciencias de la conducta. Para este autor, los números son el producto del recuento, y las cantida-
des el producto de la medición. Argumenta diciendo que se puede tener exactamente tres tomates, pero jamás podrá tenerse exactamente tres litros de agua, pues la cantidad es siempre aproximada. Bateson reconoce que los números más pequeños no se obtienen por recuento sino por reconocimiento de una pauta general, como por ejemplo los dígitos del sistema decimal; y que la percepción de esa pauta es holística. Diferencia así el número de la cantidad, a la que asimila con el mundo analógico y probabilístico.
El Número como Nombre, Orden o Medida Para Cohen y Nagel (1979), los números pueden tener por lo menos tres usos distintos, como rótulos o marcas de identificación; como signos que indican la posición de un grado en una serie de grados; o como signos que indican las relaciones cuantitativas entre cualidades. De lo dicho se desprende que sólo la última de las acepciones relaciona el número con la medición. Esta forma de concebir los números conduce a una clasificación de variables o escalas en función de los atributos que presenta una serie numérica. Dichos atributos son, el orden, la distancia y el origen. Las escalas nominales carecen de todas estas propiedades, y en este caso el número sólo puede adoptarse como nombre o identificación.
47
2
Población, Muestra y Variable
Las escalas ordinales, como su nombre lo indica, sólo poseen orden, es decir que organizan sus datos a través de las relaciones de igualdad, mayor o menor. Las escalas interválicas poseen atributos de orden, y distancia o estimación precisa de las unidades. Pero carecen de origen, o cero natural, o ausencia de la propiedad. No obstante estas escalas acuden a la utilización del cero convencional. Las escalas proporcionales o racionales son las únicas que cuentan con las tres propiedades y, por lo tanto, se constituyen en verdaderas series numéricas. Las dos últimas clases de escalas son las que realmente miden, no obstante, al carecer las interválicas de cero natural, no pueden establecerse proporciones. A menudo, datos provenientes de escalas ordinales numéricas son tratados como si fuera información verdaderamente cuantitativa, lo que constituye una falacia, pues no miden, aunque sí clasifican. En este caso se encuadran los tests psicométricos, los cuales únicamente pueden estimar el orden de puntuación, pero nunca la distancia entre dos valores. Con mucha frecuencia, las puntuaciones de dichos tests reciben tratamiento de variables interválicas y, consecuentemente, el cálculo de medidas de tendencia central y dispersión, además de otras operaciones derivadas de ellas. Dichas operaciones no son válidas por cuanto asignan a las escalas un status que en realidad no tienen. Otras veces, las puntuaciones «sirven» a ciertos tests como son los de correlación y regresión. Al respecto, dice Gould (1988), «...gran parte de la fascinación de las estadísticas radica en nuestro sentimiento visceral de que las medidas abstractas que resumen amplios cuadros de datos tienen que expresar algo más real y más fundamental que los
48
datos mismos. La técnica de correlación se ha prestado particularmente a ese tipo de abuso porque parece proporcionar una vía para hacer inferencias sobre la causalidad». Gould (1988) sostiene que el análisis factorial, una de las técnicas utilizadas en el campo de la psicología, a pesar de ser de un instrumento matemático, se inventó en un determinado contexto social y respondiendo a claros objetivos. Utilizar dicha técnica es asumir que el intelecto es una entidad física localizada en el cerebro, y que puede medirse como un valor numérico específico posibilitando clasificaciones unilineales de las personas en virtud de la «cantidad» que cada cual posea del mismo.
Estadistica 1 Conclusión Los conceptos de medición analizados dejan ver divergencias acerca de qué es lo que se mide; algunos autores aluden a que dicha operación se realiza sobre los atributos (variables), en tanto que otros, sobre los objetos (unidades de análisis). Los objetos como constantes que son en su naturaleza, no son medibles, sí, sus propiedades. Se puede ejemplificar diciendo que si las unidades de análisis son viviendas, todas ellas tienen en común una cierta estructura que las identifica como viviendas, y no otra cosa; en tanto que sus atributos: ubicación en el espacio, materiales que la constituyen, altura, etc. pueden mostrar diferencias de una vivienda a otra. Los objetos si bien no pueden ser medidos, sí pueden ser contados. En este sentido, las viviendas emplazadas en un barrio o ciudad podrán ser contadas, o bien, inferido su número. Si contar no es medir, entonces, las definiciones de Russell (1938), y Campbell (1938) sobre medición, parecen más apropiadas. Según se ha desarrollado aquí, el uso de escalas de medición involucra tres procesos diferentes, clasificar, contar y medir. Lo que aquí se ha llamado conteo y medición no son más que operaciones derivadas de la primera acción clasificatoria. En ambas situaciones, los valores de variables se expresarán numéricamente, aunque en un caso sólo se aludirá a frecuencias, y en la otra a variación cuantitativa de propiedades. Las discusiones sostenidas aportan a la idea de que las variables discretas constituyen un tipo de entidad diferente de las variables cualitativas y cuantitativas, aunque muestras propiedades de unas y otras.
El uso de variables discretas implica, primero, diferenciar las unidades de análisis a contar, de aquellas que también constituyen parte del universo del discurso, lo que supone una operación de clasificación, para luego proceder a la obtención de frecuencias. Se asemejan a las variables cualitativas en cuanto a que sus categorías se construyen sobre la presencia de ciertos atributos, sin ponderación cuantitativa de los mismos. Se parecen a las variables cuantitativas (proporcionales) en cuanto parecen poseer las tres propiedades de las series numéricas, orden, distancia y origen; aunque en lo que hace a la distancia, las variables discretas sólo asumen números enteros, pues la acción de contar se fundamenta en las propiedades de los números naturales. Esta diferencia es fundamental, ya que la presencia de números en las escalas discretas no se relaciona con intensidad de propiedades, sino con operaciones de enumeración. En lo concerniente a qué clase de propiedad es una variables discreta, puede decirse que aunque expresada como variable refiere a una unidad de análisis en tanto que da cuenta de algo constante como entidad. Lo que lo hace ser variable reside sólo en el número o frecuencia de aparición de la entidad significada. Finalmente si la recurrencia al uso de escalas, a los efectos de medir, implica una relación de isomorfismo entre la naturaleza lógica del sistema numérico y la estructura que se manifiesta en las propiedades que se miden; deberá de tenerse en cuenta que la escala construida al efecto deberá dar cabal cuenta de dicha relación isomórfica. Dicho de otro modo, deberá tenerse presente que la medición, en sentido estricto, sólo es lícita cuando es posible asimilar la variación de la propiedad con la variación cuantitativa.
49
2
Población, Muestra y Variable
Bibliografía
50
*
Bancroft H. 1976. Introducción a la bioestadística. Eudeba. Bs. As.
*
Bateson G. 1997. Espíritu y naturaleza. Amorrortu. Bs As.
*
Cohen M. y Nagel E. 1979. Introducción a la lógica y al método científico II. Amorrortu. Bs As.
*
Cortada de Kohan. 1994. Diseño estadístico. Para investigadores de las Ciencias Sociales y de la Conducta. Eudeba. Bs. As.
*
Gould S. J. 1988. La falsa medida del hombre. Orbis. Hispamérica. Bs. As.
*
Hempel C. 1979. La explicación científica. Estudios sobre filosofía de la ciencia. Paidos. Bs. As.
*
Lison L. 1976. Estadística aplicada a la biología experimental. Eudeba. Bs. As.
*
Samaja J. 1993. Epistemología y Metodología. Elementos para una teoría de la investigación científica. Eudeba. Bs. As.”
Estadistica 1 PROBLEMAS PROPUESTOS 1. En la situación expresada en la siguiente lectura encuentre las variables que intervinieron y clasifíquelas de acuerdo con todas las categorías estudiadas:
Ordenamiento territorial: el debate nacional Por: José Antonio Sánchez (Fragmento del artículo publicado en el Espectador el 31 de Julio de 2001 ...Los mismos gobernadores han criticado el enfoque del proyecto gubernamental. Guillermo Gaviria Correa, gobernador de Antioquia y presidente de la Federación de gobernadores, sostuvo que “es triste decirlo pero, a pesar de lo que se pregona y de las bondades que indudablemente tiene el proyecto, es quizás el más centralista de los casi once que se han presentado”. Si la suerte está del lado de los gobernadores y el Congreso aprueba el proyecto, podrían surgir nuevas dudas sobre la viabilidad que tendrían estos nuevos escenarios del ordenamiento territorial en el país. Jaime Castro se pregunta si el Gobierno central estaría dispuesto a “hacer nuevas transferencias a las regiones” para sostenerlas. “Tampoco es pensable que los departamentos cedan algunas de sus rentas a las regiones”, añade el ex constituyente liberal. Mucho menos, dice Castro, se podría exigir a los colombianos el pago de nuevos impuestos para financiar a las regiones. Conclusión: “No hay que hacerse ilusiones de que el proyecto va a ser el remedio para los problemas regionales del país, hay que ser realistas, requerimos un nuevo modelo de ordenamiento territorial”.
Orlando Fals Borda, el otro constituyente experto en el tema, señala el camino más expedito para fortalecer la autonomía regional. “No se necesita la ley orgánica de ordenamiento territorial, sino la aplicación inmediata del Artículo 306 de la Constitución Nacional”. Fals Borda insiste que con la suscripción de un protocolo entre los gobernadores de varios departamentos se pueden crear las Regiones Administrativas de Planeación (RAP), lo que sostuvo la semana pasada durante el encuentro de Regiones y Provincias que se realizó en Ibagué, pero este esfuerzo es sólo el comienzo. Los gobernadores de sur ven cómo el Gobierno central prepara una reforma de la Ley 60 que define las competencias de los entes territoriales y cómo sus reclamos de acabar con los institutos descentralizados (Sena, ICBF, Inurbe) para trasladar estas funciones a las regiones y exigir la creación de nuevos impuestos regionales, no producen mayor eco en Bogotá. Entonces, ¿cuál es la autonomía que están alcanzando? El mismo gobernador del Tolima, Guillermo Alfonso Jaramillo, el impulsor de esta idea de descentralización, reconoce que aún falta mucho para madurar la idea. “Hay que dilucidar un poco más en qué estamos de acuerdo”, dijo el mandatario durante el acto de clausura del encuentro de provincias. Incluso en la declaración final de este evento los gobernadores del sur se juegan dos cartas. La primera, insistir en su idea de conformar una re-
51
2
Población, Muestra y Variable
gión administrativa y de planificación con la adopción de un plan de desarrollo regional. Y la segunda, pese a las críticas, insistir en la aprobación de la ley de ordenamiento territorial, pero con un amplio consenso. Quizá la autonomía para estos seis departamentos aún esté en proceso de maduración. Por lo pronto, los mandatarios del sur recuperaron una herramienta que tenían extraviada sus antecesores: el poder de interlocución ante el Gobierno central. Por lo menos eso demostraron al obligar al Gobierno a escuchar sus quejas sobre el proceso de fumigación de cultivos ilícitos. Su interlocución podría ser clave en escenarios como la Comunidad Europea, donde están dispuestos a respaldar los programas de carácter social como los que quieren desarrollar en sus regiones. Entre tanto, la autonomía regional seguirá en veremos en Colombia. Mientras persiste el tira y afloje entre el Gobierno, la clase política anidada en el Congreso y los mandatarios regionales por el tema del ordenamiento territorial, Colombia podría estar perdiendo una oportunidad para desenredar el proceso de paz. Así lo estimaron varios expertos que acudieron a Ibagué a trabajar en el tema de la descentralización y la autonomía regional. “La reforma regional es una de las clases de la guerra y la paz”, dijo Jaime Castro. El ex constituyente aseguró que el poder actual no es suficiente para reinsertar a la guerrilla. “No hay cama pa tanta gente”, aseguró. Por eso, sostuvo que es necesario crear nuevos espacios en las regiones, en los que la guerrilla pueda participar en un futuro, cuando se firme un pacto de paz. Germán Jiménez, del Colegio de Estudios de Quirama, que defiende la idea de un Estado federal en Colombia, estimó que este esquema de ordenamiento territorial “podría ser útil en el marco de un acuerdo general con la guerrilla”. “Habría ciertas regiones en las que la guerrilla podría acceder a las gobernaciones. Valdría la pena intentar soluciones que le den relevancia a la guerrilla”, dijo Jiménez.
52
El experto coincidió que Colombia no puede llegar a un nivel intermedio de descentralización como el que asumió el estado español. “O se es una cosa o se es otra. Ponerse a inventar un nivel intermedio de autonomía regional es irrelevante”. Jiménez insistió en la adopción de un auténtico sistema federal. De hecho, en el segundo semestre de 1998, el Eln lanzó la propuesta de conformar unos cantones en Colombia en los que ellos, los guerrilleros, pudieran tener injerencia en los asuntos políticos-administrativos. La idea causó revuelo y el rechazo del establecimiento. Un año antes, en 1997, las Farc exigieron al Gobierno del entonces presidente Ernesto Samper la desmilitarización de 13.161 kilómetros cuadrados en el departamento de Caquetá para entregar a los soldados que habían sido secuestrados o tomados como prisioneros de guerra en la toma a la base militar de Las Delicias (30 de agosto de 1996). La experiencia se repitió después. El mismo grupo guerrillero exigió una zona desmilitarizada, de 42.000 kilómetros cuadrados en el Caguán, como condición para entablar las negociaciones de paz.
Estadistica 1
2.
Clasifique los siguientes items en variables y constantes, en el primer caso diga de cual tipo son:
* * *
Color de uniforme Intensidad de la luz de la luna Número de candidatos a la alcaldía de Bogotá en 1999 Altura de un árbol Velocidad de la luz
* * * *
* * * * *
El diámetro de la luna La inflación en U.S.A. Los volúmenes de EDA en los municipios de Colombia Las tasas de empleo Las clases de empleo
* *
La inflación en Colombia en enero de 2001.
π
* * *
Indice de inflación Indice de mortalidad infantil en Guatemala a junio de 2001. Altura de la torre Eifel Duración del vuelo Bogotá – Miami Nombre de los estudiantes
3.
Establezca la diferencia entre variable, dimensión e indicador.
4.
Tome un artículo del periódico, tome de él las variables que intervienen en el asunto descrito y clasifíquelas. A partir del mismo artículo ejemplifique los conceptos de indicador y dimensión de una variable.
5.
Para cada uno de los siguientes tipos de variable, escriba tres ejemplos diferentes relacionados con su carrera.
* * *
Edad de los estudiantes Número de pasajeros por día Número de países de América
Continua
Discreta
Inter
Intra
Cualitativa
Cuantitativa
Nominal
Ordinal
Categórica
53
2
Población, Muestra y Variable
6.
Diga que variables extrañas podrían afectar el siguiente trabajo:
El Instituto SINCHI esta desarrolla una investigación sobre Aspectos sociales del desarrollo humano sostenible de Caquetá y Putumayo Se busca caracterizar los asentamientos humanos (cabeceras municipales y áreas rurales) de los departamentos de Caquetá y Putumayo, desde las dimensiones social, económica, política y de organización e integración funcional del espacio, como punto de referencia para la planeación y la toma de decisiones sobre su ordenamiento y desarrollo.
7.
De las variables que aparecen en el siguiente caso, cual puede considerarse como extraña:
Se desarrolla una investigación sobre las causas y consecuencias sociales de la exclusión social como resultado de la raza o el origen étnico, y el alcance de las políticas y programas disponibles para combatirla; para descifrar las causas, costos y posibles soluciones destinadas a resolver el problema de la exclusión social por raza u origen étnico. El estudio agrupa datos de hogares relativos a los ingresos de los trabajadores, el capital humano y las características de las fuentes de empleo con series de tiempo sobre proporción de alumnos/profesor por estado durante 1960/2000. Esa información se utiliza para investigar la función de la raza, los antecedentes y diferencias familiares tanto en cantidad como calidad de la educación y sus resultados en el mercado en lo que se refiere a desigualdad entre blancos y afrocolombianos. Las conclusiones preliminares sugieren que la considerable ventaja de los blancos en la cantidad y calidad de la educación que reciben en comparación con los afrocolombianos explica gran parte la desigualdad en los ingresos sobre una base racial, lo cual también tiene una influencia importante en la desventaja intergeneracional de los afrocolombianos en lo que se refiere a capital humano. También se encuentra que los patrones de heterogeneidad en los resultados educacionales que son congruentes con el color de la piel desempeñan un papel importante en el acceso a fuentes de empleo mejor remuneradas y están condicionados a las características observadas del trabajador. El descenso en el nivel de empleo ha agravado también el problema.
54
8.
En los datos recolectados el ejercicio anterior, se acordó que 1 significaba ser negro o mulato, 2 ser blanco, 3 ser mestizo, 4 indígena y 5 otros. ¿La variable raza en este caso es cuantitativa por que los valores que toma son números?. Explique.
9.
Para cada variable que escribió en el ejercicio 5, diga otra clase a la que también pertenezca cada una.
10.
Construya un mapa conceptual acerca de la interdependencia entre variables.
11.
Elabore un cuadro sinóptico en el que se anoten de manera sucinta las características de cada tipo de muestra.
Estadistica 1 12.
Con la información del ejercicio No. 1. Si se quiere investigar la intención de voto de los congresistas acerca del proyecto de ley de ordenamiento territorial con el fin de poder decir algo con respecto a la posible viabilidad de la iniciativa, ¿Describa la población de estudio? ¿Cuál sería la población de datos? ¿Cuál sería la muestra a tomar y como se recolectaría?
13.
Con la información del ejercicio No. 1. Suponga que usted va a investigar cual es la opinión de las clases dirigentes del orden departamental y municipal acerca de la constitución o no de regiones administrativas y de planificación. Diga cuales serían:
* * *
La población de estudio La población de datos La muestra con base en la cual se va analizar el problema
14.
Al final del mismo texto se plantea la problemática referente al papel de la reforma del ordenamiento territorial frente al proceso de paz. Léalo nuevamente y:
* * * *
Defina un problema de investigación ¿Que elementos se tendrían en cuenta para la investigación? Plantee las hipótesis sobre los elementos relevantes ¿Cómo definiría una muestra para estudiar el problema y de que forma la recolectaría?
15.
Calificar las siguientes muestras entre aleatorias y sesgadas, dando la explicación correspondiente.
*
Población de estudio: Asistentes al encuentro de provincias. Objetivo del estudio: Determinar la preferencia entre dos cartas que según la lectura del ejercicio No. 1., se estaban jugando los gobernadores. Técnica de muestreo: Se interceptaron y encuestaron los 8 primeros asistentes que salieron del evento.
*
Población de estudio: Residentes en Bogotá D.C. Objetivo: Estimar la calificación que se da a la prestación del servicio de telefonía local para determinar cual es el operador que satisface más al cliente. Técnica de muestreo: En una cola de usuarios que se disponen a pagar la factura del servicio telefónico en un banco situado en un centro comercial durante un día, se hacen 2 preguntas a cada uno.
*
Población de estudio: Habitantes de Barranquilla entre 12 y 25 años. Objetivo: estimar los niveles de drogadicción entre la población adolescente y joven. Técnica de muestreo: se escogen al azar 5 personas de cada barrio que estén dentro del rango de edad y se les hace llenar un cuestionario escrito.
*
Población de estudio: Residentes mujeres en Bogotá D.C. Objetivo: estimar el nivel de popularidad del alcalde mayor dentro de la población femenina. Técnica de muestreo: Un encuesta
55
2
Población, Muestra y Variable
dor se ubicó en la entrada de un centro comercial, haciendo tres preguntas a una de cada cuatro mujeres que pasaba. Se repite el experimento durante ocho días en diferentes centros comerciales. *
Población de estudio: Habitantes del barrio X. Objetivo: Determinar cuales son las necesidades mas sentidas en el barrio para establecer luego un plan de desarrollo barrial que se pueda incluir dentro del municipal. Técnica de muestreo: Se aplica una encuesta de 10 preguntas a una persona adulta por cada casa esquinera del barrio.
16. A partir de la lectura complementaria y de su indagación personal haga un escrito de una página con sus conclusiones sobre la pregunta ¿Hasta qué punto las manifestaciones del fenómeno «muestran» lo que prescriben sus leyes?.
PROBLEMAS RESUELTOS 1.
Clasifique las siguientes variables a) b) c) d) e) f) g) h) i) j) k) l) m) n) o)
Número de habitaciones por casa Tipo de piso de la vivienda Precio por apartamento Combustible usado para cocina Área de locales comerciales Impuestos recaudados por año Tipo de gobierno Estratos socioeconómicos Peso de un adulto El ingreso familiar Marca de auto usado Tiempo de experiencia laboral en años y meses Número de llamadas telefónicas que se hacen en una línea por semana Numero de hijos por familia Barriles de petróleo bombeados por día
SOLUCIÓN. a) Discreta, ordinal, cuantitativa; b) nominal, cualitativa; c) discreta, ordinal, cuantitativa; d) continua, ordinal, cuantitativa; e) continua, ordinal, cuantitativa; f) continua, ordinal, cuantitativa; g) categórica nominal, cualitativa; h) categórica nominal, cualitativa; i) continua, ordinal, cuantitativa; j) discreta, ordinal, cuantitativa; k) categórica nominal, cualitativa; l) Discreta, ordinal, cuantitativa; m) discreta, ordinal, cuantitativa; n) discreta, ordinal, cuantitativa; o) continua, ordinal, cuantitativa.
56
Estadistica 1 2.
Se realiza un estudio sobre la edad promedio de las personas que entran a los casinos en Medellín en un año determinado. ¿Cuál es la población de estudio? ¿Cuáles son las variables de interés y de que tipo son? ¿Cuál es la población de datos? ¿Cuál sería una muestra adecuada para el propósito y como se recogería?
SOLUCIÓN. La población de estudio son todos las personas que asisten a los casinos de Medellín durante el año respectivo; la variable de interés es la edad la cual es discreta si se toma en años cumplidos, ordinal y cuantitativa; la población de datos es el conjunto de los valores de las edades de todos los miembros de la población de estudio. Una muestra, podría ser el escoger al azar 30 casinos de manera tal que se tomen de las diversas zonas de la ciudad. En cada uno de estos se ubicará un encuestador que a la salida verificará la edad en la cédula de 20 clientes que salgan después de haber participado en algún juego, así se tendrá una muestra con las edades de 600 personas. 3. * * * *
Para cada una de las siguientes características diga si es constante o variable. Un investigador toma un grupo de 30 vigilantes y de ellas identifica: Sexo Sueldo mensual Procedencia geográfica Ocupación
RTAS: Variable, variable, variable, constante. 4. * * * *
Un estudiante de Administración Pública basado en el grupo de personas del ejercicio anterior, toma las siguientes características. Identifique cada una de ellas como discreta o continua. Inflación Estatura Número de años cursados Número de hermanos
RTAS: Continua, continua, discreta, discreta. 5. * *
En los dos casos siguientes diga si se trata de una variable discreta o continua: Si estamos midiendo el número de familias que por piso habitan en un edificio de apartamentos. Se quiere medir el tiempo que tardan diferentes personas en desarrollar una prueba de habilidad manual.
RTAS: Discreta, contínua.
57
2
Población, Muestra y Variable
6.
Se busca determinar cual es la opinión de los habitantes de un municipio referente a una decisión que debe adoptar el concejo municipal, que por los bajos recursos propios debe optar entre anexar la entidad territorial a otro municipio vecino o aumentar significativamente los impuestos predial y de industria y comercio. Al momento de aplicar la encuesta se evidencia que la mayoría de los habitantes corresponden a población flotante cuya actividad económica se desarrolla en una ciudad cercana y que llegan sólo por temporadas de descanso a sus fincas de recreo, dinamizando el comercio local por esos días. Diga si hay una variable extraña y cual es.
SOLUCIÓN. En este caso puede considerarse como variable extraña el lugar donde los habitantes desarrollan su actividad económica, ya que esta puede incidir en el interés que tengan dichas personas en que el municipio siga siendo independiente. Otra variable extraña que puede influir en esta posición es el lugar de nacimiento de los pobladores, ya que si son de origen foráneo también podrían tener un interés diferente. 7.
En los siguientes casos calificar la técnica de muestreo aplicada:
Se pretende estimar la calidad del servicio público de acueducto en la ciudad de Bucaramanga, y para ello de aplica una encuesta puerta a puerta tomando 100 casas al azar pero teniendo en cuenta que se incluyan todos los barrios y además viviendas de los diferentes estratos. La encuesta se aplica el día sábado que es cuando se presume que la mayoría de personas están en la casa. SOLUCIÓN. Aunque hay estratificación y aleatoriedad en el muestreo, no se dice nada acerca de sí la cuota de cada parte de la muestra tomada es proporcional a las viviendas por cada estrato o por cada barrio. La muestra se recoge información de los distintos sectores pero dicha representatividad se ve cuestionada si no se establece que se tomó teniendo en cuenta la proporcionalidad de cada componente. El coordinador de una regional de la ESAP busca determinar si a los estudiantes les gusta la forma en que se les están dictando todas las clases, para ello unos monitores se ubican en la puerta de entrada de cada CETAP y le preguntan a 1 de cada 5 estudiantes que salen, durante un día. SOLUCIÓN. La forma de seleccionar al encuestado es aleatoria por que los estudiantes no toman un orden para salir, también se esta tomando una muestra representativa que incluye el 20 % de los estudiantes. SI es una regional con un gran volumen de estudiante podría resultar dispendioso el proceso.
58
Estadistica 1 BIBLIOGRAFIA
No creas todo lo que leas, pero sigue leyendo para que puedas creer. Reto al estudiante para que explore otros textos no incluidos aquí y contribuya con su crítica a mejorar muy pronto este texBUNGE, Mario. La Ciencia, su Método y su Filosofía. to. Los textos que se usaron como apoyo para el desarrollo de esta unidad fueron:
FERNANDEZ, Felipe; MONROY, Olga L.; RODRIGUEZ, Liliana. Diseño, desarrollo y evaluación de situaciones problemáticas en estadística. Universidad de los Andes: una Empresa Docente. Bogotá D.C., 1998. PARDINAS, Felipe. Metodología y técnicas de investigación en ciencias sociales. Siglo Veintiuno Editores. 27ª edición, corregida y aumentada. México, 1984. PEREZ MENDEZ, Alvaro. Estadística Descriptiva. Módulo Autoformativo. Escuela Superior de Administración Pública ESAP. Bogotá D.C., 1989. PERRY, Patricia Inés; MESA, Vilma María; FERNANDEZ, Felipe; GOMEZ, Pedro. Matemáticas, Azar y Sociedad. Conceptos básicos de estadística. Universidad de los Andes: Una Empresa Docente, Bogotá D.C., 1998. PICK, Susan y LÓPEZ, Ana Luisa. Cómo Investigar En Ciencias Sociales. 5ª edición. Editorial Trillas S.A. 1998 Obtención y Ordenamiento De Datos. México, 1994. SABINO, Carlos A. El Proceso De Investigación. Editorial Lumen - Humanitas. Argentina, 1996. TAMAYO Y TAMAYO, Mario. El Proceso De La Investigación Científica. 3ª ed. Ed. Limusa S.A.; México, 1998.
59
Estadistica 1
Unidad 3 Organización y Presentación de la Información
61
3
62
Organización y Presentación de la Información
Estadistica 1 OBJETIVOS *
Adquirir habilidad en la organización de datos esta dísticos en tablas, su conteo, ordenamiento y clasificación.
*
Al trabajar el capítulo, el estudiante logrará a partir de datos no agrupados, ordenarlos y elaborar una tabla de distribución de frecuencias y sus representaciones gráficas.
INTRODUCCIÓN
El contenido de esta Unidad es básicamente procedimental, por lo que se recomienda su trabajo en grupo o bien de forma autónoma si se part de unas orientaciones iniciales por parte del profesor. Esto por que requiere recordar algunas habilidades como la graficación de puntos en el plano para la elaboración de ojivas e histogramas, conceptos como el de intervalo y sumatorias. Para el trabajo con tablas es necesario apoyarnos en la hoja de cálculo, ya que se presentan unas actividades en Excel, las cuales buscan agilizar los cálculos repetitivos. Igualmente, nos sirve para la representación gráfica de los histogramas, polígonos de frecuencia y ojivas. Apóyese en los ejercicios resueltos para desarrollar los propuestos y tome nota de las dificultades para presentarlas al profesor en la sesión presencial.
63
3
64
Organización y Presentación de la Información
Estadistica 1 Recapitulación En las dos unidades anteriores vimos que: Los datos son colecciones de cualquier cantidad de observaciones relacionadas. Una colección de datos se conoce como conjunto de datos, y una sola observación es un punto de dato. Para que los datos sean útiles, necesitamos organizar nuestras observaciones, de modo que podamos distinguir patrones y llegar a conclusiones lógicas. Los especialistas en estadística seleccionan sus observaciones de manera que todos los grupos relevantes estén representados en los datos. Los datos pueden provenir de observaciones reales o de registros que se mantienen para otros propósitos. Los datos pueden ayudar a los responsables de tomar decisiones a hacer suposiciones bien pensadas acerca de las causas y, por tanto, de los efectos probables de ciertas características en situaciones dadas. También el conocimiento de tendencias adquirido de la experiencia previa puede permitir estar al tanto de posibles resultados y actuar en consecuencia. Cuando los datos son ordenados de manera compacta y útil, los responsables de tomar decisiones pueden obtener información confiable sobre el ambiente y usarla para tomar decisiones inteligentes. Los administradores deben tener mucho cuidado y asegurar que los datos utilizados están basados en suposiciones e interpretaciones correctas. Para ello, se utilizan las pruebas para datos:
¿De dónde vienen los datos? ¿La fuente es parcial? ¿Es posible que haya un interés en proporcionar datos que conduzcan a una cierta conclusión más que a otras? ¿Los datos comprueban o contradicen otras evidencias que se poseen? ¿Hace falta alguna evidencia cuya ausencia podría ocasionar que se llegue a una conclusión diferente? ¿Cuántas observaciones se tienen? ¿Representan a todos los grupos que se desea estudiar? ¿La conclusión es lógica? ¿Se ha llegado a conclusiones que nuestros datos no confirman? ¿Vale la pena usar los datos o debemos esperar y recabar más información antes de actuar? Con respecto a las muestras y poblaciones vimos que: Muestra y población son términos relativos. Una población es un todo y una muestra es una fracción o segmento de ese todo. El estudio de muestras es más sencillo que el estudio de la población completa, cuesta menos y lleva menos tiempo. Además, se ha probado que el examen de una población entera todavía permite la aceptación de elementos defectuosos, por tanto, en algunos casos, el muestreo puede elevar el nivel de calidad. Una población es un conjunto de todos los elementos que estamos estudiando, acerca de los cuales intentamos sacar conclusiones. Debemos definir dicha población de modo que quede claro cuándo un cierto elemento pertenece o no a la población. Una muestra es una colección de algunos elementos de la población, pero no de todos. Cualquier grupo que cumple con los requisitos de la población, puede constituir una muestra, siempre y cuando el grupo sea una fracción de la población completa. Una muestra representativa contiene las características relevantes de la población en las mismas proporciones en que están incluidas en tal población.
65
3
Organización y Presentación de la Información
ORGANIZACIÓN DE LOS DATOS Búsqueda de un patrón significativo en los datos: Existen muchas formas de organizar los datos. Podemos sólo colectarlos y mantenerlos en orden; o si las observaciones están hechas con números, entonces podemos hacer una lista de los puntos de dato de menor a mayor según su valor numérico. Pero si los datos son trabajadores especializados o los distintos tipos de automóviles que ensamblan todos los fabricantes, debemos organizarlos de manera distinta. Necesitaremos presentar los puntos de dato en orden alfabético o mediante algún principio de organización. Una forma común de organizar los datos consiste en dividirlos en categorías o clases parecidas y luego contar el número de observaciones que quedan dentro de cada categoría. Este método produce una distribución de frecuencias. El objetivo de organizar los datos es permitirnos ver rápidamente algunas de las características de los datos que hemos recogido: el alcance (los valores mayor y menor), patrones evidentes, alrededor de qué valores tienden a agruparse los datos, qué valores aparecen con mayor frecuencia, etc.
Datos tratados: conjunto de datos que ha sido objeto de algún tipo de ordenamiento o procesamiento. La forma más básica de organizar los datos es la tabla. Esta se compone de líneas y columnas y los elementos esenciales en esta son: * Título, en el que se destaca el objeto de la tabla. Respondemos aquí a que, cuando y donde; si es necesario se agregan notas con explicaciones. * Columna principal en que se anotan las categorías. * Encabezado de las columnas en el que se explica el objeto de cada una. * Cuerpo, es decir la parte que contiene la información. * Notas al pie con el objeto de aclarar ciertas operaciones y relaciones que se utilizan en la tabla; también se debe indicar en ella la fuente de información.
Datos sin procesar (Datos no ordenados): La información obtenida, antes de ser organizada y analizada, se conoce como datos sin procesar puesto que aún no han sido tratados mediante ningún método estadístico. La cantidad de datos más grande y los detalles más minuciosos pueden no contener la información más útil para la toma de decisiones administrativa. Una parte importante de la planeación de sistemas de información administrativa consiste en resumir y presentar los datos de modo que se pueda obtener la información crítica de manera rápida y sencilla.
66
Supongamos que el contador de una empresa comunitaria que produce y comercializa abrigos en cuero, presenta in informe semestral así: semestre enero – junio de 2001. Unidades vendidas: 38.810. Distribuidas así: ventas en Bogotá 17.850 unidades a $370.000 c/u por un total de $6.604.500.000; ventas a otras ciudades: 12.560 unidades a $410.000 c/u con un total de $5.149.600.000; ventas de exportación: 8.400 unidades a $480.000 c/u con un total de $4.032.000.000. Total de ventas: $15.786.100.000.
Estadistica 1 ¿Como son las cifras del informe? ¿Se captan con facilidad en una simple lectura?. Ahora si los organizamos en una tabla, preferiblemente, haciendo uso de una hoja de calculo tendremos lo siguiente:
Figura No. 3.1 Uso de la hoja de cálculo para elaborar tablas con facilidad. Como se puede ver, la información aparece mucho más organizada y nos ahorramos muchos cálculos. Veamos ahora las formulas que se utilizan en la hoja de calculo y notemos como, sólo requerimos introducir los datos básicos del problema: precio unitario y cantidad:
Figura 3.2. Formulas en una hoja de cálculo
67
3
Organización y Presentación de la Información
Otro aspecto importante es la elección de las unidades de medida de las magnitudes, se debe indicar si se trabaja con cientos, miles o millones. La buena elección de las unidades determina la claridad y el tamaño del cuadro. Un tipo especial y muy útil de tablas es el de arreglo cronológico o histórico, se utilizan para mostrar variaciones periodo a periodo ya sea de producción, poblaciones, agentes climáticos, etc. El periodo de tiempo depende de lo que se desee mostrar o comparar. Por ejemplo el siguiente cuadro muestra la variación del Índice de Precios al Consumidor en Colombia durante los primeros siete meses de 2.001. Figura 3.3. Hoja de cálculo con tabla de arreglo cronológico.
Los incrementos se calculan así: (Índice de período actual – índice de período base)/(índice de período base) Revisemos como se realizan los cálculos en la hoja y comparemos con la fórmula anterior.
Figura 3.4. Formulas usadas en la hoja de cálculo para tablas históricas Ordenamiento de datos utilizando su arreglo y distribución de frecuencias: Arreglo de datos: organización de los datos sin procesar por observación, tomados en orden ascendente o descendente. La ordenación de datos es una de las formas más sencillas de presentarlos, los forma en orden ascendente o descendente.
68
Estadistica 1 Ventajas: * * * *
Podemos notar rápidamente los valores mayor y menor de los datos. Podemos dividir fácilmente los datos en secciones. Podemos ver si algunos de los valores aparecen más de una vez en ese ordenamiento. Podemos observar la distancia entre valores sucesivos de datos.
En ocasiones, un ordenamiento de datos no resulta útil. Debido a que da una lista de todos los valores, es una forma incómoda de mostrar grandes cantidades de datos. Cuando se tienen estas tablas numerosas en hojas de cálculo se puede recurrir al uso de las tablas dinámicas. La distribución de frecuencias. Una forma en que podemos comprimir los datos es la tabla de frecuencias o distribución de frecuencias. Las distribuciones de frecuencias sacrifican algunos detalles, pero ofrecen nuevas perspectivas sobre los patrones de datos. Consisten en despliegues organizados de datos que muestran el número de observaciones del conjunto de datos que entran en cada una de las clases de un conjunto de clases mutuamente exclusivas y colectivamente exhaustivas. Asignación de frecuencias a cada uno de los valores de una variable o atributo. Se trabajan en estadística cuatro tipos de frecuencia, que se refieren a la misma característica pero nos brindan información diferente. Estas son: la frecuencia absoluta o número de veces que se repite un determinado valor de
una variable o atributo, la frecuencia relativa o porcentaje de veces que se repite un valor, la frecuencia acumulada o numero de datos que están por encima o por debajo de cierto valor y las frecuencias relativo-acumuladas o acumulado-relativas o porcentajes de la frecuencia acumulada respecto del total de datos. Características de las distribuciones de frecuencias relativas. Podemos expresar la frecuencia de cada valor como una fracción o un porcentaje del número total de observaciones. Para obtener este valor, dividimos la frecuencia de esa clase entre el número total de observaciones del conjunto de datos. La respuesta se puede expresar como una fracción, un número decimal o un porcentaje. La suma de todas las frecuencias relativas es igual a 1,00 o a 100%. Esto es así debido a que una distribución de frecuencias relativas aparea a cada clase con su fracción o porcentaje apropiados del total de datos. Por consiguiente, las clases que aparecen en cualquier distribución de frecuencias, ya sean relativas o simples, son completamente inclusivas. Todos los datos caen en una u otra categoría. Las clases son mutuamente exclusivas, es decir, ningún punto de dato cae en más de una categoría.
69
3
Organización y Presentación de la Información
En las distribuciones de frecuencias no aparecen clases que se traslapen. Podemos, también, clasificar la información de acuerdo con características cualitativas, como raza, religión y sexo, que no entran de manera natural en clasificaciones numéricas. Como clases de atributos cuantitativos, éstas deben ser completamente inclusivas y mutuamente exclusivas. La categoría «otros» se conoce como clase de extremo abierto cuando permite que el extremo inferior o el superior de una clasificación cuantitativa no estén limitados. Los esquemas de clasificación pueden ser tanto cuantitativos como cualitativos y tanto discretos como continuos. Las clases discretas son entidades separadas que no pasan de una clase discreta a otra sin que haya un rompimiento. Los datos discretos son aquellos que pueden tomar sólo un número limitado de valores. Los datos continuos pasan de una clase a otra sin que haya un rompimiento. Implican mediciones numéricas. Recordemos que, los datos continuos pueden expresarse con números fraccionarios o con enteros y las variables discretas son cosas que se pueden contar y las continuas son cosas que aparecen en algún punto de una escala. Construcción de una distribución de frecuencias: Lo primero es decidir el tipo y número de clases para dividir los datos. De acuerdo con la medida cuantitativa o un atributo cualitativo. Necesitamos decidir cuántos intervalos de clase distintos usar y el ancho de cada uno. Un intervalo de clase es un agrupamiento de valores de una variable. El número intervalos de clase depende del número de puntos de dato y del rango de los datos recolectados. Cuantos más puntos de dato se tengan o cuanto más grande sea el rango, más clases se necesitarán para dividir los datos. Como regla general, los estadísticos rara vez utilizan menos de 6 y más de 15 clases.
70
Debido a que necesitamos hacer los intervalos de clase de igual tamaño, el número de clases determina el ancho de cada clase, salvo cuando se requieran clases de extremo abierto. Una clase de extremo abierto es la que permite que el extremo superior o inferior de un esquema de clasificación cuantitativo no tenga límite. Ejemplo. Si tenemos que el instructor físico de una institución de formación deportiva tiene a su cargo 108 deportistas de 11 a 15 años; para analizar el comportamiento de las estaturas de estos los mide redondeando las alturas al centímetro más próximo y las anota en la ficha de registro de cada uno. Con los datos de las fichas elabora un listado en el que aparecen sin ningún orden. Estos corresponden a datos no ordenados. Luego procede a ordenar los datos elaborando un cuadro en el que aparecen las estaturas de menor a mayor, de manera que por cada dato que va contando coloca una raya al frente, haciendo con las rayas cuadros con una raya al través de manera que cada uno completo quedará formado por 5 rayas. Esto facilitará el conteo final de las rayas.
Tabla 3.1. Datos ordenados.
Estadistica 1 Alcance o rango de los datos: diferencia entre el mayor y menor valor de la serie. Rango = 162 – 125 = 37 Ancho de los intervalos de clase = (valor unitario siguiente después del valor más grande de los datos – valor más pequeño de los datos) / número total de intervalos Debemos utilizar el siguiente valor más alto de las mismas unidades, ya que estamos midiendo el intervalo entre el primer valor de una clase y el primer valor de la siguiente. Ancho de clase = (163 - 125) / 8 = 4,75 Hemos optado por tomar 8 clases. Redondeamos el ancho de clase a 5, quedando con un rango ajustado de 40. El exceso del rango ajustado lo distribuimos en el primero y el último intervalo. Así, los intervalos partirán desde 124 hasta 164. Ahora formamos intervalos de clase de ancho 5 con límites reales que se ubican en el punto medio entre el límite superior de una clase y el límite inferior de la siguiente. Luego observamos si hay ambigüedad en los datos, en este caso no la hay por que se redondearon las medidas al centímetro más cercano aplicando la regla del redondeo y así los datos son enteros. Cuando se presentan las ambigüedades utilizamos la expresión menor que el límite superior, de manera que este no quedará incluido en el intervalo, mientras el límite inferior si.
de clase y su valor es igual a la mitad de la suma de los límites superior e inferior de la clase. Luego de clasificar los datos en clases, contamos el número de datos que hay en cada clase y elaboramos la tabla siguiente. DISTRIBUCIÓN DE FRECUENCIAS ABSOLUTAS
Tabla 3.2. Distribución de frecuencia absoluta
Hallamos ahora las marcas de clase que corresponden al punto medio de un intervalo
71
3
Organización y Presentación de la Información
Representación gráfica de las distribuciones de frecuencias: Las gráficas dan los datos en un diagrama de dos dimensiones. Sobre el eje horizontal podemos mostrar los valores de la variable (la característica que estamos midiendo). Sobre el eje vertical señalamos las frecuencias de las clases mostradas en el eje horizontal. Las gráficas de distribuciones de frecuencias simples y de distribuciones de frecuencias relativas son de utilidad debido a que resaltan y aclaran los patrones que no se pueden distinguir fácilmente en las tablas. Atraen la atención del que las observa hacia los patrones existentes en los datos. Las gráficas pueden también ayudarnos a resolver problemas concernientes a las distribuciones de frecuencias. Nos permitirán estimar algunos valores con sólo una mirada y nos proporcionarán una verificación visual sobre la precisión de nuestras soluciones. Histogramas.
Polígono de frecuencias:
Un histograma consiste en una serie de rectángulos, cuyo ancho es proporcional al alcance de los datos que se encuentran dentro de una clase, y cuya altura es proporcional al número de elementos que caen dentro de cada clase. Si las clases que utilizamos en la distribución de frecuencias son del mismo ancho, entonces las barras verticales del histograma también tienen el mismo ancho. La altura de la barra correspondiente a cada clase representa el número de observaciones de la clase. Como consecuencia, el área contenida en cada rectángulo (ancho por altura) ocupa un porcentaje del área total de todos los rectángulos igual al porcentaje de la frecuencia de la clase correspondiente con respecto a todas las observaciones hechas.
Representación gráfica de la distribución de frecuencias en forma suavizada de una variable contínua con una línea que une los puntos medios de cada clase de un conjunto de datos, trazada a la altura correspondiente a la frecuencia de datos.
Un histograma que utiliza las frecuencias relativas de los puntos de dato de cada una de las clases, en lugar de usar el número real de puntos, se conoce como histograma de frecuencias relativas. Este tipo de histograma tiene la misma forma que un histograma de frecuencias absolutas construido a partir del mismo conjunto de datos. Esto es así debido a que en ambos, el tamaño relativo de cada rectángulo es la frecuencia de esa clase comparada con el número total de observaciones.
72
Son otra forma de representar gráficamente distribuciones tanto de frecuencias simples como relativas. Para construir un polígono de frecuencias señalamos éstas en el eje vertical y los valores de la variable que estamos midiendo en el eje horizontal. A continuación, graficamos cada frecuencia de clase trazando un punto sobre su punto medio y conectamos los resultantes puntos sucesivos con una línea recta para formar un polígono.
Estadistica 1 mero real de puntos, se conoce como polígono de frecuencias relativas. Este polígono tiene la misma forma que el polígono de frecuencias construido a partir del mismo conjunto de datos, pero con una escala diferente en los valores del eje vertical. Ventajas de los histogramas: Los rectángulos muestran cada clase de la distribución por separado. El área de cada rectángulo, en relación con el resto, muestra la proporción del número total de observaciones que se encuentran en esa clase. Ventajas de los polígonos de frecuencias: Es más sencillo que su correspondiente histograma. Traza con más claridad el perfil del patrón de datos. Se vuelve cada vez más liso y parecido a una curva conforme aumentamos el número de clases y el número de observaciones. Un polígono alisado mediante el aumento de clases y de puntos de dato se conoce como curva de frecuencias. Se añaden dos clases, una en cada extremo de la escala de valores observados. Estas dos nuevas clases que contienen cero observaciones permiten que el polígono alcance el eje horizontal en ambos extremos de la distribución. Un polígono de frecuencias es sólo una línea que conecta los puntos medios de todas las barras de un histograma. Por consiguiente, podemos reproducir el histograma mediante el trazado de líneas verticales desde los límites de clase y luego conectando tales líneas con rectas horizontales a la altura de los puntos medios del polígono. Un polígono de frecuencias que utiliza frecuencias relativas de puntos de dato en cada una de las clases, en lugar del nú-
Ojivas. Una ojiva gráfica de una distribución de frecuencias acumuladas absolutas o relativas. Una distribución de frecuencias acumuladas nos permite ver cuántas observaciones están por encima de ciertos valores, en lugar de hacer un mero registro del número de elementos que hay dentro de los intervalos.
Tabla: 3.3. Dis tribución de frecuencias absoluta, relativa y acumulada
73
3
Organización y Presentación de la Información
En ocasiones, la información que utilizamos se presenta en términos de frecuencias acumuladas «mayores que». La ojiva adecuada para tal información tendría una inclinación hacia abajo y hacia la derecha, en lugar de tener una inclinación hacia arriba y a la derecha. Figura 3.5. Ojivas “Mayor que” y “Menor que”
Podemos construir una ojiva de una distribución de frecuencias relativas de la misma manera en que trazamos la ojiva de una distribución de frecuencias absolutas. Sólo habrá un cambio: la escala del eje vertical. Del ordenamiento de datos podemos construir distribuciones de frecuencias. A partir de las distribuciones de frecuencias podemos construir distribuciones de frecuencias acumuladas. A partir de éstas podemos trazar una ojiva. Y de esta ojiva podemos aproximar los valores que tenemos en el ordenamiento de datos. Sin embargo, no podemos recobrar de manera normal los datos originales exactos a partir de cualquiera de las representaciones gráficas que hemos analizado. Tratamiento de una variable discreta: Se utilizan los diagramas de barras, diagramas de línea, pictogramas o pictógrafos y pasteles. Las frecuencias acumuladas de variables discretas se grafican por medio de una ojiva en forma de escalera, debido a que la frecuencia aumenta de a saltos. Las barras son menos llamativas que los pictogramas y los pasteles, pero en cambio proporcionan mas información y permiten una apreciación estadística más rigurosa. Se diferencian del histograma en que los rectángulos no se tocan entre sí; esto se debe a que, al ser la variable discreta, entre los valores sucesivos no hay valores intermedios.
74
Estadistica 1
Figura 3.6. Diagrama de barras usando la hoja de cálculo. En el diagrama anterior vemos que si estuviéramos comparando más categorías la gráfica se volvería difícil de observar. Sin embargo el diagrama de barras tiene entre sus ventajas el permitir presentar comparaciones entre entidades y a la vez las variaciones periódicas de estas medidas.
* Los títulos deben ser claros y todos los letreros y notas deben colocarse horizontalmente.
Los diagramas de línea son equivalentes a los diagramas hechos para las funciones en el plano cartesiano, trabajadas ya en el curso de matemáticas. Sin embargo, teniendo en cuenta que la información estadística se prepara para ser vista por otras personas, debemos tener en cuenta al trazar los diagramas de línea que:
* Si hay que mencionar puntos particulares de la curva, deben indicarse con notas al pie.
* El cero de la escala vertical siempre debe colocarse. Si se hace necesario interrumpir la escala vertical, esto debe mostrarse en forma clara y franca con una línea de zig-zag. * La línea debe trazarse mas gruesa que las coordenadas para que resalte, en especial si se tiene que trabajar con un solo color.
* Las unidades que se utilizan deben destacarse con claridad. * La longitud de los ejes se debe seleccionar de modo que la gráfica resulte balanceada a lo largo y a lo ancho.
* Al igual que en las tablas, indique siempre la fuente de información. Un pictograma es una representación de datos estadísticos por medio de símbolos que por su forma sugieren la naturaleza del dato. Se utilizan para mostrar comparaciones que impacten, llamando la atención del público en general, cualquiera que sea su nivel. La magnitud de los datos dados por los pictogramas son aproximaciones burdas y no sirven para análisis serios de estadística, por ello sólo se usan en publicaciones de interés general y no especializadas, para atraer la atención del público con presentaciones vistosas y llamativas de la información.
75
3
Organización y Presentación de la Información
Figura 3.7. Pictogramas o pictógrafos Los pictogramas anteriores resultan ser poco explícitos, por eso se debe indicar en el encabezado, con claridad, la cantidad que representa cada figura. Se deben utilizar figuras del mismo tamaño, como las de la figura y las aproximaciones se hacen por fracción de figura, mitad y hasta cuartos. Veamos el siguiente ejemplo:
CUBRIMIENTO DE LINEAS TELEFONICAS POR SECTOR Barranquilla 1999
Fuente: Empresas de telefonía básica local. Figura 3.8. Pictógrafos sobre cubrimiento de servicio telefónico. Los diagramas circulares o de pastel se utilizan para representaciones gráficas de distribuciones porcentuales. No resultan muy aptos para representaciones cronológicas por que hacen necesario dibujar círculos de igual radio, uno por cada año, mostrando en cada círculo la correspondiente distribución porcentual.
76
Estadistica 1 Los diagramas de pastel resultan ser un poco complicados de dibujar manualmente, sin embargo, con la ayuda de una hoja de cálculo resulta ser un trabajo muy fácil, que además brinda distintas posibilidades gráficas. Los siguientes datos corresponden al valor de las ventas de vehículos automotores de producción nacional en Colombia durante el año 2.000 y el correspondiente diagrama de pastel.
Figura 3.9. Gráfico de pastel en una dimensión usando hoja de cálculo.
El círculo completo tiene un área que equivale al 100%: un sector representa un tanto por ciento equivalente a la razón entre el ángulo que forman los radios que limitan el sector y 360 que son el total de grados de la circunferencia. Se ubica primero el sector de mayor valor partiendo de las doce del reloj, seguido por los otros en orden descendente. Así en la figura 3.7. tenemos: (597.997.215 / 1.176.458.620) X 360 = 50.8% X 360 = 183° (172.811.413 / 1.176.458.620) X 360 = 14.7% X 360 = 53° (177.858.532 / 1.176.458.620) X 360 = 15.1% X 360 = 54° (154.579.935 / 1.176.458.620) X 360 = 13.1% X 360 = 47° (573.211.525 / 1.176.458.620) X 360 = 6.2% X 360 = 22° En realidad el cálculo y el dibujo manual son dispendiosos. Afortunadamente los software para estadística y las hojas de calculo han simplificado el proceso, dejándonos la tarea de analizar el resultado.
77
3
Organización y Presentación de la Información
RECOMENDACIONES: *
Cuando se trabaja con muestras, recopilar el mayor número de datos posible.
*
Usar 5 clases como mínimo y 15 como máximo para agrupar los datos, en función del número de datos disponibles.
*
Trabajar con intervalos de clase de igual longitud.
*
Tener cuidado con la clasificación automática que hacen los paquetes estadísticos.
*
Al calcular frecuencias relativas – como proporción – trabajar con cuatro dígitos después de la coma, para evitar errores de redondeo en la suma.
*
Al dibujar un gráfico, no exagerar la escala vertical u horizontal. Un gráfico despro porcionado complica su interpretación y puede resultar engañoso a simple vista.
EJERCICIOS PROPUESTOS 1. Completar los elementos que faltan de la siguiente la siguiente tabla, referente a las exportaciones no tradicionales de Colombia en millones de dólares FOB, según el DANE:
78
Estadistica 1 2. Con el siguiente informe de consumo de energía eléctrica para usos comerciales y domésticos, elabore un cuadro que destaque el porcentaje de consumo de cada ciudad respecto del total nacional y porcentaje del consumo de cada una de las cuatro ciudades sobre el total de estas. Total en Colombia año 1982: 7.144.899 megavatios hora; Barranquilla: 563.953, Bogotá: 2.170.057, Medellín: 1.804.332 y Cali: 806.952. 3. A partir de la siguiente tabla elabore tres diferentes tomando en cada caso un país o grupo comercial de destino, en las que se muestren los incrementos respecto al año anterior y respecto a un año fijo de referencia. Colombia, destino de las exportaciones 1994-2001 / Millones de dólares FOB
1/La suma de los parciales no es equivalente al total de las exportaciones * Corresponde al período enero - mayo / Fuente: DANE
4. En una empresa industrial y comercial del Estado la nómina mensual por estamentos en miles de pesos fue: personal de administración $450.230, personal de ventas $ 580.415, producción $2.456.381. Elaborar un cuadro que destaque (a) El porcentaje de cada estamento respecto al total de la nómina, (b) el porcentaje de la nómina de pago de cada estamento respecto al total de ventas que fue de $11.456.985 para ese mes.
79
3
Organización y Presentación de la Información
5. Un colegio departamental tienen 1.470 alumnos y para su funcionamiento tiene el siguiente personal: un rector y dos vicerectores, cuatro coordinadores, 39 profesores, cuatro psicólogos, 7 vigilantes, 9 empleados de aseo y mantenimiento, 2 bilbliotecólogas y 3 secretarias. Elaborar un cuadro que muestre por personal, uno por cada tantos alumnos. 6. Complete el siguiente cuadro cronológico calculando los incrementos respecto a 1.985, calcule luego los incrementos respecto al año anterior y concluya acerca de las características del resultado que se obtiene:
7. bles.
Elabore un mapa conceptual acerca de las formas de representar gráficamente las varia-
8. Cree cinco ejemplos de pictogramas sobre temas que se relacionen con el tema de estudio de la carrera. Adicionalmente, critique el siguiente pictograma, señalando sus carencias y sus bondades.
80
Estadistica 1
9.
Para dividir un segmento de 60 centímetros e 4 partes, halle:
* * *
¿Cuántos puntos debe marcar? Si se pide que las partes sean iguales, indique los valores en que se deben colocar los puntos. Si el primer punto se coloca a 27 centímetros del extremo inicial separando una primera parte y se indica que las otras tres partes deben ser iguales, halle los valores en que debe colocar los puntos.
10. Si en una regla de 1oo unidades (100%) marca un punto en la mitad y luego otro punto en medio de la mitad superior, halle: * * * * *
En cuantas partes se dividió 100 Cuantas unidades hay hasta el primer punto marcado Cuantas unidades hay hasta el segundo punto marcado Que tanto por ciento expresa el segundo punto marcado Que parte de 100 es la distancia entre el segundo punto marcado y el final de la regla.
11. Un examen de estadística fue presentado por 40 alumnos y se calificó con puntos de 1 a 50. Los resultados obtenidos fueron: 31 13 34 32 31 29 7 39 27 30 37 36 38 36 29 38 12 41 30 27 11 29 13 26 35 29 34 9 46 12 27 19 41 32 36 38 44 14 39 40
81
3 * * * * *
Organización y Presentación de la Información
Ordene los datos. Halle el rango. Agrupando en las siguientes clases de igual anchura: malo, deficiente, regular, bueno y excelente, halle el intervalo. Halle los límites reales de clase y las marcas de clase. Elabore un cuadro de frecuencias relativas y acumuladas.
12. Usted esta estudiando las características generales del municipio de Chía para elaborar el plan de desarrollo municipal. Los datos que se muestran a continuación corresponden al uso del suelo en el municipio. Con base en ellos podemos ver el desarrollo del aspecto socio – económico en Chía.
Fuente: Grupo de consultoría Pedro Gómez y Cia. * *
¿Cuál es la variable de estudio, de que tipo es y cuantos valores toma? Represente gráficamente la información contenida en la tabla.
13. Un administrador público territorial pretende determinar que tipo de mecanismo prefieren las personas para elegir al candidato: el tarjetón o la papeleta. Uno de sus asistentes aplica una encuesta en un municipio cercano a Bogotá, Tabio, a 180 personas y encuentra que 30 no votan, 96 prefieren el tarjetón y 54 prefieren la papeleta. * * *
82
¿Cuál es la población de estudio? ¿cual es la muestra de estudio y su tamaño? ¿Es repre sentativa la muestra? ¿Cuál es la variable de estudio? Comente los resultados obtenidos por el asistente, con respecto a la variable que
Estadistica 1 él pretende medir. Proponga una manera de eludir el problema que presentan los resultados. *
Represente gráficamente la información obtenida.
14. Un estudiante de administración pública en Cúcuta, quiere saber cual es el candidato para alcalde de esa ciudad por el cual se inclinan la mayoría de los estudiantes de la universidad. Para eso, toma una muestra aleatoria de 80 estudiantes y cada uno de ellos da su voto a favor de uno de los siguientes candidatos: el del Partido Liberal, el del Partido Conservador o el Independiente. Los resultados son:
15. Con los datos de la tabla 3.1. construya una distribución de frecuencias con 12 clases. Incluya en estas las frecuencias absoluta, relativa y acumulada – relativa. 16. Para la distribución de frecuencia del ejercicio anterior dibuje el histograma y el polígono de frecuencia correspondiente. Dibuje también la ojiva a la izquierda y a la derecha. 17. Dibuje el histograma y el polígono de frecuencia correspondientes a la siguiente distribución de frecuencias.
83
3
Organización y Presentación de la Información
18. La siguiente distribución de frecuencias relativas nos muestra la población ocupada de manera informal en las siete ciudades principales (Bogotá D.C., Barranquilla, Cali, Medellín, Bucaramanga, Manizales y pasto) por grupo de edad en el año 2.000.
* * * *
Elabore la distribución de fre cuencia acumulada – relativa. Dibuje el histograma de frecuencias relativas. Dibuje la ojiva a la izquierda y la ojiva a la derecha. Plantee un tema de discusión a partir de los resultados obtenidos.
19. Investigue cuales son los datos de ocupación informal por edades para las mujeres en Colombia, en el último año. Elabore la tabla de frecuencias y desarrolle los mismos puntos que se exigen para el ejercicio anterior. 20. En la siguiente tabla se ven las áreas de los océanos en millones de millas cuadradas. Representar los datos usando: (a) un gráfico de barras y (b) un gráfico circular o de pastel.
PROBLEMAS RESUELTOS 1. Elaborar una tabla para destacar la proporcionalidad “uno por tantos” con los siguientes datos: en una industria de confecciones trabajan 84 costureras bajo el control de 7 supervisores encargados de la entrega de materiales y vigilancia del buen terminado de la confección. Interesa destacar la producción como resultado del control de un supervisor por cada doce operarios; la estadística de producción debe mostrar la variación de la producción al aumentar la relación un supervisor por tantos operarios. En cierta semana las costureras producen 420 vestidos, de los cuales en el control final se rechazan 32 por defectos de costura.
84
Estadistica 1 CONTROL DE PRODUCCION Semana del 2 al 6 de julio de 2000
Fuente: Planillas de producción diaria. 2. Las exportaciones mensuales colombianas durante el año 200, en millones de kilogramos fueron: 4.192, 6.934, 6.956, 4.017, 5.851, 6.641, 3.568, 5.216, 5.351, 3.053, 4.459, 9.814 elabore un cuadro cronológico en el que se evidencien los incrementos mes por mes y respecto al primer mes. Apóyese en la hoja de cálculo.
En la siguiente figura se pueden ver las operaciones aplicadas por la hoja de cálculo:
85
3
Organización y Presentación de la Información
3. Las áreas de los continentes (en millones de millas cuadradas) se recoge en la siguiente tabla. Representar los datos gráficamente. AREA DE LOS CONTINENTES
Fuente: Naciones Unidas Solución. Primer método. Gráfico de barras horizontales.
Resulta sencillo de hacer y de interpretar, sin embargo es más vistoso un diagrama de pastel. Segundo método. Diagrama de pastel. Para construirlo, hacemos que el área total, 51.5 millones de millas cuadradas, corresponda a los 360° del círculo. Así, un millón corresponde a 360°/51.5. Se deduce que África con 11.7 millones, ocupa un arco de 11.7/(360°/51.5) = 82° mientras que Asia, Europa, Norteamérica, Oceanía y América del Sur ocupan 128°, 13°, 66°, 23° y 48° respectivamente. Veamos.
86
Estadistica 1 4. Los pesos de 40 estudiantes varones, con precisión de 1 libra, figuran en la siguiente tabla. Construir una distribución de frecuencias.
Solución. Los pesos extremos son 176 y 119 lb, luego el rango es 176-119=57 lb. Si se usan 7 intervalos de clase, su anchura será 58/7=8.3 luego tomamos 9 por exceso. La tabla de frecuencia nos quedaría así:
5. Construir (a) un histograma y (b) un polígono de frecuencias para la distribución de pesos del problema anterior.
87
3
Organización y Presentación de la Información
Tenemos un histograma generado por el paquete estadístico, ahora veamos sobre este el polígono de frecuencia.
6. A partir de la siguiente distribución de frecuencia, construir una ojiva “mayor que” y una “menor que”.
Tendremos primero que ampliar nuestra tabla de distribución de frecuencias con el fín de facilitar el proceso de graficación, así:
A partir de estas obtenemos nuestras ojivas:
88
Estadistica 1 BIBLIOGRAFÍA Los textos que se usaron como apoyo para el desarrollo de esta unidad fueron:
LEVIN, Richard I.; RUBIN, David S. Estadística Para Administradores, Editorial PRENTICE HALL, Sexta Edición., 1996 MENDENHALL, William. Estadística para Administradores. Traducido por Dirk Valckx Verbeeck. Grupo Editorial Iberoamérica. México, 1990. PERRY, Patricia Inés; MESA, Vilma María; FERNANDEZ, Felipe; GOMEZ, Pedro. Matemáticas, Azar y Sociedad. Conceptos básicos de estadística. Universidad de los Andes: Una Empresa Docente, Bogotá D.C., 1998. PICK, Susan y LÓPEZ, Ana Luisa. Cómo Investigar En Ciencias Sociales. 5ª edición. Editorial Trillas S.A. 1998 Obtención y Ordenamiento De Datos. México, 1994. PORTUS GOVINDEN, Lincoyan. Curso Práctico de Estadística. Editorial Mc Graw Hill. Bogotá D.C., 1985. SPIEGEL, Murray R. Estadistica, 2da Edición. SCHAUM Mc. Graw Hill. Bogotá, 1998 TAMAYO Y TAMAYO, Mario. El Proceso De La Investigación Científica. 3ª edición Editorial Limusa S.A.; México, 1998.
89
Estadistica 1
Unidad 4 Tendencia Central
91
4
92
Tendencia Central
Estadistica 1 OBJETIVOS *
Dado un conjunto de datos agrupados o no, el estudiante podrá calcular medidas de tendencia central más conocidas como: media, mediana, moda, medias geométrica y armónica.
*
A partir de datos agrupados, calcular las medidas de posición relativa como cuartíles, decíles y percentíles
INTRODUCCIÓN
Una vez disponemos de los datos agrupados en el capítulo anterior, nos disponemos ahora a analizar las características de dichas distribuciones, para ello utilizamos medidas como las de dispersión, curtosis, sesgo y de tendencia central. Buscando simplificar el estudio de estas, abordamos primero las de tendencia central y para el próximo capítulo las demás. Las medidas de tendencia central se aplican tanto a datos agrupados como a los no agrupados, por lo que se presentan aquí para los dos casos. Adicionalmente se presentan las medidas relativas de posición que si bien no son todas clasificables como de tendencia central, si nos aportan mucho en cuanto a la medición de la forma como están distribuidos los datos. Para trabajar este capítulo y los siguientes es de gran ayuda la calculadora o el computador con un software de tipo estadístico como SPSS e incluso las funciones estadísticas de Excel. Se recomienda que la sesión presencial se aproveche con un taller práctico en el computador preparado por su profesor.
93
4
94
Tendencia Central
Estadistica 1 MEDIDAS DE TENDENCIA CENTRAL
En la unidad anterior vimos formas de presentar la información y a partir de ellas podemos concluir que: Los métodos gráficos son muy útiles para obtener una descripción rápida y general de los datos coleccionados y para presentarlos. Esto apoya, en muchos aspectos, el dicho de una figura vale mas que mil palabras. Por ejemplo, supóngase que deseamos discutir nuestros datos con un grupo de personas y que solamente podemos discutir los datos verbalmente. Estaríamos obligados a utilizar otras medidas descriptivas, al no poder presentar el histograma visualmente, que transmitirían a los interlocutores una imagen visual del histograma. Una segunda limitación, no tan obvia del histograma y de otras técnicas gráficas, es que son difíciles de usar para hacer inferencias estadísticas. Utilizamos probablemente el histograma muestral para hacer inferencias acerca de la forma y posición del histograma poblacional, que describe la población y que desconocemos. Nuestra información se basa en la suposición correcta de que existirá cierto grado de similitud entre ambos histogramas, pero nos enfrentamos entonces al problema de medir el grado de similitud. Sabemos cuando dos figuras son idénticas, pero esta situación no se presenta probablemente en la práctica. * Si los histogramas de la población y la muestra difieren, ¿Cómo podemos medir el gra-
do de diferencia o, concretamente, el grado de similitud? Se pueden superar las limitaciones del método gráfico para describir datos, utilizando medidas descriptivas numéricas. Las medidas de esta clase para una población se llaman parámetros. Las medidas descriptivas numéricas obtenidas a partir de una muestra, se denominan estadísticos. Con los histogramas y polígonos se puso en evidencia un significativo comportamiento de los datos en cuanto a la frecuencia con que se presentan los valores: algunos de estos valores son más frecuentes que otros. Además, se observó una clara tendencia de agrupación en el vecindario de los valores más frecuentes, haciendo que las curvas representativas adquirieran formas de campana. Por lo general, la mayor densidad de frecuencia está en la parte central de las gráficas, de aquí deriva el nombre de medidas de tendencia central. En estadística es costumbre usar letras griegas para designar los parámetros y las últimas letras minúsculas del alfabeto para los estadísticos.
95
4
Tendencia Central
Medida de tendencia central (o de posición) es toda aquella que indica el valor esperado de un punto de datos típico o situado en el medio. Cantidades numéricas que dan una idea sobre la ubicación de la distribución de frecuencias. * Si consideramos la variable, años de vida al morir de los colombianos varones, ¿existe algún valor de la variable que represente la mayoría de los valores del conjunto de datos? ¿Qué significado tiene la esperanza de vida al nacer de un colombiano varón? Media. Medida de tendencia central que representa el promedio aritmético de un conjunto de observaciones. La media para la población (parámetro) la simbolizamos como s y para la muestra (estadístico) la simbolizamos como Para calcular la media de datos no agrupados simplemente sumamos todos los datos y el resultado lo dividimos por el número total de estos, así:
Ejemplo. La media de los números 8, 3, 5, 12 y 10 es:
Para datos agrupados, el numerador de la expresión cambia. La sumatoria no es de cada dato, sino de los productos de las marcas de clase por las frecuencias absolutas.
Mediana. Punto situado a la mitad de conjunto de datos, medida de localización que divide al conjunto de datos en dos partes iguales. Se simboliza frecuentemente como Me. Para calcular la mediana de datos no agrupados necesitamos ordenarlos y tomar de estos, el más central. Si tenemos un grupo de 11 datos ordenados, la mediana será el 6°. Si tenemos 16 datos ordenados, la mediana será el promedio entre los datos 8° y 9°. Esa regla se aplica en general para cantidades impares y pares respectivamente.
96
Estadistica 1 Ejemplo. La mediana de los números 8, 3, 5, 12 y 10 es 8. Veamos. 3, 5, 8, 10,12 es claro que 8 es el más central. Para datos agrupados la mediana está dada por
Donde: L1 Limite inferior de la clase mediana. N Número de datos. ( f)1 Suma se frecuencias de las clases inferiores a la clase mediana. fMe Frecuencia de la clase mediana c ancho del intervalo de la clase mediana. La clase mediana es aquella en la cual se completa el 50% de los datos. Esto es facil mirarlo en las frecuencias relativo - acumuladas. Geométricamente la mediana es el valor de X (abscisa) que corresponde a la recta vertical que divide un histograma en dos partes de igual área. Moda. El valor que más a menudo se repite en un conjunto de datos. Está representado por el punto más alto de la curva de distribución de un conjunto de datos. Se simboliza frecuentemente como Mo. La moda puede no existir, e incluso no ser única en caso de existir. Una distribución con moda única se llama unimodal. En el caso de los datos agrupados donde se haya construido una curva de frecuencias para ajustar los datos, la moda será el valor (o los valores) de X correspondiente al pico máximo (o máximos) de la curva. A partir de una distribución de frecuencias puede deducirse con la ecuación
97
4
Tendencia Central
Donde: L1 fi fi-1 fi+1 C
Limite inferior de la clase modal Frecuencia absoluta de la clase modal Frecuencia absoluta de la clase anterior a la clase modal Frecuencia absoluta de la clase posterior a la clase modal Ancho del intervalo de la clase modal
Retomando el ejemplo del capítulo anterior referente a las estaturas de los deportistas, miremos en que consisten las medidas de tendencia central.
Para la media tenemos:
La mediana será:
Y la moda:
98
Estadistica 1 De las medidas de tendencia central, la media es la única que se presta a tratamientos algebraicos, con los que se demuestran varias propiedades de la media. También es posible obtener medias ponderadas de varias medias. Ejemplo. Durante diciembre un pequeño empresario vendió lechones a negocios en tres sectores de la ciudad, en el sector A vendió 35 a un precio promedio de $320.000, en el sector B vendió 19 por un precio de $286.500 y en el sector C vendió 9 por un precio promedio de $336.000. Calcular el precio promedio por lechón del total de las ventas del microempresario.
Evaluemos la siguiente situación, si tenemos los siguientes datos 3, 5, 7, 7, 8 que corresponden a la edad en que entran a la escuela los niños de una pequeña aldea, la media es (3+5+7+7+8)/5=6; *
¿Es el 6 un valor que puede representar a los demás? ¿Tiene coherencia decir que los niños de esta aldea inician el estudio en la escuela alrededor de los seis años?
Si cambiamos el valor extremo 8 por 23, los datos serán 3, 5, 7, 7, 23, cuya media es (3+5+7+7+23)/5=9. *
* * *
¿Podremos ahora decir que el 9 puede representar a los demás valores? ¿Tiene coherencia decir que las personas de esta aldea inician el estudio en la escuela alrededor de los nueve años? ¿Qué podemos concluir acerca de la media? ¿Cuál es la mediana de las dos series? ¿Qué podemos decir entonces ahora acerca de la mediana?
De las tres medidas de tendencia central que hemos estudiado, la media aritmética es muy sensible a los valores extremos, en tanto que la mediana y la moda no lo son. En el ejemplo anterior que la mediana por ser insensible a los valores extremos no varió al cambiar 8 por 18 y fue 7 en ambas series. La moda en ambas series también es 7 por ser el valor más frecuente.
99
4
Tendencia Central
Debido a la gran sensibilidad de la media a los valores extremos, a veces resulta que su valor produce efectos engañosos. Así, por ejemplo, si se está estudiando el ingreso diario de un grupo de personas y se tienen los valores 320, 400, 400, 400, 450, 500, 550, 2000, 2900, a esta serie le corresponde: Media Mediana Moda
880 450 400
Se observa que solo dos personas tienen ingresos altos y las siete restantes tienen salarios de 550 o menos, o sea que en este caso la media resultó atípica. La media de 450 y la moda de 400 resultan más representativas para esa distribución. El conocimiento de las tres medidas de tendencia central da una buena apreciación de la distribución de los valores. Pero si se debe hacer una apreciación con una sola medida, es mejor usar la mediana que corresponde al valor del medio. La siguiente gráfica nos muestra la ubicación de las medidas en una curva de distribución de frecuencias.
Figura 4.1. La curva de distribución de frecuencias y las medidas de tendencia central.
En la gráfica verificamos que: La media aritmética es un punto de equilibrio, similar al centro de gravedad, La mediana tiene la propiedad de que su ordenada divide el área bajo la curva en dos partes iguales. La moda es la abscisa correspondiente a la mayor ordenada o pico de la curva.
100
Estadistica 1 La gráfica nos muestra una distribución que no es simétrica lo cual hace que las tres medidas no se ubiquen en el mismo lugar. En una distribución simétrica las tres medidas de tendencia central son idénticas, y si la distribución se torna asimétrica no se produce cambio en la moda; la mediana y la media se corren en dirección de la asimetría. La asimetría es positiva hacia la derecha y negativa hacia la izquierda. En la simetría positiva la mediana aumenta por el mayor número de frecuencias hacia la derecha y la media aumenta mas, ya que hay un aumento en la frecuencia y el valor de las observaciones. En las asimetrías negativas ocurre lo contrario: la mediana disminuye y la media disminuye mas que la mediana. Al elegir la medida mas adecuada debemos recordar que: * * *
*
*
*
La medida de tendencia central que se debe utilizarse depende de la información que se tenga y el objetivo que se persiga. Si la distribución es aproximadamente simétrica, pueden utilizarse indistintamente las tres medidas, que resultan aproximadamente iguales. Si los datos no están ordenados, puede resultar más fácil el cálculo de la media aritmética que el de la mediana; la moda se encuentra por simple búsqueda del valor más frecuente. Si los datos son irregulares y hay lagunas en los valores de la clase mediana, esta medida de tendencia central no resulta muy buena ya que su ubicación puede resultar falsa. Si desea calcular totales, la única medida utilizable es la media aritmética. Así, si basados en una experiencia deseamos conocer en una empresa el posible gasto de energía eléctrica para el periodo futuro, la única medida utilizable es la media. Si deseamos ubicar las condiciones de una persona en una clase, la mediana resulta la medida más indicada ya que por comparación pone en evidencia si la persona esta por sobre la mitad o por debajo de ella.
Media Geométrica. Es útil en el cálculo de tasas de crecimiento y se define como la raíz n-ésima del producto de N términos positivos.
Así la media geométrica de 2, 4, 6, 12, 18 es
101
4
Tendencia Central
En este ejemplo se han usado los valores de la variable que va creciendo, para obtener el valor nominal de crecimiento promedio. Sin embargo, también se pueden usar los valores porcentuales de las tasas de crecimiento, expresando por ejemplo porcentajes de crecimiento continuo de 5%, 17%, 12% y 20% como 1,05; 1,17; 1,12 y 1,20 como factores dentro de la raíz. Véanse el ejercicio resuelto No. 1 del presente capítulo.
Recuerde que la extracción de una raíz se puede expresar como una potencia del exponente fraccionario. Esta operación es muy fácil de hacer con la calculadora usando la tecla Xy o la tecla X1/y.
La Media Armónica. Esta medida de una serie de números es el recíproco o inverso de la media aritmética de los recíprocos de los números de una serie. Se usa para encontrar modelos o comportamientos tipo, para ser utilizados en la elaboración y evaluación de proyectos.
Ejemplo. La media armónica de los números 2, 4 y 8 es
Para la media armónica de datos agrupados se tiene la siguiente ecuación.
Para la distribución de frecuencia de las estaturas de los deportistas, tenemos
102
Estadistica 1 La media geométrica de una colección de números positivos es menor o igual que su media aritmética, pero mayor o igual que su media armónica. La Media Cuadrática. Es un tipo de promedio que se utiliza frecuentemente en las aplicaciones físicas.
Ejemplo. La media cuadrática del conjunto 1, 3, 4, 5 y 7 es
MEDIDAS DE POSICION RELATIVA. Percentiles, Cuartiles, Deciles. A veces se desea conocer la posición que tiene una observación respecto de un conjunto de datos. Por ejemplo si se presentó un examen de admisión y se obtuvo una calificación de 640, interesaría conocer el porcentaje de participantes que obtuvieron una calificación menor que 640. Tal medida de posición relativa dentro de un conjunto de datos se llama centil o percentil. Si un conjunto de datos esta ordenado por magnitud, el valor central que divide al conjunto en dos partes iguales es la mediana. Extendiendo esa idea, la medida que divide el conjunto en cuatro partes iguales, es el cuartil. Los cuartiles se denotan como Q1, Q2 y Q3. El Q2 coincide con la mediana Me. Análogamente, los valores que dividen a los datos en 10 partes iguales se llaman deciles, y se denotan D1, D2, ..., D9, mientras que los valores que los dividen en 100 partes iguales son los que ya llamamos percentiles. El decil 5 y el percentil 50, coinciden con la mediana. Los cuartiles 1 y 3 coinciden con los percentiles 25 y 75 respectivamente. Ejemplo. Para la distribución de frecuencia correspondiente al grupo de deportistas tenemos que el primer cuartil tendrá el siguiente número de observaciones
103
4
Tendencia Central
El primer cuartil cae en el intervalo de clase 138.5 – 143.5; hay 14 deportistas en las tres clases anteriores, es decir, para completar los 27 de Q1 debemos hacer una interpolación lineal para los 13 que faltan así: En la clase que contiene el cuartil hay 24 observaciones en un ancho de 5 centímetros. 1 observación corresponde a 5/24 centímetros; 13 corresponden a 13(5/24)=2.7 centímetros Tomamos entonces el límite inferior de la clase, hasta donde sabemos que hay 14 observaciones y le agregamos la medida correspondiente a los 13 restantes. 138.5 + 2.7 = 141.2 centímetros. El primer cuartil es de 141.2 centímetros y quiere decir que el 25% de los deportistas tiene una estatura de 141.2 centímetros o inferior. El segundo cuartil que equivale a la mediana, lo podemos obtener así: Se ubica en el intervalo 143.5 – 148.5 de manera que Hasta 148.5 se encuentra el 62.0 % Hasta 143.5 se encuentra el 35.2 % Restando 5 centímetros corresponden a un 26.8 %
Podemos hallar cuantos centímetros corresponden al 50 % - 35.2 % = 14.8 % y sumárselos a los 143.5 centímetros del límite inferior. Podemos también hallar cuantos centímetros corresponden a 62.0 % - 50 % = 12 % y restárselos a los 148.5 centímetros del límite superior. En este caso parece ser la opción más fácil. Si lo hacemos en un paquete estadístico, estos cálculos pierden significado, sin embargo el practicarlos y descifrarlos nos ayudan a entender con claridad lo que estamos buscando.
104
Estadistica 1 Si 26.8 % corresponden a 5 centímetros; 1 % corresponde a 5/ 26.8; 12% corresponde a 12(5/26.8)=2.24 Restamos entonces a 148.5 - 2.24 = 146.26 que es el mismo valor que habíamos obtenido anteriormente con una fórmula para la mediana. Existen ecuaciones para calcular todos los deciles, cuartiles y percentiles, sin embargo como estos los aplica el programa contable en forma oculta, resulta valioso el procedimiento anterior para captar el significado de la medida. Obtuvimos que Q2 = D5 = P50 = Me = 146.6 *
Compare el procedimiento que se usó para calcular Q1 con el que se usó para Q2.
*
Vuelva a hacer el calculo pero usando para Q1 el pro ceso usado anteriormente para Q2 y viceversa.
*
¿Que concluimos a cerca del procedimiento?
*
Calcule ahora Q3.
EJERCICIOS PROPUESTOS 1. La población de un país creció en los últimos 5 años de 4.200.000 a 4.775.000; halle (a) la tasa de crecimiento total en los cinco años. (b) La tasa de crecimiento anual. 2. Los salarios aumentaron en los últimos 4 años en 8%, 9.6%, 7,75% y 11.3%, halle: (a) la tasa de crecimiento total en los cuatro años; (b) la media anual de crecimiento; (c) la media geométrica anual de crecimiento. 3. En una industria se ha controlado el tiempo que tardan tres obreros en ensamblar un motor. Uno demora 6 horas, otro 8 horas y un tercero demora5 horas. Halle el rendimiento de un obrero tipo que sirva de base para análisis financieros. 4. Una empresa de transportes tiene tres automotores diferentes que emplean en el recorrido entre dos pueblos 16, 15 y 12 horas respectivamente. Halle el tiempo que emplearía un automotor tipo que sirva de base para un estudio de costos.
105
4
Tendencia Central
5. En un concurso de méritos se tienen unas calificaciones de 8 personas en los diferentes aspectos a evaluar, cada aspecto tiene una ponderación y sus valores se indican entre paréntesis. Hallar (a) la media ponderada del grupo, (b) la media de cada concursante y (c) explique si en este caso tendrían alguna utilidad la media armónica, la media geométrica o la media cuadrática.
6. La población de un país aumentó en 4 años de 16.320.430 habitantes a 17.840.210; halle: (a) el porcentaje de aumento en los cuatro años; (b) el promedio geométrico anual. 7. El aumento en el consumo de energía de los usuarios de una empresa del servicio publico de energía eléctrica, fue en los últimos 5 años de: 28%; 12%; 19%; 24%; 22%; halle: (a) el porcentaje del incremento del último año con base en las ventas del servicio en el primer año; (b) el promedio geométrico de incremento anual. 8. La pérdida en el valor adquisitivo de la moneda de un país fue en los últimos 4 años de: 12%, 17%, 14% y 15%; halle: (a) el porcentaje de pérdida del valor del último año con relación al primer año; (b) el promedio geométrico de pérdida anual. 9. En cierta industria se controló la producción de un artículo y se encontró que la producción de tres obreros de una sección fue de 93, 84 y 102 piezas respectivamente; halle la producción de un obrero tipo para esta sección. 10. Halle el valor promedio para el kilogramo de mercancía adquirida en tres lotes así: 340 kilogramos a $2830 cada uno, 260 kilogramos a $3010 cada uno y 535 a $2750 cada kilogramo. 11. Al hacer un estudio del transporte público de una ciudad se midió el tiempo empleado por los buses en el recorrido de cierta ruta y se encontró los siguientes tiempos para los 5 buses asignados al recorrido: 7.3 horas, 6.8 horas, 7.4 horas, 6.4 horas y 7.6 horas; halle el tiempo que se debe asignar a un bus tipo para estudios económicos. 12. Un contratista recibe dos ofertas para pintar un edificio; una cuadrilla de obreros ofrece pintar el edificio en 28 días, otra cuadrilla se compromete a pintarlo en 35 días. El contratista decide entregar el trabajo a las dos cuadrillas para que trabajen simultáneamente. Halle el tiempo que emplearán en pintar el edificio.
106
Estadistica 1 13. En el municipio de Cota (Cundinamarca) para 1990 había un potencial electoral de 13.875. Unos politólogos deseaban saber cual de las edades representó mayor afluencia en las elecciones presidenciales de ese momento. Se tomó una muestra de 100 personas, teniendo en cuenta su edad dentro del proceso electoral. Esto con el fin de determinar cual fue la edad de los votantes que decidieron los resultados de la elección.
Los politólogos obtuvieron los siguientes datos: de 9.680 personas que votaron, se registraron las siguientes edades de 100 personas: 18 19 33 47 35 63 28 24 43
18 20 18 29 35 38 40 32 23
* * *
Identifique la población de estudio y la muestra de estudio. ¿Cuál es la variable que se quiere medir? ¿De que tipo es? Elabore una tabla de frecuencias para organizar la información y con base en ella haga un diagrama que le permita mostrar claramente cual fue la edad con mayor nivel de votación. A partir de la tabla de frecuencias calcule los deciles D3, D6 y D8. ¿Cuál es la medida de tendencia central más apropiada para el estudio de los politólogos? Explique la respuesta. Encuentre la mediana gráficamente a partir de la ojiva. Use papel milimetrado. Calcule la mediana para datos agrupados y compare el resultado con el obtenido gráficamente. ¿Cual es la edad de la persona mayor del 30 % de menor edad? Calcule el cuartil Q3 y los percentiles P35 y P85.
* * * * * *
23 24 29 39 23 35 34 30 21
20 19 40 40 27 46 29 19 37
19 21 19 21 33 41 39 30
70 21 52 55 21 34 28 27
19 26 24 30 18 23 50 29
47 20 23 21 19 36 48 53
32 65 44 18 34 19 20 27
43 19 20 45 61 20 23 44
43 71 34 41 37 26 20 32
45 21 24 61 18 40 37 21
14. Tres profesores de economía dieron notas medias en sus cursos, con 32, 25 y 17 estudiantes, de 79, 74 y 82 puntos, respectivamente. Hallar la puntuación media de los tres cursos. 15. Si el precio de un artículo se duplica en un periodo de 4 años, ¿Cuál es el porcentaje medio de crecimiento anual?
107
Tendencia Central
4
16.
¿Qué capital final se tendrá al cabo de 6 años, si se invierten U$ 1000 al 8% de interés anual?
17.
Hallar la moda de los datos del problema No. 13.
18. La tabla siguiente nos muestra el número de bodas en U.S.A. para hombres y mujeres de distintos grupos de edad durante 1984. * * * * * * * *
19.
108
Hallar la mediana de edad de hombres y mujeres en esas bodas. Hallar la media y la moda de la edad de hombres y de mujeres. ¿Por qué la mediana es una medida de tendencia central mas adecuada que la media en este caso? Comprobar la mediana por el método gráfico. Elaborar el histograma para varones y para mujeres. Hallar la edad de la mayor de las mujeres del 25% de menor edad al casarse. Hallar la edad del hombre más joven del 20% de mayor edad al momento de casarse. Hallar la edad de la mujer más joven de entre el 85% de las mujeres mayores.
El volumen de consumo de energía en 60 hogares durante un mes fue de:
Estadistica 1 * * * * * * * *
Elaborar una tabla de frecuencias. Dibujar un histograma y el polígono de frecuencias correspondiente. Hallar la media para datos no ordenados (apóyese en la calculadora con funciones estadísticas), luego halle la media para datos agrupados y diga si resulta ser apropiada. Calcule la moda y la mediana para datos agrupados. ¿Cuál es menor consumo del 35% de los hogares con mayor consumo de energía?. ¿Cuál es el mayor consumo del 40% de los hogares con menor consumo? ¿Entre que valores de consumo se encuentra el 80% de los hogares más cercano al consumo promedio? Halle Q1, Q3, D3, D4, D6, D7, P15, P45, P73 y P87.
EJERCICIOS RESUELTOS
1. Si el crecimiento de las ventas en un negocio fue en los últimos tres años de 26%, 32% y 28%, hallar la media anual de su crecimiento.
Solución.
La tasa de crecimiento es de 28.6% anual. 2. Un obrero puede pintar una casa en 6 días y otro puede pintarla en 8 días. Hallar el rendimiento de un obrero cuyo rendimiento sea representativo de los rendimientos de los dos obreros (obrero tipo) y comprobar el ejercicio.
109
4
Tendencia Central
Comprobación. Dos obreros tipo demoran en pintar la casa 6 6/7 ÷ 2 = 3 3/7 días. Los dos obreros del problema pintan en un día de la casa. En pintar toda la casa demoran
24/7
= 3 3/7 días.
3. El Departamento Administrativo del Medio Ambiente, buscando determinar el nivel de contaminación por bióxido de carbono (CO2) en el centro de Bogotá se hicieron 200 mediciones, cuyos datos se agruparon en la siguiente tabla de frecuencias. Hallar la media. Nivel de contaminación del aire por CO2 en el centro de Bogotá durante el 2001
Fuente: DAMA
4. Con los datos del ejercicio anterior calcular la moda y la mediana y a partir de estas determinar si la distribución tiene asimetría positiva o negativa. Primero debemos completar la tabla de frecuencias, para poder usar las frecuencias acumuladas.
110
Estadistica 1
Por el resultado vemos que la media es menor que la mediana y la moda, que son prácticamente iguales. Podemos pensar entonces que la distribución es asimétrica hacia la izquierda. A partir de ello tenemos argumentos para decir que los niveles de contaminación pueden tener variaciones, presentándose más casos de niveles inferiores al valor más típico que superiores. 5.
Con la información del ejercicio 3 calcular los cuartiles Q1 y Q3 y ubíquelos sobre el histograma.
Para el primer cuartil tenemos que se ubica en el intervalo 20 % a 22 % donde se completan los 256/ 4=64 primeros elementos. Hasta una concentración de CO2 de 20% hay 21 mediciones Hasta una concentración de CO2 de 22% hay 78 mediciones Dentro de un ancho de clase de 2% hay 57 mediciones Cada medición corresponde a 2/57=0.035 %
111
4
Tendencia Central
De manera que para las mediciones que faltaban entre el límite inferior y las 64 mediciones, es decir a 64-21=43 tendríamos 0.035%x43=1.51% que le sumaremos al límite de clase inferior: 20 % + 1.51 % = 21.51 %. Podemos decir que una cuarta parte de las observaciones arrojan una medición del nivel de contaminación por CO2 inferior a 21.51%. Este resultado preliminar también nos indica el considerable apuntalamiento que tendría el polígono de frecuencia para esta distribución. El cuartil 3 corresponde a 192 mediciones y se ubica en el intervalo de clase que va de 24 % a 26 %. Hasta una concentración de CO2 de 26% hay 240 mediciones Hasta una concentración de CO2 de 24% hay 167 mediciones Dentro de un ancho de clase de 2% hay 73 mediciones Cada medición corresponde a 2/73=0.0274 % De manera que para las mediciones que faltaban entre el límite inferior de la clase cuartílica y las 192 mediciones, es decir a 192-167=25 tendríamos 0.00274%x25=0.685% que le sumaremos al límite de clase inferior: 24 % + 0.685 % = 24.685 %. Podemos decir que tres cuartas partes de las mediciones hechas al nivel de contaminación en el centro de Bogotá, mostraron concentraciones inferiores a 24.685 % de CO2; o que una cuarta parte de las mediciones fueron iguales o superiores a 24.685 % de CO2 en el aire.
112
Estadistica 1 6.
Con la información del ejercicio 3 hallar D1, D6, P85.
Para el primer decil tenemos que se ubica en el intervalo 20 % a 22 % donde se completan los 256/10=26 primeros elementos. Hasta una concentración de CO2 de 20% hay 21 mediciones Hasta una concentración de CO2 de 22% hay 78 mediciones Dentro de un ancho de clase de 2% hay 57 mediciones Cada medición corresponde a 2/57=0.035 % De manera que para las mediciones que faltaban entre el límite inferior y las 26 mediciones, es decir a 26-21=5 tendríamos 0.035%x5=0.18% que le sumaremos al límite de clase inferior: 20 % + 0.18 % = 20.18 %. Podemos decir que una décima parte de las observaciones arrojan una medición del nivel de contaminación por CO2 inferior a 20.18%. Para el sexto decil tenemos que se ubica en el intervalo 22 % a 24 % donde se completan los 6x256/10=156 primeros elementos. Hasta una concentración de CO2 de 24% hay 167 mediciones Hasta una concentración de CO2 de 22% hay 78 mediciones Dentro de un ancho de clase de 2% hay 99 mediciones Cada medición corresponde a 2/99=0.02 % De manera que para las mediciones que faltaban entre el límite inferior y las 78 mediciones, es decir a 156-78=78 tendríamos 0.02%x78=1.58% que le sumaremos al límite de clase inferior: 22 % + 1.58 % = 23.58 %. Podemos decir que seis décimas partes de las observaciones arrojan una medición del nivel de contaminación por CO2 inferior a 23.58 %. El percentil 85 corresponde a 218 mediciones y se ubica en el intervalo de clase que va de 24 % a 26 %. Hasta una concentración de CO2 de 26% hay 240 mediciones Hasta una concentración de CO2 de 24% hay 167 mediciones Dentro de un ancho de clase de 2% hay 73 mediciones Cada medición corresponde a 2/73=0.0274 %
113
4
Tendencia Central
De manera que para las mediciones que faltaban entre el límite inferior de la clase percentílica y las 218 mediciones, es decir a 218-167=51 tendríamos 0.00274 % x 51 = 1.4 % que le sumaremos al límite de clase inferior: 24 % + 1.397 % = 25.4 %.
7. Si una empresa de energía quiere determinar el consumo de energía para un periodo futuro, ¿cual será la medida de tendencia central mas apropiada? Solución. Aunque para este propósito sería mas adecuado trabajar con una serie de tiempo o una curva de tendencia, definitivamente, la media resulta ser la medida de tendencia central que más se adecua a la pretensión de estimar un valor futuro ya que puede acercarse mas a la tendencia de la variable en cuestión, al contrario de la mediana que nos proporciona una información referente a un periodo ubicado en la parte central de nuestra distribución. 8. Si un jefe de recursos físicos necesita adquirir el calzado para proveer de dotación al personal que devenga menos de dos salarios mínimos, necesitamos saber cual es el valor más representativo de la talla usada por los empleados, con el fín de mantener mas cantidad en el stock, teniendo en cuenta que sacar un inventario persona por persona resulta difícil por la cantidad de personal que entra y sale de la entidad. ¿Cuál medida de tendencia central es la más adecuada? Solución. La moda resulta ser mas adecuada, por obvias razones, primero por que si indica el valor de la talla que se usa con más frecuencia, mientras que la media y la mediana podrían ser valores que no correspondan a ninguna talla.
114
Estadistica 1
Unidad 5 Dispersión y Asimetría
115
5
116
Dispersión y Asimetría
Estadistica 1 OBJETIVOS
* A partir de una distribución de frecuencia el estudiante estará en capacidad de determinar el grado de dispersión absoluta o relativa, usando las medidas correspondientes.
INTRODUCCIÓN En la unidad anterior se estudiaron las medidas de tendencia central que describen el comportamiento de los datos en una distribución de frecuencia. Pero las informaciones que esas medidas proporcionan son limitadas y nada nos dicen sobre la forma en que están diseminados o dispersos los datos con relación a la tendencia central; además, poco nos indican sobre un determinado dato con relación a los otros de la distribución. Por ejemplo al investigar acerca del nivel de ingreso por familia, si conocemos la media, la mediana y la moda, aún no sabemos nada acerca de si hay familias con ingresos muy por debajo o por encima del promedio, es decir no podemos evaluar como es la distribución del ingreso, si este esta concentrado en un valor alrededor de la tendencia central o si encontramos las familias equidistribuidas en distintos niveles de ingreso. Al estudiar la media aritmética y algunas de sus propiedades, se advirtió que de las medidas de tendencia central la media es la única que se utiliza en desarrollos matemáticos y que en esa valiosa propiedad radica su gran importancia y sus numerosas aplicaciones en el campo de la estadística. Entre las medidas de dispersión a estudiar en esta unidad están las que tienen relación con la media aritmética y que, al igual que la media, tienen propiedades algebraicas que les permiten intervenir en relaciones matemáticas que son la base estructural de los análisis estadísticos. Por sus propiedades algebraicas estas medidas de dispersión son las mas importantes y de más frecuente aplicación.
117
5
118
Dispersión y Asimetría
Estadistica 1 El estudio de la variabilidad de los datos, conocido en estadística como dispersión, tiene como objeto el describir y cuantificar por medio de medidas características (parámetros) la uniformidad que presentan los datos en estudio. Cuando los datos tratan de acumularse alrededor de un valor central característico se dice que hay poca dispersión. Cuando los valores individuales se alejan del valor central (media) se dice que existe mayor dispersión. Se hace necesaria entonces una medida que indique cual es el grado de dispersión o variación que tienen los datos, para poder describirlos con mayor precisión, lo mismo que para hacer posible la comparación de varios conjuntos de datos correspondientes a situaciones o escenarios diferentes. Partiendo de este concepto, la variación de los datos se da a lado y lado del punto correspondiente a la media y por tanto origina formas diferentes en la distribución de los elementos. Esta característica de las distribuciones que describe el grado de deformidad o sesgo hacia la derecha o izquierda de la media la conocemos como asimetría. Una distribución de datos es simétrica, cuando existe equilibrio en el número de elementos y en la separación de estos, que se encuentran a uno y otro lado del valor promedio respecto del cual se comparan o contrastan dichos valores es decir de la media. En el caso contrario se habla de asimetría, refiriéndonos a la deformidad o desequilibrio en la concentración de los datos alrededor de una medida de tendencia central que generalmente es la media.
La variabilidad es la característica fundamental de los elementos de una población, y la mayor parte del trabajo estadístico se dedica a su análisis. Los datos cuantitativos expresan la disparidad entre los valores individuales, y desde el punto de vista estadístico, la medida o descripción de esta disparidad es tan importante como la descripción de la tendencia que estos elementos pueden presentar alrededor de un valor característico. Las medidas de tendencia central y las de dispersión son complementarias en la medición de la forma en que están distribuidos los datos y por tanto resultan muy útiles al análisis estadístico. La media no sirve para expresar representatividad si no está acompañada por el valor de la dispersión o variabilidad que tienen los datos en torno a él, por que de lo contrario, la variación de los datos en la serie queda oculta. Si se encuentra que el valor de la dispersión es muy grande, debe concluirse que los datos de que se trata difieren entre sí en forma amplia y por consiguiente el promedio no los representa. Al contrario, si el valor de la dispersión es pequeño, significa que la diferencia entre el valor de la media y el de cada dato particular es pequeña y por tanto los datos son muy semejantes y la media los representa. En síntesis, la dispersión o grado de significación sirve para conocer cuan representativo es el valor de la media en una población de datos. Las medidas utilizadas para cuantificar la dispersión pueden ser absolutas cuando están expresadas en las mismas unidades de los datos; o relativas las que se expresan en forma de razón o proporción.
119
5
Dispersión y Asimetría
MEDIDAS DE DISPERSIÓN ABSOLUTA El Rango. Consideremos la situación siguiente. En dos ciudades diferentes se recolectaron muestras para determinar el ingreso diario promedio de un vendedor ambulante, con el fin de idear y aplicar políticas referentes a su seguridad social y para establecer el volumen de impuesto con que se le podría gravar. Los resultados se agrupan en la siguiente tabla de distribución de frecuencias: Niveles de ingreso de vendedores ambulantes en las ciudades AyB
Figura 5.1. Distribuciones con distinto rango * Observe los diagramas correspondientes a las distribuciones de frecuencia de los niveles de ingreso en cada ciudad, de acuerdo con esa observación determine en que ciudad existe mayor equilibrio en cuanto al ingreso. Explique su respuesta. * Calcule la media para las dos distribuciones. * ¿Sirve para comparar las dos distribuciones, emplear la media de cada una de ellas? ¿Por qué?
120
* ¿Qué significa, en términos de nivel de ingreso, que la media de los dos conjuntos de datos sean iguales? * ¿Por qué, a pesar de que la media de las dos distribuciones es aproximadamente la misma, ellas no reflejan que las dos ciudades tengan diferencias notorias en el vo-
Estadistica 1 lumen de ingreso de los trabajadores informales, en este caso los vendedores ambulantes? * ¿En cual de las dos ciudades se presenta un nivel de ingreso mas equilibrado y justo? Si usted prefiera la distribución de ingreso de la ciudad B, muy seguramente habrá notado que la diferencia entre los dos diagramas es la dispersión. El diagrama para la ciudad A presenta mayor variabilidad que el de la ciudad B, ello nos indica que el ingreso es más homogéneo en la ciudad A que en la ciudad B. Los datos para la ciudad A se encuentran más dispersos, puesto que el ingreso mínimo es menor que el ingreso mínimo en la ciudad B, y además, la medida del ingreso máximo obtenido en la ciudad A es mayor que el máximo ingreso de la ciudad B. En otros términos, podemos decir que en la ciudad A los ingresos de los vendedores ambulantes varían en intervalo más grande de valores. El rango es el tamaño del intervalo en el cual varían los elementos de un conjunto de datos numéricos y se calcula encontrando la diferencia entre el mayor valor y el menor valor de dicho conjunto. * El rango es una medida muy fácil de calcular. ¿Cree usted que el rango sirve para comparar eficientemente la dispersión entre los elementos de cualquier par de conjuntos? ¿Es universal?, Es decir, ¿sirve para todos los casos? Consideremos ahora la siguiente situación. En un concurso de méritos para la construcción de dos escuelas se presentaron diversas propuestas, las cuales obtuvieron las calificaciones que se representan en el siguiente diagrama:
Figura 5.2. Distribuciones con igual rango y diferente dispersión.
121
5
Dispersión y Asimetría
* Observe cuidadosamente los dos diagramas y diga que información nos proveen. * ¿Cuál gráfica, refleja mayor dispersión de los datos? ¿Para cuál escuela cree usted que se presentaron propuestas cuya calificación fue mas uniforme? * ¿Cuál es el rango de cada conjunto de datos? ¿Sirve en este caso el rango como medida adecuada para comparar la dispersión de los dos conjuntos de datos? Justifique su respuesta. * Determine cual es la causa por la cual el rango no es una buena medida de la dispersión que se aplique a todos los casos. Se vio en el segundo ejemplo que aunque tenemos dos distribuciones con distintos grados de dispersión, el rango resulta ser el mismo. La dispersión en la calificación de las propuestas para la escuela Bellavista es mayor que para la otra escuela. Tenemos entonces que el rango no refleja lo que la observación de la gráfica nos muestra como evidente. Al encontrar el problema de que el rango depende exclusivamente de los valores extremos mientras que la dispersión tiene que ver con todos los datos de la distribución, nos vemos en la necesidad de buscar otra medida de dispersión que supere esta dificultad. En conclusión, podemos decir que el rango es la medida más burda de dispersión, sin embargo tiene un gran valor dentro del diseño y análisis estadístico. Por basarse sólo en los extremos presenta algunos inconvenientes en su aplicación: * Por ser una medida de posición, puede estar afectada por un valor no característico o inusual dentro del conjunto de valores. * No es una medida de dispersión de todos los valores que intervienen en el análisis. * Es altamente sensible al número de elementos en estudio. Cuando se incrementa el tamaño de la muestra puede ocurrir que dentro de los nuevos valores aparezcan datos con mayor valor que el superior, o menor valor que el inferior, haciendo variar el valor del rango.
122
* Es la medida de dispersión menos fiable en especial si se le compara con la desviación típica que estudiaremos luego. También tiene como desventaja el ser poco estable. Sin embargo, el rango es una medida útil de la dispersión en especial cuando el tamaño de la muestra es pequeño. Una muestra es pequeña cuando el numero de datos es inferior a 30. Por ejemplo en muestras para el control de calidad donde usualmente el número de elementos no sobrepasa los 10. También es usual para expresar las variaciones en las temperaturas ambientales diarias, mensuales o anuales o para conocer la dispersión extrema en el comportamiento bursátil (valores máximo y mínimo de la cotización de las acciones), expresando el margen de beneficio de las transacciones.
Estadistica 1 Rango Intercuartil. Para eliminar la influencia de los valores extremos, en estadística se buscó una medida que analizara la situación del intermedio de la distribución, tomando la diferencia entre el tercer cuartil Q3 y el primer cuartil Q1 y que se llamó rango intercuartil. Rango Intercuartil Q = Q3 – Q1 Rango Semi-intercuartílico o desviación cuartil. Es la mitad del rango intercuartil.
Ejemplo. Para la distribución de frecuencia de las edades de los deportistas, que se trabajaron en las dos unidades anteriores, hallar Q y QD. Q = 151,7 – 141,2 = 10,5 centímetros. QD = 10,5/2 = 5,25 centímetros. Lo que permite decir que la mitad de los deportistas tienen una estatura con desviación respecto a la mediana hasta de ±5,25 centímetros. A pesar que el rango intercuartil y la desviación cuartil, como medidas de variabilidad de las observaciones son más adecuadas que el rango, presentan varios inconvenientes que demeritan su uso: *
No toman en consideración todos los valores de la distribución y puede ocurrir que los valores inferiores a Q1 o s uperiores a Q3 estén muy compactados o muy diversos, y los valores de Q y QD no cambiarían por ello. No es posible, conociendo sólo Q o QD, hacer la ubicación precisa de una observación dentro de la distribución. *
* Al igual que la mediana, que es el segundo cuartil, no tienen propiedades que les permitan intervenir en las relaciones matemáticas que utiliza la estadística.
123
5
Dispersión y Asimetría
Desviación Típica o Estándar. Para superar la dificultad de tropezar con las debilidades de las medidas anteriores de dispersión que no toman en cuenta todos los valores del conjunto y no solamente valores extremos o valores de cuartiles. ¿Cómo podemos medir la dispersión con una herramienta que verdaderamente represente la sensación de dispersión y que se aplique de manera universal a todos los casos?. La siguiente forma de llegar al concepto de desviación estándar fue propuesta por Perry y otros5 nos permite una fácil comprensión, veamos: Suponga que, para cada una de las situaciones representadas en las gráficas siguientes, se va a realizar este procedimiento, Primero, calcular, para cada valor, la distancia que hay de él a un dato fijo; segundo, sumar esas distancias; y tercero, emplear dicho resultado como medida de dispersión de la correspondiente distribución. * ¿Qué relación hay entre esas sumas de distancias? Es decir, ¿en que caso resultará mayor esa suma de distancias?
Figura 5.3. Distribuciones con diferente dispersión. * Generalizando la respuesta a la pregunta anterior, ¿qué relación hay entre la suma de distancias a un dato fijo para una distribución muy dispersa y la correspondiente suma de distancias para una distribución menos dispersa?
5 En este momento debe ser claro, que para medir la dispersión de un conjunto de datos, es necesario tener en cuenta la distancia que hay de cada uno de los datos del conjunto a otro
124
El ejemplo fue tomado del libro Matemáticas, azar y sociedad y que se cita en la bibliografía al final de esta unidad.
Estadistica 1 dato, que se va a tener como referencia. El problema consiste en determinar cuál es la mejor referencia. Veamos si conviene que el mínimo sea tal referencia. Considere cada una de las siguientes distribuciones: Distribución 1: 1, 2, 3, 4 Distribución 2: 5, 6, 7, 8 * ¿Alguna de las distribuciones es más dispersa que la otra? ¿Por qué? * Halle el mínimo de cada una de las dos distribuciones y calcule la distancia que hay de cada uno de los datos de la primera distribución al mínimo de dicha distribución (diferencia entre un valor de la distribución y el mínimo de la misma) y haga la suma de esas distancias. También calcule la suma de las distancias que hay de cada uno de los datos de la segunda distribución al mínimo de la misma. (Dé su respuesta completando la siguiente tabla.) * ¿Corroboran los números que encontró en el ítem anterior su intuición con respecto a la dispersión de las dos distribuciones que estamos analizando? Es decir, ¿se puede pensar que la suma de distancias de cada uno de los valores de la distribución al mínimo de la distribución es una buena medida de la dispersión?
Ahora, considere las distribuciones siguientes: Distribución 3: Distribución 4:
1, 4, 6, 9 1, 1, 2, 3
125
5
Dispersión y Asimetría
* qué?
¿Cuál de las dos distribuciones es más dispersa? ¿por
* Emplee el mismo criterio que se utilizó en la tabla anterior, para hallar los números que permitan comparar la dispersión de las dos distribuciones. (De su respuesta completando la siguiente tabla.)
*
Al usar ese criterio, ¿se corrobora su intuición?
Considere la distribución: Distribución 5:
1, 1, 1, 2, 2, 2, 3, 3, 3, 4, 4, 4
* Haga el diagrama de las distribuciones 1 y 5. ¿Intuitivamente, alguna de esas dos distribuciones es mas dispersa que la otra? ¿Cuál? * Emplee el mismo criterio para comparar la dispersión de las dos distribuciones 1 y 5. ¿Se corrobora su intuición? Observe que las distribuciones tienen la misma dispersión, el criterio que veníamos utilizando y que parecía ser un buen criterio para medir y comparar la dispersión de dos conjuntos, arroja una información que en este caso no sirve, pues es contrario a la evidencia. Por tanto, la suma de todas las distancias de los datos de un conjunto al mínimo no constituye una buena herramienta para medir la dispersión pues no es universal. * Comente la validez de esta afirmación: “La medida de dispersión definida anteriormente no sirve por que no tiene en cuenta el número de datos”
126
Estadistica 1 Considere entonces otro criterio para medir la dispersión: Se calcula la distancia de cada uno de los datos de la distribución al mínimo de dicha distribución; segundo, se hace el promedio de dichas distancias; y tercero, se emplea el resultado como medida de dispersión de los datos de la correspondiente distribución.
* Utilice este nuevo criterio para medir la dispersión de las distribuciones 1 y 5. Y, comente la bondad de este criterio. (Dé su respuesta empleando una tabla como la siguiente.)
Considere las siguientes distribuciones: Distribución 6: Distribución 7:
1, 5, 6, 7, 8 1, 2, 3, 4, 8
* ¿Intuitivamente, alguna de las dos distribuciones es más dispersa que la otra? Utilice el último criterio definido, - el promedio de las distancias de cada uno de los datos de la distribución al mínimo de la misma – para medir la dispersión de las distribuciones 6 y 7 y compararlas. ¿Se corrobora su intuición? ¿cuál es el problema?. Emplee una tabla como la siguiente:
127
5
Dispersión y Asimetría
Debe ser claro que la última “medida de dispersión” que hemos definido tampoco es una buena herramienta para comparar la dispersión de dos distribuciones pues depende de qué tan alejado esté el mínimo del resto de los datos de la distribución. Por tanto, aún no hemos encontrado cuál es la mejor referencia con respecto a la cual debemos medir las distancias. * Sugiera cuál es una buena referencia con respecto a la cual se deban medir las distancias, para obtener una medida de dispersión. Puesto que la media de una distribución es, en términos generales, un buen representante de la distribución, resulta natural pensar que la referencia que hemos estado buscando es esa medida. Bien, entonces definamos ahora como medida de dispersión el promedio de las “distancias” (diferencias entre los valores de la distribución y la media de la misma) de cada uno de los datos de la distribución a la media de la distribución. Para cada una de las distribuciones 1, 5 y 6 emplee la definición dada anteriormente para medir y comparar la dispersión de los datos de cada una de las tres distribuciones.
128
Estadistica 1 * ¿Le sorprende el resultado? ¿En que consiste y cómo se puede resolver el problema que hemos encontrado al definir así la medida de la dispersión? Usted debió encontrar que el problema reside en que los valores positivos (que corresponden a los datos por encima de la media) se anulan con los valores negativos (que corresponden a los datos por debajo de la media). En otras palabras, no se está haciendo el promedio de verdaderos valores de distancia. * vas?
¿Cómo lograr que todas las diferencias sean positi-
Como lo que nos interesa es la distancia de cada valor a la media, debemos obtener valores positivos (recuerde que no existen distancias negativas). Una posible manera de obtener valores positivos es elevar al cuadrado cada una de las diferencias obtenidas. (la otra forma es trabajar con el valor absoluto de las diferencias; sin embargo, no tomaremos ese camino.) Y, entonces, se puede pensar en definir una herramienta que mida la dispersión de una distribución, como el promedio de los cuadrados de las diferencias de cada uno de los datos a la media de la distribución. Verifique que al emplear esta última herramienta para medir y comparar la dispersión de cualquier par de distribuciones de las dadas anteriormente, el resultado que se obtiene corrobora la intuición correspondiente. Para ello compare las distribuciones 5 y 6.
129
5
Dispersión y Asimetría
Hemos encontrado, entonces, una herramienta que depende de todos los datos de la distribución y además tiene en cuenta el número de datos que hay en ella. Además, proporciona resultados que son coherentes con la observación y la intuición. Esta medida se conoce como varianza de la distribución. La varianza de un conjunto de datos numéricos es una medida de su dispersión y se define como el promedio de los cuadrados de las diferencias de cada valor a la media aritmética. En una cierta investigación se tomó una muestra de 10 niños y por cada uno de ellos se obtuvo una medida correspondiente a su estatura (en metros). A continuación se da la muestra de datos: {1.25, 1.32, 1.38, 1.25, 1.32, 1.20, 1.32, 1.32, 1.25, 1.25} * Determine la estatura promedio de ese conjunto de datos. – No olvide dar la respuesta en metros. – Además, utilice la varianza para calcular la dispersión de los datos. ¿En que unidades se expresa esta medida? Comente este hecho y sugiera alguna solución. Por razones como las que usted descubrió en el caso de las estaturas, en ciertas ocasiones, el valor más comúnmente empleado para medir la dispersión es el llamado desviación estándar que se define como la raíz cuadrada de la varianza. La desviación estándar de un conjunto de datos numéricos es una medida de su dispersión. Se define como la raíz cuadrada del promedio de los cuadrados de las distancias que hay de cada uno de los datos del conjunto a la media aritmética del mismo. Bastante didáctico ha sido el ejemplo que se tomo del texto de Perry y otros, fácilmente nos queda ahora construir y entender una fórmula que se pueda emplear para hacer el cálculo de la varianza y la desviación estándar.
130
Estadistica 1 Haciendo una bifurcación del procedimiento anterior podemos llagar también a otra medida que es la dispersión media, esta se obtiene cuando para superar el problema de que los valores negativos se anulen con los negativos, se utiliza el valor absoluto de las diferencias entre los valores y la media.
La desviación media es una medida de la dispersión bastante objetiva: cuanto mayor sea su valor mayor es la dispersión de los datos; sin embargo no proporciona una relación matemática precisa entre su magnitud y la posición de un dato dentro de la distribución. Por otra parte, al tomar los valores absolutos mide la desviación de una observación sin mostrar si está por encima o por debajo de la media aritmética. Desviación estándar de una muestra. Para calcular la varianza y la desviación estándar de una muestra, utilizamos las mismas fórmulas, sustituyendo N con n – 1.
¿Por qué utilizamos n – 1 como denominador en lugar de N? Los especialistas en estadística pueden demostrar que si tomamos muchas muestras de una población dada, si encontramos la varianza de la muestra para cada muestra y promediamos los resultados, entonces este promedio no tiende a tomar el valor de la varianza de la población, a menos que tomemos n – 1 como denominador de los cálculos. ¿Cómo se facilitan los cálculos?. Organizándolos es lo más fácil. Con el ejemplo que se ha venido trabajando de la distribución de frecuencia de las estaturas de los deportistas, veamos los pasos que se pueden seguir. * Podemos apoyarnos en una hoja de cálculo en la que utilizaremos cuatro columnas adicionales a la distribución de frecuencias, para realizar cálculos parciales.
131
5
Dispersión y Asimetría
* En la primera hallamos los productos entre la frecuencia absoluta y la marca de clase para cada intervalo. La sumatoria en la parte inferior de esta columna permitirá el fácil cálculo de la media. (para el ejemplo la media es de 15803/ 108=146.32. * En la segunda columna adicionada, hallamos las diferencias entre las marcas de clase y la media. * En la tercera columna, calculamos los cuadrados de las diferencias entre las medias y las marcas de clase, es decir el cuadrado de la columna anterior. * En la última columna calculará el producto de la columna anterior por la frecuencia. La sumatoria de esta última columna la podemos dividir fácilmente por el número de datos y obtenemos la varianza.
Ahora nos resulta muy sencillo calcular la varianza dividiendo el total obtenido en la última columna por el número de datos:
132
Estadistica 1 Teorema de Chevichef. No importa qué forma tenga la distribución, al menos 75% de los valores de la población caerán dentro de dos desviaciones estándar a partir de la media, y al menos 89% caerá dentro de tres desviaciones estándar. Estos son dos de los casos especiales del teorema, pero los más representativos. La descripción y explicación completa del teorema se sale de los fines del curso. MEDIDAS DE DISPERSIÓN RELATIVA. Si necesitamos comparar dos o más conjuntos de datos, por lo general no es posible la comparación utilizando la dispersión absoluta. Cuando las medidas de las observaciones son iguales, las dos medias pueden tener medias aritméticas diferentes; por estar expresadas en las mismas unidades las desviaciones estándar son comparables, pero no adoptan una correcta apreciación sobre las series que se comparan. Cuando las unidades de medida son diferentes, las medidas de dispersión absoluta no nos sirven para hacer la comparación. Otra dificultad que se tiene con las medidas de dispersión absoluta, se da cuando las muestras tienen tamaño de muestra diferente, por los cambios que introducen en las medidas en general cuando el tamaño de la muestra aumenta. Nos vemos ante la necesidad de buscar una medida de la dispersión que no se vea alterada o afectada por las unidades de expresión de los datos, ni por el tamaño de las muestras. Buscamos entonces, una medida universal para la dispersión. Coeficiente de variación. La desviación estándar no puede ser la única base para la comparación de dos distribuciones. Si tenemos una desviación estándar de 10 y una media de 5, los valores varían en una cantidad que es el doble de la media misma. Si, por otro lado, tenemos una desviación estándar de 10 y una media de 5.000, la variación con respecto a la media es insignificante. En consecuencia, no podemos conocer la dispersión de un conjunto de datos hasta que conocemos su desviación estándar, su media y cómo se compara la desviación estándar con respecto a la media.
133
5
Dispersión y Asimetría
Lo que necesitamos es una medida relativa que nos proporcione una estimación de la magnitud de la desviación con respecto a la magnitud de la media. El coeficiente de variación es una de estas medidas relativas de dispersión. Se relaciona la desviación estándar y la media, expresando la desviación estándar como porcentaje de la media. Esta medida resulta muy útil y objetiva en la comparación de distribuciones. En el ejemplo de las estaturas, el coeficiente de variación sería:
Coeficiente de desviación media. Por derivarse de la desviación media, es menos usado que el coeficiente de desviación estándar. Representa la participación porcentual de la desviación media en el promedio.
Este indicador se aplica casi exclusivamente a la comparación de dos situaciones. El resultado por si sólo no brinda mucha información. Coeficiente de desviación cuartil. Es una medida de dispersión aplicable cuando analizamos distribuciones con intervalos abiertos o con valores bastante extremos. Igualmente, para el calculo burdo de la dispersión de una serie.
134
Estadistica 1 Asimetria. Nos muestra la dirección de concentración respecto a la media, de los datos de una distribución, se puede apreciar gráficamente o expresarla matemáticamente usando el coeficiente de Pearson. Puede ser negativa si los datos tienden a acumularse a la izquierda de la medida de tendencia central y positiva si por el contrario tienden a acumularse a la derecha.
Figura 5.4. Asimetrías a la izquierda y a la derecha. En la asimetría a la derecha la media y la mediana se desplazan a la derecha de la moda, quedando la media situada entre las otras dos. En la asimetría a la izquierda, la media y la mediana se desplazan hacia la izquierda, quedando esta última ubicada en medio de las otras dos medidas de tendencia central. Coeficiente de Pearson. La asimetría se puede calcular en función de la media y la mediana así:
Curtosis.
Las curvas de distribución, comparadas con la curva de distribución normal, pueden presentar diferentes grados de apuntalamiento o de altura de la cima de la curva. Según su apuntalamiento las curvas reciben el nombre así: la curva normal se denomina mesocúrtica, leptocúrtica la de mayor apuntalamiento que la normal y platicúrtica la de menor apuntalamiento que la normal. Aunque existe método matemático para el cálculo de la curtosis, el simple gráfico nos brinda la información y la idea suficiente de la propiedad.
135
5
Dispersión y Asimetría
RECOMENDACIONES PRÁCTICAS: * Revisar cuidadosamente los datos antes de usarlos; verificar que no contengan errores; chequear en particular los valores extremos. * Elaborar histogramas o cualquier otro tipo de gráficos que permita visualizar la forma y las características principales de la distribución de frecuencias. * Diferenciar con precisión cuándo se hace referencia a un parámetro poblacional y cuándo a un estadístico muestral. * Usar en forma conjunta una media de posición y una de dispersión (como mínimo) para analizar el comportamiento de la variable. * Prestar atención a las ventajas y desventajas de las distintas medidas de posición y dispersión, para decidir correctamente su elección. * Calcular la media aritmética con los datos en bruto – sin agrupar – siempre que se requiera su valor exacto. * Dar preferencia al cálculo de la mediana como medida de posición, cuando la serie tiene pocos datos e incluye valores extremos. * No tiene sentido calcular la moda en series de datos sin agrupar. * Tanto la mediana como la moda son valores de la variable (no confundir con las frecuencias a las que están asociadas). * Comparar, siempre que se pueda, media, mediana y moda para determinar el sesgo de la distribución. * El rango o alcance es una medida de dispersión poco apropiada para describir series con muchos datos. * La desviación estándar es preferible a la varianza porque se expresa en las mismas unidades de la variable.
136
Estadistica 1 PROBLEMAS PROPUESTOS Los siguientes ejercicios, se basan en la información de esta tabla:
Fuente: DANE 1.
Defina y clasifique la variable cuantificada en la tabla anterior.
2. Diga cual es la medida más adecuada para expresar la dispersión del número de obras culminadas por trimestre. 3. Calcule el rango de las obras nuevas que se paralizaron por trimestre y explique el significado que puede tener esa medida. 4. Calcule la desviación estándar del número de casas que continúan en proceso por trimestre en la ciudad de Pereira. 5. ¿Cuál de las columnas de la tabla tiene el mayor grado de dispersión? ¿Por que utilizó esa medida para comparar?
137
5
Dispersión y Asimetría
6. Calcule la desviación media del total de obras que cada trimestre se encuentran en proceso, y diga el significado que puede tener esa medida, por ejemplo para un análisis de generación de empleo. 7. Investigue cuales fueron los ingresos totales de los municipios de su departamento durante los últimos cuatro años y determine cual fue el año con menor variación en los ingresos y cual de los municipios presenta la distribución más uniforme. (sugerencias, consulte en el DANE, o en la contraloría departamental) 8. Con los datos de la siguiente tabla que corresponden a la estadística de empresas para 1999. Si se sabe que el número de empresas en todos los ramos aumentó en 35 para el año 2000, determine la media y la varianza de la nueva variable y realice la interpretación del resultado obtenido. 9. En la siguiente tabla encontramos a que se dedican las empresas en Colombia. A partir de esos datos, encontrar la media del número de empresas por área, la desviación estándar, el coeficiente de variación y la forma de la distribución. Interprete y explique los resultados.
138
Estadistica 1 10. Construya un mapa conceptual con los elementos estudiados a cerca de la dispersión de datos. 11. Con los datos del ejercicio resuelto No. 3 de la unidad anterior determinar la desviación estándar, el tipo de distribución según el grado de curtosis y el sentido de la asimetría si la hay. Explique el significado y las implicaciones de cada resultado. 12. Explique el significado de la siguiente expresión “la inestabilidad en el precio del café obligó a los caficultores a crear un fondo que guardara dinero de las bonanzas para reponer en las crisis del precio” 13. Invente un escenario a manera de cuento o sociodrama en el que las medidas de dispersión relativa sean muy importantes. A partir de este explique la importancia de tales medidas. 14. En un artículo titulado “You aren’t paranoid if you think someone eyes your every move” (Usted no es paranoico si cree que alguien observa todo lo que hace), el Wall Street Journal señala que las grandes empresas compilan estadísticas detalladas acerca del comportamiento de cada persona. Afirma que Jockey Internacional sabe cuantos juegos de ropa interior posee; que Frito – Lay Inc, sabe que prefiere comer primero trozos de pretzels en paquete o enteros; y que, para concretar, Coca - Cola sabe que se ponen 3,2 cubos de hielo en cada vaso. ¿ha puesto usted alguna vez 3,2 cubos de hielo en su vaso? ¿Qué quería decir el artículo Wall Street Journal con esta afirmación? 15. Encuentre el rango de los precios del dólar durante el mes pasado y explique el significado del resultado. ¿Es apropiada la medida para determinar la variabilidad del dólar? 16. Encuentre un ejemplo relacionado con la administración pública y la realidad nacional en el que aplique la mayoría de las medidas de tendencia central y variabilidad estudiadas en este curso.
139
5
Dispersión y Asimetría
PROBLEMAS RESUELTOS 1. Con la información contenida en la siguiente tabla, calcular el índice medio de la tasa de cambio real por país, la desviación estándar para cada caso y el coeficiente de variación. Interpretar los resultados. Indice de la Tasa de Cambio Real Bilateral de Colombia Frente a Países Latinoamericanos 1999 – 2001
Fuente: Cálculos DANE con base en FMI Para la solución de este nos apoyaremos en la hoja de cálculo, veamos las operaciones:
140
Estadistica 1 Aunque en la figura no se alcanza a mostrar la totalidad de los datos, si es clara la operación que se describe en las últimas tres filas. En la fila 28 se calcula la media de los índices de tasa de cambio por país, como el promedio aritmético de los datos de la columna respectiva. En la fila 29 se calcula la desviación estándar poblacional de los mismos datos y en la fila 30 se calcula la relación entre la desviación típica o estándar y la media, que dándole formato de porcentaje a la celda de la hoja de cálculo, nos indicará el valor del coeficiente de variación estándar. Veamos el resultado:
A partir de la media vemos que el índice de la tasa de cambio real es mayor para México y Venezuela cuyos valores medios son 131.60 y 121.48 respectivamente, también son estos los que presentan mayor variabilidad con desviaciones estándar respectivas de 31.43 y 34.44, notemos que el tamaño de la media no en todos los casos aumentó proporcionalmente a la desviación estándar. Para el caso de Venezuela y México vemos que el índice de tasa de cambio para Venezuela es menor al de México pero la desviación estándar del mismo es mayor. Para Brasil y Ecuador se dan los menores promedios de índice de tasa de cambio, sin embargo las menores variabilidades se dan para los índices correspondientes a Chile y Perú, lo anterior nos evidencia que la media no nos puede afirmar nada acerca de la dispersión de los datos si no se acompaña de la desviación estándar o de la varianza. Otro aspecto a notar es que la desviación típica y el coeficiente de variación tienden a variar en el mismo sentido, sin embargo, a pesar que estamos comparando conjuntos de datos con tamaños iguales y con tipos de unidades iguales, vemos que por ejemplo al comparar las medidas de dispersión para Argentina y Bolivia tenemos que para los índices de tasa de cambio referentes a cada país, la desviación típica en el caso de
141
5
Dispersión y Asimetría
Argentina es menor que la correspondiente a Bolivia, sin embargo al evaluar el coeficiente de variación estándar encontramos que es relativamente mas disperso el conjunto de índices para Argentina que para Bolivia. Finalmente, vemos que si quisiéramos escoger para establecer actividades comerciales los países con los que la tasa de cambio permanezca más homogénea, entonces escogeríamos en orden a Chile, Perú, Bolivia y Argentina. 2. Con la información de la distribución de frecuencia que hemos usado en las unidades anteriores que se refiere a la estatura de un grupo de deportistas, evaluar la fiabilidad del teorema de Tchebisheff cuando afirma que por lo menos el 75% de las observaciones se encuentran entre 2 desviaciones estándar de la media. Ya se había calculado la media para la distribución que es 146.32, y la desviación estándar que corresponde a 7.37, entonces debemos mostrar que dentro del intervalo [146.32 – 2(7.37), 146.32 + 2(7.37)] = [131.58, 161.06] están el 75% o más observaciones. El resultado se nota sin necesidad de hallar el porcentaje total de datos incluidos en este intervalo. Veamos que dentro de dicho intervalo se ubican íntegramente cinco intervalos de clase y fracción de otros dos. Contando solamente las observaciones contenidas en los intervalos que están completos tenemos 98 (veamos los intervalos sombreados en la tabla siguiente) que corresponden ya al 90.74% de los datos. Como 90.74%¦75% vemos reafirmada la certeza del teorema de Tchebicheff.
Como es una distribución poco dispersa el teorema se hace mas cierto.
142
Estadistica 1 3.
Con la información del ejercicio anterior, encuentre el sesgo de la distribución.
Usemos el coeficiente de Pearson, La distribución es simétrica, podría decirse que no tiene sesgo o que su sesgo hacia la derecha es casi despreciable. 4. Determine cual medida de dispersión se puede aplicar al siguiente enunciado y calcúlela: “El precio interno del café presentó múltiples variaciones durante al año pasado, según información proporcionada por la Federación de Cafeteros el precio cambió en 23 oportunidades, el precio más alto registrado fue de $450.300 y el más bajo de $325.450 por carga” Con la información disponible sólo podemos hallar el rango, sin embargo no sabemos nada si esa variabilidad se vio afectada por un valor extremo, ni por cuanto tiempo se mantuvo cada uno, ni cuanto café se negoció a cada precio. El rango entonces fue de 450.300 – 325.450 = 124.850, como vemos una medida burda pero muy sencilla de calcular.
143
5
Dispersión y Asimetría
BIBLIOGRAFÍA
FERNÁNDEZ, Felipe; MONROY, Olga L.; RODRÍGUEZ, Liliana. Diseño, desarrollo y evaluación de situaciones problemáticas en estadística. Universidad de los Andes: una Empresa Docente. Bogotá D.C., 1998. HOEL, Paul G. Y JESSEN, Raymond J. Estadística Básica para Negocios y Economía. Compañía Editorial Continental S.A. 2da Edición. México, 1985. LEVIN, Richard I.; RUBIN, David S. Estadística Para Administradores, Editorial PRENTICE HALL, Sexta Edición., 1996 MENDENHALL, William. Estadística para Administradores. Traducido por Dirk Valckx Verbeeck. Grupo Editorial Iberoamérica. México, 1990. PORTUS GOVINDEN, Lincoyan. Curso Práctico de Estadística. Editorial Mc Graw Hill. Bogotá D.C., 1985. SPIEGEL, Murray R. Estadística. Traducido por Rafael Hernández Heredero. Editorial Mc Graw Hill. 2da Edición. Madrid, 1998.
144
Estadistica 1
Unidad 6 Probabilidad
145
6
146
Probabilidad
Estadistica 1 OBJETIVOS
*
Comprender y aplicar las reglas de la probabilidad de eventos. Usar adecuadamente las técnicas de conteo y análisis combinatorio.
INTRODUCCIÓN El reconocimiento del papel que juega el azar en todos los eventos cotidianos, hace parte de los cambios paradigmáticos que estamos viviendo. En física moderna se ha visto como cuando un haz de partículas pasa a través de una rendija sufre un proceso de difracción como si se tratare de una onda, haciendo que las partículas se desvíen en cantidades que no corresponden al parecer a ninguna regla (ello puede ser parte de las limitaciones que tenemos para tomar medidas en ese ámbito sin alterar el fenómeno, o puede ser simplemente producto del azar). La probabilidad intenta delimitar ese azar, en busca de no tanto medirlo con exactitud, sino de determinar la tendencia significativa que pueda presentar. La probabilidad se hace más útil en la actualidad dada la acogida que han tenido los métodos de la planificación prospectiva como el Delphi y su matriz de impactos cruzados. Se recomienda el estudio del capítulo en forma autónoma para luego en la sesión presencial abordar la revisión de los ejercicios resueltos y el despeje de dudas surgidas en el estudio del capítulo, posteriormente el desarrollo de ejercicios propuestos nuevamente de forma autónoma. Sin embargo, dependiendo de la dinámica del curso, el profesor podrá tomar otras estrategias para abordar este capítulo. Aunque la probabilidad tiene aplicabilidad en todos los espacios de la administración pública, la comprensión del tema se hace mucho más fácil de comprender si se aplica a situaciones no prácticas, tales como las que se presentan en ciertos juegos de azar, luego de ello si se podrán llevar estos conceptos a situaciones prácticas de nuestro campo de estudio. Por esta razón, las definiciones y las reglas de probabilidad se presentan en el contexto de modelos o problemas idealizados, pero se supone que las mismas reglas se podrán aplicar luego a situaciones de la vida real y en especial concernientes a lo que tiene que ver con el Estado.
147
6
148
Probabilidad
Estadistica 1 Azar y desconocimiento. El azar está relacionado con el desconocimiento. Un ejemplo nos puede ayudar; piense en un proceso industrial que produce grandes cantidades de un artículo determinado. No todos los artículos producidos son idénticos, cada artículo puede calificarse como “bueno’’ o “defectuoso’’. Si de toda la producción se escoge un artículo “a ciegas’’, ese artículo puede resultar bueno o defectuoso. Esta es una situación azarosa (o aleatoria) y la parte esencial de este azar es que no sabemos si el artículo seleccionado es defectuoso. Claro que con experiencia en el proceso es posible cuantificar de una manera numérica qué tan factible es que el artículo sea defectuoso o nó. Azar e incertidumbre. Hay otro concepto asociado al azar y es el de incertidumbre. Veamos un ejemplo. Respecto a una inversión, podemos estar contemplando invertir una cantidad de dinero. El retorno sobre la inversión puede ser fijo, como en el caso de una cuenta en un banco con interés fijo; pero pensemos en una empresa. El negocio puede resultar desde un gran éxito hasta un fracaso, es decir, la ganancia no es fija, sino que depende del éxito a obtener. Si no podemos evaluar qué tan factible es cada monto posible de la ganancia, tenemos una situación de incertidumbre. Por el contrario, si podemos tener una idea de qué tan probables son los diferentes resultados y entonces tendremos una situación de riesgo. Esta última es la que llamamos aleatoria o azarosa.
Hay experimentos que pueden repetirse o que pueden concebirse como repetitivos. Enumere tres ejemplos de situaciones que se puedan repetir. ¿El lanzar una moneda, leer la temperatura diaria, contar el número de funcionarios que llegan tarde al trabajo, son experimentos que pueden ser repetitivos? ¿Y, evaluar los niveles de solidaridad de las personas frente a catastrofes naturales, puede ser repetitivo? Explique. Un experimento en el que varios conejos están alimentados con diferentes raciones para determinar el crecimiento relativo debido a las propiedades de las raciones, sólo puede realizarse una vez con los mismos animales; sin embargo, el experimento puede considerarse como uno de un ilimitado número de experimentos similares. ¿Puede considerarse entonces como repetitivo?. Justifique su respuesta. La selección de una muestra de una población es un experimento repetitivo y es, naturalmente, el tipo de experimentos de particular interés en la solución de problemas estadísticos.
149
6
Probabilidad
Comencemos con los modelos sencillos, consideremos el experimento básico de lanzar una moneda dos veces, o lo que es lo mismo, lanzar dos monedas distintas simultáneamente una vez. En este experimento hay cuatro posibilidades designadas por: CC, CS, SC, SS; donde CS significa que se obtiene una cara en el primer lanzamiento y un sello en el segundo. Si el experimento consiste en lanzar tres monedas o un a tres veces, serán posibles ocho resultados: CCC, CCS, CSC, CSS, SCC, SCS, SSC, SSS; donde CSC significa sacar una cara en el primer lanzamiento, sello en el segundo y cara en el tercero. Un experimento como la valuación diaria del precio del dólar, sin embargo, tiene un infinito número de resultados posibles, puesto que el precio de una moneda en pesos es una variable de tipo continuo. Sin embargo haremos inicialmente los análisis de experimentos con un número finito de resultados posibles. Al estudiar el papel de la probabilidad dentro de un experimento, primero debemos decidir cuales de los resultados o eventos posibles, son de nuestro interés. Estos se deben definir de manera tal que sean excluyentes, es decir que en un experimento se presente un solo evento como resultado. En el experimento de lanzar tres veces al aire una moneda, lo que interesaba saber era si la moneda mostraba cara o sello en cada uno de los lanzamientos, por lo tanto todos los resultados posibles son los que escribimos anteriormente. Otro juego de azar de gran valor ilustrativo, es el que consiste en extraer una bola de una caja que contenga tres bolas rojas, dos negras y una verde. Aquí el interés está enfocado solamente en el color de la bola extraída y no en que bola salió en particular. Aquí hay tres posibles resultados del experimento correspondientes a tres colores. Analicemos ahora el ejemplo típico del lanzamiento de dos dados de diferente color (es decir que se puede diferenciar uno del otro, en caso contrario deberá lanzarse uno antes de otro) en el que se tiene el interés de saber el número de puntos mostrado en cada uno de ellos, tendremos entonces 36 resultados posibles, por que cada uno tiene seis resultados posibles, y estos resultados pueden combinarse de dos en dos, en todas las formas posibles. Tabla 6.1. Espacio muestral de un par de dados.
150
Estadistica 1 El primer número de cada par denota el número que saldrá en el primer dado y el segundo número representa la cantidad de puntos que salieron en el segundo. El conjunto de eventos que representan los resultados posibles de un experimento se llama espacio muestral. Así también, Cuando se tiene un espacio muestral llamamos, formalmente evento a cualquier subconjunto del espacio muestral. Decimos que un evento se realiza, cuando el resultado del experimento aleatorio es un elemento del evento, ello permite inferir que existen eventos formados por asociaciones de otros. Para el último ejemplo tenemos un espacio muestral de 36 eventos. El siguiente paso en la construcción de un modelo matemático para un experimento es asignarle a los eventos números que representen las frecuencias relativas con que se espera que estos ocurran. Aparte del espacio muestral, en cada experimento aleatorio hay una asignación primaria de probabilidades. Basados en la experiencia o en razonamientos de simetría, a cada elemento del espacio muestral le asignamos una evaluación de qué tan factible es. Esta evaluación se refleja en un porcentaje (número entre 0 y 1). Entre más factible sea el resultado, mayor es el porcentaje que se le asigna. Los casos extremos son:
ro de caras en dos cara y sellos sea menor o igual a 7.8'’, aunque el evento pueda resultar extraño en su definición, siempre sucede y tiene probabilidad igual a 1.
Un evento que no puede suceder (evento nulo), tiene probabilidad cero. Muchas veces estos eventos con probabilidad cero son imposibles por alguna contradicción lógica en su definición. Por ejemplo: “que la suma de dos dados sea nón y los dos dados tengan el mismo número’’. En el otro extremo hay eventos que siempre suceden y estos tienen probabilidad uno (eventos seguros). Por ejemplo: “que el núme-
Si el experimento de lanzar tres veces la moneda el aire se repitiera un gran número de veces y se registrara acumulativamente la proporción de los experimentos que dieran por resultado, por ejemplo, tres caras, podría esperarse una proporción aproximada a 1/8, por que se espera que cada uno de los ocho resultados ocurra con la misma frecuencia. En la práctica, los experimentos de esta clase, por lo general muestran que dichas esperanzas son justificadas, siempre y cuando la moneda
La asignación toma la forma matemática de una función y se llama función de probabilidad. El dominio de esta función es el espacio muestral y su codominio es el intervalo real [0, 1]. Esta función nos da las probabilidades de los eventos simples. Para un evento compuesto, simplemente sumamos las probabilidades de los elementos que lo componen.
151
6
Probabilidad
esté bien balanceada y que además se lance al aire vigorosamente. En virtud de estas consideraciones debe asignarse el número 1/8 a cada uno de los eventos del espacio muestral. En el espacio muestral se llama probabilidad del evento ei al número que se le asigna a tal evento y se representa como P{ei}. Así, en el experimento de lanzar tres monedas al aire, cada uno de los eventos e1, e2, e3, ... e8, posee la probabilidad 1/8. Si el experimento de seleccionar un número dígito de una tabla de números aleatorios, se hallará que cada no de los diez dígitos 0, 1, 2, ...9 aparece aproximadamente con la misma frecuencia relativa, y por consiguiente, que la frecuencia relativa experimental para cada uno de los dígitos tiende a 1/10. Con base en dicho experimento, deberá asignársele la probabilidad de 1/10 a cada uno de los eventos del espacio muestral. El experimento de lanzar dos dados se trata casi de la misma manera que el de lanzamiento de dados. ¿qué probabilidad le corresponde en este caso a cada evento del espacio muestral? La simetría y la experiencia sugieren que a cada punto del espacio de muestreo debe asignársele una probabilidad de 1/36. Para el experimento de sacar bolas de colores, la situación es un poco distinta de las anteriores. ¿Por qué podemos decir esto? ¿se espera en este caso que cada uno de los resultados ocurra con la misma frecuencia relativa? Explique por que. Si las bolas se mezclan bien dentro de la caja antes de cada extracción y además, siempre se vuelve a introducir entre la caja la bola extraída, de tal manera que el contenido de la caja no cambie, puede esperarse obtener una bola negra con el doble de frecuencia que una bola verde y una bola roja con el triple de frecuencia que una bola verde. Esto significa que si se repitiera el experimento un gran número de veces, podía esperarse que las frecuencias relativas para los tres eventos con-
152
? sistentes en sacar colores rojo, negro y verde tendieran a 3/6, 2/6 y 1/6, respectivamente. A partir de los experimentos anteriores evidenciamos la forma general de proceder para asignar probabilidades a cada uno de los eventos del espacio muestral. Si el experimento es de tal naturaleza que la simetría y otras consideraciones similares sugieren qué frecuencias rela-
Estadistica 1 tivas se esperan para los diferentes resultados, entonces se escogen estas como probabilidades para los eventos correspondientes. Estas fueron las bases para la asignación de probabilidades en el experimento del cara y sello, en el de las bolas de colores y en el de los dados. Si no hay consideraciones de simetría aplicables al caso, pero si se encuentran los resultados experimentales, entonces pueden emplearse como probabilidades las frecuencias relativas obtenidas en dicha experiencia. La asignación de probabilidades para los eventos del espacio muestral conformado por la selección aleatoria de dígitos estuvo basada parcialmente en la experiencia y también en forma parcial en la confianza que se tiene en el criterio de quienes hayan construido la tabla de números aleatorios. Hay varios métodos para construir tablas de números aleatorios, siendo algunos de ellos muy complicados. En todas estas tablas debe esperarse que cada dígito aparezca el mismo número de veces y que no existan patrones de secuencia de dígitos. Sin embargo, como a menudo tales conjuntos de dígitos están basados en dispositivos físicos, que se supone producen dígitos que poseen dichas propiedades, no es razonable esperar de un conjunto de tales dígitos que se comporten de esta manera ideal. Todo lo que puede esperarse es una buena aproximación. Invente una regla o truco para generar números de una cifra, de tal forma que parezcan lo más aleatorios posibles, que cada uno de los dígitos tenga la misma probabilidad de salir generado y que no se presente ningún patrón de secuencia. Que fundamento tiene la fe del apostador de chance en coger “la muela” (es decir el número terminado en el dígito que lleva más tiempo sin salir en dicha posición). Verifique si se cumple tal situación con los números con que terminaron las loterías de la última semana e improvise una conclusión. Lance una moneda que no esté deforme, veinticinco veces y contabilice los resultados. Láncela nuevamente 5 veces. ¿Tendieron los resultados de estos últimos intentos a compensar el evento que tuvo menos ocurrencia en los primeros 25 intentos? Repita el experimento tres veces o más si tiene dudas y escriba una frase concluyente al respecto. En un juego de cara y sello se obtuvieron 6 caras consecutivas, el jugador que va perdiendo apuesta nuevamente al sello por que considera que este ahora tiene más probabilidad de salir. ¿Es el azar un proceso autocorrectivo? ¿Qué validez tiene el razonamiento del jugador que aspira a recuperarse en el juego?
153
6
Probabilidad
Como las probabilidades asignadas a los eventos (los eventos equivalen a puntos en términos geométricos dentro de un espacio de muestreo) son las frecuencias relativas esperadas con base en consideraciones de simetría, o bien las frecuencias relativas de una larga serie de experimentos prácticos, las probabilidades deben ser números comprendidos entre 0 y 1 y la suma de todas ellas debe ser 1, porque la suma de un conjunto completo de frecuencias relativas siempre es uno. En los experimentos relativos a lanzar monedas al aire, extraer de una urna bolas de colores, o lanzar dados, obviamente las probabilidades deben sumar uno, puesto que se construyeron para que así fuera. Si las probabilidades para el experimento de los números aleatorios se hubieran basado totalmente en las frecuencias relativas obtenidas en una larga serie de experimentos, entonces esas probabilidades sumarán uno. Ahora bien, en toda situación experimental, ya sea académica o real, es privilegio del estadígrafo el asignar las probabilidades que él desee a los posibles resultados del experimento, siempre y cuando sean números entre cero y uno y, además, la suma total de ellos sea uno. Al asignar estos números, se guiará por la naturaleza de la situación y por su conocimiento de ella. Generalmente, es muy sencillo asignar probabilidades satisfactorias a los resultados posibles de los juegos de azar; sin embargo, éste no es el caso para la mayoría de los fenómenos que pueden estudiarse en la vida real. Por ejemplo, si el experimento consiste en seleccionar un individuo al azar de entre la población de una ciudad y el interés está enfocado en saber si el individuo morirá o no durante el siguiente año, entonces la única forma satisfactoria de asignar probabilidades aquí es aplicando la experiencia de las compañías aseguradoras. Si uno estuviera interesado en determinar correctamente las primas de seguros, sería necesario asignar las probabilidades de muerte para cada una de las edades. Generalmente estas probabilidades se toman iguales a los valores que proporciona la experiencia, muy amplia, de las compañías aseguradoras a través de
154
los años. Como las tasas de mortalidad han ido decreciendo a medida que transcurren los años, para casi todos los grupos de edades, toda tabla de mortalidad con base en la experiencia del pasado resultará obsoleta para predecir el futuro. Así pues, las probabilidades que se asignan con base en experiencias del pasado pueden no aproximarse mucho a las verdaderas frecuencias relativas existentes actualmente y, en consecuencia, las primas calculadas a partir de ellas no son muy exactas. Afortunadamente para las compañías de seguros, las primas calculadas con base en experiencias del pasado siempre son mayores que las que podrían obtenerse a partir de datos más recientes. En muchas situaciones de la administración pública existe muy poca experiencia sobre la cual se pueda basar la determinación de probabilidades. Aun para el tipo de
Estadistica 1 matemático basado en un conjunto de probabilidades dependerá, por cierto, del realismo con que se asignen dichas probabilidades. El papel principal del estadístico es usar las probabilidades dadas para calcular las probabilidades de diferentes acciones consideradas, y contribuir a la interpretación de esas probabilidades. El gerente público que provee las probabilidades iniciales debe tomar la decisión final, basado en las probabilidades calculadas de las diferentes acciones posibles y en su confianza en la exactitud de sus juicios de probabilidad originales.
situación que se presenta frecuentemente, la experiencia pasada puede no estar al día, como en el caso de las tasas de seguros que debe cobrar una aseguradora como la Previsora (empresa comercial del Estado). Para situaciones nuevas en los negocios puede no existir experiencia comparable que sirva de ayuda en la selección de las probabilidades. Cuando se presente cualquiera de estas dos situaciones, la asignación se fundará en el criterio del hombre de negocios, respecto de los diferentes posibles resultados por ocurrir. Una vez que estas probabilidades han sido asignadas, pueden tratarse matemáticamente como probabilidades verdaderas de la misma manera que las probabilidades que son asignadas por el uso de la simetría y de la experiencia para juegos de azar. La confiabilidad de un modelo
De acuerdo con la discusión anterior, concluimos que la probabilidad de un evento simple se interpreta como la frecuencia relativa teórica o ideal del evento o como la medida que da un individuo de su esperanza en la ocurrencia del evento. Esto no implica de modo necesario que la frecuencia relativa observada en la ocurrencia del evento tienda a su probabilidad para un número suficientemente grande de experimentos, ya que puede no haberse escogido en forma correcta el modelo; sin embargo, se espera que sea así. En esta forma, si suponemos que se tiene un dado homogéneo, podemos esperar que la frecuencia relativa observada de, digamos, que aparezca un 4, muestre tendencia hacia la probabilidad 1/6 a medida que se hace un mayor número de tiradas del dado; sin embargo, no debe uno preocuparse demasiado si no tiende a 1/6, debido a las imperfecciones en cualquier artículo manufacturado y debido a la dificultad de simular un experimento ideal. En este sentido, debe notarse que los operadores de casas de juego han tenido éxito financiero suponiendo que los dados se comportan tal como se espera. Es indudable que ellos han lanzado los dados un número de veces bastante alto para comprobar tales suposiciones. Desde luego que si la experiencia muestra que un dado no se comporta en la forma esperada, rápidamente se sustituye por otro. La construcción de modelos teóricos para explicar la naturaleza es la principal función de los hombres de ciencia. Si los modelos son realistas, las conclusiones derivadas de ellos serán probablemente rea-
155
6
Probabilidad
listas también. Es relativamente sencillo construir un modelo de probabilidad para juegos de azar, pero es más difícil construirlo para situaciones del ámbito de la administración pública donde existe muy poca experiencia sobre la cual fundar el modelo. La confiabilidad de un modelo de probabilidad para la gerencia pública dependerá obviamente de la cantidad de conocimiento que se tenga de la situación en cuestión. Evento Compuesto. Los resultados posibles de un espacio muestral se llaman eventos simples. Una colección de varios eventos simples es un evento compuesto. Por ejemplo el evento A de obtener exactamente dos caras en el experimento de lanzar tres monedas al aire es un evento compuesto formado por tres eventos simples que hacen parte de los ocho eventos del espacio muestral E. La probabilidad de que el evento compuesto ocurra es la suma de las probabilidades de los eventos simples de los cuales está compuesto. Veamos el ejemplo: E = {e1=CCC, e2=CCS, e3=CSC, e4=CSS, e5=SCC, e6=SCS, e7=SSC, e8=SSS} Evento compuesto A = {e2=CCS, e3=CSC, e5=SCC} Como cada evento simple tiene una probabilidad de ocurrencia de 1/8 entonces la probabilidad del evento compuesto A será de 3/8. P{A} = P(e2)+P(e3)+P(e5) = 1/8+1/8+1/8 = 3/8 Otro ejemplo, para el evento compuesto de obtener un dígito al azar menor que 4 en el experimento de números aleatorios, tenemos que está compuesto de cuatro eventos simples: 0, 1, 2, 3. Así la probabilidad del evento compuesto que podemos llamar B será: P{B} = P{0}+P{1}+P{2}+P{3} = 4/10 = 2/5 Ahora, para el evento compuesto de obtener una bola bien sea verde o roja, al extraer una de una urna que contiene tres rojas, dos negras y una verde. Represente el conjunto o espacio muestral de eventos posibles y luego halle la probabilidad del evento compuesto.
156
Estadistica 1 En muchos experimentos de juegos de azar, se espera que los diferentes resultados posibles ocurran con la misma frecuencia relativa; por consiguiente, a todos los puntos del espacio de muestreo para tales experimentos se les asigna Ia misma probabilidad, esto es, 1/n, donde n representa el número total de puntos en el espacio de muestreo. Esto es válido, por ejemplo, en los experimentos de lanzar monedas al aire, de seleccionar dígitos al azar y de tirar dados. En cambio, no es válido para el experimento de las bolas de colores. Cuando el experimento es de tipo sencillo, esto es, cuando todas las probabilidades de los eventos simples son iguales, resulta muy fácil calcular la probabilidad del evento compuesto. Para esto basta solamente sumar las probabilidades 1/n tantas veces como eventos simples comprenda el evento compuesto. Así, si el evento compuesto A, consta de un total de n(A) eventos simples, el valor de P(A ) puede expresarse mediante la fórmula simple.
{ }= n
n
Aun cuando no siempre es posible emplear esta fórmula en los problemas de la vida real, sí es más sencillo trabajar con ella en vez de hacerlo con la definición general que involucra la adición de probabilidades de cada evento simple; por esta razón la emplearemos en esta unidad para obtener fórmulas básicas. Puede demostrarse que las fórmulas así obtenidas son perfectamente válidas también para la definición general y, por consiguiente, son aplicables a todo tipo de problemas. Eventos derivados. Como los eventos son subconjuntos del espacio muestral, todas las operaciones con conjuntos se pueden llevar a cabo entre los eventos. Veamos algunos ejemplos de interpretación de algunas operaciones de conjuntos. Evento complementario. El complemento A’, de un conjunto A es la colección de los puntos que no están en el conjunto A. De aquí se deduce, después de un poco de reflexión, (reflexiónelo Ud.), que cuando no se realiza el evento A entonces se realiza el evento A’.
157
6
Probabilidad
Por eso es natural llamar al complemento del evento A el evento “no A’’. Por ejemplo si al tirar un dado balanceado A es el evento que el resultado sea menor que 3, entonces A = { 1, 2 } y A’ = { 3, 4, 5, 6 }. Desde el punto de vista de las probabilidades P(A’) = 1 - P(A). En el ejemplo, que acabamos de ver, del dado: P(<3) = 2/6 y P(no menor que 3) = 4/6. Esta última probabilidad se entiende porque hay 4 resultados que son números “no menores que 3'’. Unión de eventos. La unión de los conjuntos A y B es la colección de elementos que pertenecen a uno u otro de los conjuntos o a ambos. El evento unión de los eventos A y B se realiza cuando sucede alguno de los dos o ambos. Decimos que el evento “A ó B’’ se realiza cuando sucede A o sucede B o suceden ambos. Para regresar al ejemplo del dado: Si A es el evento de que el resultado sea nón; A = { 1, 3, 5 } y B es el evento de que el resultado sea mayor que dos; B = { 3, 4, 5, 6 }. A ó B es el evento que se realiza cuando el resultado del dado está en cualquiera de las dos colecciones o sea: A ó B = { 1, 3, 4, 5, 6 }. En el ejemplo se puede ver el significado inclusivo de la “ó’’. Hay ocasiones, en el habla común, en que el significado de la “o’’ es exclusivo. Por ejemplo: si una muchacha dice que los amigos de su hermano son “muy niños o muy feos’’, entendemos que reaccionan de manera muy infantil o que no satisfacen los requisitos de galanura. ¿Quiere esto decir que entre los amigos de su hermano no hay ninguno infantil y feo? ¡Claro que nó!, la “o’’ que se está usando es inclusiva. En cambio cuando el restaurante nos ofrece: “café o té’’, el significado es exclusivo. No puedo pedir ambos (o me lo cobran extra).
158
Analice la exclusividad y sus implicaciones en el caso de las siguientes afirmaciones:
?
“El próximo gobierno tiene dos alternativas, o continuar intentando encontrar una solución negociada al conflicto armado, o hacer uso de la fuerza para someter a la ley a quienes la están subvirtiendo.” “Política monetaria o política fiscal, dos caminos para atacar la crisis económica del país. ¿Cuál será la fórmula correcta?”
Estadistica 1 Puede pasar que el gobierno aumente los impuestos a fin de conseguir recursos y a la vez ponga más dinero en circulación, una medida no impide la ejecución de la otra. Otro ejemplo, piense en que se tiran dos monedas, si el evento A es que caiga a lo más una cara, este evento en forma de conjunto es {SS, SA, AS} y, si el evento B es que caiga cara la primera moneda, este evento es {AS, AA} en este caso si pueden ocurrir los dos eventos juntos; el evento A y B sucede cuando las monedas caen AS. Reglas de la probabilidad. Teniendo en cuenta las operaciones para hacer conjuntos nuevos, hay algunos hechos fundamentales respecto a la probabilidad que se cumplen siempre:
Hay un caso en que los dos significados coinciden y es cuando los dos eventos no pueden ocurrir juntos. Por ejemplo: niño o niña. A dos eventos que no pueden ocurrir juntos se les llama excluyentes. En la notación de los conjuntos dos eventos son excluyentes cuando su intersección es el vacío. Intersección de eventos. La intersección de los conjuntos A y B es la colección de los elementos que se encuentran en ambos. En algunos casos esta colección no contiene a ningún elemento, en ese caso decimos que la intersección es vacía y que los conjuntos son ajenos. Decimos que el evento “A y B’’ se realiza cuando el resultado del experimento cabe dentro de la definición de A y también cabe dentro de la definición de B. Es decir “A y B’’ sucede sólo cuando ambos eventos suceden al mismo tiempo.
1. 2. 3.
P(A) mayor o igual a 0 P(S) = 1 donde S es el conjunto de todos los eventos posibles para un experimento. P(A ó B) = P(A) + P(B) si A y B son excluyentes.
De estas tres propiedades, los matemáticos deducen un montón de reglas útiles para calcular probabilidades en situaciones más complicadas. A este tipo de proposiciones de las que se deducen otras, se les llama axiomas y los tres de arriba son los axiomas de la probabilidad. Algunas de las fórmulas más útiles, deducidas de los axiomas, son las siguientes. P(vacío) = 0 P(A’) = 1- P(A) P(A - B) = P(A) - P(A y B) Si el evento A está contenido en B entonces P(A) menor o igual a P(B) P(A) menor o igual a 1 P(A ó B) = P(A) + P(B) - P(A y B). La deducción de estas leyes a partir de los tres axiomas es un ejercicio de ingenio matemático al que valdría la pena asomarse, pero en el que no tenemos intención de meternos de lleno. Ya que desde el punto de vista de este curso, lo interesante es aplicarlas.
159
6
Probabilidad
Respecto a la tercera de la reglas, note bien que la resta de conjuntos se define así: “A - B’’ es la colección de elementos de A que no están en B. De tal suerte que P(A - B) debe contemplar sólo a elementos de A y por eso es que a P(A) no le restamos P(B) sino solamente P(A y B). Otro comentario lo merece la última regla: P(A ó B) = P(A) + P(B) - P(A y B). Es preciso restar P(A y B) ya que así no lo hiciéramos, se estaría tomando en cuenta dos veces a los elementos comunes a A y a B. Combinaciones de eventos. Toda la información matemáticamente importante respecto a un experimento aleatorio se encuentra en el espacio muestral y la función de probabilidad. El cálculo de la probabilidad de un evento se simplifica partiéndolo en eventos más sencillos y uniendo los pedazos de acuerdo a la llamada ley de la adición para probabilidades. Un ejemplo nos puede servir. Se van a tirar dos dados y yo gano si la suma de los dados da siete o aunque la suma no sea siete, si uno, al menos, de los dados cae en uno. Los resultados de tirar los dados son 36: S = {(1,1),(1,2),(1,3), . . . ,(6,6) }. Además, por la simetría interna de los dados, cada uno de estos 36 resultados es igualmente probable. Esto establece la función de probabilidad. Pasemos al problema de calcular la probabilidad de ganar. Una manera equivocada de resolver el problema es así. Yo gano si el primer dado cae uno o el segundo dado cae uno o la suma de los dos es siete. Como las respectivas probabilidades son: 1/6, 1/ y 1/ . La probabilidad de que gane es la suma de estas tres, 1/2. 6 6 Lo que tiene mal este razonamiento es que los eventos en que hemos partido el resultado de que yo gane no son ajenos, y en estas circunstancias no se vale sumar las probabilidades y yá. Para responder correctamente hay que partir el resultado de que yo gane en más pedazos: que el primer dado caiga uno y el otro nó o que el segundo caiga uno y el primero nó o que los
160
dos caigan uno o que la suma sea siete pero no haya ningún uno. Las respectivas probabilidades son: 5/36, 5/36, 1/ y 4/ . Para una probabilidad total de ganar 36 36 15/ ; de: 36 esto es menor que 1/2 que es la que habíamos calculado mal. Fíjese que para resolver el problema lo partimos en pedazos más pequeños, los pedazos son ajenos; la probabilidad fue la suma de esos pedazos. En el ejemplo usamos un espacio muestral equiprobable.
Estadistica 1 Hay cuatro posibles soluciones: 1. La probabilidad de una blanca es 3/22. Esto es porque si se escoge la urna 1, hay 3 de 22 bolas que son blancas. Esta respuesta nos deja pensando en que es muy arbitrario decir que la urna escogida es la 1. Si la urna escogida fuese la 1 esta sería la respuesta correcta. 2. De manera similar, podemos pensar que la urna escogida es la 2 y entonces la probabilidad de una bola blanca es 20/
. 22
3. Claro que, también, la urna escogida puede ser la 3 y entonces la probabilidad de blanca es 11/22. 4. Como no se sabe cuál es la urna escogida y las tres urnas tienen el mismo número de bolas, la probabilidad se calcula como si fuese una gran urna con 66 bolas de las cuales 3 + 20 + 11 son blancas y, así, la probabilidad es 34/66
¿Cuál es la respuesta correcta? o ¿habrá otra que sea la respuesta correcta? Probabilidad condicional.
?
Consideremos la siguiente situación. Se tienen tres urnas similares; por fuera son idénticas. Se sabe que en la urna 1 hay 3 bolas blancas y 19 azules, en la urna 2 hay 20 bolas blancas y 2 azules, en la urna 3 hay 11 bolas blancas y 11 azules.
Una cosa es clara; si podemos suponer que la urna escogida es la 1, la respuesta correcta es la primera. Lo mismo se puede decir de la segunda y la tercera. La cuarta es un poquito más atrevida y quizá sea correcta. Por lo pronto vamos a darle un nombre a las tres primeras: les llamamos probabilidad condicional. A la primera la llamamos “probabilidad condicional de blanca dado que la urna es la 1'’. A la segunda, la llamamos de manera similar condicional de blanca dado que la urna es la 2. A la tercera se le da un nombre análogo [¿Cuál nombre?]. Ampliemos nuestras ideas sobre probabilidad condicional con un poco de matemáticas.
Se va a sacar una bola de una de las urnas. Puede ser azul o blanca. ¿Cuál es la probabilidad de que sea blanca?
161
6
Probabilidad
Formalmente, definimos en clase la probabilidad condicional de la siguiente manera:
( B )=
∧B (B )
El símbolo P(A|B) lo leemos como probabilidad de A dado B. Lo interpretamos como la probabilidad de que, sabiendo que ya sucedió B, además suceda A. En el ejemplo de las urnas A sería el evento “la bola es blanca’’; B sería la urna correspondiente. Como lo que está abajo en el quebrado es la probabilidad de lo dado, la fórmula no es simétrica en A y B. Si los intercambiamos, da otro número. Esto se ve en el ejemplo ya que no es lo mismo que nos informen cual es el número de la urna escogida a que nos digan que la bola fue blanca y nos pregunten cuál es la urna. Esta fórmula no tiene sentido matemático si P(B) = 0. En tal caso decimos que la probabilidad condicional no está definida. Claro que eso está bien porque no puede haber sucedido algo que es imposible. Fíjese que esta fórmula se usará cuando haya una manera fácil de calcular las probabilidades no condicionales y la condicional sea difícil. Eso no fue el caso con el color de la bola y las urnas. Para ejemplificar el tipo de situación en que nos sirve la fórmula descrita, considere este problema. Se tiran dos dados y se sabe que el primero no tiene el número 5. ¿Cuál es la probabilidad de que la suma de los dados sea 8? Para resolver, llamemos B el evento: “el primer dado no es 5'’. A el evento: “la suma de los dados es 8'’. Con los datos se ve que: P(B) = 30/36. Porque de las 36 parejas posibles, 6 tienen 5 en el primer dado. P(A y B) = 4/36. Porque sólo se obtiene 8, con las parejas (2,6), (3,5), (4,4) y (6,2) [La pareja (5,3) sí suma ocho pero tiene un 5 en el primer dado]. y, usando la fórmula, P(A|B) = 4/30. También hubiéramos podido calcular sin la fórmula, pero esa cuenta requiere más ingenio. En este ejemplo es fácil calcular las probabilidades no condicionales.
162
Hay muchos problemas, como en el de las urnas, en que lo contrario es lo cierto: es fácil calcular la condicional y la podemos usar para calcular la conjunta. Si despejamos a P(A y B), tendremos una fórmula para calcular la probabilidad conjunta cuando sea fácil calcular la condicional.
Estadistica 1 2. En un extremo está el cambio enorme que corresponde a que A y B sean excluyentes (ajenos). En este caso la probabilidad podría llegar incluso a ser cero. 3. En el otro extremo están los eventos en los que sucede que P(A | B) = P(A). Esto quiere decir que la información de que B ocurrió no cambia la probabilidad de A y decimos que A y B son independientes. Esta última característica, la independencia, juega un papel muy importante en la probabilidad y merece una atención más detallada. Por el momento debemos establecer una definición: A y B son eventos independientes si y sólo si P(A y B) = P(A) P(B) En forma equivalente decimos: A y B son eventos independientes si y sólo si P(A | B) = P(A) La equivalencia se sigue de una sustitución algebraica muy sencilla. La consecuencia de que esta sea una definición es que: para comprobar la independencia de dos eventos es preciso hacer ver que P(A y B) = P(A)P(B). Es importante remarcar la diferencia de concepto entre eventos independientes y eventos excluyentes o ajenos. En nuestro ejemplo se ve claramente que ambos conceptos son antitéticos. El hecho de que dos eventos se excluyan casi implica que no son independientes. La excepción se da en el caso degenerado de que alguno de ellos (o los dos), sea imposible. En el habla cotidiana, a veces, se confunden estos conceptos.
En ese ejemplo se ven tres cosas: 1. La probabilidad condicional nos permite medir la información. En los ejemplos vimos como cambia la probabilidad de A, antes de conocer nada: P(A) y después de conocer la ocurrencia del evento B: P(A | B).
Note que si A es imposible; P(A) = 0. Además “A y B’’ también es imposible y se tiene P(A y B) = P(A)P(B) ya que ambos lados de la igualdad valen cero . Pero éste es el único caso en que dos eventos son ajenos e independientes a la vez; en términos geométricos la idea de independencia se asemeja a la perpendicularidad y la de “ajenos’’ al paralelismo.
163
6
Probabilidad
PROBABILIDADES DE INTERSECCIONES DE EVENTOS. Probabilidades Conjuntas Con la definición que hicimos de probabilidad condicional y la definición de independencia se puede establecer igualdades que nos auxilien para calcular la probabilidad de la ocurrencia simultánea de dos eventos. 1. Para dos eventos en general. P(A y B) = P(A) P(B | A) Esta igualdad no es más que la definición de probabilidad condicional volteada al revés. Para aplicar esta igualdad es preciso que contemos, de alguna manera indirecta, con la probabilidad condicional. La igualdad se puede escribir también, condicionando sobre B, así. P(A y B) = P(B) P(A | B) 2. Para dos eventos independientes P(A y B) = P(A) P(B) Para poder usar esta igualdad se necesita saber, de otras fuentes, que A y B son independientes. Esta igualdad no es más que la versión de la de arriba cuando P(B | A) = P(B). Estas igualdades son muy útiles cuando el experimento aleatorio se va a llevar a cabo en etapas temporales. Por ejemplo, suponga que una empresa recibe materia prima empaquetada en sobres de 300g. que vienen en cajas de 50 sobres cada una; suponga, además que cada sobre puede ser: bueno o deficiente. Para revisar una caja, se van a tomar, al azar, 3 sobres; si más de 2 sobres son deficientes se rechazará la caja completa; si ningún sobre es deficiente, se aceptará la caja completa; si hay 1 o 2 sobres deficientes, se tomarán otros 3 sobres y si el total de deficientes de los 6 sobres revisados, se pasa de 2, se rechazará la caja completa (en caso de ser 2 o menos, se acepta la caja). Una fuente secreta nos informa que una caja específica tiene 10 sobres deficientes. ¿Cuál es la probabilidad de que esa caja sea aceptada? El problema es complejo, trate Ud. de resolverlo, la respuesta involucra pensar en etapas, de acuerdo a los diferentes resultados de la primera etapa. El problema lo resolvemos en el salón.
164
Más De Dos Eventos Ambas igualdades se pueden llevar a tres o más eventos, como sigue: P(A y B y C) = P(A) P(B | A) P(C | A y B) o cualquier otro orden para el condicionamiento, por ejemplo: P(A y B y C) = P(B) P(C | B) P(A | B y C) Para el caso de eventos independientes la igualdad se simplifica en su escritura: P(A y B y C) = P(A) P(B) P(C)
Estadistica 1 La generalización de las fórmulas anteriores a más de tres eventos es inmediata. No olvide que para aplicar cualquiera de estas fórmulas es preciso conocer, previamente los valores de las probabilidades involucradas. En el siguiente ejercicio, por la especificación del evento, podemos calcular las probabilidades condicionales por separado y eso nos lleva aplicar la primera de las fórmulas vistas arriba.
?
Si una pistola está cargada con 15 cartuchos, de los cuales 2 son inútiles y no funcionarán, ¿Qué probabilidad hay de que el primer cartucho funcione y los dos siguientes nó?
Más Sobre Independencia Respecto a la independencia de dos eventos, hay algunas cosas muy elementales que agregar a la definición. 1. La independencia de dos eventos A y B, quiere decir que el saber que A sucedió no modifica la probabilidad de que B también haya sucedido. Como consecuencia saber que A no sucedió tampoco puede afectar a la probabilidad de B. Escriba tres ejemplos de situaciones en que pase esto, que tengan que ver cada una con uno de los temas siguientes: la política, la economía colombiana, la participación ciudadana. Podemos poner esto diciendo que Si A y B son independientes, también lo son las tres siguientes pares: A’ y B ; A y B’ ; A’ y B’ (estamos usando el apóstrofe ‘ para denotar complemento)
165
6
Probabilidad
2. Cuando se tienen tres eventos, se puede presentar una situación muy curiosa. Puede pasar que A y B sean independientes y A y C sean independientes y B y C también sean independientes. Pero A, B y C NO sean independientes. Esta situación curiosa se describe diciendo que no basta que varios eventos sean independientes a pares, para que sean independientes. El ejemplo clásico es el de un experimento aleatorio con cuatro posibles resultados igualmente probables: 1, 2, 3 y 4. Si el resultado es 1, A gana y nadie más. Si el resultado es 2, B gana y nadie más. Si el resultado es 3, C gana y nadie más, pero Si el resultado es 4, los tres A, B y C ganan. Usted puede calcular las probabilidades para darse cuenta que: P(A y B) = P(A) P(B) P(A y C) = P(A) P(C) P(B y C) = P(B) P(C) pero P(A y B y C) no es igual a P(A) P(B) P(C). 3. Una nota final de un estilo menos matemático. La palabra independencia se utiliza en otros contextos para denotar un sinnúmero de conceptos diferentes. Los ejemplos más comunes son en política, en historia, en derecho. En la ciencia se habla de variables independientes y el significado es diferente que el que usamos aquí. Aún en otras ramas de la matemática se usa la palabra independencia para denotar a otros conceptos. Cuando queremos distinguir la definición técnica que usamos en la probabilidad de otras nociones le ponemos un apellido a la independencia y decimos independencia estocástica. De un ejemplo de un concepto diferente al de eventos independientes tratado aquí, que se relacione con política, otro con historia y otro con derecho. Si tiene dudas del significado de tal concepto en esas disciplinas consulte con algunos profesionales que pertenezcan a ellas. Es conveniente recordar que cuando existe duda si dos eventos son independientes o nó, la única forma de zanjar la cuestión es viendo si P(A y B) es igual o diferente al resultado de multiplicar P(A) P(B). Naturalmente que si la independencia de dos eventos está en duda, el cálculo de P(A y B) no se puede
166
hacer simplemente multiplicando P(A) P(B) sino que se debe justificar de alguna otra manera.
Estadistica 1 TEOREMA DE BAYES. Veamos un problema que nos llevará a una regla interesante de cálculo de probabilidades que se llama: el teorema de Bayes. En una etapa de la producción de un artículo se aplica soldadura y para eso se usan tres diferentes robots. La probabilidad de que la soldadura sea defectuosa varía para cada uno de los tres, así como la proporción de artículos que cada uno procesa, de acuerdo a la siguiente tabla.
Tenemos un par de preguntas: ¿Cuál es la proporción global de defectos producida por las tres máquinas? Si tomo un artículo al azar y resulta con defectos en la soldadura, ¿cuál es la probabilidad de que haya sido soldado por el robot C? La primera pregunta nos va a llevar a lo que se conoce con el nombre de fórmula de la probabilidad total.
La idea es empezar por descomponer el evento “defectuoso’’ en “viene del robot A y es defectuoso’’ o “viene del robot B y es defectuoso’’ o “viene del robot C y es defectuoso’’. En símbolos tendremos P(d) = P(A y d) + P(B y d) + P(C y d) ó P(d) = P(A) P( d|A) + P(B) P( d|B) + P(C) P( d|C) Antes de ponerle números y resolver nuestro problema fijémonos en la fórmula obtenida. 1.
Queremos conocer la proporción global de defectos de los tres robots. Después de reflexionar un momento se ve que si todas las soldaduras las pusiera el robot C, habría pocos defectos, serían 0.001 o 0.1%. En cambio, si todas las pone el B, ¡sería un desastre!, tendríamos cinco veces más: 0.005 o 0.5%. De modo que en nuestra respuesta debemos tener en cuenta las diferentes proporciones de lo maquinado en cada robot.
2. 3.
Hay tres eventos A, B y C que son ajenos y cubren todo el espacio muestral. Conocemos las probabilidades de cada uno de ellos. Además, conocemos las probabilidades condicionales de otro evento dado cada uno de ellos.
La fórmula de arriba se llama fórmula de la probabilidad total. Llenando con nuestros números, tenemos que P(d) = (0.18)(0.002) + (0.42)(0.005) + (0.40)(0.001) o sea que P(d) = 0.00286 casi 3 piezas por cada mil.
167
6
Probabilidad
Es bueno comparar este resultado con los porcentajes de soldaduras defectuosas de cada robot por separado. Podemos ver que el resultado se encuentra entre todas ellas y se encuentra relativamente cerca de los porcentajes de los robots más utilizados (el B y el C). Esto es muy razonable. La segunda pregunta es, a la vez más simple y más complicada. Nos va a llevar a lo que se conoce con el nombre de teorema de Bayes. La probabilidad que buscamos es una condicional pero al revés de las que tenemos. Buscamos P(C|d) para calcularla usamos la definición de probabilidad condicional:
∧d (d )
( d )=
El numerador (lo de arriba) lo calculamos con P( C y d ) = P(C) P(d|C) y el denominador lo calculamos con la fórmula de probabilidad total P(d) = P(A) P( d|A) + P(B) P( d|B) + P(C) P( d|C) juntando las dos tenemos la fórmula de Bayes:
(C )=
C
Si analizáramos, usando de nuevo la fórmula de Bayes las probabilidades de los robots A y B, tendríamos P(B|d) = 0.7343 y P(A|d) = 0.1259
C
( ) ( )+ ( ) ( )+ (C ) ( C )
Verifique tales resultados.
Aplicándola a nuestro caso tenemos
( d )=
0 0 0 00 (0 0 )(0 00 )+ (0 )(0 00 )+ (0 0 )+ (0 00
( d )=
=
≅
O sea que si tomamos una pieza al azar, la probabilidad de que haya sido soldada por el robot C es alta, 40%. Pero, como ese robot produce sólo 1 de cada mil soldaduras defectuosas, al saber que la pieza seleccionada es defectuosa, la probabilidad de que provenga del robot C disminuye a solamente 14%. Esto quiere decir que, en este caso el saber que la soldadura es defectuosa, nos provee una gran cantidad de información.
%
)
Comparadas con las probabilidades de cada máquina sin saber que la pieza es defectuosa vemos un gran incremento en la probabilidad de B. Si, por el contrario la pieza no hubiese tenido defectos de soldadura, el mismo teorema de Bayes nos daría haga Ud. las cuentas y verifique estos resultados:
168
Estadistica 1 que la fórmula de Bayes nos sirvió para pasar de las probabilidades no condicionales a las condicionales. Otro ejemplo del uso del teorema de Bayes
P(A|no d) = 0.1802 P(B|no d) = 0.4191 P(C|no d) = 0.4007
y
Las probabilidades no son idénticas a las probabilidades no condicionales, pero la diferencia es muy pequeña. Para apreciar mejor el cambio, pongamos en una sola tabla las probabilidades iniciales y las condicionales obtenidas bajo el conocimiento de la soldadura de la pieza.
Otro ejemplo clásico del uso del teorema de Bayes es un problema de oro y plata. Hay tres bolsas que tienen, cada una dos monedas. Las de la primera son de oro, las de la segunda son de plata y las de la tercera son una de plata y otra de oro. Se escoge una bolsa al azar y de ella una moneda también al azar. Si la moneda es de oro, ¿cuál es la probabilidad de que la otra moneda en la bolsa sea de oro también? Primero notemos que la segunda bolsa no pudo haber sido elegida (porque no tiene monedas de oro), sólo pudo haber sido seleccionada la primera o la tercera. Si la bolsa elegida hubiese sido la tercera, el evento cuya probabilidad nos interesa no se realiza. De modo que el evento que nos interesa es equivalente a que se haya elegido la primera bolsa. Una vez establecido lo anterior, apliquemos el teorema de Bayes para calcular
(I
Es tan grande el éxito de los tres robots en el soldado correcto que el saber que la pieza no tiene defectos, prácticamente no altera las probabilidades de producción en uno u otro. Por el contrario, el robot C es tan bueno, comparado con el B que, al saber que la pieza es defectuosa, las probabilidades cambian dramáticamente. En este ejemplo el cálculo de probabilidades condicionales nos cuantifica algo que el sentido común nos dice de otra forma. Note
)=
(I ) (
I )+
I
(II ) (
I
II )+
(III ) (
III )
Las probabilidades que entran al lado derecho de la igualdad las sacamos, inmediatamente, de las condiciones del problema y después de hacer cuentas tenemos: P(I|Au) = 2/3 Este problema es clásico porque existe una “solución’’ a la que muchas personas llegan y es falsa. El argumento es el siguiente. Como todas las bolsas son igualmente posibles, y el hecho de que la primer moneda extraída sea de oro, nos indica que no se trata de la segunda bolsa. Concluimos que las dos bolsas restantes tienen igual probabilidad y, por tanto, la probabilidad de que la otra moneda sea de oro es 1/2.
169
6
Probabilidad
Si Ud. piensa de acuerdo a este razonamiento (¡erróneo!), es muy difícil que encuentre en qué se equivoca. Lo que está mal es que lo que averiguamos, al saber que la moneda extraída es de oro, es algo más que el rechazo de la segunda bolsa. Si sólo nos dijeran que la bolsa escogida al azar no fue la segunda, sin informarnos del metal de la moneda sacada, todavía tendríamos incertidumbre respecto a la primer moneda; todavía podríamos apostar a si ésta es de oro o de plata. Al decirnos que la moneda fue de oro, estamos aprendiendo algo más, y eso echa por tierra el argumento de “igual probabilidad para las dos bolsas restantes’’. Lo interesante del problema es que, si nos hubieran dicho que la moneda sacada fué de plata, aplicando la fórmula de Bayes, llegamos a la conclusión de que la probabilidad de que la otra moneda sea también de plata es 2/3 [¡Haga Ud. las cuentas!]. Es decir, si vamos a apostar al metal de la otra moneda, nos conviene apostar por el metal de la primera. Este ejemplo nos lleva a reflexionar sobre el uso adecuado de la información contenida en “lo dado’’ en el cálculo de la probabilidad condicional. TECNICAS DE CONTEO. Principio fundamental de conteo o principio multiplicativo. En muchos problemas podemos establecer un espacio muestral equiprobable y entonces el problema de calcular probabilidades se convierte en un problema de contar de cuántas maneras se puede hacer algo. Para empezar con algo sencillo, veamos este problema. Tengo tres programas para ver correo electrónico: Mail, Pine y ZMail; además recibo dos tipos de mensajes: de trabajo y personales. Ud. me sorprende viendo un mensaje y anota el tipo de programa y el tipo de mensaje que estoy viendo. ¿Cuántos puntos tiene el espacio muestral? Casi automáticamente hemos contestado que son 6. Si alguien no nos cree, podemos escribirle cuales son.
170
Sin saberlo hemos estado haciendo uso de lo que se llama Principio Fundamental del Conteo. Miremos esta fórmula: Si una operación puede realizarse en n1 formas y si por cada una de éstas, una segunda operación puede llevarse a cabo en n2 formas, entonces las dos operaciones pueden realizarse juntas en n1n2 formas. Aquí tiene un problema que nos puede ayudar a ejemplificar su uso. Para hacer un código se van a usar 3 letras distintas y 4 dígitos distintos a cero. ¿Cuántos códigos diferentes se pueden hacer? Consideramos elaborar uno de estos códigos como si hubiera siete huecos, los primeros tres a llenar con letras, los otros cuatro con números. El primer hueco puede ser llenado con cualquiera de las 27 letras con que contamos, pensemos que ya ha sido llenado. No importa con cuál letra haya sido llenado, para el siguiente hueco tenemos de nuevo 27 letras que podemos usar; es decir que hay 272 formas diferentes de llenar los primeros dos huecos. Esto que razonamos aquí es el contenido del principio fundamen-
Estadistica 1 ferior de las segundas etapas: es imposible obtener una bola verde en la segunda extracción si se obtuvo una bola verde en la primera extracción; así pues, en esta segunda etapa del árbol hay tan sólo dos ramas. El número total de ramas terminales en un árbol semejante da el número total de posibles resultados para el experimento compuesto y, por lo tanto, los extremos de estas ramas terminales pueden tratarse como puntos del espacio de muestreo correspondiente.
tal. Habiéndolo razonado, podemos ahora aplicarlo de manera automática, aplicándolo al resto de los huecos llegamos a que hay: 27394 códigos distintos posibles. Diagrama de árbol. Para resolver algunos de los problemas más difíciles relacionados con experimentos de dos o más etapas, es conveniente tener métodos sistemáticos de cálculo de probabilidades para eventos compuestos. Un método gráfico que ha demostrado ser particularmente útil se basa en lo que se ha llamado un árbol de probabilidad. Miremos el caso con un ejemplo: Una caja contiene dos bolas negras, tres rojas y una verde y se trata de extraer dos de ellas. Este es un experimento de dos etapas para el que existen varias posibilidades, mismas que podemos representar con un árbol horizontal. Cada nivel o etapa de un experimento que comprende varias etapas tiene tantas ramas como posibilidades hay en tal etapa. En este caso hay tres ramas principales en la primera etapa y tres ramas en cada una de las etapas segundas, exceptuando la in-
La probabilidad que se asigna a una rama del árbol es la probabilidad condicional de que el evento al que corresponde ocurra, sujeto a la condición de que los eventos correspondientes a las ramas antecedentes hayan ocurrido. Así, el 2/5 escrito arriba de la rama terminal superior es la probabilidad condicional de obtener una bola roja en la segunda extracción si se obtuvo una bola roja en la primera extracción. El número escrito adelante del extremo de una rama terminal es la probabilidad de obtener la secuencia de eventos necesaria para llegar a ese punto terminal. Así, la primera probabilidad terminal (3/6)(2/5) es la probabilidad de obtener una bola roja en la primera extracción multiplicada por la probabilidad condicional de volver a hacerlo en la segunda extracción. Usando este árbol es relativamente sencillo contestar preguntas variadas. Los árboles de probabilidad proporcionan un método gráfico sencillo para calcular probabilidades en las que normalmente se debería usar la fórmula de Bayes. Veamos un segundo ejemplo: considérese que una caja contiene dos bolas rojas y una blanca, y otra caja que contiene dos bolas rojas y dos blancas. Se selecciona una caja al azar y se extrae una bola de ella. El problema consiste en calcular P(A2 / A ), donde A1 es el evento de elegir la caja 1 y A2 es la obtención 2 de una bola roja. El árbol correspondiente a este experimento de dos etapas aparece en la siguiente figura con las probabilidades asignadas a las ramas y a los cuatro puntos del espacio de muestreo. Ahora la rama superior corresponde al evento compuesto A 1 y A2; por tanto, P(A1 y A2)=(1/2)(2/3). Además, se concluye, por la
171
Probabilidad
6
definición de evento compuesto que P(A2)=(1/2)(2/3) + (1/2)(2/4), porque el evento A2 consiste en los dos puntos del espacio de muestreo asociados con la palabra “roja”. Así, por la fórmula de Bayes tenemos:
{A A }=
A ∧A = {A }
⋅ ⋅ + ⋅
= 4
7
La técnica es, como se ve ahora, la siguiente. Después de construir El árbol, elíjase la rama terminada que corresponde a la ocurrencia de A1 y A2. Divida entonces la probabilidad asociada con esa rama terminal por la suma de las probabilidades de todas las ramas terminales asociadas con el evento A2. La aplicación de la técnica del árbol al segundo ejemplo asociado con la fórmula de Bayes, es la siguiente: Para obtener P{C1/E1} basta dividir, ahora, la probabilidad (.01) (.97) asociada con la rama terminal superior por la suma de las probabilidades de las ramas terminales asociadas con la letra E1. Así:
{
1
E1}=
1 1
+
+
1
= 1
ANÁLISIS COMBINATORIO. Permutaciones a partir de n elementos distintos. Definimos una permutación como un reacomodo de objetos. Para determinar el número de permutaciones, partimos de una colección de n objetos diferentes. De ellos se van a seleccionar r (r puede ser igual o menor que n) y el orden en que queden acomodados es importante. Esto quiere decir que dos acomodos en orden distinto son contados como distintos. El número de estas permutaciones lo denotamos con nPr y se calcula así:
= 172
− r)
Estadistica 1 cuando r es igual a n (es decir, cuando se trata de permutar todos los n objetos) la fórmula se reduce a: nPn = n! ya que 0! = 1 El paradigma de las permutaciones es la cola para las reinscripciones de inicio de semestre. Del total de n alumnos (distintos) se forman los que van a reinscribirse, el orden en que quedan es muy importante, de ahí depende que se pueda formar el horario con los profesores que uno quiere (¿o quizá eludir a los que uno no quiere?) Ejemplo. Tres estudiantes aspiran a los dos primeros puestos del semestre, para tener derecho a la matrícula de honor. ¿De cuantas formas se pueden ocupar estos puestos?
P2 =
⋅ ⋅
r. La diferencia está en que ahora no es importante el orden en que se obtengan. La fórmula que da el número de combinaciones de r objetos tomados de una colección de n es:
r
=6
Ejemplo. Hay que colocar a 5 hombres y 4 mujeres en una fila de modo que las mujeres ocupen los lugares pares. ¿De cuántas maneras puede hacerce? Los hombres se pueden colocar de 5P5 maneras y las mujeres de 4P4 maneras; cada colocación de ellos se puede asociar con una de ellas, luego el número pedido es P . P =5!4!=(120)(24)=2880. 5 54 4 Combinaciones. Una situación parecida a la de las permutaciones la presentan lo que llamamos combinaciones. La situación es inicialmente igual, deseamos tomar de una colección de n objetos distintos una subcolección de tamaño
=
r
− r)
Note que siempre este número va a ser menor que nPr ya que, como no interesa el orden, va a haber menos combinaciones, ya que muchas nos van a resultar iguales. El paradigma ahora es un comité en que todos tienen voz y voto. Aquí no importa el orden en que fueron seleccionados los integrantes. Ejemplo. De tres personas que aspiran a ocupar dos cargos de iguales características, de cuantas formas se pueden escoger las dos personas que ocuparan los cargos. El número de combinaciones de las tres personas tomadas de a dos nos proporciona el resultado:
C2 =
3⋅ ⋅ =3 ⋅
Vamos a comprobarlo: {AB, AC, BC}
173
6
Probabilidad
PROBLEMAS PROPUESTOS 1. En una caja hay 8 bombillos de los cuales 3 están fundidos. Se van a sacar los bombillos de uno en uno, hasta encontrar los tres fundidos. Si nos fijamos en el número de bombillos que se quedan en la caja ¿cuál es el espacio muestral? 2. En el experimento de los cara y sellos mencionado arriba. Si nos fijamos en el número de sellos que salieron, describa en sus propias palabras, cuál es el evento {0, 1, 2}. Si los resultados fueron CCSCCSCCC ¿Por qué se detuvo el experimento? ¿Se realizó el evento? 3. Júntese con un compañero de este curso y entre los dos discutan y encuentren un ejemplo de un experimento aleatorio relacionado con las personas que están en la biblioteca después de las 10 de la noche. Expliquen cuál es el espacio muestral. Expliquen qué información necesitarían para asignar probabilidades. 4. Con su mismo compañero, encuentren un ejemplo de un experimento aleatorio referente a las inscripciones. Detallen el espacio muestral. Propongan un evento. Den un ejemplo de un resultado que implique que el evento no se realizó y otro resultado donde el evento sí se haya realizado. 5. Haga una lista con diez conjuntos de eventos que sean excluyentes entre sí. 6. Invente un juego con dos dados. Como ejemplos, tirar dos dados y el resultado no es la suma de los dados sino la multiplicación; tirar dos dados y el resultado es 1000 si la suma de los dos es par y 5000 si la suma es nón. Escriban el espacio muestral y, teniendo en cuenta que las 36 parejas de posibles resultados con dos dados: { (1,1), (1,2), (1,3), . . . } son igualmente probables, encuentre la función de probabilidad para el juego que inventó.
174
7. Se van a tirar 5 monedas y el resultado va a ser el número de caras menos el número de sellos. Escriba el espacio muestral equiprobable para este experimento. (Debe tener 32 resultados). 8. Siguiendo con el ejercicio anterior, me van a dar una cantidad de pesos igual a la resta: [número de caras] MENOS [número de sellos]. Si sale negativo quiere decir que ¡yo pago! ¿Cuál es la probabilidad de que gane más de dos pesos? 9. Si un dado se construye de modo que un 1 o un 2 ocurran dos veces más frecuentemente que un 5, mismo que se presenta tres veces más seguido que un 3 o un 4 o un 6. ¿Cuál es la probabilidad de que el número que se obtiene sea par? ¿Cuál la de que sea un cuadrado perfecto? ¿Cuál la de que sea mayor que 4? 4.¿Cómo harían Uds. para construir un dado como el que se propone en el ejercicio anterior? 10. En el ejemplo de los robots se calculó con detalle P(C|d). Calcule Ud. las otras probabilidades mencionadas: P(B|d) = 0.7343 y P(A|d) = 0.1259 P(A|no d) = 0.1802, P(B|no d) = 0.4191 y P(C|no d) = 0.4007 en el ejemplo de las monedas, se calculó P(I|Au) = 2/3 y se mencionó que P(II|Ag) = 2/3, verifíquelo. 11. Haga una lista de todos los posibles resultados si se lanza al aire una moneda cuatro veces. ¿Qué probabilidades asignaría usted a los puntos de espacio de muestreo construidos?
Estadistica 1 12. Una caja contiene una bola roja, una negra y una verde. Se extraen dos bolas de la caja, sin reemplazar la primera bola obtenida antes de extraer la segunda. Construya, para este experimento, un espacio de muestreo. ¿Qué probabilidades asignaría usted a los puntos del espacio de muestreo? ¿En qué forma las habría usted asignado si la primera bola se hubiera regresado a la caja antes de efectuar la segunda extracción? 13. Una caja contiene dos bolas negras y una blanca. Se extraen dos bolas de esta caja. Construya un espacio de muestreo para este experimento (a) empleando 6 puntos, (b) empleando 3 puntos. ¿Qué probabilidades asignaría usted a los puntos de los dos espacios de muestreo? 14. Sean E1, E2 y E3 los eventos de obtener un dígito menor que 4, de obtener un dígito entre 4 y 6, inclusive, y de obtener un dígito mayor que 6, respectivamente, al seleccionar un dígito de la tabla de números aleatorios. a) Construya un espacio de muestreo para este experimento asignando probabilidades a cada punto de él. b) Efectúe 200 veces el experimento y calcule las frecuencias relativas experimentales de los tres eventos para comprobar si el modelo construido por usted corresponde a la realidad. 15. Asignar probabilidades a los puntos del espacio de muestreo que consta de 4 puntos y representa los resultados posibles al sacar dos canicas de una caja que contiene 2 canicas negras y 2 blancas.
dado, ¿cuál es la probabilidad de obtener 4 o más puntos? 17. Una caja contiene 4 bolas rojas, 3 negras, 2 verdes y una blanca. Se extrae una bola de la caja, regresándola inmediatamente. ¿Cuál es la probabilidad de que la bola extraída sea (a) roja, (b) roja o negra? Luego, simule el experimento anterior mediante números aleatorios haciendo corresponder al rojo los dígitos 0, 1, 2, 3; al negro los dígitos 4, 5 y 6; al verde, los dígitos 7 y 8; y al blanco, el dígito 9; y efectuando 400 veces el experimento de seleccionar un dígito de la tabla de números aleatorios. Sean A1 y A2 los eventos descritos en los incisos (a) y (b), respectivamente. Registre, de acuerdo con lo anterior, el número de veces en que A1 y A2 ocurren. Observe si el modelo matemático aquí expuesto parece ser realista. 18. Se lanza 4 veces al aire una moneda bien balanceada. Empleando el modelo correspondiente a los problemas 11 y 13, calcule la probabilidad de obtener (a) 4 caras, (b) 3 caras y 1 sello, (c) al menos 2 caras. 19. Para el experimento de tirar 2 dados legítimos, calcúlese la probabilidad de que (a) la suma de los números no sea 11, (b) no aparezca 1 ni 2, (c) cada dado muestre 3 o más puntos (d) los números en uno y otro dado no sean el mismo, (e) exactamente un dado muestre menos de 3 puntos. 20. Un departamento Ilena órdenes que varían, día a día, entre 0 y 10, con las siguientes probabilidades 0.02, 0.07, 0.15, 0.20, 0.19, 0.16, 0.10, 0.06, 0.03, 0.01 y 0.01. a) ¿Cuál es la probabilidad de Ilenar menos de 4 órdenes? b) ¿Cuál es la probabilidad de Ilenar al menos una orden? c) ¿Cuál es la probabilidad de Ilenar de 3 a 5 (inclusive) órdenes?
16. Un dado tiene la cara de 6 puntos cambiada a una de 3 puntos. AI tirar este
175
6
Probabilidad
21. Los siguientes datos muestran el promedio de vida comercial de abarroteros al mayoreo en una área metropolitana: a) Durante el periodo estudiado, ¿cuál es la probabilidad de que alguien que se inicia en ese negocio quiebre en 10 años? b) ¿Cuál es la probabilidad de que continúe al menos 25 años? c) ¿Cuántos años tendría que sobrevivir alguno para encontrarse en el 10% de los sobrevivientes mayores?
22. Se van a extraer dos bolas de una urna que contiene dos bolas blancas y tres negras. (a) ¿Cuál es la probabilidad de que la primera bola sea blanca y la segunda negra? (b) ¿Cuál es la probabilidad si antes de efectuar la segunda extracción se restituye la primera bola extraída? 23. Supóngase que marcamos dos dados de tal manera que las caras de 1 y 2 puntos sean blancas, y que las caras de 3, 4, 5 y 6 sean negras. Si se tiran ambos dados juntos, ¿cuál es la probabilidad de que al menos uno de los dos dados muestre una cara negra? 24. Se van a extraer dos bolas de una urna que contiene 2 bolas blancas, 3 negras y 4 verdes. (a) ¿Cuál es la probabilidad de que ambas bolas sean verdes? (b) ¿Cuál es la probabilidad si se restituye la primera bola extraída antes de efectuar la segunda extracción? (c) ¿Cuál es la probabilidad de que ambas bolas sean del mismo color? 25. Una caja contiene 4 monedas, siendo normales tres de ellas y la cuarta con caras en ambos lados. Si seleccionamos una moneda de la caja y luego la lan-
176
zamos dos veces al aire, ¿cuál es la probabilidad de obtener dos caras? 26. Si la probabilidad es p = 0.1 de que una persona de 30 años de edad muera antes del año, hallar la probabilidad de que de un grupo de 10 individuos tales, (a) ninguno, (b) 1 exactamente, (c) no más de 1, (d) más de uno, (e) cuando menos 1 muera en el año que empieza la fecha. 27. En cierta área el 20% de las casas tienen un televisor y 40% una lavadora automática. Se selecciona una casa al azar. ¿Cree usted que sea legítimo calcular la probabilidad de obtener una casa que tenga televisor y lavadora automática, mediante (a) multipíicación de .20 por .40, (b) suma de .20 y .40. Explicar. 28. Se Ileva a cabo una encuesta para medir el número de lectores de las revistas A y B. Se encuentra que de las familias entrevistadas 25% compran A y 40% compran
Estadistica 1 B. (a) ¿Los eventos de comprar A y de comprar B son independientes? (b) Si los eventos se suponen independientes. ¿Cuál es la probabilidad de que una familia compre al menos una de las revistas? (c) ¿Cuál será la probabilidad en (b) si los dos eventos mutuamente se excluyen? 29. Un aparato electrónico funcionará correctamente sólo si todas sus partes componentes lo hacen. Hay 5 componentes en cada aparato. Sea p la probabilidad de que una sola componente funcione correctamente y supóngase que esta probabilidad es la misma para todas las componentes. Si cada componente opera independiente de las demás, ¿qué tan grande debe ser p de modo que la probabilidad de que funcione el aparato sea no menor que .9?
31. Una organización de pruebas desea calificar una marca particular de radios de mesa. Se seleccionan al azar 5 aparatos de la existencia y se juzga que la marca es satisfactoria si no se encuentra nada malo en ninguno de los 5 radios. (a) ¿Cuál es la probabilidad de que la marca sea satisfactoria si 10% de los radios están en realidad, defectuosos? (b) ¿Cuál es la probabilidad si hay 20% defectuosos? 32. Se extraen tres cartas de un juego ordinario de 52 naipes (a) ¿Cuál es la probabilidad de que las 3 sean espadas? (b) ¿Cuál es la probabilidad de que las 3 sean del mismo palo? (c) ¿Cuál es la probabilidad de que ninguna de las 3 cartas sea espada? 33. Suponga que la proporción de niños varones es de 112, encuentre la probabilidad de que en una familia de 6 hijos, (a) todos los hijos sean del mismo sexo, (b) los 4 mayores sean niños y los menores sean niñas, (c) 5 de los hijos sean niños y uno sea niña.
Los siguientes números se obtuvieron de una tabla de mortalidad basada en 100 000 individuos:
30. Si estos números se usan para definir las probabilidades de muerte para el grupo de edad correspondiente y si A, B y C indican individuos con edades de 17, 19 y 21, respectivamente, calcular la probabilidad de que durante el año (a) A muera y B viva, (b) A y B mueran ambos, (c) A y B vivan ambos, (d) por lo menos uno de A y B muera, (e) por lo menos uno de A, B y C muera.
177
6
Probabilidad
34. Suponga que la probabilidad de que el tiempo (sol brillante o día Iluvioso) sea el mismo un día que el anterior es igual a p. Suponga que hoy tenemos un día Iluvioso, ¿qué probabilidad hay de que pasado mañana tengamos un día Iluvioso? Ayúdese construyendo un árbol. 35. Para que funcione adecuadamente, un aparato electrónico debe tener las dos componentes conectadas que aparecen en el dibujo en correcto funcionamiento. El diagrama muestra que A debe funcionar y lo mismo alguno de los dos B. Supongamos que las componentes B funcionan independientemente de A e independientemente una de otra. y que la confiabilidad (probabilidad de que funcione) de A es 0.9 y la de B1 y B2 es 0.8. a) Hágase una conjetura de la confiabilidad del aparato. b) Calcúlese la confiabilidad del aparato. Con ayuda de la figura, mostrar que la regla de adición para dos eventos A1 y A2 que no son mutuamente exclusivos está dada por la fórmula 1
P{A1 o A2}=P{A1} + P{A2} – P{A1 y A2} 36. Suponer que en una escuela secundaria hay el mismo número de estudiantes de cada sexo y que la probabilidad de que un estudiante de sexo masculino sea estudiante de ciencias es de 1/5 y que la probabilidad de que una mujer sea estudiante de ciencias es 1/20. ¿Cuál es la probabilidad de que (a) un estudiante seleccionado al azar sea hombre y estudiante de ciencias, (b) un estudiante tomado al azar estudie ciencias, (c) un estudiante de ciencias elegido aleatoriamente sea de sexo masculino?
178
37. Supongamos que el 10% de los propietarios de automóvil que tengan accidente habrán tenido cuando menos uno más en el año anterior. Supóngase también que una prueba de manejo en simulador hace fracasar al 70% de tales conductores, pero sólo fracasarán en ese examen 20% de los conductores que sólo han tenido un accidente. Si un propietario de automóvil elegido aleatoriamente entre los que se han accidentado toma el examen y falla. ¿Cuál es la probabilidad de que tuviera otros accidentes en el año anterior? 38. Supóngase que se ha aplicado una prueba al nivel de secundaria para verificar si los estudiantes son o no aptos para estudiar los años superiores del bachillerato y que se ha obtenido la siguiente experiencia. De los estudiantes que cursaron satisfactoriamente el primer año del bachillerato el 80%
Estadistica 1 de ellos aprobó el examen. De los estudiantes que no hicieron buenos estudios durante su primer año de bachillerato el 40% de ellos aprobó el examen. Se supone que el examen no se usó como prueba de admisión. Si se sabe que sólo el 70% de los alumnos de primer año de bachillerato estudian satisfactoriamente, ¿cuál es la probabilidad de que un estudiante que pasó la prueba sea un estudiante satisfactorio? 39. Supongamos que el 70% de un grupo de individuos está a favor de la ponencia A. Supongamos además que sólo el 80% de los que verdaderamente están a favor respondan «estoy a favor» en una entrevista. El otro 20% miente y responde «no». De las personas que en realidad se oponen tan sólo el 60% responde con un «no» veraz, y los demás mienten contestando «sí». a) Si se elige un individuo al azar, ¿cuál es la probabilidad de que responda con «si»? b) Si un individuo elegido aleatoriamente contesta con «si». ¿Cuál es la probabilidad de que esté verdaderamente en esa categoría? 40. Para auxiliar en la adecuada selección de empleados para un puesto particular, cierto departamento de personal hace a los aspirantes una prueba de aptitud. Para probar la efectividad del examen se contrató una muestra de aspirantes que habían fracasado en el examen y se les observó en el puesto por algún tiempo. Así se encontró que el 30% de los que pasaron el examen un 80% desempeñó el puesto satisfactoriamente y de los que no pasaron el examen sólo se desempeñaron exitosamente el 10%. ¿Cuál es la probabilidad de que un aspirante elegido al azar
demuestre un desempeño satisfactorio en el trabajo? Use un árbol. 41. Cierta corporación se interesa en conocer las actitudes de sus empleados acerca de una política bastante delicada que está considerando aplicar. Firma un contrato con la compañía B-Attitude Research Associates para saber qué es lo que los empleados realmente piensan del asunto. La compañía B-Attitude examina a los empleados mediante entrevistas personales. Supongamos que 70% de los empleados se declaran a favor y 30% son contrarios. Supóngase también que 90% de los que favorecen la política están dispuestos a declararlo en la entrevista en tanto que los demás se declaran contrarios; y los que en realidad repudian la política, la mitad están dispuestos a admitirlo y la otra mitad declaran estar a favor. Usar un árbol de probabilidad para contestar las siguientes preguntas. (a) Cuando la compañía investigadora entrega su reporte, ¿cuál es la proporción de empleados que dicen favorecer la política? (b) De los empleados que dicen estar a favor de la política, ¿cuál es la proporción de los que realmente están a favor? 42. La placa de circulación para automóvil en el estado de California consta de 3 números enteros dígitos y 3 letras a continuación. Supongamos que s e usan las 26 letras del alfabeto y los dígitos (de 0 a 9). (a) ¿Cuántas placas pueden obtenerse en esta forma. (b) ¿Cuál es el incremento relativo del número de placas que se obtiene al poner letras en vez de números? (c) Supongamos que una de las palabras formadas por las letras se considera inadecuada y, por tanto, se omite. ¿Cuántas placas se eliminan? 43. Un agente de ventas de casas tiene 8 diseños básicos. En una calle determinada posee 5 lotes. (a) Supongamos que la comunidad no permite casas que se parezcan en una misma calle. ¿De cuántas maneras
179
6
Probabilidad
diferentes puede el agente utilizar sus diseños básicos restringiéndose a lo estipulado por la comunidad? (b) Si no hay restricciones, ¿cuántos arreglos son posibles?
de manufactura son defectuosos, ¿qué porcentaje de los artículos producidos que pasan ambos inspectores serán defectuosos?
44. Un distribuidor de automóviles quiere almacenar uno de cada modelo, color y potencia. Si hay 5 modelos, 7 colores y 2 «caballajes». ¿Cuántos autos se van a necesitar?
49. Invente tres casos relacionados con la administración pública, referentes a los principales temas de esta unidad y resuélvalos. Demuestre todo su potencial creativo.
45. AI preparar las listas para las elecciones se acostumbra evitar el orden alfabético de los candidatos. Se supone en general que es muy ventajoso aparecer en el primer lugar de la lista. ¿Cuántas listas diferentes pueden hacerse si hay 5 candidatos? 46. En una lista de 20 donadores voluntarios de sangre hay 15 del tipo de sangre B. Si 3 individuos son elegidos al azar en la lista, ¿cuál es la probabilidad de que los 3 sean de tipo B? 47. Un comprador acepta un lote de 100 artículos si una muestra de 5 artículos escogidos al azar no tiene defectos. ¿Cuál es la probabilidad de que acepte el lote si se sabe que éste contiene 10 artículos defectuosos? 48. Si una caja contiene 40 fusibles en buen estado y 10 defectuosos y si se seleccionan 10 fusibles, ¿cuál es la probabilidad de que todos estén en buenas condiciones? Use símbolos de combinación. 48. Un artículo manufacturado, inútil si tiene defectos, se hace pasar por 2 inspecciones antes de recibir el visto bueno para el empaque. Por experiencia se sabe que el primer inspector deja pasar el 5% de los artículos defectuosos en tanto que el segundo no ve 4% de ellos. Los artículos satisfactorios siempre pasan las dos inspecciones. (a) ¿Cuál es la probabilidad de que los 2 inspectores fallen en detectar un artículo defectuoso? (b) ¿Cuál es la probabilidad de que un artículo defectuoso pase el primer inspector, pero sea retenido por el segundo? (c) Si el 10% de los artículos que salen del proceso
180
Estadistica 1 PROBLEMAS RESUELTOS 1. Encontrar el espacio muestral del experimento de sacar 3 manzanas de un recipiente en el que hay 8 buenas y 2 dañadas. Solución. Si en una caja hay 10 manzanas y 2 están echadas a perder (¡al menos en este momento!), al extraer tres manzanas y ver cuantas son buenas podemos obtener 1, 2 o 3 buenas (¡0 buenas es imposible!). De modo que en este ejemplo el espacio muestral es: { 1, 2, 3 }. 2. Encontrar el espacio muestral de un juego consiste en tirar todos los cara y sellos que hagan falta hasta obtener tres caras seguidas o hasta que sean 15 cara y sellos. Solución. Si nos fijamos en el número de cara y sellos requeridos, el espacio muestral es: { 3, 4, 5, . . . , 15 }. Pero si nos fijáramos en el número de soles que resultan, entonces el espacio muestral es: { 0, 1, 2, . . . , 15 }. Es claro que para determinar el espacio muestral en un experimento aleatorio es necesario entender perfectamente: Qué se va a hacer y qué se va a observar o contar. 3. Presentar un evento compuesto para el experimento del ejercicio anterior. Solución. En el caso de contar cuantos cara y sellos hacen falta para conseguir tres caras seguidas o tirar 15 cara y sellos; el espacio muestral son los números: 3, 4, 5, . . . , 15. Un evento podría ser { 3, 5, 7, . . . , 15}. Este evento corresponde a que el número de tiros necesario sea nón. Si al hacer los cara y sellos los resultados fueran:
CCSCCSSSCCC (aquí nos detenemos porque han caído ya, tres caras seguidas), el evento si se realizó porque el número necesario fue 11 y es nón. SSSCCC (aquí paramos porque ya hay tres caras), el evento no se realizó. Podemos pensar que cada experimento al azar es un juego y que un evento es una lista de los resultados que hacen que YO gane. 4. Para el experimento de comprar llantas nuevas para un auto, encontrar un espacio muestral de eventos simples y explicar a partir de este ejercicio y los anteriores que tipos de eventos pueden ocurrir en un experimento. Solución. Al comprar llantas para mi auto, puede ser que manifiesten un defecto de fabricación dentro del período de garantía total y que el fabricante deba reponerlas. También puede pasar que el defecto se manifieste en el período de garantía parcial y que el fabricante bonifique sólo un porcentaje o que el defecto se manifieste después de vencido el período de garantía en cuyo caso el fabricante no paga nada. También puede pasar que las llantas no tengan defecto de fabricación aparente y que no haya garantía que reclamar. Como se puede considerar que las llantas que me vendieron se escogieron al azar de entre toda la producción, tenemos un experimento aleatorio. El espacio muestral en este experimento es: S = {T, P1, P2, P3, N, Ok}. Con la siguiente notación T: pago total, P1 pago del 50%, P2: pago del 30%, P3: pago del 10%, N: nada de pago,
181
6
Probabilidad
Ok: llantas sin defecto. El evento {Ok} sólo se realiza cuando las llantas no tienen defecto. En este último ejercicio se tiene un evento simple porque consta de un solo punto del espacio muestral. Será compuesto cuando tiene varios puntos del espacio muestral. Se llama evento imposible al que no puede ocurrir; éste evento corresponde al conjunto vacío. Otro evento extremo es el espacio muestral mismo que, puesto que siempre ocurre, se llama evento seguro. 5. Explique para el experimento de lanzar un dado, la asignación de probabilidades a los elementos del campo muestral. Halle la probabilidad de que el resultado sea mayor que 4 y describa una forma de evidenciarla. Solución. Pensemos en un dado perfectamente balanceado de modo que ninguno de los seis lados es favorecido. El espacio muestral es {1, 2, 3, 4, 5, 6}. La función de probabilidad le asigna a cada uno de los elementos del espacio muestral el valor 1/6. Esta asignación la hacemos porque el dado está balanceado. Decimos que la probabilidad de un evento es el número de resultados favorables al evento entre el número de resultados posibles. Entonces, la probabilidad de que el resultado sea mayor que 4 es 2 / 6, porque hay 2 resultados favorables entre los 6 resultados posibles. Formalmente, el evento es A = {5, 6} y P[A] = 2/6. La probabilidad que resulta de esta manera, tiene una interpretación empírica; si hacemos una serie larga de lanzamientos del dado, y observamos la frecuencia de resultados favorables al evento A, esta frecuencia tiende a ser 2/6.
182
6. Se tiene una urna con 50 papelitos numerados de los cuales se escoge uno para que tenga un premio. Determine el espacio muestral y la probabilidad de que uno de los apostadores al comprar tres números gane. Solución. El espacio muestral es {1, 2, 3,... 50}. La asignación de probabilidades es de 1/50 para cada resultado. Si el jugador compró los números 1, 14 y 18; el evento de que gane es {1, 14, 18} y la probabilidad de que gane es 3/50. 7. Se extraen dos naipes de una baraja ordinaria de 52 cartas, sustituyendo el primer naipe antes de sacar el segundo. ¿Cuál es la probabilidad de que las dos cartas sean espadas? Solución. Sea A1 el evento de obtener una espada en la primera toma y A2 el evento de obtener una espada en la segunda. Puesto que la primera carta se sustituye, la probabilidad de obtener una espada en la segunda no debe depender de que se haya obtenido o no una espada en la primera; por lo tanto, se puede suponer que A2 es independiente de A1, usamos entonces la regla de la multiplicación para eventos independientes así:
{A
∧ A2 }=
1
⋅
1
=
1 1
8. ¿Cuál es la probabilidad de que las cartas sean o bien el dos de espadas o bien el dos de corazones? Sea B1 el evento de obtener el dos de espadas y B2 el evento de obtener el dos de corazones. Entonces, el resultado precedente, se sigue que P{B1}=P{B2}=1/16 Puesto que los eventos B1 y B2 son mutuamente excluyentes y el problema es calcular la probabilidad de que ocurran B1 o B2; luego,
{B
∨ B2 }=
+
=
8
Estadistica 1 9. Como antes, supóngase que se extraen dos cartas de la baraja pero esta vez no se sustituye la primera. ¿Cuál es la probabilidad de que ambos naipes sean espadas? Solución. Ahora A2 no es independiente de A1, porque si se ha obtenido una espada en la primera extracción, la probabilidad de obtener otra en la segunda será menor que si se hubiera obtenido un naipe distinto a espadas en la primera.
{A ∧ A2 }=
1
1 1 ⋅ = 1 1
El segundo factor es 12/51, debido a que sólo se tienen 51 naipes después de la primera extracción, cuya probabilidad se supone que es igual y solamente quedan 12 espadas. 10. Como ilustración final que no involucra juegos de azar y que involucra más de dos eventos independientes considérese el siguiente problema. Suponiendo que la razón de niños varones es 1/2 (esto es aproximadamente verdadero) hallar la probabilidad de que en una familia de 6 hijos (a) todos sean de un mismo sexo, (b) 5 sean varones y una, mujer. Solución. (a) Sea A1 el evento de que todos los hijos sean varones y A2 el evento en que todas sean mujeres. Como A1 y A2 son mutuamente excluyentes P{A1 o A2}=P{A1} + P{A2} Dado que los 6 nacimientos puede suponerse que son 6 eventos independientes respecto al sexo se sigue, utilizando la versión más general de la fórmula de multiplicación, que
{A }= {A }=
6
2
{A o A }=
6
+
6
=
3
b) Sea A1 el evento de que el mayor de los hijos sea mujer y los restantes varones, A2 el evento de que el segundo sea mujer y los demás varones, entendiendo lo semejante para los eventos A 3, A4, A5, A6. Como el evento de tener 5 varones y una niña ocurrirá si y solamente si tiene lugar uno de los 6 eventos mutuamente exclusivos A1,...,A6 se sigue a partir de la definición de evento compuesto que P{5 varones y 1 mujer}=P{A1}+...+P{A6} Pero,
{A }= {A6 }=
6
2
Luego,
{
1 m
}=
1
6
=
1
Aun cuando las reglas precedentes de probabilidad se han derivado de la hipótesis de que todos los resultados posibles del experimento en cuestión se espera que ocurran con la misma frecuencia relativa, las reglas son válidas para experimentos más generales. Pueden, incluso, aplicarse a eventos relacionados con experimentos en los que el número de resultados posibles es infinito. 11. Una caja que contiene dos bolas rojas y una blanca y otra caja que contiene dos bolas rojas y dos blancas. Se selecciona una caja al azar y se extrae una bola de ella. Si la bola extraída es roja ¿cuál es la probabilidad de la primera caja? Solución. Sea A el evento de escoger la primera caja y sea A el evento de extraer una bola roja. Entonces el problema es calcular la probabilidad condicional P{A1|A2}. Ya que la frase “al azar” quiere decir que ambas cajas tienen la misma probabilidad de ser escogidas, se sigue que la probabilidad de escoger la primera caja es 1/2, y que la de escoger la segunda caja es igual. Usaremos la siguiente fórmula
183
6
Probabilidad
{A A }= 2
A ∧ A2 {A2 }
Puede efectuarse el cálculo del numerador así
{A2 ∧ A }= {A ∧ A2 }=
⋅ = 3 3
El denominador, P{A2}, puede calcularse considerando las dos maneras mutuamente excluyentes en que A2 puede ocurrir, esto es, escoger la primera caja y luego una bola roja; o bien, escoger la segunda caja y luego una bola roja. P{A2} estará dado por la suma de las probabilidades de los dos casos mutuamente excluyentes; entonces,
{A2 }= 1 ⋅
1 + ⋅ =
1
{A
1
AA }=
7
=
7
12. Para detectar cierta enfermedad rara se ha perfeccionado una prueba a tal grado que mediante esta es posible descubrir dicho mal en el 97% del total de individuos afectados. Supongamos, además, que cuando se aplica a individuos sanos, en el 5% de ellos se diagnostica de manera errónea en el sentido de afirmar que han contraído el mal. Finalmente, supongamos que cuando se ensaya en individuos que padecen alguna otra enfermedad más benigna, en el 10% de ellos se diagnostica incorrectamente. Se sabe que los individuos de los tres tipos aquí considerados se presentan en una población suficientemente grande, en cantidades que equivalen al 1 %, 96% y 3%, respectivamente. El problema es calcular la probabilidad de que un individuo de dicha población, escogido al azar y al cual se le aplique la prueba, en realidad tenga la enfermedad rara cuando la prueba así lo indique. Solución. Aquí, en la primera etapa, hay tres eventos e1, e2 y e3 correspondientes a los tres tipos de individuos que forman la población. Sus probabilidades correspondientes son P{e1}=0.01, P{e2}=0.96 y P{e3}=0.03. En la segunda etapa hay dos eventos, O1 y O2, correspondientes al resultado de la
184
prueba respecto de si el individuo está o no enfermo. Las probabilidades condicionales están dadas por P{O 1 |e 1 }=0.97, P{O 1 |e 2 }=0.05, y P{O1|e3}=0.10. En términos de esta notación, el problema es calcular P{e1/01}. Sustituyendo estas probabilidades directamente en la fórmula de Bayes, se obtiene la siguiente respuesta:
{ O }= 1
1
1 1
+
+
1
= 1
Este resultado es bastante sorprendente, ya que demuestra que solamente el 16% de los individuos, para los cuales la prueba indicó que estaban afectados por la enfermedad, realmente estaban enfermos, siempre y cuando la prueba se haya aplicado a una población muy grande. El restante 84% de los individuos, a los cuales se les diagnosticó incorrectamente, habrá sufrido durante cierto tiempo una angustia mental debida a la creencia de tener la enfermedad, hasta que otras pruebas revelaron el error del diagnóstico. También pudieron mostrarse resentidos ante la necesidad de sujetarse a más pruebas que en realidad no eran necesarias. Por consiguiente, un cálculo como el anterior podría indicar a las autoridades locales la necesidad de pensarlo bien antes de ordenar dicha prueba masiva. 13. Supóngase que se sabe que el 10% de los obreros de una fábrica están clasificados como propensos a sufrir accidentes y que 0.6 es la probabilidad de que un obrero de ese grupo sufra al menos un accidente durante un periodo de un año, en tanto que la probabilidad de que un obrero que no pertenece a ese grupo sufra un accidente es de 0.3. Basándose en esa información, ¿cuál es la probabilidad de que un obrero que ha sufrido al menos un accidente en dos años consecutivos sea clasificado dentro del grupo de obreros propensos a sufrir accidentes?
Estadistica 1 Solución. El árbol del problema es el siguiente, donde A y N denotan, respectivamente, el haber sufrido y el no haber sufrido algún accidente durante ese año:
mio en el mismo grupo. El número total de formas de dar tres premios a cincuenta individuos es igual al número de comités de tres personas que puede seleccionarse entre cincuenta individuos, que está dado por 50C3. Este es, por lo tanto, el número total de puntos de muestra en el espacio de muestreo. El número de estos puntos de muestra que corresponde al evento de 0 premios en el grupo de los ejecutivos es igual al número de maneras de otorgar tres premios a cuarenta individuos (no ejecutivos), que está dado por 40 C 3 . Así,
{0}= Si A1 representa el ser propenso a accidentes y A2 representa el haber sufrido accidentes en dos años consecutivos, entonces el problema es evaluar P{A 1 A 2 }, Aquí P{A 1 y A 2}=(0.1)(0.6)(0.6) y P{A2}=(0.1)(0.6)(0.6)+(0.9)(0.3)(0.3); de ahí que
{A A }= 2
+
3
3
=
3
= 3
De este resultado se desprende que no se puede adoptar esta clasificación de obreros propensos a sufrir accidentes, ya que sólo 1/3 de los obreros que han sufrido al menos un accidente en dos años consecutivos, pertenecen al grupo propenso. 14. Suponga que en una oficina de 50 empleados se debe escoger a diez para clasificarlos como ejecutivos. Se darán tres premios en una fiesta al final del año. ¿Cuál es la probabilidad de que cuando más un solo ejecutivo gane premio? Esto sería deseable por razones de índole moral. Solución. De la regla de adición se sigue que la probabilidad deseada estará dada por la suma de la probabilidad de 0 premios en el grupo de los ejecutivos y 1 pre-
C3 C3
Ahora bien el número de maneras en que se pueden dar un premio al grupo ejecutivo y 2 premios a los otros puede calcularse como a continuación. Dado que sólo un ejecutivo de entre los 10 disponibles ha de recibir un premio, existen 10C1 maneras de elegir ese ejecutivo. Dado que 2 de los 40 individuos no ejecutivos deben recibir premios, hay 40 maneras de seleccionar esos dos individuos. Pero por el principio fundamental de conteo, el número total de maneras de efectuar estas dos elecciones está dado al multiplicar el número de maneras de efectuar las selecciones separadas de este experimento de selección en dos etapas. Por tanto, el número total de maneras que hay de otorgar un premio al grupo ejecutivo y 2 premios al no ejecutivo está dado por (10C1)(40C2) Este es el número total de puntos de muestra que corresponden a la ocurrencia del evento deseado; así pues, la probabilidad de que exactamente un premio caiga en el grupo ejecutivo y dos premios en el no ejecutivo está dada por
{} 1 =
C⋅ C C3
185
6
Probabilidad
La probabilidad deseada está dada, luego, por { }+ {}=
C3 + C = C3
⋅9 ⋅ ⋅ ⋅
+ ⋅9 ⋅ ⋅ ⋅
⋅
⋅9 ⋅ =
= 9
Por tanto, es bastante probable que el grupo de los no ejecutivos gane al menos dos de los premios. En vista de la probabilidad, cabría dudar de la honestidad del sorteo si los ejecutivos ganaran más de un premio. 15. Se han alterado dos dados sustituyéndoles la cara que tiene un punto por una cara que tiene dos puntos. De manera que cada uno de los dados tiene dos caras de dos puntos, pero no tiene cara de un punto. Se tiran una vez ambos dados. Suponiendo que pueden distinguirse entre sí, resuelva los siguientes problemas: (a) Construya un espacio de muestreo para el experimento. (b) Asigne probabilidades a los puntos del espacio de muestreo. (c) Empleando la definición de evento compuesto, calcule la probabilidad (i) de obtener un total de 6 puntos en los dos dados; (ii) de que por lo menos uno de los dados muestre un dos; y (iii) de que por lo menos uno de los dados muestre un dos, sabiendo que en el otro dado no se obtuvo un número mayor de 4. Solución. a) Un espacio de muestreo adecuado es el de los siguientes 25 puntos marcados con el resultado de cada uno de los dos dados: 22 32 42 52 62 23 33 43 53 63 24 34 44 54 64 25 35 45 55 65 26 36 46 56 66 b) Puesto que se supone que los dos dados se comportan de la misma manera que dos dados normales, para los cuales se construyó el espacio de muestreo ilustrado en la Tabla 6.1., en donde a cada punto se le había asignado la probabilidad de 1/36, las probabilidades asignadas aquí deben estar de acuerdo
186
con aquéllas. Esto es, como aquí el evento 22 corresponde al evento compuesto que consiste de los eventos simples 11 , 12, 21 y 22 de la Tabla 6.1., en el presente espacio de muestreo al punto 22 debe asignársele una probabilidad de 4/36. A cada uno de los restantes puntos de este espacio que tengan la cifra 2 en su marca debe asignárseles la probabilidad 2/36 porque ellos están compuestos de dos eventos simples tomados de la Tabla 1. A todos los demás puntos debe asignárseles la probabilidad 1/36 porque no difieren de los puntos correspondientes en la Tabla 6.1. c) Si A representa el evento de obtener un total de 6, observando el espacio de muestreo puede verse en (a) que A está compuesto de los tres puntos 24, 33 y 42; por consiguiente, aplicando la definición de evento compuesto y empleando las probabilidades asignadas en (b) a dichos puntos, se infiere que
{A}=
3
+
3
+
3
=
3
ii) Si B denota el evento de obtener cuando menos un 2 se observa que B consiste de los eventos simples 22, 23, 24, 25, 26, 32, 42, 52 y 62. Según el inciso (b), al punto 2 se le había asignado la probabilidad 4/36 y el resto de dichos puntos la probabilidad de 2/36; por consiguiente, como éstos son ocho, se tiene
{B}=
+
=
9
iii) Si C denota el evento de obtener al menos un 2, y D el evento de obtener un número no mayor que 4, se ve que D consiste en los eventos simples 22, 23, 24, 32, 33, 34, 42, 43 y 44. De estos puntos, solamente 22, 23, 24, 32 y 42 corres-
Estadistica 1 ponden también a C; así, pues, de acuerdo con la asignación de probabilidades en (b) se infiere que
{D}=
+
+
{
∧ D}=
=
3
+
9
3
=
3
{ D}= 4 =
4
16. Un departamento de investigación de mercadotecnia estudia la lealtad a la marca de los consumidores de su producto, la marca B. Los estudios indican que los consumidores como grupo tienen un patrón de comportamiento más bien fijo respecto a la elección de marca alternativa en compras repetidas. Supongamos que el 60% de los compradores de la marca (A) vuelven a comprar la marca A en la siguiente ocasión y que el 70% de los compradores de B vuelven a comprar la marca B en su siguiente compra. Supongamos que cada uno de ellos compra A o bien B y que la frecuencia de compra es la misma en ambos casos. ¿Cuál es la probabilidad de que un cliente elegido al azar comprara A en su siguiente compra si inicialmente las marcas A y B dividían el mercado en partes iguales? Solución. Hay dos tipos de compradores de la marca A: un comprador de A que vuelve a comprar A y un comprador de B que cambia a la marca A. Sí los subíndices 1 y 2 representan el primer momento y el segundo en la compra, entonces P{A2}= P{A1} P{A2|A 1} + P{B1 } P{A2|B 1} =(0.50)(0.60)+(0.50)(0.30) = 0.45 17. Una caja contiene las siguientes cinco cartas: el as de espadas, el as de bastos, el dos de corazones, el dos de diamantes y el tres de espadas. El as se considera como un uno. Las espadas y los bastos son negros, mien-
tras que los corazones y los diamantes son rojos. De esta caja se extraen dos cartas sin reemplazar la primera carta antes de la segunda extracción. Empleando las fórmulas de adición y multiplicación calcule la probabilidad de que (a) 4 ambas cartas sean rojas, (b) la primera carta sea un as y la segunda un dos, (c) ambas cartas sean del mismo color, (d) una carta sea de espadas y la otra sea de bastos, (e) se obtenga un total de 4 puntos entre las dos cartas, (f) 5 se obtenga exactamente un as, sabiendo que las dos cartas son negras. Solución. a) Aplicando la fórmula básica de la multiplicación de probabilidades y considerando el experimento en dos etapas, P{RR}=2/5.1/4=1/10 b) Aplicando la misma fórmula, P{A2}=2/5.2/4=1/5 c) Los dos eventos, RR y NN, constituyen las dos maneras mutuamente excluyentes en que el evento deseado puede ocurrir; entonces, aplicando la regla de la adición, se ve que la probabilidad está dada por
{
∧ NN }=
{ }+ {NN }=
5
⋅ + ⋅ = 5 5
d) Los eventos EB y BE satisfacen la condición pedida; entonces, =
+
= ⋅ + ⋅ = 5 5 5
e) Se obtiene un total de 4 si ambas cartas son dos o si una carta es tres y la otra uno. Empleando subíndices para indicar los números que tengan las cartas, podemos representar de la siguiente manera a los eventos que satisfacen la condición requerida. C2D2, D2C2, E3E1, E1E3, E3B1, B1E3. Como éstas son las maneras mutuamente exclusivas en que puede ocurrir el evento deseado y como cada una de ellas posee la misma probabilidad, esto es, 1/ . 1/ =1/20, se infiere que 5 4 P{ un total de 4 } = 6/20=3/10
187
6
Probabilidad
f) Sea A1 el evento de que ambas cartas sean negras y A2 el evento de obtener exactamente un as. Entonces P{A2|A1} es la probabilidad requerida para resolver el problema. Según la fórmula de la probabilidad condicional, para esto necesitamos calcular P{A1} y P{A1 y A2}. Primero P{A1} = 3/5.2/4 = 3/10. Ahora bien, ocurren tanto A1 como A2 si ocurre alguno de los siguientes eventos mutuamente excluyentes: E1E3, E3E1, B1E3, E3B1. Como cada uno de estos cuatro eventos tiene una probabilidad de 1/5. 1/4=1/20, se sigue que P{A1 y A2} = 4/20=1/5. Entonces,
{A A }= 2
3
=
3
empezando en la primera ramificación de la rama A principal. La probabilidad de BB está dada por ½. 1/ = 1/4 2 19. Suponga que el 80% de los compradores de autos usados son dignos de crédito. Suponga además que la probabilidad de que un comprador digno de crédito tenga cuenta bancaria es de 0.7 pero que esta probabilidad es de 0.4 para uno no digno de crédito. (a) Construya un árbol de probabilidad para este problema. (b ) Úselo para calcular la probabilidad de que un individuo con una cuenta bancaria. (c) No sea digno de crédito (b). (c) Use este árbol para calcular la probabilidad de que un solicitante de crédito que no tiene cuenta bancaria (n) sea digno de crédito (G). Solución.
18. Dos jugadores se enfrentan en un “playoff” en donde el que primero gane dos juegos es declarado vencedor. Supongamos que los jugadores A y B tienen la misma oportunidad de ganar un juego cualquiera. (a) Trazar un árbol que muestre los resultados posibles. (b) Calcular la probabilidad para cada uno de estos resultados. (c) Si A gana el primer juego, ¿cuál es la probabilidad de que B aún gane el playoff?
b) Las probabilidades asociadas con los puntos de muestra empezando con el de arriba son 1/4, 1/8, 1/18, 1/ , 1/ , 1/ 8 18 4.
c) El espacio de muestreo condicional que aquí se necesita consiste en la parte superior del árbol
188
b)
{ C}=
c)
{ N }=
+ 8 3 3 +
=
=
8
3
20. Una caja de 15 repuestos para un cierto tipo de máquina contiene 10 en buen estado y 5 defectuosos. Si de la caja se escogen 3 al azar, ¿cuál es la probabilidad de que (a) todos estén en buen estado, (b) todos sean defectuosos, (c) de que dos estén en buen estado y uno defectuoso y (d) de que al menos dos estén en buen estado? Las soluciones se expresarán en términos de símbolos de combinación y después se evaluarán.
Estadistica 1 a)
C3 = C3
⋅
=
⋅9⋅ ⋅ ⋅
b)
C3 = C3
⋅
⋅ ⋅ ⋅ ⋅
=
c)
C
d)
C C3
9
+
9
=
=
⋅
⋅
=
=
9
9 ⋅9
⋅ ⋅
⋅ ⋅
⋅
=
9
9 9
189
Estadistica 1
Unidad 7 Introducción a las Distribuciones de Probabilidad
191
7
192
Introducción a las Distribuciones de Probabilidad
Estadistica 1 OBJETIVOS
*
Identificar la distribución de probabilidad normal como una función y adquirir habilidad en su mani pulación ayudados por la tabla de distribución, la calculadora o el software estadístico.
INTRODUCCIÓN
Este capítulo relaciona la probabilidad y las distribuciones de frecuencia al analizar las distribuciones de probabilidad. Sólo se estudiará en este curso la distribución normal ya que es una de las que más nos sirven para determinar situaciones, y por que nos sirve especialmente para abordar el estudio de las funciones de probabilidad. Para abordar este capítulo productivamente es indispensable haber superado los anteriores, y a la vez es prerrequisito para el próximo capítulo. Una distribución de probabilidad la podemos concebir como una distribución teórica de frecuencia, es decir, es una distribución que describe como se espera que varíen los resultados. Dado que esta clase de distribuciones se ocupan de las expectativas son modelos de gran utilidad para hacer inferencias y tomar decisiones en condiciones de incertidumbre. Para desarrollar este capítulo es necesaria la calculadora o el computador, su objeto es básicamente procedimental, sin embargo requiere del bagaje conceptual de los capítulos anteriores. Se debe lograr calcular el área bajo la curva normal (o porcentaje de probabilidad) a partir de la distancia en unidades estándar desde la media, o a la inversa, lograr determinar la desviación desde la media dentro de la cual se espera un determinado porcentaje o área. Lo anterior para luego determinar si una hipótesis logra ubicarse dentro o fuera de un porcentaje de certeza.
193
7
194
Introducción a las Distribuciones de Probabilidad
Estadistica 1 Distribuciones de Probabilidad Las distribuciones de probabilidad están relacionadas con las distribuciones de frecuencias. Una distribución de frecuencias teórica es una distribución de probabilidades que describe la forma en que se espera que varíen los resultados. Debido a que estas distribuciones tratan sobre expectativas de que algo suceda, resultan ser modelos útiles para hacer inferencias y para tomar decisiones en condiciones de incertidumbre. Una distribución de frecuencias es un listado de las frecuencias observadas de todos los resultados de un experimento que se presentaron realmente cuando se efectuó el experimento, mientras que una distribución de probabilidad es un listado de las probabilidades de todos los posibles resultados que podrían obtenerse si el experimento se lleva a cabo. Las distribuciones de probabilidad pueden basarse en consideraciones teóricas o en una estimación subjetiva de la posibilidad. Se pueden basar también en la experiencia.
Tipos de distribuciones de probabilidad. Las distribuciones de probabilidad se clasifican como continuas y discretas. En la distribución de probabilidad discreta está permitido tomar sólo un número limitado de valores. En una distribución de probabilidad continua, la variable que se está considerando puede tomar cualquier valor dentro de un intervalo dado. Las distribuciones continuas son una forma conveniente de presentar distribuciones discretas que tienen muchos resultados posibles, todos muy cercanos entre sí.
Variable aleatoria. Frecuentemente el resultado de un experimento aleatorio se denota con un número: el resultado de lanzar un dado, el número de unidades defectuosas entre 10 unidades seleccionadas, el tiempo que hay que esperar para que se presente una falla en un circuito, el número de estaciones de una red de computadoras que requieren la atención del servidor de la red en un momento dado, el número de personas en una comunidad que requieren atención médica en un día especificado, el peso sumado de las personas que están en un elevador en un momento determinado del día, la cantidad en dinero de lo transportado en un camión antes de que sufra una descompostura, etc.
195
7
Introducción a las Distribuciones de Probabilidad
A un número tal, le llamamos variable aleatoria. Ponga atención al hecho de que una variable aleatoria no es una variable en el sentido usual. Las variables que estamos acostumbrados a manejar son, por ejemplo: el peso de un cohete que va quemando el combustible que lo impulsa, la distancia del piso a un objeto que cae hacia él, la concentración de una solución dentro de un tanque conforme pasa el tiempo, etc. En los ejemplos anteriores el valor de la variable puede cambiar con el tiempo, pero es predecible a partir de las leyes de la mecánica, la química, la hidráulica o alguna otra ciencia. Con una variable aleatoria la situación es enteramente diferente. El valor de una variable aleatoria no se puede conocer con exactitud de antemano a la realización del experimento. ¿Qué otros ejemplos de variables aleatorias se le ocurren además de los mencionados arriba? Al contestar esta pregunta tenga en cuenta que el azar debe jugar algún papel en la medición de la variable y que su valor no debe ser predecible.
El hecho de que una variable aleatoria nos interesa cuando aún no tiene un valor específico, nos obliga a utilizar una notación extraña al referirnos a ella. Denotamos con letras mayúsculas a las variables aleatorias y con minúsculas a los valores que contemplamos para ellas.
Una variable aleatoria presenta dos características importantes:
Se puede pensar en una variable aleatoria como un valor o una magnitud que cambia de una presentación a otra, sin seguir una secuencia predecible. Los valores de una variable aleatoria son los valores numéricos correspondientes a cada posible resultado de un experimento aleatorio.
1. Una colección (conjunto) de valores posibles al que llamamos imagen de la variable aleatoria (antes lo llamábamos espacio muestral). 2. Una probabilidad asociada a los posibles resultados la cual queda expresada mediante una función de probabilidad. Las variables aleatorias que tienen un conjunto de posibles valores discreto, se llaman discretas. Estas variables son el resultado de contar.
Resumiendo entonces, tenemos que una variable es aleatoria si toma diferentes valores como resultado de un experimento aleatorio. Puede ser discreta o continua. Si puede tomar sólo un número limitado de valores, entonces es una variable aleatoria discreta. En el otro extremo, si puede tomar cualquier valor dentro de un intervalo dado, entonces se trata de una variable aleatoria continua.
La distribución de probabilidad de una variable aleatoria proporciona una probabilidad para cada valor posible, y estas probabilidades deben sumar 1.
¿Cuáles de las variables aleatorias mencionadas arriba son discretas? Ciertamente el peso de las personas en el elevador no es discreto, pero entre las otras ¿cuáles son discretas? Por otra parte, las variables aleatorias cuyos valores posibles se encuentran en cualquier parte de un intervalo, se llaman continuas. Estas variables son el resultado de medir.
196
?
Estadistica 1 Valor esperado de una variable aleatoria. El valor esperado es una idea fundamental en el estudio de las distribuciones de probabilidad. Para obtener el valor esperado de una variable aleatoria discreta, se multiplica cada valor que la variable puede tomar por la probabilidad de presentación de ese valor y luego se suman esos productos. Es un promedio pesado de los resultados que se esperan en el futuro. El valor esperado pesa cada resultado posible con respecto a la frecuencia con que se espera se que presente. En consecuencia, las presentaciones más comunes tienen asignadas un peso mayor que las menos comunes. El valor esperado también puede ser obtenido a partir de estimaciones subjetivas. En ese caso, el valor esperado no es más que la representación de las convicciones personales acerca del resultado posible. En muchas situaciones, encontraremos que es más conveniente, en términos de los cálculos que se deben hacer, representar la distribución de probabilidad de una variable aleatoria de una manera algebraica. Al hacer esto, podemos llevar a cabo cálculos de probabilidad mediante la sustitución de valores numéricos directamente en una fórmula algebraica. El valor esperado de una variable aleatoria discreta es un promedio pesado del valor de cada resultado posible multiplicado por la probabilidad de dicho resultado. Aunque existen muchos valores diferentes posibles
que la variable aleatoria puede tomar, el valor esperado es sólo un número. Si tomamos como variable aleatoria el resultado (suma) de lanzar dos dados, desde el punto de vista de la probabilidad, el número resultante nos interesa antes de que realicemos el experimento. Conocido el resultado, ya no es interesante (al menos, no para la probabilidad). La imagen de esta variable aleatoria es S = {2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12}. Llamando X al resultado del experimento, podemos contemplar el evento de que X sea igual a x, donde x es cualquier elemento de S. Claro que nos resultará muy interesante saber cosas como P(X = x) para los diferentes valores de x en S; por ejemplo, P(X = 6) = 5/36 [esto se lee: “la probabilidad de que X sea igual a seis es un sexto’’]. ¿Puede Ud. mostrar que P(X = 8) = 5/36? Siguiendo con el ejemplo de los dos dados, el lanzar dados para ver que número cae no es muy apasionante que digamos, acompañemos los dados con un tablero de oca o de serpientes y escaleras o de turista o de backgamon o algún otro juego interesante. Ya puestos a jugar turista o monopolio, es natural que nos interesen otro tipo de eventos. Podríamos estar interesados en saber si el resultado es menor que 8:P(X < 8) =21/36 ¿Puede Ud. ver por qué?; que el resultado sea desde 4 hasta menos que 9: P(3 < X < 9) = 23/36 ¿Por qué?; también podemos estar interesados en que X sea distinta de 7: P(X distinto de 7) = 1 - P(X = 7) = 1 - 1/6 = 5/6.
197
7
Introducción a las Distribuciones de Probabilidad
Naturalmente esta notación se extiende de manera natural a todo tipo de intervalos y desigualdades. Regresando a donde estábamos, a la función: f(x) = P(X = x) se le llama función de probabilidad de X. Esta función es una función ordinaria de las que estudiamos en los cursos de matemáticas; no tiene nada de aleatorio. Dicho de otra forma, una vez determinados los valores de las probabilidades, la función de probabilidad es una función común y corriente, tiene su dominio, su codominio, su gráfica, puede ser inyectiva, etc. Hay algunos hechos importantes respecto a esta función: 1. Para una variable aleatoria discreta los valores posibles son los únicos para los cuales esta probabilidad es diferente de cero. Dicho de otra forma, no nos hace daño ampliar el dominio de la función de probabilidad a todos los reales, pero va a valer cero casi siempre excepto en un conjunto discreto de puntos. 2. El valor de la función de probabilidad depende esencialmente de la variable aleatoria a la que nos referimos, cuando no sea claro a cuál variable nos referimos, es conveniente poner el símbolo de la variable como subíndice para la función: fX(x). Esta costumbre puede causar estragos en la comprensión de los novatos, esté Ud. prevenido. ¿Qué querrá decir fY(w)?
Una vez que haya llenado la tabla anterior, calcule la probabilidad de que gane Ud. más de 8 pesos; la probabilidad de que pierda más de 10 pesos; la probabilidad de que su ganancia esté entre -10 y +16 inclusive; la probabilidad de que su ganancia o pérdida exceda a 9 pesos. Una función de probabilidad de una variable aleatoria discreta, para ser correcta, debe satisfacer dos propiedades: f(x) debe ser siempre mayor o igual a 0, y la suma de f(x) para todos los valores de x debe dar 1. Función de distribución.
Regresando al ejemplo de los dados, cambiemos el turista por otro juego. En este juego Ud. gana si el resultado es par y pierde si es nón; la cantidad que pierde o gana será el doble del resultado. Aquí, su ganancia (positiva si Ud. gana, negativa si pierde) es una variable aleatoria Y, su imagen es S = {-22, -18, -14, -10, -6, 4, 8, 12, 16, 20, 24}
Puede Ud. terminar la tabla de la función de probabilidad de Y?: Y -22 -18 -14 -10 -6 4 8 12 16 20 24 f(y)
198
Cuando la imagen de una variable aleatoria es un intervalo real decimos, según habíamos quedado, que la variable es continua. La matemática que utilizamos para las variables continuas es diferente a la de las discretas Por eso empezamos nuestro estudio con las discretas. Aún no acabamos con las
Estadistica 1 Para que esta última propiedad nos sea de utilidad deberíamos tener la distribución ya calculada. Para muchas variables aleatorias de uso común, las distribuciones ya están calculadas y tabuladas (una hoja de cálculo, como EXCEL ya incluye prácticamente todas las distribuciones que veremos en nuestros cursos de estadística para Administradores Públicos) Para las variables aleatorias discretas hay que tener cuidado con el hecho de que la primera desigualdad es estricta y la segunda nó. Por ejemplo si la imagen de X son todos los enteros, P(2
F(en menos infinito) = 0 ; F(en más infinito) = 1 F es una función no decreciente. F sirve para calcular probabilidades así P( a < X ≤ b ) = F(b) - F(a)
Las 4 propiedades que se señalaron arriba definen a una función de distribución, de modo que para saber si una función es una distribución o nó, basta ver que las cumpla. Considere el siguiente ejemplo.
para x > 0
Se trata de una variable aleatoria continua, cuya imagen son los números positivos(¿Por qué?). Lo que Ud. tiene que hacer es: Mostrar que es una distribución y usarla para calcular P(X=1.0), P(0.71.0 ó X=0.4).
Variables aleatorias continuas. Las variables aleatorias que hemos estudiado hasta ahora tienen la propiedad de que son el resultado de contar; sus valores posibles varían en forma discreta (a saltos). Hay otro tipo de variables aleatorias, las que son el resultado de un proceso de medir; sus valores posibles cubren todo un intervalo en los reales. Cuando la imagen de una variable aleatoria es un intervalo real decimos que la variable es continua. La matemática que utilizamos para las variables continuas es diferente a la de las discretas aunque los conceptos probabilísticos sean los mismos de manera que en nuestro estudio de las continuas utilizaremos este paralelo con las discretas.
199
7
Introducción a las Distribuciones de Probabilidad
Densidad de una variable aleatoria continua. El primer hecho de importancia es que una v. a. (variable aleatoria) continua tiene probabilidad cero de tomar un valor específico, sólo tiene valores positivos para intervalos: P( X = a ) = 0 para cualquier valor de a. Para calcular la probabilidad de que X esté en un intervalo (a,b) o (a,b] o [a,b) o [a,b] debemos hacer uso de una función asociada a la variable aleatoria, la función de densidad de X. Las variables aleatorias discretas tienen la función de probabilidad, las continuas tienen función de densidad. Esta función de densidad tiene las siguientes características: Sí ƒ(x) = 0 la integral de ƒ(x) vale 1 La integral a la que nos referimos es la integral definida sobre toda la imagen de la variable aleatoria. Note que estas características son el análogo continuo de las de la función de probabilidad de una v. a. discreta. Es decir la probabilidad nunca es negativa y la suma de todas las probabilidades es uno. Por este motivo, es frecuente utilizar el nombre de densidad tanto para esta función como para la función de probabilidad de una v. a. discreta. Además, como en el caso discreto, la función de densidad está ligada a la v. a. X de modo que cuando sea necesario aclarar a cuál densidad nos referimos podemos usar la notación ƒX(x), poniéndole el subíndice X a la ƒ. Cálculo de probabilidades con la densidad. Para obtener la probabilidad de un intervalo, hacemos la integral de la densidad sobre el intervalo del que queremos calcular la probabilidad. De nuevo, la integral a la que nos referimos es una integral definida cuyos extremos son los del intervalo. Para escribir la integral que da la probabilidad de que X esté entre 3 y 44.2 usamos la siguiente notación: 2
∫ (x ) x
200
Escriba en forma de integrales las siguientes: P(a < X < a + h), P(2.2 < X ≤ 5), P(X>8), P(X ≤ 15), P(X < 2 ó X > 3) Considere un par de ejercicios que le servirán para apreciar las implicaciones de lo anterior. Como primer ejemplo tome el siguiente. Sea X una v. a. continua cuya densidad es: f(x) = ax, para x en [3, 7]; a es una constante necesaria para que la integral de f(x) definida de 3 a 7, sea igual a uno. Muestre que a = 1/20 = 0.05, además muestre que P(3 < X <= 5) = 0.40 Otro ejercicio más es el siguiente. La densidad es: f(x)=0.025x para x en (3,7) k x2 si x está en [7,10) 0 en cualquier otra parte muestre que k = 1/438 y muestre también que P(6 ≤ X ≤ 8) = 0.3155 En los dos ejemplos anteriores calcule las funciones de distribución correspondientes. Considere el siguiente ejemplo. F (x) = 1- e(-0.7x); para x > 0, muestre que es una distribución y úsela para calcular P(x =1.0), P(0.7 < X < 1.0), P(X < 0.7), P(X>1.0 ó X=0.4).
Estadistica 1 Intentemos racionalizar la noción de distribución de una forma más elemental. Consideremos los siguientes problemas:
?
1. ¿De los municipios de Colombia, que porcentaje tiene un volumen de ingresos propios per cápita inferiores al de su municipio? 2. ¿Cuál es el nivel de ingreso mensual máximo que debe tener un hogar para entrar en un programa social del gobierno, si se requiere que quienes conformen este grupo corresponderán al 10% de familias con el ingreso más bajo?
Si usted quiere responder al problema 1, ¿qué información necesita conocer? Y si tuviera toda la información necesaria, ¿qué pasos debe seguir para resolver el problema? Ahora, si usted quiere responder al problema 2, ¿qué información necesita conocer? Y si tuviera toda la información necesaria, ¿qué pasos debe seguir para resolver el problema?
Si esta leyendo este párrafo, ya debe haber respondido los dos ítems anteriores. En la respuesta que dio referente a la solución del problema 1, posiblemente su respuesta se aproxime mucho a lo siguiente: necesita los datos siguientes, Cual es el nivel de ingreso promedio per-cápita de su municipio. Cual es el nivel de ingreso promedio per-cápita de los municipios del país. El número total de municipios del país. Teniendo esa información, seguiría los siguientes pasos para llegar a la solución del problema planteado, Ordenar los promedios ponderados (en orden ascendente o descendente). En esa distribución de los datos, identificar el valor particular del promedio ponderado que está haciendo de referencia, (el promedio de su municipio). Contar cuantos promedios son menores que la referencia. Establecer que porcentaje respecto del total de municipios representa el número encontrado anteriormente.
201
7
Introducción a las Distribuciones de Probabilidad
Intentémoslo con cifras, para verificar que tan complejo resulta, aunque vamos a limitarnos a una muestra de 50 municipios. Supongamos que el promedio de ingresos anuales propios de su municipio es de 850 millones de pesos y los siguientes datos expresan en cientos de millones de pesos, los ingresos de los 50 municipios:
Elabore una tabla de distribución de frecuencias con estos promedios. Muestre que el 28% de los municipios tiene un ingreso per-cápita superior al tomado como referencia. En la respuesta correspondiente a la solución del problema 2, en forma similar al anterior usted debió encontrar que los datos requeridos son, -
El ingreso mensual de todas las familias del territorio en estudio. El número total de tales familias.
Además, debió llegar a definir como pasos para la solución del problema los siguientes: -
Ordenar los ingresos de menor a mayor Determinar contando cuantas de las familias constituyen el 10% con menores recursos. Identificar el valor del ingreso de la familia que divide al grupo en dos uno del 90% y otro del 10%. El valor de esa estatura nos proporciona la solución al problema planteado.
Es de notar que si trabajamos con un grupo relativamente pequeño de datos la tarea resulta ser sencilla, no encierra una dificultad significativa, sin embargo, el muchos casos requeri-
202
mos tratar con poblaciones muy numerosas (infinitas o que se pueden considerar como infinitas) y esto precisamente justifica la existencia de la estadística, cuando tenemos una gran cantidad de información es a veces imposible conocerla toda y aunque se conozca, resulta muy dispendioso intentar un procedimiento como el que se pensó para los ejemplos. Otro aspecto a considerar es que los problemas que necesitamos abordar ya no son artificiales, los casos de la realidad resultan mucho más complejos de trabajar que los simulados, por lo que se requiere de algún método que permita abordarlos de manera eficiente. ¿Existirá entonces un comportamiento generalizado que permita generar un modelo adecuado que se pueda aplicar al estudio de muchos casos?
Estadistica 1 ¿Qué variables conoce usted que tengan un comportamiento similar en cuanto a la forma de tendencia hacia las medidas centrales, o en cuanto a la dispersión? Busquemos a partir de un ejemplo cual puede ser el modelo que buscamos. Un ejemplo muy típico es el de la temperatura de un lugar. Se pretendía determinar la temperatura promedio de la ciudad de Medellín, las observaciones recolectadas medidas en ºC (grados centígrados) fueron:
? ¿Qué tipo de variable estamos tratando? ¿Cuál es el intervalo de datos que toma la variable?
?
Elabore una tabla de distribución de frecuencias y diga ¿Alrededor de cual valor parece agruparse la mayoría de las observaciones? ¿Cuál es la temperatura promedio? ¿Qué ocurre con los valores de la temperatura a medida que estos se alejan del valor de la temperatura promedio? Construya un polígono de frecuencia y diga si presenta algún tipo de simetría. Observe el área bajo la curva y diga si el área a la derecha de la media es tan grande como la que esta a la derecha, a partir de ello haga una suposición acerca del porcentaje de población de datos inferior a la temperatura promedio. ¿Qué porcentaje es? ¿Y cual es el porcentaje superior a la temperatura promedio?
203
7
Introducción a las Distribuciones de Probabilidad
¿Qué relación de orden existe entre la temperatura promedio, la temperatura moda y la temperatura mediana?. Explique la respuesta.
?
¿Cuál es la medida mas adecuada para medir la dispersión de los datos en este caso? ¿Cuál es la magnitud de la dispersión? ¿Cuál es el rango de la temperatura y especule cuantas veces puede caber la desviación estándar en este?
Lleve los datos a una hoja de cálculo (ver anexo No. 1) y genere de nuevo las estadísticas (Histograma, media, mediana, moda, desviación estándar, varianza), si su hoja de cálculo es Microsoft Excel puede usar la opción [Herramientas]/[Análisis de datos]. Si usa otra hoja de cálculo, necesita consultar el manual correspondiente.
Recolecte información de las siguientes variables y con ellas construya los gráficos respectivos de las distribuciones de frecuencia correspondientes -
Las estaturas de los estudiantes de su semestre. Edad de las madres al momento del parto. Edad de ingreso a la universidad de un grupo de 50 estudiantes.
Compare estas y la anterior y diga si existen diferencias significativas en la forma de la gráfica. Lo más posible es que usted haya encontrado similitudes en la forma de las gráficas de los ejercicios anteriores. Agudice su observación de la forma de la distribución de la variable en los siguientes ejemplos en los que aumentaremos la cantidad de observaciones (estas observaciones no incluyen ninguna de las de la muestra anterior):
204
Estadistica 1 Use la hoja electrónica para lo siguiente: Acumule la información de esta muestra a la de la primera muestra, con el fin de obtener una de tamaño 80. Lleve estos datos a la hoja de cálculo y usando la opción [Herramientas]/[Análisis de datos]/[Estadística descriptiva] e [Histograma] y preferiblemente imprima los datos y el gráfico obtenido para compararlo con el resultado obtenido anteriormente. Atención. Si no dispone en este momento de la hoja de cálculo, no continúe por que no se le puede asegurar la comprensión del tema. Logre al acceso a una computadora y lleve a cabo el ejercicio antes de continuar. La siguiente es una muestra de tamaño 120, que tampoco incluye los datos de las dos muestras anteriores.
Acumule esta muestra con las dos anteriores y haga la correspondiente tabla de distribución de frecuencias. Con la hoja de cálculo usando la opción [Herramientas]/[Análisis de datos]/[Estadística descriptiva] e [Histograma] y preferiblemente imprima los datos y el gráfico obtenido para compararlo con los resultados obtenidos anteriormente. Tome los tres histogramas impresos, una con una línea los puntos medios del extremo superior de los rectángulos hasta formar los polígonos de frecuencia correspondientes. Compare las gráficas de las tres distribuciones, que ha generado en Excel, a medida que aumenta la cantidad de información, fijándose en la forma de la curva. ¿Disminuye el número de picos? Si se le dificulta la comparación intente hacer los ejercicios de nuevo usando el mismo número de intervalos de clase, (por ejemplo 10).
205
7
Introducción a las Distribuciones de Probabilidad
Alrededor de cual temperatura se agrupa el mayor número de observaciones. Compare la mitad de la curva, de la media hacia la derecha con la de la media hacia la izquierda. ¿Existe simetría en la curva? ¿Qué pasa con los valores de las frecuencias mas alejados de la temperatura promedio?
Aunque ya tenemos 200 datos todavía no tenemos la totalidad de los datos, y nunca la tendremos, por que estamos tratando con una población infinita de datos. Supongamos ahora que tenemos todos los datos posibles y que estos son 4000, es decir estamos suponiendo que la población es finita. La siguiente será entonces la tabla de frecuencias:
El siguiente gráfico nos muestra el comportamiento de la variable temperatura para la población:
Figura 7.1. Histograma para una población de 4000 mediciones de temperatura.
206
Estadistica 1 Debemos tener en cuenta que al analizar las diferencias de forma de las cuatro distribuciones (tres de muestra y una de población) encontraremos la frecuencia en distintas escalas y nos puede traer dificultades de interpretación ya que estamos trabajando con poblaciones distintas: 40, 80, 200 y 4000, por lo que hubiera sido mejor elaborar la gráfica usando no las frecuencias absolutas sino las relativas. Sin embargo como tenemos clara la diferencia podemos aprovechar la facilidad que nos brindó la hoja de cálculo. De todas maneras se recomienda que de ser posible, por ejemplo si disponemos del software estadístico adecuado, es mejor generarlas basados en las frecuencias relativas para estos efectos comparativos. Si analizamos los datos sobre una tabla se hace aún más necesario usar las frecuencias relativas para hacer la comparación. Observe la siguiente tabla comparativa y diga como se obtuvo dicha tabla.
Los polígonos de frecuencia que usted dibujó sobre los histogramas se tornan cada vez más suaves a medida que aumenta el tamaño de la muestra. Los valores de la temperatura se van agrupando alrededor del valor 19,3 ºC y esta medida se ubica en el centro del rango de valores de la temperatura. La frecuencia de los valores de la temperatura tiende a disminuir a medida que se alejan de la temperatura promedio.
Compare en la tabla anterior las tres muestras respecto de la población, y diga cual se comporta de manera más similar a la población y cual menos. A partir del punto anterior, describa una regla que permita determinar como influye el tamaño de la muestra en su aproximación al comportamiento de la población, es decir que dadas dos o más muestras podamos establecer cual de ellas se aproxima más al comportamiento de la población. A partir del ejercicio anterior se espera que usted haya detectado que:
La curva tiende a presentar una simetría con respecto a la vertical que pasa por la temperatura promedio. La forma de la curva se acerca a la de una campana que tiene como diámetro el rango de los datos y la parte alta de esta se ubica exactamente arriba de la temperatura media. Es fácil aceptar que otras variables como la estatura de las personas, la presión arterial y el peso; tienen un comportamiento similar al de la temperatura. Por lo tanto es fácil sospechar la existencia de un modelo con estas características.
207
7
Introducción a las Distribuciones de Probabilidad
Hay una curva que representa la distribución de estas variables en poblaciones hipotéticamente grandes, esta curva tiene forma de campana y es similar a la siguiente:
Figura 7.2. Gráfica de la Distribución Normal Esta curva nos brinda información sobre las proporciones específicas de la población, esto es que el área bajo la curva nos informa de la probabilidad de ocurrencia de un evento dentro del intervalo que se mide tal área. Para determinar la probabilidad de que un experimento de cómo resultado de la variable un evento ubicado entre a y b, determinaremos el área bajo la curva que hay desde a hasta b. Veámoslo gráficamente:
Figura 7.3. Área bajo la curva normal entre dos puntos. La distribución de que estamos hablando ha sido llamada distribución normal, por ser la mas usada y a la que asimilan la mayor parte de las situaciones, también es llamada distribución gaussiana en honor a Gauss, famoso matemático que la investigó extensamente. Es una distribución bastante simétrica, muere con bastante rapidez en las orillas y posee una forma similar a la de una campana. Su aplicabilidad se da predominantemente para casos de variable continua y poblaciones grandes. La curva de la distribución normal puede ser generada usando una complicada fórmula que mostraremos solo para satisfacer posibles curiosidades, por que los valores más usados ya han sido calculados y organizados en una tabla para facilitar el tra-
208
bajo cuando se hace de forma manual (cuando se hace con el software estadístico no requiere ni la fórmula ni la tabla). Ver Anexo 3.
Distribución Normal
El valor de e es aproximadamente 2.718 y es la base para los logaritmos naturales.
Estadistica 1 Características de la curva normal. * El área total bajo la curva normal el igual a 1, esto concuerda con la suma de las probabilidades de los eventos mutuamente excluyentes de un espacio muestral que también suma 1. * Por la simetría de la curva tenemos que el área situada a la derecha de la media mide 0.5 es decir corresponde al 50% de probabilidad, en consecuencia el área de la izquierda es de igual magnitud. * En la curva, a lado y lado del promedio, hay dos puntos especiales llamados puntos de cambio de concavidad o puntos de inflexión. Estos puntos son los que se asocian a los valores de la variable cuya distancia al promedio es 1 desviación estándar. * El área bajo la curva normal ubicada entre (-1) y 1 desviación estándar, es decir entre una desviación estándar a la izquierda del centro de la campana y una desviación estándar a la derecha corresponde al 68.27%. Dicho de otra forma, en un experimento con una variable aleatoria continua esperamos que el 68.27% de las observacio-
nes se ubiquen en el intervalo que va desde una desviación estándar menos que la media hasta una desviación estándar más la media. * Entre (-2) y 2 desviaciones estándar se encontrarán el 95.45% de las observaciones. * Entre (-3) y 3 desviaciones estándar se encontrarán el 99.73% de las observaciones. * Los tres ítems anteriores nos permiten concluir que no toda curva acampanada sirve para este modelo, sólo sirve un tipo de curva que se llama campana de gauss. * Las anteriores características se conservan aún cuando se presentes desviaciones estándar diferentes, las cuales sólo cambiarán el ancho y el apuntalamiento de la campana, y no las proporciones del área bajo la curva. La curva normal depende de la media y de la desviación estándar, así, si tenemos dos variables se distribuyen normalmente, con la misma media y diferentes desviaciones estándar, existirán dos curvas normales, una para cada desviación estándar.
Figura 7.4. Areas bajo la curva normal dependiendo de las desviaciones estándar.
209
7
Introducción a las Distribuciones de Probabilidad
La medida de la distancia entre el centro de la campana y un punto determinado a lo largo del eje horizontal nos indica en términos de desviaciones estándar cuan alejados estamos de la media, la variable que toma estas medidas es continua y se llama variable normalizada o de unidades estándar. Apliquemos esto al ejemplo anterior. La distribución de frecuencias para las temperaturas promedio de la ciudad de Medellín, analizada con la opción [Herramientas]/[Análisis de datos]/[Estadística descriptiva] de Excel nos dio los siguientes valores:
¿Qué conclusiones podemos sacar al observar estos datos, respecto de la simetría de la distribución, su dispersión y su comportamiento normal? Revisando las características que describimos para la media, tendríamos que: * En el intervalo (µ-σ, µ+σ) que corresponde a (19.30 – 1.54, 19.30 + 1.54) = (17.16, 20.04) debe haber un 68.27% del número total de observaciones. Es decir 2731 observaciones corresponden a valores que oscilan entre 17.16 ºC y 20.04 ºC. * En el intervalo (µ-2σ, µ+2σ) que es (16.22, 22.38) debe haber un 95.45% de las observaciones. Es decir 3818 mediciones de la temperatura se encontraron entre 16.22 ºC y 22.38 ºC.
210
* En el intervalo (µ-3σ, µ+3σ) que corresponde a (14.68, 23.94) debe haber un 99.73% de las observaciones. Es decir 3989 de las observaciones deben ser valores que oscilan entre 14.68 ºC y 23.94 ºC.
Estadistica 1 Lo anterior no quiere decir que los valores de ±1, ±2, ±3 desviaciones estándar sean los únicos usados o que se puedan usar, igual podemos buscar que tantas unidades de desviación estándar necesitamos entendernos al rededor de la media para cubrir un porcentaje de la población diferente, por ejemplo 90%, 95%, 99% o cualquier otro que sea necesario. Por lo anterior tenemos que la variable normalizada es una variable continua.
Para determinar el valor de la variable normalizada para un valor de X dado es igual a: Una conclusión... No toda curva acampanada representa una distribución normal. Las curvas que se asimilen a la forma de la campana de gauss si sirven para representar distribuciones normales de probabilidad o de frecuencia. Las distribuciones de área bajo las curvas de distribución normal siempre son las mismas, por eso la tabla con los valores de las distribuciones siempre será la misma, pero podrán existir muchas curvas normales dependiendo de los valores de la desviación estándar y de la media, así:
*
Si la media es mayor la campana se desplaza hacia la derecha conservando su forma y su anchura. * Estas curvas serán más o menos altas y por tanto menos o más anchas dependiendo del valor de la desviación estándar. A mayor desviación estándar la campana se hace más alta y menos ancha. * Por lo anterior solamente necesitamos la tabla del Anexo 3 para determinar la proporción del área bajo la curva, y esta nos ahorra el tener que recurrir a la integral definida de la complicada fórmula que define la distribución normal. Con esta tabla se pueden hacer cálculos para cualquier curva normal.
211
7
Introducción a las Distribuciones de Probabilidad
Al igual que utilizamos la desviación estándar de la población para derivar los resultados estándar de la misma, podemos también usar la desviación estándar de la muestra para calcular los resultados estándar de la muestra. Estos resultados indican a cuántas desviaciones estándar se halla una observación en particular por arriba o por debajo de la media de la muestra. Resultado estándar de la muestra (z) = Existe una correspondencia biunívoca entre los valores de la variable de estudio y los valores de la variable normalizada. Cada valor de la variable de estudio hay un valor de la variable normalizada, por ejemplo el valor de la media de la variable de estudio corresponde al valor cero (0) de la variable normalizada. La anterior correspondencia quedara clara al resolver algunos ejercicios que algunos han llamado estandarización y desestandarización. Un ejercicio consiste en encontrar el valor de z asociado a un valor xi de la variable en estudio y a partir de él poder determinar por ejemplo el área entre cero desviaciones estándar y z, lo cual nos dará como resultado la probabilidad de que la variable tome un valor entre la media y xi. Ejemplo 7.1. Los estudios del Ministerio de Transporte han determinado que el consumo medio de gasolina de los carros medianos se distribuye normalmente, con un consumo promedio de 26 kilómetros por galón y una desviación estándar de 4 kilómetros por galón. Si en un experimento se van a monitorear 500 autos medianos, determinando el número de kilómetros que cada uno de estos recorrió mientras consumió un galón. ¿Cuantos autos, se espera que recorran 34 kilómetros o más con un galón? En este tipo de ejercicio y todos los que tengan que ver con la distribución normal es primordial para facilitar la comprensión del problema, esbozar un gráfico en que se sombree el área que se relacione con el ejercicio. No necesita ser muy precisa y de puede hacer a pulso. Veamos como sería la gráfica de este ejercicio:
212
¿Por qué se ha sombreado el área del extremo derecho y no otra?
?
Estadistica 1 Habiendo encontrado el valor z = 2 nos remitimos a la tabla de áreas bajo la curva normal (Anexo 3). La tabla nos permite encontrar el área buscando en la primera columna a la izquierda, el valor de z correspondiente hasta con una cifra decimal, la segunda cifra decimal de z la encontramos en la primera fila de la parte superior. Cruzamos columna con fila y allí estará el valor del área buscada. En consecuencia, para z = 2 buscamos 2.0 en la primera columna y 0.00 en la primera fila, cruzamos fila con columna y encontramos el valor 0.4772. El valor 0.4772 nos indica el área bajo la curva entre 0 y 2 desviaciones estándar, pero la medida que nos interesa es la de la derecha de z = 2 es decir el área sombreada. Como el área total a la derecha de z = 0 es 0.5 entonces tendremos que calcular la diferencia: 0.5 - 0.4772 = 0.0228 500·0.0228 = 11.4 es decir se esperan tener 11 casos de autos que recorran 34 o más kilómetros con un galón. Vuelva al inicio del ejercicio y revise el procedimiento para asegurarse de que domina el procedimiento. Ejemplo 7.2. Verifiquemos ahora ¿cuantas observaciones tendrían un valor entre 28 y 34 Km./galón? Como sabemos el valor del consumo promedio de gasolina que es 26 Km./galón y esperamos estimar cuantas observaciones obtendremos mayores o iguales a 34 Km./ galón entonces sabemos también que 34 se ubica a la derecha de 26 y los mayores que 34 estarán situados a la derecha del mismo. No se debe buscar una regla o truco para saber que zona sombrear, sólo debe concentrarse en el ejercicio e interpretarlo. Ahora debemos encontrar el valor de z que corresponde al valor 34 de nuestra variable.
Recordemos que primero el gráfico para reconocer con claridad el ejercicio.
¿Por qué esta la zona sombreada a la derecha de la campana?
?
Del desarrollo para la pregunta anterior ya habíamos encontrado que el valor de z2 correspondiente a 34 Km./galón es 2 y que hasta este valor hay un área bajo la curva de 0.4772. Sin embargo, solo una parte de esta área es la que
213
7
Introducción a las Distribuciones de Probabilidad
nos interesa en esta ocasión, debemos restar entonces la parte que va desde z = 0 hasta el z1 que corresponda a 28 Km./ galón.
Buscamos en la tabla del anexo 3 el valor correspondiente y encontramos 0.1915 luego el área que buscamos es 0.4772 – 0.1915 = 0.2857 Luego el número de observaciones que esperamos encontrar con valores entre 28 y 34 Km./galón es: 0.2857 · 500 = 142.85 ≈ 143.
Ejemplo 7.3. Encontremos ahora el posible número de vehículos que recorren ente 23 y 28 kilómetros usando 1 galón de gasolina. A diferencia de los dos ejemplos anteriores en este tenemos datos a lado y lado de la media, por lo que debemos encontrar las respectivas áreas a lado y lado del valor z = 0. Ya en el ejemplo anterior habíamos encontrado que desde z = 0 hasta el valor de z1 = 0.5 que corresponde a 28 Km./galón, teníamos un área de A1 = 0.1915. Nos hace falta solamente hallar el área a la derecha de z = 0.
Ubique en el diagrama los valores de z = 0.5 y de z = 0.75.
Buscamos ahora en la tabla del anexo 3. El valor del área que nos falta por averiguar, tengamos en cuenta que como la distribución es simétrica entonces el valor del área bajo la curva normal desde z = 0 hasta z = - 0.75 equivale en la tabla al valor hasta z = 0.75, recuerde que el valor de cualquier área siempre es positivo. En la tabla buscamos en la primera columna el valor 0.7 y en la primera fila el valor 0.05, cruzamos fila con columna y encontramos el valor A2 = 0.2734. El área buscada es la suma de las dos áreas obtenidas así: A = A1 + A2 =0.1915 + 0.2734 = 0.4649 Hemos llegado a que 500·0.4649 = 232.45 ≈ 233 vehículos recorrerían entre 23 y 28 Km./galón.
214
Estadistica 1 Ejemplo 7.4. ¿Cuantos vehículos habrán recorrido menos de 23 kilómetros con un galón de gasolina? Ya en el ejemplo anterior habíamos encontrado el valor de z = 0.75 que corresponde a 32 Km./galón, hasta donde se cubre un área de 0.2734 pero lo que nos interesa es el valor del área restante que obtenemos al restar 0.5 – 0.2734 = 0.2266 lo cual implica una cantidad de 500 · 0.2266 = 113.3 ≈ 113 observaciones.
Justifique si es el área sombreada la que corresponde a este ejercicio. Tendríamos entonces 113 vehículos que recorrerán menos de 23 Km, usando un galón de gasolina. El otro ejercicio que nos interesa es el de desestandarización, en este partimos de una información en la que se conoce la medida de las desviaciones estándar de un dato respecto de la media de su población y pretendemos encontrar el valor de dicho dato. Aunque esa necesidad se presenta con menor frecuencia, si nos permite ahondar en el manejo y comprensión de las distribuciones. Ejemplo 7.5. Si la calificación en un concurso de méritos es una variable que se distribuye normalmente, y nos dicen que se incluirán en la lista de elegibles a quienes tengan puntajes que inferiores a z = 0.85 desviaciones estándar por debajo de la media. ¿Cuál ha sido la mínima calificación aprobatoria si la media fue de 725 puntos con una desviación estándar de 90 puntos? Primero representamos gráficamente la situación, ubicamos la media en el punto de cero (0) desviaciones estándar y el valor z = - 0.85 un poco hacia la izquierda teniendo en cuenta que el puntaje aprobatorio del concurso es inferior a la media. En la distribución normal estándar, el valor de z ( - 0.85) dista de la media (0) tanto como, en la distribución de la variable, el valor que buscamos dista de la correspondiente media (725). Por tan-
215
7
Introducción a las Distribuciones de Probabilidad
to, se concluye que la distancia que debe haber entre el valor buscado de la variable y la correspondiente media (725) medida en unidades de desviación estándar es 0.85 veces la desviación estándar (90). Como la distribución estándar de la variable es 90, entonces, la distancia entre la media de dicha distribución y el valor buscado es igual a 0.85 · 90 = 76.5 Si la distancia de la media al valor buscado es de 76.5 y además el valor buscado es menor que la media, entonces para encontrar dicho valor debemos restar al valor de la media el valor de la distancia, así: 725 – 76.5 = 648.5 puntaje que corresponde al mínimo aprobatorio del concurso. Un tercer tipo de ejercicio y de mucha utilidad para efectos prácticos, es aquel en que para una variable que se comporta normalmente buscamos determinar cuantos casos corresponden a un porcentaje ya definido. Estamos entonces no buscando un área bajo la curva que corresponda a un intervalo de valores de la variable de estudio, sino que ya conocemos dicha área en la distribución normal y pretendemos identificar los correspondientes eventos que se encuentran dentro del intervalo correspondiente a la variable de estudio. Ejemplo 7.6. Se pretende premiar a los alcaldes con el mejor indicador medio ponderado de gestión en el país. Se decide que se va a premiar al 10 % de los alcaldes con el mejor desempeño, mientras que se iniciara una investigación al 15% de menor desempeño a fin de identificar si su baja gestión se debe a ineptitud o a situaciones fortuitas. Al recoger todos los resultados se encontró que estos se habían distribuido normalmente con una media de 61/100 y una desviación estándar de 18/ 100. ¿Cuántos de los 1030 alcaldes serán premiados y cuantos serán investigados? ¿Cuál es el puntaje mínimo con que se premiará a un alcalde y cual es el puntaje máximo con el que se le abrirá investigación? Ubique la información básica sobre la gráfica, indicando cual área corresponde a los premiados y cual a los investigados. Calcule usted mismo la respuesta a la primera pregunta, sacando el 10% y el 15% de los 1030 alcaldes.
216
Estadistica 1 Primero debemos encontrar el valor de z a partir del cual se ubica el 10% mayor del área. Recordemos que cada mitad de la campana que resulta de dividir esta con una perpendicular al valor z = 0, cubre un área correspondiente al 50% y en términos de probabilidad al 0.5, entonces el 10% mayor estará ubicado a partir del primer 40% ubicado a la derecha de la perpendicular a z = 0. Por lo anterior, será erróneo buscar en la tabla el valor 10% o 90%, tenemos que buscar el 40% es decir 0.4. Al buscar dentro de la tabla de las áreas bajo la curva normal (anexo 3) el valor más aproximado a 0.4 es 0.3997, que ubicamos en la columna 10 con la fila 14, cuyos encabezados nos indican un valor de z = 1.28 Tenemos entonces que el mínimo puntaje con el que un alcalde será premiado está ubicado a 1.28 desviaciones estándar por encima de la media, esto es 1.28 · 18 = 23.04 por encima de la media (61) es decir 61 + 23.04 = 84.04. Los alcaldes premiados tendrán puntajes iguales o superiores a 84.04. Para determinar ahora el máximo puntaje de los alcaldes que serán investigados, el procedimiento es similar, solo que trabajaremos con un área situada a la izquierda de la curva normal. Como la parte izquierda del área de la campana también mide 0.5 entonces nos interesa conocer el valor de z para un área de 0.35 en la tabla del anexo 3.
?
¿Por qué sería incorrecto pretender buscar en la tabla el área 0.15 que corresponde a 15% o el área 0.85 que corresponde a los 85% restantes?
Al buscar en la tabla el valor más aproximado a 0.35 es 0.3508 que corresponde a un valor z = 1.04, lo que nos indica que el puntaje que buscamos está ubicado a 1.04 desviaciones estándar por debajo de la media, esto es 61 – (1.04) · 18 = 42.28 En conclusión, los alcaldes que tengan puntajes iguales o inferiores a 42.28 puntos serán investigados.
217
7
Introducción a las Distribuciones de Probabilidad
Otras distribuciones de probabilidad. Aunque harán parte del próximo curso, hacemos referencia aquí a otras distribuciones usadas en la estadística, sólo para tener en cuenta que la distribución normal no es la única ni la más adecuada para algunos casos.
218
Estadistica 1 EJERCICIOS PROPUESTOS 1. Si x se encuentra distribuida normalmente con promedio 10 y desviación estándar 2, usar la tabla del anexo 3, para calcular la probabilidad de que (a) x > 12, (b), x > 11, (c) x < 9, d) x < 9.5, (e) 9 < x < 12. 2. Una manera para obtener predicciones económicas es utilizar un enfoque de consenso. Se obtiene una predicción de cada uno de un gran número de analistas; el promedio de estos pronósticos es la predicción de consenso. Supóngase que las predicciones individuales acerca de la tasa principal de interés en enero de 1985 de todos los analistas económicos, tienen una distribución aproximadamente normal, con una media de 14% y una desviación estándar de 2.6%. Se selecciona al azar un solo analista de ese grupo. A) ¿Cuál es la probabilidad de que la tasa principal de este analista sea mayor que el 18%?. B) ¿Cuál es la probabilidad de que la predicción de la tasa principal de interés sea menor de 16%? 3. Suponiendo que la estatura (x) de varones en un colegio se encuentra distribuida normalmente con una media de 1.75 m y desviación estándar de 7.6 cm, usar la tabla del anexo 3, para calcular la probabilidad de que (a) x < 1.65 m, (b) 1.65 m < x < 1.75 m. 4. Suponiendo que su calificación en un examen en unidades estándar (z) es 0.8 y que las calificaciones están distribuidas normalmente, ¿qué porcentaje de estudiantes se espera que tendrán una calificación más alta que usted? 5. Suponga que tiene que establecer la restricción del máximo número de personas que pueden subir a un ascensor. Un estudio del uso de elevadores indica que si 8 personas ocupan el ascensor, la distribución de probabilidad del peso total de las 8 personas tiene una media igual a 1200 libras y una varianza igual a 9800 libras2. ¿Cuál es la probabilidad de que el peso total de ocho personas exceda de 1300 libras?¿1500 libras? 6. El coeficiente de inteligencia (CI) está casi normalmente distribuido con una media de 100 y una desviación estándar de 16. ¿Cuál es la probabilidad de que un individuo seleccionado al azar tenga un CI (a) menor que 80, (b) mayor que 140, (c) entre 95 y 105? d) ¿Qué valores centrales incluirán aproximadamente al 50% de los individuos? 7. La contraloría General de la República, decide el porcentaje de contratos u operaciones que debe investigar por entidad vigilada. Supóngase que lo hace seleccionando al azar 50 casos de una distribución normal con una
219
7
Introducción a las Distribuciones de Probabilidad
media de 1.55% de documentos por entidad y una desviación estándar de 0.45%. ¿Cuál es la probabilidad de que en un departamento en particular se revisen más del 2.5% de los contratos? ¿Cuál es la probabilidad de que en un departamento en particular se revisen menos del 1% de los contratos? 8. Un procesador de alimento afirma en las etiquetas de su producto que el peso neto es al menos de 16 onzas. La máquina que Ilena las latas no puede medir exactamente y se encontró que en un Ilenado la desviación estándar fue de 0.2 onzas. Si el procesador fija un aumento del 3% sobre la cantidad garantizada, ¿qué fracción de su producción no está de acuerdo con su afirmación? Suponga que las cantidades de alimento se distribuyen normalmente alrededor del valor aumentado. 9. Problemas con el nuevo sistema computarizado de una compañía telefónica, ocasionaron un enorme retraso en el proceso de recepción, solución y respuesta a reclamos de los clientes. Desde hace 10 meses que se implementó el cambio tecnológico, el 53% de las peticiones no han sido contestadas 45 días después de haberlas recibido, generándose también una alta tasa de silencios administrativos. Supóngase que la distribución del tiempo requerido por el departamento de peticiones quejas y recursos de esta compañía está distribuido normalmente con una desviación estándar de 10 días. ¿Calcule el tiempo promedio para contestar una petición? ¿Determine la probabilidad de que el tiempo necesario para contestar una petición sea de 60 días o más? (Suponer que es legalmente viable) 10. Un profesor de gimnasia de secundaria anuncia que califica los eventos atléticos individuales por resultados relativos a todas sus clases. Si da 20% de A’s y si la experiencia ha demostrado que el promedio es de 1.42 m y que la desviación estándar es de 10 cm para el salto de altura, ¿qué tan alto debe prepararse a saltar un estudiante si pretende obtener A? 11. Sea x el peso, en libras de un salmón rey atrapado en la desembocadura de un río y supóngase que x posee una distribución normal con media 30 y desviación estándar 6. Calcular la probabilidad de que si un pescador atrapa un salmón rey su peso sea de (a) al menos 41 libras (b) entre 20 y 40 libras inclusive. 12. Si un conjunto de mediciones se encuentra normalmente distribuido, qué porcentaje de las mediciones diferirán de la media (a) por más de una desviación estándar (b) por menos de tres cuartos de una desviación estándar?
220
Estadistica 1 13. Suponer que el tamaño (diámetro) de la cabeza de un hombre está aproximadamente distribuido en forma normal con media de 7 pulgadas y desviación estándar de 1 pulgada. Supongamos que usted administra una tienda de sombreros al menudeo y almacenará los sombreros en proporción al tamaño probable de la cabeza de los clientes, aproximadamente, ¿qué porcentaje de sus clientes tendrán entre 8 y 9 pulgadas de diámetro craneal? 14. Se dijo que de mil jóvenes de 13 años de edad, 390 tienen estaturas que distan menos de 1.4 pulgadas de la estatura media, que es 57.3 pulgadas. Hallar el valor de Q, aquí, sobre la hipótesis de distribución normal de estaturas. 15. El tiempo de espera que las personas esperan en la fila de cierta entidad pública, tiene una distribución normal con media de 16 minutos y desviación estándar de dos minutos. Encuentre el porcentaje de personas que esperan mas de 12 minutos. 16. El ingreso promedio anual de las mujeres adultas en Cúcuta es de $385.200 con una desviación estándar de $56.000. Se toma una muestra aleatoria de 100 mujeres de Cúcuta y se obtiene el ingreso promedio. Encuentre la probabilidad de que el ingreso promedio de esa muestra sea mayor de $2393.000. 17. Plantee 3 problemas relacionados con la carrera y que toquen los temas más relevantes de esta unidad y resuélvalos. (Se seleccionarán los tres mejores del curso.) 18. Use el paquete estadístico que este disponible en la universidad o al que usted tenga acceso (si usa el EVIEWS puede apoyarse en la referencia rápida del anexo 2) y desarrolle los ejercicios en este y verifique sus respuestas. Verifique también las respuestas de los ejercicios resueltos de esta unidad.
221
7
Introducción a las Distribuciones de Probabilidad
EJERCICIOS RESUELTOS 1. Obtenga P(0 ≤ z ≤1.63). (entiéndase como la probabilidad de encontrar un valor entre o desviaciones estándar y 1.63 desviaciones estándar) Esta probabilidad corresponde al área entre la media (z=0) y un punto z=1.63 desviaciones estándar a la derecha de la media. Solución. El área es la sombreada en la figura. Ya que la tabla del anexo 3 nos indica las áreas bajo la curva normal a la derecha de la media, solamente necesitamos encontrar el valor tabulado correspondiente a z=1.63. Se baja por la columna de la izquierda de la tabla hasta el renglón correspondiente a z=1.6 y se va luego por el renglón superior hasta la columna marcada con 0.03. La intersección de esta combinación de renglón y columna da el área de A=0.4484. 2. Calcular P(-0.5 ≤ z ≤ 1.0). Esta probabilidad corresponde al área entre z=-0.5 y z=1.0. Solución. El área requerida es igual a la suma de A1 y A2, mostrada en la figura. De la tabla del anexo 3 obtenemos A2 = 0.3413. El área A1 es igual al área correspondiente entre z = 0 y z = 0.5, o bien A1 = 0.1915. Por lo tanto el área total es A1 + A2 = 0.1915 + 0.3413 = 0.5328 3. El diámetro medio del interior de una muestra de 200 tubos producidos por una máquina es 0.502 pulgadas y la desviación típica es 0.0005 pulgadas. El uso de los tubos permitirá una tolerancia en el díametro de 0.496 a 0.508 pulgadas; de otro modo, se considerarán defectuosos. Determinar el porcentaje de tubos defectuosos, supuesto que los tubos producidos por esa máquina están normalmente distribuidos.
222
Estadistica 1 Solución. En unidades estándar, Proporción de tubos defectuosos = (área bajo la curva normal entre z = -1.2 y z = 1.2) =(doble del área entre z = 0 y z = 1.2) = 2 (0.3849) = 0.7698 ≈ 77% Luego el porcentaje de tubos defectuosos es 100% - 77% = 23%. 4. Hallar los valores de z, por ejemplo zo, tales que exactamente (hasta cuatro cifras decimales) 0.95 del área quede dentro de ± zo desviaciones estándar de la media. Solución. La mitad del área de 0.95 se encontrará a la izquierda de la medida y la otra mitad a la derecha, por que la distribución normal es simétrica. Por lo tanto, se desea encontrar el valor zo que corresponde a un área igual a 0.475 (la sombreada). Al referirnos a la tabla del anexo 3 se ve que el área 0.475 está en el renglón correspondiente a z = 1.9 y en la columna 0.06. Por lo tanto zo = 1.96. Nótese que el resultado está muy cerca del valor aproximado z = 2, que se utiliza en la regla empírica. 5. Sea x una variable aleatoria distribuida normalmente, con una media igual a 10 y una desviación estándar igual a 2. Encuentre la probabilidad de que x esté entre 11 y 13.6. Solución. Como primer paso, tenemos que calcular los valores de z, correspondientes a x = 11 y x = 13.6. Por lo tanto,
Estos valores de z se localizan bajo la curva normal como se muestra en la figura. La probabilidad deseada, P, es, por consiguiente el área entre estos dos valores de z, z1=0.5 y z2=1.80. Las áreas entre z=0 y z1, A1=0.1915, y entre
223
7
Introducción a las Distribuciones de Probabilidad
z=0 y z2, A2=0.4641, valores que se han obtenido de la tabla del anexo 3. La probabilidad P es igual a la diferencia entre las dos áreas A1 y A2; es decir, P = A2 – A1 = 0.4641 – 0.1915 = 0.2726 6. Ciertos estudios muestran que el rendimiento de la gasolina para automóviles pequeños (de gama baja) en Estados Unidos, tiene una distribución normal, con un rendimiento medio de 30.5 millas por galón y una desviación estándar de 4.5 millas por galón. Si un fabricante desea diseñar un auto de gama baja más económico que el 95% de los automóviles compactos vendidos en Estados Unidos, ¿Cuál debe ser el rendimiento mínimo del auto nuevo? Solución. Sea x una variable aleatoria distribuida normalmente con una media de 30.5 y una desviación estándar de 4.5. Se desea encontrar el valor xo, tal que P(x
Donde µ = 30.5 y r = 4.5. Al sustituir los valores de µ, r y zo en esta ecuación, y despejando xo resulta
xo = (4.5)(1.645) + 30.5 = 37.9 Por tanto el nuevo auto pequeño del fabricante debe desarrollar un rendimiento de 37.9 millas por galón, para ser mejor que el 95% de los coches pequeños que actualmente se venden en Estados Unidos.
224
Estadistica 1 BIBLIOGRAFIA Las posibilidades para explorar e indagar mucho más en busca de la ampliación de su universo de conocimientos no se deben restringir a la bibliografía recomendada o a la que fue de alguna manera insumo para el texto estudiado. A veces resulta más valioso complementar con otras visiones diferentes. Los textos que fueron consultados para la elaboración de esta unidad fueron: CHOW, Ya-Lun. Análisis Estadístico. Traducido al español por Vicente Agut Armer. Editorial Mc Graw Hill. 2da Edición. México, 1992. FERNÁNDEZ, Felipe; MONROY, Olga L.; RODRÍGUEZ, Liliana. Diseño, desarrollo y evaluación de situaciones problemáticas en estadística. Universidad de los Andes: una Empresa Docente. Bogotá D.C., 1998. HOEL, Paul G. Y JESSEN, Raymond J. Estadística Básica para Negocios y Economía. Compañía Edutirial Continental S.A. 2da Edición. Mexico, 1985. MENDENHALL, William. Estadística para Administradores. Traducido por Dirk Valckx Verbeeck. Grupo Editorial Iberoamérica. México, 1990. PERRY, Patricia Inés; MESA, Vilma María; FERNÁNDEZ, Felipe; GÓMEZ, Pedro. Matemáticas, Azar y Sociedad. Conceptos básicos de estadística. Universidad de los Andes: Una Empresa Docente, Bogotá D.C., 1998. SPIEGEL, Murray R. Estadística. Traducido por Rafael Hernández Heredero. Editorial Mc Graw Hill. 2da Edición. Madrid, 1998.
225
Estadistica 1
Unidad 8 Error y Prueba de Hipótesis
227
8
228
Error y Prueba de Hipótesis
Estadistica 1 OBJETIVOS *
Determinar e identificar los tipos de error estadístico que se presentan en los análisis y estimaciones.
*
El estudiante estará en capacidad de explicar el concepto de prueba de hipótesis estadística y de aplicarlo a la verificación o negación de unas hipótesis dadas.
INTRODUCCIÓN El capítulo anterior se ve justificado en este, por que llegamos a desarrollar la noción de prueba de hipótesis. En dicha prueba está justificada la existencia de la estadística, aunque la estadística se dedica a muchos campos más, digamos que el básico es este: cuantificar la certeza de una afirmación o hipótesis. A partir de ello se puede decir si al expresarnos estamos aportando o especulando. El capítulo inicia con la presentación de los cuatro tipos de error, continúa con una representación práctica de lo que es la prueba de hipótesis. El objeto es dejar el campo abonado para el estudio de pruebas de hipótesis que se ajustan a otras distribuciones de probabilidad además de la distribución normal. A esta altura del módulo se espera que el estudiante este en capacidad de identificar un problema social, encontrar las variables, establecer una hipótesis, determinar la población y muestra para el estudio de la hipótesis, a partir de mediciones de la variable de trabajo realizar una distribución de frecuencias, usar la distribución normal para validar la hipótesis y generar una conclusión basado en la prueba de dicha hipótesis.
229
8
230
Error y Prueba de Hipótesis
Estadistica 1 Estimación de parámetros En unidades anteriores ya habíamos tocado el tema de los estadísticos o estimadores de parámetro y los parámetros. Matemáticamente, podemos describir muestras y poblaciones al emplear mediciones como la media, la mediana, la moda y la desviación estándar. Cuando estos términos describen las características de una población, se llaman parámetros. Cuando describen las características de la muestra, se llaman estadísticos. Una estadística es una característica de una muestra y un parámetro es una característica de la población. Una población queda caracterizada a través de ciertos valores denominados parámetros, que describen las principales propiedades del conjunto. Un parámetro es un valor fijo (no aleatorio) que caracteriza a una población en particular. En general, una parámetro es una cantidad desconocida y rara vez se puede determinar exactamente su valor, por la dificultad práctica de observar todas las unidades de una población. Por este motivo, tratamos de estimar el valor de los parámetros desconocidos a través del empleo de muestras. Las cantidades usadas para describir una muestra se denominan estimadores o estadísticos muestrales. Ahora bien, es razonable pensar que si tomamos diferentes muestras de la misma población y calculamos los diferentes estadísticos de cada una, esos valores van a diferir de muestra a muestra. Por lo tanto, un estadístico no es un valor fijo, sino que presenta las siguientes características:
* *
Puede tener varios resultados posibles. No se puede predecir de antemano su valor.
Estas son las condiciones que definen a una variable aleatoria. Un estadístico, entonces, es una variable aleatoria, función de las observaciones muestrales. A los estadísticos muestrales se los designa con las letras latinas (x, s2). Si un estadístico es una variable aleatoria, entonces es posible determinar su distribución de probabilidades y calcular sus principales propiedades. Si tomamos varias muestras de una población, las estadísticas que calcularíamos para cada muestra no necesariamente serían iguales, y lo más probable es que variaran de una muestra a otra. Una distribución de probabilidad de todas las medias posibles de las muestras es una distribución de las medias de las muestras. Los estadísticos la conocen como distribución de muestreo de la media. También podríamos tener una distribución de muestreo de una porción. Si trazamos una distribución de probabilidad de porciones posibles de un evento en todas las muestras, obtendríamos una distribución de las porciones de las muestras. A esto se lo conoce como distribución de la porción.
231
8
Error y Prueba de Hipótesis
Cualquier distribución de probabilidad (y, por tanto, cualquier distribución de muestreo) puede ser descripta parcialmente por su media y su desviación estándar. Concepto de error estándar. En vez de decir «la desviación estándar de la distribución de las medias de la muestra» para describir una distribución de medias de la muestra, los estadísticos se refieren al error estándar de la media. De manera similar, la «desviación estándar de la distribución de las proporciones de la muestra» se abrevia como error estándar de la proporción. El término error estándar se utiliza porque da a entender un significado específico. La variabilidad en las estadísticas de muestras proviene de un error de muestreo debido al azar; es decir, hay diferencias entre cada muestra y la población, y entre las diversas muestras, debido únicamente a los elementos que decidimos escoger para las muestras. La desviación estándar de la distribución de las medias de las muestras mide el grado hasta el que esperamos que varíen las medias de las diferentes muestras debido a este error fortuito cometido en el proceso de muestreo. Por tanto, la desviación estándar de la distribución de una estadística de muestra se conoce como el error estándar de la estadística. El error estándar indica no sólo el tamaño del error de azar que se ha cometido, sino también la probable precisión que obtendremos si utilizamos una estadística de muestra para estimar un parámetro de población. Una distribución de medias de muestra que está menos extendida (y que tiene un error estándar pequeño) es un mejor estimador de la media de la población que una distribución de medias de muestra que está ampliamente dispersa y que tiene un error estándar más grande. Siempre que usamos pruebas, tenemos que tratar con el error estándar. Específicamente, necesitamos cierta medición de la precisión del instrumento de prueba, generalmente representado por el error estándar.
232
Cuando una población está distribuida normalmente, la distribución de muestreo de la media también es normal. Incluso en el caso en el que una población no está normalmente distribuida, la media de la distribución de muestreo, sigue siendo igual a la media de la población: µ. Es decir, la distribución de muestreo de la media se acerca a la normalidad, sin importar la forma de la distribución de la población. El teorema del límite central. La media de la distribución de muestreo de la media será igual a la media de la población. Al incrementarse el tamaño de la muestra, la distribución de muestreo de la media se acercará a la normalidad, sin importar la forma de la distribución de la población. Esta relación entre la forma de la distribución de la población y la forma de la distribución de muestreo se denomina teorema del límite central, que es tal vez el más importante de toda la inferencia estadística. Nos asegura que la distribución de muestreo de la media se aproxima a la normal al incrementarse el tamaño de la muestra. Hay si-
Estadistica 1 Tipos de estimación. Podemos hacer dos tipos de estimaciones concernientes a una población: Una estimación puntual: es sólo u número que se utiliza para estimar un parámetro de población desconocido. Una estimación puntual a menudo resulta insuficiente, debido a que sólo tiene dos opciones: es correcta o está equivocada. Una estimación puntual es mucho más útil si viene acompañada por una estimación del error que podría estar implicado.
tuaciones teóricas en las que el teorema del límite central no se cumple, pero casi nunca se encuentran en la toma de decisiones práctica. Una muestra no tiene que ser muy grande para que la distribución de muestreo de la media se acerque a la normal. Los estadísticos utilizan la distribución normal como una aproximación a la distribución de muestreo siempre que el tamaño de la muestra sea al menos de 30, pero la distribución de muestreo de la media puede ser casi normal con muestras incluso de la mitad de ese tamaño. La importancia del teorema del límite central es que nos permite usar estadísticas de muestra para hacer inferencias con respecto a los parámetros de población sin saber nada sobre la forma de la distribución de frecuencias de esa población más que lo que podamos obtener de la muestra. El teorema del límite central nos permite utilizar las propiedades de la distribución normal en muchos casos en los que los datos subyacentes no están normalmente distribuidos. El hecho de que la distribución de muestreo sea aproximadamente normal es la base de una amplia variedad de pruebas estadísticas diferentes.
Una estimación de intervalo: es un intervalo de valores que se utiliza para estimar un parámetro de población. Esta estimación indica el error de dos maneras: por la extensión del intervalo y por la probabilidad de obtener el verdadero parámetro de la población que se encuentra dentro del intervalo. Estimador y estimaciones. Un estimador es una estadística de muestra utilizada para estimar un parámetro de población. La media de la muestra puede ser un estimador de la media de la población, y la porción de la muestra se puede utilizar como estimador de la porción de la población. También podemos utilizar el alcance de la muestra como un estimador del alcance de la población. Cuando hemos observado un valor numérico específico de nuestro estimador, nos referimos a ese valor como una estimación. Una estimación es un valor específico observado de una estadística. Hacemos una estimación si tomamos una muestra y calculamos el valor que toma nuestro estimador en esa muestra. Criterios para seleccionar un buen estimador. 1. Imparcialidad. Se refiere al hecho de que una media de muestra es un estimador no sesgado de una media de población, porque la media de distribución de muestreo de las medias de muestras tomadas de la misma población es igual a la
233
8
Error y Prueba de Hipótesis
media de la población misma. Podemos decir que una estadística es un estimador imparcial (o no sesgado) si, en promedio, tiende a tomar valores que están por encima del parámetro de la población y la misma extensión con la que tiende a asumir valores por debajo del parámetro de población que se está estimando. 2. Eficiencia. Se refiere al tamaño del error estándar de la estadística. Si comparamos dos estadísticas de una muestra del mismo tamaño y tratamos de decidir cuál de ellas es un estimador más eficiente, escogeríamos la estadística que tuviera el menor error estándar o la menor desviación estándar de la distribución de muestreo. Tiene sentido pensar que un estimador con un error estándar menor (con menos desviación) tendrá una mayor oportunidad de producir una estimación más cercana al parámetro de población que se está considerando. 3. Coherencia. Una estadística es un estimador coherente de un parámetro de población si al aumentar el tamaño de la muestra, se tiene casi la certeza de que el valor de la estadística se aproxima bastante al valor del parámetro de la población. Si un estimador es coherente, se vuelve más confiable si tenemos tamaños de muestras más grandes. 4. Suficiencia. Un estimador es suficiente si utiliza una cantidad de la información contenida en la muestra que ningún otro estimador podría extraer información adicional de la muestra sobre el parámetro de la población. Un estadístico de muestra dada no siempre es el mejor estimador de su parámetro de población correspondiente. Considere una población distribuida simétricamente, en la que los valores de la mediana y de la media coinciden. En este caso, la media de la muestra sería un estimador imparcial de la mediana de la población debido a que asumiría valores que en promedio serían iguales a la mediana de la población. También, la media de la muestra sería un estimador consistente de la mediana de la población, puesto que, conforme aumenta el tamaño de la muestra, el valor de la media de la muestra tenderá a acercarse bastante a la mediana de la población. Y la media de la muestra
234
sería un estimador más eficiente de la mediana de la población que la mediana misma, ya que en muestras grandes, la media de la muestra tiene una desviación estándar menor que la mediana de la muestra. Al mismo tiempo, la mediana de la muestra de una distribución distribuida simétricamente sería un estimador imparcial y consistente de la media de la población, pero no el más eficiente estimador, porque en muestras grandes su error estándar es mayor que el de la media de la muestra. Estimaciones puntuales. La media de la muestra es el mejor estimador de la media de la población. Es imparcial, coherente, el estimador más eficiente y, siempre y cuando la muestra sea la suficientemente grande, su distribución de muestreo puede ser aproximada por la distribución normal. Si conocemos la distribución de muestreo de la media, podemos llegar a conclusiones con respecto a cualquier estimación que podamos hacer a partir de la información de muestreo.
Estadistica 1 valores dentro del cual es posible que esté un parámetro de población. Si seleccionamos y representamos gráficamente un gran número de medias de muestras de una población, la distribución de tales medias se aproximará a la curva normal. Además, la media de las medias de muestra será la misma media de la población.
Estimación puntual de la porción de la población. La porción de unidades de una población dada que posee una característica particular se representa mediante el símbolo p. Si conocemos la porción de unidades de una muestra que tiene la misma característica, podemos utilizar esa p como estimador de p. Se puede mostrar que p tiene todas las características deseables: es imparcial (no sesgado), coherente, eficiente y suficiente. Incluso cuando estamos utilizando el mejor estimador de un parámetro de población, aceptamos que puede estar implicado algo de error. Afirmamos que la estimación puntual y la medida de la varianza proporcionan información útil para las decisiones. Estimaciones de intervalo. El propósito de tomar muestras es para conocer más acerca de una población. Podemos calcular esa información a partir de las muestras como estimaciones puntuales, o como estimaciones de intervalo. Una estimación de intervalo describe un intervalo de
Probabilidad de que el verdadero parámetro de la población esté dentro de la estimación de intervalo. En lo que concierne a cualquier intervalo particular, éste contiene a la media de la población o no la contiene, pues la media de la población es un parámetro fijo, y no varía. Cuando las organizaciones informan la precisión de encuestas de opinión como «estos resultados son precisos en más menos tres puntos», por lo general no establecen el nivel de confianza que están utilizando para hacer la estimación de intervalo. Una afirmación más completa tendría la forma. «existe un 95% de probabilidad de que la verdadera opinión de la población caiga dentro del intervalo comprendido entre... y ...» Estimaciones de intervalo e intervalos de confianza. La probabilidad que asociamos con una estimación de intervalo se conoce como nivel de confianza. Esta probabilidad indica qué tanta confianza tenemos de que la estimación de intervalo incluya al parámetro de población. Una probabilidad más alta indica más confianza. El intervalo de confianza es el alcance de la estimación que estamos haciendo. Expresaremos el intervalo de confianza en términos de errores estándar, más que con valores numéricos. Los límites de confianza son los límites superior e inferior del intervalo de confianza Podría pensarse que deberíamos utilizar un nivel alto de confianza en todos los problemas sobre estimaciones. En la práctica, sin embargo, altos niveles de confianza producen interva-
235
8
Error y Prueba de Hipótesis
los de confianza grandes, y éstos no son precisos, dan estimaciones bastante imprecisas. Uso del muestreo y de la estimación de intervalos de confianza. A menudo resulta difícil o caro tomar más de una muestra de una población. Basados en solamente una muestra estimamos el parámetro de población. El intervalo de confianza quiere decir que si seleccionamos muchas muestras aleatorias del mismo tamaño y si calculamos un intervalo de confianza para cada una de las muestras, tendremos un porcentaje de confianza determinado que en todos los casos la media de la población caerá dentro del intervalo. Por otro lado, existe un cierto equilibrio entre la certidumbre de la estimación y el ancho de un intervalo de confianza. Para el cálculo de estimaciones de intervalo de la media a partir de muestras grandes, se calcula el error estándar de la media para una población infinita:
Posteriormente, se establecen los límites de confianza superior e inferior, considerando el porcentaje de confianza requerido. La fórmula para derivar el error estándar de la media de poblaciones finitas es:
En conclusión cuando tenemos muestras grandes, utilizamos el Teorema del Límite Central, nuestro conocimiento de la curva normal y nuestra habilidad para hacer correcciones para poblaciones finitas.
236
Estadistica 1 PRUEBAS DE HIPÓTESIS. Una hipótesis es una afirmación acerca de algo. En estadística, puede ser una suposición acerca del valor de un parámetro desconocido. A continuación se presenta el juicio contra Tauro6 . En este juicio Tahuro es acusado de jugar con una moneda que está cargada. Se parte entonces del supuesto de que Tahuro es inocente y la fiscal (Ana Liza) debe allegar información para demostrar la culpabilidad de nuestro amigo; y la defensa (Stadi Shka) tratará de defender a Tahuro; el profesor jugará un papel neutral en el caso: será el juez. El juicio contra Tahuro se presenta en tres partes: en la primera se describe la acusación contra el joven; en la segunda, se busca un criterio para juzgarlo; y por ultimo, en la tercera se emite el veredicto. Motivación: Juicio contra Tahuro Vamos a comenzar el estudio de una de las herramientas más conocidas de la inferencia estadística: la prueba de hipótesis.7 La forma en que ésta se utiliza tiene gran similitud con lo que se plantea en un juicio contra un acusado. En los juicios se parte de un principio: la inocencia del acusado y se procede de tal manera que un personaje, conocido como el fiscal, intenta recoger información para demostrar la culpabilidad del acusado. Similarmente, en las investigaciones donde se utilizan pruebas de hipótesis, se parte de un supuesto básico: la hipótesis nula y el investigador trata entonces de recoger información, con base en una muestra alea-
toria, para poder decidir si rechaza o no la mencionada hipótesis. En caso de rechazarla, se acoge a otra hipótesis conocida como la hipótesis alternativa. El principio de inocencia (El fiscal dirigió su mirada hacia el jurado) El fiscal: Las pruebas que recaen en contra del acusado permiten concluir que éste es culpable. El defensor: Protesto, señores del Jurado. Quiero recordarles que la ley dice que hasta que no se demuestre lo contrario, el acusado debe considerarse como inocente y las pruebas que presenta el fiscal aunque permiten sospechar del acusado, no me parecen suficientes para declararlo culpable.
6
Caso tomado del texto “Matemáticas, Azar, Sociedad” luego de autorización expresa de Pedro Gómez y con el conocimiento de los demás autores.
7
Algunos autores prefieren utilizar la palabra verificación o docimasia en vez de la palabra prueba, pues el sentido en que se emplea esta palabra en estadística es bien diferente de lo que se entiende en matemáticas como prueba o demostración formal.
237
8
Error y Prueba de Hipótesis
que falte a clase o de que juegue con su monedita, sino de que deja a sus compañeros sin dinero para almorzar. Stadi Shka: Protesto su señoría. Sí, es cierto que Tahuro falta con frecuencia a clase, pero no es cierto que ande robando el dinero a sus compañeros. El obtiene por medio de un juego limpio y legal sus ganancias, con las cuales paga parte de su matrícula.
El fiscal: La defensa alega que faltan pruebas para declarar al acusado como culpable y que por tanto debe considerársele como inocente. Entonces, reuniré más pruebas hasta lograr demostrar que el acusado sí es culpable. Estas pruebas serán tan contundentes que la misma defensa no tendrá mas remedio que aceptar la culpabilidad. El defensor: Entonces, señores del Jurado, esperemos a que el fiscal pueda conseguir esas pruebas, pues de lo contrario, y aunque el acusado fuera realmente culpable, no se le puede declarar culpable. El juez: Por hoy, se cierra la sesión. Tahuro es acusado: primera parte del juicio Juez: Se inicia la sesión. Señor Tahuro, por favor, póngase de pie. (Tahuro se levanta del puesto de los acusados.) Se le acusa a usted de estar jugando por los corredores de la universidad, con una moneda que está cargada. ¿Cómo se declara usted ante esa acusación? Tahuro: Inocente, señor juez. Juez: Tiene usted la palabra señorita fiscal. Ana Liza: El señor Tahuro nunca va a clase de Probabilidad y Estadística. En vez de ello se pasa la vida jugando con una monedita por los corredores de la universidad y varios testigos pueden confirmar lo que digo. En todo caso, no se le acusa de
238
Juez: Ha lugar, señorita fiscal, explique más detalladamente por qué usted acusa al señor Tahuro de robarle dinero a sus compañeros. Ana Liza: Su señoría, el señor Tahuro roba a sus compañeros utilizando una moneda que está cargada; mejor dicho, usa una moneda para la cual la probabilidad de obtener «cara» no es igual a la de obtener «sello». Stadi Shka: Protesto, su señoría. La fiscal acusa a Tahuro de usar una moneda cargada, sin tener pruebas; y hasta que no se demuestre lo contrario, debemos suponer que la moneda no está cargada y que por consiguiente la probabilidad de obtener «cara» o «sello» es igual a ½ (Aquí la defensa está usando el principio de inocencia) Juez: Señorita fiscal, ¿tiene usted pruebas de que la moneda está cargada? Ana Liza: No. Pero, puedo demostrarles que la moneda está cargada, utilizando probabilidades y estadística. Sólo necesito que su Señoría me permita repetir varias veces un experimento aleatorio consistente en Ianzar la moneda y observar el resultado que se
Estadistica 1 obtiene en cada ocasión. (Aquí la fiscal asegura que va a conseguir las pruebas para demostrar la culpabilidad de Tahuro). Juez: Señorita fiscal, aquí tiene la moneda. (El juez entrega la moneda a Ana Liza) Ana Liza: Señor juez, lanzaré esta moneda cien veces y alguno de ustedes contara el número de veces que se obtiene «cara». Stadi Shka: Protesto su señoría. El azar puede jugarnos una mala pasada. Por ejemplo, podría ocurrir que por puro azar, todas las veces se obtuviera «cara». Ana Liza: Lo que alega la defensa es cierto; pero yo les advertí que mi argumento hará uso de la estadística y de la probabilidad. Si la moneda no esta cargada y se lanza, por ejemplo, cien veces, la probabilidad de que siempre Caiga en «Cara» es de: (½)100=0.000...0007886 (¡Huy! Van 30 ceros después de la “coma”.) Tal cifra indica que es muy, muy remoto que eso ocurra. Entonces, si se supone la inocencia de Tahuro, es decir, si creemos la hipótesis de que en su moneda, las probabilidades de «cara» y «sello» son iguales a ½ y realizamos el experimento de lanzar cien veces la moneda, la ocurrencia de una proporción exagerada de «sellos» contra «caras» o viceversa da lugar a pensar que la moneda sí esta cargada. Stadi Shka: El argumento del fiscal es muy interesante, pero de ninguna manera nos permite demostrar rotundamente la culpabilidad de Tahuro en caso de que ocurra una
proporción exagerada de «sellos» contra «caras» o viceversa, por las siguientes razones: Primero, no se ha dicho a partir de qué punto la mayor ocurrencia de «caras» o de «sellos» se considera como exagerada. Segundo, si asumimos la hipótesis de que la moneda no está cargada, y que al lanzar la moneda cien veces, siempre se obtiene «cara», tendremos que, aunque es un resultado muy, muy improbable, sí puede ocurrir por un alocado azar. Juez: Yo como juez, debo ser imparcial. Realmente pienso que ambos argumentos, tanto el de la defensa como el de la fiscalía son válidos. En todo caso, propongo que la fiscal lleve a cabo su experimento, pero fijando de antemano el criterio que usaremos para considerar como muy exagerado el desequilibrio entre la proporción de «caras» y «sellos». Stadi Shka: Pero insisto señor juez en que si existe un desequilibrio muy exagerado en la proporción de «caras» y «sellos», podemos en todo caso incurrir en un error que aunque muy poco probable, nos llevaría a la garrafal equivocación de declarar como culpable a una persona que realmente es inocente. Ana Liza: Señor juez, también existe la posibilidad de que Tahuro sea realmente culpable y que por puro azar no se le declare culpable.
239
8
Error y Prueba de Hipótesis
ro es tramposo? En todo caso, debemos reconocer que la probabilidad de que salgan cien «caras» es tan pequeña e insignificante que cualquier persona estaría dispuesta a afirmar con mucha seguridad que este resultado nos indica que la moneda está cargada. Juez: Creo que estamos llegando a un acuerdo. Pero, por hoy vamos a cerrar la sesión. Para la próxima sesión queda abierto el problema de: Stadi Shka: ¡Protesto su señoría! La fiscal está tratando de... (Ana Liza no deja terminar a Stadi Shka.) Ana Liza: De ninguna manera. La defensa es la que está tratando de...(Mientras tanto Stadi Shka continúa hablando, entonces el juez toma su borrador (martillo) y da varios golpes contra la mesa.) Juez: ¡Orden en la sala! En este juicio, usando probabilidad y estadística, nunca podremos estar completamente seguros de nuestra decisión: nos podemos equivocar de dos maneras diferentes, a saber: -
Declarar culpable a Tahuro, siendo realmente inocente. No declarar culpable a Tahuro, siendo culpable.
En todo caso, vamos a continuar con este juicio y trataremos de determinar a partir de qué punto se va a considerar como exagerado el desequilibrio en las proporciones de “caras” y “sellos». Stadi Shka: Está bien, estoy de acuerdo su señoría, pero recordemos que tenemos que admitir la posibilidad de obtener cien «caras» en cien lanzamientos de una moneda legal sólo por pura casualidad. Ana Liza: Pero entonces, ¿puedan ocurrir, por ejemplo, 65 «caras» o mas sin que se considere necesariamente que Tahu-
240
Determinar un criterio para establecer a partir de que punto la moneda de Tahuro puede considerarse como ilegal. Es decir, determinar el número mínimo y el máximo de caras que pueden ocurrir, a partir de los cuales se considerará que la moneda está cargada.
Búsqueda del criterio y final del juicio Las siguientes preguntas se proponen con la intención de guiar de manera general la reflexión acerca de lo que es el criterio para tomar la decisión en el juicio y las características que debe tener. a. ¿Cree usted que si en los cien lanzamientos de la moneda se obtienen 53 caras, eso representa evidencia de que la moneda está cargada? Y, ¿si se obtienen 5(a caras? Y, ¿si se obtienen 58 cara s? Y, ¿si se obtienen 75 caras? Y, ¿si se obtienen 43 caras? Y, ¿si se obtienen 41 caras? Y, ¿si se obtienen 25 caras?
Estadistica 1 b. Proponga un criterio para decidir sobre la legalidad de la moneda de Tahuro. Explique detalladamente su respuesta (qué razones tiene para proponer ese criterio, por qué lo enuncia así, comentarios adicionales). c. Considere los siguientes dos criterios para juzgar la legalidad de la moneda de Tahuro: Criterio 1: Si salen menos de 40 caras, o, si salen mas de 60 caras, entonces la moneda de Tahuro esta cargada. Criterio 2: Si salen menos de 35 caras, o, si salen más de 65 caras, entonces la moneda de Tahuro está cargada. ¿Cuál es la diferencia entre los dos criterios? ¿Con cual de los dos criterios preferirá Tahuro que se le juzgue? ¿Por qué? d. Considere los siguientes dos criterios para juzgar la legalidad de la moneda de Tahuro: Criterio 2: Si salen menos de 35 caras, o, si salen más de 65 caras, entonces la moneda de Tahuro está cargada. Criterio 3: Si salen más de 64 caras, entonces la moneda de Tahuro está cargada. ¿Cuál es la diferencia entre los dos criterios? Si la acusación que se ha hecho sobre la moneda de Tahuro es: «la moneda está cargada», ¿cuál de los dos criterios es más adecuado para decidir en el juicio? Explique su respuesta . ¿De qué estilo debería ser la acusación contra la moneda de Tahuro para que el criterio 3 resultara adecuado?
e. Suponga que ya se ha adoptado un criterio para juzgar la legalidad de la moneda de Tahuro. Se lleva a cabo la experiencia que Ana Liza propuso, es decir, se lanza la moneda cien veces y se cuenta el número de caras obtenidas. Además, se aplica el criterio establecido previamente. ¿Qué opinión le merece a usted el hecho cae repetir la experiencia, para volver a aplicar el criterio? Explique su posición. f. A partir de las respuestas dadas a las preguntas anteriores haga una lista de características que debe tener el criterio que se adopte para tomar la decisión en el juicio contra la moneda de Tahuro. Desde el punto de vista técnico, si una moneda corriente se lanza cien veces, se espera obtener 50 caras y 50 sellos. Sin embargo, si en la práctica se obtuvieran, por ejemplo, 53 caras y 47 sellos, seguramente este hecho no daría pie para sospechar que la moneda está cargada. En este caso, podríamos aceptar la diferencia entre lo teórico y lo experimental como una consecuencia cae la presencia del azar en al experimento que se está realizando. De manera similar, no se pensaría que la moneda está cargada si se obtuvieran 47 caras y 53 sellos. Y, podríamos seguir dando casos particulares en los que al lanzar cien veces la moneda no se obtienen 50 caras y 50 sellos y no por eso se sospecha de la legalidad de la moneda. Surge entonces la pregunta: ¿can qué casos, tiene sentido sospechar de la legalidad de la moneda? La respuesta expresada de manera muy vaga sería: en casos en los que el número de caras (y,
241
8
Error y Prueba de Hipótesis
por tanto, también el número de sellos) sea «muy diferente» de 50. Antes de llegar a determinar con precisión el criterio que estamos buscando vamos a ponernos de acuerdo en el tipo de criterio adecuado para la situación en la cual se va a emplear. Puesto que la sospecha que se tiene sólo se refiere a que la moneda puede estar cargada y no a que la moneda puede estar cargada a favor de un determinado resultado, entonces ese hecho debe reflejarse en la norma que vamos a usar. Así, pues, el criterio deberá expresar que en cualquiera de los siguientes casos se rechazará el supuesto de que la moneda es legal: -
si se obtienen menos de a caras si se obtienen más de b caras siendo que 0
Ahora bien. Los valores a y b no son únicos. Ellos dependen de qué tan rígido se quiere que sea el criterio. Entre más próximos estén a y b a 50, más estricto es el criterio con el que se juzga el resultado y hay más probabilidad de rechazar el supuesto de que la moneda no está cargada; por tanto, hay más probabilidad de acoger la hipótesis de que la moneda sí está cargada, cuando en realidad podría ser una moneda corriente. Recípro-
242
camente, entre más razonablemente alejados estén a y b de 50, el criterio con el que se juzga el resultado cae los cien lanzamientos es más amplio, puesto que incluye resultados diferentes a 50, que pueden suceder por azar y no necesariamente porque la moneda esté cargada. La idea es que a y b estén separados de 50 lo necesario para incluir entre ellos una buena proporción del total de los resultados posibles y no incluir una baja proporción de resultados, que son los que se pueden considerar como atípicos. El esquema siguiente puede aclarar lo dicho anteriormente.
A continuación procederemos a precisar el criterio. Para ello vamos a imaginar que el experimento consiste en lanzar una moneda corriente cien veces consecutivas y registrar el número de caras obtenidas. Ese experimento se repite una gran cantidad de veces. La repetición del experimento produce una distribución con las siguientes características: La variable, el número de caras, toma valores desde 0 hasta 100 La media de la distribución es 50 caras La desviación estándar de la distribución es 5 caras
Estadistica 1 La distribución sigue el modelo normal Y, entonces sabemos por ejemplo que a 2 desviaciones estándar alrededor de la media se encuentra el 95,44%, del total de las observaciones. Es decir, en el intervalo [50 2 * 5, 50 + 2 * 5] = [40, 60] se incluyen 95,44% de los resultados posibles. El criterio, podría ser el siguiente:
Si se obtienen menos de 40 caras ó más de 60 caras en cien lanzamientos consecutivos de la moneda, se considera que la moneda es ilegal y por tanto deberá declararse culpable a Tahuro.
La representación gráfica del criterio con el cual se va a juzgar la legalidad de la moneda de Tahuro se presenta a continuación:
Decisión: veredicto Juez: Se inicia la sesión. Señor Tahuro, por favor, póngase de pie. (Tahuro se levanta del puesto de los acusados.) Se le acusa a usted de estar jugando por los corredores de la universidad, con una moneda que está cargada. ¿Cómo se declara usted ante esa acusación? Tahuro: Inocente, señor juez. Juez: Tiene usted la palabra señorita fiscal. Ana Liza: Tal como el señor juez lo propuso he determinado un criterio para decidir hasta qué punto una moneda puede considerarse como ilegal. El criterio dice: «Si salen más cae 60 caras o menos de 40 caras en cien lanzamientos consecutivos debemos considerar que la moneda es ilegal». Juez: El criterio propuesto por la fiscal, coincide con mi criterio. Por tanto, creo que llegó la hora de realizar el experimento. Stadi Shka: Su señoría, propongo que el experimento sea realizado por un testigo neutral; sugiero que sea Chiripa quien haga los lanza-
243
8
Error y Prueba de Hipótesis
Stadi Shka: Sin comentarios, su señoría. (Se le aguaron los ojos) Juez: ¿La señorita fiscal desea decir algo más? Ana Liza: No, señoría. (Sonriente como nunca) Juez: No habiendo lugar a más discusión, se levanta la sesión temporalmente y mientras tanto, el jurado entra a deliberar para admitir el fallo.
mientos. (El nunca ha sido perjudicado con el asunto de los almuerzos) Juez: Se acepta la moción. Señor Chiripa, pase al banquillo de los testigos. (Chiripa pasa al banquillo, toma la moneda de Tahuro y realiza los cien lanzamientos, obteniendo 62 “caras «. ) Ana Liza: Señor juez, se han obtenido 62 caras. Este resultado o uno en el que se obtengan más de 60 «caras», sólo ocurre con probabilidad menor de 0,025, por tanto creo que debe declararse a Tahuro como culpable, pues el resultado obtenido no apoya la hipótesis de que la moneda sea normal. Stadi Shka: Protesto, su señoría! Deberíamos repetir el experimento pues 62 caras se pueden obtener por puro azar aún si la moneda es legal. Entonces me parece que si se vuelve a repetir el experimento, un resultado muy similar al anterior indicaría que... Ana Liza: No es necesario que siga justificando la defensa. Que se repita el experimento. (Chiripa vuelve a lanzar la moneda cien veces, y ahora se obtienen 66 “caras”) Juez: Han ocurrido 66 «caras». Tiene la palabra la defensa.
244
(después de cinco minutos para deliberar, aparece el señor juez con la decisión del jurado) Juez: Por favor, póngase de pie el acusado. (Tahuro se levanta.) El jurado ha decidido declarar como culpable al acusado. Se le condena a pagar una multa de 32 almuerzos y entra en prueba disciplinaria. (No puedo creerlo; deben estar cometiendo un error) a. ¿Son las pruebas contra Tahuro contundentes? Explique su respuesta. b. ¿Qué tipo de errores podría cometer el jurado al tomar una decisión sobre la acusación que recae sobre Tahuro? Considere ambos casos: cuando es declarado culpable, y, cuando se declara que no se encontró evidencia de que sea culpable. c. Si usted obtuviera 60 «caras» en un experimento como el que se realizó en el juicio contra Tahuro, ¿qué diría: «la moneda está cargada» o «la moneda es legal»? Explique su respuesta en términos probabilísticos. d. Explique por que la probabilidad de obtener 40 ó menos «caras», ó, 60 ó mas «caras», suponiendo que la moneda es legal, al lanzar una moneda cien veces es de 0,05.
Estadistica 1 e. La fiscal Ana Liza dice: «la probabilidad de obtener 60 ó más caras en 100 lanzamientos de la moneda, si ésta es legal, es de 0,025». ¿Es correcta esa afirmación? Explique. f. Suponga que la moneda de Tahuro realmente está cargada y que se obienen 55 «Caras» en el experimento de Ana Liza. ¿Qué decisión tomaría usted como jurado? ¿Sería justa su decisión? g. En la subsección titulada «Búsqueda del criterio y final del juicio» usted propuso un criterio para juzgar la legalidad de la moneda de Tahuro. Determine cual habría sido el veredicto, aplicando la norma que usted dio. Explique su respuesta. Determine qué tan amplia es su norma, en términos de probabilidad. h. Si la norma acogida hubiera sido: Si salen menos de 35 caras, o, si salen mas de 65 caras, entonces la moneda de Tahuro está cargada, ¿cuál habría sido el veredicto? ¿Qué probabilidad hay en ese caso de declarar culpable a Tahuro, no siéndolo? i. Sabiendo que se obtuvieron 62 caras al lanzar la moneda cien veces consecutivas, construya un intervalo de confianza del 95% que le permita decidir acerca de la culpabilidad de Tahuro. j. Suponga que la sospecha hubiera sido: La moneda de Tahuro esta cargada a favor de «cara». En ese caso, no tendría sentido que la norma contemplara la posibilidad de condenar a Tahuro si salieran menos de a caras. Suponga entonces que el criterio fuera: si salen más de b caras, donde 50 < b < 100, Entonces, la moneda es ilegal. Se quiere que este criterio excluya sólo un 5% del total c1e los resultados posibles, ¿cual debe ser el valor de b? Explique su respuesta.
En realidad lo que se realizó en el ejemplo anterior fue una prueba de hipótesis, herramienta de gran valor en la estadística para la labor del científico social. Ya vimos la realidad, ahora veamos la teoría. Pasos en la prueba de hipótesis: 1. 2. 3. 4. 5. 6.
Definir la hipótesis nula: suponer una hipótesis acer ca de una población. Formular una hipótesis alternativa: es una contra-hipótesis. Definir un criterio de decisión para rechazar o no la hipótesis nula. Recabar datos de la muestra. Calcular una estadística de muestra. Utilizar la estadística de muestra para evaluar la hipótesis.
Generalmente, se habla de «no rechazar» una hipótesis en lugar de «aceptar», ya que las pruebas no son concluyentes. La prueba de hipótesis comienza con una suposición, llamada hipótesis, que hacemos con respecto a un parámetro de población. Después recolectamos datos de muestra, producimos estadísticas de muestra y usamos esta información para decidir qué tan probable es que sea correcto nuestro parámetro de población acerca del cual hicimos la hipótesis.
245
8
Error y Prueba de Hipótesis
Selección del nivel de significación. Nuestra elección del estándar mínimo para una probabilidad aceptable, o el nivel de significancia, es también el riesgo que asumimos al rechazar una hipótesis nula cuando es cierta. Mientras más alto sea el nivel de significación que utilizamos para probar una hipótesis, mayor será la probabilidad de rechazar una hipótesis nula cuando es cierta. Errores tipo I y tipo II. Debemos establecer el valor supuesto o hipotetizado del parámetro de población antes de comenzar a tomar la muestra. La suposición que deseamos probar se conoce como hipótesis nula, y se simboliza H0. Siempre que rechazamos la hipótesis, la conclusión que sí aceptamos se llama hipótesis alternativa y se simboliza Ha. Interpretación del nivel de significancia. El propósito de la prueba de hipótesis no es cuestionar el valor calculado de la estadística de muestra, sino hacer un juicio respecto a la diferencia entre esa estadística de muestra y un parámetro de población hipotetizado. El siguiente paso después de establecer la hipótesis nula alternativa consiste en decidir qué criterio utilizar para decidir si aceptar o rechazar la hipótesis nula.
El rechazo de una hipótesis nula cuando es cierta se denomina error de tipo I, y su probabilidad (que es también el nivel de significancia) se simboliza como a. El hecho de aceptar una hipótesis nula cuando es falsa se denomina error de tipo II, y su probabilidad se simboliza como b. La probabilidad de cometer un tipo de error puede reducirse sólo si deseamos incrementar la probabilidad de cometer el otro tipo de error. Con el propósito de obtener una b baja, tendremos que tolerar una a alta. Los responsables de la toma de decisiones deciden el nivel de significación adecuado, al examinar los costos o desventajas vinculadas con ambos tipos de errores.
Si suponemos que la hipótesis es correcta, entonces el nivel de significancia indicará el porcentaje de medias de muestra que está fuera de ciertos límites. Siempre que afirmemos que aceptamos la hipótesis nula, en realidad lo que queremos decir es que no hay suficiente evidencia estadística para rechazarla. El empleo del término aceptar, en lugar de rechazar, se ha vuelto de uso común. Significa simplemente que cuando los datos de la muestra n hacen que rechacemos una hipótesis nula, nos comportamos como si fuera cierta.
246
Figura 8.1. Prueba de hipótesis de dos extremos o de dos colas.
Estadistica 1 Pruebas de hipótesis de dos extremos y de un extremo. Una prueba de dos extremos de una hipótesis, rechazará la hipótesis nula si la media de muestra es significativamente mayor o menor que la media de la población hipotetizada. Existen dos regiones de rechazo.
ta, simplemente porque no podemos encontrar evidencia para rechazarla. Figura 8.2. Prueba de Hipótesis de extremo derecho o cola a la derecha. Hay situaciones en las que no es apropiada una prueba de dos extremos, por lo que debemos usar una prueba de un extremo, que pueden ser de extremo izquierdo (o inferior) o extremo derecho (o superior).
Medición de la potencia de una prueba de hipótesis. Idealmente, tanto para a como b las probabilidades de los errores tipo I y II deben ser pequeñas. Una vez que decidimos el nivel de significancia, no hay nada que podamos hacer con respecto a a. Cuando la hipótesis nula es falsa, µ (la media de la población cierta) no es igual a la media hipotetizada.
Figura 8.3. Prueba de Hipótesis de extremo izquierdo o cola a la izquierda.
Puesto que rechazar una hipótesis nula cuando es falsa es exactamente lo que debe hacer una buena prueba, un valor alto de 1 - b significa que la prueba está trabajando bastante bien, está rechazando la hipótesis nula cuando es falsa. Puesto que 1 - b es la medida de qué tan bien trabaja la prueba, se la conoce como la potencia de la prueba. Si representamos gráficamente los valores 1 - b por cada valor de m para el que la hipótesis alternativa es cierta, la curva resultante se conoce como curva de potencia.
La única forma de probar una hipótesis nula es conociendo el parámetro de población, y eso no es posible al tomar una muestra. Por consiguiente, aceptamos la hipótesis nula y nos comportamos como si fuera cier-
Conviene plantear la hipótesis nula siempre por la igualdad. Adapte la contra hipótesis de acuerdo con el objetivo del problema. Formule la hipótesis basándose en los objetivos del estudio, pero siempre antes de extraer la muestra y calcular el estimador puntual del parámetro desconocido, para no verse
247
8
Error y Prueba de Hipótesis
influenciado por este resultado. Tenga en cuenta que si bien la hipótesis nula es la que se pone bajo prueba, eso no significa que deba ser siempre la suposición que el experimentador desea que se compruebe. Como en todo proceso de inferencia, existe algún grado de subjetividad en la realización de una prueba, particularmente en la elección del nivel de significancia y del tamaño de la muestra. Trate de que la elección de estos valores responda a un análisis cuidadoso del problema en cuestión. Una vez fijadas las condiciones de la prueba, el resultado de la misma es totalmente objetivo. Para fijar el nivel de significación de la prueba, hay que tener en cuenta que cuando la probabilidad del error tipo I aumenta, la del error tipo II disminuye. La forma de minimizar el error tipo II independientemente del nivel de significación, es aumentando el tamaño de la muestra. Como las probabilidades de los errores tipo I y II están relacionadas entre sí, pero el experimentador puede fijar la primera, antes de elegir el nivel de significancia hay que ver cuál de los dos tipos de errores resulta más crítico. Prueba de extremo superior: prueba de hipótesis de un extremo en la que un valor de muestra significativamente superior al valor de población hipotetizado nos llevará a rechazar la hipótesis nula.
248
Estadistica 1 PROBLEMAS PROPUESTOS 1. El fabricante de la nevera de baterías para cervezas marca Borrachín Helper indica que esa nevera mantiene una temperatura promedio de 44 grados F. El gerente de la cervecería India, velando por la calidad de su producto, el cual se debe ingerir a una temperatura muy precisa de 44 grados F, no está de acuerdo con el fabricante de la nevera y dice que puede probar que la temperatura promedio de la nevera es incorrecta. Indica las hipótesis nula y alterna para este problema. 2. Un envasador de jugos dice que la cantidad promedio de jugo en sus botellas con capacidad de 16 onzas es de 16.1 onzas. Un grupo de consumidores lleva a cabo una prueba de hipótesis para ver si la cantidad promedio es realmente menor de lo que reclama el envasador. Las hipótesis son: Ho: µ = 16.1 Ha:µ< 16.1. Explica el significado de error tipo I. (Escoge la mejor respuesta y justifíquela) a. Concluir que µ< 1 6.1 cuando en realidad µ = 1 6.1 onzas. b. No rechazar la hipótesis de que µ = 1 6.1 onzas cuando realmente µ < 16.1. c. No rechazar la hipótesis de que µ = 16.1 onzas cuando realmente µ = 1 6.1 . d. Concluir que µ <16.1 cuando en realidad µ <16.1 3. Se lleva a cabo una prueba de hipótesis para Ho: µ = 1 6.1 Ha: µ < 16.1 al nivel de significancia del 5%. El valor de la estadística prueba es z = - 1 .87. Encuentra el valor p de la prueba.
4. Se lleva a cabo una prueba de hipótesis para Ho: µ = 1 6.1 Ha: µ< 1 6.1 al nivel de significancia del 5%. El valor de la estadística prueba es z = - 1 .87. Indica la decisión que se debe tomar. 5. Se desea conocer si el tiempo promedio de espera en una fila en el supermercado ha aumentado de 8.8 minutos. Se conoce que s = 3.8 minutos. Se toma una muestra de 37 personas y se anota el tiempo de espera de cada una. El tiempo promedio de espera de esta muestra es de 10 minutos. Efectúa esta prueba de hipótesis al nivel de significancia del 5%. Determine Hipótesis Ho, Ha, valor de la estadística prueba, valor crítico, decisión: 6. Se seleccionan muestras independientes de 14 mujeres y 17 hombres y se les pregunta el número de horas que vieron televisión durante la semana pasada. Se obtienen los siguientes resultados:
Encuentra un intervalo de confianza del 95% para la diferencia de la cantidad promedio de tiempo que los hombres y mujeres invierten viendo televisión. 7. Un productor de programas de radio cree que el nuevo formato propuesto será preferido por menos del 25% de sus radioescuchas actuales. Una muestra de 100 de estos radioescuchas refleja que el 22% favorecieron el nuevo formato. Prueba la hipótesis del productor: Ho: p = .25 Ha: p < .25 al nivel de significancia del 1 %.
249
8
Error y Prueba de Hipótesis
8. Cierto fabricante de papel hace sus envíos de pulpa de acuerdo con la producción de su propio «digester» de madera basándose en ciertas propiedades del papel fabricado con la misma pulpa de madera. Una propiedad importante del papel es su resistencia a la tensión; la prueba se realiza en un laboratorio en el que se fabrica el papel con la pulpa investigada. Supóngase que una muestra de 4 dio una media de 25 unidades y que se sabe por la historia de dichas pruebas que la desviación estándar es de 5. para ese producto. Si se supone normalidad en los resultados, ¿cuáles son los límites de confianza al 95%, para µ, para esta muestra? 9. Se llevó a cabo un estudio para explorar la relación entre el salario y calidad del producto de su trabajo. Se seleccionaron cincuenta personas y se les pidió uno a uno que limpiaran un automóvil. A la mitad de las personas se les pagarían veinte dólares por trabajo y a la otra mitad se les pidió que hicieran el trabajo como voluntarios, sin paga. El estudio reveló que las personas a quienes se les pagó por su trabajo limpiaron mejor el automóvil que las que hicieron el trabajo como voluntarios. a. Identifica los elementos de un buen diseño experimental presentes en este estudio. b. Describe concretamente la forma en que asignarías las personas a cada una de las condiciones experimentales.
c. Un comerciante desea expandir su negocio de venta de ropa. Entiende que si expande su negocio podrá vender más de $500.000 adicionales al día. El comerciante desea verificar esa aseveración.
10. El tiempo requerido para realizar cierto trabajo de oficina fue observado en cada una de 25 personas. La media resultó ser 50 minutos y la desviación estándar, 15 minutos. La dirección desea una estimación de la verdadera media, aproximada a 3 minutos y con probabilidad de error de no más de un centésimo. Suponiendo a la población aproximadamente normal y suponiendo a las 25 personas como una muestra aleatoria de oficinistas potenciales, ¿qué tan grande debe ser la muestra que cumpla los requisitos de la estimación?
11. Un grupo de 50 animales expeEn cada uno de las situaciones que siguen, establece las hi- rimentales recibe cierta una clase de rapótesis nula y alterna. Además describe en términos del pro- ciones por un periodo de 2 semanas. Sus aumentos de peso arrojan los valores X blema lo que constituye error tipo I y error tipo II. = 420 g y s = 50 g. (a) ¿Qué tan preciso a. Estás interesado en saber si la media verdadera l de todas es 420 como estimación de media de las puntuaciones en una prueba estandarizada difiere de 445. población? (b) ¿Qué tan grande debe tomarse la muestra si se desea que X difiera de por menos de 10 g, con 0.95 de probabilidad de estar correcto? (c) Encontrar b. Una mosca puede producir hijos con ojos azules o con ojos el límite de confianza a 95% para E. negros. Un biólogo quiere determinar si más de la mitad de las moscas heredan ojos azules. 12. En una auditoria de muestra aleatoria de pequeñas transacciones he-
250
Estadistica 1 cha cuidadosamente sobre una muestra de 50 transacciones se obtuvo un error medio de -150 pesos con una desviación estándar de -60 pesos. Calcule los límites de confianza al 95% para µ, verdadero error medio, de la totalidad de las pequeñas transacciones, suponiendo normalidad aproximada para X. 13. Una compañía farmacéutica considera cierta nueva enzima para determinar si es capaz de acelerar uno de los procesos. El rendimiento para un lote se considera igual al rendimiento real, dividido por un rendimiento teórico basado en la experiencia anterior. La nueva enzima fue probada en 50 lotes y se encontró un rendimiento promedio de 1.24, con desviación estándar de .20. (a)
(b)
Calcule un intervalo de 95% de confianza para el rendimiento real. Basado en el experimento, ¿pue de usted estar seguro de que el rendimiento verdadero sea superior a 1.00? Explique.
14. La U.S. Public Land Survey (Oficina de Deslindes de los Estados Unidos traza mapas de los estados en unidades de área de 14 de milla cuadrada. Uno de los estados agrícolas contiene 219,176 unidades. Hace varios años, se tomó una muestra de 908 unidades y se contó el número de granjas cuya sede se encontraba en cada una de esas unidades de área. El número medio de granjas por unidad fue 0.8722 y la desviación estándar
0.6629. Calcular límites de confianza del 95% aproximados para el número total de granjas en ese estado en aquel entonces. 15. Plantee 3 problemas relacionados con la carrera y que toquen los temas más relevantes de esta unidad y resuélvalos. (Se seleccionarán los tres mejores del curso.) 16. Use el paquete estadístico que este disponible en la universidad o al que usted tenga acceso (si usa el EVIEWS puede apoyarse en la referencia rápida del anexo 2) y desarrolle los ejercicios en este y verifique sus respuestas. Verifique también las respuestas de los ejercicios resueltos de esta unidad. 17. En un artículo de la revista SEMANA se habla acerca de los índices de violencia en Colombia. Dicho artículo presenta la siguiente información: Número de acciones violentas en los departamentos más afectados según los casos registrados en 1994.
Algunos investigadores que trabajan el tema de la violencia infantil afirman que: Los casos de extorsión con respecto a todos los casos de violencia registrados en el departamento de Antioquia no superan el 26%. Con base en los datos suministrados por la revista, analice la afirmación anterior. Para ello, resuelva los siguientes puntos: a) Formule la hipótesis nula y la hipótesis alternativa correspondiente. b) Encuentre el p-valor y represéntelo gráficamente. c) Determine un nivel de significación tal que se rechace Ho.
251
8
Error y Prueba de Hipótesis
d) Determine un nivel de significación tal que no se rechace Ho. e) ¿Qué decisión tomaría con respecto a la afirmación? Explique claramente su respuesta. 18. El Gobierno Nacional ha destinado un presupuesto de 500 millones de pesos para el departamento de Antióquia. El presupuesto sólo se puede invertir en educación o en seguridad, pero no en ambos. La inversión se puede hacer en equipos y entrenamiento de personal para reforzar al grupo Gaula (grupo policivo especializado en antiterrorismo) o en colegios públicos, para materiales y capacitación de profesores que favorezcan el desarrollo de los PEI’s (Proyectos Educativos Institucionales) de mayor calidad. Suponga que la decisión sobre en que área (educación o salud) se debe invertir el presupuesto, depende de si han aumentado o no los niveles de violencia. Analice según el contexto, cuál sería la incidencia de los errores de tipo I y tipo II.
252
Estadistica 1 PROBLEMAS RESUELTOS 1. Plantear dos ejemplos de formulación de hipótesis estadísticas para una población. Solución. Ejemplo 1. Se inspecciona una muestra de pulgones de cierta región y se mide la longitud de cornículo. Por datos obtenidos en otra región, se sabe que la longitud promedio del cornículo es de 0.10 mm. La hipótesis nula se expresa como: Ho µ = 0.10, la hipótesis alternativa: Ha: µg 0.10 mm. En otras palabras, se prueba si la muestra proviene de una población con media 0.1 mm, la hipótesis alternativa es que la media es distinta. Ejemplo 2. Se inspecciona una muestra de plantas de frijol, se cuenta el número de picudos del ejote por vaina. Se desea saber que tipo de distribución probabilistica representa los conteos de insectos. 2. Plantear dos ejemplos de estadísticas con dos poblaciones. Solución. Ejemplo 1. Se realiza el siguiente experimento. Se pretende probar si cierto tipo de trampa captura adultos de «salivazos» igualmente del lado norte y del lado sur. Aquí la hipótesis es µ1 - µ2, contra Ha: µ1 g µ2.
Ejemplo 2. Se postula que existe una relación lineal entre el número de chinches del sorgo y el rendimiento del sorgo. El modelo estadístico más simple es que el rendimiento (Y) es una función lineal del número de chinches (X): Yi - BO + B1X + ei. Si este modelo es cierto, entonces B1 <> 0, de otra manera no existe relación entre X y Y y el modelo se colapsa a: Yi - BO + ei. BO representa la media general y B1 la pendiente de una recta. La hipótesis que se desea probar es: Ho : B1 - 0 vs B1 <> 0. 3. Supongamos que las alturas de 100 estudiantes varones de la universidad representan una muestra aleatoria de los 1546 estudiantes de la institución. Si µ=67.45 in y r = 2.93 in, hallar los intervalos de confianza (a) 95% y (b) 99% para estimar la altura media de los estudiantes. Solución. (a) Supondremos que la población es infinita o tan grande que se puede considerar como muestreo con reposición. Los límites de confianza 95% son:
El 1.96 es el valor z de las unidades estándar hasta donde se cubre en la distribución normal el 95% del área bajo la curva. (Verifique en la tabla del anexo 3 que para z=1.96 el área correspondiente es ± 0.475 es decir la mitad del 0.95 o 95%) Reemplazando los valores correspondientes tenemos [67.45-1.96·2.93/ 100, 67.45-1.96·2.93/ 100] = [67.450.57, 67.45+0.57] =[66.88, 68.02] Es decir tenemos el 95% de confianza de que la media de la población se encuentra entre 66.88 y 68.02. (b)
Los límites de confianza 99% son:
µ1 es la media poblacional (número de insectos capturados) en el lado sur, y µ2 es la media poblacional en el lado norte.
253
8
Error y Prueba de Hipótesis
= [67.45±0.76] Luego el intervalo de confianza 99% para la media de la población µ es 66.69 a 68.21 in, que se denota por 66.99 < µ < 68.21.
usando la desviación típica muestral como estimación de r. Veamos cual es el valor de z correspondiente a la media muestral,
4. La vida media de una muestra de 100 tubos fluorescentes producidos por la empresa es de 1570 h con una desviación típica de 120 h. S i µ es la vida media de todos los productos en esa empresa, contrastar la hipótesis de que µ = 1600 h contra la hipótesis alternativa µ y 1600 h, usando nivel de significación de (a) 0.05 y (b) 0.01
-2.50 está fuera del rango, es decir no está dentro del intervalo de confianza –1.96 a 1.96, por lo que rechazamos Ho al nivel de significación 0.05.
Solución. Debemos decidir entre dos hipótesis, para decidir cual es la hipótesis nula y cual la alternativa debemos tener en cuenta el siguiente truco: la hipótesis nula se establece como cuando “no pasa nada”, en este caso aunque ya nos han dado las hipótesis, pero podemos verificar como se describe la hipótesis nula como el que la media tome un valor determinado y la hipótesis alterna como el que puede tomar cualquier otro valor. Ho: µ = 1600 h Ho: µ ≠ 1600 h
Puesto que µ ≠1600 incluye valores mayores y menores que 1600, usaremos un contraste de dos extremos o dos colas. (a) Para un contraste de dos colas al nivel de significación de 0.05, tenemos la siguiente regla de decisión:
(b) Si el nivel de significación es 0.01, el rango pasa a ser –2.58 a 2.58. Así pues, como el valor –2.50 cae dentro de ese rango, aceptamos Ho (o rehusamos tomar decisión al nivel de significación 0.01) 5. En el ejercicio anterior, contrastar la hipótesis µ = 1600 h frente a la hipótesis alternativa µ < 1600 h con nivel de significación (a) 0.05 y (b) 0.01. Solución. Tenemos que decidir entre las hipótesis: Ho: µ = 1600 h, y Ha: µ < 1600 h. Habrá que usar un contraste de una cola, por que la correspondiente figura tiene la región crítica o de rechazo ubicada a la derecha.
Rechazar Ho si el z de la media muestral está fuera del rango –1.96 a 1.96. Aceptar Ho en el caso contrario. El estadístico bajo consideración es la media muestral. Bajo la hipótesis Ho, tenemos µ = 1600 y (a) Si el nivel de significación es 0.05, el área sombreada de la figura es 0.05, y hallamos que Z1 = -1.645. Por lo tanto, adoptamos como regla de decisión:
254
Estadistica 1 Rechazar Ho si z es menor que –1.645. Aceptarla en caso contrario (o declinar cualquier decisión).
de afirmar la mejoría del nuevo proceso al nivel de significación 0.01?
Ya que z = -2.50 según se calculó en el ejercicio anterior, es menor que –1.645, rechazamos Ho al nivel de significación 0.05. Nótese que esta decisión es idéntica a la alcanzada en el problema anterior por medio del contraste de dos colas.
Solución. Tenemos que plantear las hipótesis entre las cuales vamos a decidir. La hipótesis nula establece que “no pasa nada”; en este caso el “no pasa nada se debe interpretar como: no hay realmente un cambio en la tensión de ruptura, es decir la media sigue siendo la misma. Las hipótesis quedan así:
(b) Si el nivel de significación es 0.01, el valor Z1 en la figura es –2.33. (Corresponde al área de 0.49, la cual sumada a la otra mitad de la campana 0.5 nos da un área de 0.99 o 99% de confianza) rechazamos Ho al nivel de significación 0.01. Nótese que esta decisión no es la alcanzada en el problema anterior por medio del contraste de las dos colas. Se deduce que las decisiones relativas a una cierta hipótesis Ho que están basadas en contrastes de una o dos colas no siempre concuerdan. Lo cual era de esperar, naturalmente, pues estamos contrastando Ho frente a alternativas diferentes según el caso. 6. Las tensiones de ruptura de los cables fabricados por una empresa tienen una media µ = 1800 libras con una desviación típica σ= 100 libras. Se desea comprobar si un nuevo proceso de fabricación aumenta dicha tensión media. Para ello se toma una muestra de 50 cables y se encuentra que su tensión media de ruptura es de 1850 lb. ¿se pue-
Ho: µ = 1800 lb, y no hay realmente cambio en la tensión de ruptura. Ha: µ > 1800 lb, y hay realmente cambio en la tensión de ruptura. Hay que usar un contraste de una cola a la derecha. Al nivel de significación 0.01, la regla de decisión es: Si el z observado es mayor que 2.33, el resultado significativo al nivel 0.01 y rechazamos Ho. En caso contrario, se acepta Ho (o se aplaza la decisión). Como no tenemos la desviación de la muestra, entonces la calculamos como s=σ/ N, bajo la hipótesis de que Ho es verdadera, vemos que
Como este valor de z es mayor que 2.33. Así que el resultado es altamente significativo y la afirmación puede mantenerse.
255
8
Error y Prueba de Hipótesis
BIBLIOGRAFIA Recuerde que cuando se tomo la decisión en la universidad de producir este texto, se consideró que los textos existentes no proporcionaban los elementos suficientes que el estudiante de administración pública requiere. Claro que el estudiante no puede prescindir del estudio de otros textos, y no lo debe hacer, sin embargo, debe hacerlo con beneficio de inventario, reconociendo que si bien en estos hay relacionado un compendio de conocimientos, las bondades pedagógicas son cuestionables. Los textos que fueron consultados para la elaboración de esta unidad fueron:
CHOW, Ya-Lun. Análisis Estadístico. Traducido al español por Vicente Agut Armer. Editorial Mc Graw Hill. 2da Edición. México, 1992. FERNANDEZ, Felipe; MONROY, Olga L.; RODRIGUEZ, Liliana. Diseño, desarrollo y evaluación de situaciones problemáticas en estadística. Universidad de los Andes: una Empresa Docente. Bogotá D.C., 1998. HOEL, Paul G. Y JESSEN, Raymond J. Estadística Básica para Negocios y Economía. Compañía Edutirial Continental S.A. 2da Edición. México, 1985. MENDENHALL, William. Estadística para Administradores. Traducido por Dirk Valckx Verbeeck. Grupo Editorial Iberoamérica. México, 1990. PERRY, Patricia Inés; MESA, Vilma María; FERNANDEZ, Felipe; GOMEZ, Pedro. Matemáticas, Azar y Sociedad. Conceptos básicos de estadística. Universidad de los Andes: Una Empresa Docente, Bogotá D.C., 1998. SPIEGEL, Murray R. Estadística. Traducido por Rafael Hernández Heredero. Editorial Mc Graw Hill. 2da Edición. Madrid, 1998.
256
Estadistica 1
Anexos
257
A
258
Anexos
Estadistica 1 ANEXO 1. FORMAS PARA ANALIZAR ESTADÍSTICAS CON EXCEL Microsoft Excel proporciona un conjunto de herramientas para el análisis de los datos (denominado Herramientas para análisis) que podrá utilizar para ahorrar pasos en el desarrollo de análisis estadísticos o técnicos complejos. Cuando utilice una de estas herramientas, deberá proporcionar los datos y parámetros para cada análisis; la herramienta utilizará las funciones de macros estadísticas o técnicas correspondientes y, a continuación, mostrará los resultados en una tabla de resultados. Algunas herramientas generan gráficos además de tablas de resultados. Para ver una lista de las herramientas de análisis disponibles, elija Análisis de datos en el menú Herramientas. Si este comando Análisis de datos no está en el menú Herramientas, ejecute el programa de instalación para instalar Herramientas para análisis. Una vez instalado Herramientas para análisis, deberá seleccionarlo y activarlo en el Administrador de complementos o macros automáticas. Para usar estas herramientas, es necesario estar familiarizado con el área de estadísticas o el área técnica en que desee desarrollar análisis. Instalar y usar Herramientas para análisis Para utilizar una herramienta de análisis, deberá organizar los datos que desee analizar en columnas o filas en la hoja de cálculo. Este es el rango de entrada. Si el comando Análisis de datos no está en el menú Herramientas, será necesario instalar Herramientas para análisis en Microsoft Excel. Instalar Herramientas para análisis 1
En el menú Herramientas, elija Complementos.
259
A
Anexos
Si Herramientas para análisis no aparece en la lista del cuadro de diálogo Complementos, haga clic en Examinar y localice la unidad, la carpeta y el nombre de archivo de Herramientas para análisis que normalmente estará ubicado en la carpeta Library\Analysis; o bien, ejecute el programa de instalación si no estuviera instalado. 2 lisis.
Active la casilla de verificación Herramientas para aná-
Usar Herramientas para análisis
1 2
260
En el menú Herramientas, elija Análisis de datos. En el cuadro Herramientas para análisis, haga clic en la herramienta que desee utilizar.
Estadistica 1 3 Introduzca el rango de entrada, el rango de salida y, a continuación, seleccione las opciones que desee.
Nota Los complementos o macros automáticas que seleccione en el cuadro de diálogo Complementos, permanecerán activas hasta que las desactive.
261
A
Anexos
ANEXO 2. REFERENCIA RAPIDA DEL EVIEWS BACK TO ECONOMETRIC ESTIMATION QUESTIONS 1. How can I enter my statistical data ? 2. How can I generate a new data serie from one or several other data series? 3. How can I draw a graph? 4. How can I modify the sample range ? 5. How can I estimate my model with the ordinary least squares estimation method? 6. How can I estimate my model with the generalized least squares estimation method? 7. How can I get residuals correlograms ? 8. How can I get statistical tests? 9. How can I smooth a time serie or adjust it for seasonal variations? 10. How can I do forecasting? 11. How can I handle with a simultaneous equations system? 12. How can I do pooling? 13. What are the main Eviews commands? ANSWERS 1. - Enter your statistical data Select File New Workfile and choose a name for your workfile using the dialog box. After clicking OK, another dialog box comes to screen. Choose the frequency of your data series and specify your sample range. When you use a quarterly frequency, you have to write the quarter number too. For instance, you will type 1980:1 to 1999:4. You get a workfile in which you can enter your data. But first of all you have to create the data series. Therefore click on Object New and select Serie giving it a name. Repeat this stage to create every serie. The series will appear on your workfile. Last but not least you will enter your data into each serie. Click on the serie icon and on the button
262
Estadistica 1 Edit +/- of the new window. Then type your data. Before closing the window, click again on Edit +/-. Notice : if you work with cross section data instead of time series, choose the undated frequency and give a number to each country (if we are talking about countries) or industry or whatever it is. 2. Generate a new serie After opening your workfile with File Open Workfile name, use the Genr command by writing an expression in the command line just below the main menu. For instance, you will type Genr NewSerie=(Serie1*Serie2)/Serie3. To deflate a nominal GDP serie with a price index, you could write : Genr RealGDP=NomGDP/Price. The operators of expressions are the classical +, -, *, / and a few more described in the help of the software. The new serie will appear next to the others on the workfile. 3. Draw a graph Open your workfile by selecting File Open Workfile Name and type Plot in the command line. You have to specify the name of the serie to plot. For instance, Plot RealGDP. The graph comes to screen in a reduced window. Select the window on the whole screen. Click on the Options button of the graph menu and choose the graph options with the new dialog box. After closing the graph window you can save your graph by choosing a name in the dialog box that appears at screen. Your graph will appear as a graphic object next to the others series objects in your workfile. 4. Change the sample range After opening your workfile, type Smpl first period last period in the command line just below the main menu. For instance, if you have a sample between 1950 and 1995, you could type Smpl 1970 1990 to change the sample range.
263
A
Anexos
5.
Estimate your model with the ordinary least squares method After opening your workfile, type in the command line just below the main menu : LS Dependent Variable Name C Independent Variables Names separated by a space between the names. For instance, if we regress consumption on yield after creating the consumption and yield series, we have to write the following instruction : LS Consumption C Yield. The following table is supplied to you by the software : LS // Dependent Variable is CONSUMPTION Sample: 1948 1994 Included observations: 47 Excluded observations: 0 after adjusting endpoints
As you can see, this table give you the main statistical values you need to analyse your regression. The menu of the equation window enable you to get others interesting views of your regression. For instance, if you click on the Resids button then you get a residuals graph.
264
Estadistica 1 6.
Estimate your model with the generalized least squares method 3 different cases : you are doing a pooling : Eviews directly apply the GLS method; you can convert the GLS case into an OLS case. For instance, if you have a serial correlation problem you can apply a Cochrane - Orcutt procedure by writing the following command : LS CONSUMPTION C YIELD AR(1), where AR(1) is used to apply this procedure; you proceed in the same way as you estimate an equation with the OLS method, but you click on the estimate button of the equation window to choose the right estimation methods and their options. Please be cautious and choose the right estimation methods and parameters after checking them in the econometric literature. You are not just doing press-buttons econometrics. 7. Get residuals correlograms After getting your regression, click on the view button of the equation window. Then select Residuals Tests Correlogram. Please indicate the maximal self correlation order you want. If you choose 3, for instance, you get first order, second order and third order self correlation of residuals. To come back to regression results click on the stats button. 8. Compute statistical tests After computing your regression, the t, F and Durbin-Watson test are directly available in the equation window. If you want to compute other statistical tests, click on the view button of the equation window and select either Coefficient Tests or Residuals Tests or Stability Tests. To come back to regression results click on the stats button. 9.
Smooth a time serie or adjust it for seasonal variation Type seas or smooth in the command line placed just below the main menu. Indicate the name of the serie into the dialog box.
265
A
Anexos
Another dialog box comes to screen and you choose the right methods and parameters to smooth the time serie or to adjust it for seasonal variations. 10. Forecasting After getting your regression results, click on the forecast button of the menu in the equation window. Apply the best method to your case. So you have to think to that very well... Look at our econometric bibliography if you have some doubt. 11. Work with a simultaneous equations system After opening your workfile, click on Object New System and give it a name. A new window comes to screen. Write in it your system using its structural form. The system parameters as the constants and coefficients are written C(1) C(2) C(3) ... C(n). For instance, you could type the following system with five parameters to estimate : CONSUMPTION = C(1) + C(2)*YIELD INVESTMENT = C(3) + C(4)*YIELD + C(5)*YIELD(-1) YIELD = CONSUMPTION + INVESTMENT + GOVERNMENTEXPENSES Notice : YIELD(-1) means the yield at the former period. After writing your model, you can estimate it. Only click on the estimate button of the system window. A dialog box will ask you to choose the right method of estimation. Apply the method that suits well to your case. For further tips, type system in the search engine of the software help and choose system estimation. Advice : have a look to our econometric bibliography too. 12. Pooling Sometimes cross-section and time-series data are merged or pooled. The result could be interpreted as a cross section of time series or a time series of cross sections. After opening your workfile, select Objects New Object and choose Pool giving it a name. Identify the elements which differentiate the countries or years in the new window you can view on the
266
Estadistica 1 screen. For instance, if you got variables for 24 countries and for the years 95 and 96, type 95 and 96 as identifiers. But be careful ! You should have created the series before doing your pooling. The names of the series have to contain the identifier. In our case, you should have written the yield series in the following way: YIELD95 and YIELD96. After that click on the sheet button of the pool window and type the series names replacing the identifier by a question mark?. For instance, YIELD? PRICE? DEMAND?. Another window comes to screen with the data. Click on the estimate button and write the variables names with a? instead of the identifier part. For instance, DEMAND? In Dependent Variable and YIELD? PRICE? in Common coefficients. Choose the right methods and parameters. Perhaps you need to check in the econometric literature or in the software help. 13. Main Eviews commands The most used commands are in bold. Most of these are available through different software menus. The software help explains clearly every command (very well done). If you work with EViews 3.1., don’t forget to check Object Reference, Function Reference, Matrix & String
267
A
Anexos
Reference and Programming Reference in the help menu. ADD Test addition of variables ADF Unit root test AR Autoregressive error specification ARCH Test ASSIGN Assign name to series in model AUTO Serial correlation LM test BAR Bar graph of series CAUSE Granger causality test CCOPY Copy series from CITIBASE to data bank CFETCH Fetch a series from CITIBASE into RAM CHDIR Change subdirectory CHOW Chow test for stability CLABEL Read a CITIBASE series description CLOSE: Close object or file COEF Declare coefficient vector COINT Cointegration test COR Correlation matrix COV Covariance matrix CREATE Create a new workfile CROSS Cross correlations D Delete objects from workfile DATA Enter data from keyboard EQUATION Define equation EXIT Exit from EViews EXPAND Lengthen workfile FETCH Fetch objects from disk into the workfile FIT Calculate fitted values FOR For loop FORECAST Compute a forecast FREEZE Create a view object from a view GENR Generate a new series from a formula GROUP Create a group HIST Histogram and normality test IDENT Time series identification of residuals IF statement IDENT Identify a time series process LOAD Load a workfile LOGIT Estimate logit model
268
Estadistica 1 LS Least squares estimation MA Moving average error specification MATRIX Declare MATRIX object MODEL Declare a model NA Not available code NEXT End of FOR loop NRND Random number generator PARAM Set parameters PDL Polynomial distributed lag PIE Pie chart PLOT Line graph PRINT Print objects PROBIT Estimate probit model PROGRAM Declare a program R Rename object READ Read data from a foreign disk file RESET test ROWVECTOR Declare a ROWVECTOR object RUN Run a program SAMPLE Declare a sample SCALAR Declare a SCALAR SAR Seasonal autoregressive term SAVE Save the current workfile on disk SCALAR Declare scalar SCAT Scatter diagram of two series SEAS Seasonal adjustment SERIES Create a new series from a formula SETCELL Insert contents into cell of table SETCOLWIDTH Set width of cell of table SETLINE Place a horizontal line in a table SHOW Display objects SMA Seasonal moving average term SMOOTH Exponential smoothing SMPL Specify the sample for series SORT Sort the work file STATS Descriptive statistics STEP Step size in FOR loop STOP Break out of loop STORE Store objects on disk SYM Declare a SYM object SYSTEM Declare system of equations TEST Specification and diagnostic tests TO Upper limit of FOR loop
269
A
Anexos
TSLS Two stage least squares UROOT Unit root test VAR Define a Vector Autoregression VECTOR Declare a VECTOR object WALD Wald test WEND End of WHILE clause WHILE Control statement WHITE White’s test for heteroskedasticity WORKFILE Create or change workfile WRITE Write a file with multiple series
270
Estadistica 1 ANEXO 3. TABLA DE LA DISTRIBUCION NORMAL
Nota: Estos datos han sido calculados con la ecuación que se encuentra en la parte superior derecha. Tenga en cuenta que se ha calculado solamente el área desde el centro 0 hacia la derecha hasta el punto zi respectivo. Los valores hacia la izquierda se encuentran por simetría.
271