GUÍA DIDÁCTICA Y MÓDULO
GABRIEL JAIME POSADA HERNÁNDEZ MARÍA VICTORIA BUITRAGO CARDONA
FUNDACIÓN UNIVERSITARIA LUIS AMIGÓ FACULTAD DE CIENCIAS ADMINISTRATIVAS, ECONÓMICAS Y CONTABLES Colombia, 2008
COMITÉ DIRECTIVO Fray Marino Martínez Pérez Rector Hernán Ospina Atehortúa Vicerrector Administrativo y Financiero Director de Planeación José Jaime Díaz Osorio Vicerrector Académico Francisco Javier Acosta Gómez Secretario General
ESTADÍSTICA Gabriel Jaime Posada Hernández María Victoria Buitrago Cardona Decana Facultad de Ciencias Administrativas, Económicas y Contables: María Victoria Agudelo Vargas Corrección de estilo: Lorenza Correa Restrepo Diseño: Colectivo Docente Facultad de Ciencias Administrativas, Económicas y Contables Impresión: Departamento de Publicaciones FUNLAM www.funlam.edu.co TODOS LOS DERECHOS RESERVADOS Medellín – Colombia 2008
Estadística
2
CONTENIDO Pág GUÍA DIDÁCTICA
PRESENTACIÓN
13
1. FICHA TÉCNICA
15
2. INTENCIONALIDADES FORMATIVAS
16
3. OBJETIVOS
17
3.1. OBJETIVOS ESENCIALES
17
3.2. OBJETIVOS COMPLEMENTARIOS
17
4. UNIDADES TEMÁTICAS
19
5. METODOLOGÍA GENERAL
20
6. EVALUACIÓN INTEGRAL
21
II
ESTADÍSTICA DESCRIPTIVA
INTRODUCCIÓN
23
JUSTIFICACIÓN
25
UNIDAD 1. INTRODUCCIÓN Y OBTENCIÓN DE DATOS ESTADÍSTICOS 1.1. ESTADÍSTICA
27 27
1.1.1. Historia
27
1.1.2. Definición
31
1.1.3. División
32
Estadística
3
1.2.
CONCEPTOS GENERALES
32
1.2.1. Unidad de investigación
32
1.2.2. Población
33
1.2.3. Muestra
34
1.2.4. Parámetros y estadígrafos
34
1.2.5. Variables
35
1.2.6. Escalas de medición
38
1.3.
MUESTREO
42
1.3.1. Métodos de muestreo probabilístico
43
1.3.2. Métodos de muestreo no probabilístico
47
1.3.3. Evaluación del valor de una encuesta
49
1.3.4. Errores en las encuestas
50
1.3.5. Aspectos éticos del muestreo
52
UNIDAD 2. ORDENACIÓN DE DATOS ESTADÍSTICOS 2.1.
2.2.
TABULACIÓN DE DATOS
55
2.1.1. Rango o recorrido
55
2.1.2. Amplitud del rango
59
2.1.3. Número de clases
59
2.1.4. Amplitud del intervalo de clase
60
2.1.5. Límites de las clases
61
2.1.6. Tabulación
62
2.1.7. Marca de clase o punto medio
62
FRECUENCIAS
63
2.2.1. Frecuencia absoluta
63
2.2.2. Frecuencia relativa
64
Estadística
4
2.3.
2.4.
2.2.3. Frecuencia absoluta acumulada
66
2.2.4. Frecuencia relativa acumulada
67
2.2.5. Números índices
69
GRÁFICAS O DIAGRAMAS
70
2.3.1. Histogramas
70
2.3.2. Polígono de frecuencias
72
2.3.3. Ojivas o polígonos de frecuencias acumuladas
74
2.3.4. Diagramas de barras
75
2.3.5. Diagramas circulares
76
2.3.6. Diagrama de tallo y hojas
77
2.3.7. Diagrama de Pareto
80
TABULACIÓN DE DATOS BINARIOS O CRUZADOS
82
UNIDAD 3. MÉTODOS NUMÉRICOS 3.1.
3.2.
MEDIDAS DE TENDENCIA CENTRAL O DE PRECISIÓN
88
3.1.1. Media aritmética
88
3.1.2. Mediana
91
3.1.3. Moda
96
3.1.4. Cuantiles
100
MEDIDAS DE VARIABILIDAD
107
3.2.1. Rango
108
3.2.2. Rango intercuartil
109
3.2.3. Varianza
109
3.2.4. Desviación estándar
114
3.2.5. Coeficiente de variación
115
Estadística
5
3.3.
MEDIDAS DE LOCALIZACIÓN
117
3.3.1. Valor z
118
3.3.2. Teorema de Chebyshev
119
3.3.3. Sesgo o forma
122
3.3.4. Diagrama de caja o bigotes
124
3.3.5. Curtosis
128
UNIDAD 4. REGRESIÓN LINEAL Y CORRELACIÓN 4.1.
4.2.
III
REGRESIÓN LINEAL SIMPLE
132
4.1.1. Diagrama de dispersión
132
4.1.2. Ajuste de una recta por el método de mínimos cuadrados
135
CORRELACIÓN
141
4.2.1. Coeficiente de correlación
141
4.2.2. Coeficiente de determinación
144
TEORÍA DE PROBABILIDADES
UNIDAD 1. DEFINICIONES 1.1 INTRODUCCIÓN
148
1.2 QUÉ ES LA PROBABILIDAD
149
1.3 CONCEPTOS BÁSICOS DE PROBABILIDAD
150
1.3.1
Fenómeno experimento aleatorio
150
1.3.2
Fenómeno o experimento determinístico
1.3.3
Prueba
150
1.3.4
Espacio muestral
150
1.3.5
Elemento o punto muestral
1.3.6
Evento
152
1.3.7
Intersección de dos eventos a y b
152 6
Estadística
150
152
1.3.8
Unión de dos eventos a y b
1.3.9.
153
Complemento de un evento a
154
UNIDAD 2. TÉCNICAS DE CONTEO 2.1
2.2
TÉCNICAS DE CONTEO
157
Regla 2.1.1. Principio de la multiplicación
157
Regla 2.1.2. Principio de permutación
161
Regla 2.1.3 Variaciones o permutaciones
162
Regla 2.1.4 Combinaciones
164
Regla 2.1.5 Particiones
166
EJERCICIOS RESUELTOS
167
UNIDAD 3. SUCESOS PROBABILÍSTICOS Y REGLAS DE PROBABILIDAD 3.1 SUCESOS PROBABILÍSTICOS 3.1.1 Sucesos independientes
3.2
3.3.
172 172
3.1.2 Sucesos dependientes
172
3.1.3 Sucesos compatibles o mutuamente no excluyentes
172
3.1.4 Sucesos incompatibles o mutuamente excluyentes
172
DEFINICIÓN DE PROBABILIDAD
173
3.2.1. Modelo de probabilidad empírico o frecuencialista.
173
3.2.2. Modelo subjetivo
174
3.2.3 Modelo clásico
174
REGLAS PRINCIPALES DE LA PROBABILIDAD
Estadística
175 7
3.4.
AXIOMAS DE PROBABILIDAD
180
3.4.1 Teorema 1: regla de la unión o suma
180
3.4.2 Teorema 2: regla del complemento
180
3.4.3 Teorema 3: probabilidad condicional
181
3.4.4 Teorema 4: regla de la multiplicación o intersección 182
UNIDAD 4. VARIABLES ALEATORIAS Y DISTRIBUCIONES DE PROBABILIDAD 4.1 INTRODUCCIÓN
191
4.2 DISTRIBUCIÓN O FUNCIÓN DE PROBABILIDAD
191
4.3 ALGUNAS DISTRIBUCIONES DISCRETAS DE PROBABILIDAD 194 4.3.1 Distribución binomial 4.3.1.1
4.3.2
Características
194 195
4.3.1.2
Función de probabilidad de la v.a. binomial
196
4.3.1.3
Tablas de probabilidad acumulada de la binomial
200
4.3.1.4
Parámetros de la distribución binomial
205
Distribución hipergeométrica
206
4.3.2.1
Función de probabilidad de la v.a. hipergeométrica
207
4.3.2.2
Parámetros de la distribución hipergeométrica
212
4.3.3 Distribución de Poisson 4.3.3.1 4.3.3.2 4.3.3.3
Estadística
Función de probabilidad de la v.a. Poisson Tablas de probabilidad acumulada de la Poisson Parámetros de la distribución Poisson
212 213 213 220
8
4.4
DISTRIBUCIÓN CONTINUA DE PROBABILIDAD: DISTRIBUCIÓN NORMAL 4.4.1
IV
La función de densidad de la distribución normal
220 221
4.4.2 Representación gráfica de esta función de densidad
221
4.4.3 Distribución normal estándar
222
4.4.4 Pasos para buscar en la tabla
222
ESTADÍSTICA INFERENCIAL
UNIDAD 1. ESTIMACIÓN 1.1 INTRODUCCIÓN
233
1.2 NIVEL DE CONFIABILIDAD DE LOS RESULTADOS
236
1.3 PRINCIPALES PARÀMETROS, ESTADÍSTICOS Y SUS SÍMBOLOS 1.4 ESTIMACIÓN PUNTUAL
1.5
236 237
1.4.1
Estimación puntual para variable cuantitativa
237
1.4.2
Estimación puntual para variable cualitativa
238
TAMAÑO DE LA MUESTRA PARA ESTIMAR MEDIAS Y PROPORCIONES.
238
1.5.1 Determinación estadística del tamaño de la muestra
240
1.5.1.1
Poblaciones infinitas
240
1.5.1.1.1
Proporción conocida
240
1.5.1.1.2 Estadística
Proporción desconocida
240 9
1.5.1.2
Poblaciones finitas 242
UNIDAD 2. INTERVALOS DE CONFIANZA 2.1 INTRODUCCIÓN
244
2.1.1 Intervalos de confianza para el promedio poblacional
244
2.1.1.1 Parámetros y/o estadísticos para utilizar las fórmulas de intervalos de confianza 2.1.2 Intervalo de confianzas para la proporción poblacional p
245 253
2.1.2.1 Parámetros para utilizar las fórmulas de intervalos de confianza 253
UNIDAD 3. PRUEBA DE HIPÓTESIS 3.1
INTRODUCCIÓN
257
3.2 DEFINICIÓN DE PRUEBA DE HIPÓTESIS
257
3.3 PASOS PARA LA PRUEBA DE HIPÓTESIS PARA EL PROMEDIO
Y LA PROPORCIÓN P.
258
4.
ESTUDIO DE CASO
272
5.
ACTIVIDADES DE RECONOCIMIENTO
276
6.
RESPUESTA A PREGUNTAS FRECUENTES
277
7.
ACTIVIDADES DE PROFUNDIZACIÓN
281
ANEXOS TABLAS DE PROBABILIDAD ACUMULADA Anexo A
Tabla acumulada de la distribución binomial
297
Anexo B
Tabla acumulada de la distribución Poisson
302
Anexo C
Tabla acumulada de la distribución normal
305
Estadística
10
Anexo D
Tabla de la distribución t-student
307
GLOSARIO
308
BIBLIOGRAFÍA
317
Estadística
11
Estadística
12
PRESENTACIÓN Apreciado estudiante, bienvenido a la Asignatura Estadística Descriptiva e Inferencial. Este módulo ha sido escrito teniendo presente al estudiante que ingresa en la metodología a distancia, la cual se constituye en uno de los nuevos retos y alternativas para la formación de profesionales capaces de intervenir problemáticas sociales contemporáneas, desde la aplicación de la ciencia y la tecnología con criterios éticos y de calidad. La educación a distancia responde a la necesidad de ofrecer un proceso de formación que supere obstáculos representados en grandes distancias geográficas y escasez de tiempo de personas deseosas de tener las oportunidades de desarrollo humano que brinda la educación superior. Dicha metodología exige a cada estudiante un esfuerzo investigativo, creativo e innovador soportado por la voluntad del compromiso que demanda nuestra sociedad. Por esto, para el alcance de los objetivos en este proceso formativo, más que construir un texto, se ha tratado de presentar un instrumento de comunicación académica y dinámica entre la institución y el estudiante, en el que se diferencian dos partes fundamentales: la guía de estudio y trabajo, y el módulo de aprendizaje.
Estadística
13
La guía considera las orientaciones sobre el desarrollo del curso en cuanto define los elementos necesarios para la interlocución entre estudiantes y docente, describiendo en la metodología las actividades a realizar para cada encuentro,
bibliografía
complementaria,
proceso
de
evaluación
y
compromisos adquiridos por el estudiante. El módulo desarrolla el contenido conceptual básico que permite al estudiante la comprensión de los problemas potenciales en el campo administrativo. Seguros de que en dicho material se encuentran los referentes necesarios para el desarrollo de un proceso académico con calidad, le deseamos éxitos en este nuevo ciclo de su formación profesional.
Estadística
14
1. FICHA TÉCNICA
CURSO
ESTADÍSTICA DESCRIPTIVA
AUTORES
GABRIEL JAIME POSADA HERNÁNDEZ MARÍA VICTORIA BUITRAGO CARDONA
INSTITUCIÓN
FUNDACIÓN UNIVERSITARIA LUIS AMIGÓ
UNIDAD ACADÉMICA
FACULTAD DE CIENCIAS ADMINISTRATIVAS, ECONÓMICAS Y CONTABLES
PROGRAMAS
ADMINISTRACIÓN DE EMPRESAS CONTADURÍA PÚBLICA NEGOCIOS INTERNACIONALES
PALABRAS CLAVE
ESTADÍSTICA, CONTEO, DATOS, MUESTRA, POBLACIÓN, PROBABILIDAD
ÁREA DE CONOCIMIENTO
BÁSICA
CRÉDITOS
3 (TRES)
CIUDAD
MEDELLÍN
FECHA
JULIO DE 2007
ACTUALIZACIÓN ADICIÓN DE TEMAS APROBADA POR
2. INTENCIONALIDADES FORMATIVAS
Estadística
15
El mundo global y nuestra sociedad exigen al profesional moderno el desarrollo de competencias y habilidades que permitan la solución oportuna y adecuada a los diferentes problemas que se presentan en las organizaciones. La Fundación Universitaria Luis Amigó, consciente de ello, ha generado constantemente espacios que propician la formación integral de sus estudiantes, partiendo del reconocimiento del “ser humano” como persona y, sobre él, la técnica y el saber específico que exige la academia. Por tal razón, el egresado de la Fundación Universitaria Luis Amigó es un profesional íntegro, ético y comprometido con la sociedad en la búsqueda de alternativas viables para el mejoramiento funcional de las organizaciones y la calidad de vida de sus integrantes.
3. OBJETIVOS
Estadística
16
3.1. OBJETIVOS ESENCIALES Manejar adecuadamente los conceptos relacionados con estadística. Aplicar los conceptos y procedimientos matemáticos para describir el comportamiento de una variable en un conjunto de datos. Analizar los métodos numéricos de un conjunto de datos. Generar modelos de regresión lineal simple, y realizar análisis pertinentes para la toma de decisiones. Aplicar el concepto de teoría de probabilidad para tomar decisiones bajo incertidumbre. Manejar las distribuciones discretas y continuas de probabilidad para resolver
problemas
reales,
teniendo
en
cuenta
los
parámetros
poblacionales y el tipo de situación a resolver. Realizar inferencias partiendo de parámetros muestrales, por medio de los intervalos de confianza y prueba de hipótesis.
3.2. OBJETIVOS COMPLEMENTARIOS Diferenciar conceptualmente la población y la muestra. Reconocer los tipos de variables y escalas de medición aplicados a un conjunto de datos. Estadística
17
Calcular e interpretar las medidas de tendencia central, variabilidad y localización de un conjunto de datos. Calcular los parámetros de la ecuación de regresión lineal simple. Calificar el modelo de regresión lineal simple por medio de los coeficientes de correlación y determinación. Reconocer un espacio muestral y su técnica de conteo acorde al problema. Reconocer las diferentes reglas de probabilidad y su aplicabilidad. Aplicar y calcular por fórmula o tabla de probabilidad, las distribuciones binomial, Poisson, hipergeométrica y normal. Reconocer la información que se tiene para poder sacar una muestra aleatoria, con un alto grado de confiabilidad Diferenciar una variable aleatoria discreta y una variable aleatoria continua. Diferenciar un parámetro poblacional y un parámetro muestral. Aplicar de acuerdo con los estadísticos, un parámetro muestral por medio del intervalo de confianza o prueba de hipótesis a un nivel de confiabilidad.
Estadística
18
4. II
UNIDADES TEMÁTICAS ESTADÍSTICA DESCRIPTIVA
UNIDAD 1. INTRODUCCIÓN Y OBTENCIÓN DE DATOS ESTADÍSTICOS UNIDAD 2. ORDENACIÓN DE DATOS ESTADÍSTICOS UNIDAD 3. MÉTODOS NUMÉRICOS UNIDAD 4. REGRESIÓN LINEAL Y CORRELACIÓN
III
TEORÍA DE PROBABILIDADES
UNIDAD 1
DEFINICIONES
UNIDAD 2
TÉCNICAS DE CONTEO
UNIDAD 3
SUCESOS PROBABILÍSTICOS Y REGLAS DE PROBABILIDAD
UNIDAD 4
VARIABLES ALEATORIAS Y DISTRIBUCIONES DE PROBABILIDAD
IV
ESTADÍSTICA INFERENCIAL
UNIDAD 1
ESTIMACIÓN
UNIDAD 2
INTERVALOS DE CONFIANZA
UNIDAD 3
PRUEBA DE HIPÓTESIS
Estadística
19
5.
METODOLOGÍA GENERAL
El curso Estadística, bajo la modalidad a distancia, es realizado por medio de encuentros presenciales, utilizando como mediaciones la plataforma Dicom y el módulo. En los encuentros presenciales se compartirán los temas propuestos, se realizarán ejemplos aplicados a la administración y se asignarán actividades para las siguientes asesorías. Al iniciar el curso, cada estudiante selecciona una organización (puede ser pública, privada o del sector de la economía solidaria) o un grupo poblacional de interés (estudiantes, familias, habitantes de un barrio, etc.). Seleccionará una muestra de elementos (de un tamaño acordado) y generará una base de datos que contemple las variables cualitativas, cuantitativas discretas y cuantitativas continuas. En los elementos de la muestra seleccionada, se aplicarán paulatinamente los conceptos vistos en el desarrollo del curso.
En cada encuentro
presencial se compartirán los avances sobre la secuencia del análisis estadístico de los elementos de la organización. A través de la plataforma virtual Dicom, cada estudiante compartirá sus inquietudes y apreciaciones en el portafolio personal de desempeño. Estas inquietudes serán resueltas por este medio o socializadas en la siguiente asesoría.
Estadística
20
6. EVALUACIÓN INTEGRAL La evaluación del curso Estadística se realizará de forma cualitativa, por medio del portafolio personal de desempeño (acorde con el artículo 80 del Reglamento Estudiantil). Se establecerá un proceso dinámico y continuo que contenga seguimiento, trabajo aplicado y evaluación final. El seguimiento se realizará a través de evaluaciones cortas sobre temáticas ya compartidas, designando un espacio para hacerlas, previo acuerdo con los estudiantes. El trabajo de aplicación a la organización o población de interés tendrá un seguimiento durante todo el curso, el cual será tenido en cuenta para la evaluación final del mismo; además de la presentación, análisis de variables y conclusiones. Al finalizar el curso, se realizará la evaluación final o Prueba Acumulativa de Conocimiento Integral (PACI), la cual pretende evaluar, de forma global, todos los temas tratados en el curso.
Estadística
21
Estadística
22
INTRODUCCIÓN La estadística o los métodos estadísticos, como se denomina a veces, está jugando un papel de gran importancia en casi todas las facetas del comportamiento humano. Ocupada inicialmente en asuntos del Estado, y de ahí su nombre, la influencia de la Estadística se ha extendido ahora a la administración, la economía, los negocios, la comunicación, la agricultura, la medicina, la física, las ciencias políticas, la psicología, la sociología y muchos otros campos de la ciencia y la ingeniería. El propósito de este módulo es presentar desde el manejo de la información, su representación tabular y medidas, hasta el manejo de las probabilidades, y llegar a conclusiones poblacionales por medio de la inferencia estadística en la cual son de gran utilidad, para la manipulación de la información, respuestas bajo incertidumbre y respuestas poblacionales. Se ha diseñado para ser usado como complemento del proceso formativo, acompañado de la plataforma Dicom y los encuentros presenciales.
Además, puede ser
considerado como texto de consulta para aquellas personas que estén interesadas en aplicar la Estadística en el análisis de problemas investigativos. Los temas han sido compilados de diferentes autores: Anderson, Sweeney y Williams; Berenson, Levine y Krehbiel; Walpole y Myers; Spiegel, entre otros. Cada unidad comienza con enunciados claros de las definiciones pertinentes y ejemplos aplicados a la vida real. La única base matemática requerida Estadística
23
para la comprensión de los temas es la aritmética. En la primera unidad se presenta la conceptualización de la estadística y la forma como se obtiene una base de datos. La segunda unidad se refiere a la ordenación de datos estadísticos, según el tipo de variable en la cual se ubican, para luego representar en la tercera unidad las medidas de tendencia central, de dispersión y de localización del conjunto de datos.
La cuarta unidad
establece la relación entre variables por medio de la regresión lineal y la correlación. La quinta unidad se refiere a un espacio muestral, las técnicas de conteo y las reglas de probabilidad.
La sexta unidad se refiere a la
diferencia entre variables aleatorias discretas y continuas y sus distribuciones de probabilidad. La séptima unidad se refiere a resultados poblacionales, por medio de los intervalos de confianza y prueba de hipótesis, basándose en resultados muestrales. Al final, se presenta un estudio de caso, el cual pretende mayor cercanía de la Estadística a la administración; además de algunas preguntas frecuentes, con su respectiva respuesta, que se presentan al estudiar la Estadística.
Estadística
24
JUSTIFICACIÓN El desarrollo científico del siglo XXI exige una formación profesional íntegra, que reúna conocimientos, experiencia y expectativas, que permita la utilización adecuada de los recursos y herramientas del mundo actual. En la actualidad, las áreas administrativas, contables y económicas requieren de un profesional con conocimientos básicos de cálculo, de tal forma que lo lleven a incursionar en el campo investigativo y en la toma de decisiones, para generar nuevos conocimientos a partir de la integración de los conceptos propios y de las diferentes áreas de estudio, que lo hagan más competente en los retos del mundo moderno.
Estadística
25
Estadística
26
1. INTRODUCCIÓN Y OBTENCIÓN DE DATOS ESTADÍSTICOS 1.1. ESTADÍSTICA 1.1.1. Historia Los comienzos de la estadística pueden ser hallados en el antiguo Egipto, cuyos faraones lograron recopilar, hacia el año 3050 antes de Cristo, prolijos datos relativos a la población y la riqueza del país. De acuerdo con el historiador griego Heródoto, dicho registro de riqueza y población se hizo con el objetivo de preparar la construcción de las pirámides. En el mismo Egipto, Ramsés II hizo un censo de las tierras con el objeto de verificar un nuevo reparto. En el antiguo Israel, la Biblia da referencias, en el libro de los Números, de los datos estadísticos obtenidos en dos recuentos de la población hebrea. El rey David, por otra parte, ordenó a Joab, general del ejército, hacer un censo de Israel con la finalidad de conocer el número de la población. También los chinos efectuaron censos hace más de cuarenta siglos. Los griegos efectuaron censos periódicamente con fines tributarios, sociales (división de tierras) y militares (cálculo de recursos y hombres disponibles). La investigación histórica revela que se realizaron 69 censos para calcular los impuestos, determinar los derechos de voto y ponderar la potencia guerrera. Pero fueron los romanos, maestros de la organización política, quienes mejor supieron emplear los recursos de la estadística. Cada cinco años realizaban un censo de la población, y sus funcionarios públicos tenían la obligación de Estadística 27
anotar nacimientos, defunciones y matrimonios, sin olvidar los recuentos periódicos del ganado y de las riquezas contenidas en las tierras conquistadas. Para el nacimiento de Cristo, sucedía uno de estos empadronamientos de la población bajo la autoridad del imperio. Durante los mil años siguientes a la caída del imperio romano se realizaron muy pocas operaciones estadísticas, con la notable excepción de las relaciones de tierras pertenecientes a la Iglesia, compiladas por Pipino el Breve en el 758, y por Carlomagno en el 762 DC. Durante el siglo IX se realizaron en Francia algunos censos parciales de siervos. En Inglaterra, Guillermo el Conquistador recopiló el Domesday Book o Libro del gran catastro para el año 1086, un documento de la propiedad, extensión y valor de las tierras de Inglaterra. Esa obra fue el primer compendio estadístico de Inglaterra. Durante los siglos XV, XVI, y XVII, hombres como Leonardo de Vinci, Nicolás Copérnico, Galileo, Neper, William Harvey, Sir Francis Bacon y René Descartes, hicieron grandes operaciones al método científico, de tal forma que cuando se crearon los Estados nacionales y surgió como fuerza el comercio internacional existía ya un método capaz de aplicarse a los datos económicos. Para el año 1532 empezaron a registrarse en Inglaterra las defunciones debido al temor que Enrique VII tenía por la peste. Más o menos por la misma época, en Francia la ley exigió a los clérigos registrar los bautismos, fallecimientos y matrimonios. Durante un brote de peste que apareció a fines de la década de 1500, el gobierno inglés comenzó a publicar estadísticas semanales de los decesos. Esa costumbre continuó muchos años, y en 1632 estos Bills of Mortality (Cuentas de mortalidad) contenían los nacimientos y fallecimientos por sexo. Estadística
28
En 1662, el capitán John Graunt usó documentos que abarcaban treinta años y efectuó predicciones sobre el número de personas que morirían de varias enfermedades y sobre las proporciones de nacimientos de varones y mujeres que cabría esperar. El trabajo de Graunt, condensado en su obra Natural and political observations... Made upon the bills of mortality (Observaciones políticas y naturales... hechas a partir de las cuentas de mortalidad), fue un esfuerzo innovador en el análisis estadístico. Por el año 1540, el alemán Sebastián Muster realizó una compilación estadística de los recursos nacionales, comprensiva de datos sobre organización política, instrucciones sociales, comercio y poderío militar. Durante el siglo XVII aportó indicaciones más concretas de métodos de observación y análisis cuantitativo y amplió los campos de la inferencia y la teoría estadística. Los eruditos del siglo XVII demostraron especial interés por la estadística demográfica como resultado de la especulación sobre si la población aumentaba, decrecía o permanecía estática. En los tiempos modernos, tales métodos fueron resucitados por algunos reyes que necesitaban conocer las riquezas monetarias y el potencial humano de sus respectivos países. El primer empleo de los datos estadísticos para fines ajenos a la política tuvo lugar en 1691 y estuvo a cargo de Gaspar Neumann, un profesor alemán que vivía en Breslau. Este investigador se propuso destruir la antigua creencia popular de que en los años terminados en siete moría más gente que en los restantes, y para lograrlo hurgó pacientemente en los archivos parroquiales de la ciudad. Después de revisar miles de partidas de defunción pudo demostrar que en tales años no fallecían más personas que en los demás. Los procedimientos 29
Estadística
de Neumann fueron conocidos por el astrónomo inglés Halley, descubridor del cometa que lleva su nombre, quien los aplicó al estudio de la vida humana. Sus cálculos sirvieron de base para las tablas de mortalidad que hoy utilizan todas las compañías de seguros. Durante el siglo XVII y principios del XVIII, matemáticos como Bernoulli, Francis
Maseres,
Lagrange
y
Laplace
desarrollaron
la
teoría
de
probabilidades. No obstante, durante cierto tiempo, la teoría de las probabilidades limitó su aplicación a los juegos de azar y hasta el siglo XVIII no comenzó a aplicarse a los grandes problemas científicos. Godofredo Achenwall, profesor de la Universidad de Gotinga, acuñó en 1760 la palabra estadística, que extrajo del término italiano statista (estadista). Creía, y con sobrada razón, que los datos de la nueva ciencia serían el aliado más eficaz del gobernante consciente. La raíz remota de la palabra se halla, por otra parte, en el término latino status, que significa estado o situación. Esta etimología aumenta el valor intrínseco de la palabra, por cuanto la estadística revela el sentido cuantitativo de las más variadas situaciones. Jacques Quételect es quien aplica las estadísticas a las ciencias sociales. Este interpretó la teoría de la probabilidad para su uso en las ciencias sociales y resolver la aplicación del principio de promedios y de la variabilidad a los fenómenos sociales. Quételect fue el primero en realizar la aplicación práctica de todo el método estadístico, entonces conocido, a las diversas ramas de la ciencia. Entre tanto, en el período del 1800 al 1820 se desarrollaron dos conceptos matemáticos fundamentales para la teoría estadística: la teoría de los errores de observación, aportada por Laplace y Gauss; y la teoría de los mínimos cuadrados desarrollada por Laplace, Gauss y Legendre. Estadística
30
A finales del siglo XIX, Sir Francis Gaston ideó el método conocido por Correlación, que tenía por objeto medir la influencia relativa de los factores sobre las variables. De aquí partió el desarrollo del coeficiente de correlación creado por Karl Pearson y otros cultivadores de la ciencia biométrica como J. Pease Norton, R. H. Hooker y G. Udny Yule, que efectuaron amplios estudios sobre la medida de las relaciones. Los progresos más recientes en el campo de la Estadística se refieren al ulterior desarrollo del cálculo de probabilidades; particularmente en la rama denominada indeterminismo o relatividad, se ha demostrado que el determinismo fue reconocido en la Física como resultado de las investigaciones atómicas y que este principio se juzga aplicable tanto a las ciencias sociales como a las físicas. 1.1.2. Definición La Estadística es la ciencia cuyo objetivo es reunir una información cuantitativa concerniente a individuos, grupos, series de hechos, etc., y deducir de ello, gracias al análisis de estos datos, significados precisos o previsiones para el futuro. La estadística, en general, es la ciencia que trata de la recopilación, organización presentación, análisis e interpretación de datos numéricos con el fin de realizar una toma de decisión más efectiva. Los estudiantes confunden comúnmente los demás términos asociados con las estadísticas, una confusión que es conveniente aclarar debido a que esta palabra tiene tres significados: la palabra estadística, en primer término, se usa para referirse a la información estadística; también se utiliza para Estadística
31
referirse al conjunto de técnicas y métodos que se utilizan para analizar la información estadística; y el término estadístico, en singular y en masculino, se refiere a una medida derivada de una muestra. 1.1.3. División La Estadística, para su mejor estudio, se ha dividido en dos grandes ramas: la Estadística Descriptiva y la Inferencial. Estadística Descriptiva: consiste sobre todo en la presentación de datos en forma de tablas y gráficas. Esta comprende cualquier actividad relacionada con los datos y está diseñada para resumir o describir los mismos sin factores pertinentes adicionales, esto es, sin intentar inferir nada que vaya más allá de los datos como tales. Estadística Inferencial: se deriva de muestras, de observaciones hechas sólo acerca de una parte de un conjunto numeroso de elementos y esto implica que su análisis requiere de generalizaciones que van más allá de los datos. Como consecuencia, la característica más importante del reciente crecimiento de la estadística ha sido un cambio en el énfasis de los métodos, los cuales son utilizados para hacer generalizaciones. La Estadística Inferencial investiga o analiza una población partiendo de una muestra tomada.
1.2. CONCEPTOS GENERALES 1.2.1. Unidad de investigación
Estadística
32
La unidad de investigación es el elemento a quien va dirigida la investigación, el cual puede ser una persona, una familia, una vivienda, un estudiante, una universidad, un empleado, una organización, etc.
La unidad debe ser
adecuada al tipo de investigación y debe poseer características claras y entendibles que permitan mediciones y comparaciones. 1.2.2. Población Se entiende por población o universo un conjunto grande de elementos o unidades de investigación, de los cuales se estudia una o varias características comunes. Por ejemplo, los estudiantes de una universidad, las universidades de una ciudad, los artículos producidos en una fábrica, las empresas de un país, los lanzamientos de una moneda, etc. Según el tamaño, la población puede clasificarse en finita e infinita. Se considera una población finita cuando tiene un número determinado de elementos, es decir, se conoce el tamaño de la población. Por ejemplo, los habitantes de un país, los estudiantes de una universidad, los empleados de una empresa, los asociados a una cooperativa, etc.,
mientras que la
población infinita tiene un número indeterminado de elementos, por ejemplo, los cuerpos que caen, los lanzamientos de un dado, etc. Esta clasificación sólo existe en la teoría, porque en la práctica existen poblaciones con un número enormemente grande de elementos, las cuales son clasificadas como poblaciones infinitas. Cuando la población está compuesta por un número relativamente alto de elementos, por razones de costo, tiempo y recursos técnicos que acarrearía 33
Estadística
la observación exhaustiva de cada uno de los elementos de la población, es necesario recurrir a la selección de una muestra representativa de la población. 1.2.3. Muestra La muestra es un conjunto de unidades pertenecientes a la población, seleccionadas adecuadamente; es decir, es una parte de la población o universo.
Por ejemplo, de los 150 empleados de una empresa que
constituyen el universo o población en estudio, al azar se pueden seleccionar 30 empleados, que constituyen la muestra. Al emplear una muestra se busca lograr que al observar una porción reducida de unidades, se puedan sacar conclusiones semejantes a las que se obtendrían si se estudiara el total de la población o universo. Lo ideal es que el número de elementos o unidades de observación que constituyen la muestra sea igual al de la población, para evitar los errores al utilizar muestras no representativas.
Sin embargo, por la limitación de
recursos, es preciso acudir al muestreo y asumir los posibles errores que puedan generarse.
Cuando el tamaño de la muestra es igual al de la
población, el trabajo realizado se denomina censo. 1.2.4. Parámetros y estadígrafos Los
parámetros
son
medidas
que
describen
numéricamente
una
característica de la población, tales como: la media aritmética, la varianza, el coeficiente de variación, etc.
Una población puede tener varias
características y, por lo tanto, varios parámetros. Estadística
34
Los estadígrafos o estadísticas son medidas que describen numéricamente una característica de la muestra; así como los parámetros lo hacen en una población, igual los estadígrafos lo hacen para la muestra, tales como: la media aritmética, la varianza, el coeficiente de variación, etc. 1.2.5. Variables Una variable es cualquier característica o propiedad de una población o de una muestra, susceptible de asumir distintos valores o modalidades. Por ejemplo: la altura de cada uno de los estudiantes de un curso puede tomar distintos valores: ésta puede ser 1.65 m o 1.72 m, o cualquier otro valor, así la altura es una variable. Esto no significa que la altura de un estudiante puede variar, sino que la altura puede variar de un estudiante a otro. El color también es una variable. Si se toma, por ejemplo, el color de las camisetas de los estudiantes, esta cualidad puede variar de una camiseta a otra, ya que puede haber camisetas blancas, negras, rojas, azules, etc. Estos colores son, en este caso, los distintos atributos o modalidades que puede asumir la variable en mención. Las características de los objetos pueden ser o no ser susceptibles de medida; en el primer caso (la altura de los estudiantes) se tiene una característica cuantitativa, y en el segundo (el color de la camiseta) una característica cualitativa.
Por esta razón, las variables se clasifican en
cualitativas y cuantitativas.
Estadística
35
Variables cualitativas Las variables cualitativas son las que no permiten construir una serie numérica definida; los atributos o características que toman son distintas modalidades observadas cualitativamente.
Son variables cualitativas el
color, la profesión, el estado civil, etc. Para designar variables cualitativas, generalmente se utilizan las primeras letras del alfabeto en mayúsculas (A, B, C,...) y para designar el atributo se toman las letras minúsculas acompañadas por subíndices. Por ejemplo, la variable profesión en una empresa puede ser representada por la letra A y sus posibles características: administrador, economista, contador, ingeniero, por a1, a2 , a3 ,a4, respectivamente, en este caso, a1 = administrador a2 = economista a3 = contador a4 = ingeniero Variables cuantitativas Las variables cuantitativas son aquellas que permiten una escala numérica de medición, toman distintos valores observados cuantitativamente mediante una medida y una escala de medidas. Son variables cuantitativas la altura, el peso, el número de hijos de una familia, el salario, el número de artículos producidos en una semana. Para designar las variables cuantitativas se utilizan las últimas letras del alfabeto en mayúsculas (... X, Y, Z). Por ejemplo, la variable altura de cinco 36
Estadística
estudiantes se representa por X y las alturas 1.65 m, 1.67 m, 1.68 m, 1.70 m y 1.72 m, se representan por x1, x2 , x3 , x4 y x5 , respectivamente. En este caso, x1 = 1.65 m x2 = 1.67 m x3 = 1.68 m x4 = 1.70 m x5 = 1.72 m Las variables cuantitativas pueden clasificarse en cuantitativas continuas y cuantitativas discretas. Una variable es cuantitativa continua si entre dos valores consecutivos puede tomar infinito número de valores; es decir, entre uno y otro valor de la variable existen infinitas posibilidades intermedias; son variables continuas el peso, la temperatura, el tiempo, el salario, etc. Por ejemplo, el peso es una variable cuantitativa continua porque entre los valores de 65 Kg y 66 Kg existen infinitos valores, éstos pueden ser 65.9 Kg, 65.99 Kg, 65.999 Kg, etc. Una variable es cuantitativa discreta si entre dos valores consecutivos no puede asumir otro valor; en este caso la variable no toma valores decimales. Por ejemplo, el número de empleados de una empresa, el número de artículos producidos, el número de empresas de la competencia, etc. En estos casos se habla de un cierto valor como 10, 11, 12 o cualquier otro número entero, porque es absurdo decir, por ejemplo, que una empresa tiene 11.8 empleados. Estadística
37
1.2.6. Escalas de medición Una escala es un sistema para asignar valores numéricos a ciertas características o rasgos mensurables. Existen varios métodos para ordenar datos; en la mayoría de los casos, las técnicas de medición se pueden reducir a cuatro tipos de escalas: nominal, ordinal, de intervalos y de razón. Escala nominal La escala nominal se aplica a la variable cualitativa, la cual presenta diferentes categorías o modalidades, cada una de las cuales recibe un nombre; de ahí la denominación de esta escala. A las variables con tales características también se les denomina atributos. Las categorías pueden estar preconstruidas y ser de aceptación general, o puede definirlas el investigador de acuerdo con sus intereses, pero en cualquier caso deben ser exhaustivas y mutuamente excluyentes, esto es, que exista una y sólo una categoría para cada uno de los elementos de la población. Ejemplos: Color = {blanco, rojo, azul, verde, violeta, otro} Tipo de artículo = {normal, imperfecto} Cargo = {gerente, coordinador, auxiliar} Las únicas estadísticas básicas que se pueden obtener a partir de estas variables son la frecuencia y la moda y, por tanto, los métodos estadísticos disponibles son aquellos que se basan en las mismas. En el caso de una sola variable, se pueden obtener tablas de frecuencias y diagramas de 38
Estadística
barras o de sectores; si se tienen dos variables se puede realizar un análisis de correspondencia o construir tablas de contingencia. Escala ordinal Cada uno de los niveles de esta escala tiene un rango, lo que permite establecer comparaciones de orden entre los mismos (mayor que, menor que). No obstante, no es adecuado, en general, suponer que la distancia entre un nivel y sus niveles adyacentes superior e inferior es la misma. Ejemplos: Estado sanitario = {sano, ligeramente afectado, enfermo, muy enfermo, muerto} Estrato socioeconómico = {1, 2, 3, 4, 5, 6} Producción = {alta, media, baja} Las variables medidas en esta escala contienen más información que aquellas medidas en escala nominal; por tanto, se podrían aplicar los mismos métodos
y
análisis,
prescindiendo
de
la
información
de
orden.
Adicionalmente, se pueden calcular la mediana y la desviación media. Aunque es posible reemplazar cada una de los niveles por un número (etiqueta), éste no aporta información adicional y las relaciones que se pueden establecer siguen siendo las mismas.
Así, se podría hacer
corresponder los números del 1 al 5 con cada uno de los niveles de estado fitosanitario, pero lo único que se podría decir en cuanto a la sanidad es que 1 > 2 > 3 > 4 > 5. Estadística
En general, será inadecuada la utilización de estos 39
números para efectuar operaciones o deducciones matemáticas de otro tipo, como la obtención del estado fitosanitario promedio, por ejemplo. Escala de intervalo Es una escala que contiene más información que las anteriores, pues además de que existe un orden entre los diferentes niveles, la distancia entre cualquier par de niveles adyacentes es la misma, lo que implica el uso de una distancia unitaria de referencia. Esta característica permite establecer relaciones entre cualquier par de intervalos en la escala; así, es posible afirmar que la distancia que hay entre 5 y 6 es la misma que hay entre 10 y 11. Esta escala hace uso de un punto cero que se asigna arbitrariamente en cada sistema y que no implica ausencia de la característica medida. Este hecho hace imposible establecer comparaciones de razón. Así, para una característica medida en esta escala, sería incorrecto afirmar que 5 es la mitad de 10. Un ejemplo típico es la escala en que se mide la temperatura; para su medición se pueden utilizar diferentes sistemas: el Celsius, el Fahrenheit1 u otro.
Dentro de cualquiera de estos sistemas es posible afirmar que la
distancia entre dos divisiones cualesquiera es la misma, sin importar el lugar de la escala.
No obstante, en la siguiente tabla se observa cómo una
relación entre dos temperaturas cambia dependiendo del sistema, la cual explica por qué no puede afirmarse que 5 sea la mitad de 10. Celsius 1
Fahrenheit
(temperatura) ºF = (9/5) * (temperatura) ºC + 32
Estadística
40
5 ºC 10 ºC
41 ºF 50 ºF
Nótese que cualquier escala ordinal que se construya cuidando que la distancia entre niveles sea la misma constituirá, en realidad, una escala de intervalos. Cuando las variables están medidas en esta escala, se pueden calcular todos los estadísticos, y es posible usar cualesquiera de los métodos estadísticos clásicos, siempre que se cumplan los supuestos específicos de los mismos. Escala de razones Es la escala de medición que tiene más información. Posee un punto cero verdadero que indica ausencia de la característica, lo que permite realizar comparaciones no sólo de intervalo, sino también de razones, sin importar el sistema utilizado. Así, por ejemplo, un objeto que mida 5,08 cm tendrá el doble de longitud con relación a un objeto que mida 2,54 cm, cualquiera que sea el sistema en que se registre la longitud, tal como se muestra en la siguiente tabla2. Centímetros
Pulgadas
2,54 5,08
1 2
Como ejemplo de variables medidas en escala de razones, están los conteos de cualquier característica, pesos y longitudes, ente otras. 2
1 pulgada = 2,54 centímetros
Estadística
41
Cuando se tiene una variable medida en escala de razones, se pueden calcular todos los estadísticos y es posible utilizar cualesquiera de los métodos estadísticos clásicos, siempre que se cumplan los supuestos específicos de los mismos. Las escalas de medición que contienen poca información se denominan débiles, y los métodos estadísticos que se pueden aplicar sobre las mismas son, por lo general, más restringidos. Las escalas de medición con mayor información se denominan escalas fuertes y pueden analizarse mediante los métodos
diseñados
específicamente
para
su
análisis
o
mediante
cualesquiera de los métodos diseñados para trabajar sobre variables medidas en una escala más débil, simplemente prescindiendo de la información adicional.
Una clasificación más amplia llama variables cualitativas a aquellas medidas en escala nominal, y cuantitativas a las medidas en escala de razones o de intervalo. Las variables medidas en escala ordinal forman un puente entre ambas.
1.3. MUESTREO Los métodos estadísticos proponen diferentes tipos de muestreo, aunque en general pueden dividirse en dos grandes grupos: métodos de muestreo probabilísticos y métodos de muestreo no probabilísticos. 1.3.1. Métodos de muestreo probabilísticos
Estadística
42
Los métodos de muestreo probabilístico son aquellos que se basan en el principio de equiprobabilidad. Es decir, aquellos en los que todos los individuos tienen la misma probabilidad de ser elegidos para formar parte de una muestra y, consiguientemente, todas las posibles muestras de tamaño n tienen la misma probabilidad de ser elegidas. Sólo estos métodos de muestreo probabilístico aseguran la representatividad de la muestra extraída y son, por tanto, los más recomendables. Dentro de los métodos de muestreo probabilístico se encuentran los siguientes tipos: Muestreo aleatorio simple El procedimiento empleado es el siguiente: 1) se asigna un número a cada individuo de la población, y 2) a través de algún medio mecánico (bolas dentro de una bolsa, tablas de números aleatorios, números aleatorios generados con una calculadora u ordenador, etc.) se eligen tantos sujetos como sea necesario para completar el tamaño de muestra requerido. Este procedimiento, atractivo por su simpleza, tiene poca o nula utilidad práctica cuando la población que se está manejando es muy grande. Muestreo aleatorio sistemático Este procedimiento exige, como el anterior, numerar todos los elementos de la población, pero en lugar de extraer n números aleatorios sólo se extrae uno. Se parte de ese número aleatorio i, que es un número elegido al azar, y los elementos que integran la muestra son los que ocupan los lugares i, i+k, i+2k, i+3k,...,i+(n-1)k, es decir se toman los individuos de k en k, siendo k el resultado de dividir el tamaño de la población entre el tamaño de la muestra: Estadística
43
k=N/n. El número i que se emplea como punto de partida será un número al azar entre 1 y k. El riesgo se este tipo de muestreo está en los casos en que se dan periodicidades en la población ya que al elegir a los miembros de la muestra con una periodicidad constante (k) se puede introducir una homogeneidad que no se da en la población. Supóngase que se está seleccionando una muestra sobre listas de 10 individuos en los que los 5 primeros son varones y los 5 últimos mujeres; si se emplea un muestreo aleatorio sistemático con k=10 siempre serán seleccionados o sólo hombres o sólo mujeres; no podría haber una representación de los dos sexos. Muestreo aleatorio estratificado Trata de obviar las dificultades que presentan los anteriores, ya que simplifica los procesos y suele reducir el error muestral para un tamaño dado de la muestra. Consiste en considerar categorías típicas diferentes entre sí (estratos) que poseen gran homogeneidad respecto a alguna característica (se puede estratificar, por ejemplo, según la profesión, el municipio de residencia, el sexo, el estado civil, etc.). Lo que se pretende con este tipo de muestreo es asegurarse de que todos los estratos de interés estarán representados adecuadamente en la muestra. Cada estrato funciona independientemente, pudiendo aplicarse dentro de ellos el muestreo aleatorio simple o el estratificado para elegir los elementos concretos que formarán parte de la muestra. En ocasiones, las dificultades que plantea son demasiado grandes, pues exige un conocimiento detallado de la población (tamaño geográfico, sexos, edades...).
Estadística
44
La distribución de la muestra en función de los diferentes estratos se denomina afijación, y puede ser de diferentes tipos: Afijación simple: a cada estrato le corresponde igual número de elementos muestrales. Afijación proporcional: la distribución se hace de acuerdo con el peso (tamaño) de la población en cada estrato. Afijación óptima: se tiene en cuenta la previsible dispersión de los resultados, de modo que se consideran la proporción y la desviación típica. Tiene poca aplicación ya que no se suele conocer la desviación. Por ejemplo, se está interesado en estudiar el grado de aceptación que la implantación de la reforma educativa ha tenido entre los padres de un municipio. A tal efecto se seleccionó una muestra de 600 padres de familia. Se conoce por los datos del Ministerio de Educación que de los 10.000 niños escolarizados en la básica, 7.000 acuden a colegios públicos y 3.000 a colegios privados. Como el interés es que en la muestra estén representados todos los tipos de colegio, se realiza un muestreo estratificado empleando como variable de estratificación el tipo de colegio. Si se emplea una afijación simple serían 300 niños de cada tipo de centro, pero en este caso parece más razonable utilizar una afijación proporcional pues hay bastante diferencia en el tamaño de los estratos. Por consiguiente, se calcula la
proporción para cada uno de los estratos respecto de la
población, para poder reflejarlo en la muestra.
Estadística
45
Colegios
públicos:
7.000/10.000
=
0.70
Colegios
privados:
3.000/10.000
=
0.30
Para conocer el tamaño de cada estrato en la muestra se multiplica la proporción por el tamaño muestral. Colegios
públicos:
0.70x600
=
420
padres
de
familia
Colegios privados: 0.30x600 = 180 padres de familia Muestreo aleatorio por conglomerados Los métodos presentados hasta ahora están pensados para seleccionar directamente los elementos de la población, es decir, que las unidades muestrales son los elementos de la población. En el muestreo por conglomerados la unidad muestral es un grupo de elementos de la población que forman una unidad, a la que se denomina conglomerado. Las unidades hospitalarias, los departamentos universitarios, una caja de determinado producto, etc. son conglomerados naturales. En otras ocasiones, se pueden utilizar conglomerados no naturales como, por ejemplo, las urnas electorales. Cuando los conglomerados son áreas geográficas suele hablarse de "muestreo por áreas". El muestreo por conglomerados consiste en seleccionar aleatoriamente un cierto número de conglomerados (el necesario para alcanzar el tamaño muestral establecido) y en investigar después todos los elementos pertenecientes a los conglomerados elegidos. Por ejemplo, en una investigación se trata de conocer el grado de satisfacción laboral de los empleados de una cadena de almacenes; se toma 46
Estadística
una muestra de 700 empleados. Ante la dificultad de acceder individualmente a estos empleados, se decide hacer una muestra por conglomerados. Sabiendo que el número de empleados por almacén es aproximadamente de 35, los pasos a seguir serían: •
Recoger un listado de todos los almacenes.
•
Asignar un número a cada uno de ellos.
•
Elegir por muestreo aleatorio simple o sistemático los 20 almacenes (700/35 = 20) que proporcionarán los 700 empleados que se necesitan.
Finalmente, ante lo compleja que puede llegar a ser la situación real de muestreo es muy común emplear lo que se denomina muestreo polietápico. Este tipo de muestreo se caracteriza por operar en sucesivas etapas, empleando en cada una de ellas el método de muestreo probabilístico más adecuado. 1.3.2. Métodos de muestreo no probabilísticos A veces, para estudios exploratorios, el muestreo probabilístico resulta excesivamente costoso y se acude a métodos no probabilísticos, aun siendo conscientes de que no sirven para realizar generalizaciones, pues no se tiene certeza de que la muestra extraída sea representativa, ya que no todos los sujetos de la población tienen la misma probabilidad de ser elegidos. En general, se selecciona a los sujetos siguiendo determinados criterios procurando que la muestra sea representativa.
Estadística
47
Muestreo por cuotas También denominado en ocasiones "accidental". Se asienta generalmente sobre la base de un buen conocimiento de los estratos de la población y/o de los individuos más "representativos" o "adecuados" para los fines de la investigación. Mantiene, por tanto, semejanzas con el muestreo aleatorio estratificado, pero no tiene el carácter de aleatoriedad de aquél. En este tipo de muestreo se fijan unas "cuotas" que consisten en un número de individuos que reúnen determinadas condiciones, por ejemplo: 20 individuos de 25 a 40 años, de sexo femenino y residentes en una misma ciudad. Una vez determinada la cuota, se eligen los primeros que se encuentre que cumplan esas características. Este método se utiliza mucho en las encuestas de opinión. Por ejemplo, una universidad desea estudiar la incidencia de las drogas en la adolescencia. Lo que debería hacer sería: conocer por los informes del Estado cuáles son los centros educativos más afectados por el problema, fijar un número de sujetos a entrevistar, proporcional a cada uno de los estratos (cuotas) y, finalmente, dejar en manos de los responsables del trabajo de campo a qué sujetos concretos se deberá entrevistar. Muestreo opinático o intencional Este tipo de muestreo se caracteriza por un esfuerzo deliberado de obtener muestras "representativas" mediante la inclusión en la muestra de grupos supuestamente típicos. Es muy frecuente su utilización en sondeos preelectorales de zonas que en anteriores votaciones han marcado tendencias de voto. Estadística
48
Muestreo casual o incidental Se trata de un proceso en el que el investigador selecciona directa e intencionadamente los individuos de la población. El caso más frecuente de este procedimiento es el utilizar como muestra los individuos a los que se tiene fácil acceso (los profesores de universidad emplean con mucha frecuencia a sus propios alumnos). Un caso particular es el de los voluntarios. Bola de nieve Se localiza a algunos individuos, los cuales conducen a otros, y éstos a otros, y así hasta conseguir una muestra suficiente. Este tipo se emplea muy frecuentemente cuando se hacen estudios con poblaciones "marginales", delincuentes, sectas, determinados tipos de enfermos, egresados de una institución, etc. 1.3.3. Evaluación del valor de una encuesta Cotidianamente se oye o se lee sobre resultados de encuestas en los diferentes medios de comunicación.
Es evidente que los avances
tecnológicos en las comunicaciones han provocado la proliferación de investigaciones por medio de encuestas; sin embargo, no todas son aceptables, significativas o importantes. Para evitar encuestas carentes de objetividad o credibilidad, debe evaluarse con sentido crítico todo lo que se lee y escucha, además de examinarse el valor de la encuesta, evaluando los siguientes aspectos: Estadística
49
Propósito de la encuesta: por qué y para quién se realiza. Un resultado de opinión o una encuesta realizada para satisfacer la curiosidad pertenece a la esfera de la diversión. Su resultado es un fin en sí mismo, no un medio para lograr un fin.
Debe existir escepticismo ante tales
encuestas porque el resultado no tiene una aplicación posterior. Determinar si la encuesta está basada en una muestra probabilística o no probabilística:
el
único
medio
disponible
para
hacer
inferencias
estadísticas correctas a partir de una muestra es el uso de un muestreo probabilístico.
Las encuestas que emplean métodos de muestreo no
probabilístico
están
sujetas
a
errores
significativos,
quizá
no
intencionales, que pueden generar resultados sin sentido. 1.3.4. Errores en las encuestas Aun cuando en las encuestas se utilizan métodos de muestreo probabilístico, están sujetas a errores potenciales, los cuales se describen a continuación: Error de cobertura o sesgo en la selección La clave para una selección apropiada en la muestra es un marco de población adecuado o una lista actualizada de todos los elementos que participarán en el muestreo. El error de cobertura ocurre si se excluyen ciertos elementos de la lista de población, de manera que no tienen oportunidad de ser seleccionados en la muestra.
El error de cobertura
conduce a un sesgo de selección. Si el listado es inadecuado porque no se incluyeron
Estadística
algunos
elementos
de
la
población,
cualquier
muestra
50
probabilística aleatoria proporcionará una estimación de las características del marco, no de la población real. Error o sesgo de no respuesta No todas las personas están dispuestas a contestar una encuesta. El error de no respuesta surge del fracaso al recopilar datos de todos los sujetos de la muestra y el resultado es un sesgo de no respuesta. Como en general no se puede suponer que las personas que no responden son semejantes a aquellas que sí responden, es importante realizar un seguimiento a las no respuestas después de un periodo determinado. Deben hacerse varios intentos, ya sea por correo o por teléfono, para convencerlos de que diligencien la encuesta.
Con base en estos resultados, las estimaciones
obtenidas con las respuestas iniciales se combinan con las estimaciones obtenidas con el seguimiento, de manera que las inferencias hechas a partir de la encuesta sean válidas. Error de muestreo El error de muestreo se presenta cuando se encuesta una muestra y no la población, es decir, cuando no se aplica un censo. Aun cuando no se puede evitar este error, sí se puede controlar; una forma importante de controlarlo es seleccionar un método o un diseño adecuado de muestreo. El error de muestreo muestra la heterogeneidad o las “diferencias aleatorias” de una muestra a otra, según la probabilidad de que elementos específicos sean seleccionados en unas muestras determinadas. Error de medición Estadística
51
Se refiere a la falta de precisión en las respuestas registradas, debido a fallas en la redacción del enunciado de las preguntas, la influencia del entrevistador en la persona que responde, o por el esfuerzo que realiza la persona que responde. 1.3.5. Aspectos éticos del muestreo En la actualidad se existe una tendencia a la proliferación de investigaciones que se apoyan en encuestas; no todas son buenas, significativas o importantes, y no todas son éticas.
Debe intentarse distinguir entre un
diseño de encuesta deficiente y un diseño carente de ética. Las consideraciones éticas surgen con relación a cuatro tipos de errores potenciales que pueden ocurrir cuando se diseñan encuestas que utilizan muestras probabilísticas aleatorias: error de cobertura o sesgo de selección, error o sesgo de no respuesta, error de muestreo y error de medición. El error de cobertura o sesgo de selección se convierte en un problema ético, sólo si se excluyen a propósito grupos específicos de individuos del marco de población, para obtener resultados sesgados, que indican una posición más favorable para los intereses del investigador. De igual manera, el error o sesgo de no respuesta se convierte en un problema ético, sólo si es menos probable que grupos o individuos específicos respondan a una encuesta, y si el investigador la diseña a propósito con el fin de excluir grupos o elementos. El error de muestreo se convierte en un problema ético, sólo cuando los resultados se presentan, a propósito, sin referencia al tamaño de muestra o Estadística
52
al margen de error, de modo que el investigador puede promover un punto de vista que de otra manera sería insignificante. El error de medición se convierte en un problema ético en cualquiera de las siguientes situaciones: Un investigador puede elegir preguntas orientadas que guían las respuestas hacia una dirección específica. Un investigador, mediante actitudes y tono de voz, puede crear un efecto deliberado de halo o puede guiar las respuestas en cierta dirección. Alguien que responde, pero no está de acuerdo con la encuesta, puede proporcionar información falsa a propósito.
Estadística
53
2. ORDENACIÓN DE DATOS ESTADÍSTICOS Estadística
54
En los datos obtenidos en encuestas, experimentos o mediante cualquier instrumento de medida, por ser numerosos, se dificulta su interpretación, a menos que se ordenen y clasifiquen en forma conveniente. Por lo tanto, se deben agrupar los datos y presentarlos en forma de tablas.
2.1. TABULACIÓN DE DATOS La tabulación de datos consiste en tomar los distintos valores o atributos que toma la variable y colocarlos en columna, de acuerdo con algún criterio de ordenación, y al frente se coloca el número de veces que aparece el valor o atributo, o sea, la frecuencia. Para la tabulación de datos correspondientes a variables cualitativas se puede hacer de acuerdo con el orden cronológico, con el orden alfabético o en forma convencional. Por ejemplo, una Cooperativa de Trabajo Asociado Epsilon desea conocer el nivel de escolaridad de sus asociados y encuentra la siguiente información: 5 profesionales, 15 técnicos, 20 bachilleres y 10 con básica primaria. Ordenando los niveles de escolaridad en forma convencional se obtiene la tabla 1.
Estadística
55
Tabla 1. Nivel de escolaridad de los asociados de la Cooperativa de Trabajo Asociado Epsilon NIVEL DE ESCOLARIDAD TABULACIÓN
FRECUENCIA
Profesional Técnico Bachiller
ΙΙΙ Ι Ι ΙΙΙ Ι Ι ΙΙ Ι Ι Ι ΙΙΙ Ι Ι ΙΙΙ Ι Ι ΙΙ Ι Ι Ι ΙΙΙ Ι Ι
5 15 20
Básica primaria
ΙΙΙ Ι Ι ΙΙΙ Ι Ι ΙΙ Ι Ι Ι
10
Fuente: Datos hipotéticos
Para la clasificación de datos correspondientes a variables cuantitativas se utilizan escalas numéricas y se pueden colocar de forma creciente o decreciente. Por ejemplo, se seleccionan diez asociados de la Cooperativa de Trabajo Asociado Epsilon y se les consulta por el número de hijos que poseen en el momento, obteniendo los siguientes datos: 2, 3, 1, 1, 0, 2, 4, 3, 2, 2. Ordenando en forma creciente se obtiene la tabla 2. Tabla 2. Número de hijos de los asociados de la Cooperativa de Trabajo Asociado Epsilon NÚMERO DE HIJOS TABULACIÓN
0 1 2 3 4
Ι ΙΙ ΙΙ Ι Ι ΙΙ Ι
FRECUENCIA
1 2 4 2 1
Fuente: Datos hipotéticos
En la tabla 2 se ha ordenado en forma creciente el número de hijos de los asociados, pero cuando los datos son numerosos o el recorrido de la variable es largo, este procedimiento no es práctico y, por lo tanto, se deben formar Estadística
56
grupos o intervalos de clase, mediante el siguiente procedimiento: rango o recorrido, amplitud del rango, número de clases, amplitud del intervalo de clase, límites de cada clase y tabulación. 2.1.1. Rango o recorrido (R) El rango o recorrido (R) de una variable es el campo de variación numérica de dicha variable, es decir, el intervalo entre el menor valor y el mayor valor que toma la variable. Se representa como:
R = [ Li , Ls ] Donde, R: rango o recorrido. Li: límite inferior (menor valor de la variable). Ls: límite superior (mayor valor de la variable). Por ejemplo, un grupo de expertos en auditaje analiza el tiempo que tarda (en minutos) en realizar la auditoría de un proceso similar en diferentes empresas. Los datos se presentan en la siguiente tabla:
Tabla 3. Tiempo que tarda (en minutos) un grupo de expertos en auditar un proceso Estadística
57
Auditor
Tiempo
Auditor Tiempo
(min)
Aud. 1 Aud. 2 Aud. 3 Aud. 4 Aud. 5 Aud. 6 Aud. 7 Aud. 8 Aud. 9 Aud. 10
70 71 62 63 67 65 74 62 65 56
Auditor
(min)
Aud. 11 Aud. 12 Aud. 13 Aud. 14 Aud. 15 Aud. 16 Aud. 17 Aud. 18 Aud. 19 Aud. 20
47 68 60 54 63 60 69 54 73 55
Aud. 21 Aud. 22 Aud. 23 Aud. 24 Aud. 25 Aud. 26 Aud. 27 Aud. 28 Aud. 29 Aud. 30
Tiempo Auditor
Tiempo
(min)
(min)
57 55 55 57 59 74 56 59 71 50
Aud. 31 Aud. 32 Aud. 33 Aud. 34 Aud. 35 Aud. 36 Aud. 37 Aud. 38 Aud. 39 Aud. 40
52 63 65 50 53 59 45 72 64 69
Auditor Tiempo (min)
Aud.41 Aud.42 Aud.43 Aud.44 Aud.45 Aud.46 Aud.47 Aud.48 Aud.49 Aud.50
51 50 60 56 67 59 68 61 51 64
Fuente: Datos hipotéticos
En la tabla 3 el valor mayor es 74 minutos y, el menor, 45 minutos, por lo tanto: Li = 45 minutos, Ls = 74 minutos y R = [45, 74] Límites reales: como los tiempos se registran con aproximación a 1 minuto, el límite inferior, 45 minutos, incluye el valor 44.6 minutos; por lo tanto, el valor real del límite inferior es 44.5 minutos; y el límite superior, 74 minutos, incluye el valor 74.5 minutos; luego, el límite real superior es 74.5 minutos, y el recorrido real en este caso es: R = [44.5, 74.5] 2.1.2. Amplitud del rango (AR) La amplitud del rango de una variable se determina hallando la diferencia entre el límite superior real y el límite inferior real.
AR = Ls - Li Estadística
58
Para el ejemplo de la tabla 3 la amplitud del rango es: AR = 74.5 minutos – 44.5 minutos = 30 minutos 2.1.3. Número de clases (m) El número de clases puede obtenerse de forma convencional, teniendo en cuenta que no debe ser menor a 5 ni mayor de 20 clases. Sin embargo, puede obtenerse por medio de la fórmula de Sturges, la cual es:
m = 1 + 3.3 x log
Donde n es el número total de datos. Para el ejemplo de la tabla 3 el número de intervalos es: m = 1 + 3.3 x log (50) m = 1 + 3.3 x 1.69 m = 1 + 5.6 m = 6.6 En este caso se pueden tomar 6 ó 7 intervalos. 2.1.4. Amplitud del intervalo de clase (C) El valor del intervalo de clase no es necesario que sea igual para todos los intervalos; sin embargo, para fines de simplificación y funcionalidad es 59
Estadística
conveniente que todas las clases tengan la misma amplitud. Para obtenerla, se divide la amplitud del rango entre el número m de clases que se considere más adecuado, teniendo en cuenta que C debe ser un número exacto. En consecuencia, C = AR / m Para el ejemplo de la tabla 3 la amplitud del intervalo podría ser: Si m = 6, entonces C = 30/6, C = 5 minutos Si m = 7, entonces C = 30/7, C = 4.285714286... minutos Entre estos dos valores, el más recomendable es C = 5, ya que es exacto. Por lo tanto, se deben construir 6 intervalos con una amplitud de 5 minutos. Esto es m = 6 y C = 5. Cuando la amplitud del intervalo (AR) no es divisible por un número entero, ésta se puede incrementar hasta hacerla divisible; este incremento debe ser distribuido proporcionalmente, sumando la mitad al límite superior y restando la otra mitad al límite inferior. 2.1.5. Límites de las clases Cada clase tiene un límite inferior l i y un límite superior ls ; el límite inferior de la clase más baja o clase uno es igual al límite inferior del rango L i, y el límite superior de esta clase es igual al límite inferior, más la amplitud del intervalo (C). El límite inferior de la clase dos es igual al límite superior de la Estadística
60
clase uno, y el límite superior de esta clase es igual al límite inferior, más la amplitud del intervalo (C). Y así sucesivamente, hasta cubrir el número de clases definidas. Para el ejemplo de la tabla 3, los límites de clases serían: Tabla 4. Límites de clases para el tiempo que tarda (en minutos) un grupo de expertos en auditar un proceso Nº DE CLASE
LÍMITES DE CLASE li
1 2 3 4 5 6
44.5 49.5 54.5 59.5 64.5 69.5
-
-
INTERVALOS DE CLASE
ls
44.5 + 5 = 49.5 49.5 + 5 = 54.5 54.5 + 5 = 59.5 59.5 + 5 = 64.5 64.5 + 5 = 69.5 69.5 + 5 = 74.5
li
-
44.5 49.5 54.5 59.5 64.5 69.5
-
ls
49.5 54.5 59.5 64.5 69.5 74.5
Fuente: Datos hipotéticos
2.1.6. Tabulación Una vez establecidos los intervalos de clase, se procede al conteo como en el caso para datos no agrupados, como se ilustra en la tabla 5. Tabla 5. Tabulación para el tiempo que tarda (en minutos) un grupo de expertos en auditar un proceso Nº DE CLASE TIEMPO (minutos) TABULACIÓN Estadística
FRECUENCIAS
61
1 2 3
44.5 - 49.5 49.5 - 54.5 54.5 - 59.5
ΙΙ ΙΙ Ι Ι Ι ΙΙΙ Ι ΙΙ Ι Ι Ι ΙΙΙ Ι Ι
2 9 12
4
59.5 - 64.5
ΙΙ ΙΙ Ι Ι Ι ΙΙΙ Ι Ι
11
5 6
64.5 - 69.5 69.5 - 74.5
Ι ΙΙ Ι Ι Ι ΙΙΙ Ι ΙΙ Ι Ι Ι ΙΙ
9 7
Fuente: Datos hipotéticos
2.1.7. Marca de clase o punto medio .
Cada clase tiene un punto medio o marca de clase xi que representa a cada intervalo. La marca de clase se calcula como la semisuma entre los límites inferior y superior de cada intervalo, así:
.
xi =
l s + li 2
Tabla 6. Marca de clase para el tiempo que tarda (en minutos) un grupo de expertos en auditar un proceso Nº DE
INTERVALO
MARCA DE
CLASE
(Tiempo en minutos)
CLASE
1 2 3 4 5 6 Estadística
44.5 49.5 54.5 59.5 64.5 69.5
-
49.5 54.5 59.5 64.5 69.5 74.5
47 52 57 62 67 72 62
Fuente: Datos hipotéticos
Obsérvese que al pasar de una marca de clase a la siguiente, ésta se incrementa en las mismas unidades de la amplitud del intervalo C; por esta razón es que C siempre debe ser un número exacto.
2.2. FRECUENCIAS 2.1.1. Frecuencia absoluta (fi) Se llama frecuencia absoluta (fi) al número de veces que aparece el valor xi de una variable X en un colectivo. Así, si en un grupo de 30 empleados hay 6 que tienen una edad de 25 años, se dice que la edad 25 años tiene una frecuencia de 6. Las frecuencias absolutas para el grupo de expertos de la auditoría de un proceso se presentan en la tabla 7. Tabla 7. Frecuencias absolutas para el tiempo que tarda (en minutos) un grupo de expertos en auditar un proceso N° DE CLASE
1 2 3 4 5 6 TOTAL
INTERVALO
FRECUENCIA
(Tiempo en minutos)
ABSOLUTA (fI)
44.5 49.5 54.5 59.5 64.5 69.5
-
49.5 54.5 59.5 64.5 69.5 74.5
2 9 12 11 9 7 50
Fuente: Datos hipotéticos Estadística
63
Obsérvese que la suma de las frecuencias absolutas debe ser igual al número total de datos. 2.2.2. Frecuencia relativa (hi) Se llama frecuencia relativa (hi) al cociente de dividir la frecuencia absoluta entre el número total de elementos del colectivo. También se puede representar en porcentaje.
hi =
fi * 100 n
Donde n es el total de elementos. Así, si en un grupo de 30 empleados hay 6 que tienen una edad de 25 años, entonces la frecuencia relativa será: hi =
6 * 100 = 20% 30
Aquí la edad 25 años tiene una frecuencia relativa de 20%; es decir, el 20% de los empleados tiene edad de 25 años. Las frecuencias relativas para el grupo de expertos de la auditoría de un proceso se presenta en la 8. Tabla 8. Frecuencias relativas para el tiempo que tarda (en minutos) un grupo de expertos en auditar un proceso Estadística
64
N° DE CLASE
INTERVALO
FRECUENCIA
(Tiempo en minutos)
RELATIVA (hI)
1 2 3 4 5 6 TOTAL
44.5 49.5 54.5 59.5 64.5 69.5
-
49.5 54.5 59.5 64.5 69.5 74.5
(2/50)*100 = 4% (9/50)*100 = 18% (12/50)*100 = 24% (11/50)*100 = 22% (9/50)*100 = 18% (7/50)*100 = 14% 100%
Fuente: Datos hipotéticos
Obsérvese que la suma de las frecuencias relativas es igual al 100%. La frecuencia relativa se aplica a las variables cualitativa, cuantitativa discreta y continua. 2.2.3. Frecuencia absoluta acumulada (FI) Se llama frecuencia absoluta acumulada (FI) de un valor xi de una variable X a la suma de las frecuencias absolutas hasta la correspondiente frecuencia fI del valor xi . i
Fi = ∑ f k k =1
Tabla 9. Frecuencias absolutas acumuladas para el tiempo que tarda (en minutos) un grupo de expertos en auditar un proceso INTERVALO
FRECUENCIA
FRECUENCIA ABSOLUTA
(Tiempo en
ABSOLUTA (fi)
ACUMULADA (Fi)
minutos) Estadística
65
44.5 49.5 54.5 59.5 64.5 69.5
-
49.5 54.5 59.5 64.5 69.5 74.5
2 9 12 11 9 7
2 2 + 9 = 11 2 + 9 + 12 = 23 2 + 9 + 12 + 11 = 34 2 + 9 + 12 + 11 + 9 = 43 2 + 9 + 12 + 11 + 9 + 7 = 50
Fuente: Datos hipotéticos
2.2.4. Frecuencia relativa acumulada (Hi) Se llama frecuencia relativa acumulada (HI) de un valor xi de una variable X a la suma de las frecuencias relativas hasta la correspondiente frecuencia hI del valor xi .
i
H i = ∑ hk k =1
Tabla 10. Frecuencias relativas acumuladas para el tiempo que tarda (en minutos) un grupo de expertos en auditar un proceso INTERVALO
FRECUENCIA
FRECUENCIA RELATIVA
(Tiempo en
RELATIVA (hi)
ACUMULADA (Hi)
minutos) 44.5 - 49.5 49.5 - 54.5 54.5 - 59.5
4% 18% 24%
Estadística
4% 4% + 18% = 22% 4% + 18% + 24% = 46%
66
59.5 - 64.5 64.5 - 69.5 69.5 - 74.5
22% 18% 14%
4% + 18% + 24% + 22% = 68% 4% + 18% + 24% + 22% + 18% = 86% 4% + 18% + 24% + 22% + 18% + 14% = 100%
Fuente: Datos hipotéticos
Una vez construidos los intervalos y las frecuencias, se ilustra en una tabla el consolidado para facilitar la interpretación y el análisis de la variable (ver tabla 11). Tabla 11. Intervalos y frecuencias para el tiempo que tarda (en minutos) un grupo de expertos en auditar un proceso N° DE
TIEMPO EN
CLASE 1 2 3 4 5 6
MINUTOS 44.5 - 49.5 49.5 - 54.5 54.5 - 59.5 59.5 - 64.5 64.5 - 69.5 69.5 - 74.5
.
xi
fi
hi
Fi
Hi
47 52 57 62 67 72
2 9 12 11 9 7
4% 18% 24% 22% 18% 14%
2 11 23 34 43 50
4% 22% 46% 68% 86% 100%
Fuente: Datos hipotéticos
Para analizar los resultados obtenidos en la tabla anterior, se deben tener en cuenta los siguientes aspectos: Las frecuencias absolutas y relativas se interpretan a partir de los intervalos. Por ejemplo: 2 expertos tardan entre 44.5 y 49.5 minutos en realizar la auditoría del proceso o el 4% de los expertos tardan entre 44.5 y 49.5 minutos en realizar la auditoría del proceso; 9 expertos tardan entre 49.5 y 54.5 minutos en realizar la auditoría del proceso o el 18% de los Estadística
67
expertos tardan entre 49.5 y 54.5 minutos en realizar la auditoría del proceso, así sucesivamente. Las frecuencias absolutas acumuladas y relativas acumuladas se interpretan con la marca de clase del intervalo. Por ejemplo: 2 expertos tardan menos de 47 minutos en realizar la auditoría del proceso o 4% de los expertos tardan menos de 47 minutos en realizar la auditoría del proceso, 11 expertos tardan menos de 52 minutos en realizar la auditoría del proceso o 22% de los expertos tardan menos de 52 minutos en realizar la auditoría del proceso, así sucesivamente. NOTA: las frecuencias acumuladas no se aplican a la variable cualitativa. 2.2.5. Números índice Un número índice es una medida estadística diseñada para resaltar cambios en una variable o un grupo de variables relacionadas con respecto al tiempo, situación geográfica, ingresos, o cualquier otra característica. El número índice es el cociente que resulta al dividir una determinada frecuencia de una serie por otra frecuencia de la misma serie, la cual se toma como base o punto de referencia; puede expresarse en porcentaje o en miles. Ejemplo: los precios de un artículo A durante los años 2001 a 2005 fueron $40.000, $48.000, $56.000, $70.000, $84.000, respectivamente. Al tomar Estadística
68
como base el año 2001, que corresponde al 100%, se obtienen los índices para cada año.
Tabla 12. Índices de precios del artículo a, de los años 2001 a 2005 AÑO 2001 2002 2003 2004 2005
PRECIO ($) 40.000 48.000 56.000 70.000 84.000
ÍNDICE (40.000/40.000)*100 = 100% (48.000/40.000)*100 = 120% (56.000/40.000)*100 = 140% (70.000/40.000)*100 = 175% (84.000/40.000)*100 = 210%
Fuente: Datos hipotéticos
Esto indica que el precio del artículo A se incrementó 20% en el año 2002 con respecto al año 2001; 40% en el año 2003 con respecto al año 2001; 75% en el año 2004 con respecto al año 2001; y 110% en el año 2005 con respecto al año 2001.
2.3. GRÁFICAS O DIAGRAMAS Las gráficas permiten describir brevemente las características de un colectivo.
Existen varios tipos de gráficas que pueden utilizarse para
representar el comportamiento de una variable, tales como histogramas, polígonos de frecuencia, ojivas, diagramas circulares y barras. 2.3.1. Histogramas Estadística
69
Un histograma de frecuencias consiste en una serie de rectángulos que se construyen sobre un plano cartesiano. Este tipo de gráfica se aplica a la variable cuantitativa continua. Sobre el plano cartesiano, en el eje horizontalm, se ubican los intervalos de cada clase, y en el eje vertical las frecuencias. Luego, para cada intervalo se dibuja un rectángulo cuya base es la amplitud del intervalo de cada clase, y la altura es la frecuencia de cada clase. Si sobre el eje vertical se ubican las frecuencias absolutas, se obtiene el histograma de frecuencias absolutas, y si se ubican las frecuencias relativas, se obtiene el histograma de frecuencias relativas, como se ilustra en las gráficas 1 y 2 para un grupo de expertos que auditan un proceso.
Gráfica 1. Histograma de frecuencias absolutas para un grupo de expertos que auditan un proceso
Estadística
70
Gráfica 2. Histograma de frecuencias relativas para un grupo de expertos que auditan un proceso
2.3.2. Polígono de frecuencias El polígono de frecuencias se construye de forma similar al histograma; la diferencia radica en la forma y estructura de la gráfica, la cual se obtiene ubicando las marcas de clase sobre el eje horizontal; y sobre el eje vertical, las frecuencias, según el tipo de polígono; si se ubican las frecuencias absolutas, se denomina polígono de frecuencias absolutas; y si se ubican las frecuencias relativas, se denomina polígono de frecuencias relativas, como se ilustra en las gráficas 3 y 4 para un grupo de expertos que auditan un proceso. Estadística
71
Gráfica 3. Polígono de frecuencias absolutas para un grupo de expertos que auditan un proceso
Gráfica 4. Polígono de frecuencias relativas para un grupo de expertos que auditan un proceso
Estadística
72
Se acostumbra prolongar el polígono hasta las marcas de clase inferior y superior inmediatas, que corresponderían a las clases de frecuencia cero. Los polígonos de frecuencia pueden tomar muchas formas, sin embargo, en la mayoría de los casos toman una forma acampanada que se identifica con la curva normal. 2.3.3. Ojivas o polígonos de frecuencias acumuladas La construcción de estos polígonos es similar a los polígonos de frecuencias absolutas y relativas; la diferencia radica en que aquí se toman las frecuencias acumuladas, como se puede observar en las gráficas 5 y 6, donde se presentan los polígonos de frecuencias absolutas y relativas acumuladas para el grupo de expertos que auditan un proceso.
Gráfica 5. Polígono de frecuencias absolutas acumuladas para un grupo de expertos que auditan un proceso
Estadística
73
Gráfica 6. Polígono de frecuencias relativas acumuladas para un grupo de expertos que auditan un proceso
2.3.4. Diagramas de barras Los diagramas de barras son muy utilizados por la facilidad y sencillez que ofrecen para presentar características de una población, especialmente de variables cualitativas o cuantitativas discretas. Los diagramas de barras consisten en rectángulos de anchura arbitraria en la cual se ubican los valores de la variable, y de longitud proporcional al número de observaciones o frecuencias. Las barras se pueden construir de forma horizontal o vertical, como se muestra en la gráfica 7, correspondiente a los datos del cuadro 2.
Estadística
74
Gráfica 7. Número de hijos de los asociados de la Cooperativa de Trabajo Asociado Epsilon
2.3.5. Diagramas circulares Estas gráficas consisten en un círculo dividido en partes proporcionales a los porcentajes de cada una de las características o valores de la variable. Se utilizan principalmente en la representación de variables cualitativas. Para
su
construcción,
se
dividen
los
360°
de
la
circunferencia
proporcionalmente a los porcentajes o a las frecuencias absolutas de cada característica. En la gráfica 8 se ilustra el nivel de escolaridad de los asociados de la Cooperativa de Trabajo Asociado Epsilón.
Estadística
En ella, 360° corresponde al
75
100% de los asociados; con nivel profesional corresponde 36°; nivel técnico corresponde 108°; nivel de bachillerato, 144°; y con básica primaria, 72°. Gráfica 8. Nivel de escolaridad de los asociados de la Cooperativa de Trabajo Asociado Epsilon
2.3.6. Diagrama de tallo y hojas El diagrama de tallo y hoja es una herramienta valiosa y versátil para organizar un conjunto de datos y entender la distribución y agrupación de los valores dentro del intervalo de observaciones en el conjunto. Un diagrama de tallo y hoja separa los datos en dígitos guía, o tallos, y dígitos que le siguen, u hojas. Para construir el diagrama, primero se ordenan los dígitos principales de cada dato a la izquierda de una línea vertical. A la derecha de ésta se registra el último dígito para cada dato conforme al orden de aparición de las observaciones. El último dígito de cada dato se coloca en la fila que corresponde a su primer dígito. Para ilustrar el uso del diagrama de tallo y hojas se consideran los siguientes datos de la tabla 13. La información es resultado de un examen de aptitudes Estadística 76
de 150 preguntas, aplicado a 50 personas durante un proceso de selección de personal en Manufacturas Alfa. Tabla 13. Número de preguntas contestadas en forma correcta en una prueba de aptitud 112 73 126 82 92
84 68 100 72 92
108 76 141 119 98
76 118 132 96 91
115 94 97 86 127
102 80 98 106 106
124 83 92 81 106
119 95 104 69 113
7 95 134 128 81
115 85 107 100 75
Fuente: Datos hipotéticos
Inicialmente, se deben ubicar los datos en tallo y hojas, así: 6
9 8
7
2 3 6 3 6 5
8
6 2 3 1 1 0 4 5
9
7 2 2 6 2 1 5 8 8 5 4
10
7 4 8 0 2 6 6 0 6
11
2 8 5 9 3 5 9
12
6 8 7 4
13
2 4
14
1
Posteriormente, se ordena cada línea en forma ascendente, y una vez ordenado, queda el diagrama de tallo y hojas como sigue:
Estadística
77
6
8 9
7
2 3 3 5 6 6
8
0 1 1 2 3 4 5 6
9
1 2 2 2 4 5 5 6 7 8 8
10
0 0 2 4 6 6 6 7 8
11
2 3 5 5 8 9 9
12
4 6 7 8
13
2 4
14
1
Los números de la izquierda de la línea (6, 7, 8, 9, 10, 11, 12, 13, 14) forman el tallo, y cada dígito de la derecha de la fila es una hoja.
Por ejemplo, se
considera la primera fila con un valor de tallo igual a 6, y hojas de 8 y 9, lo cual significa que hay dos valores que tienen un primer dígito de 6; las hojas muestran que los valores son 68 y 69. De manera similar, la segunda fila indica que hay seis valores cuyo primer dígito es siete: 72, 73, 73, 75, 76 y 76. Si se gira el diagrama de tallo y hojas 90° en sentido contrario a las manecillas del reloj, se obtiene una imagen similar al histograma de frecuencias. Aunque el diagrama de tallo y hojas parece ofrecer la misma información que un histograma, tiene dos ventajas principales: 1. Es más fácil de construir. 2. Dentro de un intervalo de clase, el diagrama de tallo y hojas da más información que un histograma, porque muestra los valores reales.
2.3.7. Diagrama de Pareto Estadística
78
El diagrama de Pareto es un recurso gráfico que permite representar datos categóricos (variables cualitativas) y que a menudo proporciona más información visual que los diagramas de barras o circulares. El diagrama de Pareto es un tipo especial de diagrama de barras verticales, donde las respuestas categorizadas se grafican en orden descendente de frecuencias y se combinan con un polígono acumulado en la misma escala. El principio fundamental de la gráfica es separar los “pocos vitales“ de los “muchos triviales”, lo que permite dirigir la atención a las respuestas importantes. Así, el diagrama alcanza su utilidad máxima cuando la variable categórica de interés contiene muchas categorías. Este diagrama se utiliza ampliamente en el control estadístico de procesos y el control estadístico de calidad del producto. En la construcción de un diagrama de Pareto, el eje vertical de la izquierda contiene las frecuencias o porcentajes, el eje vertical de la derecha contiene los porcentajes acumulados, y el eje horizontal contiene las categorías de interés. Las barras con separación uniforme tienen el mismo ancho. El punto en el polígono de porcentajes acumulados para cada categoría se centra en el punto medio de cada barra. Entonces, al estudiar el diagrama de Pareto se buscan dos cosas: las magnitudes de las diferencias en las longitudes de las barras que corresponden a las categorías adyacentes decrecientes, y los porcentajes acumulados de estas categorías adyacentes. Para ilustrar el diagrama de Pareto, se utiliza el ejemplo tomado del texto Estadística para administración, de Berenson y otros, página 60.
Estadística
79
El gerente de operaciones de una planta empacadora de cereales indicó que, según su experiencia, casi siempre hay nueve razones que dan como resultado la producción de cajas de cartón no conformes al final del proceso de empaque: cartón roto, cartón abultado, cartón agrietado, cartón sucio, agujeros en el cartón, peso de empaque inadecuado, error de impresión, etiqueta ilegible y tapa superior sin sello. Se tomó una muestra de 50 cajas de cartón no conformes de la producción de una semana, con los siguientes datos: Tabla 14. Porcentajes razones de no conformidad de la producción de cajas de cartón RAZÓN DE NO CONFORMIDAD Tapa superior sin sello Etiqueta ilegible Cartón sucio Cartón abultado Cartón roto Cartón agrietado Peso de empaque inadecuado Agujeros en el cartón Error de impresión Total
NÚM 16 12 9 4 3 2 2 1 1 50
% 32.0 24.0 18.0 8.0 6.0 4.0 4.0 2.0 2.0 100.00
% ACUMULADO 32.0 56.0 74.0 82.0 88.0 92.0 96.0 98.0 100.0
Fuente: Berenson y otros. Estadística para administración, Pág. 60.
Gráfica 9. Diagrama de Pareto para las razones de no conformidad de la producción de cajas de cartón
Estadística
80
A pesar de los “pocos vitales” de los “muchos triviales”, se determina que las tapas sin sello (32.0%), las etiquetas ilegibles (24.0%) y los cartones sucios (18.0%) representan el 74% de las razones de no conformidad. Las otras dos razones representan el 26%.
2.4. TABULACIÓN DE DATOS BINARIOS O CRUZADOS Con frecuencia se requiere analizar al mismo tiempo las respuestas de dos variables, por lo cual es necesario cruzar variables para describir exitosamente el comportamiento de las mismas. En este caso, se utiliza la tabulación cruzada o tablas de contingencia. La tabulación cruzada o tablas de contingencia se emplea para resumir de manera simultánea los datos para dos variables.
Se describirá el
procedimiento mediante la adaptación del ejemplo planteado por Anderson y otros en el texto Estadística para administración y economía, Pág. 44. Un informe mundial sobre restaurantes muestra muchas variables, entre ellas, la evaluación de la calidad del restaurante y los precios característicos. La calificación de la calidad es una variable cualitativa, con categorías de bueno, muy bueno y excelente.
El precio de la comida es una variable
cuantitativa continua que, por lo general, varía de 10 a 49 dólares. Se tomó una muestra de 300 restaurantes para un Estado determinado. En la tabla 15 se muestran sólo los datos para los primeros 10 restaurantes. Tabla 15. Evaluación de calidad y precio de la comida para restaurantes de un Estado Estadística
81
RESTAURANTE
EVALUACIÓN DE LA
1 2 3 4 5 6 7 8 9 10 . .
CALIDAD Bueno Muy bueno Bueno Excelente Muy bueno Bueno Muy bueno Muy bueno Muy bueno Bueno . .
PRECIO DE LA COMIDA (dólares) 18 22 28 38 33 28 19 11 23 13 . .
Fuente: Anderson y otros. Estadística para administración y economía, Pág. 44.
El formato general de la tabulación cruzada para este ejemplo se muestra en la tabla 16, la cual ha recogido toda la información para el Estado objeto de análisis. Los encabezados de las márgenes izquierda y superior definen las clases de las dos variables.
En la margen izquierda se encuentran las
categorías de la variable Evaluación de la calidad, y en la parte superior los valores correspondientes a la variable Precio de la comida.
Cada
restaurante tiene una evaluación de la calidad y un precio de la comida. Así, cada restaurante de la muestra se asocia con una celda que aparece en uno de los renglones y en una de las columnas de la tabulación cruzada. Por ejemplo, el restaurante 5 se identifica por tener una evaluación de la calidad muy buena y un precio de la comida de 33 dólares.
Este restaurante
pertenece a la celda de la fila 2 y la columna 3 de la tabla 15. Para elaborar una tabulación cruzada simplemente se cuenta la cantidad de restaurantes que pertenecen a cada una de las celdas de la tabla.
Estadística
82
En la tabla 16 se observa que la mayor cantidad de restaurantes (64) en la muestra tienen calificación de “muy bueno“, y que el precio de la comida está entre los límites de 20 a 29 dólares.
Sólo hay dos restaurantes con
calificación de “excelente” y precio de la comida de 10 a 19 dólares. De las demás frecuencias se puede llegar a interpretaciones análogas. Además, las márgenes derecha e inferior de la tabla cruzada indican por separado las distribuciones de frecuencias de evaluación de la calidad y del precio de la comida. En la margen derecha se ve que los datos sobre evaluación de la calidad indican que hay 84 restaurantes buenos, 150 muy buenos y 66 excelentes.
De igual forma, la margen inferior indica la distribución de
frecuencias de la variable “costo de la comida”. Tabla 16. Tabulación cruzada o tabla de contingencia de calificaciones y precio de la comida para restaurantes de un Estado EVALUACION DE LA CALIDAD Bueno Muy bueno Excelente TOTAL
PRECIO DE LA COMIDA (dólares) 10 - 19 20 - 29 30 - 39 40 - 49 42 34 2 78
40 64 14 118
2 46 28 76
0 6 22 28
TOTAL 84 150 66 300
Fuente: Anderson y otros. Estadística para administración y economía, Pág. 44.
El valor de una tabulación cruzada consiste en que proporciona una idea de la relación entre las variables. A partir de los resultados de la tabla 16 los precios más altos por comida parecen estar asociados con una calidad mayor del restaurante y el precio más bajo por comida a una calidad menor. Si se convierten los elementos de la tabla 16 a porcentajes de fila o porcentajes de columna, se puede tener una mejor idea acerca de la relación entre las variables. Estadística
Para los porcentajes de fila, los resultados de dividir 83
cada frecuencia de la tabla 16 entre su total de fila correspondiente se muestran en la tabla 17. Por ejemplo, el porcentaje en la primera fila y la primera columna (50%) se calcula al dividir 42 entre 84 y multiplicar por 100. Para los porcentajes de columna, los resultados de dividir cada frecuencia de la tabla 16 entre su total de columna correspondiente se muestran en la tabla 18. Por ejemplo, el porcentaje en la primera fila y la primera columna (53.8%) se calcula al dividir 42 entre 78 y multiplicar por 100.
Tabla 17. Tabulación cruzada o tabla de contingencia de porcentaje de fila para las calificaciones de calidad y los precios de la comida EVALUACIÓN DE LA CALIDAD Bueno Muy bueno Excelente
PRECIO DE LA COMIDA (dólares) 10 - 19 20 - 29 30 - 39 40 - 49 50.0 22.7 3.0
47.6 42.7 21.2
2.4 30.6 42.4
0.0 4.0 33.4
TOTAL 100 100 100
Fuente: Anderson y otros. Estadística para administración y economía, Pág. 44.
Tabla 18. Tabulación cruzada o tabla de contingencia de porcentaje de columna para las calificaciones de calidad y los precios de la comida EVALUACIÓN DE LA CALIDAD Bueno Muy bueno Excelente TOTAL
PRECIO DE LA COMIDA (dólares) 10 - 19 20 - 29 30 - 39 40 - 49 53.8 43.5 2.7 100
33.9 54.2 11.9 100
2.6 60.6 36.8 100
0.0 21.4 78.6 100
Fuente: Anderson y otros. Estadística para administración y economía, Pág. 44.
Estadística
84
Estadística
85
3. MÉTODOS NUMÉRICOS En la unidad anterior se ordenaron los datos correspondientes a las variables cualitativa y cuantitativa y se representaron los resultados por medio de gráficas; sin embargo, el análisis de datos también abarca los cálculos y el resumen de las características importantes y el análisis de lo que contienen. En esta unidad se examinarán las medidas de tendencia central, de variabilidad y de localización para un conjunto de datos. Si se calculan estas medidas descriptivas globales a partir de una muestra, se denominan estadísticos; en cambio, si se calculan para toda la población se denominan parámetros. Esta unidad estará centrada en los estadísticos.
3.1. MEDIDAS DE TENDENCIA CENTRAL O DE PRECISIÓN La mayor parte de los conjuntos de datos muestra una tendencia a agruparse o aglomerarse alrededor de un punto central. Así, para cualquier conjunto específico de datos, casi siempre se puede seleccionar algún valor típico, o Estadística
86
promedio, para describir todo el conjunto; este valor típico descriptivo es una medida de tendencia central, entre las cuales están: la media aritmética, la mediana, la moda y los cuantiles. 3.1.1. Media aritmética La media aritmética, también llamada media, es el promedio o medida de tendencia central que se utiliza con mayor frecuencia, además de que es la medida de tendencia central representativa por excelencia. Se calcula con la suma de todas las observaciones en un conjunto de datos, dividida entre el número de elementos que lo componen. Se representa por X . Cuando se tienen pocos datos y no se han agrupado, la media aritmética sería:
n
X = Donde
∑x i =1
i
n
: media aritmética de la muestra
X
n : tamaño de la muestra xi : observación de la variable n
∑x i =1
i
: suma de todos los valores de la muestra
Por ejemplo, las notas de un estudiante son 2, 4, 3 y 4.
La media aritmética es X =
Estadística
2 + 4 + 3 + 5 14 = = 3.5 4 4
87
Cuando los datos se han agrupado con frecuencias, pero no se han construido intervalos, la media aritmética se calcula como: n
X =
∑x .f i
i =1
i
n
Donde f i es el número de observaciones de cada valor de la variable; es decir, la respectiva frecuencia absoluta. Por ejemplo, tomando el número de hijos de la tabla 2 se tendría: Tabla 19. Media aritmética para el número de hijos de los asociados de la Cooperativa de Trabajo Asociado Epsilon NÚMERO DE HIJOS
FRECUENCIA
xi
fi
0 1 2 3 4
1 2 4 2 1
n = ∑ f i = 10
xi . f i
0 2 8 6 4
∑x . f i
i
= 20
Fuente: Datos hipotéticos
n
X =
∑x .f i
i =1
n
i
=
, lo que significa que el promedio es 2 hijos. 20 =2 10
Cuando los datos se han agrupado con intervalos, la media aritmética se calcula como: n
.
∑x .f i
Estadística
X =
i =1
n
i
88
.
Donde xi es la marca de clase de cada intervalo. Para el ejemplo de la tabla 3, la media aritmética sería:
Tabla 20. Media aritmética para el tiempo que tarda (en minutos) un grupo de expertos en auditar un proceso Nº DE
TIEMPO EN
CLASE 1 2 3 4 5 6
MINUTOS 44.5 - 49.5 49.5 - 54.5 54.5 - 59.5 59.5 - 64.5 64.5 - 69.5 69.5 - 74.5
.
.
xi
fi
xi . f i
47 52 57 62 67 72
2 9 12 11 9 7 n = ∑ f i = 50
94 468 684 682 603 504 .
∑ xi . fi = 3035
Fuente: Datos hipotéticos
n
X =
.
∑ xi . fi i =1
n
=
. lo que significa que el promedio es 60.7 minutos. 3035 = 60.7 50
3.1.2. Mediana La mediana, representada por Me, de un conjunto de valores x1, x2, x3,… xn, es el valor que ocupa el lugar central ordenando los datos en forma ascendente o descendente, de tal forma que la mitad de las observaciones Estadística
89
son menores o iguales a la mediana y la otra mitad son mayores o iguales a dicho valor. Podría interpretarse la mediana como aquel valor que deja el 50% de las observaciones por debajo de él y el otro 50% por encima de él. Cuando los datos están sin agrupar, la posición de la mediana se calcula mediante las siguientes ecuaciones:
Me = X n +1
Si el total de datos (n) es impar
2
Xn + Xn Me =
2
2
+1
2
Si el total de datos (n) es par Una vez ubicada la posición, el valor correspondiente a dicha posición en la mediana. Por ejemplo, sean los valores 3, 6, 4, 5, 8. Ordenando se tendría: 3, 4, 5, 6, 8. El total de datos es n = 5. Por lo tanto, la posición de la mediana será Me = X n +1 = X 5 +1 = X 3 2
2
El valor correspondiente a la posición x3 en los datos ordenados es 5. Estadística
90
En consecuencia, la mediana Me = 5. Es decir, el 50% de los valores están por encima de 5 y el otro 50% están por debajo de 5. Si se tienen los valores 5, 15, 5, 13, 9, 13, 11, 7. Ordenando se tendría: 5, 5, 7, 9, 11, 13, 13, 15 El total de datos es n = 8. Por lo tanto, la posición de la mediana será
Xn + Xn Me =
2
2
+1
2
X8 + X8 =
2
2
+1
2
=
X4 + X5 2
Los valores correspondientes a las posiciones x4 y x5 en los datos ordenados son 9 y 11, respectivamente. En consecuencia, el valor de la mediana será:
Me =
9 + 11 20 = = 10 2 2
Es decir, el 50% de los valores está por encima de 10, y el otro 50% está por debajo de 10. Cuando los datos están agrupados en clases o intervalos, la mediana se calcula mediante los siguientes pasos: Primer paso: se halla n/2.
Estadística
91
Segundo paso: se ubica el intervalo cuya frecuencia absoluta acumulada Fi contiene a n/2. Tercer paso: se calcula la mediana por medio de la siguiente ecuación:
n − Fi −1 2 Me = li + *c fi
Donde: li : límite inferior del intervalo que contiene a n/2
n : número total de datos Fi −1 : Frecuencia absoluta acumulada anterior al intervalo que contiene a n/2 f i : frecuencia absoluta del intervalo que contiene a n/2
c : amplitud del intervalo que contiene a n/2 Por ejemplo, para calcular la mediana para el grupo de expertos de la tabla 3, se realizarán los pasos requeridos a partir de los datos de la tabla 21. Tabla 21. Mediana para el tiempo que tarda (en minutos) un grupo de expertos en auditar un proceso Nº DE
TIEMPO EN
CLASE 1 2 3 4 5 6
MINUTOS 44.5 - 49.5 49.5 - 54.5 54.5 - 59.5 59.5 - 64.5 64.5 - 69.5 69.5 - 74.5
Estadística
.
xi
fi
hi
Fi
Hi
47 52 57 62 67 72
2 9 12 11 9 7
4% 18% 24% 22% 18% 14%
2 11 23 34 43 50
4% 22% 46% 68% 86% 100%
92
Fuente: Datos hipotéticos
Primer paso: el total de datos es 50, por lo tanto n/2 es = 25. Segundo paso: en la frecuencia absoluta acumulada se ubica el valor de 25, el cual corresponde al cuarto intervalo, con una frecuencia absoluta acumulada de 34 expertos. Nótese que en el tercer intervalo no es posible ubicar la mediana, dado que la frecuencia absoluta acumulada hasta este intervalo es de 23 expertos, y lo querido es de 25 expertos. Tercer paso: se calcula la mediana por medio de la ecuación, donde: li = 59.5
n /2 = 25 Fi −1 = 23 f i = 11
c = 64.5 – 59.5 = 5 Luego, n − Fi −1 25 − 23 2 Me = li + 2 * c = 59.5 + * 5 = 59.5 + * 5 = 59.5 + 0.9 = 60.4 fi 11 11
Es decir, el 50% de los expertos tarda menos de 60.4 minutos en realizar la auditoría del proceso y el otro 50% tarda más de 60.4 minutos. A pesar de que la media aritmética es la medida de tendencia central por excelencia, en algunos casos la mediana es preferida a la media aritmética, dado que no es sensible a valores extremos. Suponiendo que se tienen los siguientes datos sobre el salario de empleados: $490.000, $550.000, $550.000, $580.000 y $990.000. Estadística
93
La media aritmética X sería $632.000 y la mediana Me = $550.000. Obsérvese que, en este caso, es más representativa para el conjunto de datos la mediana que la media aritmética, dado que el salario extremo de $990.000 influye directamente en el promedio, mostrándolo con un valor elevado, cuando la mayoría de datos está por debajo de $632.000. 3.1.3. Moda La moda es útil en estudios de mercadeo como calzado, vestido, etc. Algunos la consideran como el promedio industrial ya que la fabricación o venta de artículos está determinada por la moda. La moda, representada por Mo, de un conjunto de valores x1, x2, x3,… xn, es el valor que se presenta con mayor frecuencia.
Puede ser aplicada a
cualquier tipo de variable. Cuando los datos están sin agrupar, la moda se obtiene directamente ordenándolos ascendentemente. Por ejemplo, sean los valores 4, 3, 2, 5, 4, 4. Ordenándolos: 2, 3, 4, 4, 4, 5. Como el valor 4 se presenta 3 veces y los otros valores una vez, la moda es 4. La moda no necesariamente debe ser única, y hasta puede no existir. Cuando existen varios valores con la misma frecuencia máxima se denomina Estadística
94
distribución multimodal, como el ejemplo de la tabla 22.
Si existen dos
valores con la misma frecuencia máxima se llama distribución bimodal (ver tabla 23) y si sólo existe una frecuencia máxima se denomina distribución unimodal (ver tabla 24). Tabla 22. Ejemplo de distribución multimodal xi
fi
2 3 4 5 6
5 3 5 3 5
Fuente: Datos hipotéticos
Los valores que tienen mayor frecuencia son 2,4 y 6, por tanto la distribución es multimodal. Tabla 23. Ejemplo de distribución bimodal xi
fi
2 3 4 5 6
5 8 3 8 5
Fuente: Datos hipotéticos
Los valores que tienen mayor frecuencia son 3 y 5, por tanto la distribución es bimodal. Tabla 24. Ejemplo de distribución unimodal
Estadística
95
xi
fi
2 3 4 5 6
3 7 5 3 2
Fuente: Datos hipotéticos
El valor que tiene mayor frecuencia es 3, por tanto, la distribución es unimodal. Cuando los datos están agrupados en clases o intervalos, se calcula la moda mediante los siguientes pasos: Primer paso: se ubica el intervalo (o los intervalos) de mayor frecuencia absoluta f i . Segundo paso: se calcula la moda (o las modas) mediante la siguiente fórmula:
Mo = li +
∆1 *c ∆1 + ∆ 2
Donde: li : límite inferior del intervalo de mayor frecuencia absoluta
∆1 : diferencia entre la frecuencia absoluta mayor y la frecuencia absoluta
anterior. ∆2 : diferencia entre la frecuencia absoluta mayor y la frecuencia absoluta
siguiente. Estadística
96
c : amplitud del intervalo de mayor frecuencia absoluta. Por ejemplo, para calcular la moda para el grupo de expertos de la tabla 3, se realizarán los pasos requeridos a partir de los datos de la tabla 25. Tabla 25. Moda para el tiempo que tarda (en minutos) un grupo de expertos en auditar un proceso Nº DE
TIEMPO EN
CLASE 1 2 3 4 5 6
MINUTOS 44.5 - 49.5 49.5 - 54.5 54.5 - 59.5 59.5 - 64.5 64.5 - 69.5 69.5 - 74.5
.
xi
fi
hi
Fi
Hi
47 52 57 62 67 72
2 9 12 11 9 7
4% 18% 24% 22% 18% 14%
2 11 23 34 43 50
4% 22% 46% 68% 86% 100%
Fuente: Datos hipotéticos
Primer paso: ubicación del intervalo de mayor frecuencia absoluta f i . El tercer intervalo es el que posee la frecuencia absoluta mayor (12 expertos). Segundo paso: obtención de valores para el cálculo de la moda. li = 54.5
∆1 = 12 – 9 = 3 ∆2 = 12 – 11 = 1
c = 59.5 – 54.5 = 5
Mo = li +
Estadística
∆1 3 15 * c = 54.5 + * 5 = 54.5 + = 58.2 ∆1 + ∆ 2 3 +1 4
97
Es decir, el tiempo que más se presenta en realizar la auditoría del proceso es de 58.2 minutos. 3.1.4. Cuantiles Los cuantiles son valores que dividen el conjunto de datos en porcentajes iguales. Pueden ser cuartiles, deciles o percentiles. Cuartiles (Q): valores que dividen los datos en cuatro partes iguales. Existen tres cuartiles y se calculan de forma similar a la mediana; de hecho, el cuartil dos es igual a la mediana. El primer cuartil Q1 deja acumulado el 25% de los datos de la variable. Se calcula con los siguientes pasos: - Primer paso: se halla n/4. - Segundo paso: se ubica el intervalo cuya frecuencia absoluta acumulada Fi contiene a n/4. -
Tercer paso: se calcula el primer cuartil por medio de la siguiente
ecuación:
n − Fi −1 4 Q1 = li + *c fi
Estadística
98
Nota: los componentes de la fórmula tienen la misma descripción que los componentes de la fórmula para el cálculo de la mediana. El cálculo del primer cuartil para el ejemplo del tiempo que tardan los expertos en realizar la auditoría de un proceso se detalla a continuación: Tabla 26. Primer cuartil para el tiempo que tarda (en minutos) un grupo de expertos en auditar un proceso Nº DE
TIEMPO EN
CLASE 1 2 3 4 5 6
MINUTOS 44.5 - 49.5 49.5 - 54.5 54.5 - 59.5 59.5 - 64.5 64.5 - 69.5 69.5 - 74.5
.
xi
fi
hi
Fi
Hi
47 52 57 62 67 72
2 9 12 11 9 7
4% 18% 24% 22% 18% 14%
2 11 23 34 43 50
4% 22% 46% 68% 86% 100%
Fuente: Datos hipotéticos
Primer paso: el total de datos es 50, por lo tanto n/4 es = 12.5 Segundo paso: en la frecuencia absoluta acumulada se ubica el valor de 12.5, el cual corresponde al tercer intervalo, con una frecuencia absoluta acumulada de 23 expertos. Tercer paso: se calcula el primer cuartil por medio de la ecuación, donde: li = 54.5
n /4 = 12.5 Fi −1 = 11 f i = 12 Estadística
99
c = 59.5 – 54.5 = 5 Luego, n − Fi −1 12.5 − 11 1 .5 Q1 = li + 4 * c = 54.5 + * 5 = 54.5 + * 5 = 54.5 + 0.62 = 55.12 fi 12 12
Lo que significa que el 25% de los expertos tarda menos de 55.12 minutos en realizar la auditoría del proceso. El segundo cuartil Q2 deja acumulado el 50% de los datos de la variable. Se calcula con los siguientes pasos: - Primer paso: se halla 2n/4 = n/2. - Segundo paso: se ubica el intervalo cuya frecuencia absoluta acumulada Fi contiene a n/2. -
Tercer paso: se calcula el segundo cuartil por medio de la siguiente
ecuación:
n − Fi −1 2 Q2 = li + *c fi
Nótese que los pasos y la fórmula para calcular el segundo cuartil son los mismos que los de la mediana.
En consecuencia, siempre el segundo
cuartil será igual a la mediana. Estadística
100
Luego, para el ejemplo del tiempo que tardan los expertos en realizar la auditoría de un proceso, Q2 = Me = 60.4 minutos. El tercer cuartil Q3 deja acumulado el 75% de los datos de la variable. Se calcula con los siguientes pasos: - Primer paso: se halla 3n/4. - Segundo paso: se ubica el intervalo cuya frecuencia absoluta acumulada Fi contiene a 3n/4. - Tercer paso: se calcula el tercer cuartil por medio de la siguiente ecuación:
3n − Fi −1 4 Q3 = li + *c fi
Luego, 3n − Fi −1 37.5 − 34 3 .5 Q3 = li + 4 * c = 64.5 + * 5 = 64.5 + * 5 = 64.5 + 0.22 = 64.72 fi 9 9
Lo que significa que el 75% de los expertos tarda menos de 64.72 minutos en realizar la auditoría del proceso. Deciles (D): valores que dividen los datos en diez partes iguales. Existen nueve deciles y se calculan de forma similar a los cuartiles. Estadística
101
El primer decil D1 deja acumulado el 10% de los datos de la variable. Se calcula con los siguientes pasos: - Primer paso: se halla n/10. - Segundo paso: se ubica el intervalo cuya frecuencia absoluta acumulada Fi contiene a n/10. - Tercer paso: se calcula el primer decil por medio de la siguiente ecuación:
n − Fi −1 D1 = li + 10 *c fi
Los demás deciles se calculan con el procedimiento similar al primer decil, teniendo en cuenta que, en el primer paso, para el segundo decil corresponde 2n/10; para el tercer decil, 3n/10; para el cuarto decil, 4n/10; para el quinto decil, 4n/10 = n/2; así sucesivamente hasta el decil nueve, con 9n/10. Nótese que, al calcular el decil cinco, en el primer paso se presenta el mismo planteamiento que para el segundo cuartil y para la mediana (n/2). Por tanto, el decil cinco es igual al cuartil dos y a la mediana. El cálculo del primer y noveno decil a partir del ejemplo de la tabla 23 para el tiempo que tardan los expertos en realizar la auditoría de un proceso se detallan a continuación. Estadística
102
n − Fi −1 0 .5 − 0 0 .5 D1 = li + 10 * c = 44.5 + * 5 = 44.5 + * 5 = 44.5 + 1.25 = 44.75 fi 2 2
9n − Fi −1 45 − 43 2 D9 = li + 10 * c = 69.5 + * 5 = 69.5 + * 5 = 69.5 + 1.43 = 70.93 fi 7 7
Percentiles (P): valores que dividen los datos en cien partes iguales. Existen 99 percentiles y se calculan de forma similar a los cuartiles y deciles. El primer percentil P1 deja acumulado el 1% de los datos de la variable. Se calcula con los siguientes pasos: - Primer paso: se halla n/100. - Segundo paso: se ubica el intervalo cuya frecuencia absoluta acumulada Fi contiene a n/100. -
Tercer paso: se calcula el primer percentil por medio de la siguiente
ecuación:
n − Fi −1 100 P1 = li + *c fi
Estadística
103
Los demás percentiles se calculan con el procedimiento similar al primer percentil, teniendo en cuenta que, en el primer paso, para el segundo percentil corresponde 2n/100; para el tercer percentil 3n/100; para el percentil 10, 10n/100; para el percentil 50, 50n/100 = n/2; así sucesivamente hasta el percentil 99, con 99n/100. Nótese que, al calcular el percentil 50, en el primer paso se presenta el mismo planteamiento que para el segundo cuartil, para el decil cinco y para la mediana (n/2).
Por tanto, el percentil 50 es igual al decil cinco, al
cuartil dos y a la mediana.
Gráfica 10. Relación entre cuartiles, deciles y percentiles Q1 1%
10%
2 0%
D1
Estadística
D2
Q2
25% 30%
D3
40%
D4
50%
D5
Q3 60%
70% 75% 80%
D6
D7
90%
D8
99%
D9
104
P1 ..P10 .. P20 P25 P30 ....P40 ..... P50 .. P60 ....P70 P75 P80 ...... P90 . P99
Me En la gráfica 10 se representa la distribución de cuartiles, deciles y percentiles, de la cual se deducen las siguientes relaciones: Q2 = D5 = P50 = Me, Q1 = P25 , Q3 = P75 D1 = P10 , D2 = P20 , D3 = P30 , D4 = P40 , D6 = P60 , D7 = P70 , D8 = P80 , D9 = P90
3.2. MEDIDAS DE VARIABILIDAD Además de las medidas de localización o de tendencia central, es necesario considerar medidas de dispersión o variabilidad, dado que dos conjuntos de datos pueden tener promedios similares, pero diferir en la dispersión de éstos. Las medidas de variabilidad de mayor uso en estadística son rango, rango intercuartil, varianza, desviación estándar y coeficiente de variación. 3.2.1. Rango El rango es la medida de dispersión más sencilla en un conjunto de datos. Se calcula por medio de la siguiente ecuación:
Rango = valor máximo – valor mínimo Estadística
105
Aunque el rango es la medida de dispersión más fácil de calcular, casi nunca se usa como la única medida de dispersión, debido a que se basa sólo en los valores extremos del conjunto de datos. Por ejemplo, para el tiempo que tardan los expertos en auditar un proceso, el rango sería: Rango = 74 – 45 = 29 minutos El rango debe interpretarse a partir de los valores extremos; es decir, mencionar entre qué valores está el rango. Para el ejemplo, se dice que la variación del tiempo de los expertos es de 29 minutos, el cual oscila entre 45 y 74 minutos.
3.2.2. Rango intercuartil El rango intercuartil (RIC) es una medida de dispersión que elimina la influencia de los valores extremos de un conjunto de datos. Se define como la diferencia entre el tercer cuartil Q3 y el primero Q1. En otras palabras, el rango intercuartil corresponde al rango del 50% intermedio de los datos.
Rango intercuartil (RIC) = Q3 - Q1
Para los datos del tiempo que tardan los expertos en realizar la auditoría de un proceso, los cuartiles son Q1 = 55.12 minutos y Q3 = 64.72 minutos. Así el rango intecuartil es Estadística
106
RIC = 64.72 – 55.12 = 9.6 minutos. El intervalo 55.12 a 64.72 suele denominarse mitad central y 9.6 minutos la dispersión media o rango intercuartil del tiempo que tardan los expertos en realizar la auditoría de un proceso. 3.2.3. Varianza La varianza es una medida de dispersión que emplea todos los datos. Se basa en la diferencia de cada observación (xi) y la media. La diferencia entre cada xi y el promedio ( x para una muestra y µ para una población) se llama desviación respecto al promedio.
Para una muestra, la desviación
respecto a la media se expresa como
( xi − x ) ;
para una población es
( xi − µ) . Para calcular la varianza, las desviaciones respecto al promedio se
elevan al cuadrado. Si el conjunto de datos es una población, el promedio de las desviaciones al cuadrado se llama varianza de la población y se representa con el símbolo griego σ 2 . Para una población con N observaciones o datos, cuando µ representa el promedio de esa población, la definición de la varianza de la población es:
σ
2
∑(x =
i
− µ )2
N
En la mayoría de los análisis estadísticos los datos analizados son una muestra. Cuando se calcula la varianza para la muestra, lo más importante
Estadística
107
es emplearla para estimar la varianza de todo el conjunto de datos, es decir, para la población. La varianza de la muestra (s2) es la suma de los cuadrados de las desviaciones con relación a la media aritmética, dividida entre el tamaño de la muestra menos 1.
s2 =
∑( x
i
− x) 2
n −1
Donde:
x
: media aritmética de la muestra
n : tamaño de la muestra xi : cada dato u observación de la variable X.
Si el denominador fuera n en lugar de n – 1, se obtendría el promedio de los cuadrados de las diferencias con respecto a la media.
Sin embargo, se
utiliza n – 1 debido a ciertas propiedades matemáticas deseadas que tiene el estadístico s2, las cuales lo hacen apropiado para hacer inferencias estadísticas. Al aumentar el tamaño de la muestra, la diferencia entre n y n – 1disminuye cada vez más. Cuando se calcula la varianza, las unidades en las cuales fueron medidos los datos causan confusiones. Como los valores que se suman al calcular la varianza, que son ( xi − x) 2 , se elevan al cuadrado, las unidades asociadas con la varianza de la muestra también se elevan al cuadrado. Por ejemplo, si
Estadística
108
se está calculando la edad en años para un grupo de empleados, la varianza tendrá (años)2. Las unidades al cuadrado asociadas con la varianza hacen difícil la interpretación. Por tanto, se recomienda que se tome la varianza como una medida útil para comparar el grado de dispersión de dos o más variables y, al compararlas, la que tienen mayor varianza tiene mayor dispersión o variabilidad. Por ejemplo, en la tabla 27 se presenta el salario, en millones de pesos, de los gerentes de una cadena de almacenes; calcular la varianza.
Tabla 27. Salario en millones de pesos de gerentes SALARIO
MEDIA DE LA
(millones)
MUESTRA
xi 3,5 4,5 6,0 8,0 10,0 15,0 20,0
9.57 9.57 9.57 9.57 9.57 9.57 9.57
x
DESVIACIÓN ( xi − x )
( xi − x) 2
-6.07 -5.07 -3.57 -1.57 0.43 5.43 10.42
36.84 25.70 12.74 2.46 0.18 29.48 108.78
∑( x
i
− x) = 0
∑( x
i
− x ) 2 = 216.18
Fuente: Datos hipotéticos
Estadística
109
Luego, la varianza será:
s
2
∑( x =
i
− x) 2
n −1
=
216.18 = 36.03 6
Cuando los datos están agrupados en frecuencias o por intervalos, la fórmula para la varianza puede ser transformada en la siguiente ecuación:
s2 =
∑x
2 i
n
* fi
−x
2
Donde:
x
: media aritmética de la muestra
n : tamaño de la muestra xi : cada dato u observación de la variable X o marca de clase si es
intervalo f i : frecuencia absoluta del valor de la variable X
Para los datos de tiempo que tardan los expertos en realizar la auditoría de un proceso, presentados en la tabla 10, la varianza sería: Tabla 28. Varianza para el tiempo que tardan los expertos en realizar la auditoría de un proceso
Estadística
110
Nº DE
TIEMPO EN
CLASE 1 2 3 4 5 6
MINUTOS 44.5 - 49.5 49.5 - 54.5 54.5 - 59.5 59.5 - 64.5 64.5 - 69.5 69.5 - 74.5
xi
fi
xi2
xi2 * f i
47 52 57 62 67 72
2 9 12 11 9 7 n = 50
2209 2704 3249 3844 4489 5184 2 i
4418 24336 38988 42284 40401 36288
Fuente: Datos hipotéticos
De la tabla 17 se tienen que el promedio es
s2 =
∑x
2 i
n
* fi
2
−x =
∑ x * f = 186.715 i
x = 60.7 ; luego
186.715 − (60.7) 2 = 3734.3 − 3684.49 = 49.81 50
3.2.4. Desviación estándar La desviación estándar se define como la raíz cuadrada positiva de la varianza. Se denota por s la desviación estándar de la muestra y por
σ la
desviación estándar de la población.
s=
s2
σ = σ2
La desviación estándar indica cómo se agrupa o distribuye un conjunto de datos alrededor de la media. Para la mayor parte de los conjuntos de datos, la mayoría de los valores observados cae dentro de un intervalo que corresponde a la media aritmética más o menos una desviación estándar. Esto implica que el intervalo comprendido entre
X −1S
y
X +1S
, por lo
general, incluye la mayoría de los valores de los datos. Por consiguiente, el Estadística
111
conocimiento de la media aritmética y la desviación estándar ayudan a definir en dónde se agrupa la mayor parte de los datos. Para los datos de tiempo que tardan los expertos en realizar la auditoría de un proceso, presentados en la tabla 26, la desviación estándar sería:
s=
s2 =
49.81 = 7.06
minutos
La desviación estándar del tiempo de los expertos es 7.06 minutos. Esto indica que los tiempos que tardan en realizar la auditoría del proceso para la mayor parte de los expertos se agrupan dentro de 7.06 minutos alrededor de la media 60.7 minutos; es decir, se agrupan entre X +1S = 67.76
X −1S = 53.64
y
minutos.
Finalmente, para comprender la variación de los datos se deben tener en cuenta los siguientes aspectos: Cuanto más dispersos estén los datos, mayores serán el rango, el rango
intercuartil, la varianza y la desviación estándar. Cuanto más concentrados u homogéneos sean los datos, menores serán
el rango, el rango intercuartil, la varianza y la desviación estándar. Si los datos son todos iguales (de manera que no hay variación de los
datos), el rango, el rango intercuartil, la varianza y la desviación estándar serán iguales a cero.
Estadística
112
Las medidas de variación (rango, rango intercuartil, varianza y desviación
estándar) nunca son negativas. 3.2.5. Coeficiente de variación El coeficiente de variación, denotado por CV, es una medida descriptiva que indica lo grande que es la desviación estándar en comparación con la media aritmética; se expresa en porcentaje y se calcula por medio de la siguiente ecuación:
CV =
S * 100 X
Para los datos del tiempo que tardan los expertos en realizar la auditoría de un proceso, el promedio es 60.7 minutos y la desviación estándar es 7.06 minutos. El coeficiente de variación sería:
CV =
S 7.06 * 100 = * 100 = 11.6% 60.7 X
Interpretando estos datos, el coeficiente de variación indica que la desviación estándar de la muestra es el 11.6% del valor de la media de la muestra. Como medida relativa, el coeficiente de variación resulta especialmente útil cuando se compara la variabilidad de dos o más conjuntos de datos, que se expresan en diferentes unidades de medida. Esto se muestra en el siguiente ejemplo, adaptado del texto Estadística para administración, de Mark L. Berenson y otros, página 120.
Estadística
113
Suponga que un inversionista desea adquirir acciones en una de dos compañía A o B, listadas en la Bolsa de Valores.
Si ninguna de las
compañías ofrece dividendos a sus clientes y ambas tienen igual clasificación (según los servicios de inversión) en términos del crecimiento potencial, el inversionista quizá considere la volatilidad o variabilidad de ambas acciones para ayudar en la decisión de inversión. Supóngase que cada acción de la compañía A ha promediado $150.000 en los últimos meses, con desviación estándar de $30.000. Además, durante el mismo período el precio promedio de las acciones en la compañía B fue de $36.000 con una desviación estándar de $12.000. ¿Cómo puede determinar el inversionista cuáles acciones son más variables? Solución En términos de las desviaciones estándar, el precio de las acciones de A parece más volátil o variable que el de las acciones de B. Sin embargo, como los precios promedio por acciones de las dos compañías son tan diferentes, es más conveniente que el inversionista considere la variabilidad del precio respecto al promedio con el fin de analizar la estabilidad de ambas acciones. Los coeficientes de variación para las compañías A y B serían:
CV A =
S $30.000 S $12.000 * 100 = * 100 = 20.0% y CVB = * 100 = * 100 = 33.3% $ 150 . 000 $36.000 X X
En consecuencia, en relación con la media, el precio de las acciones B es más variable que el de las acciones A. Estadística
114
3.3. MEDIDAS DE LOCALIZACIÓN Hasta el momento se han descrito algunas medidas de tendencia central y de dispersión. La media es la que más se usa como medida de tendencia central, mientras que la desviación estándar y la varianza son las más empleadas para la dispersión.
Las medidas de localización relativa se
apoyan en la media y la desviación estándar para ubicar valores particulares de un conjunto de datos.
3.3.1. Valores z Al usar la media y la desviación estándar se puede determinar la localización relativa de cualquier observación. Supóngase que hay una muestra de n datos, con sus valores representados por x1 , x2 , x1 x3 ,. . . .,xn . Además, se han calculado la media
x
y la desviación estándar s de la muestra. Existe
otro valor asociado con cada valor xi de los datos que se denomina valor z, el cual se calcula con la siguiente ecuación:
zi =
xi − x s
Donde, zi : valor de z del elemento xi x
: media de la muestra
s : desviación estándar de la muestra.
Estadística
115
Con frecuencia se le da el nombre de valor estandarizado al valor de z. El valor zi se interpreta como el número de desviaciones estándar que dista xi de promedio
x
. Por ejemplo, si zi = 1.2 indica que x1 es 1.2 desviaciones
estándar por encima de la media de la muestra.
Igualmente, z2 = −0.5
indica que x2 está a 0.5, o ½ desviación estándar por debajo de la media de la muestra.
Obsérvese que los valores de z positivos corresponden a
observaciones o datos con valores mayores que la media, y que los valores de z negativos corresponden a observaciones con valores menores que la media. Un valor z igual a cero indica que el valor de una observación es igual a la media. Los valores de z para el ejemplo de la tabla 25, donde se presenta el salario, en millones de pesos, de los gerentes de una cadena de almacenes, con media $9.57 millones y desviación estándar $6 millones, serán: Tabla 29. Valores z para el salario en millones de pesos de gerentes SALARIO (millones) xi 3,5 4,5 6,0 8,0 10,0 15,0 20,0
DESVIACIÓN ( xi − x )
-6.07 -5.07 -3.57 -1.57 0.43 5.43 10.42
VALOR Z xi − x s -1.01 -0.84 -0.60 -0.26 0.07 0.90 1.74
Fuente: Datos hipotéticos
Estadística
116
Obsérvese que el valor z de 1.74 para el séptimo dato indica que es el más alejado del promedio; está a 1.74 desviaciones estándar por encima del promedio. 3.3.2. Teorema de Chebyshev El teorema de Chebyshev permite inferir la proporción de valores que deben quedar dentro de una cantidad específica de desviaciones estándar respecto a la media.
Teorema de Chebyshev 1 Cuando menos 1 − 2 de los datos debe estar a menos de z desviaciones z estándar de separación respecto a la media, siendo z cualquier valor mayor que 1.
Por ejemplo, cuando z es igual a 2, 3 y 4 desviaciones estándar, se tienen las siguientes implicaciones a partir del teorema de Chebyshev: •
Cuando menos, el 0.75 o 75% de los datos debe estar a menos de 2 desviaciones de la media (z = 2).
•
Cuando menos, el 0.89 u 89% de los datos debe estar a menos de 3 desviaciones de la media (z = 3).
•
Cuando menos, el 0.94 o 94% de los datos debe estar a menos de 4 desviaciones de la media (z = 4).
Estadística
117
Como ejemplo de la aplicación del teorema de Chebyshev, supóngase que las puntuaciones de un examen de ingreso de 100 aspirantes al programa de Administración de una universidad tuvieron un promedio de 70 puntos y una desviación
estándar
de
5
puntos.
¿Cuántos
aspirantes
tuvieron
puntuaciones entre 60 y 80? ¿Cuántos entre 58 y 82? Para las puntuaciones de 60 a 80 se observa que el valor 60 está a dos desviaciones estándar por debajo del promedio: (60-70)/5 = -2, y que el valor 80, a dos desviaciones estándar por encima del promedio: (80-70)/5 = +2. Al aplicar el teorema de Chebyshev, cuando menos el 0.75 o 75% de los datos debe tener valores menores de dos desviaciones estándar del promedio. Así, cuando menos o mínimo 75 de los 100 aspirantes deben haber obtenido puntuaciones entre 60 y 80. Para las puntuaciones entre 58 y 82, (58-70)/5 = -2.4 indica que 58 están a 2.4 desviaciones estándar por debajo del promedio, y que (82-70)/5 = +2.4 indica que 82 están a 2.4 desviaciones estándar por encima del promedio. Aplicando el teorema de Chebyshev con z = 2.4 se obtiene: 1 1 1 − 2 = 1 − = 0.826 z ( 2. 4 ) 2
Lo que significa que, mínimo 82.6% de los aspirantes deben tener puntuaciones entre 58 y 82. La regla empírica
Estadística
118
Una de las ventajas del teorema de Chebyshev es que se aplica a cualquier conjunto de datos, independientemente de la forma de la distribución de los mismos. Sin embargo, en las aplicaciones prácticas se ha encontrado que muchos conjuntos de datos tienen una distribución en forma de colina o de campana.
Cuando se cree que los datos tienen aproximadamente esa
distribución, se puede aplicar la regla empírica para determinar el porcentaje de elementos que debe estar dentro de determinada cantidad de desviaciones estándar respecto al promedio.
Regla empírica para datos con distribución en forma de campana •
Aproximadamente 68% de los elementos están a menos de una desviación estándar de la media.
•
Aproximadamente 95% de los elementos están a menos de dos desviaciones estándar de la media.
•
Casi todos los elementos están a menos de tres desviaciones estándar de la media.
Por ejemplo, en una línea de producción se llenan, automáticamente, envases de plástico con detergente líquido. Con frecuencia, el volumen de llenado tiene una distribución en forma de campana. Si el volumen promedio de llenado es de 16 cm3 y la desviación estándar 0.25 cm3, se puede aplicar la regla empírica para concluir:
Estadística
119
•
Aproximadamente 68% de los envases llenos tienen entre 15.75 y 16.25 cm3 (esto es, menos de una desviación estándar de la media).
•
Aproximadamente 95% de los envases llenos tienen entre 15.50 y 16.50 cm3 (esto es, menos de dos desviaciones estándar de la media).
•
Casi todos los envases llenos tienen entre 15.25 y 16.75 cm 3 (esto es, menos de tres desviaciones estándar de la media).
3.3.3. Sesgo o forma El sesgo o forma es la manera como se distribuyen los datos. La distribución de los datos es simétrica (en forma de campana) o no lo es.
Si no es
simétrica, recibe el nombre de distribución asimétrica o sesgada. Para describir el sesgo o la forma, se deben comparar la media y la mediana. Si ambas medidas son iguales, por lo general se considera que los datos son simétricos (o con sesgo cero). Por el contrario, si la media es mayor que la mediana, los datos se describen como sesgados a la derecha, o con sesgo positivo. Si la media es menor que la mediana, los datos suelen llamarse sesgados a la izquierda, o con sesgo negativo. Es decir,
Media > Mediana: sesgo positivo o a la derecha Media = Mediana: simetría o sesgo cero Media < Mediana: sesgo negativo o a la izquierda
El sesgo positivo surge cuando la media aumenta debido a algunos valores grandes y poco usuales; el sesgo negativo ocurre cuando la media se reduce debido a algunos valores muy pequeños. Los datos son simétricos cuando Estadística
120
en realidad no hay valores extremos en ninguna dirección, de tal manera que los valores grandes y pequeños se equilibran. Gráfica 11. Forma o sesgo de un conjunto de datos
La grafica 11 muestra la forma o sesgo de tres conjuntos de datos. Los datos del primer cuadro son simétricos; cada mitad de la curva es la imagen del espejo de la otra mitad. Los valores grandes y pequeños se compensan, y la media es igual a la mediana. Los datos del cuadro del centro tienen sesgo negativo o a la izquierda. Se observan una cola larga y una distorsión hacia la izquierda, causadas por valores en extremo pequeños. Estos valores tan pequeños jalan la media hacia abajo y resulta menor que la mediana. Los datos del tercer cuadro tienen un sesgo positivo o a la derecha. Se observan una cola larga hacia la derecha de la distribución y una distorsión hacia la derecha, causadas por valores muy grandes. Estos valores en extremo grandes jalan la media hacia arriba y resulta mayor que la mediana. El sesgo para el ejemplo de la tabla 25, donde se presenta el salario, en millones de pesos, de los gerentes de una cadena de almacenes, con media $9.57 millones y mediana $8 millones, será positivo o a la derecha, dado que la media es mayor que la mediana. Además, el conjunto de datos presenta Estadística
121
un valor extremo muy alto, el cual atrae la media hacia el extremo derecho de la distribución. 3.3.4. Diagrama de caja o bigotes El diagrama de caja o bigotes es un resumen gráfico de los datos basado en el resumen de cinco números. En un resumen de cinco números se emplean cinco cantidades para resumir los datos: Valor mínimo Primer cuartil (Q1) Mediana (Me = Q2) Tercer cuartil (Q3) Valor máximo La forma más ágil de elaborar un resumen de 5 números es poner los datos en orden ascendente. Así facilita la identificación del valor mínimo, los tres cuartiles y el valor máximo. Por ejemplo, los salarios mensuales, en miles de pesos, de 12 egresados de un programa de Administración son 2.940, 2.920, 2.950, 2.710, 2.850, 2.755, 2.890, 2.880, 2.880, 3.130, 3.325 y 3.050. Organizando los datos y calculando los cuartiles, se tiene la siguiente distribución: 2710
2755
Estadística
2850
2880
2880
2890
2920
2940
2950
3050
3130
3325
122
Q1 = 2865
Q2 = 2905
Q3 = 3000
(Mediana)
Al analizar los datos anteriores se ve un valor mínimo de 2.710 y un valor máximo de 3.325 miles de pesos. Así, el resumen de los cinco números de los datos de salarios es 2.710, 2.865, 2.905, 3.000 y 3.325 miles de pesos. Aproximadamente una cuarta parte, 25% de los valores de los datos, están entre dos números adyacentes del resumen de cinco números. El diagrama de caja y bigotes resume gráficamente los cinco números. Los pasos para trazar un diagrama de caja y bigotes son los siguientes: •
Se traza un rectángulo con los extremos en el primer y tercer cuartiles. Este rectángulo contiene el 50% intermedio de los datos. Para los datos de salarios Q1 = 2.865 y Q3 = 3.000.
•
En la caja se traza una recta vertical en el lugar de la mediana (2.950 para los datos de salarios). Así, la línea de la mediana divide los datos en dos partes iguales.
•
Se ubican los límites mediante el rango intercuartil, RIC = Q 3 - Q1. Los límites en el diagrama de caja están a 1.5(RIC) por debajo de Q1 y 1.5(RIC) por encima de Q3 . Para los datos de salarios RIC = Q3 - Q1 = 3.000 – 2.865 = 135. Así, los límites son 2.865 – 1.5(135) = 2.662,5 y 3.000 + 1.5(135) = 3.202,5. Se considera que los datos fuera de estos límites son valores atípicos.
•
Los bigotes de la caja se trazan con líneas punteadas, desde los extremos de la caja hasta los valores mínimo y máximo dentro de los límites. Así, los bigotes terminan en los valores de salarios de 2.710 y 3.130.
Estadística
123
•
Por último, se marcan con un asterisco (*) las localizaciones de los valores atípicos. Para el ejemplo se localiza un valor atípico de 3.325.
Gráfica 12. Diagrama de caja y bigotes con líneas que muestran los límites
En la gráfica 12 se trazaron las líneas que indican el lugar de los límites con el fin de mostrar cómo se calculan éstos y dónde se ubican en el caso de los salarios. Aunque siempre se calculan, por lo general no se trazan en los diagramas de caja. En la gráfica 13 se muestra el aspecto habitual de un diagrama de caja y bigotes para los datos de los salarios. Estadística
124
Grafica 13. Diagrama de caja y bigotes de los sueldos mensuales de un grupo de egresados de un programa de Administración
Observación Al utilizar el diagrama de caja y bigotes se tiene la opción de identificar los mismos valores atípicos que los encontrados con el método de valores z: menores que –3 y mayores que +3. Sin embargo, el objetivo de ambos métodos es identificar elementos que se deben revisar para asegurar la validez de los datos. Se deben revisar los valores atípicos identificados por cualquiera de los métodos. Estadística
125
3.3.5. Curtosis La curtosis mide si los valores de la distribución están más o menos concentrados alrededor de los valores medios de la muestra. El coeficiente percentil de Curtosis (k) analiza el grado de concentración que presentan los valores alrededor de la zona central de la distribución; se calcula con la siguiente ecuación:
k=
1 2
(Q3 − Q1 ) P90 − P10
Donde, Q3: tercer cuartil. Q1: primer cuartil. P90: percentil 90. P10: percentil 10. Nota: es importante recordar que el P10 es igual al D1 y el P90 es igual al D9. Según el coeficiente de Curtosis, se definen 3 tipos de distribuciones, los cuales se ilustran en la gráfica 14: Gráfica 14. Tipos de distribución según el coeficiente de Curtosis
Estadística
126
Distribución mesocúrtica: presenta un grado de concentración medio alrededor de los valores centrales de la variable (el mismo que presenta una distribución simétrica o normal). El valor de k = 0.263. Distribución leptocúrtica: presenta un elevado grado de concentración alrededor de los valores centrales de la variable. El valor de k > 0.263. Distribución platicúrtica: presenta un reducido grado de concentración alrededor de los valores centrales de la variable. El valor de k < 0.263. Para el ejemplo de la tabla 23 del tiempo que tarda un grupo de expertos en realizar la auditoría de un proceso, Q1 = 55.12, Q3 = 64.72, P10 = D1 = 44.7 y P90 = D9 = 70.9. El coeficiente percentil de Curtosis (k) será:
(Q3 − Q1 ) 12 (64.72 − 55.12) 0.5(9.6) 4.8 k= = = = = 0.183 P90 − P10 70.9 − 44.7 26.2 26.2 1 2
Por lo tanto, el coeficiente percentil de Curtosis es 0.183, lo que quiere decir que se trata de una distribución platicúrtica, es decir, con una reducida concentración alrededor de los valores centrales de la distribución.
Estadística
127
Estadística
128
4. REGRESIÓN LINEAL Y CORRELACIÓN En las unidades anteriores se ha centrado la atención en el tratamiento de los valores que puede tomar una variable definida en una investigación, tanto en el nivel de muestra como en el de población.
Sin embargo,
frecuentemente las investigaciones implican considerar dos o más variables. Los procedimientos para el análisis de la relación de dos variables serán contemplados en esta unidad.
4.1. REGRESIÓN LINEAL SIMPLE La regresión es un método para determinar la relación existente entre una variable independiente y otra dependiente, con fines de predicción de esta última variable ante los cambios de la primera. La variable independiente o predictora suele representarse por X y la variable dependiente por Y. En algunos casos, la variable independiente se asocia con medidas de “causa” y la dependiente con medidas de “efecto”. En la producción industrial pueden ser variables independientes: el número de trabajadores, el tiempo de labor semanal, la cantidad de materia prima, entre otras. Y variables dependientes: el número de artículos producidos, los ingresos semanales, el posicionamiento en el mercado, etc. Obsérvese que
Estadística
129
las variables dependientes se muestran como “efecto” de las variables independientes o “causa” del proceso de producción. Por ejemplo, una compañía de bienes raíces residenciales en una ciudad desea predecir los costos mensuales del alquiler de apartamentos, basado en el área en metros cuadrados. Se seleccionó una muestra aleatoria con los siguientes datos: Tabla 30. Área y costo de alquiler de apartamentos APARTAMENTO 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25
ÁREA (m2) 79 135 101 114 67 138 106 67 65 89 102 119 184 127 109 114 116 117 107 83 126 97 70 93 111
COSTO MENSUAL (miles de pesos) 475 800 600 750 475 850 825 467 437 575 700 825 1150 900 700 725 550 850 600 575 800 825 600 400 875
Fuente: Adaptación del texto Estadística para administración. Berenson y otros, pág. 466.
Estadística
130
En este caso, se busca relacionar las variables área y costo mensual; donde la variable independiente (X) es el área, y la dependiente (Y), el costo mensual. 4.1.1. Diagrama de dispersión Cuando se toma una muestra de dos variables o bivariada, se obtiene una serie de pares de datos. Estas parejas son de la forma (x,y) y se pueden representar como puntos en un plano bidimensional o plano cartesiano; la representación gráfica de las parejas se conoce como diagrama de dispersión. La regresión lineal pretende encontrar una recta que represente todos los puntos que se encuentran en el plano cartesiano. En la gráfica 15 se ilustran algunos diagramas de dispersión. Gráfica 15. Representación de algunos diagramas de dispersión
Para el ejemplo de la tabla 30, el diagrama de dispersión se presenta en la gráfica 16. Estadística
131
Gráfica 16. Diagrama de dispersión para el área y costo de alquiler de apartamentos
El diagrama de dispersión muestra una relación lineal positiva; es decir, a medida que crece el área aumenta el valor del alquiler del apartamento. Adicionalmente, no se observa ningún valor atípico. 4.1.2. Ajuste de una recta por el método de mínimos cuadrados Sobre el diagrama de dispersión se puede trazar un sinnúmero de líneas rectas que represente el conjunto de datos y facilite la predicción para la variable dependiente.
Sin embargo, este método intuitivo es demasiado
subjetivo. El objeto de la regresión lineal consiste en determinar una recta de la forma yi = b0 + b xi ,
Estadística
que sea representativa del conjunto de datos muestrales; este
132
proceso se conoce como ajuste de una recta y se utiliza como procedimiento el método de mínimos cuadrados. En este sentido, el método de mínimos cuadrados es objetivo y no depende de la apreciación personal del investigador, sino de relaciones matemáticas preestablecidas. La tarea está en determinar los parámetros b0 y
b
en la ecuación de
regresión lineal simple yi = b0 + b xi , donde x i : es el i-ésimo valor de la variable X. yi : es el i-ésimo valor de la variable y b0 : es el valor que toma la variable dependiente "y", cuando la variable
independiente "x" vale 0, y es el punto donde la recta cruza el eje vertical. b
: determina la pendiente de la recta, su grado de inclinación.
Una vez hallados los parámetros b0 y
b
, los valores calculados a partir de
la ecuación de regresión se denominan valores estimados, y se representan por yˆ i . En el método de mínimos cuadrados se emplean los datos de la muestra para determinar los parámetros b0 y
b
que minimizan la suma de los
cuadrados de las desviaciones entre los valores observados de la variable dependiente yi y los valores estimados de la variable dependiente yˆ i . La desviación se obtiene entre la diferencia de los valores “reales” yi y los valores “estimados”
ˆ i ; por tanto, la suma de los cuadrados de las y
desviaciones debe ser mínima. Esto es, Estadística
133
min
∑( y
i
− yˆ i )
Con el cálculo diferencial se puede demostrar que los parámetros b0 y
b
que minimizan el cuadrado de las desviaciones son:
b =
n∑ xi yi − ∑ xi ∑ yi n∑ x − (∑ xi ) 2 i
y
b0 =
∑y
i
−b n
∑x
i
Los parámetros para el ejemplo de la tabla 30, se calculan a partir de los datos presentados en la tabla 31. Tabla 31. Valores para el cálculo de parámetros de la compañía de bienes raíz APARTAMENTO 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 Estadística
X 79 135 101 114 67 138 106 67 65 89 102 119 184 127 109 114 116 117 107 83 126 97 70 93 111
Y 475 800 600 750 475 850 825 467 437 575 700 825 1150 900 700 725 550 850 600 575 800 825 600 400 875
XY 37525 108000 60600 85500 31825 117300 87450 31289 28405 51175 71400 98175 211600 114300 76300 82650 63800 99450 64200 47725 100800 80025 42000 37200 97125
X2 6241 18225 10201 12996 4489 19044 11236 4489 4225 7921 10404 14161 33856 16129 11881 12996 13456 13689 11449 6889 15876 9409 4900 8649 12321
Y2 225625 640000 360000 562500 225625 722500 680625 218089 190969 330625 490000 680625 1322500 810000 490000 525625 302500 722500 360000 330625 640000 680625 360000 160000 765625
134
TOTAL
2.636
17.329
1.925.819
295.132
12.797.183
Fuente: Adaptación del texto Estadística para administración. Berenson y otros, pág. 466.
De la tabla 29 se tiene que:
∑x
i
= 2.636 ,
∑y
i
= 17.329 ,
∑x y i
i
= 1.925.819 ,
∑x
2 i
= 295.132 y n =
25 por tanto,
b =
n∑ xi yi − ∑ xi ∑ yi
b0 =
∑y
n∑ x − (∑ xi ) 2 i
i
−b n
∑x
i
=
=
25(1.925.819) − (2.636)(17.329) 2.466.231 = = 5,73804 25( 295.132) − (2.636) 2 429.804
17.329 − (5,73804)(2.636) 2.203,53 = = 88,14120 25 25
en consecuencia, el modelo de regresión para estimar el costo de alquiler mensual de un apartamento a partir del área será: yˆ = 88,14120 +5,73804 x
Este modelo representa la integración de todos los puntos ubicados en el diagrama de dispersión, y garantiza que la suma del cuadrado de las desviaciones es mínima, como se ilustra en la gráfica 17.
Gráfica 17. Modelo de regresión lineal para el área y costo de alquiler de apartamentos Estadística
135
Interpretación de bo y b bo = 88,1412 indica que cuando el cambio en el área es cero, el cambio esperado en el costo de alquiler mensual es de 88,1412 miles de pesos; es decir, que el costo de alquiler mensual aumenta 88,1412 miles de pesos. La pendiente b = 5,73804 señala que por cada incremento de 1 m2 en el área, se pronostica que el cambio esperado en el costo mensual de alquiler es de 5,73804 miles de pesos, cuyo significado es que se pronostica que el costo de alquiler aumenta 5,73804 miles de pesos por cada 1 m2 de incremento en el área. Predicciones Estadística
136
Con la ecuación de regresión encontrada, es posible predecir algunos valores para la variable dependiente a partir de la variable independiente Observación Cuando se utiliza un modelo de regresión con propósitos de pronóstico, es importante que se tenga en cuenta sólo el intervalo de valores que toma la variable independiente y que fueron usados para construir el modelo. Entonces, si se predice un valor de Y para un valor dado de X, es posible interpolar dentro de este intervalo de valores de X, pero no se debe extrapolar hacia fuera de este intervalo. Por ejemplo, cuando se usa el área en m2 para predecir el alquiler mensual, se observa en la tabla 29 que los metros cuadrados varían de 65 a 184. Por tanto, las predicciones de costos de alquiler mensual deben hacerse sólo para apartamentos con un área entre estas medidas. Cualquier pronóstico de costos de alquiler mensual con áreas fuera de este intervalo es poco confiable.
4.2. CORRELACIÓN Hasta el momento se ha considerado el problema de la regresión lineal simple o estimación de una variable dependiente a partir de una variable independiente. Sin embargo, surge el interrogante: ¿Qué tanto se relacionan las variables dependiente e independiente? La correlación pretende dar respuesta a esta pregunta e intenta medir el grado de asociación entre dos variables por medio de los coeficientes de correlación y determinación. 4.2.1. Coeficiente de correlación
Estadística
137
El coeficiente de correlación (r) es la medida de la intensidad de la relación entre dos variables. Se calcula con la ecuación
r=
n∑ xy − ( ∑ x )( ∑ y )
n∑ x 2 − ( ∑ x ) * n ∑ y 2 − ( ∑ y ) 2
2
Donde,
n∑xy − ( ∑x )( ∑y ) : desviación conjunta de los datos X y Y n ∑x 2 − ( ∑x ) : desviación de los datos X 2
n ∑y 2 − ( ∑y ) : desviación de los datos Y 2
El coeficiente de correlación toma valores comprendidos entre –1 y +1, de tal forma que cuando r = -1 ó r = +1 existe una correlación perfecta entre las variables. Esto es, todos los puntos del plano cartesiano están alineados (o se ajustan perfectamente) a la línea recta de la ecuación de regresión. Cuando r = 0, no existe correlación entre las variables.
La correlación
aumenta cuando r se acerca de 0 a +1 ó de 0 a –1. En la medida en que los puntos se acerquen a la recta, el coeficiente de correlación será más próximo a 1, y si los puntos se alejan de la recta, el coeficiente de correlación será más próximo a cero. Aunque la correlación o la medida de la intensidad de la relación puede oscilar entre –1 y +1, no existe una regla precisa para afirmar si la correlación es buena o mala entre las variables, ya que la calificación depende del rigor 138
Estadística
del estudio y la experiencia del investigador para juzgar los resultados de acuerdo con las expectativas planteadas. Sin embargo, en la tabla 32 se presenta un esquema que puede ayudar a la calificación de un modelo de regresión. Tabla 32. Calificación del modelo de regresión
r -0.1 -0.2 -0.3 -0.4 -0.5 -0.6 -0.7 -0.8 -0.9 -1.0
CALIFICACIÓN Correlación nula Correlación baja Correlación alta Máxima correlación
r 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0
Gráfica 18. Correlación entre dos variables
En la gráfica 18 se presenta la correlación entre dos variables. Obsérvese que en la correlación lineal positiva, la pendiente de la recta es positiva, y en la correlación lineal negativa, la pendiente es negativa.
Al calcular el
coeficiente de correlación, el signo debe ser el mismo del parámetro b 1, dado Estadística 139
que este parámetro corresponde a la pendiente de la recta.
En
consecuencia, existe una igualdad de signos entre la pendiente de la recta y el coeficiente de correlación. El coeficiente de correlación para el ejemplo de la tabla 29, en el cual se relaciona el área con el precio de alquiler de apartamentos sería:
r=
r=
n∑ xy − ( ∑ x )( ∑ y )
n∑ x 2 − ( ∑ x ) * n∑ y 2 − ( ∑ y ) 2
2
=
25(1.925.819) − (2.636)(17.329) 25(295.132) − (2.636) 2 * 25(12.797.183) − (17.329) 2
2.466.321 2.466.321 = = 0.8489 655,59 * 4.431,18 2.905.037,296
Como r = 0,8489 y la pendiente b1 es positiva, indica que hay alta correlación entre el área y el precio de alquiler de los apartamentos. 4.2.2. Coeficiente de determinación Para predecir una variable en función de otra predomina la incertidumbre, y la pregunta forzada es ¿qué tan bien se ajusta a los datos la ecuación de regresión? En este aparte se muestra que el coeficiente de determinación (r2) es una medida de la bondad de ajuste para una ecuación de regresión. El coeficiente de determinación (r2) expresa el porcentaje de variación de la variable dependiente causado o atribuido por la variación de la variable independiente.
Estadística
Coeficiente de determinación = (Coeficiente de correlación)2 * 100 r2 = (r)2 * 100 140
El coeficiente de determinación para el ejemplo de la tabla 29, en el cual se relaciona el área con el precio de alquiler de apartamentos, sería: r2 = ( 0,8489 )2 * 100 = 72% Este valor permite concluir que el 72% del aumento en el costo de alquiler del apartamento se debe al incremento en el área, el otro 28% se debe al cambio producido por otras variables que no fueron analizadas en el modelo (por ser regresión lineal simple). Además de los coeficientes de correlación y determinación, la correlación puede ser analizada con mayor profundidad por medio de la inferencia del coeficiente de correlación poblacional (p) (se lee rho), la cual incluye pruebas de hipótesis e intervalos de confianza para p.
Estadística
141
Estadística
142
Estadística
143
1.1 INTRODUCCIÓN
En nuestra vida aparecen a diario, no importa en el ámbito que nos estemos desenvolviendo, muchas situaciones bajo incertidumbre como, por ejemplo: qué posibilidad tengo de conseguir el empleo, qué posibilidad tengo de ganar la evaluación, qué posibilidad hay de que compren el producto, qué probabilidad hay de que una persona se recupere de la enfermedad, qué posibilidad hay de que todos los productos salgan bajo las especificaciones exigidas, qué posibilidad tengo de encontrar la información que necesito, etc. La respuesta a todas las preguntas anteriores tiene un grado de Incertidumbre, aunque tengamos alguna base para obtener las primeras respuestas. Pero existen otros casos en que las respuestas no dependen de conocimientos anteriores sino del azar. Como, por ejemplo, qué posibilidad tengo al lanzar un par de dados de obtener un 7 o un doble uno. En nuestro lenguaje cotidiano, palabras como “probablemente…”, “es poco probable que…”, “hay muchas posibilidades de que…” hacen referencia a esta incertidumbre. La teoría de la probabilidad pretende ser una herramienta para modelizar y tratar de obtener respuesta a estas incertidumbres. Cuando se aplican las técnicas estadísticas a la recogida, análisis e interpretación de los datos, la teoría de la probabilidad proporciona una base para evaluar la fiabilidad de las conclusiones alcanzadas y las inferencias realizadas. Debido al importante papel desempeñado por la probabilidad dentro de la estadística, es necesario familiarizarse con sus elementos básicos, lo que constituye el objetivo del presente tema.
Estadística
144
Al estudiar las probabilidades existen los siguientes objetivos: •
Familiarizar al estudiante con experiencias de la vida diaria en las que interviene el azar.
•
Entender los enfoques de la probabilidad más usuales así como sus peculiaridades, ventajas e inconvenientes.
•
Manejar el lenguaje de la probabilidad, sus propiedades y aplicarlo a problemas concretos.
•
1.2
Entender los teoremas de la probabilidad y su aplicabilidad.
¿QUÉ ES LA PROBABILIDAD?
La teoría de probabilidad es la teoría matemática que modela los fenómenos aleatorios. Estos deben contraponerse a los fenómenos determinísticos, en los cuales el resultado de un experimento, realizado bajo condiciones determinadas, produce un resultado único o previsible: por ejemplo, el agua calentada a 100 grados centígrados, a presión normal, se transforma en vapor. Un fenómeno aleatorio es aquel que, a pesar de realizarse el experimento bajo las mismas condiciones determinadas, tiene como resultados posibles un conjunto de alternativas, ejemplos: lanzar un dado o una moneda. O sea que la probabilidad es darle una medida o un valor a la incertidumbre.
Estadística
145
1.3
CONCEPTOS BÁSICOS DE PROBABILIDAD
1.3.1 Fenómeno experimento aleatorio.
Es el proceso mediante el cual
se obtiene una observación o una medida de un fenómeno o es aquel que en las mismas condiciones iniciales produce distintos resultados finales, que son conocidos por anticipado pero no se puede predecir con certeza el resultado en cada experiencia en particular. Ejemplo: lanzar una moneda, un dado, etc. 1.3.2 Fenómeno o experimento determinístico. Es aquel en el que las mismas condiciones provocan los mismos efectos, como por ejemplo: un capital bajo el mismo intervalo de tiempo, produce el mismo resultado. 1.3.3 Prueba. Es una observación particular. 1.3.4 Espacio muestral
(S).
Es el conjunto de todos los resultados
posibles de un experimento estadístico. Ejemplos: a. Considérese el experimento de lanzar un dado. Sus resultados posibles son:
S = (1,2,3,4,5,6).
b. Considérese el experimento de lanzar una moneda una sola vez. Sus resultados posibles son:
S= (cara, sello).
c. Considérese el experimento de lanzar una moneda dos veces.
Sus
resultados posibles son: S = [(Cara, cara), (cara, sello), (sello, cara), (sello, sello)]. Estadística
146
d. Un experimento consiste en lanzar una moneda al aire. Si sale cara, se lanza otra vez la moneda. Si sale sello, se lanza un dado una vez. Sus resultados posibles son: Sea C =Cara y S = Sello
e. Un experimento consiste en lanzar primero un dado y después lanzar una moneda, siempre y cuando el número en el dado sea par. Si el resultado del dado es impar, la moneda se lanza 2 veces. Encuentre el espacio muestral.
f. Si queremos lanzar una moneda 5 veces, al especificar todos los resultados posibles, es necesario saber cuántos resultados tendría, dado que es muy fácil perderse en el desarrollo. Habría
resultados posibles. Si queremos lanzar una moneda
10 veces habría
resultados posibles.
En muchos casos no es necesario desagregar los resultados posibles sino que es importante y necesario saber el total de resultados posibles en un experimento.
Dada la complejidad de los experimentos, en muchas
ocasiones es difícil saber el total de resultados posibles del experimento y es necesario utilizar fórmulas que son proporcionadas por una de las Estadística
147
herramientas de las matemáticas llamada técnicas de conteo. Tema que veremos más adelante.
1.3.5 Elemento o punto muestral. Es cada uno de los elementos o resultados del espacio muestral. 1.3.6 Evento. Un evento es un subconjunto de un espacio muestral. En muchos experimentos solo nos interesa averiguar ciertos elementos de un espacio muestral.
Ejemplo:
al lanzar un dado, solo nos
interesa encontrar los números primos. S = (1, 2, 3, 4, 5,6)
A = (1, 2,3, 5).
A∩ B.
1.3.7 Intersección de dos eventos A y B.
Es el evento que contiene a los elementos comunes a A y a B, o sea:
Gráficamente,
A
B
Ejemplo Sea el espacio muestral S = (0,1,2,3,4,5,6,7,8,9)
y los Eventos:
A = ( 1,2,3,4,5) Estadística
148
B = ( 0,1,3,6,8 ) C= (3,4,6,9) GRAFICANDO,
A
2
B
8 0 3 6
4 9
C 7
1. 2. 3. 4.
1.3.8 Unión de dos eventos a y b:
A∪ B.
Es el evento que contiene a todos los elementos que pertenecen a A o a B o a ambos. O sea:
Gráficamente, Estadística
149
Ejemplo Con el espacio muestral del ejercicio anterior, hallar los siguientes eventos:
1.3.9 Complemento de un evento a: A’.
Es el conjunto de todos los elementos de S (del espacio muestral) que no están en A, o sea:
Gráficamente,
S Estadística
150
A
Ejemplo Con el espacio muestral del ejercicio anterior, hallar los siguientes eventos:
Estadística
151
Estadística
152
2.1
TÉCNICAS DE CONTEO
Es una herramienta matemática que sirve para conocer el total de resultados posibles en un experimento estadístico. Las principales son:
Regla 2.1.1:
Principio de la multiplicación
Si un acontecimiento A puede ocurrir de m maneras diferentes, y si para cada una de esas m maneras posibles de ocurrencia de A, un segundo acontecimiento B puede ocurrir de n maneras diferentes, entonces, el número de manetas diferentes en que puede ocurrir el acontecimiento A seguido del acontecimiento B es m x n
Ejemplo 1: Sarita es una niña que vive en un distrito, tiene de vestuario 3 sombreros, 2 faldas y 2 blusas. Sarita desea vestir cada día de una manera diferente.
Su problema es saber en cuántos días puede salir a la calle
vestida de manera diferente. SOLUCIÓN Sea
= sombrero 1
=sombrero 2
= falda 1
= falda 2
=blusa 1
=blusa 2
= sombrero 3
El número de resultados finales: 3 sombreros
2 faldas
2 blusas
Número de resultados posibles o número de vestidos diferentes: Estadística
153
3x2x2=12
Según el diagrama de árbol, los resultados son:
Estadística
154
(S 1 (S 1 (S 1 (S 1
, , , ,
f f f f
1
,
1
,
2
,
2
,
b b b b
1)
(S 2 (S 2 (S 2 (S 2
2) 1) 2)
, , , ,
f f f f
1 , 1 , 2 , 2 ,
b b b b
1) 2) 1) 2)
(S 3 (S 3 (S 3 (S 3
, , , ,
f f f f
1 , 1 , 2 , 2 ,
b b b b
1) 2) 1) 2)
Ejemplo 2: ¿Cuáles son los resultados posibles al lanzar una moneda 3 veces? Solución
sea
c = cara
s = sello
El número de resultados finales: Primera moneda 2 resultados= c, s Segunda moneda 2 resultados=c, s Tercera moneda 2 resultado= c, s Total de resultados posibles= 2x2x2=8 resultados. C
C S
C
C S S C C S
S
C S S Estadística
155
Según el diagrama de árbol, los resultados son: (C,C,C),(C,C,S),(C,S,C)(C,S,S,),(S,C,C),(S,C,S),(S,S,C)(S,S,S). Ejemplo 3: Suponga que se seleccionan en forma aleatoria 3 artículos de un proceso de manufactura. Se examina cada uno de ellos y se les clasifica como D-Defectuosa y B-Bueno. ¿Cuáles son los resultados posibles?
Solución El número de resultados posibles: •
Primer artículo, dos resultados posibles = B,D
•
Segundo artículo, dos resultados posibles B,D
•
Tercer artículo, dos resultados posibles B,D
•
Total de resultados posibles= 2x2x2=8 resultados. B D D
B
B B D B D D
D
B B D
(B,D,B),(B,D,D),(B,B,B),(B,B,D),(D,D,B),(D,D,D,)(D,B,B,)(D,B,D). Estadística
156
Regla 2.1.2. Principio de permutación
Se define el número de permutaciones de n objetos como el total de maneras como se pueden ordenar o agrupar los n objetos el cual equivale a 1x2x3x ... x n = n ! , definido como factorial de n.
n! (factorial) es el producto de los enteros Desde 1 hasta n. 0! =1 Ejemplo 3! = 1.2.3 =6
5!=1.2.3.4.5=120
Ejemplo 4: ¿De cuántas maneras podemos organizar cuatro personas en una fila? Solución Sea
A la persona 1 B la persona 2 C la persona 3 D la persona 4.
Para saber el total de resultados posibles = 4! = 1.2.3.4= 24 resultados posibles:
Estadística
157
(A B C D) (A B D C) (A C B D) (A C D B) (A D B C) (A D C B)
(B A (B A (B C (B C (B D (B D
C D) DC) A D) DA) A C) C A)
(C A (C A (C B (C B (C D (C D
B D) DB) A D) DA) A B) B A)
(D A B (D A C (D B A (D B C (D C A (D C B
C) B) C) A) B) A)
Ejemplo 5. Se tiene un equipaje conformado de pantalones: P; camisas: C; y zapatos: Z. ¿De cuántas maneras se puede colocar en un armario de 3 compartimentos? Para saber el total de resultados posibles = 3! = 1.2.3.= 6 resultados posibles: (P C (P Z (Z P (Z C (C Z (C P
Z) C) C) P) P) Z)
Regla 2.1.3: Variaciones o permutaciones
Cuando se permutan u organizan de los n elementos, solo r ( r ≤ n), teniendo en cuenta o siendo importante el orden ya que tiene sentido, decimos que es una variación o permutación . Su fórmula:
Estadística
158
Ejemplo 6: Se tiene a cuatro concursantes para un primer y segundo puesto. ¿Cuáles son los resultados posibles para los cuatro concursantes?
Solución •
Sea A el concursante 1
•
Sea B el concursante 2
•
Sea C el concursante 3
•
Sea D el concursante 4
El total de resultados posibles:
(A B) (A C) (A D) (B C) (B D) (C D)
(B A) (C A) (D A) (C B) (D B) (D C)
(A,B) significa que el concursante A ocupó el primer puesto y B ocupó el segundo puesto. En cambio (B,A) significa que el concursante B ocupó el primer puesto y el concursante A ocupó el segundo puesto; estos dos resultados son diferentes.
Estadística
159
Ejemplo 7. Si en el ejercicio de las prendas (ejemplo 5), se tuvieran pantalones: P; interiores I; camisas: C; y zapatos: Z, ¿de cuántas maneras se pueden colocar en un armario de 3 compartimentos, teniendo en cuenta que la prenda sobrante se coloca en otro armario? Solución
El total de resultados posibles:
(P (P (P (I
I I C C
C) Z) Z) Z)
(P (P (P (I
C Z Z Z
I) I) C) C)
(I C (I P (C I (C I
P) Z) P) Z)
(I P (I Z (C P (C Z
C) P) I) I)
( ( ( (
C Z I Z
I I C I
P) P) P) C
(C (Z (I (Z
P P P C
I) I) C) I)
Regla 2.1.4: Combinaciones
Cuando se organizan de los n elementos, solo r ( r ≤ n), sin tener en cuenta el orden o al cambiar de orden no se pierde el sentido, decimos que es una combinación . Su fórmula:
Ejemplo 8: Se tienen cuatro reglas de salud: •
Regla A: no fumar
Estadística
160
•
Regla B: hacer ejercicios
•
Regla C: tomar 7 u 8 vasos diarios de agua
•
Regla D: comer verduras.
Si actualmente todas no se cumplen y se quieren cumplir 2 de ellas, ¿cuáles serían las opciones?
Solución El total de resultados posibles:
Si se tiene las soluciones (A,B) y (B, A) se está diciendo no fumar y hacer ejercicios, y para el segundo se está diciendo, hacer ejercicios y no fumar; este resultado es igual. Teniendo en cuenta lo anterior, los resultados quedarían:
(A B) (A C) (A D) (B C) (B D) (C D)
Estadística
161
Regla 2.1.5: Particiones El número de particiones distintas de n objetos en los cuales n1 son de una clase, n2 de una segunda clase, ..., nk de una k - ésima clase, coincide con el número de formas de hacer una partición de un conjunto de n objetos en k celdas con n1 objetos en la primera celda, n2 elementos en la segunda celda y así sucesivamente donde
Ejemplo 9: Un colegio participa en 4 partidos de fútbol en una temporada. ¿De cuántas maneras puede el equipo terminar la temporada con 2 victorias, 1 derrotas y 1 empate? •
Sea V victoria (2)
•
Sea D derrota (1)
•
Sea E empate (1)
Solución Para saber el número de resultados posibles.
Estadística
162
V V V V
V V D E
D E V V
E D E D
V V D D
D E V V
E D V E
V V E V
D E E E
E D V V
V V D V
V V V D
2.2
EJERCICIOS RESUELTOS
1.
Un vendedor de autos quiere presentar a sus clientes todas las
diferentes opciones con que cuenta: auto convertible, auto de 2 puertas y auto de 4 puertas, cualquiera de ellos con rines deportivos o estándar. ¿Cuántos y cuáles diferentes arreglos de autos y rines puede ofrecer el vendedor? Solución Para solucionar el problema se emplea la técnica de la multiplicación, (donde m es número de modelos y n es el número de tipos de rin).
Número total de arreglos = 3 x 2 = 6 arreglos diferentes
Sea m = 3 n=2
Estadística
A auto convertible
B 2 puertas
D rin deportivo
E rin estándar
C 4 puertas
163
D A
E D
B E
C
D E
De acuerdo con el diagrama de árbol, los resultados posibles son: (A,D),(A,E), (B,D),(B,E),(C,D),(C,E).
2
Suponga que hay ocho tipos de computadora pero solo tres espacios
disponibles para exhibirlas en la tienda de computadoras. ¿De cuántas maneras diferentes pueden ser arregladas las 8 máquinas en los tres espacios disponibles? Solución Para solucionar el problema se emplea la técnica de Permutación, (donde n es el número de máquinas y r es el número de espacios disponibles).
Estadística
164
Número total de arreglos
3. Una tarjeta de circuito impresa se puede comprar con cinco proveedores. ¿De cuántas maneras de pueden escoger tres proveedores de los cinco? Solución Para solucionar el problema se emplea la técnica de las combinaciones, (donde n son los 5 proveedores y r son los 3 proveedores a escoger).
Número total de arreglos
4. Un estudiante desea acomodar ocho libros en un anaquel. Calcule el número de maneras en que puede hacerlo si la condición es que: a. Tres libros específicos siempre deben quedar juntos. b. Tres libros específicos nunca deben quedar todos juntos.
Solución del numeral a
Estadística
165
En realidad los 8 puestos se convierten en 6; ya que 3 libros deben quedar juntos. Pero esos 3, a su vez, se pueden organizar de diferentes maneras. Supongamos que los libros 1,2,3 deben quedar juntos…..
LIBROS PUESTOS
1
2 1
3
4 2
5 3
6 4
7 5
8 6
Solución del numeral b 3 separados es lo contrario a los 3 juntos. Esto quiere decir que al organizar 8 libros (8!=40320) y al restarle los resultados de los 3 juntos (4320), nos quedan los resultados de los 3 separados.
5. Un comité de 5 personas se va a elegir entre 10 principales y 7 suplentes, ¿de cuántas maneras es posible si ha de haber más principales que suplentes? Solución Para que los principales sean más que los suplentes deben quedar: 3 principales y 2 suplentes o 4 principales y un suplente o 5 principales y 0 suplentes. .
Estadística
166
Recordemos que en matemáticas el conector y significa producto y el conector o significa suma
Estadística
167
3.1
SUCESOS PROBABILÍSTICOS
De acuerdo con la forma como ocurren dos o más sucesos probabilísticos estos pueden ser: 3.1.1 Sucesos independientes: son aquellos sucesos en donde la ocurrencia de uno de ellos no depende de la ocurrencia de otro u otros sucesos. Ejemplo: sacar de una urna una pelota blanca, si antes se sacó una pelota negra y se devolvió a la urna. 3.1.2 Sucesos dependientes: son aquellos sucesos en donde la ocurrencia de uno de ellos sí depende de la ocurrencia de otro u otros sucesos. Ejemplo: sacar de una urna una pelota blanca, si antes se sacó una pelota negra y no se devolvió a la urna. 3.1.3 Sucesos compatibles o mutuamente no excluyentes: son aquellos sucesos que pueden ocurrir al mismo tiempo o simultáneamente, es decir, la ocurrencia de uno de ellos no excluye la ocurrencia de otro u otros sucesos. Ejemplo: se lanzan dos dados al mismo tiempo, ¿puede salir el 1 o el 5? 3.1.4 Sucesos incompatibles o mutuamente excluyentes: son aquellos sucesos que no pueden ocurrir al mismo tiempo en forma simultánea, es decir, que la ocurrencia de uno de ellos excluye la ocurrencia de otro. O sea A∩ B = ∅
Ejemplo:
En el lanzamiento de dos
dados simultáneamente, sacar al mismo tiempo dos números pares y que su suma sea impar. Estadística
168
3.2
DEFINICIÓN DE PROBABILIDAD
La posibilidad de que se presente un evento resultante de un experimento estadístico se evalúa por medio de un conjunto de números reales llamados Probabilidades que caen en el rango (0,1). A cada punto en el espacio muestral se le asigna una probabilidad tal que la suma de todas las probabilidades tiene que ser igual a 1.
3.2.1. Modelo de probabilidad empírico o frecuencialista
El modelo de frecuencia relativa llamado también modelo a posteriori utiliza datos que se han observado empíricamente, registra la frecuencia con que ha ocurrido algún evento en el pasado y estima la probabilidad de que el evento ocurra nuevamente con base en estos datos históricos. La probabilidad de un evento con base en el modelo de frecuencia relativa se determina mediante:
Ejemplo Un resultado de Gregor J. Mendel (1822-1884)) en uno de sus experimentos con cruzamiento de plantas fue de 355 guisantes amarillos (A) y 123 verdes (V) o sea que la frecuencia relativa para los guisantes amarillos fue de Estadística
169
. En otro experimento obtuvo 315 guisantes amarillos y 108 verdes o sea que la frecuencia relativa para los guisantes amarillos fue de
.
La estabilidad de las frecuencias relativas
alrededor de 0.74 para la ocurrencia de guisantes amarillos y 0.26 para los guisantes verdes lo condujeron a formular la ley. Por lo tanto, se le llamó a la frecuencia constante la probabilidad del evento A. 3.2.2. Modelo subjetivo Es el grado de creencia personal de la posibilidad de que ocurra un suceso. Ejemplo: Posibilidad de que gane mi equipo favorito es de un 70%. 3.2.3. Modelo clásico En este enfoque se asume que todos los resultados de un experimento tienen la misma posibilidad de ocurrir. La probabilidad clásica de un evento A se determina
Ejemplo Se tiene una muestra de 20 artículos y 5 de ellos son defectuosos; al seleccionar uno en forma aleatoria, la probabilidad de que sea defectuoso es de 5/20 =0.25 y la probabilidad de que sea un artículo bueno es de 15/20=0.75. Estadística
170
3.2
REGLAS PRINCIPALES DE LA PROBABILIDAD
Para asignar probabilidades a los puntos muestrales se ha convenido:
REGLAS DE PROBABILIDAD
1
2
La probabilidad de cada punto
La suma de las probabilidades de todos
muestral debe estar entre 0 y 1, o
los puntos muestrales debe ser igual a
sea
uno
Antes de entrar a ver los axiomas de probabilidad es importante que se experimenten varios puntos: 1. Es necesario el conocimiento de la teoría de conjuntos para poder interpretar muchos problemas de probabilidades. 2. En muchos casos, no se necesitan las reglas de probabilidades para poder obtener la respuesta de probabilidad…; es suficiente tener buena interpretación de lo que se pregunta y tener clara la fórmula básica de probabilidad.
Estadística
171
Los casos favorables son aquellos que cumplen con la condición, y los casos posibles son todos los resultados posibles en un experimento estadístico (espacio muestral). Para comprobar lo anterior, se hará un ejemplo donde la respuesta es obtenida solamente utilizando la lógica y la fórmula anterior, y después se comprobará la respuesta utilizando las reglas de probabilidad. Ejemplo 1 de probabilidad En un curso, 10 alumnos aprobaron Historia, 15 aprobaron Matemáticas y 14 aprobaron Español; 3 alumnos aprobaron Español e Historia, 5 Matemáticas y Español, 3 aprobaron Matemáticas e Historia y 1 solo aprobó las 3 materias. Si seleccionamos un estudiante en forma aleatoria, hallar: a.
Probabilidad de que haya aprobado Matemáticas
b.
Probabilidad de que haya aprobado solamente Matemáticas
c.
Probabilidad de que no haya aprobado Matemáticas
d.
Probabilidad de que haya aprobado Matemáticas o Historia
e.
Probabilidad de que haya aprobado Historia y Español
f.
Si aprobó Español, ¿cuál es la probabilidad de que haya aprobado Historia?
Solución Para mayor comprensión es necesario realizar un Diagrama de Venn con toda la información que se tiene de los 10 estudiantes:
Estadística
172
29
M
E 4
7
8 2
1
2
5
H
a. Para hallar la probabilidad de que haya aprobado Matemática, se tienen como casos favorables los que aprobaron Matemáticas, que en este caso son 15, y como casos posibles, los estudiantes que se están analizando, que en este caso son 29. O sea la fórmula queda:
La probabilidad de que haya aprobado Matemática es de 51.72% o sea que el 51.72% de los estudiantes aprobaron Matemáticas. b. Para hallar la probabilidad de que haya aprobado solamente Matemática, se tienen como casos favorables, los estudiantes que aprobaron Matemáticas, y no Español ni Historia.
En este caso, son 8 los
estudiantes que solo aprobaron Matemáticas;
los casos posibles son
todos los estudiantes que se están analizando, que en este caso son 29. O sea la fórmula queda:
Estadística
173
. La probabilidad de que haya aprobado Matemática solamente es 27.59%, o sea, que el 27.59% de los estudiantes aprobó solamente Matemática. c. Para hallar la probabilidad de que no haya aprobado Matemàtica, se tienen como casos favorables 14 estudiantes que no aprobaron Matemática; como casos posibles, los estudiantes que se están analizando, que en este caso son 29.
. La probabilidad de que no haya aprobado Matemática es 48.28%, o sea, que el 48.28% de los estudiantes no aprobó Matemática.
d. Para hallar probabilidad de que haya aprobado Matemática o Historia, se utiliza la definición de unión en teoría de conjuntos, o sea, los que aprobaron Matemática o Historia o ambos, como casos favorables; en este caso son 22 los estudiantes y todos los casos posibles son todos los estudiantes que se están analizando que, en este caso, son 29.
. Matemática o Historia es
La probabilidad de que haya aprobado 75.86%,
o sea, que el 75.86% de los
estudiantes aprobaron Matemática o Historia. e. Para hallar la probabilidad de que haya aprobado Historia y Español se utiliza la definición de intersección en teoría de conjuntos, o sea, los que aprobaron tanto Español como Historia, como casos favorables; en este Estadística
174
caso son 3 los estudiantes y todos los casos posibles son todos los estudiantes que se están analizando, que en este caso son 29.
La probabilidad de que haya aprobado Historia y Español es 10.34%, o sea, que el 10.34% de los estudiantes aprobaron Historia y Español.
f. Para hallar la probabilidad de que haya aprobado Historia dado que aprobó Español, quiere decir que se conoce que aprobó Español y de ellos, cuántos aprobaron Historia. Por lo tanto, el total de casos posibles cambia; no son 29, sino que son el total que aprobó Español (14) y de ellos los casos favorables (los que aprobaron Historia) son 3.
.
La probabilidad de que haya aprobado
Historia dado que aprobó Español es 21.43%, o sea, que el 21.43% de los estudiantes que aprobaron Español, también aprobaron Historia.
¡observa que hasta ahora no se han necesitado los axiomas de probabilidad, para responder las preguntas. Solo se ha necesitado de tu buena interpretación y análisis! Para comprobar las preguntas anteriores, se utilizan los axiomas.
Estadística
175
3.3
AXIOMAS DE PROBABILIDAD
3.4.1 Teorema 1: Regla de la unión o suma Si A y B son dos eventos cualquiera, entonces la probabilidad de A o B
EVENTOS MUTUAMENTE
NO EXCLUYENTES
EXCLUYENTES
Ejemplo: Probabilidad de que haya aprobado Matemáticas o Historia (numeral d. del ejercicio anterior).
3.4.2 Teorema 2: Regla del complemento
Estadística
176
Si A’ es el complemento de A, entonces:
Ejemplo: Probabilidad de que no haya aprobado Matemática. (Numeral c. del ejercicio anterior).
3.4.3 Teorema 3: Probabilidad condicional A la probabilidad de que un evento A ocurra dado que un evento B ya ocurrió, se llama probabilidad condicional y se escribe
.
Donde A es la pregunta, y B es lo conocido, y su fórmula es:
Ejemplo: Si aprobó Español, ¿cuál es la probabilidad de que haya aprobado Historia? Estadística
177
(Numeral f. del ejercicio anterior). Otra forma de plantear la pregunta es: ¿cuál es la probabilidad de que haya aprobado Historia dado que aprobó Español?
3.4.4 Teorema 4: Regla de la multiplicación o intersección A la probabilidad de que ocurra un Evento A y B EVENTOS
DEPENDIENTES
INDEPENDIENTES
Ejemplo: Probabilidad de que haya aprobado Historia y Español. (Numeral e. del ejercicio anterior). Como son eventos dependientes,
Estadística
178
Ó
EJEMPLO 2 DE PROBABILIDAD La asociación de estudiantes de Estadística en una universidad muy grande quería determinar si hay una relación entre el interés de un estudiante por la Estadística y su capacidad para las Matemáticas.
Se selecciona una
muestra aleatoria de 200 estudiantes y se obtienen los siguientes resultados: 80 tienen capacidad baja para las Matemáticas, de los cuales 15 tienen interés medio en la Estadística. 90 tienen interés bajo por la Estadística, de los cuales 15 tienen capacidad media para las Matemáticas. 40 tienen interés alto por la Estadística de los cuales 10 tienen capacidad media para las Matemáticas. 50 tienen capacidad alta para las Matemáticas, de los cuales 25 tienen interés alto por la Estadística. Si se selecciona un estudiante en forma aleatoria, a. ¿Cuál es la probabilidad de que tenga capacidad alta para las
Matemática? b. ¿Cuál es la probabilidad de que tenga interés bajo o medio por la
estadística? c. ¿Cuál es la probabilidad de que tenga capacidad media para las
Matemáticas o un interés alto por la Estadística? d. ¿Cuál es la probabilidad de que no tenga capacidad alta para las Estadística
179
Matemáticas? e. ¿Cuál es la probabilidad de que tenga capacidad alta para las
Matemáticas, dado que su interés por la Estadística es bajo? f.
¿Cuál es la probabilidad de que tanto la capacidad para las Matemáticas como el interés por la Estadística sean medios?
Solución Para mayor comprensión del ejercicio, es adecuado llevar los datos a un Cuadro de contingencia o doble entrada.
1.
El 25% de los estudiantes tienen capacidad alta para las Matemáticas.
2. Como
los
eventos
son
mutuamente
excluyentes,
El 80% de los estudiantes tienen interés bajo o medio por la Estadística.
Estadística
180
CAPACIDAD MATEMÁTICAS
INTERÉS-ESTADÍSTICA OPCIÓN
ALTO
MEDIO
BAJO
TOTAL
ALTO
25
10
15
50
MEDIO
10
45
15
70
BAJO
5
15
60
80
TOTAL
40
70
90
200
3. Como los eventos son mutuamente no excluyentes,
EL
50%
de
los
estudiantes tienen capacidad media para las Matemáticas o un interés alto por la Estadística.
CAPACIDAD MATEMÁTICAS
INTERÉS-ESTADÍSTICA OPCIÓN
ALTO
MEDIO
BAJO
TOTAL
ALTO
25
10
15
50
MEDIO
10
45
15
70
BAJO
5
15
60
80
TOTAL
40
70
90
200
4.
El 75% de los estudiantes no tienen capacidad alta para las Matemáticas
5. Se sabe que el interés por Estadística es bajo; o sea que es una probabilidad condicional y su fórmula es:
Estadística
181
El 16.67% de los estudiantes que tienen interés bajo por la Estadística tienen una capacidad media para la Matemática.
CAPACIDAD MATEMÁTICAS
INTERÉS-ESTADÍSTICA OPCIÓN
ALTO
MEDIO
BAJO
TOTAL
ALTO
25
10
15
50
MEDIO
10
45
15
70
BAJO
5
15
60
80
TOTAL
40
70
90
200
6. Como los eventos son dependientes, la fórmula es:
El 7.5% de los estudiantes, tienen una capacidad media para las Matemáticas y un interés medio por la Estadística.
EJEMPLO 3 DE PROBABILIDAD La probabilidad de que un hombre casado vea un cierto programa de Estadística
182
televisión es de 0.4, y la de que una mujer del mismo estado civil lo haga, 0.5; la probabilidad de que un hombre vea el programa, dado de que su esposa lo hace, es de 0.7. Encuentre la probabilidad de que: 1.
Una pareja de casados vea el programa.
2.
Una esposa no vea el programa, dado que su esposo lo hace.
3.
Al menos una persona de un matrimonio vea el programa
4.
Ninguno de los dos vea el programa
Solución Parámetros: sea H: hombre casado
M: mujer casada.
1.
La probabilidad de que una pareja de casados vea el programa es de un 35%.
2.
Es más fácil si se obtiene el denominador de un Diagrama de Venn.
Estadística
183
PROBABILIDAD TOTAL
1
M
H 0.35
0.45
0.15
1
0.05
La probabilidad de que una esposa no vea el programa, dado que su esposo lo hace, es de 12.5%. 3.
La probabilidad de que al menos una persona de un matrimonio vea el programa es de 55%
4.
La probabilidad de que ninguno de los dos vea el programa es de 45%.
EJEMPLO 4 DE PROBABILIDAD Estadística
184
Suponga que en un estante de una biblioteca hay ocho libros de Física iguales (mismo autor, edición y título), excepto que cuatro son ediciones rústicas y los otros cuatro están empastados (o encuadernados). Suponga, además, que en forma sucesiva vienen tres lectores y cada uno de ellos pide a la bibliotecaria un ejemplar de ese libro para llevar a casa.
Si la
bibliotecaria los elige al azar, ¿cuál es la probabilidad de que al primero le toque empastado, al segundo rústico y al tercero también rústico? Solución El espacio muestral sería: (r, r, r, r, e, e, e, e). Sea A, el evento de sacar un libro empastado Sea B, el evento de sacar un libro rústico Sea C, el evento de sacar un libro rústico
La probabilidad de que al primero le toque empastado, al segundo rústico y al tercero también rústico es 14.29%.
Estadística
185
Estadística
186
4.1
INTRODUCCIÓN
De lo visto anteriormente en probabilidades y espacio muestral, se concluye que muchos experimentos son muy complejos dados los múltiples resultados. Una forma de suavizar o canalizar el tema de las probabilidades es por medio de fórmulas que asocien el experimento con una función o distribución de probabilidad de acuerdo con
sus características. Por ejemplo, son
muchos los experimentos que tienen que ver con solo dos posibles resultados (defectuoso-no defectuoso, ganar-perder, vivir-morir, vender-no vender, etc.); otros experimentos, tienen que ver con el número de resultados en un intervalo de tiempo o región específica (número de llamadas por minuto a un conmutador, número de artículos defectuoso por lote, número de clientes en un banco por mes, etc.); otros experimentes tienen que ver con la toma de una medida y bajo una situación normal (peso, tiempo, estatura, dimensiones, temperatura, área, etc.). Las fórmulas o distribuciones de probabilidad son una herramienta muy importante para solucionar problemas bajo incertidumbre sin necesidad de desarrollar todos los posibles resultados del experimento y de acuerdo con las características de la situación.
4.2
DISTRIBUCIÓN O FUNCIÓN DE PROBABILIDAD
Como ya se vio al principio del módulo, las variables aleatorias son aquellas que se asocian a la ocurrencia de un fenómeno aleatorio. Cuando una de Estadística
187
estas variables aleatorias toma diversos valores, la probabilidad asociada a cada uno de tales valores puede ser organizada como una distribución de probabilidad, la cual es la distribución de las probabilidades asociadas a cada uno de los valores de la variable aleatoria. Las distribuciones de probabilidad pueden representarse a través de una tabla, una gráfica o una fórmula, en cuyo caso a
tal regla de
correspondencia se le denomina función de probabilidad.
Existen dos tipos de distribuciones; distribuciones de probabilidad para variables discretas y para variables continuas.
Para una variable discreta, la distribución de probabilidades es, por lo general, una tabla que asocia una probabilidad a cada valor que puede tomar la variable aleatoria. La probabilidad de que la variable esté dentro de un rango de valores se halla por medio de la suma de todos los enteros que estén dentro del rango, incluyendo los extremos. Por ejemplo:
Al considerar las variables continuas se encuentra uno el problema de que, lo más probable, los datos que se puedan recabar no sean completamente exactos, o dos o más de ellos no coincidan, por lo que se tienen que trabajar en intervalos y, en ese momento, modelar una función se convierte en un problema serio. Sin embargo, se pueden realizar aproximaciones y describir la probabilidad a través de modelos teóricos de probabilidad cuya gráfica es una línea continua, a diferencia de las variables discretas que les corresponde un Estadística
188
histograma. La probabilidad de que la variable esté dentro de un rango de valores no se puede hallar por medio de la suma, dado que sería una suma infinita; en estos casos la probabilidad se halla por medio de la integral definida o sea:
En distribuciones continuas de probabilidad, la probabilidad de que X tome un valor exacto es igual a cero; esto quiere decir que no existe la igualdad.
¡NO OLVIDAR!
Estadística
189
4.2.1 Paralelo entre la distribución discreta y la continua de
probabilidad
Condiciones para que
DISCRETA 1.
CONTINUA
sea distribución de probabilidad 2.
Esperanza matemática
Varianza matemática
4.3
ALGUNAS DISTRIBUCIONES DISCRETAS DE PROBABILIDAD
4.3.1 Distribución binomial 4.3.1.1 Características Estadística
190
•
En cada prueba del experimento sólo son posibles dos resultados: el suceso A y su contrario A’, como por ejemplo, defectuoso-no defectuoso, ganó-perdió, sobrevivió-no sobrevivió, cara-sello, etc.
•
El suceso A se conoce como éxito (se representa por p) y el suceso contrario A’ se conoce como fracaso (se representa por q y es igual a 1-p.
•
El resultado obtenido en cada prueba es independiente de los resultados obtenidos anteriormente.
•
El éxito y, por ende, el fracaso se dan en términos de probabilidad y son parámetros poblacionales obtenidos de conocimientos
y/o
experiencias de estudios anteriores. •
El experimento consta de un número n de pruebas o muestras.
•
El objetivo de la distribución binomial es buscar la probabilidad de éxito en la muestra
Todo experimento que tenga estas características se dice que sigue el modelo de la distribución binomial. A la variable x, que expresa el número de éxitos obtenidos en cada prueba del experimento, se le llama variable aleatoria binomial. La variable binomial es una variable aleatoria discreta y sólo puede tomar los valores 0, 1, 2, 3, 4, ..., n suponiendo que se han realizado n pruebas. 4.3.1.2 Estadística
Función de probabilidad de la v.a. binomial 191
Función de probabilidad de la distribución binomial, para hallar la probabilidad de obtener x-éxitos en la muestra.
Ejemplo 1 La probabilidad de que una determinada vacuna surta efecto es de 0.8. Calcule la probabilidad de
que una vez administrada a 15 pacientes:
a)
A ninguno le surta efecto
b)
A 12 les surta efecto.
c)
A máximo 3 no les surta efecto.
d)
A mínimo 13 les surta efecto
e).
De 10 a 12 no les surta efecto
Solución: Se trata de una distribución binomial con los siguientes parámetros:
a).
•
Probabilidad de que la vacuna surta efecto:
0.8
•
Probabilidad de que la vacuna no surta efecto
0.2
•
Tamaño de muestra:
15
Para la primera pregunta: la probabilidad de que a ninguno le surta
efecto, el : Estadística
192
•
Éxito poblacional p=0.8
•
Fracaso poblacional q=0.2
•
Éxito de la muestra= a ninguno de la muestra, les surta efecto o sea P(x=0)
No hay posibilidad de que de los 15, a ninguno le surta efecto b).
Para la probabilidad de que a 12 les surta efecto,
el
•
Éxito poblacional p=0.8
•
Fracaso poblacional q=0.2
•
Éxito de la muestra= a 12 de la muestra, les surta efecto o sea P(x=12)
La posibilidad de que de los 15 a 12 les surta efecto es de un 25.01% c)
Para la probabilidad de que a máximo 3 no les surta efecto, el: •
Éxito poblacional p=0.2
•
Fracaso poblacional q=0.8
•
Éxito de la muestra= a 0, 1 ,2 o 3 de los de la muestra, no les surta efecto o sea
Estadística
193
La posibilidad de que de los 15, a máximo 3 no les surta efecto, es de 64.89%. d)
Para la probabilidad de que mínimo a 13 les surta efecto, el: •
Éxito poblacional p=0.8
•
Fracaso poblacional q=0.2
•
Éxito de la muestra= a 13,14 o 15 de los de la muestra, les surta efecto, o sea,
La posibilidad de que de los 15, a mínimo 13 les surta efecto es de 39.8%. e).
Para la probabilidad de que, de 10 a 12 no les surta efecto, el:
Estadística
194
•
Éxito poblacional p=0.2
•
Fracaso poblacional q=0.8
•
Éxito de la muestra= a 10,11 o 12 de los de la muestra, no les surta efecto, o sea,
No hay posibilidad de que de los 15, a 10,11 ó 12 no les surta efecto la vacuna.
Ejemplo 2 Una empresa productora sabe por experiencia que el 10% de sus artículos salen defectuosos. Un cliente interesado en los artículos decide hacer un pedido significativo, siempre y cuando al seleccionar una muestra aleatoria de tamaño 5, no más de un artículo salga defectuoso.
¿Cuál es la
probabilidad de que haga el pedido?
Solución: Estadística
195
Se trata de una distribución binomial con los siguientes parámetros: Probabilidad de éxito:
p= 0.1
Probabilidad de fracaso:
q=0.9
Tamaño de muestra:
n=5
Criterio de aceptación o compra: encontrar en la muestra máximo 10 artículos defectuosos o sea,
La posibilidad de que el cliente compre es de un 91.86%
4.3.1.3
Tablas de probabilidad acumulada de la distribución binomial
En muchos casos, hallar la probabilidad resulta largo y se tiene mayor riesgo de una equivocación en su cálculo.
Para solucionar esto, se crearon unas
tablas de probabilidad acumulada que facilitan la solución de problemas binomiales. La tabla acumulada de probabilidad binomial tiene los siguientes parámetros:
(ver anexo A) Estadística
196
Número de éxitos en la muestra (CONTINUACIÓN)
TABLA ACUMULADA DE LA DISTRIBUCIÓN BINOMIAL
Probabilidad de éxito p
p n
x
0,10
9
0 1 2 3 4 5 6 7 8 9 Tamaño de
0,20
0,25
0,30
0,40
0,50
0,60
0,70
0,80
0,90
0,3874 0,1342 0,7748 0,4362 0,9470 0,7382 0,9917 0,9144 0,9991 0,9804 0,9999 0,9969 1,0000 0,9997 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 muestra n
0,0751 0,3003 0,6007 0,8343 0,9511 0,9900 0,9987 0,9999 1,0000 1,0000
0,0404 0,1960 0,4628 0,7297 0,9012 0,9747 0,9957 0,9996 1,0000 1,0000
0,0101 0,0705 0,2318 0,4826 0,7334 0,9006 0,9750 0,9962 0,9997 1,0000
0,0020 0,0195 0,0898 0,2539 0,5000 0,7461 0,9102 0,9805 0,9980 1,0000
0,0003 0,0038 0,0250 0,0994 0,2666 0,5174 0,7682 0,9295 0,9899 1,0000
0,0000 0,0004 0,0043 0,0253 0,0988 0,2703 0,5372 0,8040 0,9596 1,0000
0,0000 0,0000 0,0003 0,0031 0,0196 0,0856 0,2618 0,5638 0,8658 1,0000
0,0000 0,0000 0,0000 0,0001 0,0009 0,0083 0,0530 0,2252 0,6126 1,0000
Para trabajar con la tabla binomial se deben seguir los siguientes pasos: (ver tabla anterior) 1. Matematizar la pregunta. 2. Como la tabla es acumulada, se debe llevar la pregunta a menor e igual , con la siguientes reglas: a. b. c. d. e. f. g. Estadística
197
3. Se busca en la primera columna el tamaño de la muestra n 4. Se busca en la primera fila la probabilidad de éxito p 5. Se busca en la segunda columna el valor de X. 6. La intersección entre la segunda columna probabilidad acumulada. O sea la
(x) y el valor de p, es la
.
Ejemplo 3 Volviendo al ejemplo 6.1, y resolviéndolo por medio de la tabla acumulada binomial, se tiene: a)
A ninguno le surta efecto
•
Éxito poblacional p=0.8
•
Fracaso poblacional q=0.2
•
Éxito de la muestra= a ninguno de la muestra, les surta efecto o sea P(x=0) p
b).
n
x
0,10
0,20
0,25
0,30
0,40
0,50
0,60
0,70
0,80
0,90
15
0
0,2059
0,0352
0,0134
0,0047
0,0005
0,0000
0,0000
0,0000
0,0000
0,0000
1
0,5490
0,1671
0,0802
0,0353
0,0052
0,0005
0,0000
0,0000
0,0000
0,0000
2
0,8159
0,3980
0,2361
0,1268
0,0271
0,0037
0,0003
0,0000
0,0000
0,0000
3
0,9444
0,6482
0,4613
0,2969
0,0905
0,0176
0,0019
0,0001
0,0000
0,0000
4
0,9873
0,8358
0,6865
0,5155
0,2173
0,0592
0,0093
0,0007
0,0000
0,0000
5
0,9978
0,9389
0,8516
0,7216
0,4032
0,1509
0,0338
0,0037
0,0001
0,0000
6
0,9997
0,9819
0,9434
0,8689
0,6098
0,3036
0,0950
0,0152
0,0008
0,0000
7
1,0000
0,9958
0,9827
0,9500
0,7869
0,5000
0,2131
0,0500
0,0042
0,0000
8
1,0000
0,9992
0,9958
0,9848
0,9050
0,6964
0,3902
0,1311
0,0181
0,0003
9
1,0000
0,9999
0,9992
0,9963
0,9662
0,8491
0,5968
0,2784
0,0611
0,0022
10
1,0000
1,0000
0,9999
0,9993
0,9907
0,9408
0,7827
0,4845
0,1642
0,0127
11
1,0000
1,0000
1,0000
0,9999
0,9981
0,9824
0,9095
0,7031
0,3518
0,0556
12
1,0000
1,0000
1,0000
1,0000
0,9997
0,9963
0,9729
0,8732
0,6020
0,1841
13
1,0000
1,0000
1,0000
1,0000
1,0000
0,9995
0,9948
0,9647
0,8329
0,4510
14
1,0000
1,0000
1,0000
1,0000
1,0000
1,0000
0,9995
0,9953
0,9648
0,7941
15
1,0000
1,0000
1,0000
1,0000
1,0000
1,0000
1,0000
1,0000
1,0000
1,0000
Para la probabilidad de que a 12 les surta efecto,
Estadística
198
•
Éxito poblacional p=0.8
•
Fracaso poblacional q=0.2
•
Tamaño de muestra n=15
p n
x
0,10
0,20
0,25
0,30
0,40
0,50
0,60
0,70
0,80
0,90
15
0
0,2059
0,0352
0,0134
0,0047
0,0005
0,0000
0,0000
0,0000
0,0000
0,0000
1
0,5490
0,1671
0,0802
0,0353
0,0052
0,0005
0,0000
0,0000
0,0000
0,0000
2
0,8159
0,3980
0,2361
0,1268
0,0271
0,0037
0,0003
0,0000
0,0000
0,0000
3
0,9444
0,6482
0,4613
0,2969
0,0905
0,0176
0,0019
0,0001
0,0000
0,0000
4
0,9873
0,8358
0,6865
0,5155
0,2173
0,0592
0,0093
0,0007
0,0000
0,0000
5
0,9978
0,9389
0,8516
0,7216
0,4032
0,1509
0,0338
0,0037
0,0001
0,0000
6
0,9997
0,9819
0,9434
0,8689
0,6098
0,3036
0,0950
0,0152
0,0008
0,0000
7
1,0000
0,9958
0,9827
0,9500
0,7869
0,5000
0,2131
0,0500
0,0042
0,0000
8
1,0000
0,9992
0,9958
0,9848
0,9050
0,6964
0,3902
0,1311
0,0181
0,0003
9
1,0000
0,9999
0,9992
0,9963
0,9662
0,8491
0,5968
0,2784
0,0611
0,0022
10
1,0000
1,0000
0,9999
0,9993
0,9907
0,9408
0,7827
0,4845
0,1642
0,0127
11
1,0000
1,0000
1,0000
0,9999
0,9981
0,9824
0,9095
0,7031
0,3518
0,0556
12
1,0000
1,0000
1,0000
1,0000
0,9997
0,9963
0,9729
0,8732
0,6020
0,1841
13
1,0000
1,0000
1,0000
1,0000
1,0000
0,9995
0,9948
0,9647
0,8329
0,4510
14
1,0000
1,0000
1,0000
1,0000
1,0000
1,0000
0,9995
0,9953
0,9648
0,7941
15
1,0000
1,0000
1,0000
1,0000
1,0000
1,0000
1,0000
1,0000
1,0000
1,0000
c)
Para la probabilidad de que a máximo 3 no les surta efecto, el:
•
Éxito poblacional p=0.2
•
Fracaso poblacional q=0.8
•
Tamaño de muestra n=15
Estadística
199
p n
x
0,10
0,20
0,25
0,30
0,40
0,50
0,60
0,70
0,80
0,90
15
0
0,2059
0,0352
0,0134
0,0047
0,0005
0,0000
0,0000
0,0000
0,0000
0,0000
1
0,5490
0,1671
0,0802
0,0353
0,0052
0,0005
0,0000
0,0000
0,0000
0,0000
2
0,8159
0,3980
0,2361
0,1268
0,0271
0,0037
0,0003
0,0000
0,0000
0,0000
3
0,9444
0,6482
0,4613
0,2969
0,0905
0,0176
0,0019
0,0001
0,0000
0,0000
4
0,9873
0,8358
0,6865
0,5155
0,2173
0,0592
0,0093
0,0007
0,0000
0,0000
5
0,9978
0,9389
0,8516
0,7216
0,4032
0,1509
0,0338
0,0037
0,0001
0,0000
6
0,9997
0,9819
0,9434
0,8689
0,6098
0,3036
0,0950
0,0152
0,0008
0,0000
7
1,0000
0,9958
0,9827
0,9500
0,7869
0,5000
0,2131
0,0500
0,0042
0,0000
8
1,0000
0,9992
0,9958
0,9848
0,9050
0,6964
0,3902
0,1311
0,0181
0,0003
9
1,0000
0,9999
0,9992
0,9963
0,9662
0,8491
0,5968
0,2784
0,0611
0,0022
10
1,0000
1,0000
0,9999
0,9993
0,9907
0,9408
0,7827
0,4845
0,1642
0,0127
11
1,0000
1,0000
1,0000
0,9999
0,9981
0,9824
0,9095
0,7031
0,3518
0,0556
12
1,0000
1,0000
1,0000
1,0000
0,9997
0,9963
0,9729
0,8732
0,6020
0,1841
13
1,0000
1,0000
1,0000
1,0000
1,0000
0,9995
0,9948
0,9647
0,8329
0,4510
14
1,0000
1,0000
1,0000
1,0000
1,0000
1,0000
0,9995
0,9953
0,9648
0,7941
15
1,0000
1,0000
1,0000
1,0000
1,0000
1,0000
1,0000
1,0000
1,0000
1,0000
d)
Para la probabilidad de que mínimo a 13 les surta efecto, el:
•
Éxito poblacional p=0.8
•
Fracaso poblacional q=0.2
•
Tamaño de muestra n=15
p n
x
0,10
0,20
0,25
0,30
0,40
0,50
0,60
0,70
0,80
0,90
15
0
0,2059
0,0352
0,0134
0,0047
0,0005
0,0000
0,0000
0,0000
0,0000
0,0000
1
0,5490
0,1671
0,0802
0,0353
0,0052
0,0005
0,0000
0,0000
0,0000
0,0000
2
0,8159
0,3980
0,2361
0,1268
0,0271
0,0037
0,0003
0,0000
0,0000
0,0000
3
0,9444
0,6482
0,4613
0,2969
0,0905
0,0176
0,0019
0,0001
0,0000
0,0000
4
0,9873
0,8358
0,6865
0,5155
0,2173
0,0592
0,0093
0,0007
0,0000
0,0000
5
0,9978
0,9389
0,8516
0,7216
0,4032
0,1509
0,0338
0,0037
0,0001
0,0000
6
0,9997
0,9819
0,9434
0,8689
0,6098
0,3036
0,0950
0,0152
0,0008
0,0000
7
1,0000
0,9958
0,9827
0,9500
0,7869
0,5000
0,2131
0,0500
0,0042
0,0000
8
1,0000
0,9992
0,9958
0,9848
0,9050
0,6964
0,3902
0,1311
0,0181
0,0003
9
1,0000
0,9999
0,9992
0,9963
0,9662
0,8491
0,5968
0,2784
0,0611
0,0022
10
1,0000
1,0000
0,9999
0,9993
0,9907
0,9408
0,7827
0,4845
0,1642
0,0127
11
1,0000
1,0000
1,0000
0,9999
0,9981
0,9824
0,9095
0,7031
0,3518
0,0556
12
1,0000
1,0000
1,0000
1,0000
0,9997
0,9963
0,9729
0,8732
0,6020
0,1841
13
1,0000
1,0000
1,0000
1,0000
1,0000
0,9995
0,9948
0,9647
0,8329
0,4510
14
1,0000
1,0000
1,0000
1,0000
1,0000
1,0000
0,9995
0,9953
0,9648
0,7941
15
1,0000
1,0000
1,0000
1,0000
1,0000
1,0000
1,0000
1,0000
1,0000
1,0000
Estadística
200
e) Para la probabilidad de que, de 10 a 12 no les surta efecto, el: •
Éxito poblacional p=0.2
•
Fracaso poblacional q=0.8
•
Tamaño de muestra n=15
(Ver anexo tablas de probabilidad)
4.3.1.4
Parámetros de la distribución binomial
Media
µ=np
Varianza
σ 2 = npq
Desviación típica
σ = npq
Ejemplo 4 La probabilidad de que el carburador de un coche salga de fábrica defectuoso es del 8 por 100. Hallar: a) El número de carburadores defectuosos Esperados en un lote de 548 b) La varianza y la desviación típica. Solución: Estadística
201
Parámetros: Probabilidad de éxito: Probabilidad de fracasos: Tamaño de muestra= 548 a) b)
Interpretación En promedio se espera que salgan aproximadamente 44 carburadores defectuosos, con una variación de aproximadamente 6 carburadores.
4.3.2 DISTRIBUCIÓN HIPERGEOMÉTRICA Los experimentos que tienen este tipo de distribución tienen las siguientes características: a) Igual que en la distribución binomial, trabaja con los experimentos que tienen solo dos resultados posibles. b) Se conoce el tamaño de la población. La población se obtiene por lo general por medio de un lote, producción, caja, o sea, un total, del cual se extrae una muestra aleatoria para ser analizada. c) De la población se tienen dos características: Estadística
Una llamada éxito (se denota por K) 202
-
Otra llamada fracaso (se denota por N-K)
d) El éxito y el fracaso poblacional de la distribución se dan en términos de cantidad y son obtenidos por experiencia y/o estudios anteriores. e)
Cada ensayo o repetición del experimento no es independiente de los demás.
d)
Se selecciona una muestra aleatoria de tamaño n y se busca la probabilidad de exitos (x) en la muestra.
4.3.2.1
Función de probabilidad de la v.a. hipergeométrica
En estadística, la distribución hipergeométrica es una distribución de probabilidad discreta con tres parámetros discretos N, k y n cuya función de probabilidad es:
Ejemplos 5: Si de un lote de 25 artículos se sabe que 5 están defectuosos, hallar las siguientes probabilidades en una muestra de 8 artículos seleccionados del lote aleatoriamente. a) Probabilidad de que de los 8, salgan 3 defectuosos. b) Probabilidad de que de los 8, salgan 6 buenos. c) Probabilidad de que de los 8, salgan mínimo 4 defectuosos. d) Probabilidad de que de los 8, salgan entre 3 y 4 buenos.
Estadística
203
e) Se considera aceptable el lote, si en la muestra todos están
buenos.
¿Cuál es la probabilidad de que se acepte el lote? Solución: Parámetros •
Tamaño de población N=25
•
Características de la población:
•
-
Cantidad de artículos defectuosos= 5
-
Cantidad de artículos buenos= 20
Tamaño de la muestra
n=8
a) Para la probabilidad de que de los 8, salgan 3 defectuosos, se tiene: N= 25 K= 5 (recordar que la muestra y la población deben contener el mismo sentido de éxito) N-K=20 n=8
La probabilidad de que salgan 3 defectuosos es de un 14.33%
b) Para la probabilidad de que de los 8, salgan 6 buenos. Estadística
204
N= 25 K= 20 (recordar que la muestra y la población deben contener el mismo sentido de éxito) N-K=5 n=8
La probabilidad de que de los 8, salgan 6 buenos es de 35.84% c) Para la probabilidad de que de los 8, salgan mínimo 4 defectuosos. N= 25 K= 5 (recordar que la muestra y la población deben contener el mismo sentido de éxito) N-K=20 n=8
Tener en cuenta que aunque el tamaño de la muestra es 8 no se pueden encontrar ni 6, 7 u 8 defectuosos, ya que en la población hay máximo 5 defectuosos
Esto quiere decir que la
Estadística
205
La probabilidad de que de los 8 salgan mínimo 4 defectuosos es 2.35% d) Para la probabilidad de que de los 8, salgan entre 3 y 4 buenos. N= 25 K= 20 N-K=5 n=8
La probabilidad de que de los 8 salgan entre 3 y 4 buenos es de 2.35%. e) Para aceptar el lote, deben existir todos buenos o cero malos. O sea, que se soluciona de cualquiera de las dos maneras, sin cambiar el resultado: Todos buenos
Cero defectuosos
N= 25
N=25
K= 20
K=5
N-K=5
N-K=20
n=8
n=8
Estadística
206
La probabilidad de que se acepte el lote es de 11.65% Ejemplos 6: Para evitar que lo descubran en la aduana, un viajero ha colocado 6 tabletas de narcótico en una botella que contiene 9 píldoras de vitamina que son similares en apariencia. Si el oficial de la aduana selecciona 3 tabletas aleatoriamente para analizarlas, ¿cuál es la probabilidad de que el viajero sea arrestado por posesión de narcóticos? Solución: N = 9+6 =15 total de tabletas K= 6 tabletas de narcótico N-K= 9 n = 3 tabletas seleccionadas x = 0, 1, 2, o 3 tabletas de narcótico = variable que indica el número de tabletas de narcótico que se pueden encontrar al seleccionar las 3 tabletas P(viajero sea arrestado por posesión de narcóticos) = p(de que entre las 3 tabletas seleccionadas haya 1 o más tabletas de narcótico)
Estadística
207
Existe un 81.54% de posibilidad de que el viajero sea arrestado por posesión ilegal de narcóticos.
4.3.2.2 Parámetros de la distribución hipergeométrica Media Varianza
)
4.3.3 DISTRIBUCIÓN DE POISSON
La distribución de Poisson es una distribución de probabilidad discreta. Trabaja con la probabilidad de ocurrencia en un tiempo determinado o región específica, teniendo como parámetro de la distribución el promedio de ocurrencias en el mismo intervalo de tiempo o región específica.
Por
ejemplo, el número de llamadas telefónicas que entran a un conmutador por hora; número de personas que se inscriben a la universidad por semestre, número de artículos defectuosos que salen por hora, etc.
Condición: Los eventos deben ser independientes.
4.3.3.1
Estadística
Función de probabilidad de la v.a. Poisson
208
Su distribución de probabilidad está dada por
Donde: es la base del logaritmo natural= (e = 2.71828...),
• •
x!
es el factorial de x,
•
µ es un número real positivo, equivalente al número esperado de ocurrencias durante un intervalo dado.
4.3.3.2 Tablas de probabilidad acumulada de la distribución Poisson Como en la distribución binomial, existen tablas que facilitan el cálculo de las probabilidades. La tabla de distribución Poisson también es acumulada y necesita llevar las preguntas a menor e igual ( ). La tabla acumulada de probabilidad Poisson tiene los siguientes parámetros: (Ver anexo B)
Estadística
209
µ x
0,1
0,2
0,30
0,4
0,5
0,6
0,7
0,8
0,9
0
0,9048
0,8187
0,7408
0,6703
0,6065
0,5488
0,4966
0,4493
0,4066
1
0,9953
0,9825
0,9631
0,9384
0,9098
0,8781
0,8442
0,8088
0,7725
2
0,9998
0,9989
0,9964
0,9921
0,9856
0,9769
0,9659
0,9526
0,9371
3
1,0000
0,9999
0,9997
0,9992
0,9982
0,9966
0,9942
0,9909
0,9865
4
1,0000
1,0000
1,0000
0,9999
0,9998
0,9996
0,9992
0,9986
0,9977
5
1,0000
1,0000
1,0000
1,0000
1,0000
1,0000
0,9999
0,9998
0,9997
6
1,0000
1,0000
1,0000
1,0000
1,0000
1,0000
1,0000
1,0000
1,0000
Para trabajar con la tabla Poisson se siguen los siguientes pasos: (ver tabla anterior) 1. Matematizar la pregunta. 2. Como la tabla es acumulada, se lleva la pregunta a menor e igual
,
con la siguientes reglas: a. b. c. d. e. f. g. 3. Se busca en la primera fila el valor del promedio 4. Se busca en la primera columna el valor de la variable x 5. La intersección entre la fila y la columna es la probabilidad acumulada. O sea la Estadística
. 210
EJEMPLO 7 Si en promedio ocurren 5 accidentes por día, hallar las siguientes probabilidades: a).
Probabilidad de que en un día ocurran 3 accidentes.
b).
Probabilidad de que en un día ocurran más de 2 accidentes.
c).
Probabilidad de que en un día ocurran menos de 4 accidentes.
d).
Probabilidad de que en un día ocurran entre 4 y 6 accidentes.
e).
Probabilidad de que en un MEDIO día ocurra 1 accidente.
Solución Parámetro: Promedio de accidentes por día. Observación: cada pregunta se resuelve tanto por fórmula como por tabla para comprobar el resultado. a).
Para la probabilidad de que en un día ocurran 3 accidentes.
Por fórmula:
Por tabla: ver reglas para manejo de tablas Poisson
La probabilidad de que en un día ocurran 3 accidentes es de 14.03%. Estadística
211
µ x 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
b).
1
1,5
2
2,5
3
3,5
4
4,5
5
0,3679 0,7358 0,9197 0,9810 0,9963 0,9994 0,9999 1,0000
0,2231 0,5578 0,8088 0,9344 0,9814 0,9955 0,9991 0,9998 1,0000
0,1353 0,4060 0,6767 0,8571 0,9473 0,9834 0,9955 0,9989 0,9998 1,0000
0,0821 0,2873 0,5438 0,7576 0,8912 0,9580 0,9858 0,9958 0,9989 0,9997 0,9999 1,0000
0,0498 0,1991 0,4232 0,6472 0,8153 0,9161 0,9665 0,9881 0,9962 0,9989 0,9997 0,9999 1,0000
0,0302 0,1359 0,3208 0,5366 0,7254 0,8576 0,9347 0,9733 0,9901 0,9967 0,9990 0,9997 0,9999 1,0000
0,0183 0,0916 0,2381 0,4335 0,6288 0,7851 0,8893 0,9489 0,9786 0,9919 0,9972 0,9991 0,9997 0,9999 1,0000
0,0111 0,0611 0,1736 0,3423 0,5321 0,7029 0,8311 0,9134 0,9597 0,9829 0,9933 0,9976 0,9992 0,9997 0,9999 1,0000
0,0067 0,0404 0,1247 0,2650 0,4405 0,6160 0,7622 0,8666 0,9319 0,9682 0,9863 0,9945 0,9980 0,9993 0,9998 0,9999 1,0000
Para la probabilidad de que en un día ocurran más de 2 accidentes.
Por fórmula:
Como no se conoce el tamaño de la muestra, no se sabe hasta dónde va la suma…. Pero por definición de probabilidad se sabe que
Estadística
212
Por tabla: ver reglas para manejo de tablas Poisson
La probabilidad de que en un día ocurran más de 2 accidentes es de 87.54%.
µ x 0 1 2 3 4
c).
1
1,5
2
2,5
3
3,5
4
4,5
5
0,3679 0,7358 0,9197 0,9810 0,9963
0,2231 0,5578 0,8088 0,9344 0,9814
0,1353 0,4060 0,6767 0,8571 0,9473
0,0821 0,2873 0,5438 0,7576 0,8912
0,0498 0,1991 0,4232 0,6472 0,8153
0,0302 0,1359 0,3208 0,5366 0,7254
0,0183 0,0916 0,2381 0,4335 0,6288
0,0111 0,0611 0,1736 0,3423 0,5321
0,0067 0,0404 0,1247 0,2650 0,4405
Para la probabilidad de que en un día ocurran menos de 4 accidentes.
Por fórmula:
Estadística
213
Por tabla:
La probabilidad de que en un día ocurran menos de 4 accidentes es de 26.50%
µ x 0 1 2 3 4 5 6 7 8
d).
1
1,5
2
2,5
3
3,5
4
4,5
5
0,3679 0,7358 0,9197 0,9810 0,9963 0,9994 0,9999 1,0000
0,2231 0,5578 0,8088 0,9344 0,9814 0,9955 0,9991 0,9998 1,0000
0,1353 0,4060 0,6767 0,8571 0,9473 0,9834 0,9955 0,9989 0,9998
0,0821 0,2873 0,5438 0,7576 0,8912 0,9580 0,9858 0,9958 0,9989
0,0498 0,1991 0,4232 0,6472 0,8153 0,9161 0,9665 0,9881 0,9962
0,0302 0,1359 0,3208 0,5366 0,7254 0,8576 0,9347 0,9733 0,9901
0,0183 0,0916 0,2381 0,4335 0,6288 0,7851 0,8893 0,9489 0,9786
0,0111 0,0611 0,1736 0,3423 0,5321 0,7029 0,8311 0,9134 0,9597
0,0067 0,0404 0,1247 0,2650 0,4405 0,6160 0,7622 0,8666 0,9319
Para la probabilidad de que en un día ocurran entre 4 y 6 accidentes.
Por fórmula:
Estadística
214
Por tabla: ver reglas para manejo de tablas Poisson
La probabilidad de que en un día ocurran entre 4 y 6 accidentes es de 49.72%. e).
Probabilidad de que en un MEDIO día ocurra 1 accidente.
Como la variable de interés x, tiene que tener la misma unidad de medida del promedio, entonces u
Por fórmula:
Por tabla: ver reglas para manejo de tablas Poisson
Estadística
215
µ x x 0 1 2 3 4 5 6 7
1 1,0000 0,3679 0,7358 0,9197 0,9810 0,9963 0,9994 0,9999 1,0000
1,5 1,5000 0,2231 0,5578 0,8088 0,9344 0,9814 0,9955 0,9991 0,9998
2 2,0000 0,1353 0,4060 0,6767 0,8571 0,9473 0,9834 0,9955 0,9989
2,5 2,5000 0,0821 0,2873 0,5438 0,7576 0,8912 0,9580 0,9858 0,9958
3 3,0000 0,0498 0,1991 0,4232 0,6472 0,8153 0,9161 0,9665 0,9881
3,5 3,5000 0,0302 0,1359 0,3208 0,5366 0,7254 0,8576 0,9347 0,9733
La probabilidad de que en un MEDIO día ocurra 1 accidente es de 20.52%.
4.3.3.3
Parámetros de la distribución Poisson Media Varianza
4.4
DISTRIBUCIÓN CONTINUA DE PROBABILIDAD: DISTRIBUCIÓN NORMAL
La distribución normal, también llamada distribución de Gauss o distribución gaussiana, es la distribución continua de probabilidad más importante de toda la Estadística, debido a que su función de densidad es simétrica y con forma de campana, lo que favorece su aplicación como modelo a gran número de variables estadísticas.
Estadística
216
4.4.1 Función de densidad de la distribución normal
Donde:
Media Varianza σ
Desviación estándar
4.4.2 Representación gráfica de esta función de densidad
Estadística
217
4.4.3 Distribución normal estándar La probabilidad de que la
variable aleatoria (que sigue una distribución
normal) se encuentre entre dos valores determinados será en general difícil de calcular (hay que usar la integral de la función de probabilidad). Para ello, existen tablas que dan estos valores directamente.
Dado que la variable de interés X, puede tomar valores − ∞ < X < ∞ , se tipifica la variable de interés para así poder trabajar con la tabla, quedando la distribución normal, como una distribución normal tipificada con
μ = 0 y σ = 1. Para tipificar la variable de interés X, se lleva a la fórmula:
4.4.4 Pasos para buscar en la tabla (ver anexo C) 1. 2.
Plantear la pregunta matemáticamente. Dado que las tablas son acumulativas, se lleva la pregunta a menor. Utilizando las siguientes reglas:
1.
Se tipifica cada valor de X utilizando la fórmula:
Estadística
218
Z=
2.
x−µ . σ
El valor de Z debe quedar con dos decimales.
Para buscar en la tabla, tanto el signo como el entero y el primer decimal, se encuentra en la primera columna. El segundo decimal se encuentra en la primera fila. La intersección entre la fila y la columna es la respectiva probabilidad.
Ejemplo. Suponga que Z=0.43, luego p ( z < 0.43) = 0.6664 Z
0,00
0,01
0,02
0,03
0,04
0,05
0,0
0,5000
0,5040
0,5080
0,5120
0,5160
0,5199
0,1
0,5398
0,5438
0,5478
0,5517
0,5557
0,5596
0,2
0,5793
0,5832
0,5871
0,5910
0,5948
0,5987
0,3
0,6179
0,6217
0,6255
0,6293
0,6331
0,6368
0,4
0,6554
0,6591
0,6628
0,6664
0,6700
0,6736
0,5
0,6915
0,6950
0,6985
0,7019
0,7054
0,7088
0,6
0,7257
0,7291
0,7324
0,7357
0,7389
0,7422
0,7
0,7580
0,7611
0,7642
0,7673
0,7704
0,7734
0,8
0,7881
0,7910
0,7939
0,7967
0,7995
0,8023
0,9
0,8159
0,8186
0,8212
0,8238
0,8264
0,8289
1,0
0,8413
0,8438
0,8461
0,8485
0,8508
0,8531
Ejemplo 8 El
peso
promedio
de
aproximadamente normal
las
bolsas
de
café
tiene
una
distribución
con un peso promedio de 501 gramos y una
desviación estándar de 15 gramos. a.
¿Cuál es la probabilidad de que una bolsa de café tenga un peso menor a 532.05 gms?
b.
¿Cuál es la probabilidad de que una bolsa de café tenga un peso mayor a 448.5 gms?
Estadística
219
c.
¿Cuál es la probabilidad de que una bolsa de café tenga un peso entre 456 y 513.75 gms?
d.
¿Cual es el peso máximo para que cubra el 59.10% de las bolsas de café?
Solución: Sea X la variable de interés que significa el peso de las bolsas de café. Parámetros: Peso promedio de las bolsas de café Desviación estándar
a. Para la probabilidad de que una bolsa de café tenga un peso menor a 532.05 gms:
Estadística
220
Z
0,00
0,01
0,02
0,03
0,04
0,05
0,06
0,07
0,08
0,09
0,0
0,5000
0,5040
0,5080
0,5120
0,5160
0,5199
0,5239
0,5279
0,5319
0,5359
0,1
0,5398
0,5438
0,5478
0,5517
0,5557
0,5596
0,5636
0,5675
0,5714
0,5753
0,2
0,5793
0,5832
0,5871
0,5910
0,5948
0,5987
0,6026
0,6064
0,6103
0,6141
0,3
0,6179
0,6217
0,6255
0,6293
0,6331
0,6368
0,6406
0,6443
0,6480
0,6517
0,4
0,6554
0,6591
0,6628
0,6664
0,6700
0,6736
0,6772
0,6808
0,6844
0,6879
0,5
0,6915
0,6950
0,6985
0,7019
0,7054
0,7088
0,7123
0,7157
0,7190
0,7224
0,6
0,7257
0,7291
0,7324
0,7357
0,7389
0,7422
0,7454
0,7486
0,7517
0,7549
0,7
0,7580
0,7611
0,7642
0,7673
0,7704
0,7734
0,7764
0,7794
0,7823
0,7852
0,8
0,7881
0,7910
0,7939
0,7967
0,7995
0,8023
0,8051
0,8078
0,8106
0,8133
0,9
0,8159
0,8186
0,8212
0,8238
0,8264
0,8289
0,8315
0,8340
0,8365
0,8389
1,0
0,8413
0,8438
0,8461
0,8485
0,8508
0,8531
0,8554
0,8577
0,8599
0,8621
1,1
0,8643
0,8665
0,8686
0,8708
0,8729
0,8749
0,8770
0,8790
0,8810
0,8830
1,2
0,8849
0,8869
0,8888
0,8907
0,8925
0,8944
0,8962
0,8980
0,8997
0,9015
1,3
0,9032
0,9049
0,9066
0,9082
0,9099
0,9115
0,9131
0,9147
0,9162
0,9177
1,4
0,9192
0,9207
0,9222
0,9236
0,9251
0,9265
0,9279
0,9292
0,9306
0,9319
1,5
0,9332
0,9345
0,9357
0,9370
0,9382
0,9394
0,9406
0,9418
0,9429
0,9441
1,6
0,9452
0,9463
0,9474
0,9484
0,9495
0,9505
0,9515
0,9525
0,9535
0,9545
1,7
0,9554
0,9564
0,9573
0,9582
0,9591
0,9599
0,9608
0,9616
0,9625
0,9633
1,8
0,9641
0,9649
0,9656
0,9664
0,9671
0,9678
0,9686
0,9693
0,9699
0,9706
1,9
0,9713
0,9719
0,9726
0,9732
0,9738
0,9744
0,9750
0,9756
0,9761
0,9767
2,0
0,9772
0,9778
0,9783
0,9788
0,9793
0,9798
0,9803
0,9808
0,9812
0,9817
2,1
0,9821
0,9826
0,9830
0,9834
0,9838
0,9842
0,9846
0,9850
0,9854
0,9857
2,2
0,9861
0,9864
0,9868
0,9871
0,9875
0,9878
0,9881
0,9884
0,9887
0,9890
2,3
0,9893
0,9896
0,9898
0,9901
0,9904
0,9906
0,9909
0,9911
0,9913
0,9916
2,4
0,9918
0,9920
0,9922
0,9925
0,9927
0,9929
0,9931
0,9932
0,9934
0,9936
2,5
0,9938
0,9940
0,9941
0,9943
0,9945
0,9946
0,9948
0,9949
0,9951
0,9952
2,6
0,9953
0,9955
0,9956
0,9957
0,9959
0,9960
0,9961
0,9962
0,9963
0,9964
La probabilidad de que una bolsa de café tenga un peso menor a 532.05 gms es de 98.08%. b. Para la probabilidad de que una bolsa de café tenga un peso mayor a 448.5 gms:
Estadística
221
Z
0,00
0,01
0,02
0,03
0,04
-3,9
0,0000
0,0000
0,0000
0,0000
0,0000
-3,8
0,0001
0,0001
0,0001
0,0001
0,0001
-3,7
0,0001
0,0001
0,0001
0,0001
0,0001
-3,6
0,0002
0,0002
0,0001
0,0001
0,0001
-3,5
0,0002
0,0002
0,0002
0,0002
0,0002
-3,4
0,0003
0,0003
0,0003
0,0003
0,0003
La probabilidad de que una bolsa de café tenga un peso mayor a 448.5 gms es de 99.98%
c. Para la probabilidad de que una bolsa de café tenga un peso entre 456 y 513.75 gms:
Estadística
222
Z
0,00
0,01
0,02
0,03
0,04
0,05
0,0
0,5000
0,5040
0,5080
0,5120
0,5160
0,5199
0,1
0,5398
0,5438
0,5478
0,5517
0,5557
0,5596
0,2
0,5793
0,5832
0,5871
0,5910
0,5948
0,5987
0,3
0,6179
0,6217
0,6255
0,6293
0,6331
0,6368
0,4
0,6554
0,6591
0,6628
0,6664
0,6700
0,6736
0,5
0,6915
0,6950
0,6985
0,7019
0,7054
0,7088
0,6
0,7257
0,7291
0,7324
0,7357
0,7389
0,7422
0,7
0,7580
0,7611
0,7642
0,7673
0,7704
0,7734
0,8
0,7881
0,7910
0,7939
0,7967
0,7995
0,8023
0,9
0,8159
0,8186
0,8212
0,8238
0,8264
0,8289
Z
0,00
0,01
0,02
0,03
-3,9
0,0000
0,0000
0,0000
0,0000
-3,8
0,0001
0,0001
0,0001
0,0001
-3,7
0,0001
0,0001
0,0001
0,0001
-3,6
0,0002
0,0002
0,0001
0,0001
-3,5
0,0002
0,0002
0,0002
0,0002
-3,4
0,0003
0,0003
0,0003
0,0003
-3,3
0,0005
0,0005
0,0005
0,0004
-3,2
0,0007
0,0007
0,0006
0,0006
-3,1
0,0010
0,0009
0,0009
0,0009
-3,0
0,0013
0,0013
0,0013
0,0012
-2,9
0,0019
0,0018
0,0018
0,0017
d. 59.10% significa la probabilidad. Lo que interesa es conocer el peso máximo (x) de las bolsas de café que cubre dicho porcentaje o probabilidad. Se halla el valor de 0.5910 en la tabla normal, encontrando así el valor de Z que le corresponde; luego se despeja el valor de X o variable de interés.
Estadística
223
Z
0,00
0,01
0,02
0,03
0,0
0,5000
0,5040
0,5080
0,5120
0,1
0,5398
0,5438
0,5478
0,5517
0,2
0,5793
0,5832
0,5871
0,5910
0,3
0,6179
0,6217
0,6255
0,6293
0,4
0,6554
0,6591
0,6628
0,6664
0,5
0,6915
0,6950
0,6985
0,7019
El peso máximo para que cubre el 59.10% de las bolsas de café es 504.45gms.
Ejemplo 9 La resistencia a la tracción de cierto componente de metal se distribuye normalmente con una media de 10.000 kilogramos por centímetro cuadrado y una desviación estándar de 100 kilogramos por centímetro cuadrado. a.
¿Qué proporción de estos componentes excede 10.150 kilogramos por centímetro cuadrado de resistencia a la tracción?
b.
Si las especificaciones requieren que todos los componentes tengan resistencia a la tracción entre 9.800 y 10.200 kilogramos por centímetro
Estadística
224
cuadrado inclusive, ¿qué proporción de piezas esperaría que se descartaran? Solución: Sea X la variable de interés que significa la resistencia
a la tracción
(kilogramos/centímetros cuadrados). Parámetros: Resistencia promedio Desviación estándar a.
El
6.68%
de
los
componentes
de
metal
excede
en
10.150
kilogramos/centímetros cuadrados a la resistencia a la tracción
b. Se
descartan
todas
las
piezas
que
están
por
fuera
de
las
especificaciones.
Estadística
225
O sea
El 4.56% de las piezas se descartarán, ya que no cumplen con las especificaciones.
Estadística
226
Estadística
227
Estadística
228
1.1
INTRODUCCIÓN
A manera de ejemplo, el rector de una universidad desea conocer la nota promedio
de
Todos
los
estudiantes
que
cursaron
el
semestre
inmediatamente anterior y la proporción de estudiantes que obtuvieron una nota superior a 4.0.
Para solucionar el ejemplo anterior, se retoma todo lo visto anteriormente; se saca una muestra aleatoria de
n estudiantes (ya sea por encuesta
directamente a los n-estudiantes o por datos históricos obtenidos de Admisiones).
Con las n-notas se saca una nota promedio y se cuenta el número de estudiantes que obtuvieron un promedio superior a 4.0. Para efecto del ejemplo, se seleccionó una muestra de 25 estudiantes con los siguientes resultados:
ESTUDIANTE NOTA NRO PROMEDIO
1 2 3 4 5
Estadística
3,8 4,3 4,5 4 3,3
ESTUDIANTE NOTA NRO PROMEDIO
6 7 8 9 10
3,5 4 4,1 3,6 3,2
ESTUDIANTE NOTA NRO PROMEDIO
11 12 13 14 15
3,5 3,8 4,2 4,8 4
ESTUDIANTE NOTA NRO PROMEDIO
16 17 18 19 20
4,3 3,2 3,5 3,8 3,6
ESTUDIANTE NOTA NRO PROMEDIO
21 22 23 24 25
3,8 3,6 3,5 4,2 3,5
229
Para hallar el promedio de la muestra, se trabaja con la media aritmética. Y para obtener la proporción de estudiantes con una nota superior a 4.0, se trabaja con la proporción muestral. Al recordar sus fórmulas, tenemos: Para la nota promedio de todos los estudiantes: X: Variable de interés que significa la nota promedio : La nota promedio del estudiante i n Tamaño de la muestra que en este caso es igual a 25
Para la proporción de estudiantes con una nota superior a 4.0: x Total de estudiantes de la muestra que obtuvieron una nota superior a 4.0. n Tamaño de la muestra que en este caso es igual a 25 Para datos sin agrupar
De acuerdo con los datos, se tiene:
Estadística
230
Interpretación de resultados: Los 25 estudiantes en el semestre anterior obtuvieron en promedio una nota promedio de 3.8. De los 25 estudiantes, el 28% obtuvo el semestre anterior una nota superior a 4.0.
¡Ojo con la interpretación!
La interpretación se puede dar solamente de los estudiantes que pertenecieron a la muestra. Pero el interés en la investigación es obtener respuesta de todos los estudiantes, o sea, de la población.
Todo el proceso anterior es muy válido y necesario… pero no suficiente. Lo anterior es lo que se conoce como Estadística Descriptiva, y se necesita de otras herramientas de la Estadística, para poder hablar de toda la población. Esto es lo que se conoce como Estadística Inferencial, que es el tema de esta parte del módulo.
Estadística
231
1.2 NIVEL DE CONFIABILIDAD DE LOS RESULTADOS
Cuando se selecciona una muestra aleatoria, el nivel de confiabilidad o seguridad de los resultados ya no es del 100%, porque no se están tomando todos los datos; por lo tanto, la confiabilidad de un estudio o investigación dependerá del nivel de seguridad (porcentaje) con el cual se desea que los parámetros estén contenidos en la muestra seleccionada. Los niveles de confiabilidad deben ser mínimo del 95%; o sea, entre 95% y 99%; este valor es escogido por el investigador o por el presupuesto de la investigación, aclarando que entre mayor sea el nivel de confianza mayor será el costo del estudio, dado que aumentará el tamaño de la muestra.
1.3 PRINCIPALES PARÁMETROS, ESTADÍSTICAS Y SUS SÍMBOLOS
NOMBREPOBLACIÓN (PARÁMETRO)MUESTRA (ESTADÍSTICO)TAMAÑO NnMEDIADESVIACIÓN ESTÁNDARSVARIANZAPROPORCIÓN
Estadística
232
1.4 ESTIMACIÓN PUNTUAL
Si a partir de las observaciones de una muestra se calcula un solo valor como estimación de un parámetro de la población desconocido, el procedimiento se denomina estimación puntual. Existen básicamente tres parámetros muestrales:
1.4.1 Estimación puntual para variable cuantitativa
Esencialmente son dos los parámetros de interés:
•
Media: se toma como aproximación la media de la muestra. Al recordar la fórmula (Unidad 3 de Estadística Descriptiva):
DATOS SIN AGRUPAR
Estadística
DATOS AGRUPADOS
233
•
Varianza de la población: se toma como aproximación la cuasivarianza de la muestra. Al recordar la fórmula se tiene:
DATOS SIN AGRUPAR
DATOS AGRUPADOS
1.4.2 Estimación puntual para variable cualitativa
•
Proporción: se toma como aproximación la proporción muestral,
Estadística
234
Casos favorables es el total de resultados de la muestra que cumple con la condición.
1.5 TAMAÑO DE LA MUESTRA PARA ESTIMAR MEDIAS Y PROPORCIONES
El tamaño de la muestra, un tema que siempre preocupa, no tiene fácil solución y va estrechamente unido a la representatividad. No existe un tamaño ideal de la muestra. A efectos descriptivos, se considera una muestra grande cuando n > 30. Una muestra debe ser lo suficientemente grande como para ser representativa, pero el número de elementos necesarios para lograr la representatividad varía de una investigación a otra. Cuanto más homogénea es una población en la/s característica/s objeto de estudio, más fácil resulta obtener muestras representativas sin necesidad de que sean grandes. Es decir, el tamaño de la muestra está en relación directa con la desviación típica de las puntuaciones en la/s características de la variable a investigar. El tamaño de la muestra puede dilucidarse en parte preguntándose por •
La cuantía del error que es probable cometer al calcular diversos estadísticos partiendo de muestras de diferente tamaño.
•
Nivel de confianza: Es el porcentaje de confiabilidad con el cual se estima la verdadera proporción de éxito. El nivel de confianza tiene relación directa con el tamaño de la muestra, por lo tanto, se dirá que a mayor
Estadística
235
nivel de confianza más grande debe ser el tamaño de la muestra. El nivel es fijado por el investigador, de acuerdo con su experiencia.
Por ejemplo: con un nivel de confianza del 95% se determinaría que de 100 muestras aleatorias diferentes se podría esperar que la proporción de éxito se encuentre en 95 de ellas. Nivel de confianza 1- α = 0.95.
1.5.1 Determinación estadística del tamaño de la muestra Conociendo el nivel de confianza que se quiere alcancen los datos, se puede aplicar una ecuación matemática para estimar el tamaño de la muestra. Según se trate de poblaciones infinitas o finitas, la determinación variará, según las siguientes ecuaciones:
1.5.1.1
Poblaciones infinitas
En este caso pueden presentarse dos situaciones: 1.5.1.1.1 Proporción conocida Conociendo la proporción de elementos que posee la característica a través de estudios previos. En este caso se aplica la fórmula:
Estadística
236
Z Valor de la distribución normal que genera un nivel de confiabilidad 1 - α. P Proporción de éxito Q Proporción de fracaso = 1-P E Error muestral admisible: El error muestral admisible es el error que se está dispuesto a cometer en la precisión de la estimación de la proporción. O sea, es el margen de error que el investigador fija de acuerdo con el conocimiento que tenga acerca del parámetro que piensa estimar. No es recomendable un margen de error superior al 5%. Pasos para hallar el valor de Z: •
Tomar el nivel de confiabilidad 1- α =
•
Despejar el nivel de no confiabilidad α
•
Hallar el valor de α/2
•
Dicho resultado es restado de 1. = 1- α/2
•
Buscar 1- α/2 en la tabla normal (de adentro hacia afuera) y hallar el valor de Z.
1.5.1.1.2 Proporción desconocida Si se desconoce la proporción de individuos que poseen la característica, se toma p = 50% y q = 50%. 2 Estadística
237
Ejemplo: El número de elementos óptimo de una muestra, estimando qué proporción de sujetos poseen una característica al nivel de confianza del 99.7% y un error de estimación admitido del 2%, será: p=q= 0.5 ya que no se conoce la proporción E = 0.02 Para hallar Z Nivel de confiabilidad 1- α = 0.997 Nivel de no confiabilidad α = 0.003 Valor de α/2 = 0.0015 1- α/2= 1-0.0015=0.9985 Z=3.0 32*0.5.0.5 n = ------------------- = 5625 elementos. 0.022 1.5.1.2
Poblaciones infinitas
En este caso se emplea la siguiente fórmula:
Estadística
238
Ejemplo: Revisar El número óptimo para un estudio de 60.000 personas inscritas en cursos de formación, estableciendo un nivel de confianza de 95.5%, el margen de error en el 3% y si suponemos que la opción por inscribirse en cursos de formación, o no, es del 50%., sería:
Estadística
239
2.1
INTRODUCCIÓN
Los resultados obtenidos sobre la nota promedio y la proporción de alumnos con una nota superior a 4.0, del ejemplo que se encuentra en la Introducción de la Unidad1, no son suficientes para poder hablar del promedio y la proporción poblacional; es necesario incluir otros métodos y entre ellos está el de los intervalos de confianza. Una estimación de intervalo es un intervalo de valores reales que se utiliza para estimar un parámetro de población. Aunque existen muchos parámetros poblacionales desarrollados a partir de los resultados de una muestra, en este módulo solo se verán dos. 2.1.1 Intervalo de confianza para el promedio poblacional A un nivel de confiabilidad del
, el intervalo de confianza para el
promedio poblacional se obtiene por medio de una de las siguientes fórmulas:
Condición
Fórmula 1
2
Estadística
3
240
•
Si por estudios anteriores se tiene el parámetro
, se utiliza la
fórmula 1. •
Si no se tiene el parámetro
y el tamaño de la muestra es mayor o
igual que 30, se utiliza la fórmula 2. •
Si no se tiene el parámetro
y el tamaño de la muestra es menor
que 30, se utiliza la fórmula 3
2.1.1.1
Parámetros y/o estadísticos para utilizar las fórmulas de Intervalo de confianza
•
Tamaño de muestra n
•
Media aritmética de la muestra .
•
Desviación estándar poblacional
en caso de no conocerla, se halla la
desviación estándar muestral (s). •
Para hallar el valor de
se utiliza la tabla normal.
•
Para hallar el valor de
se utiliza la tabla t-student.
Para hallar
seguimos los siguientes pasos (ver anexo C)
•
Se tiene nivel de confianza
•
Se halla el nivel de error
•
Se halla
•
Se calcula
•
Se busca en la tabla normal de adentro hacia fuera, el valor de y se halla el valor de
Estadística
.
,
. 241
Ejemplo. Con un nivel de confianza del 95% y tamaño de muestra n=40, buscamos en la tabla normal ya que el tamaño de la muestra es mayor de 30. •
Nivel de confianza
•
Nivel de error
.
• • •
Se busca en la tabla normal de dentro hacia fuera, el valor de 0.975 y el valor de
Estadística
=1.96
242
Z
0,00
0,01
0,02
0,03
0,04
0,05
0,06
0,07
0,0
0,5000
0,5040
0,5080
0,5120
0,5160
0,5199
0,5239
0,5279
0,1
0,5398
0,5438
0,5478
0,5517
0,5557
0,5596
0,5636
0,5675
0,2
0,5793
0,5832
0,5871
0,5910
0,5948
0,5987
0,6026
0,6064
0,3
0,6179
0,6217
0,6255
0,6293
0,6331
0,6368
0,6406
0,6443
0,4
0,6554
0,6591
0,6628
0,6664
0,6700
0,6736
0,6772
0,6808
0,5
0,6915
0,6950
0,6985
0,7019
0,7054
0,7088
0,7123
0,7157
0,6
0,7257
0,7291
0,7324
0,7357
0,7389
0,7422
0,7454
0,7486
0,7
0,7580
0,7611
0,7642
0,7673
0,7704
0,7734
0,7764
0,7794
0,8
0,7881
0,7910
0,7939
0,7967
0,7995
0,8023
0,8051
0,8078
0,9
0,8159
0,8186
0,8212
0,8238
0,8264
0,8289
0,8315
0,8340
1,0
0,8413
0,8438
0,8461
0,8485
0,8508
0,8531
0,8554
0,8577
1,1
0,8643
0,8665
0,8686
0,8708
0,8729
0,8749
0,8770
0,8790
1,2
0,8849
0,8869
0,8888
0,8907
0,8925
0,8944
0,8962
0,8980
1,3
0,9032
0,9049
0,9066
0,9082
0,9099
0,9115
0,9131
0,9147
1,4
0,9192
0,9207
0,9222
0,9236
0,9251
0,9265
0,9279
0,9292
1,5
0,9332
0,9345
0,9357
0,9370
0,9382
0,9394
0,9406
0,9418
1,6
0,9452
0,9463
0,9474
0,9484
0,9495
0,9505
0,9515
0,9525
1,7
0,9554
0,9564
0,9573
0,9582
0,9591
0,9599
0,9608
0,9616
1,8
0,9641
0,9649
0,9656
0,9664
0,9671
0,9678
0,9686
0,9693
1,9
0,9713
0,9719
0,9726
0,9732
0,9738
0,9744
0,9750
0,9756
2,0
0,9772
0,9778
0,9783
0,9788
0,9793
0,9798
0,9803
0,9808
Método para hallar •
Nivel de confianza
•
Nivel de error
(ver anexo D)
.
• • •
Se halla el valor de
•
Se busca en la primera columna el valor de
•
Se busca en la primera columna el valor de v
•
La intersección entre la fila y la columna es el valor de t
Estadística
243
Ejemplo. Con un nivel de confianza del 95%, tamaño de muestra n=10, y . Se busca en la tabla t-student ya que el tamaño de la muestra es menor de 30. y
.
•
Nivel de confianza
•
Nivel de error
.
• • • •
La intersección entre la fila y la columna es el valor de t =2.262
TABLA T-STUDENT n 1 2 3 4 5
0.75 1.000 0,816 0,765 0,741 0,727
0.80 1.376 1.061 0.978 0.941 0.920
0.85 1.963 1.386 1.250 1.190 1.156
1 0,9 0.95 0.975 0,99 0.9 95 3.078 6.314 12.7 06 31.821 63.657 1.886 2.920 4.303 6.965 9.9 25 1.638 2.353 3.182 4.541 5.8 41 1.533 2.132 2.776 3.747 4.6 04 1.476 2.015 2.571 3.365 4.0 32
6 7 8 9 10
0,718 0,711 0,706 0,703 0,7
0.906 0.896 0.889 0.883 0.879
1.134 1.119 1.108 1.100 1.093
1.440 1.415 1.397 1.383 1.372
Estadística
1.943 1.895 1.860 1.833 1.812
2.447 2.365 2.306 2.262 2.228
3.143 2.998 2.896 2.821 2.764
3.7 07 3.4 99 3.3 55 3.2 50 3.1 69
244
Ejemplo
1
Retomando el ejemplo que se tiene en la introducción del capítulo, hallar la nota promedio a un nivel de confianza del 99% de todos los estudiantes que cursaron el semestre inmediatamente anterior.
SOLUCIÓN Como la desviación estándar poblacional
desconocida y el tamaño de la
muestra es menor de 30, utilizamos la fórmula:
•
Tamaño de la muestra
•
Media muestral
•
Como no se conoce la desviación estándar poblacional
. , se halla
la desviación estándar muestral s. .
Para hallar el valor de •
:
Con un nivel de confianza del 99%, tamaño de muestra n=25.
Estadística
245
•
Nivel de confianza
•
Nivel de error
.
• • • •
t =2.797
Reemplazando en la fórmula,
Interpretación
Hay un 99% de confiabilidad al afirmar que la nota promedio de los estudiantes de la universidad está entre 3.6 y 4.0
Estadística
246
Ejemplo Un fabricante de pintura necesita por efecto de calidad del producto, el tiempo promedio de secado de una pintura nueva para exteriores. Si en 42 áreas de prueba de igual tamaño, se obtuvo un tiempo promedio de secado de 30.2 minutos y una desviación estándar de 1.1 minutos, ¿cuál será el tiempo promedio real de secado, con un 95% de confiabilidad? Solución
•
•
Necesitamos un intervalo de confianza para
•
Desviación estándar poblacional
•
Tamaño de muestra mayor de 30.
•
Su fórmula es:
.
desconocida;
Parámetros muestrales:
•
Tamaño de la muestra
•
Media muestral
•
Desviación estándar muestral s.
.
.
Estadística
247
•
Para hallar el valor de
: (aunque la desviación estándar
poblacional es desconocida, el tamaño de la muestra es mayor de 30) •
Con un nivel de confianza del 95%, tamaño de muestra n=42.
•
Tenemos nivel de confianza
•
Despejamos el nivel de error
•
Hallamos a
•
Calculamos
•
Buscamos en tabla normal el valor de
.
Con todos los datos, procedemos a reemplazar en la fórmula:
Interpretación
Hay un 95% de confiabilidad al afirmar que el tiempo de secado de la nueva pintura está entre 29.9 y 30.5 minutos
Estadística
248
2.1.2 Intervalo de confianza para la proporción poblacional p A un nivel de confiabilidad del
, el intervalo de confianza para la
proporción poblacional se obtiene por medio de la siguiente fórmula:
Fórmula
2.1.2.1
Estadísticos para utilizar la fórmula de Intervalo de confianza
•
Tamaño de muestra n
•
Proporción muestral
•
Proporción muestral
•
Para hallar el valor de
Estadística
se utiliza la tabla normal.
249
Ejemplo Continuando con el ejemplo que se tiene en la introducción del capítulo, falta hallar la proporción de estudiantes que obtuvieron una nota promedio mayor de 4.0, a un nivel de confianza del 99%.
SOLUCIÓN Su fórmula es:
•
Tamaño de la muestra
•
Proporción muestral
son 7 los estudiantes de la muestra
que sacaron una nota superior a 4.0 (resaltados en la tabla de resultados del ejercicio, con amarillo) •
Por la Ley del Complemento ( teoría de conjuntos)
Para hallar el valor de
:
•
Con un nivel de confianza del 99%, tamaño de muestra n=25.
•
Tenemos nivel de confianza
•
Despejamos el nivel de error
Estadística
.
250
•
Hallamos a
•
Calculamos
•
Buscamos en tabla normal el valor de
Con todos los datos, procedemos a reemplazar en la fórmula:
Interpretación
Hay un 99% de confiabilidad al afirmar que la proporción de estudiantes que sacaron una nota superior a 4.0 está en el 5 y el 50%
Preguntas: •
¿Por qué razón el intervalo dio tan amplio?
•
Si le disminuimos el nivel de confianza, ¿qué pasaría con la amplitud del intervalo?
Estadística
251
•
Conclusiones.
Estadística
252
3.1
INTRODUCCIÓN
Retomando el ejemplo propuesto en la introducción de esta unidad, el rector de la universidad, en vez de preguntar (como lo hizo en el ejemplo), Afirma que el promedio de los alumnos de dicha universidad fue de 4.2, y más del 60% de ellos obtuvo una nota superior a 4.0, esto con un margen de error del 5%. Fuera de los intervalos de confianza, existe otra forma de plantear el deseo de conocer un parámetro poblacional, y es por medio de una hipótesis lanzada.
3.2 DEFINICIÓN DE PRUEBA DE HIPÓTESIS Una prueba de hipótesis es una afirmación o conjetura que se lanza sobre un parámetro poblacional; su objetivo en un nivel de significancia o error es demostrar por medio de resultados muestrales, si existe suficiente evidencia o no que apoye la hipótesis. En este módulo, se conocerá la forma de comprobar las hipótesis relacionadas
con
los
parámetros
poblacionales
(Promedio)
y
p
(Proporción).
Estadística
253
3.3 . Pasos para la prueba de hipótesis para el promedio
y la
proporciòn p.
PASO 1
Plantear o matematizar la hipótesis lanzada y matematizar la hipótesis que la contradice
El (asterisco *) en los ejemplos, significa que son las hipótesis que se lanzaron
Ejemplo 1: 1.1
El peso promedio de los artículos exportados es de 20 kilos. .
1.2
El tiempo promedio para atender a una persona en una cafetería es mínimo de 8 minutos.
1.3
Más del 35% de las solicitudes de préstamo en el banco x son para vivienda.
1.4
Un fabricante de cierta marca de cereal de arroz afirma que el contenido de grasa saturada no excede 1.5 gramos. . .
Estadística
254
1.5
El gerente de una sucursal bancaria en una ciudad pequeña afirma que la proporción de ahorradores a quienes se les paga su sueldo semanalmente es menos del 20%
PASO 2
Definir las hipótesis
En la solución de la prueba de hipótesis, existen dos clases de hipótesis; la hipótesis que se plantea y la hipótesis que la contradice. Las hipótesis son: •
Hipótesis nula: Se representa por
. Una hipótesis nula con
respecto a un parámetro poblacional siempre se establecerá de modo que especifique un valor exacto del parámetro; esto quiere decir que la hipótesis nula contiene la matematización de la hipótesis que contiene los signos:
•
Hipótesis alternativa:
Se representa por
Una hipótesis
alternativa contiene la contradicción de la hipótesis nula o sea que la hipótesis alternativa contiene la representación matemática que contiene los siguientes signos:
Estadística
255
< >
Ejemplo 2: Teniendo en cuenta el ejercicio 1 de este tema, se clasificará cada hipótesis dentro de la nula y de la alternativa Ejemplo
Hipótesis
Hipótesis
nro. 1.1
nula
alternativa . Observemos que la hipótesis que lanzamos no siempre queda planteada en la hipótesis nula
1.2 1.3 1.4
.
.
1.5
Observemos que la hipótesis nula siempre contiene el signo =
PASO 3 Estadística
Seleccionar el nivel de significancia 256
El nivel de significancia es la probabilidad de rechazar la hipótesis nula cuando es verdadera. Se le denota mediante la letra griega α, también es denominada como nivel de riesgo; este término es más adecuado, ya que se corre el riesgo de rechazar la hipótesis nula, cuando en realidad
es
verdadera. Este nivel está bajo el control de la persona que realiza la prueba. Si suponemos que la hipótesis planteada es verdadera, entonces, el nivel de significación indicará la probabilidad de no aceptarla, es decir, que esté fuera de área de aceptación. El nivel de confianza (1-α) indica la probabilidad de aceptar la hipótesis planteada, cuando es verdadera en la población. PASO 4
Definir la región crítica
Como se sabe por el tema de intervalo de confianza, los parámetros poblacionales dependen por lo general de los resultados muestrales; pero es necesario definir a partir de qué valores muestrales se puede aceptar como parámetro poblacional, ya que es muy importante no caer en el error de la subjetividad. Suponiendo que la afirmación dada por el rector (ejercicio de la introducción) es suficiente para un estadístico una nota promedio muestral de 3.8 y en cambio para otro no. Por esto, es necesario definir estadísticamente, y sujetos al nivel de significancia, el área a partir de qué valores vamos a aceptar la hipótesis nula y rechazar la hipótesis alternativa. Esto es lo que se conoce como región crítica. La región crítica depende de la hipótesis alternativa, tamaño de muestra y conocimiento o no de la desviación estándar poblacional (si el parámetro poblacional se refiere al promedio ). Los pasos a seguir están resumidos en el siguiente cuadro:
Estadística
257
Cuadro 1.
Definición de la región crítica
Hipótesis / condición
y/o
y
Buscar el valor de en la tabla normal de adentro hacia afuera y encontrar el valor de Buscar el valor de en la tabla t-student. con v=n-1. y encontrar el valor de
graficar al lado izquierdo con signo negativo y al lado derecho con signo positivo
Buscar el valor de en la tabla normal y encontrar Buscar el valor de en la tabla t-student. encontrar
graficar al lado izquierdo con signo negativo
Buscar el valor de en la tabla normal y hallar Buscar el valor de en la tabla t-student. encontrar
graficar al lado derecho con signo positivo
Hipótesis Buscar el valor de en la tabla normal de adentro hacia afuera y encontrar el valor de
PASO 4.1
graficar al lado izquierdo con signo negativo y al lado derecho con signo positivo
Buscar el valor de en la tabla normal y encontrar
graficar al lado izquierdo con signo negativo
Buscar el valor de en la tabla normal y hallar
graficar al lado derecho con signo positivo
Graficas de la regiones críticas
De acuerdo con lo visto en el cuadro anterior, se tienen las siguientes gráficas: HIPÓTESIS
Estadística
Rechazo Rechazo
258
1.
No rechazo
2.
3.
Rechazo
PASO 5
Estadística
Calcular el estadístico de prueba
259
Valor determinado a partir de la información muestral, que se utiliza para determinar si se rechaza la hipótesis nula. La elección del estadístico de prueba depende (igual que en los intervalos de confianza) del tamaño de muestra y conocimiento o no de la desviación estándar poblacional (si el parámetro poblacional se refiere al promedio ). CUADRO 2.
Estadísticos de prueba
Prueba de hipótesis para
condición
Estadístico de prueba
y
y
Prueba de hipótesis para
Estadístico de prueba
PASO 6
Estadística
Tomar una decisión
260
En este último paso de la prueba de hipótesis, se calcula el estadístico de prueba, su resultado se coloca en la gráfica y se toma la decisión de rechazar o no la hipótesis nula así: •
Si el estadístico de prueba cae en la región de aceptación, aceptar la hipótesis nula.
•
Si el estadístico de prueba cae en la región de rechazo, rechazar la hipótesis nula.
Tener presente que en una prueba de hipótesis solo se puede tomar una de dos decisiones: aceptar o rechazar la hipótesis nula. Debe subrayarse que siempre existe la posibilidad de rechazar la hipótesis nula cuando no debería haberse rechazado (error tipo I). También existe la posibilidad de que la hipótesis nula se acepte cuando debería haberse rechazado (error de tipo II). Ejemplo : Continuando con el ejemplo del rector, a un nivel de significancia del 5%, comprobar la hipótesis lanzada por él. Paso 1
Plantear o matematizar la hipótesis lanzada y matematizar la hipótesis que la contradice .
Paso 2
Definir las hipótesis. .
Paso 3
Estadística
Seleccionar el nivel de significancia
261
Paso 4
Definir la región crítica
Teniendo en cuenta el ejercicio, se tienen los siguientes datos (los datos se encuentran en el ejemplo 1 del tema intervalos de confianza):
.
.
Según lo anterior,
y
. Por lo tanto, se utiliza de la
tabla 1 Hipótesis / condición
y
Estadística
Buscar el valor de en la tabla t-student. con v=n-1. y encontrar el valor de
graficar al lado izquierdo con signo negativo y al lado derecho con signo positivo
262
2.064
Paso 5
Estadístico de prueba.
condición
Estadístico de prueba
y
Paso 6
Decisión
-4.76
-2.064
2.064
Como el estadístico de prueba cae en la región de rechazo, se rechaza la hipótesis nula. “La nota promedio de los estudiantes no es de 4.2. El rector no tiene la razón”.
Estadística
263
Con respecto a la afirmación del rector: “más del 60% de ellos obtuvo una nota superior a 4.0”, se siguen los pasos para verificar la hipótesis lanzada por él: Paso 1 Paso 2
Definir las hipótesis. .
Paso 3 Paso 4
Definir la región crítica.
Hipótesis Buscamos el valor de en la tabla normal y hallamos
Paso 5
Estadística
graficamos al lado derecho con signo positivo
Estadístico de prueba.
264
Estadístico de prueba
Paso 6
Decisión. Como el estadístico de prueba cae en la región de aceptación, aceptamos la hipótesis nula, “el 60% o menos de los estudiantes obtuvo una nota promedio superior a 4.0. El rector no tiene la razon”.
-3.26
1.65
Ejemplo: Históricamente el promedio de clientes que compran con tarjeta de crédito en una determinada tienda es como mínimo 35; sin embargo, la dueña de la tienda piensa que esta cifra ha disminuido significativamente. De una muestra aleatoria de 50 clientes, 20 compraron con tarjeta de crédito con una desviación estándar de 2 clientes. A un nivel de significancia del 96%, ¿se está cumpliendo lo que piensa la dueña? Solución Paso 1
Paso 2 Estadística
Definir las hipótesis 265
Paso 3 Paso 4
Definir la región crítica .
.
Según lo anterior,
y
. Por lo tanto,
Hipótesis / condición Buscamos el valor de en la tabla normal y encontramos
y/o
Paso 5
graficamos al lado izquierdo con signo negativo
Estadístico de prueba
condición
Estadístico de prueba
y 0
Paso 6
Estadística
Decisión
266
-53
-1.75
Como el estadístico de prueba cae en la región de rechazo, rechazamos la hipótesis nula, “la cantidad de clientes que pagan con tarjeta de crédito ha disminuido”. La señora tiene la razón”.
Estadística
267
4. ESTUDIO DE CASO La revista Propiedades de julio de 2006, con respaldo de La Lonja, Camacol y El Colombiano, promociona la venta de apartamentos nuevos en diferentes zonas de la ciudad de Medellín y el Área Metropolitana. Se ha dividido el territorio en cuatro zonas, las cuales se describen a continuación: Zona 1: Centro, Manrique, Aranjuez, Prado, Buenos Aires, Loreto, Milagrosa y Villa Hermosa. Zona 2: Poblado, Envigado, Sabaneta, San Diego, Las Palmas. Zona
3:
Laureles,
América,
Estadio,
Castilla,
Pedregal,
Bello,
Tricentenario y Conquistadores. Zona 4: Rosales, Belén, La Mota, Guayabal, Itagüí y la Estrella. En la siguiente tabla, se especifica la localización del apartamento, el número de alcobas y el precio. ZONA 1 1 1 1 1 1 1 1 1 1 Estadística
Nº DE ALCOBAS 2 2 3 3 3 2 3 2 2 3
PRECIO ($ en miles) 27.900 29.200 31.470 32.400 34.800 35.500 37.944 38.500 39.880 44.415 268
ZONA Nº DE ALCOBAS PRECIO ($ en miles) 1 2 55.900 1 3 58.736 2 2 38.900 2 2 48.900 2 2 51.000 2 2 55.100 2 3 304.000 2 3 61.500 2 3 374.000 2 2 72.600 2 2 116.000 2 3 113.200 2 3 135.200 2 3 217.930 3 3 35.000 3 3 41.900 3 3 45.900 3 3 50.750 3 2 54.980 3 3 64.100 3 3 158.100 3 2 71.900 3 3 84.500 3 2 96.785 3 3 104.341 3 3 120.000 4 1 28.560 4 2 38.150 4 3 37.400 4 3 44.300 4 2 42.800 4 3 45.000 4 2 48.900 4 3 58.000 4 3 90.000 4 3 104.900 4 3 229.360 4 2 110.000 Fuente: Revista Propiedades, julio de 2006.
Estadística
269
Un inversionista desea adquirir una propiedad nueva, y para tomar la decisión se hace los siguientes interrogantes: •
¿Cuál será la zona de mayor valor promedio?
•
¿Cómo es la variación del costo en cada una de las zonas?
•
¿Cuál es la zona con precio más estable?
•
¿Se podría pronosticar el precio a partir del número de alcobas en cada zona y en todo el territorio?
•
¿Sería confiable este pronóstico?
•
A partir de estos interrogantes, ¿qué zona le sugiere usted al inversionista?
•
A un nivel de confianza del 95%, ¿cuál es el precio promedio de las casas en Medellín?
•
A un nivel de confiabilidad del 96%, ¿cuál es la proporción de casas con un precio superior a 90.000?
•
Si el inversionista, afirma a un nivel de significancia del 5% que el precio promedio de las casas es superior a 50.000, ¿qué le diría usted al inversionista?
•
Si el inversionista afirma a un nivel de significancia del 4% que el 60% de las casas con un costo superior a 90.000 tiene 3 habitaciones, ¿que le diría usted?
Estadística
270
5. ACTIVIDADES DE RECONOCIMIENTO Para lograr el alcance de los objetivos planteados en el curso, es necesario que los estudiantes tengan claridad en los siguientes conceptos y operaciones: Operaciones aritméticas: suma, resta, multiplicación y división. Porcentaje. Sumatoria de números enteros. Coordenadas en el plano cartesiano Función lineal: ecuación de línea recta, pendiente, gráfica en el plano cartesiano. Teoría de conjuntos Técnicas de conteo Desigualdades
Estadística
271
6. RESPUESTA A PREGUNTAS FRECUENTES Desde el punto de vista estadístico, ¿cuál es la importancia de la variable en una investigación? R/
La variable es la que determina la característica que se va a
investigar. Es la que se cuantifica con el fin de obtener la muestra. Es, a la vez, la que determina la población para la investigación. ¿Qué indica el signo negativo de la pendiente de una recta? R/ Indica que la curva desciende a medida que aumenta el valor de la variable independiente X. Si un investigador encuentra que, en un conjunto de datos, la media, la mediana y la moda son iguales, ¿qué se puede deducir de la distribución de los datos? R/ La distribución de los datos se ajusta a una curva normal, ya que los tres estadígrafos de tendencia central son iguales y se localizan en el punto central de la curva. ¿Qué sentido tiene hablar de intervalos de clase cuando se tienen datos sin agrupar? R/ No tiene ningún sentido, ya que el concepto de intervalo de clase se origina por la necesidad de agrupar los datos dentro de ciertos límites, con el fin de facilitar la comprensión y el manejo de una muestra. Estadística
272
¿Qué se entiende por marca de clase? R/ La marca de clase es el punto central de un intervalo. Es aquel valor que representa el intervalo de clase. ¿Qué significa el sesgo? R/ El sesgo significa la tendencia de los datos a agruparse a la derecha o izquierda de la media. ¿Que se entiende por probabilidad? R/ La probabilidad es la posibilidad relativa de que ocurra un suceso o evento. ¿Qué una técnica de conteo? R/ Una técnica de conteo es una herramienta matemática que sirve para hallar el total de resultados en un experimento estadístico. ¿Qué es Estadística Inferencial? R/ La Estadística Inferencial es la rama de la Estadística que sirve para hallar parámetros poblacionales, partiendo de resultados muestrales. ¿Qué significa nivel de confiabilidad?
Estadística
273
R/
Confiabilidad indica cuán seguros podemos estar de que el proceso
seguido resulte en valores que representen verdaderamente la población. Se usa más comúnmente con intervalos de confianza. En sentido probabilístico, si tuviéramos una confiabilidad del 95%, decimos que si repitiéramos el proceso muchas veces, en cerca del 95% de las veces obtendríamos resultados que reflejan verdaderamente la realidad. Cerca del 95% de los intervalos así construidos contendrían el valor desconocido del parámetro.
¿Qué significa nivel de significancia?
R/ Nivel de significancia corresponde a la probabilidad de error tipo I que estamos dispuestos a permitir cuando hacemos una prueba de hipótesis. Usualmente se expresa como un porcentaje. Los valores más comunes son 1%, 5%, 10%. Una significancia del 5% quiere decir que de cada cien pruebas donde rechacemos la hipótesis nula, nos permitimos la posibilidad de haberla rechazado en 5 ocasiones a pesar de ser cierta. El nivel de significancia se selecciona de acuerdo con una amplia gama de criterios que incluyen el costo de cometer error tipo I y la tradición en el área de contenido sobre el cual se está haciendo la prueba.
¿Qué se entiende por intervalo de confianza? R/
Intervalo de confianza es el rango de valores dentro del cual se
encuentra un parámetro con una determinada probabilidad (esta probabilidad es el denominado nivel de confianza).
Estadística
274
¿Qué se entiende por prueba de hipótesis?
R/ Una prueba de hipótesis es un procedimiento por el cual establecemos hipótesis nula y alterna con el fin de resolver un problema. El procedimiento incluye el diseño y selección de la muestra. Luego de tomados los datos de la muestra, se calcula el valor de una prueba estadística. A un nivel de significancia previamente seleccionado, la estadística prueba se compara con el valor obtenido de la tabla de la distribución estadística apropiada. Esa comparación nos lleva a tomar la decisión de rechazar o no la hipótesis nula.
¿Qué se entiende por proporción?
R/ Proporción es la fracción cuyo numerador está formado por un subgrupo de individuos incluido en el denominador.
Estadística
275
7. ACTIVIDADES DE PROFUNDIZACIÓN 1. Una emisora realizó una encuesta musical a los nuevos oyentes, la cual contenía, entre otras, las siguientes preguntas: a) ¿Cuántos CD y casetes compró usted en los últimos 12 meses? b) ¿Es actualmente miembro de un club radial? (Sí o No). c) ¿Qué edad tiene usted? d) Incluyéndose usted, ¿cuántas personas (adultos y niños) viven en su casa? e) ¿Qué tipo de música le interesa comprar? Diga si en cada pregunta se piden datos cualitativos o cuantitativos (discretos o continuos). 2. La dependencia de recursos humanos de una empresa clasifica las ocupaciones de los trabajadores como profesional, de oficina y obrero. Los datos se registran con 1, que indica profesional; 2, oficina; y 3, obrero. a) ¿Cuál es la variable? b) ¿Qué tipo de variable es? c) ¿Qué tipo de escala de medición se está usando? 3. Diga si cada una de las siguientes variables es cualitativa o cuantitativa (discreta o continua) e indique la escala de medición que sea apropiada para cada una. Estadística
276
a) Edad en años b) Sexo c) Posición en la lista de clase d) Marca de automóvil e) Número de personas que están a favor del aborto. f) Ventas anuales g) Tamaño de la gaseosa (pequeña, mediana o grande) h) Código o clasificación del cargo del empleado i) Ganancias anuales j) Forma de pago (efectivo, cheque, tarjeta de crédito) 4. Las calificaciones de un estudiante en seis pruebas fueron: 5, 2, 1, 3, 4 y 1. Calcular las siguientes medidas e interpretar los resultados. a) Media aritmética b) Mediana c) Moda d) Desviación estándar e) Coeficiente de variación
5. Supongamos que las estaturas, en metros, de los empleados de una empresa son: 1,65
1,53
1,71
1,69
1,80
1,67
1,60
1,62 1,86
1,64
1,85
1,73
1,77
1,60
1,62
1,59
1,98 1,81
1,78
1,56
1,59
1,57
1,60
1,86
1,71
1,81 1,52
1,92
1,98
1,58
Estadística
277
a. Construir intervalos de clase. b. Distribución de frecuencias: absoluta, relativa y acumuladas. c. Gráficas: barras, circular, histogramas, polígonos y ojivas. d. Diagrama de tallo y hojas. e. Medidas de tendencia central. f. Medidas de variabilidad. g. Medidas de localización.
6. Los siguientes datos representan la altura en centímetros y peso en
kilogramos de los alumnos de una clase. Considere que la altura es la variable independiente "x" y que el peso es la variable dependiente "y".
Alumno Estatura Peso Alumno Estatura Peso Alumno Estatura Peso 1 1,25 32 11 1,25 33 21 1,25 33 2 1,28 33 12 1,28 35 22 1,28 34 3 1,27 34 13 1,27 34 23 1,27 34 4 1,21 30 14 1,21 30 24 1,21 31 5 1,22 32 15 1,22 33 25 1,22 32 6 1,29 35 16 1,29 34 26 1,29 34 7 1,30 34 17 1,30 35 27 1,30 34 8 1,24 32 18 1,24 32 28 1,24 31 9 1,27 32 19 1,27 33 29 1,27 35 10 1,29 35 20 1,29 33 30 1,29 34 Fuente: datos hipotéticos
a) Construir el diagrama de dispersión. b) Hallar los parámetros bo y b1 del modelo de regresión lineal simple. c)
Graficar el modelo de regresión encontrado.
d) Calificar el modelo mediante los coeficientes de correlación y determinación. Estadística
278
e) Realice proyecciones para el peso y analícelas. 7. A los participantes de una convención se les ofrecen 6 recorridos por día para visitar lugares de interés durante 3 días de duración del evento. ¿En cuántas formas puede una persona acomodarse para hacer alguno de ellos?
R/18
8. Los estudiantes de un colegio privado de Humanidades se clasifican como estudiantes de primer año, de segundo, de penúltimo, y también de acuerdo con su sexo: hombre, mujer. Encuentre el número total de clasificaciones
posibles
para
los
estudiantes
de
este
colegio.
R/ 6 9.
Un comité de 5 personas se va a elegir entre 10 principales y 7 suplentes. ¿De cuántas maneras se puede hacer esto?
a.
Si en el comité ha de haber más principales que suplentes. R/4242
b.
Debe haber 4 suplentes.
R/350
10. ¿De cuántas maneras puede vestirse un individuo con 10 pantalones, 15 camisas y 2 chaquetas?
R/ 300
11. ¿Cuántos números con al menos 4 dígitos se pueden formar con las cifras 1,2,3,5,7,8 sin repetir cifras? R/ 1800
12. En el último año de la escuela, en un grupo de 100 alumnos se encontró Estadística 279
que 42 cursaron Matemáticas, 68 Sicología, 54 Historia, 22 Matemática e Historia, 25 Matemática y Sicología, 7 Historia pero no Matemática ni Sicología, 10 las tres materias y 8 ninguna de las tres. Si se selecciona un estudiante aleatoriamente, encuentre la probabilidad de que: a. Una persona inscrita en Sicología haya estudiado las tres materias. b. Una persona que no se inscribió en Sicología haya tomado Historia y Matemática. 13. La probabilidad de que a un automóvil al que se le llena el tanque de gasolina necesite también un cambio de aceite es de 0.25. La de que requiera un nuevo filtro de aceite, de 0.40, y de que la haga falta tanto cambio de aceite como de filtro de 0.14. a. Si debe cambiar el aceite, ¿cuál es la probabilidad de que necesite un filtro nuevo? b. Si necesita un filtro nuevo, ¿cuál es la probabilidad de que requiera que se le cambie el aceite? 14. Para parejas de casados que viven en una cierta ciudad de los suburbios, la probabilidad de que la
esposa trabaje es de 0.21 y la de que su
esposo lo haga, de 0.28. y la de que ambos trabajen, de 0.15. Si los eventos son DEPENDIENTES, ¿cuál es la probabilidad de que a. Al menos un miembro de la pareja de casados trabaje b. Trabaje un esposo, dado que su esposa lo hace c. Trabaje una esposa, dado que su esposo no lo hace
Estadística
280
15. Un distribuidor de ligas garantiza que el 10% son defectuosas.
Un
consumidor controla cada paquete extrayendo 10 ligas sin reemplazo. Si la muestra no contiene ligas defectuosas, él acepta el paquete. De otra manera lo rechaza. Encontrar la probabilidad de que en este proceso cualquier paquete se rechace 16. En una cierta área de la ciudad se da como una razón del 70% de los robos la necesidad de dinero para comprar estupefacientes. Encuentre la probabilidad que dentro de los 5 próximos asaltos reportados en esta área: a.
Exactamente 2 se debieron a la necesidad de dinero para comprar drogas.
b.
Cuando mucho 3 se debieron a la misma razón arriba indicada.
17. Al probar una cierta clase de neumáticos para camión en un terreno escabroso se encontró que 25% de los camiones terminaban la prueba con los neumáticos dañados. De los siguientes 15 camiones probados, encuentre la probabilidad de que: a.
De 3 a 6 tengan ponchaduras.
b.
Menos de 4 tengan pinchaduras.
18. Solo 40% de todos los insectos expuestos a un insecticida en condiciones de laboratorio pudieron sobrevivir. Si se expone una muestra de 8 insectos a este insecticida, cuál es la probabilidad de que: a.
Sobrevivan 4 insectos
b.
No sobrevivan 3.
Estadística
281
19. Según “NBC”, el 40% de los televidentes de Colombia sintonizan generalmente RCN. De una muestra aleatoria de 15 televidentes hallar las siguientes probabilidades: a.
Por lo menos cinco televidentes sintonicen RCN
b.
Catorce televidentes no sintonicen RCN.
20. Una fuerza de tareas gubernamental sospecha que algunas fábricas violan los reglamentos contra la contaminación ambiental con respecto a la descarga de cierto tipo de producto.
Quince empresas están bajo
sospecha pero no todas se pueden inspeccionar. Suponga que cuatro de las empresas violan los reglamentos. a.
¿Cuál es la probabilidad de que la inspección de seis empresas no encuentre ninguna violación?
b.
¿Cuál es la probabilidad de que la inspección de seis empresas encuentre que mínimo tres de ellas violan los reglamentos?
21. Una compañía fabricante utiliza un esquema de aceptación de producción de artículos antes de que se embarquen. El plan tiene dos etapas. Se preparan cajas de 25 artículos para su embarque muestra de tres en busca de defectuosos.
y se prueba una
Si se encuentra alguno
defectuoso, toda la caja se regresa para verificar el 100%.
Si no se
encuentran defectuosos, la caja se embarca. a.
¿Cuál es la probabilidad de que una caja que contiene tres defectuosos se embarque?
b.
¿Cuál es la probabilidad de que una caja que contenga sólo un artículo defectuoso se regrese para su revisión?
Estadística
282
22. Para evitar que lo descubran en la aduana, un viajero ha colocado 6 tabletas de narcóticos en una botella que contiene 9 píldoras de vitamina que son similares en apariencia. Si el oficial de la Aduana selecciona 3 tabletas aleatoriamente para analizarlas, ¿cuál es la probabilidad de que el viajero sea arrestado por posesión ilegal de narcóticos?
23. Se está planeando un nuevo hospital para el pueblo “x”, una comunidad que todavía no tiene su propio hospital. Si el pueblo tiene en promedio 14 nacimientos por semana, calcule las probabilidades. de que el número de nacimientos en un día sea: a.
Al menos de 3 nacimientos.
b.
Entre 1 y 3 nacimientos.
24. Concediendo que el conmutador de una oficina de consultoría recibe en promedio 0.6 llamadas por minuto, determine las probabilidades de que: a.
Haya más de una llamada.
b.
Haya menos de tres llamadas.
25. El número promedio de quejas de pasajeros recibidas en la Secretaría de Transporte es de 6 quejas diarias. En un día cualquiera, cuál es la probabilidad de que la secretaría de transporte reciba: a.
No más de dos quejas.
b.
Entre cuatro y siete quejas.
c.
No reciba quejas.
Estadística
283
26. El diámetro interno ya terminado de un anillo de pistón está normalmente distribuido con una media de 10 centímetros y una desviación estándar de 0.03 centímetros. a.
¿Qué proporción de los anillos tendrá un diámetro interno que exceda de 10.075 centímetros?
b.
¿Cuál es la probabilidad de que un anillo de pistón tenga un diámetro interno entre 9.97 y 10.03?
c.
¿Cuál es la probabilidad de que un anillo de pistón tenga un diámetro interno inferior a 10.03?
27. La resistencia a la tracción de cierto componente de metal se distribuye normalmente con una media de 10,000 kilogramos por centímetro cuadrado y una desviación estándar de 100 kilogramos por centímetro cuadrado. a. ¿Qué proporción de estos componentes excede 10.150 kilogramos por centímetro cuadrado de resistencia a la tracción? b. Si las especificaciones requieren que todos los componentes tengan resistencia a la tracción entre 9.800 y 10.200 kilogramos por centímetro cuadrado inclusive, ¿qué proporción de piezas esperaría que se descartaran? 28. La vida útil de cierto tipo de lavadora automática tiene una distribución aproximadamente normal
con una vida promedio de 3.1 años y una
desviación estándar de 1.2 años. b. ¿Cuál es la probabilidad de que una lavadora dure entre 2.9 y 3.5 años? c. Si este tipo de lavadora tiene garantía de un año, ¿qué fracción de la cantidad vendida originalmente, necesitará ser reemplazada?
Estadística
284
29. En un proceso industrial, el diámetro de un cojinete es una parte componente importante. El comprador establece que las especificaciones en el diámetro sean 3.0 ± 0.01 cm. La implicación es que ninguna parte que caiga fuera de estas especificaciones se aceptará. Se sabe que en el
proceso,
el
diámetro
de
un
cojinete
tiene
una
distribución
aproximadamente normal con un promedio de 3.0 y una desviación estándar de 0.005. ¿Qué porcentaje de cojinetes se descartarán? 30. Una muestra aleatoria de 36 cigarrillos de una determinada marca dio un contenido promedio de nicotina de 3 miligramos, con una desviación estándar de 1 miligramo. Obtenga e interprete un intervalo de confianza del 95% para el verdadero contenido promedio de nicotina en estos cigarrillos, si el contenido en nicotina de estos cigarrillos sigue una distribución normal. El fabricante garantiza que el contenido promedio de nicotina es 2.9 miligramos, ¿qué puede decirse de acuerdo con el intervalo hallado? 31. Los siguientes números representan el tiempo (en minutos) que tardaron 15 operarios en familiarizarse con el manejo de una nueva máquina adquirida por la empresa: 3.4, 2.8, 4.4, 2.5, 3.3, 4.0, 4.8, 2.9, 5.6, 5.2, 3.7, 3.0, 3.6, 2.8, 4.8. Supongamos que los tiempos se distribuyen normalmente. Encuentre un intervalo de confianza del 95% para la media poblacional. 32. Un fabricante produce focos que tienen un promedio de vida con distribución aproximadamente normal y una desviación estándar de 40 horas. Si una muestra de tamaño 30 focos tiene una vida promedio de 780 horas, encuentre un intervalo de confianza del 96% para la media Estadística
285
poblacional de todos los focos que produce esta empresa. 33. Una máquina de refrescos está ajustada de tal manera que la cantidad de líquido despachada se distribuye aproximadamente normal con una desviación estándar igual a 0.15 decilitros. Encuentre un intervalo de confianza del 95% para la media de todos los refrescos que sirve esta máquina, si una muestra aleatoria de 36 refrescos tiene un contenido promedio de 2.25 decilitros. 34. Un fabricante de fibras sintéticas desea estimar la tensión de ruptura media de las fibras. Diseña un experimento en el que se observan las tensiones de ruptura, en libras, de 16 hilos del proceso seleccionados aleatoriamente. Las tensiones son: 20.8,
20.6,
21.0,
20.9,
19.9,
20.2,
19.8,
19.7,
19.6,
20.3,
20.7,
20.9.
Supóngase que la tensión de ruptura se distribuye normalmente,
19.6,
21.1,
20.4,
20.6,
hallar un intervalo del 95% de confianza para estimar la tensión de ruptura promedio de la fibra. 35. Se selecciona una muestra aleatoria de 500 fumadores de cigarro y se encuentra que 86 de ellos prefieren la marca X. Encuentre el intervalo de confianza de 90% para la fracción de la población de fumadores que prefieren la marca X.
36. El gerente de una sucursal bancaria
en una ciudad pequeña querría
determinar la proporción de ahorradores a quienes se les paga su sueldo semanalmente. Una muestra aleatoria de 100 indica que a 30 no se les paga semanalmente. Estime un intervalo de confianza del 96% para la proporción real de ahorradores que reciben su sueldo semanalmente.
Estadística
286
37. Una empresa eléctrica fabrica focos que tienen una duración que está distribuida aproximadamente en forma normal con una media de 800 horas y una desviación estándar poblaciones de 40. Pruebe la hipótesis de que µ = 800 horas en contraposición de la alternativa de que µ ≠ 800 horas si una muestra aleatoria de 30 focos tiene una duración promedio de 788 horas. Utilice un nivel de significancia de 0.04.
38. Una muestra aleatoria de 36 refrescos de una máquina despachadora automática tiene un contenido promedio de 21.9 decilitros, con una desviación estándar de 1.42 decilitros. Pruebe la hipótesis de que µ ≥ 22.2 decilitros en contraposición a la hipótesis alternativa, µ < 22.2, en el nivel de significancia de 0.04.
39. La altura promedio de las mujeres en el grupo de primer año de una institución de enseñanza superior es de 162.5 centímetros. con una desviación estándar poblacional de 6.9 centímetros. ¿Hay alguna razón para creer que existe un cambio en la altura promedio si una muestra aleatoria de 50 mujeres del grupo actual tiene una altura promedio de 165.2 centímetros? Utilice un nivel de significancia de 0.05.
40. Se afirma que un automóvil recorre un promedio anual de más de 20.000 km. Para probar esta afirmación, se le solicita a una muestra aleatoria de 100 propietarios de automóvil que lleve un registro de los km que recorre. ¿Estaría usted de acuerdo con esta afirmación si en la muestra aleatoria resulta un promedio de 23.500 km y una desviación estándar poblaciones de 3.900 km? Utilice un nivel de significancia de 0.05. Estadística
287
41. Pruebe la hipótesis de que el contenido promedio en recipientes de un lubricante en particular es de 10 litros si los contenidos de una muestra aleatoria de 10 recipientes son 10.2,
9.7, 10.1, 10.3, 10.1, 9.8, 9.9,
10.4, 10.3, 9.8 litros. Utilice un nivel de significancia de 0.01 y suponga que la distribución de los contenidos es normal.
42. Una muestra aleatoria de 8 cigarros de una marca determinada tiene un contenido promedio de nicotina de 4.2 miligramos y una desviación estándar muestral de 1.4 miligramos.
¿Está esto de acuerdo con la
afirmación del fabricante de que el contenido promedio de nicotina no excede de 3.5 miligramos? Suponga que la distribución de los contenidos de nicotina es normal. Asuma un nivel de significancia de 0.01.
43. Un fabricante de televisores anuncia que el 90% de sus aparatos no necesita ninguna reparación durante los dos primeros años de uso. La Oficina de Protección al Consumidor selecciona una muestra de 100 aparatos y encuentra que 14 necesitaron alguna reparación durante los dos primeros años de uso.
Al nivel de significancia de 0.01, ¿a qué
conclusión puede llegar la Oficina de Protección al Consumidor?
44. Una compañía productora de combustibles asegura que una quinta parte de los hogares en una cierta ciudad se calienta con petróleo. ¿Se tiene alguna razón para dudar de esta afirmación si, en una muestra aleatoria de 1000 hogares en esta ciudad, se encuentra que 236 se calientan con petróleo? Utilice un nivel de significancia de 0.01.
Estadística
288
45. Se cree que al menos 60% de los residentes en una cierta área favorecen una demanda de anexión de una ciudad vecina. ¿Qué conclusión sacaría usted si sólo 110 en una muestra aleatoria de 200 votantes favorecen al acta? Utilice un nivel de significancia de 0.04. 46. Un cantante graba en vídeo-cinta sus actuaciones y registra el total de los tiempos que debe esperar a que el público deje de aplaudir.
En
actuaciones anteriores, el tiempo promedio que tenía que esperar era de 65.1 segundos. Interesado en saber si sus actuaciones son mejores, seleccionó una muestra aleatoria de 15 actuaciones en la que utilizó nuevos tipos de música, dando como resultado un tiempo promedio de espera de 71.5 segundos y una desviación estándar de 21.3 segundos. ¿Cree usted, a un nivel de significancia del 0.05, que sus viejas actuaciones no son mejores que las actuaciones nuevas? 47. Se cree que un protector solar es efectivo sólo en un 70% de los casos. Resultados experimentales con un nuevo protector solar, mostraron que de 60 personas seleccionadas aleatoriamente, 15 no fueron protegidas contra el sol. ¿Es ésta suficiente evidencia para concluir a un nivel de significancia de 0.05, que tanto el nuevo como el viejo protector solar son igual de efectivos? 48. En el banco Jefferson, dado la cantidad de quejas por parte de los usuarios por el tiempo (en minutos) que deben hacer fila para que los atiendan, se hizo un estudio para mirar el tiempo (en minutos) que se demoran en la fila antes de que los atiendan, para buscar la solución al problema después de haber aumentado el número de ventanillas y los resultados fueron los siguientes: 10.2 Estadística
5.3
8.5
9.3
20.1
3.5
5.5
7.3 289
8.5
5.4
6.7
10.2
10.5
15.5
25
23.2
19.5
17.3
26.5
10.5
9.3
8.5
4.3
5.8
6.5
4.3
15.3
10.8
19.5
23.2
Después del aumento de las ventanillas, ¿cuál es el tiempo promedio real (con un nivel de significancia del 0.05 ) de espera de los clientes? 49. En el banco Z, dada la cantidad de quejas por parte de los usuarios (cuenta con 30 clientes fijos, de los cuales 8 están satisfechos) por el tiempo (en minutos) que deben hacer fila para que los atiendan, se hizo un estudio, para buscar la solución al problema; se sabe: •
El tiempo de espera se distribuye aproximadamente normal con un tiempo promedio de 22.5 minutos y una desviación estándar de 2.5 minutos.
•
En promedio se retiran del banco 2 clientes por mes.
•
De una muestra aleatoria de tamaño 150 clientes, el 60% de ellos son hombres.
Responder: a. ¿Cuál es la probabilidad de que el tiempo de espera sea superior a 18 minutos? b. De una muestra aleatoria de 15 clientes, ¿cuál es la probabilidad de que al menos 12 estén satisfechos con el servicio del banco? c. Si el 15% de los clientes se retiran del banco en menos de 20 días, ¿cuál sería el tiempo promedio de retiro de ellos? d. Con una confianza del 95%, ¿cuál sería la proporción de clientes hombres en el banco? e. Los clientes afirman que consideran el servicio inefectivo si el promedio de tiempo de espera es por lo menos de 18 minutos, ¿cuál es la probabilidad de que sigan reclamando? Estadística
290
f. De una muestra aleatoria de 10 clientes, ¿cuál es la probabilidad de que 8 clientes estén satisfechos? g. Si el 35% de los clientes esperan menos de 22 minutos, ¿cuál sería el tiempo de espera promedio real? h. ¿Cuál es la probabilidad de que ningún cliente esté insatisfecho? i. ¿Cuál es la probabilidad de que se retire un cliente en al menos 10 días? j. ¿Cuál es la probabilidad de que en un mes no se retiren clientes?
Estadística
291
ANEXOS
TABLAS DE PROBABILIDAD ACUMULADA
Anexo A TABLA ACUMULADA DE LA DISTRIBUCIÓN BINOMIAL
p n
x
0,10
0,20
0,25
0,30
0,40
0,50
0,60
0,70
0,80
0,90
1
0 1
0,9000 1,0000
0,8000 1,0000
0,7500 1,0000
0,7000 1,0000
0,6000 1,0000
0,5000 1,0000
0,4000 1,0000
0,3000 1,0000
0,2000 1,0000
0,1000 1,0000
2
0 1 2
0,8100 0,9900 1,0000
0,6400 0,9600 1,0000
0,5625 0,9375 1,0000
0,4900 0,9100 1,0000
0,3600 0,8400 1,0000
0,2500 0,7500 1,0000
0,1600 0,6400 1,0000
0,0900 0,5100 1,0000
0,0400 0,3600 1,0000
0,0100 0,1900 1,0000
3
0 1 2 3
0,7290 0,9720 0,9990 1,0000
0,5120 0,8960 0,9920 1,0000
0,4219 0,8438 0,9844 1,0000
0,3430 0,7840 0,9730 1,0000
0,2160 0,6480 0,9360 1,0000
0,1250 0,5000 0,8750 1,0000
0,0640 0,3520 0,7840 1,0000
0,0270 0,2160 0,6570 1,0000
0,0080 0,1040 0,4880 1,0000
0,0010 0,0280 0,2710 1,0000
4
0 1 2 3 4
0,6561 0,9477 0,9963 0,9999 1,0000
0,4096 0,8192 0,9728 0,9984 1,0000
0,3164 0,7383 0,9492 0,9961 1,0000
0,2401 0,6517 0,9163 0,9919 1,0000
0,1296 0,4752 0,8208 0,9744 1,0000
0,0625 0,3125 0,6875 0,9375 1,0000
0,0256 0,1792 0,5248 0,8704 1,0000
0,0081 0,0837 0,3483 0,7599 1,0000
0,0016 0,0272 0,1808 0,5904 1,0000
0,0001 0,0037 0,0523 0,3439 1,0000
5
0 1 2 3 4 5
0,5905 0,9185 0,9914 0,9995 1,0000 1,0000
0,3277 0,7373 0,9421 0,9933 0,9997 1,0000
0,2373 0,6328 0,8965 0,9844 0,9990 1,0000
0,1681 0,5282 0,8369 0,9692 0,9976 1,0000
0,0778 0,3370 0,6826 0,9130 0,9898 1,0000
0,0313 0,1875 0,5000 0,8125 0,9688 1,0000
0,0102 0,0870 0,3174 0,6630 0,9222 1,0000
0,0024 0,0308 0,1631 0,4718 0,8319 1,0000
0,0003 0,0067 0,0579 0,2627 0,6723 1,0000
0,0000 0,0005 0,0086 0,0815 0,4095 1,0000
6
0 1 2 3 4 5 6
0,5314 0,8857 0,9842 0,9987 0,9999 1,0000 1,0000
0,2621 0,6554 0,9011 0,9830 0,9984 0,9999 1,0000
0,1780 0,5339 0,8306 0,9624 0,9954 0,9998 1,0000
0,1176 0,4202 0,7443 0,9295 0,9891 0,9993 1,0000
0,0467 0,2333 0,5443 0,8208 0,9590 0,9959 1,0000
0,0156 0,1094 0,3438 0,6563 0,8906 0,9844 1,0000
0,0041 0,0410 0,1792 0,4557 0,7667 0,9533 1,0000
0,0007 0,0109 0,0705 0,2557 0,5798 0,8824 1,0000
0,0001 0,0016 0,0170 0,0989 0,3446 0,7379 1,0000
0,0000 0,0001 0,0013 0,0159 0,1143 0,4686 1,0000
7
0 1 2 3 4 5 6 7
0,4783 0,8503 0,9743 0,9973 0,9998 1,0000 1,0000 1,0000
0,2097 0,5767 0,8520 0,9667 0,9953 0,9996 1,0000 1,0000
0,1335 0,4449 0,7564 0,9294 0,9871 0,9987 0,9999 1,0000
0,0824 0,3294 0,6471 0,8740 0,9712 0,9962 0,9998 1,0000
0,0280 0,1586 0,4199 0,7102 0,9037 0,9812 0,9984 1,0000
0,0078 0,0625 0,2266 0,5000 0,7734 0,9375 0,9922 1,0000
0,0016 0,0188 0,0963 0,2898 0,5801 0,8414 0,9720 1,0000
0,0002 0,0038 0,0288 0,1260 0,3529 0,6706 0,9176 1,0000
0,0000 0,0004 0,0047 0,0333 0,1480 0,4233 0,7903 1,0000
0,0000 0,0000 0,0002 0,0027 0,0257 0,1497 0,5217 1,0000
8
0 1 2 3 4 5 6 7 8
0,4305 0,8131 0,9619 0,9950 0,9996 1,0000 1,0000 1,0000 1,0000
0,1678 0,5033 0,7969 0,9437 0,9896 0,9988 0,9999 1,0000 1,0000
0,1001 0,3671 0,6785 0,8862 0,9727 0,9958 0,9996 1,0000 1,0000
0,0576 0,2553 0,5518 0,8059 0,9420 0,9887 0,9987 0,9999 1,0000
0,0168 0,1064 0,3154 0,5941 0,8263 0,9502 0,9915 0,9993 1,0000
0,0039 0,0352 0,1445 0,3633 0,6367 0,8555 0,9648 0,9961 1,0000
0,0007 0,0085 0,0498 0,1737 0,4059 0,6846 0,8936 0,9832 1,0000
0,0001 0,0013 0,0113 0,0580 0,1941 0,4482 0,7447 0,9424 1,0000
0,0000 0,0001 0,0012 0,0104 0,0563 0,2031 0,4967 0,8322 1,0000
0,0000 0,0000 0,0000 0,0004 0,0050 0,0381 0,1869 0,5695 1,0000
Estadística
292
(CONTINUACIÓN)
TABLA ACUMULADA DE LA DISTRIBUCIÓN BINOMIAL
p n
x
0,10
0,20
0,25
0,30
0,40
0,50
0,60
0,70
0,80
0,90
9
0 1 2 3 4 5 6 7 8 9
0,3874 0,7748 0,9470 0,9917 0,9991 0,9999 1,0000 1,0000 1,0000 1,0000
0,1342 0,4362 0,7382 0,9144 0,9804 0,9969 0,9997 1,0000 1,0000 1,0000
0,0751 0,3003 0,6007 0,8343 0,9511 0,9900 0,9987 0,9999 1,0000 1,0000
0,0404 0,1960 0,4628 0,7297 0,9012 0,9747 0,9957 0,9996 1,0000 1,0000
0,0101 0,0705 0,2318 0,4826 0,7334 0,9006 0,9750 0,9962 0,9997 1,0000
0,0020 0,0195 0,0898 0,2539 0,5000 0,7461 0,9102 0,9805 0,9980 1,0000
0,0003 0,0038 0,0250 0,0994 0,2666 0,5174 0,7682 0,9295 0,9899 1,0000
0,0000 0,0004 0,0043 0,0253 0,0988 0,2703 0,5372 0,8040 0,9596 1,0000
0,0000 0,0000 0,0003 0,0031 0,0196 0,0856 0,2618 0,5638 0,8658 1,0000
0,0000 0,0000 0,0000 0,0001 0,0009 0,0083 0,0530 0,2252 0,6126 1,0000
10
0 1 2 3 4 5 6 7 8 9 10
0,3487 0,7361 0,9298 0,9872 0,9984 0,9999 1,0000 1,0000 1,0000 1,0000 1,0000
0,1074 0,3758 0,6778 0,8791 0,9672 0,9936 0,9991 0,9999 1,0000 1,0000 1,0000
0,0563 0,2440 0,5256 0,7759 0,9219 0,9803 0,9965 0,9996 1,0000 1,0000 1,0000
0,0282 0,1493 0,3828 0,6496 0,8497 0,9527 0,9894 0,9984 0,9999 1,0000 1,0000
0,0060 0,0464 0,1673 0,3823 0,6331 0,8338 0,9452 0,9877 0,9983 0,9999 1,0000
0,0010 0,0107 0,0547 0,1719 0,3770 0,6230 0,8281 0,9453 0,9893 0,9990 1,0000
0,0001 0,0017 0,0123 0,0548 0,1662 0,3669 0,6177 0,8327 0,9536 0,9940 1,0000
0,0000 0,0001 0,0016 0,0106 0,0473 0,1503 0,3504 0,6172 0,8507 0,9718 1,0000
0,0000 0,0000 0,0001 0,0009 0,0064 0,0328 0,1209 0,3222 0,6242 0,8926 1,0000
0,0000 0,0000 0,0000 0,0000 0,0001 0,0016 0,0128 0,0702 0,2639 0,6513 1,0000
11
0 1 2 3 4 5 6 8 9 10 11
0,3138 0,6974 0,9104 0,9815 0,9972 0,9997 1,0000 1,0000 1,0000 1,0000 1,0000
0,0859 0,3221 0,6174 0,8389 0,9496 0,9883 0,9980 0,9983 0,9983 0,9983 0,9983
0,0422 0,1971 0,4552 0,7133 0,8854 0,9657 0,9924 0,9935 0,9936 0,9936 0,9936
0,0198 0,1130 0,3127 0,5696 0,7897 0,9218 0,9784 0,9821 0,9826 0,9827 0,9827
0,0036 0,0302 0,1189 0,2963 0,5328 0,7535 0,9006 0,9240 0,9292 0,9299 0,9299
0,0005 0,0059 0,0327 0,1133 0,2744 0,5000 0,7256 0,8062 0,8330 0,8384 0,8389
0,0000 0,0007 0,0059 0,0293 0,0994 0,2465 0,4672 0,6446 0,7333 0,7599 0,7635
0,0000 0,0000 0,0006 0,0043 0,0216 0,0782 0,2103 0,4671 0,6669 0,7601 0,7799
0,0000 0,0000 0,0000 0,0002 0,0020 0,0117 0,0504 0,2719 0,5671 0,8034 0,8893
0,0000 0,0000 0,0000 0,0000 0,0000 0,0003 0,0028 0,0738 0,2869 0,6704 0,9842
12
0 1 2 3 4 5 6 7 8 9 10 11 12
0,2824 0,6590 0,8891 0,9744 0,9957 0,9995 0,9999 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000
0,0687 0,2749 0,5583 0,7946 0,9274 0,9806 0,9961 0,9994 0,9999 1,0000 1,0000 1,0000 1,0000
0,0317 0,1584 0,3907 0,6488 0,8424 0,9456 0,9857 0,9972 0,9996 1,0000 1,0000 1,0000 1,0000
0,0138 0,0850 0,2528 0,4925 0,7237 0,8822 0,9614 0,9905 0,9983 0,9998 1,0000 1,0000 1,0000
0,0022 0,0196 0,0834 0,2253 0,4382 0,6652 0,8418 0,9427 0,9847 0,9972 0,9997 1,0000 1,0000
0,0002 0,0032 0,0193 0,0730 0,1938 0,3872 0,6128 0,8062 0,9270 0,9807 0,9968 0,9998 1,0000
0,0000 0,0003 0,0028 0,0153 0,0573 0,1582 0,3348 0,5618 0,7747 0,9166 0,9804 0,9978 1,0000
0,0000 0,0000 0,0002 0,0017 0,0095 0,0386 0,1178 0,2763 0,5075 0,7472 0,9150 0,9862 1,0000
0,0000 0,0000 0,0000 0,0001 0,0006 0,0039 0,0194 0,0726 0,2054 0,4417 0,7251 0,9313 1,0000
0,0000 0,0000 0,0000 0,0000 0,0000 0,0001 0,0005 0,0043 0,0256 0,1109 0,3410 0,7176 1,0000
Estadística
293
(CONTINUACIÓN)
TABLA ACUMULADA DE LA DISTRIBUCIÓN BINOMIAL
p n
x
0,10
0,20
0,25
0,30
0,40
0,50
0,60
0,70
0,80
0,90
13
0 1 2 3 4 5 6 7 8 9 10 11 12 13
0,2542 0,6213 0,8661 0,9658 0,9935 0,9991 0,9999 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000
0,0550 0,2336 0,5017 0,7473 0,9009 0,9700 0,9930 0,9988 0,9998 1,0000 1,0000 1,0000 1,0000 1,0000
0,0238 0,1267 0,3326 0,5843 0,7940 0,9198 0,9757 0,9944 0,9990 0,9999 1,0000 1,0000 1,0000 1,0000
0,0097 0,0637 0,2025 0,4206 0,6543 0,8346 0,9376 0,9818 0,9960 0,9993 0,9999 1,0000 1,0000 1,0000
0,0013 0,0126 0,0579 0,1686 0,3530 0,5744 0,7712 0,9023 0,9679 0,9922 0,9987 0,9999 1,0000 1,0000
0,0001 0,0017 0,0112 0,0461 0,1334 0,2905 0,5000 0,7095 0,8666 0,9539 0,9888 0,9983 0,9999 1,0000
0,0000 0,0001 0,0013 0,0078 0,0321 0,0977 0,2288 0,4256 0,6470 0,8314 0,9421 0,9874 0,9987 1,0000
0,0000 0,0000 0,0001 0,0007 0,0040 0,0182 0,0624 0,1654 0,3457 0,5794 0,7975 0,9363 0,9903 1,0000
0,0000 0,0000 0,0000 0,0000 0,0002 0,0012 0,0070 0,0300 0,0991 0,2527 0,4983 0,7664 0,9450 1,0000
0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001 0,0009 0,0065 0,0342 0,1339 0,3787 0,7458 1,0000
14
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14
0,2288 0,5846 0,8416 0,9559 0,9908 0,9985 0,9998 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000
0,0440 0,1979 0,4481 0,6982 0,8702 0,9561 0,9884 0,9976 0,9996 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000
0,0178 0,1010 0,2811 0,5213 0,7415 0,8883 0,9617 0,9897 0,9978 0,9997 1,0000 1,0000 1,0000 1,0000 1,0000
0,0068 0,0475 0,1608 0,3552 0,5842 0,7805 0,9067 0,9685 0,9917 0,9983 0,9998 1,0000 1,0000 1,0000 1,0000
0,0008 0,0081 0,0398 0,1243 0,2793 0,4859 0,6925 0,8499 0,9417 0,9825 0,9961 0,9994 0,9999 1,0000 1,0000
0,0001 0,0009 0,0065 0,0287 0,0898 0,2120 0,3953 0,6047 0,7880 0,9102 0,9713 0,9935 0,9991 0,9999 1,0000
0,0000 0,0001 0,0006 0,0039 0,0175 0,0583 0,1501 0,3075 0,5141 0,7207 0,8757 0,9602 0,9919 0,9992 1,0000
0,0000 0,0000 0,0000 0,0002 0,0017 0,0083 0,0315 0,0933 0,2195 0,4158 0,6448 0,8392 0,9525 0,9932 1,0000
0,0000 0,0000 0,0000 0,0000 0,0000 0,0004 0,0024 0,0116 0,0439 0,1298 0,3018 0,5519 0,8021 0,9560 1,0000
0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0002 0,0015 0,0092 0,0441 0,1584 0,4154 0,7712 1,0000
15
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
0,2059 0,5490 0,8159 0,9444 0,9873 0,9978 0,9997 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000
0,0352 0,1671 0,3980 0,6482 0,8358 0,9389 0,9819 0,9958 0,9992 0,9999 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000
0,0134 0,0802 0,2361 0,4613 0,6865 0,8516 0,9434 0,9827 0,9958 0,9992 0,9999 1,0000 1,0000 1,0000 1,0000 1,0000
0,0047 0,0353 0,1268 0,2969 0,5155 0,7216 0,8689 0,9500 0,9848 0,9963 0,9993 0,9999 1,0000 1,0000 1,0000 1,0000
0,0005 0,0052 0,0271 0,0905 0,2173 0,4032 0,6098 0,7869 0,9050 0,9662 0,9907 0,9981 0,9997 1,0000 1,0000 1,0000
0,0000 0,0005 0,0037 0,0176 0,0592 0,1509 0,3036 0,5000 0,6964 0,8491 0,9408 0,9824 0,9963 0,9995 1,0000 1,0000
0,0000 0,0000 0,0003 0,0019 0,0093 0,0338 0,0950 0,2131 0,3902 0,5968 0,7827 0,9095 0,9729 0,9948 0,9995 1,0000
0,0000 0,0000 0,0000 0,0001 0,0007 0,0037 0,0152 0,0500 0,1311 0,2784 0,4845 0,7031 0,8732 0,9647 0,9953 1,0000
0,0000 0,0000 0,0000 0,0000 0,0000 0,0001 0,0008 0,0042 0,0181 0,0611 0,1642 0,3518 0,6020 0,8329 0,9648 1,0000
0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0003 0,0022 0,0127 0,0556 0,1841 0,4510 0,7941 1,0000
Estadística
294
(CONTINUACIÓN)
TABLA ACUMULADA DE LA DISTRIBUCIÓN BINOMIAL
p n
x
0,10
0,20
0,25
0,30
0,40
0,50
0,60
0,70
0,80
0,90
16
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
0,1853 0,5147 0,7892 0,9316 0,9830 0,9967 0,9995 0,9999 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000
0,0281 0,1407 0,3518 0,5981 0,7982 0,9183 0,9733 0,9930 0,9985 0,9998 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000
0,0100 0,0635 0,1971 0,4050 0,6302 0,8103 0,9204 0,9729 0,9925 0,9984 0,9997 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000
0,0033 0,0261 0,0994 0,2459 0,4499 0,6598 0,8247 0,9256 0,9743 0,9929 0,9984 0,9997 1,0000 1,0000 1,0000 1,0000 1,0000
0,0003 0,0033 0,0183 0,0651 0,1666 0,3288 0,5272 0,7161 0,8577 0,9417 0,9809 0,9951 0,9991 0,9999 1,0000 1,0000 1,0000
0,0000 0,0003 0,0021 0,0106 0,0384 0,1051 0,2272 0,4018 0,5982 0,7728 0,8949 0,9616 0,9894 0,9979 0,9997 1,0000 1,0000
0,0000 0,0000 0,0001 0,0009 0,0049 0,0191 0,0583 0,1423 0,2839 0,4728 0,6712 0,8334 0,9349 0,9817 0,9967 0,9997 1,0000
0,0000 0,0000 0,0000 0,0000 0,0003 0,0016 0,0071 0,0257 0,0744 0,1753 0,3402 0,5501 0,7541 0,9006 0,9739 0,9967 1,0000
0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0002 0,0015 0,0070 0,0267 0,0817 0,2018 0,4019 0,6482 0,8593 0,9719 1,0000
0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001 0,0005 0,0033 0,0170 0,0684 0,2108 0,4853 0,8147 1,0000
17
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17
0,1668 0,4818 0,7618 0,9174 0,9779 0,9953 0,9992 0,9999 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000
0,0225 0,1182 0,3096 0,5489 0,7582 0,8943 0,9623 0,9891 0,9974 0,9995 0,9999 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000
0,0075 0,0501 0,1637 0,3530 0,5739 0,7653 0,8929 0,9598 0,9876 0,9969 0,9994 0,9999 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000
0,0023 0,0193 0,0774 0,2019 0,3887 0,5968 0,7752 0,8954 0,9597 0,9873 0,9968 0,9993 0,9999 1,0000 1,0000 1,0000 1,0000 1,0000
0,0002 0,0021 0,0123 0,0464 0,1260 0,2639 0,4478 0,6405 0,8011 0,9081 0,9652 0,9894 0,9975 0,9995 0,9999 1,0000 1,0000 1,0000
0,0000 0,0001 0,0012 0,0064 0,0245 0,0717 0,1662 0,3145 0,5000 0,6855 0,8338 0,9283 0,9755 0,9936 0,9988 0,9999 1,0000 1,0000
0,0000 0,0000 0,0001 0,0005 0,0025 0,0106 0,0348 0,0919 0,1989 0,3595 0,5522 0,7361 0,8740 0,9536 0,9877 0,9979 0,9998 1,0000
0,0000 0,0000 0,0000 0,0000 0,0001 0,0007 0,0032 0,0127 0,0403 0,1046 0,2248 0,4032 0,6113 0,7981 0,9226 0,9807 0,9977 1,0000
0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001 0,0005 0,0026 0,0109 0,0377 0,1057 0,2418 0,4511 0,6904 0,8818 0,9775 1,0000
0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001 0,0008 0,0047 0,0221 0,0826 0,2382 0,5182 0,8332 1,0000
18
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18
0,1501 0,4503 0,7338 0,9018 0,9718 0,9936 0,9988 0,9998 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000
0,0180 0,0991 0,2713 0,5010 0,7164 0,8671 0,9487 0,9837 0,9957 0,9991 0,9998 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000
0,0056 0,0395 0,1353 0,3057 0,5187 0,7175 0,8610 0,9431 0,9807 0,9946 0,9988 0,9998 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000
0,0016 0,0142 0,0600 0,1646 0,3327 0,5344 0,7217 0,8593 0,9404 0,9790 0,9939 0,9986 0,9997 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000
0,0001 0,0013 0,0082 0,0328 0,0942 0,2088 0,3743 0,5634 0,7368 0,8653 0,9424 0,9797 0,9942 0,9987 0,9998 1,0000 1,0000 1,0000 1,0000
0,0000 0,0001 0,0007 0,0038 0,0154 0,0481 0,1189 0,2403 0,4073 0,5927 0,7597 0,8811 0,9519 0,9846 0,9962 0,9993 0,9999 1,0000 1,0000
0,0000 0,0000 0,0000 0,0002 0,0013 0,0058 0,0203 0,0576 0,1347 0,2632 0,4366 0,6257 0,7912 0,9058 0,9672 0,9918 0,9987 0,9999 1,0000
0,0000 0,0000 0,0000 0,0000 0,0000 0,0003 0,0014 0,0061 0,0210 0,0596 0,1407 0,2783 0,4656 0,6673 0,8354 0,9400 0,9858 0,9984 1,0000
0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0002 0,0009 0,0043 0,0163 0,0513 0,1329 0,2836 0,4990 0,7287 0,9009 0,9820 1,0000
0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0002 0,0012 0,0064 0,0282 0,0982 0,2662 0,5497 0,8499 1,0000
Estadística
295
(CONTINUACIÓN)
TABLA ACUMULADA DE LA DISTRIBUCIÓN BINOMIAL
p n
x
0,10
0,20
0,25
0,30
0,40
0,50
0,60
0,70
0,80
0,90
19
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19
0,1351 0,4203 0,7054 0,8850 0,9648 0,9914 0,9983 0,9997 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000
0,0144 0,0829 0,2369 0,4551 0,6733 0,8369 0,9324 0,9767 0,9933 0,9984 0,9997 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000
0,0042 0,0310 0,1113 0,2631 0,4654 0,6678 0,8251 0,9225 0,9713 0,9911 0,9977 0,9995 0,9999 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000
0,0011 0,0104 0,0462 0,1332 0,2822 0,4739 0,6655 0,8180 0,9161 0,9674 0,9895 0,9972 0,9994 0,9999 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000
0,0001 0,0008 0,0055 0,0230 0,0696 0,1629 0,3081 0,4878 0,6675 0,8139 0,9115 0,9648 0,9884 0,9969 0,9994 0,9999 1,0000 1,0000 1,0000 1,0000
0,0000 0,0000 0,0004 0,0022 0,0096 0,0318 0,0835 0,1796 0,3238 0,5000 0,6762 0,8204 0,9165 0,9682 0,9904 0,9978 0,9996 1,0000 1,0000 1,0000
0,0000 0,0000 0,0000 0,0001 0,0006 0,0031 0,0116 0,0352 0,0885 0,1861 0,3325 0,5122 0,6919 0,8371 0,9304 0,9770 0,9945 0,9992 0,9999 1,0000
0,0000 0,0000 0,0000 0,0000 0,0000 0,0001 0,0006 0,0028 0,0105 0,0326 0,0839 0,1820 0,3345 0,5261 0,7178 0,8668 0,9538 0,9896 0,9989 1,0000
0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0003 0,0016 0,0067 0,0233 0,0676 0,1631 0,3267 0,5449 0,7631 0,9171 0,9856 1,0000
0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0003 0,0017 0,0086 0,0352 0,1150 0,2946 0,5797 0,8649 1,0000
20
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
0,1216 0,3917 0,6769 0,8670 0,9568 0,9887 0,9976 0,9996 0,9999 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000
0,0115 0,0692 0,2061 0,4114 0,6296 0,8042 0,9133 0,9679 0,9900 0,9974 0,9994 0,9999 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000
0,0032 0,0243 0,0913 0,2252 0,4148 0,6172 0,7858 0,8982 0,9591 0,9861 0,9961 0,9991 0,9998 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000
0,0008 0,0076 0,0355 0,1071 0,2375 0,4164 0,6080 0,7723 0,8867 0,9520 0,9829 0,9949 0,9987 0,9997 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000
0,0000 0,0005 0,0036 0,0160 0,0510 0,1256 0,2500 0,4159 0,5956 0,7553 0,8725 0,9435 0,9790 0,9935 0,9984 0,9997 1,0000 1,0000 1,0000 1,0000 1,0000
0,0000 0,0000 0,0002 0,0013 0,0059 0,0207 0,0577 0,1316 0,2517 0,4119 0,5881 0,7483 0,8684 0,9423 0,9793 0,9941 0,9987 0,9998 1,0000 1,0000 1,0000
0,0000 0,0000 0,0000 0,0000 0,0003 0,0016 0,0065 0,0210 0,0565 0,1275 0,2447 0,4044 0,5841 0,7500 0,8744 0,9490 0,9840 0,9964 0,9995 1,0000 1,0000
0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0003 0,0013 0,0051 0,0171 0,0480 0,1133 0,2277 0,3920 0,5836 0,7625 0,8929 0,9645 0,9924 0,9992 1,0000
0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001 0,0006 0,0026 0,0100 0,0321 0,0867 0,1958 0,3704 0,5886 0,7939 0,9308 0,9885 1,0000
0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001 0,0004 0,0024 0,0113 0,0432 0,1330 0,3231 0,6083 0,8784 1,0000
Estadística
296
ANEXO B
TABLA ACUMULADA DE LA DISTRIBUCIÓN POISSON
µ x
0,1
0,2
0,30
0,4
0,5
0,6
0,7
0,8
0,9
0
0,9048
0,8187
0,7408
0,6703
0,6065
0,5488
0,4966
0,4493
0,4066
1
0,9953
0,9825
0,9631
0,9384
0,9098
0,8781
0,8442
0,8088
0,7725
2
0,9998
0,9989
0,9964
0,9921
0,9856
0,9769
0,9659
0,9526
0,9371
3
1,0000
0,9999
0,9997
0,9992
0,9982
0,9966
0,9942
0,9909
0,9865
4
1,0000
1,0000
1,0000
0,9999
0,9998
0,9996
0,9992
0,9986
0,9977
5
1,0000
1,0000
1,0000
1,0000
1,0000
1,0000
0,9999
0,9998
0,9997
6
1,0000
1,0000
1,0000
1,0000
1,0000
1,0000
1,0000
1,0000
1,0000
x
1,0
1,5
2,0
2,5
3,0
3,5
4,0
4,5
5,0
0
0,3679
0,2231
0,1353
0,0821
0,0498
0,0302
0,0183
0,0111
0,0067
1
0,7358
0,5578
0,4060
0,2873
0,1991
0,1359
0,0916
0,0611
0,0404
2
0,9197
0,8088
0,6767
0,5438
0,4232
0,3208
0,2381
0,1736
0,1247
3
0,9810
0,9344
0,8571
0,7576
0,6472
0,5366
0,4335
0,3423
0,2650
4
0,9963
0,9814
0,9473
0,8912
0,8153
0,7254
0,6288
0,5321
0,4405
5
0,9994
0,9955
0,9834
0,9580
0,9161
0,8576
0,7851
0,7029
0,6160
6
0,9999
0,9991
0,9955
0,9858
0,9665
0,9347
0,8893
0,8311
0,7622
7
1,0000
0,9998
0,9989
0,9958
0,9881
0,9733
0,9489
0,9134
0,8666
8
1,0000
1,0000
0,9998
0,9989
0,9962
0,9901
0,9786
0,9597
0,9319
9
1,0000
1,0000
1,0000
0,9997
0,9989
0,9967
0,9919
0,9829
0,9682
10
1,0000
1,0000
1,0000
0,9999
0,9997
0,9990
0,9972
0,9933
0,9863
11
1,0000
1,0000
1,0000
1,0000
0,9999
0,9997
0,9991
0,9976
0,9945
12
1,0000
1,0000
1,0000
1,0000
1,0000
0,9999
0,9997
0,9992
0,9980
13
1,0000
1,0000
1,0000
1,0000
1,0000
1,0000
0,9999
0,9997
0,9993
14
1,0000
1,0000
1,0000
1,0000
1,0000
1,0000
1,0000
0,9999
0,9998
15
1,0000
1,0000
1,0000
1,0000
1,0000
1,0000
1,0000
1,0000
0,9999
16
1,0000
1,0000
1,0000
1,0000
1,0000
1,0000
1,0000
1,0000
1,0000
Estadística
297
TABLA ACUMULADA DE LA DISTRIBUCIÓN POISSON (Continuaciòn)
µ
x
5,5
6,0
6,5
7,0
7,5
8,0
8,5
9,0
9,5
0
0,0041
0,0025
0,0015
0,0009
0,0006
0,0003
0,0002
0,0001
0,0001
1 2
0,0266 0,0884
0,0174 0,0620
0,0113 0,0430
0,0073 0,0296
0,0047 0,0203
0,0030 0,0138
0,0019 0,0093
0,0012 0,0062
0,0008 0,0042
3
0,2017
0,1512
0,1118
0,0818
0,0591
0,0424
0,0301
0,0212
0,0149
4
0,3575
0,2851
0,2237
0,1730
0,1321
0,0996
0,0744
0,0550
0,0403
5 6
0,5289 0,6860
0,4457 0,6063
0,3690 0,5265
0,3007 0,4497
0,2414 0,3782
0,1912 0,3134
0,1496 0,2562
0,1157 0,2068
0,0885 0,1649
7 8
0,8095 0,8944
0,7440 0,8472
0,6728 0,7916
0,5987 0,7291
0,5246 0,6620
0,4530 0,5925
0,3856 0,5231
0,3239 0,4557
0,2687 0,3918
9 10 11
0,9462 0,9747 0,9890
0,9161 0,9574 0,9799
0,8774 0,9332 0,9661
0,8305 0,9015 0,9467
0,7764 0,8622 0,9208
0,7166 0,8159 0,8881
0,6530 0,7634 0,8487
0,5874 0,7060 0,8030
0,5218 0,6453 0,7520
12 13 14
0,9955 0,9983 0,9994
0,9912 0,9964 0,9986
0,9840 0,9929 0,9970
0,9730 0,9872 0,9943
0,9573 0,9784 0,9897
0,9362 0,9658 0,9827
0,9091 0,9486 0,9726
0,8758 0,9261 0,9585
0,8364 0,8981 0,9400
15 16
0,9998 0,9999
0,9995 0,9998
0,9988 0,9996
0,9976 0,9990
0,9954 0,9980
0,9918 0,9963
0,9862 0,9934
0,9780 0,9889
0,9665 0,9823
17 18 19
1,0000 1,0000 1,0000
0,9999 1,0000 1,0000
0,9998 0,9999 1,0000
0,9996 0,9999 1,0000
0,9992 0,9997 0,9999
0,9984 0,9993 0,9997
0,9970 0,9987 0,9995
0,9947 0,9976 0,9989
0,9911 0,9957 0,9980
20 21
1,0000 1,0000
1,0000 1,0000
1,0000 1,0000
1,0000 1,0000
1,0000 1,0000
0,9999 1,0000
0,9998 0,9999
0,9996 0,9998
0,9991 0,9996
22
1,0000
1,0000
1,0000
1,0000
1,0000
1,0000
1,0000
0,9999
0,9999
23
1,0000
1,0000
1,0000
1,0000
1,0000
1,0000
1,0000
1,0000
0,9999
24
1,0000
1,0000
1,0000
1,0000
1,0000
1,0000
1,0000
1,0000
1,0000
Estadística
298
TABLA ACUMULADA DE LA DISTRIBUCIÓN POISSON (continuaciòn)
µ x
10
11
12
13
14
15
16
17
18
0
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
1
0,0005
0,0002
0,0001
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
2
0,0028
0,0012
0,0005
0,0002
0,0001
0,0000
0,0000
0,0000
0,0000
3
0,0103
0,0049
0,0023
0,0011
0,0005
0,0002
0,0001
0,0000
0,0000
4
0,0293
0,0151
0,0076
0,0037
0,0018
0,0009
0,0004
0,0002
0,0001
5
0,0671
0,0375
0,0203
0,0107
0,0055
0,0028
0,0014
0,0007
0,0003
6
0,1301
0,0786
0,0458
0,0259
0,0142
0,0076
0,0040
0,0021
0,0010
7
0,2202
0,1432
0,0895
0,0540
0,0316
0,0180
0,0100
0,0054
0,0029
8
0,3328
0,2320
0,1550
0,0998
0,0621
0,0374
0,0220
0,0126
0,0071
9
0,4579
0,3405
0,2424
0,1658
0,1094
0,0699
0,0433
0,0261
0,0154
10
0,5830
0,4599
0,3472
0,2517
0,1757
0,1185
0,0774
0,0491
0,0304
11
0,6968
0,5793
0,4616
0,3532
0,2600
0,1848
0,1270
0,0847
0,0549
12
0,7916
0,6887
0,5760
0,4631
0,3585
0,2676
0,1931
0,1350
0,0917
13
0,8645
0,7813
0,6815
0,5730
0,4644
0,3632
0,2745
0,2009
0,1426
14
0,9165
0,8540
0,7720
0,6751
0,5704
0,4657
0,3675
0,2808
0,2081
15
0,9513
0,9074
0,8444
0,7636
0,6694
0,5681
0,4667
0,3715
0,2867
16
0,9730
0,9441
0,8987
0,8355
0,7559
0,6641
0,5660
0,4677
0,3751
17
0,9857
0,9678
0,9370
0,8905
0,8272
0,7489
0,6593
0,5640
0,4686
18
0,9928
0,9823
0,9626
0,9302
0,8826
0,8195
0,7423
0,6550
0,5622
19
0,9965
0,9907
0,9787
0,9573
0,9235
0,8752
0,8122
0,7363
0,6509
20
0,9984
0,9953
0,9884
0,9750
0,9521
0,9170
0,8682
0,8055
0,7307
21
0,9993
0,9977
0,9939
0,9859
0,9712
0,9469
0,9108
0,8615
0,7991
22
0,9997
0,9990
0,9970
0,9924
0,9833
0,9673
0,9418
0,9047
0,8551
23
0,9999
0,9995
0,9985
0,9960
0,9907
0,9805
0,9633
0,9367
0,8989
24
1,0000
0,9998
0,9993
0,9980
0,9950
0,9888
0,9777
0,9594
0,9317
25
1,0000
0,9999
0,9997
0,9990
0,9974
0,9938
0,9869
0,9748
0,9554
26
1,0000
1,0000
0,9999
0,9995
0,9987
0,9967
0,9925
0,9848
0,9718
27
1,0000
1,0000
0,9999
0,9998
0,9994
0,9983
0,9959
0,9912
0,9827
28
1,0000
1,0000
1,0000
0,9999
0,9997
0,9991
0,9978
0,9950
0,9897
29
1,0000
1,0000
1,0000
1,0000
0,9999
0,9996
0,9989
0,9973
0,9941
30
1,0000
1,0000
1,0000
1,0000
0,9999
0,9998
0,9994
0,9986
0,9967
31
1,0000
1,0000
1,0000
1,0000
1,0000
0,9999
0,9997
0,9993
0,9982
32
1,0000
1,0000
1,0000
1,0000
1,0000
1,0000
0,9999
0,9996
0,9990
33
1,0000
1,0000
1,0000
1,0000
1,0000
1,0000
0,9999
0,9998
0,9995
34
1,0000
1,0000
1,0000
1,0000
1,0000
1,0000
1,0000
0,9999
0,9998
35
1,0000
1,0000
1,0000
1,0000
1,0000
1,0000
1,0000
1,0000
0,9999
36
1,0000
1,0000
1,0000
1,0000
1,0000
1,0000
1,0000
1,0000
0,9999
37
1,0000
1,0000
1,0000
1,0000
1,0000
1,0000
1,0000
1,0000
1,0000
Estadística
299
ANEXO C TABLA DE PROBABILIDADES ACUMULADAS NORMAL Z
0,00
0,01
0,02
0,03
0,04
0,05
0,06
0,07
0,08
0,09
-3,9
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
-3,8
0,0001
0,0001
0,0001
0,0001
0,0001
0,0001
0,0001
0,0001
0,0001
0,0001
-3,7
0,0001
0,0001
0,0001
0,0001
0,0001
0,0001
0,0001
0,0001
0,0001
0,0001
-3,6
0,0002
0,0002
0,0001
0,0001
0,0001
0,0001
0,0001
0,0001
0,0001
0,0001
-3,5
0,0002
0,0002
0,0002
0,0002
0,0002
0,0002
0,0002
0,0002
0,0002
0,0002
-3,4
0,0003
0,0003
0,0003
0,0003
0,0003
0,0003
0,0003
0,0003
0,0003
0,0002
-3,3
0,0005
0,0005
0,0005
0,0004
0,0004
0,0004
0,0004
0,0004
0,0004
0,0003
-3,2
0,0007
0,0007
0,0006
0,0006
0,0006
0,0006
0,0006
0,0005
0,0005
0,0005
-3,1
0,0010
0,0009
0,0009
0,0009
0,0008
0,0008
0,0008
0,0008
0,0007
0,0007
-3,0
0,0013
0,0013
0,0013
0,0012
0,0012
0,0011
0,0011
0,0011
0,0010
0,0010
-2,9
0,0019
0,0018
0,0018
0,0017
0,0016
0,0016
0,0015
0,0015
0,0014
0,0014
-2,8
0,0026
0,0025
0,0024
0,0023
0,0023
0,0022
0,0021
0,0021
0,0020
0,0019
-2,7
0,0035
0,0034
0,0033
0,0032
0,0031
0,0030
0,0029
0,0028
0,0027
0,0026
-2,6
0,0047
0,0045
0,0044
0,0043
0,0041
0,0040
0,0039
0,0038
0,0037
0,0036
-2,5
0,0062
0,0060
0,0059
0,0057
0,0055
0,0054
0,0052
0,0051
0,0049
0,0048
-2,4
0,0082
0,0080
0,0078
0,0075
0,0073
0,0071
0,0069
0,0068
0,0066
0,0064
-2,3
0,0107
0,0104
0,0102
0,0099
0,0096
0,0094
0,0091
0,0089
0,0087
0,0084
-2,2
0,0139
0,0136
0,0132
0,0129
0,0125
0,0122
0,0119
0,0116
0,0113
0,0110
-2,1
0,0179
0,0174
0,0170
0,0166
0,0162
0,0158
0,0154
0,0150
0,0146
0,0143
-2,0
0,0228
0,0222
0,0217
0,0212
0,0207
0,0202
0,0197
0,0192
0,0188
0,0183
-1,9
0,0287
0,0281
0,0274
0,0268
0,0262
0,0256
0,0250
0,0244
0,0239
0,0233
-1,8
0,0359
0,0351
0,0344
0,0336
0,0329
0,0322
0,0314
0,0307
0,0301
0,0294
-1,7
0,0446
0,0436
0,0427
0,0418
0,0409
0,0401
0,0392
0,0384
0,0375
0,0367
-1,6
0,0548
0,0537
0,0526
0,0516
0,0505
0,0495
0,0485
0,0475
0,0465
0,0455
-1,5
0,0668
0,0655
0,0643
0,0630
0,0618
0,0606
0,0594
0,0582
0,0571
0,0559
-1,4
0,0808
0,0793
0,0778
0,0764
0,0749
0,0735
0,0721
0,0708
0,0694
0,0681
-1,3
0,0968
0,0951
0,0934
0,0918
0,0901
0,0885
0,0869
0,0853
0,0838
0,0823
-1,2
0,1151
0,1131
0,1112
0,1093
0,1075
0,1056
0,1038
0,1020
0,1003
0,0985
-1,1
0,1357
0,1335
0,1314
0,1292
0,1271
0,1251
0,1230
0,1210
0,1190
0,1170
-1,0
0,1587
0,1562
0,1539
0,1515
0,1492
0,1469
0,1446
0,1423
0,1401
0,1379
-0,9
0,1841
0,1814
0,1788
0,1762
0,1736
0,1711
0,1685
0,1660
0,1635
0,1611
-0,8
0,2119
0,2090
0,2061
0,2033
0,2005
0,1977
0,1949
0,1922
0,1894
0,1867
-0,7
0,2420
0,2389
0,2358
0,2327
0,2296
0,2266
0,2236
0,2206
0,2177
0,2148
-0,6
0,2743
0,2709
0,2676
0,2643
0,2611
0,2578
0,2546
0,2514
0,2483
0,2451
-0,5
0,3085
0,3050
0,3015
0,2981
0,2946
0,2912
0,2877
0,2843
0,2810
0,2776
-0,4
0,3446
0,3409
0,3372
0,3336
0,3300
0,3264
0,3228
0,3192
0,3156
0,3121
-0,3
0,3821
0,3783
0,3745
0,3707
0,3669
0,3632
0,3594
0,3557
0,3520
0,3483
-0,2
0,4207
0,4168
0,4129
0,4090
0,4052
0,4013
0,3974
0,3936
0,3897
0,3859
-0,1 0,0
0,4602 0,5000
0,4562 0,4960
0,4522 0,4920
0,4483 0,4880
0,4443 0,4840
0,4404 0,4801
0,4364 0,4761
0,4325 0,4721
0,4286 0,4681
0,4247 0,4641
Estadística
300
TABLA DE PROBABILIDADES ACUMULADAS NORMAL (Continuaciòn) Z 0,00
0,01
0,02
0,03
0,04
0,05
0,06
0,07
0,08
0,09
0,0
0,5000
0,5040
0,5080
0,5120
0,5160
0,5199
0,5239
0,5279
0,5319
0,5359
0,1
0,5398
0,5438
0,5478
0,5517
0,5557
0,5596
0,5636
0,5675
0,5714
0,5753
0,2
0,5793
0,5832
0,5871
0,5910
0,5948
0,5987
0,6026
0,6064
0,6103
0,6141
0,3
0,6179
0,6217
0,6255
0,6293
0,6331
0,6368
0,6406
0,6443
0,6480
0,6517
0,4
0,6554
0,6591
0,6628
0,6664
0,6700
0,6736
0,6772
0,6808
0,6844
0,6879
0,5
0,6915
0,6950
0,6985
0,7019
0,7054
0,7088
0,7123
0,7157
0,7190
0,7224
0,6
0,7257
0,7291
0,7324
0,7357
0,7389
0,7422
0,7454
0,7486
0,7517
0,7549
0,7
0,7580
0,7611
0,7642
0,7673
0,7704
0,7734
0,7764
0,7794
0,7823
0,7852
0,8
0,7881
0,7910
0,7939
0,7967
0,7995
0,8023
0,8051
0,8078
0,8106
0,8133
0,9
0,8159
0,8186
0,8212
0,8238
0,8264
0,8289
0,8315
0,8340
0,8365
0,8389
1,0
0,8413
0,8438
0,8461
0,8485
0,8508
0,8531
0,8554
0,8577
0,8599
0,8621
1,1
0,8643
0,8665
0,8686
0,8708
0,8729
0,8749
0,8770
0,8790
0,8810
0,8830
1,2
0,8849
0,8869
0,8888
0,8907
0,8925
0,8944
0,8962
0,8980
0,8997
0,9015
1,3
0,9032
0,9049
0,9066
0,9082
0,9099
0,9115
0,9131
0,9147
0,9162
0,9177
1,4
0,9192
0,9207
0,9222
0,9236
0,9251
0,9265
0,9279
0,9292
0,9306
0,9319
1,5
0,9332
0,9345
0,9357
0,9370
0,9382
0,9394
0,9406
0,9418
0,9429
0,9441
1,6
0,9452
0,9463
0,9474
0,9484
0,9495
0,9505
0,9515
0,9525
0,9535
0,9545
1,7
0,9554
0,9564
0,9573
0,9582
0,9591
0,9599
0,9608
0,9616
0,9625
0,9633
1,8
0,9641
0,9649
0,9656
0,9664
0,9671
0,9678
0,9686
0,9693
0,9699
0,9706
1,9
0,9713
0,9719
0,9726
0,9732
0,9738
0,9744
0,9750
0,9756
0,9761
0,9767
2,0
0,9772
0,9778
0,9783
0,9788
0,9793
0,9798
0,9803
0,9808
0,9812
0,9817
2,1
0,9821
0,9826
0,9830
0,9834
0,9838
0,9842
0,9846
0,9850
0,9854
0,9857
2,2
0,9861
0,9864
0,9868
0,9871
0,9875
0,9878
0,9881
0,9884
0,9887
0,9890
2,3
0,9893
0,9896
0,9898
0,9901
0,9904
0,9906
0,9909
0,9911
0,9913
0,9916
2,4
0,9918
0,9920
0,9922
0,9925
0,9927
0,9929
0,9931
0,9932
0,9934
0,9936
2,5
0,9938
0,9940
0,9941
0,9943
0,9945
0,9946
0,9948
0,9949
0,9951
0,9952
2,6
0,9953
0,9955
0,9956
0,9957
0,9959
0,9960
0,9961
0,9962
0,9963
0,9964
2,7
0,9965
0,9966
0,9967
0,9968
0,9969
0,9970
0,9971
0,9972
0,9973
0,9974
2,8
0,9974
0,9975
0,9976
0,9977
0,9977
0,9978
0,9979
0,9979
0,9980
0,9981
2,9
0,9981
0,9982
0,9982
0,9983
0,9984
0,9984
0,9985
0,9985
0,9986
0,9986
3,0
0,9987
0,9987
0,9987
0,9988
0,9988
0,9989
0,9989
0,9989
0,9990
0,9990
3,1
0,9990
0,9991
0,9991
0,9991
0,9992
0,9992
0,9992
0,9992
0,9993
0,9993
3,2
0,9993
0,9993
0,9994
0,9994
0,9994
0,9994
0,9994
0,9995
0,9995
0,9995
3,3
0,9995
0,9995
0,9995
0,9996
0,9996
0,9996
0,9996
0,9996
0,9996
0,9997
3,4
0,9997
0,9997
0,9997
0,9997
0,9997
0,9997
0,9997
0,9997
0,9997
0,9998
3,5
0,9998
0,9998
0,9998
0,9998
0,9998
0,9998
0,9998
0,9998
0,9998
0,9998
3,6
0,9998
0,9998
0,9999
0,9999
0,9999
0,9999
0,9999
0,9999
0,9999
0,9999
3,7
0,9999
0,9999
0,9999
0,9999
0,9999
0,9999
0,9999
0,9999
0,9999
0,9999
3,8 3,9
0,9999 1,0000
0,9999 1,0000
0,9999 1,0000
0,9999 1,0000
0,9999 1,0000
0,9999 1,0000
0,9999 1,0000
0,9999 1,0000
0,9999 1,0000
0,9999 1,0000
Estadística
301
ANEXO D
VALORES CRÍTICOS DE LA DISTRIBUCIÓN T
α V 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 40 60 120
0,4
0,3
0,2
0,325
0,727
1,376
1,963
3,078
6,314 12,706 15,895 42,433 31,821 42,433 63,657 127,321
0,289
0,617
1,061
1,386
1,886
2,920
4,303
4,849
8,073
6,965
8,073
9,925
14,089
0,277
0,584
0,978
1,250
1,638
2,353
3,182
3,482
5,047
4,541
5,047
5,841
7,453
0,271
0,569
0,941
1,190
1,533
2,132
2,776
2,999
4,088
3,747
4,088
4,604
5,598
0,267
0,559
0,920
1,156
1,476
2,015
2,571
2,757
3,634
3,365
3,634
4,032
4,773
0,265
0,553
0,906
1,134
1,440
1,943
2,447
2,612
3,372
3,143
3,372
3,707
4,317
0,263
0,549
0,896
1,119
1,415
1,895
2,365
2,517
3,203
2,998
3,203
3,499
4,029
0,262
0,546
0,889
1,108
1,397
1,860
2,306
2,449
3,085
2,896
3,085
3,355
3,833
0,261
0,543
0,883
1,100
1,383
1,833
2,262
2,398
2,998
2,821
2,998
3,250
3,690
0,260
0,542
0,879
1,093
1,372
1,812
2,228
2,359
2,932
2,764
2,932
3,169
3,581
0,260
0,540
0,876
1,088
1,363
1,796
2,201
2,328
2,879
2,718
2,879
3,106
3,497
0,259
0,539
0,873
1,083
1,356
1,782
2,179
2,303
2,836
2,681
2,836
3,055
3,428
0,259
0,538
0,870
1,079
1,350
1,771
2,160
2,282
2,801
2,650
2,801
3,012
3,372
0,258
0,537
0,868
1,076
1,345
1,761
2,145
2,264
2,771
2,624
2,771
2,977
3,326
0,258
0,536
0,866
1,074
1,341
1,753
2,131
2,249
2,746
2,602
2,746
2,947
3,286
0,258
0,535
0,865
1,071
1,337
1,746
2,120
2,235
2,724
2,583
2,724
2,921
3,252
0,257
0,534
0,863
1,069
1,333
1,740
2,110
2,224
2,706
2,567
2,706
2,898
3,222
0,257
0,534
0,862
1,067
1,330
1,734
2,101
2,214
2,689
2,552
2,689
2,878
3,197
0,257
0,533
0,861
1,066
1,328
1,729
2,093
2,205
2,674
2,539
2,674
2,861
3,174
0,257
0,533
0,860
1,064
1,325
1,725
2,086
2,197
2,661
2,528
2,661
2,845
3,153
0,257
0,532
0,859
1,063
1,323
1,721
2,080
2,189
2,649
2,518
2,649
2,831
3,135
0,256
0,532
0,858
1,061
1,321
1,717
2,074
2,183
2,639
2,508
2,639
2,819
3,119
0,256
0,532
0,858
1,060
1,319
1,714
2,069
2,177
2,629
2,500
2,629
2,807
3,104
0,256
0,531
0,857
1,059
1,318
1,711
2,064
2,172
2,620
2,492
2,620
2,797
3,091
0,256
0,531
0,856
1,058
1,316
1,708
2,060
2,167
2,612
2,485
2,612
2,787
3,078
0,256
0,531
0,856
1,058
1,315
1,706
2,056
2,162
2,605
2,479
2,605
2,779
3,067
0,256
0,531
0,855
1,057
1,314
1,703
2,052
2,158
2,598
2,473
2,598
2,771
3,057
0,256
0,530
0,855
1,056
1,313
1,701
2,048
2,154
2,592
2,467
2,592
2,763
3,047
0,256
0,530
0,854
1,055
1,311
1,699
2,045
2,150
2,586
2,462
2,586
2,756
3,038
0,256
0,530
0,854
1,055
1,310
1,697
2,042
2,147
2,581
2,457
2,581
2,750
3,030
0,256
0,530
0,853
1,054
1,309
1,696
2,040
2,144
2,576
2,453
2,576
2,744
3,022
0,255
0,530
0,853
1,054
1,309
1,694
2,037
2,141
2,571
2,449
2,571
2,738
3,015
0,255
0,529
0,851
1,050
1,303
1,684
2,021
2,123
2,542
2,423
2,542
2,704
2,971
0,254
0,527
0,848
1,045
1,296
1,671
2,000
2,099
2,504
2,390
2,504
2,660
2,915
0,254
0,526
0,845
1,041
1,289
1,658
1,980
2,076
2,468
2,358
2,468
2,617
2,860
Estadística
0,15
0,1
0,05 0,025 0,02 0,015 0,01 0,008 0,005 0,003
302
GLOSARIO Ajuste de una recta: aproximación a una ecuación de una serie de parejas de datos (x,y), relacionados linealmente. Amplitud: es la distancia entre el valor máximo observado y el valor mínimo observado en un conjunto o distribución de datos. Amplitud intercuartila: es la distancia entre la primera y tercera cuartilas del conjunto de datos. Al azar, estocástico: este término representa una idea que debe ser expresada en términos del concepto de probabilidad. Tenemos la noción de que un fenómeno ocurre en forma aleatoria cuando no sigue un patrón particular que se pueda describir directamente por ecuaciones. Así, no podemos hacer una predicción perfecta del resultado que se obtendrá del fenómeno. Al decir que un proceso es aleatorio estamos diciendo que sigue alguna distribución de probabilidad. Atributo: característica cualitativa de un objeto o individuo tal como sexo, país de origen, estado marital. Censo: decimos que realizamos un censo cuando se observan todos los elementos de la población estadística Coeficiente de correlación: medida de la intensidad de la relación entre dos variables. Estadística
303
Coeficiente de determinación: medida en la cual las variaciones de una variable se pueden atribuir a las variaciones en la otra variable.
Confiabilidad: indica cuán seguros podemos estar de que el proceso seguido resulte en valores que representen verdaderamente la población. Se usa más comúnmente con intervalos de confianza. En sentido probabilístico, si tuviéramos una confiabilidad del 95%, decimos que si repitiéramos el proceso muchas veces, en cerca del 95% de las veces obtendríamos resultados que reflejan verdaderamente la realidad. Cerca del 95% de los intervalos así construidos contendrían el valor desconocido del parámetro. Correlación: relación existente entre dos variables sin un nexo definido de dependencia. Datos: valores que se obtienen al observar directamente los resultados de una variable en la muestra o población. Pueden ser numéricos o cualitativos. Diagrama de dispersión: gráfica en la cual se presentan las parejas (x,y) de datos de una muestra. Distribución bimodal: distribución de datos que tiene dos modas. Distribución multimodal: distribución de datos que tiene más de una moda. Distribución unimodal: distribución de datos que tiene una sola moda. Estadígrafos: cálculos realizados con los datos de la muestra. Estadística
304
Encuesta:
método de obtener datos de una población o muestra, sin
ejercer control alguno sobre los factores que pueden afectar las características de interés o resultados de la encuesta. Error tipo I: ocurre cuando rechazamos la hipótesis nula siendo ésta cierta. Error tipo II: ocurre cuando no rechazamos la hipótesis nula siendo ésta falsa. Error muestral: es la diferencia entre un estadístico y su parámetro correspondiente. Es una medida de la variabilidad de las estimaciones del parámetro usando muestras repetidas en torno al valor de la población; nos da una noción clara de hasta dónde y con qué probabilidad una estimación basada en una muestra se aleja del valor que se hubiera obtenido por medio de un censo completo. Error no muestral: son errores que ocurren en la selección, recolección, anotación y tabulación de los datos. Son usualmente resultado de error humano. Espacio muestral:
es el conjunto de todos lo posibles resultados de un
experimento. Estadística: es una función real de los datos, concretamente, es un valor que se calcula a partir de los datos. Ejemplos: suma, producto, mediana, máximo, desviación absoluta, media de los datos.
Estadística
305
Estadística Descriptiva: métodos que usamos para describir los datos que se han obtenido de la muestra o población. Nos sirve para presentar una idea de la realidad y para hacer inferencia informal. Estadística Inferencial: métodos probabilísticos que usamos para tomar decisiones, estimar, predecir o hacer generalizaciones sobre una población basados en una muestra. Estadística prueba: cantidad calculada de los datos maestrales, que se usa para decidir si se rechaza o no la hipótesis nula. Generalmente, un valor grande de esta estadística es un indicador que nos apunta hacia el rechazo de la hipótesis nula. Estimador: el estimador de un parámetro poblacional es una función de las observaciones que de alguna manera resulta en un valor cercano al parámetro poblacional. Por ejemplo, la media de la muestra es un estimador de la media poblacional. Estimador insesgado: es un estimador cuyo promedio es el valor del parámetro desconocido. Su valor esperado es el valor del parámetro poblacional. Un estimador insesgado es uno que tiene la propiedad de exactitud. Evento: conjunto o colección de uno o más posibles resultados de un experimento. Un evento ocurre cuando cualquier resultado contenido en el evento es observado. Eventos independientes: dos eventos son independientes si el que uno ocurra no afecta la probabilidad de que el otro ocurra Estadística
306
Eventos mutuamente excluyentes: son dos o más eventos que no pueden ocurrir simultáneamente. Exactitud: una medida (o un instrumento para medir) tiene la propiedad de exactitud cuando las observaciones que se toman se distribuyen alrededor del valor "real". El valor "real" es un parámetro de la población cuyo valor es usualmente desconocido, tal como la media poblacional. Un estimador de un parámetro es exacto cuando es insesgado, es decir, cuando su valor esperado o promedio es igual al parámetro que se estima. Por ejemplo, la media muestral es un estimador exacto (insesgado) para la media poblacional. Experimento: es un proceso que cuando lo llevamos a cabo resulta en uno y sólo uno de los posibles resultados que podríamos obtener (probabilidad). Generalmente, son datos observados de los miembros de la población o muestra, ejerciendo control sobre uno o más de los factores que podrían alterar la característica de interés o los resultados del experimento (ciencia). Función de densidad: se asocia a una variable aleatoria continua X. Es una función, f(x), no negativa y su integral sobre todos los números reales resulta en 1. El área bajo f(x) y sobre el intervalo [a, b] (el integral de f(x) desde a hasta b) nos da la probabilidad de que X adquiera algún valor en ese intervalo: P( a <= X <= b). Función de distribución acumulativa: se asocia a cualquier variable aleatoria X. F(x) nos da la probabilidad de que
X sea menor o igual al
número x: F(x) = P( X ≤ x). Función de probabilidad: se asocia a una variable aleatoria discreta X. Es una función, f(x), no negativa, tal que la suma sobre todos los posibles 307
Estadística
valores que puede asumir X resulta en 1. La función de probabilidad de X evaluada en un número a es igual a la probabilidad de que X sea igual al número a: f(a) = P( X = a). Hipótesis nula: es una aseveración sobre el valor de un parámetro desconocido de una población. Se presume cierta hasta tanto se demuestre lo contrario. Esta hipótesis se rechaza o no (no decimos se acepta) dependiendo del valor de la estadística prueba o del valor p al nivel de significancia deseado. Individuos: se llama unidad estadística o individuo a cada uno de los elementos que componen la población estadística. El individuo es un ente observable que no tiene por qué ser una persona, puede ser un objeto, un ser vivo, o incluso algo abstracto.
Margen de error: cuando deseamos estimar el valor de un parámetro, usamos una estadística para ello y construimos un intervalo alrededor de esa estadística. Decimos entonces que con una confiabilidad establecida, el intervalo incluye el valor desconocido del parámetro. El margen de error es la mitad del ancho de ese intervalo. Método de mínimos cuadrados: método para ajustar una recta, que hace mínimo el promedio de los errores de las estimaciones de Y, a partir de X. Muestra: es un subconjunto finito de elementos de la población. A las características que poseen los elementos de la población y que son objeto de estudio se denominan variables. A cada valor medido de la variable le llamamos dato. Estadística
308
Nivel de significancia: probabilidad de rechazar la hipótesis nula cuando es cierta. Probabilidad de cometer un error tipo I. Este nivel es seleccionado por el investigador antes de realizar el experimento. Los valores más comúnmente seleccionados son niveles de .01, .05 y .10. Parámetros: cálculos realizados con los datos de la población. Prueba de hipótesis: es un procedimiento por el cual establecemos hipótesis nula y alterna con el fin de resolver un problema. El procedimiento incluye el diseño y selección de la muestra. Luego de tomados los datos de la muestra, se calcula el valor de una estadística prueba. A un nivel de significancia previamente seleccionado, la estadística prueba se compara con el valor obtenido de la tabla de la distribución estadística apropiada. Esa comparación nos lleva a tomar la decisión de rechazar o no la hipótesis nula. Población: llamamos población estadística, universo o colectivo al conjunto de referencia sobre el cual van a recaer las observaciones. Regresión: relación que se da entre una variable independiente y otra dependiente. Significancia: corresponde a la probabilidad de error tipo I que estamos dispuestos a permitir cuando hacemos una prueba de hipótesis. Usualmente se expresa como un porcentaje. Los valores más comunes son 1%, 5%, 10%. Una significancia del 5% quiere decir que de cada cien pruebas donde rechacemos la hipótesis nula, nos permitimos la posibilidad de haberla rechazado en 5 ocasiones a pesar de ser cierta. El nivel de significancia se selecciona de acuerdo con una amplia gama de criterios que incluyen el 309
Estadística
costo de cometer error tipo I y la tradición en el área de contenido sobre el cual se está haciendo la prueba. Tabla de contingencia: es una tabla que sirve para clasificar a
los
miembros de un grupo de acuerdo con algunas características cualitativas o cuantitativas. Variable: característica de un conjunto de elementos.
Variable aleatoria: es una función que asigna un valor numérico a cada suceso elemental del espacio muestral. Es decir, una variable aleatoria es una variable cuyo valor numérico está determinado por el resultado del experimento aleatorio. La variable aleatoria la notaremos con letras en mayúscula X, Y, ... y con las letras en minúscula x, y, ... sus valores.
Variable aleatoria discreta: se dice que una variable aleatoria X es discreta si puede tomar un número finito o infinito, pero numerable, de posibles valores.
Una variable aleatoria discreta se obtiene después de sumar o
contar; trabaja con números enteros, ejemplo: número de artículos defectuosos en una producción, número de artículos vendidos por día, número de personas que se presentan a la universidad, etc. Variable aleatoria continua: se dice que una variable aleatoria X es continua si puede tomar un número infinito (no numerable) de valores, o bien, si puede tomar un número infinito de valores correspondientes a los puntos de uno o más intervalos de la recta real. Una variable aleatoria continua se obtiene después de hacer una medición; trabaja con números reales.
Estadística
310
Ejemplo: temperatura, estatura, presión, tiempo, área, dimensiones, peso etc. Variable dependiente: aquella cuyos valores dependen de los valores que tome la variable independiente. Variable independiente: aquella que puede manipular el investigador, determinando los valores que puede tomar.
Estadística
311
BIBLIOGRAFÍA BIBLIOGRAFÍA FUNDAMENTAL ANDERSON, David; SWEENEY, Dennis y WILLIAMS, Thomas. Estadística para administración y economía. 8ª edición. Thomson, México, 2003. 884 p. BERENSON, Mark; LEVINE, David y KREHBIEL, Timothy. Estadística para administración. 2ª edición. Pearson educación, México, 2001. 784 p. MENDENHALL, William. Estadística México: Iberoamerica, 1995. 817 p.
para
administradores.
2.
ed.
BIBLIOGRAFÍA RECOMENDADA CHAO, Lincoln y CASTAÑO, José María. Estadística para las ciencias administrativas, Lincoln. 3. ed. Bogotá: McGraw-Hill, 1993. 464 p LIND, Douglas A; MASON, Robert D. y MARCHAL, William G. Estadística para administración y economía. España: McGraw-Hill, 2000. 575 p. SPIEGEL, Murray. Estadística. 2. edición. 1993.665p.
McGRAW-HILL, España,
WALPOLE, Ronald E. y MYERS, Raymond H. Probabilidad y estadística, 4. ed México: McGraw-Hill, 1992. 757 p.
Estadística
312