OBJETIVO GENERAL Al término del curso el alumno aplicará de manera adecuada las formas principales de organización y representación de datos. Calculará e interpretará las medidas de centralidad y dispersión; analizará los principios básicos de conteo y su relación con la definición clásica de probabilidad. Identificará y utilizará los principios de una distribución de probabilidad, tanto continua como discreta. Analizará la relación estadística entre dos variables bien definidas mediante el modelo de regresión lineal y la correlación. correlación.
PROGRAMA UNIDAD I. ESTADÍSTICA DESCRIPTIVA 1.1 Conceptos básicos. 1.1.1 Definiciones de estadística, variable, población, muestra, censo. 1.1.2 Escala de medición. 1.1.2.1 Escala ordinal. 1.1.2.2 Escala nominal. 1.1.2.4 Escala de intervalo. 1.1.2.4 Escala de razón. 1.1.3 Tipos de variables. 1.1.3.1 Variables cuantitativas. 1.1.3.2. Variables cualitativas 1.1.3.3 Variables continuas. 1.1.3.4 Variables discretas. 1.1.4 Técnicas de representación de datos. 1.1.4.1 Gráfica de barras. 1.1.4.2 Gráfica poligonal 1.1.4.3Histograma y polígono de frecuencias. 1.2. Medidas de tendencia central. 1.2.1 Para datos no agrupados. 1.2.1.1 Media aritmética. 1.2.1.2. Media geométrica. 1.2.1.3. Media cuadrática. 1.2.1.4 Media armónica. 1.2.1.5. Media ponderada. 1.2.2 Para datos agrupados. 1.2.2.1. Media aritmética. 1.2.2.2 Mediana. 1.2.2.3 Moda. 1.2.3 Medidas de posición. 1.2.3.1 Cuartiles. 1.2.3.2 Deciles. 1.2.3.3. Percentiles. 1.2.4. Medidas de dispersión. 1.2.4.1 Desviación media. 1.2.4.2 Desviación estándar. 1.2.4.3 Rango semi-intercuartilico . UNIDAD II. PROBABILIDAD
2.1 Técnicas de Conteo. 2.1.1 Notación Factorial 2.1.2 Principio fundamental de conteo.
PROGRAMA UNIDAD I. ESTADÍSTICA DESCRIPTIVA 1.1 Conceptos básicos. 1.1.1 Definiciones de estadística, variable, población, muestra, censo. 1.1.2 Escala de medición. 1.1.2.1 Escala ordinal. 1.1.2.2 Escala nominal. 1.1.2.4 Escala de intervalo. 1.1.2.4 Escala de razón. 1.1.3 Tipos de variables. 1.1.3.1 Variables cuantitativas. 1.1.3.2. Variables cualitativas 1.1.3.3 Variables continuas. 1.1.3.4 Variables discretas. 1.1.4 Técnicas de representación de datos. 1.1.4.1 Gráfica de barras. 1.1.4.2 Gráfica poligonal 1.1.4.3Histograma y polígono de frecuencias. 1.2. Medidas de tendencia central. 1.2.1 Para datos no agrupados. 1.2.1.1 Media aritmética. 1.2.1.2. Media geométrica. 1.2.1.3. Media cuadrática. 1.2.1.4 Media armónica. 1.2.1.5. Media ponderada. 1.2.2 Para datos agrupados. 1.2.2.1. Media aritmética. 1.2.2.2 Mediana. 1.2.2.3 Moda. 1.2.3 Medidas de posición. 1.2.3.1 Cuartiles. 1.2.3.2 Deciles. 1.2.3.3. Percentiles. 1.2.4. Medidas de dispersión. 1.2.4.1 Desviación media. 1.2.4.2 Desviación estándar. 1.2.4.3 Rango semi-intercuartilico . UNIDAD II. PROBABILIDAD
2.1 Técnicas de Conteo. 2.1.1 Notación Factorial 2.1.2 Principio fundamental de conteo.
2.1.3 Permutaciones. 2.1.4 Combinaciones. 2.2 Repaso de Teoría de conjuntos. 2.2.1 Generalidades. 2.2.2 Operaciones entre conjuntos 2.2.3 Diagramas de Venn-Euler 2.3 Probabilidad 2.3.1 Definición 2.3.2 Tipos de eventos 2.3.3 Definición clásica de probabilidad 2.3.4 Probabilidad en términos de la frecuencia relativa. relativa. 2.3.5 Propiedad Aditiva Aditiva de la probabilidad 2.3.6 Propiedad Multiplicativa Multiplicativa de la probabilidad. probabilidad. 2.3.7 Probabilidad Condicional. UNIDAD III. DISTRIBUCIONES DE PROBABILIDAD 3.1 Distribuciones de probabilidad discreta 3.1.1 Experimentos Bernoulli. 3.1.2 Distribución Binomial. 3.1.3 Distribución Poisson. 3.1.4 Distribución Hipergeométrica. 3.2 Distribuciones de probabilidad continua. 3.2.1 Variables tipificadas o estandarizadas. 3.2.2 Propiedades de la distribución normal. 3.2.3 Áreas bajo la curva normal. 3.2.4 Problemas de Aplicación UNIDAD IV. IV. REGRESIÓN LINEAL Y CORRELACIÓN SIMPLE SIMPLE 4.1 Regresión lineal simple 4.1.1 Gráficas de dispersión 4.1.2 Recta de Mínimos Cuadrados 4.1.3 Problemas. 4.2 Correlación 4.2.1 Coeficiente de correlación producto momento de Pearson. 4.2.2 Problemas
UNIDAD I
“ESTADÍSTICA DESCRIPTIVA”
OJETIVO DE LA UNIDAD Al término de la unidad el alumno será capaz de: Identificar los conceptos principales de la estadística, los distintos tipos de variables y las escalas de medición asociadas a ellas. Aplicar las principales técnicas de representación de datos (gráficas) con ayuda de al computadora. Obtener e interpretar las principales medidas de tendencia central y dispersión para datos agrupados y no agrupados e interpretará los resultados. 1.1 Conceptos básicos. 1.1.1 Definiciones de Estadística, variable, población, muestra, censo. .
Estadística Rama de las matemáticas que se ocupa de reunir, organizar y analizar datos numéricos y que ayuda a resolver problemas como el diseño de experimentos y la toma de decisiones. Concierne a la estadística, mediante métodos científicos, recopilar, organizar, resumir, representar y analizar datos para obtener conclusiones válidas y toma de decisiones razonables con base a dicho análisis. En sentido mas estricto, el término Estadística se utiliza para denotar los datos por sí mismos o las cifras derivadas de estos datos, tales como promedios, así hablamos de estadística de empleos, estadística de accidentes, etcétera.
Clasificación Estadística DESCRIPTIVA DESCRIPTIVA analiza, estudia y describe a la totalidad de individuos de una población. Su finalidad es obtener información, analizarla, elaborarla y simplificar lo necesario para que pueda ser interpretada cómoda y rápidamente y, por tanto, pueda utilizarse eficazmente para el fin que se desee. La estadística INFERENCIAL, sin embargo, trabaja con muestras, subconjuntos formados por algunos individuos de la población. A partir del estudio de la muestra se pretende inferir aspectos relevantes de toda la población. Cómo se selecciona la muestra, cómo se realiza la inferencia, y qué grado de confianza se puede tener en ella son aspectos fundamentales de la estadística inferencial, para cuyo estudio se requiere un alto nivel de conocimientos de estadística, probabilidad y matemáticas. VARIABLE Símbolo que puede tomar cualquier valor de un conjunto conjunto predeterminado predeterminado llamado dominio de la variable. Si la variable sólo toma un valor, entonces a esta variable se le llama constante. También son llamadas caracteres cuantitativos, son datos que pueden ser expresados mediante números. Son caracteres susceptibles de medición. de medición. Como Como por ejemplo: la estatura, el peso, el salario, el salario, la la edad, etc. Población Al recolectar datos que determinan las características de un grupo de individuos u objetos, por ejemplo, las alturas y pesos de los estudiantes de una universidad o la cantidad de piezas defectuosas y no defectuosas producidas en una fabrica un día determinado, muchas veces es imposible o impráctico observar a todo el grupo, especialmente si este es grande. En lugar de
examinar a todo el grupo, llamado población o universo, se examina a una pequeña parte del grupo a la que se llama muestra.
Muestra Es una pequeña parte del grupo de un gran universo. Ésta debe ser definida en base de la población determinada. Cuando una muestra es representativa de una población, del análisis de ésta se pueden describir y analizar así como también inferir conclusiones importante sobre la población. En esta unidad solo se analizarán y describirás describirás características de poblaciones poblaciones selectas, o sea ESTADÍSTICA DESCRIPTIVA O DEDUCTIVA. Los atributos Llamados también caracteres cualitativos, son aquellos que no son idóneos para utilizar sistemas de medición, es medición, es decir que sólo se pueden expresar mediante palabras y no por números. Como por ejemplo: profesión, estado civil, sexo, nacionalidad, etc. No se presentan en la misma forma en todos los elementos. Estas distintas formas en que se presentan los atributos reciben el nombre de "modalidades". Ejemplo: El estado civil de cada uno de los estudiantes del curso de estadísticas I, no se presenta en la misma modalidad en todos. Muestreo En Estadística se conoce como muestreo a la técnica para la selección de una muestra a partir de una población.
CENSO Un censo es un tipo de estudio o investigación donde se toma en cuenta todos los elementos que forman parte de una población. Como ejemplo tenemos el censo poblacional en donde se recuenta la población periódicamente, censo electoral que es el recuento poblacional que tiene derecho a votar. 1.1.2 Escalas de medición Niveles de Medición Medir significa “asignar números a objetos y eventos de acuerdo a reglas”
(Stevens, 1951), esta definición es adecuada para el área de ciencias naturales, en el campo de las ciencias sociales medir es “el proceso de vincular conceptos abstractos con indicadores empíricos” (Carm ines y Zeller, 1979, p. 10).
La medición de las variables puede realizarse por medio de cuatro escalas de medición. Dos de las escalas miden variables categóricas y las otras dos miden variables numéricas (Therese L. Baker, 1997). Los niveles de medición son las escalas nominal, ordinal, de intervalo y de razón. Se utilizan para ayudar en la clasificación de las variables, el diseño de las preguntas para medir variables, e incluso indican el tipo de análisis estadístico apropiado para el tratamiento de los datos. Una característica esencial de la medición es la dependencia que tiene de la posibilidad de variación. La validez y la confiabilidad de la medición de una variable depende de las decisiones que se tomen para su análisis y lograr una adecuada comprensión del concepto evitando imprecisiones y ambigüedad, por en caso contrario, la variable corre el riesgo inherente de ser invalidada debido a que no produce información confiable. conf iable. 1.1.2.1 Medición Ordinal. Se establecen categorías con dos o mas niveles que implican un orden inherente entre si. La escala de medición ordinal es cuantitativa porque permite
ordenar a los eventos en función de la mayor o menor posesión de un atributo o característica. Por ejemplo, en las instituciones escolares de nivel básico suelen formar por estatura a los estudiantes, se desarrolla un orden cuantitativo pero no suministra medidas de los sujetos Las formas mas comunes de variables ordinales son ítems (reactivos) de actitud estableciendo una serie de niveles que expresan una actitud de acuerdo o desacuerdo con respecto a algún referente. Por ejemplo, ante el ítem: Las autoridades mexicanas deben cerrar todos los antros, cantinas y centros de diversión nocturna en las grandes ciudades de al República Mexicana, el respondiente puede marcar su respuesta de acuerdo a las siguientes alternativas: ___ Totalmente de acuerdo ___ De acuerdo ___ Indiferente ___ En desacuerdo ___ Totalmente en desacuerdo Las anteriores alternativas de respuesta pueden codificarse con números que van del uno al cinco que sugieren un orden preestablecido pero no implican una distancia entre un número y otro. Las escalas de actitudes son ordinales pero son tratadas como variables continuas (Therese L. Baker, 1997).
1.1.2.2 Medición Nominal. En este nivel de medición se establecen categorías distintivas que no implican un orden específico. Por ejemplo, si la unidad de análisis es un grupo de personas, para clasificarlas se puede establecer la categoría sexo con dos niveles, masculino (M) y femenino (F), los respondientes solo tienen que señalar su género, no se requiere de un orden real.
Así, si se asignan números a estos niveles solo sirven para identificación y puede ser indistinto: 1=M, 2=F o bien, se pueden invertir los números sin que afecte la medición: 1=F y 2=M. En resumen en la escala nominal se asignan números a eventos con el propósito de identificarlos. No existe ningún referente cuantitativo. Sirve para nombrar las unidades de análisis en una investigación y es utilizada en cárceles, escuelas, deportes, etc
1.1.2.3 Medición de Intervalo. La medición de intervalo posee las características de la medición nominal y ordinal. Establece la distancia entre una medida y otra. La escala de intervalo se aplica a variables continuas pero carece de un punto cero absoluto. El ejemplo mas representativo de este tipo de medición es un termómetro, cuando registra cero grados centígrados de temperatura indica el nivel de congelación del agua y cuando registra 100 grados centígrados indica el nivel de ebullición, el punto cero es arbitrario no real, lo que significa que en este punto no hay ausencia de temperatura. Una persona que en un examen de matemáticas que obtiene una puntuación de cero no significa que carezca de conocimientos, el punto cero es arbitrario por que sigue existiendo la característica medida.
1.1.2.4 Medición de Razón. Una escala de medición de razón incluye las características de los tres anteriores niveles de medición anteriores (nominal, ordinal e intervalo). Determina la distancia exacta entre los intervalos de una categoría. Adicionalmente tiene un punto cero absoluto, es decir, en el punto cero no existe la característica o atributo que se mide. Las variables de ingreso, edad,
número de hijos, etc. son ejemplos de este tipo de escala. El nivel de medición de razón se aplica tanto a variables continuas como discretas. 1.1.3 Tipos de variables
Tipo de variable CUANTITATIVAS DISCRETAS CUANTITATIVAS CUANTITATIVAS CONTINUAS
ORDENABLES CUALITATIVAS NO ORDENABLES
ESTADÍSTICAS
CONTINUAS
DISCRETAS
1.1.3.1 CUANTITATIVAS Son aquellas que se describen por medio de números, por ejemplo peso, altura, talla, edad, etc.
C. Discretas: Son aquellas que por su naturaleza solo admiten números enteros para su descripción, ejemplo, número de hermanos, número de páginas etc. C. Continuas: Son aquellas que pueden expresarse cualquier valor entre dos números, por ejemplo, peso. Tiempo, distancia, etc. Ordenables: Las que sugieren una ordenación. Ejemplo, nivel de estudios, lugar en una carrera, etc. No ordenables: Es una forma de ordenar no alfabética, ejemplo, color de cabello, sexo, estado civil, etc.
1.1.3.3 CUANLITATIVAS O ATRIBUTOS
Son aquellas que por su naturaleza solo son identificables por medio de palabras, ejemplo, grado, sexo profesión.
1.1.3.3 Variables Continuas
Son aquellas variables que pueden tomar todos los valores posibles de un intervalo, debido a que mide los valores reales de una población, como ejemplo, velocidad, litros de leche, temperatura, peso, estatura, distancia.
1.1.3.4 Variables Discretas Es aquella variable que solo pueden tomar determinados valores de un intervalo, Debido a que mide los atributos (Características que no pueden ser expresadas en fracciones, como ejemplo, número de hermano, autos fabricados, las páginas de un libro, etc.) de una población.
Ejemplo ¿Cuántos niños hay en la escuela “Benito Juárez”?
ESTADÍSTICAS Conjunto de variables que pueden tomar carácter cualitativo o cuantitativo. EJEMPLOS 1.- Sean los números naturales. (Población o universo) a) Determine los números primos (variable discreta) b) Determine los factores de 8 (variable discreta) c) Todos los números menores que 10 (variable discreta) d) A+B = 9 (variable discreta) 2.- Sean los alumnos de la Preparatoria Forum turno matutino. (Población) a) Todas las mujeres (variable discreta) b) Los alumnos de segundo semestre grupo B (variable discreta) c) Los alumnos que midan entre 1.70 y 1.75 m (variable continua) 3.- Sean las figuras geométricas. (Población) a) Sean la figuras de a lados (muestra) b) Sean los triángulos (muestra) c) Sean los números 5, 8, 9, 7 (no pertenecen a la población) 1.1.4 Técnicas de Representación de Datos La estadística Descriptiva es la rama que se dedica al ordenamiento y tratamiento mecánico de la información utilizando tablas y representaciones
gráficas, así como determinar parámetros útiles para la explicación de la información. La representación de datos mas utilizados es la gráfica en donde se representan datos generalmente numéricos para la visualización de la relación que guardan entre si. La representación gráfica permite establecer valores que no han sido obtenidos experimentalmente, por medio de interpolación (Lectura entre puntos) y la extrapolación (Valores fuera del intervalo experimental). Para cualquier estudio y después de la obtención de la información, el manejo de esta se realiza con mucha cautela además de que se tiene que organizarse de manera tal que el estadista pueda leer en cualquier momento detalles o datos requeridos en ese momento para algún estudio en particular, para ello se utiliza una tabla de conteo dende se ordenan y se dividen los datos en intervalos según el tamaño de la muestra y luego pasan a otra tabla llamada tabla de frecuencias donde se coloca a cada intervalo la frecuencia o las veces que se repite ese intervalo, o los números que en ella se encuentren. EJEMPLO En la preparatoria “El renacimiento” el director quiere determinar el nivel de
francés que tienen sus alumnos. Para ello se entrevista con 100 alumnos a los que les pidió que determinaran en una escala del 0 a 100% que tanto francés consideraban que eran capaces de manejar obteniendo los siguientes resultados:
10
30
10
50
80
90
80
80
50
90
5
30
5
40
10
100
20
80
40
80
35
50
5
70
50
50
15
90
20
100
80
40
15
10
20
60
10
5
30
10
25
10
20
5
30
80
5
10
10
30
70
20
80
100
80
10
5
20
5
20
5
20
80
30
70
20
10
30
5
10
10
25
10
20
10
40
20
10
10
100
90
45
20
50
15
5
5
5
5
30
100
50
30
10
20
5
10
40
10
5
Se ordenan los datos en forma creciente 5
5
10
10
20
20
30
50
70
80
5
5
10
10
20
25
30
50
80
90
5
5
10
10
20
25
35
50
80
90
5
5
10
10
20
30
40
50
80
90
5
5
10
10
20
30
40
50
80
90
5
10
10
15
20
30
40
50
80
100
5
10
10
15
20
30
40
50
80
100
5
10
10
15
20
30
40
60
80
100
5
10
10
20
20
30
40
70
80
100
5
10
10
20
20
30
50
70
80
100
Enseguida se calcula el intervalo para el cual se recomienda 5 I 20 (El intervalo debe tener entre 5 elementos y 20 elementos dependiendo el tamaño de la muestra) después se calcula el intervalo, el cual se calcula con la diferencia del dato mayor menos el menor,(Rango = dato mayor – dato menor) pata este caso el dato mayor es el 100 y el dato menor es el 5 quedando R=100-5 =95 como el tamaño de la muestra no es muy
grande manejamos intervalos de 12 para que sean
95 12
7.91 8 esto quiere
decir que se tendrán 12 clases de tamaño 8, así se obtienen ya en la gráfica: INTERVALO 5-13 13-21 21-29 29-37 37-45 45-53 53-61 61-69 69-77 77-85 85-93 93-101
Se obtiene el punto medio o marca de clase (x) lo cual haremos lo siguiente: x
Límite inf erior límite superior
2 Marca de
Intervalo clase
5-13
13-21
21-29
29-37
37-45
45-53
53-61
5 13 2 13 21 2 21 29 2 29 37 2 37 45 2 45 53 2 53 61 2
9
17
25
33
41
49
57
61-69
69-77
77-85 85-93 93-101
61 69
65
2 69 77
73
2 77 85 2 85 93 2 93 101 2
81 89 97
Para obtener al frecuencia (f) se busca el número de datos que están dentro de cada intervalo o límite real del intervalo o clase. Marca de Frecuencia Intervalo
clase (f)
5-13
9
35
13-21
17
16
21-29
25
2
29-37
33
10
37-45
41
5
45-53
49
9
53-61
57
1
61-69
65
0
69-77
73
3
77-85
81
10
85-93
89
4
93-101
97
5
Ahora se calcula la frecuencia acumulada (Fa) la cual se obtiene mediante la suma sucesiva de cada una de las frecuencias. Marca de Intervalo
Frecuencia
Frecuencia
(f)
acumulada
clase
5-13
9
35
35
13-21
17
16
51
21-29
25
2
53
29-37
33
10
63
37-45
41
5
68
45-53
49
9
77
53-61
57
1
78
61-69
65
0
78
69-77
73
3
81
77-85
81
10
91
85-93
89
4
95
93-101
97
5
100
Este formato es requerido en la mayoría de los estudios por lo que en algunos de los ejercicios presentados ya se da la información en forma de intervalo.
1.1.4.1 Gráfica de Barras
Consiste en representar mediante rectángulos en ejes coordenados (primer cuadrante) valores de una distribución estadística, el objetivo es poner una barra con altura igual a la frecuencia y ancho igual al intervalo. Los gráficos de barras proporcionan mas información y permiten una apreciación estadística mas clara que los pictogramas. Se utilizan para representar datos nominales y variables cardinales. Para su elaboración, se debe tomar en cuenta lo siguiente: a) En el grafico se debe evitar que las barras resulten muy anchas o excesivamente altas. b) Debes dejar un espacio entre las barras, que no sea inferior a la mitad del ancho de ellas. c) Si el gráfico incluye muchas barras, es mejor sustituirlo con un diagrama lineal. (Fuenlabrada 2008).
Ejemplo1 Un estudio hecho al conjunto de los 20 alumnos de una clase para determinar su grupo sanguíneo ha dado el siguiente resultado:
Grupo sanguíneo
A
B
AB
0
Total
Frecuencia
6
4
1
9
20
Gráfica de barras
Ejemplo 2 La siguiente información representa el porcentaje (De 1997 al 2001) de profesionistas que deciden estudiar una especialización en una institución de renombre internacional. Año Frecuencia
1997 39
GRÁFICA DE BARRAS
1998 38
1999 40
2000 51
2001 61.5
1.1.4.2 Gráfica Poligonal
Se utiliza, al igual que el histograma, para representar distribuciones de frecuencias de variables cuantitativas continuas, pero como no se utilizan barras en su confección sino segmentos de recta, de ahí el nombre de polígono. Habitualmente se usa cuando se quiere mostrar en el mismo gráfico más de una distribución o una clasificación cruzada de una variable cuantitativa continua con una cualitativa o cuantitativa discreta, ya que por la forma de construcción del histograma sólo se puede representar una distribución. Para su confección, una vez construidas y rotuladas las escalas, de manera similar a como se realiza para un histograma, los valores de alturas obtenidos se marcan sobre el punto medio o marca de clase de los intervalos correspondientes y luego se procede a unir esos puntos con segmentos de recta. Para graficar poligonalmente, se agregan dos intervalos extremos del mismo tamaño y con frecuencia cero; uno superior y otro inferior. Sumar el límite superior e inferior de cada intervalo y dividirlo entre dos. Para integrar el punto medio o marca de clase. Formar las parejas ordenadas (x, y), x esta representada por el valor del punto
medio, la frecuencia de cada intervalo es el valor de y. Los puntos son las parejas ordenadas (punto medio, frecuencia). Localizar los puntos (x, y) en el eje cartesiano, unir los puntos y formar el polígono. Ejemplos de gráficas.
Algunas representaciones gráficas, dependiendo el estudio que se realice, se puede representar tanto la gráfica de barras como la gráfica poligonal, como se ilustra en la figura anterior. Para realizar ambas representaciones primero se gráfica como barras y enseguida se determina la marca de clase, este valor representa al mitad de la barra, enseguida se unen todos las marcas de clase, iniciando desde el origen hasta el final de la ultima barra. EJEMPLO 1 Los datos en la tabla adjunta representan la altura de 100 estudiantes de la preparatoria “El renacimiento” tomados de varios grupos de primero y segundo semestre. Altura (pulgadas) Número de estudiantes 60-62 5 63-65 18 66-68 42 69-71 27 72-74 8 Total= 100
Los datos organizados y resumidos como en la anterior distribución de frecuencia son referidos comúnmente como datos agrupados. Un símbolo que define una clase, por ejemplo 60-62 de la tabla anterior, se llama intervalo de clase. Los números 60 y 62, se llaman límites de clase; el número anterior 60 es el límite inferior de clase, y el número mas grande, 62, es el límite superior de clase. En muchas ocasiones se utilizan los límites de clase verdaderos o reales, en los cuales al limite inferior se le resta 0.5 y al límite superior de le suma 0.5con el propósito de tener un margen mayor de veracidad, en este ejemplo el intervalo de clase 60-62 se tendrá que los límites reales estarán dados por 59.5-62.5 La marca de clase es el punto medio del intervalo de clase y se obtiene sumando los límites de clase inferior y superior divididos entre dos. Así la marca de clase del intervalo 60-62 es
60 62 2
61
La marca de clase también es llamada “punto medio de la clase”.
Alturas 45 40 35 s e 30 t n a 25 i d u 20 t s E 15 10 5 0
Número de estudiantes
60-62 63-65 66-68 69-71 72-74 Medidas en pulgadas
Polígono de frecuencia
45 40
s e 35 t n a i d 30 u t s 25 e e d 20 o r 15 e m ú 10 N
Número de estudiantes
5 0
60-62 63-65 66-68 69-71 72-74 Altura e n pulgadas
Gráfico de barras 1.1.4.3 Gráfica de Sectores Circulares Grafica circulas de las alturas de estudiantes
60-62 63-65 66-68 69-71 72-74
Gráfico circular, de sectores o pastel: El gráfico anterior es un ejemplo típico de gráfico circular: Se usa, fundamentalmente, para representar distribuciones de frecuencias relativas (%) de una variable cualitativa o cuantitativa discreta. En este gráfico se hace corresponder la medida del ángulo de cada sector con la frecuencia
correspondiente a la clase en cuestión. Si los 360º del círculo representan el 100 % de los datos clasificados, a cada 1% le corresponderán 3,6º. Luego, para obtener el tamaño del ángulo para un sector dado bastaría con multiplicar el por ciento correspondiente por 3,6º (por simple regla de tres). Mediante un sector circular se representan las medidas angulares correspondientes a las diferentes categorías, respetando el orden establecido en la tabla, partiendo de un punto dado de la circunferencia. Ese punto dado generalmente es el punto más alto de la circunferencia (12 en el reloj). Si lo que se representa en cada sector no puede colocarse dentro del mismo, se elabora una leyenda o se coloca fuera, adyacente al mismo. Se acostumbra a diferenciar los sectores con tramas o colores diferentes, lo que hace que resulte un gráfico más vistoso que el de barras simples. EJEMPLO 1 Después de recolectar una muestra por distrito del número de habitantes con conocimientos de contabilidad, se obtuvieron los siguientes datos: Ejemplo: Habitantes de 4 Distritos de la región Sierra de Oaxaca.
Distrito Sola de Vega Yautepec Miahuatlán Putla
Habitantes 2644 1034 3510 3197
Porcentaje a que equivale 25% 10% 34% 31%
Procedimiento Para hacer una gráfica circular con estos datos tenemos que realizar los siguientes cálculos.
El círculo completo equivale a 360º. Es decir el 100% equivale a 360º. Se calcula por regla de tres el ángulo que corresponde a cada porcentaje. Para Sola de Vega que tiene el 25% de la población el cálculo sería el siguiente:
100% - 360º. 25% - X 360 X 25= 9000 9000/100 = 90
Se traza dentro del círculo un ángulo de 90º y en él se anota que el Municipio Sola de Vega tiene 25% de población. Se realiza el mismo cálculo y trazo para cada dato hasta completar la gráfica
Las gráficas se pueden realizar en varias formas dependiendo las necesidades de representación de quienes lo realizan.
Habitantes
Sola de Vega Yautepec Miahuatlán Putla
Habitantes
Sola de Vega Yautepec Miahuatlán Putla
Habitantes
Sola de Vega Yautepec Miahuatlán Putla
EJEMPLO 2 Se aplica la prueba de conocimientos generales de 60 preguntas a una muestra aleatoria de 59 estudiantes universitarios, obteniendo el siguiente resultado
INTERVALO A C I E R T O S 33-36 3 37-40 5 41-44 12 45-48 24 49-52 29 53-56 31 57-60 42 Graficar en los formatos
A C I E R T O S 45 40 S 35 E T 30 N A25 I D20 U T 15 S E 10 5 0
A C I E R T O S
33- 37- 41- 45- 49- 53- 5736 40 44 48 52 56 60 ACIERTOS
EXAMENDE CONOCIMIENTOS GENERALES 50 S O I 40 R A T I 30 S R20 E V I N10 U
0 33-36 37-40 41-44 45-48 49-52 53-56 57-60 ACIERTOS
EXAMEN DE CONOCIMIENTOS
2% 3%
30%
33-36 8%
37-40 16%
41-44 45-48 49-52
21%
20%
53-56 57-60
EJEMPLO 3 Los datos siguientes representan los pesos en kilogramos de FRESAS en canastas clásicas que se ofertaron en una feria local.
P e s o Canastas de fresas 10-13 6 14-17 14 18-21 12 22-25 11 26-29 9 30-33 8 Total 60 Graficar en los formatos antes señalados.
VENTA S 16 A S 14 E R12 F E 10 D 8 S A 6 T S 4 A N 2 A C 0
10.0013.00
14-17
18-21
22-25
26-29
30-33
26-29
30-33
PESO
VENTA S 16 A S 14 E R12 F E 10 D 8 S A 6 T S 4 A N 2 A C 0
10.0013.00
14-17
18-21
22-25
PESO
VENTA DE FRESAS
10.00-13.00 13%
10%
14-17 24%
15%
18-21 22-25
18%
20%
26-29 30-33
1.1.4.4 Histograma y polígono de frecuencias. Los histogramas y los polígonos de frecuencia son dos tipos de representaciones gráficas de las distribuciones de frecuencias. a) Un histograma o histograma de frecuencia, consiste de un conjunto de rectángulos que tienen: Sus bases sobre un eje horizontal con sus centros en las marcas de clase y con longitudes igual al tamaño del intervalo de clase. Áreas proporcionales a las frecuencias de clase.
b) Un polígono de frecuencia es una línea de una gráfica de la frecuencia de clase. Se pueden obtener conectando los puntos medios de la parte superior de los rectángulos del histograma. Siempre se debe conectar de los dos lados del polígono de frecuencia hasta tocar la parte horizontal o eje de las “x”. Del ejemplo anterior de las estaturas de los estudiantes un histograma quedaría:
45
s e 40 t n 35 a i d 30 u t s 25 e e 20 d o r 15 e 10 m ú 5 N
Serie1
0
60-62
63-65
66-68
69-71
72-74
Estatura en pulgadas
EJEMPLO 1 Se ha aplicado un test a los empleados de una fábrica, obteniéndose las siguientes resultados descritos en las siguientes tablas: Intervalo Frecuencia 38-44
7
44-50
8
50-56
15
56-62
25
62-68
18
68-74
9
74-80
6
Dibujar el histograma y el polígono de frecuencias acumuladas .
Para calcular la frecuencia acumulada (F a ) se suma a la frecuencia de cada renglón la frecuencia anterior como ejemplo para la primera fila que tiene de frecuencia 7 no se le suma ninguna cantidad ya que no tiene frecuencia anterior, en cambio para el segundo renglón con frecuencia 8 sumada con la frecuencia anterior 7 hacen un total de 15, para la tercera fila al frecuencia es 15 mas la frecuencia acumulada 15 hacen un total de 30, seguimos el mismo proceso hasta terminar las filas. La marca de clase se calcula sumando los límites del intervalo y dividimos entre dos. INTERVALO 38-44 44-50 50-56 56-62 62-68 68-74 74-80
Marca de clase 41 47 53 59 65 71 77
Número de personas 7 8 15 25 18 9 6
Frecuencia acumulada 7 15 30 55 73 82 88
Como se aprecia los intervalos se cierran aún más, esto con la finalidad de compactar la forma de la figura y los resultados sean más exactos.
Ejemplo 2 El peso de 65 personas adultas viene dado por la siguiente tabla:
P E S O 50-60 60-70 70-80 80-90 90-100 100-110 110-120 Gráfica
Marca de clase 55 65 75 85 95 105 115
Número de personas 8 10 16 14 10 5 2
Frecuencia acumulada 8 18 34 48 58 63 65
Peso de personas s 20 a n o s r 15 e p e 10 d o r e 5 m ú N 0
50-60 60-70 70-80 80-90
90100
100110
110120
Peso en kilogramos
Polígono de frecuencias acumuladas
EJEMPLO 3 En la siguiente tabla se encuentran los datos que pertenecen a las edades de cabeza de familia, dibuja el polígono de frecuencias acumuladas.
E d a d 25-29 30-34 35-39 40-44 45-49 50-54 Total
Marca de clase 27 32 37 42 47 52
Número de personas 22 40 51 11 95 66 285
Frecuencia acumulada 22 62 113 124 219 285
Edades de cabeza de familia 100 80
a i c n 60 e u c 40 e r F
Frecuencia
20 0 2529
3034
3539
4044
4549
5054
Edades de personas cabeza de familia
EJERCICIO 1.- Los datos siguientes son las estaturas (en centímetros) de un grupo de cuarto grado de educación primaria. 130 152 118 134 120
122 124 152 115 125
128 134 130 120 132
132 134 140 146 135
137 138 150 145 142
124 140 112 125 130
Elabora una tabla de frecuencias agrupando los datos en intervalos de clase, determina la clase y la frecuencia acumulada. Elabora un histograma para visualizar el comportamiento de los datos.
2.- Un grupo de fabricantes de llantas quieren saber la duración de su producto, según el uso de diferentes conductores. Para obtener esa información, los fabricantes toman una muestra de 100 de sus compradores, quienes reportaron la duración de sus llantas en miles de kilómetros. 55.3
59.5
60.0
48.6
59.1
63.5
56.3
55.0
53.7
52.8
50.5
56.7
60.8
67.6
68.0
64.4
58.0
49.9
65.4
47.9
45.2
68.1
56.5
50.5
51.2
55.9
61.8
73.0
65.3
60.0
56.6
57.3
49.9
69.5
50.2
52.1
56.7
56.2
52.9
55.0
49.8
51.4
56.8
60.1
56.7
55.9
55.2
65.0
54.8
50.2
56.7
67.0
58.8
57.9
49.9
50.6
58.6
54.8
53.8
52.0
52.8
51.9
61.0
62.5
64.2
67.1
59.9
58.1
56.7
54.0
56.3
53.9
52.
52.9
51.9
56.0
58.1
52.0
57.0
56.1
49.9
61.0
62.5
51.8
50.1
50.8
60.2
57.8
53.2
51.8
60.1
60.9
56.8
48.0
58.9
57.6
59.7
60.7
63.6
65.3
Ordena y divide los datos en 10 clases, realiza una tabla de frecuencias y su histograma
1.2 Medidas de Tendencia Central
Un promedio es un valor, que es típico o representativo de un conjunto de datos. Como tales valores tienden a situarse en el centro del conjunto de datos ordenados según su magnitud, los promedios se conocen también como medidas de centralización o medidas de tendencia central. Se pueden definir varios tipos de medidas de centralización, las mas comunes son la media aritmética o brevemente media, la mediana, la moda, la moda, la media geométrica y la media armónica entre otras. (Spiegel 61)
1.2.1 Para datos no agrupados En un conjunto de datos acomodados de acuerdo a su magnitud de los cuales se requiere conocer los valores típicos centralmente acomodados, tales como la media, mediana y moda etc.
1.2.1.1 Media Aritmética Antes de entrar en detalle con el tema de la media, hacemos una pequeña introducción para tener el conocimiento necesario para comprender, razonar e interpretar las formulas que al momento del desarrollo de la materia se presentan. Notación sumatoria El símbolo
(Letra griega mayúscula sigma) se utiliza para representar una
suma, el cual nos indica que se debe sumar todos los valores comprendidos en un intervalo señalado sobre y bajo del mismo símbolo. Así
N
x significa que debes sumar todos los datos desde el inicio (j=1) hasta el j 1
total de datos (N= total de datos que se manejan) EJEMPLOS
1.-
N
XY =X1 Y 1 + X2 Y 2 +X3 Y 3 + X4 Y 4 +... +XN Y N j 1
N
2.- aX =a X1 + a X2 +a X3 +... +a XN j
j 1
3.-
Si la marca de clase es igual a 5, 15, 2, 9, 13, 7, 8, 7 y necesitamos
calcular
tendremos:
N
X = 5 + 15 + 2 + 9 + 13 + 7 + 8 + 7 = 66 j 1
La media aritmética, o media es el conjunto de N números X1, X2, X3,...XN se denota por X (en algunos textos se lee X barra) y se define como:
X
X 1 X 2 X 3 ... X N N
X N
EJEMPLO1
La media aritmética de los números 8, 3, 5, 10, 14, 9, 11 es: Aplicamos la formula anterior y sustituimos los datos:
X
X 1 X 2 X 3 ... X N N
X N
Sustituimos datos recuerda que N es igual al total de datos que en este caso es 7 X
8 3 5 10 14 9 11 7
60 7
8.57
EJEMPLO 2 La media aritmética de los números 8, 3, 5, 12, 10, 7, 4 es: Aplicamos la formula
X
X 1 X 2 X 3 ... X N N
X N
Sustituimos datos recuerda que N es igual al total de datos que en este caso es 7
X
8 3 5 12 10 7 4 7
49 7
7
EJEMPLO 3
La media aritmética de los números 8, 3, 5, 10, 14, 9, 11, 6, 12 es: Aplicamos la formula X
X 1 X 2 X 3 ... X N N
X N
Sustituimos datos recuerda que N es igual al total de datos que en este caso es 7
X
8 3 5 10 14 9 11 6 12 9
78 9
8.66
1.2.1.2 Media Geométrica Se define como la raíz n del producto de N términos. Su uso permite el cálculo de tasas de crecimiento.
Su fórmula matemática es:
G N X 1 X 2 X 3 ... X N
Ejemplo 1 El crecimiento de las ventas del petróleo en los últimos cuatro años fue de 9, 19,21, y 28%. Calcula la media geométrica anual de crecimiento
Solución Los porcentajes los convertimos a decimales, ya que fueron incrementos, se tiene que: 1.09 primer año 1.19 segundo año 1.21 tercer año 1.28 cuarto año
G N X 1 X 2 X 3 ... X N G 4 (1.09)(1.19)(1.21)(1.28) G 1.19 En porcentaje se expresaría en G=0.19%
Ejemplo 2 Hallar la tasa de incremento que ha presentado la temperatura que ha sufrido un refrigerador de lácteos de un centro comercial de la ciudad, las lecturas sobre lo normal son: 2, 3, 5, 4, 6
Solución
G N X 1 X 2 X 3 ... X N G 5 (2)(3)(5)(4)(6) G 3.72
1.2.1.3 Media Cuadrática La raíz cuadrada del cuadrado de la media o valor cuadrático medio o RMS ( Siglas en inglés de root mean square) o media cuadrática de una serie de números X1, X2, X3 …XN se representa mediante las siguientes expresiones
matemáticas :
N
R M . .S . X
2
=
2 X j 1
N
=
X
2
N
Este tipo de promedios se usa frecuentemente en Física en donde la variable puede tomar valores tanto positivos como negativos, ejemplos en los errores de toma de medidas, ya sea de temperaturas, de longitud, de controles con saetas, etc. En tales casos se necesita conocer los promedios de variación que no sean afectados o modificados por el signo negativo, para tal caso la media cuadrática eleva al cuadrado todas las observaciones, determinar la media y por último extraer la raíz cuadrada para volver a la unidad original.
EJEMPLO 1 Las lecturas de presión
tomadas por un empleado de recién ingreso,
sobrepasaron un mínimo las lecturas normales, el supervisor quiere saber el promedio de error para saber si el nuevo empleado es el indicado para ocupar ese cargo. Las lecturas que sobrepasaron la normal fueron 2, -3, -1, -2, 1,
X 2
N
(2) 2 (3) 2 (1) 2 (2) 2 (1) 2 5
5.367
EJEMPLO 2 Calcula la R. S. M. de las variaciones de 5 Flexómetros si las lecturas tomadas a una misma pieza fueron: -12, -10, -8, -5, -11 milímetros el arquitecto desea la variabilidad para conocer si pueden ser empleados en la construcción de un muro de un panteón.
X 2
N
(.012) 2 (.01) 2 (.008) 2 (.005) 2 (.011) 2 5
2.311
La decisión se tomará según los estándares preestablecidos por las Normas Mexicanas de Pesos y Medidas.
1.2.1.4 Media Armónica.
La media armónica H de una serie de números X1, X2, X3…XN es la recíproca de la media aritmética de los recíprocos de los números: H
1 1
N
=
1
N X j 1
j
N
X 1
Las principales aplicaciones de la media armónica se encuentran para determinar el valor promedio de las variaciones con respecto al tiempo
EJEMPLO 1 La familia Ramírez realiza un viaje en automóvil a una playa de Jalisco y cubre los primeros 100Km a 60Km/h, los siguiente 100Km a 70Km/h y los últimos 100Km a 80Km/h, calcular la velocidad media del viaje.
N 1
X
1 60
3 1 70
1
61.41 Km / h
80
EJEMPLO 2 Un operario puede armar un motor en 3 días, mientras que otro obrero puede terminar el mismo trabajo en cuatro días. Calcula el mismo rendimiento de un trabajador representativo de los rendimientos de los operarios.
N 1
X
2 1 3
1
3.42 De rendimiento
4
EJERCICIO 1.- Una compañía de transportes de carga tiene tres camiones deferentes que utiliza en el recorrido de A a B: 4, 3, 7 horas, respectivamente. Calcula el tiempo que empleará un camión para hacer el recorrido y que sirva de base para un estudio de costos.(Media armónica). R= 4.131 (4 horas y casi 8 min.) 2.- Calcular la media geométrica y la media armónica de las siguientes series de números. a)3, 4, 5, 6, 7 R= G=4.789 H= 4.575 b) 5, 6, 8, 9, 10, 11 R=G=7.869 H=7.869 3.-Las calificaciones de Pablo en cinco materias fueron: 85, 77, 93, 76, 96 ¿cuál es la media aritmética? R=85.4 4.- Para atender la demanda de un grupo de ocho trabajadores se analiza su ingreso en pesos: 32, 40, 40, 45, 50, 200, 300 respectivamente.¿Cuál es el ingreso promedio? R=40 pesos 5.- Calcula la R. S. M de los tiempos de reacción a un medicamento aplicado a una persona con una infección por hongos las lecturas tomadas fueron:
12, 10, 8, 5, 11 horas el médico requiere la variabilidad para conocer la eficiencia del medicamento. R=9.52 horas
1.2.1.5 Media Ponderada En muchas ocasiones es de gran utilidad otorgar pesos o valores a los datos dependiendo de su relevancia para determinado estudiado. En estos casos se puede utilizar una media ponderada. Si X 1, X2,…XN es un conjunto de datos o media muestral y w1, w2,…wN son números reales positivos, llamados pesos o factores de ponderación, se define la media ponderada relativa a esos pesos como:
X
w1 X 1 w2 X 2
... w N X N w1 w2 ...w N
=
wX w
Ejemplo1
En una materia dada se asignan pesos de importancia, de la siguiente forma: Unida I (20% del curso), Unidad II (25% del curso), Unidad III (20% del curso), Unidad IV (15% de la calificación), Unidad V (20% de la calificación ). Si las calificaciones de un alumno son 8 en la primera unidad, 5 en la segunda, 8 en la tercera unidad, 10 en la cuarta unidad y 8 en la última unidad. Es decir, se tienen la siguiente tabla:
Unidad I II III IV V
x w
Ponderacion (Wi) 20% = 0.2 25% = 0.35 20% = 0.2 15% = 0.15 20% = 0.10
Calificación 8 5 8 10 8
8 (0.2) 5 (0.35) 8 (0.2) 10 (0.15) 8 (0.1) 0.2 0.35 0.2 0.15 0.10
7.25 1.0
7.25
Observe que diferencia existe con la media aritmética. La media para los datos es igual a x
8 5 8 10 8 5
7.8
En economía la media ponderada es de gran utilidad ya que se elabora la estadística del índice de precios basado en la oferta y la demanda de vienes y servicios que se consumen dentro de una población, este se elabora mensualmente para tener actualizado el padrón de índice de precios, puede cambiar los precios de acuerdo a la demanda. En general, para determinar si la economía de un país va en inflación (subida de precios) o deflación (bajada de precios) y en qué grado. El conjunto de productos, que conforman lo que se denomina comúnmente como canasta básica , se obtiene básicamente del consumo de las familias y la ponderación o importancia de cada uno de ellos en el cálculo del índice de precios está determinado por dicho consumo. Las ponderaciones se van
actualizando frecuentemente y, además, se pueden incluir nuevos productos a la canasta básica en el momento en que su consumo comience a ser significativo. .
EJEMPLO 2 Si el examen final de curso se valora como tres veces los exámenes parciales y un estudiante tiene una nota de examen final de 85 y notas de exámenes parciales de 70 y 90 su nota final será X
wX (1)(70) (1)(90) (3)(85) 83 11 3 w
1.2.2 Para datos agrupados Cuando los datos se presentan en una distribución de frecuencias, (Visto en el tema 1.1.4 Técnicas de Representación de Datos) o agrupados dentro de
intervalos de clase, se procede a calculas las medidas de tendencia central tal como la media aritmética, media geométrica, media ponderada, etc.
1.2.2.1 Media Aritmética Para calcular la media aritmética para datos agrupados se toma en consideración la marca de clase y como ponderación la frecuencia, matemáticamente se expresa: N
f X i
X
i
j i
N
f i
j i
En donde:
f X Corresponde a la sumatoria de los productos de la marca de clase y el i
i
valor de la frecuencia que le corresponde. N Es el total de datos del conjunto, también se expresa como
f i
Ejemplo1 Calcula la media aritmética de los siguientes datos agrupados que representan los resultados de un examen departamental de Física en donde se examinan a 50 alumnos dando como resultado los siguientes datos: Clases
Marca de clase Frecuencia
(X f)
35-39
(X) 37
(f) 2
40-44
42
0
0
45-49
47
2
94
50-54
52
0
0
55-59
57
2
114
60-64
62
4
248
65-69
67
7
469
70-74
72
8
576
75-79
77
8
616
80-84
82
6
492
85-89
87
7
602
90-94
92
2
184
95-100
97.5
2
195
Total
50
74
3671
Es muy común que los datos agrupados solo tendremos la columna del intervalo y la frecuencia, por lo tanto se calculará la columna de al marca de clase. Pasos: 1.- Calcular la marca de clase, sumando el limite superior mas el limite inferior del intervalo ya sumados dividir entre dos. En la primera clase 35-39 al marca de clase se determina
35 39 2
=37
Recuerda que en al calculadora debes primero realizar la suma de 35+39 colocar el signo = y enseguida dividir entre dos. Si al calculadora tiene paréntesis puedes hacer esta operación mas fácilmente: Presiona la tecla con el paréntesis abierto ( enseguida la operación 35+39 después cierra el paréntesis que abriste ) enseguida divide entre dos y el resultado será 37 2.- Realiza la multiplicación de al columna de la marca de clase X con todos y cada uno de los elementos de la columna de al frecuencia (f) (X). 3.- Suma la columna de (f) (X) para obtener
f X
4.- Suma al columna de al frecuencia y el dato será N
f X i
5.- Sustituye los valores el al formula X
i
j i
N
f i
j i
Aplicando la formula y sustituyendo valores
f
N
f X i
X
i
j i
N
f
3671 50
73.4
i
j i
Ejemplo 2 Los siguientes datos agrupados representan los pesos en pulgadas de 100 alumnos de la preparatoria “Renacimiento”, calcular la altur a media completando al siguiente tabla. Aplicamos los pasos anteriores Altura (pulgadas) Marca de Clase (X) Frecuencia (f) 60-62 61 5 63-65 64 18 66-68 67 42 96-71 70 27 72-74 73 8 Total f =N=100
(f) (X) 305 1152 2814 1890 584 f X =6745
Ejemplo 3 Calcula el valor medio de las lecturas tomadas a 56 diámetros de las rondanas especiales para un componente electronico para un robot de manufactura, las lecturas fueron: Diámetro (pulg.) Marca de Clase (X) Frecuencia (f) 29-33 31 7 34-38 36 13 39-43 41 20 44-48 46 11 49-53 51 5 Total f =N=56
Aplicando la formula y sustituyendo valores
(f) (X) 217 468 420 506 255 f X =1866
N
f X i
X
i
j i
N
f
1866 56
33.32
i
j i
El diámetro medio es 33.32 pulgadas
1.2.2.2Mediana La mediana es una de las medidas de tendencia central para variables cuantitativas y se encuentra en el intervalo donde la frecuencia acumulada llega hasta la mitad de la suma de las frecuencias. Con esta medida podemos identificar el valor que se encuentra en el centro de los datos, es decir, nos permite conocer el valor que se encuentra exactamente en la mitad del conjunto de datos previamente ordenados y puesto en clases. Esta medida nos indica que la mitad de los datos se encuentran por debajo de este valor y la otra mitad por encima del mismo. Para su cálculo se tiene la expresión matemática siguiente:
X Li
N F ac 2 I f ic
Donde: Li
Es el límite real inferior de la clase mediana.
N
= Es el total de los datos divididos entre dos.
2
F ac =Es
la frecuencia acumulada anterior a la clase mediana.
f ic =Es
a la frecuencia de la clase mediana.
I= Es el tamaño del intervalo. Para determinar la clase donde está la mediana debes de dividir el total de los datos entre dos, al intervalo donde se halle la mediana se le da el nombre de “clase mediana”
Después aplicar la formula anterior.
EJEMPLO 1 Obtener la mediana de un grupo de 100 estudiantes que fueron entrevistados para identificar el nivel de inglés que dominaban, los resultados fueron los siguientes:
Para usar al fórmula
X Li
N F ac I 2 se requiere columnas f ic
que contengan los límite real de clase la frecuencia y la frecuencia acumulada:
Clase Frecuencia Frecuencia Acumulada 5-13 35 35 13-21 16 51 21-29 2 53 29-37 10 63 37-45 5 68 45-53 9 77 53-61 1 78 61-69 0 78 69-77 3 81 77-85 10 91 85-93 4 95 93-101 5 100 f i =100
Para obtener la posición de la mediana se divide
N 2
para
obtener la posición de la mediana: en este caso se tiene 100 entre 2 da como resultado 50, se revisa la columna de la frecuencia acumulada y se observa que el lugar 50 queda en al segunda clase (13-21). Se determinan los valores y se sustituye en la fórmula: Li =13 N 2
F ac =
=50
35
f ic =16
l=8
X Li
N F ac 2 I f ic
50 35 13 1815 13 8(0.9375) 13 7.5 20.5 16 16
X 13 18
La mediana de los 100 estudiantes que fueron entrevistados para determinar el nivel de inglés hablado es de 20.5. Es decir, la mitad de los estudiantes entrevistados hablen inglés en menos de 20.5%, mientras la otra mitad en mas de 20.5%
EJEMPLO 2 La siguiente distribución muestra la duración en días de 80 lámparas, se requiere saber la mediana para determinar cuantas lámparas hay que duren más o menos que esta medida.
Intervalo Frecuencia Frecuencia Acumulada 30-40 8 8 40-50 7 15 50-60 4 19 60-70 15 34 70-80 12 46 80-90 15 61 90-100 19 80
f = 80 i
Para obtener la posición de la mediana se divide la posición de la mediana:
80 2
N 2
para obtener
40
Se revisa la columna de la frecuencia acumulada y se observa que el lugar 40 queda en la clase (70-80). Se determinan los valores y se sustituye en la fórmula: Li =70 N 2
F ac =
=40
15
f ic =12
l=11
X Li
N F ac 2 I f ic
40 15 70 11 25 70 11(2.08) 70 22.88 92.88 12 12
X 70 11
La mediana de las 80 lámparas es 92.88 que significa que la mitad de las lámparas duran el 92.8 o 92 horas.
1.2.2.3 Moda La moda es el dato que se presenta con mayor frecuencia, es decir el dato más común. Para datos agrupados la moda se encuentra en la columna que tenga la mayor frecuencia, se determina con la siguiente expresión matemática: Moda L1
1 c 2 1
Donde: L1 =
Límite real inferior de la clase de la clase modal (La clase que contiene la moda) = Diferencia de la frecuencia de la clase modal menos la frecuencia de la clase anterior. = Diferencia de la frecuencia de la clase modal menos la frecuencia de la clase posterior. 1
2
c= Tamaño del intervalo. Muchos autores utilizan la siguiente formula, que solo difiere en la forma de representar los datos pero el concepto es el mismo.
d d 1 2
X L1 I
d 1
Donde: L = Límite real inferior de la clase de la clase modal (La clase que contiene la moda) I = Tamaño del intervalo d1= Diferencia de la frecuencia de la clase modal menos la frecuencia de la clase anterior. d2 = Diferencia de la frecuencia de la clase modal menos la frecuencia de la clase posterior. 1
EJEMPLO 1
Del ejemplo anterior de obtener la mediana de un grupo de 100 estudiantes que fueron entrevistados para identificar el nivel de inglés que dominaban, los resultados fueron los siguientes, ahora calcularemos la moda. Primero se determina la clase modal, que en este caso es la primera (5-13), ya que el valor de la frecuencia es el mayor (35) y se halla entre dos valores menores, El que le antecede sería cero y el posterior 16.
Clase Frecuencia Frecuencia Acumulada 5-13 35 35 13-21 16 51 21-29 2 53 29-37 10 63 37-45 5 68 45-53 9 77 53-61 1 78 61-69 0 78 69-77 3 81 77-85 10 91 85-93 4 95 93-101 5 100 f i =100 Sustituyendo valores encontrados: L1 = 5 I = 8 d 1 =35-0 = 35 d 2 =35-16 = 19 Entonces se sustituyen en la formula:
d d 1 2
X L1 I
d 1
d 1 35 35 5 8 5 8 5 5.18 10.18 35 19 54 d 1 d 2
X L1 I
La moda de los 100 estudiantes que se seleccionaron para conocer que nivel de conocimientos del inglés se tenían fue de 10.8, la moda nos indica que la el nivel denomino del inglés de la mayoría de los 100 estudiantes de la muestra es de 10.18%.
EJEMPLO 2 Del ejemplo anterior de la duración en días de 80 lámparas, se requiere saber la mediana para determinar cuantas lámparas hay que duren mas o menos que esta medida, ahora calcularemos la moda: Primero se determina la clase modal, que en este caso es la última (5-13), ya que el valor de la frecuencia es el mayor (19) y se halla entre dos valores menores, El que le antecede sería 15 y el posterior 0.
Intervalo Frecuencia Frecuencia Acumulada 30-40 8 8 40-50 7 15 50-60 4 19 60-70 15 34 70-80 12 46 80-90 15 61 90-100 19 80
f = 80 i
Sustituyendo valores encontrados: L 1 = 90 I = 11 d 1 =19 – 15 = 4 d 2 =19 – 0 = 19 Entonces se sustituyen en la formula:
d d 1 2
X L1 I
d 1
d 1 4 4 90 11 90 11 90 0.1739 90.1739 4 19 23 d 1 d 2
X L1 I
La moda de las lámparas es igual a 90.1739
Relación entre la Media, Mediana y Moda Si las medidas de tendencia central se presentan en el siguiente orden de magnitud: Moda < Mediana < Media o Media < Mediana < Moda Se dice que el polígono de frecuencias (histograma) es asimétrico, lo que indica que lo los datos se encuentran distribuidos con algún grado de tendencia
Curva sesgada a la derecha o con sesgo positivo: Moda < Mediana < Media
En este caso la mayoría de las observaciones se encuentran por debajo de la Media.
Curva sesgada a la izquierda o con sesgo negativo: Media < Mediana < Moda En este caso la mayoría de las observaciones se encuentran por arriba de la Media
Curvas Simétricas o Normales Si la Media, Moda y Mediana son iguales, esto es, Media = Mediana = Moda se dice que los datos se distribuyen simétricamente.
1.2.3 Medidas de Posición Para determinar los intervalos dentro de los cuales queda representados proporcionalmente los términos de una distribución, se divide la distribución de frecuencias en cuatro partes, (cuartiles). El primer cuartel corresponde al 25% dy se asigna Q 1 . El segundo se designa por Q 2 , que representa el valor de 50% y coincide con la mediana. El tercer cuartel es Q3 y representa el 75% de las observaciones que están por debajo de el. Si en lugar de dividirse en cuatro partes iguales se hace en diez, se tienen nueve puntos de división correspondiendo a cada punto un decil, de donde, primer decil es el valor por debajo del cual se encuentran el 10% de las observaciones, para el segundo decil el 20%, y así sucesivamente. (Fuenlabrada, 2008).
1.2.3.1 Cuartiles El total de los datos es dividido en cuatro partes iguales
se
representan con Q 1 , Q 2 , Q 3 , y Q 4 y cada uno representa el 25%, 50%, 75% y 100% del total de los datos.
1.2.3.2 Deciles Al conjunto de datos se divide en 10 partes iguales, se represen con D1, D2, D3…D10 y cada decil representa el 10, 20, 30…90% etc. de los datos .
1.2.3.3 Percentiles También llamados centiles. El conjunto de datos es dividido en cien partes iguales a cada uno se le da el nombre de percentil Para determinar las medidas de posición
EJEMPLO 1 Hallar (a) los cuartiles Q 1 , Q 2 y Q 3 y (b) los deciles D 1 , D 2 … D 9 de la siguiente distribución distribución siguiente que representa los salarios salarios semanales de 65 empleados de “Engranes “Eng ranes Rosales” R osales”
Salario
Número de empleado
50-59
8
60-69
10
70-79
16
80-89
14
90-99
10
100-109
5
110 - 119
2 Total 65
Solución: (a) El primer cuartel Q 1 es aquel valor que se obtiene para el N 2
=
65 2
16.25 de los casos comenzando por la clase primera (la
mas baja). Puesto que la primera clase contiene 8 casos, tomaremos 8.25 casos (16.52 - 8) de los 10 10 que contiene la segunda clase. Por el método de la interpolación lineal se tiene Q 1 = 59 + El segundo cuartel Q 2 2 N 4
=
N 2
=
65 22
8.25 10
10 = 67.25
es aquel valor que se obtiene para el
32.5 de los casos. Puesto que las dos primeras
clases comprenden 18 casos, tomaremos 32.5 32.5 – 18 = 14.5 de los 16 casos de la tercera clase; entonces Q 2 = 69 +
14.5 16
10 78.06
El cuartel Q 2 realmente es la mediana El tercer cuartel Q 3 es aquel valor que se obtiene para
3 N 4
3 4
65 48.75 d e
los casos. Puesto que las cuatro primeras clases comprenden 48 casos, tomaremos 48.75 - .75 de los 10 de casos de la quinta clase; entonces Q 3 = 89 +
.75 10
10 90.75
De aquí que el 25% de los empleados ganan 67.25 o menos, el 50% gana gana 78.06 o menos y el 75% gana 90.75 o menos.
(b) El primero, segundo… noveno decil son los valores que se obtienen para N 2 N 9 N de , ... 10 10 10
los casos comenzando por la clase primera (la mas
baja). Tenemos: D1 = 49 +
6.5 8
D 2 = 59 +
10 82.57
D 6 = 79 +
10 65
D 7 = 79 +
11.5
D 8 = 89 +
4
5 10
D 3 = 69 +
1.5
D 4 = 69 +
8
16
16
D 5 = 69 +
5
10 57.25
10 69.93
10 74
14.5 16
D 9 = 99 +
14
14
10
10 93
0.5 5
10 87.21
10 100
10 78.06
De aquí que el 10% de los empleados gana $58.12 o menos, el 20% gana $65 o menos… El 90% gana $ 100 o menos .
EJEMPLO 1 Determinar a) el percentil 35 y b) el percentil 60 paras la distribución del ejercicio anterior.
Solución: a) El percentil 35, representado por P 35, es el valor que se obtiene para 35 N 100
35 65 22.75 De los casos comenzando co la mas baja, 100
Entonces
P 3 5 = 69
4.75 16
10 71.98
Esto significa que el 35% de los empleados gana $71.98 o menos. b) El percentil 60 0 , es P 6 0 =
79
5 14
10 82.5
Significa que en 60% gana $82.5 o menos.
1.2.4 Medidas de Dispersión Al grado en que los datos numéricos tienden a extenderse alrededor de un valor medio se le llama variación o dispersión de los datos. Se utilizan distintas medidas de dispersión o variación, las más empleadas son el rango, la desviación media, el rango semiintercuartílico y la desviación típica.(Spiegel 1973).
Rango El rango de un conjunto de números es la diferencia entre el mayor y el menor de ellos. EJEMPLO El rango de los números 2, 3, 3, 5, 5, 5, 8, 10, 12 es 12 – 2 = 10 A veces el rango se da por la simple anotación de los números mayor y menor. En el ejemplo anterior esto sería indicando como 2 a 12 ó 2 – 12
1.2.4.1 Desviación Media Para obtener la desviación media se usan los valores absolutos de las desviaciones / X X / este valor corresponde al valor positivo de X X , no importando que X sea positivo o negativo. La desviación media es una medida de dispersión muy objetiva y cuando mayor sea su valor mayor será la dispersión de los datos. Si los datos se encuentran distribuidos en frecuencias la desviación media se obtiene: k
f / x x / f / x x / Desviación media=DM = = j
j 1
N
N
EJEMPLO 1 Calcula la desviación media de los siguientes datos agrupados que representan las alturas de los alumnos de segundo año de la secundaria “Rosalva Santacruz” turno vespertino.
Clase
Frecuencia
121.5 – 126.5
2
126.5 - 131.5
3
131.5 – 136.5
8
136.5 – 141.5
23
141.5 – 146.5
27
146.5 -151.5
20
151.5 – 156.5
16
156.5 -161.5
3
161.5 – 166.5
2
Total
N=104
Solución Disponemos de la tabla de frecuencia y la completamos
Clase
Marca
f
fx
/ X X /
f/ X X /
121.5 – 126.5
124
2
248
20.62
41.24
126.5 – 131.5
129
3
387
15.62
46.86
131.5 – 136.5
134
8
1072
10.62
84.96
136.5 – 141.5
139
23
3197
5.62
129.26
141.5 – 146.5
144
27
388
0.62
16.74
146.5 – 151.5
149
20
2980
4.38
87.60
151.5 – 156.5
154
16
2464
9.38
150.08
156.5 – 161.5
159
3
477
14.38
43.14
161.5 – 166.5
164
2
328
19.38
38.76
Total
=104
=15041
=638.64
Se realizaron los siguientes pasos: a) Del intervalo de clase se obtuvo la marca de clase “x” como ejemplo se citan
algunos de los intervalos: 121.5 126.5 2
126.5 131.5 2
248.5
258.0
2
2
124
129
Y así hasta terminar. b) Para la columna de la frecuencia (f) es el número de elementos que hay en un intervalo. c) fx es el resultado del producto de la marca de clase por la frecuencia. 124 (2) = 248
129 (3) = 387 Y así hasta terminar. d) / X X / es el valor absoluto de la diferencia de X X El valor de x está dado por la marca de clase según su intervalo. El valor de X está dado por X
fx 15041 144.62 N
104
e) Se obtienen los valores de/ X X / como sigue: /124 – 144.62/ = 20.62 /129 – 144.62/ = 15.62 /134 – 144.62/ = 10.62 /139 – 144.62/ = 5.62 /144 – 144.62/ = 0.62 /149 – 144.62/ = 4.38 /154 – 144.62/ = 9.38 /159 – 144.62/ = 14.38 /164 – 144.62/ = 19.38
Estos datos los sustituimos en la formula anterior
DM=
f / x x / 638.64 6.14 N
104
EJEMPLO 2 Calcular la desviación media de los datos obtenidos en una población del estado de Jalisco para saber las edades de las personas que son cabeza de familia Edades de cabeza de familia Frecuencia 24.5-29.5 22 29.5-34.5 40 34.5-39.5 51 39.5-44.5 11 44.5-49.5 95 49.5-54.5 66
Total 285
Solución Disponemos de la tabla de frecuencia y la completamos
Clase
Marca
24.5-29.5 29.5-34.5 34.5-39.5 39.5-44.5 44.5-49.5 49.5-54.5
27 32 37 42 47 52
f
fx
/ X X / 22 594 /27-42.5/ = 15.5 40 1280 /32-42.5/ = 10.5 51 1887 /37-42.5/ = 5.5 11 462 /42-42.5/ = .5 95 4465 /47-42.5/ = 4.5 66 3432 /52-42.5/ = 9.5 =285 =12120 =46
f/ X X / 341 420 280.5 5.5 427.5 627 =2101.5
Se realizaron los siguientes pasos: a) Del intervalo de clase se obtuvo la marca de clase “x” como ejemplo se citan algunos de los intervalos: 24.5 29.5 54 27 2
2
29.5 34.5 2
64 2
32
Y así hasta terminar. b) Para la columna de la frecuencia (f) es el número de elementos que hay en un intervalo. c) fx es el resultado del producto de la marca de clase por la frecuencia. 27(22)=594 32 (40) = 1280 Y así hasta terminar. d) / X X / es el valor absoluto de la diferencia de X X El valor de x está dado por la marca de clase según su intervalo. El valor de X está dado por X
fx 12120 42.5 N
285
e) Se obtienen los valores de/ X X / como sigue: /27-42.5/ = 15.5 /32-42.5/ = 10.5 /37-42.5/
= 5.5
/42-42.5/
= 0.5
/47-42.5/
= 4.5
/52-42.5/
= 9.5
Estos datos los sustituimos en la formula anterior
DM=
f / x x / 2101.5 7.37 N
285
1.2.4.2 Desviación Estándar La desviación estándar o desviación típica es la raíz de la varianza. La expresión matemática es:
fx fx 2
S
N
2
N
La desviación estándar es la mas importante de todas las medidas de dispersión porque incluye mas o menos 68% de los términos de una distribución normal; además, porque sus propiedades algebraicas se utilizan con facilidad en el análisis estadístico. (Fuenlabrada 2008).
EJEMPLO 1 Calcular la desviación estándar de los siguientes datos agrupados que representan la edad de los trabajadores más productivos de una empresa ensambladora de autos. Intervalo Marca de clase (x) Frecuencia (f) 37-39
38
2
39-41
4
10
41-43
42
13
43-45
44
32
45-47
46
14
47-49
48
7
49-51
50
3
51-53
52
2
53-55
54
1
= 84
SOLUCIÓN Desarrollamos un cuadro para mostrar los datos que permitirán aplicar la fórmula. Intervalos Marca
f
fx
x2
fx2
37-39
38
2
76
1444
2888
39-41
40
10
400
1600
16000
41-43
42
13
546
1764
22932
43-45
44
32
1408
1936
61952
45-47
46
14
644
2116
29624
47-49
48
7
336
2304
16128
49-51
50
3
150
2500
7500
51-53
52
2
104
2704
5408
52-55
54
1
54
2916
2916
=3718
=19284
=165348
Aplicamos la fórmula:
S
fx N
2
fx N 2
165348 84
2
3718 84
196842 195894
3.07
EJEMPLO 2 Calcular la desviación estándar de los siguientes datos agrupados que representan el porcentaje de dominio del programa de diseño Autocad de 100 estudiantes.
Intervalo Frecuencia 5-13 35 13-21 16 21-29 2 29-37 10 37-45 5 45-53 9 53-61 1 61-69 0 69-77 3 77-85 10 85-93 4 93-101 5
=100
SOLUCIÓN Desarrollamos un cuadro para mostrar los datos que permitirán aplicar la fórmula. Intervalo Marca 5-13 9 13-21 17 21-29 25 29-37 33 37-45 41 45-53 49 53-61 57 61-69 65 69-77 73 77-85 81 85-93 89 93-101 97
Aplicamos la fórmula:
f 35 16 2 10 5 9 1 0 3 10 4 5 =100
fx 315 272 50 330 205 441 57 0 219 810 356 485 =3540
x2 81 289 625 1089 1681 2401 3249 4225 5329 6561 7921 9401 =46152
fx2 2835 4624 1250 3310 1025 21609 3249 0 15987 65610 31684 47005 =194939
S
fx N
2
fx N 2
194939 100
2
3540 100
1949.39 1253.16
26.38
1.2.4.3 Rango semiintercuartílico Es el resultado de la diferencia entre el tercer cuartel Q 3 y el primero Q1, se expresa: Rango intercuartil = Q = Q3 – Q1 Si después de haber aplicado la media aritmética se quiere evitar al influencia de los valores extremos, se analiza únicamente la situación intermedia de la distribución de frecuencias aplicando el rango intercuartil. El rango semiintercuartil o desviación cuartil es la mitad del rango intercuartil; se representa con QD
Q D
Q3 Q1 2
El rango semicuartil mide la dispersión con mayor precisión que el rango.
EJEMPLO 1 Calcular la desviación cuartil de los siguientes datos agrupados que representan la edad de los trabajadores más productivos de una empresa ensambladora de autos. (Ejemplo anterior). Intervalo Marca de clase (x) Frecuencia (f) 37-39
38
2
39-41
4
10
41-43
42
13
43-45
44
32
45-47
46
14
47-49
48
7
49-51
50
3
51-53
52
2
53-55
54
1
= 84
Dividimos el total N de las frecuencias agrupadas entre cuatro y obtenemos el número de observaciones que hay entre el primer cuartil. N 4
84 4
21
El primer cuartil cae entre la clase 41-43
Al sumar las frecuencias hasta este intervalo tenemos 2+10+13 = 25 de los cuales nos sobran cuatro, hacemos una interpolación lineal:
43
Para el tercer cuartil utilizamos
4 13
3 42.077 (Q1)
3 N 4
252 63 que cae en la clase
3 84 4
4
45-47. Al sumar las frecuencias hasta este intervalo tenemos 2+10+13+32+14 = 71 de los cuales nos sobran ocho, hacemos una interpolación lineal:
71
Aplicamos la fórmula
Q D
8 14
3 69.29
(Q3)
Q3 Q1 2
y sustituimos los datos:
Q D
Q3
Q1 2
69.29 42.077 2
13.606
EJEMPLO 2 Calcular la desviación cuartil de los siguientes datos agrupados que representan el porcentaje de dominio del programa de diseño Autocad de 100 estudiantes.
Intervalo Frecuencia 5-13 35 13-21 16 21-29 2 29-37 10 37-45 5 45-53 9 53-61 1 61-69 0 69-77 3 77-85 10 85-93 4 93-101 5
=100
SOLUCIÓN Dividimos el total N de las frecuencias agrupadas entre cuatro y obtenemos el número de observaciones que hay entre el primer cuartil. N 4
100 4
25
El primer cuartil cae entre la clase 5-13
La frecuencia hasta este intervalo es de 35 los cuales nos sobran 10, hacemos una interpolación lineal:
35
Para el tercer cuartil utilizamos
10 35
9 32.43 (Q1)
3 N 4
300 75 que cae en la clase
3 100 4
4
45-53 Al sumar las frecuencias hasta este intervalo tenemos 35 +16 + 2 + 10 + 5 + 9 = 77de los cuales nos sobran tres, hacemos una interpolación lineal:
77
Aplicamos la fórmula
Q D
Q3
Q D
3 9
9 74
(Q3)
Q3 Q1 y sustituimos los datos:
2
Q1 2
74 32.43 2
22.305
Ejercicio 1.- Calcula la desviación media de los siguientes datos agrupados que representan las alturas de los alumnos de sexto semestre de la preparatoria “Rosalba Santacruz”
Intervalo
Frecuencia
151.5-156.5
3
156.5-161.5
8
161.5-166.5
12
166.5-171.5
10
171.5-176.5
6
2.-Determina el rango semiintercuartílico de la agrupación anterior.
EJERCICIOS 1.- A continuación se presentan los valores de las estaturas (en centímetros) de un grupo de cuarto grado de educación primaria. 130 122 128 132 137 124 152 124 134 134 138 140 118 152 130 140 150 112 134 115 120 146 145 125 120 125 132 135 142 130 Elabora una tabla de frecuencias (frecuencia y frecuencia acumulada), los intervalos de clase, además construye el histograma y el polígono d frecuencias. Calcula: a) Media aritmética. b) Mediana. c) Moda. d) Desviación estándar. e) Desviación media. f) Rango intercuartílico.
2.- Un grupo de fabricantes de remaches tortillería y rondanas quieren saber la eficiencia de una máquina de control numérico de reciente adquisición, para ello han seleccionado 250 remaches y se midió el diámetro dando los siguientes datos:
Diámetro (pulgadas) Frecuencia 0.7247-0.7249
2
0.7250-0.7252
6
0.7253-0.7255
8
0.7256-0.7258
15
0.7259-0.7261
42
0.7262-0.7264
68
0.7265-0.7267
49
0.7268-0.7270
25
0.7271-0.7273
18
0.7274-0.7276
12
0.7277-0.7279
4
0.7280-0.7282
1
Total
250
Elabora una tabla de frecuencias (frecuencia y frecuencia acumulada), los intervalos de clase, además construye el histograma y el polígono d frecuencias. Calcula: a) Media aritmética. b) Mediana. c) Moda. d) Desviación estándar. e) Desviación media. f) Rango intercuartílico 3.- Hallar la desviación media de los siguientes datos: 12, 6, 7, 3, 15, 10, 18, 5
4.- Los siguientes datos agrupados muestran las calificaciones del examen final de álgebra de un colegio de renombre de la ciudad. Calificación Número de estudiantes 90-100
9
80-89
32
70-79
43
60-69
21
50-59
11
40-49
3
30-39
1
Total
120
a) Hallar los cuarteles de la distribución b) Interpretar el significado. 4.- Hallar la media, mediana, moda, desviación media de los siguientes datos: a) 5, 4, 8, 3, 7, 2, 9 b)18, 3, 20, 6, 19, 3, 22, 4, 20, 2, 18, 8, 19, 7, 20 5.- Hallar la media geométrica de los datos: a) 5, 5, 8, 3, 7, 2 b) 28.5, 73.6, 6, 47.2, 31.5, 64.8
UNIDAD II . PROBABILIDAD OBJETIVO Al término de la unidad el alumno será capaz de: Analizar los distintos conceptos y procesos asociados a las técnicas de conteo y el cálculo de probabilidades, a través de la identificación clásica de probabilidad y la probabilidad condicional.
INTRODUCCIÓN El concepto intuitivo de la predicción por medio del cual una persona toma decisiones sin certeza de que ocurra todos sus supuestos es la base de un estudio sistemático denominado Probabilidad, que permite incrementar el grado de confianza para decidir. A pesar de que el conocimiento de la probabilidad nos permite saber qué creemos que va a suceder, no nos ayuda a saber qué va suceder de manera precisa.(Fuenlabrada 2008).
2.1 Técnicas de conteo Las técnicas de conteo se utilizan para determinar el número de veces que sucede un evento, sin enumerar directamente los posibles arreglos. Estas técnicas se basan en el principio fundamental del conteo que dice que si el evento E1 puede ocurrir de n1 maneras diferentes, un segundo evento E2 puede ocurrir de n2 maneras distintas y un tercer evento E3 de n3 maneras
diferentes hasta el evento K . Por tanto, el número de maneras diferentes en que los eventos pueden realizarse es el producto (n1) (n2) (n3)… (nk ).
Permutaciones Técnicas de conteo Combinaciones
Permutaciones: El orden de los elementos que la forman es importante. Ejemplo: abc; acb, bca… son arreglos o permutaciones diferentes.
Combinaciones: Los elementos que la forman pueden estar en cualquier orden; el orden no importa. Ejemplo abc, acb, bca,… representan la misma
combinación, contienen las mismas letras, su orden no interesa.(Ruiz 2007)
2.1.1 Notación Factorial Factorial Es el producto de un número positivo y entero n por todos los números menores que n se denota con n! Como ejemplo tenemos: 2! = 2(1)= 2 3! = 3(2)(1) = 6 4! = 4(3)(2)(1) = 24 5! =5(4)(3)(2)(1) = 120
2.1.2 Principio fundamental de conteo
Principio fundamental Si un suceso puede representarse con cualquiera de n1 formas distintas y si cuando ha ocurrido otro suceso puede representarse con cualquiera de n2 formas distintas, entonces el número de formas en que ambos sucesos pueden presentarse en el orden especificado es n1n2 (Fuenlabrada 2008)
Ejemplo 1 ¿De cuántas maneras diferentes se pueden seleccionar parejas de distinto sexo de un grupo de 4 hombres y 6 mujeres? SOLUCIÓN Como cada hombre puede ser seleccionado se 4 diferentes formas y cada mujer de 6 formas diferentes, cada pareja puede ser escogida de: 4 6= 24 formas deferentes Sean M1 , M2 , M3 , M4 , M5 , M6 las diferentes mujeres y H1 , H2 , H3 y H4 los diferentes hombres, las combinaciones posibles gráficamente quedarían: H1 H2 M1
M1-H1 , M1-H2 , M1-H3 , M1-H4 H3
H4
H1 H2 M2
M2-H1 , M2-H2 , M2-H3 , M2-H4 H3 H4
H1 H2 M3
M3-H1 , M3-H2 , M3-H3 , M3-H4 H3 H4
H1 H2 M4
M4-H1 , M4-H2 , M4-H3 , M4-H4 H3
H4
H1 H2 M5
M5-H1 , M5-H2 , M5-H3 , M5-H4 H3 H4
H1 H2 M6
M6-H1 , M6-H2 , M6-H3 , M6-H4 H3 H4
En total 24 formas de acomodar a las 6 mujeres con los cuatro hombres.
Ejemplo 2 Si hay tres candidatos para gobernador y 5 para alcalde, ¿de cuántas formas pueden acomodarse los diferentes elementos? Del razonamiento anterior tenemos que: 3 5 =15 formas diferentes
2.1.3 Permutaciones Una permutación de n objetos diferentes tomados de r en r es una ordenación de r objetos entre los n dados y atendiendo a la situación de cada objeto en la ordenación. (Spiegel 1961) El número de permutaciones de n objetos tomados de r en r se representa por:
P r , P n, r o
n
P n , r
La representación matemática es
P r
n
n!
n r !
Algunos autores manejan este tipo de permutaciones como “Permutaciones de
n elementos diferentes tomados en grupos de r elementos”
Ejemplo 1
¿Cuántas palabras diferentes de 5 letras se pueden formar con las letras de la palabra experimento? SOLUCIÓN Tenemos como datos r=5 y n =9 letras diferente (excluyendo las letras repetidas) sustituyendo
P r
n
n!
n r ! =
P 5
9
9!
9 5!
9! 15120 4!
Ejemplo 2 En una empresa, cinco ejecutivos asisten a una junta donde hay siete sillas. Calcula de cuántas formas pueden ocupar las sillas. SOLUCIÓN Como únicamente se ocupan cinco sillas, el número de diferentes modos de ocuparlas es igual al número de permutaciones de siete objetos considerando en grupos de cinco, esto se expresa 7P5
7 P 5
7!
7 5!
7! 2!
7
6 5 4 3 2!
Las sillas se pueden ocupar de 2520 formas.
2!
2520
2.1.4 Combinaciones Una combinación de
n objetos deferentes tomados de r en r es una selección
de r de los
n objetos sin atender a la ordenación de los mismos. (SPIEGEL 1961) El número de combinaciones de n objetos tomados de r en r se representa por nCr, C(n, r), Cn, r y viene dado por:
n
C r
n! r !
P r
n
r !
EJEMPLO 1 ¿Cuántos subconjuntos de dos elementos se pueden formar con los elementos del conjunto: (p, q, r, s, t)?
SOLUCIÓN
C r n
n!
r ! n
!
r
5!
2! 5
2!
10
Se enumeran los 10 arreglos y se tiene: (p, q) (p ,r ) (p, s) (p, t) (q, r) (q, s) (q, t) (r, s) (r, t) (s, t)
EJEMPLO 2 ¿Cuántas manos de póquer (cinco cartas) contienen exactamente dos reyes.
SOLUCIÓN 4 C 2
48 C 3
103776
4C2 es
el número de formas se escoger dos reyes y 48C3 es el número de formas de escoger las otras tres cartas.
2.2 Repaso de Teoría de conjuntos Conjunto es cualquier colección de objetos bien definidos, de tal manera que se pueda decir siempre si un objeto pertenece o no al conjunto al cual nos referimos. Los conjuntos se denotan con letras mayúsculas; los entes u objetos que los integran se llaman elementos, que se colocan dentro de este tipo de llaves { } y separados por comas. Ejemplo: A= {1, 2 ,3}
B= {Rosa, Inés, Paula}
Al citar los elementos de un conjunto dentro de las llaves no deben repetirse, aunque si pueden cambiar de lugar, por ejemplo: El conjunto G formado por las vocales de la palabra matemáticas.
G= { a, e, i } G= { i, a, e} G= { e, a, i }
Otro ejemplo, la ropa que llevas: podrían ser zapatos, calcetines, sombrero, camisa, pantalones y otras cosas.
2.2.1 Generalidades
Notación
Hay una notación para conjuntos bastante simple. Los dos ejemplos de arriba son: {Calcetines, zapatos, relojes, faldas,...}
{a, e, i, o, u} Fíjate que uno tiene "...". Esto sólo quiere decir que el conjunto sigue indefinidamente. A lo mejor no hay infinitas cosas distintas que ponerse, pero pueden existir más o menos según lo considere cada quien. El primer conjunto es un conjunto infinito, el segundo es un conjunto finito.
CONJUNTO VACIO. Los conjuntos que no tienen elementos se denominan conjuntos vacíos, su símbolo es Ø. Por ejemplo sea H el conjunto de los números naturales pares mayores que 2 y menores que 4.
PERTENENCIA Dado EL conjunto A= {a, b, c, d}, para expresar que d es un elemento del conjunto A se emplea el símbolo Є, el cual se lee “es un elemento de” o “pertenece a”; por lo tanto se indica:
d Є A La expresión indica que el elemento d pertenece al conjunto A.
Si se necesita expresar que b y c pertenecen al conjunto A, la expresión queda expresada así:
b, c Є A También se puede expresar así: b Є A, c Є A
SUBCONJUNTOS (INCLUSION) Si todos los elementos de un conjunto A también son elementos de un conjunto B, entonces se dice que A es un subconjunto de B. Para expresar esta relación entre dos conjuntos se usa el símbolo C en la forma siguiente:
A C B La expresión dice que “A es un subconjunto de B”, “A esta contenido en B” o “A esta incluido en B”.
Ejemplo:
Podemos decir que B es un subconjunto de A, que se expresa así: B C A
A= {2, 3, 4, 5,} B={3, 4} C= {4, 5, 6 }
Respecto a D y A, no podemos decir que D sea un subconjunto de A ya que D tiene incluido el elemento 6 que no se encuentra en A.
2.2.2
Operaciones entre conjuntos
OPERACIONES CON CONJUNTOS Sean A y B dos subconjuntos de un conjunto universal U . Definimos las siguientes operaciones entre conjuntos:
Unión Si se reúnen los elementos de dos o mas conjuntos para formar uno solo, a este conjunto que resulta se la llama unión de conjuntos. LA unión se representa con la notación A U B: esta se lee “Unión de A y B” o “A unión B”.
Cuando el conjunto se establece por descripción, usa ndo el símbolo “Tal que”, la unión se expresa en la forma siguiente: A U B= {x |x Є A ò x Є B}
Conjunto producto. Concepto de par ordenado
Par ordenado. Producto cartesiano
Definición. Par ordenado. Definimos un conjunto de dos elementos en el cual se tiene en cuenta el orden de sus elementos. Este conjunto se denomina “par or denado de componentes a y b” y se nota como:
Observaciones. 1. Es claro que si
entonces
. En efecto
.
2. Dado decimos que a es la primera componente y b es la segunda componente del par ordenado.
3. No es necesario que siempre
Definición. Producto Cartesiano. Sean A y B conjuntos.
o que sea siempre igual.
Al conjunto formado por todos los pares ordenados de primera componente en A y segunda componente en B, lo denominamos “producto cartesiano de los conjuntos A y B” y lo notamos A x B. Para facilitar el manejo del producto cartesiano, utilizaremos la siguiente notación abreviada:
Representaciones gráficas particulares del producto cartesiano. En el conjunto
de los números reales.
Existe una correspondencia biunívoca entre plano cartesiano.
y el conjunto de puntos del
1. Sean: Determinar y representar en el plano cartesiano los siguientes conjuntos: ;
;
;
2.2.3
Diagramas de Venn-Euler
Representación gráfica que nos permite la visualización de la relación que existe entre los conjuntos y el universo. El conjunto universo U se representa con un rectángulo y en el interior círculos que representan a cada conjunto.
U A
B
Ejemplos En las siguientes operaciones, el área sombreada es el resultado de cada una, excepto en el último porque el resultado es el conjunto vacío.
La unión de dos conjuntos es la unión de todos los elementos que tiene A t todos los elementos que tiene B
Intersección de dos conjuntos se obtiene como resultado los elementos que tiene A sean iguales a los elementos que tiene B
Cuando no se tienen elementos en común se obtiene como resultado el conjunto vacío
La deferencia de A menos B obteniéndose todos los elementos de A
2.3 Probabilidad Es posible considerar que expresiones como “es posible”, “no puede suceder”,
etcétera, indiquen azar por ser contrario a “seguro que ocurra”. Se trata, ciertamente, de calificativos opuestos; sin embargo, el extremo opuesto a lo seguro, pues existe la certeza de que no ocurra. Por tanto, la aseveración afirmativa “es seguro que vendrá” que es un evento determinista, pues existe la
certeza de que no ocurrirá no debe llevarte a pensar que la afirmación negativa “es seguro que no vendrá” es un seceso azaroso. Es importante que notes que los términos relacionados con el azar se encuentren en diversos puntos de la recta horizontal (escala de probabilidad), pero en sus extremos y que algunos de los términos están mas cerca de uno u otro punto, pues manifiestan una mayor o menor probabilidad de ocurrencia. Las expresiones del lenguaje cotidiano relativas al azar pueden normarse dentro de una teoría matemática en la cual los eventos imposibles de presentarse tienen una probabilidad cero de ocurrir, en tanto aquellos eventos seguros tienen una probabilidad uno de ocurrir, entre estos números queda comprendido todo aquello cuyo resultado es incierto. Así pues, todo evento azaroso tiene una probabilidad de ocurrir mayor que cero y menor que uno por lo cual la expresión (medida o cuantificación de la probabilidad) de eventos azarosos se da en términos de fracciones.
2.3.1 Definición Frecuencia relativa de la aparición del suceso, cuando el número de observaciones es muy grande, La probabilidad es el límite de la frecuencia relativa cuando el número de observaciones crece infinitamente (Spiegel 1961). Como se expresa en el párrafo anterior Probabilidad mide la frecuencia de que ocurra un suceso, por medio de las actividades realizadas se pretende de que al mencionar la palabra probabilidad no se relaciona con lo que se realiza al azar, si no que sepan que al referirse a probabilidad se está dando una medida al azar. Se está cuantificando en una escala, entre cero y uno, la certidumbre que se tiene de que algo suceda o no. Esta información útil para la toma de decisiones, sin excluir que por tratarse de situaciones aleatorias se pueden hacer predicciones, pero no afirmar con toda seguridad algún resultado. Para el estudio de la probabilidad actualmente la probabilidad se divide como sigue:
PROBABILIDAD
CLÁSICA
FRECUENCIAL
SUBJETIVA
Probabilidad clásica Considera espacios maestrales uniformes y asigna la misma probabilidad a cada evento del espacio muestral.
Probabilidad frecuencial Es el valor al que tiende, al repetir varias veces un experimento, el cociente del número de veces en que se presentó el resultado buscado entre el número de ocasiones en que se repitió el experimento.
Probabilidad subjetiva La probabilidad subjetiva asigna probabilidades a eventos, basándose en el conocimiento personal que se tiene sobre el experimento. (Ruiz 2007)
2.3.2 Tipos de eventos Las matemáticas son la base para que la probabilidad estudie ciertos experimentos aleatorios, o sea regidos por el azar, y conocer todos los resultados posibles, pero no es posible tener la certeza de cuál será en particular el resultado del experimento. Nombrando algunos experimentos aleatorios cotidianos como el lanzamiento de una moneda, el lanzamiento de un dado, extracción de una carta de un mazo de naipes.
Experimento Todo proceso en el cual se obtiene un resultado o una observación.
Espacio Muestral Es el conjunto de todos los resultados posibles en un experimento aleatorio.
El espacio muestral es denotado por la letra (S).
EJEMPLOS Lanzar una moneda, el espacio muestral es que tener águila o sol. Lanzar un dado, el espacio muestral es todos los posibles resultados o caras que tiene el dado, 1, 2, 3, 4, 5, 6
Jugar a la ruleta, el espacio muestral son todos los números y además los colores que estén jugando, en algunos juegos tiene figuras.
Jugara la lotería, el espacio muestral será, si es lotería mexicana, son las figuras que contenga la lotería, pero en cambio si se trata de la lotería con números, el espacio muestral serán todas las combinaciones posibles de todos los números y al cantidad de cifras que contenga la lotería. Más adelante se explicará este tipo de juego.
La fecundación, algunos biólogos consideran como un acontecimiento probabilístico ya que los deferentes elementos que constituyen el ADN se dos seres deferentes se combinan para dar un nuevo ser, por lo cual es espacio.
Evento Se considera evento a todo subconjunto de un espacio muestral. Se simboliza con letras mayúsculas. Algunos autores también lo llaman suceso.
EJEMPLO Experimento: Lanzar un dado. Espacio muestral: S = (1, 2, 3, 4, 5, 6) Evento R: Obtener un 3 o un 5 en el primer lanzamiento.
Eventos mutuamente excluyentes
Se consideran dos eventos mutuamente excluyentes cuando no pueden ocurrir en forma simultánea, esto es, si y solo si su intersección es vacía.
Ejemplo
Del experimento lanzar un dado, dado el evento A= 2,3 y B= 5,1 son mutuamente excluyentes ya que no tienen elementos en común, por lo tanto A B
Eventos complementarios Si la intersección de dos eventos A y B es cero y además que al sumar los elementos de estos, se obtenga el espacio muestral, se dice que estos eventos son complementarios. Simbólicamente se representa:
A B y A B S
Entonces
AC
B
y B C
A
2.3.3 Definición clásica de probabilidad
La Probabilidad pertenecen es la rama de la matemática que estudia experimentos aleatorios, (eventos al azar), en que se conocen todos los resultados posibles, pero no es posible tener certeza de cuál será en particular el resultado del experimento.
2.3.4 Probabilidad en términos de la frecuencia relativa. Se basa al valor con más frecuencia que se obtiene al repetir varias veces un experimento
EJEMPLO 1 Se sabe que un portero de futbol logra detener 60% de los tiros a gol que el rival produce. Si en un partido se efectúan 18 tiros, ¿Cuál es la probabilidad de que el portero pare exactamente siete tiros?
Para dar respuesta a esta pregunta se simularon 20 partidos de futbol y los 18 tiros por partido. Se generaron números aleatorios con una calculadora científica. Se registraron los resultados en una tabla de conteo y enseguida se registraron en una tabla de frecuencias.
TIRO
PARTIDOS
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
1
0
1
0
0
1
0
1
0
0
0
0
0
0
1
0
0
1
1
1
1
2
1
0
0
0
0
0
1
0
1
1
1
0
0
0
1
0
1
0
0
1
3
1
0
0
0
0
0
0
1
0
0
0
0
0
0
0
0
0
1
0
1
4
0
1
0
0
0
1
1
1
0
1
1
0
1
1
1
0
0
0
0
0
5
0
0
0
1
0
1
1
1
0
0
1
1
0
0
0
1
0
0
0
1
6
1
1
0
1
1
0
0
1
0
0
1
1
0
1
0
1
1
1
1
0
7
0
0
1
0
0
1
0
0
1
0
0
1
0
1
0
1
0
0
1
1
8
0
1
0
0
0
0
0
0
0
1
1
0
1
0
0
0
1
0
1
1
9
0
1
1
0
1
0
0
1
1
0
0
0
0
1
0
0
0
0
0
0
10
0
0
0
0
0
1
1
1
1
1
1
0
1
0
0
1
1
0
1
0
11
0
0
0
0
1
1
0
0
0
0
0
0
1
0
0
0
0
0
1
1
12
0
1
0
0
1
1
0
0
0
1
0
0
0
0
1
1
1
1
1
0
13
0
1
1
0
1
0
0
0
1
1
0
0
0
0
0
0
0
0
0
0
14
1
1
0
1
0
1
0
1
0
1
0
0
0
0
1
0
1
0
1
0
15
1
1
1
1
1
1
1
0
1
0
0
0
1
0
1
1
1
0
0
1
16
0
1
0
0
1
0
1
0
0
0
0
0
0
0
1
0
1
1
1
0
17
1
0
0
1
1
0
1
1
0
1
0
0
1
0
0
0
0
0
0
0
18
1
0
1
1
0
0
0
0
0
0
1
0
0
1
0
1
0
1
0
0
T
7 10 7 6
9 8
8
8
6
8
7
3
6
6
6
7
9
6
9
8
Distribución de frecuencias Tiros detenidos
Partidos jugados
Frecuencia Acumulada
Frecuencia relativa
Frecuencia relativa acumulada
0
0
0
0
0
1
0
0
0
0
2
0
0
0
0
3
1
1
0.05
0.05
4
0
1
0
0.05
5
0
1
0
0.05
6 7 8
6 4 5
7 11 16
0.3 0.2 0.25
0.35 0.55 0.8
9
3
19
0.15
0.95
10
1
20
0.05
1.0
11
0
20
0
1.0
12
0
20
0
1.0
13
0
20
0
1.0
14
0
20
0
1.0
15
0
20
0
1.0
16
0
20
0
1.0
17
0
20
0
1.0
18
0
20
0
1.0
Total
20
20
0
1.0
SOLUCIÓN La pregunta formulada al inicio del ejercicio ¿cuál es la probabilidad de que el portero detenga exactamente siete tiros? La respuesta se obtiene leyendo la columna de la frecuencia relativa, donde se ve que la probabilidad es de 0.2
EJEMPLO 2 Experimento: lanzamiento de dos dados. Al repetir el lanzamiento 500 veces se obtuvieron los siguientes resultados: Puntos Frecuencia 1
80
2
90
3
88
4
83
5
87
6
81
Total
500
Determina la frecuencia relativa y la probabilidad utilizando los datos anteriores. Puntos
Frecuencia
Frecuencia relativa
1
80
80
2
90
170
3
88
258
4
83
341
5
78
419
6
81
500
Total
500
500
Probabilidad
80 500 90 500 88 500 83 500 78 500 81 500
0.16 0.18 0.176 0.166 0.156 0.162 1.0
2.3.5 Propiedad Aditiva de la probabilidad probabilidad Dados dos eventos A y B, serán mutuamente excluyentes si la ocurrencia de A imposibilita la ocurrencia de B o viceversa.
PROPIEDAD ADITIVA
Eventos mutuamente excluyentes
Eventos que no son mutuamente
Eventos mutuamente excluyentes
P A B
P AoB AoB P A P B
Eventos que no son mutuamente
P A B P A Ao oB P A P B P A y B Como ejemplo tenemos gráficamente los eventos mutuamente excluyentes, la (La probabilidad de probabilidad de que ocurra el evento A y que ocurra el evento P A y B (La B) es igual a cero, pues no hay elementos comunes en comunes en ambos eventos. El diagrama siguiente, los eventos A y B son excluyentes, ya que no tienen puntos en común.
S A
B
EJEMPLO 1 Experimento: Lanzamiento de dos dados. El espacio muestral está dado por 36 parejas que se dan en la siguiente tabla.
1
2
3
4
5
6
1 (1, 1) (1, 2) (1, 3) (1, 4) (1, 5) (1, 6) 2 (2, 1) (2, 2) (2, 3) (2, 4) (2, 5) (2, 6) 3 (3, 1) (3, 2) (3, 3) (3, 4) (3, 5) (3, 6) 4 (4, 1) (4, 2) (4, 3) (4, 4) (4, 5) (4, 6) 5 (5, 1) (5, 2) (5, 3) (5, 4) (5, 5) (5, 6) 6 (6, 1) (6, 2) (6, 3) (6, 4) (6, 5) (6, 6) Se piden los siguientes eventos: A: La suma de los números en los dados es cuatro. B: La suma de los números en los dados es seis.
C: Números iguales en los dados. Los puntos muestrales que tiene cada evento son: A 1,3, 3,12,2
C 1,1, 2,23,34,45,56,6
B 1,5 , 5,1 2,4 4,2 3,3
Mostrados los elementos de cada evento se puede observar que los eventos A y B son mutuamente excluyentes, puesto que no hay pares comunes comunes en ambos. En cambio, A y C, así como B y C no son mutuamente excluyentes puesto que en el primer caso la pareja común com ún es (2, 2) y en el segundo caso es (3, 3). Aplicando la regla de la adición se tiene: P A o B P A P B
P A o B
3 36
2
P A o B
36
8
P A o B
5
36 9
Para los eventos que no son mutuamente excluyentes se tiene: P A o C P A P C P A y C P B o C P B P C P B y C 3
2
P A o C P A o C P A o C
36
8 36 9
6 36
1 36
P B o C
5 36
6 36
1 36
10
P B o C
36
P B o C
5 18
EJEMPLO 2 Para participar en la rifa de un reloj, los alumnos de primer año compraron 18 boletos y los de segundo grado 12 boletos. ¿Cuál ¿Cuál es la probabilidad de que un alumno de primero o segundo gane al rifa? Se imprimieron 50 boletos.
SOLUCIÓN A: Un alumno de primer grado gana el premio. B: Un alumno de segundo grado gana el premio. El evento que nos interesa es S=A o B, los sucesos o eventos A y B son mutuamente excluyentes, es decir, A B Entonces P A o B P A P B
18 12 30 0.6
P A o C
50
50
50
En porcentaje es 60%.
2.3.6 Propiedad Multiplicativa de la probabilidad. Los eventos A y B son independientes si la probabilidad de que ocurra o no ocurra uno de ellos no afecta la probabilidad de que o no ocurra el otro.
Regla de la multiplicación
Eventos dependientes
Eventos independientes
Eventos dependientes
B P A C P A y B P A P A Eventos independientes
P A C P A y B
P A P B
A Es decir, si A y B son eventos independientes, se tiene: P P A
B
EJEMPLO 1 Se lanzan dos dados. A: Números dobles en los dados. B: Números pares en los dados. Resultados: A 1,1, 2,23,34,45,56,6 B 2,22,42,64,24,44,66,26,46,6
P A
6 36
1 6
P B
9 36
1 4
A P A y B P A B
P
P A y B
3 36 9
3 9
1 3
36
A A y B son eventos dependientes puesto que P P A
B
A P A 1 1 3 6 B
P
3 36
EJEMPLO 2 Se lanza un dado. A: El resultado del lanzamiento es 1 o 2 B: El resultado del lanzamiento es 2, 4 o 6 Resultados
2 1
P A
6
3
3 1
P B
6
2
A P A y B P A B
P
P A y B
1
6
1 6 1
1 3
2
A A y B son eventos independientes puesto que P P A
B
EJEMPLO 3 Se lanzan dos dados. A: Salga uno en el primer dado B: Salga uno en el segundo dado Resultados:
B 1,1, 2,13,14,15,16,1 A 1,1 , 1,2 1,3 1,4 1,5 1,6
P A
6 36
1 6
P B
6 36
1 6
A P A y B P A B
P
P A y B
1 36 1
1 6
6
A A y B son eventos independientes puesto que P P A
B
1 36
2.3.7
Probabilidad Condicional.
La probabilidad condicional ocurre dados dos eventos A y B con la condición de que debe ocurrir uno para que pueda ocurrir el otro, como ejemplo El evento A ocurre cuando dado que B ya ocurrió el segundo B.
Matemáticamente
A P A y B P B B
P
EJEMPLO 1 ¿Cuál es la probabilidad de obtener dos ases al tomar dos naipes de un juego de 52 cartas, suponiendo que la extracción es con reemplazo? Se tienen los siguientes eventos: A: La primera carta extraída es un as. B: La segunda carta extraída es un as. Puesto que el juego consta de 52 cartas, cuatro de las cuales son ases , se tiene que P(A) =
4 52
1 13
Ya que la selecciones se hacen con reemplazo A y B
son independientes y P(B) = P(A y B)=P(A)P(B)=
1
1
13 13
4 52
1 169
1 13
la respuesta será:
0.006 0.6%
EJEMPLO 2 Una caja contiene 10 tornillos, tres de ellos están defectuosos. Se extraen dos tornillos aleatoriamente. Encuentra la probabilidad de que ninguno de los tornillos extraídos esté defectuoso. Considere los siguientes eventos: A: El primer tornillo extraído no está defectuoso. B: El segundo tornillo extraído no está defectuoso.
Puedes ver que P(A)=0.7 ya que siete de los 10 tornillos no son defectuosos y se ha hecho un muestreo aleatorio. Así, cada tornillo tiene la misma probabilidad
1 10
de ser escogido. Si el muestreo es con reemplazo, la situación
antes de la segunda extracción es la misma que al principio y P(B) es 0.7. Los eventos son independientes y la respuesta es: P(A y B)= P(A) P (B)= (0.7) (0.7)=0.49=49%
Ejercicios Aplica los conocimientos adquiridos en la presente unidad, dependiendo de los elementos que se tengan y los eventos a realizar para aplicar las diferentes probabilidades. 1.- Cada hora, el encargado de la producción revisa una máquina y toma una muestra de 10 unidades producidas. Si la muestra no contiene artículos defectuosos, permite que la máquina trabaje otra hora. Calcular la probabilidad de que bajo este sistema la máquina pueda seguir funcionando si de su producción el 10% son artículos defectuosos. 2.- Dados los eventos A, B y C, tal que A y B son mutuamente excluyentes y se cumplen las siguientes probabilidades: P A B = 0.8; P A C = 0.2;
0.1; P A B =0.6; P(C)=0.6;P(A) = 2P(B), calcular la probabilidad
P B C
de A y B. 3.- Una empresa hace un pedido de 150 computadoras que distribuirá en sus oficinas. Del total, 50 son marca C, 70 marca S y el resto marca M. De las computadoras marca C. 30 son Pentium II y 20 Pentium III. Todas las computadoras marca M son Pentium III. De las de la marca S, 20 son Pentium II y 50 Pentium III, Si a un empleado le asignan una computadora Pentium III, calcula la probabilidad de que dicha computadora sea de la marca S.
4.-Una empresa tiene 250 empleados, de los cuales 130 fuman, 150 son hombres y de estos 85 fuman. a) Elabora una tabla y determina el número de: Hombres. Mujeres. Fumadores. No fumadores. Hombres fumadores. Mujeres fumadoras. Hombres no fumadores. Mujeres no fumadoras. b) Determina las respectivas probabilidades. 5.- En una urna hay 1000 fichas: 150son rojas, 200 son blancas, 130 son azules, 60 son verdes, 350 son cafés y el resto son negras. Calcula la probabilidad de cada uno de los siguientes eventos si extraes de la urna una ficha al azar: Ficha azul____________________ Ficha blanca o negra____________ Ficha negra, café o roja__________ Ficha negra____________________ Ficha no café__________________ 6.- Se lanzan tres dados. Determine todos los resultados posibles del espacio muestral. Se tienen los siguientes eventos, determina sus elementos y su probabilidad, diciendo si son mutuamente excluyentes o dependientes. A: Salga uno en el primer dado. B: Salga uno en el segundo dado. C: La suma de los tres dados sea mayor a ocho
UNIDAD III. DISTRIBUCIONES DE PROBABILIDAD OBJETIVO Al término de la unidad el alumno será capaz de: Utilizar las distribuciones de probabilidad discreta y continua en la resolución de problemas de aplicación.
3.1 Distribuciones de probabilidad discretas. Variable aleatoria Función numérica que asocia un número real a cada elemento del espacio muestral en un experimento de probabilidad. Comúnmente se representa con la letra x. Las variables aleatorias se dividen en discretas y continuas.
Discreta Variable que puede asumir una cantidad finita. Ejemplos Se lanzan cuatro monedas y se observa “el número de soles” Sea la variable aleatoria x=0, 1, 2, 3, 4 Puntaje de un equipo de béisbol. Número de llamadas telefónicas recibidas en un día.
Continuas Variable cuantitativa que puede tomar una cantidad innumerable de valores a lo largo de un intervalo. Ejemplos Estatura de un individuo. Tiempo de espera al realizar un trámite. Velocidad de un móvil. Distribución de probabilidad La distribución de probabilidad asocia cada uno de los valores que toma una variable aleatoria con su respectiva probabilidad. Comúnmente se usa un formato de tabla para luego representarla en una gráfica.
Función de probabilidad La función de probabilidad es una relación entre la variable aleatoria y la probabilidad, en donde la probabilidad esta en función de los elementos que tome la variable aleatoria. Ejemplo El lanzamiento de dos monedas. Variable aleatoria: cantidad de soles.
x a, aa, s s, a s, s
Se calcula las probabilidades APRA los
elementos de la variable. Se calculan las probabilidades para los elementos de la variable.
P x 0
1
4
Porque de cuatro posibles resultados solo uno presenta que no
haya ningún sol.
1 Porque hay dos eventos en los cuales se tienen dos eventos que
P x 1
2
contienen un sol.
P x 2
1 Porque solo un evento tiene dos soles. 4
La distribución de probabilidad P(x), para x=0, 1, 2
x 0 1 2 Total
P(x) 1 4 1 2 1 4
1
Distribución de probabilidad discreta La distribución de probabilidad discreta asocia a cada uno de los valores que toma una variable discreta con su respectiva probabilidad.
3.1.1 Experimentos Bernoulli Es un experimento que puede arrojar dos resultados posibles. A uno de los resultados se le denomina arbitrariamente “éxito” y al otro “fracaso”. El
experimento de Bernoulli lleva asociada una probabilidad (La probabilidad de “éxito”)
Como ejemplo, si voy a tirar un dado y lo que voy a observar es que salga un o no salga un cinco, entonces esto puede ser visto como el experimento de Bernoulli que consta de: Éxito: que salga un cinco. Fracaso: que no salga un cinco. Probabilidad de éxito: p=
1 6
Probabilidad de fracaso: 1-p = 1-
1 6
5 6
Como se puede observar solo son posibles dos resultados: éxito o fracaso. Si la probabilidad de éxito es p y la de fracaso una función de probabilidad: P ( x) p x (1 p)1 x
1 - p ,
podemos construir
x 0,1
Un típico experimento de Bernoulli es el lanzamiento de una moneda con probabilidad p para cara y (1-p) para cruz. Podemos definir una variable aleatoria discreta x tal que: éxito 1 fracaso 0
3.1.2 Distribución Binomial La distribución BINOMIAL se cita con frecuentemente como distribución de Bernoulli en honor al matemático suizo Jacobo Bernoulli, quien la dedujo a finales del siglo XVIII.
Un experimento aleatorio se llama binomial o de Bernoulli si cumple las condiciones que se señalan enseguida: 1.- El experimento consta de un número finito de ensayos independientes. (n) 2.- Cada ensayo sólo tiene dos resultados: éxito o fracaso. 3.- La probabilidad de éxito en un ensayo se simboliza con p y la de fracaso con q, donde p+q=1; estas probabilidades se mantienen constantes en cada ensayo. Así, la probabilidad de “x” éxitos es “n” ensayos es:
P x n C x p
x
q , para x 0,1,2,3...n n x
EJEMPLO 1 En el nacimiento de un ser humano, éste puede ser niño o niña sin que sea necesario señalar cuál es considerado éxito o fracaso. RESPUESTA La probabilidad de éxito se expresa P (E)= p y la de un fracaso P (F)= 1 – p= q Si p es la probabilidad de que ocurra un evento en un ensayo llamado probabilidad de éxito y q= 1 – p es la probabilidad de que el evento no ocurra en un ensayo y lo consideramos como probabilidad de fracaso, entonces la probabilidad de que el evento se presente exactamente x veces en n ensayos se obtiene con la relación:
P x n C x p
x
q n x
n! x!(n x)!
x
p q
n x
A esta relación se le llama distribución binomial porque para x=0, 1, 2, 3…, n
las expresiones n C x corresponden a términos sucesivos de la relación n
(q+p)n = nC0q
+ nC1qn-1p + nC2qn-2p2 +… nCnqnpn
Donde n C 0, n C 1, n C 2 son los coeficientes binomiales y q y p los parámetros.
EJEMPLO 2 Hallar el valor de (a) 5!, (b)
6! 2! 4!
, (c) 8C3, (d) 7C5, (e) 4C4, (f) 4C0
Solución: (a) 5!= 5 4 3 2 1 120 6!
(b)
2!4!
(c) 8 C 3
3!(8 3)!
7
C 5
(e)
4
C 4
C 0
4
7! 5!(5)!
4!(4 4)! 0!(4 0)!
3!5!
5!2!
4!
4!
8!
7!
6·5
(2·1)(4·3·2·1) 8!
(d)
(f)
6·5·4·3·2·1
2·1
(3·2·1)(5·4·3·2·1)
(5·4·3·2·1)(2·1)
4! 4!0!
0!4!
8·7·6·5·4·3·2·1
7·6·5·4·3·2·1
4!
15
8·7·6 3·2·1
7·6 2·1
56
21
1 Recuerda que 0! = 1
1
EJEMPLO 3 Hallar la probabilidad de que en cinco lanzamientos de un dado 3 aparezca (a) ninguna vez, (b) una vez (c) dos veces, (d) dos veces, (e) cuatro veces, (f) cinco veces. Solución: La probabilidad de 3 en una sola tirada es igual a p=
1 6 1
5
6
6
La probabilidad de no 3 en una sola tirada es igual a q=1-p; 1- = entonces 0
5
5
1 5 5 3125 (a) P(3 ocurre cero veces)= 5 C 0 (1)(1) 6 6 6 7776
1
4
4
1 5 1 5 3125 (b) P(3 ocurre una vez)= 5 C 1 (5) 6 6 6 6 7776 2
3
1 5 1 125 625 (c) P(3 ocurre dos veces)= 5 C 2 (10) 6 6 36 216 3888 3
2
1 5 1 25 125 (d) P(3 ocurre tres veces)= 5 C 3 (10) 6 6 213 36 3888 4
1
1 5 1 5 25 (e) P(3 ocurre cuatro veces)= 5 C 4 (5) 6 6 1296 6 7776 5
0
1 5 1 (1) 1 (f) P(3 ocurre cinco veces)= 5 C 5 (1) 7776 6 6 7776
EJEMPLO 4
Calcula la probabilidad de obtener exactamente dos caras en ocho lanzamientos de moneda.
SOLUCIÓN Sustituimos en
P x n C x p
x
q
n!
n x
x
x!(n x)!
p q
n x
1
Donde n= 8 y x= 2 y q=p= , ya que la probabilidad de que caiga cara es 2
1 2
, igual que la de obtener cruz.
2
1 1 P x 8 C 2 2 2
28 256
8 2
2
1 1 2!(8 2)! 2 2 8!
8 2
0.1093
EJEMPLO 5 El 60% del personal de una empresa está sindicalizado. Se toma una muestra al azar de 10 obreros para determinar: a) La probabilidad de encontrar siete empleados sindicalizados. n=10; x=7; p=0.60; q=0.40 RESPUESTA
P x
10 C 7
0.60 0.40 7
107
10! 7!(10 7)!
0.60 0.40 7
10 7
b) La probabilidad de que algún empleado de la muestra de 10 no esté sindicalizado.
RESPUESTA
1-(10C0 (0.40)0(0.60)10)= 0.9939 c) La probabilidad de hallar más de 2 empleados sindicalizados. P(x>2)=1 – (P(0)+P(1)P(2)) P(0)= (10C0(0.60)0(0.40)10)=0 .0001048 P(1)= (10C1(0.601)1(0.40)9) = 0.001573 P(2)= (10C2(0.601)2(0.40)8) = 0.01616 RESPUESTA P(x>2)= 1- 0.0122946=0.9877 d) La probabilidad de encontrar entre tres y cinco empleados sindicalizados. P(3)= (10C3(0.601)3(0.40)7) = 0.042467 P(4)= (10C4(0.601)4(0.40)6) = 0.111477 P(5)= (10C5(0.601)5(0.40)5) = 0.200658 RESPUESTA P( 3 x 5 )= 0.042467+0.111477+0.1200658= 0.3546
EJEMPLO 6 Si el 20% de los cerrojos producidos por un a máquina son defectuosos, determina la probabilidad de que 4 cerrojos elegidos al azar (a) 1, (b) 0, (c) a lo mas 2 cerrojos sean defectuosos SOLUCIÓN (a) P(1 cerrojo defectuoso de los cuatro) = 4C1(0.2)1 (0.8)3 = 0.4096 (b) P(0 cerrojos defectuoso) = 4C0(0.2)0 (0.8)4 = 0.4096 (c) P(2 cerrojo defectuoso) = 4C2(0.2)2 (0.8)2 = 0.1536 Entonces: P(a lo menos 2 cerrojo defectuoso) = P(cero defectos)+P( un cerrojo defectuoso)+P(dos cerrojos defectuosos) P(a lo menos 2 cerrojo defectuoso) =0.4096+0.4096+0.1536+0.9728=0.9728
3.1.3 Distribución Poisson Es una distribución de probabilidad discreta que se utiliza para describir las probabilidades con respecto a un intervalo continuo de tiempo o espacio. Está dada por al fórmula: x
P ( x )
e
x!
Donde: e 2.71828... Número
de Euler y = es el parámetro que determina el valor
de esta distribución. La distribución de Poisson se utiliza cuando la muestra (n) es muy grande y la probabilidad (p) es un número muy pequeño. (Ruiz 2007) La distribución de Bernoulli, de Poisson y la normal es muy útil su aplicación ya que es la base en la industria en el control de calidad, en biología APRA determinar la eficiencia de un medicamento o el control del crecimiento de bacterias en un medio de cultivo en física para calcular el número de partículas radioactivas emitidas por una sustancia, en una institución de seguros para verificar el número de accidentes, etc.
EJEMPLO 1
072 e x
Una distribución de Poisson es dada por P(x) = (b) p (1), (c) p (2), (d) p (3). SOLUCIÓN:
0.72 e (a) p (0)= 0
0!
1.72
1e
0.72
1
e 0.72 0.4868
x!
0.72
Hallar (a) p (0),
0.72 e (b) p (1)= 1
1.72
1!
0.72 e (c) p (2)= 2
1.72
2!
0.72e 0.72 1
0.3505
(0.5184)e 0.72 2
(0.2592)(0.4868) 0.1262
EJEMPLO 2 Cada 10 minutos la cajera de un banco atiende, en promedio, 4.5 clientes. Calcula al probabilidad de que atienda a solo dos clientes en los siguientes 10 minutos.
=4.5
x=2, sustituimos: P ( x)
(4.5) 2 e 4.5 2!
(4.5) 2 2!e 4.5
0.1124
EJEMPLO 3 A la caja de un almacén llegan a pagar un promedio, de siete clientes por hora. Calcula la probabilidad de que en una hora dada llegue a la caja un máximo de tres clientes.
= 7 x= 0, 1, 2, 3 P ( x 0)
P ( x
1)
P ( x 2)
(7) 0 e 7 0!
( 7 )1 e 7 1! (7) 2 e 7 2!
(7) 0 0!e 7
( 7 )1 1!e 7
(7 ) 2 2!e 7
0.000911
0.00638 0.02234
P ( x 3)
(7) 3 e 7 3!
(7 ) 3 3!e 7
0.052078
P(x=3)= 0.000911+0.00638+0.02234+0.052078=0.0818
Algunas propiedades de la distribución de Poisson Media Varianza Desviación típica
x
2
EJERCICIOS 10! 1.- Hallar el valor de (a) 7!, (b) , (c) 11C5, (d) 6C1 6!4!
2.- Hallar al probabilidad de que lanzando una moneda 6 veces aparezcan (a) 0, (b) 1, (c) 2, (d) 3, (e)4, (f) 5, (g) 6 caras. 3.- El Número de automóviles que llega a un estacionamiento es de ocho cada hora. Calcula la probabilidad de que en un periodo de 10 minutos lleguen al estacionamiento más de dos automóviles. 4.- Si la probabilidad de que en niño tenga una reacción por una vacuna es de 0.001, determina al probabilidad de que tres niños, de un total de 200, sufran una reacción. 5.- Hallar la probabilidad de obtener un total de 11 (a) de una vez, (b) Dos veces en dos lanzamientos de un par de dados.
6.- El 3% de las bombillas fabricadas por una compañía son defectuosas, hallar la probabilidad de que en una muestra de 100 bombillas (a) 0, (b) 1, (c) 2, (d) 3, (e)4, (f) 5 sean defectuosas. 7.- Del problema anterior, hallar la probabilidad de que (a) más de 5, (b) entre 1 y 3, (c) 2 bombillas o menos sean defectuosas.
3.1.4 Distribución Hipergeométrica
Al considerar una población de N elementos, dividida en dos clases absolutas formadas por A y B puntos muestrales, respectivamente. Considerados los elementos de la primera clase como “éxitos” y los de la seg unda como “fracasos” y sea la variable aleatoria X con el número de éxitos o puntos de la
primera clase obtenidos al realizar n pruebas o extracciones sin reemplazo se utiliza una distribución Hipergeométrica. Consideremos una población con N elementos, de los cuales, A son éxitos (es decir, tienen una determinada característica). La distribución Hipergeométrica es la distribución de la variable aleatoria X= número de éxitos obtenidos en n observaciones al azar de la población, sin reemplazo. (De la Horra Navarro) Recordando que para obtener la probabilidad de un espacio muestral de algún N experimento viene dado por casos posibles, que son las formas en que un n
subconjunto de n objetos se puede seleccionar partiendo de un conjunto de N objetos, además, las x partes defectuosas se pueden seleccionar de las “a” partes defectuosas de
a x
maneras, las n-x unidades no defectuosas de la
muestra se pueden seleccionar, a su vez, de las N-a unidades no defectuosas N a del lote, de maneras. Por lo tanto para x=0, 1, 2,…, n (Miller, 2004)
n x
a N a x n x H(x; n, a, N)= llamada distribución Hipergeométrica. N n
Características: Al realizar un experimento con este tipo de distribución, se esperan más de dos tipos de resultados. Las probabilidades asociadas a cada uno de estos resultados no son constantes. Los ensayos o repeticiones del experimento no son independientes entre sí. El número de repeticiones del experimento n, es constante. Entonces en este caso se tienen más de dos tipos de objetos, por lo que la fórmula a utilizar sería: a N a x n x P (x; n, a, N)= N n
Donde: N = x + y + z = total de objetos a = total de objetos del primer tipo b = total de objetos del segundo tipo c = N-a-b = total de objetos del tercer tipo n = objetos seleccionados en la muestra
x = objetos del primer tipo en la muestra y = objetos del segundo tipo en la muestra z = n-x-y = objetos del tercer tipo en la muestra
Para mejor comprensión, consideremos el siguiente ejemplo: Tenemos una baraja española (N =40 naipes ), de las cuales nos vamos a interesar en el de oros (D =10 naipes de un mismo tipo). Supongamos que de esa baraja extraemos n =8 cartas de una vez (sin reemplazamiento) y se nos plantea calcular la probabilidad de que hayan a =2 oros (exactamente) en esa extracción. La respuesta a este problema es
P (2 oros de un grupo de 8 cartas )
casos favorables casos posibles
2 naipes P (2 oros de un grupo de 8 cartas )
6 naipes
de entre los oros de otro tipo 8 naipes cualquiera
10 30 2 6 P (2 oros de un grupo de 8 cartas ) 40 8
Resultado Ejemplo1 Calcular la probabilidad de obtener dos unidades defectuosas en una muestra de tamaño diez, tomadas sin reemplazo de un lote de 20 unidades que contiene 5 defectuosas. Sustituyendo x=2. n= 10, a= 5 y N=20, obtenemos:
5 15 10.6435 P (2; 10, 5,20)= 2 8 0.348 20
184750
10
Ejemplo 2 Si tenemos un conjunto de 10 elementos, formado por 6 elementos del tipo "hombre" y 10-6=4 elementos del tipo "mujer". La probabilidad de que, escogiendo 5 de las 10 personas, haya 3 elementos del tipo "hombre" es: a N a x n x P (x; n, a, N)= N n
6 10 6 3 5 3 10 0.4762 P (x; n, a, N)= 10
21
5
1.-.En un lote de productos se tiene 20 productos sin defectos, 3 con defectos menores y 2 con defectos mayores, se seleccionan al azar 5 productos de este lote, determine la probabilidad de que: a) 3 de los productos seleccionados no tengan defectos y 1 tenga defectos menores, b) 4 de los productos seleccionados no tengan defectos y 1 tenga defectos menores. Solución: a) N= 20+3+2 =25 total de artículos
a=20 productos sin defectos b= 3 productos con defectos menores N-a-b= 2 productos con defectos mayores n= 5 productos seleccionados en la muestra x = 3 productos sin defectos en la muestra = variable que nos define el # de productos sin defectos en la muestra y = 1 producto con defectos menores en la muestra = variable que nos define el # de productos con defectos menores en la muestra z = n-x-y = 5 –3−1 = 1 producto con defectos mayores en la muestra = variable que nos define el # de productos con defectos mayores en la muestra b) N= 25 a=20 productos sin defectos b= 3 productos con defectos menores N-a-b= 2 productos con defectos mayores n= 5 productos seleccionados en la muestra x = 4 productos sin defectos en la muestra = variable que nos define el # de productos sin defectos en la muestra y = 1 producto con defectos menores en la muestra = variable que nos define el # de productos con defectos menores en la muestra z = n-x-y = 5 –4−1 = 0 productos con defectos mayores en la muestra = variable que nos define el # de productos con defectos mayores en la muestra 3. Un club de estudiantes extranjeros tiene en sus listas a 2 canadienses, 3 japoneses, 5 italianos y 2 alemanes. Si se selecciona aleatoriamente un comité de 4 estudiantes, encuentre la probabilidad de que: a) estén representadas todas las nacionalidades, b) estén representadas todas las nacionalidades, excepto la italiana.
Solución: a) N = 12 estudiantes a = 2 Canadienses b = 3 Japoneses c = 5 Italianos N-a-b-c = 2 Alemanes n = 4 estudiantes seleccionados para formar comité x = 1 estudiante Canadiense en el comité seleccionado y = 1 estudiante Japonés en el comité seleccionado z = 1 estudiante Italiano en el comité seleccionado n – x – y - z = 1 estudiante Alemán en el comité seleccionado b) N = 7 estudiantes quitando a los Italianos a = 2 Canadienses b = 3 Japoneses N-a-b = 2 Alemanes n = 4 estudiantes seleccionados para formar comité x = 1 o 2 estudiantes Canadienses en el comité seleccionado y = 1 o 2 estudiantes Japoneses en el comité seleccionado n-x-y= 1 o 2 estudiantes Alemanes en el comité seleccionado p(estén representadas todas las nacionalidades, excepto la italiana) Ejemplo
Observación Cuando el tamaño de la población (N ) es muy grande, la distribución Hipergeométrica tiende a aproximarse a la binomial: N P (x; n, a, N)= Bn, p
El valor esperado de la Hipergeométrica es el mismo que el de la binomial, E X
np
Sin embargo su varianza V X
npq
N n N 1
No es exactamente la de la binomial, pues está corregida por un factor
N n N 1
que tiende a 1 cuando . A este factor se le denomina factor de corrección para población finita
EJERCICIOS 1.-En una jaula hay 30 pericos rusos y 20 pericos chinos si extraemos 10 pericos al azar calcular posibilidad de que 3 de ellos hablen chino (característica deseada).
2.- De los 20 hombres y 18 mujeres del salón el 50% réprobo el examen de estadística, si tomamos 10 alumnos al azar cual es la probabilidad a) 4 alumnos reprobados y b) 3 mujeres reprobadas
3.-De 60 aspirantes de la UABC 40 son de Baja California, si seleccionamos 20 aspirantes al azar ¿calcular la probabilidad de que 10 sean de Baja California?
3.2 Distribuciones de probabilidad continua
Recordemos que una variable aleatoria continua es aquella que puede tomar cualquier valor en un intervalo específico, esto significa que entre cualquier valor que pueda tomar la variable aleatoria continua, hay un número infinito de valores. Tipos de distribuciones de probabilidad. Las distribuciones de probabilidad se clasifican como continuas y discretas. En la distribución de probabilidad discreta la variable obtiene un número limitado de valores. En una distribución de probabilidad continua, la variable obtiene cualquier valor dentro de un intervalo dado. Las distribuciones continuas son una forma eficaz de presentar distribuciones discretas que tienen muchos resultados posibles, todos muy cercanos entre sí.
3.2.1 Variables tipificadas o estandarizadas. Cuando se habla de una variable de inmediato la relacionamos con aquella que puede tomar cualquier valor de un universo dado, cuando tenemos algún universo de lo contrario, ese valor puede ser infinito. Cuando esa variable se encuentra dispersa en un intervalo o universo, obtenemos el valor medio (la
media) para tratar de evitar esa dispersión, cuando hablamos de variable normalizada o tipificada es cuando se esta refiriendo a las desviaciones de la media con referencia a la desviación típica. Cada fenómeno que se mide tiene diferentes valores y se calcula su promedio (media) que es el punto de equilibrio de los valores, después se calcula la desviación que depende de los valores la dispersión respecto al punto de equilibrio. Utilizar una tabla para realizar esto, como la tablas z(0,1) que contiene una distribución normal con media 0 y desviación 1, para cualquier fenómeno estandarizado hace fácil la medición de su probabilidad . Algunos ejemplos de variables asociadas a fenómenos naturales que siguen el modelo de la normal son:
Caracteres morfológicos de individuos como la estatura; Caracteres fisiológicos como el efecto de un fármaco; Caracteres sociológicos como el consumo de cierto producto por un mismo grupo de individuos; Caracteres psicológicos como el cociente intelectual; Nivel de ruido en telecomunicaciones; Errores cometidos al medir ciertas magnitudes; Es la distribución a la que se aproximan la mayoría de los fenómenos físicos, Químicos, Biológicos Se ha tomado como base en la inferencia estadística paramétrica Otras distribuciones bajo ciertas circunstancias se pueden aproximar a la normal Es la base para definir otras distribuciones de importancia tales como la Chi cuadrada, t de Student y F. de Fisher
3.2.2 Propiedades de la distribución normal. Uno de los ejemplos mas importantes de una probabilidad continua es la distribución normal o curva normal. En el campo de la estadística, la distribución normal es la mas importante de las distribuciones de frecuencias, ya que la mayoría de los procedimientos estadísticos se basan en ella. Es uno de los modelos continuos con mayores aplicaciones. Su representación gráfica tiene forma de campana, su función de probabilidad es:
f ( x)
1 2
x
e
Para toda x real
(Debido a la intervención del matemático Karl Gauss (1777-1855) En el estudio de la distribución normal, algunos autores la denominan distribución gaussiana)
Distribución normal estándar La distribución normal estándar se emplea cuando la variable aleatoria x se expresa en términos de unidades estándar (z) .Esta unidad estándar se denomina “puntaje z” o “puntaje estándar” y se calcula con la fórmula
siguiente:
z
x
Donde:
Z= Número de desviaciones estándar que hay desde X a la media de la distribución.
X= Variable aleatoria =Desviación estándar de la distribución = Media de la distribución de la variable aleatoria. Para el cálculo de las probabilidades se distribución y la tabla normal.
emplean las propiedades de la
PROPIEDADES 1.- Es simétrica y tiene forma de campana. 2.- La media aritmética está a la mitad y divide el área en dos mitades. 3.- Teóricamente, la curva se extiende en ambas direcciones y tiende gradualmente a unirse con la recta horizontal hasta el infinito sin tocar nunca, es asíntota. La curva normal se acepta como modelo ideal de una situación real. Su uso y el de la tabla de áreas normales permiten obtener la probabilidad de un evento o suceso.
Observando la figura:
A.- El punto medio de la curva normal es la media aritmética
B.- La desviación estándar
X
Y es igual a cero. 0
S y
es igual a uno
1
El área total limitada por la curva y el eje de las abscisas es igual a uno (desviación estándar ) y equivale al 100% de los casos; de tal manera que la proporción del área bajo la curva limitada por dos ordenadas (perpendiculares) levantadas en puntos de eje de las abscisas, expresa el porcentaje de casos comprendidos entre las calificaciones z correspondientes a los dos puntos en que se trazaron.
CARACTERISTICAS DE LA DISTRIBUCION NORMAL Forma Tiene forma de campana que es simétrica con respecto a su centro. Esta curva tiene un solo pico, lo que nos indica que es unimodal. La media se encuentra en el centro de al curva cuando la población se encuentra distribuida normalmente. Por la simetría de la distribución normal de probabilidad la mediana y la moda se encuentran dentro del centro de la curva, por lo tanto la media, mediana y moda tienen el mismo valor. Los extremos de la distribución normal de probabilidad se extienden infinitamente y nunca tocan el eje horizontal.
3.2.3 Áreas bajo la curva normal El cálculo de las áreas bajo la curva normal de una función de densidad normal se obtiene la integral de dicha función, la solución a esta integral no es exacta por lo que su evaluación solo se puede obtener utilizando métodos aproximados. Se aplicó la propiedad de transformación que tiene una curva normal de transformarse en una curva normal estándar utilizando una nueva variable aleatoria normal estándar.
DISTRIBUCIÓN DE PROBABILIDAD NORMAL ESTÁNDAR
Áreas bajo la distribución de probabilidad Normal Estándar entre la media y valores positivos de Z
y ²=1
Tabla 1 Z
.00 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 1.1 1.2 1.3 1.4 1.5 1.6 1.7 1.8 1.9 2.0 2.1 2.2 2.3 2.4 2.5 2.6 2.7 2.8 2.9 3.0 3.1 3.2 3.3 3.4 3.5 3.6 3.7
0.00000 0.03983 0.07926 0.11791 0.15542 0.19146 0.22575 0.25804 0.28814 0.31594 0.34134 0.36433 0.38493 0.40320 0.41924 0.43319 0.44520 0.45543 0.46407 0.47128 0.47725 0.48214 0.48610 0.48928 0.49180 0.49379 0.49534 0.49653 0.49744 0.49813 0.49865 0.49903 0.49931 0.49952 0.49966 0.49977 0.49984 0.49989
.01
0.00399 0.04380 0.08317 0.12172 0.15910 0.19497 0.22907 0.26115 0.29103 0.31859 0.34375 0.36650 0.38686 0.40490 0.42073 0.43448 0.44630 0.45637 0.46485 0.47193 0.47778 0.48257 0.48645 0.48956 0.49202 0.49396 0.49547 0.49664 0.49752 0.49819 0.49869 0.49906 0.49934 0.49953 0.49968 0.49978 0.49985 0.49990
.02
0.00798 0.04776 0.08706 0.12552 0.16276 0.19847 0.23237 0.26424 0.29389 0.32121 0.34614 0.36864 0.38877 0.40658 0.42220 0.43574 0.44738 0.45728 0.46562 0.47257 0.47831 0.48300 0.48679 0.48983 0.49224 0.49413 0.49560 0.49674 0.49760 0.49825 0.49874 0.49910 0.49936 0.49955 0.49969 0.49978 0.49985 0.49990
.03
0.01197 0.05172 0.09095 0.12930 0.16640 0.20194 0.23565 0.26730 0.29673 0.32381 0.34849 0.37076 0.39065 0.40824 0.42364 0.43699 0.44845 0.45818 0.46638 0.47320 0.47882 0.48341 0.48713 0.49010 0.49245 0.49430 0.49573 0.49683 0.49767 0.49831 0.49878 0.49913 0.49938 0.49957 0.49970 0.49979 0.49986 0.49990
.04
0.01595 0.05567 0.09483 0.13307 0.17003 0.20540 0.23891 0.27035 0.29955 0.32639 0.35083 0.37286 0.39251 0.40988 0.42507 0.43822 0.44950 0.45907 0.46712 0.47381 0.47932 0.48382 0.48745 0.49036 0.49266 0.49446 0.49585 0.49693 0.49774 0.49836 0.49882 0.49916 0.49940 0.49958 0.49971 0.49980 0.49986 0.49991
.05
0.01994 0.05962 0.09871 0.13683 0.17364 0.20884 0.24215 0.27337 0.30234 0.32894 0.35314 0.37493 0.39435 0.41149 0.42647 0.43943 0.45053 0.45994 0.46784 0.47441 0.47982 0.48422 0.48778 0.49061 0.49286 0.49461 0.49598 0.49702 0.49781 0.49841 0.49886 0.49918 0.49942 0.49960 0.49972 0.49981 0.49987 0.49991
.06
0.02392 0.06356 0.10257 0.14058 0.17724 0.21226 0.24537 0.27637 0.30511 0.33147 0.35543 0.37698 0.39617 0.41308 0.42785 0.44062 0.45154 0.46080 0.46856 0.47500 0.48030 0.48461 0.48809 0.49086 0.49305 0.49477 0.49609 0.49711 0.49788 0.49846 0.49889 0.49921 0.49944 0.49961 0.49973 0.49981 0.49987 0.49992
.07
0.02790 0.06749 0.10642 0.14431 0.18082 0.21566 0.24857 0.27935 0.30785 0.33398 0.35769 0.37900 0.39796 0.41466 0.42922 0.44179 0.45254 0.46164 0.46926 0.47558 0.48077 0.48500 0.48840 0.49111 0.49324 0.49492 0.49621 0.49720 0.49795 0.49851 0.49893 0.49924 0.49946 0.49962 0.49974 0.49982 0.49988 0.49992
.08
0.03188 0.07142 0.11026 0.14803 0.18439 0.21904 0.25175 0.28230 0.31057 0.33646 0.35993 0.38100 0.39973 0.41621 0.43056 0.44295 0.45352 0.46246 0.46995 0.47615 0.48124 0.48537 0.48870 0.49134 0.49343 0.49506 0.49632 0.49728 0.49801 0.49856 0.49896 0.49926 0.49948 0.49964 0.49975 0.49983 0.49988 0.49992
.09
0.03586 0.07535 0.11409 0.15173 0.18793 0.22240 0.25490 0.28524 0.31327 0.33891 0.36214 0.38298 0.40147 0.41774 0.43189 0.44408 0.45449 0.46327 0.47062 0.47670 0.48169 0.48574 0.48899 0.49158 0.49361 0.49520 0.49643 0.49736 0.49807 0.49861 0.49900 0.49929 0.49950 0.49965 0.49976 0.49983 0.49989 0.49992
3.8 3.9 4.0
0.49993 0.49995 0.49997
0.49993 0.49995 0.49997
0.49993 0.49996 0.49997
0.49994 0.49996 0.49997
0.49994 0.49996 0.49997
0.49994 0.49996 0.49997
0.49994 0.49996 0.49998
0.49995 0.49996 0.49998
0.49995 0.49997 0.49998
0.49995 0.49997 0.49998
Para el uso de la tabla, Z debe registrarse hasta con dos decimales, por ejemplo, Z= 0.2, para leer la probabilidad bajo la curva desde la media hasta Z=0.2. En la tabla nos situamos en la columna Z, la recorremos hacia abajo hasta encontrar el valor 0.2, después interceptamos hasta el valor que complete perfectamente Z, en este caso como solo es 0.2 se considera las siguientes cifras como cero-cero, así que el valor que interceptamos será a .00 y encontramos que el valor de la probabilidad es 0.07926, como se muestra en la figura siguiente: Z
.00
0.0
0.00000 0.03983 0.07926
0.1 0.2
.01
.02
.03
.04
.05
.06
.07
.08
.09
0.00399 0.00798 0.01197 0.01595 0.01994 0.02392 0.02790 0.03188 0.03586 0.04380 0.04776 0.05172 0.05567 0.05962 0.06356 0.06749 0.07142 0.07535 0.08317 0.08706 0.09095 0.09483 0.09871 0.10257 0.10642 0.11026 0.11409
(Fuente: www.itchihuahuaii.edu.mx)
3.2.4 Problemas de Aplicación
EJEMPLO 1 En un examen de matemáticas la media fue 72 (calificación de 10 a 100) y la desviación típica de 15. Determinar las referencias tipificadas (tipificar las variables) de los estudiantes que obtuvieron puntuaciones de (a) 60, (b) 93 y (c) 72.
Observación: En lecciones pasadas se ha denotado la media como
X pero
algunos autores la denotan también como que fue utilizada para definir la formula para calcular “z” o tipificar una variable aleatoria.
Solución: En este ejercicio el autor nos esta dando a entender que tipifiquemos las variables que nos esta proponiendo. Tenemos como datos para los tres incisos que
X X
(a) z
(b) z
(c) z
X = 72 y la desviación por
X X
X X
60 72 15
= 15, solucionamos cada inciso:
0 . 8
93 72 15
1.4
72 72 15
0
EJEMPLO 2 Con referencia al ejercicio anterior, encuentra las correspondientes a las referencias tipificadas (a) -1 y (b) 1.6
puntuaciones
Solución: El ejercicio se refiere a encontrar “X” o la variable aleatoria la cual nos
originó las variables tipificadas de los incisos a y b, para lo cual necesitamos despejar X de la formula de Z teniendo como datos a z= -1 para el inciso a y
z= 1.6 del inciso b, además tenemos la
X
=72 y a =15, sustituimos en la
formula despejada: X X z resolviendo para cada inciso se tiene: (a) X X z 72
1 15 57
96
(b) X X z 72 1.6 15
EJEMPLO 3 Dos estudiantes fueron informados de que habían recibido referencias tipificadas de 0.8 y -0.4, respectivamente, en un examen de inglés. Si sus puntuaciones fueron de 88 y 64, respectivamente, hallar la media y la desviación típica de las puntuaciones.
Solución: En el ejercicio se nos pide calculas X para lo cual necesitamos la formula despejada como la del ejercicio anterior, de los dos incisos se formarán dos ecuaciones de primer grado por lo cual resolveremos por métodos algebraicos.
X X z (a)
88
X 0.8 ecuación
1
X X z (b)
64
X 0.4 ecuación
2
Resolviendo encontramos que X =72 y =20
EJEMPLO 4 Hallar el área bajo la curva normal en cada uno de los siguientes casos. Utilizar la tabla 1.
(a) Entre z=0 y z= 1.2 En dicha tabla de va hacia abajo en la columna encabezada por z hasta alcanzar el valor de 1.2. Entonces por esa fila hacia la derecha hasta la columna encabezada por 0.
El resultado 0.3849 es el área pedida y representa la probabilidad de que z este comprendida entre 0 y 1.2, denotado por: P 0 z 1.2
(b) Entre z=-0.68 y z=0
Por simetría, área pedida= área entre z=0 y z=0.68 Para hallar el área entre z=0 y z=0.68 se procede como en el anterior, de arriba hacia abajo en la columna encabezada por z hasta el valor 0.6. Entonces por esa fila hacia la derecha hasta la columna encabezada por 8. El resultado 0.2518 es el área pedida y representa la probabilidad que z esté entre -0.68 y 0, denotado por P 0.68 z 0
c) Entre z=-0.46 y z=2.21 Área pedida = (área pedida entre z=-0.46 y z=0) + (área entre z=0 y z=2.21) Área pedida = (área pedida entre z=0 y z=0.46) + (área entre z=0 y z=2.21) Área pedida = 0.1772 + 0.4864 Área pedida = 0.6636
d) Entre z=0.81 y z= 1.94 Área pedida = (área pedida entre z=0 y z=1.94) - (área entre z=0 y z=0.81) Área pedida = 0.4738 – 0.2910 Área pedida = 0.1828
EJEMPLO 5 La media de los pesos de 500 estudiantes de un cierto colegio es de 151 libras y la desviación típica 15 libras. Suponiendo que los pesos se distribuyen normalmente, hallar cuántos estudiantes pesan (a) entre 120 y 155 libras, (b) mas de 185 libras. Solución: (a) Los pesos registrados entre 120 y 155 libras pueden realmente tener cualquier valor entre 119.5 y 155.5, suponiendo toman con aproximación de 1 libra. Tipificamos las variables: 119.5 151 119.5 en unidades tipificadas es igual 2.10 15
155.5 en unidades tipificadas es igual
155.5 151 15
0.30
Proporción de estudiantes pedida: Área pedida = (área pedida entre z=-2.10 y z=0.30) Área pedida = (área pedida entre z=-2.10 y z=0) + (área entre z=0 y z=0.30) Área pedida = 0.4821 + 0.1179 Área pedida = 0.6000 Entonces el número de estudiantes que pesa mas de 120 y 155 libras= 500(0.6000) = 300 (b) Los estudiantes que pesan mas de 185 libras deben pesar al menos 185.5 libras. 185.5 151 185.5 lb. En unidades tipificadas= 2.30 Porción de estudiantes pedida:
15
Área pedida = (área a la derecha de z=2.30)
Área pedida = (área a la derecha de z=0) - (área entre z=0 y z=2.30) Área pedida =0.5 – 0.4893 Área pedida =0.0107 El número de estudiantes que pesan mas de de 185 libras será 500(0.0107)=5
EJEMPLO 6 El coeficiente intelectual de los aspirantes aprobados para ingresar a la Escuela Médico Militar tiene una media aritmética de 100 y una desviación estándar de 10. Calcula cuál es la proporción de reclutas que tienen un coeficiente intelectual entre 100 y 107 en términos de la calificación estándar z Solución
z
X X S
o también
z
x
z
107 100 10
7 10
0.70
La desviación típica es de 0.70. A continuación buscamos en la tabla de áreas normales y obtenemos 0.2580, donde la proporción que nos interesa la obtenemos así: 0.5000 - 0.2580 = 0.2420 Interpretamos: 0.2420 = 24.20% El 24.20% de los alumnos tienen un coeficiente intelectual entre 100 y 107. Para expresar el resultado anterior, en términos de enunciado de probabilidad, expresamos:
z
x
z
107 100 10
7 10
0.70 que podemos expresar
x 100 107 100 Probabilidad P x 107 = 10 10
P z 0.70 0.2580
EJERCICIOS 1.- En una distribución normal con z= 22.5, calcula: p (X ≥ 25), P (15 ≤ X ≤ 20), p (17 ≤ X ≤ 30).
≤
27), p (X
≥
27), p (X
2.- Los pesos de 60 soldados siguen una distribución normal donde z= 67.5. Calcula la probabilidad de que el peso sea: a) mayor de 80 Kg. b) 50 Kg. o menos c) menos de 60 Kg. d) 70 Kg. e) Entre 60 y 70 Kg.
3.- Calcular k si p (X ≤ k ) = 0.6141 y X sigue una distribución normal 15,4 4.- De una variable normal se sabe que p (X 0.8413. Calcular: a ) x y σ . b ) p (5.65
≤
X
≤
6.25)
c ) El número k tal que p (X >k ) = 0.3
≤
7) = 0.9772 y p (X
≤
6.5) =
5.- Una compañía que produce sobres sabe, por experiencia, que el peso de los sobres está distribuido normalmente. La media es de 1.95 gr. y su desviación es 0.05gr. En un paquete que contienen 200, ¿cuántos pesan dos gramos o más? 6.- La vida útil de un aparato electrodoméstico tiene una distribución aproximadamente normal, con una media de 3.5 años y una desviación de 1.5 años. El fabricante de esos aparatos desea reparar solamente el 10% en le periodo de garantía. Calcular cuál tendrá que ser este periodo de garantía.
UNIDAD IV REGRESIÓN LINEAL Y CORRELACIÓN SIMPLE OBJETIVO: Al término de la unidad el alumno será capaz de: Analizar la recta de mínimos cuadrados entre dos variables definidas y determinará su grado de correlación.
4.1 Regresión lineal simple La observación metódica de los fenómenos es la base del conocimiento y de la experiencia humana. Nuestro aprendizaje está fundamentado en el análisis de la tendencia u orientación que muestran las cosas que nos rodean. Por ejemplo, si se aplica un poco de fertilizante a un cultivo agrícola, lo mas seguro es que se observe un incremento en la producción. Si se continúa aplicando fertilizante, seguramente la producción seguirá aumentando.
El estudio de los datos del ejemplo anterior podría generar una tabla de datos como la que se presenta enseguida. Fertilizante (Kg./m2)
0
0.1 0.2 0.3 0.4
Producción (Ton/ha) 6.0 7.0 8.0 8.5 8.9 Si estos datos se presentan en una gráfica cartesiana, se tendría lo que se conoce como diagrama de dispersión, en el cual aparece la relación entre dos variables, en este caso la calidad de fertilizantes y el producto cosechado.
Como puede observarse, en el diagrama de dispersión existe una relación entre el fertilizante aplicado y el producto cosechado, así como también existe entre el presupuesto publicidad de una empresa y el monto de las ventas que genera,
o entre la presión barométrica del ambiente del ambiente y la probabilidad de que llueva, sin embargo hay relaciones que no existen, o que no tienen sentido, como la edad de una persona y el costo de un automóvil, o el número de llamadas de larga distancia en Argentina y la producción forestal de Canadá, por lo que es necesario identificar lógicamente las relaciones entre dos o mas variables.(Sánchez 2004) Haciendo un análisis de la regresión se tiene lo siguiente: En el diagrama de dispersión mostrado se observa cierta tendencia o relación entre los datos, es decir: Si se aplica fertilizante, se obtiene una mayor cosecha. Esta tendencia puede expresarse por medio de una línea recta deducida visualmente con base a los puntos del diagrama, tal como se presenta enseguida:
Con base en la línea de tendencia trazada, conocida formalmente como recta de regresión, es posible conocer aproximadamente, por medo de la gráfica, la cosecha esperada si se aplican cantidades de fertilizante que no se hayan experimentado, por ejemplo, 0.15 o 0.27 Kg./m 2. A este proceso se le conoce como interpolación (porque los valores deseados están dentro del intervalo de
valores conocidos, en este caso desde 0 hasta 0.4 Kg./m 2 de fertilizante aplicado). También es posible pronosticar en forma aproximada, por medio de la gráfica, la cosecha esperada si se aplican cantidades mayores (o entro caso menores) que los conocidos, por ejemplo 0.43 o 0.58 Kg./m2 a este proceso se le conoce como extrapolación. La extrapolación debe aplicarse cuidadosamente, pues es fácil suponer un comportamiento irreal de las variables estudiadas, sobre todo cuando no se consideran los límites de la s cosas. Por ejemplo, un exceso de fertilizante podría dañar las plantas e incluso provocar que se perdiera por completo la cosecha. En este ejemplo se puede ver que la relación entre fertilizante y producción puede representarse por medio de una recta pero sólo en un pequeño intervalo, pues en realidad la relación es mas bien en forma de una curva, tal como se aprecia en la figura:
Cuando solo se analizan dos variables para generar una recta de regresión se dice que se hace una regresión lineal simple. Por otra parte, considere que el fertilizante aplicado no es la única variable que afecta a la cosecha; también influyen la humedad la temperatura, el tipo de suelo y muchas otras. Cuando se
toman en cuenta más de dos variables, se dice que el análisis es de regresión múltiple
Sim le Lineal Múltiple
Regresión Simple No lineal Múltiple
Tal como se vio en los párrafos anteriores, la recta (o curva) de tendencia de un fenómeno estudiado puede obtenerse en forma gráfica con base a los datos obtenidos en el estudio, con la condición de que la recta (o curva) resultante quede tan cerca de todos los puntos como sea posible; sin embargo, la forma mas común de hacerlo es por medio de las fórmulas deducidas por Karl Friedrich Gauss (matemático alemán, 1777-1855), en un método conocido como de los mínimos cuadrados.(Sánchez 2004) que lo retomaremos en el tema 4.1.2
4.1.1 Gráficas de dispersión El significado de dispersión en matemáticas es el grado de distanciamiento de un conjunto de valores respecto a su valor medio. Una gráfica de dispersión es la representación de un conjunto de datos de una relación de dos variables en un plano cartesiano y hacer una comparación de la dispersión del conjunto de datos de una variable con respecto a la otra,
generalmente con la media de los puntos, lo cual nos indica como se distribuye la información. Un diagrama de dispersión se emplea cuando se tiene una variable en observación y determinar su comportamiento, si su cambio es significativo o es inapreciable. Ejemplos de gráficas de dispersión.
4.1.2 Recta de Mínimos Cuadrados
Para evitar el juicio individual en la construcción de restas, parábolas u otras curvas de aproximación, en un ajuste a colecciones de datos es necesario obtener una definición de la “mejor recta de ajuste” “mejor parábola de ajuste”
o cualquier curva que se trate. Para llegar a esta definición considérese la figura siguiente:
Los puntos que se representan dispersos en la gráfica se representan por pares ordenados (x1, y1), (x2, y2), (x3, y3)… (xn, yn), para un valor dado de x, como ejemplo x1 habrá una diferencia entre el valor de y1 y el correspondiente valor de la curva B y con respecto a la recta C. esta diferencia se le llama desviación, error o residuo y puede ser positivo, negativo o nulo,
analógicamente para los valores de x2, x3 … xn se obtiene desviaciones D2, D3, …Dn.
Una medida de “bondad de ajuste“ de la curva B o de “bondad de ajuste” a la recta C a los datos dados viene suministrada por la cantidad D21 +D22+… D2n Si esto es pequeño, el ajuste es bueno, si es grande, el ajuste es malo. A todas las curvas de aproximación a un conjunto de datos puntuales que cumplen la condición citada se le llama “la mejor curva de ajuste ” . La recta de aproximación por mínimos cuadrados del conjunto de los puntos (x1, y1), (x2, y2)…, (xn, yn) tiene la ecuación: y = a0 + a1 x donde las constantes a0 y a1 se determinan mediante las ecuaciones:
y a N a x 0
1
yx a x a x
Y
0
2
1
que son llamadas ecuaciones normales para la recta de mínimos cuadrados. Las constantes a0 y a1 pueden obtenerse resolviendo las ecuaciones simultáneas quedando las ecuaciones siguientes:
y x x xy N x x 2
a0
2
2
a1
xy x y N x x
N
2
2
Simplificando las ecuaciones para su fácil manejo se tiene y
xy 2 x x
x
xy 2 y y
De estas ecuaciones se deduce inmediatamente que la recta de mínimos cuadrados pasa por el punto (x, y), que es el centro de gravedad de los datos. El método de mínimos cuadrados es el más empleado para ajustar en una recta a un conjunto de datos que están dispersos.
4.1.3 Problemas.
1.- Ajustar una recta de mínimos cuadrados de los siguientes datos y calcular (a) x como variable independiente, y (b) x como variable dependiente.
Solución (a) La ecuación de la recta es y = a0 + a1 x y las normales son:
y a N a x 0
1
yx a x a x
Y
0
2
1
El trabajo abarca el cálculo de sumas que pueden ordenarse como lo indica la siguiente figura, aunque la última fila se utilizará para el inciso b
x
y
x2
xy
y2
1
1
1
1
1
3
2
9
6
4
4
4
16
16
16
6
4
36
24
16
8
5
64
40
25
9
7
81
63
49
11
8
121
88
64
14
9
196
126
81
x=56
y=40
x2=524
xy=364
y2=256
Puesto que hay 8 pares de valores de x e y, N= 8 y las ecuaciones normales son:
y x x xy 40 524 56 364 6 0.545 11 8 524 56 N x x 2
a0
2
2
2
a1
xy x y 8 364 56 40 7 0.636 8 524 56 11 N x x
N
2
2
2
Entonces y = a0 + a1 x;
y = 0.545 + 0.636x
Si se considera x como variable dependiente e y como variable independiente, la ecuación de la recta de mínimos cuadrados es x= b0 + b1y y las ecuaciones normales son: b0
x y y xy 56 256 40 364 0.5 8 256 40 N y y
b1
2
2
2
2
xy x y 8 364 56 40 1.50 8 256 40 N y y
N
2
2
2
La recta de mínimos cuadrados será x=b0 +b1 y;
x=-0.5+1.5y
2.- Los datos siguientes pertenecen a la altura y peso de los alumnos del sexto semestre de la preparatoria del estado extraídos al azar. Altura (pulg.) X Peso (Lib.)
y
70
63
72
60
66
70
74
65
62
67
65
68
155 150 180 135 156 168 178 160 132 145 139 152
Ajustar una recta de mínimos cuadrados (a) x la variable independiente, (b) x la variable dependiente.
Solución xy x , donde x X X E y Y Y Ahora aplicaremos la fórmula y 2 x
El trabajo necesario para el cálculo de sumas puede ordenarse como al siguiente tabla, de las primeras dos columnas se tiene y
1852 12
X
802 12
66.8 y
154.2
La última columna se ha añadido para utilizarla en el apartado (b). x X X y
Altura x
Peso y
70
155
3.2
63
150
72
Y Y
xy
x2
y2
0.8
2.56
10.24
0.64
-3.8
-4.2
15.96
14.44
17.64
180
5.2
25.8
134.16
27.04
665.64
60
135
-6.8
-19.2
130.56
46.24
368.64
66
156
-0.8
1.8
-1.44
0.64
3.24
70
168
3.2
13.8
44.16
10.24
190.44
74
178
7.2
23.8
171.36
51.84
566.44
65
160
-1.8
5.8
-10.44
3.24
33.64
62
132
-4.8
-22.2
106.56
23.04
492.84
67
145
0.2
-9.2
-1.84
0.04
84.64
65
139
-1.8
-15.2
27.36
3.24
231.04
68
152
1.2
-2.2
-2.64
1.44
4.84
X 802 Y 802 X 66.8
Y 154.2
xy 616.32 x
2
191.68
La recta de mínimos cuadrados pedida es: xy 616.32 y x 2 x 191.68 x 3.22 x Recta de regresión lineal de y sobre x
y
2
2659.68
xy 616.32 y y 0.232 y Recta de regresión lineal de x sobre y y 2 2659 . 68
x
3.- Determine, con base en los siguientes puntos, la ecuación de la recta de mejor ajuste y calcule con este valor de y para x=7, x=8 y x=9. x 1.5 3.3 4.8 6.5 7.5 7.0 8.0 9.0 y
7
18
20 23 30
?
?
?
Solución Otra forma de obtener la ecuación de la recta de ajuste es expresarla como la ecuación vista en geometría analítica y= mx +b Las variables m y b pueden obtenerse utilizando las siguientes fórmulas del método de mínimos cuadrados:
m
b
Número de datos suma( x y ) suma( x) suma( y ) número de datos suma( x) 2 suma( x) 2
suma( x) suma( y ) suma( x) suma( x y ) número de datos suma( x 2 ) suma( x) 2
xy x y N x x
N
2
2
x y x xy N x x 2
2
2
Sumas x
1.5
3.3
4.8
6.5
7.5
23.6
y
7
18
20
23
30
98
x2
2.25
10.89
23.04
42.25
56.25
134.68
x*y
10.5
59.4
96
149.5
225
540.4
m=
xy x y 5540.4 23.698 3.342 5134.68 23.6 N x x
N
2
2
2
x y x xy 134.6898 23.6540.4 b= 3.823 5134.68 23.6 N x x 2
2
2
2
Dado que y=mx + b, La ecuación de la recta es: y=3.342x +3.823, por tanto: y (7) = 3.342 (7) + 3.823 = 27.217 y (8) = 3.342 (8) + 3.823 = 30.559 y (9) = 3.342 (9) + 3.823 = 33.901 A continuación se presenta la graficación de los datos originales, así como la recta de ajuste y los puntos buscados, el primero de los cuales se obtiene por interpolación y los dos últimos por extrapolación.
Observe la diferencia entre los valores reales u observados y los que resultan al aplicar las rectas de ajuste.
4.-En una investigación sobre costos, los pares de valores de (x, y) son (3, 2), (5,4), (6,3), (7, 4), (8, 6), (9, 5), (11, 6), (12, 6.8), determina la recta de ajuste
y determina la ecuación de la recta por mínimos cuadrados que pase por los puntos A (3, 2) y B (12, 6.8) Solución
Como la recta debe pasar por los puntos A y B planteamos un sistema lineal con dos incógnitas. y = mx + b sustituimos los datos de los puntos A y B 2=3m +b (1) 6.8= 12m + b (2) formándose un sistema de ecuaciones lineales, las cuales resolveremos por suma y resta: 2=3m +b multiplicar (-4) 6.8= 12m + b -8= -12m – 4b 6.8= 12m + b -1.2 = -3b despejando b b=
1.2 3
0.4
Sustituimos en la ecuación 1 2=3m +b
2 = 3m+0.4 2 – 0.4 = 3m 3m = 1.6 b=
1.6 3
0.53
Sustituyendo los valores en la ecuación del recta y = 0.4 + 0.53x EJERCICIO 1.- Una maquiladora paga a sus proveedores por pieza terminada y entregada, según el cuadro siguiente: Pieza Pago Pieza Pago 10
50
32
160
15
75
35
175
20
100
38
190
25
125
45
225
Traza el diagrama de dispersión, la gráfica y expresa la ecuación correspondiente. 2.- Los trabajadores que laboran en las proveedoras de maquila piden al dueño tener la opción de cotizar en el seguro social, lo que hace necesario modificar las condiciones de pago. Las partes convienen pagar un sueldo base equivalente a un salario mínimo, que ascienda a 45 pesos y, sobre esta cantidad, continuar recibiendo 5 pesos por pieza entregada.
Pieza Pago Pieza Pago 10
95
32
205
15
120
35
220
20
145
38
235
25
170
45
270
Traza el diagrama de dispersión, la gráfica y expresa la ecuación correspondiente. 3.-Ajustar una recta de mínimos cuadrados a los datos de la tabla adjunta tomando (a) x como variable independiente.(b) x como variable dependiente. Representar los datos y las rectas de mínimos cuadrados en el mismo sistema de ejes coordenados. x 3 5 6 8 9 11 y 2 3 4 6 5 8
4.2 Correlación En ocasiones basándonos en los datos muestrales, se desea estimar el valor de una variable “y” correspondiente a un valor dado de una variable “x” . Esto puede conseguirse estimando el valor de “y” de la curva de mínimos cuadrados que ajusta a los datos muestrales. La línea resultante se llama de regresión de y sobre x, puesto que y se estima a partir de x. Si se desea estimar el valor de x a partir de uno dado de y, se utiliza la línea de regresión de x sobre y, que proviene de intercambiar las variables en el diagrama de dispersión de modo que x sea la variable dependiente e y al variable independiente. Esto equivale a sustituir las variaciones horizontales. (La cual será completamente diferente)(Murray 1970). Ejemplos de relación entre dos o más variables 1.- La que hay entre el tiempo que transcurre para que una persona se adapte a la obscuridad y la cantidad de azúcar en su sangre. 2.- Entre el peso de una persona, su edad y hábitos que lo hacen propenso a padecer una enfermedad. 3.- La que hay entre el aprovechamiento entre los alumnos de enseñanza media superior y el tipo de escuela en que cursaron sus estudios básicos.
4.- La medida de las circunferencias de los círculos que dependen de sus radios y que se han resuelto con la relación C= 2 r. Coeficientes de correlación Son medidas que expresan la situación relativa de un número de sucesos respecto a dos variables. Son números cuyo valor varía entre los límites +1 y -1 y su magnitud se refiere al grado de asociación entre las variables. Ejemplos
Como conclusión - El valor r=0 indica que no hay relación entre las variables. - Los valores +1 y -1 indican una relación perfecta (lineal) positiva o negativa.
Para investigar la correlación entre dos variables se usan los coeficientes de correlación, que permiten expresar cuantitativamente el grado de relación que hay entre dos variables; por ejemplo, al estudiar la relación que se presenta entre los pesos de las personas que dependen, en cierta forma, de sus alturas, donde la muestra de n personas daría las alturas x 1, x2,… xn y los pesos correspondientes y1, y2,…yn datos que a continuación expresamos en un sistema de coordenadas rectangulares con los puntos (x1, y1), (x2, y2)… (xn, yn). Al conjunto de puntos ubicados se le llama “diagrama de dispersión” Recuerda
que las variables pueden ser independientes o dependientes. En la expresión 3x+2y +4, las literales x y y son las variables. Si los valores de una variable, por ejemplo y, dependen de los de otra variable, por ejemplo x, y realizadas las operaciones que se indiquen, si a cada valor de x le corresponde uno o mas a y, decimos que hay una relación entre x y y, que x es la variable independiente y y la dependiente; aunque si decidimos despejar x, entonces y sería la variable independiente y x la variable dependiente. (Fuenlabrada 2008)
4.2.1 Coeficiente de correlación producto momento de Pearson. De acuerdo con Sprinthall ((1987), durante la segunda mitad del siglo XIX, el matemático inglés Karl Pearson se mostró impresionado con el hecho de que las personas variaran tan ampliamente en variables como el peso, la estatura, o el tiempo de reacción. Para ese entonces, Pearson era discípulo de Sir Francis Galton, considerado el padre del concepto de las diferencias individuales. Pearson pensó que sería muy útil que las características de los seres humanos pudieran expresarse en términos relativos en lugar de expresarse en términos de medición absolutos. Fue así como desarrolló el coeficiente de correlación conocido como r de Pearson. Este coeficiente de correlación es una denominación numérica para escribir la relación entre dos o más variables, aunque también puede usarse para hacer predicciones.
La correlación es un método estadístico que permite determinar la presencia o ausencia de asociación entre dos variables sometidas a investigación. Por ejemplo se puede medir el grado de asociación entre el rendimiento académico y el nivel socioeconómico de una muestra de unidades de observación. La correlación se describe por medio de índices estadísticos denominados coeficientes de correlación que pueden sugerir si el cambio de una variable se asocia con el cambio de la otra variable. Los índices mas utilizados para medir la asociación entre dos variables es el coeficiente de correlación producto-momento que se aplica a escalas de medición de intervalo o de razón y el coeficiente de correlación de rangos que se utiliza en escalas de medición ordinal. Al analizar la correlación de una serie de datos el resultado que arroja un coeficiente de correlación fluctúa entre – 1.00 y + 1.00. Una puntuación de – 1.00 sugiere una correlación negativa perfecta. Una puntuación de 0.00 sugiere ausencia de asociación entre las variables y una puntuación de + 1.00 sugiere una correlación positiva perfecta. Una correlación positiva perfecta indica que si una variable aumenta la otra también aumenta, por ejemplo cabe esperar que si el tipo de cambio peso-dólar aumenta el volumen de exportaciones del sector manufacturero del país también aumenta. En el caso de una correlación negativa perfecta ocurre el aumento de una variable y el decremento o disminución de la otra variable. Por ejemplo ante el aumento del tipo de cambio peso-dólar cabe esperar una disminución o decremento en el volumen de importaciones del país. Una adecuada técnica para leer e interpretar los valores de correlación son las gráficas de dispersión. Correlación Producto-Momento. La correlación producto-momento es conocida como r de Pearson en virtud de que el estadístico Karl Pearson desarrollo este procedimiento. Se define como la media de los productos de las puntuaciones Z y se expresa matemáticamente mediante la ecuación:
(Héctor Luis Ávila Baray 2006) z z r x
y
N
Podemos expresar, igualmente, el coeficiente de correlación de Pearson en puntuaciones centradas mediante la siguiente formula:
r
xy x y 2
2
4.2.2 Problemas
EJEMPLO 1 Determina EL COEFICIENTE r de correlación lineal del producto-momento si las coordenadas de (X, Y) son: (1.5, 1), (2, 2.3), (2.5, 1.5), (3, 3), (4, 3), (4, 3), (4, 4.3), (4.5, 4.2), (5, 5.2), (6, 5.3), (6, 7.3). Solución Diagrama de dispersión
Por el diagrama observamos que la correlación está cercana a 1 Tazamos un a recta con los puntos de coordenadas (1.5, 1) y (5, 5.2), Calculamos los valores necesarios para sustituir en la relación:
xy x y
r
2
2
Determinamos los valores de las medias aritméticas de X
Y
1.5 2 2.5 3 4 4 4.5 5 6 6 10
38.5 10
1 2.3 1.5 3 3 4.3 4.2 5.2 5.3 7.3 10
X
37.1
x2
10
3.71
x y y2
Y Y y
1.5
1.0
-2.35
-2.71
5.5
6.3
7.3
2.0
2.3
-1.85
-1.41
3.4
2.6
1.9
2.5
1.5
-1.35
-2.21
1.8
2.9
4.8
3.0
3.0
-0.85
-0.71
0.7
0.6
0.5
4.0
3.0
0.15
-0.71
0.0
0.1
0.5
4.0
4.3
0.15
0.59
0.1
0.0
0.3
4.5
4.2
0.65
0.49
0.4
0.3
0.2
5.0
5.2
1.15
1.49
1.3
1.7
2.2
6.0
5.3
2.15
1.59
4.6
3.4
2.5
6.0
7.3
2.15
3.59
4.6
7.7
12.8
23.3 25.6 33.0
Se tiene que N= 10, y
X 38.5 10
3.85
X X x
En los resultados se tomó una cifra decimal.
38.5
de Y :
Y
38.5 37.1
X
X y
3.85
x
2
y
2
22.3 33.0
Y
37.1 10
xy 25.6
3.71
Sustituimos: r
xy 25.6 x y 22.333.0 2
25.6
2
735.9
25.6 27.12
r= 0.94
EJEMPLO 2 La información estadística obtenida de una muestra de tamaño 12 sobre la relación existente entre la inversión hecha y el rendimiento obtenido en miles de pesos para explotaciones agropecuarias se muestra la tabla siguiente:
Inversión
11
Rendimiento 2
14
16
15
16
18
20
31
14
20
19
11
3
5
6
5
3
7
10
6
10
5
6
a) Calcula el coeficiente de correlación lineal, así como la recta de regresión.
x2
x y
11 - 17.08 = -6.08 2 - 5.6 = -3.6
36.96
21.88 12.96
3
14 - 17.08 = -3.08 3 - 5.6 = -2.6
9.48
8.0
6.76
16
5
16 - 17.08 = -1.08
5 - 5.6 = 0.6
1.16
-0.64
0.36
15
6
15 - 17.08 = -2.08
6 - 5.6 = 0.4
4.32
-0.832
0.16
16
5
16 - 17.08 = 1.08 5 - 5.6 = - 0.6
1.16
-0.648
0.36
18
3
18 - 17.08 = 0.92
3 - 5.6 = -2.6
0.846
-2.392
6.76
20
7
20 - 17.08 = 2.92
7 - 5.6 = 1.4
8.52
4.08
1.96
X
Y
11
2
14
X X x
Y Y y
y2
31 10 31 - 17.08 = 13.92 10 - 5.6 = 4.4 193.76 61.24 19.36 14
6
14 - 17.08 = -3.08
6 - 5.6 = 0.4
9.48
-1.232
0.16
20 10 20 - 17.08 = 2.92
10 - 5.6 = 4.4
8.52
24.87 19.36
19
5
19 - 17.08 = 1.92
5 - 5.6 = -0.6
3.68
-1.15
0.36
11
6
11 - 17.08 = -6.08
6 - 5.6 = 0.4
36.96
-2.43
0.16
205 68
X
Y
314.84 110.74 68.72
11 14 16 15 16 18 20 31 14 20 19 11 12
2 3 5 6 5 3 7 10 6 10 5 6 12
68 12
205 12
17.08
5.6
Se tiene que N= 12, y
x
2
X
Y
r
314.84 205 12 68 12
17.08
5.6
y
2
68.72
xy 110.74
xy 110.74 110.74 0.752 x y 314.8468.72 147.09 2
2
EJEMPLO 3 Una cadena de supermercados de prestigio de una comunidad al norte de los Ángeles California desea conocer la relación que existe entre el número de miembros de la familia y la cantidad de dólares al día gastada en alimentos, para ello selecciona 10 familias vecinas y se obtienen los siguientes datos:
Miembros De familia
6
3
5
6
3
4
4
5
3
6
Cantidad gastada 99 104 151 129 142 74 91 119 91 142
Determina el coeficiente de correlación entre las dos variables. X
Y
X X x
Y Y y
x2
x y
y2
6
99
6 - 4.5 = 1.5
99-114.2= -15.2
2.25
-22.8
231.04
3
104
3- 4.5 =-1.5 104-114.2 = -10.2 2.25
15.3
104.04
5
151
5-4.5 = 0.5
154-114.2 = 39.8 0.25
19.9
1584.04
6
129
6-4.5 =1.5
129-114.2 = 14.8 2.25
22.2
219.04
3
142
3-4.5 = -1.5
142-114.2 =27.8
2.25
-41.7
772.84
4
74
4-4.5 = -0.5
74-114.2 = -40.2 0.25
20.1
1616.04
4
91
4-4.5 = -0.5
91-114.2 = -23.2 0.25
11.6
538.24
5
119
5-4.5 = 0.5
119-114.2 = 4.8
0.25
2.4
23.04
3
91
3-4.5 = -1.5
91-114.2 =-23.3
2.25 34.95
6
142
6-4.5 =1.5
142-114.2 = 27.8 2.25
45 1142
41.7
772.84
14.5 103.65 6399.4
Se tiene que N= 10, y
x
2
14.5
X
Y
r
538.24
42 10
1142 10
4.5
114.2
y
2
6399.4
xy 103.65
xy 103.65 103. 65 0.3402 x y 14.56399.4 304.6 2
2
Se concluye que la relación entre el número de personas de una familia y la compra de alimentos no es muy grande (aplicando los criterios de Coeficientes de correlación)
EJEMPLO 4 El quipo directivo de un centro de educación Secundaria está interesado en conocer la relación que existe entre el número de horas semanales (X) que dedican los alumnos al estudio y las calificaciones medias (Y) de los mismos al final del trimestre. Eligiendo 11 alumnos al azar, han recogido para X e Y los datos que aparecen en las dos primeras columnas de la siguiente tabla. X
Y
X X x
Y Y y
x2
x y
y2
5
7
5 - 5.45= -0.45
7-6.54= 0.46
0.2025
-0.207
0.211
2
4
2 - 5.45= -3.45 4-6.54 = -2.54 11.902
8.763
6.45
4
5
4 - 5.45= -1.45 5-6.54 = -1.54
2.102
2.233
2.371
7
8
7 - 5.45 = 1.55
8-6.54 = 1.46
2.402
2.263
2.131
10 9
10 - 5.45 =4.55
9-6.54 = 2.46
20.702 11.193 6.051
4
6
4 - 5.45 = -1.45 6-6.54 = -0.54
2.102
0.783
0.291
8
9
8 - 5.45= 2.55
6.502
6.528
6.05
1
4
1 - 5.45 = -4.45 4-6.54 = -2.54 19.802 11.303
6.45
3
5
3 - 5.45= -2.45 5-6.54 = -1.54
6.002
3.773
2.371
6
7
6 - 5.45 = 0.55 6-6.54 = -0.54
0.302
-0.297
0.291
10 8 10 - 5.45 = 4.55 8-6.54 = 1.46
20.702
6.64
2.131
9-6.54 = 2.56
60 72
92.7225 52.975 34.798
Se tiene que N= 11, y
x
2
X
92 .7225 60 11
5.45
y
2
34.798
Y
r
72 11
6.54
xy 52.975
52.975 xy x y 92.722534.798 2
2
52.975 3226.55
0.9326
Se concluye que la relación entre el número de horas semanales y las calificaciones es muy grande (aplicando los criterios de Coeficientes de correlación) por lo tanto si hay una relación entre las horas dedicadas al estudio y las calificaciones trimestrales.
El diagrama de dispersión.
[
EJEMPLO 5 En un estudio sobre el rendimiento de los 20 alumnos de una aula de educación secundaria en la asignatura de matemáticas, se ha considerado las variables conocimientos previos (X) y calificaciones finales (Y). La primera de ellas fue
medida a partir de una prueba de conocimientos previos, administrada al iniciarse el curso, mientras que los valores para la segunda variable se obtuvieron directamente de las actas de evaluación de junio. 4 2
8 9
5 5
7 8
2 3
9 8
3 4
2 1
5 4
7 6
1 2
8 9
7 8
9 9
3 3
6 5
9 8
2 3
5 5 4 6
X Y
X
Y
X X x
Y Y y
x2
x y
4
2
-1.35
-3.35
1.8225
11.2225
4.5225
8
9
2.65
3.65
7.0225
13.3225
9.6725
5
5
-0.35
-0.35
0.1225
0.1225
0.1225
7
8
1.65
2.65
2.7225
7.0225
4.3725
2
3
-3.35
-2.35
11.2225
5.5225
7.8725
9
8
3.65
2.65
13.3225
7.0225
9.6725
3
4
-2.35
-1.35
5.5225
1.8225
3.1725
2
1
-3.35
-4.35
11.2225
18.9225
14.5725
5
4
-0.35
-1.35
0.1225
1.8225
0.4725
7
6
1.65
0.65
2.7225
0.4225
1.0725
1
2
-4.35
-3.35
18.9225
11.2225
14.5725
8
9
2.65
3.65
7.0225
13.3225
9.6725
7
8
1.65
2.65
2.7225
7.0225
4.3725
9
9
3.65
3.65
13.3225
13.3225
13.3225
3
3
-2.35
-2.35
5.5225
5.5225
5.5225
6
5
0.65
-0.35
0.4225
0.1225
-0.2275
9
8
3.65
2.65
13.3225
7.0225
9.6725
2
3
-3.35
-2.35
11.2225
5.5225
7.8725
5
4
-0.35
-1.35
0.1225
1.8225
0.4725
5
6
-0.35
0.65
0.1225
0.4225
-0.2275
128.55
132.55
107 107
y2
120.55
Se tiene que N= 20, y
x
128.55
2
X
Y
r
107 20
107 20
5.35
5.35
y
2
120.55
xy 132.55
xy 132.55 132.55 1.06 x y 128.55120.55 124.48 2
2
EJERCICIOS 1.- Determine el coeficiente de correlación r, para los siguientes 20 datos e interprete. X 9 2 6 4 6 3 10 2 7 2 6 7 7 5 6 4 5 9 6 1 5
Y
X X x 6 6 3 6 9 8 8 7 6 5 1 2 8 4 4 8 9 3 5 4 1
Y Y y
x2
x y
y2
2.- De los siguientes datos obtenidos de la resistencia eléctrica de dos modelos diferentes de fotoprotectores de la empresa Tran S. A., determine la correlación existente entre los 2 modelos. X
Y 4 9 2 8 3 3 9 6 7 2 4 3 6 5 5 6 8 8 1 9 8
X X x
Y Y y
x2
x y
y2
6 5 5 4 9 9 5 4 6 4 9 6 8 4 1 2 2 9 1 1 1
3.- Determine la relación entre las ventas de la compañía de autos A y las ventas de refacciones utilizadas para automóviles de la compañía A, interprete sus resultados. X
Y 2 3 1 6 7 1 3 8 5 2 6 6
X X x 3 5 4 5 7 3 1 3 5 2 4 8
Y Y y
x2
x y
y2