Ciencias Aplicadas
Estadística I
www.upds.edu.bo www.updsfacebook INDICE INDICE ..................................................................................................................................................1 IDENTIFICACIÓN.................................................................................................................................2 PLANIFICACIÓN DE LOS ENCUENTROS.........................................................................................2 PROGRAMA ANALITICO ....................................................................................................................3 ORIENTACIONES METODOLÓGICAS...............................................................................................9 2. Introducción. ..........................................................................................................................9 1.1. Objetivos Generales..........................................................................................................10 2. Desarrollo ..................................................................................................................................10 Primer encuentro........................................................................................................................10 Segundo encuentro ...............................................................................................................12 Tercer encuentro ...................................................................................................................13 Cuarto encuentro...................................................................................................................14 2.2. Bibliografía Comentada. ...................................................................................................15 2.3. Material Explicativo. ..........................................................................................................16 2.4.Ejemplificación....................................................................................................................16 2.5. Métodos a utilizar. .............................................................................................................16 3 . Conclusiones. .......................................................................................................................16 4. Glosario de términos técnicos. .............................................................................................17 TEXTO GUIA ......................................................................................................................................18 TEMA 1. INTRODUCCIÓN A LA ESTADÍSTICA .........................................................................18 1. ESTADÍSTICA DESCRIPTIVA. ...........................................................................................18 2. ESTADÍSTICA INFERENCIAL. ...........................................................................................18 3. POBLACIÓN.........................................................................................................................18 4. MUESTRA. ...........................................................................................................................19 5. MUESTREO. ........................................................................................................................19 6. VARIABLE. ...........................................................................................................................19 7. PARÁMETRO POBLACIÓNAL. ..........................................................................................20 8. ESTADÍGRAFO MUESTRAL. .............................................................................................20 9. FUENTES DE INFORMACIÓN ESTADÍSTICA. –...............................................................20 10. MEDIOS PARA RECOLECTAR LA INFORMACIÓN.......................................................21 11. ENCUESTA. .......................................................................................................................21 12. CENSO. ..............................................................................................................................21 13. CENSO NACIONAL DE POBLACIÓN Y VIVIENDA. .......................................................21 TEMA 2. DESCRIPCIÓN DE LA INFORMACIÓN MUESTRAL..............................................21 1. FRECUENCIA ABSOLUTA (ni). ..........................................................................................22 2. FRECUENCIA ABSOLUTA ACUMULADA MENOR QUE (Ni)..........................................23 3. FRECUENCIA ABSOLUTA ACUMULADA MAYOR QUE (Ni*).........................................25 4. FRECUENCIA RELATIVA PORCENTUAL (% ni). .............................................................27 UNIDAD 3. MEDIDAS DE TENDENCIA CENTRAL Y DE POSICIÓN........................................44 1 Dirección de Educación a Distancia – UPDS Modalidad Cursos por Encuentros
Ciencias Aplicadas
Estadística I
UNIDAD 4. MEDIDAS DE DISPERSIÓN......................................................................................67 UNIDAD 5. SIMETRÍA Y CURTOSIS ...........................................................................................75 UNIDAD 6. REGRESIÓN Y CORRELACIÓN...............................................................................81 Práctico nº 3 Estadística 1 ..............................................................................................100 Práctico nº 4 Estadistica 1 ..............................................................................................104 Práctico nº 5 Estadistica 1 ..............................................................................................109 Laboratorio nº 1 Estadística 1 ...........................................................................................111 Laboratorio nº 2 Estadística 1 ...........................................................................................113 Laboratorio nº 3 estadística 1 ............................................................................................117 IDENTIFICACIÓN Modalidad de Estudios
Cursos por Encuentros
Gestión Académica Módulo Carreras
Área Empresarial
Docente
Ing. Rubén Toyama U.
Día de Encuentro (Presencial)
Sábados
Hora Aula Día de Tutoría (Distancia) Hora
PLANIFICACIÓN DE LOS ENCUENTROS PRIMER ENCUENTRO Unidad 1 UNIDAD TEMAS Unidad 2 DE AVANCE 2.1. al 2.3
SEGUNDO ENCUENTRO
TERCER ENCUENTRO
Unidad 2
Unidad 3
(Continuación)
(Continuación)
Unidad 3
Unidad 4
CUARTO ENCUENTRO Unidad 5 Unidad 6
3.1. al 3.6
Unidad 7
Evaluación
Evaluación
2 Dirección de Educación a Distancia – UPDS Modalidad Cursos por Encuentros
Ciencias Aplicadas
Estadística I
UNIVERSIDAD PRIVADA DOMINGO SAVIO FACULTAD DE ESTUDIOS A DISTANCIA ESTADISTICA I PROGRAMA ANALITICO IDENTIFICACION Área Sigla
: Ciencias Exactas : MAT – 215
Carga horaria
: 4HT 2HP
Nivel
: Tercer semestre
Requisitos
: MAT – 110
I. JUSTIFICACIÓN La asignatura de estadística I que se ubica en el 3º semestre en las carrera de la Facultad de Ciencias Empresariales y 4º semestre en la carrera de Ing. de sistema, contribuye a la consolidación de la universidad que tiene por misión declarada formar profesionales con sólidos conocimientos científicos, orientados a la investigación y la interacción social sensibles con los problemas de su entorno. OBJETIVOS OBJETIVO GENERAL Analizar los datos científicamente y con sentido crítico, para describir e interpretar adecuadamente la información muestral. OBJETIVOS ESPECIFICOS Definir términos de la estadística con propiedad Aplicar los conocimientos de informática en la clasificación y descripción de la información muestral cualitativa y cuantitativamente 3 Dirección de Educación a Distancia – UPDS Modalidad Cursos por Encuentros
Ciencias Aplicadas
Estadística I
Calcular medidas de tendencia central, de posición, y de dispersión con precisión Emitir conclusiones acerca de la realidad encontrada en la muestra, con sentido crítico Determinar el modelo de regresión apropiado en diferentes relaciones entre variables III CONTENIDOS Unidad 1. Introducción a la estadística Objetivos de la unidad Definir adecuadamente los términos: Estadística descriptiva e inferencial, población, muestra, muestreo, variables cualitativas, cuantitativas, ordinales, nominales, discretas y continuas Reconocer y diferenciar los diferentes tipos de variables. Contenidos 1.1 Concepto de estadística 1.2 Clasificación y aplicaciones 1.3 Población y muestra 1.4 Concepto y clasificación de variables Unidad 2. Descripción de la información muestral Objetivos de la unidad Organizar adecuadamente los datos clasificándolos apropiadamente, mediante la utilización de cuadros de distribución de frecuencias Interpretar lo que muestran los datos, con sentido crítico Realizar cruces de variables interpretando los resultados Aplicar los conocimientos informáticos para la descripción de los datos a través de los diferentes tipos de gráficos Contenidos 2.1 Distribuciones de frecuencias 2.2 Cuadros de frecuencias 2.2.1 Para variables discretas 2.2.2 Para variables continuas 2.3 Cruces de variables 2.4 Representaciones gráficas 4 Dirección de Educación a Distancia – UPDS Modalidad Cursos por Encuentros
Ciencias Aplicadas
Estadística I
2.4.1 Gráficas lineales 2.4.2 Gráficas de sectores 2.4.3 Gráficas de barras 2.4.4 Histogramas 2.4.5 Ojivas 2.4.6 Polígono de frecuencias Unidad 3. Medidas de tendencia central y de posición Objetivos de la Unidad Definir adecuadamente estadígrafos de tendencia central y de posición Calcular medidas de tendencia central y de posición con propiedad e interpretar resultados Aplicar el cálculo de los estadígrafos de tendencia central y de posición en la solución de problemas Contenidos 3.1
Media aritmética
3.2 3.3
Media aritmética ponderada Media geométrica y armónica
3.4 3.5
Moda Mediana
3.6
Cuantiles
3.6.1 Cuartiles 3.6.2 Deciles 3.6.3
Percentiles
Unidad 4. Medidas de dispersión Objetivos de la unidad Definir con propiedad los estadígrafos de dispersión Calcular adecuadamente los diferentes estadísticos de dispersión e interpretar los resultados
Aplicar el cálculo de los estadígrafos de dispersión en la solución de problemas
5 Dirección de Educación a Distancia – UPDS Modalidad Cursos por Encuentros
Ciencias Aplicadas
Estadística I
Contenidos 4.1 Definición de dispersión y homogeneidad 4.2 Rango y desviación media 4.3 Varianza 4.4 Desviación standard 4.5 Coeficiente de variación 4.6 Aplicación de las medidas de dispersión Unidad 5. Simetría y Curtosis Objetivos de la unidad Definir los términos: simetría y curtosis Calcular los conceptos de simetría y curtosis interpretando resultados con propiedad Contenidos 5.1 Definición de simetría 5.2 Coeficientes de sesgo 5.3 Definición de curtosis 5.4 Coeficientes de curtosis Unidad 6. Análisis de regresión y correlación. Objetivos de la Unidad Conocer los diferentes modelos de curvas a las que se pueden ajustar los datos. Elegir adecuadamente el modelo de regresión aplicable a un conjunto de datos en particular, mediante el cálculo del coeficiente de correlación Contenidos 6.1 Definición de regresión 6.2 Relaciones entre variables. Diagramas de dispersión. 6.3 Modelo de regresión lineal simple 6.4 El método de mínimos cuadrado. 6.5 Coeficientes de correlación y de determinación. 6.6 Modelos de regresión no lineal. 6 Dirección de Educación a Distancia – UPDS Modalidad Cursos por Encuentros
Ciencias Aplicadas
Estadística I
6.7 Ajuste de datos un modelo exponencial. 6.8 Ajuste de datos un modelo potencial. 6.9 Ajuste de datos un modelo parabólico. Unidad 7. Series de tiempo Objetivos de la unidad Adquirir la metodología para variables con tendencia cíclica Aplicar las series de tiempo en la solución de problemas Contenidos 7.1 Concepto de series de tiempo 7.2 Tendencia cíclica 7.3 Método de índice estacional 7.4 Método de series de tiempo IV. METODOLOGIA DE ENSEÑANZAAPRENDIZAJE El presente curso se desarrollará bajo la guía directa del docente, mediante la definición de las terminologías aplicadas en el lenguaje de la estadística, lo cual se desarrollará mediante la participación activa de los estudiantes a través de lluvias de ideas. Durante el desarrollo de la materia se desarrollarán variados ejercicios prácticos que ilustren de manera efectiva la aplicación de los distintos estadígrafos en la variedad de casos aplicables a la realidad a objeto de lograr un aprendizaje significativo para los diferentes tipos de contenidos contemplados en la asignatura. Se realizarán prácticas de ejercicios en clases donde los estudiantes de manera cooperativa logren un aprendizaje significativo apuntalando así sus conocimientos conceptuales y habilidades procedimentales. Se realizarán prácticas en el laboratorio de cómputos de la universidad, para la aplicación de diferentes software a las unidades desarrolladas. Se desarrollará un trabajo final de aplicación donde los estudiantes muestren los conocimientos y habilidades adquiridas. 7 Dirección de Educación a Distancia – UPDS Modalidad Cursos por Encuentros
Ciencias Aplicadas
Estadística I
V. ACTIVIDADES ACADEMICAS 1. Presentación y defensa de práctico de las unidades Introducción y Distribuciones maestrales 2. Presentación y defensa de práctico de la unidad Medidas de tendencia central 3. Presentación y defensa de práctico de la unidad Medidas de dispersión 4. Presentación y defensa de práctico de la unidad Simetría y Curtosis 5. Presentación y defensa de práctico de la unidad Análisis de regresión y correlación 6. Presentación y defensa del trabajo final de aplicación general de la materia (proyecto) VI. MATERIALES Y MEDIOS DIDACTICOS Marcadores y pizarra Texto guía Equipos de Multimedia Laboratorio de Software VII. TIPOS DE EVALUACION En la asignatura se emplearán los tres tipos de evaluación: diagnóstica, formativa y sumativa. VIII. FORMAS DE EVALUACIÓN Materia tipo B. Exámenes Actividades Académicas
60 pts. 20 pts.
Trabajo de Investigación
20 pts.
TOTAL 100 pts.
8 Dirección de Educación a Distancia – UPDS Modalidad Cursos por Encuentros
Ciencias Aplicadas
IX.
Estadística I
BIBLIOGRAFIA
BÁSICA. TOYAMA RUBÉN. Introducción a la Estadística. Cursos por Encuentros. UPDS. Enero 2008. COMPLEMENTARIA Murray R. Spiegel. Estadística. Serie Schaum. Ed. Mc. Graw Hill Leonard Kazmier Estadística aplicada a administración y economia. Ed. Mc Graw Hill. México. 1993 Alonso Novales. Estadística y econometría. Ed. Mc Graw Hill. España. 1997 Sebastián Coll – Martha Gujarro. Estadística aplicada a la historia y a las ciencias sociales. Ed. Pirámide. España. 1998 Rufino Moya. Estadística descriptiva. Editorial San Marcos. Perú. 1991 A. M. Montiel – F. Reus. Elementos básicos de estadística económica y empresarial. Ed. Prentice Hall. España 1997. ORIENTACIONES METODOLÓGICAS 2. Introducción. La estadística es una disciplina que como instrumento de investigación se constituye en pilar fundamental en la formación de los profesionales de las diferentes áreas del conocimiento, aportando a través de los métodos y técnicas que proporciona a la organización y descripción al cúmulo de datos de que se dispone en un proceso investigativo en particular, de las diferentes áreas del conocimiento. El aporte de la presente asignatura a las demás asignaturas de las diferentes mallas curriculares es importante puesto que las competencias adquiridas durante el estudio de la estadística, constituye la base fundamental para materias como investigación de mercado, investigación en relaciones públicas y ciencias sociales, estadística inferencial e investigación operativa, así como la parte operativa en el desarrollo de las tesis de grado que implican una investigación con información 9 Dirección de Educación a Distancia – UPDS Modalidad Cursos por Encuentros
Ciencias Aplicadas
Estadística I
primaria que se debe describir. Cabe resaltar que el presente texto guía ha sido redactado como producto de 5 años de experiencia en la enseñanza de la Estadística en la UPDS en el sistema modular presencial, en el texto guía se ha utilizado un lenguaje claro y sencillo sin perder el sentido técnico propio de la estadística cuyo lenguaje es imposible de eludir. Dentro del estudio de la estadística descriptiva es de vital importancia el aprendizaje de los siguientes aspectos: a) El dominio de palabras técnicas propias de la estadística. b) Es desenvolvimiento eficaz en lo referente a la descripción de información muestral. c) El cálculo de las medidas de tendencia central de posición. d) El cálculo de las medidas de dispersión. e) El análisis de la regresión y correlación de los datos experimentales para dos variables a objeto de determinar la función de regresión apropiada. 1.1. Objetivos Generales. Analizar los datos científicamente y con sentido crítico para describir e interpretar adecuadamente la información muestral. El objetivo general busca que el estudiante adquiera las competencias necesarias y suficientes para procesar científicamente la información determinando; de esta, las características importantes requeridas en un proceso de investigación que utilice esta información de fuente primaria. Procesar científicamente significa que se siga una metodología a objeto de encontrar resultados fidedignos. 2. Desarrollo La distribución de los temas en los cuatro núcleos temáticos a lo largo del presente curso obedece a un sentido de colinealidad de los contenidos para el aprendizaje adecuado de los mismos y a aspectos de tiempo para lograr el alcance de los objetivos y adquisición de las competencias necesarias de parte del estudiante en el estudio de la estadística descriptiva en el presente curso. Primer encuentro 10 Dirección de Educación a Distancia – UPDS Modalidad Cursos por Encuentros
Ciencias Aplicadas
Estadística I
Unidad 1. Introducción a la estadística Objetivos de la unidad Definir adecuadamente los términos: Estadística descriptiva e inferencial, población, muestra, muestreo, variables cualitativas, cuantitativas, ordinales, nominales, discretas y continuas Reconocer y diferenciar los diferentes tipos de variables. Contenidos 1.5 Concepto de estadística 1.6 Clasificación y aplicaciones 1.7 Población y muestra 1.8 Concepto y clasificación de variables Unidad 2. Descripción de la información muestral Objetivos de la unidad Organizar adecuadamente los datos clasificándolos apropiadamente, mediante la utilización de cuadros de distribución de frecuencias Interpretar lo que muestran los datos, con sentido crítico Realizar cruces de variables interpretando los resultados Aplicar los conocimientos informáticos para la descripción de los datos a través de los diferentes tipos de gráficos Contenidos 2.1 Distribuciones de frecuencias 2.2 Cuadros de frecuencias 2.2.1 Para variables discretas 2.2.2 Para variables continuas La unidad 1, es una unidad netamente introductoria al mundo de la estadística, esta unidad es completamente teórica, se espera que todos los estudiantes hayan leído estos contenidos para el 1º encuentro. En este primer encuentro se hará una discusión sobre las dudas que surjan en los estudiantes, luego de las lecturas previas al encuentro. El contenido de la unidad 2 a desarrollarse durante este primer encuentro se hará de modo que el docente explicará de qué manera se construirá el cuadro de distribución de frecuencias; así como, realizará la interpretación de todos los resultados obtenidos, luego se 11 Dirección de Educación a Distancia – UPDS Modalidad Cursos por Encuentros
Ciencias Aplicadas
Estadística I
repetirá este procedimiento con la participación activa de los estudiantes. En el 1º encentro el estudiante debe llegar con una lectura comprensiva de la 1º unidad utilizando el encuentro físico a objeto de aclarar las dudas que pudieran existir, luego continuará con el desarrollo de la 2º unidad de descripción de la información muestral en el cual se construirán los cuadros de distribución de frecuencias para variables discretas y para variables continuas.
Segundo encuentro 2.3 Cruces de variables 2.4 Representaciones gráficas 2.4.1 Gráficas lineales 2.4.2 Gráficas de sectores 2.4.3 Gráficas de barras 2.4.4 Histogramas 2.4.5 Ojivas 2.4.6 Polígono de frecuencias Unidad 3. Medidas de tendencia central y de posición Objetivos de la Unidad Definir adecuadamente estadígrafos de tendencia central y de posición Calcular medidas de tendencia central y de posición con propiedad e interpretar resultados Aplicar el cálculo de los estadígrafos de tendencia central y de posición en la solución de problemas Contenidos 3.1 Media aritmética 3.2
Media aritmética ponderada
3.3 3.4
Media geométrica y armónica Moda
3.5
Mediana
Síntesis. 12 Dirección de Educación a Distancia – UPDS Modalidad Cursos por Encuentros
Ciencias Aplicadas
Estadística I
En el 2º se iniciará con el tema de cruces de variables, un breve resumen a cerca de los diferentes tipos de gráficos, para pasar luego al cálculo de los principales indicadores de tendencia central y la comprensión de la importancia de su cálculo en el proceso descriptivo de la información muestral. Tercer encuentro 3.7 Cuantiles 3.6.1 Cuartiles 3.6.4 Deciles 3.6.5 Percentiles Unidad 4. Medidas de dispersión Objetivos de la unidad Definir con propiedad los estadígrafos de dispersión Calcular adecuadamente los diferentes estadísticos de dispersión e interpretar los resultados
Aplicar el cálculo de los estadígrafos de dispersión en la solución de problemas
Contenidos 4.1 Definición de dispersión y homogeneidad 4.2 Rango y desviación media 4.3 Varianza 4.4 Desviación standard 4.5 Coeficiente de variación 4.6 Aplicación de las medidas de dispersión Síntesis. En el 3º encuentro, el contenido a desarrollar será el estudio de los indicadores de posición, entre los más importantes tenemos los cuartiles y los percentiles, para luego pasar al estudio de la unidad 4 referente a las medidas de dispersión, en la cual es importante hacer énfasis en los conceptos de homogeneidad y heterogeneidad de los datos numéricos en la que; además, se realizará el cálculo de los principales indicadores de dispersión como lo son la desviación 13 Dirección de Educación a Distancia – UPDS Modalidad Cursos por Encuentros
Ciencias Aplicadas
Estadística I
Standard, el coeficiente de variación así como la interpretación de los resultados. Cuarto encuentro Unidad 5. Simetría y Curtosis Objetivos de la unidad Definir los términos: simetría y curtosis Calcular los conceptos de simetría y curtosis interpretando resultados con propiedad Contenidos 5.5 Definición de simetría 5.6 Coeficientes de sesgo 5.7 Definición de curtosis 5.8 Coeficientes de curtosis Unidad 6. Análisis de regresión y correlación. Objetivos de la Unidad Conocer los diferentes modelos de curvas a las que se pueden ajustar los datos. Elegir adecuadamente el modelo de regresión aplicable a un conjunto de datos en particular, mediante el cálculo del coeficiente de correlación Contenidos 6.1 Definición de regresión 6.2 Relaciones entre variables. Diagramas de dispersión. 6.3 Modelo de regresión lineal simple 6.4 El método de mínimos cuadrado. 6.5 Coeficientes de correlación y de determinación. 6.6 Modelos de regresión no lineal. 6.7 Ajuste de datos un modelo exponencial. 6.8 Ajuste de datos un modelo potencial. 6.9 Ajuste de datos un modelo parabólico. Unidad 7. Series de tiempo Objetivos de la unidad Adquirir la metodología parta variables con tendencia cíclica Aplicar las series de tiempo en la solución de problemas 14 Dirección de Educación a Distancia – UPDS Modalidad Cursos por Encuentros
Ciencias Aplicadas
Estadística I
Contenidos 7.1 Concepto de series de tiempo 7.2 Tendencia cíclica 7.3 Método de índice estacional 7.4 Método de series de tiempo Síntesis. En el 4º encuentro se hará un rápido estudio de los que son los indicadores de simetría y curtosis, para pasar luego al estudio de la regresión y correlación cuya importancia radica en la determinación de las constantes “a” y “b” de la función de regresión lineal “y=a+bx” así como la determinación del coeficiente de correlación “r”, para luego proceder a estudio de casos en los que el objetivo sea determinar el mejor modelo que represente la relación de las variables. Nota. Para lograr alcanzar con éxito los objetivos planteados en la asignatura, así como la adquisición de las competencias planteadas, es importante tomar en cuenta lo siguiente: · Traer a todos los encuentros una calculadora (de preferencia que sea calculadora científica). · Leer con anticipación al encuentro todos los conceptos desarrollados en el texto guía, para aclarar dudas durante la clase presencial. · Desarrollar en lo posible (reproducir por cuenta propia) los mismos ejemplos resueltos en el texto guía. · Estar presente en el aula puntualmente. Metodología de estudio sugerida 2.2. Bibliografía Comentada. El libro de texto de Estadística 1, elaborado en su totalidad por el Ing. Rubén Toyama, se constituye en una guía práctica para el aprendizaje de la estadística y surge como resultado del conjunto de experiencias acumuladas durante 5 años de ejercicio docente en nuestra universidad. Se recomienda la realización de cada uno de los ejemplos mostrados en el texto; puesto que, de esta manera el participante podrá ir adquiriendo las competencias necesarias en lo referente al cálculo de los estadígrafos que en esta asignatura se desarrollan. 15 Dirección de Educación a Distancia – UPDS Modalidad Cursos por Encuentros
Ciencias Aplicadas
Estadística I
Es también importante en la medida de las posibilidades de tiempo y de recursos, la lecturas de apoyo de los libros: “Estadística” de Spiegel & Murray para acompañar el aprendizaje y del libro: “Estadística aplicada a la Administración y la economía” de Leonard Kazmier para apoyar en la comprensión de los cálculos, puesto que en dicho libro se muestran problemas reales y de mayor comprensión. 2.3. Material Explicativo. El texto guía contiene suficiente material explicativo, puesto que, la redacción de los conceptos está en un lenguaje claro y de uso cotidiano para mayor comprensión pero sin perder el sentido técnico del mismo; además, en cada una de los temas existen los ejemplos que en su integridad desarrollados paso a paso para su mayor comprensión. 2.4.Ejemplificación. El texto guía ofrece al lector suficiente ejemplificación; puesto que, luego de los conceptos existen los ejercicios de aplicación en los que se detallan paso a paso la forma en que se debe proceder para la solución de los diferentes problemas planteados.
2.5. Métodos a utilizar. En el primer periodo del encuentro físico el docente desarrollará los conceptos necesarios con la participación activa de los participantes; puesto que, se sobreentiende que ellos han procedido a la lectura comprensiva de los conceptos, luego se desarrollará un ejemplo práctico con la participación activa del docente y de los estudiantes. Para proceder en el segundo periodo a la solución de ejemplos similares en grupos ó células, con la guía permanente del docente. En los encuentros virtuales se presentarán las tareas planteadas con anterioridad en las clases presenciales, y se aclararán las dudas que surjan durante la solución de las tareas por parte de los estudiantes. 3 . Conclusiones. Para concretar el aprendizaje de los temas el estudiante debe desarrollar en su domicilio los prácticos planteados en el texto guía, pudiendo hacer uso de los encuentros virtuales para la aclaración de las dudas en la resolución de los mismos. 3.1. Preguntas y ejercicios para realizar en forma individual o colectiva – con 16 Dirección de Educación a Distancia – UPDS Modalidad Cursos por Encuentros
Ciencias Aplicadas
Estadística I
respuestas. Los prácticos se encuentran al final del Texto Guía, los mismos se encuentran elaborados de acuerdo a la secuencia de avance de la asignatura. 3.2. Sugerencias para realizar actividades practicas, de laboratorio y de investigación. A la finalización de los encuentros físicos se desarrollarán las ayudantías preparadas con la intencionalidad de que los estudiantes tengan más apoyo, además que se dispondrá del uso del laboratorio de computación para que los estudiantes puedan, con la ayuda del ayudante hacer prácticas con el ordenador. 4. Glosario de términos técnicos. El texto guía contiene la conceptuación de todos los términos propios de la estadística utilizados en el presente curso, por lo que se recomienda la lectura comprensiva de cada uno de los títulos y subtítulos desarrollados en el mismo para interconectar la comprensión de los conceptos con la aplicación práctica en el desarrollo de los problemas de aplicación.
17 Dirección de Educación a Distancia – UPDS Modalidad Cursos por Encuentros
Ciencias Aplicadas
Estadística I
TEXTO GUIA TEMA 1. INTRODUCCIÓN A LA ESTADÍSTICA
OBJETIVOS DE LA UNIDAD Al finalizar la presente unidad seré capaz de conceptuar los siguientes términos: Estadística Descriptiva, Estadística Inferencial, población, muestra, muestreo, variable, variable cualitativa, variable nominal, variable ordinal, variable discreta, variable continua, parámetro poblacional, estadígrafo muestral, censo, encuesta, parámetro poblacional, estadígrafo muestral. 1. ESTADÍSTICA DESCRIPTIVA. Es una disciplina que nos proporciona un conjunto de métodos y procedimientos que nos permiten recopilar información, clasificar, encontrar las características de los datos y hacer una buena interpretación de los mismos, para poder emitir una conclusión respecto al tema de interés. En pocas palabras la Estadística descriptiva nos permite hacer una descripción de un conjunto de datos. 2. ESTADÍSTICA INFERENCIAL. Es la disciplina que nos ofrece un conjunto de métodos y técnicas que posibilitan la generalización de la información obtenida mediante técnicas descriptivas hacia el conjunto de la población de estudio. 3. POBLACIÓN. En una investigación la constituyen el conjunto de datos de interés. Ej.: Si se lleva a cabo un estudio acerca de del grado de aceptación hacia la universidad Domingo Savio, la población sería el conjunto de los estudiantes. Existen dos tipos de población: a) POBLACIÓN INFINITA. Es aquella población que tiene una cantidad de elementos inmensamente grande, generalmente desconocida. b) POBLACIÓN FINITA. Es aquella población que tiene un número definido de elementos. Ejemplo: la población de estudiantes de un cursos de estadística; la población de colegios 18 Dirección de Educación a Distancia – UPDS Modalidad Cursos por Encuentros
Ciencias Aplicadas
Estadística I
particulares. 4. MUESTRA. Es una porción de la población de interés, una muestra podría ser por Ej.: En el caso de que la población fuera el conjunto de los estudiantes de la UPDS una muestra puede estar constituida por un grupo de 120 estudiantes de diferentes carreras y diferentes turnos. 5. MUESTREO. Es el conjunto de actividades que se llevan a cabo con la intención de realizar la toma de muestra. 6. VARIABLE. Una variable es una característica de la población que puede tomar diferentes valores. Ejemplo: el sexo, ciudad de procedencia, el grado de instrucción, edad, etc. Las variables se clasifican en: a) Variables cualitativas b) Variables cuantitativas a) VARIABLES CUALITATIVAS. Son aquellas características de la población que pueden tomar valores de atributos o cualidades. Por ejemplo: Sexo, nacionalidad, nivel de instrucción, cargo, etc. Las variables cualitativas a su vez se clasifican en: · VARIABLES CUALITATIVAS NOMINALES. son aquellas variables entre cuyos posibles valores no existe una relación de orden. Por ejemplo: la carrera universitaria, el departamento de procedencia, el sexo, color del cabello, etc. · VARIABLE CUALITATIVA ORDINAL. Son aquellas variables entre cuyos posibles valores existe una relación de orden. Por ejemplo: El grado en el ejército, el nivel de estudios, el cargo en una empresa. b) VARIABLE CUANTITATIVA. Son aquellas variables que sólo pueden tomar valores numéricos. Por ejemplo: el número de goles por partido, el número de materias aprobadas, el 19 Dirección de Educación a Distancia – UPDS Modalidad Cursos por Encuentros
Ciencias Aplicadas
Estadística I
peso, la longitud, Las variables cuantitativas a su vez se clasifican en: · Variable cuantitativas discretas · Variables cuantitativas continuas a) VARIABLE CUANTITATIVA DISCRETA. Son aquellas variables que se obtienen mediante el conteo y sólo pueden tomar valores de números enteros. Por ejemplo: La edad, número de alumnos inscritos, número de materias aprobadas, número de hermanos, etc. b) VARIABLE CUANTITATIVA CONTINUA: Son aquellas variables numéricas que generalmente se obtienen como producto de una medición y que pueden tomar valores enteros o decimales: Por ejemplo: el peso, la estatura, etc. 7. PARÁMETRO POBLACIÓNAL. Es una característica representativa de toda una población de interés, es obtenido generalmente mediante inferencia estadística y siempre es referida la población de interés, entre los principales parámetros tenemos: · La media aritmética (u) · La proporción poblacional (P) · Desviación Standard ( s ) 8. ESTADÍGRAFO MUESTRAL. Un estadígrafo muestral es aquella característica obtenida de un conjunto de datos que constituyen una muestra. Ejemplo: -
· La media aritmética ( x ) · La proporción muestral (p) · Desviación Standard (s) 9. FUENTES DE INFORMACIÓN ESTADÍSTICA. – Las fuentes de información estadísticas pueden ser: a) Primarias. Son aquellas personas o instituciones que recolectan directamente los datos. 20 Dirección de Educación a Distancia – UPDS Modalidad Cursos por Encuentros
Ciencias Aplicadas
Estadística I
b) Secundarias. Son aquellas publicaciones o trabajos cuyos datos no han sido recolectados directamente. 10. MEDIOS PARA RECOLECTAR LA INFORMACIÓN. Entre los principales medios para recolectar la información tenemos: La observación, la entrevista, la encuesta, los registros institucionales. 11. ENCUESTA. Es la recopilación de información obtenida a partir de una muestra. También se denomina encuesta al instrumento de recolección de información a partir de la muestra y está constituido de un cuestionario. 12. CENSO. Es el proceso de recolección de información de toda una población de interés. Ej. Si la población de interés está constituido por los 236 estudiantes de la carrera de Psicología de una determinada Universidad y de ellos deseamos conocer la percepción sobre el grado de satisfacción respecto de los servicios que reciben de la Universidad, entonces, el proceso de recopilación de información a toda esta población se denomina Censo. 13. CENSO NACIONAL DE POBLACIÓN Y VIVIENDA. Es el proceso de recopilación de información sobre la población y las condiciones de vida de los habitantes de un país, generalmente se realiza cada 10 años. TEMA 2. DESCRIPCIÓN DE LA INFORMACIÓN MUESTRAL
OBJETIVOS DE LA UNIDAD Al finalizar la presente unidad seré capaz de: 1. Conceptuar los términos: · Frecuencia absoluta · Frecuencia absoluta acumulada menor que · Frecuencia absoluta acumulada mayor que 21 Dirección de Educación a Distancia – UPDS Modalidad Cursos por Encuentros
Ciencias Aplicadas
Estadística I
· Frecuencia relativa porcentual · Frecuencia relativa porcentual acumulada menor que y mayor que · Gráfica · Histograma de frecuencias · Cruce de variables 2. Construir un cuadro de distribución de frecuencia e interpretar los resultados. 3. Realizar cruces de variables e interpretar. 1. FRECUENCIA ABSOLUTA (n i). Este valor nos indica el número de veces que se repite un dato. Ejemplo 1: La siguiente lista nos muestra el número de hermanos que dijeron tener 52 universitarios, a partir de esta información construir un cuadro de distribución de frecuencia e indicar: a) ¿Cuántos estudiantes tenían 3 hermanos? b) ¿Cuántos estudiantes tenían entre 1 y 2 hermanos?
0 3
2 6
2 0
3 1
5 1
4 2
2 2
3 4
1 3
3 2
2
2
5
4
3
1
0
2
2
3
3
3
2
2
1
0
2
4
2
4
3
1
0
2
3
4
4
5
6
2
2
3
22 Dirección de Educación a Distancia – UPDS Modalidad Cursos por Encuentros
Ciencias Aplicadas
Estadística I
Solución: Cuadro nº 1 CUADRO DE DISTRIBUCIÓN DE HERMANOS No. De hermanos
n i nº de Universitarios
(X i) 0
5
1
6
2
17
3
12
4
7
5
3
6
2 nt = 52
Respuesta: a) 12; b) 23 2. FRECUENCIA ABSOLUTA ACUMULADA MENOR QUE (Ni). Este valor nos indica el número de veces que se repite un dato Xi ó menores.
23 Dirección de Educación a Distancia – UPDS Modalidad Cursos por Encuentros
Ciencias Aplicadas
Estadística I
CUADRO NO. 1 DISTRIBUCIÓN DE HERMANOS No. De hermanos
n i
Ni
(Xi)
nº de Universitarios
0
5
5
1
6
11
2
17
28
3
12
40
4
7
47
5
3
50
6
2
52
n t = 52 Ejemplo 2: La siguiente lista nos muestra las edades de los estudiantes de una clase, construir un cuadro de distribución de frecuencia y luego responder a las siguientes preguntas: a) ¿Cuántos estudiantes tenían entre 21 y 22 años? b) ¿Cuántos estudiantes tenían 23 o menos años? c) ¿Cuántos estudiantes tenían como máximo 22 años?
21 22 20 24 25 23 23 22 20 24 21 21 23 24 22 21 25 24 26 20 22 24 23 25 20 23 23 22 23 24 22 21 23 22 24 20 21 23 25 20 22 23 25
24 Dirección de Educación a Distancia – UPDS Modalidad Cursos por Encuentros
Ciencias Aplicadas
Estadística I
CUADRO No. 2 DISTRIBUCIÓN DE EDAD Edad
n i
Ni
(X i)
nº de estudiantes
20
6
6
21
6
12
22
8
20
23
10
30
24
7
37
25
5
42
26
1
43
nt=43
Respuesta: a) 14 ; b) 30 ; c) 20 3. FRECUENCIA ABSOLUTA ACUMULADA MAYOR QUE (Ni*). Este valor nos indica el número de veces que se repite el dato Xi o mayores.
Edad (Xi)
n i
Ni
Ni*
20
6
6
43
21
6
12
37
22
8
20
31
23
10
30
23
24
7
37
13
25
5
42
6
26
1
43
1
25 Dirección de Educación a Distancia – UPDS Modalidad Cursos por Encuentros
Ciencias Aplicadas
Estadística I
Ejemplo 3: La siguiente lista nos muestra que el número de materias aprobadas por estudiantes del 3er semestre, partir de esta información determinar: a) ¿Cuántos estudiantes aprobaron entre 12 y 14 materias? b) ¿Cuántos estudiantes aprobaron 12 o menos materias? c) ¿Cuántos estudiantes aprobaron 14 o más materias? d) ¿Cuántos estudiantes aprobaron como mínimo 13 materias?
13 10 12 13 14 15 10 11 12 10 12 13 13 14 12 13 13 11 11 13 12 16 13 12 9 12 13 9 13 15 14 15 13 13 12 13 12 12 13 12 13 14
CUADRO No. 3 DISTRIBUCIÓN DE MATERIAS APROBADAS No. De
n i
materias
nº de estudiantes
N i
Ni*
(Xi) 9
2
2
42
10
3
5
40
11
3
8
37
12
11
19
34
13
15
34
23
14
4
38
8
15
3
41
4
16
1
42
1 26
Dirección de Educación a Distancia – UPDS Modalidad Cursos por Encuentros
Ciencias Aplicadas
Estadística I
Respuesta: a) 30; b) 19; c) 8; d) 23 4. FRECUENCIA RELATIVA PORCENTUAL (% n i). Este valor nos indica el porcentaje respecto al total que tiene el valor Xi y se calcula con la expresión:
% n i =
n i * 100 n t
Ejemplo 4: El cuadro No. 4 muestra la distribución de edades de los estudiantes de un colegio, a partir de esta información determinar: a) ¿Cuántos estudiantes tienen 13 o menos años? b) ¿Cuántos estudiantes tiene entre 13 y 16 años? c) ¿Cuántos estudiantes tienen 16 o mas años? d) ¿Qué porcentaje del total de estudiantes tiene 14 años? CUADRO No. 4 DISTRIBUCIÓN DE EDADES Edad
n i
Ni
NI*
%n i
11
28
28
446
6.28
12
63
91
418
14.12
13
75
166
355
16.82
14
92
258
280
20.63
15
60
318
188
13.45
16
47
365
128
10.52
17
39
404
81
8.74
18
42
446
42
9.41
(Xi)
Nota: Las columnas en negrilla constituye la información inicial que en este caso ya está tabulado Respuestas: a) 166; b) 274; c) 128; d) 20,63 % FRECUENCIA RELATIVA PORCENTUAL ACUMULADA MENOR QUE (%Ni). Este valor nos indica el porcentaje respecto al total de los datos que tienen el valor Xi o menores y se calcula 27 Dirección de Educación a Distancia – UPDS Modalidad Cursos por Encuentros
Ciencias Aplicadas
Estadística I
con la expresión: % N i =
N i * 100 n t
FRECUENCIA RELATIVA PORCENTUAL ACUMULADA MAYOR QUE (%N i*). Este valor nos indica el porcentaje respecto al total de los datos que toman el valor Xi o mayores y se calcula con la expresión:
N i * * 100 % N i = n t *
CUADRO No. 4 DISTRIBUCIÓN DE EDADES Edad (Xi)
n i
Ni
Ni*
%n i
%Ni
11
28
28
446
6.28
6.28
12
63
91
418
14.12
20.40
13
75
166
355
16.82
37.22
14
92
258
280
20.63
57.85
15
60
318
188
13.45
71.30
16
47
365
128
10.52
81.84
17
39
404
81
8.74
90.58
18
42
446
42
9.41
100
Ejemplo 5: El cuadro No. 5 muestra la distribución de goles por partido en la Liga Española de Fútbol, a partir de esta información determinar: a) ¿En cuántos partidos se convirtieron 3 o menos goles? b) ¿Qué porcentaje del total de partidos se convirtieron entre 1 y 2 goles? 28 Dirección de Educación a Distancia – UPDS Modalidad Cursos por Encuentros
Ciencias Aplicadas
Estadística I
c) ¿En qué porcentaje del total de partidos se convirtieron como máximo 3 goles? d) ¿En cuántos partidos se convirtieron 2 o más goles?
CUADRO No. 5 DISTRIBUCIÓN DE GOLES POR PARTIDO Goles por partido
n i
Ni
Ni*
%n i
%N i
%Ni*
0
14
14
108
12,96
12,96
100
1
22
36
94
20,37 33,33
87,04
2
31
67
72
28,70
62,04
66,66
3
20
87
41
18,52
80,55
37,96
4
10
97
21
9,29
98,81
19,44
5
5
102
11
4,63
94,44
10,18
6
6
108
6
5,55
100
5,55
(Xi)
Respuestas: a) 87; b) 49,07% ; c) 80,55 % ; d) 66,66 % FRECUENCIA RELATIVA (hi). Este valor representa la fracción en tanto por uno de los datos que toman el valor Xi. Y se calcula con la expresión:
hi =
n i n t
Ejemplo 6: El cuadro No. 6 muestra la distribución de edades de los niños de una escuela primaria, a partir de esta información determinar: a) ¿Qué porcentaje de los niños tienen edad entre 6 y 7 años? b) ¿Cuántos niños tiene 7 o menos años? c) ¿Qué porcentaje del total son niños de 7 o más años? d) ¿Cuántos niños tienen como mínimo 8 años?
29 Dirección de Educación a Distancia – UPDS Modalidad Cursos por Encuentros
Ciencias Aplicadas
Estadística I
CUADRO No. 6 DISTRIBUCIÓN DE EDADES Edad
n i
Ni
Ni*
%n i
%Ni
%Ni*
h i
5
28
28
165
16.97
16.97
100
0.17
6
32
60
137
19.39
36.36
83.03
0.19
7
31
91
105
18.79
55.15
63.64
0.19
8
26
117
74
15.76
70.91
44.85
0.16
9
29
146
48
17.58
88.48
29.09
0.18
10
19
165
19
11.51
100
11.51
0.11
(Xi)
Respuesta: a) 38.18% b) 91 c) 63.64% d) 74 DISTRIBUCIÓN DE FRECUENCIA PARA VARIABLES CONTINUAS. Cuando utilizamos variables continuas es necesario agrupar a los datos, estos grupos son llamados clase ó intervalo de clase. CLASE O INTERVALO DE CLASE. Son los diferentes grupos en que se organizan los datos continuos y discretos. TIPOS DE CLASE. Existen dos tipos de clases: TIPO I
[Li - Ls ]
TIPO II
7 10
26 31
11 14
31 36
]Li - Ls ]
ó [Li - Ls [
30 Dirección de Educación a Distancia – UPDS Modalidad Cursos por Encuentros
Ciencias Aplicadas
Estadística I
15 18
36 41
NOTA. Si una variable es continua debe ser organizada en clases del tipo II Si un dato es un valor limítrofe, por ejemplo 31, debe ser contado en la primera clase que aparezca. LIMITE INFERIOR (Li). Es el valor a la izquierda en la clase. LIMITE SUPERIOR (Ls). Es el valor aparece a la derecha en la clase. AMPLITUD DE CLASE (C). Es el ancho que tiene una clase. Es decir: C = (Ls – Li) + 1 si es del tipo I C = (Ls – Li) si es del tipo II MARCA DE CLASE. Es el valor central de una clase, es decir que es el promedio entre el límite inferior y el límite superior.
Xi =
L i + L s 2
FRECUENCIA ABSOLUTA DE CLASE (n i). Es el número de datos que se encuentran en una clase. El cuadro No. 8 muestra la distribución de pesos de equipajes de los pasajeros de una flota Inter. departamental, a partir de esta información determinar: a) ¿Cuántos equipajes pesaban entre 25 o menos kilogramos? b) ¿Qué porcentaje del total de equipaje pesaban entre 25 y 35 kilogramos? c) ¿Qué porcentaje del total de equipaje pesaba entre 30 o menos kilogramos? d) ¿Cuántos equipajes pesaban más de 30 kilogramos?
31 Dirección de Educación a Distancia – UPDS Modalidad Cursos por Encuentros
Ciencias Aplicadas
Estadística I
CUADRO No. 8 DISTRIBUCIÓN DE PESOS Pesos (Xi)
ni
Ni
Ni*
%ni
%Ni
%Ni*
15 o menos
708
708
4667
15.17
15.17
100
15 – 20
815
1523
3959
17.46
32.63
84.83
20 – 25
998
2521
3144
21.38
54.02
67.37
25 – 30
800
3321
2146
17.14
71.16
45.98
30 – 35
640
3961
1346
13.71
84.87
28.84
35 o más
706
4667
706
15.12
100
15.13
Respuestas: a) 2521 b) 30.85% c) 71.16% d) 1346 El cuadro No. 9 muestra la distribución de estaturas entre los conscriptos de un regimiento, a partir de esta información determinar: a) ¿Cuántos conscriptos miden 170 o menos cm? b) ¿Qué porcentaje del total tienen estatura entre 160 y 180 cm? c) ¿Qué porcentaje del total tienen estatura de más de 170 cm? d) ¿Qué porcentaje del total miden 160 o menos cm?
32 Dirección de Educación a Distancia – UPDS Modalidad Cursos por Encuentros
Ciencias Aplicadas
Estadística I
CUADRO No. 9 DISTRIBUCIÓN DE ESTATURAS Estaturas (Xi)
ni
Ni
Ni*
%Ni
%Ni
%Ni*
Marca de clase
140150
22
22
531
4.14
4.14
100
145
150160
101
123
509
19.02
23.16
95.86
155
160170
247
370
408
46.52
69.68
170180
93
463
161
17.51
87.19
30.32
175
180190
51
514
68
9.60
96.80
12.81
185
190200
17
531
17
3.20
100
3.20
195
76.82
165
Nt= 531 Respuestas: a) 370 b) 64.03% c) 30.32% d) 23.16% HISTOGRAMA DE FRECUENCIAS. Es un gráfico de barras entre el valor de la variable en el eje horizontal y la frecuencia absoluta o porcentual en el eje vertical. POLÍGONO DE FRECUENCIA. Es un gráfico lineal entre el valor de la variable en el eje “x” y el valor de la frecuencia absoluta o porcentual sobre el eje “y”. Este gráfico se puede superponer al histograma de frecuencia (si los datos son agrupados en clase se utiliza la marca de clase sobre el eje “x”.
GRAFICOS. Los gráficos son representaciones de los datos que se encuentran en tablas, 33 Dirección de Educación a Distancia – UPDS Modalidad Cursos por Encuentros
Ciencias Aplicadas
Estadística I
mediante la utilización de figuras geométricas y colores, los gráficos permiten una más pronta y eficaz comprensión de la información. Se utilizan diferentes tipos de gráficos, entre los más importantes tenemos: a) Gráficos de sectores. Estos gráficos se utilizan para representar a una variable utilizando una figura geométrica circular, divida radialmente. Ej.
Nº de herm anos de escolares cua 10%
ning 15%
t r es 20% uno 25% dos 30%
ning
uno
dos
tres
cua
b) Gráficos lineales. Estos gráficos representan a las frecuencias de los diferentes valores de la variable, generalmente muestran su comportamiento a través del tiempo. Ej
34 Dirección de Educación a Distancia – UPDS Modalidad Cursos por Encuentros
Ciencias Aplicadas
Estadística I
Promedios semestrales 100
promedio
95 90 85 80 75 1º
2º
3º
4º
5º
6º
Semestre Carlos
Maria
Jacinta
c) Gráficos de barras. Estos gráficos utilizan figuras geométricas rectangulares que representan las frecuencias de los diferentes valores de las variables. Estudiantes por carrera 2500 2213
Nº de estudiantes
2000
1521 1500 1168 1000
815
814 556
500
0 Med
Odon
Arq
Der
Con pub
Ing Com
Carrera
d) Gráficos de barras dobles. Estos gráficos de barra se utilizan para representar un cruce de variables, mostrando las frecuencias de las variables cruzadas. Ej: 35 Dirección de Educación a Distancia – UPDS Modalidad Cursos por Encuentros
Ciencias Aplicadas
Estadística I
Sexo/Actividad Fisica Hombre 25
Mujer
22 20
Cantidad
20 15
14
15 10
8 5
6
6
Aerobicos
Spinnig
5 0 Aparatos
Tae bo
Actividad física
CRUCE DE VARIABLES. Los cruces de variables son también llamados tablas de doble entrada, tabla bidimensional o tabla de contingencia. Los cruces de variables son cuadros que nos muestran la distribución de frecuencias de los datos en función a los diferentes valores de dos variables, para entenderlo mejor veremos el siguiente ejemplo: Una empresa cuenta con 15 empleados a los cuales se les hizo llenar el siguiente cuestionario: I. Sexo: 1. Hombre II Asegurado: 1. Si
2. Mujer 2. No
III No. De hijos: 1. 1 2. 2 IV. Edad: 1. 2023 2. 2427
3. 3 4.4 5. Ninguno 3. 2831 4. 31 o más
Tabla de resultados No
Sexo
Asegurado
No. De hijos
Edad
1
1
2
2
2 36
Dirección de Educación a Distancia – UPDS Modalidad Cursos por Encuentros
Ciencias Aplicadas
Estadística I
2
2
2
3
3
3
2
2
1
3
4
1
1
1
4
5
1
1
5
1
6
1
1
4
1
7
2
2
2
4
8
2
1
5
2
9
1
2
1
1
10
2
2
3
1
11
1
1
1
3
12
2
1
4
4
13
2
2
5
2
14
1
1
1
2
15
2
1
2
1
Construir el cruce de variables Sexo/asegurado Nota: Para calcular los porcentajes respecto al total se utiliza la formula: (% ) =
n * 100 n t
CUADRO No. 1 SEXO
ASEGURADO
Hombre
Mujer
TOTALES
SI
NO
5 (33,33)
2 (13,33)
3 (20)
TOTALES N
%
7
46,67
8
53,33
5 (33,33)
N
8
7
%
53,33
46,67
15 100
2. Responder a las siguientes preguntas: a) ¿Cuántos hombres tienen 1 ó menos hijos? b) ¿Qué porcentaje del total son hombres que tienen 2 hijos? 37 Dirección de Educación a Distancia – UPDS Modalidad Cursos por Encuentros
Ciencias Aplicadas
Estadística I
c) ¿Qué porcentaje del total son mujeres tienen entre 2 y 3 hijos? CRUCE DE VARIABLES SEXO/Nº DE HIJOS SEXO
No. DE HIJOS Ninguno
Hombre
1
TOTALES
2
1 (6,67) 4 (26,67) 1 (6,67)
3
4
0
1 (6,67]
N
%
7
46,67
8
53,33
1 Mujer
2 (13,33) 1 (6,67) 2 (13,33) 2 (13,33) (6,67)
TOTALES N
3
5
3
2
2
%
20
33,33
20
13,33
13,33
15 100
Respuestas: a) 5 b) 6,67% c) 26,67% Ejemplo nº 2. Una investigación acerca de los viajes al exterior de los ciudadanos bolivianos fue realizado mediante la siguiente encuesta: I. Sexo: 1. Hombre 2. Mujer II. nº de viajes al exterior en el año 1.(1) 2.(2) 3.(3) 4.(4) III. Edad : 1. (15 a 20) 2.(21 a 28) 3.(29 a 40) 4.(41 o mas) IV. Procedencia : 1. Sta Cruz 2. La Paz 3. Cbba 4. Oruro La tabla de resultados de esta investigación se muestra a continuación:
38 Dirección de Educación a Distancia – UPDS Modalidad Cursos por Encuentros
Ciencias Aplicadas
Estadística I
Tabla de resultados Nº
Sexo
Nº de
Edad Procedencia
viajes 1
2
4
1
2
2 3
1 1
2 2
2 3
1 3
4
2
1
4
1
5
2
3
1
3
6
2
1
2
4
7 8
1 2
1 2
3 4
2 2
9 10
1 2
2 4
1 2
1 3
11
1
2
3
1
12 13
1 2
1 2
4 3
4 2
14
1
1
2
1
15
2
1
1
3
16
2
3
4
2 39
Dirección de Educación a Distancia – UPDS Modalidad Cursos por Encuentros
Ciencias Aplicadas
Estadística I
17
2
2
2
1
18
1
1
3
1
19
2
2
1
2
20
1
4
2
3
21 22
2 1
1 2
4 1
2 1
23
1
3
3
2
24 25
2 1
2 1
2 2
3 1
26
2
1
4
3
27
2
2
1
2
28 29
1 2
4 2
3 2
1 1
30
2
1
2
2
A partir de esta información determinar: a) ¿Cuántos Paceños viajaron 2 o menos veces al exterior y que porcentaje del total representan? b) ¿Qué porcentaje del total son Cruceños que viajaron entre 2 y 3 veces al exterior? c) ¿Cuántos encuestados (tienen 28 o menos años y viajaron 2 veces al exterior) y que porcentaje del total representan? d) ¿Qué porcentaje del total tienen de 21 a 28 años y viajaron 3 o más veces al exterior? e) ¿Qué porcentaje del total tienen de 21 a 40 años? Solución: Para resolver el presente problema hay que realizar 2 cruces de variables, para los incisos a) y b) hay que realizar el cruce de variables (procedencia/nº de viajes al exterior) Y para los incisos c), d) y e) hay que realizar el cruce de variables (edad/nº de viajes al exterior) CRUCE DE VARIABLES PROCEDENCIA/ No. DE VIAJES PROCEDENCIA Santa Cruz
No. DE VIAJES
TOTALES
1
2
3
4
4 (13,33)
6 (20)
0
1 (3,33)
N
%
1
36,67 40
Dirección de Educación a Distancia – UPDS Modalidad Cursos por Encuentros
Ciencias Aplicadas
Estadística I
La Paz
3 (10)
Cochabamba
2 (6,67)
Oruro
TOTALES
2 (6,67)
4 (13,33)
2 (6,67)
0
2 (16,67)
1 (3,33)
1 (3,33) 10
33,33
7
23,33
2
6,67
2 (6,67)
0
0
N
11
12
3
4
%
36,67
40
10
13,33
30 100
a) 7 ; 23,33 % b) 6 % c) El cruce de variables Edad/Nº de viajes al exterior que para ser desarrollado por los participantes del curso Ejemplo nº 3. Una investigación acerca del crecimiento poblacional se llevó a cabo en la comunidad “El Ranchito” realizándose un sondeo a través del siguiente formulario: I. Sexo: 1. Hombre 2. Mujer II. Edad: 1 (23 o menos)2. (24 a 30)
3 (31 o mas)
III. Nivel de instrucción: 1. Primaria 2. Secundaria 3. Tec. Superior IV. No. de hijos: 1. (1 o menos) 2. (2 o 3) 3. (4 o mas) La tabla de resultados de la presente investigación se muestra a continuación:
41 Dirección de Educación a Distancia – UPDS Modalidad Cursos por Encuentros
Ciencias Aplicadas
Estadística I
Tabla de resultados Nº sexo
Edad
Nivel de
Nº de
est.
hijos
1
1
3
2
2
2 3
2 2
2 1
1 3
2 1
4
1
1
3
1
5 6
2 1
2 3
2 3
3 3
7
2
2
3
2
8
1
1
2
2
9
1
1
1
3
10
2
2
1
1
11
2
3
1
2
12
2
3
2
1
13
1
2
3
2
14 15
1 2
1 1
3 2
3 2
16 2
1
1
3 42
Dirección de Educación a Distancia – UPDS Modalidad Cursos por Encuentros
Ciencias Aplicadas
Estadística I
17
2
2
2
1
18 19
1 2
2 3
3 2
1 2
20
1
3
1
3
21 22
2 1
2 2
2 3
2 2
23
1
3
2
3
24 25
2 1
3 1
1 2
1 1
26 27
1 2
1 1
3 2
2 3
28
2
2
1
2
29 30
1 2
1 2
1 1
2 1
31
1
1
2
1
32 2
3
3
2
CRUCE DE VARIABLES SEXO/No. DE HIJOS SEXO
No. DE HIJOS 1 o menos
Hombre
3 a mas
N
%
15
46,87
17
53,12
4 (12,25) 6 (18,75) 5 (15,62
Mujer
TOTALES
2 a 3
TOTALES
6 (18,75)
8 (25)
3 (9,37)
N
10
14
8
%
31,25
43,75
25
32 100
a) ¿Qué porcentaje del total son hombres y tienen 3 o menos hijos? Respuesta: 31% b) ¿Qué porcentaje del total son mujeres y tienen 2 o mas hijos? Respuesta: 34,37% c) ¿Qué porcentaje de total tienen 2 a 3 hijos? Respuesta: 43,75% 43 Dirección de Educación a Distancia – UPDS Modalidad Cursos por Encuentros
Ciencias Aplicadas
Estadística I
d) ¿Cuántos encuestados tienen 24 a 30 años de edad y 2 o más hijos que porcentaje del total representan? e) ¿Qué porcentaje del total tienen 23 o menos años y tienen 2 a 3 hijos? f) ¿Qué porcentaje del total tienen 34 o más años? Respuesta: 28,12% Nota: Para responder a las preguntas d) e) y f) realizar el cruce de variables correspondiente UNIDAD 3. MEDIDAS DE TENDENCIA CENTRAL Y DE POSICIÓN
OBJETIVOS. Al finalizar la presenta unidad seré capaz de: 1) Conceptuar los siguientes términos: media aritmética, mediana, moda, medida de tendencia central, medida de posición, cuartiles, percentiles. 2) Calcular los estadísticos mencionados anteriormente. 3) Resolver problemas mediante el cálculo de los estadígrafos correspondientes. 4) LAS MEDIDAS DE TENDENCIA CENTRAL. Son valores representativos de un conjunto de datos y generalmente se encuentran hacia el centro del conjunto de datos ordenados, entre estas medidas tenemos: · La media aritmética · La mediana · La moda -
I) Media aritmética ( x ), ( m ). Es el valor más representativo de todo el conjunto de datos y se obtiene sumando los diferentes valores y dividiendo este resultado entre la cantidad de datos. La media aritmética es también conocida como promedio o simplemente media. -
x=
å x i n t
Nota. La media aritmética solo puede calcularse para variables cuantitativas. 44 Dirección de Educación a Distancia – UPDS Modalidad Cursos por Encuentros
Ciencias Aplicadas
Estadística I
Ejemplo: Los conjuntos A y B muestran las edades de los estudiantes de dos cursos de estadística, uno de la mañana y otro de la noche. Calcular las edades promedio e indicar en cual caso, el promedio de edades es mayor: A {23 25 B {21
26
22
21
23} Turno mañana
27 25
25
24
25
-
x A =
-
x B =
22} Turno noche
140 = 23 , 33 años 6 169 = 24 , 14 años 7
Respuesta: En el turno de la noche la edad promedio es mayor al turno de la mañana. NOTA: La unidad el promedio es la misma que la unidad de la variable; el promedio de un conjunto de datos de una variable discreta puede ser un número con decimal. Media aritmética para datos tabulados. Si los datos están tabulados entonces tenemos los diferentes valores de la variable además de la frecuencia absoluta de estos valores, y la media aritmética se calcula con la expresión:
-
x=
å n i x i n t
Ejemplo: el cuadro No. 1 muestra la distribución de las edades en los estudiantes de un colegio; a partir de esta información determinar la edad promedio. 45 Dirección de Educación a Distancia – UPDS Modalidad Cursos por Encuentros
Ciencias Aplicadas
Estadística I
CUADRO No. 1 DISTRIBUCIÓN DE EDADES EDAD
n i
niXi
12
27
324
13
48
624
14
53
742
15
45
675
16
51
816
17
37
629
18
39
702
(Xi)
-
4512 x = = 15 , 04 años 300
nt = 300
å = 4512
Respuesta: La edad promedio es 15,04 años Media aritmética para datos agrupados en clase. En este caso tendremos a los datos tabulados, pero a la vez agrupados en diferentes categorías. Para calcular el promedio se utiliza la misma fórmula anterior. -
x=
å n i x i n t
En la que x i es la marca de clase. Ejemplo: El cuadro No. 2 muestra la distribución de pesos de los clientes en un gimnasio, a partir de esta información determinar el peso promedio. CUADRO No. 2 DISTRIBUCIÓN DE PESO DE LOS CLIENTES 46 Dirección de Educación a Distancia – UPDS Modalidad Cursos por Encuentros
Ciencias Aplicadas
Estadística I
PESO (Kg)
ni
Xi
niXi
45 50
23
47,5
1092,5
50 55
37
52,5
1942,5
55 60
45
57,5
2587,5
60 65
67
62,5
4187,5
65 70
51
67,5
3442,5
70 75
30
72,5
2175
75 90
17
82,5
1402,5
nt = 270
å = 16830
-
16830 = 62 , 33 270 NOTA: El valor del promedio obtenido a partir de los datos agrupados en clase no es
x =
exactamente el promedio de los datos originales. -
Media aritmética ponderada ( x p ). Es un valor especial de promedio en el cual se toma en cuenta la ponderación de cada uno de los datos. Ponderación ( w i ). Es la validez o importancia que tiene un dato o un conjunto de datos. La fórmula para calcular la media aritmética ponderada es: -
x p =
å w i x i å w i
Ejemplo nº 1: Las notas en una asignatura se obtienen a través de dos exámenes parciales de igual valor y un examen final cuyo valor es el triple que un examen parcial. Todos los exámenes se toman sobre 100 puntos. El siguiente cuadro muestra las calificaciones obtenidas por un estudiante, obtener la nota final.
47 Dirección de Educación a Distancia – UPDS Modalidad Cursos por Encuentros
Ciencias Aplicadas
Estadística I
CUADRO No. 3 DISTRIBUCIÓN DE CALIFICACIONES EXAMEN
NOTA
PONDERACIÓN
(Xi)
(Wi)
1er. Parcial
40
1
40
2do. Parcial
35
1
35
Examen final
70
3
210
nt = 145
5
å = 285
-
x p =
WiXi
285 = 57 5
Ejemplo nº 2: El siguiente cuadro muestra las calificaciones de los estudiantes A y B, además de los créditos de 4 materias en una universidad, a partir de esta información determinar el promedio ponderado del semestre de ambos estudiantes CUADRO No. 4 DISTRIBUCIÓN DE MATERIAS MATERIA CRÉDITOS
NOTAS (Wi) A
B
ECO 001
3
90
30
ADM 001
4
69
57
MAT 001
5
45
83
CONT 001
4
51
79
Solución: CUADRO No. 4 DISTRIBUCIÓN DE MATERIAS
48 Dirección de Educación a Distancia – UPDS Modalidad Cursos por Encuentros
Ciencias Aplicadas
Estadística I
MATERIA CRÉDITOS
NOTAS (Xi)
WiXi
A
B
A
B
ECO 001
3
90
30
270
90
ADM 001
4
69
57
276
228
MAT 001
5
45
83
225
415
CONT 001
4
51
79
204
316
å = 975 å = 1049
nt = 16
-
x pA = -
x pB =
II)
975 = 60 , 94 16 1049 = 65 , 56 16
La mediana (Me). Es el valor que ocupa la posición central de un conjunto de
datos ordenados crecientemente o decrecientemente. La posición central entre un conjunto de datos se determina mediante la siguiente expresión: Posición central=
nt 2
+ 0 , 5
Así si tenemos 11 datos, la posición central será: Así si tenemos 8 datos, la posición central será:
11 + 0 , 5 = 6 2
8 + 0 , 5 = 4 , 5 2
Ejemplo: Hallar el valor de la mediana en el siguiente conjunto de datos. 3
23
17
5
19
3
16
5
16
17
19
23
Ordenando 3
3
49 Dirección de Educación a Distancia – UPDS Modalidad Cursos por Encuentros
Ciencias Aplicadas
Estadística I
Me = 16 Cálculo del valor de la mediana. Para calcular la mediana se debe tener en cuenta los siguientes casos: Mediana para datos no tabulados. En este caso se presentan dos situaciones: a) Si el número de datos es impar: La mediana para datos no tabulados en una cantidad impar es el valor que ocupa la posición central de los datos ordenados. Ejemplo: Hallar la mediana del conjunto siguiente: 78
2
24
17
15
17
3
1
14
3
14
15
17
17
24
78
ordenando 1
2
Me = 15 b) Si el número de datos es par. en este caso no existe una posición central y la mediana será el promedio de los dos datos más centrales del conjunto de datos ordenados. Ejemplo: Hallar la mediana en el siguiente conjunto de datos: 7 14 9 5 6
7
13 7
5 13 14
7
6
27 31 40
32 31
19
27 31 31
32 40
12 posición central= + 0 , 5 = 6 , 5 es decir el promedio entre las posiciones 6º y 7º 2 14 + 19 = 16 , 5 2 Mediana para datos tabulados. Cuando los datos están tabulados existen
Me =
datos de frecuencia, y en este caso se deben analizar dos situaciones: a) Si los datos no están agrupados en clase: En este caso se debe construir la tabla de distribución de frecuencia hasta la frecuencia acumulada menor que, luego se debe 50 Dirección de Educación a Distancia – UPDS Modalidad Cursos por Encuentros
Ciencias Aplicadas
determinar
Estadística I
n t y se presentan dos situaciones posibles: 2
n t no aparece en la lista de Ni. En este caso: 2 n N j - 1 £ t < N j y la mediana será Me = x j
a.1) Si el valor
2 2
Para los datos del cuadro 4 determinar la mediana
CUADRO No. 4 Xi
ni
Ni
30
2
2
40
7
9
50
7
16
Nj 1
60
14
30
Nj
70
15
45
80
8
53
90
3
56
nt = 56
n t 2
=
56 = 28 2
Me = x j
51 Dirección de Educación a Distancia – UPDS Modalidad Cursos por Encuentros
Ciencias Aplicadas
Estadística I
Me = 60
El cuadro No. 5 nos muestra la distribución del número de hijos en 30 familias de un barrio, calcular el valor de la mediana y el valor de la media aritmética.
CUADRO No. 5 DISTRIBUCIÓN DEL No. DE HIJOS No. DE HIJOS
ni
niXi
Ni
0
5
0
5
1
2
2
7
2
7
14
14
Nj 1
3
6
18
20
Nj
4
4
16
24
5
4
20
28
6
2
12
30
nt = 30
å = 82
La mediana:
n t 2
=
30 = 15 Me = x j Me = 3 2 52
Dirección de Educación a Distancia – UPDS Modalidad Cursos por Encuentros
Ciencias Aplicadas
a.2) Si el valor de
Estadística I
n t n aparece en la lista de N i , en este caso N j - 1 = t 2 2
Y la mediana será:
Me =
x j - 1 + x j 2
Ejemplo: Determinar la mediana para los datos del cuadro No. 6
CUADRO No. 6 Xi
ni
Ni
2
3
3
3
2
5
4
9
14
5
4
18
Nj 1
6
7
25
Nj
7
11
36
nt = 36
n t
36 5 + 6 = 18 Me = = 5 , 5 2 2 2 Ejemplo. El cuadro No. 7 muestra la distribución del No. de materias aprobadas por 48 =
estudiantes. Calcular el valor de la mediana y también el promedio de materias aprobadas.
CUADRO No. 7 DISTRIBUCIÓN DE MATERIAS APROBADAS 53 Dirección de Educación a Distancia – UPDS Modalidad Cursos por Encuentros
Ciencias Aplicadas
Estadística I
No.DE MATERIAS
ni
Ni
PROMEDIO
(Xi)
(niXi)
0
5
5
0
1
10
15
10
2
9
24
Nj 1
18
3
8
32
Nj
24
4
5
37
20
5
7
44
35
6
4
48
24
nt = 48
n t 2
=
48 = 24 2
Me =
-
x =
å = 131
2 + 3 = 2 , 5 La mediana es 2,5 2
å n i x i = 131 = 2 , 73 El promedio es 2,75 n t
48
b) Mediana para datos agrupados en clase. Para calcular la mediana en este caso se debe construir la columna Ni y determinar
N j - 1 £
n t 2
n t y se cumple que : 2
< N j
Y la mediana se calcula con la expresión:
54 Dirección de Educación a Distancia – UPDS Modalidad Cursos por Encuentros
Ciencias Aplicadas
Estadística I
é n t ù ê 2 - N j -1 ú Me = x j - 1 + ê úC ê N j - N j -1 ú êë úû Donde: C = Es la amplitud de de clase j
x j - 1 = Límite superior (Ls) de la fila j - 1 o el límite inferior (Li) de la fila j Ejemplo 1 . El cuadro No. 8 muestra la distribución de los pesos en libras, de 50 lingotes de oro; a partir de esta información determinar el valor del promedio y el valor de la mediana
CUADRO No. 8 DISTRIBUCIÓN DE PESOS DE LINGOTES DE ORO PESO (Lb)
n i
Xi
n iXi
N i
91,5 92,5
4
92
368
4
92,5 93,5
11
93
1023
15
Nj 1
93,5 94,5
20
94
1880
35
Nj
94,5 95,5
9
95
855
44
95,5 96,5
6
96
576
50
nt = 50
å = 4702
Cálculo del promedio -
x =
4702 = 94 , 04 50
Cálculo de la mediana
55 Dirección de Educación a Distancia – UPDS Modalidad Cursos por Encuentros
Ciencias Aplicadas
n t 2
=
Estadística I
50 = 25 2
é 25 - 15 ù 1 ë 35 - 15 úû
Me = 93, 5 + ê
Me = 93, 5 + 0 , 5 Me = 94 Ejemplo 2. El cuadro 9 muestra la distribución de pesos de los estudiantes de un colegio, a partir de esta información: a) Determinar el peso promedio. b) ¿A partir de qué peso se encuentra el 50% del total de pesos los más pesados? CUADRO No. 9 DISTRIBUCIÓN DE PESOS
PESOS (Kg)
ni
Xi
niXi
Ni
30 40
69
35
2.415
69
40 50
73
45
3.285
142
Nj 1
50 60
101
55
5.555
243
Nj
60 70
51
65
3.315
294
70 80
27
75
2.025
321
nt = 321
å = 16595
a) El promedio de pesos es 51,70 Kg 56 Dirección de Educación a Distancia – UPDS Modalidad Cursos por Encuentros
Ciencias Aplicadas
Estadística I
b) La mediana 18 , 5 é160 , 5 - 142 ù * 10 Me = 50 + * 10 ú 101 ë 243 - 142 û
Me = 50 + ê
Me = 50 + 1 , 83 = 51,83 El 50 % de los pesos, los más pesados se encuentran a partir de 51,83 Kg -
NOTA: La unidad del promedio ( x ) y de la mediana es igual que la de la variable. Por ejemplo: si los datos están expresados en años, la mediana tiene que expresarse en años. III) La moda (Mo). La moda es el dato que más se repite. Ejemplo 1: Para el siguiente conjunto de datos determinar: a) La mediana b) La moda c) El promedio Solución. a) Cálculo de la mediana 7
4
3,5
4
8
10
5
Ordenando para la mediana: Es la quinta posición (
3.5
4
4
4
5
7
7
4
7
9 + 0 , 5 = 5 ) 2
8
10
b) Determinación de la moda Mo = 4 (porque se repite más veces) c) Cálculo del promedio
57 Dirección de Educación a Distancia – UPDS Modalidad Cursos por Encuentros
Ciencias Aplicadas
-
x =
Estadística I
52, 5 = 5 , 83 9
Ejemplo 2: Para el cuadro No.10 calcular: a) El promedio b) La mediana c) La moda
CUADRO No. 10 DISTRIBUCIÓN DE EDADES EDAD (X i)
n i
n iXi
Ni
6
12
72
12
7
6
42
18
N j 1
8
11
88
29
N j
9
6
54
35
10
13
130
48
11
5
55
53
12
4
48
57
nt = 57
å = 489
a) Calculo del promedio
58 Dirección de Educación a Distancia – UPDS Modalidad Cursos por Encuentros
Ciencias Aplicadas
-
x =
Estadística I
489 = 8 , 58 57
El promedio es 8,58
b) Cálculo de la mediana
n t 2
=
57 = 28 , 5 2
Me = x j Me = 8
El valor que ocupa la posición central es 8
c) Cálculo de la moda Mo = 10 años (es el número que mas se repite, o sea 13 veces) NOTA: La unidad de la moda es la misma que la de la variable. Moda para datos agrupados en clase. Cuando los datos están agrupados en clase no podemos observar los datos y por lo tanto no podemos determinar al dato mas repetido, pero si podemos encontrar la zona de mayor concentración de datos, que es el valor de la moda, la cual se calcula con la expresión: é
D 1 ù ú * c ë D 1 + D 2 û
Mo = x j - 1 + ê
Donde: D 1 = n j - n j -1 D 1 = n j - n j +1 Siendo:
n j = el mayor de las n i n j -1 = el n i precedente n j +1 = el n i posterior
59 Dirección de Educación a Distancia – UPDS Modalidad Cursos por Encuentros
Ciencias Aplicadas
Estadística I
Ejemplo 1: Para los datos del cuadro No. 11 determinar: a) la moda, b) la mediana y c) el promedio. CUADRO No. 11 Li Ls
n i
Xi
n iX i
Ni
2 4
28
3
84
28
4 6
35
5
175
63
6 8
31
7
217
94
Nj 1
8 10
39
nj1
9
351
133
Nj
10 12
43
nj
11
473
176
12 14
22
nj+1
13
286
198
nt = 198
å = 1586
a) Moda D 1 = 43 - 39 = 4 D 2 = 43 - 22 = 21
é 4 ù ú * 2 ë 4 + 21 û
Mo = 10 + ê
Mo = 10 + 0 , 32 Mo = 10, 32 La zona de mayor concentración de datos es 10,32 b) Mediana
n t 2
=
198 = 99 2 é 99 - 94 ù * 2 ë133 - 94 úû
Me = 8 + ê
60 Dirección de Educación a Distancia – UPDS Modalidad Cursos por Encuentros
Ciencias Aplicadas
Me = 8 +
Estadística I
5 * 2 39
Me = 8 + 0 , 25 Me = 8, 25 El valor que ocupa la posición central es 8,25 c) Promedio -
x =
1586 = 8 , 01 El promedio es 8,01 198
MEDIDAS DE POSICIÓN. Las medidas de posición son medidas que indican que dato ocupa una determinada posición dentro del conjunto de datos ordenados. Entre estas medidas tenemos: la mediana, los cuartiles y los percentiles. Cuartiles (Qi). Los cuartiles son valores que dividen al conjunto de datos ordenados en cuatro partes iguales, los cuartiles son tres:
Chico 25% Q1 25% Q2 25% Q3 25% Grande 61 Dirección de Educación a Distancia – UPDS Modalidad Cursos por Encuentros
Ciencias Aplicadas
Estadística I
Cuartil 1 Q1 = Es el valor que separa la cuarta parte inferior de los datos. é n t ù ê 4 - N j -1 ú Q 1 = x j - 1 + ê ú * C ê N j - N j -1 ú ëê ûú Cuartil 2 Q2 = Es el valor que serpa el 50% inferior de los datos, entonces el Q2 equivale a la mediana. é n t ù ê 2 - N j -1 ú Q 2 = x j - 1 + ê ú * C ê N j - N j -1 ú ëê ûú Cuartil 3 Q3 = Es el valor que separa el 25% superior de los datos. é 3 n t ù ê 4 - N j -1 ú Q 3 = x j - 1 + ê ú * C ê N j - N j -1 ú ëê ûú Ejemplo: Para los datos del cuadro No. 12 hallar el a) Q1 y b) el Q3 e interpretar los resultados. CUADRO No.12 Li Ls
ni
Ni
12 17
125
125
N j1
17 23
132
257
Nj
23 29
129
386
29 35
130
516 62
Dirección de Educación a Distancia – UPDS Modalidad Cursos por Encuentros
Ciencias Aplicadas
Estadística I
35 40
126
642
Nt = 642 a) Cálculo de Q1
n t 4
=
642 = 160 , 5 4
Q1 = 17 +
é160 , 5 - 125 ù * 6 ë 257 - 125 úû
Q1 = 17 + ê
35 , 5 * 6 132
Q1 = 17 + 1 , 61 Q1 = 18 , 61 El valor que separa la cuarta parte inferior de los datos es 18,61 b) Cálculo Q 3 3n t 3 * 642 = = 481 , 5 4 4 é 481 , 5 - 386 ù ú * 6 ë 516 - 386 û
Q 3 = 29 + ê
Q 3 = 29 +
95 , 5 * 6 130
Q 3 = 29 + 4 , 41 = 33,41 El valor que separa el 25 % superior es 33,41 Ejemplo : El cuadro No. 13 muestra la distribución de los pesos de los chanchos de una granja porcina, se determino que el 25% de estos chanchos, los más pesados serán llevados al matadero, además se determinó que el 25% de los chanchos los más livianos recibirán una alimentación especial. Determinar: a) A partir de que peso irán al matadero ? b) Hasta que peso recibirán la alimentación especial? 63 Dirección de Educación a Distancia – UPDS Modalidad Cursos por Encuentros
Ciencias Aplicadas
Estadística I
CUADRO no. 13 Distribución de los pesos de los chanchos Li Ls
ni
Ni
40 45
206
206
N j1
45 50
237
438
Nj
50 55
241
679
55 60
200
879
N j1
60 65
193
1072
Nj
65 70
197
1269
nt= 1269
a) Cálculo de Q3 3n t 3 * 1269 = = 951 , 75 4 4 é 951 , 75 - 879 ù ú * 5 ë 1072 - 879 û
Q 3 = 60 + ê
Q 3 = 60 +
72 , 75 * 5 193
Q 3 = 60 + 1 , 88 Q 3 = 61 , 88
Rta. Los chanchos con pesos a partir de 61,88 irán al matadero b) Cálculo de Q1 64 Dirección de Educación a Distancia – UPDS Modalidad Cursos por Encuentros
Ciencias Aplicadas
n t 4
=
Estadística I
1269 = 317 , 25 4 é 317 , 25 - 206 ù * 5 ë 438 - 206 úû
Q1 = 45 + ê
Q1 = 45 +
111 , 25 * 5 232
Q1 = 45 + 2 , 39 Q1 = 47 , 39 Rta. Los chanchos con peso menor de 47,39 recibirán una alimentación especial.
PERCENTILES (Pk). Lo percentiles son valores que ocupan una determinada posición en una escala de 100 del conjunto de datos ordenados crecientemente y así tenemos: El P10 se lee: percentil 10 y es el valor que separa el 10% inferior de los datos. El P30 se lee: percentil 30 y es el valor que separa el 30% inferior de los datos. El P80 se lee: percentil 80 y es el valor que separa el 20% superior de los datos La fórmula para calcular el percentil es: é kn t ù ê 100 - N j -1 ú P k = x j - 1 + ê ú * C ê N j - N j -1 ú êë úû Ejemplo: Para los datos del cuadro No. 14 determinar: a) El valor que separa el 30% inferior de lo datos. b) El valor que separa el 25% superior de los datos. c) El percentil 5 e interpretar 65 Dirección de Educación a Distancia – UPDS Modalidad Cursos por Encuentros
Ciencias Aplicadas
Estadística I
CUADRO No. 14 Li Ls
ni
Ni
40 50
272
272
Nj1
50 60
321
593
N j
60 70
259
852
70 80
247
1099
Nj1
80 90
232
1331
N j
90 100
256
1587
nt= 1587
a) Cálculo P30
kn t 100
=
30 * 1587 = 476 , 1 100
é 476 , 1 - 272 ù ú * 10 ë 593 - 272 û
P30 = 50 + ê
P30 = 50 + 6 , 37 P30 = 56 , 37 Rta.: El valor que separa el 30% inferior de los datos ordenados es 56,37 b) Cálculo del P75 66 Dirección de Educación a Distancia – UPDS Modalidad Cursos por Encuentros
Ciencias Aplicadas
kn t 100
=
Estadística I
75 * 1587 = 1190 , 25 100 é1190 , 25 - 1099 ù * 10 ë 1331 - 1099 úû
P75 = 80 + ê
P75 = 80 + 3 , 92 P75 = 83 , 92 Rta. El valor que separa el 25% superior de los datos ordenados es 83,93 c) Cálculo del P5
kn t 100
=
5 * 1587 = 79 , 35 100 é 79 , 5 - 0 ù * 10 ë 272 - 0 úû
P5 = 40 + ê
P5 = 40 + 2 , 93 P5 = 42 , 93 Rta.: El valor que separa el 5% inferior de los datos ordenados es 42,93
UNIDAD 4. MEDIDAS DE DISPERSIÓN OBJETIVOS DE LA UNIDAD. Al terminar la presente unidad seré capaz de: 1. Conceptuar correctamente los términos homogéneo, heterogéneo, disperso, medidas de dispersión, 67 Dirección de Educación a Distancia – UPDS Modalidad Cursos por Encuentros
Ciencias Aplicadas
Estadística I
2. Calcular las medidas de dispersión e interpretar los resultados. 3. Resolver problemas mediante el cálculo de la medida de dispersión adecuada. HOMOGÉNEO. Un conjunto de datos es homogéneo cuando los valores son parecidos. HETEREOGÉNEO. Un conjunto de datos es heterogéneo cuando sus valores son distintos o están separados unos de otros entre si. DISPERSO. Un conjunto de datos es disperso cuando sus valores están separados uno de otros entre sí. VARIABILIDAD. Es la condición que tiene un conjunto de datos numéricos respecto de su grado de separación entre ellos, (a mayor variabilidad mayor dispersión). MEDIDAS DE DISPERSIÓN. Son medidas que indican en que grado los datos están separados unos de otros entre si. Entre los principales tenemos: El rango, la varianza, la desviación standard, el coeficiente de variación. EL RANGO. Es la diferencia entre el mayor valor y el menor valor de un conjunto de datos. Ejemplo: Hallar el rango para los conjuntos A y B A {3
7
5
4
8
6}
RA = 8 3 = 5
B {5
3
2
13
10
12}
RB = 13 – 2 =11
El cálculo del rango presenta limitaciones debido a que sólo toma en cuenta dos valores: el menor y el mayor y en ciertas oportunidades nos puede llevar a una interpretación incorrecta. VARIANZA (S 2 ). La varianza se define como el cociente entre la sumatoria del cuadrado de las desviaciones de cada dato con respecto a la media sobre la cantidad total de datos.
68 Dirección de Educación a Distancia – UPDS Modalidad Cursos por Encuentros
Ciencias Aplicadas
- æ ö ç x i - x ÷ å ø S 2 = è
Estadística I
2
n t
Nota. La varianza tiene por unidad la unidad de la variable al cuadrado, pero no tiene un sentido físico de interpretación. Ej. Los datos que se muestran a continuación representan las edades de los niños de dos kinders, calcular la varianza e indicar en cual caso las edades son más homogéneas. -
Edades de niños en Kinder A {5 , 4 , 5 , 4 , 5 , 6 }
x = 4, 8
Edades de niños en Kinder B {4 , 4 , 6 , 4 , 7 , 4 }
x = 4, 8
-
En el Kinder A
x i
- æ ö ç x i - x ÷ è ø
5
0,04
4 5
0,64 0,04
4 5
0,64 0,04
6
1,44
2
å = 2 , 84 S A 2 =
2 , 84 = 0 , 47 6
En el Kinder B
x i
- æ ö ç x i - x ÷ è ø
2
69 Dirección de Educación a Distancia – UPDS Modalidad Cursos por Encuentros
Ciencias Aplicadas
4
0,64
4
0,64
6
1,44
4
0,64
7 4
4,84 1,44
Estadística I
å = 8 , 84 8 , 84 = 1 , 47 6 Interpretación: Las edades en de los niños en el Zinder A son más homogeneas porque
S B 2 =
S A < S B VARIANZA PARA DATOS TABULADOS. Cuando los datos están tabulados la varianza se calcula con la expresión: 2
- æ ö x x ç ÷ n i å i 2 è ø ej. S =
n t
El cuadro nº 1 muestra la distribución de edades de los estudiantes universitario de un carrera, determinar la varianza. Cuadro nº 1 Distribución de las edades de los estudiantes 2
EDAD (x i)
n i
n ix i
- æ ö ç x i - x ÷ n i è ø
18
12
216
144,23
19
50
950
304,27
20
123
2460
264,66
21
178
3738
38,8
22
156
3432
44,34
23
98
2254
230,35
24
77
1848
494,09
nt= 694
å = 14898
å = 1520, 74 70
Dirección de Educación a Distancia – UPDS Modalidad Cursos por Encuentros
Ciencias Aplicadas
Estadística I
-
14898 = 21 , 47 694 1520 , 74 S 2 = = 2 , 19 694 Nota. La unidad de la varianza es igual a la unidad de la variable elevado al cuadrado pero esta unidad no tiene sentido físico de interpretación
X =
DESVIACIÓN STANDARD (S). Es uno de los mejores indicadores de dispersión porque toma en cuenta a todos los elementos, además que se calcula utilizando la desviación de cada dato respecto a la media y se calcula con la expresión:
- æ x x ç å è i ö÷ø
S =
n t
2
o bien S = S 2
Ejemplo: Calcular la desviación Standard de los conjuntos A y B e indicar cual conjunto de datos es más homogéneo. -
A { 2
5
4
3
6}
B { 3
1
9
8
2
x A = 4 -
4}
x A = 4, 5
Para el conjunto A
x i
- æ ö ç x i - x ÷ è ø
2
4
5
1
4
0
2
71 Dirección de Educación a Distancia – UPDS Modalidad Cursos por Encuentros
Ciencias Aplicadas
Estadística I
3
1
6
4
å = 10 S A =
10 = 1 , 41 5
Para el conjunto B
x i
- æ ö ç x i - x ÷ è ø
3
2,25
1
12,25
9
20,25
8
12,25
2
6,25
2
å = 53 , 25 S B =
53, 25 = 3 , 26 5
Respuesta. En el conjunto A los datos son más homogéneos porque S A < S B DESVIACIÓN STANDARD PARA DATOS TABULADOS. Cuando los datos están tabulados tenemos la frecuencia absoluta ni y en este caso la desviación Standard se calcula con la 72 Dirección de Educación a Distancia – UPDS Modalidad Cursos por Encuentros
Ciencias Aplicadas
Estadística I
expresión: 2
S=
- æ x x ç å è i ö÷ø n i
n t
Ejemplo 1: Los cuadros 2 y 3 muestran la distribución de edades de los estudiantes en los colegios A y B a partir de esta información calcular la desviación Standard e indicar en cual caso las edades son más homogéneas.
Cuadro nº 2 Distribución de edades en el colegio A 2
EDAD (x i)
n i
n ix i
- æ ö ç x i - x ÷ n i è ø
11
12
132
152,61
12
17
204
111,96
13
87
1131
213,43
14
103
1442
33,03
15
95
1425
17,87
16
42
672
86,33
17
31
527
183,61
18
20
360
235,81
19
8
152
157,26
nt= 415 -
x=
å n i x i n t
-
= x =
å = 6045 å = 1191, 91
6045 = 14 , 57 415 73
Dirección de Educación a Distancia – UPDS Modalidad Cursos por Encuentros
Ciencias Aplicadas
S =
Estadística I
1191, 91 = 1 , 69 415
La desviación Standard es 1,69 años
Cuadro nº 3 Distribución de edades en el colegio B EDAD (x i)
ni
nixi
- æ ö ç x i - x ÷ è ø
12
42
504
364,85
13
53
689
200,99
14
49
686
43,98
15
61
915
0,17
16
48
768
53,18
17
52
884
219,09
18
37
666
344,79
nt= 342
2
å = 5112 å = 1227, 05
74 Dirección de Educación a Distancia – UPDS Modalidad Cursos por Encuentros
Ciencias Aplicadas
-
Estadística I
5112 = 14 , 95 342
x =
S =
1227, 05 = 1 , 89 342
Respuesta: Las edades son más homogéneas en el colegio A porque S A < S B COEFICIENTE DE VARIACIÓN. (CV). El coeficiente de variación es otra medida de dispersión pero en este caso es una mediada de dispersión relativa. El coeficiente de variación se calcula mediante la expresión: CV =
S * 100 -
x Nota. El coeficiente de variación se utiliza para comparar la homogeneidad de dos conjuntos de datos que están expresados en diferentes unidades o en el caso de que sean datos que correspondan a realidades diferentes Ej. -
-
Si consideramos dos distribuciones cuyas medias aritméticas son: X 1 = 24 , 5 y X 2 = 40 , además sus desviaciones standard son idénticas, S1 = 2 y S 2 = 2 Hallar el coeficiente de variación en cada caso e interpretar: Solución:
CV1 =
2 × 100 = 8 , 16 % 24 , 5
CV1 =
2 × 100 = 5 % 40
Resp. La distribución 2 es más homogénea que la distribución 1 porque CV2 < CV 1
UNIDAD 5. SIMETRÍA Y CURTOSIS OBJETIVOS DE LA UNIDAD. Al finalizar la presente unidad seré capaz de: 1. Conceptuar los siguientes términos: simétrico, asimétrico, simetría, curtosis. 75 Dirección de Educación a Distancia – UPDS Modalidad Cursos por Encuentros
Ciencias Aplicadas
Estadística I
2. Calcular los coeficientes de simetría y curtosis e interpretar los resultados. SIMÉTRICO. Es la condición de un objeto o figura en la cual sus lados izquierdo y derecho son semejantes, respecto al centro. ASIMÉTRICO. Es la condición de un objeto o figura en el cual ambos lados no son semejantes. SIMETRÍA. Es la medida respecto de la similitud de ambos lados un objeto o figura, en el caso de la distribución de frecuencia la simetría se mide mediante el coeficiente de sesgo: -
x - Mo Sesgo = S
De acuerdo al valor obtenido en el sesgo se presenta los siguientes casos : a) Si el sesgo es 0 entonces la distribución es simétrica
-
x = Mo
76 Dirección de Educación a Distancia – UPDS Modalidad Cursos por Encuentros
Ciencias Aplicadas
Estadística I
b) Si el sesgo es positivo entonces la distribución es sesgado a la derecha -
x > Mo
c) Si el sesgo es negativo entonces la distribución es sesgada a la izquierda. -
x < Mo
Ejemplo: Para los datos del cuadro No. 1 que se muestra la distribución de las edades de los niños en una escuela, determinar la simetría e interpretar. 77 Dirección de Educación a Distancia – UPDS Modalidad Cursos por Encuentros
Ciencias Aplicadas
Estadística I
CUADRO No. 1 DISTRIBUCIÓN DE EDADES EDAD
n i
n i x i
4
4
16
5
6
30
6
9
54
7
6
42
8
4
32
n t = 29
å = 174
Cálculo de la media -
x=
å n i x i = 174 = 6 n t
29
Cálculo de la moda Mo = 6 (porque el 6 se repite más veces o sea 9 veces)
Sesgo =
6 - 6
S
=
0
S
= 0
Respuesta: La distribución es simétrica porque el sesgo es 0 CURTOSIS. La curtosis nos mide el grado de apuntalamiento de la distribución de frecuencias y se presentan 3 casos:
a) Leptocúrtica 78 Dirección de Educación a Distancia – UPDS Modalidad Cursos por Encuentros
Ciencias Aplicadas
Estadística I
b) Mesocúrtica
c) Platicúrtica
79 Dirección de Educación a Distancia – UPDS Modalidad Cursos por Encuentros
Ciencias Aplicadas
Estadística I
La curtosis se determina mediante el calculo del coeficiente de curtosis K.
K =
0 , 5 (Q 3 - Q 1 ) P 90 - P 10
Los valores de la curtosis varían entre 0 y 0.5
De acuerdo el valor de la curtosis se presenta los siguientes casos: CLASIFICACIÓN
K
Leptocurtica
0,375 – 0,500
Mesocurtica
0,125 0,375
Platicurtica
0
0,125
Ejemplo: Una distribución de frecuencia tiene los siguientes indicadores de posición: Q3 = 290,75 Kg. Q1 = 268,25 Kg P90 = 301 Kg. P10 = 258,12 Kg 80 Dirección de Educación a Distancia – UPDS Modalidad Cursos por Encuentros
Ciencias Aplicadas
Estadística I
Determinar el coeficiente de curtosis e interpreter el resultado.
K =
0, 5 (290 , 7 - 268 , 25 ) 0 , 5 (22 , 45 ) 301 - 258 , 12 42 , 88
K = 0, 26 Respuesta: Es mesocurtica
UNIDAD 6. REGRESIÓN Y CORRELACIÓN OBJETIVOS DE LA UNIDAD. Al finalizar la presente unidad seré capaz de: 1) Conceptuar correctamente los siguientes términos: función de regresión, diagrama de dispersión, gráficos de la función de regresión, coeficiente de correlación. 2) Encontrar la función de regresión lineal por medio del método de los mínimos cuadrados. 3) Pronosticar el valor de la variable dependiente utilizando la función de regresión. 4) Encontrar el modelo de regresión adecuado que explique la relación entre dos variables utilizando la computadora. FUNCIÓN DE REGRESIÓN. Es una expresión matemática que muestra la relación que hay 81 Dirección de Educación a Distancia – UPDS Modalidad Cursos por Encuentros
Ciencias Aplicadas
Estadística I
entre una variable independiente y una variable dependiente, la función de regresión sirve para estimar o pronosticar el valor de la variable dependiente a partir de un valor de la variable independiente. Entre los principales modelos tenemos: lineal, potencial y exponencial, etc. ECUACIÓN DE REGRESIÓN LINEAL. Este modelo se basa en la ecuación de la línea recta.
Y = mx + b La expresión de regresión lineal se expresa con la fórmula:
Y = a + bx Donde: X = variable independiente. Y = variable dependiente a = intercepto (donde la recta corta el eje “y”) b = pendiente (grado de inclinación)
Los valores de a y b se determinan por el método de los mínimos cuadrados. MÉTODO DE LOS MÍNIMOS CUADRADOS. Este método consiste en encontrar los valores de
a y b que aparecen en las ecuaciones I y II, calculando las sumatorias que están en las fórmulas: 82 Dirección de Educación a Distancia – UPDS Modalidad Cursos por Encuentros
Ciencias Aplicadas
Estadística I
å y = n · a + å x · b å x · y = å x · a + å x
I.
2
II.
· b
Donde n es el número de pares de datos. COEFICIENTE DE CORRELACIÓN (r). El coeficiente de correlación es un indicador del grado de asociación existente entre dos variables para un determinado modelo, para el modelo de regresión lineal el coeficiente de correlación se calcula mediante la expresión:
r =
n · å (xy ) - (å x ) · (å y ) n · å x 2 - (å x ) · n · å y 2 - (å y ) 2
2
El coeficiente de correlación lineal puede tomar valores entre – 1 y + 1, el signo más (+) significa que la línea es creciente Y el signo menos ( ) significa que la línea es decreciente De acuerdo al valor de r se puede interpretar el resultado según el siguiente cuadro: | r | 0 £ r £ 0 , 3
INTERPRETACIÓN No hay correlación entre las variables
0, 3 £ r £ 0 , 6 La correlación entre las variables es muy débil 0, 6 £ r £ 0 , 8 La correlación es regular 0, 8 £ r £ 0 , 9 La correlación es fuerte
0, 9 £ r < 1
La correlación es excelente
r = 1
La correlación es perfecta
DIAGRAMA DE DISPERSIÓN. Es la representación gráfica de los datos experimentales. 83 Dirección de Educación a Distancia – UPDS Modalidad Cursos por Encuentros
Ciencias Aplicadas
Estadística I
GRÁFICO DE LA FUNCIÓN DE REGRESIÓN. Es el gráfico de la expresión matemática que muestra la relación entre variables, se obtiene dando tabla de valores.
8
7
6
variable dependiente
5
4
3
2
1 2
0
2
4
6
8
10
variable independiente
Ejemplo: El cuadro No. 1 muestra un conjunto de datos de la variable independiente (x) y dependiente (y), a partir de esta información: a) Determinar la función de regresión lineal. b) El coeficiente de correlación r e interpretar. c) Construir el diagrama de dispersión. d) Graficar la función de regresión. e) Estimar el valor de la variable dependiente y para x = 10
x
y
xy
x 2
y 2
0
1
0
0
1
2
2
4
4
4
4
3
12
16
9 84
Dirección de Educación a Distancia – UPDS Modalidad Cursos por Encuentros
Ciencias Aplicadas
Estadística I
8
5
40
64
25
9
5,5
49,5
81
30,25
å = 23
I. II.
å = 16, 5 å = 105, 5 å = 165 å = 69 , 25
(- 23 ) 105, 5 = 23 a + 165 b (5 ) 16, 5 = 5 a + 23 b
- 379, 5 = -115 a - 529 b 527, 5 = 115 a + 825 b 148 = 296 b 148 = b 296 0 , 5 = b Reemplazando en I 16, 5 = 5 a + 23 (0 , 5 ) 16, 5 = 5 a + 11 , 5 16, 5 - 11 , 5 = 5 a 5 = 5 a 5 = a 5 1 = a Reemplazando los valores de a y de b obtenidos en la función de regresión lineal y = a + bx Obtenemos como resultado la expresión: a) y = 1 + 0 , 5 x Función de regresión lineal 85 Dirección de Educación a Distancia – UPDS Modalidad Cursos por Encuentros
Ciencias Aplicadas
Estadística I
Nota. Los valores de a y de b también se pueden determinar mediante las expresiones: III b =
n å xy - å x å y n å x 2 - (å x ) 2
y IV a =
å y - b å x
n
reemplazando los valores de
las sumatorias en las ecuaciones III y IV tenemos:
b =
5 × 105 , 5 - 23 × 16 , 5 5 × 165 - 23 2
a =
16, 5 - 0 , 5 × 23 5
b = 0, 5 a = 1
b) Cálculo del coeficiente de correlación r
r =
n · å ( xy ) - (å x ) · (å y ) n · å x 2 - (å x ) · n · å y 2 - (å y ) 2
2
Para esto se reemplaza los valores de las sumatorias en la expresión de r
r =
r =
5 · 105 , 5 - 23 · 16 , 5 5 · 165 - 23 2 · 5 · 69 , 25 - 16 , 5 2 527, 5 - 379 , 5 276 · 74
=
148
148 = 1 17 · 74 148 =
El resultado del coeficiente de correlación r = 1 quiere decir que la correlación es perfecta para el modelo lineal es decir que el modelo lineal Y = a + bx se adecúa perfectamente para los datos planteados en el presente problema Rta. La correlación es perfecta. c) Diagrama de dispersión
86 Dirección de Educación a Distancia – UPDS Modalidad Cursos por Encuentros
Ciencias Aplicadas
Estadística I
6
5
4
Variable dependiente
3
2
1
0 2
0
2
4
6
8
10
Variable independiente
d) Grafico de la función de regresión
87 Dirección de Educación a Distancia – UPDS Modalidad Cursos por Encuentros
Ciencias Aplicadas
Estadística I
e) Estimar el valor de la variable dependiente y para x = 10 Reemplazando el valor de x = 10 en la función de regresión obtenida y = 1 + 0 , 5 x Tenemos y = 1 + 0 , 5 ( 10 )
y = 1 + 5
y = 6 Ejemplo 2 : El cuadro No. 2 muestra el consumo en unidades de cierto producto en el mercado local a través de los años. Año (x)
1 2 3 4 5 6 7 8
Consumo (y)
154 137 124 114
113 112 107 102
A partir de esta información: a) Determine la función de regresión lineal b) Calcule el coeficiente de regresión lineal c) Construya un diagrama de dispersión y grafico de la función de regresión d) Estime el consumo para el año 10
Ordenando el cuadro de manera vertical y hallando los valores de xy, x 2 , y 2 Año (x)
Consumo(y)
xy
X 2
Y 2
1 2
154 137
154 274
1 4
23716 18769
3
124
372
9
15376
4
114
456
16
12996
5
113
565
25
12769
6 7
112 107
672 749
36 49
12544 11449
8
102
816
64
10404
å = 36
å = 963
å = 4058
å = 204
å = 118023
88 Dirección de Educación a Distancia – UPDS Modalidad Cursos por Encuentros
Ciencias Aplicadas
Estadística I
a) Determinación de la función de regresión lineal Reemplazando datos en las ecuaciones I y II tenemos: (I)
(9)
963 = 8 a + 36 b
(II)
(2)
4058 = 36 a + 204 b - 8667 = -72 a - 324 b 8116 = 72 a + 408 b - 551 = 84 b
- 551 84 Reemplazando en I
b = -6, 56
b =
963 = 8 a + 36 (- 6 , 56 ) 963 = 8 a - 236 , 16 963 + 236 , 16 = 8 a
a =
1199, 16 8
a = 149, 89
Otra forma. Aplicando las ecuaciones III b =
b =
8 × 4058 - 36 × 963 8 × 204 - 36 2
b = -6, 56
n å xy - å x å y n å x 2 - (å x ) 2
a =
963 - (- 6 , 56 ) 36 8
y IV a =
å y - b å x
n
a = 149, 895
Reemplazando los valores de a y de b tenemos la función de regresión:
y = 149, 89 - 6 , 56 x Nótese que en este caso el valor b es negativo, lo que significa que la recta será decreciente, es decir será de pendiente negativa. b) Cálculo del coeficiente de correlación lineal r Reemplazando los valores de las sumatorias en
r =
n · å ( xy ) - (å x ) · (å y ) n · å x - (å x ) · n · å y - (å y ) 2
2
2
2
tenemos
89 Dirección de Educación a Distancia – UPDS Modalidad Cursos por Encuentros
Ciencias Aplicadas
r =
r =
Estadística I
8 · 4058 - 36 × 963 2
2
8 × 204 - (36 ) · 8 × 118023 - (963 )
32464 - 34668 18 , 33 × 129 , 67
r = -0, 927 La correlación es excelente
c) Diagrama de dispersión y gráfico de la función de regresión
Diagrama de dispersión 160
150
140
130
Consumo
120
110
100 0
2
4
6
8
10
Año
Como podemos apreciar en el anterior gráfico el diagrama de dispersión es el conjunto de puntos mientras que el gráfico de la función de regresión es la línea recta que aparece, además podemos apreciar que el intercepto (punto sobre el eje vertical) es 149,89. d) Estimación del consumo para el año 10 Para el valor x = 10 se reemplaza en la función de regresión y = 149, 89 - 6 , 56 x Entonces tenemos: y = 149, 89 - 6 , 56 ( 10 )
y = 83, 4
90 Dirección de Educación a Distancia – UPDS Modalidad Cursos por Encuentros
Ciencias Aplicadas
Estadística I
Otros modelos de funciones de regresión Hasta el momento hemos visto un modelo de función de regresión que es el modelo de regresión lineal Y = a + bx En diversos campos del conocimiento se presentan relaciones entre dos variables, como por ejemplo la relación entre la velocidad y el tiempo, la relación entre el ingreso y el consumo, la relación entre la temperatura ambiente y la venta diaria del heladero, etc. Y estas relaciones entre variables no siempre siguen un comportamiento lineal. Se han estudiado diferentes modelos, entre los cuales podemos citar: El modelo de regresión Potencial: Y = a × x b El modelo de regresión Exponencial: Y = a × b x El modelo de regresión Cuadrático: Y = ax 2 + bx + c Para cada uno de estos y de otros modelos de regresión se puede calcular el coeficiente de regresión r el cual se puede obtener de manera sencilla mediante el uso de SPSS, como ya vimos anteriormente el coeficiente de correlación r nos indica el grado de correlación que existe entre las dos variables consideradas para el modelo de regresión utilizado, interpretándose que mientras más cerca del valor 1 en positivo o negativo se encuentre este valor de r significará que el modelo considerado expresará de mejor manera la relación entre las variables consideradas. Determinación del mejor modelo de regresión con SPSS. Para determinar el mejor modelo de función de regresión para un par de series de datos pertenecientes a dos variables relacionadas se siguen los siguientes pasos: Ejemplo para los datos del siguiente cuadro X
1 2 3 5 8
y
1 4 9 25 64
Determinar el mejor modelo de función de regresión. En primer lugar, luego de abrir el SPSS en la vista de variables se organizan las variables X y Y de la siguiente manera: En Vista de variables preparamos a las variables x y y colocando
x como nombre y “variable independiente” como etiqueta, y para la variable y colocamos y como nombre y “variable dependiente” como etiqueta, seguidamente en vista de datos introducimos los datos del cuadro anterior, acto seguido hacemos click en el menú analizar, luego regresión y finalmente estimación curvilínea, entonces aparecerá el siguiente cuadro de dialogo:
91 Dirección de Educación a Distancia – UPDS Modalidad Cursos por Encuentros
Ciencias Aplicadas
Estadística I
Entonces tenemos que colocar las variables independiente y dependiente en las correspondientes ventanas y habilitamos los modelos deseados del menú de 11 modelos que nos presenta esta ventana, en este caso solo escogeremos los modelos lineal, potencial, exponencial y logarítmico. Seguidamente hacemos click en aceptar y se desplazará la siguiente ventana de resultados:
92 Dirección de Educación a Distancia – UPDS Modalidad Cursos por Encuentros
Ciencias Aplicadas
Estadística I
En esta ventana de resultados debemos observar la 3º columna Rsq en la cual se presentan los coeficientes de correlación r de los modelos analizados, y en esta ventana se puede apreciar que para el modelo potencial (POW) su valor es 1 lo que podemos interpretar que para los datos considerados el modelo potencial representa perfectamente la relación entre las variables independiente y dependiente mientras que para los otros modelos estos valores de r son menores a 1 representando este resultado que los modelos lineal, exponencial y logarítmico no expresan perfectamente la relación entre las variables. Debemos observar en las columnas penúltima b0 y última b1 muestran los valores de a y de b para los modelos respectivos y en el caso del modelo potencial a = 1 y b = 2 por lo que la función de regresión potencial
Y = a × x b queda definida para el presente caso com: Y = 1 × x 2 , expresión que representa perfectamente la relación entre las variables x y y Prácticos Práctico nº 1 1. Indicar el concepto de los siguientes términos: a) Estadística descriptiva b) Estadística Inferencial c) Población, población finita e infinita, citar ejemplos d) Muestra e) Muestreo f) Variable g) Variable cualitativa nominal y citar ej. h) Variable cualitativa ordinal y citar ej. i) Variable cuantitativa discreta y citar ej. j) Variable cuantitativa continua y citar ej. k) Tabla ó cuadro de distribución de frecuencia l) Frecuencia absoluta m) Frecuencia absoluta acumulada menor que n) Frecuencia absoluta acumulada mayor que o) Clases ó Intervalo de clase p) Amplitud de clase q) Marca de clase r) Límite superior de clase, y límite inferior de clase s) Frecuencia absoluta de clase t) Frecuencia relativa porcentual 93 Dirección de Educación a Distancia – UPDS Modalidad Cursos por Encuentros
Ciencias Aplicadas
Estadística I
u) Frecuencia relativa porcentual acumulada menor que v) Frecuencia relativa porcentual acumulada mayor que w) Censo x) Encuesta y) Parámetro Poblacional z) Estadígrafo Muestral 2. La siguiente lista muestra el nº de hijos que dijeron tener 44 familias de la UV 36 seleccionadas al azar: 2 3 5 0 1 4 1 2 2 3 0 2 2 1 1 0 4 3 1 5 1 2 0 3 4 2 3 1 2 3 4 5 0 3 2 4 1 2 2 1 4 2 1 1 a) ¿Cuántas familias tenían entre 2 y 4 hijos? Rta. 25 b) ¿Cuántas familias tenían 1 o más hijos? Rta. 39 c) ¿Qué porcentaje de familias tenían 2 o menos hijos? Rta. 63,63% d) ¿Qué porcentaje de familias tenían de 1 a 2 hijos? Rta. 52,27 % e) ¿Cuántas familias tenían a lo sumo 3 hijos? Rta. 35 3. Los números mostrados a continuación representan la cantidad de materias reprobadas durante sus años de estudio por los estudiantes egresados de la Universidad: 2 3 4 6 5 0 1 0 2 3 4 6 5 0 7 5 3 6 3 7 9 5 4 5 5 3 4 6 4 2 2 4 3 1 2 0 3 4 2 1 2 5 4 4 3 2 2 4 5 5 4 1 2 4 3 2 2 1 3 4 2 4 6 a) ¿Qué porcentaje de egresados reprobaron entre 4 y 5 materias? Rta. 36,5% b) ¿Qué porcentaje de egresados reprobaron 3 o más materias? Rta. 65,07% c) ¿Cuántos egresados reprobaron como máximo 3 materias? Rta. 32 d) ¿Cuántos egresados no reprobaron materia y qué porcentaje del total representan? Rta. 4; 6,25%
94 Dirección de Educación a Distancia – UPDS Modalidad Cursos por Encuentros
Ciencias Aplicadas
Estadística I
4. Los datos de la tabla siguiente representan el número de computadoras utilizadas en distintas entidades públicas del departamento de Santa Cruz. 10 10
22 22
18 10
18 17
13 10
18 18
18 17
22 10
22 18
22 13
17 10
18 17
18 10
18 22
17 18
10 17
22
18
10
13
13
13
22
13
a) ¿Cuántas entidades cuentan con por lo menos 17 computadoras? Rta. 25 b) ¿Qué porcentaje de entidades que tienen entre 13 y 18 computadoras? Rta. 57,5% c) ¿Cuántas entidades cuentan con 15 o menos computadoras y que porcentaje del total representan? Rta. 15; 37,5%
5. Los siguientes datos representan las edades de 36 personas internadas en un hospital. 55
46
68
74
85
89
65
58
64
76
83
58
53
61
60
84
78
49
76
65
48
91
70
66
59
64
72
73
66
58
71
49
84
90
72
65
a) Elaborar un cuadro de distribución de frecuencias para datos agrupados en clases de 5 años de amplitud a partir de 46 años. b) ¿Cuántas personas tienen entre 51 y 55 años de edad? Rta. 2 c) ¿Cuántas personas tienen como edad máxima 65 años? Rta. 17 d) ¿Qué porcentaje de personas tienen edades entre 61 y 70 años? Rta. 27,77% e) ¿Qué porcentaje de personas tienen 56 ó más años de edad? Rta. 83,33%
6. El siguiente cuadro muestra la distribución de pesos de equipajes de los pasajeros de la flota “Trans Oriente”
95 Dirección de Educación a Distancia – UPDS Modalidad Cursos por Encuentros
Ciencias Aplicadas
Estadística I
Cuadro nº 1 Pesos (Kg)
n i
10 ó menos
112
10 15 15 20
132 125
20 25
141
25 30 30 ó más
95 78
A partir de esta información, determinar: a) ¿Cuántos equipajes pesan 20 ó menos y que porcentaje del total representan? Rta. 369; 54,02% b) ¿Cuántos equipajes pesan entre 15 y 30 Kg y qué porcentaje del total representan? Rta. 361; 52,84 % c) ¿cuántos equipajes pesan más de 20 Kg y qué porcentaje del total representan? Rta. 314; 45,97% Práctico nº 2 1.
Se realizó una investigación acerca de la preferencia de cigarrillos entre fumadores
mediante el siguiente cuestionario Cuestionario I. Sexo 1. Hombre 2. Mujer II. Edad 1. (17 a 19) 2.(20 a 23) 3.(24 a 27) 3 (28 ó mas) III. Marca 1. L&M 2. Camel 3. Marlboro 4. Otro Se obtuvo la siguiente tabla de resultados:
96 Dirección de Educación a Distancia – UPDS Modalidad Cursos por Encuentros
Ciencias Aplicadas
Estadística I
Tabla de resultados Nº
Sexo
Edad
Marca
1
2
2
3
2
2
4
2
3
2
3
1
4
1
2
2
5
1
2
4
6
2
1
1
7 8
1 1
3 1
1 3
9
2
1
4
10
2
4
2
11
1
2
1
12
2
3
2
13 14
1 2
1 2
4 3
15
2
1
2
16
1
4
1
17
2
3
2
18
2
2
2
19
1
1
1
20
2
3
3
21
1
4
1
22
1
1
4
23
2
2
2
24
1
4
4
25
2
1
1
26
2
2
3
27
1
3
4
28 29
2 1
2 1
2 1
30
1
2
1
A partir de esta información determinar: a) ¿Qué porcentaje del total son hombres y prefieren Camel? b) ¿Qué porcentaje del son mujeres prefieren L&M? c) ¿Qué porcentaje del total prefieren Marlboro? d) ¿Qué porcentaje del total tienen de 20 a 27 años y prefieren Camel? e) ¿Cuántos tienen (23 o menos años y prefieren Marlboro) y qué porcentaje del total representan? f) ¿Qué porcentaje del total tienen de 17 a 19 años y prefieren L&M? 97 Dirección de Educación a Distancia – UPDS Modalidad Cursos por Encuentros
Ciencias Aplicadas
2.
Estadística I
Un estudio sobre la actividad de viajeros bolivianos en la frontera con Brasil se realizó con el formulario de sondeo siguiente:
Formulario de sondeo I. Sexo 1. Hombre 2. Mujer II. Edad 1.(17 o menos) 2.(18 a 26) 3.(27 a 39) 3 (40 ó mas) III. ¿Cuántas veces cruzó la frontera este año? 1. (1) 2. (2) 3. (3) 4. (4 o más) La tabla de resultados de muestra a continuación, a partir de esta información determinar: a) ¿Qué porcentaje del total son mujeres de 26 ó menos años? b) ¿Qué porcentaje del total son hombres y con edades de 17 o menos años? c) ¿Qué porcentaje del total son de (18 a 26 años cruzaron 2 o menos veces la frontera)? d) ¿Cuántos encuestados (tenían 27 o más años y cruzaron 1 vez la frontera) y qué porcentaje del total representan? Tabla de resultados Nº Sexo Edad 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25
2 2 2 1 1 2 1 1 2 2 1 2 1 2 2 1 2 2 1 2 1 1 2 1 2
1 4 3 2 2 1 1 2 3 4 4 1 2 1 3 2 1 2 2 4 3 1 1 3 4
Veces 3 2 1 2 4 1 1 3 4 2 1 2 4 3 2 1 2 2 1 3 1 4 2 4 1
98 Dirección de Educación a Distancia – UPDS Modalidad Cursos por Encuentros
Ciencias Aplicadas
26 27 28 29 30 31 32
3.
2 1 2 1 1 2 1
Estadística I
2 2 1 3 4 1 1
3 4 2 1 1 2 3
Se realizó una investigación acerca del nivel de rendimiento de los niños de una escuela primaria, a continuación se muestra algunos datos obtenidos en un sondeo.
Formulario I. Sexo 1. Hombre 2.Mujer II. Edad 1. (6 años) 2. (7 años) 3. (8 años) III No de materias reprobadas 1. (1 o menos) 2. (2) 3. (3 o más) A continuación se muestra la tabla de resultados: Tabla de resultados Nº Sexo Edad Reprobadas 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24
2 2 2 1 1 2 1 1 2 2 1 2 1 2 2 1 2 2 1 2 1 1 2 1
3 3 2 2 1 1 2 1 1 3 2 1 2 3 3 2 3 1 2 1 1 2 3 2
2 2 1 1 3 3 2 1 3 2 1 2 2 1 1 3 3 2 2 1 3 2 1 2
99 Dirección de Educación a Distancia – UPDS Modalidad Cursos por Encuentros
Ciencias Aplicadas
25 26 27 28 29 30 31 32 33 34 35 36
a)
Estadística I
2 2 1 2 1 1 2 1 1 1 2 1
1 1 2 3 3 2 1 2 1 2 2 1
1 2 2 1 1 2 1 2 3 2 1 2
¿Qué porcentaje del total son varones que reprobaron 2 o menos materias?
b) ¿Qué porcentaje del total son mujeres que reprobaron 3 o más materias? c)
¿Qué porcentaje del total tienen 6 años reprobaron 2 o menos materias?
d) ¿Qué porcentaje del total reprobaron 1 o menos materias? e) ¿Cuántos estudiantes encuestados (tenían 7 o menos años y reprobaron 2 materias) y qué porcentaje del total representan?
Práctico nº 3 Estadística 1 Medidas de tendencia central y de posición 1. El nº de faltas al trabajo anuales de un grupo de 40 trabajadores en la empresa K&M se detalla a continuación: 1
3
5
0
2
2
1
2
4
2
0
5
2
3
2
4
3
5
3
2
3 1
5 4
4 3
6 0
2 3
7 4
4 5
5 2
3 1
3 6
A partir de esta información determinar: a) El nº de faltas promedio en el año e interpretar b) El valor de la mediana e interpretar c) El valor de la moda e interpretar 2. El cuadro nº 1 muestra los pesos en Kg de 79 pollos 100 Dirección de Educación a Distancia – UPDS Modalidad Cursos por Encuentros
Ciencias Aplicadas
Estadística I
Cuadro nº 1 Distribución de pesos en Kg de 79 pollos Li Ls
ni
1 1,2
7
1,2 1,4 1,4 1,6
25 19
1,6 1,8
14
1,8 2,0
14
a) Calcular el peso promedio e interpretar b) Calcular el valor de la mediana e interpretar c) Calcular el valor de la moda 3. Una investigación acerca del nº de horas que los universitarios pasan conectados a la red Internet por semana arrojó los siguientes resultados: 2
1
0
8
6
5
5
3
4
7
2 2
0 5
0 2
8 4
6 0
5 1
7 6
0 2
1 7
6 6
10 4
2 8
5 6
8 5
7 6
9 6
8 4
4 6
0 7
5 2
(Asumir que la variable es discreta) a) Determinar el nº de hora promedio conectados a la red Internet b) Determinar el valor de la mediana e interpretar c) Determinar el valor de la moda 4. En la siguiente tabla se muestra los pesos en Kg de 30 niños de un kinder 19 17
20 21
18 19,5
24 26
19 25
20,5 20
26 26
22,8 30
32 25
30 28
18
20
27
29
21
19
31
19,5
24
29
a) Construir un cuadro de distribución de frecuencias con 6 clases de igual amplitud 101 Dirección de Educación a Distancia – UPDS Modalidad Cursos por Encuentros
Ciencias Aplicadas
Estadística I
b) Determinar el peso promedio utilizando el cuadro anterior e interpretar c) Determinar el valor de la mediana e interpretar 5. El cuadro nº 2 muestra el nº de créditos de las materias del 1º semestre para una carrera de la facultad de ingeniería, además de las calificaciones sobre 100 pts. De los estudiantes Lisandro, Jeremías y Marianela. A partir de esta información calcular promedio ponderado semestral de los 3 estudiantes. Cuadro nº 2 Notas Materias
Créditos
Lizandro
Jeremias
Marianela
Qmc100
6
45
85
91
Mat100 Mat101
4 5
55 65
58 60
65 71
Fis100 Mec101
6 3
51 90
78 51
55 72
6. Para la provisión de equipos de refrigeración para una empresa procesadora y comercializadora de alimentos se procedió a calificar a 3 empresas proveedoras: A, B y C. Ponderando sus cualidades como ser: Precio, Asesoramiento y servicio técnico (AST), Garantía, Provisión de repuestos (PR) y vida útil; Las calificaciones se muestran en el cuadro nº 3. A partir de esta información determinar la empresa con mejor calificación ponderada.. Cuadro nº 3 Calificación de Empresa Características
Ponderación
A
B
C
Precio
3
7
8
6
AST
5
6
6
8
Garantia
4
7
6
7
PR Vida util
4 3
8 9
8 7
7 6
102 Dirección de Educación a Distancia – UPDS Modalidad Cursos por Encuentros
Ciencias Aplicadas
Estadística I
7. El cuadro nº 1 muestra la distribución de notas en un examen de ingreso a una universidad pública. Cuadro # 1 Distribución de calificaciones Notas
n i
0 10
55
10 20 20 30
214 202
30 40
702
40 50
2114
50 60
2615
60 70 70 80
1003 318
80 90 90 100
101 12
a) Calcular nota promedio e interpretar b) Calcular la mediana e interpretar c) Calcular la moda e interpretar d) A partir de que nota se encuentra el 5% de las notas más bajas? e) Calcular la nota que separa el 20 % de las mejores notas f) Calcular la nota que separa la cuarta parte inferior de las notas 7. Una empresa de transporte tenía que utilizar la cuarta parte de sus vehículos de menor consumo de combustible para un determinado viaje. El cuadro nº 2 muestra la distribución de rendimiento por litro de 40 vehículos de la empresa.
103 Dirección de Educación a Distancia – UPDS Modalidad Cursos por Encuentros
Ciencias Aplicadas
Estadística I
Cuadro # 2 Distribución de rendimiento Kilómetros/lt
n i
8 10
8
10 12 12 14
12 7
14 16
7
16 18
6
a) Determinar desde que valor de rendimiento irán al viaje b) Calcular la mediana e interpretar c) Calcular el 1º cuartil e interpretar
Práctico nº 4 Estadistica 1 Docente: Ing. Rubén Toyama U. Medidas de dispersión. 1. Calcular la varianza, desviación típica y coeficiente de variación para los siguientes ejemplos: a) {2 4 7 7 8 9 } b) {3 , 2 4 4 , 1 4 5 6 6 } 2. Los conjuntos A y B muestran las edades de los niños de los Kinder A y B respectivamente, calcular la varianza en cada caso e indicar en cual Kinder las edades de los niños es más homogénea. A {4, 4, 5, 6, 5, 6,4} B {5, 5, 4, 5, 4, 4, 5, 3,4}
3. El cuadro nº 1 y nº2 muestra la distribución de edades de los estudiantes de los colegios A y B respectivamente: Calcular el coeficiente de variación en cada caso e indicar en cual colegio las edades son más homogéneas: 104 Dirección de Educación a Distancia – UPDS Modalidad Cursos por Encuentros
Ciencias Aplicadas
Estadística I
Cuadro nº1 Distribución de edades en el colegio A Edad
n i
13
45
14 15
65 73
16
68
17 18
51 53
Cuadro nº2 Distribución de edades en el colegio B Edad
n i
13
25
14 15
38 121
16 17
146 61
18 19
28 19
4. Los precios en $us de un articulo A en un supermercado han variado mensualmente según la siguiente lista (7 7,2 7 7,3 7,2 6,9). Los precios en Bs. de este mismo articulo A en el mercado La Ramada han variado mensualmente según la siguiente lista (57,5 58 57 57,5 58,2 57) Determinar en cual lugar los precios han sido más homogéneos justificando su respuesta. 5. Los cuadros nº 3 y nº4 muestran las distribuciones de peso de los estudiantes de los colegios A y B respectivamente, a partir de esta información determinar los coeficientes de variación, asimismo determinar en cual caso los pesos son más homogéneos. Cuadro nº 3 Distribución de peso en el colegio A 105 Dirección de Educación a Distancia – UPDS Modalidad Cursos por Encuentros
Ciencias Aplicadas
Estadística I
Pesos (Kg.)
ni
40
45
12
45
50
56
50
55
51
55 60
60 65
113 124
65
70
60
70 75
32
Cuadro nº 4 Distribución de peso en el colegio B Pesos (Kg.)
ni
45 50
50 78 55 82
55
60 73
60 65
65 90 70 71
70 75
56
6. Los precios de un artículo en el supermercado “X” y en el mercado la Ramada, mensualmente han ido variando como se muestra en el siguiente cuadro. Indicar en cual caso ha habido mayor variabilidad. Precios Supermercado ($us)
8 8,2
8,2 8,4 8,5 8,7 8,7
La ramada (Bs.)
64 64,5 65 65,5 66 66 66,5
7. Las notas de Juan en el colegio y en la Universidad se muestran en el siguiente cuadro. Indicar en cual caso las notas son más homogéneas. Nota: En el colegio las notas son sobre 70 Notas Colegio
55 62 49 61 59 61 58
Universidad
84 78 85 90 83 91 84 88
106 Dirección de Educación a Distancia – UPDS Modalidad Cursos por Encuentros
Ciencias Aplicadas
Estadística I
SIMETRIA Y CURTOSIS. 1. El cuadro # 1 muestra la distribución de notas de todos los estudiantes de Estadística 1 de una universidad, a partir de esta información determinar la simetría de la distribución. Cuadro # 1 Distribución de notas de Estadística 1 notas
n i
30 40
16
40 50
41
50 60
102
60 70
55
70 80 80 90
43 32
90 100
19
2. El cuadro #2 muestra la distribución de pesos de 546 conscriptos de un cuartel X, a partir de esta información determinar la simetría de la distribución. Cuadro # 2 Distribución de pesos en Kg. de conscriptos de un cuartel X pesos
n i
50 60
48
60 70
206
70 80 80 90
108 65
90 100 100 110 110 120
55 48 16
3. El cuadro # 3 muestra la distribución de estaturas de los estudiantes del colegio X, a partir de esta información determinar la simetría de distribución.
107 Dirección de Educación a Distancia – UPDS Modalidad Cursos por Encuentros
Ciencias Aplicadas
Estadística I
Cuadro # 3 Distribución de estaturas en cm. de estudiantes del colegio X estaturas
n i
100 110 110 120
12 11
120 130
34
130 140 140 150
50 78
150 160
88
160 170
41
170 180
15
4. El cuadro # 4 muestra la distribución de pesos de conscriptos de un cuartel Y, a partir de esta información determinar la curtosis de la distribución calculando el coeficiente de curtosis.
Cuadro # 4 Distribución de pesos en Kg de conscriptos del cuartel Y Pesos
n i
50 60
21
60 70
74
70 80
195
80 90 90 100
178 88
100 110
23
110 120
18
5. El cuadro # 5 muestra la distribución de estaturas en cm. de estudiantes de un colegio secundario de Santa Cruz, a partir de esta información determinar la curtosis determinando el coeficiente de curtosis. 108 Dirección de Educación a Distancia – UPDS Modalidad Cursos por Encuentros
Ciencias Aplicadas
Estadística I
Cuadro # 5 Distribución de estaturas en cm. de estudiantes de un colegio secundario Estaturas
n i
120 130
14
130 140 140 150
24 68
150 160
75
160 170 170 180
74 80
180 190
72
190 200
52
200 210
20
7. A partir de los datos del cuadro # 1 determinar la curtosis de la distribución de notas de los estudiantes de estadística 1.
Práctico nº 5 Estadistica 1 Docente: Ing. Rubén Toyama U. Regresión y correlación 1. Para los siguientes valores de las variables independiente y dependiente, determinar: a) La función de regresión lineal b) El coeficiente de correlación (r) e interpretar X
1 3 4 6 8 9 11 14
Y
1 2 4 4 5 7 8 9
2. El cuadro nº 2 nos muestra las horas dedicadas al estudio por un estudiante y las notas obtenidas en el examen, a partir de esta información determine la función de regresión lineal, construya un diagrama de Ù
dispersión, en el mismo grafico inserte el grafico ajustado y , finalmente determine el coeficiente de correlación lineal
109 Dirección de Educación a Distancia – UPDS Modalidad Cursos por Encuentros
Ciencias Aplicadas
Estadística I
Cuadro nº 2 Horas de estudio
Nota del examen
10 20
40 65
30
78
40
90
3. En una muestra de 10 obreros de una fabrica se han observado sus años de experiencia (x) y el tiempo que tardan en realizar una determinada tarea (y), los datos se encuentran en la tabla nº 3 Tabla nº 3 X(en años)
3 1 5 2 4 3 5 1 2 4
Y(en horas)
4 7 3 8 3 5 2 8 9 5
a) Determine la función de regresión lineal b) Calcule el coeficiente de correlación lineal (r) c) Realice un diagrama de dispersión e inserte el grafico del tiempo estimado d) Estime el tiempo que tardaría un obrero con 6 años de experiencia 4. El gerente de una cadena de heladerías está estudiando el efecto de la temperatura ambiente sobre las ventas diarias en la temporada de calor. Se selecciona una muestra aleatoria de 10 días y los resultados se muestran en la tabla nº 4
Tabla nº 4 Temp en ºC
17 19 21 24 27 28 29 30 31 32
Ventas (100 $us)
1,5 1,8 1,7 2,0 2,4 2,2 2,5 2,6 2,8 3,0
a) Determine la función de regresión lineal b) Calcule el coeficiente de correlación lineal e interprete el resultado c) Estime las ventas en dicha heladería cuando la temperatura sea de 33ºC 5. En un estudio técnico – económico se dispone de la siguiente información histórica de ventas de una batería de fabricación nacional en miles de unidades Año
1994 1995 1996 1997 1998 1999 2000 2001 2002 2003
Ventas
10 12 13 11 14 15 18 17 20 22
a) Determine la función de regresión lineal b) Calcule el coeficiente de correlación e interprete el resultado 110 Dirección de Educación a Distancia – UPDS Modalidad Cursos por Encuentros
Ciencias Aplicadas
Estadística I
c) Estime las ventas para el año 2006
Laboratorio nº 1 Estadística 1 1) Objetivos. Al concluir el presente laboratorio el estudiante será capaz de: a) Calcular diversos estadísticos mediante el uso de EXCEL Cálculo de diversos estadísticos mediante la utilización de Excel EXCEL nos permite calcular diversos estadísticos de una serie de datos mediante la utilización de fórmulas las cuales se ejecutan posicionando el cursor en la celda que deseamos que sea calculado el estadístico, colocando el símbolo (=) seguido del nombre de la fórmula correspondiente y entre paréntesis las celdas de las cuales se calculará el estadístico, las funciones para los principales estadísticos son: Estadístico
Función
Media aritmética
Promedio
Mediana
Mediana
Moda
Moda
Desviación típica
Desvest
Varianza Cuartil
Var Cuartil
Primer ejemplo: Hallar la Media aritmética, Mediana y Moda de: 2 3 4 0 4 2 5 0 1 3 2 5 2 6 0 1 2 2 3 2 3 4 4 0 2 1 4 3 5 4 5 7 9 8 4 3 5 4 4 0 Solución: Se debe abrir una hoja Excel, copiar los números precedentes tal como se muestran, posicionar el cursor en una celda determinada donde deseamos que sea calculado el estadístico, luego escribir el símbolo (=) seguido de la función correspondiente y entre paréntesis seleccionar 111 Dirección de Educación a Distancia – UPDS Modalidad Cursos por Encuentros
Ciencias Aplicadas
Estadística I
todas las celdas. Segundo ejemplo: Igual que el primer ejemplo. Tercer ejemplo: Calculando la desviación típica y la varianza para los conjuntos A y B determine cual conjunto es más homogéneo. Cuarto ejemplo: Para los ejemplos 1, 3A y 3B calcular a) La cantidad de números b) El valor mínimo c) El valor máximo d) El valor que separa el 25 % inferior de los datos. e) El valor que separa el cuartil 2. f) El valor que separa el 25 % superior de los datos. Sugerencia: Excel cuenta con funciones de diferentes tipos que pueden ser encontrados en f x entrando a éste menú encontrará diferentes funciones entre las que puede escoger las estadísticas.
112 Dirección de Educación a Distancia – UPDS Modalidad Cursos por Encuentros
Ciencias Aplicadas
Estadística I
Laboratorio nº 2 Estadística 1 2) Objetivos. Al concluir el presente laboratorio el estudiante será capaz de: b) Preparar la base de datos de spss c) Cruzar variables y calcular estadísticos d) Recategorizar variables en SPSS
3) Desarrollo del laboratorio I. Generalidades. SPSS es un paquete estadístico que se maneja mediante menús descriptivos y cuadros de dialogo. SPSS utiliza un lenguaje de comandos. Al abrir SPSS UD. Encontrará un editor de datos con una barra de menús en la que se 113 Dirección de Educación a Distancia – UPDS Modalidad Cursos por Encuentros
Ciencias Aplicadas
Estadística I
seleccionarán las tareas a realizar, en la parte inferior UD. Encontrará dos tipos de pantalla los cuales son Vista de variables y Vista de datos. La pantalla Vista de variables sirve para organizar y ver la organización de las variables La pantalla Vista de datos Sirve para introducir y ver los datos que tiene un determinado archivo SPSS II. Contenido de Vista de variables Vista de variables presenta 9 columnas los cuales son: 1. Nombre Es para poner el nombre de la variable el cual puede contener un máximo de 8 caracteres, los cuales pueden ser literales o numéricos, empezando por una letra Ej.: v1, v2, p1, sexo, religión, edad. 2. Tipo Es para organizar el tipo de variable, Si no especificamos nada SPSS asume por defecto que la variable al entrar será numérica, separada decimalmente con coma. 3. Anchura Es para poner el número de caracteres por ej. 8 4. Decimales Es para indicar el numero de decimales 5. Etiqueta Es para poner el nombre (Etiqueta)a la variable 6. Valores Es para poner los atributos o caracteres de la variable si esta fuera cualitativa 7. Perdidos Se pone valores perdidos si existiese 8. Alineación Alinea la columna al centro o al lugar deseado Tarea Introducir los datos de la pagina 3 III Editores en SPSS Existen dos tipos de editores en SPSS, El editor de datos que contiene las pantallas Vista de datos y Vista de variables Y el Editor de resultados que muestra los resultados de los procesos en SPSS, ambos editores pueden ser gravados como archivos pero con diferente extensión. IV Operaciones en SPSS 1) Como realizar cruces de variables Clic en Analizar, Tablas, Tablas Básicas, llevar una variable a “ hacia abajo” colocar otra variable en la ventana “ a través” luego aceptar. Si deseamos calcular porcentajes en el 114 Dirección de Educación a Distancia – UPDS Modalidad Cursos por Encuentros
Ciencias Aplicadas
Estadística I
cruce de variables, después de establecer las variables hacer clic en estadísticos, saldrá un cuadro de dialogo, se escogen los estadísticos deseados por ejemplo % fila o % tabla luego continuar, si deseamos ver los totales hacer clic en Totales luego continuar y aceptar y saldrán los totales por grupo, para colocar título en el cuadro de resultados hacer clic en títulos y aparecerá un cuadro de dialogo, en la ventana título colocar el título deseado en la ventana pie colocar “fuente: elaboración propia” luego continuar y aceptar. Tareas · Realizar cruce de variables sexo/procedencia · Realizar cruce de variable procedencia/sexo · Realizar cruce de variables sexo/nº de hijos con conteo y porcentaje por fila, y totales por grupos · Realizar el cruce de variables procedencia/nº de hijos con conteo, porcentaje por columnas y totales por grupos · Realizar el cruce de variables sexo/procedencia con % fila y % total y totales por grupo · Realizar el cruce de variables nº de hijos/procedencia, con conteo, % total, totales por grupos, colocando título al cuadro y pie “Fuente: UPDS” Tarea para la casa * Realizar lo anterior con Tablas Generales en vez de Tablas Básicas. Presentar informe la próxima clase.
2) Como categorizar los datos de una variable Categorizaremos las notas de los estudiantes de 0 a 50 serán “Reprobado”, de 51 a 100 será “Aprobado”. Click en Transformar, Recodificar, en diferentes variables, en el cuadro de dialogo colocamos la variable origen (nota) para la variable de salida colocamos el nombre (en este caso n1) y la etiqueta, (en este caso la etiqueta será “condición del alumno”) click en valores antiguos y nuevos, en el nuevo cuadro de dialogo click en Rango del menor hasta y se coloca 50 y en la ventanita “valor” colocar 1 luego click en Añadir, repetir el procedimiento con un nuevo rango esta vez de 51 hasta el mayor, luego en la ventanita de valor nuevo colocar el 2 click en Añadir y click en cambiar y finalmente aceptar. En la nueva variable aparecerán los números 1 para reprobados y 2 para aprobados, esto hay que programar en la pantalla “Vista de variables”. 115 Dirección de Educación a Distancia – UPDS Modalidad Cursos por Encuentros
Ciencias Aplicadas
Estadística I
Tarea 1. En una nueva variable colocar “Aprobado” a los que tengan nota de 51 a 100, y “Reprobado” a los que tengan de 0 a 50. 2. En una nueva variable categorizar a la edad del hijo de la siguiente manera (0 a 12) “Niño”, (13 a 19) “Joven” y de (20 a más) “Adulto”. 3. Crear una nueva variable peso en Kg., introducir 15 datos con decimales y recategorizarla en otra nueva variable con los siguientes rangos (20 o menos) “Liviano” (más de 20 hasta 40) “Normal”, (más de 40) “Pesado”. 4) Como calcular estadísticos después de un cruce de variables Click en Analizar, Tablas, Tablas Básicas, llevar la variable numérica a resumir y la variable cualitativa hacia abajo, click en estadísticos en el cuadro de diálogos se escoge el o los estadísticos, también se puede insertar totales y títulos como en el caso anterior Tareas · Calcular la edad promedio, la edad máxima y mínima de los hombres y mujeres · Calcular el sueldo inicial máximo y mínimo de acuerdo a la procedencia de los encuestados, colocar título y pie “Fuente: Equipo de investigadores” · Calcular el recuento, los porcentajes del total, el promedio, la moda y la mediana de los sueldos actuales de acuerdo al sexo del encuestado · Del cuadro de dialogo estadísticos borrar recuento, promedio, mediana, moda, porcentajes del total Si deseamos realizar cálculo de estadísticos de dos variables cruzadas se procede como sigue: Click en Analizar, Tablas, Tablas Básicas colocar las variables a cruzar en hacia abajo y a través, colocar la variable cuantitativa en resumir, clic en estadísticos y de el cuadro de dialogo escoger los estadísticos y añadir Tareas · Calcular la edad promedio de acuerdo a un cruce de variables sexo/procedencia · Calcular la edad promedio de acuerdo al sexo · Calcular el recuento los porcentajes del total, el promedio y el máximo del salario actual del cruce de variables sexo/procedencia 116 Dirección de Educación a Distancia – UPDS Modalidad Cursos por Encuentros
Ciencias Aplicadas
Estadística I
Calcular el recuento, el mínimo y los totales por grupo del salario inicial del cruce de variables sexo/nº de hijos Tabla de resultados
nº Sexo
Procedencia
nº de Edad Sal. Inicial Sal. Actual hijos
E. del hijo
1 Hombre
Cruceño (a)
35
1300
1350
3
12
2 Mujer
Del interior
28
2500
1600
2
4
3 Hombre
Cruceño (a)
55
1000
1000
5
28
4 Hombre
Del interior
29
3200
3420
1
4
5 Mujer
Del interior
23
2850
3000
1
6
6 Mujer
Cruceño (a)
28
3000
2900
0
0
7 Mujer
Cruceño (a)
29
1800
2200
2
8
8 Hombre
Cruceño (a)
40
5400
5800
4
16
9 Mujer
Del interior
28
2300
2400
2
4
10 Hombre
Del interior
32
1900
2050
0
0
11 Hombre
Cruceño (a)
48
1100
1220
2
14
12 Hombre
Cruceño (a)
28
1800
1850
3
6
13 Mujer
Cruceño (a)
26
1800
2200
2
4
14 Mujer
Cruceño (a)
33
1900
2200
2
5
15 Mujer
Del interior
35
2000
2300
3
4
16 Mujer
Del interior
52
2100
2200
6
30
Laboratorio nº 3 estadística 1 Regresión en SPSS Para realizar una regresión en SPSS hay que escoger en primer lugar el modelo de función de regresión que se va a aplicar a los datos. En primer lugar veremos la regresión lineal que sigue el modelo de la función de regresión
y = a + bx donde a es el intercepto o punto de corte sobre la variable dependiente y b es la pendiente de la línea resultado de la regresión lineal. Los pasos a seguir son los siguientes: En la vista de variables se prepara las variables: “x” y “y” en la etiqueta se coloca “Variable 117 Dirección de Educación a Distancia – UPDS Modalidad Cursos por Encuentros
Ciencias Aplicadas
Estadística I
independiente” para la x y “Variable dependiente” para la y, luego en la vista de datos se introducen los datos de las dos variables. Una vez introducidos los datos de procede de la siguiente manera: Clic en analizar, regresión, lineal, aparecerá un cuadro de diálogos y en el se colocan las variables independiente y dependiente como corresponde, luego aceptar y aparecerá en el archivo de resultados la información respecto a a, b y r Tarea Hallar las funciones de regresión lineal para los siguientes conjuntos de datos: 1. X
0 2 3 5 8
Y
0,6 3,6 5,1 8,1 12,6
2. X
0 2 4 5 7
Y
2 3,8 9 12,8 18
Construcción del gráfico de dispersión. El gráfico de dispersión es el gráfico de los valores experimentales, es decir los valores disponibles. Para hallar el gráfico de dispersión s e siguen los siguientes pasos: Click en gráfico, dispersión, simple, definir, aparecerá un cuadro de diálogo y en el se introducen las variables y finalmente aceptar, y parecerá el gráfico de dispersión deseado. Para generar el gráfico de la regresión lineal, es decir el gráfico de la recta ajustada se siguen los siguientes pasos: clic derecho en el cuerpo del gráfico anterior, objeto gráfico SPSS, abrir, aparecerá un nuevo menú y de este nuevo menú se debe hacer clic en el ultimo ficha que corresponde a opciones del diagrama de dispersión, en opciones de ajuste habilitar total y aparecerá la línea resultado de la regresión junto al diagrama de dispersión. Ù
Calculo del valor estimado y es decir del valor de la variable dependiente en función de la variable independiente, utilizando la función de regresión lineal. Para realizar dos esto existen don métodos, el primero es generando una nueva variable mediante los pasos Transformar, calcular como vimos en la clase anterior, y la segunda sigue los siguientes pasos: Analizar, regresión, lineal, colocar las variable x y y, guardar, habilitar no tipificada, continuar, aceptar y aparecerá una nueva variable con los valores de “y” calculado con la función de regresión Tarea. Realizar el cálculo de “y” estimada para los datos del cuadro ejemplo 2 anterior: 118 Dirección de Educación a Distancia – UPDS Modalidad Cursos por Encuentros
Ciencias Aplicadas
Estadística I
Diferentes funciones de regresión. Para realizar otros modelos de regresión se siguen los siguientes pasos: Clic en Analizar, regresión regresión curvilínea, se colocan las variables en las posiciones adecuadas y se escoge el o los modelos de regresión deseados y aparecerá la gráfica de las funciones de regresión solicitados, así como también los valores de los coeficientes a, b, r Tarea Realizar el modelo potencial para los datos de los cuadro 3 y 4 3. X
1 2 3 5 8
y
1 4 9 25 64
4. X
1 2 4 6 8
y
2 5 15 30 44
Bibliografía. 1. PAUL NEWBOLD. Estadística para los negocios y la economía. Prentice Hall. Madrid. 1998 2. CIRO MARTINEZ BENCARDINO. Estadística y muestreo. Ecoe ediciones. Bogotá. 2007 3. SPIEGEL & MURRAY. Estadítica. Schawm 4. RAFAEL JUAN CHERRE. Aplicando estadística con SPSS. Editorial Macro. Lima 5. ERICK EDUARDO. Estadística 1. Lima. 2003
119 Dirección de Educación a Distancia – UPDS Modalidad Cursos por Encuentros