UNIVERSIDAD NACIONAL SAN ANTONIO ABAD DEL CUSCO ESCUELA DE POST-GRADO
MAESTRIA EN INGENERIA CIVIL.
CURSO: ESTADISTICA APLICADA.
Mgt. CLETO DE LA TORRE DUEÑAS Mgt. L. ALBERTO VERA CHAVEZ Email:
[email protected] CUSCO PERU –
2010.
CAPITULO I INTRODUCCION La Estadística es la ciencia que se ocupa de los métodos y procedimientos de colección, clasificación, organización, análisis, síntesis e interpretación de datos; siendo su característica que la distingue, la de hacer generalizaciones o inferencias en base a una muestra. En palabras sencillas podríamos decir que la estadística es la ciencia de los datos En términos generales la estadística aborda dos tipos de problemas: ♦ Resumir, describir y explorar datos. ♦ Utilizar datos de una muestra para inferir la naturaleza del conjunto del cual
se escogió la muestra.
1.1 DIVISION DE LA ESTADISTICA Así, la estadística se divide divide en dos partes íntimamente relacionadas: relacionadas:
Estadística Descriptiva.- Esta es la parte de la estadística que se dedica a la organización, síntesis y descripción de conjuntos de datos. Esta es importante, ya que antes de que la mente humana pueda interpretar (hacer inferencias) un conjunto de datos, especialmente cuando estos son demasiados, es necesario resumirlos o representarlos de manera clara, simplificada o reducida.
Estadística Inferencial.- Esta rama de la estadística trata el problema de inferir la naturaleza de un conjunto de datos a partir de una muestra de dichos datos.
2
El problema general de la Estadística
Muestra
Población
Inferencias
Que tan reales
Figura 1: Relación entre población y muestra.
1.2 CONCEPTOS BASICOS Población. Es cualquier conjunto de datos, objetivo de nuestro interés, sobre los cuales interesa observar una o más características. Esta puede ser finita o infinita. El tamaño de la población es el número de individuos que tiene
Muestra. Una muestra es un conjunto de individuos de la población que refleja las características de ésta lo mejor posible. Si las características quedan bien reflejadas, se dice que la muestra es representativa. El tamaño de una muestra es el número de individuos que tiene, lo denotamos por n.
Unidad de estudio. Es cada elemento que va a ser estudiado. Lo más normal es que se trate de individuos, pero no tiene por qué ser así.
Data. Es cualquier medida resultado de haber observado una variable en una unidad de alguna población.
Parámetro es una propiedad descriptiva de una población. Ejemplo media y varianza poblacional
Estadístico es una propiedad descriptiva de una muestra., ejemplo media y varianza muestral
Variable. Cualquier característica de Interés en el estudio. Variable cualitativa: Ordinal y Nominal Variable cuantitativa: Discreta y continua. Por otra parte, el reporte de las variables medidas requiere de los siguientes conceptos:
Exactitud. Hace referencia a la cercanía con la que se encuentra la medición realizada con el valor real de la variable medida, esta relacionado con el concepto de la media. 3
Precisión. Hace referencia a la cercanía con que se encuentran un conjunto de mediciones realizadas sobre la misma variable, relacionado con el concepto de varianza.
1.3 VARIABLES ESTADISTICAS A las características objeto de estudio en la población se les llama variables, ya que pueden variar de un individuo a otro y se representara por una letra mayúscula: X, Y, Z,. . ., debemos distinguir los distintos tipos de variables que hay, lo cual nos va a permitir utilizar las herramientas estadísticas apropiadas.
Tipos de variables. Las variables estadísticas pueden ser de dos tipos: Variables cualitativas o atributos: describen cualidades y no toman valores numéricos, estas a su vez pueden ser:
Nominales.- Las cualidades no presentan ningún orden. Ejemplo. Nombres y/o Razón Social de la empresa constructora.
Ordinales.- Este tipo de variables presentan orden Ejemplo. Nivel de riesgo de una obra Nivel Socioeconómico, Variables cuantitativas: toman valores numéricos. A su vez pueden ser: • Discretas: Solo toman un número finito o infinito numerable de valores
distintos (generalmente números naturales o enteros). Número de obras ejecutadas. Número de empresas que son calificadas como Micro y Pequeñas Empresas (MYPE). Número de empleados de un Municipio. • Continuas: Toman valores en un intervalo. Generalmente corresponden a
medir magnitudes continuas.
4
Ejemplo. Los Sueldos de los trabajadores de las Micro Empresas. Monto de ejecución presupuestal. Saldo de balance. Una característica esencial de este tipo de variables es que sus valores nunca son observables con exactitud, sino que dependen (las observaciones) de la precisión del instrumento de medida.
1.4 MEDICION Se llama medición Tenemos las
al proceso de atribuir números a las características.
siguientes escalas de medición: nominales, ordinales,
cuantitativas de intervalo y cuantitativas de razón. Escala nominal: la clave de estas escalas de medida es que sólo informan de la igualdad o desigualdad de los individuos en una característica, pero no de posibles ordenaciones, puesto que la característica a la que se refieren no se tiene en mayor o menor medida, sino que simplemente adopta formas cualitativamente distintas. Los números solo sirven para distinguir valores o categorías diferentes de la variable. Ejemplo: Nombres y/o Razón Social de la empresa ya sean Personas Naturales y Personas Jurídicas. 1=Aries y 2=Daz, esto simplemente es un proceso de codificación pero no significa que la Aries sea menor que Daz, ni el doble. Escala Ordinal: Los números además de servir para distinguir reflejan un orden existente sobre los valores de la variable. Se obtiene clasificando objetos o arreglándolos en un orden con respecto a alguna variable común. La pregunta es simplemente, si el objeto tiene más o menos de esta variable que algún otro objeto. Ejemplo: El dato representado por 5 es superior al representado por 2 en “ excelente=5, bueno =4, regular =3 y malo = 2.” es cierto la relación de orden 2<3<4<5.
5
Escala de Intervalo: Aquí los números para clasificar los objetos representan también incrementos iguales del atributo que se esta midiendo . Esto significa que los números pueden ser comparados. La diferencia en 1 y 2 es la misma que entre 2 y 3, pero es solo la mitad de la diferencia entre 2 y 4, sin embargo, la ubicación del punto no es fija, puesto que 0 no denota la ausencia del atributo. Las temperaturas Fahrenheit y Centígrados son medidas que tiene diferentes escalas de intervalo y diferentes puntos de 0. Escala de Razón: Medida numéricas en las cuales cero es un valor fijo en cualquier escala y la diferencia entre valores es diferente Además de la distancia de orden e intervalo, se añade un origen absoluto de forma que no solo cabe hallar distancias (ya en la escala de intervalo), si no también múltiplos exactos. En este caso, el valor representado por 4 tiene doble cantidad medida que él representado por un 2. Este es el caso por ejemplo de la variable edad expresado en años. 40 años y 20 años son edades distintas 40 años es superior a 20 años entre 40 y 20 hay una diferencia de 20, la misma que entre 50 y 20 . El 0 tiene sentido. Una persona con 0 años, realmente no tiene edad todavía no ha nacido. De esta forma, 40 es exactamente el doble de 20.
6
Resumen de escalas de medición
Tipo
Nominal
Información
Transform.
deducible
admisibles
Relaciones “igual que” Aplicaciones o “distinto que”
inyectivas
Ejemplos
Pruebas Estadísticas
Tipo de
No
actividad que
paramétricas
realiza La empresa. Grado de conocimiento de
Ordinal
Relaciones “mayor
Funciones
normas de
que” o “igual que”
crecientes
construcción , nivel socioeconómico.
Igualdad o Intervalo desigualdad de
A + b.x (b
diferencias
0)
Temperatura,
Parametricas.
inteligencia Presupuesto de
Igualdad o Razón desigualdad de razones
una obra, B .x (b
0)
Número de obras ejecutadas.
7
Pruebas estadísticas de acuerdo a la escala de medición Tipo de
Escala de la
Descripción
variable o
Método o Técnica Estadística.
asociación. Variables
Categorías
Frecuencias, proporciones, o porcentajes
individuales
(Nominal y Ordinal)
representados por grafico de barras, sectores o pictogramas.
Variables
Numérica(Intervalo
-Distribución de frecuencias en clases,
individuales
o razón)
frecuencias acumuladas. -Medidas de tendencia central, dispersión, posición y de forma.
Asociación
Categorías con
-Tablas de contingencia.
entre variables
Categorías
-Calculo de riesgos. -Pruebas de chi-cuadrado:independencia -Grafico de barras -Pruebas de Kendall, de Spearman.
Asociación
Categorías con
-Tablas con clasificación categórica, con
entre variables
Numérica
promedios, desviaciones, etc. -Regresión Logística. -Diseño experimental
Asociación
Numérica con
-Grafico de puntos
entre variables
Numérica
- Análisis de regresión, coeficiente de correlación.
8
Pruebas estadísticas inferenciales de acuerdo a la escala de medición de la variable en estudio. Tipo de
Escala de la
Descripción
variable o
Método o Técnica Estadística
asociación Variables
Nominal
individuales
-Prueba Z para una proporción poblacional. -Prueba de chi-cuadrado para varias proporciones en una sola población. -Intervalos de confianza para proporciones. -Prueba de McNemar, -Prueba de Mantel Haenzel
Variables
Ordinales
-Prueba de signos o binomial para la
individuales o
media poblacional.
mas de una
-Pruebas de wilcoxon para rangos.
variable
Prueba de U Mann Whitney( dos o mas poblaciones) -Prueba de Kruskal Wallis. -Prueba de Friedman.
Variables
Intercalar o de
-Prueba de t para una media poblacional.
individuales
razón.
-intervalos de confianza.
Mas de una
Intercalar o de
-Prueba de hipotes e intervalos de
variables
razón
confianza para diferencia de medias. -Prueba de varianzas
Existen varias pruebas, algunas de ellas se desarrollaran en el curso. La mayor parte de las escalas ordinales y de razón son analizados con pruebas no paramétricas, en cambio las escalas de razón e intercalar son analizados con estadística paramétrica.
1.5 INVESTIGACIÓN CIENTÍFICA La investigación científica, según Alejandro Caballero Romero se puede entender como un conjunto de actividades que realizamos para obtener conocimientos nuevos, sobre problemas nuevos que afectan la realidad, 9
pero que sean nuevos, respecto a la ciencia, es decir, respecto al conjunto de conocimientos ya provisionalmente establecidos y sistematizados por la humanidad, conocimientos nuevos que, como aportes, se sumarán a la Ciencia.
¿Qué es investigar? Es la forma más adecuada de aproximarse al conocimiento de la verdad mediante verdades parciales.
1.5.1 PLANTEAMIENTO
Y
FORMULACION
DEL
PROBLEMA
DE
INVESTIGACIÓN. ¿QUÉ ES UN PROBLEMA?
De manera general se considera que hay un problema cuando lo que
debería ser , difiere de lo que es.
el debería ser , es el marco referencial, el patrón comparativo, el ideal, el modelo, el paradigma.
Lo que es, representa la realidad, es la práctica.
1.5.1.1 Planteamiento del problema Definir el problema significa identificar la causa que motiva la investigación, la situación de fondo que sugiere que una investigación debe ser analizada.
1.5.1.2 Formulación del problema
Primero se debe identificar y definir claramente los indicadores, luego plantearse las preguntas fundamentales a la que la investigación pretende dar respuesta y que concentren la atención del investigador.
Para la formulación de las preguntas se debe considerar las variables y los indicadores, teniendo una idea clara sobre los aspectos en que se debe incidir en la investigación.
La investigación, en la práctica es un proceso permanente de preguntas y respuestas, por ello son necesarias las preguntas fundamentales para una mejor orientación del trabajo.
10
1.5.1.3 Componentes del titulo de un problema de investigación. El titulo de un problema de investigación debe tener los siguientes componentes. Especificidad
Situación
Unidad de
problemática
estudio
Espacio
Tiempo
La especificidad y la situación problemática Es el aspecto o los aspectos concretos que se quiere investigar acerca del hecho o situación problemática. Por ejemplo: causas, consecuencias, características, influencia, tendencia, modalidades, incidencia, implicancias, estructura, función, nivel, relación, evolución, etc. El hecho o situación problemática y la especificidad son los elementos centrales del problema. Estos elementos constituyen las variables.
Unidades de observación Son aquella en las se ponen de manifiesto los hechos o situaciones problemáticas y constituyen, desde el punto de vista estadístico, la población o muestra a la que se refiere la investigación. Son: Personas, grupos sociales, seres, acontecimientos, instituciones, objetos, procesos.
Espacio Esta referido al lugar en el que ocurre el hecho o situación problemática. Puede ser geográfico o administrativo. ¿Dónde?
Tiempo Está referido al momento en que ocurre el hecho o situación problemática. ¿Cuándo?
11
1.5.2 NIVELES DE INVESTIGACIÓN. El nivel o tipo de investigación según Victor Colque V., se clasifica en:
1.5.2.1 Investigación Descriptiva Orientada al descubrimiento de las propiedades particulares del hecho o situación problemática y también a la determinación de la frecuencia con que ocurre el hecho o situación problemática.
Ejemplo 5:
Nivel de conocimiento de los protocolos de construcción por los ingenieros civiles, de la población de la ciudad de Cusco, 2009.
1.5.2.2 Investigación Explicativa Orientada al descubrimiento de las causas o consecuencias o condicionantes de la situación problemática.
Ejemplo 6:
Principales causas de la deserción escolar en la región andina del Perú, 2009.
1.5.2.2 Investigación Comparativa Orientada al estudio de las semejanzas o diferencias de un hecho o situación problemática en dos circunstancias diferentes.
Ejemplo 7:
Nivel de aplicación de protocolos de seguridad en las construcciones de las provincias A y B de Cusco, 2009.
1.5.2.3 Investigación Relacional Orientada al descubrimiento de la influencia de un hecho o situación problemática en otro hecho o situación problemática.
Ejemplo 8:
Influencia de la internet en la lectura de los estudiantes de secundaria de la Ciudad del Cusco, 2008.
12
1.5.2.4 Investigación Correlacional Orientada a descubrir la covariación o correspondencia entre los valores de dos hechos o situaciones problemáticas.
Ejemplo 9:
Correlación entre hábitos de estudio y aprendizaje en los estudiantes de la Universidad de Nacional San Antonio Abad del Cusco, 2008.
1.5.2.5
Investigación Experimental
Orientada a descubrir la validez de un hecho para la modificación de una situación problemática.
Ejemplo 10:
Evaluación del efecto del uso de tres tipos de materiales de construcción en la resistencia de vigas de las edificaciones en la ciudad de Cusco, 2009.
1.5.3 TIPOS DE VARIABLES UTILIZADAS EN LA INVESTIGACION CIENTIFICA. 1.5.3.1
Variable independiente
Es aquella que juega un rol determinante, causal o de influencia en otra u otras variables, supone cierta autonomía con relación a las demás variables, pero es necesario, señalar que las variables independientes en determinados problemas, pueden cambiar, según sea la posición que ocupen en el enunciado, debido a que la realidad está en movimiento y que todos los hechos están concatenados.
Este tipo de variable se encuentra en las siguientes investigaciones:
1. Explicativa, 2. Relacional 3. Experimental ( en la experimental se le conoce como estímulo)
1.5.3.2
Variable dependiente
Es aquella que juega un rol de consecuencia, al ser determinada, originada o influida por la variable independiente. Esto significa que no pueden existir variables dependientes sin las independientes. 13
Considerando el tiempo, las independientes son más antiguas que las dependientes. Se encuentran en las siguientes investigaciones:
1. Explicativa 2. Relacional 3. Experimental
(La
variable
dependiente
en
una
investigación
experimental se le conoce como respuesta)
Ejemplo 11: En el problema influencia del uso de mapas mentales en el rendimiento académico de los estudiantes de las I.E de la región de Cusco, 2008. Variable independiente: Rendimiento Académico Variable dependiente: Uso de mapas mentales
1.5.3.3
Variable Intermedia
Es aquella que juega un rol de factor condicionante, pues su presencia entre la variable independiente y variable dependiente hace que sin tener el carácter de factor causal o determinante, modifique le resultado más complejas y de mayor profundidad.
Ejemplo 12: En el estudio de formación académica y rol de la experiencia en el desempeño profesional, Quillabamba. 2008. Variable independiente: formación académica. Variable Dependiente: Desempeño profesional Variable Intermedia : Experiencia
1.5.3.4
Variable interviniente
Es aquella que en ciertas medida juega un rol pasivo en el problema, pues permite medir las características, atributos, estructuras, incidencia, elementos o aspectos que se son inherentes.
La variable interviniente, la encontramos en investigaciones: 1. Descriptiva 2. Comparativa. 14
Ejemplo 13: En el problema: Niveles de desnutrición de los pobladores
de las
provincias altas, 2008. Variable interviniente : Nivel de desnutrición. 1.5.3.5
Variables Asociadas
Son aquellas que no guardan mayor nivel de dependencia, no hay relación causal entre ellas y considerando el criterio tiempo vienen a ser más o menos contemporáneas, pues para que aparezca el problema surgen de manera simultánea.
Este tipo de variables, se encuentra en la investigación descriptiva multivariable, se trata de dos o más variables intervinientes, por lo que nunca van acompañadas de algún otro tipo de variables.
Ejemplo 14: En el problema: Rasgos sociales y culturales de los trabajadores de la ciudad de Cusco , 2008.
Las variables asociadas son rasgos sociales y rasgos culturales
1.5.3.6
Variables Interdependientes
Son aquellas que indistintamente pueden ser consideradas como causa o como consecuencia una de otra. Corresponden a la investigación correlacional.
Ejemplo 15: En el problema: Correlación entre tipo de alimentación y obesidad de los ingenieros de la ciudad de Cusco, 2009. Las variables interdependientes, son tipo de alimentación y obesidad
15
Resumen del tipo de variables según tipo de investigación. Descriptiva Interviniente
Comparativa Interviniente
Asociada
Relacional
Explicativa Independiente(s) Dependiente(s)
Correlacional
Experimental
Independiente
Interdependiente
Estimulo (Factor)
Dependiente
Interdependiente
Respuesta
Observaciones: 1. Las variables según su naturaleza se clasifican en cuantitativas y cualitativas. 2. Las variables según su relación casual se clasifican en: independiente, dependiente, interviniente. En el área de las ciencias de la salud, se tiene los siguientes tipos de investigación biomédica.
1.6
RECOPILACIÓN DE DATOS. Dentro de un proceso de investigación una de las actividades que se realizan es la recopilación de datos, la cual es el acopio de información y se incluye desde elaborar fichas bibliográficas hasta la aplicación de cuestionarios con el empleo de técnicas de muestreo. Para Hernández et.al. (2006) un instrumento de medición es un recurso que utiliza el investigador para registrar información o datos sobre las variables que tiene en mente. La construcción de instrumento consiste en generar un número suficiente de ítems para medir todas las variables con todas sus dimensiones. La recopilación de datos, se puede realizar mediante: Investigación documental Investigación de campo
16
La investigación documental. Consiste en el estudio de documentos escritos sobre un objeto determinado, es decir son todos aquellos documentos registrados en diferentes dispositivos físicos a los que podemos tener acceso en forma directa o indirecta para su consulta y se puede clasificar en: 1.- Documental bibliográfica
4.- Documental audiográfica
2.- Documental hemerográfica 5.- Documental videográfica 3.- Documental escrita
6.- Documental iconográfica
La investigación de campo. Consiste en obtener información directa mediante diferentes actividades por contacto directo con el hecho que se quiere investigar así como las personas relacionadas y se puede realizar: a) Por observación directa b) Por interrogación
La observación. Es el procedimiento empírico básico, el cual consiste en realizar la percepción intencionada de una actividad determinada mediante la experimentación la cual consiste en la obtención de datos cuantitativos por medio de la medición del fenómeno que se este observando. Para realizar la observación se utilizan diversos instrumentos auxiliares los cuales son: 1.- La ficha de campo
3.- La entrevista
2.- Estudio de Actividades 4.- La encuesta
La Entrevista. Es una de las técnicas más comunes y es considerada como la relación directa entre el investigador y el objeto de estudio a través de individuos o grupos con el fin de obtener testimonios reales. a) Entrevistas formales b) Entrevistas informales
La Encuesta. Consiste en recopilar información sobre una parte de la población. La información recopilada puede emplearse para un análisis cuantitativo con el fin de identificar las magnitudes del problema.
17
El Cuestionario. Es un eficaz auxiliar en la observación científica que contiene aspectos del fenómeno esenciales, las cuales son preguntas formuladas por escrito y no es necesaria la presencia del investigador. - Cuestionarios por correo - Cuestionario administrado por el entrevistado - Cuestionario administrado por el entrevistador
La Cedula. Tiene carácter de anónimo, donde el encuestador es quien llena la cedula de entrevista, además de que es posible aclara la información sobre las preguntas y es utilizada cuando una persona tiene un bajo nivel cultural.
1.7 ESCALAS PARA LA CLASIFICACION DE ACTITUDES La escala de clasificación por categorías es la que usan ampliamente los investigadores de ciencias de la salud y sociales.
Escala de clasificación por categorías: Existen cuatro categorías a partir de las cuales los entrevistados pueden elegir para señalar su nivel general de satisfacción. - Muy satisfecho (+2) - Satisfecho (+1 ) - Algo satisfecho (0) - No del todo satisfecho (-1)
Escala De Comparación: Es una versión de la escala de categorías, califica a estas categorías como: “excelente”, “muy bueno”, “bueno”, “regular” y “deficiente”, eliminando de esta
forma la comparación implícita. El problema con tal escala es que el punto de referencia es poco claro y diferentes entrevistados pueden usar diferentes puntos de referencia o estándares.
Escala de Likert: La escala de Likert requiere que un entrevistado indique un grado de acuerdo o desacuerdo con respecto a una variedad de afirmaciones (reactivos) relacionadas con el objeto de las actitudes. 18
Es un tipo de instrumento de medición o de recolección de datos que disponemos en la investigación social. Es una escala para medir las actitudes. Consiste en un conjunto de ítems bajo la forma de afirmaciones o juicios ante los cuales se solicita la reacción (favorable o desfavorable, positiva o negativa) de los individuos.
Alternativas o puntos en la escala de Likert Asignación Asignación Numérica
Numérica
I
II
2
5
Alternativa
Alternativa
Alternativa
Alternativa
A
B
C
D
Muy de
Totalmente
Definitivamen Completame
acuerdo
de acuerdo
te sí
nte verdadero
1
4
De acuerdo
De acuerdo
Probablemen Verdadero te sí
0
3
Ni de
Neutral o
acuerdo, ni
indiferente
Indeciso
Ni falso, ni verdadero
en desacuerdo -1 -2
2 1
En
En
Probablemen Falso
desacuerdo
desacuerdo
te no
Muy en
Totalmente
Definitivamen Completame
desacuerdo
en
te no
nte falso
desacuerdo Para obtener las puntuaciones de la escala de Likert, se suman los valores obtenidos respecto de cada items. El puntaje mínimo resulta de la multiplicación del número de ítems por 1. Una puntuación alta está dada por el número de ítems o afirmaciones multiplicado por 5.
19
PM--------------------I----------------------I----------------------I------------------PA Donde: PM: Puntaje mínimo y PA: Puntaje Máximo.
Ejemplo 16: Ha encontrado en la institución el apoyo y las facilidades necesarias para que usted desarrolle de modo óptimo su trabajo. ( ) Definitivamente sí ( ) Probablemente sí ( ) Indeciso ( ) Probablemente no ( ) Definitivamente no
Ejemplo 17: El jefe de personal se preocupa por el bienestar del recurso humano. Categorías de Respuesta
Frecuencia
Porcentaje
Asignación de puntajes
Totalmente de acuerdo
(5)
2
4.4%
2(5)
De acuerdo
(4)
4
9%
4(4)
Indeciso
(3)
7
15.6%
7(3)
En desacuerdo
(2)
9
20%
9(2)
23
51%
23(1)
n=45
100%
Total=88
Totalmente en desacuerdo (1)
Para interpretar el puntaje se ubica en los tramos de la escala de likert. Totalmente
En desacuerdo
Indeciso
De acuerdo
Totalmente de
En desacuerdo (1)
(2)
(3)
(4)
Acuerdo (5)
45*1=45
45*2=90
45*3=135 45*4=180
45*5=225
La puntuación 88 se aproxima a 90, por lo tanto se ubica en la parte que indica en desacuerdo.
20
BAREMACIÓN DEL INSTRUMENTO, UTILIZANDO ESCALA DE LIKERT. Para medir la variable de estudio se aplico una encuesta utilizando la escala de likert, la misma que presenta en cada ítems cinco alternativas, a partir de las cuales los entrevistados pueden elegir, con la finalidad de señalar su nivel de acuerdo. - Alternativa a (5) - Alternativa b (4) - Alternativa c (3) - Alternativa d (2) - Alternativa e (1) Para obtener las puntuaciones de la variable de estudio, se suman los valores obtenidos respecto de cada ítem. El puntaje mínimo (PM) resulta de la multiplicación del número de ítems (x) por 1. Una puntuación alta (PA) está dada por el número de ítems o afirmaciones multiplicado por 5. PM--------------------I----------------------I----------------------I------------------PA Para facilitar la interpretar las
puntuaciones
de la variable de estudio se
transforman a una escala cualitativa, según el siguiente criterio. Puntaje Obtenido
Categoría
Puntaje 1.5x
Deficiente
1.5 x
Puntaje
2.5x
Malo
2.5 x
Puntaje
3.5x
Regular
3.5 x
Puntaje
4.5x
Bueno
Puntaje
4.5x
Muy bueno
21
CONFIABILIDAD Y VALIDEZ. Confiabilidad. La fiabilidad de una medida analiza si ésta se halla libre de errores aleatorios y, en consecuencia, proporciona resultados estables y consistentes (Sánchez y Sarabia, 1999:367). Para valorar la fiabilidad (consistencia interna) de la escala se calcula el coeficiente Alpha de Cronbach para el total de la muestra. El valor mínimo aconsejable es 0,7.
Para calcular el coeficiente de confiabilidad se usa el ”COEFICIENTE ALFA DE
CROMBACH, definido mediante:
donde: k: Número de preguntas. Sr : 2
Varianza de cada pregunta.
2 Si : Varianza del instrumento.
La validez de una medida analiza si el instrumento utilizado mide lo que el investigador pretende medir. La validez tiene tres aspectos: validez de contenido, validez de construcción y validez de criterio (Nunnally, 1987:100). La validez de contenido se refiere al grado en el que la medida recoge el dominio del concepto estudiado (Sánchez y Sarabia, 1999:382). La validez de construcción, medida de forma convergente, significa que un mismo fenómeno medido de diversas formas independientes da lugar a resultados similares. La existencia de validez convergente significa que existe una corroboración por procedimientos independientes del concepto bajo estudio, los cuales pueden ser tanto un tipo diferente de escala como valoraciones procedentes
22
de diferentes tipos de sujetos sobre el mismo concepto (Sánchez y Sarabia, 1999:385). La validez de criterio se refiere al grado de eficacia con el que se puede pronosticar una variable a partir de la medición efectuada (Sánchez y Sarabia, 1999:386).
VALIDACIÓN DEL INSTRUMENTO (ENCUESTA) MEDIANTE EL CRITERIO DE EXPERTOS INSTRUCCIONES: El presente documento, tiene como objetivo el de recoger información útil
de
personas especializadas en el tema, acerca de la validez del instrumento de recolección de datos. Se compone de 10 ítems, los que se acompañan con su respectiva escala de estimación que significa lo siguiente: 1.
Representa una ausencia de elementos que absuelven la interrogante planteada
2.
Representa una absolución escasa de la interrogante
3.
Significa la absolución del ítem en términos intermedios
4.
Representa estimación que el trabajo de investigación absuelve en gran medida la interrogante planteada.
5.
Representa el mayor valor de la escala y debe ser asignado cuando se aprecia que el ítem es absuelto por el trabajo de investigación de una manera totalmente suficiente.
Marque con una (X) en la escala que figura a la derecha de cada ítem, según la opción que le merezca el instrumento de investigación.
23
HOJA DE PREGUNTAS PARA LA VALIDACION PREGUNTAS 1. ¿Considera usted que los ítems del instrumento miden lo que se pretende medir?
ESCALA DE VALORACIOiN
1
2
3
4
5
2. ¿Considera usted que la cantidad de ítems registrados en esta versión son suficientes para tener una comprensión de la materia de estudio?
1
2
3
4
5
3, ¿Considera usted que los ítems contenidos en este instrumento, son una muestra representativa del universo materia del estudio?
1
2
3
4
5
4. ¿Considera usted que si aplicamos en reiteradas oportunidades este instrumento a muestras similares, obtendríamos también datos similares?
1
2
3
4
5
5. ¿Considera usted que los conceptos utilizados en este instrumento, son todos y cada uno de ellos, propios de las variables del estudio?
1
2
3
4
5
6. ¿Considera usted que todos y cada uno de los ítems contenidos en este instrumento tienen los mismos objetivos?
1
2
3
4
5
7. ¿Considera usted que el lenguaje utilizado en el presente instrumento es claro, sencillo y no da lugar a diversas interpretaciones?
1
2
3
4
5
8. ¿Considera usted que la estructura del presente instrumento es adecuada al tipo de usuario a quien se dirige el instrumento?
1
2
3
4
5
9. ¿Estima usted que las escalas de medición utilizadas son pertinentes a los objetos materia de estudio?
1
2
3
4
5
10. ¿Que aspectos habría que modificar, que aspectos tendrían que incrementarse o que aspectos habría que suprimirse? …………………………………………………………………………………………………………… …………………………………………………………………………………………………………… ……………………………………………………………………………………………………………
24
EJERCICIOS PROPUESTOS. 1.
Influencia del uso del tipo de cemento en la resistencia de los soportes de construcción en la ciudad de Cusco. Especifique. b. La población. c. La(s) variable(s) de estudio y el tipo de variable. d. La escala de medición a emplear. e. Tipo de estudio.
2.
Se hizo una encuesta entre los ingenieros sobre el nivel de acuerdo con la medidas preventivas respecto a desastres naturales propuesta por el gobierno. Medidas preventivas respecto a desastres
Frecuencia
naturales Totalmente de acuerdo
15
De acuerdo
40
Indeciso
25
En desacuerdo
10
Totalmente en desacuerdo
6
En base a la información, realice el análisis correspondiente. 3.
Clasificar cada una de las siguientes variables :
a. Nivel economico (Bajo, Medio, Alto). b. Sexo. c. Edad. d. Nivel educativo (primario secundario, superior). e. Años de experiencia. f. Ingreso económico. g. Tipo de seguro (privada o pública). h. Estrato social (bajo, medio o alto). i. Numero Telefónico j. Numero de DNI de un profesor. k. Tipo de material de construcción. l. Caudal máximo. m. Resistencia de materiales-
25
CAPITULO II ORGANIZACIÓN Y PRESENTACIÓN La presentación de datos a través de tablas estadísticas es una actividad importante dentro de los sistemas de información, estas se fortalecen significativamente cuando se la acompañan con gráficos descriptivos ilustrativos. En el contexto de los sistemas de información, en más de una oportunidad se encontrara que un buen grafico resume y expresa mucho más que párrafos completos de comentarios e interpretaciones literales. Resumir los datos es un procedimiento útil para conseguirlo y puede hacerse mediante tablas, gráficos o valores numéricos. A lo largo de este tema veremos las principales técnicas numéricas y gráficas que nos permiten describir una característica de interés observada en una población, poniendo en relieve sus rasgos más importantes.
2.1
TABLA DE FRECUENCIAS. Un primer resumen de la información contenida en un conjunto de datos observado se obtiene al organizarlos en lo que se llama una tabla de frecuencias. En ésta se recogen los distintos valores (números o categorías) que toma la variable junto con sus correspondientes frecuencias de aparición.
2.1.1 TABLA DE FRECUENCIAS PARA VARIABLES CUALITATIVAS Si en una muestra de n elementos, se observa k categorías diferentes C 1, C2,…, Ck de una variable cualitativa X. Para resumir la información, previamente definimos algunos conceptos.
26
La frecuencia absoluta de un valor Ci es el número de veces que dicho valor aparece en la muestra. Se representa por f i y cumple k
fi
f1
f 2 ......
fk
n
i 1
La frecuencia relativa de un valor Ci es el cociente de la frecuencia absoluta (f i) entre el tamaño de la muestra (n), se representa por hi f i
hi
k
, se cumple
n
hi
1
i 1
La frecuencia absoluta acumulada del valor i-ésimo es la suma de las frecuencias absolutas hasta dicho valor, se denota por F i Fi
f1
f 2 ......
f i
La frecuencia relativa acumulada del valor i-ésimo es la suma de las frecuencias relativas hasta dicho valor, se denota por F i Hi
h1 h2 ...... hi
,
H i
F i n
Una tabla de frecuencias tiene la siguiente estructura:
Categoría Frecuencias Frecuencias Frecuencias de la
absolutas
relativas
Porcentuales
variable
f i
hi
pi
X
frecuencias frecuencias absolutas
relativas
acumuladas acumuladas Fi
Hi
C1
f 1
h1
p1
F1
H1
C2
f 2
h2
pi
F2
H2
….
…
…
…
…
…
Ck
f k
hk
pk
Fk=n
Hk=1
Total
n
1.00
100.00
GRAFICAS. Las representaciones gráficas prácticamente están orientadas de acuerdo con las necesidades del investigador o estadístico, de todas formas se tienen algunas normas de trabajo y representación, que tienen por objeto facilitar la
27
lectura de los datos e información que se maneja estadísticamente. Las principales representaciones son: La calidad de un gráfico estadístico consiste en comunicar ideas complejas con precisión, claridad y eficiencia, de tal manera que: •
Induzca a pensar en el contenido más que en la apariencia
•
No distorsione la información proporcionada por los datos
•
Presente mucha información (números) en poco espacio
•
Favorezca la comparación de diferentes grupos de datos o de relaciones entre los mismos (por ejemplo una secuencia temporal) La finalidad de los gráficos estadísticos es: –
Organizar los datos.
–
Observar patrones.
–
Observar agrupamientos.
–
Observar relaciones.
–
Comparar distribuciones.
–
Visualizar rápidamente la distribución de los datos.
–
Visualizar, obtener y comparar medidas estadísticas.
El cuadro anterior se puede representar utilizando los siguientes gráficos;
Diagrama de barras o rectangulos Es la representación gráfica usual para variables cuantitativas sin agrupar o para variables cualitativas. Para el caso de variables cualitativas se construye dibujando sobre la categoría correspondiente un rectángulo con altura igual a la frecuencia (absoluta o relativa). También es válido para variables cuantitativas discretas, considerando en el eje de abscisas los valores de la variable en orden creciente en lugar de las categorías, sobre cada valor levantamos una barra de altura igual a la frecuencia (absoluta o relativa).
Diagrama de Pareto. Se ordenan las categorías de mayor a menor importancia y se dibujan los rectángulos correspondientes. 28
Diagrama de sectores Se representan
Es
el
más usual en variables cualitativas.
mediante círculos. A cada valor de la variable se le asocia
el sector circular proporcional a su frecuencia. Para hallar el ángulo usamos la siguiente proporción: al tener una circunferencia 360º, el cociente entre la frecuencia absoluta (o relativa) total y la frecuencia absoluta (o relativa) que queramos representar será igual al cociente entre los 360º de la circunferencia y el ángulo a determinar, así : n
360º
fi
Donde
1
360º
hi
es el ángulo a determinar.
Pictogramas. Expresan con dibujos alusivos al tema de estudio las frecuencias de las modalidades de la variable. La escala de los dibujos debe ser t al que el área de cada uno de ellos sea proporcional a la frecuencia de la modalidad que representa.
2.1.2 TABLA DE FRECUENCIAS PARA VARIABLES CUANTITATIVAS DISCRETAS Una vez obtenida una muestra de cualquier población y observados los valores que toma la variable en los individuos de la muestra, estos valores se suelen ordenar. Si la variable es cuantitativa la ordenación será de menor a mayor. Dada una variable X, consideramos una muestra de tamaño n que toma k valores distintos, x1, . . . , xk (x1 < x2 < . . . < xk). La organización es en forma similar al caso cualitativo.
29
Categoría Frecuencias Frecuencias Frecuencias de
la absolutas f i
relativas hi
variable
frecuencias
Porcentuales absolutas pi
X
frecuencias relativas
acumuladas acumuladas Fi
Hi
x1
f 1
h1
p1
F1
H1
x2
f 2
h2
pi
F2
H2
….
…
…
…
…
…
xk
f k
hk
pk
Fk=n
Hk=1
Total
n
1.00
100.00
La grafica para representar esta información es Bastones.
Observaciones Los datos iniciales se pueden representar utilizando los gráficos.
Diagrama de cajas(box-plot) Presentación visual que describe al mismo tiempo varias características importantes de un conjunto de datos, tales como el centro, la dispersión, el alejamiento de la simetría, y la identificación de valores extremos (puntos atípicos), es decir, de valores que se alejan de una manera poco usual del resto de los datos. Presenta los tres cuartiles, (y los valores mínimos y máximos) alineados sobre una caja vertical u horizontalmente. El procedimiento Para el diagrama de cajas y bigotes es: 1. Dibujar un segmento con extremos en los valores menor y mayor que aparecen en la muestra paralelo a uno de los ejes . 2. Dibujamos una caja con extremos en el primer y tercer cuartil y marcamos en ella la mediana. 3. Se hallan los límites interiores (Q1 – 1.5 IQR y Q3 + 1.5 IQR) y los límites exteriores (Q1 – 3 IQR y Q3 + 3 IQR). Donde Qi : Cuarteles que seran desarrollados más adelante. 4. Se unen, con unos segmentos (bigotes), Q 1 y Q3 con los valores adyacentes de la muestra. 5. Por último se indican los valores atípicos
30
Tallos y Hojas (stem & leaf) Procedimiento semigráfico para el que se preparan los datos resumiéndolos en dos o tres cifras (expresándolos en las unidades adecuadas). A continuación se disponen en una tabla de dos columnas del siguiente modo: 1. Si los datos son de dos dígitos, a la izquierda (en el tallo) aparece la cifra de las decenas, a la derecha separada por una línea aparecen las hojas y se escriben ordenadas y todas seguidas. 2. Si hay tres dígitos el tallo está formado por los dos primeros. Las hojas son las unidades.
2.1.3 TABLA DE FRECUENCIAS PARA VARIABLES CUANTITATIVAS CONTINUAS. A veces se hace necesario trabajar con datos agrupados. Definimos entonces como clase a cada uno de los intervalos en que se agrupan los datos. Las frecuencias harán ahora referencia al número de datos que hay en cada intervalo. Para construir distribución de frecuencias por intervalos, se tiene los siguientes pasos:
Elegir un numero de intervalos de clase (K) Puede utilizar la regla de Sturges, k 1 3.3log(n) Donde k: Numero de intervalos. n: Numero de datos.
Determinar el rango , R xmax xmin
Determinar la amplitud de las clases
Determinación de los intervalos: I1
xmin , xmin
I2
xmin
A
A, xmin
A
R / k
LI1 , LS 1
2A
LI2 , LS 2
………………………..
I k
xmin
(k 1) A, xmin
kA
LIk , LS k
Determinación de las marcas de clase, mi Donde
LI :
LI i
LS i 2
Limite inferior
31
LS :
Limite superior.
Realizar la clasificación y el conteo de datos en cada clase construida.
Intervalos Ii
Marcas Frecuencias Frecuencias Frecuencias
Frecuencias
frecuencias
frecuencias
de clase
absolutas
relativas
relativas
Porcentuale
absolutas
relativas
mi
f i
hi
hi
s
acumuladas
acumuladas
pi
Fi
Hi
I1
m1
f 1
h1
h1
p1
F1
H1
I2
m2
f 2
h2
h2
pi
F2
H2
….
…
…
…
…
…
…
…
Ik
mk
f k
hk
hk
pk
Fk=n
Hk=1
n
1.00
1.00
100.00
Total
Cuando las variables son continuas, utilizamos como diagramas diferenciales los histogramas y los polígonos de frecuencia s. Este cuadro se representa mediante los siguientes gráficos:
Histograma de frecuencias Un histograma es la representación más frecuente con datos agrupados, se construye a partir de la tabla estadística, representando sobre cada intervalo, un rectángulo que tiene a este segmento como base. El criterio para calcular la altura de cada rectángulo es el de mantener la proporcionalidad entre las frecuencias absolutas (o relativas) de cada intervalo y el área de los mismos.
Polígono de frecuencias El polígono se construye fácilmente si tenemos representado previamente el histograma, ya que consiste en unir mediante líneas rectas los puntos del histograma que corresponden a las marcas de clase. Para representar el polígono de frecuencias en el primer y último intervalo, suponemos que adyacentes a ellos existen otros intervalos de la misma amplitud y frecuencia nula, y se unen por una línea recta los puntos del histograma que corresponden a sus marcas de clase.
Curva de frecuencias. Resulta de suavizar el polígono de frecuencias, en sus puntos angulosos.
Ojivas
32
EJERCICIOS RESUELTOS 1) Se realizo un estudio sobre la precipitación media anual en una región del país, para ello se recopilo información histórica de los últimos 90 años, obteniéndose los siguientes resultados: 12.2 16.4 17.8 18.4
19
19.5
20
20.9
23
13.1 16.8 17.8 18.4 19.1 19.5
20
20.9
23
14.3 16.9 17.8 18.4 19.1 19.7 20.2
21
23.2
15.5 17.1 17.8 18.4 19.2 19.7 20.3
21.1
23.3
15.5 17.2 18 18.5 19.2 19.7 20.3
21.4
23.5
15.6 17.3 18.1 18.5 19.3 19.7 20.5
21.6
23.5
15.9 17.4 18.2 18.5 19.3 19.7 20.6
21.7
24.1
16.1 17.6 18.3 18.5 19.4 19.8 20.6
22
24.2
16.2 17.8 18.3 18.8 19.4 19.9 20.8
22.4
24.8
16.2 17.8 18.3 19
22.7
26.2
19.5 19.9 20.8
a) Construya la tabla de distribución de frecuencias b) Represente la información obtenida, mediante un grafico.
Solución. a) Para construir una tabla de frecuencia se tiene los siguientes pasos.
Elegir el número de clases.
Usando la relación de sturges se tiene: k
R
1 3.3log(n ) 1 3.3log(90)
7.44
7
Determinar la amplitud de los intervalos xmax
xmin
26.2 12.2 14
Determinar el tamaño del intervalo de clases (c), A
R
14
k
7
2
Establecimiento de los límites y construcción de la tabla:
33
LI - LS
mi
f i
Fi
hi= f i/n
pi
Hi
[12.2 – 14.2) 13.2
2
2
0.02
2.22
0.02
[14.2 – 16.2) 15.2
6
8
0.07
6.67
0.09
[16.2 – 18.2) 17.2
18
26
0.2
20
0.29
[18.2 – 20.2) 19.2
36
62
0.4
40
0.69
[20.2 – 22.2) 21.2
16
78
0.18
17.8
0.87
[22. 2 – 24.2) 23.2
9
87
0.1
10
0.97
[24.2 – 26.2) 25.2
3
90
0.03
3.33
1
1
100
TOTAL
n=90
b) Histograma de frecuencias relativas. Histograma 40
30 a i c n e u c e r f
20
10
0 12
15
18
21
24
27
2.- Una empresa constructora pone a disposición de sus trabajadores cuatro nuevos planes de seguro. La gerencia
desea saber si se nota alguna
preferencia por uno u otro tipo seguro.
A continuación se presenta los
resultados de la encuesta aplicada a 37 trabajadores. D, A, D, B, C, D, D, A, D, D, A, D, B, D, D, C, A, B, A, D, D, D A, C, B, A, A, B, D, C, B, A, B, B, D, A, D. Represente la información mediante un gráfico apropiado.
34
Solución. Tipo de capital.
f i
hi
Pi
A
10
0.2703
27.03
C
4
0.1081
10.81
B
8
0.2162
21.62
D
15
0.4054
40.54
Total
n=37
1
100
15 12 a i c n e u c e r f
9
6 3 0 A
B
C
D
3.- Se realizo un estudio sobre el tipo de error en la facturación que cometen un grupo de empresas dedicas a la construcción en la ciudad de Cusco, registrándose los siguientes resultados. Tipo de Error en la facturación
Frecuencia 45
Porcentaje 22.4
Concepto
70
34.8
Otros
86
42.8
Total
201
100.0
Calculo
Represente gráficamente la información.
35
50
40
e30 j a t n e c r o P 20
10
0 Calculo
Concepto
Otros
Tipo de error en la facturación
4.- El colegio de Ingenieros realizo un estudio sobre el conocimiento que tienen sus afiliados sobre las normas de construcción. Los resultados se muestran a continuación. Conocimiento
Frecuencia 26
Porcentaje 63.4
Regular
8
19.5
Bueno
7
17.1
41
100.0
Defici ente
Total
Represente la información mediante un grafico.
60,0%
e j 40,0% a t n e c r o P
20,0%
0,0% Deficiente
Regular
Bueno
Conocimiento
36
EJERCICIOS PROPUESTOS 1. Los datos del Cuadro siguiente corresponden a las Precipitaciones Máximas. 87 106 114
120
129
140
155 183
93 107 116
122
133
141
155 194
101 107 117
122
133
146
162 197
104 109 118
125
134
146
167 204
105 110 118
125
135
148
173 212
105 114 119
128
138
152
176 230
a) Construya la tabla de frecuencias. b) Grafique el histograma. c) Establezca si los datos siguen una distribución simétrica. 2. En una prueba de elasticidad de un conjunto de vigas se obtuvieron los siguientes valores en MN/m : 6.72; 6.77; 6.82; 6.70; 6.78; 6.70; 6.74; 6.81; 6.75; 6.66; 6.66; 6.64; 6.76; 6.73; 6.80; 6.79; 6.76; 6.72; 6.76; 6.68; 6.66; 6.62; 6.72; 6.78; 6.72; 6.76; 6.70; 6.78; 6.76; 6.67; 6.70; 6.73; 6:65. Organizar la información y represente gráficamente. 3. Los siguientes datos corresponden al número de accidentes que ocurren en construcción de viviendas en una provincia en mes. 0
2
5
0
0
1
4
1
0
2
1
5
0
1
3
0
0
2
1
3
1
4
0
0
5
1
3
6
4
2
5
1
1
2
2
1
6
5
0
3
3
0
4
2
0
0
4
1
2
1
a) Agrupe estos datos en una distribución de frecuencias y grafique dicha información b) Interprete los resultados y redacte sus conclusiones.
37
4. Se tiene la información de los niveles de caudal medio de un rio para un periodo de 50 meses. 110
110
126
112
117
113
135
107
122
113
98
122
105
103
119
100
117
113
124
118
132
108
115
120
107
123
109
117
111
112
101
112
111
119
103
100
108
120
99
102
129
115
121
130
134
118
106
128
94
114
a).- ¿Cuál es la amplitud total de la distribución de los datos? b).- Obtenga la distribución de frecuencias absolutas y relativas. c).- Obtenga la distribución de frecuencias acumuladas, absolutas y relativas, con los intervalos anteriores. d).- Calcular la media y la varianza con los intervalos del apartado b y después calcúlense las mismas magnitudes sin ordenar los datos en una tabla estadística. ¿Con qué método se obtiene mayor precisión? e).- Dibuje el polígono de frecuencias relativas. f).- Dibuje el polígono de frecuencias relativas acumuladas. 5. Los siguientes datos corresponden a los números de torsión que se obtuvieron al cortar 12 barras de aleación forjada. Determine la: media, mediana, moda, varianza y desviación típica. 32, 24, 39, 48, 26, 35, 38, 54, 23, 34, 29, 37. 6. Se midió la resistencia a la compresión de 58 probetas de una nueva aleación de aluminio, obteniendo los siguientes resultados. 66.4; 67.7; 68; 68.3; 68.4; 68.6; 68.8; 68.9; 69; 69.1; 69.2; 69.3; 69.5; 75.3; 70.8; 73.4; 72; 71.5; 74.3; 74; 73.6; 72; 75; 72.4; 73.9; 73.6; 72.2. Organizar la información y representar mediante un grafico.
38
CAPITULO III MEDIDAS DESCRIPTIVAS DE UNA DISTRIBUCIÓN DE DATOS. Las técnicas estudiadas anteriormente permiten una descripción visual de la distribución de una variable. En muchos casos, el resumen puede hacerse eficazmente de una forma más sencilla y precisa: utilizando valores numéricos que den idea de la ubicación o del centro de los datos -medidas de posición- usando cantidades que informen de la concentración de las observaciones alrededor de dicho centro -medidas de dispersión- y mediante números que reflejen la forma (asimetría y apuntamiento) de la distribución -medidas de forma. La conjunción de técnicas numéricas y gráficas permite una buena descripción de la variable. Los estadísticos resúmenes tratan de reflejar numéricamente distintos aspectos de la variable en estudio. Podemos distinguir 4 aspectos o características principales que pueden resumirse en una distribución. (Ver cuadro siguiente)
39
Media Centralización Mediana
Nos dan un centro de la distribución de
Moda
frecuencias
Percentiles
Son valores de la
Cuartiles
distribución que
Posición
dividen en partes Deciles
iguales
Varianza
Las medidas de
Medidas
Desviación típica
dispersión cuantifican
descriptivas
Coeficiente de variación
la separación, la
Rango
dispersión, la
Dispersión
variabilidad de los valores de la distribución respecto al Recorrido Intercuartilico Coeficiente de Asimetría
Forma
valor central Comparan la forma
Coeficiente de Apuntamiento que tiene la o Curtosis
representación gráfica
3.1 Medidas de tendencia central Los promedios o medidas de tendencia central son valores representativos de un conjunto de datos. Pretenden resumir todos los datos en un único valor. Las medidas de tendencia central son fundamentales ya que permiten localizar cuantitativamente la zona central o de mayor acumulación de información de un conjunto de datos correspondientes a una variable, obtenidos de una muestra seleccionada de una población específica o de un conjunto de resultados del espacio muestral de un experimento aleatorio. Definimos tres medidas de tendencia central: media, mediana y m oda.
40
Media, ( x ) Media para datos sin agrupar: Dado un conjunto de observaciones x 1, . . . , xn, la media se representa mediante x , se obtiene mediante: n
x1
x
x 2 .....
xn
n
xi i 1
n
Media para datos agrupados Consideremos el caso en que tenemos una distribución de frecuencia para variables cuantitativas discretas, en este caso la media es:
x
f 1x1
f 2 x2 ..... n
fkxk
k
xi hi i 1
Si los datos están agrupados por intervalos, para hallar la media tomamos la marca de las clases, x
f 1m1
f 2 m2 .....
k
fkmk
hi mi
n
i 1
La media se mide en las mismas unidades que la variable, y tiene el inconveniente de verse muy afectada por la presencia de datos que sean extremadamente grandes o pequeños (datos atípicos).
Mediana, (Me) Se calcula para variables cuantitativas; es el valor de la serie de datos que se sitúa justamente en el centro de la muestra una vez se ha ordenado ésta, corresponde a un 50% de valores son inferiores y otro 50% son superiores. Mediana para datos sin agrupar La mediana es el valor del dato central y depende del tamaño de la muestra. Me
x
n 1
, para n impar
2
41
x
x
n 2
Me
n
1
2
2
, Si n es par.
Mediana para datos agrupados Cuando trabajamos con variables agrupadas por intervalos es imposible determinar con precisión los valores que toman los datos, ya que esa información se ha perdido en privilegio del agrupamiento intervalo. Por lo tanto, en este caso, debemos buscar otro método para determinar el valor de la mediana. n Me
2
LI
F i 1 fi
A
LI
0.5 H i
1
hi
A
La mediana sólo tiene en cuenta la posición de los valores en la muestra y por lo tanto tiene mejor comportamiento que la media cuando hay observaciones anómalas.
Moda, (Mo) Es el valor con mayor frecuencia. Si hay más de una moda, la variable se dice multimodal y puede calcularse para cualquier tipo de variable (Cuantitativas o cualitativas). Si los datos están agrupados hablamos de clase modal y será aquella para la que la frecuencia absoluta sea mayor.
Mo
1
LI 1
A 2
LI
fi fi
fi
1
f i 1 fi
f i 1
A
Donde: 1
fi
f i 1
1
fi
f i 1
42
¿Cómo elegir entre las medidas de tendencia central?- En general, la media es la medida de tendencia central más útil y más empleada. El uso de la media es el más apropiado cuando y la distribución de los datos es unimodal y aproximadamente simétrica. Cuando valores extremos distorsionan la distribución de los datos, el uso de la mediana es más apropiado pues se ve menos afectada, pero en la práctica esta medida de tendencia central no se utiliza demasiado. Si se trata de una variable ordinal, o sólo necesitas una descripción rápida y aproximada de la tendencia central, puedes utilizar la moda, que también es útil cuando la distribución está distorsionada por valores extremos o la distribución es bimodal.
Clases de Distribuciones Distribución
Simétrica se presenta si todas las observaciones están
concentradas en un solo valor de la variable, en este caso la media, mediana y moda coincidirían en el mismo. x
Me
Mo
Distribución asimétrica sesgada a la izquierda Supongamos ahora que las observaciones de la parte izquierda se alejan del valor central más que las observaciones de la parte derecha, generando una distribución asimétrica hacia la izquierda; en este caso como la media es la suma de los valores de las observaciones dividido por la cantidad total de observaciones, su valor se correrá a la izquierda también y por el mismo motivo, la media será menor que la mediana y ambas menor que la moda, es decir: x
Me
Mo
43
Distribución asimétrica sesgada a la derecha. En este caso la media, es mayor que la mediana y que la moda. Mo
Me
x
.
3.2 Medidas de Posición. Cuartiles Dividen la muestra, ordenada de menor a mayor, en 4 partes iguales, y se denotan por Q i , i=1,2,3 i.n Qi
-
LI i
F k 1
4
f k
A
Q1, primer cuartil, al menos el 25% de los datos son menores o iguales que él y al menos el 75% de los datos son mayores o iguales que él.
-
Q2, segundo cuartil, es la mediana, Q 2 = Me.
-
Q3, tercer cuartil, al menos el 75% de los datos son menores o iguales que él y al menos el 25% de los datos son mayores o iguales que él.
Percentiles Dividen la muestra ordenada en 100 partes iguales. i.n Pi
LI i
100
F k 1 f k
A
44
El i-ésimo percentil, Pi (1
i
99 )
es un valor tal que al menos el i% de los
datos son menores o iguales que él y al menos el (100-i) % de los datos son mayores o iguales que él. A partir de las definiciones de los cuartiles y percentiles, es claro que Q 1 = P25, Q2 = P50 =Me y que Q 3 = P75.
Deciles Dividen el conjunto de datos en 10 partes iguales y se denota con D i , i=1,…9 i.n Di
LIi
10
F k 1 f k
A
3.3 Medidas de dispersión Mientras los estadísticos de tendencia central nos indican los valores alrededor de los
cuales se sitúan un grupo de observaciones, los estadísticos de
variabilidad o dispersión muestran si los valores de las observaciones están próximos entre sí o están muy separados. Dos conjuntos de datos pueden tener la misma localización central y no obstante, ser muy distintos si uno se halla más disperso que el otro. La dispersión es el grado en que los datos numéricos tienden a extenderse alrededor de
un valor medio. La dispersión de la distribución suministra
información complementaria que permite juzgar la confiabilidad de nuestra medida de tendencia central. Si los datos están ampliamente dispersos, la localización central será menos representativa de los datos en su conjunto de lo que sería en el caso de datos que se acumulasen más alrededor de la media. Además, si no conviene tener una amplia dispersión de valores respecto al centro o si esa dispersión implica un riesgo inaceptable, deberemos ser capaces de reconocerlo y no escoger las distribuciones que presentan la máxima dispersión. Por ejemplo, a los analistas financieros les interesa la dispersión de las ganancias de una empresa, las utilidades con una fuerte dispersión indican un
45
riesgo mayor parar los accionistas que las utilidades que permanecen relativamente estables.
Varianza. Sólo tienen sentido para variables cuantitativas y se define: n
xi S2
x
n
n x
2
f i xi2 x 2 , Para datos tabulados de
i 1
n
n
mi
x
2
no tabulados.
n
fi
i 1
n
2
x 2 , Para datos
i 1
xi
S
2
xi
i 1
n
S2
n
2
variable discreta
n 2
fi
i 1
f i mi i 1
n
n
x
2
, Para datos tabulados por intervalos, para
variables continuas. Observaciones sobre la varianza: Las unidades de la varianza son los cuadrados de las unidades de los datos y en muchas ocasiones no son fáciles de interpretar. Puede sufrir un cambio desproporcionado por la existencia de valores extremos en el conjunto.
Desviación típica (S) Es la raíz cuadrada positiva de la varianza
s
s2
La desviación típica poblacional suele denotarse por
.
Observaciones sobre la desviación típica: Nos permite determinar con mayor grado de precisión dónde se sitúan los valores de una distribución de frecuencia en relación con la media. Las unidades de la desviación típica se expresan en las mismas unidades de los datos. Puede sufrir un cambio desproporcionado por la existencia de valores extremos en el conjunto.
46
Variables tipific adas
Los distintos conjuntos de datos están asociados por lo general a diferentes medias, ya sea porque son de naturaleza diferente (escalas de medidas diferentes). Con el propósito de reducir los datos a un mismo punto de referencia y a una escala común, se realiza entre ellos una transformación llamada tipificación. Se conoce por tipificación de una variable “x” a efectuar el cambio de origen y
de escala de la variable. z
Fórmulas: z
x
x
s x-
para muestras para població n
Esta nueva variable (z), carece de unidades de medida y permite comparar dos o más cantidades que en un principio no son comparables porque aluden a conceptos diferentes. También es aplicable a casos en que se quieran comparar individuos semejantes de poblaciones diferentes. Por ejemplo, si deseamos comparar el nivel académico de dos estudiantes de diferentes universidades, nos indica cuántas desviaciones estándar está un valor por arriba o por debajo de la media del conjunto de datos al cual pertenece.
Ejemplo: Un Docente de la Universidad A obtuvo 84 puntos en protocolos de seguridad en una construcción , en el que la nota media fue 76, y la desviación típica 10; Otro Docente de la Universidad B obtuvo 90 puntos, siendo la media 82 y la desviación típica 16. ¿ Cual de los Docentes presenta mejor nivel de conocimientos de protocolos de construcción ?. Docente de la Universidad A x
= 76
Docente de la Universidad B x
= 82
s = 10
s = 16
x = 84
x = 90
z=
84 76 10
0,8
z=
90 82 16
0,5
47
Sobresalió más el Docente de la Universidad A.
Coeficiente de variación Muestral de Pearson Las medidas de dispersión anteriores dependen de las unidades de medida, el coeficiente de variación es, en cambio, una medida de dispersión relativa y adimensional. CV
S | X |
CV es apropiado en poblaciones donde los datos son positivos. Si 0
1.5, los datos provienen de una población heterogénea. El coeficiente de variación es útil, en razón de su carácter adimensional, para comparar muestras con medias desiguales, donde las unidades de medida de las observaciones son diferentes. También para decidir cual muestra es más homogénea o menos variable
Recorrido o rango Es la diferencia entre el mayor y menor valor de una muestra. R
x max
x min
Rango semiintercuartílico y amplitud intercuartil El rango semiintercuartílico es la mitad de la diferencia entre el tercer y primer cuartil, Q = (Q3 – Q1)/2. La amplitud intercuartil es el doble del valor anterior, 2Q = IQR = (Q3 – Q1).
¿Cómo elegir entre las medidas de dispersión?- La medida de dispersión más útil es la desviación típica. Sólo debes usar el rango cuando dispones de pocas medidas o cuando todo lo que necesitas conocer es la dispersión general de las medidas. Utiliza el coeficiente de variación cuando quieras tener una idea de la variabilidad relativa de dos o más variables cuyas medias
48
son muy diferentes en magnitud. Esto se ve facilitado por su carácter adimensional, es decir, no depende de las unidades en que se mida la media
3.4 MEDIDAS DE FORMA Miden la mayor o menor cantidad de datos que se agrupan en torno a la moda y Hacen referencia a la forma de la distribución, simétrica, asimetría a la derecha o a la izquierda. En general la mejor manera de verlo es por la representación gráfica, pero si no la tenemos existen coeficientes que nos indican la forma de la distribución. Los más utilizados son:
Coeficiente de asimetría de Pearson, El coeficiente de asimetría de una variable mide el grado de asimetría de la distribución de sus datos en torno a su media, es adimensional y se define como sigue: A p
x
M o S
Este coeficiente puede ser: A p
0 , entonces la media igual que la moda, distribución simétrica
A p
0 , entonces la media mayor que la moda, asimetría a la derecha positiva
A p
0 , entonces la media menor
que la moda, asimetría a la izquierda
negativa.
Curtosis. hace referencia al mayor o menor apuntamiento que tiene una distribución de frecuencias respecto a una distribución Normal, por lo tanto sólo se estudia en comparación con la campana de Gauss, se determina mediante: K
P75
P 25
P90
P 10
0.5
Este coeficiente puede ser: K
0,
la curva es igual que la normal, se llama Mesocúrtica
K
0,
la curva es más puntiaguda que la normal se llama Leptocúrtica
K 0 ,
la curva es más aplastada que la normal, se llama Platicúrtica 49
EJERCICIOS RESUELTOS. 1) La siguiente tabla muestra los salarios diarios en soles de 480 trabajadores de una empresa. C.I
70
74
78
82
86
90
f i
4
9
16
28
45
66
94
98
85
72
102
106
110
114
118
122
126
54
38
27
18
11
5
2
Calcule: a) El salario medio de los trabajadores. b) Su desviación típica. c) Si el gerente de la empresa
afirma que exactamente la mitad de los
trabajadores de la empresa tienen un salario superior al del trabajador Juan, ¿qué salario tiene Juan? d) Determine el salario
diario mínimo del 15% de trabajadores con mayores
salarios.
SOLUCION: La variable de estudio es el cociente intelectual (X) xi
f i
f ixi
fixi
Fi
Hi
70
4
280
19600
4
0.0083
74
9
666
49284
13
0.0271
78
16
1248
97344
29
0.0604
82
28
2296
188272
57
0.1188
86
45
3870
332820
102
0.2125
90
66
5940
534600
168
0.35 50
94
85
7990
751060
253
0.5271
98
72
7056
691488
325
0.6771
102
54
5508
561816
379
0.7896
106
38
4028
426968
417
0.8688
110
27
2970
326700
444
0.925
114
18
2052
233928
462
0.9625
118
11
1298
153164
473
0.9854
122
5
610
74420
478
0.9958
126
2
252
31752
480
1
1470
n=480
46064 4473216
a) Media x
f 1x1
f 2 x2
.....
fk xk
46064
n
480
95.96
b) Varianza y desviación. n
xi S2
s
x
2
n 2
fi
f i xi
i 1
i 1
n
n
x2
4473216 480
95.96
2
110.88
110.88 10.52
c) Mediana. n=480 ( Par) x
n
x
2
Me
n 2
x 1
480
x 480
2
2
2
2
1
x 240
x 241 2
94 94 2
94
d) Percentil 85 P 85
106
2) Una empresa de construcción contrata los servicios de un corredor de bolsa, para decidir su inversión en una de las dos acciones A y B. Los resultados de las utilidades de estas acciones en los últimos 7 meses en miles de dólares esta dado en el cuadro siguiente.
51
Acción
Utilidades en miles de dólares.
1
2
3
4
5
6
7
A
57
55
54
52
62
55
59
B
80
40
62
72
46
80
40
a) Halle e interprete la media, mediana y moda de las utilidades. b) Estadísticamente ¿Cuál de las acciones es más recomendable para la empresa que esta interesado en una mayor utilidad? ¿Cuál de las acciones es más recomendable para la empresa que esta interesado en un menor riesgo de inversión? Fundamente su respuesta.
SOLUCION: X A
XB
X A
xB
57
80
3249
6400
55
40
3025
1600
54
62
2916
3844
52
72
2704
5184
62
46
3844
2116
55
80
3025
6400
59
40
3481
1600
394
420
22244
27144
a) Estadísticos de A. n
x A
Me A
x1
x 2 ..... xn
xi i 1
n
x
n 1
n
394 7
56.28
, para n impar n=7
2
Me A
x
n 1 2
Mo A
x
7 1
x4
55
2
55
52
Estadísticos de B. n
x B
xi
x1 x 2 ..... xn
i 1
n
Me B
x
n
420 7
60
, para n impar n=7
n 1 2
Me B
x
x
n 1 2
Mo B1
40
Mo B 2
80
x4
7 1
62
2
b) Calcular la varianza n
xi 2
S A
x
i 1
n
n
S
10.27
| X A |
56.28
n
xi 2
CV B
2
xi
i 1
CV A
S B
n
2
x
7
(56.28)
2
10.27
0.057
xi2 i 1
n
| X B |
22244
n
2
i 1
S
2 xA
n 277.7 60
2 xB
27144 7
60
2
277.7
0.277
La información se ilustra en el grafico siguiente.
53
80,00
70,00
d a d 60,00 i l i t U
50,00
40,00
A
B
Acción
3. Con el fin de realizar un estudio sobre las retenciones económicas de quinta categoría a los trabajadores de una empresa, se selecciono aleatoriamente a 24 trabajadores, obteniéndose las siguientes cantidades de retención económica en cientos de soles.
Retención
Número de
Económica.
trabajadores
[0, 1>
2
[1, 2>
2
[2, 3>
3
[3, 4>
6
[4, 5>
7
[5, 6>
1
[6, 7>
1
[7, 8>
1
[8, 9>
1
a) Halla la media, varianza, la desviación típica y coeficiente de variación.
54
b) Mediana c) Moda.
SOLUCION: I
f i
mi
mi2f i
mif i
Fi
[0, 1>
2
0.5
1
0.5
2
[1, 2>
2
1.5
3
4.5
4
[2, 3>
3
2.5
7.5
18.75
7
[3, 4>
6
3.5
21
73.5
13
[4, 5>
7
4.5
31.5
141.75
20
[5, 6>
1
5.5
5.5
30.25
21
[6, 7>
1
6.5
6.5
42.25
22
[7, 8>
1
7.5
7.5
56.25
23
[8, 9>
1
8.5
8.5
72.25
24
Total
24
40.5
92
440
a) Media, varianza, desviación y coeficiente de variación. Media. fi mi x
92
n
24
3.83
Varianza. 2
mi f i S2
440
x2
n
24
3.83
3.66
Desviación. s
3.66 1.91
Coeficiente de Variación. CV
S
1.91
| X |
3.83
0.498
Mediana Me
3
12 7 6
*1 3.833
55
Moda Mo
1
Li
1 2
A
1 7 6 1 1 7 1 6 Mo
4
1 1 6
*1 4.14
4. Se realizo un estudio de Caudales mínimos instantáneos anuales del río Piura en Puente Sánchez Cerro, obteniendo los siguientes resultados.
Caudales
Nro de años
mínimos 0-5
10
5-10
15
10-13
25
13-18
8
18-20
2
a) Calcule la media, varianza y la desviación. b) Determine la mediana y la moda c) Determine e interprete Q1, Q3, P10 y P90 d) Coeficiente de curtosis y de asimetría.
SOLUCION: Intervalo
fi.
Fi
mi
mi2f i
mif i
0-5
10
10
2.5
25
62.5
5 -10
15
25
7.5
112.5
843.75
10-13
25
50
11.5
287.5
3306.25
13-18
8
58
15.5
124
1922
18-20
2
60
19
38
722
56
587
6856.5
60
56
a) Media y varianza Media. fi mi x
587
n
60
9.78
Varianza. mi2 f i S
2
x
n
6856.5
2
60
2
9.78
18.63
Desviación. s
18.63
4.31
b) Mediana y moda Mediana n Me
Determinamos
n
60
2
2
Li
F k 1 A
f K
30
n Me
2
Li
F k 1
2
A 10
f K
30 25 25
3 10.6
Moda Mo
Li
1 1 2
A
1 25 15 10 1 25 8 17
Mo
Li
1 1 2
A 10
10 10 17
3 11.11
c) Determine e interprete Q1, Q3, P10 y P90 57
Para obtener los cuarteles se tiene la relación. i.n Qi
Li
4
F k 1 A
f K
Cuartil 1 1.n Q1
F k 1
4
Li
f K
A
5
15 10 15
5
6.67
El 25% de los contadores presentan nivel de conocimientos de auditoria menores a 6.67
Cuartil 3 3.n Q3
F k 1
4
Li
f K
45 25
A 10
25
3 12.4
Para obtener los percentiles se tiene la relación. i.n
Pi
Li
F k 1 100 A f K
Percentil 10 10.n P10
Li
F k 1 100 A f K
0
6 0 10
5
3
Percentil 90 90.n P90
Li
F k 1 100 A 13 f K
54 50 8
5 15.5
58
d) Coeficiente de Asimetría. Ap
Puesto que Ap < 0
x
M o s
9.78 11.11 4.31
-0.308
la distribución es asimétrica negativa o a izquierdas
(desplazada hacia la izquierda).
Coeficiente de curtosis de fisher . K
Si
k
0 ,
Q3
Q1
P90
P 10
0.5
12.4 6.67 15.5 3
0.5
-0.0416
entonces la distribución es platicúrtica.
EJERCICIOS PROPUESTOS 1.
En una construcción se quiere preparar concreto con una resistencia mínima a la comprensión de 17.2MN/m2 .El mínimo a considerar será un valor que sea excedido por no menos del 96% de los resultados de la prueba .Los valores de la resistencia de 50 probetas se proporciona en la tabla siguiente. 22.3 18.2 24.8 23.5 19.8 27 25.9 29.2 24.1 24.3 21.7 23.4 23.3 28.3 23.4 20 26.1 15.2 20 22.8 32 25.6 20.8 23.2 26.9 22.8 22.1 21.2 23.4 18.1 23.4 23 23.6 25.4 22.2 17.8 28 28.8 22.1 20.1 20.8 23 28.2 23 30.4 25.1 24.8 19.9 18.2 25.1 a) Calcule la media, y el percentil 96. b) Diga si las especificaciones requeridas son satisfactorias.
2.
Una muestra de pequeñas empresas se clasifica en función de su antigüedad en el mercado y del porcentaje de deudas sobre el capital que presentan, con los siguientes resultados:
59
Deudas
Empresas antiguas
Empresas Nuevas
0-15
19
29
15-30
13
10
30-50
7
11
50-70
4
32
En base a los resultados, ¿ Puede admitirse que el porcentaje de deudas de las empresas es independiente de su antigüedad?. Fundamente su respuesta. 3.
En una empresa donde los salarios tienen una media de 700 dólares y una desviación estándar de 150 dólares, el sindicato solicita un reajuste de 25% más un incentivo de 10 dólares. El Directorio acoge parcialmente la petición rebajando los salarios solicitados en un 10%. a) El Sindicato se declara satisfecho en sus negociaciones si el sueldo promedio final aumenta por lo menos en un 20% respecto de su valor actual. ¿Se logra esto aceptando la proposición del Directorio? Justifique su respuesta. b)
El Sindicato pretende con su proposición aumentar la homogeneidad de los sueldos de sus afiliados ¿Se logra este objetivo aceptando la proposición del Directorio? Fundamente su respuesta.
c)
Si en la Empresa laboran 500 funcionarios ¿En qué porcentaje aumentó la planilla de sueldos respecto a la planilla inicial?.
4.
Una empresa constructora tiene 2 secciones A y B. Las distribuciones de ingresos diarios de sus empleados son los siguientes:
60
Sección A Ingresos ($)
Frecuencia
80-100)
30
100-120)
80
120-140)
40
140-160)
10
160-180)
4
180-200)
1 Sección B
Ingresos ($)
Frecuencia
60-90)
10
90-120)
20
120-150)
50
150-180)
20
180-210)
15
210-240)
10
240-270)
4
Calcular la media aritmética y varianza de la sección A y B. Compare los ingresos. 5. El registro de precipitación máxima en 24 horas en una estación, desde 1948 hasta 1997 se muestra en la tabla
61
Año
Precipitación
Precipitación
Precipitación
Máxima
Máxima
Máxima
en 24 hrs.
Año
en 24 hrs.
Año
en 24 hrs.
1948
34.3
1965
19.5 1982
50.2
1949
29.3
1966
10.5 1983
32.9
1950
6.2
1967
36.5 1984
14.8
1951
17.8
1968
15 1985
18.4
1952
11.2
1969
17.6 1986
48
1953
7
1970
16.8 1987
11.1
1954
8
1971
10.5 1988
30.8
1955
29.8
1972
55.5 1989
14
1956
8.3
1973
11.1 1990
17.1
1957
37
1974
15.3 1991
17.2
1958
22
1975
17.9 1992
73.8
1959
13.5
1976
37.3 1993
19
1960
18
1977
62 1994
17.3
1961
34.5
1978
29.5 1995
17.3
1962
31
1979
26.9 1996
7.3
1963
29
1980
16.7 1997
45.6
1964
8.6
1981
16.2
Calcule la media aritmética, varianza y desviación estándar . 6.
En las siguientes tablas se registran los sueldos quincenales (en dolares) de 50 obreros de dos constructoras Constructora A Sueldo
Constructora B f i
sueldo
f i
45 – 55)
18
45 – 55)
12
55 – 65)
24
55 – 65)
28
65 – 75)
26
65 – 75)
30
75 – 85)
20
75 – 85)
22
85 – 95)
12
85 – 95)
8
62
a) ¿En qué constructora hay mayor dispersión relativa de suledos? b) Un obrero que gana 140 mensuales. ¿Dónde estaría mejor remunerado con respecto a sus compañeros? c) ¿Cuál de las dos distribuciones es más simétrica? 7.
En enero el sueldo promedio de los obreros de una empresa era de $560000 y el sueldo de los empleados $1270000. En septiembre debido a un reajuste, cada obrero recibió un 15% más que su sueldo anterior más un bono de $50000, mientras que cada empleado recibió un aumento de $120000. En diciembre se produjo un nuevo reajuste y los obreros quedaron con un sueldo promedio de un 10% superior que el sueldo promedio en septiembre y el sueldo promedio de todos los trabajadores de la empresa es ahora de $980260. Si se sabe que el número de obreros es el triple del número de empleados, proporcione la siguiente información al gerente general de la empresa. a) ¿Cuál es el sueldo promedio de los empleados en diciembre y en qué porcentaje aumentó con respecto a septiembre? b) ¿Cuál es el sueldo promedio de todos los trabajadores de la empresa en septiembre.
8.
En la estación se cuenta con los siguientes valores de precipitación diaria máxima en un período de tiempo. Obtener las características que describen la serie (media, mediana, varianza, desvío y coeficiente de variación). 125 143 123 562 425 316 136 143 425 465 213 143 312 480 116 259 269 425 218 312 489 476 619 524 391 425 143 432 213
63
CAPITULO IV DISTRIBUCIONES BIDIMENSIONALES Si resumir la información de una variable es de por si interesante, en investigación lo es mucho más el poner de manifiesto la posible relación entre dos de ellas. El análisis de la relación de dos variables, X e Y, depende del tipo de variables y Según sean los tipos de cada una de ellas se usa técnicas estadísticas diferentes.
4.1 CUALITATIVA-CUALITATIVA. Cuando las variables de estudio son cualitativas (categóricas) o cuantitativas discretas con poca
modalidades, se suele presentar las observaciones de las
variables X e Y, mediante pares ordenados (x i, yi), esta forma de presentaciones se denomina tablas de contingencia. Las tablas de contingencia son de doble entrada organizada por filas y columnas y donde se presenta la distribución de frecuencias conjuntas de las dos variables. Dada una variable bidimensional ( X, Y ), consideramos una muestra de tamaño n en la que X toma k valores distintos, x1, . . . , xk, e Y toma l valores distintos, y1,
. . , yl, obtenemos, por tanto, observaciones del tipo (xi, y j). La frecuencia absoluta de un valor (xi, y j) es el número de veces que dicho valor aparece en la muestra. Se representa por f ij , se cumple k
l
fij
n
i 1 j 1
64
La frecuencia relativa de un valor (x i, y j) es el cociente de la frecuencia absoluta f ij entre el tamaño de la muestra n, se representa por hij f ij
hij
n
,
k
se cumple:
l
hij
1
i 1 j 1
Distribuciones marginales Nos indican el comportamiento aislado de cada una de las variables X e Y que dan lugar a una variable bidimensional. l
Frecuencia absoluta marginal de xi,
fi.
fi 2 fil
fi1
f ij
j 1
f i .
hi .
Frecuencia relativa marginal de xi,
n k
Frecuencia absoluta marginal de y j,
f. j
f1 j
f2 j
f kj
f ij i 1
Frecuencia relativa marginal de y j,
h. j
f . j n
Una tabla de doble entrada de una variable bidimensional sigue la estructura que se presenta a continuación, en la que tienen cabida las frecuencias marginales (representadas en la última fila y última columna). Puede ser de frecuencias absolutas o relativas. Y
y 1
y 2
.....
y l
ni.
x 1
f 11
f 12
.....
f 1l
f 1.
x 2
f 21
f 22
.....
f 2l
f 2.
..
..
..
.....
..
..
f k2
.....
f kl
f k.
f .2
.....
f .l
n
X
x k n.j
f k1 f .1
65
Ejemplos 1. El gerente de ventas de la firma A desea determinar el comportamiento de las ventas de cuatro productos (I, II, III y IV), en función de la clase de clientes clasificados en cuatro grupos. Una muestra aleatoria de las ventas suministro la siguiente información. Grupo de
Producto
clientes
I
II
III
IV
Profesionales
30
35
55
40
Comerciantes 155
50
125
80
Obreros
130
30
105
50
Amas de
35
15
20
45
casa ¿Las ventas de los cuatro grupos son homogéneas?
Solución Producto Grupo de clientes Profesionales
I Frecuencia Porcentaje
Comerciantes
Frecuencia Porcentaje
Obreros
Frecuencia Porcentaje
Ama de casa
Frecuencia Porcentaje
Total
Frecuencia Porcentaje
II
III
IV
30
35
55
40
Total 160
18.8%
21.9%
34.4%
25.0%
100.0%
155
50
125
80
410
37.8%
12.2%
30.5%
19.5%
100.0%
130
30
105
50
315
41.3%
9.5%
33.3%
15.9%
100.0%
35
15
20
45
115
30.4%
13.0%
17.4%
39.1%
100.0%
350
130
305
215
1000
35.0%
13.0%
30.5%
21.5%
100.0%
66
160 140 120 100
I
80
II III
60
IV
40 20 0 Profesionales
Comerciantes
Obreros
Amas de casa
4.2 CUALITATIVA-CUANTITATIVA. Supongamos que tenemos
datos numéricos
para varias categorías, por
ejemplo en un experimento donde hacemos mediciones numéricas en dos o más grupos. En estos casos, lo que se realiza es un estudio descriptivo de la variable numérica
en cada una de las muestras y se comparamos los
resultados. Ejemplo Una empresa dedica al rubro de ingeniera, decide analizar el rendimiento económico porcentual, obtenido en inversiones en 4 áreas geográficas. Para ello selecciona muestras de sus últimas inversiones, obteniendo los siguientes resultados. Tasas de Rendimiento (%) C
B
D
A
4.6
2
7
7.9
2
7.4
4.5
6.8
6.8
1.8
11.6
5.8
4.2
3.2
6
9.2
1.6
4
6.8
11
67
¿Son las tasas medias de rendimiento (%) en los ares A, B, C y D diferentes?
Solución. Nivel de Rendimiento
Mean
Variance CoefVar Median
A
8.140
4.158
25.05
7.900
B
3.68
5.13
61.56
3.20
C
3.840
4.468
55.05
4.200
D
7.18
7.07
37.04
6.80
12
10
o t n e i 8 m i d n e r e 6 d s a s a T 4
2
A
B
C
D
Nivel de rendimiento
4.3 CUANTITATIVA-CUANTITATIVA. Análisis de dos variables cuantitativas y establecimiento de una relación entre ellas. La forma mas sencilla de estudiar la posible asociación entre estas variables es el diagrama de dispersión (Nube de puntos). Si reconocemos una tendencia, entonces el interés ahora será el análisis de regresión.
Media y varianza La información de las dos variables X e Y se puede resumir usando la media y la varianza como se muestra a continuación: Media de la variable X:
x
fi xi n
68
Media de la variable Y:
fi yi
y
n fi xi2
Varianza de la variable X: s
2 x
n fi yi2
Varianza de la variable Y: s
2 y
n
x
2
y
2
La covarianza Es una medida de la asociación lineal existente entre dos variables. Resume la información contenida en el diagrama de dispersión. Presenta la siguiente expresión: cov( x, y)
s xy
fi xi yi n
x. y
Si la covarianza está muy próxima a cero, no existe relación entre las variables o si existe es marcadamente no lineal, si es positiva, hay asociación lineal positiva, y si es negativa, hay asociación lineal negativa. Sin embargo, como la covarianza depende de las unidades de medida de las variables, no nos permite cuantificar el grado de asociación lineal ni comparar la asociación existente entre distintos pares de variables. Para dar solución a este problema se obtiene el coeficiente de correlación.
Correlación Estudia la relación o dependencia que existe entre dos variables que intervienen en una distribución bidimensional.
Coeficiente de correlación lineal Es un número que mide el grado de dependencia entre las variables X e Y. Se mide mediante la siguiente fórmula:
r
s xy s x . s y
Su valor está comprendido entre – 1 y 1. Si r
= -1 ó r = 1 todos los valores de la variable bidimensional se
encuentran situados sobre una recta.
69
Si – 1< r < 0 se dice que las
variables X e Y están también en
dependencia aleatoria. La correlación es negativa. Si 0 < r < 1 la correlación es positiva. Las variables X e Y están también t ambién en dependencia aleatoria. La correlación es tanto más fuerte a medida que r se aproxima a –1 ó 1 y es tanto más débil a medida que se aproxima a 0.
Análisis de Regresión Regresión: conjunto de técnicas que son usadas para establecer una relación entre una variable cuantitativa llamada variable dependiente y una o más variables independientes, llamadas predictoras. Estas también deberían ser cuantitativas, sin embargo algunas algunas de ellas podrían ser cualitativas. cualitativas. que representa la relación entre las variables Modelo de regresión. Ecuación que Y
X
Estimación de la línea de regresión usando Mínimos Cuadrados Cuadrados Se debe Minimizar el error cuadrático medio: n
Q
n 2 i
,
e i 1
xi ) 2
( yi i 1
n
n
n ˆ
xi yi i 1
xi i 1 n
n 2
n
n
xi
(
i 1
yi i 1
xi )
2
S xy S xx
i 1
ˆ
y
ˆ
x
La pendiente , indica el cambio promedio en la variable de respuesta cuando ˆ
la variable predictora aumenta en una unidad adicional. adicional. El intercepto
ˆ
, indica el valor promedio de la variable de respuesta cuando la
variable predictora vale 0. Sin embargo carece de interpretación práctica si es irrazonable pensar que el rango de valores de x incluye a cero.
70
A partir de la recta Y
ˆ
ˆ
ˆ
X podemos calcular los valores de y conocidos
los de x. La fiabilidad que podemos conceder a los cálculos obtenidos viene dada por el coeficiente de correlación: si r es muy pequeño no tiene sentido realizar ningún tipo de estimaciones. Si r es próximo a – 1 ó 1, las estimaciones realizadas estarán cerca de los valores reales. Si r = = 1 o r = = -1, las estimaciones realizadas coincidirán con los valores reales.
Ejemplos; 1.
Se realiza un estudio respecto de la influencia que presenta la intensidad de la fuerza aplicada (X) al cable de acero, en el alargamiento (Y) que esta presenta ,La información se muestra a continuación.
X 14.8 15.2 14.4 Y
14 14.7
12
15.2
13.2
14 14.4 12.4 14.8
16 12.67 15.3 13.3 12.7
14 14.4 14.8 13.2
16 12.7 15.3
a)
Trace un diagrama de dispersión.
b)
Ajuste una recta de regresión.
c)
Calcule la correlación lineal e interprete dicho valor.
16.4 12.4
16 13.3 13.33
Solución: Scatterplot Scatterplot of Y vs X 16
15
Y 14
13
12 12
13
14
15
16
17
X
Resumen de calculos.
71
12
X
x
y
2 x
s
xi
Y
N
x
196
15.2
14.67
222.984
231.04
215.2089
14.4
12
172.8
207.36
144
15.2
16
243.2
231.04
256
13.2
12.67
167.244
174.24
160.5289
14
15.33
214.62
196
235.0089
14.4
13.33
191.952
207.36
177.6889
12.4
12.67
157.108
153.76
160.5289
14.8
16
236.8
219.04
256
14
12.67
177.38
196
160.5289
14.4
15.33
220.752
207.36
235.0089
14.8
16
236.8
219.04
256
13.2
13.33
175.956
174.24
177.6889
16.4
13.33
218.612
268.96
177.6889
12.4
12
148.8
153.76
144
213.6
209.33
2992.208
3058.24
2951.8801
14.24 ;
13.96 ;
3058.24
2
yi2
15
y
N xi yi
s xy
219.04
15
xi2
s y2
207.2
209.33
N
14.24
2951.88
2
15 2992.208
x. y
N
Y
14
15
yi
X
14.8
213.6
N
X.Y
15
2
1.11 .11
13.962
1.91 ;
(14.24).(13.96)
0.69
Recta de regresión n
n
n ˆ
xi yi i 1 2
xi i 1
xi i 1 n
n
n
n
yi i 1
xi )
(
2
S xy
0.69
S x2
1.11
0.62
i 1
72
ˆ
Y
ˆ
r
y
ˆ
s xy s x .sy
ˆ
x
ˆ
X
13.96 0.62(14.24) 5.13 5.13 0.62X 0.69 1.11. 1.91
0.47
73
E j er c i c i o s p r o p u e s t o s .
1. En las siguientes tablas se presentan las remuneraciones de obreros y empleados de la empresa El Progreso en el mes de Abril de 2010 (en dolares). OBREROS
EMPLEADOS
Remuneraciones Frecuencias
Remuneraciones Frecuencias
200 - 250
30
700 - 750
10
250 - 300
50
750 - 800
25
300 - 350
85
800 - 850
15
350 - 400
55
850 - 900
5
400 - 450
30
900 - 950
5
a) Se afirma que la remuneración promedio de los empleados es mayor en un 30% respecto a la remuneración promedio de los empleados. ¿Está usted de acuerdo? b) ¿Cuál es la remuneración más frecuente de los obreros y de los empleados? c) ¿Entre qué valores se encuentra el 50% central de las remuneraciones de los empleados? d) Si los obreros han recibido en Mayo una remuneración promedio de 391,2 dólares por efecto de un reajuste ¿cuál fue el aumento porcentual de reajuste? 2. Un especialista trabaja como corredor de bolsa para una empresa. Sus registros muestran que las tasas de rendimiento ( en porcentajes) de dos acciones para 8 meses seleccionados fueron de : Acciones A
15.5
3.6 21.7 27.2
7.8
2.2
5.0
12.2
Acciones B
4.5
6.2
3.5
4.2
4.1
12
a)
5.5
7.2
En que acción invertiría la empresa, si el interés es tener un rendimiento mas alto.
b)
Que acción debería aconsejar el especialista a la empresa que prefieren menos riesgo.
74
3. Se realizo pruebas de laboratorio para determinar el contenido de asfalto sobre la elasticidad y la permeabilidad de concreto asfaltado de clasificación abierta. Se prepararon 4 especimenes de concreto con cada uno de los siguientes contenidos de asfalto (porcentaje del peso total de la mezca): 3, 4, 5, 6, 7 y 8 . Se determino la permeabilidad al agua de cada espécimen de concreto haciendo fluir sobre el espécimen agua al que se le extrajo el aire y midiendo la perdida de agua. Las mediciones de permeabilidad fueron: Contenido de asfalto (%)
3
4
5
6
7
8
Permeabilidad en pulgadas por
1440 1293 1210 822 585 208
hora a. Estimar la ecuación. b. Prediga la permeabilidad para un contenido de asfalto de 6.5. 4. Los siguientes datos provienen del numero de torsiones necesarias para romper una barra ( Y) hecha con cierto tipo de aleación y el porcentaje (X) del metal A. X
5
5
10
10
15
15
20
Y
68
60
40
38
31
35
18
Ajustar el modelo de regresión. 5.
Una gran compañía llevó a cabo un estudio para ubicar las variables que pudieran determinar el sueldo de un egresado universitario dos años después de haberse graduado como Técnico Superior Universitario en un área de ingeniería. Los datos recogidos se presentan en la siguiente tabla: (La columna del sueldo es en cientos de miles de bolívares.)
Edad Sexo E. Civil
Inglés Sueldo
1
24
F
C
A
6,75
2
25
M
C
M
6,90
3
26
M
S
B
6,90
4
27
F
C
B
6,80
5
27
M
D
A
7,10
6
27
F
C
M
6,50
75
7
27
M
S
A
7,25
8
25
F
C
B
6,80
9
23
M
S
B
6,75
10
24
M
S
B
6,80
11
26
F
C
M
6,75
12
29
F
D
M
7,00
13
25
M
C
A
7,15
14
31
F
D
A
7,50
15
26
M
S
B
6,20
16
24
F
D
M
7,40
17
26
F
C
B
6,70
18
28
F
S
M
6,95
19
25
M
C
B
6,95
20
29
M
C
M
7,10
a. Utilice la técnica de estadística descriptiva más apropiada para analizar cada variable individualmente. Interprete lo obtenido. b. Realice diagramas de cajas que le ayuden a visualizar como influye cada una de las variables en el sueldo que gana el individuo. c. Como futuro Técnico Superior en el área Administrativa, ¿cuál seria la(s) características que usted debería tomar en consideración para obtener el sueldo al que usted aspiraría al egresar? 6.
Se desea estudiar la relación entre los aumentos de precios y los salarios en 8 empresas tomadas al azar, tal que se define “x: % de aumento de salarios” e “y: % de aumento de precios”
x 169.3,
x2
3630.89,
xy 2731.82,
y 126.9,
y2
2498.01
a) Calcular la recta de ajuste e interpretar las componentes en función del problema b) ¿Qué porcentaje del análisis queda explicado por la recta de regresión? Que podría Ud. Decir al respecto? c) Estimar el porcentaje de aumento en los precios, si se produce un aumento del 20% en los salarios, es lógico estimar dado el resultado obtenido en b)
76
7. Suponga que usted tiene a su cargo el dinero de la región, se le dan los siguientes datos de antecedentes sobre el suministro de dinero y el producto nacional bruto (ambos en millones de dólares): Suministro de
Producto Nacional
dinero
Bruto
2
5
2.5
5.5
3.2
6
3.6
7
3.3
7.2
4
7.7
4.2
8.4
4.6
9
4.8
9.7
5
10
(a) Desarrolle la ecuación de estimación para predecir el PNB del suministro de dinero. (b) ¿Cómo interpreta la pendiente de la línea de regresión?. (c) Calcule e interprete el error estándar de la estimación.
77
CAPITULO V PROBABILIDADES El Cálculo de Probabilidades se ocupa de estudiar ciertos experimentos que se denominan aleatorios, cuya característica fundamental es la incertidumbre del
resultado, esto significa que es imposible predecir los resultados porque hay más de uno posible. En nuestra vida cotidiana asociamos usualmente el concepto de probabilidad a su calificativo
probable, considerando probable
a aquellos eventos en los que
tenemos alto grado de creencia en su ocurrencia. En esta línea probabilidad es un concepto asociado a una medida del azar. El objetivo de la probabilidad es cuantificar las posibilidades que tengan ciertos eventos inciertos.
5.1 EXPERIMENTO ALEATORIO. Es una acción que da lugar a resultados identificables y se caracteriza por:
Todos los posibles resultados son conocidos previamente.
Repeticiones en situaciones análogas pueden dar resultados diferentes.
No se puede predecir el resultado del mismo antes de realizarlo, es decir, no se sabe cuál de los posibles resultados aparecerá al final. Los experimentos pueden ser aleatorios o deterministas. Aleatorio significa relativo a todo acontecimiento incierto, por depender de la suerte o del azar, mientras que los deterministas son aquellos que se caracterizan por el hecho de que las mismas causas producen los mismos efectos.
78
Espacio muestral. Es el conjunto de todos los resultados posibles del experimento y se denota por . A cada elemento de
se denomina punto muestral w , es decir: w / w es un punto muestral .
Evento o Suceso Aleatorio. Un evento aleatorio es un subconjunto del espacio muestral y se denota con letras mayúsculas.
El evento seguro
El evento imposible
Lo s eventos elementales solo tienen un punto muestral.
El evento complementario no están en
, es aquel que ocurre siempre al realizar el experimento. , es aquel que no ocurre nunca. c
A
, esta dado por todo los puntos muestrales que
A
5.2 OPERACIONES DE EVENTOS. Unión de eventos: Dados dos eventos A y B de un mismo espacio muestral su unión se representa por
A
B
y es el evento que contiene los elementos que
están en A o en B o en ambos. El evento
A
B
ocurre si al menos uno de los
dos eventos ocurre.
Intersección de eventos: Dados dos eventos A y B de un mismo espacio muestral su intersección se representa por
A
B
y es el evento que contiene
los elementos que están en A y B al mismo tiempo. El evento
A
B
ocurre cuando ambos eventos ocurren simultáneamente.
Evento Complemento: El complemento de un evento A se representa por
c
A
y es el evento que contiene todos los elementos que no están en A. El evento c
A
5.3
ocurre si A no ocurre.
DEFINICIÓN CLÁSICA DE PROBABILIDAD: La probabilidad de un suceso A se calcula como el número de casos favorables al suceso A, partido por el número de casos posibles del experimento aleatorio. p( A)
casos favorables casos posibles
79
5.4
DEFINICIÓN AXIOMÁTICA DE PROBABILIDAD. La probabilidad es una función que asigna a cada suceso A
un número
real que varia entre 0 a 1. P:
y que verifica: A
p(A)
i) 0 p( A) 1 ii) p
A
1
iii) Si A y B son sucesos incompatibles, p A
B
p A
p B
Como consecuencia de estos tres axiomas, se verifican además las siguientes propiedades: iv)
p( Ac ) 1 p A
v)
p( )
vi)
Si A
0 B,
p( A)
p (B )
vii) P ( A \ B) P ( A) P ( A B) ,
A,B
viii) Si A 1 , A 2 , ...... , A n son incompatibles dos a dos, entonces p A1
ix)
An
p A1
p A2
... p An
son dos sucesos cualesquiera, entonces
B
p A
Si A, B p ( A)
5.5
...
Si A, B p A
x)
A2
p A
p B
p A
B
son dos sucesos cualesquiera, entonces Bc
p A
B
PROBABILIDAD CONDICIONADA. Queremos estudiar como cambia la probabilidad de ocurrencia de A cuando se conoce que otro evento B ha ocurrido. En este caso habria que referirse a l a probabilidad
de A condicionada a B como la probabilidad de que ocurra A sabiendo que ha ocurrido B, la denotamos por P(A|B) P ( A | B)
P ( A B) P ( B)
, P(B)
0.
En consecuencia, p(A
B) = p( A) p( B ) A
80
Independencia. se dicen independientes si:
Dos sucesos A, B p( A)
p( A | B) , o bien p( B)
p( B | A)
Es decir, se cumplirá que: p( A
B)
p (B). p ( A)
Si A y B son independientes, entonces A y B C son independientes, A C y B son independientes, y A C y B C son independientes. Observación. Decimos que n sucesos A1, A2, An son independientes si para
cada par
(Ai, A j), P ( Ai A j ) P ( Ai) P ( Aj ) si
P ( Ai
A j
Ak ) P ( Ai) P ( A j ) P ( Ak ) si i
P ( A1
A2
An) P ( A1) P ( A2) P ( An)
j
i
k y
j ,
si para cada trío (A i, A j, Ak)
así sucesivamente. En general,
Teorema de la probabilidad compuesta . Dados n sucesos A 1 , A 2 , ......., A se verifica: P ( A1
A2
An) P ( A1) P ( A2 | A1) P ( A3 | A1 A2) P ( An | A1 A2
An 1)
Teorema de la probabilidad total. Si suponemos que los eventos A 1, A2, A3, ...., An, forman una partición de un espacio muestral su unión es
; esto es, que los eventos A i son mutuamente excluyentes y
.
A1
A2
…
An
81
Si A 1 , A 2 , ......., A n son un sistema completo de sucesos tal que : i) A1 A2 ii)
j ( disjuntos dos a dos)
i
n
Ai
i 1
iii) p( Ai ) 0 ,
i 1,....n .
La probabilidad de un suceso B cualquiera es: n
p( B)
p( Ai) p( B | Ai) i 1
p( B)
p( A1 ) p( B
A1
)
p( A2 ) p ( B
A2
) ....... p (An ) p (B
An
)
Teorema de Bayes. El procedimiento que se utiliza para encontrar probabilidades posteriores, a partir de probabilidades previas, se llama regla Bayesiana. Las probabilidades apriori o previas se conocen antes de obtener información alguna del experimento en cuestión. Las probabilidades aposteriori se determinan después de conocer los resultados del experimento. El teorema de Bayes consiste en un método para encontrar la probabilidad de una causa específica cuando se observa un efecto particular. Esto es, si el evento B ha ocurrido, ¿Cuál es la probabilidad de que fue generado por el evento A1 (que es una causa posible ) o por el A2 (otra causa posible)?. Si A 1 , A 2 , ......., A n son un sistema completo de sucesos tal que p( Ai ) 0 , i 1,....n , entonces para un suceso B cualquiera se verifica:
p( Ai | B)
p( Ai | B)
p( Ai
B)
n
p( B)
p( A1 ) p( B
A1
p( Ai) p( B | Ai) i
)
p( Ai) p( B | Ai) 1
p( Ai) p( B | Ai ) p( A2 ) p( B ) ....... A2
, i = 1, ...., n.
p( An ) p( B
An
)
82
Problemas Resueltos. 1) Un municipio analiza tres proyectos de irrigación presentados por una consultora para confirmar o descartar la presencia de omisiones de tipo técnico. a) Cual es el espacio muestral. b) ¿Cual es la probabilidad de que dos de los proyectos presentados presenten omisiones técnicas. c) Cual es la probabilidad de que el primer proyecto presente una omisión técnica y la ultima no presente. d) Cual es la probabilidad de que por lo menos un proyecto presente algún tipo de omisión técnica. Solución. Denotemos con P, si el proyecto presenta una omisión tecnica y con N, si el proyecto no presente ningún tipo de omisión . a)
PP 1 2 N3 , PP 1 2 P3 , PN 1 2 N3 , PN 1 2 P3, N1P2P3, N1P2 N3 , N1N 2 P3, N1N 2 N 3
b) Sea el evento A: Dos proyectos presentan omisiones tecnicas
A
PP 1 2 N3 , PN 1 2 P3 , N1P2 P 3 p( A)
n( A)
3
n( )
8
c) Sea el evento B: Primer proyecto presenta omisión y el último no presenta.
C
PP 1 2 N3 , PN 1 2 N3
83
p(C )
n(C )
2
n( )
8
d) Sea el evento D: Por lo menos un proyecto presenta omisiones tecnicas. D
p( D)
PP N3 , PP P , PN N3 , PN P , N1P2P3, N1P2N 3, N1N 2P 3 1 2 1 2 3 1 2 1 2 3
n( D )
7
n( )
8
2) El gerente de una empresa constructora con el propósito de incrementar sus utilidades, diseña tres estrategias de marketing A, B y C. En el 40% de las sucursales, se aplica la estrategia A , de estas en el 1% de los casos no se presentan incrementos en las utilidades, en el 30% de las sucursales se aplica la estrategia B y en el 2% no se presentan incrementos en las utilidades. En el resto de las filiales se utiliza la estrategia C, observándose que en el 3% de las mismas no se presentan incrementos en las utilidades. Si
se selecciona aleatoriamente una filial de la
empresa. Cual es la probabilidad de que : a)
No presente incrementos en las utilidades.
b)
No presente incrementos en la utilidad y se haya aplicada la estrategia B.
c)
La filial haya empleado la estrategia C, dado que no se presento incremento en su utilidad.
Solución
No incrementa 1% 99%
Incrementa
A 40%
No incrementa
2% Estrategia
30%
98%
B 3%
30%
Incrementa No incrementa
C 97%
Incrementa
84
Sean los eventos. A: La filial de la empresa, aplica la estrategia A B: La filial de la empresa , aplica la estrategia B C: La filial de la empresa , aplica la estrategia C D: No se presenta incrementos en la utilidad.
a) p( D)
p( A) p( D ) A
p( D)
p( B) p( D ) B
p( C) p( D ) C
0.4*(0.01) 0.3*(0.02) 0.3*(0.03)
0.019 1.9%
b) p(B D) = p( B) p( D ) B p(B
D) =0.3*(0.02)
c) p(C | D)
p(C
p(C | D)
0.006
0.6%
D)
p( D)
p( C) p( D | C ) p( A) p( D | A)
p( B) p( D | B)
0.3*(0.03) 0.4* (0.01) 0.3* (0.02) 0.3* (0.03)
p( C) p( D| C ) 0.473
47.3%
3) Los siguientes datos pertenecen a 50 empresas de construccion de la ciudad de Cusco divididos en 3 categorías y clasificados según tengan o no deudas impositivas: IMPUESTOS
CATEGORIAS A
B
C
Al día
7
6
12
En mora
9
8
8
Si se elige una empresa al azar ¿cuál es la probabilidad de que: a) esté en mora? b) pertenezca a la categoría A o B? c) pertenezca a la categoría C o esté en mora? d) pertenezca a la categoría A y esté en mora? e) Dado que el pago de sus impuestos esta al día. ¿ Cual es la probabilidad de que la empresa pertenezca a la categoría B?.
Solucion. 85
Sean los eventos: A: Empresa pertenece a la categoría A. B: Empresa pertenece a la categoría B. C: Empresa pertenece a la categoría C. D: Impuestos en mora. E: Impuestos al día. a) p( D)
n( D )
25
n( )
50
b) p( A B) p( A
B)
c) p(C p(C
D)
p( A)
0.5
p( B)
p( A
16
14
0
30
50
50
50
50
D)
p( C)
p( D)
25
8
37
50
50
50
50
n( A
D)
9
n( )
P( B
P( E )
n( A
n( )
n( )
B)
n( )
D)
n(C)
n( D)
n( )
n( )
n( C
D)
n( )
0.18
50
E)
n( B)
0.74
n( B
e) P( B | E )
n( A)
0.6
p( C
20
d) p( A D)
B)
E )
n( ) n( E )
n( B
E )
n( E )
8 25
n( )
4) Se hizo una auditoria a las obras ejecutadas por tres municipios A, B, y C, para tal efecto se analiza 3 obras ejecutadas por el municipio A, 2 cuentas del municipio B y 5 obras ejecutadas por el municipio C. La probabilidad de que se presenten irregularidades en el municipio A es de 1/3, que se presente en municipio B es de 2/3 y que se presente en municipio C es de 1/7. Se analiza una obra aleatoriamente y se encuentra que hay irregularidades. ¿Cuál es la probabilidad de que se trate del municipio C?
Solución Sean los eventos A: Obras ejecutadas por el Municipio A. B: Obras ejecutadas por el Municipio A. C: Obras ejecutadas por el Municipio A. E: La obra ejecutada presenta irregularidades. 86
E
1/3 A
D
3/10
E
2/3 2/10
B D
5/10
C
1/7
E D
p(C | E )
p(C
E)
p( E)
p( A) p( E | A) 3
p(C | E )
p(C) p( E | C )
*
p( B) p( E | B)
p( C) p( E| C )
1
10 3 3 1 2 2 5 1 * * * 10 3 10 3 10 7
21 64
32.8%
87
Problemas Propuestos. 1. En la construcción de unas determinadas obras pueden aparecer anomalías debidas a dos causas que son independientes: Fallos de cimentación y mala calidad de los materiales. La primera ocurre con probabilidad del 4% y la segunda con probabilidad del 3%. a) Calcular la probabilidad de que en una determinada obra no aparezca ninguna anomalía. b) Calcular la probabilidad de que aparezcan fallos de cimentación y no mala calidad de los materiales. c) Si se detecta la presencia de anomalías, la construcción puede verse afectada con un desplome en un plazo de tiempo con las siguientes probabilidades: 0.1 cuando no aparece ninguna de las anomalías y 0.8 cuando aparece alguna de las anomalías. Interprete esta información adicional en términos de sucesos y probabilidades. Calcular la probabilidad de que el edificio se desplome. Si el edificio se ha desplomado ¿cual es la probabilidad de que haya sido producido por alguna anomalía? d) Una determinada empresa realiza 5 obras cada año ¿Cual es la probabilidad de que en 5 años al menos tres obras sufran anomalías?
2. Una empresa compra cierto tipo de materiales de construcción que es suministrada por 3 proveedores: el 45% de los materiales de construcción son compradas al 1 er proveedor resultando defectuoso el 1%, el 2 do proveedor suministra 30% de los materiales de construcción y de ellas es defectuoso el 2%. Las restantes provienen del 3 er proveedor, siendo defectuoso el 3% de las mismas. En un control de recepción de artículos se selecciona un material de construcción al azar y es defectuosa. Calcular la probabilidad de que la haya suministrado el 2do proveedor. 3. Un proceso se puede ejecutar con uno de tres maquinarias posibles, digamos A, B y C. En el 20% de los casos se emplea la maquinaria A, mientras que las maquinarias B y C son usados el mismo número de veces. En algunas ocasiones 88
en que se realiza el proceso se producen atrasos. Esto ocurre el 10% de las ocasiones en que se usa la maquinaria A, siendo estos porcentajes del 15% en el caso en que se aplica la maquinaria B y el 5% en el caso en que se usa la maquinaria C. a) ¿En qué porcentaje de las ejecuciones del proceso no se producen atrasos? b) ¿Qué porcentaje de los atrasos de las ejecuciones del proceso son atribuibles a la maquinaria B? c) Elegida, al azar, una ejecución ¿Qué probabilidad hay que no tenga retraso en su ejecución y corresponda al uso de la maquinaria A o C?
4. Las previsiones sobre la inflación de un determinado país para el próximo año la sitúan por debajo del 2% con probabilidad 0,65, entre el 2% y el 3% con probabilidad 0,25 y por encima del 3% con probabilidad 0,1. Si la probabilidad de crear más de 700.000 empleos es de 0,7 con inflación baja, de 0,4 cuando ésta se sitúa entre el 2% y el 3% y nula en otro caso, calcule: a) La probabilidad de que se creen más de 700.000 empleos. b) Si antes de conocer el dato de inflación anual, se sabe que se han creado más de 700.000 empleos, ¿cuál es la probabilidad de cada uno de los tres niveles de inflación considerados? 5, Una fábrica produce tres productos, 1, 2 y 3, cada uno de ellos en calidad extra y comercial. La probabilidad de producir una unidad de calidad extra en cada uno de esos productos es: 0,75, 0,5 y 0,8, respectivamente. A su vez esos productos se fabrican en las siguientes proporciones: 45%, 35% y 20%, respectivamente. Con esa información responda a las siguientes cuestiones: a) Si se selecciona al azar una unidad producida, ¿cuál es la probabilidad de que sea de calidad comercial? b) Si se selecciona al azar una unidad producida y es de calidad comercial, ¿de qué producto es más probable que sea? 6, Un sistema de abastecimiento de agua potable pasa por un dispositivo dotado de 3 compuertas A,B y C configurados tal como muestra el siguiente esquema:
89
Las compuertas A,B y C funcionan correctamente con probabilidades 0.90, 0.80 y 0.65 respectivamente. Si la compuerta A funciona correctamente, la probabilidad de que B funcione correctamente es de 0.66. Si las compuertas A y B funcionan correctamente, la probabilidad de que C funcione correctamente es de 0.83. Además existe un probabilidad de 0.10 de que A funcione correctamente y no funcione ni B ni C correctamente. a. Determine la probabilidad de que el sistema funcione correctamente. b. Si el sistema falla. ¿Cuál es la probabilidad de que la compuerta A funcione correctamente?
90
Estadística aplicada
Mgt. Cleto De La Torre Dueñas
CAPITULO VI VARIABLE ALEATORIA Y DISTRIBUCIONES DE PROBABILIDAD. Definición.- Una variable aleatoria (v.a) X es cualquier función, que transforma cada elemento del espacio muestral
, en un numero real.
X :
X
Al conjunto de posibles valores de X se le llama rango de X (Rx)
Si Rx es finito o enumerable (rango discreto), entonces X es una v.a Discreta.
Si Rx no es enumerable (rango continuo), entonces X es una v.a Continua.
Función de Probabilidad.- Si X es una v.a discreta, la función de probabilidad de X viene dada por: P X x
P X
x
P
/X
x
, tal que
P X ( x) 1 x Rx
Función de densidad.- Si X es una v.a continua, la función de densidad de X es b
una aplicación f X :
0,
tal que P a X b
f X (x )dx ,tal
que
f X ( x) dx 1
a
Función de distribución.- La función de distribución de una v.a X esta dada por: F X ( x)
P( X
x)
P(
/X( )
x)
Propiedades. 91
Estadística aplicada
Mgt. Cleto De La Torre Dueñas
F es continua por la derecha y es creciente
Si X es una v.a discreta , entonces P a X b
F b
F a
Si X es una v.a continua , entonces P a X b
F b
F a
Si X es una v.a continua , entonces F ' ( x)
lim x
FX ( x)
0 y lim x
dF ( x) dx
P X
a
f ( x)
FX ( x) 1
Definición. La esperanza o media de una variable aleatoria
X, denotada por E( X ) o
X
se
define según sea la variable discreta o continua, mediante: x.P X E X
x , si X es discreta
x Rx
x. f (x)dx, si X es continua x Rx
Propiedades.
El valor esperado de una constante es dicha constante
E a bX
a bE X
Definición.- La varianza de una variable aleatoria X cuya media o esperanza es X
, se define como
V X
2 X
2
E X
X
E X
E X
2
E X
2
E2 X
Propiedades.
La raíz cuadrada de la varianza se llama desviación estándar. 2 X
E X
V aX
b
2
2 X
a2V ( X )
Desigualdad de Chebyshev. Si X es una variable aleatoria, entonces para cualquier P X
X
k
X
1
k
se cumple
1 k 2
92
Estadística aplicada
Mgt. Cleto De La Torre Dueñas
Ejercicio resuelto. 1. Sea X la variable aleatoria definida como la suma de los valores que aparecen al lanzar dos dados. a) Determine la distribución de probabilidad. b) Calcule la probabilidad P(5
Solución. a) Resultados en 1
2
3
4
5
6
los dos dados 1
2
3
4
5
6
7
2
3
4
5
6
7
8
3
4
5
6
7
8
9
4
5
6
7
8
9
10
5
6
7
8
9
10
11
6
7
8
9
10
11
12
8
9
10
11
X: Suma de los valores de los dos dados Rx
2
P(X)
1/36 2/36 3/16 4/16 5/36 6/36 5/36 4/36 3/36 2/36 1/36
b)
p(5
3
X
8)
4
5
p(6)
p (7)
6
7
12
5 / 36 6 / 36 11/ 36
c) Media E X
x.P X
x , si X es discreta
x Rx
E X E X
2
1
36 252
3
2 36
4
3 36
5
4 36
6
5 36
7
6 36
8
5 36
9
4 36
10
3 36
11
2
12
36
36
Varianza. 2 X
E X
2
E2 X
93
1 36
Estadística aplicada
2
E X E X
2 X
2
2
2
1
Mgt. Cleto De La Torre Dueñas
2
2
3
36
3
2
4
36
4
2
5
36
36
2
6
5 36
7
2
6 36
5
2
8
36
2
9
4 36
10
2
3 36
2
11
2 36
1974 36
E X
2
E
2
X
1974
252
36
36
2
DISTRIBUCIONES IMPORTANTES. Existen, como en el caso de la última variable ejemplificada, otras variables cuyas funciones de probabilidad o densidad resultan ser modelos de mucha utilidad para una serie de aplicaciones. Nosotros citaremos brevemente algunos de los modelos de mayor importancia.
DISTRIBUCIONES DISCRETAS. Un experimento de Bernoulli, es un experimento aleatorio con solo dos posibles resultados: Éxito y Fracaso. Sea p = P (Éxito).
Distribución Binomial. La distribución binomial aparece cuando se dan las condiciones siguientes: -Tenemos un experimento aleatorio simple, con una situación dicotómica, es decir Éxito y Fracaso. - Repetimos este experimento simple n veces de manera independiente. X = Número de Éxitos en n experimentos independientes de Bernoulli. Función de Probabilidad: P X x
Valor esperado: Notación: X
X
C xn p x 1 p
n x
0
np. Varianza:
, si x
0,1,2,..., n
, en otro caso. 2 X
np 1 p .
B(n, p).
Distribución de Pascal o Binomial Negativa. Notación: X BN(r, p).
94
12
2
1 36
Estadística aplicada
Mgt. Cleto De La Torre Dueñas
X = Número de ensayos (experimentos independientes de Bernoulli) hasta conseguir el r-ésimo Éxito. Función de Probabilidad: C xr 11 1 p
P X x
Valor esperado:
x r
p r
, si x
0 r
X
p
r , r 1, r 2,...
, en otro caso.
. Varianza:
r 1 p
2 X
p 2
.
Nota: Si r = 1, X se dice que es una variable aleatoria con distribución geométrica de parámetro p, y se le denota por X
G(p).
Distribución Hipergeométrica. Notación: X H(N, M, n). Considérese una población de N elementos, M de los cuales son de un t ipo A, y supongamos se extraen sin reemplazo una muestra de n elementos de esta población. Entonces: X = Número de elementos de tipo A en la muestra. Función de Probabilidad: M C x M C N n x
, si x
C nN
P X x
0
Valor esperado:
n
X
M N
. Varianza:
0,1,2,..., n
, en otro caso. 2 X
n
M N
1
M N n N
N 1
.
Notas: 1. En PX se esta usando la convención que C ab
0, si a > b.
2. Si la elección de la muestra fuera con reemplazamiento, entonces X B n, p
M N
.
Distribución de Poisson. La distribución de Poisson aparece en situaciones en las que se cuenta el número de apariciones de un determinado suceso o bien en un intervalo de tiempo dado (como el número de partículas emitidas en un segundo por un material radioactivo, o el número de pacientes que llegan a un servicio en un 95
Estadística aplicada
Mgt. Cleto De La Torre Dueñas
intervalo de tiempo dado) o bien en un recinto físico (como el número de fallos en un metro de alambre de hierro producido. X = Número de eventos en 0, t . Función de Probabilidad: x
P X x
Valor esperado:
X
e
, si si x
x!
. Varianza:
0,1,2,...
0
, en otro caso.
2 X
.
DISTRIBUCIONES CONTINUAS. Distribución Uniforme. Notación: X U a, b . Esta distribución se da cuando la variable aleatoria X puede tomar indistintamente cualquier valor en el intervalo a, b . Función de densidad: 1 f X x
, si x
b a 0
Valor esperado:
a b X
2
. Varianza:
a, b
, en otro caso.
b a
2 X
12
2
.
2
Distribución Normal. Notación: X N( ,
).
Función de densidad: 1
f X x
Valor esperado:
Nota: Cuando
X
=0y
2
. Varianza:
2 X
1
e
2
2
2
x
2
.
2
= 1, a X se le denota por Z y se le llama una variable
aleatoria con distribución normal estándar; vale decir, Z normal
X
N (0, 1). 1). Toda v.a.
N ( , 2) puede convertirse con una v.a. normal estándar
(estandarizarse) a través de la transformación: Z
X
96
Estadística aplicada
Mgt. Cleto De La Torre Dueñas
EJERCICIOS RESUELTOS
1.
El área de evaluación de proyectos analiza 10 proyectos presentados a un municipio, se sabe que que por estudios anteriores que que el 25% de los proyectos proyectos no son aceptados por diversas causas. Calcular la probabilidad de que: a) Exactamente 4 proyectos sean rechazados. b) Ninguno de los proyectos presentados son rechazados. c) Todos son rechazados. d) Por lo menos 8 son rechazados. e) A lo sumo 3 no son aceptados. f)
Calcular la Media y varianza
Solución Consideremos los sucesos A = El proyecto es rechazado rechazado , P (A) = 0.25 A =
El proyecto proyecto no es rechazado, rechazado, P ( A ) = 0.75
Se trata de una distribución Binomial de parámetros B (10, 0.25 ) Sea X la variable aleatoria que representa el número de proyectos rechazados por la oficina de evaluación de proyectos a) P(Exactamente 4 proyectos son son rechazados) rechazados) = P X
4
10 4
(0.25)4 (0.75)6
0.1460
b ) P (Ninguno (Ninguno proyecto presentado es rechazado) rechazado) = P X
10
0
0
(0.25)0 (0.75)10
0.0563
c)
P(Todo los proyectos son rechazados) = P X 10
d)
P(Por lo menos 8 proyectos son son rechazados) rechazados) = P X 10 8
8
P X
(0.25)8 (0.75)2
8
P X 10 9
9
P X
(0.25)9 (0.75)
10 10
(0.25)10 (0.75)0
0
10 0
0.005 00 5
97
Estadística aplicada
Mgt. Cleto De La Torre Dueñas
P( A lo sumo 3 proyectos son son rechazados rechazados ) =
e)
P X
10 0
3
P X
0
P X 10
(0.25)0 (0.75)10
1
1 P X
(0.25)1 (0.75)9
2 10 2
P X
3
(0.25)2 (0.75)8
10 3
(0.25)3 (0.75)7
0.7759
Media y Varianza
f)
np 2
10 (0.25)
np(1 p)
2.5
10(0.25)(0.75)
1.875 87 5
2, Usted es el responsable de regular el caudal de descarga descarga de una presa. La Comisión Nacional del Agua ha determinado que si el caudal que pasa por la estación supera la marca de 3 m en la estaca de aforo de la estación, se corre el riesgo de dañar estructuras hidráulicas aguas abajo. La penalización por descargar caudales mayores es muy severa y le podría costar el puesto. La probabilidad de que se viole la norma sobre un período de tiempo muy grandes es de 0.20. ¿ Cree Usted probable que durante los últimos 6 eventos de escurrimiento se haya sobrepasado la norma en 4 ocasiones?. SOLUCION. La probabilidad de que se sobrepase la norma en 4 ocasiones durante 6 eventos es: P X P x
x 4
n
x
C x p 1 p 6
C 4 0.2
4
n x
1 0.2
6 2
0.015
Este valor es muy pequeño y por lo tanto muy improbable que esto haya sucedido, por lo que de haberse llevado a cabo correctamente la medición, el punto de aforo esta recibiendo además de la descarga de la presa, escurrimiento directo o bien flujo base del subsuelo. 3. La resistencia de un material está está distribuido normalmente con una media de 60 kg y una desviación desviación típica es 6. Cuál es la probabilidad de de que la resistencia de de un material: 98
Estadística aplicada
Mgt. Cleto De La Torre Dueñas
a) Sea inferior a 64 b) Sea mayor o igual a 57 c) Sea superior a 63 d) Este entre 57 a 65. e) Sea inferior a 50 f) Este entre 64 a 70 g) Si se tiene 200 materiales , .Cuantos cabe esperar que presenten resistencias mayores a 57 y menores de 64?
Solución. X: Resistencia 60 (Media 6
a) P( X
poblacional)
(Desviación) 64)
X P(
64
)
64 60
P( Z
6
)
P( Z
0.67)
(0.67)
0 z=0.67
0.5
b) P( X
57)
X P(
(0.67)
0.5 0.24857=0.74857=74.857%
57
)
57 60
P( Z
6
)
P(Z
0.5)
(0.5) 0.5
(0.5)
z= 0.5
0
0.19146+0.5=0.69146=69.146% X
c) P( X 63) P(
63
)
P( Z
63 60 6
)
P(Z
0.5)
0.5
(0.5)
99
Estadística aplicada
Mgt. Cleto De La Torre Dueñas
(0.5)
0
z=0.5
0.5 0.19146=0.30854=30.854%
d) P(57 X
65)
P ( 0.50
P(
57
X
X
0.83)
65
(0.50)
)
(0.83)
(0.5)
X
50
)
0
P( Z
57 60 6
65 60
Z
6
)
0.19146+0.29373=0.48519=48.519%
(0.83)
z= 0.50
e) P( X 50) P(
P(
z=0.83
50 60 6
)
P(Z
0.167)
(0.167)
z= 0.167
0.5
f) P(64 X
70)
P (0.67
P(
X
64
(0.167) X
1.67)
0.5 0.0675=0.4325=43.25% 70
(1.67)
)
P(
64 60 6
Z
70 60 6
)
(0.67) 0.45254-0.24857=0.20397=20.397%
100
Estadística aplicada
Mgt. Cleto De La Torre Dueñas
z=0.67 0
z=1.67
(0.67) (1.67)
g) P(57 X
64)
P ( 0.5
P(
57
X
X
0.67)
64
(0.5)
)
(0.67)
P(
57 60 6
Z
64 60 6
)
0.19146+0.24857=0.44003=44.003%
Cabe esperar el 44.003% de los materiales, es decir
0.44003* 200
88
4. Suponga que el nivel de agua en una presa cambia su nivel mensualmente en promedio 1 cm,de forma aleatoria, y los cambios graficados describen una distribución de Poisson. ¿Cuál es la probabilidad de que se presente un cambio de 2 cm de elevación en un mes?. x
P X
x
e
x ! 2
P X
2
1 e 2!
1
0.184
101
Estadística aplicada
Mgt. Cleto De La Torre Dueñas
EJERCICIOS PROPUESTOS 1. Suponga que la concentración anual promedio de cloruros en el agua de un río es de 300 ppm (partes por millón) con una varianza de 150 ppm. Estos promedios están basados en mediciones semanales de muestras durante un año contando con datos de 35 años. Durante un año en el que se vertió agua de drenaje agrícola el promedio anual aumentó a 310 ppm. ¿Cuál es la probabilidad de que las concentraciones anuales sean iguales o mayores a 310 ppm?. Suponiendo que las concentraciones presentan una distribución normal 2. Los salarios de los trabajadores de una empresa son en promedio $11,9 por hora y la desviación estándar de $0,4. Si los salarios tienen una distribución normal. ¿Cuál es la probabilidad de que un trabajador seleccionado al azar: a) Reciba salarios entre $10,9 y $11,9? b) Reciba salarios inferiores a $11? c) Reciba salarios superiores a $12,95? d) ¿Cuál debe ser el salario menor que gana un trabajador que se encuentra entre el 10% de los trabajadores que más ganan? e) Si la empresa va a aumentarle el salario al 15% de los trabajadores que menos ganan. ¿Cuál será el salario máximo que deberá ganar un trabajador para ser beneficiado con el aumento? 3. El volumen de acciones negociadas en la Bolsa es normal con una media de 646 millones de acciones y una desviación de 100 millones de acciones. a) ¿Cuál es la probabilidad de que el volumen negociado sea menor de 400 millones? b) ¿Cuál es la probabilidad de que el volumen negociado de acciones oscile entre las 400 y las 600 acciones? c) Si la Bolsa quiere emitir un boletín de prensa sobre el 5% de los días más activos ¿Qué volumen publicará la prensa?
102
Estadística aplicada
Mgt. Cleto De La Torre Dueñas
4. Se toma una muestra de 12 trabajadores de una gran empresa para estudiar su actitud frente a un cambio en el método de trabajo. Si el 60% de todos los trabajadores de la empresa están a favor del cambio. ¿Cuál es la probabilidad de que menos de 5 de los miembros de la muestra estén a favor? 5. La tasa real de desempleo es de 15%. Suponga que se seleccionan al azar 15 personas en posibilidad de trabajar. a) ¿Cuál es la cantidad esperada de desempleados? b) ¿Cuál es la varianza y la desviación estándar de los desempleados? c) ¿Cuál es la probabilidad de que al menos 3 estén desempleados? d) ¿Cuál es la probabilidad de que haya entre 3 y 5 desempleados? 6. Sabiendo que el caudal máximo anual de un rio se distribuye normalmente con un promedio de 830 y un desvío estándar de 125: a) ¿Cuál es la probabilidad de que al próximo año se presente un caudal máximo inferior a 885? b) ¿En qué porcentaje de los años se presentara un caudal máximo entre 700 y 800? 7. La creciente recesión económica lleva a las empresas a modificar, entre otras cosas, sus condiciones de pago. En cierta industria se determinó que en el último año las cobranzas se realizaron a los 120 días fecha factura en promedio, con un desvío típico de 20 días (sin considerar los incobrables y clientes en gestión judicial) y que la variable “días de cobranza” se distribuye normalmente.
a) Si no varían las condiciones económicas ni comerciales para el año próximo ¿cree que es muy probable que en la industria estudiada lleguen a cobrar a más de 150 días? b) ¿En cuántos días como máximo se espera cobrar el 85 % de las operaciones ? c) Si la última cobranza se efectivizó en un plazo inferior al promedio de días, ¿cuál es la probabilidad de que la empresa haya cobrado después de los 100 días ?
103
Estadística aplicada
Mgt. Cleto De La Torre Dueñas
8. El costo de un producto que se procesa en forma automática está formado por el 2
costo de los materiales del envase (0,07 m /unidad) y el costo del producto en sí mismo (5 gramos/unidad), tomándose como unidad el envase de presentación. Debido a ciertas fluctuaciones, dichos costos son variables aleatorias independientes que pueden considerarse normalmente distribuidas: 2
2
- el costo de materiales (x) con media 180$/m y desvío estándar de 2$/m . - el costo del producto (y) con media 20$/gramo, y desvío estándar de 1,5 $/gramo. a) ¿Cuál es la probabilidad de que el costo del producto de una unidad supere los $ 122? b) ¿Cuál es la probabilidad de que el costo de un pack de 25 unidades supere los 2950$? 9, En un estudio sobre la capacidad del mercado de valores para absorber acciones, se observa su comportamiento durante intervalos de 10 minutos cada uno, y se cuenta el número de transacciones comerciales realizadas durante cada periodo. Si el número de transacciones realizadas durante cada periodo es una variable aleatoria X que sigue un modelo de Poisson con un promedio de 6 transacciones. a)
Determine la probabilidad de que de 10 intervalos observados en 2 se realicen menos de 2 transacciones, en 5 se realicen entre 2 y 4 transacciones inclusive y en 3 se realicen más de 4 transacciones.
b)
Si se observan continuamente intervalos de 10 minutos cada uno. ¿Cuál es la probabilidad de que el sexto intervalo observado sea el primero en el cual se realicen más de 6 transacciones?
c)
Si se observan independientemente 6 intervalos de 10 minutos cada uno. ¿Cuál es la probabilidad de que a lo más en 4 intervalos se realicen menos de 2 transacciones?
d)
Si se observan intervalos de 10 minutos cada uno hasta que en 5 de ellos se realicen entre 2 y 4 transacciones inclusive. ¿Cuál es la probabilidad de que sea necesario observar 10 intervalos?
e)
Si se sabe que el número total de intervalos observados de 10 minutos cada uno es 100 y se toma una muestra sin reemplazo de 6 de estos intervalos.
104
Estadística aplicada
Mgt. Cleto De La Torre Dueñas
¿Cuál es la probabilidad de que en a lo menos 2 se realicen más de 6 transacciones? f)
Determine la probabilidad de que en un intervalo de tiempo de 4 minutos se realice a lo más una transacción.
ANÁLISIS DE FRECUENCIA Los sistemas hidrológicos son afectados en ocasiones por eventos extremos, tales como tormentas severas, crecidas y sequías. La magnitud de un evento extremo está inversamente relacionada con su frecuencia de ocurrencia, es decir, eventos muy severos ocurren con menor frecuencia, que eventos más moderados. El objetivo del análisis de frecuencia de información hidrológica es, relacionar la magnitud de los eventos extremos con su frecuencia de ocurrencia, mediante el uso de “Funciones de Distribución de Probabilidad”.
Los requisitos que debe cumplir la información hidrológica (eventos extremos) es que: Debe ser independiente Está idénticamente distribuida (por ejemplo, precipitación diaria máxima anual) El sistema hidrológico que la produce (por ejemplo, un sistema de tormenta) sea aleatorio, independiente del espacio y del tiempo La información hidrológica empleada debe ser seleccionada cuidadosamente, de manera tal que se satisfagan las suposiciones de independencia y de distribución idéntica. En la práctica, esto se lleva a cabo usualmente seleccionando el máximo anual de la variable bajo análisis (por ejemplo, el caudal máximo anual, que puede corresponder al flujo pico instantáneo máximo o al medio diario máximo, que se haya producido en cualquier momento o en cualquier día durante el aforo) con la expectativa de que observaciones sucesivas de esta variable de un año a otro sean independientes. 105
Estadística aplicada
Mgt. Cleto De La Torre Dueñas
Los resultados del análisis de frecuencia de los caudales de crecida pueden utilizarse para muchos propósitos en ingeniería: diseño de presas, puentes, cauces evacuadores y estructuras de control de crecidas determinar el beneficio económico de proyectos de atenuación de crecidas delimitar planicies de inundación y determinar el efecto de ocupaciones o construcciones en las mismas
MÉTODOS ESTADÍSTICOS PARA ESTIMAR VALORES EXTREMOS Estos métodos consisten en estimar los valores de las crecidas máximas que pueden producirse en un río a partir de una serie de caudales máximos conocidos, extrapolando en dicha serie mediante el empleo de una curva de frecuencia para diferentes probabilidades. El problema se centra en utilizar al máximo los registros de caudales de que se dispone en la estación para la cual se busca evaluar la más fuerte crecida a temer; habrá necesidad así de emplear principalmente las técnicas estadísticas de análisis de crecidas, las que permitirán resolver el problema que representa calcular la probabilidad de que un caudal, superior a un valor dado, sobrevenga al menos una vez durante un determinado período de tiempo (un siglo o un milenio, por ejemplo). Igual razonamiento es extensivo a la cuantificación de precipitaciones máximas en función de los valores de los registros disponibles. El caudal de la crecida anual, definido como el mayor caudal del año, puede ser efectivamente considerado como una variable aleatoria continua e ilimitada, de la cual puede proponerse estudiar la distribución estadística. Estando esta distribución ajustada a alguna de las leyes teóricas conocidas de probabilidad, de manera que interprete, tan fielmente como sea posible, las observaciones disponibles, se admite que esa misma ley es válida, tanto dentro como fuera del período de observación, permitiendo por lo tanto, calcular el caudal que tiene una probabilidad dada de ocurrencia, aunque ésta sea muy pequeña (como el de la crecida milenaria, por ejemplo).
106
Estadística aplicada
Mgt. Cleto De La Torre Dueñas
DATOS A UTILIZAR El estudio estadístico de crecidas puede orientarse de dos maneras: si se desea conocer sólo la posibilidad de que se alcance un cierto caudal en un período de tiempo dado. si interesa también la duración de los caudales de crecidas que sobrepasen uno determinado. Corresponde emplear una serie de duración parcial.
LEYES DE DISTRIBUCIÓN DE VALORES EXTREMOS Los valores extremos son valores máximos o mínimos seleccionados de conjuntos de datos. Por ejemplo, el caudal máximo anual en un lugar dado es el mayor caudal registrado durante un año hidrológico y todos los valores contenidos en el registro histórico conforman un conjunto de valores extremos que se pueden analizar estadísticamente. MODELOS PROBABILISTICOS DE ANALISIS DE FRECUENCIA. El planteamiento y el diseño se refiere a eventos del futuro cuyo tiempo de ocurrencia o magnitud no puede predecirse, esta situación de incertidumbre hace necesaria el estudio de probabilidad o frecuencia Las seguías son eventos extremos, las mismas que deben ajustarse a alguna ley de probabilidad. PERIODO DE RETORNO (T R). Se dice que la variable aleatoria “X” es un evento extremo, cuando es mayor o igual a un cierto valor umbral “ Xt ”.
Intervalo de tiempo o número de años que en promedio es probable la ocurrencia de un evento que iguale o exceda a una magnitud x. v La probabilidad de ocurrencia P, es: O Donde P: Probabilidad de ocurrencia. T: Periodo de retorno Tipo de estructura
Periodo de retorno n años
Puente sobre carretera importante
50-100 años
Alcantantarillas
5-10 años 107
Estadística aplicada
Mgt. Cleto De La Torre Dueñas
Drenaje agrícola
5-10 años
Muros de encauzamiento
2- 50 años
ANALISIS DE FRECUENCIAS. La magnitud Xt de un evento hidrológico extremo puede representarse como la media
más una desviación
Donde : Factor de frecuencia En términos aproximados se puede expresar
En Hidrología las distribuciones de probabilidad más usadas son: Normal. Log-Normal. Log- Pearson III Gumbel (Tipo I) Gamma
ANALISIS DE FRECUENCIA El análisis de frecuencia es una herramienta utilizada para, predecir el comportamiento futuro de los caudales en un sitio de interés, a partir de la información histórica de caudales.
Es un método basado en procedimientos
estadísticos que permite calcular la magnitud del caudal asociado a un período de retorno. Su confiabilidad depende de la longitud y calidad de la serie histórica, además de la incertidumbre propia de la distribución de probabilidades seleccionada. Cuando se pretende realizar extrapolaciones, período de retorno mayor que la longitud de la serie disponible, el error relativo asociado a la distribución de probabilidades utilizada es más importante, mientras que en interpolaciones la 108
Estadística aplicada
Mgt. Cleto De La Torre Dueñas
incertidumbre está asociada principalmente a la calidad de los datos a modelar; en ambos casos la incertidumbre es alta dependiendo de la cantidad de datos disponibles (Ashkar, et al. 1994). La extrapolación de frecuencias extremas en una distribución empírica de crecientes es extremadamente riesgosa (Garcon, 1994). Para determinar la magnitud de eventos extremos cuando la distribución de probabilidades no es una función fácilmente invertibles se requiere conocer la variación de la variable respecto a la media. Chow en 1951 propusó determinar esta variación a partir de un factor de frecuencia K T que puede ser expresado: X T
K T
y se puede estimar a partir de los datos X T
x K T s
Para una distribución dada, puede determinarse una relación entre K y el período de retorno Tr. Esta relación puede expresarse en términos matemáticos o por medio del uso de una tabla. El análisis de frecuencia consiste en determinar los parámetros de las distribuciones de probabilidad y determinar con el factor de frecuencia la magnitud del evento para un período de retorno dado. A continuación se describen las principales distribuciones de probabilidad utilizadas en hidrología, la forma de estimar sus parámetros, el factor de frecuencia y los límites de confianza. Estos últimos son indicadores de que tanta incertidumbre se tiene con las extrapolaciones, puesto que determinar el rango de valores donde realmente estaría la variables, si el rango es muy grande la incertidumbre es muy alta y si es pequeño, por el contrario, habrá mucha confianza en el valor estimado.
DISTRIBUCIONES DE PROBABILIDAD PARA VARIABLES CONTINUAS DISTRIBUCION NORMAL La distribución normal es una distribución simétrica en forma de campana, también conocida como Campana de Gauss. Aunque muchas veces no se ajusta a los datos hidrológicos tiene amplia aplicación por ejemplo a los datos transformados que siguen la distribución normal. 109
Estadística aplicada
Mgt. Cleto De La Torre Dueñas
Función de densidad: La función de densidad está dada por f ( x)
1 2
1 ( x
)
2
2
exp 2
Los dos parámetros de la distribución son la media
x
y desviación estándar
para
los cuales x (media) y s (desviación estándar) son derivados de los datos.
Estimación de parámetros:
x
1 n
n
xi i 1 1
s
n
1 n 1i
( xi
x)
2
2
1
Factor de frecuencia: 1. Si se trabaja con los X sin transformar el K se calcula como xT
K T
Este factor es el mismo de la variable normal estándar K T
F 1 (1
1 Tr
)
Limites de confianza:
X Tr Donde
t (1
)
S e
es el nivel de probabilidad t (1
)
es el cuantil de la distribución normal
estandarizada para una probabilidad acumulada de 1- y Se es el error estándar EJEMPLO. Dada la serie histórica de caudales medios anuales en m 3/s que corresponde a un registro de 50 años para el rio Santa. 110
Estadística aplicada
95.05
Mgt. Cleto De La Torre Dueñas
98.13 100.18 101.66 101.76
105.21 105.81
106.4 107.43 107.62
108.75 110.77 114.31 116.69 119.52 123 123.22 124.31 127.82 128.15 132.49
134.1 136.22 144.22 145.79
146.08 153.64 153.97
154.8
156.8
158.48 162.29 164.35 169.18 169.64 177 182.53 183.11 183.49 184.98 193.78 193.88 197.58 207.78 208.18 212.48 217.52 239.07 256.62 266.54 a) Los caudales presenta un comportamiento normal b) Calcular la probabilidad de que : i)
El caudal sea inferior a 180 m3/s
ii)
El caudal sea superior a 100 m3/s
iii)
Caudal este entre 50 m3/s a 200 m 3/s
iv)
Periodo de retorno para un caudal de 210 m 3/s
v)
El caudal para un periodo de retorno de 50 años.
Solución Sea X: Caudal del rio en m 3/s
=
Asumiendo que de la prueba de smirnov-kolmogorov se concluye que la información presenta un comportamiento normal. i)
ii)
iii)
111
Estadística aplicada
Mgt. Cleto De La Torre Dueñas
iv) Periodo de retorno para un caudal de 210
0.0934 Entonces
v) Como Como T=50 años, entonces
Estandarizando se tiene Z=2.055
Reemplazando se tiene que X=241.87
DISTRIBUCION LOGNORMAL DE DOS PARAMETROS Si los logaritmos Y de una variable aleatoria X se distribuyen normalmente se dice que X se distribuye normalmente. Esta distribución es muy usada para el calculo de valores extremos por ejemplo Qmax, Qmínimos, Pmax, Pmínima (excelentes resultados en Antioquia). Tiene la ventaja que X>0 y que la transformación Log tiende a reducir la asimetría positiva ya que al sacar logaritmos se reducen en mayor proporción los datos mayores que los menores. Limitaciones: tiene solamente dos parámetros, y requiere que los logaritmos de la variables estén centrados en la media
Función de densidad: 1 ( y
f ( x)
1
x
2
exp
2
y ) 2
y
x
0
y = ln x 112
Estadística aplicada
donde,
y : y :
Mgt. Cleto De La Torre Dueñas
media de los los logaritmos de la población población (parámetro escalar), escalar), estimado y
Desviación estándar de los logaritmos de la población, estimado sy .
Estimación de parámetros: y
1 n
n
ln( xi ) i 1 1
s y
1 n 1
n
(ln( xi )
y)
2
2
i 1
Factor de frecuencia: Puede trabajarse en el campo original y en el campo transformado. 2. Campo transformado: Si se se trabaja en el campo transformado transformado se trabaja con con la media y la desviación estándar de los logaritmos, así: Ln(XTr ) = xTr +KS +KSy de donde, XTr = eln (xTr ) con K con variable normal estandarizada para el Tr dado, x y media de los logaritmos y Sy es la desviación estándar de los logaritmos. 3. Campo original: Si se trabaja con los X sin transformar el K se calcula como 1 2
Exp K T * ( Ln(1 Cv )) Kt
2
ln(1 Cv )
2
1
2
Cv
K es la variable normal estandarizada para el Tr dado, Cv
s x
es el coeficiente de
variación, x media de los datos originales y s desviación estándar de los datos originales.
Limites de confianza: En el campo transformado. Ln( X Tr ) t (1
)
S T
113
Estadística aplicada
Mgt. Cleto De La Torre Dueñas
1
( S y )
S e
1
n
K T
2
2
2
en donde, n numero de datos, Se error estándar, K T variable normal estandarizada.
EJEMPLO: En un río se tienen 30 años de registros de Qmáximos instantáneos anuales con x= 15 m 3/s, S = 5 m 3/s (media y desviación estándar para los datos originales).
xy=2.655, sy = 0.324 (media y desviación estándar de los datos
transformados). Encontrar el caudal para un periodo de retorno de 100 años y los limites de confianza para un
= 5%. Calcular la probabilidad de que un caudal de
42.5 m3/s no sea iguala igualado do o excedido excedido P(Q 4.25). 4.25). Solución: n=30 x= 15 m 3/s
xy=2.655
s = 5 m3/s
sy = 0.324
En el campo original 1 2
Exp K * ( Ln(1 Cv )) Kt Cv
2
ln(1 Cv )
2
1
2
Cv s x
= 5/15 = 0.33
K = F-1(1-1/Tr) = F-1(1-1/100) = F-1(0.99) de la tabla de la normal se obtiene KT=2.33 1 2
Exp 2.33* ( Ln(1 0.33 )) K T
2
2
ln(1 0.33 ) 2
1
0.33
KT = 3.06 QTr = 15 + 5 * 3.028 QTr = 30.14 m 3/s En el campo transformado se tiene que: LnQTr100 = 2.655 + 2.33*0.324 LnQTr100 = 3.40992 QTr100 = Exp (3.40992) Q Tr100 = 30.26 m3/s 114
Estadística aplicada
Mgt. Cleto De La Torre Dueñas
Limites de confianza Ln (QTr)
t(1- ) Se 1
S e
( S y )
1
n
K T
2
2
2
1 2
1
2.33
2
2
= 1.93 Se
193 . 0324 . 30
0.11
t(1- ) = t(0.95) = 1.645 (Leído de la tabla de la l a normal) Ln(30.28) (1.645 ) (0.11) 3.41 0.18095 [3.22905
3.59095]
[e3.22905
e3.59095]
[25.26
36.29]
Intervalos de confianza para Q Tr100
b) Calcular la probabilidad de que un caudal de 45 m 3/s no se igualado o excedido P(Q P(Q 4.2 4.25). 5). Ln(42.5) = 3.75 t = (3.75 - 2.655)/0.324 2. 655)/0.324 F(3.38) = 0.9996 Leído de la tabla de la normal P(Q P(Q 4.25 4.25)) = 99. 99.9% 9%
DISTRIBUCION GUMBEL O EXTREMA TIPO I Una familia importante de distribuciones usadas en el análisis de frecuencia hidrológico es la distribución general de valores extremos, la cual ha sido ampliamente utilizada para representar el comportamiento de crecientes y sequías (máximos y mínimos).
115
Estadística aplicada
Mgt. Cleto De La Torre Dueñas
Función de densidad: f ( x)
En donde
y
1
( x
exp
)
exp
(x
)
son los parámetros de la distribución. F ( x)
f ( x)dx
exp
exp
(x
)
Estimación de parámetros 6
s
x 0.5772
donde x y s son la media y la desviación estándar estimadas con la muestra.
Factor de frecuencia: K T
6
0.5772 ln ln
T r T r 1
Donde Tr es el periodo de retorno. Para la distribución Gumbel se tiene que el caudal para un período de retorno de 2.33 años es igual a la media de los caudales máximos.
Limites de confianza Xt Se
t(1- ) Se s n 1 2 2
[1 1.1396 K T 1.1K T ]
KT es el factor de frecuencia y t (1- ) es la variable normal estandarizada para una probabilidad de no excedencia de 1- .
EJEMPLO: Para el ejemplo anterior encontrar el Q de 100 años de periodo de retorno y los intervalos de confianza. x= 15 m 3/s, s = 5 m3/s QTr100 = x + KT s K T
6
0.57 7 ln[ln10 0 ln(99)]
116
Estadística aplicada
Mgt. Cleto De La Torre Dueñas
KT = 3.14 QTr100 = 15 + 3.14*5 QTr100 = 30.7 m3/s Intervalos de confianza t(1- ) = t(0.95) = 1.645 (Leído de la tabla de la normal) 1 2
[1 11396 . ( 314 . ) 11 . (314 . ) ]2
= 3.93 Se
(3.93) (5) 30
Se
3.58 m3 / s
Xt
t(1- ) Se
30.7 m3/s (1.64) (3.58) [24.83 m3/s
36.58 m3/s]
Intervalo de confianza para QTr100
DISTRIBUCION GAMA DE TRES PARAMETROS O PEARSON TIPO 3 Esta distribución ha sido una de las más utilizadas en hidrología. Como la mayoría de las variables hidrológicas son sesgadas, la función Gamma se utiliza para ajustar la distribución de frecuencia de variables tales como crecientes máximas anuales, Caudales mínimos, Volúmenes de flujo anuales y estacionales, valores de precipitaciones extremas y volúmenes de lluvia de corta duración. La función de distribución Gamma tiene dos o tres parámetros.
Función de densidad: f ( x)
1
x x0 ˆ
1
exp
x x0 ˆ
Donde, x0
x
para
0
x x0 para
0
y son los parámetros de escala y forma, respectivamente , y x 0 es el parámetro de localización.
117
Estadística aplicada
Mgt. Cleto De La Torre Dueñas
Estimación de parámetros: 2
2
;
ˆ
Cs
ˆ
s
Cs 2
; x0 ˆ
x
ˆ
Cs es el coeficiente de asimetría, x y s son la media y la desviación estándar de la muestra respectivamente.
Factor de frecuencia: 2
K z ( z
1)
Cs
1
6
3
3
( z
6 z )
Cs 6
2 2
( z
1)
Cs
3
6
z
Cs
4
6
1 Cs 3
5
6
donde z es la variable normal estandarizada Este valor de K se encuentra tabulado de acuerdo al valor de Cs calculado con la muestra.
Intervalos de confianza: Xt t(1- ) Se Se
S n
Donde S es la desviación estándar de la muestra, n es el número de datos y
se
encuentra tabulado en función de Cs y Tr.
EJEMPLO: Se tiene una estación con 30 años de registros de caudales máximos instantáneos con Media de 4144 pie 3/s y desviación estándar de 3311 pie 3/s. Si el coeficiente de asimetría de los caudales es de 1.981 pie 3/s cual es caudal para un periodo de retorno de 100 años y su intervalo de confianza. QTr100 = X+ SK K es F(1.981, 100)
de tablas se obtiene K=3.595
(1.9,100) = 3.553 (2.0,100) = 3.605
QTr100 = 4144+ (3.595) (3311) QTr100 = 16050 pie3/s
118
Estadística aplicada
Mgt. Cleto De La Torre Dueñas
Intervalos de confianza Xt
t(1- ) Se S
Se
n
= F(1.981,100)
de tablas se obtiene =8.4922 (1.9,100) = 8.2196 (2.0,100) = 8.5562
(3311) (8.4922)
Se
30
Se = 5133.56 pie 3/s t(1- ) = t(0.95) = 1.645 (Leído de la tabla de la normal) 16050 (5133.56) (1.645) [7605.29 pie3/s
24494.71pie 3/s]
Intervalos de confianza para
QTr100
DISTRIBUCION LOG GAMMA O LOGPEARSON DE 3 PARAMETROS Si los logaritmos Y de una variable aleatoria X se ajustan a una distribución Pearson tipo III, se dice que la variable aleatoria X se ajusta a una distribución Log Pearson Tipo III. Esta distribución es ampliamente usada en el mundo para el análisis de frecuencia de Caudales máximos. Esta se trabaja igual que para la Pearson Tipo III pero con Xy y Sy como la media y desviación estándar de los logaritmos de la variable original X.
Función de densidad: f ( x)
1
ln( x) y0
x
1
exp
ln( x)
y0
donde, y0
y
para
0
y y0 para
0
y son los parámetros de escala y forma, respectivamente , y y 0 es el parámetro de localización.
119
Estadística aplicada
Mgt. Cleto De La Torre Dueñas
Estimación de parámetros: 2
2
;
ˆ
Cs
ˆ
s y
Cs 2
; x0 ˆ
x y
ˆ
Cs es el coeficiente de asimetría, , x y y s y son la media y la desviación estándar de los logaritmos de la muestra respectivamente.
Factor de frecuencia: ln(Y Tr ) x y K s y 2
K z ( z
1)
Cs
1
6
3
3
( z
6 z )
Cs 6
2 2
( z
1)
Cs 6
3
z
Cs
4
6
1 Cs 3
5
6
donde z es la variable normal estandarizada Este valor de K se encuentra tabulado de acuerdo al valor de Cs calculado con la muestra.
Intervalos de confianza: Xt Se
t(1- ) Se Sy n
Donde Sy es la desviación estándar de los logaritmos de la muestra, n es el número de datos y se encuentra tabulado en función de Cs y Tr.
120
Estadística aplicada
Mgt. Cleto De La Torre Dueñas
Cuadro : Precipitacion Maxima en 24 horas (mm) - Estacion Granja Kayra Año
Max
1964
23.0
1965
31.4
1966
38.0
1967
42.1
1968
21.6
1969
25.1
1970
44.8
1971
36.1
1972
36.6
1973
28.4
1974
22.8
1975
25.0
1976
20.0
1977
33.9
1978
27.2
1979
39.0
1980
38.2
1981
40.2
1982
29.6
1983
21.4
1984
36.5
1985
31.2
1986
27.5
1987
42.1
1988
35.2
1989
41.9
1990
26.5
1991
37.6
1992
22.6
1993
48.5 121
Estadística aplicada
Mgt. Cleto De La Torre Dueñas
1994
39.6
1995
34.6
1996
31.3
1997
47.0
1998
35.9
1999
19.3
2000
51.3
2001
31.0
2002
26.7
2003
39.1
2004
30.8
2005
27.8
2006
51.6
2007
32.9
2008
27.9
Caudales máximos instantáneos anuales del río Piura en Puente Sánchez Cerro. Q
Q
Año (m3/s)
Año (m3/s)
1926 860.0
1963 37.0
1927 610.0
1964 33.0
1928 124.0
1965 2500.0
1929 135.0
1966 49.0
1930 95.0
1967 82.0
1931 450.0
1968 21.0
1932 1900.0 1969 180.0 1933 620.0
1970 29.0
1934 438.0
1971 545.0
1935 379.0
1972 1616.0
1936 390.0
1973 845.0
1937 39.0
1974 58.0
1938 508.0
1975 272.0 122